論文の概要: Towards AGI in Computer Vision: Lessons Learned from GPT and Large
Language Models
- arxiv url: http://arxiv.org/abs/2306.08641v1
- Date: Wed, 14 Jun 2023 17:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:59:33.213971
- Title: Towards AGI in Computer Vision: Lessons Learned from GPT and Large
Language Models
- Title(参考訳): コンピュータビジョンにおけるAGIに向けて: GPTと大規模言語モデルから学ぶ
- Authors: Lingxi Xie, Longhui Wei, Xiaopeng Zhang, Kaifeng Bi, Xiaotao Gu,
Jianlong Chang, Qi Tian
- Abstract要約: 大規模言語モデル(LLM)を利用したチャットシステムが出現し、人工知能(AGI)を実現するための有望な方向へと急速に成長する
しかし、コンピュータビジョン(CV)におけるAGIへの道のりは未だに不明である。
CVアルゴリズムを世界規模で対話可能な環境に配置し、その動作に関する将来のフレームを予測するための事前トレーニングを行い、さまざまなタスクをこなすための命令で微調整するパイプラインを想像する。
- 参考スコア(独自算出の注目度): 98.72986679502871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The AI community has been pursuing algorithms known as artificial general
intelligence (AGI) that apply to any kind of real-world problem. Recently, chat
systems powered by large language models (LLMs) emerge and rapidly become a
promising direction to achieve AGI in natural language processing (NLP), but
the path towards AGI in computer vision (CV) remains unclear. One may owe the
dilemma to the fact that visual signals are more complex than language signals,
yet we are interested in finding concrete reasons, as well as absorbing
experiences from GPT and LLMs to solve the problem. In this paper, we start
with a conceptual definition of AGI and briefly review how NLP solves a wide
range of tasks via a chat system. The analysis inspires us that unification is
the next important goal of CV. But, despite various efforts in this direction,
CV is still far from a system like GPT that naturally integrates all tasks. We
point out that the essential weakness of CV lies in lacking a paradigm to learn
from environments, yet NLP has accomplished the task in the text world. We then
imagine a pipeline that puts a CV algorithm (i.e., an agent) in world-scale,
interactable environments, pre-trains it to predict future frames with respect
to its action, and then fine-tunes it with instruction to accomplish various
tasks. We expect substantial research and engineering efforts to push the idea
forward and scale it up, for which we share our perspectives on future research
directions.
- Abstract(参考訳): AIコミュニティは、どんな現実世界の問題にも適用される人工知能(AGI)と呼ばれるアルゴリズムを追求してきた。
近年,大規模言語モデル(LLM)を利用したチャットシステムが出現し,自然言語処理(NLP)におけるAGIの実現に向けて急速に進んでいるが,コンピュータビジョン(CV)におけるAGIへの道のりはいまだ不明である。
ディレンマは、視覚信号が言語信号よりも複雑であることに起因するかも知れませんが、具体的な理由の発見や、gptやllmからの経験を吸収して問題を解決することに関心があります。
本稿では、AGIの概念定義から始め、NLPがチャットシステムを介して広範囲のタスクをどのように解決するかを簡単にレビューする。
この分析は、統合がCVの次の重要な目標であることを示している。
しかし、この方向への様々な取り組みにもかかわらず、CVは、すべてのタスクを自然に統合するGPTのようなシステムからはまだ遠い。
CVの本質的な弱点は、環境から学ぶためのパラダイムが欠如していることが指摘されているが、NLPはテキストの世界においてその課題を達成している。
次に、CVアルゴリズム(つまりエージェント)を世界規模で対話可能な環境に配置し、その動作に関する将来のフレームを予測するために事前訓練し、様々なタスクをこなすための命令で微調整するパイプラインを想像する。
私たちは、このアイデアを前進させ、それをスケールアップするために、かなりの研究とエンジニアリングの努力を期待しています。
関連論文リスト
- ChatGPT Alternative Solutions: Large Language Models Survey [0.0]
大規模言語モデル(LLM)はこの領域における研究貢献の急増に火をつけた。
近年、学術と産業のダイナミックな相乗効果が見られ、LLM研究の分野を新たな高地へと押し上げた。
この調査は、ジェネレーティブAIの現状をよく理解し、さらなる探索、強化、イノベーションの機会に光を当てている。
論文 参考訳(メタデータ) (2024-03-21T15:16:50Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - Core Challenges in Embodied Vision-Language Planning [11.896110519868545]
Embodied Vision-Language Planningタスクは、物理的な環境でのインタラクションにコンピュータビジョンと自然言語を活用する。
我々はこれらのタスクを統一する分類法を提案し、現在および新しいアルゴリズムアプローチの分析と比較を行う。
我々は,モデル汎用性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2023-04-05T20:37:13Z) - Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。
本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (2022-03-03T18:54:59Z) - Core Challenges in Embodied Vision-Language Planning [9.190245973578698]
本稿では,エボディード・ビジョン・ランゲージ・プランニング(Embodied Vision-Language Planning)タスクについて論じる。
我々はこれらのタスクを統一する分類法を提案し、新しいアルゴリズムアプローチと現在のアルゴリズムアプローチの分析と比較を行う。
我々は,モデル一般化性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2021-06-26T05:18:58Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。