論文の概要: Abstract Visual Reasoning Enabled by Language
- arxiv url: http://arxiv.org/abs/2303.04091v3
- Date: Thu, 22 Jun 2023 10:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 17:33:39.769919
- Title: Abstract Visual Reasoning Enabled by Language
- Title(参考訳): 言語による抽象的視覚的推論
- Authors: Giacomo Camposampiero, Loic Houmard, Benjamin Estermann, Jo\"el
Mathys, Roger Wattenhofer
- Abstract要約: ARCを解くための一般学習型フレームワークを提案する。
タスクをビジョンから言語領域に変換することに集中しています。
言語と視覚のこの構成により、各段階で事前訓練されたモデルを利用することができる。
- 参考スコア(独自算出の注目度): 8.627180519837657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While artificial intelligence (AI) models have achieved human or even
superhuman performance in many well-defined applications, they still struggle
to show signs of broad and flexible intelligence. The Abstraction and Reasoning
Corpus (ARC), a visual intelligence benchmark introduced by Fran\c{c}ois
Chollet, aims to assess how close AI systems are to human-like cognitive
abilities. Most current approaches rely on carefully handcrafted
domain-specific program searches to brute-force solutions for the tasks present
in ARC. In this work, we propose a general learning-based framework for solving
ARC. It is centered on transforming tasks from the vision to the language
domain. This composition of language and vision allows for pre-trained models
to be leveraged at each stage, enabling a shift from handcrafted priors towards
the learned priors of the models. While not yet beating state-of-the-art models
on ARC, we demonstrate the potential of our approach, for instance, by solving
some ARC tasks that have not been solved previously.
- Abstract(参考訳): 人工知能(AI)モデルは、よく定義された多くのアプリケーションで人間や超人的なパフォーマンスを達成したが、広範かつ柔軟な知性を示すのに苦戦している。
Fran\c{c}ois Chollet氏が導入したビジュアルインテリジェンスベンチマークであるARC(Abstraction and Reasoning Corpus)は、AIシステムが人間のような認知能力にどの程度近いかを評価することを目的としている。
現在のほとんどのアプローチは、ARCに存在するタスクのブルートフォースソリューションに対して、慎重に手作りのドメイン固有プログラム検索に依存している。
本研究では,ARCを解くための一般学習型フレームワークを提案する。
タスクをビジョンから言語領域に変換することに集中しています。
言語とビジョンのこの構成により、事前訓練されたモデルが各ステージで活用され、手作りの先行モデルから学習された先行モデルへの移行が可能になる。
ARCの最先端モデルにはまだ勝っていないが、例えば、これまで解決されていないARCタスクを解くことで、我々のアプローチの可能性を実証する。
関連論文リスト
- VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning [86.59849798539312]
本稿では,記号的・神経的知識表現の強みを組み合わせた一階抽象言語Neuro-Symbolic Predicatesを提案する。
提案手法は, サンプルの複雑さの向上, 分布外一般化の強化, 解釈可能性の向上を実現する。
論文 参考訳(メタデータ) (2024-10-30T16:11:05Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Neural networks for abstraction and reasoning: Towards broad
generalization in machines [3.165509887826658]
我々は Abstraction & Reasoning Corpus (ARC) を解くための新しいアプローチについて検討する。
本研究では,DreamCoderのニューロシンボリック推論解法をARCに適用する。
我々は、DreamCoderがARCタスクを解くことを可能にするPeARL(Perceptual Abstraction and Reasoning Language)言語を提示する。
ARCに関する今後の研究を容易にするために、arckit Pythonライブラリを公開しています。
論文 参考訳(メタデータ) (2024-02-05T20:48:57Z) - A Survey on Robotics with Foundation Models: toward Embodied AI [30.999414445286757]
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
論文 参考訳(メタデータ) (2024-02-04T07:55:01Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - The ConceptARC Benchmark: Evaluating Understanding and Generalization in
the ARC Domain [0.0]
ARC(Abstraction and Reasoning Corpus)の詳細な評価ベンチマークについて述べる。
特に、ARCドメインで公開された新しいベンチマークであるConceptARCについて説明する。
本ベンチマークでは,3つのマシンソルバとともに,人体実験結果について報告する。
論文 参考訳(メタデータ) (2023-05-11T21:06:39Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。