論文の概要: LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and
the Importance of Object-based Representations
- arxiv url: http://arxiv.org/abs/2305.18354v2
- Date: Wed, 14 Feb 2024 21:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:51:14.022295
- Title: LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and
the Importance of Object-based Representations
- Title(参考訳): llmと抽象化と推論コーパス : 成功、失敗、およびオブジェクト指向表現の重要性
- Authors: Yudong Xu, Wenhao Li, Pashootan Vaezipoor, Scott Sanner, Elias B.
Khalil
- Abstract要約: GPT-4 は 1D-ARC や単純な ARC サブセットのような非言語領域で完全に「推論」できないことを示す。
本稿では,外部ツールから得られるオブジェクトベース表現を提案する。これにより,解決されたARCタスクのパフォーマンスがほぼ倍増し,より簡単な1D-ARC上でのほぼ完璧なスコアが得られた。
- 参考スコア(独自算出の注目度): 50.431003245201644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can a Large Language Model (LLM) solve simple abstract reasoning problems? We
explore this broad question through a systematic analysis of GPT on the
Abstraction and Reasoning Corpus (ARC), a representative benchmark of abstract
reasoning ability from limited examples in which solutions require some "core
knowledge" of concepts such as objects, goal states, counting, and basic
geometry. GPT-4 solves only 13/50 of the most straightforward ARC tasks when
using textual encodings for their two-dimensional input-output grids. Our
failure analysis reveals that GPT-4's capacity to identify objects and reason
about them is significantly influenced by the sequential nature of the text
that represents an object within a text encoding of a task. To test this
hypothesis, we design a new benchmark, the 1D-ARC, which consists of
one-dimensional (array-like) tasks that are more conducive to GPT-based
reasoning, and where it indeed performs better than on the (2D) ARC. To
alleviate this issue, we propose an object-based representation that is
obtained through an external tool, resulting in nearly doubling the performance
on solved ARC tasks and near-perfect scores on the easier 1D-ARC. Although the
state-of-the-art GPT-4 is unable to "reason" perfectly within non-language
domains such as the 1D-ARC or a simple ARC subset, our study reveals that the
use of object-based representations can significantly improve its reasoning
ability. Visualizations, GPT logs, and data are available at
https://khalil-research.github.io/LLM4ARC.
- Abstract(参考訳): 大言語モデル(LLM)は単純な抽象的推論問題を解くことができるか?
本稿では,抽象・推論コーパス(ARC)におけるGPTの体系的解析を通じて,対象,目標状態,カウント,基本幾何学といった概念の「中核的な知識」を必要とする限定例から,抽象推論能力の代表的なベンチマークである。
GPT-4は、2次元の入力出力グリッドに対してテキストエンコーディングを使用する場合、最も簡単なARCタスクの13/50しか解決しない。
故障解析の結果,GPT-4のオブジェクトを識別する能力は,タスクのテキストエンコーディング内のオブジェクトを表すテキストのシーケンシャルな性質に大きく影響されていることが明らかとなった。
この仮説を検証するために、GPTに基づく推論よりも1次元(アレイのような)タスクで構成された新しいベンチマークである1D-ARCを設計し、実際は(2D)ARCよりも優れた性能を発揮する。
この問題を軽減するために,外部ツールによるオブジェクトベース表現を提案し,解決されたarcタスクのパフォーマンスと,より簡単な1d-arcでのほぼ完全なスコアをほぼ倍増させる。
最先端の GPT-4 は 1D-ARC や単純な ARC サブセットのような非言語領域で完全に「推論」できないが,オブジェクトベース表現の使用は推論能力を大幅に向上させることができる。
可視化、GPTログ、データはhttps://khalil-research.github.io/LLM4ARCで公開されている。
関連論文リスト
- Tackling the Abstraction and Reasoning Corpus with Vision Transformers: the Importance of 2D Representation, Positions, and Objects [31.926206783846144]
視覚変換器(ViT)は、タスク毎に100万のサンプルをトレーニングしても、ほとんどのARCタスクで劇的に失敗することを示す。
ARCに必要な視覚的推論能力のいくつかを解放する,ViTARC スタイルのアーキテクチャを提案する。
タスク固有のViTARCモデルは、400のパブリックARCタスクの半数以上において、100%に近い確率で解決できる。
論文 参考訳(メタデータ) (2024-10-08T22:25:34Z) - Intelligence Analysis of Language Models [0.0]
本研究では,Large Language Models (LLMs) の Abstraction and Reasoning Corpus (ARC) データセットに対する有効性を検証する。
このデータセットは、抽象推論能力をテストするための代表的なベンチマークとして機能する。
モデル性能向上におけるChain-of-Thought(CoT)手法の適用性を検討した。
論文 参考訳(メタデータ) (2024-07-20T13:48:16Z) - Generalized Planning for the Abstraction and Reasoning Corpus [10.377424252002795]
GPAR(Generalized Planning for Abstract Reasoning)を提案する。
ARC問題を一般化計画(GP)問題とみなし、解はポインタを持つ計画プログラムとして形式化される。
本稿では,行動モデル,述語,議論,計画プログラムの有効な構造に対する制約という形で,ARC特有のドメイン知識を用いてGPソルバをスケールアップする方法を示す。
論文 参考訳(メタデータ) (2024-01-15T02:25:00Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - An Approach to Solving the Abstraction and Reasoning Corpus (ARC)
Challenge [0.0]
GPT4プロンプトは、任意のタスクを実行するために即座にエンジニアリングされるように設計されている。
我々は、ARCタスクを解くための典型的な手順とともに、テキストを介して、そのモデルにいくつかの人間の事前情報を与える。
過去の記憶を生かしたマルチエージェントシステムに拡張し、Visual Question Answeringによる画像解釈ツールを装備すれば、ARCの課題の大部分を実際に解決できるかもしれないと仮定する。
論文 参考訳(メタデータ) (2023-06-06T10:08:12Z) - Graphs, Constraints, and Search for the Abstraction and Reasoning Corpus [19.27379168184259]
ARC(Abstraction and Reasoning Corpus)は、汎用人工知能アルゴリズムのパフォーマンスをベンチマークすることを目的としている。
ARCは広範な一般化と少数ショットの学習に重点を置いているため、純粋な機械学習を使って解決することは不可能である。
本稿では,グラフを用いた画像の表現と,正しいプログラムの検索を行う新しいオブジェクト中心のフレームワークである,グラフ抽象化を用いた抽象推論を提案する。
論文 参考訳(メタデータ) (2022-10-18T14:13:43Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z) - Instance-aware, Context-focused, and Memory-efficient Weakly Supervised
Object Detection [184.563345153682]
我々は、弱教師付き学習のためのインスタンス認識とコンテキスト重視の統合フレームワークを開発する。
メモリ効率の高いシーケンシャルバッチバックプロパゲーションを考案しながら、インスタンス対応の自己学習アルゴリズムと学習可能なコンクリートドロップブロックを採用している。
提案手法はCOCO(12.1% AP$、24.8% AP_50$)、VOC 2007(54.9% AP$)、VOC 2012(52.1% AP$)の最先端結果である。
論文 参考訳(メタデータ) (2020-04-09T17:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。