論文の概要: Benchmarking and Understanding Compositional Relational Reasoning of LLMs
- arxiv url: http://arxiv.org/abs/2412.12841v1
- Date: Tue, 17 Dec 2024 12:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:32.987126
- Title: Benchmarking and Understanding Compositional Relational Reasoning of LLMs
- Title(参考訳): LLMの構成関係推論のベンチマークと理解
- Authors: Ruikang Ni, Da Xiao, Qingye Meng, Xiangyu Li, Shihui Zheng, Hongliang Liang,
- Abstract要約: 我々はまず、Generalized Associative Recall (GAR)と呼ばれる新しい合成ベンチマークを提案する。
評価は、GARが既存のLLMにとって十分困難であることを示し、CRRの基本的な欠陥を明らかにしている。
次に、属性パッチを用いて、Vicuna-33Bで再利用されたコア回路の様々なタスクと重要な注意点のセットを発見する。
- 参考スコア(独自算出の注目度): 1.915591735124465
- License:
- Abstract: Compositional relational reasoning (CRR) is a hallmark of human intelligence, but we lack a clear understanding of whether and how existing transformer large language models (LLMs) can solve CRR tasks. To enable systematic exploration of the CRR capability of LLMs, we first propose a new synthetic benchmark called Generalized Associative Recall (GAR) by integrating and generalizing the essence of several tasks in mechanistic interpretability (MI) study in a unified framework. Evaluation shows that GAR is challenging enough for existing LLMs, revealing their fundamental deficiency in CRR. Meanwhile, it is easy enough for systematic MI study. Then, to understand how LLMs solve GAR tasks, we use attribution patching to discover the core circuits reused by Vicuna-33B across different tasks and a set of vital attention heads. Intervention experiments show that the correct functioning of these heads significantly impacts task performance. Especially, we identify two classes of heads whose activations represent the abstract notion of true and false in GAR tasks respectively. They play a fundamental role in CRR across various models and tasks. The dataset and code are available at https://github.com/Caiyun-AI/GAR.
- Abstract(参考訳): 合成関係推論(CRR)は人間の知能の指標であるが、既存の変換言語モデル(LLM)がCRRの課題をどう解決できるか、またどのようにして解決できるかを明確には理解していない。
LLMのCRR能力の体系的な探索を可能にするために,我々はまず,統一されたフレームワークを用いた機械的解釈可能性(MI)研究におけるいくつかのタスクの本質の統合と一般化により,一般連想リコール(Generalized Associative Recall, GAR)と呼ばれる新しい合成ベンチマークを提案する。
評価は、GARが既存のLLMにとって十分困難であることを示し、CRRの基本的な欠陥を明らかにしている。
一方、系統的なMI研究には十分容易である。
次に、LCMがGARタスクの解決方法を理解するために、Vicuna-33Bが再利用したコア回路の発見に属性パッチを用いている。
介入実験により、これらのヘッドの正しい動作がタスク性能に大きな影響を及ぼすことが示された。
特に, GARタスクにおいて, アクティベーションが真と偽の抽象的な概念を表す2つの頭部のクラスを同定する。
彼らは様々なモデルやタスクでCRRにおいて基本的な役割を担っている。
データセットとコードはhttps://github.com/Caiyun-AI/GARで公開されている。
関連論文リスト
- Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。
Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文 参考訳(メタデータ) (2024-11-02T09:03:23Z) - LLM The Genius Paradox: A Linguistic and Math Expert's Struggle with Simple Word-based Counting Problems [28.72485319617863]
LLMは、人間が扱いやすいようないくつかの基本的なタスク、例えば単語トラウベリーの文字数rを数えるのに苦労する。
我々は,高度な数学的およびコーディング推論能力の伝達可能性について,特殊なLCMから単純なカウントタスクまでの測定を行う。
微調整や文脈内学習といった戦略と比較すると、係り受け推論はLLMのタスクをより知覚するのに役立つ最も堅牢で効率的な方法であることがわかる。
論文 参考訳(メタデータ) (2024-10-18T04:17:16Z) - Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism [28.751003584429615]
大規模言語モデル(LLM)は、テキスト内学習能力に優れる。
最近の研究は、ICLに関する2つの矛盾する見解を示している。
両ビューを体系的なフレームワークに統合する2次元コーディネートシステムを提供する。
論文 参考訳(メタデータ) (2024-07-24T05:26:52Z) - Self-Retrieval: End-to-End Information Retrieval with One Large Language Model [97.71181484082663]
本稿では,新たなLLM駆動情報検索アーキテクチャであるSelf-Retrievalを紹介する。
自己検索は、自己教師付き学習を通じて検索コーパスを内部化し、検索プロセスをシーケンシャルな通過生成に変換し、再ランク付けのための関連性評価を行う。
論文 参考訳(メタデータ) (2024-02-23T18:45:35Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z) - Search-in-the-Chain: Interactively Enhancing Large Language Models with
Search for Knowledge-intensive Tasks [121.74957524305283]
本稿では、情報検索(IR)とLarge Language Model(LLM)のインタラクションのための、textbfSearch-in-the-Chain(SearChain)という新しいフレームワークを提案する。
実験の結果、SearChainは複雑な知識集約タスクにおける最先端のベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-28T10:15:25Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。