論文の概要: Benchmarking and Understanding Compositional Relational Reasoning of LLMs
- arxiv url: http://arxiv.org/abs/2412.12841v1
- Date: Tue, 17 Dec 2024 12:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:32.987126
- Title: Benchmarking and Understanding Compositional Relational Reasoning of LLMs
- Title(参考訳): LLMの構成関係推論のベンチマークと理解
- Authors: Ruikang Ni, Da Xiao, Qingye Meng, Xiangyu Li, Shihui Zheng, Hongliang Liang,
- Abstract要約: 我々はまず、Generalized Associative Recall (GAR)と呼ばれる新しい合成ベンチマークを提案する。
評価は、GARが既存のLLMにとって十分困難であることを示し、CRRの基本的な欠陥を明らかにしている。
次に、属性パッチを用いて、Vicuna-33Bで再利用されたコア回路の様々なタスクと重要な注意点のセットを発見する。
- 参考スコア(独自算出の注目度): 1.915591735124465
- License:
- Abstract: Compositional relational reasoning (CRR) is a hallmark of human intelligence, but we lack a clear understanding of whether and how existing transformer large language models (LLMs) can solve CRR tasks. To enable systematic exploration of the CRR capability of LLMs, we first propose a new synthetic benchmark called Generalized Associative Recall (GAR) by integrating and generalizing the essence of several tasks in mechanistic interpretability (MI) study in a unified framework. Evaluation shows that GAR is challenging enough for existing LLMs, revealing their fundamental deficiency in CRR. Meanwhile, it is easy enough for systematic MI study. Then, to understand how LLMs solve GAR tasks, we use attribution patching to discover the core circuits reused by Vicuna-33B across different tasks and a set of vital attention heads. Intervention experiments show that the correct functioning of these heads significantly impacts task performance. Especially, we identify two classes of heads whose activations represent the abstract notion of true and false in GAR tasks respectively. They play a fundamental role in CRR across various models and tasks. The dataset and code are available at https://github.com/Caiyun-AI/GAR.
- Abstract(参考訳): 合成関係推論(CRR)は人間の知能の指標であるが、既存の変換言語モデル(LLM)がCRRの課題をどう解決できるか、またどのようにして解決できるかを明確には理解していない。
LLMのCRR能力の体系的な探索を可能にするために,我々はまず,統一されたフレームワークを用いた機械的解釈可能性(MI)研究におけるいくつかのタスクの本質の統合と一般化により,一般連想リコール(Generalized Associative Recall, GAR)と呼ばれる新しい合成ベンチマークを提案する。
評価は、GARが既存のLLMにとって十分困難であることを示し、CRRの基本的な欠陥を明らかにしている。
一方、系統的なMI研究には十分容易である。
次に、LCMがGARタスクの解決方法を理解するために、Vicuna-33Bが再利用したコア回路の発見に属性パッチを用いている。
介入実験により、これらのヘッドの正しい動作がタスク性能に大きな影響を及ぼすことが示された。
特に, GARタスクにおいて, アクティベーションが真と偽の抽象的な概念を表す2つの頭部のクラスを同定する。
彼らは様々なモデルやタスクでCRRにおいて基本的な役割を担っている。
データセットとコードはhttps://github.com/Caiyun-AI/GARで公開されている。
関連論文リスト
- ARR: Question Answering with Large Language Models via Analyzing, Retrieving, and Reasoning [22.825527641316192]
大規模言語モデル(LLM)は、複数選択質問応答(QA)タスクとして構成された挑戦的なベンチマークにおいて、顕著なパフォーマンスを達成する。
本稿では,QA解決における3つの重要なステップを明示的に組み込んだ直感的で効果的なゼロショットプロンプト手法であるARRを紹介した。
論文 参考訳(メタデータ) (2025-02-07T06:30:33Z) - Unveiling In-Context Learning: A Coordinate System to Understand Its Working Mechanism [28.751003584429615]
大規模言語モデル(LLM)は、テキスト内学習能力に優れる。
最近の研究は、ICLに関する2つの矛盾する見解を示している。
両ビューを体系的なフレームワークに統合する2次元コーディネートシステムを提供する。
論文 参考訳(メタデータ) (2024-07-24T05:26:52Z) - Self-Retrieval: End-to-End Information Retrieval with One Large Language Model [97.71181484082663]
本稿では,新たなLLM駆動情報検索アーキテクチャであるSelf-Retrievalを紹介する。
自己検索は、自己教師付き学習を通じて検索コーパスを内部化し、検索プロセスをシーケンシャルな通過生成に変換し、再ランク付けのための関連性評価を行う。
論文 参考訳(メタデータ) (2024-02-23T18:45:35Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Disentangled Latent Spaces Facilitate Data-Driven Auxiliary Learning [14.677411619418319]
補助的なタスクは、データが乏しい、あるいは焦点の主タスクが極めて複雑である状況での学習を容易にする。
Detauxと呼ばれる新しいフレームワークを提案する。このフレームワークでは,非関連性のある新たな補助的分類タスクを見つけるために,弱い教師付き逆絡手順が使用される。
我々は、最も不整合な部分空間上のクラスタリング手順によって補助的な分類タスクを生成し、ラベルの離散的な集合を得る。
論文 参考訳(メタデータ) (2023-10-13T17:40:39Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Prompting Large Language Models for Counterfactual Generation: An
Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。
本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:44:32Z) - Search-in-the-Chain: Interactively Enhancing Large Language Models with
Search for Knowledge-intensive Tasks [121.74957524305283]
本稿では、情報検索(IR)とLarge Language Model(LLM)のインタラクションのための、textbfSearch-in-the-Chain(SearChain)という新しいフレームワークを提案する。
実験の結果、SearChainは複雑な知識集約タスクにおける最先端のベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-28T10:15:25Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。