Fugu-MT 論文翻訳(概要): Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMs

論文の概要: Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMs

arxiv url: http://arxiv.org/abs/2410.20200v1
Date: Sat, 26 Oct 2024 15:09:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.84036
Title: Reasoning or a Semblance of it? A Diagnostic Study of Transitive Reasoning in LLMs
Title（参考訳）: 共振器と連続体 : LLMにおける過渡共振器の診断
Authors: Houman Mehrafarin, Arash Eshghi, Ioannis Konstas,
Abstract要約: 我々は,2つの構成データセット(QASCとBamboogle)で事実を演算することで,LLaMA 2とFlan-T5という2つの大言語モデルの推論能力を評価する。両モデルとも (a) を併用するが, Flan-T5 は LLaMA 2 よりもばらつきが小さい。このことは、モデルが故意に関係のあるデータセットを微調整することで、推移性の理解を深める可能性があることを示唆している。
参考スコア（独自算出の注目度）: 11.805264893752154
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating Large Language Models (LLMs) on reasoning benchmarks demonstrates their ability to solve compositional questions. However, little is known of whether these models engage in genuine logical reasoning or simply rely on implicit cues to generate answers. In this paper, we investigate the transitive reasoning capabilities of two distinct LLM architectures, LLaMA 2 and Flan-T5, by manipulating facts within two compositional datasets: QASC and Bamboogle. We controlled for potential cues that might influence the models' performance, including (a) word/phrase overlaps across sections of test input; (b) models' inherent knowledge during pre-training or fine-tuning; and (c) Named Entities. Our findings reveal that while both models leverage (a), Flan-T5 shows more resilience to experiments (b and c), having less variance than LLaMA 2. This suggests that models may develop an understanding of transitivity through fine-tuning on knowingly relevant datasets, a hypothesis we leave to future work.
Abstract（参考訳）: 推論ベンチマークによる大規模言語モデル (LLM) の評価は、構成的問題を解く能力を示している。しかし、これらのモデルが真の論理的推論に関与しているのか、あるいは答えを生成するために暗黙の手がかりに依存しているのかは分かっていない。本稿では、2つの異なるLLMアーキテクチャであるLLaMA 2とFlan-T5の推移的推論能力について、QASCとBamboogleの2つの構成データセット内で事実を操作することによって検討する。我々は、モデルの性能に影響を及ぼす可能性のある潜在的な手がかりを制御した。 a) 単語/フレーズは、テスト入力のセクション間で重複する。 b)事前訓練又は微調整中のモデル固有の知識 (c)名前付きエンティティ。以上の結果から,両モデルとも有効であることが明らかとなった。 (a) Flan-T5 は実験に対してより弾力性を示す(b,b)。 c) LLaMA 2 よりも分散が小さい。これは、モデルが、未知の関連するデータセットを微調整することで、トランジシティーの理解を深める可能性があることを示唆している。

関連論文リスト

Learning Compact Representations of LLM Abilities via Item Response Theory [35.74367665390977]
大規模言語モデル(LLM)のコンパクト表現の学習方法について検討する。この問題は、与えられたモデルが特定のクエリに正しく答える確率を推定するものである。これらのパラメータを共同で学習するために、モデルとクエリレベルの埋め込みを結合するMixture-of-Experts(MoE)ネットワークを導入する。
論文参考訳（メタデータ） (2025-10-01T12:55:34Z)
I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [79.01538178959726]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。本稿では,潜在離散変数として表される人間の解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-12T01:21:17Z)
Reversal Blessing: Thinking Backward May Outpace Thinking Forward in Multi-choice Questions [51.61404787000037]
言語モデルは、通常左から右へ(L2R)自己回帰因子化を使用する。いくつかのタスクにおいて,テキスト分布の代替因数分解が有用かどうかを検討する。
論文参考訳（メタデータ） (2025-02-25T18:30:25Z)
Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文参考訳（メタデータ） (2024-11-20T17:55:38Z)
Hard to Explain: On the Computational Hardness of In-Distribution Model Interpretation [0.9558392439655016]
機械学習(ML)モデルを解釈する能力はますます不可欠になりつつある。近年の研究では、様々なモデルの意思決定を説明する計算複雑性を研究することにより、解釈可能性について正式に評価することが可能であることが示されている。
論文参考訳（メタデータ） (2024-08-07T17:20:52Z)
Evaluating the Reliability of Self-Explanations in Large Language Models [2.8894038270224867]
このような自己説明の2つのタイプ – 抽出的, 対実的 – を評価した。以上の結果から,これらの自己説明は人間の判断と相関するが,モデルの決定過程を完全に的確に従わないことが明らかとなった。このギャップを橋渡しできるのは, 反実的な説明をLCMに促すことによって, 忠実で, 情報的で, 容易に検証できる結果が得られるからである。
論文参考訳（メタデータ） (2024-07-19T17:41:08Z)
Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-07-18T17:59:27Z)
Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文参考訳（メタデータ） (2024-04-25T10:03:14Z)
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-02-17T05:22:56Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文参考訳（メタデータ） (2024-02-09T07:18:06Z)
Explanation-aware Soft Ensemble Empowers Large Language Model In-context Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文参考訳（メタデータ） (2023-11-13T06:13:38Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文参考訳（メタデータ） (2022-10-04T00:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。