Fugu-MT 論文翻訳(概要): Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths

論文の概要: Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths

arxiv url: http://arxiv.org/abs/2412.08281v1
Date: Wed, 11 Dec 2024 10:56:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.646503
Title: Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths
Title（参考訳）: Lachesis:Reasoning Pathの構造特性を用いたLLM推論精度の予測
Authors: Naryeong Kim, Sungmin Kang, Gabin An, Shin Yoo,
Abstract要約: 自己整合性に基づくLLM推論の予測モデルであるLachesisを紹介する。我々は,最近提案されたLLMに基づく障害局所化手法であるAutoFLを用いて実験的に評価した。結果は、Lachesisが解の正しさを最大0.8136の精度で予測できることを示唆している。
参考スコア（独自算出の注目度）: 12.377041655669728
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models are increasingly used to build agents to perform more complex tasks. As LLMs perform more complicated reasoning through longer interactions, self-consistency, i.e., the idea that the answer obtained from sampling and marginalising a number of multiple independent inferences is more likely to be correct, has received much attention as a simple validation technique. This paper aims to empirically verify this intuitive hypothesis by predicting the correctness of answers obtained using self-consistency from properties of the samples of reasoning paths. We introduce Lachesis, a predictive model for self-consistency based LLM inferences, and empirically evaluate it using AutoFL, a recently proposed LLM-based fault localisation technique, as the target technique that uses self-consistency. Lachesis converts collected reasoning paths from AutoFL using specifically designed reasoning path representations, and trains LSTM and GCN models to predict whether a given set of reasoning paths would result in a correct answer. The results suggest that Lachesis can predict the correctness of answers with a precision of up to 0.8136, highlighting the possibility of training a predictive model that can allow early termination of inferences that are not likely to be successful.
Abstract（参考訳）: より大きな言語モデルは、より複雑なタスクを実行するエージェントを構築するためにますます使われています。 LLMはより長い相互作用、自己整合性、すなわち、複数の独立した推論をサンプリングして切り離すことで得られる答えが正しいという考え方を通じてより複雑な推論を行うので、単純な検証手法として多くの注目を集めている。本稿では, 自己整合性を用いた回答の正しさを推論経路の特性から予測することにより, この直感的仮説を実証的に検証することを目的とする。本稿では, 自己整合性に基づくLLM推論の予測モデルであるLachesisを紹介し, 自己整合性を用いたターゲット手法として, 最近提案された自己整合性に基づく障害局所化手法であるAutoFLを用いて実験的に評価する。 Lachesisは、特別に設計された推論パス表現を使用してAutoFLから収集された推論パスを変換し、LSTMとGCNモデルを訓練して、与えられた推論パスのセットが正しい答えをもたらすかどうかを予測する。結果は、Lachesisが解の正しさを最大0.8136の精度で予測できることを示唆し、成功しそうもない推論の早期終了を可能にする予測モデルを訓練する可能性を強調した。

関連論文リスト

The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
Steamroller Problems: An Evaluation of LLM Reasoning Capability with Automated Theorem Prover Strategies [0.18416014644193066]
GPT4, GPT3.5 TurboおよびGoogleのGeminiモデルの性能をスチームローラー領域の問題に対して評価した。 ATP推論戦略を用いた場合のモデルの性能はワンショットの思考に匹敵することがわかった。
論文参考訳（メタデータ） (2024-07-17T22:49:23Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
A Hypothesis-Driven Framework for the Analysis of Self-Rationalising Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。結果のモデルはGPT-3.5と強い類似性は示さない。今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文参考訳（メタデータ） (2024-02-07T12:26:12Z)
Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。 LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。 GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文参考訳（メタデータ） (2023-11-16T06:22:17Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Faithful Explanations of Black-box NLP Models Using LLM-generated Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。本稿では, 対物近似(CF)の2つの手法を提案する。
論文参考訳（メタデータ） (2023-10-01T07:31:04Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。