論文の概要: Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths
- arxiv url: http://arxiv.org/abs/2412.08281v1
- Date: Wed, 11 Dec 2024 10:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:35.587137
- Title: Lachesis: Predicting LLM Inference Accuracy using Structural Properties of Reasoning Paths
- Title(参考訳): Lachesis:Reasoning Pathの構造特性を用いたLLM推論精度の予測
- Authors: Naryeong Kim, Sungmin Kang, Gabin An, Shin Yoo,
- Abstract要約: 自己整合性に基づくLLM推論の予測モデルであるLachesisを紹介する。
我々は,最近提案されたLLMに基づく障害局所化手法であるAutoFLを用いて実験的に評価した。
結果は、Lachesisが解の正しさを最大0.8136の精度で予測できることを示唆している。
- 参考スコア(独自算出の注目度): 12.377041655669728
- License:
- Abstract: Large Language Models are increasingly used to build agents to perform more complex tasks. As LLMs perform more complicated reasoning through longer interactions, self-consistency, i.e., the idea that the answer obtained from sampling and marginalising a number of multiple independent inferences is more likely to be correct, has received much attention as a simple validation technique. This paper aims to empirically verify this intuitive hypothesis by predicting the correctness of answers obtained using self-consistency from properties of the samples of reasoning paths. We introduce Lachesis, a predictive model for self-consistency based LLM inferences, and empirically evaluate it using AutoFL, a recently proposed LLM-based fault localisation technique, as the target technique that uses self-consistency. Lachesis converts collected reasoning paths from AutoFL using specifically designed reasoning path representations, and trains LSTM and GCN models to predict whether a given set of reasoning paths would result in a correct answer. The results suggest that Lachesis can predict the correctness of answers with a precision of up to 0.8136, highlighting the possibility of training a predictive model that can allow early termination of inferences that are not likely to be successful.
- Abstract(参考訳): より大きな言語モデルは、より複雑なタスクを実行するエージェントを構築するためにますます使われています。
LLMはより長い相互作用、自己整合性、すなわち、複数の独立した推論をサンプリングして切り離すことで得られる答えが正しいという考え方を通じてより複雑な推論を行うので、単純な検証手法として多くの注目を集めている。
本稿では, 自己整合性を用いた回答の正しさを推論経路の特性から予測することにより, この直感的仮説を実証的に検証することを目的とする。
本稿では, 自己整合性に基づくLLM推論の予測モデルであるLachesisを紹介し, 自己整合性を用いたターゲット手法として, 最近提案された自己整合性に基づく障害局所化手法であるAutoFLを用いて実験的に評価する。
Lachesisは、特別に設計された推論パス表現を使用してAutoFLから収集された推論パスを変換し、LSTMとGCNモデルを訓練して、与えられた推論パスのセットが正しい答えをもたらすかどうかを予測する。
結果は、Lachesisが解の正しさを最大0.8136の精度で予測できることを示唆し、成功しそうもない推論の早期終了を可能にする予測モデルを訓練する可能性を強調した。
関連論文リスト
- Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Steamroller Problems: An Evaluation of LLM Reasoning Capability with Automated Theorem Prover Strategies [0.18416014644193066]
GPT4, GPT3.5 TurboおよびGoogleのGeminiモデルの性能をスチームローラー領域の問題に対して評価した。
ATP推論戦略を用いた場合のモデルの性能はワンショットの思考に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-07-17T22:49:23Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Learning to Correct for QA Reasoning with Black-box LLMs [37.13135300208977]
我々は,機械学習におけるオープンチャレンジとして,COBB (Correct for improve QA reasoning of Black-Box LLMs)を提案する。
トレーニングされた適応モデルを使用して、オリジナルのブラックボックスLSMのしばしば不完全な推論から正しい推論、または改善された推論へのセック2seqマッピングを実行する。
実験の結果,CoBBは様々なQAベンチマークにおいて推理精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-06-26T18:57:32Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。