論文の概要: MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness
- arxiv url: http://arxiv.org/abs/2504.21773v1
- Date: Wed, 30 Apr 2025 16:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 17:53:19.688343
- Title: MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness
- Title(参考訳): MAC-Tuning:LLM多相問題推論と知識境界認識の強化
- Authors: Junsheng Huang, Zhitao He, Sandeep Polisetty, Qingyun Wang, May Fung,
- Abstract要約: 本稿では,命令データの微調整における回答予測と信頼度推定の学習を分離する新しい手法であるMAC-Tuningを提案する。
提案手法は, 平均精度でベースラインを最大25%向上させる。
- 参考スコア(独自算出の注目度): 1.5601146551243388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread application of large language models (LLMs), the issue of generating non-existing facts, known as hallucination, has garnered increasing attention. Previous research in enhancing LLM confidence estimation mainly focuses on the single problem setting. However, LLM awareness of its internal parameterized knowledge boundary under the more challenging multi-problem setting, which requires answering multiple problems accurately simultaneously, remains underexplored. To bridge this gap, we introduce a novel method, Multiple Answers and Confidence Stepwise Tuning (MAC-Tuning), that separates the learning of answer prediction and confidence estimation during fine-tuning on instruction data. Extensive experiments demonstrate that our method outperforms baselines by up to 25% in average precision.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及に伴い、幻覚として知られる既存の事実を生成するという課題が注目されている。
LLMの信頼性評価の強化に関するこれまでの研究は、主に単一問題設定に焦点を当てていた。
しかし、LLMは、複数の問題を正確に同時に解くことを必要とするより困難なマルチプロブレム設定の下で、その内部パラメータ化された知識境界に対する認識は未定のままである。
このギャップを埋めるために,提案手法であるMAC-Tuning(Multiple Answers and Confidence Stepwise Tuning)を導入する。
実験の結果,提案手法は平均精度で最大25%の精度でベースラインより優れていた。
関連論文リスト
- Evaluating and Calibrating LLM Confidence on Questions with Multiple Correct Answers [11.832359446987551]
既存のトレーニングフリー手法は,複数の有効な回答が存在する場合に故障することを示す。
本稿では,複数の高確率サンプル応答に対する信頼を集約するセマンティック信頼集約(SCA)を提案する。
SCAは、単一質問に対する強いキャリブレーションを維持しながら、混合回答設定下での最先端のキャリブレーション性能を達成する。
論文 参考訳(メタデータ) (2026-02-08T07:03:27Z) - Fine-Tuning vs. RAG for Multi-Hop Question Answering with Novel Knowledge [7.716590111773082]
オープンドメイン型マルチホップ質問応答におけるパラメトリックおよび非パラメトリック知識注入法の比較を行った。
教師なしの微調整,教師なしの微調整,検索強化生成の評価を行った。
検索増強世代は、時間的に新しい情報に依存する質問に答えるときに、実質的で一貫した改善をもたらす。
論文 参考訳(メタデータ) (2026-01-11T20:24:25Z) - Robust Uncertainty Quantification for Factual Generation of Large Language Models [22.060021788289202]
大規模言語モデル(LLM)技術は、プロや日常生活の様々な領域への統合を促進する。
LLM幻覚の永続的な課題は、AI生成コンテンツの信頼性と信頼性を著しく損なう重要な限界として現れている。
本研究では,複数の事象を発生させるタスクにおける不確実な定量化シナリオを提案する。
論文 参考訳(メタデータ) (2026-01-01T14:06:58Z) - Beware of Reasoning Overconfidence: Pitfalls in the Reasoning Process for Multi-solution Tasks [54.31998314008198]
大きな言語モデル(LLM)は、単一の正しい答えを必要とするタスクの推論において優れているが、マルチソリューションタスクでは不十分である。
我々はこの制限を、不完全解集合における不完全確実性を表現する傾向という、不確実な過信(textbfreasoning overconfidence)に起因している。
この仮説は, 思考経路の狭いセットに早急に収束すると, 過信が生じることを示唆するものである。
論文 参考訳(メタデータ) (2025-12-01T14:35:06Z) - Can Multiple Responses from an LLM Reveal the Sources of Its Uncertainty? [11.309445539128733]
大規模言語モデル(LLM)は、さまざまな領域で大きなブレークスルーをもたらしたが、信頼できない、あるいは誤解を招くアウトプットを生成することができる。
LLMが不確実である場合、その多重応答間の不一致パターンには、不確実性の根本原因に関する深い手がかりが含まれていることが示される。
論文 参考訳(メタデータ) (2025-08-28T20:14:35Z) - ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models [70.33764118171463]
大きな言語モデル(LLM)は、解決不可能な問題やその能力を超える問題に直面した時に、信頼できない応答を作る傾向があります。
我々はオープンソースの解決可能問題と高品質の未解決問題を含むReliableMathデータセットを開発した。
LLMは解決不可能な問題を直接特定できず、常に生成された応答を生成する。
論文 参考訳(メタデータ) (2025-07-03T19:19:44Z) - MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration [2.1824579248418017]
本稿では,MLLMの知識境界認識を促進する新しいフレームワークMMBoundaryを提案する。
教師付き微調整に加えて,モデル知識の整合性を高めるために,複数の報酬関数を持つ強化学習ステージを導入する。
経験的な結果から、MMBoundaryはさまざまなドメインデータセットやメトリクスで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-05-29T08:14:40Z) - Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding [48.92310906093414]
マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。
マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。
医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-30T19:19:21Z) - Accommodate Knowledge Conflicts in Retrieval-augmented LLMs: Towards Reliable Response Generation in the Wild [11.058848731627233]
大規模言語モデル (LLM) には高度な情報検索システムがある。
LLMは、しばしば内部記憶と検索された外部情報の間の知識の衝突に直面している。
スウィンVIBは,変分情報ボトルネックモデルのパイプラインを,検索した情報の適応的拡張に統合する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-04-17T14:40:31Z) - Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception [58.62352010928591]
大きな言語モデル(LLM)は様々なタスクにまたがって優れたパフォーマンスを示すが、しばしば知識境界を正確に測定するのに苦労する。
本稿では,LLMの内部状態を有効利用して,効率性やリスクの観点から知識境界に対する認識を高める方法について検討する。
論文 参考訳(メタデータ) (2025-02-17T11:11:09Z) - Enhancing Multi-Agent Consensus through Third-Party LLM Integration: Analyzing Uncertainty and Mitigating Hallucinations in Large Language Models [1.4582633500696451]
大きな言語モデル(LLM)は、複雑な推論タスクを扱う際にも問題に直面します。
本稿では,知識境界を拡張するために異なるLSMを統合する新しい手法を提案する。
算術的データセットの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-11-25T08:42:33Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Do LLMs estimate uncertainty well in instruction-following? [9.081508933326644]
大規模言語モデル(LLM)は、ユーザ指示に従うことができるため、さまざまなドメインにわたるパーソナルAIエージェントとして価値のあるものになり得る。
命令追従の文脈におけるLCMの不確実性推定能力の最初の体系的評価について述べる。
以上の結果から,既存の不確実性手法は,特にモデルが後続の命令で微妙な誤りを犯した場合に困難であることがわかった。
論文 参考訳(メタデータ) (2024-10-18T16:32:10Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。
これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。
また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。
LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文 参考訳(メタデータ) (2024-06-03T01:32:52Z) - Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback [14.120154004011084]
LLM(Large Language Models)はしばしば幻覚と呼ばれる誤った出力を生成する。
知識フィードバックによる強化学習(Reinforcement Learning from Knowledge Feedback, RLKF)と呼ばれる新しいアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T08:39:56Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。