論文の概要: CausalAbstain: Enhancing Multilingual LLMs with Causal Reasoning for Trustworthy Abstention
- arxiv url: http://arxiv.org/abs/2506.00519v2
- Date: Tue, 03 Jun 2025 09:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.173015
- Title: CausalAbstain: Enhancing Multilingual LLMs with Causal Reasoning for Trustworthy Abstention
- Title(参考訳): Causal Abstain: 信頼できる留置のための因果推論による多言語LLMの強化
- Authors: Yuxi Sun, Aoqi Zuo, Wei Gao, Jing Ma,
- Abstract要約: 大規模言語モデル (LLM) はしばしば言語間の知識格差を示す。
textitCausalAbstain は LLM が複数のフィードバック応答を利用するかどうかを判断するのに役立つ手法である。
textitCausalAbstainは有用なフィードバックを効果的に選択し、解釈可能性による禁忌決定を強化する。
- 参考スコア(独自算出の注目度): 9.76878200328024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often exhibit knowledge disparities across languages. Encouraging LLMs to \textit{abstain} when faced with knowledge gaps is a promising strategy to reduce hallucinations in multilingual settings. Current abstention strategies for multilingual scenarios primarily rely on generating feedback in various languages using LLMs and performing self-reflection. However, these methods can be adversely impacted by inaccuracies and biases in the generated feedback. To address this, from a causal perspective, we introduce \textit{CausalAbstain}, a method that helps LLMs determine whether to utilize multiple generated feedback responses and how to identify the most useful ones. Extensive experiments demonstrate that \textit{CausalAbstain} effectively selects helpful feedback and enhances abstention decisions with interpretability in both native language (\textsc{Casual-native}) and multilingual (\textsc{Causal-multi}) settings, outperforming strong baselines on two benchmark datasets covering encyclopedic and commonsense knowledge QA tasks. Our code and data are open-sourced at https://github.com/peachch/CausalAbstain.
- Abstract(参考訳): 大規模言語モデル (LLM) はしばしば言語間の知識格差を示す。
知識ギャップに直面すると LLM を \textit{abstain} に拡張することは、多言語設定における幻覚を減らすための有望な戦略である。
多言語シナリオに対する現在の禁忌戦略は、主にLLMを使用して様々な言語でフィードバックを生成し、自己回帰を実行することに依存している。
しかし、これらの手法は、生成されたフィードバックの不正確さやバイアスによって悪影響を及ぼす可能性がある。
因果的観点から、複数のフィードバック応答を利用するか、最も有用な応答をどう識別するかをLCMが判断するのに役立つ方法である。
広範にわたる実験によると、 \textit{CausalAbstain} は有効なフィードバックを効果的に選択し、ネイティブ言語 (\textsc{Casual-native}) とマルチリンガル (\textsc{Causal-multi}) 設定の両方で解釈可能性のある禁断決定を強化する。
私たちのコードとデータはhttps://github.com/peachch/CausalAbstain.comでオープンソース化されています。
関連論文リスト
- Simulating LLM-to-LLM Tutoring for Multilingual Math Feedback [11.889826908536941]
大規模言語モデル(LLM)を用いた多言語チューター-学生間相互作用の大規模シミュレーションについて述べる。
より強いモデルは教師の役割を担い、ヒントの形でフィードバックを生成し、弱いモデルは生徒をシミュレートする。
本研究では,学生の入力言語,教師のフィードバック言語,モデル選択,言語資源レベルがパフォーマンスにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-06-05T11:53:04Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - On the Consistency of Multilingual Context Utilization in Retrieval-Augmented Generation [7.478369203246005]
大規模言語モデル(LLM)を用いた検索言語拡張生成(RAG)は,多言語質問応答タスクにおいて高い性能を示した。
多言語RAGでは、検索されたパスは、ユーザが入力したクエリ以外の言語で書くことができる。
論文 参考訳(メタデータ) (2025-04-01T09:55:23Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Teaching LLMs to Abstain across Languages via Multilingual Feedback [40.84205285309612]
多言語フィードバックは,多様な言語,文化,コミュニティ間の知識ギャップを識別する上で有効であることを示す。
大規模な実験により、多言語フィードバックアプローチは、様々な強いベースラインよりも優れていることが示された。
さらに分析したところ、多言語フィードバックは多言語話者に役立てるための効果的かつ公平な回避戦略であることがわかった。
論文 参考訳(メタデータ) (2024-06-22T21:59:12Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。