論文の概要: Expanding before Inferring: Enhancing Factuality in Large Language Models through Premature Layers Interpolation
- arxiv url: http://arxiv.org/abs/2506.02973v1
- Date: Tue, 03 Jun 2025 15:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.808233
- Title: Expanding before Inferring: Enhancing Factuality in Large Language Models through Premature Layers Interpolation
- Title(参考訳): 推論前の拡張:初期層補間による大規模言語モデルのファクタリティ向上
- Authors: Dingwei Chen, Ziqiang Liu, Feiteng Fang, Chak Tou Leong, Shiwen Ni, Ahmadreza Argha, Hamid Alinejad-Rokny, Min Yang, Chengming Li,
- Abstract要約: 大規模言語モデル(LLM)は、事実的に矛盾した出力を生成し、一般に「幻覚」と呼ばれる。
本稿では, PLI (Premature Layers Interpolation) を提案する。
4つの公開データセットの実験では、ほとんどの場合、PLIは幻覚を効果的に減らし、既存のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 18.976879901235574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate remarkable capabilities in text understanding and generation. However, their tendency to produce factually inconsistent outputs, commonly referred to as ''hallucinations'', remains a critical challenge. Existing approaches, such as retrieval-based and inference-time correction methods, primarily address this issue at the input or output level, often overlooking the intrinsic information refinement process and the role of premature layers. Meanwhile, alignment- and fine-tuning-based methods are resource-intensive. In this paper, we propose PLI (Premature Layers Interpolation), a novel, training-free, and plug-and-play intervention designed to enhance factuality. PLI mitigates hallucinations by inserting premature layers formed through mathematical interpolation with adjacent layers. Inspired by stable diffusion and sampling steps, PLI extends the depth of information processing and transmission in LLMs, improving factual coherence. Experiments on four publicly available datasets demonstrate that PLI effectively reduces hallucinations while outperforming existing baselines in most cases. Further analysis suggests that the success of layer interpolation is closely linked to LLMs' internal mechanisms. To promote reproducibility, we will release our code and data upon acceptance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示す。
しかし、事実的に矛盾するアウトプット(一般に「幻覚」と呼ばれる)を生み出す傾向は、依然として重要な課題である。
検索ベースや推論時間補正といった既存の手法は、主に入力や出力レベルでこの問題に対処し、本質的な情報洗練プロセスや未熟層の役割を見落としていることが多い。
一方、アライメントと微調整に基づく手法はリソース集約である。
本稿では,PLI(Premature Layers Interpolation)を提案する。
PLIは、隣接する層との数学的補間によって形成される未熟な層を挿入することによって幻覚を緩和する。
安定した拡散とサンプリングのステップにインスパイアされたPLIは、LLMにおける情報処理と送信の深さを拡張し、現実のコヒーレンスを改善する。
4つの公開データセットの実験では、ほとんどの場合、PLIは幻覚を効果的に減らし、既存のベースラインを上回ります。
さらなる分析により、層間補間の成功はLLMの内部機構と密接に関連していることが示唆された。
再現性を促進するため、承認されたコードとデータを公開します。
関連論文リスト
- Mitigating Hallucinations via Inter-Layer Consistency Aggregation in Large Vision-Language Models [3.9464481148889354]
層集約(DCLA)による層間整合性を用いた復号化機構を提案する。
提案手法は,従来のレイヤから表現を集約することで動的セマンティック参照を構築し,階層間の一貫性を強制するために意味的に逸脱したレイヤを補正する。
MMEやPOPEのような幻覚ベンチマークの実験では、DCLAはLVLMの信頼性と性能を高めつつ、幻覚を効果的に低減することを示した。
論文 参考訳(メタデータ) (2025-05-18T10:15:42Z) - Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering [5.100085108873068]
本研究では,AttenHScoreと呼ばれる実用的な呼び出し評価指標を提案する。
小さなLMの生成過程における幻覚の蓄積と伝播を計算する。
検出しきい値を動的に調整することにより、大きなLMのより正確なリアルタイム実行を実現する。
論文 参考訳(メタデータ) (2025-05-05T01:45:56Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Lower Layer Matters: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused [44.37155553647802]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて例外的な性能を示している。
時に、期待された出力と事実的に不正確な、あるいは不一致なコンテンツを生成する。
近年の研究では,幻覚誘発モデルとアマチュアモデルとの対比的復号化について検討している。
LOL(Lower Layer Matters)と呼ばれる新しいコントラストデコーディングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-08-16T14:23:59Z) - On-Policy Self-Alignment with Fine-grained Knowledge Feedback for Hallucination Mitigation [47.35777964373532]
幻覚は、大きな言語モデルが応答生成時の知識の境界から逸脱する振る舞いを示すときに起こる。
従来の学習に基づく手法はモデルを微調整しようとするが、非政治的なサンプリングと粗い粒度のフィードバックによって制限される。
RLFHは、LLMが自らの知識境界と自己正しい生成挙動を積極的に探求することを可能にする、政治上の自己調整手法である。
論文 参考訳(メタデータ) (2024-06-18T02:43:49Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。