論文の概要: Two Birds with One Stone: Improving Factuality and Faithfulness of LLMs via Dynamic Interactive Subspace Editing
- arxiv url: http://arxiv.org/abs/2506.11088v1
- Date: Thu, 05 Jun 2025 09:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.568941
- Title: Two Birds with One Stone: Improving Factuality and Faithfulness of LLMs via Dynamic Interactive Subspace Editing
- Title(参考訳): 1つの石を持つ2羽の鳥:動的対話型サブスペース編集によるLLMの現実性と忠実性の向上
- Authors: Pengbo Wang, Chaozhuo Li, Chenxu Wang, Liwen Zheng, Litian Zhang, Xi Zhang,
- Abstract要約: 幻覚のカテゴリーは、神経表現において重なり合う部分空間を共有し、同時に緩和する機会を示す。
本研究では,共有アクティベーションサブスペースを編集することで,事実性と忠実性を両立させる統一フレームワークであるSPACEを提案する。
- 参考スコア(独自算出の注目度): 14.719461686073268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs have demonstrated unprecedented capabilities in natural language processing, yet their practical deployment remains hindered by persistent factuality and faithfulness hallucinations. While existing methods address these hallucination types independently, they inadvertently induce performance trade-offs, as interventions targeting one type often exacerbate the other. Through empirical and theoretical analysis of activation space dynamics in LLMs, we reveal that these hallucination categories share overlapping subspaces within neural representations, presenting an opportunity for concurrent mitigation. To harness this insight, we propose SPACE, a unified framework that jointly enhances factuality and faithfulness by editing shared activation subspaces. SPACE establishes a geometric foundation for shared subspace existence through dual-task feature modeling, then identifies and edits these subspaces via a hybrid probe strategy combining spectral clustering and attention head saliency scoring. Experimental results across multiple benchmark datasets demonstrate the superiority of our approach.
- Abstract(参考訳): LLMは、自然言語処理において前例のない能力を示してきたが、その実践的な展開は、持続的な事実と忠実な幻覚によって妨げられている。
既存の方法はこれらの幻覚のタイプを個別に扱うが、あるタイプをターゲットにした介入が他方を悪化させるため、必然的にパフォーマンスのトレードオフを誘発する。
LLMにおける活性化空間力学の実証的および理論的解析を通して、これらの幻覚圏が神経表現において重なり合う部分空間を共有し、同時に緩和する機会を提示することを明らかにする。
この知見を活用するために,共有アクティベーションサブスペースを編集することで,事実性と忠実性を両立させる統一的なフレームワークであるSPACEを提案する。
SPACEは、デュアルタスク特徴モデリングを通じて共有サブスペースの存在の幾何学的基盤を確立し、スペクトルクラスタリングとアテンションヘッドサリエンシスコアを組み合わせたハイブリッドプローブ戦略を用いてこれらのサブスペースを特定し、編集する。
複数のベンチマークデータセットにまたがる実験結果は、我々のアプローチの優位性を示している。
関連論文リスト
- Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes [84.1059652774853]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - HalluShift: Measuring Distribution Shifts towards Hallucination Detection in LLMs [14.005452985740849]
大規模言語モデル(LLM)は、最近、与えられたプロンプトに対する革新的な応答を生成できるため、広く注目を集めている。
本研究では,LLMの内部動態から幻覚が生じると仮定する。
本研究では,内部状態空間における分布変化を解析するための革新的アプローチであるHaluShiftを導入する。
論文 参考訳(メタデータ) (2025-04-13T08:35:22Z) - Mitigating Hallucinations in Multimodal Spatial Relations through Constraint-Aware Prompting [7.962140902232628]
空間的関係幻覚は大きな視覚言語モデル(LVLM)において永続的な課題を引き起こす
本研究では,空間的関係の幻覚を減らすための制約対応プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T11:32:19Z) - SHARP: Unlocking Interactive Hallucination via Stance Transfer in Role-Playing LLMs [12.990119925990477]
大規模言語モデル(LLM)の対話的パターンを明らかにするための一般化可能で明示的なパラダイムを導入する。
まず、姿勢伝達による対話的幻覚を定義し、次にコモンセンス知識グラフから関係を抽出したベンチマークであるSHARPを構築した。
大規模な実験により、我々のパラダイムの有効性と安定性を確認し、これらの指標に影響を与える要因を調べ、従来の幻覚緩和ソリューションに挑戦する。
論文 参考訳(メタデータ) (2024-11-12T17:41:16Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Improving Neural Additive Models with Bayesian Principles [54.29602161803093]
ニューラル加算モデル(NAM)は、個別の加算サブネットワークでキャリブレーションされた入力特徴を扱うことにより、ディープニューラルネットワークの透明性を高める。
本研究では,Laplace-approximated NAM (LA-NAMs) を開発した。
論文 参考訳(メタデータ) (2023-05-26T13:19:15Z) - Joint and Progressive Subspace Analysis (JPSA) with Spatial-Spectral
Manifold Alignment for Semi-Supervised Hyperspectral Dimensionality Reduction [48.73525876467408]
本稿では,超スペクトル部分空間解析のための新しい手法を提案する。
この手法はジョイント・アンド・プログレッシブ・サブスペース分析(JPSA)と呼ばれる。
2つの広帯域超スペクトルデータセットに対して提案したJPSAの優位性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-09-21T16:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。