論文の概要: HalluRNN: Mitigating Hallucinations via Recurrent Cross-Layer Reasoning in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.17587v1
- Date: Sat, 21 Jun 2025 04:56:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.488177
- Title: HalluRNN: Mitigating Hallucinations via Recurrent Cross-Layer Reasoning in Large Vision-Language Models
- Title(参考訳): HalluRNN:大規模視線モデルにおける繰り返しクロスレイア推論による幻覚の緩和
- Authors: Le Yu, Kaishen Wang, Jianlong Xiong, Yue Cao, Tao He,
- Abstract要約: HalluRNNは繰り返しの層間推論によってモデルの安定性を向上させる。
DG-DPUモジュールのみを微調整することで、HaluRNNは複数のベンチマークで堅牢で堅牢なパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 11.826832299262199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though Large Vision-Language Models (LVLMs) have achieved remarkable performance across various tasks, they are still prone to hallucinations-generating outputs that are textually plausible but visually ungrounded. While prior approaches generally address this issue through data-centric fine-tuning or innovative decoding strategies, these methods often require substantial resources or task-specific configurations. In this work, we introduce an architecture-level solution, HalluRNN, which enhances model stability through recurrent cross-layer reasoning. Specifically, we propose a novel Dual-Gated Depth Propagation Unit (DG-DPU) module, which is shared across layers and recurrently refines hidden states. This allows for the adaptive propagation of information throughout the model, enforces consistency across layers, and mitigates hallucinations caused by representational drift. By fine-tuning only the DG-DPU module, HalluRNN achieves strong and robust performance across multiple benchmarks.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は様々なタスクにまたがって顕著な性能を達成しているが、それでもテキストで表されるが、視覚的に見当たらない幻覚生成出力の傾向にある。
従来のアプローチでは、データ中心の微調整や革新的な復号戦略によってこの問題に対処することが多いが、これらの手法にはかなりのリソースやタスク固有の設定が必要になることが多い。
本研究ではアーキテクチャレベルのソリューションであるHaluRNNを導入し,再帰的な層間推論によるモデルの安定性を向上させる。
具体的には,DG-DPU(Dual-Gated Depth Propagation Unit)モジュールを提案する。
これにより、モデル全体を通して情報を適応的に伝達し、層間の一貫性を強制し、表現的ドリフトによって引き起こされる幻覚を緩和することができる。
DG-DPUモジュールのみを微調整することで、HaluRNNは複数のベンチマークで堅牢で堅牢なパフォーマンスを実現している。
関連論文リスト
- Integrating Intermediate Layer Optimization and Projected Gradient Descent for Solving Inverse Problems with Diffusion Models [24.745502021162878]
逆問題(IP)はノイズの観測から信号を再構成する。
DMはIPを解くための強力なフレームワークとして登場し、優れた再構築性能を実現している。
既存のDMベースの手法は、重い計算要求や準最適収束といった問題に頻繁に遭遇する。
これらの課題に対処するために,DMILOとDMILO-PGDという2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-27T06:49:02Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding [4.759109475818876]
Implicit Neural Representations (INR)は、多様なデータドメインをまたいだタスクモデリングを統合するための強力なパラダイムであることが証明されている。
本稿では,メタラーニングによるマルチスケール情報をキャプチャする新しい高性能フレームワークLIFTを紹介する。
また、残差接続と表現頻度符号化を組み込んだLIFTの強化版であるReLIFTについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T17:00:58Z) - EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。
我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-02-01T15:49:59Z) - Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。
計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。
既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文 参考訳(メタデータ) (2024-12-19T07:48:14Z) - SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文 参考訳(メタデータ) (2024-10-18T11:49:40Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Accurate and Lightweight Image Super-Resolution with Model-Guided Deep
Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。
MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。
RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2020-09-14T08:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。