論文の概要: Remember Me: Bridging the Long-Range Gap in LVLMs with Three-Step Inference-Only Decay Resilience Strategies
- arxiv url: http://arxiv.org/abs/2511.09868v1
- Date: Fri, 14 Nov 2025 01:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.537339
- Title: Remember Me: Bridging the Long-Range Gap in LVLMs with Three-Step Inference-Only Decay Resilience Strategies
- Title(参考訳): LVLMのロングランジギャップを3段階の推論で補う
- Authors: Peng Gao, Yujian Lee, Xiaofeng Zhang, Zailong Chen, Hui Zhang,
- Abstract要約: LVLM(Large Vision-Language Models)は、様々なタスクにおいて優れたパフォーマンスを実現している。
ロータリー位置決定(Rotary Positional Decay)の使用下では、長距離依存関係をモデル化する上で、依然として重要な課題に直面している。
この問題を軽減するため,T-DRS(Three-step Decay Resilience Strategies)を提案する。
- 参考スコア(独自算出の注目度): 11.330811445575677
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved impressive performance across a wide range of multimodal tasks. However, they still face critical challenges in modeling long-range dependencies under the usage of Rotary Positional Encoding (ROPE). Although it can facilitate precise modeling of token positions, it induces progressive attention decay as token distance increases, especially with progressive attention decay over distant token pairs, which severely impairs the model's ability to remember global context. To alleviate this issue, we propose inference-only Three-step Decay Resilience Strategies (T-DRS), comprising (1) Semantic-Driven DRS (SD-DRS), amplifying semantically meaningful but distant signals via content-aware residuals, (2) Distance-aware Control DRS (DC-DRS), which can purify attention by smoothly modulating weights based on positional distances, suppressing noise while preserving locality, and (3) re-Reinforce Distant DRS (reRD-DRS), consolidating the remaining informative remote dependencies to maintain global coherence. Together, the T-DRS recover suppressed long-range token pairs without harming local inductive biases. Extensive experiments on Vision Question Answering (VQA) benchmarks demonstrate that T-DRS can consistently improve performance in a training-free manner. The code can be accessed in https://github.com/labixiaoq-qq/Remember-me
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
しかし、ROPE(Rotary Positional Encoding)の使用下では、長距離依存関係のモデリングにおいて重要な課題に直面している。
トークン位置の正確なモデリングを容易にすることができるが、特に遠くのトークン対に対する進行的な注目の減衰によって、トークン距離が増加するにつれて進行的な注意の減衰を誘導し、このモデルがグローバルな文脈を記憶する能力を著しく損なう。
この問題を軽減するため,(1)意味駆動型DRS(SD-DRS)、(2)コンテンツ認識残差による意味論的に有意だが遠方的な信号の増幅,(2)位置距離に基づいて重みを円滑に調整し,局所性を維持しながら雑音を抑えることによる注意を浄化可能な距離認識制御DRS(DC-DRS)、(3)再強化距離DRS(reRD-DRS)、および、残りの情報的リモート依存を統合化してグローバルコヒーレンスを維持することを含む,推論のみの3段階ディシリエンス戦略(T-DRS)を提案する。
共に、T-DRSは局所誘導バイアスを損なうことなく長距離トークンペアを抑制した。
VQA(Vision Question Answering)ベンチマークの大規模な実験は、T-DRSがトレーニング不要な方法で継続的にパフォーマンスを向上させることを実証している。
コードはhttps://github.com/labixiaoq-qq/Remember-meでアクセスすることができる。
関連論文リスト
- Adaptive Residual-Update Steering for Low-Overhead Hallucination Mitigation in Large Vision Language Models [13.32858759983739]
LVLM(Large Vision-Language Models)は、しばしばオブジェクト幻覚に悩まされ、視覚入力と矛盾するテキストを生成する。
この問題を緩和するための既存の推論時間の介入は、難しいトレードオフをもたらします。
本稿では,LVLMを視覚的に生成するフレームワークであるResidual-Update Directed Decoding Regulation(RUDDER)を提案する。
論文 参考訳(メタデータ) (2025-11-13T13:29:38Z) - SparseD: Sparse Attention for Diffusion Language Models [98.05780626106555]
拡散言語モデル(DLM)は自己回帰モデル(AR)に代わる有望な代替手段を提供する
既存のオープンソースDLMは、高い推論遅延に悩まされている。
DLMのための新しいスパースアテンション手法であるスパースDを提案する。
論文 参考訳(メタデータ) (2025-09-28T18:10:10Z) - Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - VISTA: Unsupervised 2D Temporal Dependency Representations for Time Series Anomaly Detection [42.694234312755285]
時系列異常検出(TSAD)は、ラベルのない時系列データの中で稀で潜在的に有害な事象を明らかにするのに不可欠である。
本稿では,これらの課題を克服するために,トレーニング不要で教師なしのTSADアルゴリズムであるVISTAを紹介する。
論文 参考訳(メタデータ) (2025-04-03T11:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。