論文の概要: Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model
- arxiv url: http://arxiv.org/abs/2603.28554v1
- Date: Mon, 30 Mar 2026 15:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.470352
- Title: Hydra: Unifying Document Retrieval and Generation in a Single Vision-Language Model
- Title(参考訳): Hydra: 単一視覚言語モデルにおける文書検索と生成の統合
- Authors: Athos Georgiou,
- Abstract要約: Hydraは、シングルビジョン言語モデル(VLM)からColBERTスタイルの遅延相互作用検索と自己回帰生成の両方を提供するデュアルヘッドアプローチである。
単一のLoRAアダプタは、検索用にのみ訓練され、推論時にトグルされる。
ViDoRe V1では、Hydra (4B) は単一のトレーニングランで制御された単一ヘッドベースラインの1パーセント以内である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual document understanding typically requires separate retrieval and generation models, doubling memory and system complexity. We present Hydra, a dual-head approach that provides both ColBERT-style late-interaction retrieval and autoregressive generation from a single vision-language model (VLM). A single LoRA adapter, trained only for retrieval, is toggled at inference: enabling it produces multi-vector embeddings; disabling it recovers the base model's generation quality -- byte-identical outputs in 100% of 10,500 greedy and stochastic samples, with max delta-ANLS = 0.0044 across 15,301 samples on four VQA benchmarks (three informative; ChartQA is near-zero for both models under greedy decoding) when compared against an independent base-model pipeline. We identify three engineering requirements (attention-mode restoration, lm_head preservation, KV-cache-aware decoding) whose omission silently breaks generation despite correct weight recovery. On ViDoRe V1, Hydra (4B) is within 1 percentage point of a controlled single-head baseline in a single training run, with higher aggregate scores on V2 and V3 that are concentrated on a subset of tasks; multi-seed experiments are needed to confirm these trends. The single-model design reduces peak GPU memory by 41%, though adapter switching introduces throughput overhead under concurrent serving loads. An ablation shows that GritLM-style joint training provides no benefit within the LoRA-based (r=16) training regime. A proof-of-concept extension to Qwen2.5-Omni-3B demonstrates that the mechanism generalizes to audio retrieval and video embedding, with speech generation.
- Abstract(参考訳): ビジュアル文書理解は通常、別々の検索モデルと生成モデル、メモリとシステムの複雑さの2倍を必要とする。
我々は,単一視覚言語モデル(VLM)からColBERTスタイルの遅延相互作用検索と自己回帰生成の両方を提供するデュアルヘッドアプローチであるHydraを提案する。
単一のLoRAアダプタは、検索のためにトレーニングされ、推論時に切り替えられる: マルチベクター埋め込みを生成できる; 無効にする; ベースモデルの生成品質 -- 100%の10,500グレーディと確率的なサンプルで、最大デルタANLS = 0.0044で、4つのVQAベンチマーク(3つの情報的: ChartQAは、独立したベースモデルパイプラインと比較すると、両方のモデルでほぼゼロである。
保存モード復元, lm_head 保存, KV-cache-aware decoding の3つの技術要件について検討した。
ViDoRe V1では、Hydra (4B) は単一のトレーニングランで制御された単一ヘッドベースラインの1パーセント以内であり、タスクのサブセットに集中したV2とV3のスコアが高い。
シングルモデル設計は、ピークGPUメモリを41%削減するが、アダプタ切替は同時サービス負荷時のスループットオーバーヘッドをもたらす。
アブレーションは、GritLMスタイルのジョイントトレーニングがLoRAベースの(r=16)トレーニングシステム内での利益をもたらすものではないことを示している。
Qwen2.5-Omni-3Bへの概念実証拡張は、このメカニズムが音声検索やビデオ埋め込みに一般化され、音声生成が可能であることを示す。
関連論文リスト
- DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing [67.77471070868852]
DeepGen 1.0は、画像生成と編集のための軽量な5B統一モデルである。
わずか5000万のサンプルでトレーニングされており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。
トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
論文 参考訳(メタデータ) (2026-02-12T17:44:24Z) - Nemotron ColEmbed V2: Top-Performing Late Interaction embedding models for Visual Document Retrieval [19.23621110865551]
ビジュアルドキュメント検索の需要が高まっているため,ViDoReベンチマークで最先端のパフォーマンスを実現するモデル群であるNemotron ColEmbed V2を導入する。
データ処理、トレーニング、ポストトレーニングにまたがる主要なテクニックについて説明する。
論文 参考訳(メタデータ) (2026-02-03T20:26:44Z) - Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials [34.77694214755808]
MHSA(Multi-Head Self-Attention)の代替品であるVCA(Visual-Contrast Attention)を導入する。
VCAは、O(N N C) から O(N n C) への理論複雑性を n N で減少させながら、識別の明示的な概念を注入する。
モジュールはDeiT-Tinyのバックボーンに0.3M以下のパラメータを追加し、追加のFLOPを必要とせず、完全にアーキテクチャに依存しない。
論文 参考訳(メタデータ) (2025-11-02T07:04:12Z) - Datarus-R1: An Adaptive Multi-Step Reasoning LLM for Automated Data Analysis [0.0]
本稿では,Qwen 2.5-14B-Instructの言語モデルであるDatarus-R1-14Bを提案する。
Datarusは、独立した問合せペアではなく、推論ステップ、コード実行、エラートレース、自己補正、最終的な結論を含む完全な分析トラジェクトリに基づいて訓練されている。
論文 参考訳(メタデータ) (2025-08-18T21:58:18Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - Hydra-SGG: Hybrid Relation Assignment for One-stage Scene Graph Generation [57.69385990442078]
Hydra-SGGは、VG150 (16.0 mR@50)、Open Images V6 (50.1 weighted score)、GQA (12.7 mR@50)を含む複数のデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-16T13:13:06Z) - Re2G: Retrieve, Rerank, Generate [14.848179433828252]
ニューラル初期検索とBARTに基づくシーケンス・ツー・シーケンス生成を併用したRe2Gを提案する。
エンド・ツー・エンドをトレーニングするために,本システムでは,対象シーケンスの出力に対して,基礎的真理のみを用いて,知識蒸留の新たなバリエーションを導入し,初期検索,再ランカ,生成を訓練する。
KILTのリーダーボード上では、ゼロショットスロットフィリング、質問応答、ファクトチェック、ダイアログの4つのタスクにおいて、従来の最先端よりも9%から34%向上した。
論文 参考訳(メタデータ) (2022-07-13T15:51:40Z) - Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。
1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。
最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文 参考訳(メタデータ) (2022-03-24T02:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。