論文の概要: BoxTuning: Directly Injecting the Object Box for Multimodal Model Fine-Tuning
- arxiv url: http://arxiv.org/abs/2604.11136v1
- Date: Mon, 13 Apr 2026 07:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.409826
- Title: BoxTuning: Directly Injecting the Object Box for Multimodal Model Fine-Tuning
- Title(参考訳): BoxTuning:マルチモーダルモデルファインチューニングのためのオブジェクトボックスを直接注入する
- Authors: Zekun Qian, Ruize Han, Wei Feng,
- Abstract要約: BoxTuningは、オブジェクトの時空間情報を視覚的モダリティに直接注入する。
トークンコストを大幅に削減し、実際に87-93%のテキストトークン削減を実現している。
また、完全な時間分解能を保ち、軌道はフレーム間の運動方向と速度をさらに符号化する。
- 参考スコア(独自算出の注目度): 18.859227273698615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-level spatial-temporal understanding is essential for video question answering, yet existing multimodal large language models (MLLMs) encode frames holistically and lack explicit mechanisms for fine-grained object grounding. Recent work addresses this by serializing bounding box coordinates as text tokens, but this text-coordinate paradigm suffers from a fundamental modality mismatch: object information is inherently visual, yet encoding it as text incurs a high token cost that forces aggressive temporal downsampling. We propose BoxTuning, which resolves this mismatch by injecting object spatial-temporal information directly into the visual modality. Colored bounding boxes and trajectory trails are rendered onto video frames as visual prompts, with only a concise color-to-object legend retained as text. This reduces the token cost significantly, achieving 87-93% text token reduction in practice. It also preserves full temporal resolution, where the trajectory trails further encode inter-frame motion direction and speed within each keyframe, recovering fine-grained dynamics that text-coordinate methods are forced to discard. Experimental results on five video QA benchmarks (CLEVRER, Perception Test, STAR, NExT-QA, IntentQA) show that BoxTuning surpasses text-coordinate baselines on spatially oriented tasks and nearly eliminates the accuracy degradation observed on reasoning-centric tasks, establishing visual prompting as a more natural and efficient paradigm for conveying object information to video MLLMs.
- Abstract(参考訳): オブジェクトレベルの時空間理解は、ビデオ質問応答には不可欠であるが、既存のマルチモーダル大言語モデル(MLLM)は、フレームを一様にエンコードし、きめ細かいオブジェクトグラウンドの明確なメカニズムを欠いている。
最近の研究は、境界ボックス座標をテキストトークンとしてシリアライズすることでこの問題に対処しているが、このテキストコーディネートパラダイムは、基本的なモダリティミスマッチに悩まされている。
そこで我々は,物体の空間時間情報を視覚的モーダルに直接注入することで,このミスマッチを解消するBoxTuningを提案する。
色付きバウンディングボックスと軌跡は視覚的なプロンプトとしてビデオフレームに描画され、簡潔な色から物への伝説のみがテキストとして保持される。
これによりトークンのコストが大幅に削減され、実際に87-93%のテキストトークンが削減される。
トラジェクトリはフレーム間の運動方向と各キーフレーム内の速度をさらに符号化し、テキストコーディネートメソッドが破棄されるようなきめ細かいダイナミクスを回復する。
ビデオQAベンチマーク(CLEVRER, Perception Test, STAR, NExT-QA, IntentQA)では,BoxTuningがテキストコーディネートベースラインを超え,推論中心のタスクで観測された精度劣化をほぼ排除し,映像MLLMにオブジェクト情報を伝達するためのより自然で効率的なパラダイムとして視覚的プロンプトを確立した。
関連論文リスト
- Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models [61.11154533305096]
ビデオ大言語モデル(VLLM)は、強力なビデオ理解を示すが、冗長な視覚トークンによる非効率性に悩まされる。
フレーム内およびフレーム間コンテキスト内でトークン textbfAnchors を詳述する新しい視点を提案する。
提案するAOTは,先行するビデオLLMのショート・ビデオベンチマークとロング・ビデオベンチマークの競合性能を比較検討する。
論文 参考訳(メタデータ) (2026-03-02T03:06:40Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。
Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。
我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文 参考訳(メタデータ) (2025-04-07T22:35:36Z) - Spatio-temporal Graph Learning on Adaptive Mined Key Frames for High-performance Multi-Object Tracking [5.746443489229576]
キーフレーム抽出(KFE)モジュールは、強化学習を利用して動画を適応的にセグメントする。
フレーム内フィーチャーフュージョン(IFF)モジュールは、ターゲットと周辺オブジェクト間の情報交換を容易にするために、グラフ畳み込みネットワーク(GCN)を使用する。
提案したトラッカーはMOT17データセット上で印象的な結果が得られる。
論文 参考訳(メタデータ) (2025-01-17T11:36:38Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。