論文の概要: Which Way Did It Move? Diagnosing and Overcoming Directional Motion Blindness in Video-LLMs
- arxiv url: http://arxiv.org/abs/2605.22823v1
- Date: Thu, 21 May 2026 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.617384
- Title: Which Way Did It Move? Diagnosing and Overcoming Directional Motion Blindness in Video-LLMs
- Title(参考訳): どちらへ移動したのか : ビデオLLMにおける方向運動盲点の診断と克服
- Authors: Jongseo Lee, Hyuntak Lee, Sunghun Kim, Sooa Kim, Jihoon Chung, Jinwoo Choi,
- Abstract要約: ビデオ大言語モデル (Video-LLMs) は時間的ビデオ理解を急速に進歩させた。
多くのビデオ-LLMは基本的な知覚的プリミティブ:署名された画像-平面運動方向で失敗する。
ビデオ-LLMパイプラインを通して動き方向情報を追跡することで、障害をローカライズする。
- 参考スコア(独自算出の注目度): 7.541877677953269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Large Language Models (Video-LLMs) have made rapid progress on temporal video understanding, yet many fail at a basic perceptual primitive: signed image-plane motion direction. On simple videos of a single object moving left, right, up, or down, most Video-LLMs perform near chance, with above-chance cases largely attributable to prediction biases rather than genuine direction understanding. We call this failure directional motion blindness. We localize the failure by tracing motion direction information through the Video-LLM pipeline. Motion direction remains linearly accessible from the vision encoder, projector, and LLM hidden states, but the readout fails to bind this signal to the correct verbal answer option, revealing a direction binding gap. Although synthetic motion direction instruction tuning reduces this gap on the source domain, motion direction concept vector analysis shows that visual complexity weakens the signal magnitude and limits out-of-domain generalization. We introduce MoDirect, a dataset family for motion direction instruction tuning and evaluation, and DeltaDirect, a diagnosis-driven, projector-level objective that predicts normalized 2-D motion vectors from adjacent-frame feature deltas. On MoDirect-SynBench, instruction tuning with DeltaDirect improves motion direction accuracy from 25.9% to 85.4%. On MoDirect-RealBench, DeltaDirect improves real-world motion direction accuracy by 21.9 points over the vanilla baseline without real-world tuning data, while preserving standard video-understanding performance. Code: https://github.com/KHU-VLL/DeltaDirect
- Abstract(参考訳): ビデオ大言語モデル (Video Large Language Models, Video-LLMs) は、時間的ビデオ理解において急速に進歩しているが、多くの人は基本的な知覚的プリミティブ:署名された画像平面運動方向で失敗している。
1つの物体が左、右、上、下を移動する単純なビデオでは、ほとんどのビデオLLMがほぼ偶然に実行され、上向きのケースは真の方向理解ではなく、予測バイアスに起因する。
私たちはこの障害を指向性視覚障害(directive motion blindness)と呼んでいる。
ビデオ-LLMパイプラインを通して動き方向情報を追跡することで、障害をローカライズする。
動作方向は、視覚エンコーダ、プロジェクタ、LLM隠蔽状態から直線的にアクセス可能であるが、読み出しは、この信号を正しい音声応答オプションにバインドできず、方向結合ギャップが明らかになる。
合成動き方向指示チューニングは、ソース領域におけるこのギャップを減少させるが、動き方向概念ベクトル解析は、視覚的複雑さが信号の大きさを弱め、領域外一般化を制限することを示している。
動き方向の指示と評価のためのデータセットであるMoDirectと、隣接するフレーム特徴デルタから正規化された2次元運動ベクトルを予測する診断駆動型プロジェクタレベルの目的であるDeltaDirectを紹介する。
MoDirect-SynBenchでは、DeltaDirectによる命令チューニングにより、動き方向の精度が25.9%から85.4%に向上する。
MoDirect-RealBenchでは、DeltaDirectは実世界のチューニングデータなしでバニラベースライン上で21.9ポイントの実際の動き方向精度を向上し、標準のビデオアンダーパフォーマンスを保っている。
コード:https://github.com/KHU-VLL/DeltaDirect
関連論文リスト
- Decoupling Ego-Motion from Target Dynamics via Dual-Interval Motion Cues for UAV Detection [0.5371337604556311]
無人航空機(UAV)からの物体検出は、激しいエゴモーション、カメラジッタ、大規模変動によって困難にさらされている。
本稿では、カメラによる乱れから目標運動を分離する視覚のみのモーションガイド検出フレームワークを提案する。
VisDrone-VIDデータセットの実験では、強いエゴモーションの下で強いYOLOv8ベースラインに対して一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-05-21T15:18:34Z) - Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance [107.25252623824296]
Wan-Moveは、ビデオ生成モデルにモーションコントロールを提供するフレームワークである。
私たちの中核となる考え方は、動画を誘導するためのモーションアウェアを元の状態にすることです。
Wan-Moveは5秒、480pの動画を制作し、Kling 1.5の商用モーションブラシに対抗している。
論文 参考訳(メタデータ) (2025-12-09T16:13:55Z) - MotionPro: A Precise Motion Controller for Image-to-Video Generation [108.63100943070592]
我々は、画像間(I2V)生成のための正確なモーションコントローラであるMotionProを提案する。
局所軌道と運動マスクは、微細な運動合成を制御するために用いられる。
WebVid-10MとMC-Benchで行った実験は、MotionProの有効性を実証している。
論文 参考訳(メタデータ) (2025-05-26T17:59:03Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Deep Motion Prior for Weakly-Supervised Temporal Action Localization [35.25323276744999]
Weakly-Supervised Temporal Action Localization (WSTAL) は、ビデオレベルのラベルだけで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
現在、最先端のWSTALメソッドのほとんどは、Multi-Instance Learning (MIL)パイプラインに従っています。
既存の手法では,1)動作情報の不十分な使用,2)広汎なクロスエントロピートレーニング損失の相容れない2つの重要な欠点が指摘されている。
論文 参考訳(メタデータ) (2021-08-12T08:51:36Z) - TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting [107.39743751292028]
TransMoMoは、ソースビデオ中の人の動きを、ターゲットの別のビデオに現実的に転送することができる。
動き, 構造, ビューアングルを含む3つの要因の不変性を利用する。
本研究では,最先端手法に対する提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-03-31T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。