Fugu-MT 論文翻訳(概要): Look, Remember and Reason: Grounded reasoning in videos with language models

論文の概要: Look, Remember and Reason: Grounded reasoning in videos with language models

arxiv url: http://arxiv.org/abs/2306.17778v3
Date: Mon, 22 Jan 2024 00:54:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 21:27:40.865721
Title: Look, Remember and Reason: Grounded reasoning in videos with language models
Title（参考訳）: Look, Remember and Reason: 言語モデルによるビデオの根拠的推論
Authors: Apratim Bhattacharyya, Sunny Panchal, Mingu Lee, Reza Pourreza, Pulkit Madan, Roland Memisevic
Abstract要約: マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
参考スコア（独自算出の注目度）: 5.3445140425713245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal language models (LM) have recently shown promising performance in high-level reasoning tasks on videos. However, existing methods still fall short in tasks like causal or compositional spatiotemporal reasoning over actions, in which model predictions need to be grounded in fine-grained low-level details, such as object motions and object interactions. In this work, we propose training an LM end-to-end on low-level surrogate tasks, including object detection, re-identification, and tracking, to endow the model with the required low-level visual capabilities. We show that a two-stream video encoder with spatiotemporal attention is effective at capturing the required static and motion-based cues in the video. By leveraging the LM's ability to perform the low-level surrogate tasks, we can cast reasoning in videos as the three-step process of Look, Remember, Reason wherein visual information is extracted using low-level visual skills step-by-step and then integrated to arrive at a final answer. We demonstrate the effectiveness of our framework on diverse visual reasoning tasks from the ACRE, CATER, Something-Else and STAR datasets. Our approach is trainable end-to-end and surpasses state-of-the-art task-specific methods across these tasks by a large margin.
Abstract（参考訳）: マルチモーダル言語モデル(lm)は最近、ビデオ上の高レベル推論タスクで有望なパフォーマンスを示している。しかし、既存の手法は、動作に対する因果的あるいは構成時空間的推論のようなタスクでは依然として不足しており、モデル予測は、オブジェクトの動きやオブジェクトの相互作用のような、きめ細かい低レベルの詳細に基礎を置く必要がある。本研究では,オブジェクト検出,再識別,追跡などの低レベルのサロゲートタスクをlmエンドツーエンドで訓練し,必要となる低レベルの視覚能力をモデルに付与することを提案する。時空間に注意を向けた2ストリームビデオエンコーダは,映像中の静的および動きに基づく手がかりを捉えるのに有効であることを示す。低レベルのサロゲートタスクを実行するLMの能力を活用することで、低レベルのビジュアルスキルを用いて視覚情報を抽出し、最終回答に到達するための3ステップのプロセスとして、ビデオに推論をキャストすることができる。我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。我々のアプローチは訓練可能なエンドツーエンドであり、これらのタスクにまたがる最先端のタスク固有メソッドを大きく超えています。

関連論文リスト

MVR: Multi-view Video Reward Shaping for Reinforcement Learning [17.20077949643041]
MVR(Multi-View Video Reward Shaping)は、複数の視点から撮影したビデオを用いて、対象タスクに関する状態の関連性をモデル化するフレームワークである。 MVRは、画像ベースの手法に固有の特定の静的ポーズに対するバイアスを軽減する状態関連関数を学習する。タスク固有の報酬とVLMに基づくガイダンスを統合した状態依存報酬形成形式を導入する。
論文参考訳（メタデータ） (2026-03-02T10:24:04Z)
Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs [61.64185573373394]
本稿では,MLLMの本質的不確かさをプロアクティブ誘導信号として用いた学習自由フレームワークを提案する。応答不確実性によって候補の視覚入力をスコアする統一的なメカニズムを導入し、モデルが最も健全なデータに自律的にフォーカスできるようにする。本研究は,本質的な不確実性を活用することが,細粒度マルチモーダル性能を高めるための強力で汎用的な戦略であることを実証する。
論文参考訳（メタデータ） (2025-10-01T09:20:51Z)
From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。 Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文参考訳（メタデータ） (2025-06-30T05:01:40Z)
STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文参考訳（メタデータ） (2024-11-29T11:54:55Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文参考訳（メタデータ） (2024-08-13T08:26:32Z)
The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文参考訳（メタデータ） (2024-06-26T06:59:09Z)
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文参考訳（メタデータ） (2024-03-21T18:00:00Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning [102.54669633984278]
本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。 Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
論文参考訳（メタデータ） (2024-02-18T03:04:38Z)
PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文参考訳（メタデータ） (2023-11-29T02:17:27Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文参考訳（メタデータ） (2022-11-20T20:30:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。