論文の概要: Learning Object States from Actions via Large Language Models
- arxiv url: http://arxiv.org/abs/2405.01090v1
- Date: Thu, 2 May 2024 08:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 17:23:40.692578
- Title: Learning Object States from Actions via Large Language Models
- Title(参考訳): 大規模言語モデルによる行動から対象状態を学ぶ
- Authors: Masatoshi Tateno, Takuma Yagi, Ryosuke Furuta, Yoichi Sato,
- Abstract要約: ビデオにおける物体の状態の存在を一時的に特定することは、行動や物体を超えた人間の活動を理解する上で非常に重要である。
本稿では,大規模言語モデル(LLM)を用いて,ナレーションに含まれる行動情報からオブジェクトの状態情報を抽出することを提案する。
生成した擬似ラベルによってトレーニングされたモデルでは,強いゼロショットビジョン言語モデルに対して,mAPが29%以上向上したことを示す。
- 参考スコア(独自算出の注目度): 15.053419817253145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporally localizing the presence of object states in videos is crucial in understanding human activities beyond actions and objects. This task has suffered from a lack of training data due to object states' inherent ambiguity and variety. To avoid exhaustive annotation, learning from transcribed narrations in instructional videos would be intriguing. However, object states are less described in narrations compared to actions, making them less effective. In this work, we propose to extract the object state information from action information included in narrations, using large language models (LLMs). Our observation is that LLMs include world knowledge on the relationship between actions and their resulting object states, and can infer the presence of object states from past action sequences. The proposed LLM-based framework offers flexibility to generate plausible pseudo-object state labels against arbitrary categories. We evaluate our method with our newly collected Multiple Object States Transition (MOST) dataset including dense temporal annotation of 60 object state categories. Our model trained by the generated pseudo-labels demonstrates significant improvement of over 29% in mAP against strong zero-shot vision-language models, showing the effectiveness of explicitly extracting object state information from actions through LLMs.
- Abstract(参考訳): ビデオにおける物体の状態の存在を一時的に特定することは、行動や物体を超えた人間の活動を理解する上で非常に重要である。
このタスクは、オブジェクト状態固有のあいまいさと多様性のために、トレーニングデータの欠如に悩まされている。
徹底的なアノテーションを避けるために、指導ビデオで書き起こされたナレーションから学ぶことは興味深い。
しかしながら、オブジェクト状態は行動よりもナレーションで記述されることが少なく、効果的に表現できない。
本研究では,大規模言語モデル(LLM)を用いて,ナレーションに含まれる行動情報からオブジェクトの状態情報を抽出することを提案する。
我々の観察では、LLMにはアクションと結果のオブジェクト状態の関係に関する世界的知識が含まれており、過去のアクションシーケンスからオブジェクト状態の存在を推測することができる。
提案する LLM ベースのフレームワークは,任意のカテゴリに対して有効な擬似オブジェクト状態ラベルを生成する柔軟性を提供する。
我々は,60のオブジェクト状態カテゴリの高密度な時間的アノテーションを含むMOST(Multiple Object State Transition)データセットを用いて,本手法の評価を行った。
生成した擬似ラベルによってトレーニングされたモデルでは,強いゼロショット視覚言語モデルに対して29%以上のmAPの改善が見られ,LLMによる動作から対象状態情報を明示的に抽出する効果が示された。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Do Pre-trained Vision-Language Models Encode Object States? [13.4206464539947]
視覚言語モデル(VLM)がWebスケールデータにオブジェクト状態をエンコードするかどうかを検討する。
コントラストおよび生成目的を訓練したモデルを含む,9つのオープンソースVLMを評価した。
オブジェクト状態のエンコードを改善するための3つの領域を同定する。
論文 参考訳(メタデータ) (2024-09-16T17:22:18Z) - Learning State-Invariant Representations of Objects from Image Collections with State, Pose, and Viewpoint Changes [0.6577148087211809]
我々は、任意の視点から記録されたオブジェクト画像の状態をキャプチャし、バリエーションを示す新しいデータセット、ObjectsWithStateChangeを提案する。
このような研究の目的は、状態変化に不変なオブジェクト埋め込みを生成することができるモデルをトレーニングすることである。
本稿では,各エポック後に学習した埋め込み空間における類似性関係を利用して学習過程を指導するカリキュラム学習戦略を提案する。
論文 参考訳(メタデータ) (2024-04-09T17:17:48Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。