論文の概要: Learning Multiple Object States from Actions via Large Language Models
- arxiv url: http://arxiv.org/abs/2405.01090v2
- Date: Wed, 06 Nov 2024 11:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:21.482672
- Title: Learning Multiple Object States from Actions via Large Language Models
- Title(参考訳): 大規模言語モデルによる行動からの多目的状態の学習
- Authors: Masatoshi Tateno, Takuma Yagi, Ryosuke Furuta, Yoichi Sato,
- Abstract要約: オブジェクトの状態認識を複数の状態を明示的に扱うマルチラベル分類タスクとして定式化する。
書き起こされたナレーションから擬似ラベルを生成し,過去の状態の影響を捉えた。
LLM生成した擬似ラベルをトレーニングしたモデルは、強い視覚言語モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 15.053419817253145
- License:
- Abstract: Recognizing the states of objects in a video is crucial in understanding the scene beyond actions and objects. For instance, an egg can be raw, cracked, and whisked while cooking an omelet, and these states can coexist simultaneously (an egg can be both raw and whisked). However, most existing research assumes a single object state change (e.g., uncracked -> cracked), overlooking the coexisting nature of multiple object states and the influence of past states on the current state. We formulate object state recognition as a multi-label classification task that explicitly handles multiple states. We then propose to learn multiple object states from narrated videos by leveraging large language models (LLMs) to generate pseudo-labels from the transcribed narrations, capturing the influence of past states. The challenge is that narrations mostly describe human actions in the video but rarely explain object states. Therefore, we use the LLMs knowledge of the relationship between actions and states to derive the missing object states. We further accumulate the derived object states to consider past state contexts to infer current object state pseudo-labels. We newly collect a dataset called the Multiple Object States Transition (MOST) dataset, which includes manual multi-label annotation for evaluation purposes, covering 60 object states across six object categories. Experimental results show that our model trained on LLM-generated pseudo-labels significantly outperforms strong vision-language models, demonstrating the effectiveness of our pseudo-labeling framework that considers past context via LLMs.
- Abstract(参考訳): ビデオ内のオブジェクトの状態を認識することは、アクションやオブジェクト以外のシーンを理解する上で非常に重要です。
例えば卵を生で割ったり、オムレツを調理するときにウイスキーで割ったりし、これらを同時に共存させることができる(卵は生とウイスキーで焼くこともできる)。
しかし、既存のほとんどの研究は、複数のオブジェクト状態の共存の性質と過去の状態が現在の状態に与える影響を見越して、単一のオブジェクト状態変化(例: 未クラック -> クラック)を仮定している。
オブジェクトの状態認識を複数の状態を明示的に扱うマルチラベル分類タスクとして定式化する。
そこで我々は,大規模言語モデル(LLM)を活用してナレーションから擬似ラベルを生成することによって,ナレーション映像から複数のオブジェクト状態を学ぶことを提案する。
課題は、ナレーションが主にビデオの中で人間の行動を記述しているが、オブジェクトの状態を説明することはめったにないことだ。
そこで我々は, LLMの行動と状態の関係に関する知識を用いて, 欠落した対象状態の導出を行う。
我々はさらに、現在のオブジェクト状態の擬似ラベルを推測するために、過去の状態状況を考えるために、派生したオブジェクト状態を蓄積する。
このデータセットには、6つのオブジェクトカテゴリにわたる60のオブジェクト状態をカバーする、評価目的のための手動のマルチラベルアノテーションが含まれています。
実験結果から,LLM生成した擬似ラベルをトレーニングしたモデルは強い視覚言語モデルよりも優れており,過去の文脈を考慮した擬似ラベルフレームワークの有効性が示された。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Do Pre-trained Vision-Language Models Encode Object States? [13.4206464539947]
視覚言語モデル(VLM)がWebスケールデータにオブジェクト状態をエンコードするかどうかを検討する。
コントラストおよび生成目的を訓練したモデルを含む,9つのオープンソースVLMを評価した。
オブジェクト状態のエンコードを改善するための3つの領域を同定する。
論文 参考訳(メタデータ) (2024-09-16T17:22:18Z) - Learning State-Invariant Representations of Objects from Image Collections with State, Pose, and Viewpoint Changes [0.6577148087211809]
我々は、任意の視点から記録されたオブジェクト画像の状態をキャプチャし、バリエーションを示す新しいデータセット、ObjectsWithStateChangeを提案する。
このような研究の目的は、状態変化に不変なオブジェクト埋め込みを生成することができるモデルをトレーニングすることである。
本稿では,各エポック後に学習した埋め込み空間における類似性関係を利用して学習過程を指導するカリキュラム学習戦略を提案する。
論文 参考訳(メタデータ) (2024-04-09T17:17:48Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Siamese Contrastive Embedding Network for Compositional Zero-Shot
Learning [76.13542095170911]
合成ゼロショット学習(CZSL)は、学習中に目に見える状態と対象から形成される見えない構成を認識することを目的としている。
本稿では,未知の合成認識のための新しいSiamese Contrastive Embedding Network(SCEN)を提案する。
提案手法は,3つの挑戦的ベンチマークデータセットに対して,最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-06-29T09:02:35Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。