論文の概要: OSCaR: Object State Captioning and State Change Representation
- arxiv url: http://arxiv.org/abs/2402.17128v4
- Date: Tue, 2 Apr 2024 23:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:08:00.163815
- Title: OSCaR: Object State Captioning and State Change Representation
- Title(参考訳): OSCaR:オブジェクト状態のキャプションと状態変化の表現
- Authors: Nguyen Nguyen, Jing Bi, Ali Vosoughi, Yapeng Tian, Pooyan Fazli, Chenliang Xu,
- Abstract要約: 本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
- 参考スコア(独自算出の注目度): 52.13461424520107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The capability of intelligent models to extrapolate and comprehend changes in object states is a crucial yet demanding aspect of AI research, particularly through the lens of human interaction in real-world settings. This task involves describing complex visual environments, identifying active objects, and interpreting their changes as conveyed through language. Traditional methods, which isolate object captioning and state change detection, offer a limited view of dynamic environments. Moreover, relying on a small set of symbolic words to represent changes has restricted the expressiveness of the language. To address these challenges, in this paper, we introduce the Object State Captioning and State Change Representation (OSCaR) dataset and benchmark. OSCaR consists of 14,084 annotated video segments with nearly 1,000 unique objects from various egocentric video collections. It sets a new testbed for evaluating multimodal large language models (MLLMs). Our experiments demonstrate that while MLLMs show some skill, they lack a full understanding of object state changes. The benchmark includes a fine-tuned model that, despite initial capabilities, requires significant improvements in accuracy and generalization ability for effective understanding of these changes. Our code and dataset are available at https://github.com/nguyennm1024/OSCaR.
- Abstract(参考訳): 物体の状態の変化を外挿し、理解するインテリジェントなモデルの能力は、AI研究の重要な側面であり、特に現実世界における人間のインタラクションのレンズを通してである。
このタスクは、複雑な視覚環境を記述し、アクティブなオブジェクトを識別し、言語を通して伝達される変化を解釈する。
オブジェクトキャプションと状態変化検出を分離する従来の方法は、動的環境の限られたビューを提供する。
さらに、変化を表すために記号的な単語の小さなセットに頼ることは、言語の表現性を制限している。
本稿では,これらの課題に対処するため,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダルな大規模言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
我々の実験では、MLLMはある程度のスキルを示しながら、オブジェクトの状態の変化を十分に理解していないことが示されています。
ベンチマークには、初期機能にもかかわらず、これらの変更を効果的に理解するために、精度と一般化能力を著しく改善する必要がある微調整モデルが含まれている。
私たちのコードとデータセットはhttps://github.com/nguyennm1024/OSCaR.orgで公開されています。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Do Pre-trained Vision-Language Models Encode Object States? [13.4206464539947]
視覚言語モデル(VLM)がWebスケールデータにオブジェクト状態をエンコードするかどうかを検討する。
コントラストおよび生成目的を訓練したモデルを含む,9つのオープンソースVLMを評価した。
オブジェクト状態のエンコードを改善するための3つの領域を同定する。
論文 参考訳(メタデータ) (2024-09-16T17:22:18Z) - Learning Multiple Object States from Actions via Large Language Models [15.053419817253145]
オブジェクトの状態認識を複数の状態を明示的に扱うマルチラベル分類タスクとして定式化する。
書き起こされたナレーションから擬似ラベルを生成し,過去の状態の影響を捉えた。
LLM生成した擬似ラベルをトレーニングしたモデルは、強い視覚言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-05-02T08:43:16Z) - Learning State-Invariant Representations of Objects from Image Collections with State, Pose, and Viewpoint Changes [0.6577148087211809]
我々は、任意の視点から記録されたオブジェクト画像の状態をキャプチャし、バリエーションを示す新しいデータセット、ObjectsWithStateChangeを提案する。
このような研究の目的は、状態変化に不変なオブジェクト埋め込みを生成することができるモデルをトレーニングすることである。
本稿では,各エポック後に学習した埋め込み空間における類似性関係を利用して学習過程を指導するカリキュラム学習戦略を提案する。
論文 参考訳(メタデータ) (2024-04-09T17:17:48Z) - DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。
本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-24T21:05:02Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - Generic Event Boundary Captioning: A Benchmark for Status Changes
Understanding [22.618840285782127]
Kinetic-GEBC(Generic Event Boundary Captioning)と呼ばれる新しいデータセットを導入する。
データセットは、12Kビデオのステータス変更を記述するキャプションに関連する170万以上のバウンダリで構成されている。
現状の変化を通じて,よりきめ細かな,堅牢で,人間的な映像理解を支援する3つのタスクを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:45:30Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。