論文の概要: OSCaR: Object State Captioning and State Change Representation
- arxiv url: http://arxiv.org/abs/2402.17128v2
- Date: Wed, 28 Feb 2024 02:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 11:46:51.290270
- Title: OSCaR: Object State Captioning and State Change Representation
- Title(参考訳): OSCaR:オブジェクト状態のキャプションと状態変化の表現
- Authors: Nguyen Nguyen, Jing Bi, Ali Vosoughi, Yapeng Tian, Pooyan Fazli,
Chenliang Xu
- Abstract要約: 本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
- 参考スコア(独自算出の注目度): 55.24266209264001
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The capability of intelligent models to extrapolate and comprehend changes in
object states is a crucial yet demanding aspect of AI research, particularly
through the lens of human interaction in real-world settings. This task
involves describing complex visual environments, identifying active objects,
and interpreting their changes as conveyed through language. Traditional
methods, which isolate object captioning and state change detection, offer a
limited view of dynamic environments. Moreover, relying on a small set of
symbolic words to represent changes has restricted the expressiveness of
language. To address these challenges, in this paper, we introduce the Object
State Captioning and State Change Representation (OSCaR) dataset and benchmark.
OSCaR consists of 14,084 annotated video segments with nearly 1,000 unique
objects from various egocentric video collections. It sets a new testbed for
evaluating multimodal large language models (MLLMs). Our experiments
demonstrate that while MLLMs show some skill, they lack a full understanding of
object state changes. The benchmark includes a fine-tuned model that, despite
initial capabilities, requires significant improvements in accuracy and
generalization ability for effective understanding of these changes. Our code
and dataset are available at https://github.com/nguyennm1024/OSCaR.
- Abstract(参考訳): 物体の状態の変化を外挿し、理解するインテリジェントなモデルの能力は、AI研究の重要な側面であり、特に現実世界における人間のインタラクションのレンズを通してである。
このタスクは複雑な視覚環境を記述し、アクティブなオブジェクトを識別し、言語を通して伝達される変化を解釈する。
オブジェクトキャプションと状態変化検出を分離する従来の方法は、動的環境の限られたビューを提供する。
さらに、変化を表すために小さな象徴的な単語セットに依存することは、言語の表現力を制限する。
本稿では,これらの課題に対処するため,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
我々の実験では、MLLMはある程度のスキルを持っているが、オブジェクトの状態の変化を完全に理解していない。
ベンチマークには、初期機能にもかかわらず、これらの変更を効果的に理解するために、精度と一般化能力を著しく改善する必要がある微調整モデルが含まれている。
私たちのコードとデータセットはhttps://github.com/nguyennm1024/OSCaR.orgで公開されています。
関連論文リスト
- DesCo: Learning Object Recognition with Rich Language Descriptions [93.8177229428617]
視覚言語アプローチの最近の発展は、言語指導から視覚認識モデルを学習するパラダイムシフトを引き起こしている。
本稿では,リッチ言語記述を用いたオブジェクト認識モデル学習のための記述条件付き(DesCo)パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-24T21:05:02Z) - Contextual Object Detection with Multimodal Large Language Models [78.30374204127418]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - Generic Event Boundary Captioning: A Benchmark for Status Changes
Understanding [22.618840285782127]
Kinetic-GEBC(Generic Event Boundary Captioning)と呼ばれる新しいデータセットを導入する。
データセットは、12Kビデオのステータス変更を記述するキャプションに関連する170万以上のバウンダリで構成されている。
現状の変化を通じて,よりきめ細かな,堅牢で,人間的な映像理解を支援する3つのタスクを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:45:30Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Improving the Robustness to Variations of Objects and Instructions with
a Neuro-Symbolic Approach for Interactive Instruction Following [23.197640949226756]
自然言語命令と1対1の視覚を行動列にマッピングする学習のためのベンチマークとして,対話型命令追従タスクが提案されている。
このタスクのための既存のエンドツーエンドニューラルネットワークは、オブジェクトや言語命令のバリエーションに対して堅牢ではないことが分かりました。
本稿では,入力の小さな変化に対して頑健な高レベルなシンボル表現に対する推論を行うニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-13T21:00:00Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。