論文の概要: BARISTA: A Multi-Task Egocentric Benchmark for Compositional Visual Understanding
- arxiv url: http://arxiv.org/abs/2605.12074v1
- Date: Tue, 12 May 2026 13:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.869779
- Title: BARISTA: A Multi-Task Egocentric Benchmark for Compositional Visual Understanding
- Title(参考訳): BARISTA: 構成的視覚理解のためのマルチタスクエゴシックベンチマーク
- Authors: Patrick Knab, Orgest Xhelili, Inis Buzi, Drago Andres Guggiana Nilo, Mohd Saquib Khan, Lorenz Kolb, Manuel Scherzer, Kerem Yildirir, Christian Bartelt, Philipp Johannes Schubert,
- Abstract要約: BARISTAは、高密度に注釈付きエゴセントリックなデータセットであり、185の現実世界のコーヒー準備ビデオのベンチマークである。
フレーズグラウンド、手動対話認識、参照、活動認識、関係抽出、時間的視覚的質問応答にまたがるゼロショット言語に基づくタスクを導出する。
実験では、タスクファミリに強いバリエーションがあり、一貫した支配的なモデルファミリはなく、BARISTAを手続き的ビデオ理解のための困難な診断ベンチマークとして位置づけている。
- 参考スコア(独自算出の注目度): 6.330463283335849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene understanding is central to general physical intelligence, and video is a primary modality for capturing both state and temporal dynamics of a scene. Yet understanding physical processes remains difficult, as models must combine object localization, hand-object interactions, relational parsing, temporal reasoning, and step-level procedural inference. Existing benchmarks usually evaluate these capabilities separately, limiting diagnosis of why models fail on procedural tasks. We introduce BARISTA, a densely annotated egocentric dataset and benchmark of 185 real-world coffee-preparation videos covering fully automatic, portafilter-based, and capsule-based workflows. BARISTA provides verified per-frame scene graphs linking persistent object identities to masks, tracks, boxes, attributes, typed relations, hand-object interactions, activities, and process steps. From these graphs, we derive zero-shot language-based tasks spanning phrase grounding, hand-object interaction recognition, referring, activity recognition, relation extraction, and temporal visual question answering. Experiments reveal strong variation across task families and no consistently dominant model family, positioning BARISTA as a challenging diagnostic benchmark for procedural video understanding. Code and dataset available at https://huggingface.co/datasets/ramblr/BARISTA.
- Abstract(参考訳): シーン理解は一般的な物理的知性の中心であり、ビデオはシーンの状態と時間的ダイナミクスを捉えるための主要なモダリティである。
しかし、物理的プロセスの理解は、オブジェクトのローカライゼーション、手動オブジェクトの相互作用、関係解析、時間的推論、ステップレベルの手続き推論を組み合わせる必要があるため、依然として困難である。
既存のベンチマークは通常、これらの機能を別々に評価し、なぜモデルが手続き的タスクで失敗するかの診断を制限する。
BARISTAは、完全自動、ポルタフィルターベース、カプセルベースのワークフローをカバーする185の現実世界のコーヒー準備ビデオの、高密度に注釈付きエゴセントリックなデータセットとベンチマークである。
BARISTAは、永続的なオブジェクトIDをマスク、トラック、ボックス、属性、型付き関係、手動インタラクション、アクティビティ、プロセスステップにリンクする検証済みのフレーム単位のシーングラフを提供する。
これらのグラフから,フレーズ接頭,手動対話認識,参照,活動認識,関係抽出,時間的視覚的質問応答にまたがるゼロショット言語に基づくタスクを導出する。
実験では、タスクファミリに強いバリエーションがあり、一貫した支配的なモデルファミリはなく、BARISTAを手続き的ビデオ理解のための困難な診断ベンチマークとして位置づけている。
コードとデータセットはhttps://huggingface.co/datasets/ramblr/BARISTAで公開されている。
関連論文リスト
- TriRelVLA: Triadic Relational Structure for Generalizable Embodied Manipulation [54.81449795163812]
視覚言語アクション(VLA)モデルは、トレーニング対象のロボットタスクでうまく機能するが、見えないシーンやオブジェクトに一般化するのに苦労する。
一般化可能なエンボディ操作のための三進関係VLAフレームワークであるTriRelVLAを提案する。
実験は、微調整されたタスクにおいて強い性能を示し、クロスシーン、クロスオブジェクト、クロスタスクの一般化において明確なゲインを示す。
論文 参考訳(メタデータ) (2026-05-07T05:57:49Z) - Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning [27.48318501076437]
VLM(Vision-Language Models)はしばしば、視点を越えて同じオブジェクトの一貫性のない記述をもたらす。
本稿では,データアソシエーション,オブジェクトキャプション,探索ポリシを同時に処理するメモリ拡張型ビジョンランゲージエージェントを提案する。
標準キャプションスコアでは+11.86%、ベースラインモデルでは+7.39%の改善が見られた。
論文 参考訳(メタデータ) (2026-03-25T12:52:32Z) - ToG-Bench: Task-Oriented Spatio-Temporal Grounding in Egocentric Videos [44.050522958181496]
ToG-Benchは、Egoビデオのためのタスク指向固有の時間的ビデオグラウンドティングベンチマークである。
ToG-Benchは、ScanNetからソースされたビデオに基づいて、100の注釈付きクリップと2,704のタスク指向の接地命令で構成されている。
広範囲な実験により、タスク指向STVGの課題と、明示的かつ多目的的なグラウンドリングにおけるパフォーマンスギャップが明らかになる。
論文 参考訳(メタデータ) (2025-12-03T10:54:44Z) - Tracking and Segmenting Anything in Any Modality [75.32774085793498]
そこで我々はSATAという汎用的なトラッキング・セグメンテーション・フレームワークを提案し、このフレームワークは任意のモダリティ入力でトラッキング・セグメンテーション・サブタスクの広帯域を統一する。
SATAは18の挑戦的なトラッキングとセグメンテーションベンチマークで優れたパフォーマンスを示し、より一般化可能なビデオ理解のための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-11-22T09:09:22Z) - SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding [48.64661382961745]
本研究では,ビデオ中のすべての参照オブジェクトを同時に検出,追跡,時間的ローカライズするモデルを必要とする新しいタスクである,SVAG(Spatio-temporal Video Action Grounding)を紹介する。
SVAG-Benchは688の動画、19,590の注釈付きレコード、903のユニークな動詞からなる大規模ベンチマークである。
実験の結果、既存のモデルではSVAG、特に密集したシーンや複雑なシーンでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2025-10-14T22:10:49Z) - Contextualized Representation Learning for Effective Human-Object Interaction Detection [17.242400169885453]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間オブジェクトのペアを同時にローカライズし、その相互作用を認識することを目的としている。
本研究では,条件付き推論と文脈的プロンプトを統合した文脈適応型表現学習を提案する。
提案手法は, HICO-DetデータセットとV-COCOデータセットの両方において, 多くのシナリオにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-16T08:03:16Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。