Fugu-MT 論文翻訳(概要): ViLPAct: A Benchmark for Compositional Generalization on Multimodal Human Activities

論文の概要: ViLPAct: A Benchmark for Compositional Generalization on Multimodal Human Activities

arxiv url: http://arxiv.org/abs/2210.05556v1
Date: Tue, 11 Oct 2022 15:50:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 13:59:52.789310
Title: ViLPAct: A Benchmark for Compositional Generalization on Multimodal Human Activities
Title（参考訳）: ViLPAct:マルチモーダルヒューマンアクティビティの総合化のためのベンチマーク
Authors: Terry Yue Zhuo and Yaqing Liao and Yuecheng Lei and Lizhen Qu and Gerard de Melo and Xiaojun Chang and Yazhou Ren and Zenglin Xu
Abstract要約: ViLPActは人間の活動計画のためのビジョン言語ベンチマークである。データセットは、クラウドソーシングを通じて意図を持って拡張されたチャレードから2.9kのビデオで構成されている。
参考スコア（独自算出の注目度）: 68.93275430102118
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We introduce ViLPAct, a novel vision-language benchmark for human activity planning. It is designed for a task where embodied AI agents can reason and forecast future actions of humans based on video clips about their initial activities and intents in text. The dataset consists of 2.9k videos from \charades extended with intents via crowdsourcing, a multi-choice question test set, and four strong baselines. One of the baselines implements a neurosymbolic approach based on a multi-modal knowledge base (MKB), while the other ones are deep generative models adapted from recent state-of-the-art (SOTA) methods. According to our extensive experiments, the key challenges are compositional generalization and effective use of information from both modalities.
Abstract（参考訳）: ViLPActは人間の活動計画のための新しい視覚モデルベンチマークである。エンボディされたAIエージェントは、最初のアクティビティと意図をビデオクリップに基づいて人間の将来の行動を推論し、予測できるタスクのために設計されている。データセットは、クラウドソーシングによる意図で拡張された \charadesの2.9kビデオ、マルチチョイスの質問テストセット、そして4つの強力なベースラインで構成されている。ベースラインの1つはマルチモーダル知識ベース(MKB)に基づくニューロシンボリックアプローチを実装し、もう1つは最近の最先端(SOTA)手法に適応した深層生成モデルである。我々の広範な実験によると、重要な課題は構成の一般化と両方のモダリティからの情報の効果的な利用である。

関連論文リスト

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。 VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文参考訳（メタデータ） (2024-12-24T06:03:42Z)
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology [31.779074930032184]
視覚障害者を支援するための人間中心補助技術(AT)は、複数のタスクを同時に実行することのできるジェネラリストへと進化している。われわれはまず、PVIsで事前設計されたユーザースタディによってガイドされた新しいATベンチマーク(@Bench)を作成する。さらに、全てのタスクを同時に処理し、PVIを支援するためにより補助的な機能に拡張できる新しいATモデル(@Model)を提案する。
論文参考訳（メタデータ） (2024-09-21T18:30:17Z)
Keypoints-Integrated Instruction-Following Data Generation for Enhanced Human Pose Understanding in Multimodal Models [1.9890559505377343]
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する新しい手法を提案する。提案手法は,人間中心の活動に優れる微調整モデルのために設計されたデータセットを生成する。実験の結果、LLaVA-7Bモデルと比較して21.18%の改善が見られた。
論文参考訳（メタデータ） (2024-09-14T05:07:57Z)
A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
エンボディードAIは、人工知能の重要な要素として広く認識されている。組込みAIにおける言語条件ロボットタスクに対処するために、マルチモーダルモデルの新たなカテゴリが登場した。具体的AIのための視覚-言語-アクションモデルに関する第1回調査を示す。
論文参考訳（メタデータ） (2024-05-23T01:43:54Z)
PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文参考訳（メタデータ） (2023-11-29T02:17:27Z)
Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech [107.81472531864195]
テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。ゼロショット方式で複数のタスクを実行するための命令チューニングを活用できるユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。
論文参考訳（メタデータ） (2023-09-18T06:43:30Z)
Deep Learning Technique for Human Parsing: A Survey and Outlook [5.236995853909988]
本調査では,1人のパース,複数人のパース,ビデオ人間のパースという3つのサブタスクを総合的にレビューする。我々はトランスフォーマーに基づくヒューマンパーシングフレームワークを提案し、フォローアップ研究のための高性能なベースラインを提供する。この分野では未検討のオープンな課題の集合を指摘し、今後の研究に向けた新たな方向性を提案する。
論文参考訳（メタデータ） (2023-01-01T12:39:57Z)
Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis [25.482853330324748]
近年,マルチモーダル・アスペクトベース感性分析 (MABSA) が注目されている。 i) クロスモーダルアライメントを無視した事前学習された視覚モデルとテキストモデル、または(ii) 一般的な事前学習タスクで事前訓練された視覚的なきめ細やかなモデルのいずれかを使用する。我々は,MABSA(MABSA)のためのタスク固有のビジョンランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-17T08:44:00Z)
Versatile Multi-Modal Pre-Training for Human-Centric Perception [32.62404509079062]
本稿では,効果的な表現学習のための人間中心型マルチモーダルコントラスト学習フレームワークHCMoCoを提案する。モーダル不変潜在空間を階層的に学習することで、サンプル内コントラスト学習とスパース構造対応コントラスト学習を目標とする。異なるモードの下流4つのタスクの実験によりHCMoCoの有効性が示された。
論文参考訳（メタデータ） (2022-03-25T17:58:29Z)
Vision-Language Intelligence: Tasks, Representation Learning, and Large Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文参考訳（メタデータ） (2022-03-03T18:54:59Z)
LEMMA: A Multi-view Dataset for Learning Multi-agent Multi-task Activities [119.88381048477854]
LEMMAデータセットを導入し、細心の注意深い設定で、行方不明な次元に対処するための単一の家を提供する。我々は、人間と物体の相互作用による原子間相互作用を密に注釈し、日常の活動の構成性、スケジューリング、割り当ての土台として提供する。この取り組みにより、マシンビジョンコミュニティは、目標指向の人間活動を調べ、現実世界におけるタスクのスケジューリングと割り当てをさらに研究できることを期待します。
論文参考訳（メタデータ） (2020-07-31T00:13:54Z)
Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-28T12:40:59Z)
The IKEA ASM Dataset: Understanding People Assembling Furniture through Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文参考訳（メタデータ） (2020-07-01T11:34:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。