論文の概要: Predicting Implicit Arguments in Procedural Video Instructions
- arxiv url: http://arxiv.org/abs/2505.21068v1
- Date: Tue, 27 May 2025 11:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.620741
- Title: Predicting Implicit Arguments in Procedural Video Instructions
- Title(参考訳): 手続き型ビデオ指導における意図的主張の予測
- Authors: Anil Batra, Laura Sevilla-Lara, Marcus Rohrbach, Frank Keller,
- Abstract要約: Implicit-VidSRLは、調理手順における文脈情報から暗黙的かつ明示的な議論を推論する必要があるデータセットである。
近年の多モーダル LLM について検討し,多モーダルな手続きデータから動詞が与えられた場合の暗黙的な議論の予測に苦慮していることを明らかにした。
提案するiSRL-Qwen2-VLは,17%のF1スコア向上を実現し,14.7%がGPT-4o上でのセマンティックな役割を担っている。
- 参考スコア(独自算出の注目度): 31.927805750607536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Procedural texts help AI enhance reasoning about context and action sequences. Transforming these into Semantic Role Labeling (SRL) improves understanding of individual steps by identifying predicate-argument structure like {verb,what,where/with}. Procedural instructions are highly elliptic, for instance, (i) add cucumber to the bowl and (ii) add sliced tomatoes, the second step's where argument is inferred from the context, referring to where the cucumber was placed. Prior SRL benchmarks often miss implicit arguments, leading to incomplete understanding. To address this, we introduce Implicit-VidSRL, a dataset that necessitates inferring implicit and explicit arguments from contextual information in multimodal cooking procedures. Our proposed dataset benchmarks multimodal models' contextual reasoning, requiring entity tracking through visual changes in recipes. We study recent multimodal LLMs and reveal that they struggle to predict implicit arguments of what and where/with from multi-modal procedural data given the verb. Lastly, we propose iSRL-Qwen2-VL, which achieves a 17% relative improvement in F1-score for what-implicit and a 14.7% for where/with-implicit semantic roles over GPT-4o.
- Abstract(参考訳): 手続き的なテキストは、コンテキストとアクションシーケンスに関する推論を強化するのに役立つ。
これらをセマンティック・ロール・ラベル(SRL)に変換することで、{verb,what,where/with}のような述語論構造を識別することで、個々のステップの理解が向上する。
手続き的な指示は、例えば、非常に楕円的である。
(i)キュウリをボウルに加える
(二)スライストマトを加える。二番目のステップは、キュウリが置かれた場所を指して、文脈から議論が推測されるところである。
以前のSRLベンチマークはしばしば暗黙の議論を見逃し、不完全な理解につながった。
これを解決するために,マルチモーダル調理における文脈情報から暗黙的・明示的な議論を推論するデータセットであるImplicit-VidSRLを導入する。
提案するデータセットは、マルチモーダルモデルのコンテキスト推論をベンチマークし、レシピの視覚的変化によるエンティティ追跡を必要とする。
我々は近年の多モーダル LLM について検討し,多モーダルな手続きデータから動詞が与えられた場合の暗黙的な議論の予測に苦慮していることを明らかにした。
最後に, iSRL-Qwen2-VLを提案する。これは, F1スコアが17%向上し, GPT-4oよりも14.7%向上する。
関連論文リスト
- Context-Aware Hierarchical Merging for Long Document Summarization [56.96619074316232]
本論文では,階層的なマージをソース文書からコンテキストと統合する手法を提案する。
法的および物語的領域を表すデータセットの実験結果は、文脈的拡張がゼロショットと階層的な融合ベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-03T01:14:31Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Infusing Hierarchical Guidance into Prompt Tuning: A Parameter-Efficient
Framework for Multi-level Implicit Discourse Relation Recognition [16.647413058592125]
マルチレベル暗黙的談話関係認識(MIDRR)は,議論間の階層的談話関係の同定を目的とする。
本稿では,プロンプトベースを提案する。
上記の問題を解決するための多レベルIDRR(PEMI)フレームワーク。
論文 参考訳(メタデータ) (2024-02-23T03:53:39Z) - ULTRA: Unleash LLMs' Potential for Event Argument Extraction through Hierarchical Modeling and Pair-wise Self-Refinement [6.035020544588768]
イベント引数抽出(EAE)は、あるイベントのロール固有のテキストスパン(例えば、引数)を特定するタスクである。
本稿では,イベントの議論をよりコスト効率よく抽出する階層的枠組みを提案する。
議論の正確な境界を求める際に, LLM が直面する課題に対処するために LEAFER を導入する。
論文 参考訳(メタデータ) (2024-01-24T04:13:28Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Great Service! Fine-grained Parsing of Implicit Arguments [7.785534704637891]
ある種の暗黙の議論は、他のものよりも解析するのが困難であることを示す。
この作業は、暗黙的かつ未特定な言語をより理解しやすくし、それを意味表現にホリスティックに組み込む。
論文 参考訳(メタデータ) (2021-06-04T15:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。