論文の概要: CI w/o TN: Context Injection without Task Name for Procedure Planning
- arxiv url: http://arxiv.org/abs/2402.15579v1
- Date: Fri, 23 Feb 2024 19:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:01:13.562797
- Title: CI w/o TN: Context Injection without Task Name for Procedure Planning
- Title(参考訳): CI w/o TN: プロシージャ計画のためのタスク名なしコンテキストインジェクション
- Authors: Xinjie Li
- Abstract要約: 指導ビデオにおけるプロシージャ計画には、ビデオからの視覚的なスタートとゴール観察に基づいて、ゴール指向のプランを作成することが含まれる。
従来の研究では、中間的な視覚観察や言語指導からタスククラスの監督に至るまで、徐々に訓練の監督を弱めることでこの問題に対処してきた。
既存の大規模言語モデルでは解決不可能なタスク名を監視対象として含まない,はるかに弱い設定を提案する。
- 参考スコア(独自算出の注目度): 4.004155037293416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the challenge of procedure planning in instructional
videos, which involves creating goal-directed plans based on visual start and
goal observations from videos. Previous research has tackled this problem with
gradually weaker training supervision, from heavy intermediate visual
observations or language instructions to task class supervision. However, with
the advent of large language models, even given only the task name, these
models can produce a detailed plan. In this study, we propose a much weaker
setting without task name as supervision, which is not currently solvable by
existing large language models since they require good prompts with sufficient
information. Specifically, we hypothesize that previous intermediate
supervisions can serve as context information, and we use captions of visual
start and goal observations as a much cheaper form of supervision. This
approach greatly reduces the labeling cost since the captions can be easily
obtained by large pre-trained vision-language foundation models. Technically,
we apply BLIP to generate captions as supervision to train the context feature
with contrastive learning loss. Afterward, the context feature is fed into the
generator to aid in plan generation. Our experiments on two datasets with
varying scales demonstrate that our model can achieve comparable performance on
multiple metrics, which validates our hypothesis.
- Abstract(参考訳): 本論文は,映像からの視覚的開始とゴール観察に基づく目標指向の計画を作成する授業ビデオにおける手続き計画の課題を考察する。
従来の研究では、中間的な視覚観察や言語指導からタスククラスの監督に至るまで、徐々に訓練の監督が弱まっている。
しかし、大きな言語モデルが出現し、タスク名のみを与えられたとしても、これらのモデルは詳細な計画を作成することができる。
本研究では,既存の大規模言語モデルでは十分な情報を必要とするため,現在解けていないタスク名を監督として含まない,はるかに弱い設定を提案する。
具体的には、従来の中間監督が文脈情報として機能しうると仮定し、視覚的開始と目標観測のキャプションをより安価な監督形態として利用する。
この手法は、大きな学習済みの視覚言語基礎モデルによりキャプションを容易に取得できるため、ラベリングコストを大幅に削減する。
技術的には、blipを使ってキャプションを生成し、コントラストのある学習損失を伴うコンテキスト機能をトレーニングします。
その後、コンテキスト機能はジェネレータに供給され、プラン生成を支援する。
異なるスケールの2つのデータセットに対する実験により、モデルが複数のメトリクスで同等のパフォーマンスを達成できることが示され、仮説が検証される。
関連論文リスト
- PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Pretrained Language Models as Visual Planners for Human Assistance [12.8775186900555]
Visual Planning for Assistance (VPA)は、ユーザが複雑な多段階目標を達成するためのツールである。
VPAをビデオアクションセグメンテーションと予測に分解する。
この新しいアプローチは、Visual Language Model Based Planner (VLaMP)と呼ばれ、一連のメトリクスでベースラインを上回ります。
論文 参考訳(メタデータ) (2023-04-17T18:07:36Z) - PDPP:Projected Diffusion for Procedure Planning in Instructional Videos [30.637651835289635]
授業ビデオにおけるプロシージャプランニングの問題について検討する。
この問題は、非構造化の実生活ビデオの現在の視覚的観察から、ゴール指向のプランを作成することを目的としている。
論文 参考訳(メタデータ) (2023-03-26T10:50:16Z) - A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.85753597586226]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (2023-03-16T02:02:18Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - P3IV: Probabilistic Procedure Planning from Instructional Videos with
Weak Supervision [31.73732506824829]
授業ビデオにおけるプロシージャプランニングの問題について検討する。
ここでは、エージェントは、与えられたスタートから望ましいゴール状態へ環境を変換できる、もっともらしい一連のアクションを生成しなければならない。
自然言語の指示から学習することで,弱い教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-04T19:37:32Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。