論文の概要: Preconditioned Visual Language Inference with Weak Supervision
- arxiv url: http://arxiv.org/abs/2306.01753v1
- Date: Mon, 22 May 2023 16:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-11 14:07:42.170450
- Title: Preconditioned Visual Language Inference with Weak Supervision
- Title(参考訳): 弱スーパービジョンを用いた事前条件付きビジュアル言語推論
- Authors: Ehsan Qasemi, Amani R. Maina-Kilaas, Devadutta Dash, Khalid Alsaggaf,
Muhao Chen
- Abstract要約: 人間は、シナリオごとに関連する文脈的前提条件を抽出することで、オブジェクトの余裕を推測することができる。
SOTA視覚言語モデル(VLM)がそのような前提条件を抽出し、それを用いてオブジェクトの可利用性を推定できるかどうかは不明である。
- 参考スコア(独自算出の注目度): 15.699168631274551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can infer the affordance of objects by extracting related contextual
preconditions for each scenario. For example, upon seeing an image of a broken
cup, we can infer that this precondition prevents the cup from being used for
drinking. Reasoning with preconditions of commonsense is studied in NLP where
the model explicitly gets the contextual precondition. However, it is unclear
if SOTA visual language models (VLMs) can extract such preconditions and infer
the affordance of objects with them. In this work, we introduce the task of
preconditioned visual language inference and rationalization (PVLIR). We
propose a learning resource based on three strategies to retrieve weak
supervision signals for the task and develop a human-verified test set for
evaluation. Our results reveal the shortcomings of SOTA VLM models in the task
and draw a road map to address the challenges ahead in improving them.
- Abstract(参考訳): 人間は、シナリオごとに関連する文脈条件を抽出することで、オブジェクトの余裕を推測することができる。
例えば、割れたカップの画像を見れば、このプリコンディションがカップが飲酒に使用されるのを妨げていると推測できる。
共感覚の前提条件による推論は、モデルが文脈的前提条件を明示的に取得するNLPで研究される。
しかし、SOTA視覚言語モデル(VLM)がそのような前提条件を抽出し、それを用いてオブジェクトの空き度を推定できるかどうかは不明である。
本研究では,事前条件付き視覚言語推論と合理化(PVLIR)の課題を紹介する。
本稿では,タスクの弱い監視信号を検索し,評価のための人間検証テストセットを開発するための3つの戦略に基づく学習資源を提案する。
この結果から,soma vlmモデルの問題点を明らかにし,今後の課題に対応するためのロードマップを作成する。
関連論文リスト
- What could go wrong? Discovering and describing failure modes in computer vision [27.6114923305978]
言語に基づく誤り説明可能性(LBEE)の問題を定式化する。
我々は,共同視覚・言語埋め込み空間で機能するソリューションを提案する。
提案手法は,特定の誤りの原因に関連する非自明な文を分離する。
論文 参考訳(メタデータ) (2024-08-08T14:01:12Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - CI w/o TN: Context Injection without Task Name for Procedure Planning [4.004155037293416]
指導ビデオにおけるプロシージャ計画には、ビデオからの視覚的なスタートとゴール観察に基づいて、ゴール指向のプランを作成することが含まれる。
従来の研究では、中間的な視覚観察や言語指導からタスククラスの監督に至るまで、徐々に訓練の監督を弱めることでこの問題に対処してきた。
既存の大規模言語モデルでは解決不可能なタスク名を監視対象として含まない,はるかに弱い設定を提案する。
論文 参考訳(メタデータ) (2024-02-23T19:34:47Z) - Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。
テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。
VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Improved Visual Fine-tuning with Natural Language Supervision [36.250244364023665]
視覚的事前学習モデルの微調整は、大規模事前学習データからの意味情報を活用することができる。
術前訓練した背骨における破折性忘れの問題は、微調整のために広く研究されている。
固定テキスト分類器から得られた参照分布を導入し,学習した視覚分類器の正規化を支援する。
論文 参考訳(メタデータ) (2023-04-04T03:08:02Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Effective Sequence-to-Sequence Dialogue State Tracking [22.606650177804966]
事前学習対象の選択は、状態追跡品質に有意な違いをもたらすことを示す。
また、状態追跡モデルに対して、テキスト要約のための予測に基づく事前学習目的であるPegasusについても検討する。
その結果,対話状態の追跡には,遠隔要約タスクの事前学習が驚くほど有効であることが判明した。
論文 参考訳(メタデータ) (2021-08-31T17:27:59Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。