論文の概要: Preconditioned Visual Language Inference with Weak Supervision
- arxiv url: http://arxiv.org/abs/2306.01753v1
- Date: Mon, 22 May 2023 16:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-11 14:07:42.170450
- Title: Preconditioned Visual Language Inference with Weak Supervision
- Title(参考訳): 弱スーパービジョンを用いた事前条件付きビジュアル言語推論
- Authors: Ehsan Qasemi, Amani R. Maina-Kilaas, Devadutta Dash, Khalid Alsaggaf,
Muhao Chen
- Abstract要約: 人間は、シナリオごとに関連する文脈的前提条件を抽出することで、オブジェクトの余裕を推測することができる。
SOTA視覚言語モデル(VLM)がそのような前提条件を抽出し、それを用いてオブジェクトの可利用性を推定できるかどうかは不明である。
- 参考スコア(独自算出の注目度): 15.699168631274551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can infer the affordance of objects by extracting related contextual
preconditions for each scenario. For example, upon seeing an image of a broken
cup, we can infer that this precondition prevents the cup from being used for
drinking. Reasoning with preconditions of commonsense is studied in NLP where
the model explicitly gets the contextual precondition. However, it is unclear
if SOTA visual language models (VLMs) can extract such preconditions and infer
the affordance of objects with them. In this work, we introduce the task of
preconditioned visual language inference and rationalization (PVLIR). We
propose a learning resource based on three strategies to retrieve weak
supervision signals for the task and develop a human-verified test set for
evaluation. Our results reveal the shortcomings of SOTA VLM models in the task
and draw a road map to address the challenges ahead in improving them.
- Abstract(参考訳): 人間は、シナリオごとに関連する文脈条件を抽出することで、オブジェクトの余裕を推測することができる。
例えば、割れたカップの画像を見れば、このプリコンディションがカップが飲酒に使用されるのを妨げていると推測できる。
共感覚の前提条件による推論は、モデルが文脈的前提条件を明示的に取得するNLPで研究される。
しかし、SOTA視覚言語モデル(VLM)がそのような前提条件を抽出し、それを用いてオブジェクトの空き度を推定できるかどうかは不明である。
本研究では,事前条件付き視覚言語推論と合理化(PVLIR)の課題を紹介する。
本稿では,タスクの弱い監視信号を検索し,評価のための人間検証テストセットを開発するための3つの戦略に基づく学習資源を提案する。
この結果から,soma vlmモデルの問題点を明らかにし,今後の課題に対応するためのロードマップを作成する。
関連論文リスト
- Mitigating Reversal Curse via Semantic-aware Permutation Training [61.216062411246064]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - CI w/o TN: Context Injection without Task Name for Procedure Planning [4.004155037293416]
指導ビデオにおけるプロシージャ計画には、ビデオからの視覚的なスタートとゴール観察に基づいて、ゴール指向のプランを作成することが含まれる。
従来の研究では、中間的な視覚観察や言語指導からタスククラスの監督に至るまで、徐々に訓練の監督を弱めることでこの問題に対処してきた。
既存の大規模言語モデルでは解決不可能なタスク名を監視対象として含まない,はるかに弱い設定を提案する。
論文 参考訳(メタデータ) (2024-02-23T19:34:47Z) - Evaluating VLMs for Score-Based, Multi-Probe Annotation of 3D Objects [73.50105018389958]
ラベルのない3Dオブジェクトは、様々なアノテーションタスクで事前訓練された視覚言語モデル(VLM)を利用する機会を提供する。
提案手法は, VLM のスコアをサンプル応答に用いて, VLM の問合せ毎に異なる因子を疎外する手法である。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation
of the Reversal Curse [73.65112477688353]
近年の研究では「逆の呪い」として知られる大きな言語モデルにおける現象が強調されている。
我々は、逆の呪いは特定のモデルの訓練目的の結果であると主張している。
本稿では、逆の呪いを軽減するために、新しい訓練手法BI Casual Language Modeling Optimization (BICO)を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Revisiting the Role of Language Priors in Vision-Language Models [96.59023532372842]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Improved Visual Fine-tuning with Natural Language Supervision [36.250244364023665]
視覚的事前学習モデルの微調整は、大規模事前学習データからの意味情報を活用することができる。
術前訓練した背骨における破折性忘れの問題は、微調整のために広く研究されている。
固定テキスト分類器から得られた参照分布を導入し,学習した視覚分類器の正規化を支援する。
論文 参考訳(メタデータ) (2023-04-04T03:08:02Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Effective Sequence-to-Sequence Dialogue State Tracking [22.606650177804966]
事前学習対象の選択は、状態追跡品質に有意な違いをもたらすことを示す。
また、状態追跡モデルに対して、テキスト要約のための予測に基づく事前学習目的であるPegasusについても検討する。
その結果,対話状態の追跡には,遠隔要約タスクの事前学習が驚くほど有効であることが判明した。
論文 参考訳(メタデータ) (2021-08-31T17:27:59Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。