論文の概要: Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement
- arxiv url: http://arxiv.org/abs/2404.04627v1
- Date: Sat, 6 Apr 2024 13:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 20:19:42.383105
- Title: Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement
- Title(参考訳): 視覚強化による視覚プログラム合成改善のための自己学習型大規模言語モデル
- Authors: Zaid Khan, Vijay Kumar BG, Samuel Schulter, Yun Fu, Manmohan Chandraker,
- Abstract要約: ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
- 参考スコア(独自算出の注目度): 93.73648674743097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual program synthesis is a promising approach to exploit the reasoning abilities of large language models for compositional computer vision tasks. Previous work has used few-shot prompting with frozen LLMs to synthesize visual programs. Training an LLM to write better visual programs is an attractive prospect, but it is unclear how to accomplish this. No dataset of visual programs for training exists, and acquisition of a visual program dataset cannot be easily crowdsourced due to the need for expert annotators. To get around the lack of direct supervision, we explore improving the program synthesis abilities of an LLM using feedback from interactive experience. We propose a method where we exploit existing annotations for a vision-language task to improvise a coarse reward signal for that task, treat the LLM as a policy, and apply reinforced self-training to improve the visual program synthesis ability of the LLM for that task. We describe a series of experiments on object detection, compositional visual question answering, and image-text retrieval, and show that in each case, the self-trained LLM outperforms or performs on par with few-shot frozen LLMs that are an order of magnitude larger. Website: https://zaidkhan.me/ViReP
- Abstract(参考訳): ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
より良いビジュアルプログラムを書くためにLLMを訓練することは魅力的な可能性であるが、どうやってこれを達成すればよいのかは定かではない。
トレーニング用ビジュアルプログラムのデータセットは存在せず、エキスパートアノテータが必要なため、ビジュアルプログラムデータセットの取得は簡単にはクラウドソーシングできない。
直接監督の欠如を回避するため,対話型体験からのフィードバックを用いて,LLMのプログラム合成能力の向上を検討する。
本稿では,視覚言語タスクに対する既存のアノテーションを利用して,そのタスクに対する粗い報酬信号を即興で実現し,LLMをポリシーとして扱い,そのタスクに対するLLMの視覚的プログラム合成能力を向上させるために強化自己学習を適用する手法を提案する。
本稿では,オブジェクト検出,構成的視覚的質問応答,画像テキスト検索に関する一連の実験について述べる。
ウェブサイト:https://zaidkhan.me/ViReP
関連論文リスト
- VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。
我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing [61.95652444767649]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
VSP-LLMは15時間のラベル付きデータでより効果的に唇の動きを認識・翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - PerceptionGPT: Effectively Fusing Visual Perception into LLM [31.34127196055722]
視覚入力と大言語モデル(LLM)の統合は、多モーダル機能において顕著な進歩をもたらし、視覚的大言語モデル(VLLM)がもたらされた。
本稿では,視覚的知覚能力を持つVLLMを効率よく装備するPerceptionGPTという新しいエンドツーエンドフレームワークを提案する。
本手法は,視覚出力を離散トークンとして定式化する従来の手法によるトレーニングの難しさを著しく軽減する。
論文 参考訳(メタデータ) (2023-11-11T16:59:20Z) - Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。
我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。
視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文 参考訳(メタデータ) (2023-10-19T17:59:05Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - Using Large Language Models to Generate Engaging Captions for Data
Visualizations [51.98253121636079]
大規模言語モデル(LLM)は、高度なディープラーニング技術を用いて人間のような散文を生成する。
主な課題は、プロンプトエンジニアリングと呼ばれるLLMの最も効果的なプロンプトを設計することである。
我々は,LLM GPT-3を用いた最初の実験について報告し,いくつかの有望な結果を得た。
論文 参考訳(メタデータ) (2022-12-27T23:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。