Fugu-MT 論文翻訳(概要): Emergent Natural Language with Communication Games for Improving Image Captioning Capabilities without Additional Data

論文の概要: Emergent Natural Language with Communication Games for Improving Image Captioning Capabilities without Additional Data

arxiv url: http://arxiv.org/abs/2507.08610v1
Date: Fri, 11 Jul 2025 14:08:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-14 18:03:54.381552
Title: Emergent Natural Language with Communication Games for Improving Image Captioning Capabilities without Additional Data
Title（参考訳）: 余分なデータを必要としない画像キャプション能力向上のためのコミュニケーションゲームによる創発的自然言語
Authors: Parag Dutta, Ambedkar Dukkipati,
Abstract要約: マルチエージェント強化学習ゲームであるLoGICを提案する。 GRPOアルゴリズムを用いて協調的共振器設定のエージェントを訓練する。我々は,事前学習したVLMを'スピーカー'として使用し,Large Language Model (LLM)を'リスナー'における言語理解に利用し,46ドルのBLEUスコアを得たことを示す。
参考スコア（独自算出の注目度）: 10.91762734823246
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image captioning is an important problem in developing various AI systems, and these tasks require large volumes of annotated images to train the models. Since all existing labelled datasets are already used for training the large Vision Language Models (VLMs), it becomes challenging to improve the performance of the same. Considering this, it is essential to consider the unsupervised image captioning performance, which remains relatively under-explored. To that end, we propose LoGIC (Lewis Communication Game for Image Captioning), a Multi-agent Reinforcement Learning game. The proposed method consists of two agents, a 'speaker' and a 'listener', with the objective of learning a strategy for communicating in natural language. We train agents in the cooperative common-reward setting using the GRPO algorithm and show that improvement in image captioning performance emerges as a consequence of the agents learning to play the game. We show that using pre-trained VLMs as the 'speaker' and Large Language Model (LLM) for language understanding in the 'listener', we achieved a $46$ BLEU score after fine-tuning using LoGIC without additional labels, a $2$ units advantage in absolute metrics compared to the $44$ BLEU score of the vanilla VLM. Additionally, we replace the VLM from the 'speaker' with lightweight components: (i) a ViT for image perception and (ii) a GPT2 language generation, and train them from scratch using LoGIC, obtaining a $31$ BLEU score in the unsupervised setting, a $10$ points advantage over existing unsupervised image-captioning methods.
Abstract（参考訳）: 画像キャプションは様々なAIシステムの開発において重要な問題であり、これらのタスクはモデルを訓練するために大量の注釈付き画像を必要とする。既存のラベル付きデータセットはすべて、すでに大きなビジョン言語モデル(VLM)のトレーニングに使用されているため、そのパフォーマンスを改善するのは難しい。これを考慮すると、まだ未調査の未監督画像キャプション性能を考えることが不可欠である。そこで我々は,マルチエージェント強化学習ゲームであるLoGIC(Lewis Communication Game for Image Captioning)を提案する。提案手法は「話者」と「リスナー」の2つのエージェントから構成され,自然言語によるコミュニケーション戦略の学習を目的としている。 GRPOアルゴリズムを用いて協調的共振器設定のエージェントを訓練し、ゲームプレイの学習の結果、画像キャプション性能の改善が現れることを示す。我々は,事前学習したVLMを'speaker'として,'listener'で言語理解のためのLarge Language Model (LLM)として使用し,ラベルを追加せずにLoGICを微調整した後,46ドルBLEUスコアを達成した。さらに、VLMを'speaker'から軽量コンポーネントに置き換えます。 (i)イメージ認識のためのViT (ii) GPT2言語生成を行い、LoGICを使用してスクラッチからトレーニングし、教師なし設定で311ドルBLEUスコアを得る。

関連論文リスト

TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。 LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。 MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文参考訳（メタデータ） (2024-11-21T16:33:30Z)
Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文参考訳（メタデータ） (2024-03-12T17:59:51Z)
Contrastive Vision-Language Alignment Makes Efficient Instruction Learner [31.281236193979165]
本研究では,大規模言語モデル(LLM)を視覚言語命令追従モデルに拡張する作業について検討する。既存の方法では、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させるのが一般的である。比較的および生成的アライメントの目的を適用し, ViT と LLM の表現を効果的に整合させる CG-VLM を提案する。
論文参考訳（メタデータ） (2023-11-29T03:29:46Z)
Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文参考訳（メタデータ） (2023-11-05T01:14:02Z)
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。 1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文参考訳（メタデータ） (2023-07-17T15:51:47Z)
Bootstrapping Vision-Language Learning with Decoupled Language Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文参考訳（メタデータ） (2023-07-13T21:08:15Z)
mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文参考訳（メタデータ） (2023-07-13T17:51:58Z)
Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。提案手法は, 事前学習法と容易に組み合わせることができる。
論文参考訳（メタデータ） (2022-11-20T12:10:53Z)
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。 BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。 BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文参考訳（メタデータ） (2022-01-28T12:49:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。