論文の概要: Multimodal Shannon Game with Images
- arxiv url: http://arxiv.org/abs/2303.11192v2
- Date: Fri, 27 Sep 2024 08:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 15:24:36.826567
- Title: Multimodal Shannon Game with Images
- Title(参考訳): 画像付きマルチモーダルシャノンゲーム
- Authors: Vilém Zouhar, Sunit Bhattacharya, Ondřej Bojar,
- Abstract要約: 我々は、画像情報としてオプションの余分なモダリティを導入することで、シャノンゲームを拡張する。
画像情報の追加により、人間とLMの両方の自己報告された信頼度と精度が向上することを示す。
- 参考スコア(独自算出の注目度): 4.292303413105488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Shannon game has long been used as a thought experiment in linguistics and NLP, asking participants to guess the next letter in a sentence based on its preceding context. We extend the game by introducing an optional extra modality in the form of image information. To investigate the impact of multimodal information in this game, we use human participants and a language model (LM, GPT-2). We show that the addition of image information improves both self-reported confidence and accuracy for both humans and LM. Certain word classes, such as nouns and determiners, benefit more from the additional modality information. The priming effect in both humans and the LM becomes more apparent as the context size (extra modality information + sentence context) increases. These findings highlight the potential of multimodal information in improving language understanding and modeling.
- Abstract(参考訳): シャノンゲームは長年、言語学やNLPにおける思考実験として使われており、参加者に、前の文脈に基づいて次の文字を推測するよう求めてきた。
画像情報の形式でオプションの余分なモダリティを導入することで、ゲームを拡張します。
本ゲームにおけるマルチモーダル情報の影響を調べるため,人間と言語モデル(LM, GPT-2)を用いた。
画像情報の追加により、人間とLMの両方の自己報告された信頼度と精度が向上することを示す。
名詞や決定子などの一部の単語クラスは、追加のモダリティ情報から恩恵を受ける。
ヒトとLMの双方のプライミング効果は、文脈サイズが増加するにつれてより明らかになる。
これらの知見は、言語理解とモデリングを改善するためのマルチモーダル情報の可能性を強調している。
関連論文リスト
- Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Generalization algorithm of multimodal pre-training model based on
graph-text self-supervised training [0.0]
自己指導型トレーニングのためのマルチモーダル事前学習アルゴリズムを提案する。
フィルタ情報を用いて微調整を行う場合,グローバル音声データセットの翻訳効果は,ベースラインよりも0.5BLEU高いことがわかった。
論文 参考訳(メタデータ) (2023-02-16T03:34:08Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Visual Agreement Regularized Training for Multi-Modal Machine
Translation [39.94687063888919]
マルチモーダル機械翻訳は、ペア画像の存在下で、ソース文を別の言語に翻訳することを目的としている。
視覚情報をよりよく活用するために、この研究は、視覚的コンセンサスを規則化されたトレーニングとして提示する。
提案手法は、ソース・ツー・ターゲットとターゲット・ツー・ソースの翻訳モデルを共同で訓練し、視覚情報に同じ焦点を移すことを奨励する。
論文 参考訳(メタデータ) (2019-12-27T07:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。