論文の概要: A Thousand Words or An Image: Studying the Influence of Persona Modality in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2502.20504v1
- Date: Thu, 27 Feb 2025 20:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:26.371385
- Title: A Thousand Words or An Image: Studying the Influence of Persona Modality in Multimodal LLMs
- Title(参考訳): 千語, イメージ:多モードLLMにおけるペルソナモダリティの影響について
- Authors: Julius Broomfield, Kartik Sharma, Srijan Kumar,
- Abstract要約: 年齢、性別、職業、場所によって異なる40種類の個人からなる新しいデータセットを作成します。
これは、画像のみ、テキストのみ、画像と小さなテキストの組み合わせ、そしてタイポグラフィー画像の4つのモダリティから構成される。
総合的な実験では、詳細なテキストで表されるペルソナはより言語的な習慣を示すのに対し、タイポグラフィ画像はペルソナとより整合性を示すことが多い。
- 参考スコア(独自算出の注目度): 21.08821957575833
- License:
- Abstract: Large language models (LLMs) have recently demonstrated remarkable advancements in embodying diverse personas, enhancing their effectiveness as conversational agents and virtual assistants. Consequently, LLMs have made significant strides in processing and integrating multimodal information. However, even though human personas can be expressed in both text and image, the extent to which the modality of a persona impacts the embodiment by the LLM remains largely unexplored. In this paper, we investigate how do different modalities influence the expressiveness of personas in multimodal LLMs. To this end, we create a novel modality-parallel dataset of 40 diverse personas varying in age, gender, occupation, and location. This consists of four modalities to equivalently represent a persona: image-only, text-only, a combination of image and small text, and typographical images, where text is visually stylized to convey persona-related attributes. We then create a systematic evaluation framework with 60 questions and corresponding metrics to assess how well LLMs embody each persona across its attributes and scenarios. Comprehensive experiments on $5$ multimodal LLMs show that personas represented by detailed text show more linguistic habits, while typographical images often show more consistency with the persona. Our results reveal that LLMs often overlook persona-specific details conveyed through images, highlighting underlying limitations and paving the way for future research to bridge this gap. We release the data and code at https://github.com/claws-lab/persona-modality .
- Abstract(参考訳): 大規模言語モデル(LLM)は近年,多様なペルソナを具現化し,会話エージェントや仮想アシスタントとしての有効性を高めている。
その結果、LLMはマルチモーダル情報の処理と統合において大きな進歩を遂げた。
しかしながら、人間のペルソナはテキストと画像の両方で表現できるが、そのペルソナのモダリティがLDMの実施にどのような影響を及ぼすかは明らかにされていない。
本稿では,マルチモーダルLLMにおけるペルソナの表現性に異なるモダリティがどう影響するかを検討する。
この目的のために、年齢、性別、職業、場所によって異なる40の多様な個人からなる新しいモダリティ並列データセットを作成する。
これは、画像のみ、テキストのみ、画像と小さなテキストの組み合わせ、およびタイポグラフィー画像の4つのモダリティから構成され、テキストは、ペルソナに関連する属性を伝えるために視覚的にスタイリングされる。
次に、60の質問とそれに対応するメトリクスを備えた体系的な評価フレームワークを作成し、それぞれのパーソナがそれぞれの属性やシナリオをどの程度うまく包含しているかを評価する。
5ドルでの総合的な実験では、詳細なテキストで表されるペルソナがより言語的な習慣を示すのに対し、タイポグラフィ画像はペルソナとより整合性を示すことが多い。
以上の結果から,LLMは画像を通して伝達されるペルソナ特有の細部を見落とし,基礎となる限界を強調し,このギャップを埋めるための今後の研究の道を開くことが示唆された。
データとコードはhttps://github.com/claws-lab/persona-modality で公開しています。
関連論文リスト
- Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals [8.41410889524315]
大規模視覚言語モデル(LVLM)によるテキストに含まれる社会的バイアスについて検討する。
異なる対物集合の画像を条件付けしながら、同一のオープンエンドテキストプロンプトを持つLVLMを提案する。
我々は,この逆ファクト・ジェネレーション・セッティングに基づいて,様々なモデルが生成したテキストを大規模に評価し,一般的なLVLMから5700万以上の応答を生成する。
論文 参考訳(メタデータ) (2024-05-30T15:27:56Z) - Uncovering Bias in Large Vision-Language Models with Counterfactuals [8.414108895243148]
大規模視覚言語モデル(LVLM)によるテキストに含まれる社会的バイアスについて検討する。
異なる対物集合の画像を条件付けしながら、同一のオープンエンドテキストプロンプトを持つLVLMを提案する。
入力画像に表現される人種,性別,身体的特徴などの社会的特性は,有毒度や有能な関連語の発生に大きく影響することがわかった。
論文 参考訳(メタデータ) (2024-03-29T21:45:53Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。