論文の概要: Kiss up, Kick down: Exploring Behavioral Changes in Multi-modal Large Language Models with Assigned Visual Personas
- arxiv url: http://arxiv.org/abs/2410.03181v1
- Date: Fri, 4 Oct 2024 06:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:14:31.061404
- Title: Kiss up, Kick down: Exploring Behavioral Changes in Multi-modal Large Language Models with Assigned Visual Personas
- Title(参考訳): Kiss up, Kick down: ビジュアルペルソナを割り当てたマルチモーダル大規模言語モデルの振る舞い変化を探る
- Authors: Seungjong Sun, Eungu Lee, Seo Yeon Baek, Seunghyun Hwang, Wonbyung Lee, Dongyan Nan, Bernard J. Jansen, Jang Hyun Kim,
- Abstract要約: 本研究は,マルチモーダル大言語モデル(LLM)が視覚的ペルソナと振舞いを調整できるかどうかを初めて検討するものである。
LLMの視覚的パーソナとして、5Kの架空のアバター画像の新たなデータセットを開発した。
- 参考スコア(独自算出の注目度): 15.175707164959562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study is the first to explore whether multi-modal large language models (LLMs) can align their behaviors with visual personas, addressing a significant gap in the literature that predominantly focuses on text-based personas. We developed a novel dataset of 5K fictional avatar images for assignment as visual personas to LLMs, and analyzed their negotiation behaviors based on the visual traits depicted in these images, with a particular focus on aggressiveness. The results indicate that LLMs assess the aggressiveness of images in a manner similar to humans and output more aggressive negotiation behaviors when prompted with an aggressive visual persona. Interestingly, the LLM exhibited more aggressive negotiation behaviors when the opponent's image appeared less aggressive than their own, and less aggressive behaviors when the opponents image appeared more aggressive.
- Abstract(参考訳): 本研究は,多モーダル大言語モデル(LLM)が視覚的ペルソナと行動の整合性について検討し,主にテキストに基づくペルソナに焦点を当てた文献における大きなギャップに対処する試みである。
我々は,LLMの視覚的ペルソナとして割り当てるための5K架空のアバター画像の新たなデータセットを開発し,これらの画像に表される視覚的特徴に基づいて,アグレッシブ性に着目して,それらの交渉行動を分析した。
その結果,LLMは人間に類似した方法で画像の攻撃性を評価し,攻撃的な視覚的ペルソナを刺激するとより攻撃的な交渉行動を出力することがわかった。
興味深いことに、LLMは、相手のイメージが自分より攻撃的でなく、相手のイメージが攻撃的に見えるときの攻撃的行動がより少ない場合に、より攻撃的な交渉行動を示した。
関連論文リスト
- PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。
第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:14:06Z) - Improving Adversarial Transferability of Vision-Language Pre-training Models through Collaborative Multimodal Interaction [22.393624206051925]
既存の研究は、ビジョンランゲージ事前訓練モデルに対する攻撃の伝達可能性を研究することはめったにない。
我々はCMI-Attack(Collaborative Multimodal Interaction Attack)と呼ばれる新しい攻撃を提案する。
CMI-AttackはALBEFからTCL、textCLIP_textViT$と$textCLIP_textCNN$の転送成功率を8.11%-16.75%向上させる。
論文 参考訳(メタデータ) (2024-03-16T10:32:24Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - LAMP: Leveraging Language Prompts for Multi-person Pose Estimation [8.983326069321981]
LAMP(Language Assisted Multi-person Pose Estimation)と呼ばれる新しいプロンプトベースのポーズ推論手法を提案する。
十分に訓練された言語モデル(CLIP)によって生成されたテキスト表現を利用することで、LAMPはインスタンスと関節レベルにおけるポーズの理解を容易にすることができる。
本稿では,言語指導型学習が単一段階多人数ポーズ推定の性能を向上させることを示す。
論文 参考訳(メタデータ) (2023-07-21T23:00:43Z) - MSR: Making Self-supervised learning Robust to Aggressive Augmentations [98.6457801252358]
本稿では,弱いペアと攻撃的なペアの役割のバランスをとることによって,意味変化の影響に対処する新たなSSLパラダイムを提案する。
我々は,BYOLを2.5%改善したResNet-50を200エポックとして,ImageNet-1Kで73.1%のTop-1精度を実現したことを示す。
論文 参考訳(メタデータ) (2022-06-04T14:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。