Fugu-MT 論文翻訳(概要): Mobilizing Waldo: Evaluating Multimodal AI for Public Mobilization

論文の概要: Mobilizing Waldo: Evaluating Multimodal AI for Public Mobilization

arxiv url: http://arxiv.org/abs/2412.14210v1
Date: Wed, 18 Dec 2024 00:10:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:15.834938
Title: Mobilizing Waldo: Evaluating Multimodal AI for Public Mobilization
Title（参考訳）: Waldoのモビライズ - パブリックモビライゼーションのためのマルチモーダルAIの評価
Authors: Manuel Cebrian, Petter Holme, Niccolo Pescetelli,
Abstract要約: 我々は,「Where's Waldo」を用いて,複雑で混み合った集まりのプロキシとしてのイメージを創出する。我々は,鍵となる個人を特定し,モビライゼーション戦略を定式化する際のモデルの性能を分析する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advancements in multimodal Large Language Models (LLMs), such as OpenAI's GPT-4o, offer significant potential for mediating human interactions across various contexts. However, their use in areas such as persuasion, influence, and recruitment raises ethical and security concerns. To evaluate these models ethically in public influence and persuasion scenarios, we developed a prompting strategy using "Where's Waldo?" images as proxies for complex, crowded gatherings. This approach provides a controlled, replicable environment to assess the model's ability to process intricate visual information, interpret social dynamics, and propose engagement strategies while avoiding privacy concerns. By positioning Waldo as a hypothetical agent tasked with face-to-face mobilization, we analyzed the model's performance in identifying key individuals and formulating mobilization tactics. Our results show that while the model generates vivid descriptions and creative strategies, it cannot accurately identify individuals or reliably assess social dynamics in these scenarios. Nevertheless, this methodology provides a valuable framework for testing and benchmarking the evolving capabilities of multimodal LLMs in social contexts.
Abstract（参考訳）: OpenAIのGPT-4oのようなマルチモーダルなLarge Language Model(LLM)の進歩は、さまざまなコンテキストにおける人間のインタラクションを仲介する大きな可能性を秘めている。しかし、説得、影響力、採用などの分野での使用は倫理的・安全上の懸念を提起する。そこで我々は,これらのモデルを「Where's Waldo?画像」を複雑で混み合った集まりのプロキシとして活用し,倫理的影響と説得のシナリオで倫理的に評価する手法を開発した。このアプローチは、複雑な視覚情報を処理し、社会的ダイナミクスを解釈し、プライバシの懸念を避けながらエンゲージメント戦略を提案するモデルの能力を評価するために、制御された、複製可能な環境を提供する。対面モビライゼーションを課題とする仮説エージェントとしてWaldoを配置することにより,主要な個人を特定し,モビライゼーション戦略を定式化する際のモデルの性能を解析した。以上の結果から,モデルが鮮明な記述や創造的戦略を生成する一方で,個人を正確に識別したり,これらのシナリオにおける社会的ダイナミクスを確実に評価することは不可能であることが示唆された。にもかかわらず、この方法論は、社会的文脈におけるマルチモーダルLLMの進化能力をテストし、ベンチマークするための貴重なフレームワークを提供する。

関連論文リスト

MBA: Multimodal Bidirectional Attack for Referring Expression Segmentation Models [2.5931446496646204]
Referring Expression (RES)は、自然言語記述に基づく画像の正確なオブジェクトセグメンテーションを可能にする。その印象的な性能にもかかわらず、RESモデルの敵の例に対する堅牢性はほとんど解明されていない。本稿では,RESモデルに適した新しい攻撃戦略である textbfMultimodal Bidirectional Attack を提案する。
論文参考訳（メタデータ） (2025-06-19T09:14:04Z)
Coordinated Robustness Evaluation Framework for Vision-Language Models [4.0196072781228285]
我々は、画像とテキストの両方を入力とし、共同表現を生成する一般的な代理モデルを訓練する。この協調攻撃戦略は、視覚的質問と回答と視覚的推論データセットに基づいて評価される。
論文参考訳（メタデータ） (2025-06-05T08:09:05Z)
Interpreting Social Bias in LVLMs via Information Flow Analysis and Multi-Round Dialogue Evaluation [1.7997395646080083]
大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な進歩を遂げているが、社会的偏見も顕著である。本稿では,情報フロー解析と多ラウンド対話評価を組み合わせた説明フレームワークを提案する。実験により、LVLMは異なる人口集団の画像を処理する際に、情報利用の体系的な差異を示すことが明らかとなった。
論文参考訳（メタデータ） (2025-05-27T12:28:44Z)
Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文参考訳（メタデータ） (2025-05-19T14:50:44Z)
SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users [70.02370111025617]
本稿では,社会シミュレーションのためのエージェント駆動世界モデルであるSocioVerseを紹介する。私たちのフレームワークは、4つの強力なアライメントコンポーネントと1000万の実際の個人からなるユーザプールを備えています。 SocioVerseは、多様性、信頼性、代表性を確保しつつ、大規模な人口動態を反映できることを示した。
論文参考訳（メタデータ） (2025-04-14T12:12:52Z)
IMPersona: Evaluating Individual Level LM Impersonation [28.040025302581366]
本稿では,特定の個人の書き方や個人の知識を擬人化するためのLM評価フレームワークであるIMPersonaを紹介する。我々は、Llama-3.1-8B-Instructのような、わずかにサイズのオープンソースモデルでさえ、関連するレベルでの偽造能力を達成することを実証した。
論文参考訳（メタデータ） (2025-04-06T02:57:58Z)
A Grounded Observer Framework for Establishing Guardrails for Foundation Models in Socially Sensitive Domains [1.9116784879310025]
基礎モデルの複雑さを考えると、エージェントの振る舞いを制約する従来の手法は直接適用できない。本稿では,行動保証とリアルタイム変動性の両方を提供する基礎モデルの挙動を制約する基盤となるオブザーバフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-23T22:57:05Z)
Build An Influential Bot In Social Media Simulations With Large Language Models [7.242974711907219]
本研究では,エージェントベースモデリング(ABM)とLarge Language Models(LLM)を組み合わせた新しいシミュレーション環境を提案する。本稿では,Reinforcement Learning (RL) の革新的応用として,世論指導者形成の過程を再現する手法を提案する。以上の結果から,行動空間の制限と自己観察の導入が,世論指導層形成の安定に寄与する重要な要因であることが示唆された。
論文参考訳（メタデータ） (2024-11-29T11:37:12Z)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは信頼性公正性誤用の可能性について批判的な議論を巻き起こしました埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文参考訳（メタデータ） (2024-11-21T09:46:55Z)
PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文参考訳（メタデータ） (2024-07-17T08:13:22Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文参考訳（メタデータ） (2024-03-20T11:27:20Z)
SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。 SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文参考訳（メタデータ） (2024-02-20T14:02:45Z)
Decoding the Silent Majority: Inducing Belief Augmented Social Graph with Large Language Model for Response Forecasting [74.68371461260946]
SocialSenseは、既存のソーシャルネットワーク上に信念中心のグラフを誘導するフレームワークであり、グラフベースの伝播によって社会的ダイナミクスを捉える。本手法は,ゼロショット設定と教師あり設定の両方に対する実験的な評価において,既存の最先端技術を超えている。
論文参考訳（メタデータ） (2023-10-20T06:17:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。