論文の概要: Mobilizing Waldo: Evaluating Multimodal AI for Public Mobilization
- arxiv url: http://arxiv.org/abs/2412.14210v1
- Date: Wed, 18 Dec 2024 00:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:47.308407
- Title: Mobilizing Waldo: Evaluating Multimodal AI for Public Mobilization
- Title(参考訳): Waldoのモビライズ - パブリックモビライゼーションのためのマルチモーダルAIの評価
- Authors: Manuel Cebrian, Petter Holme, Niccolo Pescetelli,
- Abstract要約: 我々は,「Where's Waldo」を用いて,複雑で混み合った集まりのプロキシとしてのイメージを創出する。
我々は,鍵となる個人を特定し,モビライゼーション戦略を定式化する際のモデルの性能を分析する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Advancements in multimodal Large Language Models (LLMs), such as OpenAI's GPT-4o, offer significant potential for mediating human interactions across various contexts. However, their use in areas such as persuasion, influence, and recruitment raises ethical and security concerns. To evaluate these models ethically in public influence and persuasion scenarios, we developed a prompting strategy using "Where's Waldo?" images as proxies for complex, crowded gatherings. This approach provides a controlled, replicable environment to assess the model's ability to process intricate visual information, interpret social dynamics, and propose engagement strategies while avoiding privacy concerns. By positioning Waldo as a hypothetical agent tasked with face-to-face mobilization, we analyzed the model's performance in identifying key individuals and formulating mobilization tactics. Our results show that while the model generates vivid descriptions and creative strategies, it cannot accurately identify individuals or reliably assess social dynamics in these scenarios. Nevertheless, this methodology provides a valuable framework for testing and benchmarking the evolving capabilities of multimodal LLMs in social contexts.
- Abstract(参考訳): OpenAIのGPT-4oのようなマルチモーダルなLarge Language Model(LLM)の進歩は、さまざまなコンテキストにおける人間のインタラクションを仲介する大きな可能性を秘めている。
しかし、説得、影響力、採用などの分野での使用は倫理的・安全上の懸念を提起する。
そこで我々は,これらのモデルを「Where's Waldo?画像」を複雑で混み合った集まりのプロキシとして活用し,倫理的影響と説得のシナリオで倫理的に評価する手法を開発した。
このアプローチは、複雑な視覚情報を処理し、社会的ダイナミクスを解釈し、プライバシの懸念を避けながらエンゲージメント戦略を提案するモデルの能力を評価するために、制御された、複製可能な環境を提供する。
対面モビライゼーションを課題とする仮説エージェントとしてWaldoを配置することにより,主要な個人を特定し,モビライゼーション戦略を定式化する際のモデルの性能を解析した。
以上の結果から,モデルが鮮明な記述や創造的戦略を生成する一方で,個人を正確に識別したり,これらのシナリオにおける社会的ダイナミクスを確実に評価することは不可能であることが示唆された。
にもかかわらず、この方法論は、社会的文脈におけるマルチモーダルLLMの進化能力をテストし、ベンチマークするための貴重なフレームワークを提供する。
関連論文リスト
- A Grounded Observer Framework for Establishing Guardrails for Foundation Models in Socially Sensitive Domains [1.9116784879310025]
基礎モデルの複雑さを考えると、エージェントの振る舞いを制約する従来の手法は直接適用できない。
本稿では,行動保証とリアルタイム変動性の両方を提供する基礎モデルの挙動を制約する基盤となるオブザーバフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-23T22:57:05Z) - Build An Influential Bot In Social Media Simulations With Large Language Models [7.242974711907219]
本研究では,エージェントベースモデリング(ABM)とLarge Language Models(LLM)を組み合わせた新しいシミュレーション環境を提案する。
本稿では,Reinforcement Learning (RL) の革新的応用として,世論指導者形成の過程を再現する手法を提案する。
以上の結果から,行動空間の制限と自己観察の導入が,世論指導層形成の安定に寄与する重要な要因であることが示唆された。
論文 参考訳(メタデータ) (2024-11-29T11:37:12Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Towards "Differential AI Psychology" and in-context Value-driven Statement Alignment with Moral Foundations Theory [0.0]
本研究は,Moral Foundationのアンケートにおいて,パーソナライズされた言語モデルと調査参加者のアライメントについて検討する。
我々は、異なる政治的ペルソナにテキスト・トゥ・テキスト・モデルを適用し、繰り返しアンケートを行い、ペルソナとモデルの組み合わせの合成人口を生成する。
その結果, 適応型モデルでは, 政治的イデオロギーに対する調査をリードする評価が困難であることが示唆された。
論文 参考訳(メタデータ) (2024-08-21T08:20:41Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Decoding the Silent Majority: Inducing Belief Augmented Social Graph
with Large Language Model for Response Forecasting [74.68371461260946]
SocialSenseは、既存のソーシャルネットワーク上に信念中心のグラフを誘導するフレームワークであり、グラフベースの伝播によって社会的ダイナミクスを捉える。
本手法は,ゼロショット設定と教師あり設定の両方に対する実験的な評価において,既存の最先端技術を超えている。
論文 参考訳(メタデータ) (2023-10-20T06:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。