論文の概要: Mobilizing Waldo: Evaluating Multimodal AI for Public Mobilization
- arxiv url: http://arxiv.org/abs/2412.14210v1
- Date: Wed, 18 Dec 2024 00:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:47.308407
- Title: Mobilizing Waldo: Evaluating Multimodal AI for Public Mobilization
- Title(参考訳): Waldoのモビライズ - パブリックモビライゼーションのためのマルチモーダルAIの評価
- Authors: Manuel Cebrian, Petter Holme, Niccolo Pescetelli,
- Abstract要約: 我々は,「Where's Waldo」を用いて,複雑で混み合った集まりのプロキシとしてのイメージを創出する。
我々は,鍵となる個人を特定し,モビライゼーション戦略を定式化する際のモデルの性能を分析する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Advancements in multimodal Large Language Models (LLMs), such as OpenAI's GPT-4o, offer significant potential for mediating human interactions across various contexts. However, their use in areas such as persuasion, influence, and recruitment raises ethical and security concerns. To evaluate these models ethically in public influence and persuasion scenarios, we developed a prompting strategy using "Where's Waldo?" images as proxies for complex, crowded gatherings. This approach provides a controlled, replicable environment to assess the model's ability to process intricate visual information, interpret social dynamics, and propose engagement strategies while avoiding privacy concerns. By positioning Waldo as a hypothetical agent tasked with face-to-face mobilization, we analyzed the model's performance in identifying key individuals and formulating mobilization tactics. Our results show that while the model generates vivid descriptions and creative strategies, it cannot accurately identify individuals or reliably assess social dynamics in these scenarios. Nevertheless, this methodology provides a valuable framework for testing and benchmarking the evolving capabilities of multimodal LLMs in social contexts.
- Abstract(参考訳): OpenAIのGPT-4oのようなマルチモーダルなLarge Language Model(LLM)の進歩は、さまざまなコンテキストにおける人間のインタラクションを仲介する大きな可能性を秘めている。
しかし、説得、影響力、採用などの分野での使用は倫理的・安全上の懸念を提起する。
そこで我々は,これらのモデルを「Where's Waldo?画像」を複雑で混み合った集まりのプロキシとして活用し,倫理的影響と説得のシナリオで倫理的に評価する手法を開発した。
このアプローチは、複雑な視覚情報を処理し、社会的ダイナミクスを解釈し、プライバシの懸念を避けながらエンゲージメント戦略を提案するモデルの能力を評価するために、制御された、複製可能な環境を提供する。
対面モビライゼーションを課題とする仮説エージェントとしてWaldoを配置することにより,主要な個人を特定し,モビライゼーション戦略を定式化する際のモデルの性能を解析した。
以上の結果から,モデルが鮮明な記述や創造的戦略を生成する一方で,個人を正確に識別したり,これらのシナリオにおける社会的ダイナミクスを確実に評価することは不可能であることが示唆された。
にもかかわらず、この方法論は、社会的文脈におけるマルチモーダルLLMの進化能力をテストし、ベンチマークするための貴重なフレームワークを提供する。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Fusing Dynamics Equation: A Social Opinions Prediction Algorithm with LLM-based Agents [6.1923703280119105]
本稿では,ソーシャルメディア利用者の意見を動的に表現するための革新的なシミュレーション手法を提案する。
FDE-LLMアルゴリズムは意見力学と流行モデルを含む。
ユーザーを意見のリーダーとフォロワーに分類する。
論文 参考訳(メタデータ) (2024-09-13T11:02:28Z) - Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models [8.943713711458633]
我々は、フィードバックベースのモーダル・ミューチュアル・サーチ(FMMS)と呼ばれる新たな攻撃パラダイムを提案する。
FMMSは、マッチした画像とテキストのペアをランダムに描画しながら、特徴空間に不一致のペアを描画することを目的としている。
これは、ターゲットモデルフィードバックを利用して、マルチモーダリティの逆境を探索する最初の試みである。
論文 参考訳(メタデータ) (2024-08-27T02:31:39Z) - Towards "Differential AI Psychology" and in-context Value-driven Statement Alignment with Moral Foundations Theory [0.0]
本研究は,Moral Foundationのアンケートにおいて,パーソナライズされた言語モデルと調査参加者のアライメントについて検討する。
我々は、異なる政治的ペルソナにテキスト・トゥ・テキスト・モデルを適用し、繰り返しアンケートを行い、ペルソナとモデルの組み合わせの合成人口を生成する。
その結果, 適応型モデルでは, 政治的イデオロギーに対する調査をリードする評価が困難であることが示唆された。
論文 参考訳(メタデータ) (2024-08-21T08:20:41Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Decoding the Silent Majority: Inducing Belief Augmented Social Graph
with Large Language Model for Response Forecasting [74.68371461260946]
SocialSenseは、既存のソーシャルネットワーク上に信念中心のグラフを誘導するフレームワークであり、グラフベースの伝播によって社会的ダイナミクスを捉える。
本手法は,ゼロショット設定と教師あり設定の両方に対する実験的な評価において,既存の最先端技術を超えている。
論文 参考訳(メタデータ) (2023-10-20T06:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。