論文の概要: A Multimodal Social Agent
- arxiv url: http://arxiv.org/abs/2501.06189v1
- Date: Wed, 11 Dec 2024 22:04:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 07:48:10.744443
- Title: A Multimodal Social Agent
- Title(参考訳): マルチモーダルソーシャルエージェント
- Authors: Athina Bikaki, Ioannis A. Kakadiaris,
- Abstract要約: 本稿では,人間中心のコンテンツ分析タスクに適したテキストリッチなソーシャルコンテンツを解析するマルチモーダルLLMエージェントであるMuSAを紹介する。
我々のアプローチは、MuSAがソーシャルコンテンツ分析を自動化し、改善できることを示し、様々なアプリケーションにおける意思決定プロセスを支援する。
- 参考スコア(独自算出の注目度): 3.4530027457862
- License:
- Abstract: In recent years, large language models (LLMs) have demonstrated remarkable progress in common-sense reasoning tasks. This ability is fundamental to understanding social dynamics, interactions, and communication. However, the potential of integrating computers with these social capabilities is still relatively unexplored. However, the potential of integrating computers with these social capabilities is still relatively unexplored. This paper introduces MuSA, a multimodal LLM-based agent that analyzes text-rich social content tailored to address selected human-centric content analysis tasks, such as question answering, visual question answering, title generation, and categorization. It uses planning, reasoning, acting, optimizing, criticizing, and refining strategies to complete a task. Our approach demonstrates that MuSA can automate and improve social content analysis, helping decision-making processes across various applications. We have evaluated our agent's capabilities in question answering, title generation, and content categorization tasks. MuSA performs substantially better than our baselines.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は常識推論タスクにおいて顕著な進歩を見せている。
この能力は、社会的ダイナミクス、相互作用、コミュニケーションを理解するのに不可欠である。
しかし、これらの社会的能力とコンピュータを統合する可能性はまだ明らかにされていない。
しかし、これらの社会的能力とコンピュータを統合する可能性はまだ明らかにされていない。
本稿では, 質問応答, 視覚的質問応答, タイトル生成, 分類などの, 人文中心のコンテンツ分析タスクに対処するために, テキストリッチなソーシャルコンテンツを解析するマルチモーダル LLM エージェントである MuSA を紹介する。
計画、推論、行動、最適化、批判、そしてタスクを完了するための戦略の修正が使われます。
我々のアプローチは、MuSAがソーシャルコンテンツ分析を自動化し、改善できることを示し、様々なアプリケーションにおける意思決定プロセスを支援する。
質問応答,タイトル生成,コンテンツ分類タスクにおけるエージェントの能力を評価した。
MuSAは我々のベースラインよりもかなり良く機能します。
関連論文リスト
- AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.878966229688054]
本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
我々はERG理論を用いて目標を分析し、包括的な実験を行う。
以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-25T07:04:16Z) - SocialGFs: Learning Social Gradient Fields for Multi-Agent Reinforcement Learning [58.84311336011451]
マルチエージェント強化学習のための新しい勾配に基づく状態表現を提案する。
オフラインサンプルからソーシャルグラデーションフィールド(SocialGF)を学習するために,デノジングスコアマッチングを採用している。
実際に、SocialGFをMAPPOなど、広く使われているマルチエージェント強化学習アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-05-03T04:12:19Z) - Advancing Social Intelligence in AI Agents: Technical Challenges and Open Questions [67.60397632819202]
ソーシャルインテリジェントAIエージェント(Social-AI)の構築は、多分野、マルチモーダルな研究目標である。
我々は、社会AIを前進させるために、基礎となる技術的課題と、コンピューティングコミュニティ全体にわたる研究者のためのオープンな質問を特定します。
論文 参考訳(メタデータ) (2024-04-17T02:57:42Z) - Exploring Autonomous Agents through the Lens of Large Language Models: A Review [0.0]
大規模言語モデル(LLM)は人工知能を変革し、自律エージェントがさまざまなドメインで多様なタスクを実行できるようにしている。
彼らは多目的性、人的価値のアライメント、幻覚、評価といった課題に直面している。
AgentBench、WebArena、ToolLLMといった評価プラットフォームは、複雑なシナリオでこれらのエージェントを評価する堅牢な方法を提供します。
論文 参考訳(メタデータ) (2024-04-05T22:59:02Z) - Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future [59.78608958395464]
私たちは、包括的な社会AI分類と480のNLPデータセットからなるデータライブラリで構成される、ソーシャルAIデータインフラストラクチャを構築しています。
インフラストラクチャにより、既存のデータセットの取り組みを分析し、異なるソーシャルインテリジェンスの観点から言語モデルのパフォーマンスを評価することができます。
多面的なデータセットの必要性、言語と文化の多様性の向上、より長期にわたる社会的状況、そして将来のソーシャルインテリジェンスデータ活動におけるよりインタラクティブなデータの必要性が示されている。
論文 参考訳(メタデータ) (2024-02-28T00:22:42Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - GPT-4V(ision) as A Social Media Analysis Engine [77.23394183063238]
本稿では,GPT-4Vのソーシャルマルチメディア分析能力について考察する。
我々は、感情分析、ヘイトスピーチ検出、フェイクニュース識別、人口推定、政治的イデオロギー検出を含む5つの代表的なタスクを選択する。
GPT-4Vはこれらのタスクにおいて顕著な効果を示し、画像とテキストのペアの理解、文脈と文化の認識、広義のコモンセンス知識などの強みを示している。
論文 参考訳(メタデータ) (2023-11-13T18:36:50Z) - Machine-assisted quantitizing designs: augmenting humanities and social sciences with artificial intelligence [0.0]
大規模言語モデル(LLM)は、人文科学や社会科学におけるデータ分析をスケールアップする前例のない機会であることが示された。
設計原則を定量化し、変換し、言語学から特徴分析し、人間の専門知識と機械のスケーラビリティを透過的に統合する混合手法を構築します。
このアプローチは、1ダース以上のLDM支援ケーススタディで議論され、9つの多様な言語、複数の規律、タスクをカバーしている。
論文 参考訳(メタデータ) (2023-09-24T14:21:50Z) - SocialAI: Benchmarking Socio-Cognitive Abilities in Deep Reinforcement
Learning Agents [23.719833581321033]
人間との社会的相互作用に参加することができる、具体化された自律エージェントを構築することは、AIの主要な課題の1つだ。
人間レベルのAIを目指すためには、より広範な社会的スキルが必要である、と私たちは主張する。
DRLエージェントの社会的スキル獲得を評価するためのベンチマークであるSocialAIを提案する。
論文 参考訳(メタデータ) (2021-07-02T10:39:18Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。