論文の概要: VEGAS: Towards Visually Explainable and Grounded Artificial Social Intelligence
- arxiv url: http://arxiv.org/abs/2504.02227v1
- Date: Thu, 03 Apr 2025 02:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:51.803144
- Title: VEGAS: Towards Visually Explainable and Grounded Artificial Social Intelligence
- Title(参考訳): VEGAS:視覚的に説明可能な、地上の人工知能を目指して
- Authors: Hao Li, Hao Fei, Zechao Hu, Zhengwei Yang, Zheng Wang,
- Abstract要約: ソーシャルインテリジェンスクエリ(Social Intelligence Queries、Social-IQ)は、モデルのソーシャルインテリジェンスレベルを評価するための主要なマルチモーダルベンチマークである。
本稿では,視覚的説明可能・接地型人工知能(VEGAS)モデルを提案する。
- 参考スコア(独自算出の注目度): 22.086567828557683
- License:
- Abstract: Social Intelligence Queries (Social-IQ) serve as the primary multimodal benchmark for evaluating a model's social intelligence level. While impressive multiple-choice question(MCQ) accuracy is achieved by current solutions, increasing evidence shows that they are largely, and in some cases entirely, dependent on language modality, overlooking visual context. Additionally, the closed-set nature further prevents the exploration of whether and to what extent the reasoning path behind selection is correct. To address these limitations, we propose the Visually Explainable and Grounded Artificial Social Intelligence (VEGAS) model. As a generative multimodal model, VEGAS leverages open-ended answering to provide explainable responses, which enhances the clarity and evaluation of reasoning paths. To enable visually grounded answering, we propose a novel sampling strategy to provide the model with more relevant visual frames. We then enhance the model's interpretation of these frames through Generalist Instruction Fine-Tuning (GIFT), which aims to: i) learn multimodal-language transformations for fundamental emotional social traits, and ii) establish multimodal joint reasoning capabilities. Extensive experiments, comprising modality ablation, open-ended assessments, and supervised MCQ evaluations, consistently show that VEGAS effectively utilizes visual information in reasoning to produce correct and also credible answers. We expect this work to of fer a new perspective on Social-IQ and advance the development of human-like social AI.
- Abstract(参考訳): ソーシャルインテリジェンスクエリ(Social Intelligence Queries、Social-IQ)は、モデルのソーシャルインテリジェンスレベルを評価するための主要なマルチモーダルベンチマークである。
印象的な多重選択問題(MCQ)の精度は、現在のソリューションによって達成されているが、増大する証拠は、それらが大半が言語モダリティに依存しており、場合によっては視覚的コンテキストを見渡せることを示している。
さらに、閉集合の性質は、選択の背後にある推論経路がどの程度正しいかの探索をさらに妨げている。
これらの制約に対処するため,視覚的説明可能・接地型人工知能(VEGAS)モデルを提案する。
生成的マルチモーダルモデルとして、VEGASはオープンな応答を利用して説明可能な応答を提供し、推論パスの明確化と評価を高める。
そこで本研究では,より関連性の高いビジュアルフレームをモデルに提供するための新しいサンプリング手法を提案する。
次に、汎用インストラクションファインタニング(GIFT:Generalist Instruction Fine-Tuning)を通して、これらのフレームのモデル解釈を強化する。
一 基本的情緒的社会的特質のための多モーダル言語変換を学習し、
二 マルチモーダル共同推論能力を確立すること。
モダリティ・アブレーション、オープン・エンド・アセスメント、教師付きMCQ評価を含む広範囲な実験は、VEGASが推論において視覚情報を効果的に活用し、正確かつ信頼性の高い回答を生成することを一貫して示している。
この作業は、Social-IQに関する新たな視点を導き、人間のようなソーシャルAIの開発を前進させるものと期待している。
関連論文リスト
- Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - From Feature Importance to Natural Language Explanations Using LLMs with RAG [4.204990010424084]
大規模言語モデル(LLM)の応答に外部知識リポジトリを活用して,トレーサブルな質問応答を導入する。
この知識リポジトリは、高レベルの特徴、特徴の重要性、代替確率を含む、モデルの出力に関するコンテキストの詳細を含む。
社会的・因果的・選択的・コントラスト的な4つの重要な特徴を、人間の説明に関する社会科学研究から一発のプロンプトへと統合し、応答生成過程を導く。
論文 参考訳(メタデータ) (2024-07-30T17:27:20Z) - Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation [34.45251681923171]
本稿では,大規模視覚・言語モデル(VLM)の開発に向けた新しいアプローチを提案する。
本稿では,質問に対して必要な知識を習得し,推論プロセスの堅牢性と説明可能性を高めるシステムを提案する。
データセットは、キャプション生成のような一般的なタスクから、専門家の知識を必要とする専門的なVQAタスクまで、さまざまなタスクをカバーする。
論文 参考訳(メタデータ) (2024-01-18T14:21:56Z) - DeSIQ: Towards an Unbiased, Challenging Benchmark for Social
Intelligence Understanding [60.84356161106069]
複雑な社会的相互作用のビデオ上での複数選択質問のデータセットであるSocial-IQの健全性について検討する。
分析の結果,Social-IQにはある程度のバイアスがあり,適度に強い言語モデルによって活用できることがわかった。
ソーシャルIQに単純な摂動を適用して構築した,新たな挑戦的データセットであるDeSIQを紹介する。
論文 参考訳(メタデータ) (2023-10-24T06:21:34Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - COSMO: Conditional SEQ2SEQ-based Mixture Model for Zero-Shot Commonsense
Question Answering [50.65816570279115]
社会的文脈の暗黙的な原因と影響の特定は、機械が常識的推論を実行できるようにする駆動能力である。
この領域における現在のアプローチには、目に見えない状況に直面して常識推論を行う能力がない。
本稿では,動的かつ多様なコンテンツ生成機能を備えた条件付きSEQ2SEQベースの混合モデル(COSMO)を提案する。
論文 参考訳(メタデータ) (2020-11-02T07:08:19Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。