論文の概要: A Survey on Interpretable Cross-modal Reasoning
- arxiv url: http://arxiv.org/abs/2309.01955v1
- Date: Tue, 5 Sep 2023 05:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 16:23:06.521899
- Title: A Survey on Interpretable Cross-modal Reasoning
- Title(参考訳): 解釈可能なクロスモーダル推論に関する調査
- Authors: Dizhan Xue, Shengsheng Qian, Zuyi Zhou, Changsheng Xu
- Abstract要約: マルチメディア分析から医療診断に至るまで、クロスモーダル推論(CMR)が重要な分野として浮上している。
この調査は、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げる
本調査では,I-CMRの3段階分類法について概説する。
- 参考スコア(独自算出の注目度): 64.37362731950843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, cross-modal reasoning (CMR), the process of understanding
and reasoning across different modalities, has emerged as a pivotal area with
applications spanning from multimedia analysis to healthcare diagnostics. As
the deployment of AI systems becomes more ubiquitous, the demand for
transparency and comprehensibility in these systems' decision-making processes
has intensified. This survey delves into the realm of interpretable cross-modal
reasoning (I-CMR), where the objective is not only to achieve high predictive
performance but also to provide human-understandable explanations for the
results. This survey presents a comprehensive overview of the typical methods
with a three-level taxonomy for I-CMR. Furthermore, this survey reviews the
existing CMR datasets with annotations for explanations. Finally, this survey
summarizes the challenges for I-CMR and discusses potential future directions.
In conclusion, this survey aims to catalyze the progress of this emerging
research area by providing researchers with a panoramic and comprehensive
perspective, illuminating the state of the art and discerning the
opportunities.
- Abstract(参考訳): 近年,マルチメディア解析から医療診断まで幅広い応用分野において,様々なモダリティの理解と推論のプロセスであるcmr(cross-modal reasoning)が重要視されている。
AIシステムの展開がより普及するにつれて、これらのシステムの意思決定プロセスにおける透明性と理解性の要求が高まっている。
この調査は、高い予測性能を達成することだけでなく、人間の理解可能な説明を提供することを目的としている、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げるものである。
本調査では,I-CMRの3段階分類法について概説する。
さらに,本調査では,既存のcmrデータセットを解説のためのアノテーションでレビューする。
最後に,I-CMRの課題を要約し,今後の方向性について考察する。
本研究は,パノラマ的かつ包括的な視点を提供し,芸術の現状を照らし,機会を見極めることにより,新興研究分野の進展を触媒することを目的としている。
関連論文リスト
- From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - A Survey on Retrieval-Augmented Text Generation for Large Language Models [1.4579344926652844]
Retrieval-Augmented Generation (RAG)は、検索手法とディープラーニングの進歩を融合する。
本稿では,RAGパラダイムを検索前,検索後,検索後,生成の4つのカテゴリに分類する。
RAGの進化を概説し、重要な研究の分析を通して分野の進歩について論じている。
論文 参考訳(メタデータ) (2024-04-17T01:27:42Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Advancing Explainable Autonomous Vehicle Systems: A Comprehensive Review and Research Roadmap [4.2330023661329355]
本研究は、説明生成とプレゼンテーションに関連する複雑さについて論じるものである。
私たちのロードマップは、責任ある研究とイノベーションの原則によって支えられています。
これらの研究の方向性を探ることで、説明可能なAVの開発と展開の指針となる。
論文 参考訳(メタデータ) (2024-03-19T11:43:41Z) - Multi-agent Reinforcement Learning: A Comprehensive Survey [10.186029242664931]
マルチエージェントシステム(MAS)は、多くの現実世界のアプリケーションにおいて広く普及し、重要な存在である。
汎用性にもかかわらず、MASにおける知的意思決定エージェントの開発は、その効果的な実装にいくつかのオープンな課題を提起している。
本調査は,ゲーム理論(GT)と機械学習(ML)による基礎概念の研究に重点を置いて,これらの課題を考察する。
論文 参考訳(メタデータ) (2023-12-15T23:16:54Z) - Multimodal Explainable Artificial Intelligence: A Comprehensive Review of Methodological Advances and Future Research Directions [2.35574869517894]
本研究は、MXAI(Multimodal XAI)領域における最近の進歩の分析に焦点をあてる。
MXAIは、主予測と説明タスクに複数のモダリティを含む手法から構成される。
論文 参考訳(メタデータ) (2023-06-09T07:51:50Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Image-text Retrieval: A Survey on Recent Research and Development [58.060687870247996]
クロスモーダル画像テキスト検索(ITR)は、優れた研究価値と幅広い実世界の応用により、研究コミュニティへの関心が高まっている。
本稿では,ITRのアプローチに関する4つの視点から,包括的かつ最新の調査を行う。
論文 参考訳(メタデータ) (2022-03-28T13:00:01Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。