Fugu-MT 論文翻訳(概要): A Survey on Interpretable Cross-modal Reasoning

論文の概要: A Survey on Interpretable Cross-modal Reasoning

arxiv url: http://arxiv.org/abs/2309.01955v1
Date: Tue, 5 Sep 2023 05:06:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 16:23:06.521899
Title: A Survey on Interpretable Cross-modal Reasoning
Title（参考訳）: 解釈可能なクロスモーダル推論に関する調査
Authors: Dizhan Xue, Shengsheng Qian, Zuyi Zhou, Changsheng Xu
Abstract要約: マルチメディア分析から医療診断に至るまで、クロスモーダル推論(CMR)が重要な分野として浮上している。この調査は、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げる本調査では,I-CMRの3段階分類法について概説する。
参考スコア（独自算出の注目度）: 64.37362731950843
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, cross-modal reasoning (CMR), the process of understanding and reasoning across different modalities, has emerged as a pivotal area with applications spanning from multimedia analysis to healthcare diagnostics. As the deployment of AI systems becomes more ubiquitous, the demand for transparency and comprehensibility in these systems' decision-making processes has intensified. This survey delves into the realm of interpretable cross-modal reasoning (I-CMR), where the objective is not only to achieve high predictive performance but also to provide human-understandable explanations for the results. This survey presents a comprehensive overview of the typical methods with a three-level taxonomy for I-CMR. Furthermore, this survey reviews the existing CMR datasets with annotations for explanations. Finally, this survey summarizes the challenges for I-CMR and discusses potential future directions. In conclusion, this survey aims to catalyze the progress of this emerging research area by providing researchers with a panoramic and comprehensive perspective, illuminating the state of the art and discerning the opportunities.
Abstract（参考訳）: 近年,マルチメディア解析から医療診断まで幅広い応用分野において,様々なモダリティの理解と推論のプロセスであるcmr(cross-modal reasoning)が重要視されている。 AIシステムの展開がより普及するにつれて、これらのシステムの意思決定プロセスにおける透明性と理解性の要求が高まっている。この調査は、高い予測性能を達成することだけでなく、人間の理解可能な説明を提供することを目的としている、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げるものである。本調査では,I-CMRの3段階分類法について概説する。さらに,本調査では,既存のcmrデータセットを解説のためのアノテーションでレビューする。最後に,I-CMRの課題を要約し,今後の方向性について考察する。本研究は,パノラマ的かつ包括的な視点を提供し,芸術の現状を照らし,機会を見極めることにより,新興研究分野の進展を触媒することを目的としている。

関連論文リスト

Decoding the Multimodal Maze: A Systematic Review on the Adoption of Explainability in Multimodal Attention-based Models [0.0]
この体系的な文献レビューは、マルチモーダルモデルの説明可能性に焦点を当てた2020年1月から2024年初頭に発表された研究を分析している。マルチモーダル環境におけるXAIの評価手法は, ほぼ非体系的であり, 一貫性, 堅牢性, モダリティ特有の認知的・文脈的要因の考慮が欠如していることが判明した。
論文参考訳（メタデータ） (2025-08-06T13:14:20Z)
A Survey on Interpretability in Visual Recognition [28.577223694381452]
本稿では,視覚認識モデルの解釈可能性に関する既存の研究を体系的にレビューする。我々は人間中心の観点から手法の分類法を提案する。我々は、この領域における既存の研究を組織化し、視覚認識モデルの解釈可能性に関する今後の研究を刺激することを目的としている。
論文参考訳（メタデータ） (2025-07-15T08:45:54Z)
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
Composed Multi-modal Retrieval: A Survey of Approaches and Applications [81.54640206021757]
複合マルチモーダル検索(CMR)は次世代技術として誕生する。 CMRは、参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリすることを可能にする。本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。
論文参考訳（メタデータ） (2025-03-03T09:18:43Z)
Survey on AI-Generated Media Detection: From Non-MLLM to MLLM [51.91311158085973]
AI生成メディアを検出する方法は急速に進化してきた。 MLLMに基づく汎用検出器は、信頼性検証、説明可能性、ローカライゼーション機能を統合する。倫理的・セキュリティ的な配慮が、重要な世界的な懸念として浮上している。
論文参考訳（メタデータ） (2025-02-07T12:18:20Z)
A Survey on Computational Pathology Foundation Models: Datasets, Adaptation Strategies, and Evaluation Tasks [22.806228975730008]
計算病理基盤モデル (CPathFMs) は, 組織学的データを解析するための強力なアプローチとして出現している。これらのモデルは、セグメンテーション、分類、バイオマーカー発見のような複雑な病理タスクを自動化することを約束している。しかし、CPathFMsの開発は、データアクセシビリティの制限、データセット間の高いばらつき、標準化された評価ベンチマークの欠如など、大きな課題を呈している。
論文参考訳（メタデータ） (2025-01-27T01:27:59Z)
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。 CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文参考訳（メタデータ） (2024-09-19T02:51:54Z)
A Survey on Retrieval-Augmented Text Generation for Large Language Models [1.4579344926652844]
Retrieval-Augmented Generation (RAG)は、検索手法とディープラーニングの進歩を融合する。本稿では,RAGパラダイムを検索前,検索後,検索後,生成の4つのカテゴリに分類する。 RAGの進化を概説し、重要な研究の分析を通して分野の進歩について論じている。
論文参考訳（メタデータ） (2024-04-17T01:27:42Z)
LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
Advancing Explainable Autonomous Vehicle Systems: A Comprehensive Review and Research Roadmap [4.2330023661329355]
本研究は、説明生成とプレゼンテーションに関連する複雑さについて論じるものである。私たちのロードマップは、責任ある研究とイノベーションの原則によって支えられています。これらの研究の方向性を探ることで、説明可能なAVの開発と展開の指針となる。
論文参考訳（メタデータ） (2024-03-19T11:43:41Z)
Multi-agent Reinforcement Learning: A Comprehensive Survey [10.186029242664931]
マルチエージェントシステム(MAS)は、多くの現実世界のアプリケーションにおいて広く普及し、重要な存在である。汎用性にもかかわらず、MASにおける知的意思決定エージェントの開発は、その効果的な実装にいくつかのオープンな課題を提起している。本調査は,ゲーム理論(GT)と機械学習(ML)による基礎概念の研究に重点を置いて,これらの課題を考察する。
論文参考訳（メタデータ） (2023-12-15T23:16:54Z)
Multimodal Explainable Artificial Intelligence: A Comprehensive Review of Methodological Advances and Future Research Directions [2.35574869517894]
本研究は、MXAI(Multimodal XAI)領域における最近の進歩の分析に焦点をあてる。 MXAIは、主予測と説明タスクに複数のモダリティを含む手法から構成される。
論文参考訳（メタデータ） (2023-06-09T07:51:50Z)
Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文参考訳（メタデータ） (2023-05-12T00:13:17Z)
Image-text Retrieval: A Survey on Recent Research and Development [58.060687870247996]
クロスモーダル画像テキスト検索(ITR)は、優れた研究価値と幅広い実世界の応用により、研究コミュニティへの関心が高まっている。本稿では,ITRのアプローチに関する4つの視点から,包括的かつ最新の調査を行う。
論文参考訳（メタデータ） (2022-03-28T13:00:01Z)
Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。共通情報と相補情報の両方を敵意で抽出することを目的としている。特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文参考訳（メタデータ） (2021-02-15T18:46:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。