Fugu-MT 論文翻訳(概要): COSINT-Agent: A Knowledge-Driven Multimodal Agent for Chinese Open Source Intelligence

論文の概要: COSINT-Agent: A Knowledge-Driven Multimodal Agent for Chinese Open Source Intelligence

arxiv url: http://arxiv.org/abs/2503.03215v1
Date: Wed, 05 Mar 2025 06:16:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 17:18:40.815921
Title: COSINT-Agent: A Knowledge-Driven Multimodal Agent for Chinese Open Source Intelligence
Title（参考訳）: COSINT-Agent:中国のオープンソースインテリジェンスのための知識駆動型マルチモーダルエージェント
Authors: Wentao Li, Congcong Wang, Xiaoxiao Cui, Zhi Liu, Wei Guo, Lizhen Cui,
Abstract要約: オープンソースインテリジェンス(OSINT)は多様なマルチモーダルデータの統合と推論を必要とする。中国におけるOSINTの課題に対処するための知識駆動型マルチモーダルエージェントであるCOSINT-Agentを紹介する。 COSINT-Agentの中心は、COSINT-MLLMとEES-KGを橋渡しする革新的なEES-Matchフレームワークである。
参考スコア（独自算出の注目度）: 22.216759050092385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open Source Intelligence (OSINT) requires the integration and reasoning of diverse multimodal data, presenting significant challenges in deriving actionable insights. Traditional approaches, including multimodal large language models (MLLMs), often struggle to infer complex contextual relationships or deliver comprehensive intelligence from unstructured data sources. In this paper, we introduce COSINT-Agent, a knowledge-driven multimodal agent tailored to address the challenges of OSINT in the Chinese domain. COSINT-Agent seamlessly integrates the perceptual capabilities of fine-tuned MLLMs with the structured reasoning power of the Entity-Event-Scene Knowledge Graph (EES-KG). Central to COSINT-Agent is the innovative EES-Match framework, which bridges COSINT-MLLM and EES-KG, enabling systematic extraction, reasoning, and contextualization of multimodal insights. This integration facilitates precise entity recognition, event interpretation, and context retrieval, effectively transforming raw multimodal data into actionable intelligence. Extensive experiments validate the superior performance of COSINT-Agent across core OSINT tasks, including entity recognition, EES generation, and context matching. These results underscore its potential as a robust and scalable solution for advancing automated multimodal reasoning and enhancing the effectiveness of OSINT methodologies.
Abstract（参考訳）: オープンソースインテリジェンス(OSINT)は多様なマルチモーダルデータの統合と推論を必要とし、実行可能な洞察を導き出す上で大きな課題を提示します。 MLLM(Multimodal large language model)を含む従来のアプローチは、複雑なコンテキスト関係を推測したり、構造化されていないデータソースから包括的なインテリジェンスを提供するのに苦労することが多い。本稿では,中国におけるOSINTの課題に対処するための知識駆動型マルチモーダルエージェントであるCOSINT-Agentを紹介する。 COSINT-Agentは、微調整MLLMの知覚能力とEntity-Event-Scene Knowledge Graph (EES-KG)の構造的推論能力とをシームレスに統合する。 COSINT-Agentの中心は、COSINT-MLLMとEES-KGをブリッジする革新的なEES-Matchフレームワークである。この統合は、正確なエンティティ認識、イベント解釈、コンテキスト検索を容易にし、生のマルチモーダルデータを実用的なインテリジェンスに効果的に変換する。大規模な実験は、エンティティ認識、EES生成、コンテキストマッチングを含むコアOSINTタスク間でのCOSINT-Agentの優れたパフォーマンスを検証する。これらの結果は、自動マルチモーダル推論を推進し、OSINT方法論の有効性を高めるための堅牢でスケーラブルなソリューションとしての可能性を強調している。

関連論文リスト

Knowledge-Aware Iterative Retrieval for Multi-Agent Systems [0.0]
本稿では,新しい大規模言語モデル (LLM) によるエージェントフレームワークを提案する。動的に進化する知識を活用することで、クエリを反復的に洗練し、文脈的証拠をフィルタリングする。提案システムは、更新されたコンテキストの競合的および協調的な共有をサポートする。
論文参考訳（メタデータ） (2025-03-17T15:27:02Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
Exploring Multi-Modal Integration with Tool-Augmented LLM Agents for Precise Causal Discovery [45.777770849667775]
因果推論は、スマートヘルス、薬物発見のためのAI、AIOpsなど、ドメイン間の意思決定の必須基盤である。ツール拡張 LLM を利用したマルチエージェントシステムである MATMCD を紹介する。以上の結果から,マルチモーダル化による因果発見の可能性が示唆された。
論文参考訳（メタデータ） (2024-12-18T09:50:00Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文参考訳（メタデータ） (2024-08-24T19:34:04Z)
Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks [44.42989163847349]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて大きなブレークスルーをもたらした。知識集約的なシナリオにおいて、現実的に一貫した応答を生成することは、依然として課題である。本稿では,LSM生成応答の解釈可能性と現実的一貫性を高めるために,外部知識を活用する新しいマルチエージェントフレームワークSMARTを紹介する。
論文参考訳（メタデータ） (2024-07-13T13:58:24Z)
Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks [12.400599440431188]
自然言語処理(NLP)における情報抽出(IE)の役割英語IEタスクに焦点をあてた最近の実験は、LLM(Large Language Models)が最適性能を達成する上で直面する課題に光を当てている。
論文参考訳（メタデータ） (2024-06-04T08:00:40Z)
Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文参考訳（メタデータ） (2024-04-25T15:59:16Z)
WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。 WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文参考訳（メタデータ） (2024-04-11T03:31:54Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文参考訳（メタデータ） (2023-08-19T17:32:34Z)
Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文参考訳（メタデータ） (2023-07-24T08:58:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。