論文の概要: COSINT-Agent: A Knowledge-Driven Multimodal Agent for Chinese Open Source Intelligence
- arxiv url: http://arxiv.org/abs/2503.03215v1
- Date: Wed, 05 Mar 2025 06:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:52:26.788476
- Title: COSINT-Agent: A Knowledge-Driven Multimodal Agent for Chinese Open Source Intelligence
- Title(参考訳): COSINT-Agent:中国のオープンソースインテリジェンスのための知識駆動型マルチモーダルエージェント
- Authors: Wentao Li, Congcong Wang, Xiaoxiao Cui, Zhi Liu, Wei Guo, Lizhen Cui,
- Abstract要約: オープンソースインテリジェンス(OSINT)は多様なマルチモーダルデータの統合と推論を必要とする。
中国におけるOSINTの課題に対処するための知識駆動型マルチモーダルエージェントであるCOSINT-Agentを紹介する。
COSINT-Agentの中心は、COSINT-MLLMとEES-KGを橋渡しする革新的なEES-Matchフレームワークである。
- 参考スコア(独自算出の注目度): 22.216759050092385
- License:
- Abstract: Open Source Intelligence (OSINT) requires the integration and reasoning of diverse multimodal data, presenting significant challenges in deriving actionable insights. Traditional approaches, including multimodal large language models (MLLMs), often struggle to infer complex contextual relationships or deliver comprehensive intelligence from unstructured data sources. In this paper, we introduce COSINT-Agent, a knowledge-driven multimodal agent tailored to address the challenges of OSINT in the Chinese domain. COSINT-Agent seamlessly integrates the perceptual capabilities of fine-tuned MLLMs with the structured reasoning power of the Entity-Event-Scene Knowledge Graph (EES-KG). Central to COSINT-Agent is the innovative EES-Match framework, which bridges COSINT-MLLM and EES-KG, enabling systematic extraction, reasoning, and contextualization of multimodal insights. This integration facilitates precise entity recognition, event interpretation, and context retrieval, effectively transforming raw multimodal data into actionable intelligence. Extensive experiments validate the superior performance of COSINT-Agent across core OSINT tasks, including entity recognition, EES generation, and context matching. These results underscore its potential as a robust and scalable solution for advancing automated multimodal reasoning and enhancing the effectiveness of OSINT methodologies.
- Abstract(参考訳): オープンソースインテリジェンス(OSINT)は多様なマルチモーダルデータの統合と推論を必要とし、実行可能な洞察を導き出す上で大きな課題を提示します。
MLLM(Multimodal large language model)を含む従来のアプローチは、複雑なコンテキスト関係を推測したり、構造化されていないデータソースから包括的なインテリジェンスを提供するのに苦労することが多い。
本稿では,中国におけるOSINTの課題に対処するための知識駆動型マルチモーダルエージェントであるCOSINT-Agentを紹介する。
COSINT-Agentは、微調整MLLMの知覚能力とEntity-Event-Scene Knowledge Graph (EES-KG)の構造的推論能力とをシームレスに統合する。
COSINT-Agentの中心は、COSINT-MLLMとEES-KGをブリッジする革新的なEES-Matchフレームワークである。
この統合は、正確なエンティティ認識、イベント解釈、コンテキスト検索を容易にし、生のマルチモーダルデータを実用的なインテリジェンスに効果的に変換する。
大規模な実験は、エンティティ認識、EES生成、コンテキストマッチングを含むコアOSINTタスク間でのCOSINT-Agentの優れたパフォーマンスを検証する。
これらの結果は、自動マルチモーダル推論を推進し、OSINT方法論の有効性を高めるための堅牢でスケーラブルなソリューションとしての可能性を強調している。
関連論文リスト
- Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Exploring Multi-Modal Integration with Tool-Augmented LLM Agents for Precise Causal Discovery [45.777770849667775]
因果推論は、スマートヘルス、薬物発見のためのAI、AIOpsなど、ドメイン間の意思決定の必須基盤である。
ツール拡張 LLM を利用したマルチエージェントシステムである MATMCD を紹介する。
以上の結果から,マルチモーダル化による因果発見の可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-18T09:50:00Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z) - Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks [44.42989163847349]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて大きなブレークスルーをもたらした。
知識集約的なシナリオにおいて、現実的に一貫した応答を生成することは、依然として課題である。
本稿では,LSM生成応答の解釈可能性と現実的一貫性を高めるために,外部知識を活用する新しいマルチエージェントフレームワークSMARTを紹介する。
論文 参考訳(メタデータ) (2024-07-13T13:58:24Z) - Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks [12.400599440431188]
自然言語処理(NLP)における情報抽出(IE)の役割
英語IEタスクに焦点をあてた最近の実験は、LLM(Large Language Models)が最適性能を達成する上で直面する課題に光を当てている。
論文 参考訳(メタデータ) (2024-06-04T08:00:40Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。