論文の概要: Visual Model Checking: Graph-Based Inference of Visual Routines for Image Retrieval
- arxiv url: http://arxiv.org/abs/2602.17386v1
- Date: Thu, 19 Feb 2026 14:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.090429
- Title: Visual Model Checking: Graph-Based Inference of Visual Routines for Image Retrieval
- Title(参考訳): ビジュアルモデルチェック:画像検索のためのビジュアルルーチンのグラフベース推論
- Authors: Adrià Molina, Oriol Ramos Terrades, Josep Lladós,
- Abstract要約: 本稿では,Deep Learningに基づく画像検索に形式検証を統合する新しいフレームワークを提案する。
提案手法は,オープン語彙の自然言語クエリをサポートしながら,信頼性と検証可能な結果を生成することを目的としている。
- 参考スコア(独自算出の注目度): 5.489551670660281
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Information retrieval lies at the foundation of the modern digital industry. While natural language search has seen dramatic progress in recent years largely driven by embedding-based models and large-scale pretraining, the field still faces significant challenges. Specifically, queries that involve complex relationships, object compositions, or precise constraints such as identities, counts and proportions often remain unresolved or unreliable within current frameworks. In this paper, we propose a novel framework that integrates formal verification into deep learning-based image retrieval through a synergistic combination of graph-based verification methods and neural code generation. Our approach aims to support open-vocabulary natural language queries while producing results that are both trustworthy and verifiable. By grounding retrieval results in a system of formal reasoning, we move beyond the ambiguity and approximation that often characterize vector representations. Instead of accepting uncertainty as a given, our framework explicitly verifies each atomic truth in the user query against the retrieved content. This allows us to not only return matching results, but also to identify and mark which specific constraints are satisfied and which remain unmet, thereby offering a more transparent and accountable retrieval process while boosting the results of the most popular embedding-based approaches.
- Abstract(参考訳): 情報検索は現代のデジタル産業の基礎にある。
近年、自然言語検索は、埋め込みベースのモデルと大規模な事前訓練によって大幅に進歩しているが、この分野は依然として大きな課題に直面している。
具体的には、複雑な関係、オブジェクトの合成、アイデンティティ、カウント、パーセンテージといった厳密な制約を含むクエリは、現在のフレームワークでは解決できない、あるいは信頼性の低いままである。
本稿では,グラフベースの検証手法とニューラルコード生成の相乗的組み合わせにより,形式的検証を深層学習に基づく画像検索に統合するフレームワークを提案する。
提案手法は,オープン語彙の自然言語クエリをサポートしながら,信頼性と検証可能な結果を生成することを目的としている。
解析結果を形式的推論システムで基礎付けることにより、ベクトル表現をしばしば特徴付ける曖昧さや近似を超えていく。
我々のフレームワークは、与えられた不確実性を受け入れる代わりに、検索されたコンテンツに対してユーザクエリ内の各アトミック真理を明示的に検証します。
これにより、マッチング結果を返すだけでなく、どの制約が満たされ、どの制約が未解決のままであるかを特定し、マークすることが可能になる。
関連論文リスト
- DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。
モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。
DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文 参考訳(メタデータ) (2026-02-11T12:51:10Z) - Reasoning-Augmented Representations for Multimodal Retrieval [27.4146940988752]
Universal Multimodal Retrieval (UMR) は、テキストと視覚を横断する任意の検索を求める。
画像が“サイレント”なエビデンスを持ち、クエリがキーセマンティクスを暗黙的に残す場合、単一の埋め込みパスは理由と圧縮の両方でなければならない。
本稿では、検索前の推論を外部化することで、これらの役割を分離するデータ中心のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-06T19:01:54Z) - Towards Context-aware Reasoning-enhanced Generative Searching in E-commerce [61.03081096959132]
そこで本稿では,複雑な状況下でのテキストバウンダリングを改善するための,文脈対応推論強化型生成検索フレームワークを提案する。
提案手法は,強力なベースラインに比べて優れた性能を示し,検索に基づく推薦の有効性を検証した。
論文 参考訳(メタデータ) (2025-10-19T16:46:11Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。
本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。
我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文 参考訳(メタデータ) (2025-06-16T15:34:29Z) - Assessing "Implicit" Retrieval Robustness of Large Language Models [17.006566708461346]
様々な大規模言語モデルの「単純」検索頑健性を評価する。
金と気を散らすコンテキストの混合による微調整は、モデルの不正確な検索に対する堅牢性を大幅に向上させる。
これは、大きな言語モデルは、最終回答の監督からのみ学習することで、関連性または無関係な検索コンテキストを暗黙的に扱うことができることを示唆している。
論文 参考訳(メタデータ) (2024-06-26T07:38:24Z) - Recursive Counterfactual Deconfounding for Object Recognition [20.128093193861165]
本稿では,クローズドセットとオープンセットの両方のシナリオにおいて,オブジェクト認識のための再帰的因果分解モデルを提案する。
提案したRCDモデルは,ほとんどの場合において,11の最先端ベースラインよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-25T07:46:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Rethinking Complex Queries on Knowledge Graphs with Neural Link Predictors [58.340159346749964]
本稿では,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援するニューラルシンボリック手法を提案する。
これまでに検討されていない10種類の新しいクエリを含む新しいデータセットを開発する。
提案手法は,新しいデータセットにおいて先行手法を著しく上回り,既存データセットにおける先行手法を同時に上回っている。
論文 参考訳(メタデータ) (2023-04-14T11:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。