論文の概要: Rescind: Countering Image Misconduct in Biomedical Publications with Vision-Language and State-Space Modeling
- arxiv url: http://arxiv.org/abs/2601.08040v1
- Date: Mon, 12 Jan 2026 22:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.969113
- Title: Rescind: Countering Image Misconduct in Biomedical Publications with Vision-Language and State-Space Modeling
- Title(参考訳): Rescind:ビジョンランゲージと状態空間モデリングによるバイオメディカルパブリケーションにおける画像ミス対策
- Authors: Soumyaroop Nandi, Prem Natarajan,
- Abstract要約: バイオメディカル・イメージ・フォージェリーの生成と検出を両立させる最初の視覚言語ガイドフレームワークを提案する。
拡散に基づく合成と視覚言語プロンプトを組み合わせることで,現実的かつ意味論的に制御された操作を可能にする。
Integscanは、検出とローカライゼーションの両方において、技術パフォーマンスの状態を達成し、自動化された科学的完全性分析の強力な基盤を確立する。
- 参考スコア(独自算出の注目度): 8.024142807011378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific image manipulation in biomedical publications poses a growing threat to research integrity and reproducibility. Unlike natural image forensics, biomedical forgery detection is uniquely challenging due to domain-specific artifacts, complex textures, and unstructured figure layouts. We present the first vision-language guided framework for both generating and detecting biomedical image forgeries. By combining diffusion-based synthesis with vision-language prompting, our method enables realistic and semantically controlled manipulations, including duplication, splicing, and region removal, across diverse biomedical modalities. We introduce Rescind, a large-scale benchmark featuring fine-grained annotations and modality-specific splits, and propose Integscan, a structured state space modeling framework that integrates attention-enhanced visual encoding with prompt-conditioned semantic alignment for precise forgery localization. To ensure semantic fidelity, we incorporate a vision-language model based verification loop that filters generated forgeries based on consistency with intended prompts. Extensive experiments on Rescind and existing benchmarks demonstrate that Integscan achieves state of the art performance in both detection and localization, establishing a strong foundation for automated scientific integrity analysis.
- Abstract(参考訳): バイオメディカル出版物における科学的イメージ操作は、研究の完全性と再現性に対する脅威が増大していることを示している。
自然画像鑑定とは違って、ドメイン固有のアーティファクト、複雑なテクスチャ、非構造化図形レイアウトのために、バイオメディカル偽造検出はユニークな課題である。
バイオメディカル・イメージ・フォージェリーの生成と検出を両立させる最初の視覚言語ガイドフレームワークを提案する。
本手法は,拡散に基づく合成と視覚言語プロンプトを組み合わせることで,生体医療の多様性にまたがる重複,スプライシング,領域除去など,現実的かつ意味的に制御された操作を可能にする。
本稿では,細粒度アノテーションとモダリティ固有の分割を特徴とする大規模ベンチマークであるRescindを紹介し,注意強調による視覚的エンコーディングとアクセシブルなセマンティックアライメントを統合した構造化状態空間モデリングフレームワークであるIntegscanを提案する。
意味的忠実性を確保するために、意図したプロンプトとの整合性に基づいて生成された偽造語をフィルタリングする視覚言語モデルに基づく検証ループを組み込んだ。
Rescindと既存のベンチマークに関する大規模な実験は、Integscanが検出とローカライゼーションの両方において最先端のパフォーマンスを実現し、自動化された科学的完全性分析の強力な基盤を確立していることを示している。
関連論文リスト
- Plasticine: A Traceable Diffusion Model for Medical Image Translation [79.39689106440389]
我々は、私たちの知る限り、トレーサビリティを主目的として明示的に設計された最初のエンドツーエンド画像変換フレームワークであるPlasticineを提案する。
本手法は,デノナイジング拡散フレームワーク内での強度変換と空間変換を組み合わせた手法である。
この設計により、解釈可能な強度遷移と空間的コヒーレントな変形を持つ合成画像の生成が可能となり、翻訳プロセス全体を通してピクセルワイドトレーサビリティをサポートする。
論文 参考訳(メタデータ) (2025-12-20T18:01:57Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。
本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。
報酬信号は、テキストの意味情報を合成画像と整合させるように設計されている。
論文 参考訳(メタデータ) (2025-03-20T01:51:05Z) - VICCA: Visual Interpretation and Comprehension of Chest X-ray Anomalies in Generated Report Without Human Feedback [1.5839621757142595]
本稿では,AI生成医療報告のセマンティックアライメントと位置決め精度の向上を目的とした新しいフレームワークを提案する。
元の画像と生成された画像の特徴を比較することにより、デュアルスコーリングシステムを導入する。
このアプローチは既存の手法よりも優れており、病理の局在化やテキスト・ツー・イメージのアライメントにおいて最先端の結果が得られている。
論文 参考訳(メタデータ) (2025-01-29T16:02:16Z) - A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文 参考訳(メタデータ) (2024-03-14T11:29:47Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。