論文の概要: TRUST: Token-dRiven Ultrasound Style Transfer for Cross-Device Adaptation
- arxiv url: http://arxiv.org/abs/2509.00508v1
- Date: Sat, 30 Aug 2025 14:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.262902
- Title: TRUST: Token-dRiven Ultrasound Style Transfer for Cross-Device Adaptation
- Title(参考訳): TRUST:デバイス間適応のためのToken-dRiven超音波スタイル転送
- Authors: Nhat-Tuong Do-Tran, Ngoc-Hoang-Lam Le, Ian Chiu, Po-Tsun Paul Kuo, Ching-Chun Huang,
- Abstract要約: UI2I(Unpaired Image-to-image)翻訳手法は、ソースドメインから新たなデバイス取得に対応するターゲットドメインに画像を転送することを目的としている。
既存のUI2Iメソッドは、最も関連性の高いスタイルの特徴をフィルタリングすることを明示的に考慮していない。
我々は、ターゲットドメインの共通スタイルを転送しながら、ソースコンテンツを保存するトークン駆動のデュアルストリームフレームワークであるTRUSTを提案する。
- 参考スコア(独自算出の注目度): 8.098201493112915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ultrasound images acquired from different devices exhibit diverse styles, resulting in decreased performance of downstream tasks. To mitigate the style gap, unpaired image-to-image (UI2I) translation methods aim to transfer images from a source domain, corresponding to new device acquisitions, to a target domain where a frozen task model has been trained for downstream applications. However, existing UI2I methods have not explicitly considered filtering the most relevant style features, which may result in translated images misaligned with the needs of downstream tasks. In this work, we propose TRUST, a token-driven dual-stream framework that preserves source content while transferring the common style of the target domain, ensuring that content and style remain unblended. Given multiple styles in the target domain, we introduce a Token-dRiven (TR) module that operates from two perspectives: (1) a data view--selecting "suitable" target tokens corresponding to each source token, and (2) a model view--identifying ``optimal" target tokens for the downstream model, guided by a behavior mirror loss. Additionally, we inject auxiliary prompts into the source encoder to match content representation with downstream behavior. Experimental results on ultrasound datasets demonstrate that TRUST outperforms existing UI2I methods in both visual quality and downstream task performance.
- Abstract(参考訳): 異なるデバイスから取得した超音波画像は様々なスタイルを示し、下流タスクの性能が低下する。
スタイルギャップを軽減するために、未ペア画像画像変換法(UI2I)は、新たなデバイス取得に対応するソースドメインから、下流アプリケーションのために凍結タスクモデルがトレーニングされたターゲットドメインに画像を転送することを目的としている。
しかし、既存のUI2Iメソッドは、最も関連性の高いスタイル機能のフィルタリングを明示的に考慮していない。
本稿では,TRUSTを提案する。TRUSTはトークン駆動のデュアルストリームフレームワークで,ターゲットドメインの共通スタイルを転送しながらソースコンテンツを保存する。
対象ドメインに複数のスタイルが与えられた場合、(1)データビュー-選択された各ソーストークンに対応する"適切な"ターゲットトークン、(2)下流モデルの"最適な"ターゲットトークンをモデルビュー-識別する、という2つの視点から機能するToken-dRiven(TR)モジュールを導入する。
さらに、ソースエンコーダに補助的なプロンプトを注入して、コンテンツ表現と下流動作を一致させる。
超音波データセットによる実験結果から,TRUSTは既存のUI2I手法よりも視覚的品質とダウンストリームタスク性能が優れていることが示された。
関連論文リスト
- Wukong Framework for Not Safe For Work Detection in Text-to-Image systems [25.516648802281626]
WukongはトランスフォーマーベースのNSFW検出フレームワークである。
初期段階からの中間出力を利用して、U-Netのトレーニング済みのクロスアテンションパラメータを再利用する。
その結果、Wukongはテキストベースの安全ガードを著しく上回り、画像フィルタの精度に匹敵する結果を得た。
論文 参考訳(メタデータ) (2025-08-01T12:45:30Z) - OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。
1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。
本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文 参考訳(メタデータ) (2025-07-08T03:27:46Z) - NOFT: Test-Time Noise Finetune via Information Bottleneck for Highly Correlated Asset Creation [70.96827354717459]
拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)を生成する強力なツールを提供する。
本研究では,高相関・多彩な画像を生成するため,安定拡散を用いたノイズファインチューンNOFTモジュールを提案する。
論文 参考訳(メタデータ) (2025-05-18T05:09:47Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - DSI2I: Dense Style for Unpaired Image-to-Image Translation [70.93865212275412]
Inpaired exemplar-based image-to-image (UEI2I) 翻訳は、ソース画像をターゲット画像領域に変換する。
我々は,スタイルを高密度な特徴写像として表現し,外部意味情報を必要とせず,よりきめ細かなソース画像の転送を可能にすることを提案する。
以上の結果から,本手法による翻訳は,より多様であり,資料内容の保存性が向上し,最先端の手法と比較すると,先例に近づいたことが示唆された。
論文 参考訳(メタデータ) (2022-12-26T18:45:25Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Two-Stream Appearance Transfer Network for Person Image Generation [16.681839931864886]
画像生成や翻訳に広く用いられているGAN(Generative Adversarial Network)は、空間的局所的および翻訳同変演算子に依存している。
本稿では,この課題に対処するために,新しい2ストリームの外観伝達ネットワーク(2s-ATN)を提案する。
ソースストリームとターゲットストリームで構成される多段階アーキテクチャである。各ステージは外観伝達モジュールと複数の2ストリーム特徴融合モジュールを備える。
論文 参考訳(メタデータ) (2020-11-09T04:21:02Z) - Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。
本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。
これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文 参考訳(メタデータ) (2020-07-29T06:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。