Fugu-MT 論文翻訳(概要): Leveraging Self-Supervised Vision Transformers for Neural Transfer Function Design

論文の概要: Leveraging Self-Supervised Vision Transformers for Neural Transfer Function Design

arxiv url: http://arxiv.org/abs/2309.01408v1
Date: Mon, 4 Sep 2023 07:29:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 19:32:44.829693
Title: Leveraging Self-Supervised Vision Transformers for Neural Transfer Function Design
Title（参考訳）: 神経伝達関数設計のための自己監督型視覚変換器の活用
Authors: Dominik Engel, Leon Sick, Timo Ropinski
Abstract要約: 本稿では,事前学習した視覚変換器の特徴抽出機能を活用することで,ボリュームレンダリングのための転送関数を定義する手法を提案する。提案手法では,モデルのトレーニングを必要とせず,高速な推論が可能であり,ボリュームデータの対話的な探索が可能となる。
参考スコア（独自算出の注目度）: 12.612923807422899
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In volume rendering, transfer functions are used to classify structures of interest, and to assign optical properties such as color and opacity. They are commonly defined as 1D or 2D functions that map simple features to these optical properties. As the process of designing a transfer function is typically tedious and unintuitive, several approaches have been proposed for their interactive specification. In this paper, we present a novel method to define transfer functions for volume rendering by leveraging the feature extraction capabilities of self-supervised pre-trained vision transformers. To design a transfer function, users simply select the structures of interest in a slice viewer, and our method automatically selects similar structures based on the high-level features extracted by the neural network. Contrary to previous learning-based transfer function approaches, our method does not require training of models and allows for quick inference, enabling an interactive exploration of the volume data. Our approach reduces the amount of necessary annotations by interactively informing the user about the current classification, so they can focus on annotating the structures of interest that still require annotation. In practice, this allows users to design transfer functions within seconds, instead of minutes. We compare our method to existing learning-based approaches in terms of annotation and compute time, as well as with respect to segmentation accuracy. Our accompanying video showcases the interactivity and effectiveness of our method.
Abstract（参考訳）: ボリュームレンダリングでは、転送関数は興味のある構造を分類し、色や不透明度などの光学特性を割り当てるために用いられる。これらは一般的に、これらの光学特性に単純な特徴をマッピングする 1D あるいは 2D 関数として定義される。転送関数を設計するプロセスは通常退屈で直感的であるため、インタラクティブな仕様のためにいくつかのアプローチが提案されている。本稿では, 自己教師付き視覚変換器の特徴抽出機能を活用し, ボリュームレンダリングのための伝達関数を定義する新しい手法を提案する。転送関数を設計するために,スライスビューアの関心構造をユーザが簡単に選択し,ニューラルネットワークが抽出した高次特徴に基づいて,類似した構造を自動的に選択する。従来の学習に基づく伝達関数アプローチとは対照的に,本手法はモデルの訓練を必要とせず,高速な推論が可能であり,ボリュームデータの対話的な探索を可能にする。提案手法は,ユーザに対して現在の分類について対話的に通知することで,必要なアノテーションの量を削減する。実際には、ユーザーは数分ではなく数秒で転送機能を設計できる。本手法を既存の学習ベースアプローチとアノテーションと計算時間の観点から比較し,セグメンテーション精度について検討した。提案手法の対話性と有効性を示す映像を提示する。

関連論文リスト

Analyze Feature Flow to Enhance Interpretation and Steering in Language Models [3.8498574327875947]
本研究では,スパースオートエンコーダによって発見される特徴を,大規模言語モデルの連続的な層にわたって体系的にマッピングする手法を提案する。データフリーなコサイン類似性技術を使用することで、各ステージで特定の機能が持続、変換、あるいは最初に現れるかを追跡できる。
論文参考訳（メタデータ） (2025-02-05T09:39:34Z)
Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキストと視覚分岐における表現のアライメントを改善するため,MSTA(Multi-modal Spatio-supervised)を提案する。提案手法の有効性は,ゼロショット転送,少数ショット学習,ベース・ツー・ヴァリアント,完全言語学習の4つの課題にまたがる。
論文参考訳（メタデータ） (2024-11-18T01:25:58Z)
Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文参考訳（メタデータ） (2024-07-09T15:45:04Z)
I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文参考訳（メタデータ） (2024-06-10T13:08:31Z)
Discovering Object-Centric Generalized Value Functions From Pixels [17.10287710842919]
本研究では,対象物から意味のある特徴を発見し,時間的コヒーレントな「探索」関数に翻訳する手法を提案する。また,探索された一般値関数を解析し,学習された表現が解釈可能であるだけでなく,高速な適応を容易にするタスク間で不変なオブジェクトを中心にしていることを示す。
論文参考訳（メタデータ） (2023-04-27T00:34:24Z)
Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文参考訳（メタデータ） (2023-03-24T16:32:19Z)
Visual Query Tuning: Towards Effective Usage of Intermediate Representations for Parameter and Memory Efficient Transfer Learning [19.254454866466187]
視覚変換器の中間機能を集約する視覚クエリチューニング(VQT)を提案する。 VQTは中間機能をそのままに保ち、それらを組み合わせることしか学ばないため、トレーニングではメモリ効率がよい。 VQTは、トランスファーラーニングに中間機能を利用する最先端のアプローチを一貫して超越している。
論文参考訳（メタデータ） (2022-12-06T18:39:45Z)
SIM-Trans: Structure Information Modeling Transformer for Fine-grained Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文参考訳（メタデータ） (2022-08-31T03:00:07Z)
Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文参考訳（メタデータ） (2021-10-05T15:39:11Z)
Aligning Pretraining for Detection via Object-Level Contrastive Learning [57.845286545603415]
画像レベルのコントラスト表現学習は、伝達学習の汎用モデルとして非常に有効であることが証明されている。我々は、これは準最適である可能性があり、従って、自己教師付きプレテキストタスクと下流タスクのアライメントを促進する設計原則を提唱する。 Selective Object Contrastive Learning (SoCo) と呼ばれる本手法は,COCO検出における伝達性能の最先端化を実現する。
論文参考訳（メタデータ） (2021-06-04T17:59:52Z)
A Trainable Optimal Transport Embedding for Feature Aggregation and its Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文参考訳（メタデータ） (2020-06-22T08:35:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。