論文の概要: Illumination Angular Spectrum Encoding for Controlling the Functionality of Diffractive Networks
- arxiv url: http://arxiv.org/abs/2601.04825v1
- Date: Thu, 08 Jan 2026 11:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.172365
- Title: Illumination Angular Spectrum Encoding for Controlling the Functionality of Diffractive Networks
- Title(参考訳): 回折ネットワークの機能制御のための照明角スペクトル符号化
- Authors: Matan Kleiner, Lior Michaeli, Tomer Michaeli,
- Abstract要約: そこで本研究では,照明の角スペクトルに基づく回折ニューラルネットワークの新しい制御機構を提案する。
本稿では,複数の画像間翻訳タスクを実行するために,単一の回折ネットワークを訓練することにより,提案手法を数値的に説明する。
- 参考スコア(独自算出の注目度): 35.0826656904102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffractive neural networks have recently emerged as a promising framework for all-optical computing. However, these networks are typically trained for a single task, limiting their potential adoption in systems requiring multiple functionalities. Existing approaches to achieving multi-task functionality either modify the mechanical configuration of the network per task or use a different illumination wavelength or polarization state for each task. In this work, we propose a new control mechanism, which is based on the illumination's angular spectrum. Specifically, we shape the illumination using an amplitude mask that selectively controls its angular spectrum. We employ different illumination masks for achieving different network functionalities, so that the mask serves as a unique task encoder. Interestingly, we show that effective control can be achieved over a very narrow angular range, within the paraxial regime. We numerically illustrate the proposed approach by training a single diffractive network to perform multiple image-to-image translation tasks. In particular, we demonstrate translating handwritten digits into typeset digits of different values, and translating handwritten English letters into typeset numbers and typeset Greek letters, where the type of the output is determined by the illumination's angular components. As we show, the proposed framework can work under different coherence conditions, and can be combined with existing control strategies, such as different wavelengths. Our results establish the illumination angular spectrum as a powerful degree of freedom for controlling diffractive networks, enabling a scalable and versatile framework for multi-task all-optical computing.
- Abstract(参考訳): 回折ニューラルネットワークは、最近、全光学コンピューティングのための有望なフレームワークとして登場した。
しかしながら、これらのネットワークは通常、単一のタスクのためにトレーニングされており、複数の機能を必要とするシステムで採用される可能性を制限する。
マルチタスク機能を実現するための既存のアプローチは、タスク毎のネットワークの機械的構成を変更するか、タスク毎に異なる照明波長または偏光状態を使用するかのいずれかである。
本研究では,照明の角スペクトルに基づく新しい制御機構を提案する。
具体的には、角度スペクトルを選択的に制御する振幅マスクを用いて照明を形成する。
我々は、異なるネットワーク機能を達成するために異なる照明マスクを使用し、マスクがユニークなタスクエンコーダとして機能するようにした。
興味深いことに、同軸系内で非常に狭い角の範囲で効果的に制御できることが示される。
本稿では,複数の画像間翻訳タスクを実行するために,単一の回折ネットワークを訓練することにより,提案手法を数値的に説明する。
特に、手書きの数字を異なる値のタイプセット桁に翻訳し、手書きの英語文字をタイプセット番号とタイプセットギリシャ文字に翻訳し、出力の型は照明の角成分によって決定される。
このように、提案フレームワークは異なるコヒーレンス条件下で動作することができ、異なる波長などの既存の制御戦略と組み合わせることができる。
本研究は,マルチタスク全光コンピューティングのためのスケーラブルで多用途なフレームワークを実現するために,回折ネットワークを制御するための強力な自由度として照明角スペクトルを確立した。
関連論文リスト
- Dual-Process Image Generation [90.59679096341473]
本稿では,フィードフォワード画像生成器が視覚言語モデルから新たなタスクを学習できるようにする2プロセス蒸留方式を提案する。
提案手法では,VLMを用いて生成した画像を評価し,この勾配を逆伝搬して画像生成器の重みを更新する。
本稿では,コモンセンス推論や視覚的プロンプトなど,様々な種類の制御信号に対するこの手法の適用例を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:59:56Z) - XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration [2.7036595757881323]
XPointは、アダプティブトレーニングと、アライメントされたマルチスペクトルデータセットの微調整のための、自己教師付き、モジュール化された画像マッチングフレームワークである。
XPointはモジュラリティと自己スーパービジョンを採用し、ベース検出器のような要素の調整を可能にしている。
XPointは、機能マッチングや画像登録タスクにおいて、最先端のメソッドを一貫して上回るか、マッチする。
論文 参考訳(メタデータ) (2024-11-11T23:12:08Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [49.04935506942202]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
マルチモーダル生成PreTraining (mGPT) を初期化することにより、デコーダのみの自己回帰(AR)モデルが、現代の拡散モデルに匹敵する画像生成性能を実現できることを示す。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - Diffractive Interconnects: All-Optical Permutation Operation Using
Diffractive Networks [18.22140098600563]
本稿では、深層学習によって設計され、全光学的に置換演算を行う回折光学ネットワークを提案する。
提案した回折置換ネットワークは、無線ネットワークにおけるチャネルルーティングや相互接続パネルとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-06-21T07:25:06Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。