論文の概要: Designing Any Imaging System from Natural Language: Agent-Constrained Composition over a Finite Primitive Basis
- arxiv url: http://arxiv.org/abs/2603.25636v1
- Date: Thu, 26 Mar 2026 16:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.387274
- Title: Designing Any Imaging System from Natural Language: Agent-Constrained Composition over a Finite Primitive Basis
- Title(参考訳): 自然言語からのイメージングシステムの設計:有限原始基底を用いたエージェント制約構成
- Authors: Chengshuai Yang,
- Abstract要約: spec.mdは構造化された仕様フォーマットで、一文の自然言語記述を有界再構成エラーのある検証された前方モデルに変換する。
設計から実数への誤差定理は、総再構成誤差を5つの独立な有界項に分解し、それぞれが補正作用にリンクする。
プリミティブを3Dから5Dのチェーンに構成する新しい10の設計は、あらゆる単一モダリティツールを超えて構成的なリーチを示している。
- 参考スコア(独自算出の注目度): 1.7259824817932294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing a computational imaging system -- selecting operators, setting parameters, validating consistency -- requires weeks of specialist effort per modality, creating an expertise bottleneck that excludes the broader scientific community from prototyping imaging instruments. We introduce spec.md, a structured specification format, and three autonomous agents -- Plan, Judge, and Execute -- that translate a one-sentence natural-language description into a validated forward model with bounded reconstruction error. A design-to-real error theorem decomposes total reconstruction error into five independently bounded terms, each linked to a corrective action. On 6 real-data modalities spanning all 5 carrier families, the automated pipeline matches expert-library quality (98.1 +/- 4.2%). Ten novel designs -- composing primitives into chains from 3D to 5D -- demonstrate compositional reach beyond any single-modality tool.
- Abstract(参考訳): 演算子の選択、パラメータの設定、一貫性の検証など、計算イメージングシステムの設計には、モダリティごとに数週間の専門的な努力が必要で、イメージング機器のプロトタイプ化から幅広い科学コミュニティを除外する専門的なボトルネックが生じる。
構造化された仕様フォーマットである spec.md と,1文の自然言語記述を有界再構成エラーのある検証済み前方モデルに変換する3つの自律エージェントである Plan, judge, Execute を導入している。
設計から実数への誤差定理は、総再構成誤差を5つの独立な有界項に分解し、それぞれが補正作用にリンクする。
5つのキャリアーファミリーにまたがる6つの実データモダリティでは、自動化パイプラインはエキスパート-ライブラリー品質(98.1 +/-4.2%)と一致している。
プリミティブを3Dから5Dのチェーンに構成する新しい10の設計は、あらゆる単一モダリティツールを超えて構成的なリーチを示している。
関連論文リスト
- Eleven Primitives and Three Gates: The Universal Structure of Computational Imaging [8.513179174301722]
すべての画像フォワードモデルが、正確に11個の物理的型付けプリミティブ上の有向非巡回グラフに分解されることを証明した。
全ての再建失敗は、情報不足、キャリアノイズ、オペレータミスマッチの3つの独立した根本原因を持つことを示す。
論文 参考訳(メタデータ) (2026-03-13T18:54:35Z) - Agentic Planning with Reasoning for Image Styling via Offline RL [66.10749901925941]
直接的なプロンプトベースの編集は複雑な変換では失敗するが、なぜなら曖昧で主観的なプロンプトは、画像に何を変更するべきかを微妙に理解する必要がしばしばあるからである。
ツールベースのエージェントRLポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T11:14:37Z) - SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model [0.0]
SCHEMAは、850の検証済みAPI予測を含む、システマティックなプロフェッショナルプラクティスに基づいて構築された、エンジニアリングされたフレームワークである。
SchEMAは、探索的(約5%)から指示的(約95%)まで実践者のコントロールを拡大する
主要な発見は、621個の構造化プロンプトにまたがる91%の強制コンプライアンス率と94%の禁制コンプライアンス率である。
論文 参考訳(メタデータ) (2026-02-21T16:51:40Z) - Multi-Agent Procedural Graph Extraction with Structural and Logical Refinement [66.51979814832332]
モデル式は、専用の構造的および論理的洗練を伴う多ラウンド推論プロセスとして手続きグラフ抽出を定式化する。
実験により、モデルが強いベースラインに対して構造的正当性と論理的整合性の両方において大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2026-01-27T04:00:48Z) - Factuality Matters: When Image Generation and Editing Meet Structured Visuals [46.627460447235855]
我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。
FLUX.1 KontextとVLMを統合する統一モデルを訓練する。
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
論文 参考訳(メタデータ) (2025-10-06T17:56:55Z) - DeOcc-1-to-3: 3D De-Occlusion from a Single Image via Self-Supervised Multi-View Diffusion [50.90541069907167]
閉塞型マルチビュー生成のためのエンドツーエンドフレームワークであるDeOcc-1-to-3を提案する。
私たちの自己教師型トレーニングパイプラインは、隠蔽されたイメージペアと擬似地上構造ビューを活用して、モデル構造を意識した補完とビュー整合性を教える。
論文 参考訳(メタデータ) (2025-06-26T17:58:26Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Structure by Architecture: Structured Representations without
Regularization [31.75200752252397]
生成モデルなどの下流タスクにオートエンコーダを用いた自己教師型表現学習の課題について検討する。
我々はアグレッシブな正規化を必要とせずに構造化表現を学習できる新しいオートエンコーダアーキテクチャを設計する。
これらのモデルが、生成、絡み合い、外挿を含む様々な下流タスクの結果を改善する表現をいかに学習するかを実証する。
論文 参考訳(メタデータ) (2020-06-14T04:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。