論文の概要: LossAgent: Towards Any Optimization Objectives for Image Processing with LLM Agents
- arxiv url: http://arxiv.org/abs/2412.04090v1
- Date: Thu, 05 Dec 2024 11:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:43.225596
- Title: LossAgent: Towards Any Optimization Objectives for Image Processing with LLM Agents
- Title(参考訳): LossAgent: LLMエージェントによる画像処理のための最適化対象を目指して
- Authors: Bingchen Li, Xin Li, Yiting Lu, Zhibo Chen,
- Abstract要約: LossAgentは、低レベル画像処理の最適化目的を、異なる実用アプリケーションで実現することを目的としている。
本稿では,損失エージェントとして強力な大規模言語モデル (LLM) を導入する。
特に,低レベル画像処理におけるエンドツーエンドの最適化をサポートする既存のロス関数を組み込むことで,ロスレポジトリを確立する。
- 参考スコア(独自算出の注目度): 16.534263448775103
- License:
- Abstract: We present the first loss agent, dubbed LossAgent, for low-level image processing tasks, e.g., image super-resolution and restoration, intending to achieve any customized optimization objectives of low-level image processing in different practical applications. Notably, not all optimization objectives, such as complex hand-crafted perceptual metrics, text description, and intricate human feedback, can be instantiated with existing low-level losses, e.g., MSE loss. which presents a crucial challenge in optimizing image processing networks in an end-to-end manner. To eliminate this, our LossAgent introduces the powerful large language model (LLM) as the loss agent, where the rich textual understanding of prior knowledge empowers the loss agent with the potential to understand complex optimization objectives, trajectory, and state feedback from external environments in the optimization process of the low-level image processing networks. In particular, we establish the loss repository by incorporating existing loss functions that support the end-to-end optimization for low-level image processing. Then, we design the optimization-oriented prompt engineering for the loss agent to actively and intelligently decide the compositional weights for each loss in the repository at each optimization interaction, thereby achieving the required optimization trajectory for any customized optimization objectives. Extensive experiments on three typical low-level image processing tasks and multiple optimization objectives have shown the effectiveness and applicability of our proposed LossAgent. Code and pre-trained models will be available at https://github.com/lbc12345/LossAgent.
- Abstract(参考訳): 我々は,低レベル画像処理タスク,例えば画像超解像と復元のためのロスエージェント(LosAgent)を提案する。
特に、複雑な手作りの知覚メトリクス、テキスト記述、複雑な人間のフィードバックなど、すべての最適化目標が、既存の低レベルな損失(例えば、MSE損失)でインスタンス化できるわけではない。
これは、画像処理ネットワークをエンドツーエンドで最適化する上で重要な課題である。
これを排除するため、ロスアジェントは、ロスエージェントとして強力な大規模言語モデル(LLM)を導入し、低レベル画像処理ネットワークの最適化プロセスにおいて、複雑な最適化目標、軌道、状態フィードバックを理解する可能性を持つ、事前知識の豊富なテキスト的理解により、損失エージェントに権限を与える。
特に,低レベル画像処理におけるエンドツーエンドの最適化をサポートする既存のロス関数を組み込むことで,ロスレポジトリを確立する。
そこで,各最適化操作において,各リポジトリの損失に対する構成重み付けを能動的かつインテリジェントに決定し,任意の最適化目的に対して必要な最適化軌跡を実現するために,ロスエージェントのための最適化指向のプロンプトエンジニアリングを設計する。
提案したLossAgentの有効性と適用性を示した。
コードおよび事前トレーニングされたモデルは、https://github.com/lbc12345/LossAgent.comで入手できる。
関連論文リスト
- Towards more Contextual Agents: An extractor-Generator Optimization Framework [0.0]
LLM(Large Language Model)ベースのエージェントは、幅広い汎用アプリケーションにわたる複雑なタスクの解決に顕著な成功を収めている。
しかしながら、それらのパフォーマンスは、専門産業や研究領域のようなコンテキスト固有のシナリオで劣化することが多い。
この課題に対処するため,本研究では,LLMエージェントの文脈適応性を高めるための体系的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:07:06Z) - Explicit and Implicit Graduated Optimization in Deep Neural Networks [0.6906005491572401]
本稿では,最適雑音スケジューリングを用いた明示的な累積最適化アルゴリズムの性能を実験的に評価する。
さらに、ResNetアーキテクチャを用いた画像分類タスクの実験を通じて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-16T07:23:22Z) - Perceptual-Distortion Balanced Image Super-Resolution is a Multi-Objective Optimization Problem [23.833099288826045]
画素ベースの回帰損失を用いた単一画像超解法(SISR)モデルのトレーニングは、高い歪みメトリクススコアを得ることができる。
しかし、高周波の詳細の回復が不十分なため、しばしばぼやけた画像が生じる。
本稿では,Multi-Objective Optimization(MOO)をSISRモデルのトレーニングプロセスに組み込んで,知覚品質と歪みのバランスをとる手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T02:14:04Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - RL-PGO: Reinforcement Learning-based Planar Pose-Graph Optimization [1.4884785898657995]
本稿では,最新のDeep Reinforcement Learning (DRL) ベースの環境と2次元ポーズグラフ最適化のためのエージェントを提案する。
本研究では、ポーズグラフ最適化問題を部分的に観測可能な決定プロセスとしてモデル化し、実世界および合成データセットの性能を評価することを実証する。
論文 参考訳(メタデータ) (2022-02-26T20:10:14Z) - Latent-Optimized Adversarial Neural Transfer for Sarcasm Detection [50.29565896287595]
サーカズム検出のための共通データセットを活用するために,転送学習を適用する。
異なる損失が互いに対応できる汎用的な潜時最適化戦略を提案します。
特に、isarcasmデータセットの以前の状態よりも10.02%の絶対性能向上を達成している。
論文 参考訳(メタデータ) (2021-04-19T13:07:52Z) - Perceptually Optimizing Deep Image Compression [53.705543593594285]
平均二乗誤差(MSE)と$ell_p$ノルムは、ニューラルネットワークの損失の測定で大きく支配されている。
本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。
論文 参考訳(メタデータ) (2020-07-03T14:33:28Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。