論文の概要: Siamese-Driven Optimization for Low-Resolution Image Latent Embedding in Image Captioning
- arxiv url: http://arxiv.org/abs/2512.08873v1
- Date: Tue, 09 Dec 2025 18:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.081012
- Title: Siamese-Driven Optimization for Low-Resolution Image Latent Embedding in Image Captioning
- Title(参考訳): 画像キャプションにおける低分解能画像遅延埋め込みのためのシームズ駆動最適化
- Authors: Jing Jie Tan, Anissa Mokraoui, Ban-Hoe Kwan, Danny Wee-Kiat Ng, Yan-Chai Hum,
- Abstract要約: 提案したSOLIアプローチは,軽量で低解像度の画像キャプションに特化して設計されたソリューションである。
遅延埋め込みを最適化し、画像からテキストへの変換プロセスの効率と精度を高めるために、Siameseネットワークアーキテクチャを採用している。
デュアルパスのニューラルネットワーク構造に焦点を当てることで、SOLIは性能を犠牲にすることなく計算オーバーヘッドを最小化する。
- 参考スコア(独自算出の注目度): 1.872675437352477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning is essential in many fields including assisting visually impaired individuals, improving content management systems, and enhancing human-computer interaction. However, a recent challenge in this domain is dealing with low-resolution image (LRI). While performance can be improved by using larger models like transformers for encoding, these models are typically heavyweight, demanding significant computational resources and memory, leading to challenges in retraining. To address this, the proposed SOLI (Siamese-Driven Optimization for Low-Resolution Image Latent Embedding in Image Captioning) approach presents a solution specifically designed for lightweight, low-resolution images captioning. It employs a Siamese network architecture to optimize latent embeddings, enhancing the efficiency and accuracy of the image-to-text translation process. By focusing on a dual-pathway neural network structure, SOLI minimizes computational overhead without sacrificing performance, making it an ideal choice for training on resource-constrained scenarios.
- Abstract(参考訳): 画像キャプションは、視覚障害者の支援、コンテンツ管理システムの改善、人間とコンピュータの相互作用の強化など、多くの分野において不可欠である。
しかし、この領域における最近の課題は、低解像度画像(LRI)を扱うことである。
エンコーディングにトランスフォーマーのような大きなモデルを使用することで、パフォーマンスを改善することができるが、これらのモデルは典型的には重厚であり、重要な計算リソースとメモリを必要とするため、再トレーニングの課題に繋がる。
これを解決するために、SOLI (Siamese-Driven Optimization for Low-Resolution Image Latent Embedding in Image Captioning) アプローチでは、軽量で低解像度の画像キャプション用に特別に設計されたソリューションを提案する。
遅延埋め込みを最適化し、画像からテキストへの変換プロセスの効率と精度を高めるために、Siameseネットワークアーキテクチャを採用している。
デュアルパスのニューラルネットワーク構造に焦点を当てることで、SOLIはパフォーマンスを犠牲にすることなく計算オーバーヘッドを最小化し、リソース制約のあるシナリオのトレーニングに最適な選択肢となる。
関連論文リスト
- Striving for Faster and Better: A One-Layer Architecture with Auto Re-parameterization for Low-Light Image Enhancement [50.93686436282772]
我々は、視覚的品質と計算効率の両方から、画像エンハンサーの限界を掘り下げることを目指している。
タスク要求を再考することにより、視覚的品質と計算効率がモデル学習と構造設計に対応する、明示的な接続を構築する。
最終的には、単一の畳み込み層のみを使用して、優れた視覚的品質を維持しながら、効率的な低照度画像強調を実現する。
論文 参考訳(メタデータ) (2025-02-27T08:20:03Z) - Fast Context-Based Low-Light Image Enhancement via Neural Implicit Representations [6.113035634680655]
現在のディープラーニングベースの低照度画像強調手法は高解像度画像としばしば競合する。
我々は、未露出画像の2次元座標を照明成分にマッピングすることで、拡張過程を再定義する、CoLIEと呼ばれる新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-07-17T11:51:52Z) - ESTISR: Adapting Efficient Scene Text Image Super-resolution for
Real-Scenes [25.04435367653037]
シーンテキスト画像超解像(STISR)は、シーンテキストの正確な認識において顕著な改善をもたらした。
本稿では,資源限定配置プラットフォームのための高効率Scene Text Image Super- resolution (ESTISR) ネットワークを提案する。
ESTISRは、実際の実行時間とピークメモリ消費の点で、現在のメソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-06-04T19:14:44Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。
それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。
提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文 参考訳(メタデータ) (2022-07-14T06:49:59Z) - SDWNet: A Straight Dilated Network with Wavelet Transformation for Image
Deblurring [23.86692375792203]
画像劣化は、ぼやけた画像から鋭い画像を復元することを目的としたコンピュータビジョンの問題である。
我々のモデルは拡張畳み込みを用いて空間分解能の高い大きな受容場を得ることができる。
本稿では,ウェーブレット変換を用いた新しいモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:58:10Z) - Spatially-Adaptive Image Restoration using Distortion-Guided Networks [51.89245800461537]
空間的に変化する劣化に苦しむ画像の復元のための学習ベースソリューションを提案する。
本研究では、歪み局所化情報を活用し、画像中の困難な領域に動的に適応するネットワーク設計であるSPAIRを提案する。
論文 参考訳(メタデータ) (2021-08-19T11:02:25Z) - Online Exemplar Fine-Tuning for Image-to-Image Translation [32.556050882376965]
ディープ畳み込みニューラルネットワーク(CNN)において、既存の画像から画像への変換を解決するには、ネットワークパラメータを最適化するためのトレーニングフェーズが必要である。
入力画像ペアが与えられたオンライン最適化により,先進的な翻訳を初めて解決する新しいフレームワークを提案する。
我々のフレームワークは、既存の手法の主な課題であるオフライントレーニングフェーズを必要とせず、オンラインの最適化を可能にするためにトレーニング済みのネットワークを必要としています。
論文 参考訳(メタデータ) (2020-11-18T15:13:16Z) - Deep Adaptive Inference Networks for Single Image Super-Resolution [72.7304455761067]
シングルイメージ超解像(SISR)は、ディープ畳み込みニューラルネットワーク(CNN)の展開により、近年大きく進歩している。
本稿では,深部SISR(AdaDSR)の適応型推論ネットワークを活用することで,この問題に対処する。
我々のAdaDSRは、SISRモデルをバックボーンとし、画像の特徴とリソース制約を入力として取り、ローカルネットワーク深さのマップを予測する軽量アダプタモジュールを備える。
論文 参考訳(メタデータ) (2020-04-08T10:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。