論文の概要: Automatic Identification and Description of Jewelry Through Computer Vision and Neural Networks for Translators and Interpreters
- arxiv url: http://arxiv.org/abs/2509.00661v1
- Date: Sun, 31 Aug 2025 02:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.329608
- Title: Automatic Identification and Description of Jewelry Through Computer Vision and Neural Networks for Translators and Interpreters
- Title(参考訳): 翻訳者・解釈者のためのコンピュータビジョンとニューラルネットワークによるジュエリーの自動同定と記述
- Authors: Jose Manuel Alcalde-Llergo, Aurora Ruiz-Mezcua, Rocio Avila-Ramirez, Andrea Zingoni, Juri Taborri, Enrique Yeguas-Bolivar,
- Abstract要約: ニューラルネットワークを用いて宝石を自動的に識別・記述する革新的な手法を提案する。
本モデルでは,コンピュータビジョン技術と画像キャプションを用いて,アクセサリの専門的分析をエミュレートする。
- 参考スコア(独自算出の注目度): 1.3854111346209868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying jewelry pieces presents a significant challenge due to the wide range of styles and designs. Currently, precise descriptions are typically limited to industry experts. However, translators and interpreters often require a comprehensive understanding of these items. In this study, we introduce an innovative approach to automatically identify and describe jewelry using neural networks. This method enables translators and interpreters to quickly access accurate information, aiding in resolving queries and gaining essential knowledge about jewelry. Our model operates at three distinct levels of description, employing computer vision techniques and image captioning to emulate expert analysis of accessories. The key innovation involves generating natural language descriptions of jewelry across three hierarchical levels, capturing nuanced details of each piece. Different image captioning architectures are utilized to detect jewels in images and generate descriptions with varying levels of detail. To demonstrate the effectiveness of our approach in recognizing diverse types of jewelry, we assembled a comprehensive database of accessory images. The evaluation process involved comparing various image captioning architectures, focusing particularly on the encoder decoder model, crucial for generating descriptive captions. After thorough evaluation, our final model achieved a captioning accuracy exceeding 90 per cent.
- Abstract(参考訳): ジュエリーを識別することは、様々なスタイルやデザインのために大きな課題となる。
現在、正確な説明は業界の専門家に限られている。
しかし、通訳や通訳はこれらの項目を包括的に理解する必要があることが多い。
本研究では,ニューラルネットワークを用いた宝石の自動識別と記述のための革新的な手法を提案する。
この方法では、翻訳者や通訳が正確な情報に素早くアクセスでき、クエリを解決し、宝石について重要な知識を得るのに役立てることができる。
本モデルでは,コンピュータビジョン技術と画像キャプションを用いて,アクセサリの専門的分析をエミュレートする。
鍵となるイノベーションは、3つの階層レベルにわたるジュエリーの自然言語記述を生成し、各作品の微妙な詳細をキャプチャすることです。
異なる画像キャプションアーキテクチャを使用して、画像中の宝石を検出し、さまざまな詳細レベルで記述を生成する。
各種ジュエリーの認識におけるアプローチの有効性を示すため,アクセサリ画像の総合データベースを構築した。
特にエンコーダデコーダモデルに着目した様々な画像キャプションアーキテクチャを比較することによる評価プロセスは、記述的なキャプションの生成に不可欠であった。
網羅的評価の結果,最終モデルは90%以上のキャプション精度を得た。
関連論文リスト
- Beam-Guided Knowledge Replay for Knowledge-Rich Image Captioning using Vision-Language Model [0.8747606955991707]
KRCapVLMは知識リプレイに基づく新しい画像キャプションフレームワークである。
ビームサーチデコーディングを組み込んで、より多様なコヒーレントなキャプションを生成する。
提案モデルは,知識認識の精度と生成したキャプションの全体的な品質の両方において,明確な改善を示す。
論文 参考訳(メタデータ) (2025-05-29T11:33:36Z) - Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning [77.2852342808769]
本稿では、シーングラフビューから視覚的コンテキストを評価するために、CompreCapと呼ばれる詳細なキャプションベンチマークを導入する。
画像は、まず、共通オブジェクトの語彙に従って意味的に意味のある領域に手動で分割し、また、これらすべての領域内のオブジェクトの属性を識別する。
そして、これらのオブジェクトの方向関係ラベルに注釈を付け、画像のリッチな構成情報を十分にエンコードできる方向のシーングラフを構成する。
論文 参考訳(メタデータ) (2024-12-11T18:37:42Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - Pixels to Prose: Understanding the art of Image Captioning [1.9635669040319872]
画像キャプションにより、機械は視覚的コンテンツを解釈し、記述的なテキストを生成することができる。
レビューでは、画像キャプションモデルの進化を最新の最先端ソリューションに遡る。
医療領域における画像キャプションの適用についても検討した。
論文 参考訳(メタデータ) (2024-08-28T11:21:23Z) - Jewelry Recognition via Encoder-Decoder Models [44.99833362998488]
コンピュータビジョン技術と画像キャプションを用いたジュエリー認識手法を提案する。
提案手法は,宝石電子商取引などの様々な応用に応用できる可能性がある。
論文 参考訳(メタデータ) (2024-01-15T23:10:50Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Analysis of Visual Features for Continuous Lipreading in Spanish [0.0]
リップリーディングは、音声が利用できないときに音声を解釈することを目的とする複雑なタスクである。
そこで本稿では, 自然スペイン語における唇運動の特徴をとらえる上で, どちらが最適かを特定することを目的とした, 異なる音声視覚特徴の分析手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:28:00Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Automated Audio Captioning: an Overview of Recent Progress and New
Challenges [56.98522404673527]
自動音声キャプションは、与えられた音声クリップの自然言語記述を生成することを目的とした、モーダル横断翻訳タスクである。
本稿では、既存の様々なアプローチから評価指標やデータセットまで、自動音声キャプションにおけるコントリビューションの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-05-12T08:36:35Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。