論文の概要: CLEAR: Cue Learning using Evolution for Accurate Recognition Applied to Sustainability Data Extraction
- arxiv url: http://arxiv.org/abs/2501.18504v1
- Date: Thu, 30 Jan 2025 17:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:52.348659
- Title: CLEAR: Cue Learning using Evolution for Accurate Recognition Applied to Sustainability Data Extraction
- Title(参考訳): CLEAR:持続可能性データ抽出に応用した精度認識のための進化的学習手法
- Authors: Peter J. Bentley, Soo Ling Lim, Fuyuki Ishikawa,
- Abstract要約: 精度認識のための進化的学習法(CLEAR)について紹介する。
CLEARは、LLMと進化計算を組み合わせて、画像の特殊特徴の認識が改善されるようにキューを生成し、最適化する。
CLEARは人間の認識よりも高い精度を実現し,最大2桁の精度で誤り率を向上する。
- 参考スコア(独自算出の注目度): 1.2951918600218246
- License:
- Abstract: Large Language Model (LLM) image recognition is a powerful tool for extracting data from images, but accuracy depends on providing sufficient cues in the prompt - requiring a domain expert for specialized tasks. We introduce Cue Learning using Evolution for Accurate Recognition (CLEAR), which uses a combination of LLMs and evolutionary computation to generate and optimize cues such that recognition of specialized features in images is improved. It achieves this by auto-generating a novel domain-specific representation and then using it to optimize suitable textual cues with a genetic algorithm. We apply CLEAR to the real-world task of identifying sustainability data from interior and exterior images of buildings. We investigate the effects of using a variable-length representation compared to fixed-length and show how LLM consistency can be improved by refactoring from categorical to real-valued estimates. We show that CLEAR enables higher accuracy compared to expert human recognition and human-authored prompts in every task with error rates improved by up to two orders of magnitude and an ablation study evincing solution concision.
- Abstract(参考訳): 大言語モデル(LLM)画像認識は、画像からデータを抽出する強力なツールであるが、精度はプロンプトに十分な手がかりを提供することに依存する。
我々は,LLMと進化計算を組み合わせたCue Learning for Evolution for Accurate Recognition (CLEAR)を導入し,画像の特殊特徴の認識を改善するためのキューを生成し,最適化する。
これは、新しいドメイン固有の表現を自動生成し、遺伝的アルゴリズムで適切なテキストキューを最適化する。
本研究では,建物内部および外部画像からサステナビリティデータを識別する実世界の課題にCLEARを適用した。
可変長表現を固定長と比較した場合の効果について検討し, LLMの整合性は分類から実測値へのリファクタリングによって向上することを示す。
CLEARは,最大2桁の精度で誤り率を向上し,解の精度を高めるためのアブレーション研究を行った。
関連論文リスト
- Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - ReL-SAR: Representation Learning for Skeleton Action Recognition with Convolutional Transformers and BYOL [6.603505460200282]
非教師なし表現学習は、ラベルのない骨格データを活用する上で最も重要なものである。
ReL-SARと呼ばれる軽量な畳み込みトランスフォーマフレームワークを設計し、骨格配列の空間的および時間的キューを共同でモデル化する。
Bootstrap Your Own Latent (BYOL) を利用して、ラベルのない骨格配列データから堅牢な表現を学習する。
論文 参考訳(メタデータ) (2024-09-09T16:03:26Z) - WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs [10.380692079063467]
本稿では,Web検索と知識グラフを統合したWeKnow-RAGを提案する。
まず,知識グラフの構造化表現と高次ベクトル検索の柔軟性を組み合わせることで,LLM応答の精度と信頼性を向上させる。
提案手法は,情報検索の効率と精度を効果的にバランスさせ,全体の検索プロセスを改善する。
論文 参考訳(メタデータ) (2024-08-14T15:19:16Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Enhancing LLM Factual Accuracy with RAG to Counter Hallucinations: A Case Study on Domain-Specific Queries in Private Knowledge-Bases [9.478012553728538]
大規模言語モデル(LLM)の現実的精度を向上させるために,検索拡張生成(RAG)を利用するエンド・ツー・エンドのシステム設計を提案する。
我々のシステムはRAGパイプラインと上流データセット処理と下流性能評価を統合している。
本実験は,ドメイン固有で時間に敏感な質問に対して,より正確な回答を生成するシステムの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-15T16:30:14Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。