論文の概要: Evaluation of Embedding-Based and Generative Methods for LLM-Driven Document Classification: Opportunities and Challenges
- arxiv url: http://arxiv.org/abs/2604.04997v1
- Date: Sun, 05 Apr 2026 20:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.393499
- Title: Evaluation of Embedding-Based and Generative Methods for LLM-Driven Document Classification: Opportunities and Challenges
- Title(参考訳): LLM駆動型文書分類における埋め込み・生成手法の評価--可能性と課題
- Authors: Rong Lu, Hao Liu, Song Hou,
- Abstract要約: Qwen2.5-VLのような生成的ヴィジュアルランゲージモデル(VLM)は、チェイン・オブ・ソート(CoT)のプロンプトによって強化され、ゼロショット精度が向上する。
Supervised Fine-tuning (SFT) はVLMの性能を向上させるが、データ不均衡の訓練には敏感である。
- 参考スコア(独自算出の注目度): 4.146941837017164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a comparative analysis of embedding-based and generative models for classifying geoscience technical documents. Using a multi-disciplinary benchmark dataset, we evaluated the trade-offs between model accuracy, stability, and computational cost. We find that generative Vision-Language Models (VLMs) like Qwen2.5-VL, enhanced with Chain-of-Thought (CoT) prompting, achieve superior zero-shot accuracy (82%) compared to state-of-the-art multimodal embedding models like QQMM (63%). We also demonstrate that while supervised fine-tuning (SFT) can improve VLM performance, it is sensitive to training data imbalance.
- Abstract(参考訳): 本研究は,地学技術資料の分類のための埋め込みモデルと生成モデルの比較分析を行った。
マルチディシプリナ・ベンチマーク・データセットを用いて,モデルの精度,安定性,計算コストのトレードオフを評価した。
その結果,QQMM (63%) のような最先端マルチモーダル埋め込みモデルと比較して,Qwen2.5-VL のような生成型視覚言語モデル (VLM) は,チェーン・オブ・ソート (CoT) により促進され,ゼロショット精度 (82%) が優れていることがわかった。
また、教師付き微調整(SFT)はVLMの性能を向上させることができるが、データ不均衡の訓練には敏感であることを示す。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Linear Discriminant Analysis in Credit Scoring: A Transparent Hybrid Model Approach [9.88281854509076]
特徴量削減手法として線形判別分析 (LDA) を実装し, モデルの複雑さの軽減を図る。
我々のハイブリッドモデルであるXG-DNNは、99.45%の精度と99%のF1スコアでLDAを上回りました。
モデル決定を解釈するために、LIME (local) と Morris Sensitivity Analysis (global) という2つの異なる説明可能なAI技術を適用した。
論文 参考訳(メタデータ) (2024-12-05T14:21:18Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。