論文の概要: EAVIT: Efficient and Accurate Human Value Identification from Text data via LLMs
- arxiv url: http://arxiv.org/abs/2505.12792v1
- Date: Mon, 19 May 2025 07:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.462675
- Title: EAVIT: Efficient and Accurate Human Value Identification from Text data via LLMs
- Title(参考訳): EAVIT: LLMによるテキストデータからの人的価値の効率的な同定
- Authors: Wenhao Zhu, Yuhang Xie, Guojie Song, Xin Zhang,
- Abstract要約: EAVITは人間の価値識別のための効率的かつ正確なフレームワークである。
ローカルの微調整可能とオンラインのブラックボックスLLMの長所を組み合わせている。
提案手法は,オンラインLCMを直接クエリするよりも,最大1/6の入力トークン数を効果的に削減する。
- 参考スコア(独自算出の注目度): 25.093909075330007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of large language models (LLMs) has revolutionized various fields, including the identification and discovery of human values within text data. While traditional NLP models, such as BERT, have been employed for this task, their ability to represent textual data is significantly outperformed by emerging LLMs like GPTs. However, the performance of online LLMs often degrades when handling long contexts required for value identification, which also incurs substantial computational costs. To address these challenges, we propose EAVIT, an efficient and accurate framework for human value identification that combines the strengths of both locally fine-tunable and online black-box LLMs. Our framework employs a value detector - a small, local language model - to generate initial value estimations. These estimations are then used to construct concise input prompts for online LLMs, enabling accurate final value identification. To train the value detector, we introduce explanation-based training and data generation techniques specifically tailored for value identification, alongside sampling strategies to optimize the brevity of LLM input prompts. Our approach effectively reduces the number of input tokens by up to 1/6 compared to directly querying online LLMs, while consistently outperforming traditional NLP methods and other LLM-based strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化は、テキストデータ内の人間の価値の識別や発見など、様々な分野に革命をもたらした。
BERTのような従来のNLPモデルは、このタスクに採用されているが、テキストデータを表現する能力は、GPTのような新興LLMよりも大幅に向上している。
しかし、オンラインLLMの性能は、値の識別に必要な長いコンテキストを扱う際に劣化することが多く、計算コストも大幅に低下する。
これらの課題に対処するため,我々は,局所的に微調整可能なLCMとオンラインブラックボックスの長所を組み合わせた,人的価値識別のための効率的かつ正確なフレームワークであるAVITを提案する。
我々のフレームワークは、初期値推定を生成するために、小さなローカル言語モデルである値検出器を使用している。
これらの推定は、オンラインLLMのための簡潔な入力プロンプトを構築するために使用され、正確な最終値の同定を可能にする。
本研究では,LLM入力プロンプトの簡潔さを最適化するサンプリング手法とともに,値識別に適した説明ベーストレーニングとデータ生成手法を提案する。
提案手法は,オンラインLPMを直接クエリするよりも,最大1/6の入力トークン数を効果的に削減すると同時に,従来のNLPメソッドや他のLPMベースの戦略を一貫して上回っている。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model [15.449472477182061]
視覚と言語相互作用の現在のアプローチは、自己注意に基づく方法と、相互注意に基づく方法の2つのカテゴリに分類される。
MLLMの自己注意機構を複合注意機構に変更した。
EE-MLLMは、限られたトレーニングデータでFlamingoを著しく上回り、H800 GPUでプリフィル時間を79msに短縮する。
本稿では,EE-MLLM-Fという学習不要な変種について述べる。
論文 参考訳(メタデータ) (2024-08-21T17:36:37Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - SPOT: Text Source Prediction from Originality Score Thresholding [6.790905400046194]
対策は誤報を検出することを目的としており、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。
情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
論文 参考訳(メタデータ) (2024-05-30T21:51:01Z) - A Context-Aware Approach for Enhancing Data Imputation with Pre-trained Language Models [0.18416014644193068]
CRILMは、事前訓練された言語モデルを使用して、不足する値に対してコンテキストに関連のある記述子を作成する。
本評価は,MCAR,MAR,MNARシナリオにおけるCRILMの優れた性能とロバスト性を示す。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - GenCeption: Evaluate Vision LLMs with Unlabeled Unimodal Data [3.08543976986593]
MLLM(Multimodal Large Language Models)は通常、高価な注釈付きマルチモーダルベンチマークを用いて評価される。
本稿では,新しいアノテーションのない評価手法であるGenCeptionの概要と検証を行う。
モダリティ間のセマンティック・コヒーレンスを測定するために一元データのみを必要とし、逆にMLLMの幻覚傾向を評価する。
論文 参考訳(メタデータ) (2024-02-22T21:22:04Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。