論文の概要: LETToT: Label-Free Evaluation of Large Language Models On Tourism Using Expert Tree-of-Thought
- arxiv url: http://arxiv.org/abs/2508.11280v1
- Date: Fri, 15 Aug 2025 07:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.783127
- Title: LETToT: Label-Free Evaluation of Large Language Models On Tourism Using Expert Tree-of-Thought
- Title(参考訳): LETToT:専門家木を用いた観光における大規模言語モデルのラベルなし評価
- Authors: Ruiyan Qi, Congding Wen, Weibo Zhou, Shangsong Liang, Lingbo Li,
- Abstract要約: 我々はエキスパート由来の推論構造を利用するフレームワークであるExpert $textbfT$ree-$textbfo$f-$textbfT$hought (LETToT)を提案する。
その結果,4.99-14.15%の相対的品質向上率をベースラインに最適化したToTの有効性が示された。
- 参考スコア(独自算出の注目度): 10.470260745766334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models (LLMs) in specific domain like tourism remains challenging due to the prohibitive cost of annotated benchmarks and persistent issues like hallucinations. We propose $\textbf{L}$able-Free $\textbf{E}$valuation of LLM on $\textbf{T}$ourism using Expert $\textbf{T}$ree-$\textbf{o}$f-$\textbf{T}$hought (LETToT), a framework that leverages expert-derived reasoning structures-instead of labeled data-to access LLMs in tourism. First, we iteratively refine and validate hierarchical ToT components through alignment with generic quality dimensions and expert feedback. Results demonstrate the effectiveness of our systematically optimized expert ToT with 4.99-14.15\% relative quality gains over baselines. Second, we apply LETToT's optimized expert ToT to evaluate models of varying scales (32B-671B parameters), revealing: (1) Scaling laws persist in specialized domains (DeepSeek-V3 leads), yet reasoning-enhanced smaller models (e.g., DeepSeek-R1-Distill-Llama-70B) close this gap; (2) For sub-72B models, explicit reasoning architectures outperform counterparts in accuracy and conciseness ($p<0.05$). Our work established a scalable, label-free paradigm for domain-specific LLM evaluation, offering a robust alternative to conventional annotated benchmarks.
- Abstract(参考訳): 注釈付きベンチマークの禁止コストや幻覚のような永続的な問題により、観光のような特定の領域における大規模言語モデル(LLM)の評価は依然として困難である。
我々は、エキスパート$\textbf{L}$able-Free $\textbf{E}$valuation of LLM on $\textbf{T}$ourism using Expert $\textbf{T}$ree-$\textbf{o}$f-$\textbf{T}$hought (LETToT)を提案する。
まず、汎用的な品質の次元と専門家のフィードバックに合わせることで、階層的なToTコンポーネントを反復的に洗練し、検証する。
その結果,4.99-14.15\%の相対的品質向上率で体系的に最適化されたToTの有効性が示された。
第二に、LETToTの最適化されたエキスパートToTを用いて、異なるスケールのモデル(32B-671Bパラメータ)を評価する。 1) 特定のドメイン(DeepSeek-V3リード)で持続する法則をスケールするが、より小さなモデル(例えばDeepSeek-R1-Distill-Llama-70B)は、このギャップを埋める。
我々の研究は、ドメイン固有のLCM評価のためのスケーラブルでラベルなしのパラダイムを確立し、従来の注釈付きベンチマークに代わる堅牢な代替手段を提供しました。
関連論文リスト
- mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。
本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。
本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-08-13T18:59:02Z) - Evaluating Large Language Models as Expert Annotators [17.06186816803593]
本稿では,トップパフォーマンス言語モデルが,人間の専門家アノテータの直接的な代替として機能するかどうかを考察する。
我々は、金融、バイオメディシン、法という3つの専門分野にまたがる個別のLCMとマルチエージェントのアプローチを評価した。
実験結果から,推定時間的手法を具備した個々のLSMは,限界あるいは負の利得しか示さないことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-11T10:19:10Z) - Fine-Tuning Vision-Language Models for Markdown Conversion of Financial Tables in Malaysian Audited Financial Reports [0.0]
本稿ではQwen2.5-VL-7Bに基づく微調整視覚言語モデル(VLM)を提案する。
提案手法には,拡大した2,152枚の画像テキストペアをキュレートしたデータセットと,LoRAを用いた教師付き微調整戦略が含まれる。
基準に基づく評価では92.20%の精度と96.53%のTEDSスコアが得られた。
論文 参考訳(メタデータ) (2025-08-04T04:54:00Z) - DeepSeek-R1 vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization? [17.97981669263259]
推論可能な大規模言語モデル (LLM) は論理的タスクに優れるが、自然言語生成を評価するための実用性はまだ明らかにされていない。
本研究は,機械翻訳およびテキスト要約評価タスクにおいて,推論LLMと非推論LLMを体系的に比較する。
論文 参考訳(メタデータ) (2025-04-10T20:39:18Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Autonomous Evaluation of LLMs for Truth Maintenance and Reasoning Tasks [20.072783454089098]
本稿では,大規模言語モデル (LLM) 評価を形式的タスクに拡張するための新しいベンチマークである AutoEval を提案する。
AutoEvalは最初のベンチマークパラダイムであり、人間のラベルなしでLLMの客観的評価をスケールするのに必要ないくつかの重要な利点を提供している。
論文 参考訳(メタデータ) (2024-10-11T00:56:37Z) - Log Probabilities Are a Reliable Estimate of Semantic Plausibility in Base and Instruction-Tuned Language Models [50.15455336684986]
意味的妥当性を評価するため,LogProbsの有効性と基本的なプロンプトを評価した。
LogProbsは、直接ゼロショットプロンプトよりも、より信頼性の高いセマンティックな妥当性を提供する。
我々は,プロンプトベースの評価の時代においても,LogProbsは意味的妥当性の有用な指標である,と結論付けた。
論文 参考訳(メタデータ) (2024-03-21T22:08:44Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。