論文の概要: TravelBench : Exploring LLM Performance in Low-Resource Domains
- arxiv url: http://arxiv.org/abs/2510.02719v1
- Date: Fri, 03 Oct 2025 04:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.266721
- Title: TravelBench : Exploring LLM Performance in Low-Resource Domains
- Title(参考訳): TravelBench : 低リソース領域におけるLLM性能の探索
- Authors: Srinivas Billa, Xiaonan Jing,
- Abstract要約: 実世界のシナリオから匿名化されたデータを用いて、7つの共通NLPタスクにまたがる14の旅行領域データセットをキュレートした。
各種タスクにおけるLCMの精度,スケーリング行動,推論能力について報告する。
- 参考スコア(独自算出の注目度): 2.2917707112773593
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Results on existing LLM benchmarks capture little information over the model capabilities in low-resource tasks, making it difficult to develop effective solutions in these domains. To address these challenges, we curated 14 travel-domain datasets spanning 7 common NLP tasks using anonymised data from real-world scenarios, and analysed the performance across LLMs. We report on the accuracy, scaling behaviour, and reasoning capabilities of LLMs in a variety of tasks. Our results confirm that general benchmarking results are insufficient for understanding model performance in low-resource tasks. Despite the amount of training FLOPs, out-of-the-box LLMs hit performance bottlenecks in complex, domain-specific scenarios. Furthermore, reasoning provides a more significant boost for smaller LLMs by making the model a better judge on certain tasks.
- Abstract(参考訳): 既存のLLMベンチマークの結果は、低リソースタスクにおけるモデル機能に関する情報はほとんど得られていないため、これらの領域で効率的なソリューションを開発するのが困難である。
これらの課題に対処するため、実際のシナリオから匿名化されたデータを使用して、7つの共通NLPタスクにまたがる14の旅行ドメインデータセットをキュレートし、LLMのパフォーマンスを分析した。
各種タスクにおけるLCMの精度,スケーリング行動,推論能力について報告する。
その結果,低リソースタスクにおけるモデル性能の理解には,一般的なベンチマーク結果が不十分であることが確認された。
FLOPのトレーニングの量にもかかわらず、アウトオブボックスのLLMは複雑なドメイン固有のシナリオでパフォーマンスのボトルネックにぶつかっている。
さらに、推論は、特定のタスクにおいてモデルをより優れた判断にすることで、より小さなLCMに対してより大きな向上をもたらす。
関連論文リスト
- Large Language Models for Spreadsheets: Benchmarking Progress and Evaluating Performance with FLARE [0.0]
大規模言語モデル(LLM)は、様々な領域にまたがるいくつかの重要な機能を示している。
本研究では,スプレッドシート機能の実行において,LLMをリードする性能を評価するためのベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-19T03:47:38Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
本稿では,ドメイン固有タスクのための細調整型大規模言語モデル (LLM) の詳細な解析を行う。
ドメイン固有のケースでは、ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略ではないことが分かりました。
我々は、Phi-3-Miniのような小さなモデルが、どのようにして最先端の結果が得られるかを実証する。
論文 参考訳(メタデータ) (2024-10-01T22:35:56Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。