論文の概要: LCTG Bench: LLM Controlled Text Generation Benchmark
- arxiv url: http://arxiv.org/abs/2501.15875v1
- Date: Mon, 27 Jan 2025 08:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:10.687280
- Title: LCTG Bench: LLM Controlled Text Generation Benchmark
- Title(参考訳): LCTG Bench: LLM制御テキスト生成ベンチマーク
- Authors: Kentaro Kurihara, Masato Mita, Peinan Zhang, Shota Sasaki, Ryosuke Ishigami, Naoaki Okazaki,
- Abstract要約: 本研究では,LCTG Benchについて紹介する。LCTG Benchは,大規模言語モデル(LLM)の可制御性を評価するための最初の日本語ベンチマークである。
GPT-4 のような日本語固有の多言語 LLM を9種類評価することにより,日本語 LLM の可制御性の現状と課題を明らかにする。
- 参考スコア(独自算出の注目度): 21.734828334733802
- License:
- Abstract: The rise of large language models (LLMs) has led to more diverse and higher-quality machine-generated text. However, their high expressive power makes it difficult to control outputs based on specific business instructions. In response, benchmarks focusing on the controllability of LLMs have been developed, but several issues remain: (1) They primarily cover major languages like English and Chinese, neglecting low-resource languages like Japanese; (2) Current benchmarks employ task-specific evaluation metrics, lacking a unified framework for selecting models based on controllability across different use cases. To address these challenges, this research introduces LCTG Bench, the first Japanese benchmark for evaluating the controllability of LLMs. LCTG Bench provides a unified framework for assessing control performance, enabling users to select the most suitable model for their use cases based on controllability. By evaluating nine diverse Japanese-specific and multilingual LLMs like GPT-4, we highlight the current state and challenges of controllability in Japanese LLMs and reveal the significant gap between multilingual models and Japanese-specific models.
- Abstract(参考訳): 大規模言語モデル(LLM)の台頭は、より多様で高品質な機械生成テキストを生み出している。
しかし、その表現力が高いため、特定の業務指示に基づいて出力を制御することは困難である。
その結果, LLMの可制御性に着目したベンチマークが開発されているが, 1) 主に英語や中国語などの主要言語をカバーし, 日本語などの低リソース言語を無視する,2) 現在のベンチマークではタスク固有の評価基準を採用しており, 異なるユースケースにおける可制御性に基づいたモデル選択のための統一的なフレームワークが欠如している,といった問題が残っている。
これらの課題に対処するため,本研究では,LLMの可制御性を評価するための最初の日本語ベンチマークであるLCTG Benchを紹介する。
LCTG Benchは、制御性能を評価するための統一されたフレームワークを提供する。
GPT-4 のような日本語固有の多言語 LLM を9種類評価することにより,日本語 LLM の可制御性の現状と課題を明らかにし,多言語モデルと日本語固有のモデルの間に大きなギャップがあることを明らかにする。
関連論文リスト
- MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - Multilingual European Language Models: Benchmarking Approaches and Challenges [2.413212225810367]
生成型大規模言語モデル(LLM)は、チャットインタラクションによってさまざまなタスクを解決できる。
本稿では、多言語欧州ベンチマークに着目し、現在の評価データセットの利点と限界について分析する。
本稿では,翻訳品質と文化バイアスを高めるための潜在的な解決策について論じる。
論文 参考訳(メタデータ) (2025-02-18T14:32:17Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを13件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Can General-Purpose Large Language Models Generalize to English-Thai Machine Translation ? [2.1969983462375318]
大規模言語モデル(LLM)は、一般的なタスクではうまく機能するが、低リソースおよび低計算環境での一般化に苦慮する。
本研究は,英語-タイ語機械翻訳とコードスイッチングデータセット上で,様々なLLMと特殊翻訳モデルをテストすることにより,この制限を検証した。
論文 参考訳(メタデータ) (2024-10-22T16:26:03Z) - Multi-Objective Linguistic Control of Large Language Models [24.99825231435544]
大規模言語モデル(LLM)は冗長な応答を生成し、出力複雑性の制御性に欠ける。
本研究では,LLM出力の複数の言語的複雑さをオフザシェルフデータを用いて微調整することにより正確に制御する方法を検討する。
Alpaca-GPT4およびWizardLMデータセット上でLLaMA2-7Bを微調整する。
論文 参考訳(メタデータ) (2024-06-23T21:56:48Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Analyzing Multilingual Competency of LLMs in Multi-Turn Instruction
Following: A Case Study of Arabic [1.0878040851638]
GPT-4を英語とアラビア語の問合せのための一様評価器として使用し、様々なオープンエンドタスクにおけるLCMの性能を評価し比較する。
マルチリンガルおよびマルチターンデータセットを用いた微調整ベースモデルは、スクラッチからトレーニングされたマルチリンガルデータと競合する可能性がある。
論文 参考訳(メタデータ) (2023-10-23T11:40:04Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。