論文の概要: Evaluating LLMs on Chinese Topic Constructions: A Research Proposal Inspired by Tian et al. (2024)
- arxiv url: http://arxiv.org/abs/2504.14969v1
- Date: Mon, 21 Apr 2025 08:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 15:27:53.895892
- Title: Evaluating LLMs on Chinese Topic Constructions: A Research Proposal Inspired by Tian et al. (2024)
- Title(参考訳): 中国観光施設におけるLCMの評価--天らに触発された研究提案(2024年)
- Authors: Xiaodong Yang,
- Abstract要約: 本稿では,中国語トピック構築における大規模言語モデル(LLM)の評価フレームワークを提案する。
マンダリン構文に関するLLMの文法的知識をテストするための実験設計について概説する。
- 参考スコア(独自算出の注目度): 5.041669766932779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a framework for evaluating large language models (LLMs) on Chinese topic constructions, focusing on their sensitivity to island constraints. Drawing inspiration from Tian et al. (2024), we outline an experimental design for testing LLMs' grammatical knowledge of Mandarin syntax. While no experiments have been conducted yet, this proposal aims to provide a foundation for future studies and invites feedback on the methodology.
- Abstract(参考訳): 本稿では,中国における話題構築における大規模言語モデル (LLM) の評価フレームワークを提案する。
Tian et al (2024) のインスピレーションを得て,LLMのマンダリン構文の文法的知識をテストする実験設計について概説する。
実験はまだ行われていないが、この提案は今後の研究の基盤を提供し、方法論に関するフィードバックを募集することを目的としている。
関連論文リスト
- VisTW: Benchmarking Vision-Language Models for Traditional Chinese in Taiwan [20.92636353621876]
本稿では,従来の中国語における視覚言語モデル(VLM)の総合評価ベンチマークを提案する。
評価スイートは,VisTW-MCQとVisTW-Dialogueの2つの相補的なコンポーネントを含む。
論文 参考訳(メタデータ) (2025-03-13T14:49:35Z) - HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense Reasoning [56.221060995324436]
大規模言語モデル(LLM)は、常識推論において顕著な能力を示している。
これらのモデルは、本当に常識的知識を理解しているのか、あるいは単に表現パターンを記憶しているだけなのか?
11,200のケースからなる大規模バイリンガルベンチマークであるHellaSwag-Proを紹介する。
論文 参考訳(メタデータ) (2025-02-17T03:24:02Z) - ORCHID: A Chinese Debate Corpus for Target-Independent Stance Detection and Argumentative Dialogue Summarization [6.723531714964794]
オーラル・チャイナ・ディベート(Oral Chinese Debate)は、標的非依存の姿勢検出と議論の要約をベンチマークする最初の中国のデータセットである。
このデータセットは、中国語で476のユニークなトピックについて行われた1,218の現実世界の討論から成り、その内容は2,436のスタンス固有の要約と14,133の完全注釈付き発話を含む。
その結果、データセットの難易度が示され、議論対話の要約にスタンス検出を組み込むことの可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-17T15:28:27Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [86.93099925711388]
長い文脈内での物語的推論に特化したデータセットである textbfDetectiveQA を提案する。
100万以上のトークンを平均化する探偵小説を活用して、中国語と英語の両方で1200人の注釈付き質問を含むデータセットを作成します。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - A Course Shared Task on Evaluating LLM Output for Clinical Questions [49.78601596538669]
本稿では,健康関連臨床問題に対する有害な回答を生成するために,LLM(Large Language Models)の出力を評価することに焦点を当てた。
課題設計について考察し,学生からのフィードバックを報告する。
論文 参考訳(メタデータ) (2024-07-31T19:24:40Z) - LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play [43.55248812883912]
大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。
LLM議論は,アイデア交換の活発化と多様化を促進する3段階の議論フレームワークである。
提案手法の有効性を, 代替利用テスト, 類似性テスト, インスタンステスト, 科学的創造性テストを用いて評価した。
論文 参考訳(メタデータ) (2024-05-10T10:19:14Z) - Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model [36.01840141194335]
2B大言語モデル(LLM)であるCT-LLMを導入する。
CT-LLMは、スクラッチから一意に開始され、中国語のテキストデータを組み込んで従来の手法から分岐する。
CT-LLMは中国語のタスクに優れており、SFTを通して英語で適応性を示す。
論文 参考訳(メタデータ) (2024-04-05T15:20:02Z) - Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。
TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文 参考訳(メタデータ) (2024-03-29T13:56:21Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Chinese Open Instruction Generalist: A Preliminary Release [33.81265396916227]
本研究では,4つのサブタスクの固有特性に適応した各種手法による中国語指導データセットの作成を目的としたプロジェクトを提案する。
我々は、品質を保証するために手作業でチェックされた約200万の中国語のインストラクションチューニングサンプルを収集した。
既存の英語と中国語の命令コーパスを要約し、新たに構築された中国語の命令コーパスの潜在的な応用を簡潔に述べる。
論文 参考訳(メタデータ) (2023-04-17T04:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。