論文の概要: Auto-survey Challenge
- arxiv url: http://arxiv.org/abs/2310.04480v2
- Date: Tue, 10 Oct 2023 09:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 18:20:19.476274
- Title: Auto-survey Challenge
- Title(参考訳): オートサーベイチャレンジ
- Authors: Thanh Gia Hieu Khuong (TAU, LISN), Benedictus Kent Rachmat (TAU, LISN)
- Abstract要約: 本稿では,大規模言語モデル(LLM)を自律的に作成・批判する能力を評価するための新しいプラットフォームを提案する。
このフレームワークの中で、AutoMLカンファレンス2023のコンペを開催しました。
入場者は、指定したプロンプトから記事の執筆に適したスタンドアローンモデルを提示し、その後評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel platform for evaluating the capability of Large Language
Models (LLMs) to autonomously compose and critique survey papers spanning a
vast array of disciplines including sciences, humanities, education, and law.
Within this framework, AI systems undertake a simulated peer-review mechanism
akin to traditional scholarly journals, with human organizers serving in an
editorial oversight capacity. Within this framework, we organized a competition
for the AutoML conference 2023. Entrants are tasked with presenting stand-alone
models adept at authoring articles from designated prompts and subsequently
appraising them. Assessment criteria include clarity, reference
appropriateness, accountability, and the substantive value of the content. This
paper presents the design of the competition, including the implementation
baseline submissions and methods of evaluation.
- Abstract(参考訳): 本稿では,科学,人文科学,教育,法学など幅広い分野にまたがる,大規模言語モデル(LLM)の自律的な構築と批判のための能力を評価するための新しいプラットフォームを提案する。
このフレームワークの中で、aiシステムは従来の学術雑誌に似たピアレビューのメカニズムをシミュレートし、人間のオーガナイザーが編集の監督能力を提供する。
このフレームワークの中で、automl conference 2023のコンペティションを開催しました。
入場者は、指定したプロンプトから記事の執筆に適したスタンドアローンモデルを提示し、その後評価する。
評価基準には、明確さ、参照適性、説明責任、コンテンツの実体的価値が含まれる。
本稿では,実装ベースラインの提出と評価方法を含むコンペティションの設計について述べる。
関連論文リスト
- Optimizing the role of human evaluation in LLM-based spoken document summarization systems [0.0]
生成AIコンテンツに適した音声文書要約のための評価パラダイムを提案する。
実験設計における堅牢性, 再現性, 信頼性を確保するために, 詳細な評価基準とベストプラクティスガイドラインを提供する。
論文 参考訳(メタデータ) (2024-10-23T18:37:14Z) - Analysis of the ICML 2023 Ranking Data: Can Authors' Opinions of Their Own Papers Assist Peer Review in Machine Learning? [52.00419656272129]
我々は2023年の国際機械学習会議(ICML)で実験を行った。
我々はそれぞれ2,592件の応募書を含む1,342件のランク付けを受けた。
著者によるランキングを用いて生のレビュースコアを校正するイソトニックメカニズムに注目した。
論文 参考訳(メタデータ) (2024-08-24T01:51:23Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - AI and Machine Learning for Next Generation Science Assessments [0.7416846035207727]
この章は、科学評価における人工知能(AI)と機械学習(ML)の変革的な役割に焦点を当てている。
論文は、概念学習からナレッジ・イン・ユースへのシフトを求めるK-12サイエンス教育フレームワークの議論から始まる。
本論文は,理科教育におけるMLベースアセスメントの現状の見直し,MLベース自動アセスメントにおける精度評価フレームワークの導入,今後の方向性と課題の議論という,3つの大きな目標を達成している。
論文 参考訳(メタデータ) (2024-04-23T01:39:20Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Rethinking Word-Level Auto-Completion in Computer-Aided Translation [76.34184928621477]
Word-Level Auto-Completion (WLAC) はコンピュータ翻訳において重要な役割を果たす。
それは、人間の翻訳者に対して単語レベルの自動補完提案を提供することを目的としている。
我々は、この質問に答えるために測定可能な基準を導入し、既存のWLACモデルがこの基準を満たしていないことを発見する。
評価基準の遵守を促進することによってWLAC性能を向上させる効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T03:11:46Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。