論文の概要: Constrained C-Test Generation via Mixed-Integer Programming
- arxiv url: http://arxiv.org/abs/2404.08821v1
- Date: Fri, 12 Apr 2024 21:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:32:47.982265
- Title: Constrained C-Test Generation via Mixed-Integer Programming
- Title(参考訳): 混合整数プログラミングによる制約付きC-テスト生成
- Authors: Ji-Ung Lee, Marc E. Pfetsch, Iryna Gurevych,
- Abstract要約: 本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。
局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。
当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
- 参考スコア(独自算出の注目度): 55.28927994487036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a novel method to generate C-Tests; a deviated form of cloze tests (a gap filling exercise) where only the last part of a word is turned into a gap. In contrast to previous works that only consider varying the gap size or gap placement to achieve locally optimal solutions, we propose a mixed-integer programming (MIP) approach. This allows us to consider gap size and placement simultaneously, achieving globally optimal solutions, and to directly integrate state-of-the-art models for gap difficulty prediction into the optimization problem. A user study with 40 participants across four C-Test generation strategies (including GPT-4) shows that our approach (MIP) significantly outperforms two of the baseline strategies (based on gap placement and GPT-4); and performs on-par with the third (based on gap size). Our analysis shows that GPT-4 still struggles to fulfill explicit constraints during generation and that MIP produces C-Tests that correlate best with the perceived difficulty. We publish our code, model, and collected data consisting of 32 English C-Tests with 20 gaps each (totaling 3,200 individual gap responses) under an open source license.
- Abstract(参考訳): 本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の逸脱形式であるC-テストを生成する新しい手法を提案する。
局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。
これにより、ギャップサイズと配置を同時に検討し、グローバルな最適解を実現し、ギャップ困難予測のための最先端モデルを直接最適化問題に統合することができる。
4つのC-Test生成戦略(GPT-4を含む)の40人の参加者によるユーザスタディでは、我々のアプローチ(MIP)は2つのベースライン戦略(ギャップ配置とGPT-4に基づく)を著しく上回り、第3の戦略(ギャップサイズに基づく)と同等に実行している。
我々の分析では、GPT-4は生成中の明示的な制約を満たすのに依然として苦労しており、MIPは認識される困難と相関するC-テストを生成する。
当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
関連論文リスト
- B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests [16.19318541132026]
ベイズフレームワーク内では、解と試験の間の観測された通過状態の後続確率に基づいて最適な選択戦略が定義されることを示す。
本稿では,この最適(計算不可能な)戦略を近似するための効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T10:22:08Z) - From Tarzan to Tolkien: Controlling the Language Proficiency Level of LLMs for Content Generation [10.009516150364371]
本稿では,この課題に対するいくつかの重要なアプローチの有効性を評価する。
この結果から,プロンプトベース戦略を用いた場合,GPT-4とオープンソースモデルの間に大きな性能差があることが判明した。
我々の最良のモデルであるCALM (CEFR-Aligned Language Model) は、GPT-4やその他の戦略の性能をほんの少しのコストで上回ります。
論文 参考訳(メタデータ) (2024-06-05T07:57:17Z) - Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Deep Gaussian Processes for Few-Shot Segmentation [66.08463078545306]
少数ショットのセグメンテーションは難しい作業であり、いくつかの注釈付きサンプルから一般化可能な表現を抽出する必要がある。
ガウス過程(GP)回帰に基づく数ショット学習者定式化を提案する。
PASCAL-5i と COCO-20i では mIoU スコアが68.1 と 49.8 である。
論文 参考訳(メタデータ) (2021-03-30T17:56:32Z) - Full Matching on Low Resolution for Disparity Estimation [84.45201205560431]
本研究では,マルチステージ完全一致格差推定法(MFM)を提案する。
また,低分解能3次元コストを見積もる代わりに,低分解能4次元ボリュームから全類似度スコアを段階的に切り離すことを実証した。
実験の結果,提案手法は,シーンフローやkitti 2012,kitti 2015のデータセットにおいて,より正確な不一致推定結果を達成し,最先端の手法を上回った。
論文 参考訳(メタデータ) (2020-12-10T11:11:23Z) - Bloom Origami Assays: Practical Group Testing [90.2899558237778]
グループテストは、いくつかの魅力的なソリューションでよく研究されている問題である。
近年の生物学的研究は、従来の方法と相容れない新型コロナウイルスの実践的な制約を課している。
我々は,Bloomフィルタと信条伝搬を組み合わせた新しい手法を開発し,n(100以上)の大きい値に拡張し,良好な経験的結果を得る。
論文 参考訳(メタデータ) (2020-07-21T19:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。