論文の概要: Test It Before You Trust It: Applying Software Testing for Trustworthy In-context Learning
- arxiv url: http://arxiv.org/abs/2504.18827v2
- Date: Wed, 07 May 2025 09:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 14:59:11.914738
- Title: Test It Before You Trust It: Applying Software Testing for Trustworthy In-context Learning
- Title(参考訳): 信頼する前にテストする: 信頼できるインコンテキスト学習にソフトウェアテストを適用する
- Authors: Teeradaj Racharak, Chaiyong Ragkhitwetsagul, Chommakorn Sontesadisai, Thanwadee Sunetnanta,
- Abstract要約: 大規模言語モデル(LLM)の強力な能力として、インコンテキスト学習(ICL)が登場した。
我々は,テキスト内学習の信頼性を評価するために,MMT4NLというソフトウェアテストに触発されたフレームワークを導入する。
- 参考スコア(独自算出の注目度): 0.6249768559720122
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In-context learning (ICL) has emerged as a powerful capability of large language models (LLMs), enabling them to perform new tasks based on a few provided examples without explicit fine-tuning. Despite their impressive adaptability, these models remain vulnerable to subtle adversarial perturbations and exhibit unpredictable behavior when faced with linguistic variations. Inspired by software testing principles, we introduce a software testing-inspired framework, called MMT4NL, for evaluating the trustworthiness of in-context learning by utilizing adversarial perturbations and software testing techniques. It includes diverse evaluation aspects of linguistic capabilities for testing the ICL capabilities of LLMs. MMT4NL is built around the idea of crafting metamorphic adversarial examples from a test set in order to quantify and pinpoint bugs in the designed prompts of ICL. Our philosophy is to treat any LLM as software and validate its functionalities just like testing the software. Finally, we demonstrate applications of MMT4NL on the sentiment analysis and question-answering tasks. Our experiments could reveal various linguistic bugs in state-of-the-art LLMs.
- Abstract(参考訳): In-context Learning (ICL) は、大規模言語モデル(LLM)の強力な機能として登場し、明示的な微調整なしにいくつかの例に基づいて新しいタスクを実行できるようになった。
その顕著な適応性にもかかわらず、これらのモデルは微妙な敵の摂動に弱いままであり、言語的なバリエーションに直面した場合に予測不可能な振る舞いを示す。
ソフトウェアテストの原則に触発されて,敵対的摂動とソフトウェアテスト技術を利用して,コンテキスト内学習の信頼性を評価するための,MMT4NLというソフトウェアテストに触発されたフレームワークを導入する。
LLMのICL能力をテストするための言語能力のさまざまな評価側面を含む。
MMT4NLは、ICLの設計したプロンプトのバグを定量化し、特定するために、テストセットからメタモルフィックな逆数例を作成するというアイデアに基づいて構築されている。
私たちの哲学は、どんなLLMをソフトウェアとして扱い、ソフトウェアをテストするのと同じように、その機能を検証することです。
最後に,感情分析と質問応答におけるMTT4NLの適用例を示す。
我々の実験は、最先端のLSMにおける様々な言語的バグを明らかにすることができる。
関連論文リスト
- Challenges in Testing Large Language Model Based Software: A Faceted Taxonomy [14.041979999979166]
LLM(Large Language Models)とMulti-Agent LLM(MALLMs)は、従来の機械学習ソフトウェアとは異なり、非決定性を導入している。
本稿では, LLMテストケース設計の分類について, 研究文献, 経験, 実践状況を表すオープンソースツールの両面から報告する。
論文 参考訳(メタデータ) (2025-03-01T13:15:56Z) - Test-driven Software Experimentation with LASSO: an LLM Benchmarking Example [1.4685355149711299]
テスト駆動ソフトウェア実験(TDSE、Test-Driven Software Experiments)は、ソフトウェア主題の実行と、その"事実上の"実行時の振る舞いの観察と分析を含む実験である。
本稿では,TDSEを行うための最小限のドメイン固有言語とデータ構造を提供するLASSOという汎用解析プラットフォームを提案する。
論文 参考訳(メタデータ) (2024-10-11T15:32:48Z) - MILE: A Mutation Testing Framework of In-Context Learning Systems [5.419884861365132]
ICLシステムにおけるテストデータの品質と有効性を特徴付けるための突然変異試験フレームワークを提案する。
まず、ICLの実証に特化しているいくつかの突然変異演算子と、ICLテストセットに対応する突然変異スコアを提案する。
総合的な実験により、ICLテストスイートの信頼性と品質を評価する上で、我々のフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2024-09-07T13:51:42Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - RITFIS: Robust input testing framework for LLMs-based intelligent
software [6.439196068684973]
RITFISは、自然言語入力に対するインテリジェントソフトウェアの堅牢性を評価するために設計された最初のフレームワークである。
RITFISは17の自動テスト手法を採用しており、元々はディープニューラルネットワーク(DNN)ベースのインテリジェントソフトウェア用に設計された。
LLMベースの知的ソフトウェア評価におけるRITFISの有効性を実証的検証により示す。
論文 参考訳(メタデータ) (2024-02-21T04:00:54Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - A Case Study on Test Case Construction with Large Language Models:
Unveiling Practical Insights and Challenges [2.7029792239733914]
本稿では,ソフトウェア工学の文脈におけるテストケース構築における大規模言語モデルの適用について検討する。
定性分析と定量分析の混合により, LLMが試験ケースの包括性, 精度, 効率に与える影響を評価する。
論文 参考訳(メタデータ) (2023-12-19T20:59:02Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - Towards Autonomous Testing Agents via Conversational Large Language
Models [18.302956037305112]
大規模言語モデル(LLM)は自動テストアシスタントとして使用できる。
本稿では,LSMをベースとしたテストエージェントの自律性に基づく分類法を提案する。
論文 参考訳(メタデータ) (2023-06-08T12:22:38Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。