論文の概要: How the Advent of Ubiquitous Large Language Models both Stymie and
Turbocharge Dynamic Adversarial Question Generation
- arxiv url: http://arxiv.org/abs/2401.11185v1
- Date: Sat, 20 Jan 2024 09:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 17:44:41.427399
- Title: How the Advent of Ubiquitous Large Language Models both Stymie and
Turbocharge Dynamic Adversarial Question Generation
- Title(参考訳): スタイミーとターボチャージによる動的逆問題生成におけるユビキタス大規模言語モデルの出現
- Authors: Yoo Yeon Sung and Ishani Mondal and Jordan Boyd-Graber
- Abstract要約: 大型言語モデル(LLMs)は、人間の作家にとって二刃の剣である。
LLMは対戦相手として強く、打ち負かすのが難しい。
我々は、良い、挑戦的な質問を引き出すための新しい指標とインセンティブを提案する。
- 参考スコア(独自算出の注目度): 16.40094089897355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic adversarial question generation, where humans write examples to stump
a model, aims to create examples that are realistic and informative. However,
the advent of large language models (LLMs) has been a double-edged sword for
human authors: more people are interested in seeing and pushing the limits of
these models, but because the models are so much stronger an opponent, they are
harder to defeat. To understand how these models impact adversarial question
writing process, we enrich the writing guidance with LLMs and retrieval models
for the authors to reason why their questions are not adversarial. While
authors could create interesting, challenging adversarial questions, they
sometimes resort to tricks that result in poor questions that are ambiguous,
subjective, or confusing not just to a computer but also to humans. To address
these issues, we propose new metrics and incentives for eliciting good,
challenging questions and present a new dataset of adversarially authored
questions.
- Abstract(参考訳): 人間がモデルをスランプするために例を書くダイナミックな敵の質問生成は、現実的で情報に富んだ例を作ることを目的としている。
しかし、大きな言語モデル(LLM)の出現は、人間の作家にとって二重の刃の剣であり、多くの人々がこれらのモデルの限界を見押しすることに興味を持っているが、モデルが非常に強い相手であるため、打ち勝つのは難しい。
これらのモデルが逆問題作成プロセスにどのように影響するかを理解するため、著者がなぜ逆問題がないのかを判断するために、LLMと検索モデルによる記述指導を強化した。
著者は興味深い、挑戦的な質問を創り出すことができるが、しばしば、コンピュータだけでなく人間にも不明瞭で主観的で混乱した質問をもたらすようなトリックに頼ることがある。
これらの問題に対処するため,我々は,問題のあるよい質問を引き出すための新しい指標とインセンティブを提案し,反対意見の新たなデータセットを提示する。
関連論文リスト
- Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - When Large Language Models contradict humans? Large Language Models' Sycophantic Behaviour [0.8133739801185272]
主観的意見と文を含む問合せに対して,Large Language Models (LLMs) がサイコファン傾向を示すことを示す。
様々なスケールのLCMは、正しい回答を提供する自信を示すことによって、ユーザのヒントに従わないように思われる。
論文 参考訳(メタデータ) (2023-11-15T22:18:33Z) - Frontier Language Models are not Robust to Adversarial Arithmetic, or
"What do I need to say so you agree 2+2=5? [88.59136033348378]
言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を考察する。
この問題は自然言語で表される算術的な問題から成り、質問が完了する前に任意の逆文字列を挿入する。
これらの攻撃に対して、強化学習やエージェント構成ループを通じて、モデルを部分的に強化できることが示される。
論文 参考訳(メタデータ) (2023-11-08T19:07:10Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Testing AI on language comprehension tasks reveals insensitivity to underlying meaning [3.335047764053173]
LLM(Large Language Models)は、臨床支援や法的支援から、質問応答や教育まで幅広い分野で採用されている。
しかし、リバースエンジニアリングはモラベックのパラドックスによって拘束されており、簡単なスキルは難しい。
新たなベンチマークで7つの最先端モデルを体系的に評価する。
論文 参考訳(メタデータ) (2023-02-23T20:18:52Z) - TASA: Deceiving Question Answering Models by Twin Answer Sentences
Attack [93.50174324435321]
本稿では,質問応答(QA)モデルに対する敵対的攻撃手法であるTASA(Twin Answer Sentences Attack)を提案する。
TASAは、金の回答を維持しながら、流動的で文法的な逆境を生み出す。
論文 参考訳(メタデータ) (2022-10-27T07:16:30Z) - Self-critiquing models for assisting human evaluators [11.1006983438712]
我々は、行動クローンを用いて自然言語批判(自然言語批判コメント)を書くために、大きな言語モデルを微調整する。
トピックベースの要約タスクでは、私たちのモデルによって書かれた批判は、人間が見逃したであろう要約の欠陥を見つけるのに役立ちます。
より大きなモデルはより有用な批評を書くことができ、ほとんどのタスクでは、批判しにくいアウトプットがあるにもかかわらず、自己批判の方が優れている。
論文 参考訳(メタデータ) (2022-06-12T17:40:53Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。