論文の概要: Am I Me or You? State-of-the-Art Dialogue Models Cannot Maintain an
Identity
- arxiv url: http://arxiv.org/abs/2112.05843v1
- Date: Fri, 10 Dec 2021 21:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 16:24:22.399198
- Title: Am I Me or You? State-of-the-Art Dialogue Models Cannot Maintain an
Identity
- Title(参考訳): 私かあなたか?
アイデンティティを保持することができない現状対話モデル
- Authors: Kurt Shuster, Jack Urbanek, Arthur Szlam, Jason Weston
- Abstract要約: 最先端の対話モデルは、事実の正確さと自己矛盾に悩まされることが多い。
我々は、この欠陥を形式化し、定量化し、人間の評価を通して、これが本当に問題であることを実験的に示す。
- 参考スコア(独自算出の注目度): 44.81854078841297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art dialogue models still often stumble with regards to factual
accuracy and self-contradiction. Anecdotally, they have been observed to fail
to maintain character identity throughout discourse; and more specifically, may
take on the role of their interlocutor. In this work we formalize and quantify
this deficiency, and show experimentally through human evaluations that this is
indeed a problem. In contrast, we show that discriminative models trained
specifically to recognize who is speaking can perform well; and further, these
can be used as automated metrics. Finally, we evaluate a wide variety of
mitigation methods, including changes to model architecture, training protocol,
and decoding strategy. Our best models reduce mistaken identity issues by
nearly 65% according to human annotators, while simultaneously improving
engagingness. Despite these results, we find that maintaining character
identity still remains a challenging problem.
- Abstract(参考訳): 最先端の対話モデルは、事実の正確性と自己矛盾に関していまだに不安定であることが多い。
逸話的に、それらは言論を通してキャラクターのアイデンティティを維持できないことが観察されており、より具体的には、彼らの対話者の役割を担っている可能性がある。
この研究では、この不足を形式化し、定量化し、人間による評価を通して実際に問題であることを示す。
対照的に、誰が話すかの認識に特化して訓練された差別モデルを示し、さらにこれらを自動メトリクスとして使用することができる。
最後に,モデルアーキテクチャの変更,トレーニングプロトコル,デコード戦略など,さまざまな緩和手法を評価した。
我々の最良のモデルは、人間のアノテータによる誤識別問題を65%近く削減し、同時にエンゲージメントを改善します。
これらの結果にもかかわらず、キャラクタのアイデンティティを維持することは依然として困難な問題である。
関連論文リスト
- Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。
従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。
本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - Pointing out Human Answer Mistakes in a Goal-Oriented Visual Dialogue [10.17712881221346]
現実のシナリオは、時に人間のミスを伴い、インテリジェントなエージェントが失敗する可能性がある。
人間の解答ミスは質問の種類によって異なり、人間の誤答の未使用データ集合を分析して視覚対話を反転させることが示される。
論文 参考訳(メタデータ) (2023-09-19T07:22:05Z) - Improving Identity-Robustness for Face Models [9.721206532236515]
顔認識ベクトルをアイデンティティのプロキシとして利用して、このような堅牢性を実現する。
我々は, プロキシ埋め込み空間における条件逆密度(CID)に応じて, サンプルを重み付けする。
このような単純なサンプル重み付け方式はトレーニングの堅牢性を向上するだけでなく,全体的な性能も向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-07T20:41:10Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - Self-critiquing models for assisting human evaluators [11.1006983438712]
我々は、行動クローンを用いて自然言語批判(自然言語批判コメント)を書くために、大きな言語モデルを微調整する。
トピックベースの要約タスクでは、私たちのモデルによって書かれた批判は、人間が見逃したであろう要約の欠陥を見つけるのに役立ちます。
より大きなモデルはより有用な批評を書くことができ、ほとんどのタスクでは、批判しにくいアウトプットがあるにもかかわらず、自己批判の方が優れている。
論文 参考訳(メタデータ) (2022-06-12T17:40:53Z) - Estimating the Personality of White-Box Language Models [0.589889361990138]
大規模なテキストコーパスで訓練された大規模言語モデルは、至る所で広範囲のアプリケーションで使用されている。
既存の研究は、これらのモデルが人間の偏見を捉え、捉えていることを示している。
これらのバイアス、特に害を引き起こす可能性のあるバイアスの多くは、十分に調査されている。
しかし、これらのモデルによって受け継がれた人間の性格特性を推測し、変化させる研究は、ほとんど、あるいは存在しない。
論文 参考訳(メタデータ) (2022-04-25T23:53:53Z) - RealGait: Gait Recognition for Person Re-Identification [79.67088297584762]
我々は,既存の映像人物の再識別課題からシルエットを抽出し,制約のない方法で歩く1,404人からなる新たな歩行データセットを構築した。
以上の結果から、実際の監視シナリオにおける歩行による認識は実現可能であり、その基盤となる歩行パターンが、実際にビデオの人物認識が機能する真の理由である可能性が示唆された。
論文 参考訳(メタデータ) (2022-01-13T06:30:56Z) - Refine and Imitate: Reducing Repetition and Inconsistency in Persuasion
Dialogues via Reinforcement Learning and Human Demonstration [45.14559188965439]
ユーザシミュレータを使わずにmleベースの言語モデルの洗練に強化学習を適用することを提案する。
我々は報酬を通じて繰り返し、矛盾、タスク関連に関する文レベル情報を蒸留する。
実験により,我々のモデルは,自動測定結果と人的評価結果の両方において,従来の最先端対話モデルよりも優れていたことがわかった。
論文 参考訳(メタデータ) (2020-12-31T00:02:51Z) - Will I Sound Like Me? Improving Persona Consistency in Dialogues through
Pragmatic Self-Consciousness [62.55060760615656]
一貫性に対処する最近のモデルは、しばしば追加の自然言語推論(NLI)ラベルでトレーニングするか、あるいは一貫性を維持するためにトレーニングされた追加モジュールを生成エージェントにアタッチする。
社会的認知と実用性に触発されて、私たちは既存の対話エージェントに、想像上のリスナーを通して、公的な自己意識を持たせました。
我々のアプローチは、Rational Speech Actsフレームワークに基づいて、会話エージェントに矛盾の発声を控えるように強制することができる。
論文 参考訳(メタデータ) (2020-04-13T08:16:16Z) - Low-Resource Knowledge-Grounded Dialogue Generation [74.09352261943913]
我々は、限られた訓練例しか利用できないという自然な仮定のもと、知識基底による対話生成を考察する。
生成モデル全体から知識基底の対話に依存するパラメータを分離するために,不整合応答デコーダを考案する。
1/8のトレーニングデータだけで、我々のモデルは最先端のパフォーマンスを達成でき、ドメイン外の知識をうまく一般化できる。
論文 参考訳(メタデータ) (2020-02-24T16:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。