このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230523となっている論文です。

PDF登録状況(公開日: 20230523)

TitleAuthorsAbstract論文公表日・翻訳日
# ソフトウェアサプライチェーン:攻撃,リスク評価戦略,セキュリティコントロールのレビュー

Software supply chain: review of attacks, risk assessment strategies and security controls ( http://arxiv.org/abs/2305.14157v1 )

ライセンス: Link先を確認
Betul Gokkaya, Leonardo Aniello, Basel Halak(参考訳) ソフトウェア製品は、ソフトウェアサプライチェーンを配布ベクタとして使用することによって組織を標的とするサイバー攻撃の源泉である。 オープンソースやプロプライエタリなモジュールへのソフトウェアプロジェクトの依存が激化するにつれ、sscはますます重要になってきており、サイバー攻撃者の関心を惹きつけている。 既存の研究は主にソフトウェアサプライチェーン攻撃の予防と検出方法に焦点を当てているが、ソフトウェアサプライチェーンのセキュリティに対する攻撃の概要と包括的リスク評価が必要である。 本研究は,このギャップを埋めるために系統的な文献レビューを行う。 我々は、分析攻撃の最新傾向を提供することで、最も一般的なソフトウェアサプライチェーン攻撃を分析し、オープンソースおよびサードパーティソフトウェアサプライチェーンのセキュリティリスクを特定します。 さらに、分析されたサイバー攻撃やリスクを現実のセキュリティインシデントや攻撃と結びつけて軽減するユニークなセキュリティ制御を導入する。

The software product is a source of cyber-attacks that target organizations by using their software supply chain as a distribution vector. As the reliance of software projects on open-source or proprietary modules is increasing drastically, SSC is becoming more and more critical and, therefore, has attracted the interest of cyber attackers. While existing studies primarily focus on software supply chain attacks' prevention and detection methods, there is a need for a broad overview of attacks and comprehensive risk assessment for software supply chain security. This study conducts a systematic literature review to fill this gap. We analyze the most common software supply chain attacks by providing the latest trend of analyzed attacks, and we identify the security risks for open-source and third-party software supply chains. Furthermore, this study introduces unique security controls to mitigate analyzed cyber-attacks and risks by linking them with real-life security incidence and attacks.
翻訳日:2023-10-24 07:41:42 公開日:2023-05-23
# 臨界シナリオによる自動運転システム構築のための産業実践

Industry Practices for Challenging Autonomous Driving Systems with Critical Scenarios ( http://arxiv.org/abs/2305.14146v1 )

ライセンス: Link先を確認
Qunying Song, Emelie Engstr\"om, Per Runeson(参考訳) 安全と信頼性のための自動運転システムのテストは非常に複雑である。 主な課題は、関連するテストシナリオを特定することだ。特に、自動運転車や他の道路利用者に危険や危害のリスクを及ぼす重要なシナリオだ。 重要なシナリオを識別するためのいくつかの方法やツールが提案されているが、その選択、実装、アプローチの制限といった業界プラクティスはよく分かっていない。 本研究では,スウェーデンにおける自動運転における7社13社のインタビューに対して,10回のインタビューを行った。 テーマモデリングを用いてインタビューデータを分析・合成した。 さまざまなアプローチやツールを探求するための共同開発はほとんどなく、あらゆるアプローチには独自の制限と弱点があることに気付きました。 そのために、利用可能なさまざまなアプローチを組み合わせて、異なるステークホルダーの間で協力し、重要なシナリオの特定とテストの分野を継続的に学ぶことを推奨します。 本研究の貢献は、重要なシナリオの特定とテストのための業界慣行と関連する課題の探索と合成、および関連するトピックにおける今後の研究への産業関連性の潜在的増加である。

Testing autonomous driving systems for safety and reliability is extremely complex. A primary challenge is identifying the relevant test scenarios, especially the critical ones that may expose hazards or risks of harm to autonomous vehicles and other road users. There are several proposed methods and tools for critical scenario identification, while the industry practices, such as the selection, implementation, and limitations of the approaches, are not well understood. In this study, we conducted 10 interviews with 13 interviewees from 7 companies in autonomous driving in Sweden. We used thematic modeling to analyse and synthesize the interview data. We found there are little joint efforts in the industry to explore different approaches and tools, and every approach has its own limitations and weaknesses. To that end, we recommend combining different approaches available, collaborating among different stakeholders, and continuously learning the field of critical scenario identification and testing. The contributions of our study are the exploration and synthesis of the industry practices and related challenges for critical scenario identification and testing, and the potential increase of the industry relevance for future studies in related topics.
翻訳日:2023-10-24 07:41:24 公開日:2023-05-23
# マイクロサービス環境での従来の技術とサーバレス技術の比較

A comparison between traditional and Serverless technologies in a microservices setting ( http://arxiv.org/abs/2305.13933v1 )

ライセンス: Link先を確認
Juan Mera Men\'endez, Jose Emilio Labra Gayo, Enrique Riesgo Canal, Aitor Echevarr\'ia Fern\'andez(参考訳) FaaS(Function as a Service)としても知られるサーバレステクノロジは、動的スケーラビリティ、開発速度、コスト対消費モデル、ベンダが管理するインフラストラクチャから目を離しながらコードに集中する能力を提供するソリューションとして推奨されている。 マイクロサービスアーキテクチャは、アプリケーション状態の相互作用と管理によって、複数の独立したサービスによって定義されます。 マイクロサービスに基づいたソフトウェアアーキテクチャを実装する場合、テクノロジやサーバレスを採用する可能性について、いくつかの決定が下される。 本研究では、異なる技術を用いて、同じマイクロサービスアプリケーションのプロトタイプを9つ実装する。 得られた結果のパフォーマンスとコストに対するいくつかのアーキテクチャ上の決定とその影響を分析する。 Amazon Web Servicesを使用して、より伝統的なデプロイメント環境(Kubernetes)を使用するアプリケーションから始めて、AWS ECS Fargate、AWS Lambda、DynamoDB、DocumentDBといったさまざまなテクノロジを使用した影響(コストとパフォーマンスの両方)を組み合わせて、サーバレスアーキテクチャへの移行を行います。

Serverless technologies, also known as FaaS (Function as a Service), are promoted as solutions that provide dynamic scalability, speed of development, cost-per-consumption model, and the ability to focus on the code while taking attention away from the infrastructure that is managed by the vendor. A microservices architecture is defined by the interaction and management of the application state by several independent services, each with a well-defined domain. When implementing software architectures based on microservices, there are several decisions to take about the technologies and the possibility of adopting Serverless. In this study, we implement 9 prototypes of the same microservice application using different technologies. Some architectural decisions and their impact on the performance and cost of the result obtained are analysed. We use Amazon Web Services and start with an application that uses a more traditional deployment environment (Kubernetes) and migration to a serverless architecture is performed by combining and analysing the impact (both cost and performance) of the use of different technologies such as AWS ECS Fargate, AWS Lambda, DynamoDB or DocumentDB.
翻訳日:2023-10-24 07:41:08 公開日:2023-05-23
# コンポーネントベースのソフトウェアエンジニアリングに関する予備的研究

A Prelimanary Exploration on component based software engineering ( http://arxiv.org/abs/2305.13885v1 )

ライセンス: Link先を確認
N Md Jubair Basha, Gopinath Ganapathy, Mohammed Moulana(参考訳) コンポーネントベースのソフトウェア開発(CBD)は、ソフトウェア開発を加速し、コストとタイムラインを節約し、テスト要件を最小化し、品質とアウトプットを高めるために、ソフトウェア産業によって受け入れられた方法論である。 従来のソフトウェア開発アプローチと比較すると、システムの開発はより迅速に完了した。 コンポーネントを選択し、システムを特定し、システムを評価することで、cbseはソフトウェア開発プロセスに大きく貢献します。 CBSEの目的はCBD関連の業務をサポートするすべての規律を体系化し標準化することである。 コンポーネントベースとスクリプティング技術の比較分析により、質的なパフォーマンスの観点から、コンポーネントベース技術はより効果的にスケールできることが判明した。 CBSEのさらなる研究と応用はCBDアプローチの成功に直接関係している。 本稿では,コンポーネントベースのソフトウェア工学に関する導入概念と比較分析について論じるが,CBSEの適切な適応はいまだに課題の欠如にも焦点を当てている。

Component-based software development (CBD) is a methodology that has been embraced by the software industry to accelerate development, save costs and timelines, minimize testing requirements, and boost quality and output. Compared to the conventional software development approach, this led to the system's development being completed more quickly. By choosing components, identifying systems, and evaluating those systems, CBSE contributes significantly to the software development process. The objective of CBSE is to codify and standardize all disciplines that support CBD-related operations. Analysis of the comparison between component-based and scripting technologies reveals that, in terms of qualitative performance, component-based technologies scale more effectively. Further study and application of CBSE are directly related to the CBD approach's success. This paper explores the introductory concepts and comparative analysis related to component-based software engineering which have been around for a while, but proper adaption of CBSE are still lacking issues are also focused.
翻訳日:2023-10-24 07:40:49 公開日:2023-05-23
# ChatGPT, 私のコーディング演習にソリューションを生成できるか? 大学生のjavaプログラミングコースにおけるその効果評価

ChatGPT, Can You Generate Solutions for my Coding Exercises? An Evaluation on its Effectiveness in an undergraduate Java Programming Course ( http://arxiv.org/abs/2305.13680v1 )

ライセンス: Link先を確認
Eng Lieh Ouh, Benjamin Kok Siew Gan, Kyong Jin Shim, Swavek Wlodkowski(参考訳) 本研究では、ChatGPT言語モデルを用いて、学部のJavaプログラミングコースにおけるコーディング演習のソリューションを作成することの有効性を評価する。 大規模でディープラーニング駆動の自然言語処理モデルChatGPTは、テキスト入力に基づいてプログラミングコードを生成することができる。 評価では,ChatGPT生成した80種類のプログラミング演習を解析し,それらを正しい解と比較する。 以上の結果から,chatgpt は高い可読性と組織構造に富む java プログラミングソリューションを高精度に生成できることが判明した。 さらにモデルでは、メモリ効率のよい代替ソリューションを生成できる。 しかし、自然言語処理モデルとして、ChatGPTは、非テキスト記述やクラスファイルを含むコーディング演習に苦労し、無効なソリューションへと繋がる。 結論として、ChatGPTは、プログラミングの課題を克服し、コーディング問題を解決するための代替アプローチを探究する学生にとって、価値のあるツールとしてポテンシャルを持っている。 制限を理解することによって、教育者は、評価ツールとしての有効性を維持しつつ、不正使用の可能性を最小化するコーディングエクササイズを設計することができる。

In this study, we assess the efficacy of employing the ChatGPT language model to generate solutions for coding exercises within an undergraduate Java programming course. ChatGPT, a large-scale, deep learning-driven natural language processing model, is capable of producing programming code based on textual input. Our evaluation involves analyzing ChatGPT-generated solutions for 80 diverse programming exercises and comparing them to the correct solutions. Our findings indicate that ChatGPT accurately generates Java programming solutions, which are characterized by high readability and well-structured organization. Additionally, the model can produce alternative, memory-efficient solutions. However, as a natural language processing model, ChatGPT struggles with coding exercises containing non-textual descriptions or class files, leading to invalid solutions. In conclusion, ChatGPT holds potential as a valuable tool for students seeking to overcome programming challenges and explore alternative approaches to solving coding problems. By understanding its limitations, educators can design coding exercises that minimize the potential for misuse as a cheating aid while maintaining their validity as assessment tools.
翻訳日:2023-10-24 07:39:45 公開日:2023-05-23
# クラウド認証は可能か? 経験的学習によるクラウド認定のためのコンピューティング学部生の準備

Are you cloud-certified? Preparing Computing Undergraduates for Cloud Certification with Experiential Learning ( http://arxiv.org/abs/2305.13662v1 )

ライセンス: Link先を確認
Eng Lieh Ouh, Benjamin Kok Siew Gan(参考訳) クラウドコンピューティングのスキルは需要が増している。 多くのソフトウェアエンジニアがこれらのスキルを学び、クラウド認証試験を仕事の競争力として受けています。 クラウドコンピューティングはコンピューティングカリキュラムの中で比較的新しいトピックであり、これらの認定の多くは作業経験を必要としている。 本稿では,経験を積んだ学習コースを設計し,クラウドの認定を受けるためのコンピュータ学部生の準備を行った経験を報告する。 本研究は,学生がクラウドソリューションを開発するためのプロジェクト要件と,コース内容を設計するための経験的リスク学習モデルを提供する,大学プロジェクトベースの経験的学習フレームワークを採用する。 これらの学生がコースを実行しながら、Amazon Web Services Solution Architect - Associate (AWS-SAA)に参加する準備をする。 これを3学期以上にわたって実施し,経験的学習による設計前後の調査結果を報告する。 私たちは、生徒の平均93%の合格率に動機付けられています。 認定がグレードされたコンポーネントから取り除かれたとしても、89\%の参加率を奨励しています。 定量的なフィードバックは、経験的学習よりも、調査質問全体のレーティングが増加していることを示している。 我々は,学生の労働負荷に対する懸念と,教職員の行政努力の増加を認めている。 当社のアプローチを,毎週実施可能なトピックやアクティビティ,テイクアウトで要約します。 この経験レポートは、他の教育者がソフトウェア工学の学生のためにクラウドコンピューティングのコンテンツや認定をデザインするのに役立つことを願っている。

Cloud Computing skills have been increasing in demand. Many software engineers are learning these skills and taking cloud certification examinations to be job competitive. Preparing undergraduates to be cloud-certified remains challenging as cloud computing is a relatively new topic in the computing curriculum, and many of these certifications require working experience. In this paper, we report our experiences designing a course with experiential learning to prepare our computing undergraduates to take the cloud certification. We adopt a university project-based experiential learning framework to engage industry partners who provide project requirements for students to develop cloud solutions and an experiential risk learning model to design the course contents. We prepare these students to take on the Amazon Web Services Solution Architect - Associate (AWS-SAA) while doing the course. We do this over 3 semester terms and report our findings before and after our design with experiential learning. We are motivated by the students' average 93\% passing rates over the terms. Even when the certification is taken out of the graded components, we still see an encouraging 89\% participation rate. The quantitative feedback shows increased ratings across the survey questions compared to before experiential learning. We acknowledge concerns about the students' heavy workload and increased administrative efforts for the faculty members. We summarise our approach with actionable weekly topics, activities and takeaways. We hope this experience report can help other educators design cloud computing content and certifications for computing students in software engineering.
翻訳日:2023-10-24 07:39:26 公開日:2023-05-23
# detectllm: マシン生成テキストのゼロショット検出にログランク情報を活用する

DetectLLM: Leveraging Log Rank Information for Zero-Shot Detection of Machine-Generated Text ( http://arxiv.org/abs/2306.05540v1 )

ライセンス: Link先を確認
Jinyan Su, Terry Yue Zhuo, Di Wang, Preslav Nakov(参考訳) 大規模言語モデル(llm)の急速な進歩と大量のテキストの生成により、テキストがマシン生成であるかどうかを手作業で区別することがますます非現実的になっている。 ソーシャルメディアや教育におけるLLMの利用の増加を踏まえ,機械によるテキストの検出手法を開発し,盗作や誤情報,プロパガンダなどの悪意ある使用を防止することを促す。 これまでの研究では、トレーニングデータを必要としないゼロショット法がいくつか研究されている。 これらの手法は優れたパフォーマンスを実現しますが、改善の余地はたくさんあります。 本稿では,ログランク情報を利用してマシン生成テキストを検出する2つのゼロショット方式を提案する。 ひとつは高速で効率のよい DetectLLM-LRR で、もうひとつは DetectLLM-NPR と呼ばれ、より正確だが摂動が必要なため遅い。 3つのデータセットと7つの言語モデルによる実験により,提案手法は3.9点と1.75点のAUROC点を絶対的に改善することを示した。 さらに、T DetectLLM-NPRは、同じレベルのパフォーマンスを達成するために、以前の作業よりも摂動を少なくする必要があります。 また,この2つの尺度に対するユーザの嗜好に基づく効率性・パフォーマンス上のトレードオフについても検討し,その有効性について直観的に考察する。 両メソッドのデータとコードはhttps://github.com/mbzuai-nlp/DetectLLMで公開しています。

With the rapid progress of large language models (LLMs) and the huge amount of text they generated, it becomes more and more impractical to manually distinguish whether a text is machine-generated. Given the growing use of LLMs in social media and education, it prompts us to develop methods to detect machine-generated text, preventing malicious usage such as plagiarism, misinformation, and propaganda. Previous work has studied several zero-shot methods, which require no training data. These methods achieve good performance, but there is still a lot of room for improvement. In this paper, we introduce two novel zero-shot methods for detecting machine-generated text by leveraging the log rank information. One is called DetectLLM-LRR, which is fast and efficient, and the other is called DetectLLM-NPR, which is more accurate, but slower due to the need for perturbations. Our experiments on three datasets and seven language models show that our proposed methods improve over the state of the art by 3.9 and 1.75 AUROC points absolute. Moreover, DetectLLM-NPR needs fewer perturbations than previous work to achieve the same level of performance, which makes it more practical for real-world use. We also investigate the efficiency--performance trade-off based on users preference on these two measures and we provide intuition for using them in practice effectively. We release the data and the code of both methods in https://github.com/mbzuai-nlp/DetectLLM
翻訳日:2023-06-18 13:11:06 公開日:2023-05-23
# トランスコーダ:人間スキルに触発された統一トランスコーダブルコード表現学習に向けて

TransCoder: Towards Unified Transferable Code Representation Learning Inspired by Human Skills ( http://arxiv.org/abs/2306.07285v1 )

ライセンス: Link先を確認
Qiushi Sun, Nuo Chen, Jianing Wang, Xiang Li, Ming Gao(参考訳) コード事前訓練モデル(CodePTM)は、コードクローン検出、コード翻訳、コード要約など、様々なソフトウェアインテリジェンスタスクを処理するための確固たる能力を示している。 ダウンストリームタスクにこれらのモデルをデプロイする現在の主流の方法は、それらを個々のタスクに微調整することです。 そこで本論文では,コード表現学習のためのTranscoderを統一した微調整戦略として提案する。 知識一般化の人間固有のスキルにインスパイアされたTransCoderは、人間プログラマのようなコード関連のメタ知識を学習するためにモデルを駆動する。 具体的には,調整可能なプレフィックスエンコーダをメタリーナーとして使用し,クロスタスクとクロス言語トランスファー可能な知識をそれぞれ捉える。 さらに,小規模のサンプルサイズをトレーニングするタスクや,コーパスが小さい言語も,このアプローチのメリットを享受できる。 ベンチマークデータセットを用いた大規模な実験により,提案手法が様々なコード関連タスクの性能向上に寄与し,相互強化を促進できることが示された。 また、TransCoderは低リソースのシナリオにも適用可能であることを示す。

Code pre-trained models (CodePTMs) have recently demonstrated a solid capacity to process various software intelligence tasks, e.g., code clone detection, code translation, and code summarization. The current mainstream method that deploys these models to downstream tasks is to fine-tune them on individual tasks, which is generally costly and needs sufficient data for large models. To tackle the issue, in this paper, we present TransCoder, a unified Transferable fine-tuning strategy for Code representation learning. Inspired by human inherent skills of knowledge generalization, TransCoder drives the model to learn better code-related meta-knowledge like human programmers. Specifically, we employ a tunable prefix encoder as the meta-learner to capture cross-task and cross-language transferable knowledge, respectively. Besides, tasks with minor training sample sizes and languages with small corpus can be remarkably benefited from our approach. Extensive experiments conducted on benchmark datasets clearly demonstrate that our method can lead to superior performance on various code-related tasks and encourage mutual reinforcement. We also show that TransCoder is applicable in low-resource scenarios.
翻訳日:2023-06-18 12:42:08 公開日:2023-05-23
# 脳卒中治療のための深層学習に基づくDSA画像系列分類の臨床的翻訳に向けて

Towards clinical translation of deep-learning based classification of DSA image sequences for stroke treatment ( http://arxiv.org/abs/2306.06207v1 )

ライセンス: Link先を確認
Timo Baumg\"artner, Benjamin J. Mittmann, Till Malzacher, Johannes Ro{\ss}kopf, Michael Braun, Bernd Schmitz, Alfred M. Franz(参考訳) 脳卒中の場合、血栓を除去するためにカテーテルガイド手術(thrombectomy)が用いられる。 DSA (Digital Substraction Angiography) を用いた血栓検出のための機械学習に基づく自動分類の可能性が示されている。 しかし、まだ診療所では使用されていない。 本稿では,自動トロンバス分類のためのオープンソースツールを提案し,機能と分類ランタイムに関する3つの臨床事例について検証する。 訓練モデルでは,M1セグメントのすべての大血管閉塞が正しく分類された。 残る1つのM3血栓は検出されなかった。 ランタイムは、使用するハードウェアによって1秒から10秒の範囲でした。 我々のオープンソースソフトウェアツールは、臨床スタッフがDSAシークエンスをリアルタイムで分類し、クリニックでのさらなる研究に使用できると結論付けている。

In the event of stroke, a catheter-guided procedure (thrombectomy) is used to remove blood clots. Feasibility of machine learning based automatic classifications for thrombus detection on digital substraction angiography (DSA) sequences has been demonstrated. It was however not used live in the clinic, yet. We present an open-source tool for automatic thrombus classification and test it on three selected clinical cases regarding functionality and classification runtime. With our trained model all large vessel occlusions in the M1 segment were correctly classified. One small remaining M3 thrombus was not detected. Runtime was in the range from 1 to 10 seconds depending on the used hardware. We conclude that our open-source software tool enables clinical staff to classify DSA sequences in (close to) realtime and can be used for further studies in clinics.
翻訳日:2023-06-18 12:40:34 公開日:2023-05-23
# テキストと画像のモデルの性能を予測するトレーニング

Training Priors Predict Text-To-Image Model Performance ( http://arxiv.org/abs/2306.01755v1 )

ライセンス: Link先を確認
Charles Lovering and Ellie Pavlick(参考訳) テキストから画像へのモデルは、しばしばいくつかの関係、すなわち"astronaut riding horse"を生成するが、同じ基本部分からなる他の関係、すなわち" horse riding astronaut"を生成することができない。 これらの失敗はしばしば、モデルが新しいイメージを合成的に構築するのではなく、トレーニング前のものに依存するという証拠として捉えられる。 本稿では,この直感をStablediffusion 2.1 text-to-imageモデルで直接検証する。 これらのプロンプトのバックボーンを形成するsubject-verb-object(svo)のトライアド(例えば、"astronaut", "ride", " horse")を見ると、トレーニングデータにsvoのトライアドが頻繁に現れるほど、モデルがそのトライアドと整合したイメージを生成することができる。 ここでは、各項が互いに適切な関係で生成された画像に現れることを意味する。 しかし、この周波数の増加は、モデルがフリップ三重項に整列した画像をいかにうまく生成できるかを低下させる。 例えば、トレーニングデータに"astronaut riding horse"が頻繁に現れる場合、" horse riding astronaut"のイメージは不十分なアライメントになる傾向がある。 また、モデルが非定型的な役割(例えば、"馬"がより意味的患者(オブジェクト)である場合、モデルが意味的エージェント(サブジェクト)としてそれを視覚化するのに苦労することがある。 以上の結果から,現在のモデルでは,従来の意味において抽象的な構成構造を採用するか,あるいはトレーニングデータで明確に見られる関係間の補間を行うかという議論において,トレーニングで見られる関係に整合した画像を生成し,重要な新たなデータを提供する傾向が示唆された。

Text-to-image models can often generate some relations, i.e., "astronaut riding horse", but fail to generate other relations composed of the same basic parts, i.e., "horse riding astronaut". These failures are often taken as evidence that the models rely on training priors rather than constructing novel images compositionally. This paper tests this intuition directly on the stablediffusion 2.1 text-to-image model. By looking at the subject-verb-object (SVO) triads that form the backbone of these prompts (e.g., "astronaut", "ride", "horse"), we find that the more often an SVO triad appears in the training data, the better the model can generate an image aligned with that triad. Here, by aligned we mean that each of the terms appears in the generated image in the proper relation to each other. However, this increased frequency also diminishes how well the model can generate an image aligned with the flipped triad. For example, if "astronaut riding horse" appears frequently in the training data, the image for "horse riding astronaut" will tend to be poorly aligned. We also find that models often struggle to generate terms in atypical roles, e.g., if "horse" is more often the semantic patient (object), the model might struggle to visualize it as a semantic agent (subject). Our results thus show that current models are biased to generate images aligned with relations seen in training and provide important new data in the ongoing debate on whether these text-to-image models employ abstract compositional structure in a traditional sense, or rather, interpolate between relations explicitly seen in the training data.
翻訳日:2023-06-11 14:08:35 公開日:2023-05-23
# 編集時のコードにおけるトランスフォーマーベースの脆弱性検出:ゼロショット、少数ショット、微調整?

Transformer-based Vulnerability Detection in Code at EditTime: Zero-shot, Few-shot, or Fine-tuning? ( http://arxiv.org/abs/2306.01754v1 )

ライセンス: Link先を確認
Aaron Chan, Anant Kharkar, Roshanak Zilouchian Moghaddam, Yevhen Mohylevskyy, Alec Helyar, Eslam Kamal, Mohamed Elkamhawy, Neel Sundaresan(参考訳) ソフトウェアの脆弱性には大きなコストがかかる。 ソフトウェア脆弱性検出手法の研究と開発に多大な努力を払っているにもかかわらず、未解決の脆弱性はソフトウェア所有者とユーザを危険にさらし続けている。 現在の脆弱性検出メソッドの多くは、コードスニペットをコンパイルして、検出を試みる前にビルドする必要がある。 残念ながらこれは、脆弱性が注入されるから削除されるまでの長いレイテンシを導入し、脆弱性を修正するコストを大幅に高める可能性がある。 開発者がedittimeでコードを書いているときに、構文的に不完全なコードスニペット上の脆弱なコードパターンを検出するために、機械学習の現在の進歩が利用可能であることを認識しています。 本稿では,250以上の脆弱性型の複雑な表現を学習し,EditTimeで脆弱なコードパターンを検出するために,大規模で脆弱なコードパターンのデータセットをディープラーニングに活用する実用的なシステムを提案する。 本稿では, ゼロショット, 少数ショット, 微調整による言語モデル (LLM) の現状について論じる。 美術品の脆弱性検出モデルと比較すると,我々の手法は工芸品の状態を10%改善する。 また,コードllmによる自動生成コードの脆弱性検出手法を評価した。 ハイリスクなコードシナリオのベンチマークの評価は、最大90%の脆弱性削減を示している。

Software vulnerabilities bear enterprises significant costs. Despite extensive efforts in research and development of software vulnerability detection methods, uncaught vulnerabilities continue to put software owners and users at risk. Many current vulnerability detection methods require that code snippets can compile and build before attempting detection. This, unfortunately, introduces a long latency between the time a vulnerability is injected to the time it is removed, which can substantially increases the cost of fixing a vulnerability. We recognize that the current advances in machine learning can be used to detect vulnerable code patterns on syntactically incomplete code snippets as the developer is writing the code at EditTime. In this paper we present a practical system that leverages deep learning on a large-scale data set of vulnerable code patterns to learn complex manifestations of more than 250 vulnerability types and detect vulnerable code patterns at EditTime. We discuss zero-shot, few-shot, and fine-tuning approaches on state of the art pre-trained Large Language Models (LLMs). We show that in comparison with state of the art vulnerability detection models our approach improves the state of the art by 10%. We also evaluate our approach to detect vulnerability in auto-generated code by code LLMs. Evaluation on a benchmark of high-risk code scenarios shows a reduction of up to 90% vulnerability reduction.
翻訳日:2023-06-11 14:08:03 公開日:2023-05-23
# ソースコード脆弱性識別のための逐次グラフニューラルネットワーク

Sequential Graph Neural Networks for Source Code Vulnerability Identification ( http://arxiv.org/abs/2306.05375v1 )

ライセンス: Link先を確認
Ammar Ahmed, Anwar Said, Mudassir Shabbir, Xenofon Koutsoukos(参考訳) 脆弱性識別は、サイバーセキュリティにとって重要なタスクである。 大きなアプリケーションで脆弱な機能を見つけて修正するのに非常に役立ちます。 しかし、信頼性が高く、適切に管理されたデータセットと学習モデルがないため、このタスクはかなり難しい。 既存のソリューションは通常、データセットの注釈付けや機能指定に人間の専門知識に依存しています。 さらに、学習モデルは偽陽性率が高い。 このギャップを埋めるために,本論文では,CVEFGE(CVEFunctionGraphEmbeddings)と呼ばれるC/C++ソースコード脆弱性データセットを適切にキュレートし,モデル開発を支援する。 CVEFGEはCVEデータベースから自動的にクロールされる。 また,多数のコード意味表現を学習するための連続グラフニューラルネットワーク(SEGNN)という,グラフニューラルネットワークに基づく学習フレームワークを提案する。 SEGNNはシーケンシャルな学習モジュール、グラフの畳み込み、プーリング、完全に接続されたレイヤで構成されている。 グラフ分類設定における2つのデータセットと4つのベースラインメソッドの評価は,最先端の結果を示している。

Vulnerability identification constitutes a task of high importance for cyber security. It is quite helpful for locating and fixing vulnerable functions in large applications. However, this task is rather challenging owing to the absence of reliable and adequately managed datasets and learning models. Existing solutions typically rely on human expertise to annotate datasets or specify features, which is prone to error. In addition, the learning models have a high rate of false positives. To bridge this gap, in this paper, we present a properly curated C/C++ source code vulnerability dataset, denoted as CVEFunctionGraphEmbeddings (CVEFGE), to aid in developing models. CVEFGE is automatically crawled from the CVE database, which contains authentic and publicly disclosed source code vulnerabilities. We also propose a learning framework based on graph neural networks, denoted SEquential Graph Neural Network (SEGNN) for learning a large number of code semantic representations. SEGNN consists of a sequential learning module, graph convolution, pooling, and fully connected layers. Our evaluations on two datasets and four baseline methods in a graph classification setting demonstrate state-of-the-art results.
翻訳日:2023-06-11 13:18:46 公開日:2023-05-23
# CombLM:小さな微調整モデルによるブラックボックス言語モデルへの適応

CombLM: Adapting Black-Box Language Models through Small Fine-Tuned Models ( http://arxiv.org/abs/2305.16876v1 )

ライセンス: Link先を確認
Aitor Ormazabal, Mikel Artetxe and Eneko Agirre(参考訳) 言語モデル(LM)を新しいタスクやドメインに適用するための手法は、伝統的にモデルへのホワイトボックスアクセスを仮定し、パラメータを変更することで機能する。 しかし、これはこの分野における最近のトレンドとは相容れない。最高の品質モデルは推論APIを通じてブラックボックスとしてのみ利用可能である。 モデルウェイトが利用可能であっても、多くの実践者にとって、大きなlmsを微調整する計算コストは禁止される。 本研究では,重みや中間的なアクティベーションを前提として,新しいドメインやタスクに大規模なlmsを適用するための軽量な手法を提案する。 提案手法は, 小型のホワイトボックスLMを微調整し, 小さなネットワークを介して, 確率レベルでの大きなブラックボックスLMと組み合わせ, 小さな検証セットで学習する。 我々は,大規模lm(opt-30b)を複数のドメインと下流タスク(機械翻訳)に適応させ,すべてのケースにおけるパフォーマンスを最大9%,ドメインエキスパートを23倍小さくすることで検証した。

Methods for adapting language models (LMs) to new tasks and domains have traditionally assumed white-box access to the model, and work by modifying its parameters. However, this is incompatible with a recent trend in the field, where the highest quality models are only available as black-boxes through inference APIs. Even when the model weights are available, the computational cost of fine-tuning large LMs can be prohibitive for most practitioners. In this work, we present a lightweight method for adapting large LMs to new domains and tasks, assuming no access to their weights or intermediate activations. Our approach fine-tunes a small white-box LM and combines it with the large black-box LM at the probability level through a small network, learned on a small validation set. We validate our approach by adapting a large LM (OPT-30B) to several domains and a downstream task (machine translation), observing improved performance in all cases, of up to 9%, while using a domain expert 23x smaller.
翻訳日:2023-06-04 12:00:11 公開日:2023-05-23
# 支持ベクターマシン誘導再生カーネル粒子法による微細構造のイメージベースモデリング

Support Vector Machine Guided Reproducing Kernel Particle Method for Image-Based Modeling of Microstructures ( http://arxiv.org/abs/2305.16402v1 )

ライセンス: Link先を確認
Yanran Wang, Jonghyuk Baek, Yichun Tang, Jing Du, Mike Hillman, J. S. Chen(参考訳) 本稿では,複雑な微細構造を有するマイクロct画像から複合材料のディジタル表現を構築する際に,離散化と近似の手順を自動化する手法を提案する。 提案手法は,SVM(Support Vector Machine)分類によって導出され,マイクロ構造画像の識別に有効なアプローチを提供する。 異種材料点の分類としてSVMソフトマージントレーニングプロセスを導入し、局所正規化最適化問題を通じて支援ベクトルを同定して画像分割を行う。 さらに, 材料界面の弱い不連続性を適切に近似するために, IM-RKPM (Interface-Modified Reproduction Kernel Particle Method) を提案する。 提案手法は,Gibの振動を緩和するため,材料界面に関する正則化重辺関数でスムーズなカーネル関数を修飾する。 このIM-RKPMは、メッシュフリー法における従来の弱い不連続性の処理で一般的に必要とされるインタフェースノードと関連する重複自由度を導入することなく定式化される。 さらに、IM-RKPMは、SCNI(Stbilized Conforming Nodal Integration)のような様々なドメイン統合技術で実装できる。 提案手法の3次元化への拡張は簡単であり, 高分子-セラミックス複合材料のイメージベースモデリングにより, 提案手法の有効性が検証された。

This work presents an approach for automating the discretization and approximation procedures in constructing digital representations of composites from Micro-CT images featuring intricate microstructures. The proposed method is guided by the Support Vector Machine (SVM) classification, offering an effective approach for discretizing microstructural images. An SVM soft margin training process is introduced as a classification of heterogeneous material points, and image segmentation is accomplished by identifying support vectors through a local regularized optimization problem. In addition, an Interface-Modified Reproducing Kernel Particle Method (IM-RKPM) is proposed for appropriate approximations of weak discontinuities across material interfaces. The proposed method modifies the smooth kernel functions with a regularized heavy-side function concerning the material interfaces to alleviate Gibb's oscillations. This IM-RKPM is formulated without introducing duplicated degrees of freedom associated with the interface nodes commonly needed in the conventional treatments of weak discontinuities in the meshfree methods. Moreover, IM-RKPM can be implemented with various domain integration techniques, such as Stabilized Conforming Nodal Integration (SCNI). The extension of the proposed method to 3-dimension is straightforward, and the effectiveness of the proposed method is validated through the image-based modeling of polymer-ceramic composite microstructures.
翻訳日:2023-06-04 11:59:51 公開日:2023-05-23
# BERTテキスト分類における現実的ラベルノイズの扱い

Handling Realistic Label Noise in BERT Text Classification ( http://arxiv.org/abs/2305.16337v1 )

ライセンス: Link先を確認
Maha Tufail Agro, Hanan Aldarmaki(参考訳) ラベルノイズ(英語: labels noise)とは、webスクレイピングやクラウドソーシングといった安価なデータアノテーションメソッドによって引き起こされる、教師付き分類器のパフォーマンスを損なう可能性のあるラベルのトレーニングエラーを指す。 教師付き分類における無作為ラベルノイズの影響に対処するいくつかの手法が提案されており、いくつかの研究は、ベルトが既に無作為注入ラベルノイズの高率に対して頑健であることを証明している。 しかし、実際のラベルノイズはランダムではなく、入力特徴や他の注釈器特有の要因と関連付けられることが多い。 本稿では,特徴依存ラベルノイズとアノテータの不一致による合成ラベルノイズという,2種類の現実的なラベルノイズの存在下でのBERTの評価を行う。 これらのノイズの存在がBERT分類性能を著しく低下させることを示す。 頑健性を向上させるため,異なる種類のアンサンブルとノイズクリーニング法を評価し,異なるデータセット間のラベルノイズに対する効果を比較した。

Labels noise refers to errors in training labels caused by cheap data annotation methods, such as web scraping or crowd-sourcing, which can be detrimental to the performance of supervised classifiers. Several methods have been proposed to counteract the effect of random label noise in supervised classification, and some studies have shown that BERT is already robust against high rates of randomly injected label noise. However, real label noise is not random; rather, it is often correlated with input features or other annotator-specific factors. In this paper, we evaluate BERT in the presence of two types of realistic label noise: feature-dependent label noise, and synthetic label noise from annotator disagreements. We show that the presence of these types of noise significantly degrades BERT classification performance. To improve robustness, we evaluate different types of ensembles and noise-cleaning methods and compare their effectiveness against label noise across different datasets.
翻訳日:2023-06-04 11:59:31 公開日:2023-05-23
# 短文クラスタリングのための自己適応的最適トランスポートによる疑似ラベル生成によるロバスト表現学習

Robust Representation Learning with Reliable Pseudo-labels Generation via Self-Adaptive Optimal Transport for Short Text Clustering ( http://arxiv.org/abs/2305.16335v1 )

ライセンス: Link先を確認
Xiaolin Zheng, Mengling Hu, Weiming Liu, Chaochao Chen, and Xinting Liao(参考訳) 不均衡でノイズの多いデータを入力として使用するため、短いテキストクラスタリングは難しい。 既存の手法では,(1)重度不均衡なデータセットで解が得られる傾向があり,(2)ノイズに弱いため,この問題をうまく解決できない。 そこで本研究では,不均衡・雑音データに対するロバスト性を改善するためのロバスト短文クラスタリング(rstc)モデルを提案する。 RSTCは2つのモジュール、すなわち擬似ラベル生成モジュールと堅牢な表現学習モジュールを含んでいる。 前者は擬似ラベルを生成して後続の監視を行い、より堅牢な表現と正しく分離されたクラスタに寄与する。 データの不均衡に対してロバスト性を与えるため,擬似ラベル生成モジュールにおける自己適応的最適輸送を提案する。 データ中のノイズに対する頑健性を改善するために,ロバスト表現学習モジュールにおいて,クラスワイドおよびインスタンスワイドのコントラスト学習を導入する。 8つの短いテキストクラスタリングデータセットに関する実証研究は、rstcが最先端モデルを大きく上回っていることを示している。 コードはhttps://github.com/hmllmh/rstc。

Short text clustering is challenging since it takes imbalanced and noisy data as inputs. Existing approaches cannot solve this problem well, since (1) they are prone to obtain degenerate solutions especially on heavy imbalanced datasets, and (2) they are vulnerable to noises. To tackle the above issues, we propose a Robust Short Text Clustering (RSTC) model to improve robustness against imbalanced and noisy data. RSTC includes two modules, i.e., pseudo-label generation module and robust representation learning module. The former generates pseudo-labels to provide supervision for the later, which contributes to more robust representations and correctly separated clusters. To provide robustness against the imbalance in data, we propose self-adaptive optimal transport in the pseudo-label generation module. To improve robustness against the noise in data, we further introduce both class-wise and instance-wise contrastive learning in the robust representation learning module. Our empirical studies on eight short text clustering datasets demonstrate that RSTC significantly outperforms the state-of-the-art models. The code is available at: https://github.com/hmllmh/RSTC.
翻訳日:2023-06-04 11:59:16 公開日:2023-05-23
# OlaGPT:人間のような問題解決能力を備えたLLM

OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities ( http://arxiv.org/abs/2305.16334v1 )

ライセンス: Link先を確認
Yuanzhen Xie, Tao Xie, Mingxiong Lin, WenTao Wei, Chenglin Li, Beibei Kong, Lei Chen, Chengxiang Zhuo, Bo Hu, Zang Li(参考訳) 多くの研究において、大きな言語モデル(LLM)は特定のプロンプトのガイダンスを通じて思考の連鎖を生成することによって推論タスクを実行することができる。 しかし、複雑な推論問題を解く能力と人間の能力との間には大きな違いがある。 現在、ほとんどのアプローチは人間の認知フレームワークの採用と適用を考慮せずに、思考の連鎖(COT)とツールの使用に焦点を当てている。 複雑な推論課題に直面するとき、人間は通常様々な認知能力を使い、ツール、知識、外部環境情報といったあらゆる側面とのインタラクションを必要とし、複雑なタスクを達成する。 本稿では,OlaGPTと呼ばれる新しいインテリジェントなフレームワークを紹介する。 OlaGPTは認知アーキテクチャの枠組みを慎重に研究し、人間の認知の特定の側面をシミュレートすることを提案する。 このフレームワークは、注意、記憶、推論、学習、および対応するスケジューリングと意思決定メカニズムを含む様々な認知モジュールを近似する。 人間の積極的な学習機構に着想を得て,過去の誤りや専門家の意見を記録する学習単位を提案し,同様の問題を解決する能力を強化するために動的にそれを参照する。 また,人間の問題解決に共通する効果的な推論フレームワークとcot(chain-of-thought)テンプレートの設計について概説する。 モデル精度を最大化する総合的意思決定機構も提案されている。 OlaGPTの有効性は、複数の推論データセットで厳密に評価されており、実験の結果、OlaGPTが最先端のベンチマークを超え、その優れた性能を示していることが明らかになった。 OlaGPTの実装はGitHubで利用可能です。

In most current research, large language models (LLMs) are able to perform reasoning tasks by generating chains of thought through the guidance of specific prompts. However, there still exists a significant discrepancy between their capability in solving complex reasoning problems and that of humans. At present, most approaches focus on chains of thought (COT) and tool use, without considering the adoption and application of human cognitive frameworks. It is well-known that when confronting complex reasoning challenges, humans typically employ various cognitive abilities, and necessitate interaction with all aspects of tools, knowledge, and the external environment information to accomplish intricate tasks. This paper introduces a novel intelligent framework, referred to as OlaGPT. OlaGPT carefully studied a cognitive architecture framework, and propose to simulate certain aspects of human cognition. The framework involves approximating different cognitive modules, including attention, memory, reasoning, learning, and corresponding scheduling and decision-making mechanisms. Inspired by the active learning mechanism of human beings, it proposes a learning unit to record previous mistakes and expert opinions, and dynamically refer to them to strengthen their ability to solve similar problems. The paper also outlines common effective reasoning frameworks for human problem-solving and designs Chain-of-Thought (COT) templates accordingly. A comprehensive decision-making mechanism is also proposed to maximize model accuracy. The efficacy of OlaGPT has been stringently evaluated on multiple reasoning datasets, and the experimental outcomes reveal that OlaGPT surpasses state-of-the-art benchmarks, demonstrating its superior performance. Our implementation of OlaGPT is available on GitHub: \url{https://github.com/oladata-team/OlaGPT}.
翻訳日:2023-06-04 11:58:54 公開日:2023-05-23
# survAIval:AIの眼による生存分析

survAIval: Survival Analysis with the Eyes of AI ( http://arxiv.org/abs/2305.18222v1 )

ライセンス: Link先を確認
Kamil Kowol, Stefan Bracke and Hanno Gottschalk(参考訳) 本研究では,運転シミュレータと2人のドライバーを用いて,自動運転のためのトレーニングデータを強化し,安全で重要なコーナーケースを短時間で生成する手法を提案する。 その結果,これらのコーナーケースを訓練中に組み込むことで,視覚障害により記録されたにもかかわらず,テスト中のコーナーケースの認識が向上することがわかった。 これまでの研究で開発されたコーナーケーストリガーパイプラインを用いて,開発の観点からの普遍モデルと比較して,気象条件や日時の違いによる領域ギャップを克服する専門家モデルの有効性を検討した。 本研究は,エキスパートモデルが性能と効率の面で大きなメリットをもたらし,モデルトレーニングに必要な時間と労力を削減できることを明らかにする。 この結果は,自動運転の進歩に寄与し,将来道路上での安全で信頼性の高い自動運転車の経路を提供する。

In this study, we propose a novel approach to enrich the training data for automated driving by using a self-designed driving simulator and two human drivers to generate safety-critical corner cases in a short period of time, as already presented in~\cite{kowol22simulator}. Our results show that incorporating these corner cases during training improves the recognition of corner cases during testing, even though, they were recorded due to visual impairment. Using the corner case triggering pipeline developed in the previous work, we investigate the effectiveness of using expert models to overcome the domain gap due to different weather conditions and times of day, compared to a universal model from a development perspective. Our study reveals that expert models can provide significant benefits in terms of performance and efficiency, and can reduce the time and effort required for model training. Our results contribute to the progress of automated driving, providing a pathway for safer and more reliable autonomous vehicles on the road in the future.
翻訳日:2023-06-04 11:49:44 公開日:2023-05-23
# UWB波形に基づく誤り除去のための半教師付き学習手法

A Semi-Supervised Learning Approach for Ranging Error Mitigation Based on UWB Waveform ( http://arxiv.org/abs/2305.18208v1 )

ライセンス: Link先を確認
Yuxiao Li, Santiago Mazuelas, Yuan Shen(参考訳) 超広帯域(UWB)測定に基づくローカライゼーションシステムは、非視線誤差(NLOS)が存在するため、厳しい環境では不満足な性能を有する。 学習に基づく誤り軽減手法は,手作り機能の代わりに広帯域波形を直接利用することにより,優れた性能向上を実現している。 しかし、これらの手法はトレーニングに実際の測定誤差をラベル付けしたデータサンプルを必要とするため、時間を要するデータ収集につながる。 本稿では,UWBレンジ誤差軽減のための変分ベイズに基づく半教師付き学習手法を提案する。 ディープラーニング技術と統計ツールを組み合わせて,ラベル付きデータとラベルなしデータの両方から知識を効率的に蓄積する。 広範な実験により, 異なる監督率で提案手法の有効性と, 低監督率でも他の完全監督法と比較して優れていることを示す。

Localization systems based on ultra-wide band (UWB) measurements can have unsatisfactory performance in harsh environments due to the presence of non-line-of-sight (NLOS) errors. Learning-based methods for error mitigation have shown great performance improvement via directly exploiting the wideband waveform instead of handcrafted features. However, these methods require data samples fully labeled with actual measurement errors for training, which leads to time-consuming data collection. In this paper, we propose a semi-supervised learning method based on variational Bayes for UWB ranging error mitigation. Combining deep learning techniques and statistic tools, our method can efficiently accumulate knowledge from both labeled and unlabeled data samples. Extensive experiments illustrate the effectiveness of the proposed method under different supervision rates, and the superiority compared to other fully supervised methods even at a low supervision rate.
翻訳日:2023-06-04 11:48:55 公開日:2023-05-23
# 同時範囲誤差軽減と環境同定のための深部生成モデル

Deep Generative Model for Simultaneous Range Error Mitigation and Environment Identification ( http://arxiv.org/abs/2305.18206v1 )

ライセンス: Link先を確認
Yuxiao Li, Santiago Mazuelas, Yuan Shen(参考訳) 受信波形は、範囲情報と環境意味論の両方のための豊富な情報を含む。 しかし、その潜在能力はマルチパスおよび非視線条件下では利用しにくい。 本稿では,同時範囲誤差軽減と環境同定のための深部生成モデル(dgm)を提案する。 特に,範囲関連特徴量と環境セマンティクスの両方について,潜在変数によって構成された受信波形の生成過程に対するベイズモデルを提案する。 同時範囲誤差低減と環境同定は,DGMに基づく推論問題として解釈され,ユニークなエンドツーエンド学習方式で実装される。 一般的なUltra-widebandデータセットに関する総合的な実験は、レンジエラー軽減、異なる環境へのスケーラビリティ、および同時環境識別における新しい能力の優れた性能を示す。

Received waveforms contain rich information for both range information and environment semantics. However, its full potential is hard to exploit under multipath and non-line-of-sight conditions. This paper proposes a deep generative model (DGM) for simultaneous range error mitigation and environment identification. In particular, we present a Bayesian model for the generative process of the received waveform composed by latent variables for both range-related features and environment semantics. The simultaneous range error mitigation and environment identification is interpreted as an inference problem based on the DGM, and implemented in a unique end-to-end learning scheme. Comprehensive experiments on a general Ultra-wideband dataset demonstrate the superior performance on range error mitigation, scalability to different environments, and novel capability on simultaneous environment identification.
翻訳日:2023-06-04 11:48:41 公開日:2023-05-23
# 深層強化学習に基づくマルチエージェントコミュニケーションと協調意思決定に関する研究

Research on Multi-Agent Communication and Collaborative Decision-Making Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2305.17141v1 )

ライセンス: Link先を確認
Zeng Da(参考訳) マルチエージェント環境では、マルチエージェント環境の非定常性を克服し緩和するために、集中型トレーニング分散実行(ctde)の枠組みを採用することが主流である。 この論文はCTDEの枠組みに基づいており、マルチエージェント近似ポリシー最適化のためのMAPPOアルゴリズムに基づくマルチエージェントの協調的意思決定について研究している。 マルチエージェント環境の非定常性を軽減するために,重みスケジューリングとアテンションモジュールに基づくマルチエージェント通信機構を導入する。 異なるエージェントは、エージェント間の情報交換を通じて局所的な観察によって生じる非定常性を緩和し、エージェントの協調的な意思決定を支援する。 特定の方法は、ポリシーネットワーク部に通信モジュールを導入することである。 通信モジュールは、重量発生器、重量スケジューラ、メッセージエンコーダ、メッセージプールおよび注意モジュールからなる。 このうち、重み発生器と重みスケジューラは通信選択基盤として重みを生成し、メッセージエンコーダは通信情報を圧縮してエンコードし、メッセージプールは通信メッセージを格納し、注意モジュールはエージェント自身の情報と通信情報との対話的な処理を実現する。 本論文では,マルチエージェント通信とグローバル情報最適化(MCGOPPO)のアルゴリズムを提案し,SMACとMPEの実験を行った。 実験の結果,マルチエージェント環境の非定常性を緩和し,エージェント間の協調的意思決定能力を向上させる効果が得られた。

In a multi-agent environment, In order to overcome and alleviate the non-stationarity of the multi-agent environment, the mainstream method is to adopt the framework of Centralized Training Decentralized Execution (CTDE). This thesis is based on the framework of CTDE, and studies the cooperative decision-making of multi-agent based on the Multi-Agent Proximal Policy Optimization (MAPPO) algorithm for multi-agent proximal policy optimization. In order to alleviate the non-stationarity of the multi-agent environment, a multi-agent communication mechanism based on weight scheduling and attention module is introduced. Different agents can alleviate the non-stationarity caused by local observations through information exchange between agents, assisting in the collaborative decision-making of agents. The specific method is to introduce a communication module in the policy network part. The communication module is composed of a weight generator, a weight scheduler, a message encoder, a message pool and an attention module. Among them, the weight generator and weight scheduler will generate weights as the selection basis for communication, the message encoder is used to compress and encode communication information, the message pool is used to store communication messages, and the attention module realizes the interactive processing of the agent's own information and communication information. This thesis proposes a Multi-Agent Communication and Global Information Optimization Proximal Policy Optimization(MCGOPPO)algorithm, and conducted experiments in the SMAC and the MPE. The experimental results show that the improvement has achieved certain effects, which can better alleviate the non-stationarity of the multi-agent environment, and improve the collaborative decision-making ability among the agents.
翻訳日:2023-06-04 11:48:01 公開日:2023-05-23
# 事前学習された言語モデルに基づくレゲックス型ドメイン転送トピックの分類:金融ドメインへの応用

Regex-augmented Domain Transfer Topic Classification based on a Pre-trained Language Model: An application in Financial Domain ( http://arxiv.org/abs/2305.18324v1 )

ライセンス: Link先を確認
Vanessa Liao, Syed Shariyar Murtaza, Yifan Nie, Jimmy Lin(参考訳) ダウンストリームタスクのために大きな事前学習された言語モデルを使う一般的な方法は、それらを追加のレイヤを使って微調整することです。 ダウンストリームドメインが専門ドメインであるのに対して、大きな言語モデルはジェネリックコーパスで事前トレーニングされているため、これはうまくいきません。 本稿では、ドメイン特化テキストに加えて、微調整のプロセスにおいて、ドメイン知識の特徴として使われる正規表現パターンの使用について論じる。 実シナリオ生成データを用いた実験により,本手法は,ドメイン固有のテキストのみを微調整するよりも,下流のテキスト分類タスクを改善することが示された。 また、注意ネットワークによる微調整により、単純な線形層に比べて結果が改善されることを示す。

A common way to use large pre-trained language models for downstream tasks is to fine tune them using additional layers. This may not work well if downstream domain is a specialized domain whereas the large language model has been pre-trained on a generic corpus. In this paper, we discuss the use of regular expression patterns employed as features for domain knowledge during the process of fine tuning, in addition to domain specific text. Our experiments on real scenario production data show that this method of fine tuning improves the downstream text classification tasks as compared to fine tuning only on domain specific text. We also show that the use of attention network for fine tuning improves results compared to simple linear layers.
翻訳日:2023-06-04 11:31:27 公開日:2023-05-23
# ReWOO: 効率的な拡張言語モデルの観測から推論を分離する

ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models ( http://arxiv.org/abs/2305.18323v1 )

ライセンス: Link先を確認
Binfeng Xu, Zhiyuan Peng, Bowen Lei, Subhabrata Mukherjee, Yuchen Liu, Dongkuan Xu(参考訳) Augmented Language Models (ALMs) は、Large Language Models (LLMs) の推論能力と、知識検索と行動実行を可能にするツールをブレンドする。 既存のALMシステムは、これらのツールからの観察をインターリーブ方式で引き出しながら、LSM思考プロセスをトリガーする。 具体的には、LMが外部ツールを呼び出す理由として、ツールのレスポンスを取得するために停止され、前のすべてのレスポンストークンに基づいて次のアクションが決定される。 このようなパラダイムは単純で実装が容易であるが、しばしば冗長なプロンプトと繰り返し実行による計算の複雑さにつながる。 本研究では,このような課題を初めて解決し,推論プロセスを外部の観測から切り離し,トークン消費を著しく削減するモジュラーパラダイム(観察なしの推論)を提案する。 6つのパブリックNLPベンチマークとキュレートデータセットの総合評価により,提案手法による一貫した性能向上が示された。 特に、ReWOOはマルチステップ推論ベンチマークであるHotpotQAで5倍のトークン効率と4%の精度向上を実現している。 さらに、ReWOOはツール障害のシナリオ下で堅牢性を示す。 非パラメトリックツール呼び出しからパラメトリックモジュールを分離することで、llmを小さな言語モデルにオフロードする命令の微調整が可能になり、モデルパラメータが大幅に削減される。 本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。

Augmented Language Models (ALMs) blend the reasoning capabilities of Large Language Models (LLMs) with tools that allow for knowledge retrieval and action execution. Existing ALM systems trigger LLM thought processes while pulling observations from these tools in an interleaved fashion. Specifically, an LLM reasons to call an external tool, gets halted to fetch the tool's response, and then decides the next action based on all preceding response tokens. Such a paradigm, though straightforward and easy to implement, often leads to huge computation complexity from redundant prompts and repeated execution. This study addresses such challenges for the first time, proposing a modular paradigm ReWOO (Reasoning WithOut Observation) that detaches the reasoning process from external observations, thus significantly reducing token consumption. Comprehensive evaluations across six public NLP benchmarks and a curated dataset reveal consistent performance enhancements with our proposed methodology. Notably, ReWOO achieves 5x token efficiency and 4% accuracy improvement on HotpotQA, a multi-step reasoning benchmark. Furthermore, ReWOO demonstrates robustness under tool-failure scenarios. Beyond prompt efficiency, decoupling parametric modules from non-parametric tool calls enables instruction fine-tuning to offload LLMs into smaller language models, thus substantially reducing model parameters. Our illustrative work offloads reasoning ability from 175B GPT3.5 into 7B LLaMA, demonstrating the significant potential for truly efficient and scalable ALM systems.
翻訳日:2023-06-04 11:31:13 公開日:2023-05-23
# レーザー超音波可視化画像からの欠陥検出のための深部cnn構造の検討

A Study on Deep CNN Structures for Defect Detection From Laser Ultrasonic Visualization Testing Images ( http://arxiv.org/abs/2305.18327v1 )

ライセンス: Link先を確認
Miya Nakajima, Takahiro Saitoh, Tsuyoshi Kato(参考訳) 近年, 超音波非破壊検査の重要性が高まっており, レーザー超音波検査と散乱波可視化技術を組み合わせたレーザー超音波可視化試験の可能性が高まっている。 散乱波が可視化されたとしても、検査官は慎重に画像を調べる必要がある。 そこで本稿では,luvt画像の自動欠陥検出と位置推定のためのディープニューラルネットワークを提案する。 この課題に適したニューラルネットワークの構造を検討するために,luvt画像解析問題と汎用オブジェクト検出問題を比較した。 SUS304平板の実世界データを用いた数値実験により,提案手法は予測性能において汎用物体検出モデルよりも有効であることが示された。 また,予測に要する計算時間は一般物体検出モデルよりも高速であることを示す。

The importance of ultrasonic nondestructive testing has been increasing in recent years, and there are high expectations for the potential of laser ultrasonic visualization testing, which combines laser ultrasonic testing with scattered wave visualization technology. Even if scattered waves are visualized, inspectors still need to carefully inspect the images. To automate this, this paper proposes a deep neural network for automatic defect detection and localization in LUVT images. To explore the structure of a neural network suitable to this task, we compared the LUVT image analysis problem with the generic object detection problem. Numerical experiments using real-world data from a SUS304 flat plate showed that the proposed method is more effective than the general object detection model in terms of prediction performance. We also show that the computational time required for prediction is faster than that of the general object detection model.
翻訳日:2023-06-04 11:19:53 公開日:2023-05-23
# BigVideo:マルチモーダル機械翻訳のための大規模ビデオ字幕翻訳データセット

BigVideo: A Large-scale Video Subtitle Translation Dataset for Multimodal Machine Translation ( http://arxiv.org/abs/2305.18326v1 )

ライセンス: Link先を確認
Liyan Kang, Luyang Huang, Ningxin Peng, Peihao Zhu, Zewei Sun, Shanbo Cheng, Mingxuan Wang, Degen Huang and Jinsong Su(参考訳) 本稿では,マルチモダリティ機械翻訳の研究を容易にするために,大規模ビデオ字幕翻訳データセットbigvideoを提案する。 広く使われているhow2とvatexデータセットと比較して、bigvideoは450万文ペアと9,981時間のビデオからなる10倍以上の大きさである。 また、視覚情報の必要性を検証するために意図的に設計された2つのテストセットも導入する:曖昧な単語の存在にあいまいで、テキストコンテキストが翻訳のために自己完結しているあいまいさ。 テキストやビデオ間で共有される共通意味をモデル化するために,クロスモーダルエンコーダにコントラスト学習手法を導入する。 BigVideoの大規模な実験によると、 a)視覚情報は、あいまいなテストセットとあいまいなテストセットの両方において、BLEU、BLEURT、COMETの観点からNMTモデルを一貫して改善します。 b)視覚情報は,用語目標スコアと人的評価に基づく強いテキストベースラインと比較して曖昧さを助長する。 Datasetと実装はhttps://github.com/DeepLearnXMU/BigVideo-VMT.comで利用可能です。

We present a large-scale video subtitle translation dataset, BigVideo, to facilitate the study of multi-modality machine translation. Compared with the widely used How2 and VaTeX datasets, BigVideo is more than 10 times larger, consisting of 4.5 million sentence pairs and 9,981 hours of videos. We also introduce two deliberately designed test sets to verify the necessity of visual information: Ambiguous with the presence of ambiguous words, and Unambiguous in which the text context is self-contained for translation. To better model the common semantics shared across texts and videos, we introduce a contrastive learning method in the cross-modal encoder. Extensive experiments on the BigVideo show that: a) Visual information consistently improves the NMT model in terms of BLEU, BLEURT, and COMET on both Ambiguous and Unambiguous test sets. b) Visual information helps disambiguation, compared to the strong text baseline on terminology-targeted scores and human evaluation. Dataset and our implementations are available at https://github.com/DeepLearnXMU/BigVideo-VMT.
翻訳日:2023-06-04 11:19:40 公開日:2023-05-23
# 3次元点雲データを用いたフォームワークシステム部材の自動間隔測定

Automated spacing measurement of formwork system members with 3D point cloud data ( http://arxiv.org/abs/2305.19275v1 )

ライセンス: Link先を確認
Keyi Wu, Samuel A. Prieto, Eyob Mengiste, Borja Garc\'ia de Soto(参考訳) 仮設構造に属するフォームワークシステムは、建設プロジェクトの円滑な進展と成功に重要な役割を果たしている。 建築安全と品質の確保には, 設計どおりの整備が不可欠である。 フォームワークシステムメンバー間の間隔を測定する現在の方法は、主に手動測定ツールを使用して行われる。 本研究では,この品質検査の自動化を図るために,3Dポイントクラウドデータを用いたフォームワークシステムメンバーの間隔を測定する枠組みを提案する。 この新しさは、使用する異なるテクニックを統合することだけでなく、人間の介入なしにフォームワークシステムにおけるキーメンバーの検出と測定に特有である。 提案フレームワークは実際の建設現場でテストされた。 3d point cloud dataアプローチと従来の測定ツールとの手動アプローチを比較するために、5つのケースを調査した。 結果は、3d point cloud dataアプローチは有望なソリューションであり、手動アプローチの効果的な代替手段になり得ることを示している。

The formwork system belonging to the temporary structure plays an important role in the smooth progress and successful completion of a construction project. Ensuring that the formwork system is installed as designed is essential for construction safety and quality. The current way to measure the spacing between formwork system members is mostly done using manual measuring tools. This research proposes a framework to measure the spacing of formwork system members using 3D point cloud data to enhance the automation of this quality inspection. The novelty is not only in the integration of the different techniques used but in the detection and measurement of key members in the formwork system without human intervention. The proposed framework was tested on a real construction site. Five cases were investigated to compare the 3D point cloud data approach to the manual approach with traditional measuring tools. The results indicate that the 3D point cloud data approach is a promising solution and can potentially be an effective alternative to the manual approach.
翻訳日:2023-06-04 11:11:00 公開日:2023-05-23
# 大学生の協調的学際学習におけるチャットGPTの活用の可能性と課題

Embrace Opportunities and Face Challenges: Using ChatGPT in Undergraduate Students' Collaborative Interdisciplinary Learning ( http://arxiv.org/abs/2305.18616v1 )

ライセンス: Link先を確認
Gaoxia Zhu, Xiuyi Fan, Chenyu Hou, Tianlong Zhong, Peter Seow, Annabel Chen Shen-Hsing, Preman Rajalingam, Low Kin Yew, Tan Lay Poh(参考訳) 2022年11月にスタートしたChatGPTは、学生や教育者から世界中の注目を集めており、Hu(2023年)のオンラインレポートによると、史上最速の消費者アプリケーションだ。 高等教育におけるChatGPTの使用に関する議論は多いが、協調学際学習への影響に関する実証的研究は稀である。 本研究は,130人の大学生(STEMおよび非STEM)を対象に,ChatGPTの有無にかかわらず2週間にわたって,デジタルリテラシーを学習する準実験を行った。 共同学際的問題解決,身体的および認知的関与,ChatGPT使用に関する個別の考察について週次調査を行った。 調査回答の分析は, 学際的課題解決と身体的および認知的エンゲージメント, 学際的背景とChatGPT条件との縁的相互作用効果, 身体的エンゲージメントに対する重要な相互作用効果に, トピックが有意な影響を示した。 STEMと非STEM学生のChatGPTに対する意見に有意な差は認められなかった。 反射の質的分析は、効率性、知識のギャップへの対処、人間のような反応の生成を含む8つのポジティブなテーマと、一般的な反応、革新の欠如、自己規律と思考に対する非生産性を含む8つのネガティブなテーマを生み出した。 以上の結果から,chatgptの利用は,授業中の話題や学生の学際的背景を一様に適用するよりも考慮して最適化する必要があることが示唆された。 これらの知見は教育研究と実践の両方に影響を及ぼす。

ChatGPT, launched in November 2022, has gained widespread attention from students and educators globally, with an online report by Hu (2023) stating it as the fastest-growing consumer application in history. While discussions on the use of ChatGPT in higher education are abundant, empirical studies on its impact on collaborative interdisciplinary learning are rare. To investigate its potential, we conducted a quasi-experimental study with 130 undergraduate students (STEM and non-STEM) learning digital literacy with or without ChatGPT over two weeks. Weekly surveys were conducted on collaborative interdisciplinary problem-solving, physical and cognitive engagement, and individual reflections on ChatGPT use. Analysis of survey responses showed significant main effects of topics on collaborative interdisciplinary problem-solving and physical and cognitive engagement, a marginal interaction effect between disciplinary backgrounds and ChatGPT conditions for cognitive engagement, and a significant interaction effect for physical engagement. Sentiment analysis of student reflections suggested no significant difference between STEM and non-STEM students' opinions towards ChatGPT. Qualitative analysis of reflections generated eight positive themes, including efficiency, addressing knowledge gaps, and generating human-like responses, and eight negative themes, including generic responses, lack of innovation, and counterproductive to self-discipline and thinking. Our findings suggest that ChatGPT use needs to be optimized by considering the topics being taught and the disciplinary backgrounds of students rather than applying it uniformly. These findings have implications for both pedagogical research and practices.
翻訳日:2023-06-04 11:09:35 公開日:2023-05-23
# 画像検索のためのテスト時間バイアスの緩和

Mitigating Test-Time Bias for Fair Image Retrieval ( http://arxiv.org/abs/2305.19329v1 )

ライセンス: Link先を確認
Fanjie Kong, Shuai Yuan, Weituo Hao, Ricardo Henao(参考訳) 本稿では,視覚言語モデル(vl)の有用性(性能)を維持しつつ,中性的なテキストクエリ(明示的な性別や人種意味を含まない)に対して,公平で偏りのない画像検索結果を生成する課題に対処する。 従来の手法は、画像やテキストクエリの学習表現を性別や人種的特徴から切り離すことを目的としていた。 しかし, 対象検索集合には通常テスト時バイアスが存在するため, 所望の等価表現結果に対するバイアスの軽減には不十分であることを示す。 そこで我々は,事前学習した視覚言語モデルからの出力を後処理する,簡単な手法pbm(post-hoc bias mitigation)を導入する。 本アルゴリズムは,実世界の画像検索データセットである occupation 1 と 2 と,ms-coco と flickr30k の2つの大規模画像テキストデータセット上で評価する。 本手法は,テキストベースの画像検索結果において,既存のバイアス軽減手法と比較して,検索性能を維持しつつ,最も低いバイアスを実現する。 ソースコードは \url{https://anonymous.4open.science/r/Fair_Text_based_Image_Retrieval-D8B2} で公開されている。

We address the challenge of generating fair and unbiased image retrieval results given neutral textual queries (with no explicit gender or race connotations), while maintaining the utility (performance) of the underlying vision-language (VL) model. Previous methods aim to disentangle learned representations of images and text queries from gender and racial characteristics. However, we show these are inadequate at alleviating bias for the desired equal representation result, as there usually exists test-time bias in the target retrieval set. So motivated, we introduce a straightforward technique, Post-hoc Bias Mitigation (PBM), that post-processes the outputs from the pre-trained vision-language model. We evaluate our algorithm on real-world image search datasets, Occupation 1 and 2, as well as two large-scale image-text datasets, MS-COCO and Flickr30k. Our approach achieves the lowest bias, compared with various existing bias-mitigation methods, in text-based image retrieval result while maintaining satisfactory retrieval performance. The source code is publicly available at \url{https://anonymous.4open.science/r/Fair_Text_based_Image_Retrieval-D8B2}.
翻訳日:2023-06-04 10:59:40 公開日:2023-05-23
# プレトレーニング音声埋め込みを用いたASD児の音声言語発達の理解

Understanding Spoken Language Development of Children with ASD Using Pre-trained Speech Embeddings ( http://arxiv.org/abs/2305.14117v1 )

ライセンス: Link先を確認
Anfeng Xu, Rajat Hebbar, Rimita Lahiri, Tiantian Feng, Lindsay Butler, Lue Shen, Helen Tager-Flusberg, Shrikanth Narayanan(参考訳) 音声処理技術は自閉症スペクトラム障害(ASD)児の音声・言語発達を解析するのに有用である。 早期診断と介入は重要であるが,介護者報告のような従来の評価手法は,必要な行動表現型付けには不十分である。 自然言語サンプル(NLS)分析は有望な補完として注目されている。 研究者は、NLSの分析により取得可能な、ASDを持つ小児の音声言語能力のベンチマークを開発した。 本稿では,子供と成人の音声とNLSにおける音声・非言語音声の分類による言語発達の自動評価を支援するための音声処理技術の応用を提案し,それぞれのF1マクロスコアが82.6%,67.8%であり,ASD研究および臨床応用のための正確でスケーラブルなツールの可能性について考察する。

Speech processing techniques are useful for analyzing speech and language development in children with Autism Spectrum Disorder (ASD), who are often varied and delayed in acquiring these skills. Early identification and intervention are crucial, but traditional assessment methodologies such as caregiver reports are not adequate for the requisite behavioral phenotyping. Natural Language Sample (NLS) analysis has gained attention as a promising complement. Researchers have developed benchmarks for spoken language capabilities in children with ASD, obtainable through the analysis of NLS. This paper proposes applications of speech processing technologies in support of automated assessment of children's spoken language development by classification between child and adult speech and between speech and nonverbal vocalization in NLS, with respective F1 macro scores of 82.6% and 67.8%, underscoring the potential for accurate and scalable tools for ASD research and clinical use.
翻訳日:2023-05-26 19:30:37 公開日:2023-05-23
# 進化的サンプリングによるマイズショット学習に基づくタンパク質工学の改善

Improving few-shot learning-based protein engineering with evolutionary sampling ( http://arxiv.org/abs/2305.15441v1 )

ライセンス: Link先を確認
M. Zaki Jawaid and Robin W. Yeo and Aayushma Gautam and T. Blair Gainous and Daniel O. Hart and Timothy P. Daley(参考訳) 新規な機能的タンパク質の設計は、様々なタンパク質工学の課題のために、依然として遅く高価なプロセスであり、特に、与えられたアッセイペールで試験的にテストできるタンパク質変異体の数は、全体の配列空間の広さと比較して、低いヒット率と高価な湿式実験室試験サイクルをもたらす。 本稿では,高価なウェットラボテストサイクルを加速することを目的として,小型かつ歪んだトレーニングデータセット(「10^5$データポイント」,「1\%$ポジティブヒット」)を活用することを目的とした,新規なタンパク質設計のための数発の学習手法を提案する。 提案手法は, 所望のタンパク質機能に対する個別のフィットネスランドスケープを生成するための半教師あり移動学習手法と, フィットネスランドスケープをより効率的に探索するための新しい進化的モンテカルロマルコ・チェインサンプリングアルゴリズムとから構成される。 予測された高適合性遺伝子アクチベーターを実験的にスクリーニングすることにより,本手法の性能を実証し,既存の手法と比較してヒット率を劇的に向上させた。 本手法は他のタンパク質工学や設計問題、特にラベル付きデータ取得に伴うコストが著しく高い場合に容易に適用できる。 我々はこのメソッドのオープンソースコードをhttps:// github.com/SuperSecretBioTech/evolutionary_monte_carlo_searchで提供しました。

Designing novel functional proteins remains a slow and expensive process due to a variety of protein engineering challenges; in particular, the number of protein variants that can be experimentally tested in a given assay pales in comparison to the vastness of the overall sequence space, resulting in low hit rates and expensive wet lab testing cycles. In this paper, we propose a few-shot learning approach to novel protein design that aims to accelerate the expensive wet lab testing cycle and is capable of leveraging a training dataset that is both small and skewed ($\approx 10^5$ datapoints, $< 1\%$ positive hits). Our approach is composed of two parts: a semi-supervised transfer learning approach to generate a discrete fitness landscape for a desired protein function and a novel evolutionary Monte Carlo Markov Chain sampling algorithm to more efficiently explore the fitness landscape. We demonstrate the performance of our approach by experimentally screening predicted high fitness gene activators, resulting in a dramatically improved hit rate compared to existing methods. Our method can be easily adapted to other protein engineering and design problems, particularly where the cost associated with obtaining labeled data is significantly high. We have provided open source code for our method at https:// github.com/SuperSecretBioTech/evolutionary_monte_carlo_search.
翻訳日:2023-05-26 19:19:51 公開日:2023-05-23
# 相対性理論と概念変数に基づく量子論のバージョンとの関連性の可能性

Possible connections between relativity theory and a version of quantum theory based on conceptual variables ( http://arxiv.org/abs/2305.15435v1 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 量子論への別のアプローチについて述べ、彼のアプローチを特殊相対性理論と一般相対性理論に結びつける仮の試みについて論じる。 重要な概念 arゲージ群といくつかの物理系に接続された情報/エントロピー。 ブラックホールに関連する情報に関する最近の研究結果が触れられている。 ここでの議論は予備的なものでなければならない。

An alternative approach towards quantum theory is described, and tentative attempts to connect his approach to special and general relativity are discussed. Important concepts ar gauge groups and information/entropy connected to some physical systems. Some recent results on information in connection to black holes are touched upon. The discussions here must be considered to be preliminary.
翻訳日:2023-05-26 19:19:14 公開日:2023-05-23
# ゴール指向タスクで普遍的に現れる逆正方形レヴィウォーク

Inverse square Levy walk emerging universally in goal-oriented tasks ( http://arxiv.org/abs/2305.15559v1 )

ライセンス: Link先を確認
Shuji Shinohara, Daiki Morita, Nobuhito Manome, Ryota Hayashi, Toru Moriyama, Hiroshi Okamoto, Pegio-Yukio Gunji, and Ung-il Chung(参考訳) ステップ長の発生頻度がパワーロー分布に従うレヴィウォークは,様々なレベルの生物の移動行動で観察できる。 電力指数が2に近いレヴィウォークが観察されており、その理由は不明である。 本研究では,逆正方形歩行(コーシー歩行)を普遍的に生成し,コーシー歩行が現れる条件を同定するモデルを提案する。 コーシーウォーキングがゴール指向のタスクで普遍的に現れることを実証する。 ゴールが明確である場合、「ゴール指向」という用語を使うが、これは異なる方法で達成でき、一意的に決定できない。 エージェントが2次元空間における確率分布から生成されたデータを観測し,その確率分布の中央座標を逐次推定するシミュレーションを行った。 エージェントは、データ生成分布の仮説として確率分布のモデルを有し、データポイントが観測される度にモデルを変更することにより、観測されたデータの発生確率を増大させることができる。 これを実現するために、モデルの中心座標は観測されたデータの座標に近くなければならない。 しかし、二次元空間の場合、中心の補正方向に任意性が生じ、このタスクはゴール指向である。 x方向とy方向の修正量をランダムに割り当てる戦略と、移動を最小限に抑えるように割り当てを決定する戦略の2つの事例を分析した。 その結果,ランダム戦略を用いた場合,移動長の発生頻度は指数2のパワーロー分布を示すことがわかった。 最小限の戦略を使用すると、ブラウンウォークが現れる。 運動量を最小限に抑える制約の存在や欠如は、ブラウンとレヴィの歩行の違いを引き起こす要因であるかもしれない。

The Levy walk in which the frequency of occurrence of step lengths follows a power-law distribution, can be observed in the migratory behavior of organisms at various levels. Levy walks with power exponents close to 2 are observed, and the reasons are unclear. This study aims to propose a model that universally generates inverse square Levy walks (called Cauchy walks) and to identify the conditions under which Cauchy walks appear. We demonstrate that Cauchy walks emerge universally in goal-oriented tasks. We use the term "goal-oriented" when the goal is clear, but this can be achieved in different ways, which cannot be uniquely determined. We performed a simulation in which an agent observed the data generated from a probability distribution in a two-dimensional space and successively estimated the central coordinates of that probability distribution. The agent has a model of probability distribution as a hypothesis for data-generating distribution and can modify the model such that each time a data point is observed, thereby increasing the estimated probability of occurrence of the observed data. To achieve this, the center coordinates of the model must be close to those of the observed data. However, in the case of a two-dimensional space, arbitrariness arises in the direction of correction of the center; this task is goal oriented. We analyze two cases: a strategy that allocates the amount of modification randomly in the x- and y-directions, and a strategy that determines allocation such that movement is minimized. The results reveal that when a random strategy is used, the frequency of occurrence of the movement lengths shows a power-law distribution with exponent 2. When the minimum strategy is used, the Brownian walk appears. The presence or absence of the constraint of minimizing the amount of movement may be a factor that causes the difference between Brownian and Levy walks.
翻訳日:2023-05-26 18:42:52 公開日:2023-05-23
# 構造的、教師付き、生成的逆行学習による非循環グラフのテスト

Testing Directed Acyclic Graph via Structural, Supervised and Generative Adversarial Learning ( http://arxiv.org/abs/2106.01474v2 )

ライセンス: Link先を確認
Chengchun Shi, Yunzhe Zhou and Lexin Li(参考訳) 本稿では,有向非巡回グラフ(DAG)の新しい仮説テスト法を提案する。 DAG推定法には豊富なクラスがあるが、DAG推論法には相対的な妥当性がある。 さらに、既存の手法は、線形モデルや追加モデルのような特定のモデル構造を課し、独立したデータ観測を仮定することが多い。 提案したテストでは、ランダム変数間の関連性は非線形であり、データは時間依存である。 非常に柔軟なニューラルネットワーク学習者に基づいてテストを構築します。 実験の漸近的保証を定めつつ,被験者数や各被験者の時点数を無限に分散させることを可能とした。 シミュレーションと脳結合ネットワーク解析により,実験の有効性を示す。

In this article, we propose a new hypothesis testing method for directed acyclic graph (DAG). While there is a rich class of DAG estimation methods, there is a relative paucity of DAG inference solutions. Moreover, the existing methods often impose some specific model structures such as linear models or additive models, and assume independent data observations. Our proposed test instead allows the associations among the random variables to be nonlinear and the data to be time-dependent. We build the test based on some highly flexible neural networks learners. We establish the asymptotic guarantees of the test, while allowing either the number of subjects or the number of time points for each subject to diverge to infinity. We demonstrate the efficacy of the test through simulations and a brain connectivity network analysis.
翻訳日:2023-05-26 03:50:13 公開日:2023-05-23
# maldi-tof質量分析法によるcovid-19診断のための説明可能なaiアプローチ

An Explainable-AI approach for Diagnosis of COVID-19 using MALDI-ToF Mass Spectrometry ( http://arxiv.org/abs/2109.14099v3 )

ライセンス: Link先を確認
Venkata Devesh Reddy Seethi, Zane LaCasse, Prajkta Chivte, Joshua Bland, Shrihari S. Kadkol, Elizabeth R. Gaillard, Pratool Bharti, Hamed Alhoori(参考訳) 重症急性呼吸器症候群2型(SARS-CoV-2)は世界的なパンデミックを引き起こし、世界経済に大きな影響を与えた。 正確な、費用対効果、迅速な検査は、感染した人々を同定し、感染拡大を緩和する上で大きな効果がある。 近年では、現在の金標準リアルタイムポリメラーゼ連鎖反応(RT-PCR)結果と高い一致を示す複数の代替プラットフォームが公表されている。 これらの新しい方法は鼻咽頭(NP)スワブを除去し、複雑な試薬の必要性を排除し、RT-PCRテスト試薬の供給の負担を軽減する。 本研究では,人工知能を用いたAIテスト手法を設計し,実験結果の信頼性について検討した。 我々のAIアプローチは、質量分析を用いて新型コロナウイルスの診断に説明可能なAI(X-AI)アルゴリズムを利用した最も初期のもののひとつです。 本稿では,X-AIを用いて局所的(サンプルごと)とグローバル的(全サンプルごと)の意思決定プロセスについて,生物学的に関連性のある特徴をベースとした説明を行った。 本手法をヒトガーグル標本から抽出したデータを用いて評価し,94.12%の精度を得た。 このような技術は、バイオメディカル研究者と医療従事者に信頼性と説明可能なテスト結果を提供することによって、AIと臨床診断の関係を強化する。

The severe acute respiratory syndrome coronavirus type-2 (SARS-CoV-2) caused a global pandemic and immensely affected the global economy. Accurate, cost-effective, and quick tests have proven substantial in identifying infected people and mitigating the spread. Recently, multiple alternative platforms for testing coronavirus disease 2019 (COVID-19) have been published that show high agreement with current gold standard real-time polymerase chain reaction (RT-PCR) results. These new methods do away with nasopharyngeal (NP) swabs, eliminate the need for complicated reagents, and reduce the burden on RT-PCR test reagent supply. In the present work, we have designed an artificial intelligence-based (AI) testing method to provide confidence in the results. Current AI applications for COVID-19 studies often lack a biological foundation in the decision-making process, and our AI approach is one of the earliest to leverage explainable AI (X-AI) algorithms for COVID-19 diagnosis using mass spectrometry. Here, we have employed X-AI to explain the decision-making process on a local (per-sample) and global (all samples) basis underscored by biologically relevant features. We evaluated our technique with data extracted from human gargle samples and achieved a testing accuracy of 94.12%. Such techniques would strengthen the relationship between AI and clinical diagnostics by providing biomedical researchers and healthcare workers with trustworthy and, most importantly, explainable test results
翻訳日:2023-05-26 03:40:40 公開日:2023-05-23
# geneva: 数百のイベントタイプと引数ロールによるイベント引数抽出のためのベンチマーク汎用性

GENEVA: Benchmarking Generalizability for Event Argument Extraction with Hundreds of Event Types and Argument Roles ( http://arxiv.org/abs/2205.12505v2 )

ライセンス: Link先を確認
Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng(参考訳) イベント引数抽出(EAE)の最近の研究は、新しいイベントやドメインに対応するためのモデル一般化性の改善に焦点を当てている。 しかし、ACEやEREのような標準的なベンチマークデータセットは、40のイベントタイプと25のエンティティ中心の引数ロールをカバーする。 限られた多様性とカバレッジは、これらのデータセットがEAEモデルの一般化可能性を適切に評価することを妨げる。 本稿では,EAEオントロジーを大規模かつ多種多様なものにすることで貢献する。 このオントロジーは、これら2つのタスク間の類似性を利用して、EAEのための包括的なセマンティックロールラベル(SRL)データセットであるFrameNetを変換することによって作成される。 次に、徹底した人間専門家のアノテーションを収集してオントロジーを構築し、115のイベントと220の引数の役割を結論付け、その役割の大部分はエンティティではない。 このオントロジを利用して,4つのテストスイートからなる多種多様な汎用性ベンチマークデータセットであるgenevaをさらに紹介する。 各種のEAEモデルを6種類ベンチマークする。 その結果,非エンタテイメントの議論の役割から,最高の評価モデルであっても39%のF1スコアしか達成できないことが判明した。 全体として、我々の大規模で多様なEAEオントロジーは、より包括的な将来的なリソースを作成するのに役立つ一方、GENEVAは、EAEの一般化性を改善するためのさらなる研究を奨励する、挑戦的なベンチマークデータセットである。 コードとデータはhttps://github.com/PlusLabNLP/GENEVAで確認できる。

Recent works in Event Argument Extraction (EAE) have focused on improving model generalizability to cater to new events and domains. However, standard benchmarking datasets like ACE and ERE cover less than 40 event types and 25 entity-centric argument roles. Limited diversity and coverage hinder these datasets from adequately evaluating the generalizability of EAE models. In this paper, we first contribute by creating a large and diverse EAE ontology. This ontology is created by transforming FrameNet, a comprehensive semantic role labeling (SRL) dataset for EAE, by exploiting the similarity between these two tasks. Then, exhaustive human expert annotations are collected to build the ontology, concluding with 115 events and 220 argument roles, with a significant portion of roles not being entities. We utilize this ontology to further introduce GENEVA, a diverse generalizability benchmarking dataset comprising four test suites, aimed at evaluating models' ability to handle limited data and unseen event type generalization. We benchmark six EAE models from various families. The results show that owing to non-entity argument roles, even the best-performing model can only achieve 39% F1 score, indicating how GENEVA provides new challenges for generalization in EAE. Overall, our large and diverse EAE ontology can aid in creating more comprehensive future resources, while GENEVA is a challenging benchmarking dataset encouraging further research for improving generalizability in EAE. The code and data can be found at https://github.com/PlusLabNLP/GENEVA.
翻訳日:2023-05-26 03:31:54 公開日:2023-05-23
# GriTS:テーブル構造認識のためのグリッドテーブル類似度メトリック

GriTS: Grid table similarity metric for table structure recognition ( http://arxiv.org/abs/2203.12555v3 )

ライセンス: Link先を確認
Brandon Smock and Rohith Pesala and Robin Abraham(参考訳) 本稿では、グリッドテーブル類似性(grits)と呼ばれる、テーブル構造認識(tsr)評価のための新しいメトリクスのクラスを提案する。 従来の測度とは異なり、GriTSは予測表の正しさを、その自然な形で行列として直接評価する。 行列間の類似度尺度を作成するために、NPハードな2次元最大の共通部分構造(2D-LCS)問題を2次元最も類似した部分構造(2D-MSS)問題に一般化し、それを解く多項式時間ヒューリスティックを提案する。 このアルゴリズムは行列間の真の類似性に基づいて上界と下界の両方を生成する。 本研究では,実世界の大規模データセットの評価を用いて,その境界にほとんど差がないことを示す。 gritsを他の指標と比較し,マトリックス類似性がtsr性能評価の代替品よりも望ましい行動を示すことを実証的に検証した。 最後に、GriTSは、同じフレームワーク内で細胞トポロジ認識、細胞位置認識、細胞コンテンツ認識の3つのサブタスクをすべて統一し、評価を単純化し、異なるタイプのTSRアプローチ間でより有意義な比較を可能にする。 コードはhttps://github.com/microsoft/table-transformerでリリースされる。

In this paper, we propose a new class of metric for table structure recognition (TSR) evaluation, called grid table similarity (GriTS). Unlike prior metrics, GriTS evaluates the correctness of a predicted table directly in its natural form as a matrix. To create a similarity measure between matrices, we generalize the two-dimensional largest common substructure (2D-LCS) problem, which is NP-hard, to the 2D most similar substructures (2D-MSS) problem and propose a polynomial-time heuristic for solving it. This algorithm produces both an upper and a lower bound on the true similarity between matrices. We show using evaluation on a large real-world dataset that in practice there is almost no difference between these bounds. We compare GriTS to other metrics and empirically validate that matrix similarity exhibits more desirable behavior than alternatives for TSR performance evaluation. Finally, GriTS unifies all three subtasks of cell topology recognition, cell location recognition, and cell content recognition within the same framework, which simplifies the evaluation and enables more meaningful comparisons across different types of TSR approaches. Code will be released at https://github.com/microsoft/table-transformer.
翻訳日:2023-05-26 03:29:50 公開日:2023-05-23
# GPT-3時代のニュース要約と評価

News Summarization and Evaluation in the Era of GPT-3 ( http://arxiv.org/abs/2209.12356v2 )

ライセンス: Link先を確認
Tanya Goyal, Junyi Jessy Li, Greg Durrett(参考訳) GPT-3のような大規模言語モデルの成功は、NLP研究のパラダイムシフトにつながった。 本稿では,ニュース要約の古典的ベンチマーク領域に着目し,テキスト要約への影響について検討する。 まず,GPT-3が大規模要約データセット上で訓練された微調整モデルと比較する。 我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。 次に,これが評価にどのような意味を持つか,特に金標準テストセットの役割について検討する。 実験の結果,基準ベースと基準フリーの両自動メトリクスはGPT-3サマリーを確実に評価できないことがわかった。 最後に,一般的な要約,特にキーワードに基づく要約以外の設定におけるモデルを評価し,微調整アプローチとプロンプトの比較を示す。 さらなる研究を支援するために リリースします (a)4つの標準要約ベンチマークにまたがる微調整モデルとプロンプトベースモデルから10Kのコーパスを生成する。 (b)ジェネリックおよびキーワードに基づく要約のための異なるシステムを比較する1K人の嗜好判断。

The recent success of prompting large language models like GPT-3 has led to a paradigm shift in NLP research. In this paper, we study its impact on text summarization, focusing on the classic benchmark domain of news summarization. First, we investigate how GPT-3 compares against fine-tuned models trained on large summarization datasets. We show that not only do humans overwhelmingly prefer GPT-3 summaries, prompted using only a task description, but these also do not suffer from common dataset-specific issues such as poor factuality. Next, we study what this means for evaluation, particularly the role of gold standard test sets. Our experiments show that both reference-based and reference-free automatic metrics cannot reliably evaluate GPT-3 summaries. Finally, we evaluate models on a setting beyond generic summarization, specifically keyword-based summarization, and show how dominant fine-tuning approaches compare to prompting. To support further research, we release: (a) a corpus of 10K generated summaries from fine-tuned and prompt-based models across 4 standard summarization benchmarks, (b) 1K human preference judgments comparing different systems for generic- and keyword-based summarization.
翻訳日:2023-05-26 03:24:16 公開日:2023-05-23
# 原子論的機械学習のスムーズな基礎

A smooth basis for atomistic machine learning ( http://arxiv.org/abs/2209.01948v2 )

ライセンス: Link先を確認
Filippo Bigi, Kevin Huguenin-Dumittan, Michele Ceriotti, David E. Manolopoulos(参考訳) 原子間位置の相関に基づく機械学習フレームワークは、システム内の各原子の近傍における他の原子の密度の離散化記述から始まります。 対称性の考慮は、この密度の角依存性を広げるために球面高調波を使うことを支持するが、一方の放射状基底を他方から選択する明確な根拠はまだ存在しない。 ここでは、興味の原子の周りの球面内のラプラシアン固有値問題の解から得られる基礎を考察する。 これは球面内の任意の大きさの最も滑らかな基底を生成することを示し、ラプラシアン固有状態のテンソル積は、適切な超球面内の原子密度の任意の高次相関を拡張できる最も滑らかな基礎を与える。 与えられたデータセットのベースの品質に関する教師なしの指標をいくつか検討し、ラプラシア固有状態基底は、広く使用されているベースセットよりもはるかに優れた性能を有し、各メトリックを数値的に最適化するデータ駆動ベースと競合することを示す。 教師付き機械学習テストにおいて、ラプラシア固有状態の最適関数の滑らかさは、特定のデータセットの原子密度相関を記述するために最適化された類似サイズのデータ駆動型ベースから得られるものよりも、同等または優れた性能をもたらすことがわかった。 我々は基底関数の滑らかさが鍵であり、原子密度表現の成功の側面をほとんど見落としていると結論づける。

Machine learning frameworks based on correlations of interatomic positions begin with a discretized description of the density of other atoms in the neighbourhood of each atom in the system. Symmetry considerations support the use of spherical harmonics to expand the angular dependence of this density, but there is as yet no clear rationale to choose one radial basis over another. Here we investigate the basis that results from the solution of the Laplacian eigenvalue problem within a sphere around the atom of interest. We show that this generates the smoothest possible basis of a given size within the sphere, and that a tensor product of Laplacian eigenstates also provides the smoothest possible basis for expanding any higher-order correlation of the atomic density within the appropriate hypersphere. We consider several unsupervised metrics of the quality of a basis for a given dataset, and show that the Laplacian eigenstate basis has a performance that is much better than some widely used basis sets and is competitive with data-driven bases that numerically optimize each metric. In supervised machine learning tests, we find that the optimal function smoothness of the Laplacian eigenstates leads to comparable or better performance than can be obtained from a data-driven basis of a similar size that has been optimized to describe the atom-density correlation for the specific dataset. We conclude that the smoothness of the basis functions is a key and hitherto largely overlooked aspect of successful atomic density representations.
翻訳日:2023-05-26 03:23:57 公開日:2023-05-23
# 進行的文脈化による動的適応型連続強化学習

Dynamics-Adaptive Continual Reinforcement Learning via Progressive Contextualization ( http://arxiv.org/abs/2209.00347v2 )

ライセンス: Link先を確認
Tiantian Zhang, Zichuan Lin, Yuxing Wang, Deheng Ye, Qiang Fu, Wei Yang, Xueqian Wang, Bin Liang, Bo Yuan, and Xiu Li(参考訳) 動的環境における連続強化学習(CRL)の鍵となる課題は、学習情報の破滅的な忘れを最小化しつつ、環境が生涯にわたって変化するにつれてRLエージェントの行動に迅速に適応することである。 この課題に対処するため、本稿では、動的適応連続RLであるDaCoRLを提案する。 DaCoRLは、プログレッシブな文脈化を使用してコンテキスト条件付きポリシーを学習し、動的環境内の定常タスクのストリームを一連のコンテキストに段階的にクラスタ化し、ポリシーを近似するために拡張可能なマルチヘッドニューラルネットワークを選択する。 具体的には、環境コンテキストとして類似のダイナミクスを持つタスクのセットを定義し、環境特徴に基づいてオンラインベイズ無限ガウス混合をクラスタリングする手法としてコンテキスト推論を形式化し、オンラインベイズ推論を用いてコンテキスト上の後続分布を推測する。 従来の中華料理店プロセスの想定では、現在のタスクを予め見たコンテキストに正確に分類したり、環境変化を事前に知らせる外部指標に頼ることなく、必要に応じて新しいコンテキストをインスタンス化することができる。 さらに、出力層が新たにインスタンス化されたコンテキストと同期的に拡張された拡張可能なマルチヘッドニューラルネットワークと、学習タスクの性能を維持するための知識蒸留規則化用語を用いる。 様々なディープRLアルゴリズムと組み合わせられる一般的なフレームワークとして、DaCoRLは、いくつかのロボットナビゲーションおよびMuJoCoロコモーションタスクに関する広範な実験によって検証され、安定性、全体的な性能、一般化能力の観点から、既存の手法よりも一貫した優位性を特徴としている。

A key challenge of continual reinforcement learning (CRL) in dynamic environments is to promptly adapt the RL agent's behavior as the environment changes over its lifetime, while minimizing the catastrophic forgetting of the learned information. To address this challenge, in this article, we propose DaCoRL, i.e., dynamics-adaptive continual RL. DaCoRL learns a context-conditioned policy using progressive contextualization, which incrementally clusters a stream of stationary tasks in the dynamic environment into a series of contexts and opts for an expandable multihead neural network to approximate the policy. Specifically, we define a set of tasks with similar dynamics as an environmental context and formalize context inference as a procedure of online Bayesian infinite Gaussian mixture clustering on environment features, resorting to online Bayesian inference to infer the posterior distribution over contexts. Under the assumption of a Chinese restaurant process prior, this technique can accurately classify the current task as a previously seen context or instantiate a new context as needed without relying on any external indicator to signal environmental changes in advance. Furthermore, we employ an expandable multihead neural network whose output layer is synchronously expanded with the newly instantiated context, and a knowledge distillation regularization term for retaining the performance on learned tasks. As a general framework that can be coupled with various deep RL algorithms, DaCoRL features consistent superiority over existing methods in terms of the stability, overall performance and generalization ability, as verified by extensive experiments on several robot navigation and MuJoCo locomotion tasks.
翻訳日:2023-05-26 03:23:33 公開日:2023-05-23
# 最大ヘッセン固有値と一般化について

On the Maximum Hessian Eigenvalue and Generalization ( http://arxiv.org/abs/2206.10654v3 )

ライセンス: Link先を確認
Simran Kaur, Jeremy Cohen, Zachary C. Lipton(参考訳) 学習率の増加やバッチ正規化の適用など、特定の訓練介入が深層ネットワークの一般化を改善するメカニズムは謎のままである。 以前の研究では、"flatter" の解は、平らさを測定するためのいくつかの指標(特に損失のヘッセンの最大の固有値である$\lambda_{max}$)と、平坦さを直接最適化する sharpness-aware minimization (sam) [1] のようなアルゴリズムを動機付けて、目に見えないデータに対する "sharper" の解よりも一般化していると推測されている。 他の作品では$\lambda_{max}$ と一般化の関係に疑問がある。 本稿では, 一般化に対する$\lambda_{max}$の影響を更に疑問視する知見を提示する。 We show that: (1) while larger learning rates reduce $\lambda_{max}$ for all batch sizes, generalization benefits sometimes vanish at larger batch sizes; (2) by scaling batch size and learning rate simultaneously, we can change $\lambda_{max}$ without affecting generalization; (3) while SAM produces smaller $\lambda_{max}$ for all batch sizes, generalization benefits (also) vanish with larger batch sizes; (4) for dropout, excessively high dropout probabilities can degrade generalization, even as they promote smaller $\lambda_{max}$; and (5) while batch-normalization does not consistently produce smaller $\lambda_{max}$, it nevertheless confers generalization benefits. 実験では,大規模学習率とsamによるミニバッチsgdの一般化効果を肯定する一方で,gd-sgdの不一致は,ニューラルネットワークの一般化を説明するための$\lambda_{max}$の限界を示す。

The mechanisms by which certain training interventions, such as increasing learning rates and applying batch normalization, improve the generalization of deep networks remains a mystery. Prior works have speculated that "flatter" solutions generalize better than "sharper" solutions to unseen data, motivating several metrics for measuring flatness (particularly $\lambda_{max}$, the largest eigenvalue of the Hessian of the loss); and algorithms, such as Sharpness-Aware Minimization (SAM) [1], that directly optimize for flatness. Other works question the link between $\lambda_{max}$ and generalization. In this paper, we present findings that call $\lambda_{max}$'s influence on generalization further into question. We show that: (1) while larger learning rates reduce $\lambda_{max}$ for all batch sizes, generalization benefits sometimes vanish at larger batch sizes; (2) by scaling batch size and learning rate simultaneously, we can change $\lambda_{max}$ without affecting generalization; (3) while SAM produces smaller $\lambda_{max}$ for all batch sizes, generalization benefits (also) vanish with larger batch sizes; (4) for dropout, excessively high dropout probabilities can degrade generalization, even as they promote smaller $\lambda_{max}$; and (5) while batch-normalization does not consistently produce smaller $\lambda_{max}$, it nevertheless confers generalization benefits. While our experiments affirm the generalization benefits of large learning rates and SAM for minibatch SGD, the GD-SGD discrepancy demonstrates limits to $\lambda_{max}$'s ability to explain generalization in neural networks.
翻訳日:2023-05-26 03:21:42 公開日:2023-05-23
# デザイングラフによる効率的な自動機械学習

Efficient Automatic Machine Learning via Design Graphs ( http://arxiv.org/abs/2210.12257v2 )

ライセンス: Link先を確認
Shirley Wu, Jiaxuan You, Jure Leskovec, Rex Ying(参考訳) ディープネットワークとハイパーパラメータのアーキテクチャを含む、最高の設計を見つけることを目的とした自動機械学習(AutoML)の成功にもかかわらず、従来のAutoMLメソッドは計算コストが高く、異なるモデル設計選択の関係についての洞察は得られない。 そこで本研究では,最適なモデル設計を探索する効率的なサンプルベース手法であるfalconを提案する。 我々の重要な洞察は、可能なモデル設計の設計空間を設計グラフとしてモデル化することであり、ノードは設計の選択を表し、エッジは設計の類似性を表す。 FALCONの特徴 1)グラフニューラルネットワーク(GNN)を介してデザイングラフ上でメッセージパッシングを行うタスク非依存モジュール。 2) 設計グラフ上の既知のモデル性能情報のラベル伝搬を行うタスク固有モジュール。 どちらのモジュールも組み合わせて設計空間における設計性能を予測し、探索方向をナビゲートする。 CIFAR-10データセット上で,各種アプリケーション領域の27ノードおよびグラフ分類タスクと画像分類タスクについて広範な実験を行った。 FALCONは,30個の探索ノードのみを用いて,各タスクの良好な性能設計を効率的に得ることを実証的に示す。 具体的には、FALCONはワンショットアプローチと同等の時間コストを持ち、最高のベースラインに比べて平均3.3%の改善を実現している。

Despite the success of automated machine learning (AutoML), which aims to find the best design, including the architecture of deep networks and hyper-parameters, conventional AutoML methods are computationally expensive and hardly provide insights into the relations of different model design choices. To tackle the challenges, we propose FALCON, an efficient sample-based method to search for the optimal model design. Our key insight is to model the design space of possible model designs as a design graph, where the nodes represent design choices, and the edges denote design similarities. FALCON features 1) a task-agnostic module, which performs message passing on the design graph via a Graph Neural Network (GNN), and 2) a task-specific module, which conducts label propagation of the known model performance information on the design graph. Both modules are combined to predict the design performances in the design space, navigating the search direction. We conduct extensive experiments on 27 node and graph classification tasks from various application domains, and an image classification task on the CIFAR-10 dataset. We empirically show that FALCON can efficiently obtain the well-performing designs for each task using only 30 explored nodes. Specifically, FALCON has a comparable time cost with the one-shot approaches while achieving an average improvement of 3.3% compared with the best baselines.
翻訳日:2023-05-26 03:11:53 公開日:2023-05-23
# フレーズ表現検索による名前付きエンティティ認識データセットの自動生成

Automatic Creation of Named Entity Recognition Datasets by Querying Phrase Representations ( http://arxiv.org/abs/2210.07586v2 )

ライセンス: Link先を確認
Hyunjae Kim, Jaehyo Yoo, Seunghyun Yoon, Jaewoo Kang(参考訳) 殆どの弱い教師付き名前付きエンティティ認識(ner)モデルは専門家が提供したドメイン固有辞書に依存している。 このアプローチは辞書が存在しない多くのドメインでは実現不可能である。 最近の研究では、句検索モデルがwikipediaから抽出されたエンティティを持つ疑似辞書を構築するのに使われたが、これらの辞書は、レトリバーが珍しいものよりも人気の高いエンティティを検索する可能性が高いため、カバーが限られていることが多い。 本研究では,高被覆擬似辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。 具体的には,様々なエンティティに密集した空間を検索することを促す句埋め込み探索と呼ばれる新しい検索手法を用いて,エンティティに富む辞書を作成する。 さらに,エンティティ参照候補とエンティティタイプ間の埋め込み距離に基づく新しい検証プロセスを用いて,高被覆辞書によって生成された弱ラベルの偽陽性ノイズを低減する。 5つのNERベンチマークデータセットの平均F1スコア4.7で、HighGENが前のベストモデルより優れていたことを実証する。

Most weakly supervised named entity recognition (NER) models rely on domain-specific dictionaries provided by experts. This approach is infeasible in many domains where dictionaries do not exist. While a phrase retrieval model was used to construct pseudo-dictionaries with entities retrieved from Wikipedia automatically in a recent study, these dictionaries often have limited coverage because the retriever is likely to retrieve popular entities rather than rare ones. In this study, we present a novel framework, HighGEN, that generates NER datasets with high-coverage pseudo-dictionaries. Specifically, we create entity-rich dictionaries with a novel search method, called phrase embedding search, which encourages the retriever to search a space densely populated with various entities. In addition, we use a new verification process based on the embedding distance between candidate entity mentions and entity types to reduce the false-positive noise in weak labels generated by high-coverage dictionaries. We demonstrate that HighGEN outperforms the previous best model by an average F1 score of 4.7 across five NER benchmark datasets.
翻訳日:2023-05-26 03:11:29 公開日:2023-05-23
# scirepeval: 科学文書表現のためのマルチフォーマットベンチマーク

SciRepEval: A Multi-Format Benchmark for Scientific Document Representations ( http://arxiv.org/abs/2211.13308v2 )

ライセンス: Link先を確認
Amanpreet Singh, Mike D'Arcy, Arman Cohan, Doug Downey, Sergey Feldman(参考訳) 科学的文書の学習された表現は、さらなる微調整を必要とせず、下流タスクの貴重な入力機能として機能する。 しかし、これらの表現を評価するための既存のベンチマークは、関連するタスクの多様性を捉えていない。 そこで本研究では,科学文書表現の学習と評価のための最初の総合ベンチマークであるscirepevalを紹介する。 これは25の挑戦的で現実的なタスクを含み、11のタスクは新しいもので、分類、回帰、ランキング、検索の4つの形式がある。 次に、ベンチマークを用いて、科学的文書表現モデルの一般化能力の研究と改善を行う。 我々は、最先端モデルがタスクフォーマットを一般化するのにいかに苦労しているかを示し、単純なマルチタスクトレーニングでは改善できないことを示す。 しかし、ドキュメントごとに複数の埋め込みを学習する新しいアプローチは、それぞれ異なるフォーマットに合わせて、パフォーマンスを向上させることができる。 タスク形式固有の制御コードとアダプタをマルチタスク設定で実験した結果、既存の単一埋め込み状態を1.5ポイントまで上回っていることがわかった。

Learned representations of scientific documents can serve as valuable input features for downstream tasks, without the need for further fine-tuning. However, existing benchmarks for evaluating these representations fail to capture the diversity of relevant tasks. In response, we introduce SciRepEval, the first comprehensive benchmark for training and evaluating scientific document representations. It includes 25 challenging and realistic tasks, 11 of which are new, across four formats: classification, regression, ranking and search. We then use the benchmark to study and improve the generalization ability of scientific document representation models. We show how state-of-the-art models struggle to generalize across task formats, and that simple multi-task training fails to improve them. However, a new approach that learns multiple embeddings per document, each tailored to a different format, can improve performance. We experiment with task-format-specific control codes and adapters in a multi-task setting and find that they outperform the existing single-embedding state-of-the-art by up to 1.5 points absolute.
翻訳日:2023-05-26 02:51:07 公開日:2023-05-23
# 二次時間依存量子調和振動子

Quadratic Time-dependent Quantum Harmonic Oscillator ( http://arxiv.org/abs/2211.13281v2 )

ライセンス: Link先を確認
F. E. Onah and E. Garc\'ia Herrera and J. A. Ruelas-Galv\'an and G. Ju\'arez Rangel and E. Real Norzagaray and B. M. Rodr\'iguez-Lara(参考訳) 我々は、パラメータセット(質量、周波数、駆動強度、パラメトリックポンプ)が時間依存であるハミルトン級パラメトリック量子調和振動子を被覆するリー代数的アプローチを提案する。 ユニタリ変換に基づくアプローチは、我々の一般的な二次時間依存量子調和モデルの解を提供する。 一例として、回転波近似を使わずに周期的に駆動される量子調和振動子の解析解を示す。 検証のために、我々は歴史的なカルディロラ-カナイ量子調和振動子の解析解を提供し、我々の枠組みの中にポールトラップハミルトニアンへの一般化バージョンを取るユニタリ変換が存在することを示す。 さらに,shr\"odinger方程式が実験室のフレームで数値的に不安定となる一般化モデルの動力学を提供する方法を示す。

We present a Lie algebraic approach to a Hamiltonian class covering driven, parametric quantum harmonic oscillators where the parameter set -- mass, frequency, driving strength, and parametric pumping -- is time-dependent. Our unitary-transformation-based approach provides a solution to our general quadratic time-dependent quantum harmonic model. As an example, we show an analytic solution to the periodically driven quantum harmonic oscillator without the rotating wave approximation; it works for any given detuning and coupling strength regime. For the sake of validation, we provide an analytic solution to the historical Caldirola--Kanai quantum harmonic oscillator and show that there exists a unitary transformation within our framework that takes a generalized version of it onto the Paul trap Hamiltonian. In addition, we show how our approach provides the dynamics of generalized models whose Schr\"odinger equation becomes numerically unstable in the laboratory frame.
翻訳日:2023-05-26 02:50:50 公開日:2023-05-23
# 人間と言語モデルにおける実用的言語理解の細部的比較

A fine-grained comparison of pragmatic language understanding in humans and language models ( http://arxiv.org/abs/2212.06801v2 )

ライセンス: Link先を確認
Jennifer Hu, Sammy Floyd, Olessia Jouravlev, Evelina Fedorenko, Edward Gibson(参考訳) プラグマティクスと非リテラル言語理解は、人間のコミュニケーションに不可欠であり、人工言語モデルに対する長年の挑戦を示す。 英語の資料をゼロショットプロンプトして,7つの実用的現象について言語モデルと人間を詳細に比較した。 モデルが話者発話の実用的解釈を選択し、(2)人間と同様の誤りパターンを作り、(3)人間と同様の言語的手がかりを用いて課題を解決するかを問う。 最大のモデルは高い精度を達成し,人間の誤りパターンと一致していることが判明した。 また、モデルと人間は類似した言語的手がかりに敏感であるという予備的な証拠も発見する。 この結果から,心的状態の表現を明示的に構築することなく,現実的な行動がモデルに現れる可能性が示唆された。 しかし、モデルは社会的期待違反に依存する現象に苦しむ傾向がある。

Pragmatics and non-literal language understanding are essential to human communication, and present a long-standing challenge for artificial language models. We perform a fine-grained comparison of language models and humans on seven pragmatic phenomena, using zero-shot prompting on an expert-curated set of English materials. We ask whether models (1) select pragmatic interpretations of speaker utterances, (2) make similar error patterns as humans, and (3) use similar linguistic cues as humans to solve the tasks. We find that the largest models achieve high accuracy and match human error patterns: within incorrect responses, models favor literal interpretations over heuristic-based distractors. We also find preliminary evidence that models and humans are sensitive to similar linguistic cues. Our results suggest that pragmatic behaviors can emerge in models without explicitly constructed representations of mental states. However, models tend to struggle with phenomena relying on social expectation violations.
翻訳日:2023-05-26 02:42:11 公開日:2023-05-23
# DePlot:プロットからテーブルへの変換によるワンショット視覚言語推論

DePlot: One-shot visual language reasoning by plot-to-table translation ( http://arxiv.org/abs/2212.10505v2 )

ライセンス: Link先を確認
Fangyu Liu, Julian Martin Eisenschlos, Francesco Piccinno, Syrine Krichene, Chenxi Pang, Kenton Lee, Mandar Joshi, Wenhu Chen, Nigel Collier, Yasemin Altun(参考訳) チャートやプロットのような視覚言語は、人間の世界で広く使われている。 プロットやチャートの理解には強力な推論スキルが必要です。 事前のstate-of-the-art(sota)モデルは、少なくとも数万のトレーニング例を必要とし、その推論能力はまだ限られている。 本稿では,ビジュアル言語推論に対する最初のワンショットソリューションを提案する。 視覚言語推論の課題を,(1)プロットからテキストへの翻訳,(2)翻訳テキスト上での推論という2つのステップに分解する。 この方法のキーはデプロット(deplot)と呼ばれるモダリティ変換モジュールで、プロットやチャートの画像を線形化されたテーブルに変換する。 DePlotの出力は、LLMの少数ショット推論機能を利用して、事前訓練された大規模言語モデル(LLM)を直接的に使用することができる。 デプロットを得るために、統一されたタスクフォーマットとメトリクスを確立し、このタスクをエンド・ツー・エンドにトレーニングすることでプロット・トゥ・テーブルタスクを標準化する。 次にDePlotは、LLMとともに、プラグアンドプレイ方式でオフザシェルフで使用することができる。 28k以上のデータポイントで微調整されたSOTAモデルと比較して、1ショットプロンプトのみのDePlot+LLMは、チャートQAのタスクから人書きクエリで微調整されたSOTAよりも24.0%改善されている。

Visual language such as charts and plots is ubiquitous in the human world. Comprehending plots and charts requires strong reasoning skills. Prior state-of-the-art (SOTA) models require at least tens of thousands of training examples and their reasoning capabilities are still much limited, especially on complex human-written queries. This paper presents the first one-shot solution to visual language reasoning. We decompose the challenge of visual language reasoning into two steps: (1) plot-to-text translation, and (2) reasoning over the translated text. The key in this method is a modality conversion module, named as DePlot, which translates the image of a plot or chart to a linearized table. The output of DePlot can then be directly used to prompt a pretrained large language model (LLM), exploiting the few-shot reasoning capabilities of LLMs. To obtain DePlot, we standardize the plot-to-table task by establishing unified task formats and metrics, and train DePlot end-to-end on this task. DePlot can then be used off-the-shelf together with LLMs in a plug-and-play fashion. Compared with a SOTA model finetuned on more than >28k data points, DePlot+LLM with just one-shot prompting achieves a 24.0% improvement over finetuned SOTA on human-written queries from the task of chart QA.
翻訳日:2023-05-26 02:31:34 公開日:2023-05-23
# 受容場解析用レンズによる変圧器長さの分別外挿法

Dissecting Transformer Length Extrapolation via the Lens of Receptive Field Analysis ( http://arxiv.org/abs/2212.10356v2 )

ライセンス: Link先を確認
Ta-Chung Chi and Ting-Han Fan and Alexander I. Rudnicky and Peter J. Ramadge(参考訳) 長さの補間により、かなり長いシーケンスでテストした場合の複雑さを保った短いシーケンスでトランスフォーマー言語モデルを訓練することができる。 相対的な位置埋め込み設計であるALiBiは、これまでで最も広く使われてきた。 我々は,新しい累積正規化勾配ツールにより付与された受容視野分析レンズを用いてアリバイを解剖する。 受容場の概念はさらにバニラ正弦波の位置埋め込みを修正して~\textbf{sandwich} を作成することができる。 サンドウィッチはKERPLEとT5と、学習可能な相対的な位置埋め込みと同一の対数減衰時間バイアスパターンを共有している。

Length extrapolation permits training a transformer language model on short sequences that preserves perplexities when tested on substantially longer sequences. A relative positional embedding design, ALiBi, has had the widest usage to date. We dissect ALiBi via the lens of receptive field analysis empowered by a novel cumulative normalized gradient tool. The concept of receptive field further allows us to modify the vanilla Sinusoidal positional embedding to create ~\textbf{Sandwich}, the first parameter-free relative positional embedding design that truly length information uses longer than the training sequence. Sandwich shares with KERPLE and T5 the same logarithmic decaying temporal bias pattern with learnable relative positional embeddings; these elucidate future extrapolatable positional embedding design.
翻訳日:2023-05-26 02:30:17 公開日:2023-05-23
# MatCha: 数学推論とチャートデレンダによるビジュアル言語事前トレーニングの強化

MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering ( http://arxiv.org/abs/2212.09662v2 )

ライセンス: Link先を確認
Fangyu Liu, Francesco Piccinno, Syrine Krichene, Chenxi Pang, Kenton Lee, Mandar Joshi, Yasemin Altun, Nigel Collier, Julian Martin Eisenschlos(参考訳) プロット、チャート、インフォグラフィックなどのビジュアル言語データは、人間の世界で広く使われている。 しかし、最先端の視覚言語モデルはこれらのデータではうまく機能しない。 本稿では,グラフ/プロットと言語データの共同モデリングにおいて,視覚言語モデルの能力を高めるためにmatcha(math reasoning and chart derendering pretraining)を提案する。 具体的には、視覚言語モデリングにおける重要な機能であるプロットのデコンストラクションと数値推論を網羅する事前学習タスクを提案する。 我々は最近提案された画像からテキストまでのビジュアル言語モデルであるPix2StructからMatCha事前学習を行う。 PlotQAやChartQAのような標準ベンチマークでは、MatChaモデルは最先端のメソッドを最大20%上回っている。 また、スクリーンショット、教科書図、文書図などの領域への事前学習の精度を検証し、全体的な改善を観察し、より広い視覚言語タスクにおけるMateCha事前学習の有用性を検証する。

Visual language data such as plots, charts, and infographics are ubiquitous in the human world. However, state-of-the-art vision-language models do not perform well on these data. We propose MatCha (Math reasoning and Chart derendering pretraining) to enhance visual language models' capabilities in jointly modeling charts/plots and language data. Specifically, we propose several pretraining tasks that cover plot deconstruction and numerical reasoning which are the key capabilities in visual language modeling. We perform the MatCha pretraining starting from Pix2Struct, a recently proposed image-to-text visual language model. On standard benchmarks such as PlotQA and ChartQA, the MatCha model outperforms state-of-the-art methods by as much as nearly 20%. We also examine how well MatCha pretraining transfers to domains such as screenshots, textbook diagrams, and document figures and observe overall improvement, verifying the usefulness of MatCha pretraining on broader visual language tasks.
翻訳日:2023-05-26 02:29:42 公開日:2023-05-23
# 識別エントロピークラスタリングとk-meansおよびsvmとの関係

Discriminative Entropy Clustering and its Relation to K-means and SVM ( http://arxiv.org/abs/2301.11405v2 )

ライセンス: Link先を確認
Zhongwen Zhang, Yuri Boykov(参考訳) モデル入力と出力間の相互情報の最大化は、識別モデルに対する教師なしエントロピーに基づく損失を動機付けるソフトマックス予測の「決定性」と「フェアネス」に関係している。 このような損失に基づく最近の自己ラベル手法は、ディープクラスタリングにおける技術の現状を表している。 まず,k-平均との関係や教師なしsvmに基づく手法など,エントロピークラスタリングの一般的な性質について考察する。 先に公表されたいくつかの主張を否定し、K-平均と根本的な違いを指摘する。 一方、SVMベースのクラスタリングと類似性を示し、明示的なマージン最大化をエントロピークラスタリングにリンクすることができる。 最後に、クロスエントロピーの共通形式は擬似ラベル誤りに対して堅牢ではないことを観察する。 我々の新しい損失はこの問題に対処し、多くの標準ベンチマークにおける技術状況を改善する新しいEMアルゴリズムにつながる。

Maximization of mutual information between the model's input and output is formally related to "decisiveness" and "fairness" of the softmax predictions, motivating such unsupervised entropy-based losses for discriminative models. Recent self-labeling methods based on such losses represent the state of the art in deep clustering. First, we discuss a number of general properties of such entropy clustering methods, including their relation to K-means and unsupervised SVM-based techniques. Disproving some earlier published claims, we point out fundamental differences with K-means. On the other hand, we show similarity with SVM-based clustering allowing us to link explicit margin maximization to entropy clustering. Finally, we observe that the common form of cross-entropy is not robust to pseudo-label errors. Our new loss addresses the problem and leads to a new EM algorithm improving the state of the art on many standard benchmarks.
翻訳日:2023-05-26 02:23:00 公開日:2023-05-23
# スピン1/2ダブルキックトップのブロッホ球面上の多くの位相領域

Many topological regions on the Bloch sphere of the spin-1/2 double kicked top ( http://arxiv.org/abs/2301.08225v2 )

ライセンス: Link先を確認
J. Mumford(参考訳) フロケットトポロジカルシステムは、任意に大きな巻線数で特徴づけられる位相位相のような従来のトポロジカルシステムでは見られない特徴を示すことが示されている。 これはスピン1/2自由度に結合した量子ダブルキックローター(phys. rev. a 97, 063603 (2018))において明らかに強調される。 ここで、スピン1/2量子ダブルキックトップに結果を拡張し、多くの巻数を持つトポロジカル領域を示すだけでなく、一般的なキック強度のためにトップのブロッホ球面のトポロジーを完全に特徴付けるために、それらの多くは必要となる。 ブロッホ球面の幾何学的性質により、異なるトポロジーを持つ領域に分割され、それらを分離する境界は 0 と $\pi$ の準エネルギー境界状態である。 平均場の局所バージョン,量子および平均キラル変位巻数を比較することにより,各領域を特徴付ける。 また,境界状態と初期重なり合いが大きい場合,局所化を観測することにより,プローブ状態を用いて境界を同定する。 最後に、スピン1/2量子ダブルキックトップとマルチステップ量子ウォークの接続について簡単に議論し、このシステムを位相相の探索における最近の実験の文脈に置く。

Floquet topological systems have been shown to exhibit features not commonly found in conventional topological systems such as topological phases characterized by arbitrarily large winding numbers. This is clearly highlighted in the quantum double kicked rotor coupled to spin-1/2 degrees of freedom [Phys. Rev. A 97, 063603 (2018)] where large winding numbers are achieved by tuning the kick strengths. Here, we extend the results to the spin-1/2 quantum double kicked top and find not only does the system exhibit topological regions with large winding numbers, but a large number of them are needed to fully characterize the topology of the Bloch sphere of the top for general kick strengths. Due to the geometry of the Bloch sphere it is partitioned into regions with different topology and the boundaries separating them are home to 0 and $\pi$ quasienergy bound states. We characterize the regions by comparing local versions of the mean field, quantum and mean chiral displacement winding numbers. We also use a probe state to locate the boundaries by observing localization as the state evolves when it has a large initial overlap with bound states. Finally, we briefly discuss the connections between the spin-1/2 quantum double kicked top and multi-step quantum walks, putting the system in the context of some current experiments in the exploration of topological phases.
翻訳日:2023-05-26 02:21:53 公開日:2023-05-23
# 確率近似保証を用いた微分原始階層クラスタリング

Differentially-Private Hierarchical Clustering with Provable Approximation Guarantees ( http://arxiv.org/abs/2302.00037v2 )

ライセンス: Link先を確認
Jacob Imola, Alessandro Epasto, Mohammad Mahdian, Vincent Cohen-Addad, Vahab Mirrokni(参考訳) 階層的クラスタリング(Hierarchical Clustering)は、数十年の歴史と多数のアプリケーションを持つ、一般的な教師なし機械学習手法である。 我々は(dasgupta, 2016) によって導入された厳密な枠組みの下で階層的クラスタリングのための微分プライベート近似アルゴリズムの研究を開始する。 任意の$\epsilon$-DPアルゴリズムは入力データセットの$V$に対して$O(|V|^2/ \epsilon)$-additiveエラーを示さなければならない。 次に,$O(|V|^{2.5}/ \epsilon)$-additiveエラーを用いた多項式時間近似アルゴリズムと,下界を満たす指数時間アルゴリズムを示す。 下限を克服するために、グラフの一般的なモデルである確率的ブロックモデルに焦点をあて、ブロックを分離仮定して、ブロックを正確に復元するプライベートな1+o(1)$近似アルゴリズムを提案する。 最後に,アルゴリズムの実証的研究を行い,その性能を検証した。

Hierarchical Clustering is a popular unsupervised machine learning method with decades of history and numerous applications. We initiate the study of differentially private approximation algorithms for hierarchical clustering under the rigorous framework introduced by (Dasgupta, 2016). We show strong lower bounds for the problem: that any $\epsilon$-DP algorithm must exhibit $O(|V|^2/ \epsilon)$-additive error for an input dataset $V$. Then, we exhibit a polynomial-time approximation algorithm with $O(|V|^{2.5}/ \epsilon)$-additive error, and an exponential-time algorithm that meets the lower bound. To overcome the lower bound, we focus on the stochastic block model, a popular model of graphs, and, with a separation assumption on the blocks, propose a private $1+o(1)$ approximation algorithm which also recovers the blocks exactly. Finally, we perform an empirical study of our algorithms and validate their performance.
翻訳日:2023-05-26 02:10:22 公開日:2023-05-23
# ディープラーニング応用の最近の進歩と自律ナビゲーションの方法:総合的なレビュー

Recent Advancements in Deep Learning Applications and Methods for Autonomous Navigation: A Comprehensive Review ( http://arxiv.org/abs/2302.11089v3 )

ライセンス: Link先を確認
Arman Asgharpoor Golroudbari and Mohammad Hossein Sabour(参考訳) 本稿は,主要な機能を扱うために使用される最近のaiベースの技術をすべて調査する試みである。本論文では,障害物検出,シーン知覚,経路計画,制御など,自律的ナビゲーションの文脈で使用されるエンドツーエンドのディープラーニングフレームワークの概要を紹介する。 本稿では,最近の研究成果を分析し,深層学習手法の実装と評価することで,自律的ナビゲーションと深層学習のギャップを埋めることを目的とする。 移動ロボット、自動運転車、無人航空機の航行の重要性を強調し、環境の複雑さ、不確実性、障害物、動的環境、そして複数のエージェントの経路計画の必要性による課題も認めている。 このレビューは、エンジニアリングデータサイエンスにおけるディープラーニングの急速な成長と革新的なナビゲーション手法の開発を強調している。 この分野に関する最近の学際的な研究について論じ、自律ナビゲーションにおける深層学習手法の限界、課題、および潜在的な成長領域について、簡単な視点を提供する。 最後に,既存および今後の手法,適用性,スケーラビリティ,限界など,さまざまな段階における知見と実践をまとめた。 このレビューは、自律的なナビゲーションとディープラーニングの分野で働く研究者や実践者に貴重なリソースを提供する。

This review article is an attempt to survey all recent AI based techniques used to deal with major functions in This review paper presents a comprehensive overview of end-to-end deep learning frameworks used in the context of autonomous navigation, including obstacle detection, scene perception, path planning, and control. The paper aims to bridge the gap between autonomous navigation and deep learning by analyzing recent research studies and evaluating the implementation and testing of deep learning methods. It emphasizes the importance of navigation for mobile robots, autonomous vehicles, and unmanned aerial vehicles, while also acknowledging the challenges due to environmental complexity, uncertainty, obstacles, dynamic environments, and the need to plan paths for multiple agents. The review highlights the rapid growth of deep learning in engineering data science and its development of innovative navigation methods. It discusses recent interdisciplinary work related to this field and provides a brief perspective on the limitations, challenges, and potential areas of growth for deep learning methods in autonomous navigation. Finally, the paper summarizes the findings and practices at different stages, correlating existing and future methods, their applicability, scalability, and limitations. The review provides a valuable resource for researchers and practitioners working in the field of autonomous navigation and deep learning.
翻訳日:2023-05-26 02:04:30 公開日:2023-05-23
# mithridates: バックドア学習に対する自然抵抗を高める

Mithridates: Boosting Natural Resistance to Backdoor Learning ( http://arxiv.org/abs/2302.04977v2 )

ライセンス: Link先を確認
Eugene Bagdasaryan and Vitaly Shmatikov(参考訳) 潜在的信頼できないソースのデータに基づいてトレーニングされた機械学習(ML)モデルは、毒に弱い。 トレーニング入力の小さな悪意ある部分集合は、モデルがメインタスクに加えて"バックドア"タスク(例えば、特定の機能で入力を誤分類する)を学ぶ原因となる可能性がある。 バックドア攻撃は大半が仮説上の脅威だが、最先端の防御には既存のMLパイプラインに大きな変更が必要であり、現実的なデプロイメントには複雑すぎる。 本稿では,MLパイプラインのバックドア攻撃に対する自然抵抗,すなわちモデルの訓練方法を変えることなく達成できる抵抗について,実用的視点で検討する。 私たちはmithridatesを設計し、実装し、評価します。これは実践者が2つの実行可能な質問に答えるのに役立つ新しい方法です。 トレーニングパイプラインを変更することなく,その耐性を高めるにはどうすればよいのか? mithridatesはハイパーパラメータ検索$\unicode{x2013}$を活用する。ml開発者がすでに広く$\unicode{x2013}$を使用して、パイプラインの変更を中断することなく、モデルの正確性とバックドア学習に対する抵抗のバランスをとる。 Mithridatesが検出したハイパーパラメータは,モデル精度にわずかに影響を及ぼすことなく,複数種類のバックドア攻撃に対する抵抗を3~5倍増加させることを示した。 また、AutoMLとフェデレーション学習の拡張についても論じる。

Machine learning (ML) models trained on data from potentially untrusted sources are vulnerable to poisoning. A small, maliciously crafted subset of the training inputs can cause the model to learn a "backdoor" task (e.g., misclassify inputs with a certain feature) in addition to its main task. While backdoor attacks remain largely a hypothetical threat, state-of-the-art defenses require massive changes to the existing ML pipelines and are too complex for practical deployment. In this paper, we take a pragmatic view and investigate natural resistance of ML pipelines to backdoor attacks, i.e., resistance that can be achieved without changes to how models are trained. We design, implement, and evaluate Mithridates, a new method that helps practitioners answer two actionable questions: (1) how well does my model resist backdoor poisoning attacks?, and (2) how can I increase its resistance without changing the training pipeline? Mithridates leverages hyperparameter search $\unicode{x2013}$ a tool that ML developers already extensively use $\unicode{x2013}$ to balance the model's accuracy and resistance to backdoor learning, without disruptive changes to the pipeline. We show that hyperparameters found by Mithridates increase resistance to multiple types of backdoor attacks by 3-5x with only a slight impact on model accuracy. We also discuss extensions to AutoML and federated learning.
翻訳日:2023-05-26 02:03:14 公開日:2023-05-23
# 非ラベルデータを用いたチェーン・オブ・サート・プロンプティングのための説明選択

Explanation Selection Using Unlabeled Data for Chain-of-Thought Prompting ( http://arxiv.org/abs/2302.04813v2 )

ライセンス: Link先を確認
Xi Ye and Greg Durrett(参考訳) 最近の研究は、チェーン・オブ・シント・パラダイムによる説明を伴う大規模言語モデルの導入によって、テキスト推論の課題に対処している。 しかし、微妙に異なる説明は下流のタスクの正確さを大きく変化させる可能性があるため、非専門家によって書かれたオフ・ザ・棚の説明のようなタスクの「調整」されていない説明は、中途半端なパフォーマンスにつながる可能性がある。 本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に取り組む。 まず,各例の候補説明のセットを,return-one-outスキームを用いてプロンプトで生成する。 次に、2段階のフレームワークを使用して、新しいサンプルのログ可能性と精度の2つのプロキシメトリクスに従って、各コンテキスト内の例に対する説明を分離して評価します。 最後に,説明のセットを検索して,シルバーラベルの開発セットに対して高いパフォーマンスをもたらす集合を見つける。 質問応答,数学的推論,自然言語推論にまたがる4つのテキスト推論タスクにおいて,提案手法は根拠真理の正確さと相関し,提案手法は群集のアノテーションやナイーブな検索戦略よりも効果的にプロンプトを改善できることを示す。

Recent work has addressed textual reasoning tasks by prompting large language models with explanations via the chain-of-thought paradigm. However, subtly different explanations can yield widely varying downstream task accuracy, so explanations that have not been "tuned" for a task, such as off-the-shelf explanations written by non-experts, may lead to mediocre performance. This paper tackles the problem of how to optimize explanation-infused prompts in a black-box fashion. We first generate sets of candidate explanations for each example in the prompt using a leave-one-out scheme. We then use a two-stage framework where we first evaluate explanations for each in-context example in isolation according to two proxy metrics, log likelihood and accuracy on new examples. Finally, we search over sets of explanations to find a set that yields high performance against a silver-labeled development set. Across four textual reasoning tasks spanning question answering, mathematical reasoning, and natural language inference, results show that our proxy metrics correlate with ground truth accuracy and our overall method can effectively improve prompts over crowdworker annotations and naive search strategies.
翻訳日:2023-05-26 02:02:48 公開日:2023-05-23
# ギャップに気をつけろ! ルーマンの機能的コミュニケーション理論による説明可能な人工知能と人間の理解

Mind the Gap! Bridging Explainable Artificial Intelligence and Human Understanding with Luhmann's Functional Theory of Communication ( http://arxiv.org/abs/2302.03460v2 )

ライセンス: Link先を確認
Bernard Keenan and Kacper Sokol(参考訳) 過去10年間で、説明可能な人工知能は、主に技術的な分野から、社会科学と深く絡み合う分野へと進化してきた。 コントラスト(より正確には反事実的)な説明に対する人間の好みのような洞察は、コンピュータ科学の研究を刺激し指導するこの移行において重要な役割を担ってきた。 他の観測も同様に重要であるが、注意を引かなかった。 対話のような対話を通じて人工知能の説明者とコミュニケーションしたいという人間の欲求は、コミュニティによって無視されている。 このことは、事前定義された目的に従って最適化された1つの説明を提供することで、受信者に対する理解が得られず、人間の知識と意図の多様性を考慮に入れた独自のニーズを満たすことができず、そのような技術の有効性と普及に多くの課題をもたらす。 niklas luhmann氏とelena esposito氏が解説した洞察を使って、より最近では、社会システム理論を適用して、説明可能な人工知能における課題を強調し、この方向の技術的研究を復活させようと努力している。 本稿では,問題理解におけるシステム理論的アプローチの可能性と,説明可能な人工知能の限界を明らかにすることを目的とする。

Over the past decade explainable artificial intelligence has evolved from a predominantly technical discipline into a field that is deeply intertwined with social sciences. Insights such as human preference for contrastive -- more precisely, counterfactual -- explanations have played a major role in this transition, inspiring and guiding the research in computer science. Other observations, while equally important, have received much less attention. The desire of human explainees to communicate with artificial intelligence explainers through a dialogue-like interaction has been mostly neglected by the community. This poses many challenges for the effectiveness and widespread adoption of such technologies as delivering a single explanation optimised according to some predefined objectives may fail to engender understanding in its recipients and satisfy their unique needs given the diversity of human knowledge and intention. Using insights elaborated by Niklas Luhmann and, more recently, Elena Esposito we apply social systems theory to highlight challenges in explainable artificial intelligence and offer a path forward, striving to reinvigorate the technical research in this direction. This paper aims to demonstrate the potential of systems theoretical approaches to communication in understanding problems and limitations of explainable artificial intelligence.
翻訳日:2023-05-26 02:01:42 公開日:2023-05-23
# テーブル構造認識のためのベンチマークデータセットのアライメント

Aligning benchmark datasets for table structure recognition ( http://arxiv.org/abs/2303.00716v2 )

ライセンス: Link先を確認
Brandon Smock and Rohith Pesala and Robin Abraham(参考訳) テーブル構造認識(TSR)のためのベンチマークデータセットは、確実に注釈付けされるように慎重に処理する必要がある。 しかし、たとえデータセットのアノテーションが自己整合であるとしても、データセット間で大きな矛盾があり、トレーニングされたモデルのパフォーマンスを損なう可能性がある。 本研究では,これらのベンチマークの整合性を$\unicode{x2014}$removing both error and inconsistency between them$\unicode{x2014}$improves model performance。 データ中心のアプローチでこれを実証し、1つのモデルアーキテクチャであるテーブルトランスフォーマー(Table Transformer, TATR)を採用します。 ICDAR-2013ベンチマークで評価されたTATRの基準一致精度はPubTables-1Mで65%、FinTabNetで42%、組み合わせた69%である。 ICDAR-2013で評価したTATRの性能は, PubTables-1Mでのトレーニングでは75%, FinTabNetでのトレーニングでは65%, 合計で81%に向上した。 表アノテーションの正準化が性能に有意な影響を与えているような修正ステップをアブレーションすることで、他の選択肢がベンチマークデータセットの最終構成を決定する際に生じる必要なトレードオフとバランスをとることを示す。 全体として、我々の研究は、TSRや他のタスクのベンチマーク設計にも重大な影響があると信じています。 dataset processing and training codeはhttps://github.com/microsoft/table-transformerでリリースされる。

Benchmark datasets for table structure recognition (TSR) must be carefully processed to ensure they are annotated consistently. However, even if a dataset's annotations are self-consistent, there may be significant inconsistency across datasets, which can harm the performance of models trained and evaluated on them. In this work, we show that aligning these benchmarks$\unicode{x2014}$removing both errors and inconsistency between them$\unicode{x2014}$improves model performance significantly. We demonstrate this through a data-centric approach where we adopt one model architecture, the Table Transformer (TATR), that we hold fixed throughout. Baseline exact match accuracy for TATR evaluated on the ICDAR-2013 benchmark is 65% when trained on PubTables-1M, 42% when trained on FinTabNet, and 69% combined. After reducing annotation mistakes and inter-dataset inconsistency, performance of TATR evaluated on ICDAR-2013 increases substantially to 75% when trained on PubTables-1M, 65% when trained on FinTabNet, and 81% combined. We show through ablations over the modification steps that canonicalization of the table annotations has a significantly positive effect on performance, while other choices balance necessary trade-offs that arise when deciding a benchmark dataset's final composition. Overall we believe our work has significant implications for benchmark design for TSR and potentially other tasks as well. Dataset processing and training code will be released at https://github.com/microsoft/table-transformer.
翻訳日:2023-05-26 01:51:08 公開日:2023-05-23
# gibberishを翻訳する: 機械翻訳システムに対するブラックボックスの逆襲

Translate your gibberish: black-box adversarial attack on machine translation systems ( http://arxiv.org/abs/2303.10974v2 )

ライセンス: Link先を確認
Andrei Chertkov, Olga Tsymboi, Mikhail Pautov, Ivan Oseledets(参考訳) ニューラルネットワークは、産業規模で自然言語処理タスクに広くデプロイされ、おそらく最も頻繁に自動機械翻訳システムの化合物として使用される。 本研究では,ロシア語から英語への翻訳作業において,最先端機械翻訳ツールを騙すための簡単なアプローチを提案する。 そこで,Google,DeepL,Yandexなどのオンライン翻訳ツールでは,新しいブラックボックス・グラデーションフリーなテンソル・ベース・オプティマイザを用いることで,非意味な入力クエリに対して誤ったあるいは攻撃的な翻訳を生成でき,不明瞭な入力フレーズの翻訳を拒否できることを示す。 この脆弱性は新しい言語を理解するのを妨げ、機械翻訳システムを使いながらユーザー体験を悪化させる可能性があるため、より優れた翻訳を確立するためにこれらのツールのさらなる改善が必要である。

Neural networks are deployed widely in natural language processing tasks on the industrial scale, and perhaps the most often they are used as compounds of automatic machine translation systems. In this work, we present a simple approach to fool state-of-the-art machine translation tools in the task of translation from Russian to English and vice versa. Using a novel black-box gradient-free tensor-based optimizer, we show that many online translation tools, such as Google, DeepL, and Yandex, may both produce wrong or offensive translations for nonsensical adversarial input queries and refuse to translate seemingly benign input phrases. This vulnerability may interfere with understanding a new language and simply worsen the user's experience while using machine translation systems, and, hence, additional improvements of these tools are required to establish better translation.
翻訳日:2023-05-26 01:42:24 公開日:2023-05-23
# SKED:スケッチガイド付きテキストベースの3D編集

SKED: Sketch-guided Text-based 3D Editing ( http://arxiv.org/abs/2303.10735v2 )

ライセンス: Link先を確認
Aryan Mikaeili, Or Perel, Mehdi Safaee, Daniel Cohen-Or, Ali Mahdavi-Amiri(参考訳) テキストから画像への拡散モデルは徐々にコンピュータグラフィックスに導入され、最近はオープンドメインでテキストから3Dパイプラインの開発が可能になった。 しかし、インタラクティブな編集のためには、単純なテキストインタフェースによるコンテンツの局所的な操作は困難である。 ユーザガイドによるスケッチをText-to-imageパイプラインに組み込むことで,より直感的なコントロールが可能になる。 それでも、最先端のText-to-3Dパイプラインは任意のレンダリングビューからの勾配を通じてNeRF(Neural Radiance Fields)の最適化に依存しているため、スケッチの条件付けは簡単ではない。 本稿では,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。 本手法は,既存のニューラルフィールドを変化させるために,異なる視点からの2つのガイドスケッチを用いる。 編集された領域は、事前訓練された拡散モデルを通じてプロンプトセマンティクスを尊重する。 生成した出力が提供されるスケッチに確実に準拠するように,ベースインスタンスの密度と放射率を維持しつつ,所望の編集を生成する新しい損失関数を提案する。 提案手法の有効性を, 定性的, 定量的な実験によって実証する。

Text-to-image diffusion models are gradually introduced into computer graphics, recently enabling the development of Text-to-3D pipelines in an open domain. However, for interactive editing purposes, local manipulations of content through a simplistic textual interface can be arduous. Incorporating user guided sketches with Text-to-image pipelines offers users more intuitive control. Still, as state-of-the-art Text-to-3D pipelines rely on optimizing Neural Radiance Fields (NeRF) through gradients from arbitrary rendering views, conditioning on sketches is not straightforward. In this paper, we present SKED, a technique for editing 3D shapes represented by NeRFs. Our technique utilizes as few as two guiding sketches from different views to alter an existing neural field. The edited region respects the prompt semantics through a pre-trained diffusion model. To ensure the generated output adheres to the provided sketches, we propose novel loss functions to generate the desired edits while preserving the density and radiance of the base instance. We demonstrate the effectiveness of our proposed method through several qualitative and quantitative experiments.
翻訳日:2023-05-26 01:42:07 公開日:2023-05-23
# Baize: セルフチャットデータに基づくパラメータ効率チューニングを備えたオープンソースのチャットモデル

Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data ( http://arxiv.org/abs/2304.01196v3 )

ライセンス: Link先を確認
Canwen Xu and Daya Guo and Nan Duan and Julian McAuley(参考訳) ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。 しかし、これらのモデルは制限付きAPIを通じてのみアクセス可能であり、この分野における新たな研究と進歩の障壁となる。 そこで本研究では,chatgptを利用して対話を行うことで,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。 その後,オープンソースの大規模言語モデルであるLLaMAを強化するためにパラメータ効率のチューニングを用いる。 得られたモデルBaizeは、潜在的なリスクを最小限に抑えるガードレールとのマルチターン対話において、優れたパフォーマンスを示す。 さらに,chatgptからのフィードバックによりベイズモデルの性能をさらに向上させるため,自己蒸留型フィードバック技術を提案する。 baizeのモデルとデータは研究目的でhttps://github.com/project-baize/baize-chatbotでのみリリースされる。 オンラインデモもhttps://huggingface.co/spaces/project-baize/chat-with-baizeで公開されている。

Chat models, such as ChatGPT, have shown impressive capabilities and have been rapidly adopted across numerous domains. However, these models are only accessible through a restricted API, creating barriers for new research and progress in the field. We propose a pipeline that can automatically generate a high-quality multi-turn chat corpus by leveraging ChatGPT to engage in a conversation with itself. Subsequently, we employ parameter-efficient tuning to enhance LLaMA, an open-source large language model. The resulting model, named Baize, demonstrates good performance in multi-turn dialogues with guardrails that minimize potential risks. Furthermore, we propose a new technique called Self-Distill with Feedback, to further improve the performance of the Baize models with feedback from ChatGPT. The Baize models and data are released for research purposes only at https://github.com/project-baize/baize-chatbot. An online demo is also available at https://huggingface.co/spaces/project-baize/chat-with-baize.
翻訳日:2023-05-26 01:33:48 公開日:2023-05-23
# 没入の秘密--オートシネマトグラフィーのためのアクター駆動型カメラ運動生成

The secret of immersion: actor driven camera movement generation for auto-cinematography ( http://arxiv.org/abs/2303.17041v2 )

ライセンス: Link先を確認
Xinyi Wu, Haohong Wang and Aggelos K. Katsaggelos(参考訳) 没入は映画作品を設計する際に重要な役割を果たすが、没入撮影の難しさはデザイナーが満足のいくアウトプットを作り出すことを妨げている。 本研究では,空間的,感情的,美的レベルを考慮した撮影没入感に寄与する特定の成分を解析し,これらの成分を高レベル評価機構に結合する。 そこで,このような没入機構を導いた3次元仮想環境において,アクター駆動のカメラ動作を生成できるganベースのカメラ制御システムを提案する。 生成フローにおけるエンコーダ・デコーダアーキテクチャは,感情因子に基づくカメラ軌道にキャラクタ動作を伝達する。 これにより、俳優とカメラの同期を物理的および心理的に行うことで、空間的および感情的な没入が保証される。 感情的な没入は、異なる精神状態を表現するためのカメラシェーキネスを制御する正規化を取り入れることでさらに強化される。 審美的没入を実現するため,合成カメラの軌跡を改良し,審美的フレーム構成を改善する。 自己監視調整装置に基づいて、調整されたカメラ配置は、美的規則に従って、適切なフレーム上の位置にキャラクタを投影することができる。 実験の結果,提案するカメラ制御システムは,細粒度の没入撮影に基づいて,定量的かつ質的に没入的映像を効率的に提供できることがわかった。 ライブの例は補足ビデオで見ることができる。

Immersion plays a vital role when designing cinematic creations, yet the difficulty in immersive shooting prevents designers to create satisfactory outputs. In this work, we analyze the specific components that contribute to cinematographic immersion considering spatial, emotional, and aesthetic level, while these components are then combined into a high-level evaluation mechanism. Guided by such a immersion mechanism, we propose a GAN-based camera control system that is able to generate actor-driven camera movements in the 3D virtual environment to obtain immersive film sequences. The proposed encoder-decoder architecture in the generation flow transfers character motion into camera trajectory conditioned on an emotion factor. This ensures spatial and emotional immersion by performing actor-camera synchronization physically and psychologically. The emotional immersion is further strengthened by incorporating regularization that controls camera shakiness for expressing different mental statuses. To achieve aesthetic immersion, we make effort to improve aesthetic frame compositions by modifying the synthesized camera trajectory. Based on a self-supervised adjustor, the adjusted camera placements can project the character to the appropriate on-frame locations following aesthetic rules. The experimental results indicate that our proposed camera control system can efficiently offer immersive cinematic videos, both quantitatively and qualitatively, based on a fine-grained immersive shooting. Live examples are shown in the supplementary video.
翻訳日:2023-05-26 01:32:06 公開日:2023-05-23
# G-Eval:ヒトのアライメントが向上したGPT-4を用いたNLG評価

G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment ( http://arxiv.org/abs/2303.16634v3 )

ライセンス: Link先を確認
Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu and Chenguang Zhu(参考訳) 自然言語生成システム(NLG)が生成するテキストの品質を自動測定することは困難である。 BLEUやROUGEのような従来の基準ベースのメトリクスは、人間の判断、特に創造性と多様性を必要とするタスクに対して、相対的に低い相関があることが示されている。 近年の研究では、人間の参照を欠く新しいタスクに適用できるという利点がある、NLG評価のための基準のない指標として、大規模言語モデル(LLM)を使用することが提案されている。 しかしながら、これらのLDMベースの評価器は、中規模の神経評価器よりも人間との対応が低い。 本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)とフォームフィリング・パラダイムを併用し,NLG出力の品質を評価するフレームワークであるG-Evalを提案する。 テキスト要約と対話生成という2つの世代タスクを実験する。 gpt-4 をバックボーンモデルとした g-eval は, 総和作業において 0.514 のスピアマン相関を達成し, 従来の手法を大差で上回った。 また, LLM に基づく評価器の挙動を予備解析し, LLM 生成テキストに対するバイアスを有する LLM に基づく評価器の可能性を明らかにする。 コードはhttps://github.com/nlpyang/gevalにある。

The quality of texts generated by natural language generation (NLG) systems is hard to measure automatically. Conventional reference-based metrics, such as BLEU and ROUGE, have been shown to have relatively low correlation with human judgments, especially for tasks that require creativity and diversity. Recent studies suggest using large language models (LLMs) as reference-free metrics for NLG evaluation, which have the benefit of being applicable to new tasks that lack human references. However, these LLM-based evaluators still have lower human correspondence than medium-size neural evaluators. In this work, we present G-Eval, a framework of using large language models with chain-of-thoughts (CoT) and a form-filling paradigm, to assess the quality of NLG outputs. We experiment with two generation tasks, text summarization and dialogue generation. We show that G-Eval with GPT-4 as the backbone model achieves a Spearman correlation of 0.514 with human on summarization task, outperforming all previous methods by a large margin. We also propose preliminary analysis on the behavior of LLM-based evaluators, and highlight the potential issue of LLM-based evaluators having a bias towards the LLM-generated texts. The code is at https://github.com/nlpyang/geval
翻訳日:2023-05-26 01:31:40 公開日:2023-05-23
# Segment Anything Model(SAM)のロバスト性に関する実証的研究

An Empirical Study on the Robustness of the Segment Anything Model (SAM) ( http://arxiv.org/abs/2305.06422v2 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao, Linda Petzold(参考訳) Segment Anything Model (SAM) は一般的な画像分割の基礎モデルである。 主に自然画像に印象的な性能を示すが、様々な画像摂動や領域に対する堅牢性を理解することは、そのような課題が頻繁に発生する現実世界のアプリケーションにとって重要である。 本研究では,多様な実環境下でSAMの包括的ロバストネス調査を行う。 我々の実験は幅広い画像摂動を包含している。 実験結果から,samの性能は画像の摂動によって低下し,異なる摂動にまたがる脆弱性の程度が異なることが明らかとなった。 プロンプトテクニックをカスタマイズし、各データセットのユニークな特性に基づいてドメイン知識を活用することで、これらの摂動に対するモデルのレジリエンスを高め、データセット固有の課題に対処することができる。 この研究は、現実世界のアプリケーションにおけるSAMの限界と強みに光を当て、より堅牢で汎用的な画像分割ソリューションの開発を促進する。

The Segment Anything Model (SAM) is a foundation model for general image segmentation. Although it exhibits impressive performance predominantly on natural images, understanding its robustness against various image perturbations and domains is critical for real-world applications where such challenges frequently arise. In this study we conduct a comprehensive robustness investigation of SAM under diverse real-world conditions. Our experiments encompass a wide range of image perturbations. Our experimental results demonstrate that SAM's performance generally declines under perturbed images, with varying degrees of vulnerability across different perturbations. By customizing prompting techniques and leveraging domain knowledge based on the unique characteristics of each dataset, the model's resilience to these perturbations can be enhanced, addressing dataset-specific challenges. This work sheds light on the limitations and strengths of SAM in real-world applications, promoting the development of more robust and versatile image segmentation solutions.
翻訳日:2023-05-26 01:14:36 公開日:2023-05-23
# TinyMLを用いた心室不整脈診断の検討

TinyML Design Contest for Life-Threatening Ventricular Arrhythmia Detection ( http://arxiv.org/abs/2305.05105v2 )

ライセンス: Link先を確認
Zhenge Jia, Dawei Li, Cong Liu, Liqi Liao, Xiaowei Xu, Lichuan Ping, Yiyu Shi(参考訳) 2022年に第41回iccad(international conference on computer-aided design)で開催された最初のacm/ieee tinyml design contest(tdc)は、挑戦的で多ヶ月にわたる研究開発コンペティションである。 TDC'22は、組み込みデバイスにおける人工知能/機械学習(AI/ML)アルゴリズムの革新と実装を必要とする現実世界の医療問題に焦点を当てている。 TDC'22の課題は、ICD(Indusable Cardioverter-Defibrillator)で使用される低消費電力マイクロコントローラ上での、生命を脅かす心室不整脈に対する新しいAI/MLベースのリアルタイム検出アルゴリズムを開発することである。 このデータセットは、90人の被験者から8種類のリズムに対して、38,0005秒間心電図(IEGM)セグメントを含む。 専用ハードウェアプラットフォームは、STマイクロエレクトロニクスが製造したNUCLEO-L432KCである。 TDC'22は世界中の多人数チームに開放されており、50以上の組織から150以上のチームが集まった。 本稿ではまず,医療問題,データセット,評価手順について詳細に述べる。 さらに、主要なチームによって開発されたデザインを実証し、議論する。 本稿では、健康モニタリングアプリケーションのための将来のTinyML設計の改善の方向性について述べる。

The first ACM/IEEE TinyML Design Contest (TDC) held at the 41st International Conference on Computer-Aided Design (ICCAD) in 2022 is a challenging, multi-month, research and development competition. TDC'22 focuses on real-world medical problems that require the innovation and implementation of artificial intelligence/machine learning (AI/ML) algorithms on implantable devices. The challenge problem of TDC'22 is to develop a novel AI/ML-based real-time detection algorithm for life-threatening ventricular arrhythmia over low-power microcontrollers utilized in Implantable Cardioverter-Defibrillators (ICDs). The dataset contains more than 38,000 5-second intracardiac electrograms (IEGMs) segments over 8 different types of rhythm from 90 subjects. The dedicated hardware platform is NUCLEO-L432KC manufactured by STMicroelectronics. TDC'22, which is open to multi-person teams world-wide, attracted more than 150 teams from over 50 organizations. This paper first presents the medical problem, dataset, and evaluation procedure in detail. It further demonstrates and discusses the designs developed by the leading teams as well as representative results. This paper concludes with the direction of improvement for the future TinyML design for health monitoring applications.
翻訳日:2023-05-26 01:13:31 公開日:2023-05-23
# ZeroFlow: 蒸留による高速ゼロラベルシーンフロー

ZeroFlow: Fast Zero Label Scene Flow via Distillation ( http://arxiv.org/abs/2305.10424v2 )

ライセンス: Link先を確認
Kyle Vedder, Neehar Peri, Nathaniel Chodosh, Ishan Khatri, Eric Eaton, Dinesh Jayaraman, Yang Liu, Deva Ramanan, James Hays(参考訳) シーンフロー推定は、時間的に連続する点雲間の3次元運動場を記述するタスクである。 State-of-the-artメソッドは強力な事前処理とテストタイム最適化技術を使用するが、大規模ポイントクラウドでは数十秒の順序を必要とするため、オープンワールドオブジェクト検出のようなリアルタイムアプリケーションではコンピュータビジョンプリミティブとして使用できない。 フィードフォワード法はかなり高速で、大規模なポイントクラウドでは数十から数百ミリ秒の順序で実行されるが、高価な人的監督が必要である。 両制約に対処するため,ラベルなし最適化手法を用いて,フィードフォワードモデルを監督する擬似ラベルを生成する簡易蒸留フレームワークであるScene Flow via Distillationを提案する。 このフレームワークのインスタンス化であるZeroFlowは、ゼロヒューマンラベルを使用しながら、最先端の手法と競合する大規模ポイントクラウド上で、リアルタイムにシーンフロー推定を生成する。 特に、テスト時にZeroFlowは、大規模なポイントクラウド上のラベルのない最先端の最適化ベースのメソッドよりも1000$\times$高速で、そのデータの人的アノテーションのコストと比較してラベル付きデータでトレーニングするコストが1000$\times$以上である。 研究の再利用を容易にするため、Argoverse 2とWaymo Openデータセット用のコード、トレーニング済みモデルウェイト、高品質な擬似ラベルをリリースしました。

Scene flow estimation is the task of describing the 3D motion field between temporally successive point clouds. State-of-the-art methods use strong priors and test-time optimization techniques, but require on the order of tens of seconds for large-scale point clouds, making them unusable as computer vision primitives for real-time applications such as open world object detection. Feed forward methods are considerably faster, running on the order of tens to hundreds of milliseconds for large-scale point clouds, but require expensive human supervision. To address both limitations, we propose Scene Flow via Distillation, a simple distillation framework that uses a label-free optimization method to produce pseudo-labels to supervise a feed forward model. Our instantiation of this framework, ZeroFlow, produces scene flow estimates in real-time on large-scale point clouds at quality competitive with state-of-the-art methods while using zero human labels. Notably, at test-time ZeroFlow is over 1000$\times$ faster than label-free state-of-the-art optimization-based methods on large-scale point clouds and over 1000$\times$ cheaper to train on unlabeled data compared to the cost of human annotation of that data. To facilitate research reuse, we release our code, trained model weights, and high quality pseudo-labels for the Argoverse 2 and Waymo Open datasets.
翻訳日:2023-05-26 01:06:02 公開日:2023-05-23
# 言語ベース非協力ゲームにおける人間選択予測:シミュレーションに基づくオフポリシー評価

Human Choice Prediction in Language-based Non-Cooperative Games: Simulation-based Off-Policy Evaluation ( http://arxiv.org/abs/2305.10361v2 )

ライセンス: Link先を確認
Eilam Shapira, Reut Apel, Moshe Tennenholtz, Roi Reichart(参考訳) 説得ゲームは経済学やAI研究において基本的であり、重要な実践的応用がある。 この分野の最近の研究は、従来のスタイル化されたメッセージ設定を超えて、自然言語を取り入れ始めた。 しかし、これまでの研究では、トレインデータとテストデータが同じ分布を持つオンポリシー予測に重点を置いてきた。 本稿では,言語に基づく説得ゲームにおけるオフ政治評価(OPE)の課題に対処する。 本研究では,本セットアップにおける人間のデータ収集の難しさに対処するため,実データとシミュレーションデータを組み合わせた新しい手法を提案する。 我々のシミュレーションデータは、意思決定者(DM)がランダムな行動と決定論的行動の混合から始まり、時間とともに改善するという、外因性モデルによって生成される。 本稿では,実際のインタラクションとシミュレーションデータを効果的に統合し,インタラクションデータのみをトレーニングするモデルよりも大幅に改善するディープラーニングトレーニングアルゴリズムを提案する。 本研究は,OPEの高コストかつスケーラブルな解法として,実対話とシミュレーションの混在の可能性を示すものである。 footnote{our code and the large dataset we collect and generated は補足資料として提出され、受理次第公開されます。

Persuasion games have been fundamental in economics and AI research, and have significant practical applications. Recent works in this area have started to incorporate natural language, moving beyond the traditional stylized message setting. However, previous research has focused on on-policy prediction, where the train and test data have the same distribution, which is not representative of real-life scenarios. In this paper, we tackle the challenging problem of off-policy evaluation (OPE) in language-based persuasion games. To address the inherent difficulty of human data collection in this setup, we propose a novel approach which combines real and simulated human-bot interaction data. Our simulated data is created by an exogenous model assuming decision makers (DMs) start with a mixture of random and decision-theoretic based behaviors and improve over time. We present a deep learning training algorithm that effectively integrates real interaction and simulated data, substantially improving over models that train only with interaction data. Our results demonstrate the potential of real interaction and simulation mixtures as a cost-effective and scalable solution for OPE in language-based persuasion games.\footnote{Our code and the large dataset we collected and generated are submitted as supplementary material and will be made publicly available upon acceptance.
翻訳日:2023-05-26 01:04:58 公開日:2023-05-23
# モード近似によるマルチモーダルなプロンプト

Mode Approximation Makes Good Multimodal Prompts ( http://arxiv.org/abs/2305.08381v2 )

ライセンス: Link先を確認
Haixin Wang, Xinlong Yang, Jianlong Chang, Dian Jin, Jinan Sun, Shikun Zhang, Xiao Luo, Qi Tian(参考訳) 大規模事前学習の進展により、パラメーター効率の高い転送学習は、さまざまな人工知能サブフィールドで大きな人気を集めている。 コアとなるのは、小さなパラメータセットだけで下流タスクにモデルを適応させることである。 近年,このような手法をマルチモーダルタスクに活用し,有望な結果を得た。 しかし、2つの重要な問題は未解決のままである: 軽量設計の複雑さをさらに減らす方法と、非常に低いパラメータの下でのモード間のアライメントを強化する方法である。 本稿では,これらの課題を克服するために,クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。 既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1mのトレーニング可能なパラメータを生成し、事前学習モデルの0.04%のパラメータしか持たない低固有次元を探索するマルチモーダルプロンプトチューニングを実装する。 そこで本研究では,非常に少ないパラメータシーン下でのInformative Context Enhancement and Gated Query Transformationモジュールを提案する。 6つのクロスモーダルベンチマークの徹底的な評価は、最先端だけでなく、完全な微調整アプローチよりも優れていることを示している。 私たちのコードは、https://github.com/WillDreamer/Aurora.comで利用可能です。

Driven by the progress of large-scale pre-training, parameter-efficient transfer learning has gained immense popularity across different subfields of Artificial Intelligence. The core is to adapt the model to downstream tasks with only a small set of parameters. Recently, researchers have leveraged such proven techniques in multimodal tasks and achieve promising results. However, two critical issues remain unresolved: how to further reduce the complexity with lightweight design and how to boost alignment between modalities under extremely low parameters. In this paper, we propose A graceful prompt framework for cross-modal transfer (Aurora) to overcome these challenges. Considering the redundancy in existing architectures, we first utilize the mode approximation to generate 0.1M trainable parameters to implement the multimodal prompt tuning, which explores the low intrinsic dimension with only 0.04% parameters of the pre-trained model. Then, for better modality alignment, we propose the Informative Context Enhancement and Gated Query Transformation module under extremely few parameters scenes. A thorough evaluation on six cross-modal benchmarks shows that it not only outperforms the state-of-the-art but even outperforms the full fine-tuning approach. Our code is available at: https://github.com/WillDreamer/Aurora.
翻訳日:2023-05-26 01:03:50 公開日:2023-05-23
# スケーリングによる音声合成の改善

Better speech synthesis through scaling ( http://arxiv.org/abs/2305.07243v2 )

ライセンス: Link先を確認
James Betker(参考訳) 近年、自己回帰変換器とDDPMの応用によって画像生成の分野が革新されている。 これらのアプローチは、ステップワイズ確率過程として画像生成のプロセスをモデル化し、大量の計算とデータを活用して画像分布を学習する。 パフォーマンスを改善するこの手法は、イメージに限定される必要はない。 本稿では,画像生成領域の進歩を音声合成に応用する方法について述べる。 結果としてTorToiseは、表現力のあるマルチボイス音声合成システムになった。 すべてのモデルコードとトレーニングされたウェイトがhttps://github.com/neonbjb/tortoise-ttsでオープンソース化された。

In recent years, the field of image generation has been revolutionized by the application of autoregressive transformers and DDPMs. These approaches model the process of image generation as a step-wise probabilistic processes and leverage large amounts of compute and data to learn the image distribution. This methodology of improving performance need not be confined to images. This paper describes a way to apply advances in the image generative domain to speech synthesis. The result is TorToise -- an expressive, multi-voice text-to-speech system. All model code and trained weights have been open-sourced at https://github.com/neonbjb/tortoise-tts.
翻訳日:2023-05-26 01:03:29 公開日:2023-05-23
# PCOAST:Pauliベースの量子回路最適化フレームワーク

PCOAST: A Pauli-based Quantum Circuit Optimization Framework ( http://arxiv.org/abs/2305.10966v3 )

ライセンス: Link先を確認
Jennifer Paykin, Albert T. Schmitz, Mohannad Ibrahim, Xin-Chuan Wu, A. Y. Matsuura(参考訳) 本稿では、pauli文字列の可換特性に基づく量子回路最適化のためのフレームワークであるpcoast(pauli-based circuit optimization, analysis and synthesis toolchain)を提案する。 以前の研究は、クリフォードゲートをポーリ回転を過ぎるとユニタリ回路の最適化の機会が現れることを示した。 PCOASTはこの手法を、一般化された準備とパウリ弦でパラメータ化された測定ノードを介して、ユニタリ回路と非ユニタリ回路に適応することで拡張する。 その結果、pcoastグラフは、ユーザが回路の実行後に量子状態を保存する必要があるか、あるいは測定結果を保存するだけでよいかに基づいて、新しい最適化を可能にする。 最後に、フレームワークは、与えられたゲート集合でpcoastグラフを実装するために、高度に調整可能なgreedy合成アルゴリズムを適用する。 PCOASTはIntel Quantum SDKに渡されるコンパイラのセットとして実装されている。 本稿では,2つの主要な量子コンパイラであるQiskitとtketに対して,そのコンパイル性能を評価する。 PCOAST は Qiskit と tket がそれぞれ達成した最高の性能、29.22% と 20.58% の2量子ゲート、回路深さ 42.02% と 51.27% と比較して平均で 32.53% と 43.33% の総ゲート数を削減している。

This paper presents the Pauli-based Circuit Optimization, Analysis, and Synthesis Toolchain (PCOAST), a framework for quantum circuit optimizations based on the commutative properties of Pauli strings. Prior work has demonstrated that commuting Clifford gates past Pauli rotations can expose opportunities for optimization in unitary circuits. PCOAST extends that approach by adapting the technique to mixed unitary and non-unitary circuits via generalized preparation and measurement nodes parameterized by Pauli strings. The result is the PCOAST graph, which enables novel optimizations based on whether a user needs to preserve the quantum state after executing the circuit, or whether they only need to preserve the measurement outcomes. Finally, the framework adapts a highly tunable greedy synthesis algorithm to implement the PCOAST graph with a given gate set. PCOAST is implemented as a set of compiler passes in the Intel Quantum SDK. In this paper, we evaluate its compilation performance against two leading quantum compilers, Qiskit and tket. We find that PCOAST reduces total gate count by 32.53% and 43.33% on average, compared to to the best performance achieved by Qiskit and tket respectively, two-qubit gates by 29.22% and 20.58%, and circuit depth by 42.02% and 51.27%.
翻訳日:2023-05-26 00:53:26 公開日:2023-05-23
# ドメインの一般化 ディープグラフ変換

Domain Generalization Deep Graph Transformation ( http://arxiv.org/abs/2305.11389v2 )

ライセンス: Link先を確認
Shiyu Wang, Guangji Bai, Qingyang Zhu, Zhaohui Qin, Liang Zhao(参考訳) あるモードから別のモードへのグラフ遷移を予測するグラフ変換は、重要かつ一般的な問題である。 近年の高度なグラフ変換技術の進歩にもかかわらず、機械学習モデルにおいて一般的に必要とされる基本的な前提は、テストデータとトレーニングデータが同じ分布を保持するとは限らないことである。 その結果、トレーニングデータで使用できないグラフを予測するドメイン一般化グラフ変換は、(1)すべての入出力モードの組み合わせでトレーニングする場合の極端な空間複雑性、(2)入力モードと出力モードの間のグラフトポロジの違い、(3)トレーニングデータにないターゲットドメインへのモデル(見当たらない)一般化の方法、など、いくつかの課題に対処しなければならない。 このギャップを埋めるために,入力モードと出力モードの位相を符号化するエンコーダとデコーダと,グラフ変換タスクを強化する半教師付きリンク予測を用いた,マルチインプット,マルチアウトプット,ハイパーネットワークベースのグラフニューラルネットワーク(multihypergnn)を提案する。 すべてのモードの組み合わせでトレーニングする代わりに、multihypergnnは、2つの新しいハイパーネットワークによって生成されるエンコーダとデコーダとの一定の空間複雑性を保持する。 総合的な実験により、MultiHyperGNNは予測タスクとドメイン一般化タスクの両方で競合するモデルよりも優れた性能を示している。

Graph transformation that predicts graph transition from one mode to another is an important and common problem. Despite much progress in developing advanced graph transformation techniques in recent years, the fundamental assumption typically required in machine-learning models that the testing and training data preserve the same distribution does not always hold. As a result, domain generalization graph transformation that predicts graphs not available in the training data is under-explored, with multiple key challenges to be addressed including (1) the extreme space complexity when training on all input-output mode combinations, (2) difference of graph topologies between the input and the output modes, and (3) how to generalize the model to (unseen) target domains that are not in the training data. To fill the gap, we propose a multi-input, multi-output, hypernetwork-based graph neural network (MultiHyperGNN) that employs a encoder and a decoder to encode topologies of both input and output modes and semi-supervised link prediction to enhance the graph transformation task. Instead of training on all mode combinations, MultiHyperGNN preserves a constant space complexity with the encoder and the decoder produced by two novel hypernetworks. Comprehensive experiments show that MultiHyperGNN has a superior performance than competing models in both prediction and domain generalization tasks.
翻訳日:2023-05-26 00:45:18 公開日:2023-05-23
# エゴセントリックビデオアクションセグメンテーションのためのトランスフォーマーバックボーンの強化

Enhancing Transformer Backbone for Egocentric Video Action Segmentation ( http://arxiv.org/abs/2305.11365v2 )

ライセンス: Link先を確認
Sakib Reza, Balaji Sundareshan, Mohsen Moghaddam, Octavia Camps(参考訳) ビデオにおけるエゴセントリックな時間的アクションセグメンテーションは、混合現実、人間の行動分析、ロボット工学といった様々な分野の応用において、コンピュータビジョンにおいて重要なタスクである。 最近の研究は高度な視覚言語フレームワークを活用しているが、トランスフォーマーはアクションセグメンテーションモデルのバックボーンのままである。 したがって,アクションセグメンテーションモデルの堅牢性を高めるためには,トランスフォーマーの改良が必要である。 本稿では,アクションセグメンテーションのための最先端トランスフォーマーを強化するための2つの新しいアイデアを提案する。 まず,局所的・グローバル的・グローバル的両方の階層的表現を適応的に捉えるために,二重拡張注意機構を導入する。 第二に、デコーダとデコーダブロックの相互接続を組み込んで、デコーダによるローカルコンテキストの損失を防止する。 また、最先端のビジュアル言語表現学習技術を用いて、トランスフォーマーのよりリッチでコンパクトな特徴を抽出する。 提案手法は,ジョージア工科大学エゴセントリック活動(gtea)およびhoi4dオフィスツールデータセットにおける他の最先端手法よりも優れており,導入したコンポーネントをアブレーション研究で検証する。 ソースコードと補足資料はhttps://www.sail-nu.com/dxformer.comで公開されている。

Egocentric temporal action segmentation in videos is a crucial task in computer vision with applications in various fields such as mixed reality, human behavior analysis, and robotics. Although recent research has utilized advanced visual-language frameworks, transformers remain the backbone of action segmentation models. Therefore, it is necessary to improve transformers to enhance the robustness of action segmentation models. In this work, we propose two novel ideas to enhance the state-of-the-art transformer for action segmentation. First, we introduce a dual dilated attention mechanism to adaptively capture hierarchical representations in both local-to-global and global-to-local contexts. Second, we incorporate cross-connections between the encoder and decoder blocks to prevent the loss of local context by the decoder. We also utilize state-of-the-art visual-language representation learning techniques to extract richer and more compact features for our transformer. Our proposed approach outperforms other state-of-the-art methods on the Georgia Tech Egocentric Activities (GTEA) and HOI4D Office Tools datasets, and we validate our introduced components with ablation studies. The source code and supplementary materials are publicly available on https://www.sail-nu.com/dxformer.
翻訳日:2023-05-26 00:44:29 公開日:2023-05-23
# mci解析のための逆分解型vaeを用いた脳構造関数fusing表現学習

Brain Structure-Function Fusing Representation Learning using Adversarial Decomposed-VAE for Analyzing MCI ( http://arxiv.org/abs/2305.14404v1 )

ライセンス: Link先を確認
Qiankun Zuo, Baiying Lei, Ning Zhong, Yi Pan, Shuqiang Wang(参考訳) 脳の構造と機能の統合は、脳科学の探求と臨床における認知障害の分析において非常に重要である。 しかし、脳ネットワークの探索において、構造的および機能的特徴を効果的に融合させることは依然として課題である。 本稿では、拡散テンソルイメージング(DTI)と静止状態機能的磁気共鳴画像(fMRI)から融合表現を効果的に学習し、軽度認知障害(MCI)解析のための新しい脳構造-機能フリング表現学習(BSFL)モデルを提案する。 具体的には、分解融合フレームワークは、まず、各モジュラリティに対する一様空間と一様空間の結合に特徴空間を分解し、次に分解された特徴を適応的に融合してMCI関連表現を学ぶ。 さらに、知識認識トランスフォーマーモジュールは、脳全体のローカルおよびグローバル接続機能を自動キャプチャするように設計されている。 また, 分解をより効果的にし, 構造的, 機能的特徴の相補性を高めるために, 均一なコントラスト損失がさらに考案された。 提案手法は,MCIの予測と解析において,他の競合手法よりも優れた性能を示す。 さらに重要なことは、提案されたモデルは、統合された脳ネットワークを再構築し、MCIの変性過程における異常な接続を予測する潜在的なツールとなる可能性がある。

Integrating the brain structural and functional connectivity features is of great significance in both exploring brain science and analyzing cognitive impairment clinically. However, it remains a challenge to effectively fuse structural and functional features in exploring the brain network. In this paper, a novel brain structure-function fusing-representation learning (BSFL) model is proposed to effectively learn fused representation from diffusion tensor imaging (DTI) and resting-state functional magnetic resonance imaging (fMRI) for mild cognitive impairment (MCI) analysis. Specifically, the decomposition-fusion framework is developed to first decompose the feature space into the union of the uniform and the unique spaces for each modality, and then adaptively fuse the decomposed features to learn MCI-related representation. Moreover, a knowledge-aware transformer module is designed to automatically capture local and global connectivity features throughout the brain. Also, a uniform-unique contrastive loss is further devised to make the decomposition more effective and enhance the complementarity of structural and functional features. The extensive experiments demonstrate that the proposed model achieves better performance than other competitive methods in predicting and analyzing MCI. More importantly, the proposed model could be a potential tool for reconstructing unified brain networks and predicting abnormal connections during the degenerative processes in MCI.
翻訳日:2023-05-26 00:27:28 公開日:2023-05-23
# 遅延を考慮した層適応構造プルーニング

Layer-adaptive Structured Pruning Guided by Latency ( http://arxiv.org/abs/2305.14403v1 )

ライセンス: Link先を確認
Siyuan Pan, Linna Zhang, Jie Zhang, Xiaoshuang Li, Liang Hou, Xiaobing Tu(参考訳) 構造化プルーニングはネットワークアーキテクチャを単純化し、推論速度を改善する。 最終モデルがデプロイされる基盤となるハードウェアと推論エンジンを組み合わせることで、ネットワークのプルーニングを導くためにレイテンシコラボレーティブ損失関数を使用することで、よりよい結果を得ることができる。 遅延を最適化する既存のプルーニング手法は、主要な性能を示しているが、ネットワーク内のハードウェア機能や接続を見落としていることが多い。 この問題に対処するために,大域的重要度スコアSP-LAMP(Structured Pruning Layer-Adaptive Magnitude-based Pruning)を提案する。 spランプでは、各層がspランプスコア1のフィルタを含み、残りのフィルタがグループ化される。 グループknapsackソルバを用いてSP-LAMPスコアをレイテンシ制約下で最大化する。 さらに、レイテンシ収集の戦略を改善して、より正確なものにします。 特に ImageNet と CIFAR10 の ResNet50/ResNet18 では、SP-LAMP は 1.28x/8.45x で、+1.7%/-1.57% のトップ-1 の精度が変更されている。 CIFAR10におけるResNet56の実験結果から,提案アルゴリズムは精度とFLOPを保証しながら,代替手法に比べて低レイテンシを実現することが示された。

Structured pruning can simplify network architecture and improve inference speed. Combined with the underlying hardware and inference engine in which the final model is deployed, better results can be obtained by using latency collaborative loss function to guide network pruning together. Existing pruning methods that optimize latency have demonstrated leading performance, however, they often overlook the hardware features and connection in the network. To address this problem, we propose a global importance score SP-LAMP(Structured Pruning Layer-Adaptive Magnitude-based Pruning) by deriving a global importance score LAMP from unstructured pruning to structured pruning. In SP-LAMP, each layer includes a filter with an SP-LAMP score of 1, and the remaining filters are grouped. We utilize a group knapsack solver to maximize the SP-LAMP score under latency constraints. In addition, we improve the strategy of collect the latency to make it more accurate. In particular, for ResNet50/ResNet18 on ImageNet and CIFAR10, SP-LAMP is 1.28x/8.45x faster with +1.7%/-1.57% top-1 accuracy changed, respectively. Experimental results in ResNet56 on CIFAR10 demonstrate that our algorithm achieves lower latency compared to alternative approaches while ensuring accuracy and FLOPs.
翻訳日:2023-05-26 00:27:01 公開日:2023-05-23
# 微分可能なアーキテクチャ探索による音声認識性能の向上

Improving Speech Emotion Recognition Performance using Differentiable Architecture Search ( http://arxiv.org/abs/2305.14402v1 )

ライセンス: Link先を確認
Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Berrak Sisman, Bj\"orn Schuller(参考訳) 音声感情認識(ser)は、人間とコンピュータの相互作用における感情認識コミュニケーションの重要な実現要因である。 ディープラーニング(DL)は、モデルの複雑さを改善してSERモデルの性能を改善した。 しかし、DLアーキテクチャの設計には事前の経験と実験的な評価が必要である。 neural architecture search (nas) は最適なdlモデルの自動探索を可能にする。 特に、微分可能なアーキテクチャ探索(DARTS)は、NASを用いて最適化されたモデルを探索する効率的な方法である。 本稿では,SER性能向上のための共同CNNとLSTMアーキテクチャのためのDARTSを提案する。 我々の選択したCNN LSTM結合は、類似モデルが性能を向上することを示す結果にインスパイアされている。 SERの研究者は、CNNとRNNを別々に検討しているが、DARTをCNNとLSTMに併用することは、まだ探索が必要である。 IEMOCAPデータセットを用いて実験したところ,本手法はDARTS for SERによる最良報告結果よりも優れていた。

Speech Emotion Recognition (SER) is a critical enabler of emotion-aware communication in human-computer interactions. Deep Learning (DL) has improved the performance of SER models by improving model complexity. However, designing DL architectures requires prior experience and experimental evaluations. Encouragingly, Neural Architecture Search (NAS) allows automatic search for an optimum DL model. In particular, Differentiable Architecture Search (DARTS) is an efficient method of using NAS to search for optimised models. In this paper, we propose DARTS for a joint CNN and LSTM architecture for improving SER performance. Our choice of the CNN LSTM coupling is inspired by results showing that similar models offer improved performance. While SER researchers have considered CNNs and RNNs separately, the viability of using DARTs jointly for CNN and LSTM still needs exploration. Experimenting with the IEMOCAP dataset, we demonstrate that our approach outperforms best-reported results using DARTS for SER.
翻訳日:2023-05-26 00:26:34 公開日:2023-05-23
# TornadoQSim: オープンソースの高性能モジュール量子回路シミュレーションフレームワーク

TornadoQSim: An Open-source High-Performance and Modular Quantum Circuit Simulation Framework ( http://arxiv.org/abs/2305.14398v1 )

ライセンス: Link先を確認
Ales Kubicek, Athanasios Stratikopoulos, Juan Fumero, Nikos Foutris, Christos Kotselidis(参考訳) 本稿では,Javaで実装されたオープンソースの量子回路シミュレーションフレームワークであるTornadoQSimを紹介する。 提案フレームワークは,ユニタリマトリクスシミュレーション手法など,ユーザ定義の異なるシミュレーションバックエンドに対応するためにモジュール化され,容易に拡張できるように設計されている。 さらに、TornadoQSimは任意の量子回路をシミュレートできるシミュレーションバックエンドを交換する機能を備えている。 他の量子シミュレータに対するTornadoQSimのもうひとつの新しい側面は、異種デバイス上のシミュレーションバックエンドの透過的なハードウェアアクセラレーションである。 TornadoQSimはTornadoVMを使ってシミュレーションバックエンドの一部を不均一なハードウェアに自動的にコンパイルする。 TornadoQSimの評価によれば、GPUハードウェアの透過的な利用により、11量子ビットの完全絡み合った量子回路のバニラJavaコードと比較して、最大506.5$xの性能向上が得られる。 その他の評価された量子アルゴリズムとしては、Deutsch-Jozsaアルゴリズム(11ビット回路の493.10$x$スピードアップ)や量子フーリエ変換アルゴリズム(11ビット回路の518.12$x$スピードアップ)がある。 最後に、一意行列の最良のTornadoQSim実装は、Qiskitによる意味論的に等価なシミュレーションに対して評価されている。 比較評価の結果,小型回路ではtornadoqsimのシミュレーションが高速であり,大規模回路ではqiskitがtornadoqsimよりも桁違いに高速であることがわかった。

In this article, we present TornadoQSim, an open-source quantum circuit simulation framework implemented in Java. The proposed framework has been designed to be modular and easily expandable for accommodating different user-defined simulation backends, such as the unitary matrix simulation technique. Furthermore, TornadoQSim features the ability to interchange simulation backends that can simulate arbitrary quantum circuits. Another novel aspect of TornadoQSim over other quantum simulators is the transparent hardware acceleration of the simulation backends on heterogeneous devices. TornadoQSim employs TornadoVM to automatically compile parts of the simulation backends onto heterogeneous hardware, thereby addressing the fragmentation in development due to the low-level heterogeneous programming models. The evaluation of TornadoQSim has shown that the transparent utilization of GPU hardware can result in up to 506.5$x$ performance speedup when compared to the vanilla Java code for a fully entangled quantum circuit of 11 qubits. Other evaluated quantum algorithms have been the Deutsch-Jozsa algorithm (493.10$x$ speedup for a 11-qubit circuit) and the quantum Fourier transform algorithm (518.12$x$ speedup for a 11-qubit circuit). Finally, the best TornadoQSim implementation of unitary matrix has been evaluated against a semantically equivalent simulation via Qiskit. The comparative evaluation has shown that the simulation with TornadoQSim is faster for small circuits, while for large circuits Qiskit outperforms TornadoQSim by an order of magnitude.
翻訳日:2023-05-26 00:26:23 公開日:2023-05-23
# 深層学習理解のための学習機能の進化と意味情報対策の見直し

Reviewing Evolution of Learning Functions and Semantic Information Measures for Understanding Deep Learning ( http://arxiv.org/abs/2305.14397v1 )

ライセンス: Link先を確認
Chenguang Lu(参考訳) 相互情報ニューラル推定(mine)と情報ノイズコントラスト推定(infonce)によって表されるディープラーニングの新しいトレンドが登場している。 この傾向では、類似性関数と推定相互情報(EMI)が学習や目的関数として使用される。 EMIは、30年前に著者が提案したSemantic Mutual Information(SeMI)と基本的に同じである。 本稿ではまず,意味情報測定と学習機能の進化史を概観する。 次に、著者のセマンティック情報G理論と、レートフィデリティ関数R(G)(GはSeMIを表し、R(G)はR(D)を拡張する)と、マルチラベル学習、最大相互情報(MI)分類、混合モデルについて簡単に紹介する。 次に、セミとシャンノンのMIの関係、二つの一般化エントロピー(ファジィエントロピーとカバレッジエントロピー)、オートエンコーダ、ギブス分布、分割函数をR(G)関数やG理論の観点からどのように理解すべきかについて議論する。 重要な結論は、混合モデルと制限ボルツマンマシンが収束するのは、SeMIが最大化され、シャノンのMIが最小化され、情報効率 G/R が 1 に近づくからである。 潜在的な機会は、勾配を考慮せずに深層ニューラルネットワークの潜伏層を事前訓練するためにガウス流混合モデルを使用することで、ディープラーニングを単純化することである。 また,SeMI尺度が強化学習の報酬関数 (reflecting purposiveness) としてどのように使用されるかについても論じる。 G理論は深層学習を解釈するのに役立つが、十分ではない。 意味情報理論とディープラーニングを組み合わせることで、開発が加速する。

A new trend in deep learning, represented by Mutual Information Neural Estimation (MINE) and Information Noise Contrast Estimation (InfoNCE), is emerging. In this trend, similarity functions and Estimated Mutual Information (EMI) are used as learning and objective functions. Coincidentally, EMI is essentially the same as Semantic Mutual Information (SeMI) proposed by the author 30 years ago. This paper first reviews the evolutionary histories of semantic information measures and learning functions. Then, it briefly introduces the author's semantic information G theory with the rate-fidelity function R(G) (G denotes SeMI, and R(G) extends R(D)) and its applications to multi-label learning, the maximum Mutual Information (MI) classification, and mixture models. Then it discusses how we should understand the relationship between SeMI and Shan-non's MI, two generalized entropies (fuzzy entropy and coverage entropy), Autoencoders, Gibbs distributions, and partition functions from the perspective of the R(G) function or the G theory. An important conclusion is that mixture models and Restricted Boltzmann Machines converge because SeMI is maximized, and Shannon's MI is minimized, making information efficiency G/R close to 1. A potential opportunity is to simplify deep learning by using Gaussian channel mixture models for pre-training deep neural networks' latent layers without considering gradients. It also discusses how the SeMI measure is used as the reward function (reflecting purposiveness) for reinforcement learning. The G theory helps interpret deep learning but is far from enough. Combining semantic information theory and deep learning will accelerate their development.
翻訳日:2023-05-26 00:25:56 公開日:2023-05-23
# FITNESS: 機械学習ソフトウェアにおけるバイアスの緩和のための因果非相関アプローチ

FITNESS: A Causal De-correlation Approach for Mitigating Bias in Machine Learning Software ( http://arxiv.org/abs/2305.14396v1 )

ライセンス: Link先を確認
Ying Xiao, Shangwen Wang, Sicen Liu, Dingyuan Xue, Xian Zhan, Yepang Liu(参考訳) 機械学習アルゴリズム上に構築されたソフトウェアは、大学入学、医療、保険、正義など、さまざまな分野で広く普及している。 これらのシステムの有効性と効率は、トレーニングデータセットの品質に大きく依存する。 バイアスデータセットは不公平で潜在的に有害な結果をもたらす可能性がある。 これは特定の集団に対する差別を悪化させ、社会的な混乱を引き起こす。 このような不公平さを軽減するため、一連のバイアス緩和法が提案されている。 一般に、これらの研究は、訓練されたモデルの公正性をある程度改善するが、モデル性能を犠牲にして改善する。 本稿では,敏感な特徴(例えば,性別)とラベル間の因果効果を非相関化するバイアス緩和手法であるfitnessを提案する。 我々の重要な考え方は、因果関係の観点からそのような効果を非相関化することで、モデルは繊細な特徴に基づく予測を回避し、公平性を改善することができるということです。 さらに、FITNESSは多目的最適化を活用して、より優れたパフォーマンス・フェアネストレードオフを実現する。 有効性を評価するため,FITNESSを8つのベンチマークタスクで7つの最先端手法と比較した。 結果は、適合性がバイアス緩和の最先端の手法を上回り、モデルの性能を保ちながら、モデルの公平性を改善し、モデルのパフォーマンスを26.67%のシナリオで低下させることを示した。 さらに、FITNESSは96.72%のケースでFaireaベースラインを上回り、比較したすべてのメソッドを上回ります。

Software built on top of machine learning algorithms is becoming increasingly prevalent in a variety of fields, including college admissions, healthcare, insurance, and justice. The effectiveness and efficiency of these systems heavily depend on the quality of the training datasets. Biased datasets can lead to unfair and potentially harmful outcomes, particularly in such critical decision-making systems where the allocation of resources may be affected. This can exacerbate discrimination against certain groups and cause significant social disruption. To mitigate such unfairness, a series of bias-mitigating methods are proposed. Generally, these studies improve the fairness of the trained models to a certain degree but with the expense of sacrificing the model performance. In this paper, we propose FITNESS, a bias mitigation approach via de-correlating the causal effects between sensitive features (e.g., the sex) and the label. Our key idea is that by de-correlating such effects from a causality perspective, the model would avoid making predictions based on sensitive features and thus fairness could be improved. Furthermore, FITNESS leverages multi-objective optimization to achieve a better performance-fairness trade-off. To evaluate the effectiveness, we compare FITNESS with 7 state-of-the-art methods in 8 benchmark tasks by multiple metrics. Results show that FITNESS can outperform the state-of-the-art methods on bias mitigation while preserve the model's performance: it improved the model's fairness under all the scenarios while decreased the model's performance under only 26.67% of the scenarios. Additionally, FITNESS surpasses the Fairea Baseline in 96.72% cases, outperforming all methods we compared.
翻訳日:2023-05-26 00:25:25 公開日:2023-05-23
# 経路帰属を伴う信頼できる視覚モデル解釈に向けて

Towards credible visual model interpretation with path attribution ( http://arxiv.org/abs/2305.14395v1 )

ライセンス: Link先を確認
Naveed Akhtar, Muhammad A. A. K. Jalwana(参考訳) 元々はゲーム理論にインスパイアされたパス属性フレームワークは、その公理的な性質からポストホックモデルの解釈ツールの中でも際立っている。 しかし、近年の進歩は、このフレームワークがいまだに反直感的な結果に悩まされていることを示している。 さらに、特に深い視覚モデルでは、既存のパスベース手法は、このフレームワークの主張された公理的性質の基盤である元の直観に従うことにも不足している。 我々は,これらの問題を系統的調査によって解決し,経路帰属戦略を用いた深い視覚モデル解釈において,直観的な結果が避けられる条件を突き止めた。 また,視覚モデル解釈が経路帰属の公理的性質を無効にできる条件を回避するためのスキームを考案する。 これらの洞察は、信頼できる視覚的モデル解釈を可能にする方法に結合される。 この結果は,複数のデータセット,モデル,評価指標を用いて実証的に確立される。 広範な実験により,本手法はベースライン上で一貫性のある性能向上を示す。

Originally inspired by game-theory, path attribution framework stands out among the post-hoc model interpretation tools due to its axiomatic nature. However, recent developments show that this framework can still suffer from counter-intuitive results. Moreover, specifically for deep visual models, the existing path-based methods also fall short on conforming to the original intuitions that are the basis of the claimed axiomatic properties of this framework. We address these problems with a systematic investigation, and pinpoint the conditions in which the counter-intuitive results can be avoided for deep visual model interpretation with the path attribution strategy. We also devise a scheme to preclude the conditions in which visual model interpretation can invalidate the axiomatic properties of path attribution. These insights are combined into a method that enables reliable visual model interpretation. Our findings are establish empirically with multiple datasets, models and evaluation metrics. Extensive experiments show a consistent performance gain of our method over the baselines.
翻訳日:2023-05-26 00:24:56 公開日:2023-05-23
# シナプス欠損を伴うタスクスイッチング研究のための前頭前野の教師なしスパイクニューラルネットワークモデル

Unsupervised Spiking Neural Network Model of Prefrontal Cortex to study Task Switching with Synaptic deficiency ( http://arxiv.org/abs/2305.14394v1 )

ライセンス: Link先を確認
Ashwin Viswanathan Kannan, Goutam Mylavarapu and Johnson P Thomas(参考訳) 本研究では,spyking neural network (snn) を用いた前頭前野(pfc)の計算モデルを構築し,刺激変化の短期的・長期的変化下での課題へのニューロンの適応と対応を理解する。 また,spiking architectureモデルにおいて,pfc病変から生じる行動障害をシミュレートして検討した。 PFCにはいくつかの計算モデルがあるが、SNNはそれらをモデル化するのに使われていない。 本研究では,SNNが生物学的に妥当な値に近いパラメータを持ち,教師なしスパイクタイミング依存塑性(STDP)学習規則を用いてモデルを訓練する。 我々のモデルはコネクショニストアーキテクチャに基づいており、短期記憶や作業記憶の生成に役立つ持続活動のような神経現象を示す。 これらの特徴を,シナプス経路を切断して病変をシミュレートし,学習パターンの重み付けを記録し,そのような状況下での学習タスクの正確さを捉える。 私たちの実験はすべて、実世界のファッションmnist(fmnist)データセットを使ってトレーニングされ、記録されます。この研究を通じて、バイオリアリスティックモデルとパターン認識タスクでうまく機能するモデルとの間のギャップを埋めることができます。

In this study, we build a computational model of Prefrontal Cortex (PFC) using Spiking Neural Networks (SNN) to understand how neurons adapt and respond to tasks switched under short and longer duration of stimulus changes. We also explore behavioral deficits arising out of the PFC lesions by simulating lesioned states in our Spiking architecture model. Although there are some computational models of the PFC, SNN's have not been used to model them. In this study, we use SNN's having parameters close to biologically plausible values and train the model using unsupervised Spike Timing Dependent Plasticity (STDP) learning rule. Our model is based on connectionist architectures and exhibits neural phenomena like sustained activity which helps in generating short-term or working memory. We use these features to simulate lesions by deactivating synaptic pathways and record the weight adjustments of learned patterns and capture the accuracy of learning tasks in such conditions. All our experiments are trained and recorded using a real-world Fashion MNIST (FMNIST) dataset and through this work, we bridge the gap between bio-realistic models and those that perform well in pattern recognition tasks
翻訳日:2023-05-26 00:24:42 公開日:2023-05-23
# graph meets llm:堅牢な会話理解のための協調フィルタリングへの新しいアプローチ

Graph Meets LLM: A Novel Approach to Collaborative Filtering for Robust Conversational Understanding ( http://arxiv.org/abs/2305.14449v1 )

ライセンス: Link先を確認
Zheng Chen, Ziyan Jiang and Fan Yang(参考訳) 会話AIシステム(Alexa、Siri、Google Assistantなど)は、堅牢な会話理解とユーザの摩擦を軽減するために、欠陥のあるクエリを理解する必要がある。 欠陥クエリは、しばしばユーザの曖昧さや間違い、あるいは自動音声認識(ASR)と自然言語理解(NLU)の誤りによって引き起こされる。 パーソナライズされたクエリ書き換え(QRの個人化)は、胴体と尾部のユーザクエリトラフィックの欠陥を減らすことを目的としており、通常、会話型AIとの過去のユーザインタラクションのインデックスに依存する。 本稿では、ユーザ履歴にない新規ユーザインタラクションの書き直しに焦点を当てた「協調クエリ書き換え」アプローチを提案する。 このアプローチは、過去のユーザとのインタラクションで構成される"ユーザフィードバックインタラクショングラフ"(FIG)を構築し、マルチホップ顧客親和性を活用して、各ユーザのインデックス(Collaborative User Index)を強化し、将来の目に見えない欠陥クエリをカバーする。 拡張インデックスからの精度劣化に対処するため,L1検索モデルにトランスフォーマー層を導入し,L2再ランクモデルにマルチホップ親和性とガードレール機能を追加した。 ストレージコストと実行時の検索待ち時間の運用上の制約を考えると,協調ユーザインデックスのサイズ管理が重要である。 ユーザインデックスを事前計算できるため、ビデオ/音楽ドメイン上のマルチホップ顧客親和性検索にLarge Language Model (LLM)を用いた検討を行った。 特に,Dolly-V2 7Bモデルについて検討した。 ユーザインデックスのサイズが限られているため,dry-v2生成の微調整によるユーザインデックスが,ユーザインタラクションのカバー範囲を大幅に向上していることがわかった。 これにより、グラフトラバーサルベースのユーザインデックスと比較して、見えないユーザインタラクションにおけるQRパフォーマンスが向上した。

Conversational AI systems (e.g. Alexa, Siri, Google Assistant, etc.) need to understand queries with defects to ensure robust conversational understanding and reduce user frictions. The defective queries are often induced by user ambiguities and mistakes, or errors in the automatic speech recognition (ASR) and natural language understanding (NLU). Personalized query rewriting (personalized QR) targets reducing defects in the torso and tail user query traffic, and it typically relies on an index of past successful user interactions with the conversational AI. This paper presents our "Collaborative Query Rewriting" approach that focuses on rewriting novel user interactions unseen in the user history. This approach builds a "user Feedback Interaction Graph" (FIG) consisting of historical user-entity interactions, and leverages multi-hop customer affinity to enrich each user's index (i.e. the Collaborative User Index) that would help cover future unseen defective queries. To counteract the precision degradation from the enlarged index, we introduced additional transformer layers to the L1 retrieval model and added multi-hop affinity and guardrail features to the L2 re-ranking model. Given the production constraints of storage cost and runtime retrieval latency, managing the size of the Collaborative User Index is important. As the user index can be pre-computed, we explored using a Large Language Model (LLM) for multi-hop customer affinity retrieval on the Video/Music domains. In particular, this paper looked into the Dolly-V2 7B model. Given limited user index size, We found the user index derived from fine-tuned Dolly-V2 generation significantly enhanced coverage of unseen user interactions. Consequently, this boosted QR performance on unseen user interactions compared to the graph traversal based user index.
翻訳日:2023-05-26 00:16:32 公開日:2023-05-23
# 最適プレコンディショニングと釣り適応型ランゲヴィンサンプリング

Optimal Preconditioning and Fisher Adaptive Langevin Sampling ( http://arxiv.org/abs/2305.14442v1 )

ライセンス: Link先を確認
Michalis K. Titsias(参考訳) 予測された2乗ジャンプ距離を解析的に最大化することにより,ランジュバン拡散の最適前提条件を定義する。 これは逆フィッシャー情報共分散行列の最適前提条件となり、この共分散行列は目標の下で平均化されたログターゲット勾配の外積として計算される。 この結果をメトロポリス調整ランゲヴィンアルゴリズム(MALA)に適用し,アルゴリズムの実行時に発生する勾配履歴から事前条件を学習する,計算効率のよいMCMCスキームを導出する。 いくつかの実験において、提案アルゴリズムは高次元において非常に堅牢であり、標準適応MCMCによる事前条件学習と位置依存リーマン多様体MALAサンプリング器を含む、他の手法よりも大幅に優れていることを示す。

We define an optimal preconditioning for the Langevin diffusion by analytically maximizing the expected squared jumped distance. This yields as the optimal preconditioning an inverse Fisher information covariance matrix, where the covariance matrix is computed as the outer product of log target gradients averaged under the target. We apply this result to the Metropolis adjusted Langevin algorithm (MALA) and derive a computationally efficient adaptive MCMC scheme that learns the preconditioning from the history of gradients produced as the algorithm runs. We show in several experiments that the proposed algorithm is very robust in high dimensions and significantly outperforms other methods, including a closely related adaptive MALA scheme that learns the preconditioning with standard adaptive MCMC as well as the position-dependent Riemannian manifold MALA sampler.
翻訳日:2023-05-26 00:15:57 公開日:2023-05-23
# オープンドメイン質問応答システムの最小編集質問に対するコントラスト整合性の検討

Exploring Contrast Consistency of Open-Domain Question Answering Systems on Minimally Edited Questions ( http://arxiv.org/abs/2305.14441v1 )

ライセンス: Link先を確認
Zhihan Zhang and Wenhao Yu and Zheng Ning and Mingxuan Ju and Meng Jiang(参考訳) 対照的に、摂動の存在下でモデルが常に正しい予測を行う能力は、NLPにおいて不可欠な側面である。 感情分析や読書理解などのタスクで研究されているが、事実性要件を満たす摂動質問の収集が困難であるため、オープンドメイン質問応答(OpenQA)では未検討のままである。 本研究では,OpenQAモデルを評価するためのコントラストセットとして,最小限に編集された質問を収集する。 我々の収集手法は、人間のアノテーションと大きな言語モデルの生成を組み合わせている。 広範に使用されるdprは, トレーニングセットに適合し, 標準テストセットで競争力を保ったにもかかわらず, コントラストセットでは性能が低かった。 この問題に対処するために,dprトレーニングを改善するために,データ拡張の助けを借りて,クエリサイドのコントラストロスをシンプルかつ効果的に導入する。 コントラスト集合に関する実験により、DPRのコントラスト整合性は標準試験セットの精度を犠牲にすることなく改善されることを示した。

Contrast consistency, the ability of a model to make consistently correct predictions in the presence of perturbations, is an essential aspect in NLP. While studied in tasks such as sentiment analysis and reading comprehension, it remains unexplored in open-domain question answering (OpenQA) due to the difficulty of collecting perturbed questions that satisfy factuality requirements. In this work, we collect minimally edited questions as challenging contrast sets to evaluate OpenQA models. Our collection approach combines both human annotation and large language model generation. We find that the widely used dense passage retriever (DPR) performs poorly on our contrast sets, despite fitting the training set well and performing competitively on standard test sets. To address this issue, we introduce a simple and effective query-side contrastive loss with the aid of data augmentation to improve DPR training. Our experiments on the contrast sets demonstrate that DPR's contrast consistency is improved without sacrificing its accuracy on the standard test sets.
翻訳日:2023-05-26 00:15:43 公開日:2023-05-23
# 領域拡張 aste:アスペクト感情三重項抽出における一般化再考

Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2305.14434v1 )

ライセンス: Link先を確認
Yew Ken Chia, Hui Chen, Wei Han, Guizhen Chen, Sharifah Mahani Aljunied, Soujanya Poria, Lidong Bing(参考訳) アスペクト感情三重項抽出(aspect sentiment triplet extraction, aste)は、各意見項、表現された感情、対応するアスペクトターゲットを考慮に入れるアスペクトベース感情分析(absa)のサブタスクである。 しかし、既存のメソッドは2つのドメインを持つドメイン内の設定に限られている。 そこで本研究では、ドメイン内、ドメイン外、ドメイン間設定に対処するドメイン拡張ベンチマークを提案する。 ホテルと化粧品レビューに基づく2つの新しいドメインに対して4000以上のデータサンプルを注釈付けすることで、新しいベンチマークをサポートする。 既存の5つのメソッドを解析した結果、ドメイン内とドメイン外のパフォーマンスの間には大きなギャップがあるものの、ジェネレーティブメソッドはドメインの一般化に強い潜在性を示している。 私たちのデータセット、コード実装、モデルはhttps://github.com/DAMO-NLP-SG/ domain-expanded-aste で利用可能です。

Aspect Sentiment Triplet Extraction (ASTE) is a subtask of Aspect-Based Sentiment Analysis (ABSA) that considers each opinion term, their expressed sentiment, and the corresponding aspect targets. However, existing methods are limited to the in-domain setting with two domains. Hence, we propose a domain-expanded benchmark to address the in-domain, out-of-domain and cross-domain settings. We support the new benchmark by annotating more than 4000 data samples for two new domains based on hotel and cosmetics reviews. Our analysis of five existing methods shows that while there is a significant gap between in-domain and out-of-domain performance, generative methods have a strong potential for domain generalization. Our datasets, code implementation and models are available at https://github.com/DAMO-NLP-SG/domain-expanded-aste .
翻訳日:2023-05-26 00:15:21 公開日:2023-05-23
# 合成ゼロショット学習のためのプロンプト言語インフォームド分布

Prompting Language-Informed Distribution for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2305.14428v1 )

ライセンス: Link先を確認
Wentao Bao, Lichang Chen, Heng Huang, Yu Kong(参考訳) 合成ゼロショット学習(CZSL)タスクは、目に見えない構成的視覚概念(すなわち、スライストマト)を認識することを目的としており、そこでは、モデルが観察された構成(すなわち、スライスジャガイモと赤トマト)からのみ学習される。 CLIPのような大規模トレーニング済みのビジュアル言語モデルの迅速なチューニングのおかげで、最近の文献では従来の視覚ベースの手法よりもはるかに優れたCZSL性能を示している。 しかし、クラスコンテキストの多様性や情報性、視覚的プリミティブ(状態とオブジェクト)間の絡み合いなど、一般化に影響を及ぼす重要な側面は、既存のCLIPベースのCZSL文献では正しく扱われていない。 本稿では,言語に変形した分布を促進させるモデルを提案する。 CZSLタスク用のPLID。 具体的には、PLIDは事前訓練された大規模言語モデル(LLM)を利用する。 1)言語インフォームドクラス分布を定式化し、 2)ソフトインスパイアされたクラス埋め込みの構成性を高める。 さらに,合成空間と原始ロジット空間の予測から決定を動的に融合する確率的ロジット混合戦略を提案する。 従来のソフト,ハード,あるいは分布的プロンプトの文献と直交し,LLMが支持するクラス分布の促進を提唱し,より優れた構成的ゼロショット一般化を導いた。 MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。 コードとモデルは公開される予定だ。

The compositional zero-shot learning (CZSL) task aims to recognize unseen compositional visual concepts (i.e., sliced tomatoes), where the models are learned only from the seen compositions (i.e., sliced potatoes and red tomatoes). Thanks to the prompt tuning on large pre-trained visual language models such as CLIP, recent literature shows impressively better CZSL performance than traditional vision-based methods. However, the key aspects that impact the generalization to unseen compositions, including the diversity and informativeness of class context, and the entanglement between visual primitives (i.e., states and objects), are not properly addressed in existing CLIP-based CZSL literature. In this paper, we propose a model by prompting the language-informed distribution, aka., PLID, for the CZSL task. Specifically, the PLID leverages pre-trained large language models (LLM) to 1) formulate the language-informed class distribution, and 2) enhance the compositionality of the softly prompted class embedding. Moreover, a stochastic logit mixup strategy is proposed to dynamically fuse the decisions from the predictions in the compositional and the primitive logit space. Orthogonal to the existing literature of soft, hard, or distributional prompts, our method advocates prompting the LLM-supported class distribution that leads to a better compositional zero-shot generalization. Experimental results on MIT-States, UT-Zappos, and C-GQA datasets show the superior performance of the PLID to the prior arts. The code and models will be publicly released.
翻訳日:2023-05-26 00:15:05 公開日:2023-05-23
# 相互作用範囲拡大による超伝導量子コンピュータの離散時間-結晶応答の安定化

Stabilization of Discrete Time-Crystaline Response on a Superconducting Quantum Computer by increasing the Interaction Range ( http://arxiv.org/abs/2305.14426v1 )

ライセンス: Link先を確認
Andrea Solfanelli, Stefano Ruffo, Sauro Succi, Nicol\`o Defenu(参考訳) 本研究は、超伝導量子プロセッサを用いて、近接近傍を超える結合を持つ系のダイナミクスを再現する新しい方法を提案する。 複雑な量子多体系の量子シミュレーションは、ノイズの多い中間スケール量子(nisq)デバイスの短期的目標である。 しかし、ネイティブ量子ビットの接続が限られているため、長距離相互作用を必要とする量子アルゴリズムの実装が妨げられる。 量子プロセッサネイティブゲートの普遍性を利用することで、物理的に切り離された量子ビット間の結合の実装が可能になることを示す。 提案手法の有効性を実証するため,Floquet駆動型量子スピンチェーンの量子シミュレーションをIBM量子超伝導プロセッサ上で実装した。 具体的には, 相互作用範囲が増加するにつれて, 離散フロッケ時間結晶応答が熱前安定化することを示す。 本手法は, 可変相互作用範囲を持つ系の研究を可能にし, 長距離相互作用量子系の物理を探求する新たな機会を開く。

This work presents a novel method for reproducing the dynamics of systems with couplings beyond nearest neighbors using a superconducting quantum processor. Quantum simulation of complex quantum many-body systems is a promising short-term goal of noisy intermediate-scale quantum (NISQ) devices. However, the limited connectivity of native qubits hinders the implementation of quantum algorithms that require long-range interactions. We show that utilizing the universality of quantum processor native gates allows the implementation of couplings among physically disconnected qubits. To demonstrate the effectiveness of our method, we implement a quantum simulation, on IBM quantum superconducting processors, of a Floquet-driven quantum spin chain featuring interactions beyond nearest neighbors. Specifically, we benchmark the prethermal stabilization of discrete Floquet time crystalline response as the interaction range increases, a phenomenon which was never experimentally observed before. Our method enables the study of systems with tunable interaction ranges, opening up new opportunities to explore the physics of long-range interacting quantum systems.
翻訳日:2023-05-26 00:14:38 公開日:2023-05-23
# マルチホップインストラクションによる画像操作 -- 新しいデータセットと弱スーパービジョンニューロシンボリックアプローチ

Image Manipulation via Multi-Hop Instructions -- A New Dataset and Weakly-Supervised Neuro-Symbolic Approach ( http://arxiv.org/abs/2305.14410v1 )

ライセンス: Link先を確認
Harman Singh, Poorva Garg, Mohit Gupta, Kevin Shah, Arnab Kumar Mondal, Dinesh Khandelwal, Parag Singla, Dinesh Garg(参考訳) 私たちは自然言語テキストによるイメージ操作に関心があります -- 複数のAIアプリケーションに有用なタスクですが、マルチモーダルスペースに対する複雑な推論が必要です。 近年提案されているニューロシンボリック・コンセプト・ラーニング(nscl)を,画像操作のための視覚質問応答(vqa)のタスクに非常に効果的に拡張した。 NeuroSIM と呼ばれるシステムでは,マルチオブジェクトシーン上で複雑なマルチホップ推論を行うことができ,VQA の注釈付きデータ形式において弱い監視しか必要としない。 NeuroSIMは、オブジェクト属性と操作操作からなるドメイン固有言語(DSL)に基づいて、命令をシンボルプログラムに解析し、その実行を導く。 我々はタスクのための新しいデータセットを作成し、幅広い実験により、neurosimが教師付きデータを使用して操作するsataベースラインと高い競合性を示している。

We are interested in image manipulation via natural language text -- a task that is useful for multiple AI applications but requires complex reasoning over multi-modal spaces. We extend recently proposed Neuro Symbolic Concept Learning (NSCL), which has been quite effective for the task of Visual Question Answering (VQA), for the task of image manipulation. Our system referred to as NeuroSIM can perform complex multi-hop reasoning over multi-object scenes and only requires weak supervision in the form of annotated data for VQA. NeuroSIM parses an instruction into a symbolic program, based on a Domain Specific Language (DSL) comprising of object attributes and manipulation operations, that guides its execution. We create a new dataset for the task, and extensive experiments demonstrate that NeuroSIM is highly competitive with or beats SOTA baselines that make use of supervised data for manipulation.
翻訳日:2023-05-26 00:14:22 公開日:2023-05-23
# 進化:高次視点から見た特徴演算子のための統一式

Evolution: A Unified Formula for Feature Operators from a High-level Perspective ( http://arxiv.org/abs/2305.14409v1 )

ライセンス: Link先を確認
Zhicheng Cai(参考訳) 伝統的に、異なるタイプの特徴演算子(例えば、畳み込み、自己注意、畳み込み)は、特徴の抽出と集約に異なるアプローチを使用する。 類似性はそれらの数学的公式からほとんど発見できない。 しかし、これら3つの演算子はいずれも同じパラマウント目的を持ち、本質的な違いは持たない。 したがって、高次視点から様々な特徴作用素の本質を探索し、それらの成分を等価に変換し、より高次元の数学的表現を探索する。 我々は、進化と呼ばれる異なる特徴演算子に対して、明確で具体的な統一式を一つ挙げる。 evolution は evolution 関数を利用して evolution kernel を生成し、入力された特徴マップの特定の位置にある特徴を抽出・集約する。 我々は数学的に、これらの特徴演算子の伝統的な公式から進化への等価変換を導出し、統一を証明する。 さらに,進化関数の形式と生成する進化カーネルの性質について論じ,強力な特徴演算子のさらなる研究と革新にインスピレーションを与えることを目的としている。

Traditionally, different types of feature operators (e.g., convolution, self-attention and involution) utilize different approaches to extract and aggregate the features. Resemblance can be hardly discovered from their mathematical formulas. However, these three operators all serve the same paramount purpose and bear no difference in essence. Hence we probe into the essence of various feature operators from a high-level perspective, transformed their components equivalently, and explored their mathematical expressions within higher dimensions. We raise one clear and concrete unified formula for different feature operators termed as Evolution. Evolution utilizes the Evolution Function to generate the Evolution Kernel, which extracts and aggregates the features in certain positions of the input feature map. We mathematically deduce the equivalent transformation from the traditional formulas of these feature operators to Evolution and prove the unification. In addition, we discuss the forms of Evolution Functions and the properties of generated Evolution Kernels, intending to give inspirations to the further research and innovations of powerful feature operators.
翻訳日:2023-05-26 00:14:04 公開日:2023-05-23
# ディープラーニングに基づく予測:オンラインファッション産業を事例として

Deep Learning based Forecasting: a case study from the online fashion industry ( http://arxiv.org/abs/2305.14406v1 )

ライセンス: Link先を確認
Manuel Kunz, Stefan Birr, Mones Raslan, Lei Ma, Zhen Li, Adele Gouttes, Mateusz Koren, Tofigh Naghibi, Johannes Stephan, Mariia Bulycheva, Matthias Grzeschik, Armin Keki\'c, Michael Narodovitch, Kashif Rasul, Julian Sieber, Tim Januschowski(参考訳) オンラインファッション業界の需要予測は、特に、業界特有の課題のセットのため、グローバルなデータ駆動予測モデルに修正可能である。 これには、データのボリューム、不規則性、カタログにおける高いターンオーバー量、固定在庫の仮定が含まれる。 標準的なディープラーニング予測アプローチはこれらの多くに対応するが、固定在庫仮定は価格と需要の関係を密接に制御することで特別な処理を必要とする。 このケーススタディでは、この予測問題に対するデータとモデリングアプローチを詳細に述べ、このアプローチの有効性を強調する実験結果を提示する。

Demand forecasting in the online fashion industry is particularly amendable to global, data-driven forecasting models because of the industry's set of particular challenges. These include the volume of data, the irregularity, the high amount of turn-over in the catalog and the fixed inventory assumption. While standard deep learning forecasting approaches cater for many of these, the fixed inventory assumption requires a special treatment via controlling the relationship between price and demand closely. In this case study, we describe the data and our modelling approach for this forecasting problem in detail and present empirical results that highlight the effectiveness of our approach.
翻訳日:2023-05-26 00:13:47 公開日:2023-05-23
# ニューラルネットワーク: 効率的な推論のための一般行列乗算への移行

NeuralMatrix: Moving Entire Neural Networks to General Matrix Multiplication for Efficient Inference ( http://arxiv.org/abs/2305.14405v1 )

ライセンス: Link先を確認
Ruiqi Sun, Jie Zhao, Xin He, Yiran Li, An Zou(参考訳) 本研究では,1つの一般行列乗算(GEMM)アクセラレータ上で,汎用的なディープニューラルネットワーク(DNN)の計算を可能にする新しいフレームワークであるNeuralMatrixを紹介する。 提案手法は、asicベースの加速器の特異性制限を克服し、cpuやgpuのような汎用プロセッサと比較してアプリケーション固有の加速レベルを達成する。 本稿では,DNN計算における線形演算と非線形演算を一般行列乗算にマッピングすることの課題と,GEMM加速器がDNN推定精度に与える影響について述べる。 3つの人気のあるカテゴリ(CNN、Transformers、GNN)の様々なDNNモデルに対して、イラストレーターバックボーンモデルとして大規模な実験を行う。 その結果、DNNは一般的な行列乗算に変換された後、最大で2.02%の精度の損失しか得られず、CPUやGPUと比較して113倍から19.44倍のスループット向上を達成できた。

In this study, we introduce NeuralMatrix, a novel framework that enables the computation of versatile deep neural networks (DNNs) on a single general matrix multiplication (GEMM) accelerator. The proposed approach overcomes the specificity limitations of ASIC-based accelerators while achieving application-specific acceleration levels compared to general-purpose processors such as CPUs and GPUs. We address the challenges of mapping both linear and nonlinear operations in DNN computation to general matrix multiplications and the impact of using a GEMM accelerator on DNN inference accuracy. Extensive experiments are conducted on various DNN models from three popular categories (i.e., CNN, Transformers, and GNN) as illustrative backbone models. Our results demonstrate that DNNs suffer only up to a 2.02% accuracy loss after being converted to general matrix multiplication, while achieving 113x to 19.44x improvements in throughput per power compared to CPUs and GPUs.
翻訳日:2023-05-26 00:13:37 公開日:2023-05-23
# 連続回転不変性を実現するためのSorted Convolutional Network

Sorted Convolutional Network for Achieving Continuous Rotational Invariance ( http://arxiv.org/abs/2305.14462v1 )

ライセンス: Link先を確認
Hanlin Mo and Guoying Zhao(参考訳) 畳み込みニューラルネットワーク(CNN)における回転不変性の実現という話題は、画像分類やマッチングといった多くのコンピュータビジョンタスクにおいて、近年注目されている。 本稿では,手作りのテクスチャ画像の特徴に着想を得たソーティング・コンボリューション(SC)を提案し,学習可能なパラメータやデータ拡張を必要とせずに連続的な回転不変性を実現する。 さらに、scは従来のcnnモデルの畳み込み演算を直接置き換えて回転不変性を達成することができる。 mnist-rotデータセットに基づいて,まず畳み込みカーネルサイズ,異なるサンプリングおよびソート戦略がscの回転不変性に与える影響を解析し,従来の回転不変cnnモデルと比較した。 次に、SCとVGG、ResNet、DenseNetを組み合わせて、一般的なテクスチャとリモートセンシング画像データセットの分類実験を行う。 その結果,scは上述のタスクで最高の性能を達成できた。

The topic of achieving rotational invariance in convolutional neural networks (CNNs) has gained considerable attention recently, as this invariance is crucial for many computer vision tasks such as image classification and matching. In this letter, we propose a Sorting Convolution (SC) inspired by some hand-crafted features of texture images, which achieves continuous rotational invariance without requiring additional learnable parameters or data augmentation. Further, SC can directly replace the conventional convolution operations in a classic CNN model to achieve its rotational invariance. Based on MNIST-rot dataset, we first analyze the impact of convolutional kernel sizes, different sampling and sorting strategies on SC's rotational invariance, and compare our method with previous rotation-invariant CNN models. Then, we combine SC with VGG, ResNet and DenseNet, and conduct classification experiments on popular texture and remote sensing image datasets. Our results demonstrate that SC achieves the best performance in the aforementioned tasks.
翻訳日:2023-05-26 00:07:50 公開日:2023-05-23
# 要約重複と明示的アウトライン制御による生成の強化

Enhancing Generation through Summarization Duality and Explicit Outline Control ( http://arxiv.org/abs/2305.14459v1 )

ライセンス: Link先を確認
Yunzhe Li, Qian Chen, Weixiang Yan, Wen Wang, Qinglin Zhang, Hari Sundaram(参考訳) 自動オープンエンド長文生成は意味的一貫性とプロットの難しさのために大きな課題となる。 従来の研究は通常、教師なしのタスクを設計することで、短いフレーズや抽象的な信号の形で概説することでこの問題を軽減する。 要約が成熟したアウトラインとして機能すると仮定すると、2段階の要約強化されたアウトライン管理生成フレームワークを導入する。 このフレームワークは、要約タスクの二重特性を活用して、アウトライン予測を改善し、より明確で妥当なアウトラインをもたらす。 さらに,標準事前学習言語モデル(GPT-2, BARTなど)と大規模言語モデル(Vicuna, ChatGPTなど)を併用したアウトラインベース生成における不活用問題を特定する。 そこで本研究では,生成されたアウトラインをより効果的に活用するための,新しいアウトライン制御手法を提案する。

Automatically open-ended long text generation poses significant challenges due to semantic incoherence and plot implausibility. Previous works usually alleviate this problem through outlines in the form of short phrases or abstractive signals by designing unsupervised tasks, which tend to be unstable and weakly interpretable. Assuming that a summary serves as a mature outline, we introduce a two-stage, summary-enhanced outline supervised generation framework. This framework leverages the dual characteristics of the summarization task to improve outline prediction, resulting in more explicit and plausible outlines. Furthermore, we identify an underutilization issue in outline-based generation with both standard pretrained language models (e.g., GPT-2, BART) and large language models (e.g., Vicuna, ChatGPT). To address this, we propose a novel explicit outline control method for more effective utilization of generated outlines.
翻訳日:2023-05-26 00:07:32 公開日:2023-05-23
# 成功と失敗のバランス:SALSAを用いた編集レベルの単純化評価

Dancing Between Success and Failure: Edit-level Simplification Evaluation using SALSA ( http://arxiv.org/abs/2305.14458v1 )

ライセンス: Link先を確認
David Heineman, Yao Dou, Mounica Maddela, Wei Xu(参考訳) 大規模言語モデル(例えばGPT-3.5)は高度に評価されたテキストを単純化する能力があるが、現在の人間の評価手法ではシステムの特定の長所と短所を明確に理解できない。 この制限に対処するため、SALSAは、完全かつきめ細かいテキストの簡易化評価を可能にする編集ベースのヒューマンアノテーションフレームワークである。 我々は, 概念的, 構文的, 語彙的単純さの観点から, 成功と失敗のスペクトルを網羅した20種類の編集型を開発した。 SALSA を用いて,700 の単純化に対して 12K の編集アノテーションを収集し,微調整モデル,少数ショット LLM および人間による変換アプローチの分布に相違点を明らかにし,GPT-3.5 が人間よりも高品質な編集を行うことを発見した。 LENS-SALSAは参照不要な自動単純化尺度であり,文と単語の質を同時に予測する訓練を施している。 さらに,簡易化のための単語レベルの品質推定と,期待できる基準結果の報告を行う。 トレーニング資料、アノテーションツールキット、データはhttp://salsa-eval.com.comで公開されています。

Large language models (e.g., GPT-3.5) are uniquely capable of producing highly rated text simplification, yet current human evaluation methods fail to provide a clear understanding of systems' specific strengths and weaknesses. To address this limitation, we introduce SALSA, an edit-based human annotation framework that enables holistic and fine-grained text simplification evaluation. We develop twenty one linguistically grounded edit types, covering the full spectrum of success and failure across dimensions of conceptual, syntactic and lexical simplicity. Using SALSA, we collect 12K edit annotations on 700 simplifications, revealing discrepancies in the distribution of transformation approaches performed by fine-tuned models, few-shot LLMs and humans, and finding GPT-3.5 performs more quality edits than humans, but still exhibits frequent errors. Using our fine-grained annotations, we develop LENS-SALSA, a reference-free automatic simplification metric, trained to predict sentence- and word-level quality simultaneously. Additionally, we introduce word-level quality estimation for simplification and report promising baseline results. Our training material, annotation toolkit, and data are released at http://salsa-eval.com.
翻訳日:2023-05-26 00:07:15 公開日:2023-05-23
# 比較推論のための事前学習言語モデル

Pre-training Language Models for Comparative Reasoning ( http://arxiv.org/abs/2305.14457v1 )

ライセンス: Link先を確認
Mengxia Yu, Zhihan Zhang, Wenhao Yu, Meng Jiang(参考訳) 本稿では,テキストに対する比較推論能力を高めるための,事前学習型言語モデルのための新しいフレームワークを提案する。 最近の研究は、比較推論を必要とするnlpタスクのモデルを開発したが、それらはコストのかかる手動データラベリングと異なるタスクへの一般化可能性の制限に苦しめられている。 提案手法は,構造化データと非構造化データの両方を活用するテキストベースエンティティ比較のためのスケーラブルなデータ収集手法と,新しい3つの事前学習タスクの設計を含む。 比較質問応答,質問生成,要約を含む下流タスクの評価は,事前学習フレームワークが言語モデルの推論能力,特に低リソース条件において有意に向上することを示す。 この研究は、テキストに対する比較推論のための最初の統合ベンチマークもリリースしている。

In this paper, we propose a novel framework to pre-train language models for enhancing their abilities of comparative reasoning over texts. While recent research has developed models for NLP tasks that require comparative reasoning, they suffer from costly manual data labeling and limited generalizability to different tasks. Our approach involves a scalable method for collecting data for text-based entity comparison, which leverages both structured and unstructured data, and the design of three novel pre-training tasks. Evaluation on a range of downstream tasks including comparative question answering, question generation, and summarization shows that our pre-training framework significantly improves the comparative reasoning abilities of language models, especially under low-resource conditions. This work also releases the first integrated benchmark for comparative reasoning over texts.
翻訳日:2023-05-26 00:06:53 公開日:2023-05-23
# 祈りの後にビールを飲んでる? 大規模言語モデルにおける文化バイアスの測定

Having Beer after Prayer? Measuring Cultural Bias in Large Language Models ( http://arxiv.org/abs/2305.14456v1 )

ライセンス: Link先を確認
Tarek Naous, Michael J. Ryan, Wei Xu(参考訳) 言語モデルは文化的に偏っているか? 言語モデルは、彼らが奉仕するコミュニティの文化的側面に準拠することが重要である。 しかし,本稿では,アラビア語でテキストを扱い,生成する際には,言語モデルが西洋文化に対して大きな偏りを負い,しばしば好ましく,関連するアラブ語コンテンツとは対照的に西洋に適合したコンテンツを生成することが示されている。 我々は、オンラインソーシャルメディアから収集した自然発生コンテキストを用いて、このバイアスを採点基準で定量化する。 実験の結果、アラビア語の単言語モデルと多言語モデルの両方が、人名、食べ物、衣服、場所、文学、飲料、宗教、スポーツの8つの異なる文化面において、西洋文化に対する偏見を示すことがわかった。 モデルは、より言語的に英語と整合したアラビア語の文で促されるとき、より偏見を示す傾向がある。 これらの知見は、現在の言語モデルの文化的関連性に関する懸念を引き起こす。 分析の結果,文化を表わすトークンや,そのモデルに文化的に関連のあるデモを提供することが,デバイアスの緩和に有効であることが示唆された。

Are language models culturally biased? It is important that language models conform to the cultural aspects of the communities they serve. However, we show in this paper that language models suffer from a significant bias towards Western culture when handling and generating text in Arabic, often preferring, and producing Western-fitting content as opposed to the relevant Arab content. We quantify this bias through a likelihood scoring-based metric using naturally occurring contexts that we collect from online social media. Our experiments reveal that both Arabic monolingual and multilingual models exhibit bias towards Western culture in eight different cultural aspects: person names, food, clothing, location, literature, beverage, religion, and sports. Models also tend to exhibit more bias when prompted with Arabic sentences that are more linguistically aligned with English. These findings raise concerns about the cultural relevance of current language models. Our analyses show that providing culture-indicating tokens or culturally-relevant demonstrations to the model can help in debiasing.
翻訳日:2023-05-26 00:06:39 公開日:2023-05-23
# 深部ウィッシュアート法における変分近似後法の改良

An Improved Variational Approximate Posterior for the Deep Wishart Process ( http://arxiv.org/abs/2305.14454v1 )

ライセンス: Link先を確認
Sebastian Ober, Ben Anson, Edward Milsom and Laurence Aitchison(参考訳) ディープカーネルプロセス(deep kernel process)は、ニューラルネットワークの柔軟性を持つが、完全にグラム行列で動作する、最近導入されたディープベイズモデルのクラスである。 正の半定値行列上の分布からグラム行列を交互にサンプリングし、決定論的変換を適用する。 分布が wishart であると選択されると、モデルは deep wishart process (dwp) と呼ばれる。 このモデルは、事前が深いガウス過程(英語版)(dgp)に前もって同値であるが、同時に回転対称性に不変であり、より単純な後方分布に繋がる。 DWPの実際的な推論は、最近の研究("A variational approximate previous for the Deep Wishart process" Ober and Aitchison 2021a)において可能であり、著者らは変分近似後としてウィッシュアート分布のバートレット分解を一般化した。 しかし、この論文の予測性能は予想するよりも印象的ではなく、DWPは比較に使用されるいくつかのUCIデータセットでDGPを上回りました。 本稿では,Bartlett分解における行と列の線形結合を可能とした分布の一般化により,予測性能が向上し,計算コストが増大することを示す。

Deep kernel processes are a recently introduced class of deep Bayesian models that have the flexibility of neural networks, but work entirely with Gram matrices. They operate by alternately sampling a Gram matrix from a distribution over positive semi-definite matrices, and applying a deterministic transformation. When the distribution is chosen to be Wishart, the model is called a deep Wishart process (DWP). This particular model is of interest because its prior is equivalent to a deep Gaussian process (DGP) prior, but at the same time it is invariant to rotational symmetries, leading to a simpler posterior distribution. Practical inference in the DWP was made possible in recent work ("A variational approximate posterior for the deep Wishart process" Ober and Aitchison 2021a) where the authors used a generalisation of the Bartlett decomposition of the Wishart distribution as the variational approximate posterior. However, predictive performance in that paper was less impressive than one might expect, with the DWP only beating a DGP on a few of the UCI datasets used for comparison. In this paper, we show that further generalising their distribution to allow linear combinations of rows and columns in the Bartlett decomposition results in better predictive performance, while incurring negligible additional computation cost.
翻訳日:2023-05-26 00:06:18 公開日:2023-05-23
# 微細変換器を用いたNLPモデルのロバスト性について

On Robustness of Finetuned Transformer-based NLP Models ( http://arxiv.org/abs/2305.14453v1 )

ライセンス: Link先を確認
Pavan Kalyan Reddy Neerudu, Subba Reddy Oota, Mounika Marreddy, Venkateswara Rao Kagita, Manish Gupta(参考訳) BERT、GPT-2、T5といったトランスフォーマーベースの事前訓練モデルは、多くの自然言語処理(NLP)タスクのために微調整されており、非常に効果的であることが示されている。 しかし、微調整をしながら、事前学習されたチェックポイントに関して、これらのモデル内のレイヤにまたがる変化は未検討である。 さらに、これらのモデルは入力テキストの摂動に対してどれほど堅牢か? モデルが微調整されたNLPタスクによって、ロバスト性は異なるのか? いくつかのNLPタスクのために微調整されたBERTのロバスト性の研究は存在するが、エンコーダのみ、デコーダのみ、エンコーダ-デコーダモデル間のロバスト性を比較する厳密な研究はない。 本稿では,3つの言語モデル(BERT, GPT-2, T5)の言語理解評価(GLUE)ベンチマークにおいて,8つのテキスト摂動による頑健性について検討する。 また、2つのメトリクス(CKAとSTIR)を用いて、事前訓練された言語モデルと微調整された言語モデル間の層間の変化を定量化する。 GPT-2表現はBERTやT5よりも複数の入力摂動に対して堅牢である。 モデルは大きな堅牢性を示すが、名詞や動詞、変化する文字が最も影響を受けやすい。 全体として、この研究は、入力を渡す際に留意すべき、人気のあるTransformerベースのモデルの摂動固有の弱点に関する貴重な洞察を提供する。

Transformer-based pretrained models like BERT, GPT-2 and T5 have been finetuned for a large number of natural language processing (NLP) tasks, and have been shown to be very effective. However, while finetuning, what changes across layers in these models with respect to pretrained checkpoints is under-studied. Further, how robust are these models to perturbations in input text? Does the robustness vary depending on the NLP task for which the models have been finetuned? While there exists some work on studying robustness of BERT finetuned for a few NLP tasks, there is no rigorous study which compares this robustness across encoder only, decoder only and encoder-decoder models. In this paper, we study the robustness of three language models (BERT, GPT-2 and T5) with eight different text perturbations on the General Language Understanding Evaluation (GLUE) benchmark. Also, we use two metrics (CKA and STIR) to quantify changes between pretrained and finetuned language model representations across layers. GPT-2 representations are more robust than BERT and T5 across multiple types of input perturbation. Although models exhibit good robustness broadly, dropping nouns, verbs or changing characters are the most impactful. Overall, this study provides valuable insights into perturbation-specific weaknesses of popular Transformer-based models which should be kept in mind when passing inputs.
翻訳日:2023-05-26 00:05:53 公開日:2023-05-23
# 任意分解能気候データダウンスケーリングのためのフーリエニューラル演算子

Fourier Neural Operators for Arbitrary Resolution Climate Data Downscaling ( http://arxiv.org/abs/2305.14452v1 )

ライセンス: Link先を確認
Qidong Yang, Alex Hernandez-Garcia, Paula Harder, Venkatesh Ramesh, Prasanna Sattegeri, Daniela Szwarcman, Campbell D. Watson, David Rolnick(参考訳) 気候シミュレーションは、気候変動の理解を導き、その影響に対応する上で不可欠である。 しかし、複雑な気候過程を高空間分解能で解くには計算コストがかかる。 気候シミュレーションをスピードアップする1つの方法として、ニューラルネットワークは、高速に走る低解像度シミュレーションから気候変数をダウンスケールするために使われてきたが、高解像度のトレーニングデータは、しばしば達成不可能または不足しており、精度を大幅に制限している。 本研究では,フーリエニューラル演算子に基づくダウンスケーリング手法を提案する。 小さなアップサンプリング係数のデータでトレーニングし、ゼロショットで入力を任意の高解像度にダウンスケールすることができる。 ERA5気候モデルデータとNavier-Stokes方程式解データの両方で評価され、我々のダウンスケーリングモデルは、標準の単一解像度ダウンスケーリングとゼロショットの一般化の両方において、最先端の畳み込みおよび生成的な逆スケールモデルよりも著しく優れている。 さらに,本手法はnavier-stokes方程式における最先端データ駆動偏微分方程式の解法よりも優れていることを示す。 全体として、我々の研究は、物理的プロセスのシミュレーションと低解像度出力の補間の間のギャップを橋渡しし、両方のアプローチを組み合わせることができ、互いに著しく改善できることを示している。

Climate simulations are essential in guiding our understanding of climate change and responding to its effects. However, it is computationally expensive to resolve complex climate processes at high spatial resolution. As one way to speed up climate simulations, neural networks have been used to downscale climate variables from fast-running low-resolution simulations, but high-resolution training data are often unobtainable or scarce, greatly limiting accuracy. In this work, we propose a downscaling method based on the Fourier neural operator. It trains with data of a small upsampling factor and then can zero-shot downscale its input to arbitrary unseen high resolution. Evaluated both on ERA5 climate model data and on the Navier-Stokes equation solution data, our downscaling model significantly outperforms state-of-the-art convolutional and generative adversarial downscaling models, both in standard single-resolution downscaling and in zero-shot generalization to higher upsampling factors. Furthermore, we show that our method also outperforms state-of-the-art data-driven partial differential equation solvers on Navier-Stokes equations. Overall, our work bridges the gap between simulation of a physical process and interpolation of low-resolution output, showing that it is possible to combine both approaches and significantly improve upon each other.
翻訳日:2023-05-26 00:05:30 公開日:2023-05-23
# スパースグリッドを用いたカーネル補間

Kernel Interpolation with Sparse Grids ( http://arxiv.org/abs/2305.14451v1 )

ライセンス: Link先を確認
Mohit Yadav, Daniel Sheldon, Cameron Musco(参考訳) 構造化カーネル補間 (Structured kernel interpolation, SKI) はガウス過程 (GP) の推論を、対応するカーネル行列が高度に構造化され、高速線型代数に導出可能な高密度な点の格子を用いて補間することによって加速する。 残念なことに、SKIは、密度の強いグリッドサイズが次元とともに指数関数的に大きくなるため、入力点の次元が小さくなる。 この問題を軽減するため,SKIフレームワーク内のスパースグリッドの利用を提案する。 これらの格子は正確な補間を可能にするが、多くの点が次元でよりゆっくりと成長する。 スパースグリッドカーネル行列に対する線形時間行列ベクトル乗算アルゴリズムを新たに提案する。 次に,スパースグリッドを単純化に基づく効率的な補間手法と組み合わせる方法について述べる。 これらの変化により,SKIは精度を保ちながら高次元まで拡張可能であることを示す。

Structured kernel interpolation (SKI) accelerates Gaussian process (GP) inference by interpolating the kernel covariance function using a dense grid of inducing points, whose corresponding kernel matrix is highly structured and thus amenable to fast linear algebra. Unfortunately, SKI scales poorly in the dimension of the input points, since the dense grid size grows exponentially with the dimension. To mitigate this issue, we propose the use of sparse grids within the SKI framework. These grids enable accurate interpolation, but with a number of points growing more slowly with dimension. We contribute a novel nearly linear time matrix-vector multiplication algorithm for the sparse grid kernel matrix. Next, we describe how sparse grids can be combined with an efficient interpolation scheme based on simplices. With these changes, we demonstrate that SKI can be scaled to higher dimensions while maintaining accuracy.
翻訳日:2023-05-26 00:05:06 公開日:2023-05-23
# ChatGPTによって情報抽出は解決されるか? 性能・評価基準・ロバスト性・誤りの分析

Is Information Extraction Solved by ChatGPT? An Analysis of Performance, Evaluation Criteria, Robustness and Errors ( http://arxiv.org/abs/2305.14450v1 )

ライセンス: Link先を確認
Ridong Han, Tao Peng, Chaohao Yang, Benyou Wang, Lu Liu, Xiang Wan(参考訳) ChatGPTは大規模言語モデルの分野での研究ブームを刺激している。 本稿では,パフォーマンス,評価基準,ロバスト性,エラータイプといった4つの観点からChatGPTの能力を評価する。 具体的には、ChatGPTの性能を、ゼロショット、少数ショット、チェーンオブ思考シナリオの下で、14のIEサブタスクを持つ17のデータセットで評価し、ChatGPTとSOTAの結果の間に大きなパフォーマンスギャップを見出した。 次に,このギャップを再考し,chatgptの性能をより正確に反映するソフトマッチング戦略を提案する。 そして、14のIEサブタスクにおけるChatGPTの堅牢性を分析し、それを見つける。 1) ChatGPTは、まれに無効応答を出力する。 2)ChatGPTの性能に関係のないコンテキストと長期目標タイプが大きな影響を与える。 3) ChatGPTはREタスクの主観的対象関係をよく理解できない。 最後に、ChatGPTのエラーを分析し、"unannotated spans"が最も重要なエラータイプであることを示す。 これにより、アノテートされたデータの品質に対する懸念が高まり、ChatGPTでアノテートされたデータの可能性を示す。 データとコードはgithubサイトで公開されている。

ChatGPT has stimulated the research boom in the field of large language models. In this paper, we assess the capabilities of ChatGPT from four perspectives including Performance, Evaluation Criteria, Robustness and Error Types. Specifically, we first evaluate ChatGPT's performance on 17 datasets with 14 IE sub-tasks under the zero-shot, few-shot and chain-of-thought scenarios, and find a huge performance gap between ChatGPT and SOTA results. Next, we rethink this gap and propose a soft-matching strategy for evaluation to more accurately reflect ChatGPT's performance. Then, we analyze the robustness of ChatGPT on 14 IE sub-tasks, and find that: 1) ChatGPT rarely outputs invalid responses; 2) Irrelevant context and long-tail target types greatly affect ChatGPT's performance; 3) ChatGPT cannot understand well the subject-object relationships in RE task. Finally, we analyze the errors of ChatGPT, and find that "unannotated spans" is the most dominant error type. This raises concerns about the quality of annotated data, and indicates the possibility of annotating data with ChatGPT. The data and code are released at Github site.
翻訳日:2023-05-26 00:04:49 公開日:2023-05-23
# 先見の職は先見の国と同じか? 多言語文埋め込みとヨーロッパ諸国の事例研究

Is a Prestigious Job the same as a Prestigious Country? A Case Study on Multilingual Sentence Embeddings and European Countries ( http://arxiv.org/abs/2305.14482v1 )

ライセンス: Link先を確認
Jind\v{r}ich Libovick\'y(参考訳) 我々は、多言語文表現がヨーロッパ諸国をどのように捉えているか、そしてそれがヨーロッパ諸言語でどのように異なるかを研究する。 12のヨーロッパの言語に機械翻訳したテンプレート文でモデルを推奨し、埋め込みの最も顕著な次元を分析します。 分析の結果,組込みにおける最も顕著な国の特徴は,gpdの経済力であることが明らかとなった。 職業名声に特化して指示された場合、埋め込みスペースは明らかに高い仕事と低い仕事とを区別する。 職業次元は、4つの研究モデルのうち3つにおいて最も支配的な国次元とは無関係である。 しかし、蒸留された多言語共通文エンコーダは、国籍に基づく差別の潜在的な源泉である職業的名声と起源の国との関係を示した。 我々の発見は言語間およびある程度は、上記の例外を除いて、研究された表現モデル間で一致している。

We study how multilingual sentence representations capture European countries and how this differs across European languages. We prompt the models with templated sentences that we machine-translate into 12 European languages and analyze the most prominent dimensions in the embeddings. Our analysis reveals that the most prominent country feature in the embedding is its economic strength in terms of GPD. When prompted specifically for job prestige, the embedding space clearly distinguishes high and low-prestige jobs. The occupational dimension is uncorrelated with the most dominant country dimensions for three out of four studied models. One model: Distilled Multilingual Universal Sentence Encoder, however, exhibited a connection between occupational prestige and country of origin, which is a potential source of nationality-based discrimination. Our findings are consistent across languages and, to some extent, with the exception mentioned above, across studied representation models.
翻訳日:2023-05-25 23:58:04 公開日:2023-05-23
# FOCUS:単一言語における事前学習型多言語モデルのための効果的な埋め込み初期化

FOCUS: Effective Embedding Initialization for Specializing Pretrained Multilingual Models on a Single Language ( http://arxiv.org/abs/2305.14481v1 )

ライセンス: Link先を確認
Konstantin Dobler and Gerard de Melo(参考訳) ウォームスタートとして高リソース言語で事前トレーニングされたモデル重みを使用すると、低リソース言語で高品質な言語モデルを得るためのデータと計算の必要性が減少する。 新しい言語に対応するには、事前訓練された語彙と埋め込みを適応する必要がある。 このような適応語彙に対する初期化の埋め込みに関するこれまでの研究は、主にモノリンガルソースモデルに焦点を当ててきた。 本稿では,xlm-rを適応させる際の従来の作業に勝る新しい埋め込み初期化手法であるsparsemaxを用いて,多言語ソースモデルの設定と,高速重複トークンの組み合わせを提案する。 FOCUSは、新たに追加されたトークンを、事前訓練された新しい語彙の重複におけるトークンの組み合わせとして表現している。 重複トークンは補助トークン埋め込み空間における意味的類似性に基づいて選択される。 FOCUSの実装はGitHubで公開されています。

Using model weights pretrained on a high-resource language as a warm start can reduce the need for data and compute to obtain high-quality language models in low-resource languages. To accommodate the new language, the pretrained vocabulary and embeddings need to be adapted. Previous work on embedding initialization for such adapted vocabularies has mostly focused on monolingual source models. In this paper, we investigate the multilingual source model setting and propose FOCUS - Fast Overlapping Token Combinations Using Sparsemax, a novel embedding initialization method that outperforms previous work when adapting XLM-R. FOCUS represents newly added tokens as combinations of tokens in the overlap of the pretrained and new vocabularies. The overlapping tokens are selected based on semantic similarity in an auxiliary token embedding space. Our implementation of FOCUS is publicly available on GitHub.
翻訳日:2023-05-25 23:57:49 公開日:2023-05-23
# BAND: バイオメディカルアラートニュースデータセット

BAND: Biomedical Alert News Dataset ( http://arxiv.org/abs/2305.14480v1 )

ライセンス: Link先を確認
Zihao Fu, Meiru Zhang, Zaiqiao Meng, Yannan Shen, Anya Okhmatovskaia, David Buckeridge, Nigel Collier(参考訳) 感染症の流行は、人間の健康と健康に重大な脅威を与え続けている。 病気の監視と病気の拡散の理解を改善するため、日々のニュースやソーシャルメディアを監視するためにいくつかの監視システムが開発されている。 しかし、既存のシステムでは、適切なアラートやニュースに関する詳細な疫学的分析が欠如している。 このギャップに対処するために、既存の報告されたニュース記事、オープンメール、アラート、30の疫学関連の質問から1,508のサンプルを含むバイオメディカルアラートニュースデータセット(band)を紹介します。 これらの質問はモデルの専門的な推論能力を必要とし、病気の発生に関する貴重な洞察を提供する。 BANDデータセットは、NLPの世界に新たな課題をもたらし、コンテンツの偽装能力と重要な情報を推論する能力を必要としている。 我々は、これらのタスクを疫学領域でどのように扱うことができるかを示すために、名前付きエンティティ認識(NER)、質問回答(QA)、イベント抽出(EE)などのベンチマークタスクを提供している。 われわれの知る限りでは、BANDコーパスはバイオメディカル・アウトブレイク警報の報せで、精巧にデザインされた質問があり、疫学者やNLP研究者にとっても貴重な情報源だ。

Infectious disease outbreaks continue to pose a significant threat to human health and well-being. To improve disease surveillance and understanding of disease spread, several surveillance systems have been developed to monitor daily news alerts and social media. However, existing systems lack thorough epidemiological analysis in relation to corresponding alerts or news, largely due to the scarcity of well-annotated reports data. To address this gap, we introduce the Biomedical Alert News Dataset (BAND), which includes 1,508 samples from existing reported news articles, open emails, and alerts, as well as 30 epidemiology-related questions. These questions necessitate the model's expert reasoning abilities, thereby offering valuable insights into the outbreak of the disease. The BAND dataset brings new challenges to the NLP world, requiring better disguise capability of the content and the ability to infer important information. We provide several benchmark tasks, including Named Entity Recognition (NER), Question Answering (QA), and Event Extraction (EE), to show how existing models are capable of handling these tasks in the epidemiology domain. To the best of our knowledge, the BAND corpus is the largest corpus of well-annotated biomedical outbreak alert news with elaborately designed questions, making it a valuable resource for epidemiologists and NLP researchers alike.
翻訳日:2023-05-25 23:57:36 公開日:2023-05-23
# 多レベル最適化のブロック共役的アプローチと物理インフォーメーションニューラルネットワークへの応用

A Block-Coordinate Approach of Multi-level Optimization with an Application to Physics-Informed Neural Networks ( http://arxiv.org/abs/2305.14477v1 )

ライセンス: Link先を確認
Serge Gratton, Valentin Mercier, Elisa Riccietti, Philippe L. Toint(参考訳) 大規模問題の解法としてマルチレベル法が広く用いられているのは、その計算能力の長所と関連するサブプロブレム間の相補性の利用である。 ブロック座標の観点から多値法を再解釈した後,非線形最適化問題の解のための多値アルゴリズムを提案し,その評価複雑性を解析する。 物理インフォームドニューラルネットワーク(PINN)を用いた偏微分方程式の解に適用し、そのアプローチがより良い解と計算の大幅な削減をもたらすいくつかのテスト問題を示す。

Multi-level methods are widely used for the solution of large-scale problems, because of their computational advantages and exploitation of the complementarity between the involved sub-problems. After a re-interpretation of multi-level methods from a block-coordinate point of view, we propose a multi-level algorithm for the solution of nonlinear optimization problems and analyze its evaluation complexity. We apply it to the solution of partial differential equations using physics-informed neural networks (PINNs) and show on a few test problems that the approach results in better solutions and significant computational savings
翻訳日:2023-05-25 23:57:13 公開日:2023-05-23
# cgce:中国の一般および金融分野向けの生成的チャット評価ベンチマーク

CGCE: A Chinese Generative Chat Evaluation Benchmark for General and Financial Domains ( http://arxiv.org/abs/2305.14471v1 )

ライセンス: Link先を確認
Xuanyu Zhang and Bingbing Li and Qing Yang(参考訳) ChatGPTやGPT-4のような生成型チャットモデルは、大幅なパフォーマンス向上を達成するために命令と人間のフィードバックを組み込むことで自然言語生成(NLG)に革命をもたらした。 しかし、チャットモデル、特に中国語とドメイン固有のモデルに対する標準評価ベンチマークの欠如は、その評価と進歩を妨げる。 このギャップに対処するため,我々は一般および金融分野に焦点をあてた,中国生成チャット評価(cgce)ベンチマークを紹介する。 CGCEベンチマークは、一般的なドメインの200の質問と金融ドメインの150の専門的な質問を含む、さまざまなタスクを含んでいる。 手動による評価は、正確性、コヒーレンス、表現の明確性、完全性などの因子を評価する。 cgceベンチマークは、中国の生成的チャットモデルを評価し比較するための標準化されたフレームワークを研究者に提供する。

Generative chat models, such as ChatGPT and GPT-4, have revolutionized natural language generation (NLG) by incorporating instructions and human feedback to achieve significant performance improvements. However, the lack of standardized evaluation benchmarks for chat models, particularly for Chinese and domain-specific models, hinders their assessment and progress. To address this gap, we introduce the Chinese Generative Chat Evaluation (CGCE) benchmark, focusing on general and financial domains. The CGCE benchmark encompasses diverse tasks, including 200 questions in the general domain and 150 specific professional questions in the financial domain. Manual scoring evaluates factors such as accuracy, coherence, expression clarity, and completeness. The CGCE benchmark provides researchers with a standardized framework to assess and compare Chinese generative chat models, fostering advancements in NLG research.
翻訳日:2023-05-25 23:57:03 公開日:2023-05-23
# visuo-tactileフィードバックによる統合物体変形と接触パッチ推定

Integrated Object Deformation and Contact Patch Estimation from Visuo-Tactile Feedback ( http://arxiv.org/abs/2305.14470v1 )

ライセンス: Link先を確認
Mark Van der Merwe, Youngsun Wi, Dmitry Berenson, Nima Fazeli(参考訳) 物体の変形と接触による力伝達の相互作用に関する推論は、適合物体の操作の中心となる。 本稿では,暗黙の表現を用いた視覚触覚フィードバックからオブジェクトの変形と接触パッチを共同でモデル化するニューラルデフォーミング接触場(NDCF)を提案する。 オブジェクトの幾何学を表現し、環境との接触は暗黙的に1つのモデルで様々な複雑さの接触パッチを予測できる。 さらに、幾何学と接触を同時に学習することで、物体の表面上の接触を保証するなど、物理的な先行を強制することができる。 我々は,NDCFを学習するためのニューラルネットワークアーキテクチャを提案し,シミュレーションデータを用いて学習する。 次に、学習したNDCFが微調整を必要とせず、直接現実世界に転送されることを実証する。 提案手法は,ジオメトリを表すベースラインとポイントクラウドとの接触パッチに対してベンチマークを行う。 シミュレーションデータや実世界への転送において,NDCFの方が優れていることがわかった。

Reasoning over the interplay between object deformation and force transmission through contact is central to the manipulation of compliant objects. In this paper, we propose Neural Deforming Contact Field (NDCF), a representation that jointly models object deformations and contact patches from visuo-tactile feedback using implicit representations. Representing the object geometry and contact with the environment implicitly allows a single model to predict contact patches of varying complexity. Additionally, learning geometry and contact simultaneously allows us to enforce physical priors, such as ensuring contacts lie on the surface of the object. We propose a neural network architecture to learn a NDCF, and train it using simulated data. We then demonstrate that the learned NDCF transfers directly to the real-world without the need for fine-tuning. We benchmark our proposed approach against a baseline representing geometry and contact patches with point clouds. We find that NDCF performs better on simulated data and in transfer to the real-world.
翻訳日:2023-05-25 23:56:38 公開日:2023-05-23
# 女の子のように走れ! 言語と視覚におけるスポーツ関連ジェンダーバイアス

Run Like a Girl! Sports-Related Gender Bias in Language and Vision ( http://arxiv.org/abs/2305.14468v1 )

ライセンス: Link先を確認
Sophia Harrison, Eleonora Gualdoni, Gemma Boleda(参考訳) 言語や視覚データセットやモデルにおけるジェンダーバイアスは、有害なステレオタイプや差別を永続する可能性がある。 ジェンダーバイアスを2つの言語とビジョンのデータセットで分析する。 先行研究と一致して、両方のデータセットが女性を過小評価していることが分かりました。 話者は、男性である場合や、女性である場合よりも、スポーツに参加している少年である場合の方が、性別ごとにスポーツに関連する名前の46%に対して、スポーツに関連する名前の35%よりも多く、その名前(例えば「テニス選手」や「サーファー」など)を生成する。 これらの命名データに基づいて訓練された計算モデルはバイアスを再現する。 我々は、データとモデルの両方が女性に対する表現上の害をもたらすと論じている。

Gender bias in Language and Vision datasets and models has the potential to perpetuate harmful stereotypes and discrimination. We analyze gender bias in two Language and Vision datasets. Consistent with prior work, we find that both datasets underrepresent women, which promotes their invisibilization. Moreover, we hypothesize and find that a bias affects human naming choices for people playing sports: speakers produce names indicating the sport (e.g. 'tennis player' or 'surfer') more often when it is a man or a boy participating in the sport than when it is a woman or a girl, with an average of 46% vs. 35% of sports-related names for each gender. A computational model trained on these naming data reproduces the bias. We argue that both the data and the model result in representational harm against women.
翻訳日:2023-05-25 23:56:09 公開日:2023-05-23
# FLAIR #2:マルチソース光画像からのセマンティックセグメンテーションのためのテクスチャ情報と時間情報

FLAIR #2: textural and temporal information for semantic segmentation from multi-source optical imagery ( http://arxiv.org/abs/2305.14467v1 )

ライセンス: Link先を確認
Anatol Garioud, Apolline De Wit, Marc Poup\'ee, Marion Valette, S\'ebastien Giordano, Boris Wattrelos(参考訳) flair #2データセットには、2つの非常に異なる種類のデータが含まれており、ランドカバーのマッピングを目的としたセマンティックセグメンテーションタスクに利用されている。 データ融合ワークフローは、超高空間分解能(VHR)単時間時空間画像の微細空間情報とテクスチャ情報の利用と、コペルニクス・センチネル2衛星画像の高空間分解能(HR)時系列の時間的およびスペクトル的富化を提案する。 フランス国立地理学・森林情報研究所(IGN)は、高品質な地球観測(EO)データの増加に対応して、これらのデータを異質な特徴と統合するための革新的な戦略を積極的に検討している。 そのためIGNはこのデータセットを、イノベーションを促進し、我々の領域に関する知識を改善するために提供しています。

The FLAIR #2 dataset hereby presented includes two very distinct types of data, which are exploited for a semantic segmentation task aimed at mapping land cover. The data fusion workflow proposes the exploitation of the fine spatial and textural information of very high spatial resolution (VHR) mono-temporal aerial imagery and the temporal and spectral richness of high spatial resolution (HR) time series of Copernicus Sentinel-2 satellite images. The French National Institute of Geographical and Forest Information (IGN), in response to the growing availability of high-quality Earth Observation (EO) data, is actively exploring innovative strategies to integrate these data with heterogeneous characteristics. IGN is therefore offering this dataset to promote innovation and improve our knowledge of our territories.
翻訳日:2023-05-25 23:55:32 公開日:2023-05-23
# ディラックガンマ行列表現を用いた量子誤差緩和のための非マルコフコスト関数

Non-Markovian cost function for quantum error mitigation with Dirac Gamma matrices representation ( http://arxiv.org/abs/2305.14464v1 )

ライセンス: Link先を確認
Doyeol Ahn (1,2) ((1) Department of Electrical and Computer Engineering, University of Seoul, Seoul, Republic of Korea (2) First Quantum, Inc, Seoul, Republic of Korea)(参考訳) 本研究では、量子誤差緩和(qem)のための非マルコフコスト関数と、相対論的量子力学の構造の中心であるディラックガンマ行列を用いた2量子ビット作用素の表現について検討する。 量子コンピューティング研究の主な焦点は、特にノイズの多い中間スケール量子(nisq)デバイスにおいて、実際の応用のためにエラーとデコヒーレンスを減らすことである。 既存の研究の多くはマルコフノイズ源に集中しているが、ほとんどの固体量子コンピューティングデバイスで必然的に存在することを考えると、マルコフノイズ源の研究は重要である。 我々は、単純な高調波発振器に代表される環境をノイズ源として考慮し、NISQデバイスに対する量子状態進化の非マルコフモデルと対応するQEMコスト関数を導入する。 量子場理論や超対称性のような物理学の領域に積分されたディラックガンマ行列は、2量子ビットゲート作用素と共通の代数構造を共有する。 ガンマ行列を用いて後者を表現することにより、ガンマ行列の異なる性質により、これらの演算子をより効果的に解析し、操作することができる。 入力状態の異なる2ビット動作におけるアイデンティティとSWAPゲート操作に対する出力量子状態の変動を評価する。 これらの結果とイオントラップと超伝導量子コンピューティングシステムの実験データを比較することにより、QEMコスト関数の重要なパラメータを推定する。 この結果から,量子システムと環境との結合強度が増大するにつれて,QEMコスト関数も増大することがわかった。 本研究は、量子状態の進化を理解するための非マルコフモデルの重要性と、NISQデバイスによる実験結果を評価する際のQEMコスト関数の実践的意味を明らかにする。

In this study, we explore the non-Markovian cost function for quantum error mitigation (QEM) and the representation of two-qubit operators using Dirac Gamma matrices, central to the structure of relativistic quantum mechanics. The primary focus of quantum computing research, particularly with noisy intermediate-scale quantum (NISQ) devices, is on reducing errors and decoherence for practical application. While much of the existing research concentrates on Markovian noise sources, the study of non-Markovian sources is crucial given their inevitable presence in most solid-state quantum computing devices. We introduce a non-Markovian model of quantum state evolution and a corresponding QEM cost function for NISQ devices, considering an environment typified by simple harmonic oscillators as a noise source. The Dirac Gamma matrices, integral to areas of physics like quantum field theory and supersymmetry, share a common algebraic structure with two-qubit gate operators. By representing the latter using Gamma matrices, we are able to more effectively analyze and manipulate these operators due to the distinct properties of Gamma matrices. We evaluate the fluctuations of the output quantum state for identity and SWAP gate operations in two-qubit operations across various input states. By comparing these results with experimental data from ion-trap and superconducting quantum computing systems, we estimate the key parameters of the QEM cost functions. Our results reveal that as the coupling strength between the quantum system and its environment increases, so does the QEM cost function. This study underscores the importance of non-Markovian models for understanding quantum state evolution and the practical implications of the QEM cost function when assessing experimental results from NISQ devices.
翻訳日:2023-05-25 23:55:05 公開日:2023-05-23
# マルチドメイン多言語可読性評価に向けて

Towards Massively Multi-domain Multilingual Readability Assessment ( http://arxiv.org/abs/2305.14463v1 )

ライセンス: Link先を確認
Tarek Naous, Michael J. Ryan, Mohit Chandra, Wei Xu(参考訳) 自動可読性評価のための多言語データセットReadMe++を提案する。 可読性評価に関する以前の研究は、主に英語と1つか2つのテキストドメインに限定されていた。 さらに、多くの先行データセットで使用される文の可読性レベルを文レベル以外の文書レベルと仮定し、過去の評価の質に疑問を呈する。 アラビア語、英語、ヒンディー語の6,330文の注釈付きデータセットを64の異なるテキスト領域から収集することで、これらのギャップに対処する。 以前のデータセットとは異なり、ReadMe++はよりドメインと言語の多様性を提供し、Common European Framework of Reference for Languages (CEFR)とアノテーションの主観性を低下させるRan-and-Rateアノテーションフレームワークを使用して、文レベルで手動で注釈付けされる。 実験により, ReadMe++ を用いて微調整したモデルにより, 強い言語間移動能力と未知の領域への一般化が実現された。 ReadMe++は研究コミュニティに公開される予定だ。

We present ReadMe++, a massively multi-domain multilingual dataset for automatic readability assessment. Prior work on readability assessment has been mostly restricted to the English language and one or two text domains. Additionally, the readability levels of sentences used in many previous datasets are assumed on the document-level other than sentence-level, which raises doubt about the quality of previous evaluations. We address those gaps in the literature by providing an annotated dataset of 6,330 sentences in Arabic, English, and Hindi collected from 64 different domains of text. Unlike previous datasets, ReadMe++ offers more domain and language diversity and is manually annotated at a sentence level using the Common European Framework of Reference for Languages (CEFR) and through a Rank-and-Rate annotation framework that reduces subjectivity in annotation. Our experiments demonstrate that models fine-tuned using ReadMe++ achieve strong cross-lingual transfer capabilities and generalization to unseen domains. ReadMe++ will be made publicly available to the research community.
翻訳日:2023-05-25 23:54:33 公開日:2023-05-23
# 光カーシャッターによるエネルギー時間絡み合いの超高速計測

Ultrafast Measurement of Energy-Time Entanglement with an Optical Kerr Shutter ( http://arxiv.org/abs/2305.14498v1 )

ライセンス: Link先を確認
Andrew R. Cameron, Kate L. Fenwick, Sandra W. L. Cheng, Sacha Schwarz, Benjamin MacLellan, Philip J. Bustard, Duncan England, Benjamin Sussman, Kevin J. Resch(参考訳) 量子光学の最近の実験的進歩は、単一光子検出器の解像度限界を超えた超高速な時間スケールでの単一光子の測定を可能にした。 エネルギー時間自由度は、2つの光子の周波数特性と時間的性質の絡み合いを十分に探求し、活用できる量子技術にとって有望な道筋として浮上してきた。 そこで本研究では,光ケラシャッターを単一モードファイバに実装し,エネルギー時間エンタングル光子対のサブピコ秒相関をマッピングする。 これらの測定は、光子対状態の合同スペクトル測定に加えて、時間帯域不等式に違反して絡み合いを検証するために用いられる。

Recent experimental progress in quantum optics has enabled measurement of single photons on ultrafast timescales, beyond the resolution limit of single photon detectors. The energy-time degree of freedom has emerged as a promising avenue for quantum technologies, as entanglement between the frequency and temporal properties of two photons can be fully explored and utilized. Here, we implement optical Kerr shutters in single mode fibers to map out the sub-picosecond correlations of energy-time entangled photon pairs. These measurements, in addition to joint spectral measurements of the photon pair state, are used to verify entanglement by means of the violation of a time-bandwidth inequality.
翻訳日:2023-05-25 23:48:48 公開日:2023-05-23
# 自己汚染:問題修正による大規模言語モデルの推論

Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement ( http://arxiv.org/abs/2305.14497v1 )

ライセンス: Link先を確認
Zhiheng Xi, Senjie Jin, Yuhao Zhou, Rui Zheng, Songyang Gao, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) CoT(Chain-of-Thought)のようなプロンプティング手法は、大規模言語モデルの推論能力の向上に新たな光を当て、研究者は理論と答えの生成過程を幅広く研究してきた。 しかし、彼らは推論性能に大きな影響を及ぼす可能性のある推論問題の質の低下によって生じる潜在的な課題を見落としている。 本研究では,与えられた問題を段階的に洗練させ,より理解しやすく解くことを促すことによって,モデルの問題解決プロセスを容易にする新しい手法であるセルフポリッシュ(sp)を提案する。 具体的には、無関係な情報を排除し、論理構造を再構成し、局所条件を並列に新しいものに整理する。 spは他のすべてのプロンプトメソッドと直交しており、さらなる改善のために最先端の技術を統合するのが便利である。 提案手法の有効性を明らかにするため,5つのベンチマークで徹底的な実験を行った。 例えば、Text-davinci-003では、GSM8Kで8.0\%、MultiArithで17.8\%、GSM8Kで6.0\%、MathQAで6.0\%、それぞれCoTで6.0\%となっている。 また,本手法はロバスト性評価における印象的な性能を示す。

Prompting methods such as Chain-of-Thought (CoT) have shed new light on enhancing the reasoning capabilities of large language models, and researchers have extensively explored the generation process of rationales and answers. However, they have overlooked the potential challenges posed by the poor quality of reasoning problems, which may influence the reasoning performance significantly. In this work, we propose Self-Polish (SP), a novel method that facilitates the model's problem-solving process by prompting them to progressively refine the given problems to be more comprehensible and solvable. Specifically, the method teaches models to eliminate irrelevant information, rearrange the logic structure and organize local conditions into new ones parallelly. SP is orthogonal to all other prompting methods, making it convenient to integrate with state-of-the-art techniques for further improvement. We conduct thorough experiments on five benchmarks to illustrate the effectiveness of the proposed method. For example, with Text-davinci-003, our method boosts the performance of standard few-shot prompting by $8.0\%$ on GSM8K and $17.8\%$ on MultiArith; it also improves the performance of CoT by $6.0\%$ on GSM8K and $6.0\%$ on MathQA, respectively. Furthermore, our method also showcases impressive performance on robustness evaluation.
翻訳日:2023-05-25 23:48:35 公開日:2023-05-23
# 適度偏差理論による最適学習

Optimal Learning via Moderate Deviations Theory ( http://arxiv.org/abs/2305.14496v1 )

ライセンス: Link先を確認
Arnab Ganguly, Tobias Sutter(参考訳) 本稿では,確率的プログラミング問題や様々なSDEモデルとして記述された期待損失の一般パラメータ推定を含む,幅広いモデルにおける信頼区間を用いた関数値の統計的最適学習手法を提案する。 より正確には、適度な偏差原理に基づくアプローチを用いて、高精度な信頼区間を体系的に構築する。 提案した信頼区間は,指数的精度,最小性,整合性,誤評価確率,結果整合性(UMA)特性の基準を満たすという意味で統計的に最適であることが示されている。 この手法によって示唆される信頼区間は、データ生成過程によって引き起こされる中程度の偏差率関数によって不確実性が表現されるロバスト最適化問題の解として表現される。 多くのモデルにおいて、これらの最適化問題は無限次元であっても有限凸プログラムとして扱いやすい再構成を許すことを実証する。

This paper proposes a statistically optimal approach for learning a function value using a confidence interval in a wide range of models, including general non-parametric estimation of an expected loss described as a stochastic programming problem or various SDE models. More precisely, we develop a systematic construction of highly accurate confidence intervals by using a moderate deviation principle-based approach. It is shown that the proposed confidence intervals are statistically optimal in the sense that they satisfy criteria regarding exponential accuracy, minimality, consistency, mischaracterization probability, and eventual uniformly most accurate (UMA) property. The confidence intervals suggested by this approach are expressed as solutions to robust optimization problems, where the uncertainty is expressed via the underlying moderate deviation rate function induced by the data-generating process. We demonstrate that for many models these optimization problems admit tractable reformulations as finite convex programs even when they are infinite-dimensional.
翻訳日:2023-05-25 23:48:09 公開日:2023-05-23
# ゼロショットnluタスクにおけるプロンプトポジションの重要性

Prompt position really matters in few-shot and zero-shot NLU tasks ( http://arxiv.org/abs/2305.14493v1 )

ライセンス: Link先を確認
Junyu Mao and Stuart E. Middleton and Mahesan Niranjan(参考訳) プロンプトベースのモデルはゼロショット学習と少数ショット学習の分野で著しく進歩し、研究者から多くの注目を集めている。 効果的なプロンプトテンプレートの開発が重要な役割を果たす。 しかし、先行研究は主に、予備的なプロンプト位置を固定した迅速な語彙選択や埋め込み初期化に焦点を当てている。 本実験では,自然言語理解タスクにおいて,即時位置選択の現在までの最も包括的な分析を行う。 本研究は,モデル性能に及ぼすプロンプト位置の影響を定量化する。 先行研究で用いられるプロンプト位置は、ゼロショットと少数ショットの両方に最適化されることが多い。 これらの知見は、迅速な位置最適化を、既存のプロンプトエンジニアリングに焦点を当てた興味深い研究方向として示唆している。

Prompt-based models have made remarkable advancements in the fields of zero-shot and few-shot learning, attracting a lot of attention from researchers. Developing an effective prompt template plays a critical role. However, prior studies have mainly focused on prompt vocabulary selection or embedding initialization with the reserved prompt position fixed. In this empirical study, we conduct the most comprehensive analysis to date of prompt position option for natural language understanding tasks. Our findings quantify the substantial impact prompt position has on model performance. We observe that the prompt position used in prior studies is often sub-optimal for both zero-shot and few-shot settings. These findings suggest prompt position optimisation as an interesting research direction alongside the existing focus on prompt engineering.
翻訳日:2023-05-25 23:47:55 公開日:2023-05-23
# 状況アライメントと説明可能なテキストによる社会文化的規範の類似性と差異

Sociocultural Norm Similarities and Differences via Situational Alignment and Explainable Textual Entailment ( http://arxiv.org/abs/2305.14492v1 )

ライセンス: Link先を確認
Sky CH-Wang, Arkadiy Saakyan, Oliver Li, Zhou Yu, Smaranda Muresan(参考訳) 文化をまたいで推論できるシステムを設計するには、彼らが運用するコンテキストの規範に根ざす必要がある。 しかし、社会規範の計算モデル開発に関する現在の研究は、主にアメリカ社会に焦点を当てている。 本稿では,中国文化とアメリカ文化にまたがる記述的社会規範の発見と比較のための新しいアプローチを提案する。 我々は,中国のQ&AプラットフォームであるZhihuと既存のSocialChemistryデータセットの議論を,文化的軸を対比するプロキシとして活用し,社会的状況を文化的に整合させ,文脈内学習を用いてテキストから社会的規範を抽出することで,私たちのアプローチを実証する。 人間とaiのコラボレーティブなフレームワークにチェーン・オブ・マインド(chain-of-thought)プロンプトを組み込むことで、中国とアメリカの文化にまたがる社会規範3,069の高品質なデータセットを構築します。 文化全体にわたる社会的規範を推論するモデルの能力をテストするために,3Bパラメータ未満の既存のモデルでは,自動評価と人的評価の両方において,大きな改善の余地があることが示される。 我々のデータセットに基づく異文化間の規範差のさらなる分析は、社会指向の枠組みと実証的な一致を示し、これらの文化をまたがる規範における状況的および記述的ニュアンスを明らかにした。

Designing systems that can reason across cultures requires that they are grounded in the norms of the contexts in which they operate. However, current research on developing computational models of social norms has primarily focused on American society. Here, we propose a novel approach to discover and compare descriptive social norms across Chinese and American cultures. We demonstrate our approach by leveraging discussions on a Chinese Q&A platform-Zhihu-and the existing SocialChemistry dataset as proxies for contrasting cultural axes, align social situations cross-culturally, and extract social norms from texts using in-context learning. Embedding Chain-of-Thought prompting in a human-AI collaborative framework, we build a high-quality dataset of 3,069 social norms aligned with social situations across Chinese and American cultures alongside corresponding free-text explanations. To test the ability of models to reason about social norms across cultures, we introduce the task of explainable social norm entailment, showing that existing models under 3B parameters have significant room for improvement in both automatic and human evaluation. Further analysis of cross-cultural norm differences based on our dataset shows empirical alignment with the social orientations framework, revealing several situational and descriptive nuances in norms across these cultures.
翻訳日:2023-05-25 23:47:44 公開日:2023-05-23
# 大規模言語モデルはロバストなゼロショットコリファレンスリゾルバか?

Are Large Language Models Robust Zero-shot Coreference Resolvers? ( http://arxiv.org/abs/2305.14489v1 )

ライセンス: Link先を確認
Nghia T. Le, Alan Ritter(参考訳) コリファレンス解決のためのドメイン適応の最近の進歩は、ターゲットドメインからの注釈付きデータを使った継続的なトレーニングに依存している。 同時に、事前訓練された大規模言語モデル (LM) は、代名詞分解を含む幅広いNLPタスクにおいて、ゼロおよび少数ショットの学習能力を示した。 これはコア参照能力の証拠を示すものだが、以前の研究はWinograd Schema Challengeのような単純な文レベルのデータセットを使用して、この能力を主に研究してきた。 本研究では,より難しい言語的複合的コリファレンスベンチマーク(conll-2012など)上での命令調整型言語モデルの評価により,コリファレンス解決のためのゼロショット学習の実現可能性を評価する。 ゼロショットプロンプトが現在の教師なしコリファレンスシステムを上回ることを実証する。 さらなる研究により、幅広いドメイン、言語、時間にわたって命令調整されたlmmのロバストなゼロショット一般化能力と、高品質な参照検出システムへの依存が明らかになった。

Recent progress in domain adaptation for coreference resolution relies on continued training using annotated data from target domains. At the same time, pre-trained large language models (LMs) have exhibited strong zero- and few-shot learning abilities across a wide range of NLP tasks including pronoun resolution. While this demonstrates evidence of coreference ability, previous work has mostly studied this ability using simple sentence-level datasets such as the Winograd Schema Challenge. In this work, we assess the feasibility of zero-shot learning for coreference resolution by evaluating instruction-tuned language models on more difficult, linguistically-complex coreference benchmarks (e.g., CoNLL-2012). We demonstrate that zero-shot prompting outperforms current unsupervised coreference systems. Further investigations reveal the robust zero-shot generalization ability of instruction-tuned LMs across a wide range of domains, languages, and time periods, as well as a strong reliance on high-quality mention detection systems.
翻訳日:2023-05-25 23:47:17 公開日:2023-05-23
# 時間多重化による量子鍵分布ネットワークにおける単一光子検出器数削減

Reducing the number of single-photon detectors in quantum key distribution networks by time multiplexing ( http://arxiv.org/abs/2305.14487v1 )

ライセンス: Link先を確認
Jakob Kaltwasser, Joschka Seip, Erik Fitzke, Maximilian Tippmann, and Thomas Walther(参考訳) 本研究では,マルチパーティ量子鍵分布(QKD)ネットワークに必要な単光子検出器(SPD)の数を,検出器時間多重化(DTM)を用いて2倍に削減する方法を示す。 我々は、絡み合いに基づく時間ビンプロトコルのためのDTMスキームを実装し、我々のQKDネットワークにおけるDTMなしでのQKD結果と比較する。 小型の効率損失が許容される場合、DTMは低コストでスケーラブルなマルチユーザQKDネットワークの実装を可能にする。

We demonstrate a method to reduce the number of single-photon detectors (SPDs) required in multi-party quantum key distribution (QKD) networks by a factor of two by using detector time multiplexing (DTM). We implement the DTM scheme for an entanglement-based time-bin protocol and compare QKD results with and without DTM in our QKD network with four users. When small efficiency losses are acceptable, DTM enables cost-effective, scalable implementations of multi-user QKD networks.
翻訳日:2023-05-25 23:47:03 公開日:2023-05-23
# ポイント2SSM:ポイントクラウドから解剖学を学習する

Point2SSM: Learning Morphological Variations of Anatomies from Point Cloud ( http://arxiv.org/abs/2305.14486v1 )

ライセンス: Link先を確認
Jadie Adams and Shireen Elhabian(参考訳) 本研究では,非教師付き学習手法であるpoint2ssmについて紹介する。ポイントクラウドから直接解剖学の対応ベース統計形状モデル(ssm)を構築できる。 SSMは、骨や臓器の集団レベルの形態変化を分析するために臨床研究において重要である。 しかし、ssmを作成する伝統的な方法には、ノイズのない表面メッシュやバイナリボリュームの必要性、仮定や事前定義されたテンプレートへの依存、新しいデータが与えられた場合の推論時間の長くなるコホート全体の同時最適化など、広く採用されるのを妨げる制限がある。 Point2SSMは、生のポイントクラウドから直接SSMを推論するデータ駆動ソリューションを提供することで、これらの障壁を克服する。 3Dポイントクラウドでの深層学習は、教師なし表現学習、ポイント・ツー・ポイントマッチング、形状対応において近年成功している。 本研究では,最先端のクラウド深層ネットワークをssmのタスクでベンチマークし,ノイズやスパース,不完全な入力といった解剖学的ssmの課題に対して頑健ではないことを示し,トレーニングデータを大幅に制限した。 Point2SSMは、学習したポイント機能からの対応マッピングを提供するアテンションベースのモジュールを通じて、これらの課題に対処する。 提案手法は, 正確な表面サンプリングと対応の両面において, 既存のネットワークを著しく上回っており, 人口統計の把握性が向上している。

We introduce Point2SSM, a novel unsupervised learning approach that can accurately construct correspondence-based statistical shape models (SSMs) of anatomy directly from point clouds. SSMs are crucial in clinical research for analyzing the population-level morphological variation in bones and organs. However, traditional methods for creating SSMs have limitations that hinder their widespread adoption, such as the need for noise-free surface meshes or binary volumes, reliance on assumptions or predefined templates, and simultaneous optimization of the entire cohort leading to lengthy inference times given new data. Point2SSM overcomes these barriers by providing a data-driven solution that infers SSMs directly from raw point clouds, reducing inference burdens and increasing applicability as point clouds are more easily acquired. Deep learning on 3D point clouds has seen recent success in unsupervised representation learning, point-to-point matching, and shape correspondence; however, their application to constructing SSMs of anatomies is largely unexplored. In this work, we benchmark state-of-the-art point cloud deep networks on the task of SSM and demonstrate that they are not robust to the challenges of anatomical SSM, such as noisy, sparse, or incomplete input and significantly limited training data. Point2SSM addresses these challenges via an attention-based module that provides correspondence mappings from learned point features. We demonstrate that the proposed method significantly outperforms existing networks in terms of both accurate surface sampling and correspondence, better capturing population-level statistics.
翻訳日:2023-05-25 23:46:54 公開日:2023-05-23
# 知識グラフクエリ

Knowledge Graphs Querying ( http://arxiv.org/abs/2305.14485v1 )

ライセンス: Link先を確認
Arijit Khan(参考訳) dbpedia、freebase、yago、wikidata、nellといった知識グラフ(kgs)は、大規模な実世界の事実を(サブジェクト、述語、オブジェクト)トリプルとして格納するために構築され、ノード(主題またはオブジェクト)が属性を持つエンティティを表し、有向エッジ(述語)が2つのエンティティの関係であるグラフとしてモデル化することもできる。 KGsのクエリは、Web検索、質問応答(QA)、セマンティック検索、パーソナルアシスタント、ファクトチェック、レコメンデーションにおいて重要である。 KGの構築とキュレーションには大きな進歩があったが、最近はディープラーニングのおかげで、KGクエリとQAに関する研究が急増している。 調査の目的は2つあります。 まず、データベース、データマイニング、セマンティックweb、機械学習、情報検索、自然言語処理(nlp)、グラフデータベース、クエリ言語、ジョインアルゴリズム、グラフパターンマッチング、より洗練されたkg埋め込み、自然言語質問(nlqs)など、さまざまなトピックにおいて、kgクエリに関する研究が行われている。 我々は,kg問合せのために開発された学際的トピックと概念の融合を目標としている。 第2に、KGとクエリ埋め込み、マルチモーダルKG、KG-QAに関する最近の多くの進歩は、ディープラーニング、IR、NLP、コンピュータビジョンドメインから来ている。 我々は,グラフデータベースやDBコミュニティ,例えば不完全なKG,セマンティックマッチング,マルチモーダルデータ,NLQなど,KGクエリの重要課題を明らかにする。 我々は、データ管理コミュニティにとって興味深い機会、例えば、統合データモデルとベクトルベースのクエリ処理としてのKGについて論じる。

Knowledge graphs (KGs) such as DBpedia, Freebase, YAGO, Wikidata, and NELL were constructed to store large-scale, real-world facts as (subject, predicate, object) triples -- that can also be modeled as a graph, where a node (a subject or an object) represents an entity with attributes, and a directed edge (a predicate) is a relationship between two entities. Querying KGs is critical in web search, question answering (QA), semantic search, personal assistants, fact checking, and recommendation. While significant progress has been made on KG construction and curation, thanks to deep learning recently we have seen a surge of research on KG querying and QA. The objectives of our survey are two-fold. First, research on KG querying has been conducted by several communities, such as databases, data mining, semantic web, machine learning, information retrieval, and natural language processing (NLP), with different focus and terminologies; and also in diverse topics ranging from graph databases, query languages, join algorithms, graph patterns matching, to more sophisticated KG embedding and natural language questions (NLQs). We aim at uniting different interdisciplinary topics and concepts that have been developed for KG querying. Second, many recent advances on KG and query embedding, multimodal KG, and KG-QA come from deep learning, IR, NLP, and computer vision domains. We identify important challenges of KG querying that received less attention by graph databases, and by the DB community in general, e.g., incomplete KG, semantic matching, multimodal data, and NLQs. We conclude by discussing interesting opportunities for the data management community, for instance, KG as a unified data model and vector-based query processing.
翻訳日:2023-05-25 23:46:25 公開日:2023-05-23
# 強化学習による言語モデル自己改善

Language Model Self-improvement by Reinforcement Learning Contemplation ( http://arxiv.org/abs/2305.14483v1 )

ライセンス: Link先を確認
Jing-Cheng Pang, Pengyuan Wang, Kaiyuan Li, Xiong-Hui Chen, Jiacheng Xu, Zongzhang Zhang, and Yang Yu(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著な性能を示した。 しかし、これらのモデルの微調整は、しばしばかなりの監督を必要とするため、高価で入手に時間がかかる。 本稿では,LanguageModel Self-Improvement by Reinforcement Learning Contemplation (SIRLC) という,外部ラベルに依存することなくLCMを改善する手法を提案する。 我々のアプローチは、言語モデルではテキスト生成よりもテキストの品質を評価する方が簡単である、という観察に基づいている。 この知見に基づいて、SIRLCはLLMを学生と教師の両方の役割として割り当てる。 学生として、llmはラベルのない質問に対する回答を生成し、教師は生成されたテキストを評価し、それに応じてスコアを割り当てる。 モデルパラメータは強化学習を用いて更新され、評価スコアを最大化する。 SIRLCは推論問題やテキスト生成,機械翻訳など,さまざまなNLPタスクに適用可能であることを示す。 実験の結果,SIRLCは外部監視なしでLLM性能を効果的に向上し,推理タスクの解答精度は5.6%向上し,翻訳タスクのBERTScoreは0.82から0.86に向上した。 さらに、silcは様々なサイズのモデルに適用でき、その幅広い適用性を示す。

Large Language Models (LLMs) have exhibited remarkable performance across various natural language processing (NLP) tasks. However, fine-tuning these models often necessitates substantial supervision, which can be expensive and time-consuming to obtain. This paper introduces a novel unsupervised method called LanguageModel Self-Improvement by Reinforcement Learning Contemplation (SIRLC) that improves LLMs without reliance on external labels. Our approach is grounded in the observation that it is simpler for language models to assess text quality than to generate text. Building on this insight, SIRLC assigns LLMs dual roles as both student and teacher. As a student, the LLM generates answers to unlabeled questions, while as a teacher, it evaluates the generated text and assigns scores accordingly. The model parameters are updated using reinforcement learning to maximize the evaluation score. We demonstrate that SIRLC can be applied to various NLP tasks, such as reasoning problems, text generation, and machine translation. Our experiments show that SIRLC effectively improves LLM performance without external supervision, resulting in a 5.6% increase in answering accuracy for reasoning tasks and a rise in BERTScore from 0.82 to 0.86 for translation tasks. Furthermore, SIRLC can be applied to models of different sizes, showcasing its broad applicability.
翻訳日:2023-05-25 23:45:51 公開日:2023-05-23
# chakra: 標準化された実行トレースを用いたパフォーマンスベンチマークと共同設計の進歩

Chakra: Advancing Performance Benchmarking and Co-design using Standardized Execution Traces ( http://arxiv.org/abs/2305.14516v1 )

ライセンス: Link先を確認
Srinivas Sridharan, Taekyung Heo, Louis Feng, Zhaodong Wang, Matt Bergeron, Wenyin Fu, Shengbao Zheng, Brian Coutinho, Saeed Rashidi, Changhai Man, Tushar Krishna(参考訳) ベンチマークと共同設計は、MLモデル、MLソフトウェア、次世代ハードウェアに関する最適化と革新を推進する上で不可欠である。 MLPerfのようなフルワークロードベンチマークは、特にシステムが完全に設計されデプロイされると、様々なソフトウェアとハードウェアスタック間で公正な比較を可能にする上で重要な役割を果たす。 しかし、AIイノベーションのペースは、将来のシステム共同設計のためのシミュレータとエミュレータによる作成と使用をベンチマークするためのよりアジャイルな方法論を必要としている。 作業負荷仕様を標準化するためのオープングラフスキーマであるChakraを提案する。 さらに,様々なシミュレータ,エミュレータ,ベンチマークによるChakra ETの収集,生成,導入を可能にするための,補完的なツール/機能セットを提案する。 例えば、生成AIモデルを使用して、何千ものChakra ETの潜在統計特性を学習し、これらのモデルを使用してChakra ETを合成します。 これらの合成etsは、重要なプロプライエタリな情報を隠蔽し、将来のwhat-ifシナリオをターゲットとすることができる。 例として,PyTorch ET を Chakra ET に変換し,これをオープンソーストレーニングシステムシミュレータ (ASTRA-sim) の駆動に利用した概念実証例を示す。 私たちのゴールは、将来のAIシステムの共同設計を推進するために、業界全体のアジャイルベンチマークとツールの活発なエコシステムを構築することです。

Benchmarking and co-design are essential for driving optimizations and innovation around ML models, ML software, and next-generation hardware. Full workload benchmarks, e.g. MLPerf, play an essential role in enabling fair comparison across different software and hardware stacks especially once systems are fully designed and deployed. However, the pace of AI innovation demands a more agile methodology to benchmark creation and usage by simulators and emulators for future system co-design. We propose Chakra, an open graph schema for standardizing workload specification capturing key operations and dependencies, also known as Execution Trace (ET). In addition, we propose a complementary set of tools/capabilities to enable collection, generation, and adoption of Chakra ETs by a wide range of simulators, emulators, and benchmarks. For instance, we use generative AI models to learn latent statistical properties across thousands of Chakra ETs and use these models to synthesize Chakra ETs. These synthetic ETs can obfuscate key proprietary information and also target future what-if scenarios. As an example, we demonstrate an end-to-end proof-of-concept that converts PyTorch ETs to Chakra ETs and uses this to drive an open-source training system simulator (ASTRA-sim). Our end-goal is to build a vibrant industry-wide ecosystem of agile benchmarks and tools to drive future AI system co-design.
翻訳日:2023-05-25 23:37:59 公開日:2023-05-23
# 量子ドット量子ビットの電荷雑音に及ぼす温度変動の影響

Effects of Temperature Fluctuations on Charge Noise in Quantum Dot Qubits ( http://arxiv.org/abs/2305.14515v1 )

ライセンス: Link先を確認
Dan Mickelsen, Herve M. Carruzzo, Susan N. Coppersmith and Clare C. Yu(参考訳) シリコン量子ドット量子ビットは有望だが、1/f^\alphaスペクトルの電荷ノイズに苦しんでおり、fは周波数で \alpha \lesssim 1である。 近年, 2次元電子ガス(2deg)~\cite{ahn2021}に関連するサブバス温度ゆらぎが存在する場合, 1/f^\alpha雑音スペクトルがいくつかの熱活性化2レベル揺らぎから生じることが提案されている。 本研究では, モンテカルロ法を用いて, 変動温度の入浴中における単一イジングスピンのシミュレーションを行った。 1/f^\alpha$スペクトルと$alpha \lesssim 1を低周波まで下げた場合、温度変動の持続時間は、その雑音を測定する最低周波の逆数と同等でなければならない。 この結果は、変動器が時間依存のスイッチングレートによって制御される2状態系である解析計算と一致する。 この場合、ノイズスペクトルは、最低切替レートの平均持続時間の平均の逆数よりも低い周波数でローレンツ関数に従うことが分かる。 次に, 電子ガスの熱拡散を限定幾何学で考慮し, 熱ゆらぎの緩和時間を推定する。 2DEGサブバスにおける温度変動は、1Hz以下の周波数の量子ドットにおける1/fライクな電荷ノイズの実験的測定と整合するために、非物理的に長い時間を要すると結論付けた。

Silicon quantum dot qubits show great promise but suffer from charge noise with a 1/f^\alpha spectrum, where f is frequency and \alpha \lesssim 1. It has recently been proposed that 1/f^\alpha noise spectra can emerge from a few thermally activated two-level fluctuators in the presence of sub-bath temperature fluctuations associated with a two-dimensional electron gas (2DEG)~\cite{Ahn2021}. We investigate this proposal by doing Monte Carlo simulations of a single Ising spin in a bath with a fluctuating temperature. We find that to obtain noise with a $1/f^\alpha$ spectrum with $alpha \lesssim 1 down to low frequencies, the duration of temperature fluctuations must be comparable to the inverse of the lowest frequency at which the noise is measured. This result is consistent with an analytic calculation in which the fluctuator is a two-state system with dynamics governed by time-dependent switching rates. In this case we find that the noise spectrum follows a Lorentzian at frequencies lower than the inverse of the average duration of the lowest switching rate. We then estimate relaxation times of thermal fluctuations by considering thermal diffusion in an electron gas in a confined geometry. We conclude that temperature fluctuations in a 2DEG sub-bath would require an unphysically long duration to be consistent with experimental measurements of 1/f-like charge noise in quantum dots at frequencies extending well below 1 Hz.
翻訳日:2023-05-25 23:37:37 公開日:2023-05-23
# AIアルゴリズムのウインドスクリーン光学品質:屈折力とMTFは十分ではない

Windscreen Optical Quality for AI Algorithms: Refractive Power and MTF not Sufficient ( http://arxiv.org/abs/2305.14513v1 )

ライセンス: Link先を確認
Dominik Werner Wolf and Markus Ulrich and Alexander Braun(参考訳) ウィンドスクリーンの光学的品質は、あらゆる高度な運転支援システムにとって重要な側面であり、将来の自動運転にとっても重要な側面である。 自動車の大量生産プロセスは、ウインドスクリーンの光学的品質を意味のある方法で特徴づける計測システムを必要とし、現代の認識スタックは人工知能(AI)アルゴリズムにとって意味のあるものである。 測定された光学的品質は、性能限界(および生産許容限界)を定義できるように、これらのアルゴリズムの性能にリンクする必要がある。 本稿では, 産業で確立された主測度である屈折力が, ウインドスクリーンの光学特性を捉えることができないことを実証する。 さらに,業界が代替として変調伝達関数(MTF)に向かっているため,この測定基準はウインドスクリーンのみでは使用できないが,ウインドスクリーンはカメラの光学系とともに新しい光学系を形成することが数学的に示されている。 したがって、ウインドスクリーンサプライヤーに設置し、独立して光学品質を計測する資格システムに必要なゴールは、MTFでは達成できない。 ウインドスクリーンの光学的品質を決定するための新しい概念を提案し、この光学的品質をAIアルゴリズムの性能に結びつけるためにシミュレーションを使用する。

Windscreen optical quality is an important aspect of any advanced driver assistance system, and also for future autonomous driving, as today at least some cameras of the sensor suite are situated behind the windscreen. Automotive mass production processes require measurement systems that characterize the optical quality of the windscreens in a meaningful way, which for modern perception stacks implies meaningful for artificial intelligence (AI) algorithms. The measured optical quality needs to be linked to the performance of these algorithms, such that performance limits - and thus production tolerance limits - can be defined. In this article we demonstrate that the main metric established in the industry - refractive power - is fundamentally not capable of capturing relevant optical properties of windscreens. Further, as the industry is moving towards the modulation transfer function (MTF) as an alternative, we mathematically show that this metric cannot be used on windscreens alone, but that the windscreen forms a novel optical system together with the optics of the camera system. Hence, the required goal of a qualification system that is installed at the windscreen supplier and independently measures the optical quality cannot be achieved using MTF. We propose a novel concept to determine the optical quality of windscreens and to use simulation to link this optical quality to the performance of AI algorithms, which can hopefully lead to novel inspection systems.
翻訳日:2023-05-25 23:37:13 公開日:2023-05-23
# 古典システムにおける断熱駆動と幾何位相

Adiabatic driving and geometric phases in classical systems ( http://arxiv.org/abs/2305.14511v1 )

ライセンス: Link先を確認
A. D. Berm\'udez Manjarres(参考訳) 古典可積分系の断熱駆動と幾何位相の概念をクープマン・ヴォン・ノイマン形式主義の下で研究する。 量子状態と密接な関係において、古典koopman-von neumann固有状態は、関連するハミルトニアンにおけるパラメータ $\lambda$ の閉変異の後、幾何位相係数 $exp\left\{ i\phi\right\} $ を得る。 このとき、$\phi$ の明示的な形式は可積分系に対して導出され、ハンネー角との関係が示される。 さらに、量子式を用いて古典的固有状態間の断熱的ユニタリフローを生成する古典的断熱ゲージポテンシャルを記述し、そのポテンシャルと古典幾何学的位相の関係を明確に示す。

We study the concepts of adiabatic driving and geometric phases of classical integrable systems under the Koopman-von Neumann formalism. In close relation to what happens to a quantum state, a classical Koopman-von Neumann eigenstate will acquire a geometric phase factor $exp\left\{ i\Phi\right\} $ after a closed variation of the parameters $\lambda$ in its associated Hamiltonian. The explicit form of $\Phi$ is then derived for integrable systems, and its relation with the Hannay angles is shown. Additionally, we use quantum formulas to write a classical adiabatic gauge potential that generates adiabatic unitary flow between classical eigenstates, and we explicitly show the relationship between the potential and the classical geometric phase.
翻訳日:2023-05-25 23:36:50 公開日:2023-05-23
# 摂動証拠に基づく推論--大規模言語モデルの学生シミュレーション能力の検証

Deduction under Perturbed Evidence: Probing Student Simulation Capabilities of Large Language Models ( http://arxiv.org/abs/2305.14507v1 )

ライセンス: Link先を確認
Shashank Sonkar, Richard G. Baraniuk(参考訳) 本研究では,Large Language Models (LLMs) がゆがんだ事実を論理的推論できるかどうかを考察し,Deduction under Perturbed Evidence (DUPE) と呼ぶ。 DUPEは、主に正確な情報をエンコードして推論し、推論するパラメータに依存するため、LSMに固有の課題を提示する。 しかし、DUPEでは、LLMは、操作された証拠またはそのプロンプトに存在する偽りの証拠を理性的に判断しなければならない。 DUPEの目標は、これらの誤った結論にLLMが到達できるかどうかを判断し、推論プロセスに影響を及ぼす支配的要因が、パラメータの符号化データか、プロンプトの操作された証拠かを特定することである。 LLMのDUPE機能を評価するために、我々はStrategyQAデータセットのDUPEdバージョンを作成し、事実を操作して質問に答える。 その結果,最も先進的なgptモデルでさえ,操作された事実 – 貧弱なダップスキルを示す – を推論するのに苦労しており,元のデータセットと比較して精度が45%低下していることがわかった。 また,学生シミュレーションモデルからインスパイアされたプロンプト設定についても検討し,精度低下をある程度軽減した。 本研究は,不正確な情報に対する推論を含む学生シミュレーションモデルのような実世界のアプリケーションにおけるLLMの性能を理解するための実践的な意味を持つ。

We explore whether Large Language Models (LLMs) are capable of logical reasoning with distorted facts, which we call Deduction under Perturbed Evidence (DUPE). DUPE presents a unique challenge to LLMs since they typically rely on their parameters, which encode mostly accurate information, to reason and make inferences. However, in DUPE, LLMs must reason over manipulated or falsified evidence present in their prompts, which can result in false conclusions that are valid only under the manipulated evidence. Our goal with DUPE is to determine whether LLMs can arrive at these false conclusions and identify whether the dominant factor influencing the deduction process is the encoded data in the parameters or the manipulated evidence in the prompts. To evaluate the DUPE capabilities of LLMs, we create a DUPEd version of the StrategyQA dataset, where facts are manipulated to reverse the answer to the question. Our findings show that even the most advanced GPT models struggle to reason on manipulated facts - showcasing poor DUPE skills - with accuracy dropping by 45% compared to the original dataset. We also investigate prompt settings inspired from student simulation models, which mitigate the accuracy drop to some extent. Our findings have practical implications for understanding the performance of LLMs in real-world applications such as student simulation models that involve reasoning over inaccurate information.
翻訳日:2023-05-25 23:36:37 公開日:2023-05-23
# 量子デジタル支払いの実証

Demonstration of quantum-digital payments ( http://arxiv.org/abs/2305.14504v1 )

ライセンス: Link先を確認
Peter Schiansky, Julia Kalb, Esther Sztatecsny, Marie-Christine Roehsner, Tobias Guggemos, Alessandro Trenti, Mathieu Bozzio, Philip Walther(参考訳) デジタルコンタクトレス決済は、私たちの日常生活の多くの面において、物理的な紙幣を置き換える。 紙幣と同様に、使いやすく、ユニークで、タンパーに耐性があり、追跡不能だが、デジタル世界での攻撃やデータ漏洩にも耐えなければならない。 現在の技術は、顧客の機密データをランダムなトークンで代用し、暗号通貨と呼ばれる暗号関数でそれぞれのデジタル購入のユニーク性を確保する。 しかし、計算能力の強い攻撃はこれらの機能のセキュリティを侵害する。 一方、量子技術は、無限の計算能力が存在する場合でも支払い保護を保証するユニークな可能性を持っている。 ここでは、量子光が本質的に偽造不可能な量子暗号を生成することにより、日々のデジタル決済を実践的に確保する方法を示す。 都市光ファイバリンク上の全スキームを実装し,ノイズや損失依存攻撃に対するロバスト性を示す。 これまで提案された量子セキュリティプロトコルとは異なり、我々のソリューションは長期的な量子ストレージや信頼できるエージェントと認証チャネルのネットワークに依存しない。 想定されるシナリオは、短期技術で実用的であり、現実の量子可能なセキュリティの新しい時代を告げる可能性がある。

Digital contactless payments have replaced physical banknotes in many aspects of our daily lives. Similarly to banknotes, they are easy to use, unique, tamper-resistant and untraceable, but additionally have to withstand attackers and data breaches in the digital world. Current technology substitutes customers' sensitive data by randomized tokens, and secures the uniqueness of each digital purchase with a cryptographic function, called a cryptogram. However, computationally powerful attacks violate the security of these functions. Quantum technology, on the other hand, has the unique potential to guarantee payment protection even in the presence of infinite computational power. Here, we show how quantum light can secure daily digital payments in a practical manner by generating inherently unforgeable quantum-cryptograms. We implement the full scheme over an urban optical fiber link, and show its robustness to noise and loss-dependent attacks. Unlike previously proposed quantum-security protocols, our solution does not depend on challenging long-term quantum storage or a network of trusted agents and authenticated channels. The envisioned scenario is practical with near-term technology and has the potential to herald a new era of real-world, quantum-enabled security.
翻訳日:2023-05-25 23:36:11 公開日:2023-05-23
# RetICL:強化学習を用いた文脈事例の逐次検索

RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning ( http://arxiv.org/abs/2305.14502v1 )

ライセンス: Link先を確認
Alexander Scarlatos and Andrew Lan(参考訳) 大規模言語モデルにおける最近の多くの開発は、特定のタスクの実行を促すことに焦点を当てている。 1つの効果的なプロンプト方法は、モデルが1つ(またはそれ以上)の例に対して(おそらく新しい)生成/予測タスクを実行する、コンテキスト内学習である。 過去の研究は、例の選択がタスクのパフォーマンスに大きな影響を与えることを示した。 しかし、例の代表群の定義はタスクによって大きく異なるため、良い例を見つけることは簡単ではない。 インコンテキストの例を選択する方法は数多く存在するが、一般的には、それら間の依存関係と、それらが大きな言語モデルに提供される順序を無視して、個別に例を採点する。 本研究では,インコンテキスト学習のためのサンプルのモデリングと最適選択のための学習可能な手法であるreticlの検索を提案する。 我々は、マルコフ決定プロセスとして逐次サンプル選択の問題を定義し、LSTMを用いてサンプル検索モデルを設計し、近似ポリシー最適化(PPO)を用いて学習する。 本研究では,RetICLがデータセットを解き、ヒューリスティックなベースラインと学習可能なベースラインの両方を上回り、TabMWPデータセット上で最先端の精度を実現することを示す。 また,ケーススタディを用いて,reticlが暗黙的に数学問題解決戦略の表現を学習していることを示す。

Many recent developments in large language models focus on prompting them to perform specific tasks. One effective prompting method is in-context learning, where the model performs a (possibly new) generation/prediction task given one (or more) examples. Past work has shown that the choice of examples can make a large impact on task performance. However, finding good examples is not straightforward since the definition of a representative group of examples can vary greatly depending on the task. While there are many existing methods for selecting in-context examples, they generally score examples independently, ignoring the dependency between them and the order in which they are provided to the large language model. In this work, we propose Retrieval for In-Context Learning (RetICL), a learnable method for modeling and optimally selecting examples sequentially for in-context learning. We frame the problem of sequential example selection as a Markov decision process, design an example retriever model using an LSTM, and train it using proximal policy optimization (PPO). We validate RetICL on math problem solving datasets and show that it outperforms both heuristic and learnable baselines, and achieves state-of-the-art accuracy on the TabMWP dataset. We also use case studies to show that RetICL implicitly learns representations of math problem solving strategies.
翻訳日:2023-05-25 23:35:52 公開日:2023-05-23
# 光電子ホログラフィーにおける前方およびハイブリッド経路積分法:サブバリア補正、初期サンプリングおよび運動量マッピング

Forward and hybrid path-integral methods in photoelectron holography: sub-barrier corrections, initial sampling and momentum mapping ( http://arxiv.org/abs/2305.14501v1 )

ライセンス: Link先を確認
L. Cruz Rodriguez, T. Rook, B. B. Augstein, A. S. Maxwell, C. Figueira de Morisson Faria(参考訳) 我々は、電子軌道が前方に伝播するフルクーロン歪みを持つ強磁場経路積分法を構築し、ハイブリッドフォワード境界法の結果と対比する。 これらの方法は超高速光電子ホログラフィーに応用される。 フォワード法では、coulomb量子軌道強磁場近似(cqsfa)から非断熱イオン化速度を導出し、これはサブバリアクーロン補正を含み、初期軌道アンサンブルの重み付けに用いられる。 ハイブリッドフォワード境界CQSFA (H-CQSFA) において, 初期サンプリング分布, 均一等, および光電子運動量分布 (PMD) への影響について検討した。 本研究では,H-CQSFA法とtextit{ab-initio} 法とのレートベース手法の一致性を改善した。 さらに, ハイブリッドアプローチでは, 初期バイアスドサンプリングは高エネルギー領域における尾根の再散乱と干渉を強調する一方, 初期一様サンプリングは電離閾値や偏光軸付近のホログラフィックパターンの正確なモデリングを保証する。 この結果は,異なる種類の干渉軌道に対する初期から最終モーメントマッピングを用いて説明される。

We construct a strong-field path integral method with full Coulomb distortion, in which electron orbits are forward propagated, and contrast the results with those from a hybrid forward-boundary method. These methods are applied to ultrafast photoelectron holography. In the forward method, we derive a non-adiabatic ionization rate from the Coulomb quantum-orbit strong-field approximation (CQSFA), which includes sub-barrier Coulomb corrections and is used to weight the initial orbit ensemble. In the hybrid forward-boundary CQSFA (H-CQSFA), we probe different initial sampling distributions, uniform and otherwise, and their influence on photoelectron momentum distributions (PMDs). We show that the sub-barrier Coulomb corrections broaden the resulting PMDs and improve the agreement of the rate-based method with the H-CQSFA and \textit{ab-initio} methods. Furthermore, in the hybrid approach, initial biased sampling emphasizes rescattering ridges and interferences in high-energy ranges, while an initial uniform sampling guarantees accurate modeling of the holographic patterns near the ionization threshold or polarization axis. Our results are explained using the initial to final momentum mapping for different types of interfering trajectories.
翻訳日:2023-05-25 23:35:28 公開日:2023-05-23
# クラウドソーシングによるコンテンツモデレーションにおける政治的バイアス軽減の可能性

Diverse Perspectives Can Mitigate Political Bias in Crowdsourced Content Moderation ( http://arxiv.org/abs/2305.14500v1 )

ライセンス: Link先を確認
Jacob Thebault-Spieker, Sukrit Venkatagiri, Naomi Mine, Kurt Luther(参考訳) 近年、ソーシャルメディア企業は、政治的バイアス、偽情報、偏りといった懸念から、自社のプラットフォーム上の政治的コンテンツを取り巻くコンテンツモデレーションポリシーの定義と実施に取り組んできた。 これらのポリシーは、政治広告の禁止、政治トピックのリーチの制限、政治的クレームの事実チェック、ユーザーが政治コンテンツを完全に隠すことなど、様々な形態を採っている。 しかし、これらの政策の実施には、政治的内容のラベル付けに人間の判断が必要であり、このタスクにおいて人間のラベル付け者がどのように機能するか、またはバイアスがこのプロセスに影響を与えているかは明らかではない。 そこで本研究では, クラウドワーカーによる政治的コンテンツの同定の可能性と実用性を実験的に評価し, コンテンツの同定を困難にするバイアスを明らかにする。 その結果、異種労働者の判断を集約することで政治的偏見を緩和できるという予備的な証拠が得られた。 これらの結果を踏まえて、より公正なラベル付け結果を達成するための戦略を特定し、また、このタスクにおける群衆労働者のより良い支援とバイアス軽減の可能性を秘めている。

In recent years, social media companies have grappled with defining and enforcing content moderation policies surrounding political content on their platforms, due in part to concerns about political bias, disinformation, and polarization. These policies have taken many forms, including disallowing political advertising, limiting the reach of political topics, fact-checking political claims, and enabling users to hide political content altogether. However, implementing these policies requires human judgement to label political content, and it is unclear how well human labelers perform at this task, or whether biases affect this process. Therefore, in this study we experimentally evaluate the feasibility and practicality of using crowd workers to identify political content, and we uncover biases that make it difficult to identify this content. Our results problematize crowds composed of seemingly interchangeable workers, and provide preliminary evidence that aggregating judgements from heterogeneous workers may help mitigate political biases. In light of these findings, we identify strategies to achieving fairer labeling outcomes, while also better supporting crowd workers at this task and potentially mitigating biases.
翻訳日:2023-05-25 23:35:03 公開日:2023-05-23
# NAIL: 効率的な非自己回帰デコーダを用いた語彙検索指標

NAIL: Lexical Retrieval Indices with Efficient Non-Autoregressive Decoders ( http://arxiv.org/abs/2305.14499v1 )

ライセンス: Link先を確認
Livio Baldini Soares, Daniel Gillick, Jeremy R. Cole, Tom Kwiatkowski(参考訳) ニューラル文書再帰は精度の点で極めて効果的である。 しかし、最良のモデルには専用のハードウェアが必要であり、コストがかかり、しばしば実現不可能である。 そこで本研究では,トランスフォーマーのFLOPを1文書あたり10~6%しか必要とせず,コモディティCPUを用いて提供可能な語彙付きスコアリング機能を備えたトランスフォーマークロスアテンションモデルのゲインを最大86%取得する手法を提案する。 bm25レトリバーと組み合わせると、このアプローチは、クエリエンコーディングの加速器を必要とする最先端のデュアルエンコーダレトリバーの品質に適合する。 NAIL(Non-Autoregressive Indexing with Language Model)は,最近のエンコーダデコーダや,T5,GPT-3,PaLMなどのデコーダのみの大規模言語モデルと互換性のあるモデルアーキテクチャである。 このモデルアーキテクチャは、既存の事前学習済みチェックポイントを活用でき、クエリの神経処理を必要としないドキュメント表現を効率的に構築するために微調整することができる。

Neural document rerankers are extremely effective in terms of accuracy. However, the best models require dedicated hardware for serving, which is costly and often not feasible. To avoid this serving-time requirement, we present a method of capturing up to 86% of the gains of a Transformer cross-attention model with a lexicalized scoring function that only requires 10-6% of the Transformer's FLOPs per document and can be served using commodity CPUs. When combined with a BM25 retriever, this approach matches the quality of a state-of-the art dual encoder retriever, that still requires an accelerator for query encoding. We introduce NAIL (Non-Autoregressive Indexing with Language models) as a model architecture that is compatible with recent encoder-decoder and decoder-only large language models, such as T5, GPT-3 and PaLM. This model architecture can leverage existing pre-trained checkpoints and can be fine-tuned for efficiently constructing document representations that do not require neural processing of queries.
翻訳日:2023-05-25 23:34:42 公開日:2023-05-23
# 等角化グラフニューラルネットワークによるグラフ上の不確かさの定量化

Uncertainty Quantification over Graph with Conformalized Graph Neural Networks ( http://arxiv.org/abs/2305.14535v1 )

ライセンス: Link先を確認
Kexin Huang, Ying Jin, Emmanuel Candes, Jure Leskovec(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データに基づく強力な機械学習予測モデルである。 しかし、GNNには厳密な不確実性評価がなく、エラーのコストが重要な設定での信頼性の高いデプロイメントを制限している。 本稿では,共形予測(CP)をグラフベースモデルに拡張した共形GNN(CF-GNN)を提案する。 グラフ内のエンティティが与えられると、cf-gnnは、事前に定義されたカバレッジ確率(例えば90%)を持つ真のラベルを含む予測セット/インターバルを生成する。 我々は,グラフデータに対するCPの有効性を実現するための置換不変条件を確立し,テスト時間カバレッジを正確に評価する。 また,有効範囲の他に,実用上の予測セットサイズ/インターバル長の削減が重要である。 予測の更新を学習し、より効率的な予測セット/インターバルを生成するトポロジー対応出力補正モデルを開発する動機となる、非コンフォーマリティスコアとネットワーク構造の間の鍵接続を観察した。 大規模実験の結果,CF-GNNは予め定義された目標範囲の範囲を達成できる一方で,予測セット/インターバルサイズを最大74%削減できることがわかった。 また、様々な生およびネットワーク機能に対する十分な条件付きカバレッジを実証的に達成する。

Graph Neural Networks (GNNs) are powerful machine learning prediction models on graph-structured data. However, GNNs lack rigorous uncertainty estimates, limiting their reliable deployment in settings where the cost of errors is significant. We propose conformalized GNN (CF-GNN), extending conformal prediction (CP) to graph-based models for guaranteed uncertainty estimates. Given an entity in the graph, CF-GNN produces a prediction set/interval that provably contains the true label with pre-defined coverage probability (e.g. 90%). We establish a permutation invariance condition that enables the validity of CP on graph data and provide an exact characterization of the test-time coverage. Moreover, besides valid coverage, it is crucial to reduce the prediction set size/interval length for practical use. We observe a key connection between non-conformity scores and network structures, which motivates us to develop a topology-aware output correction model that learns to update the prediction and produces more efficient prediction sets/intervals. Extensive experiments show that CF-GNN achieves any pre-defined target marginal coverage while significantly reducing the prediction set/interval size by up to 74% over the baselines. It also empirically achieves satisfactory conditional coverage over various raw and network features.
翻訳日:2023-05-25 23:28:24 公開日:2023-05-23
# コードスイッチ型ソーシャルメディアテキストにおけるプロパガンダ手法の検出

Detecting Propaganda Techniques in Code-Switched Social Media Text ( http://arxiv.org/abs/2305.14534v1 )

ライセンス: Link先を確認
Muhammad Umar Salman, Asif Hanif, Shady Shehata, Preslav Nakov(参考訳) プロパガンダ(Propaganda)とは、特定の議題を広めるために、人々の意見や考え方に影響を与えるためのコミュニケーション形態である。 ソーシャルメディアの普及に伴い、プロパガンダは急速に普及し、自動プロパガンダ検出システムの必要性が高まっている。 プロパガンダ検出に関するほとんどの研究は、英語などの高リソース言語に焦点を当てており、低リソース言語のためのプロパガンダを検出する努力はほとんど行われていない。 しかし、コードスイッチングとして知られる現象であるソーシャルメディアコミュニケーションでは、複数の言語が混在しているのが一般的である。 コードスイッチングは同じテキスト内で異なる言語を組み合わせることで、自動システムに挑戦する。 そこで本研究では,コードスイッチトテキスト中のプロパガンダ技術を検出する新しいタスクを提案する。 このタスクを支援するために、20のプロパガンダ技術で注釈付けされた英語とローマ・ウルドゥー語をコードスイッチする1,030のコーパスを作成し、公開します。 我々は,異なる実験装置と対比する実験を多数実施し,多言語性を(翻訳ではなく)直接モデル化し,適切な微調整戦略を用いることが重要であることを確認した。 コードとデータセットはhttps://github.com/mbzuai-nlp/propaganda-codeswitched-textで公開されている。

Propaganda is a form of communication intended to influence the opinions and the mindset of the public to promote a particular agenda. With the rise of social media, propaganda has spread rapidly, leading to the need for automatic propaganda detection systems. Most work on propaganda detection has focused on high-resource languages, such as English, and little effort has been made to detect propaganda for low-resource languages. Yet, it is common to find a mix of multiple languages in social media communication, a phenomenon known as code-switching. Code-switching combines different languages within the same text, which poses a challenge for automatic systems. With this in mind, here we propose the novel task of detecting propaganda techniques in code-switched text. To support this task, we create a corpus of 1,030 texts code-switching between English and Roman Urdu, annotated with 20 propaganda techniques, which we make publicly available. We perform a number of experiments contrasting different experimental setups, and we find that it is important to model the multilinguality directly (rather than using translation) as well as to use the right fine-tuning strategy. The code and the dataset are publicly available at https://github.com/mbzuai-nlp/propaganda-codeswitched-text
翻訳日:2023-05-25 23:28:03 公開日:2023-05-23
# チャットボットの選択方法:ダイアログメトリック評価のための多システム多参照データセット

How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation ( http://arxiv.org/abs/2305.14533v1 )

ライセンス: Link先を確認
Huda Khayrallah and Zuhaib Akhtar and Edward Cohen and Jo\~ao Sedoc(参考訳) 我々はMMSMR(Massively Multi-System Multi Reference dataset)をリリースし、ダイアログのメトリクスと評価の今後の取り組みを可能にする。 対話評価のための自動メトリクスは、人間の判断にとって堅牢なプロキシであるべきであるが、ロバストさの検証は今のところ不十分である。 テストセットにおけるロバスト性相関を定量化し、何が必要かを理解するために、単一参照評価セットを拡張して8参照ダイアログデータセットを作成してリリースし、この新しい言語学習会話データセットを紹介する。 次に、1750のシステムをトレーニングし、新しいテストセットとdailydialogデータセットで評価します。 我々は,新しいテストセットとモデルハイパーパラメータ,推論出力,および各種データセット上の各システムに対するメートル法スコアをリリースする。

We release MMSMR, a Massively Multi-System MultiReference dataset to enable future work on metrics and evaluation for dialog. Automatic metrics for dialogue evaluation should be robust proxies for human judgments; however, the verification of robustness is currently far from satisfactory. To quantify the robustness correlation and understand what is necessary in a test set, we create and release an 8-reference dialog dataset by extending single-reference evaluation sets and introduce this new language learning conversation dataset. We then train 1750 systems and evaluate them on our novel test set and the DailyDialog dataset. We release the novel test set, and model hyper parameters, inference outputs, and metric scores for each system on a variety of datasets.
翻訳日:2023-05-25 23:27:42 公開日:2023-05-23
# トポロジカル・アディバティック・パスによる位相的エッジ状態伝達

Topological edge state transfer via topological adiabatic passage ( http://arxiv.org/abs/2305.14529v1 )

ライセンス: Link先を確認
Chong Wang, Xiu Gu, Shu Chen and Yu-xi Liu(参考訳) 量子状態移動の研究は、量子シミュレータを利用した様々な研究に繋がった。 クビット周波数とクビット-クビット結合のチューニング性を利用して、超伝導クビット鎖は様々なトポロジカルバンドモデルをシミュレートすることができる。 本研究では、結合強度と量子周波数を変調することにより、トポロジカルクビット鎖に沿ってスピンアップ状態が輸送可能であることを示す。 本稿では,この状態伝達過程を理論的に解釈する別の方法を提案する。 我々は、この過程を研究する際に、キュービット鎖のヒルベルト空間を2つの辺状態の部分空間に制限できることを示し、ハミルトニアンは2状態ランダウ・ツェナー(LZ)モデルに退化できることを示した。 したがって、このトポロジカルクビット鎖における状態伝達過程は、LZモデルの断熱的通過を通して同じ過程と等価である。 さらに,本手法を用いて1量子Fock状態から2量子Bell状態への状態伝達プロセスを一般化する方法を示す。

The study of quantum state transfer has led to a variety of research efforts utilizing quantum simulators. By exploiting the tunability of the qubit frequency and qubit-qubit coupling, a superconducting qubit chain can simulate various topological band models. In our study, we demonstrate that a spin-up state can be transported along a topological qubit chain by modulating the coupling strengths and the qubit frequencies. We here propose another more straightforward approach to theoretically interpret this state transfer process. We show that the Hilebert space of the qubit chain can be restricted into the subspace of the only two edge states when investigating this process, and the Hamiltonian can degenerate to a two-state Landau-Zener (LZ) model. Therefore the state transfer process in this topological qubit chain is equivalent to the same process through the adiabatic passage of the LZ model. Further more, we show how to use this approach to generalize the state transfer process from one-qubit Fock state to two-qubit Bell state.
翻訳日:2023-05-25 23:27:29 公開日:2023-05-23
# ファクトリゼーションマシンにおける数値特徴量の基底関数符号化による精度向上

Basis Function Encoding of Numerical Features in Factorization Machines for Improved Accuracy ( http://arxiv.org/abs/2305.14528v1 )

ライセンス: Link先を確認
Alex Shtoff and Elie Abboud and Rotem Stram and Oren Somekh(参考訳) ファクトリゼーションマシン(FM)の変種は、モデル精度とトレーニングと推論の計算コストの低さのバランスが良いため、大規模リアルタイムコンテンツレコメンデーションシステムに広く使われている。 これらのシステムは、数値列と分類列の両方で表データに基づいて訓練される。 数値列を組み込むことは課題であり、一般的にはスカラー変換やビンニングを用いて組み込まれ、これはa-prioriを学習または選択することができる。 本研究では,関数の集合に対する関数値のベクトルに符号化することで,数値的特徴をFM変種に組み込む体系的,理論的に最適化した方法を提案する。 我々は因子化マシンを、あるフィールドの値から実数への関数、つまり、残りのフィールドが与えられた定数に割り当てられていると仮定して、セグメンテーション化された関数の近似子とみなす。 この観点から,本手法は,選択した関数の集合にまたがる数値特徴のセグメンテーション関数,すなわち、セグメンテーション係数がセグメントごとに変化することを学習するモデルが得られることを示す。 したがって、モデル精度を向上させるために、強力な近似能力を有することが知られている関数の使用を提唱し、そのよく知られた近似能力、ソフトウェアライブラリの可用性、効率性のためにB-Splineベースを提供する。 本手法は,高速な学習と推論を保存し,FMモデルの計算グラフのわずかな修正しか必要としない。 したがって、既存のシステムに組み込んで性能を向上させることは容易である。 最後に、いくつかのデータセットのパフォーマンス評価、改善されたパフォーマンスを示す実際のオンライン広告システムにおけるA/Bテストなど、一連の実験でクレームを裏付ける。

Factorization machine (FM) variants are widely used for large scale real-time content recommendation systems, since they offer an excellent balance between model accuracy and low computational costs for training and inference. These systems are trained on tabular data with both numerical and categorical columns. Incorporating numerical columns poses a challenge, and they are typically incorporated using a scalar transformation or binning, which can be either learned or chosen a-priori. In this work, we provide a systematic and theoretically-justified way to incorporate numerical features into FM variants by encoding them into a vector of function values for a set of functions of one's choice. We view factorization machines as approximators of segmentized functions, namely, functions from a field's value to the real numbers, assuming the remaining fields are assigned some given constants, which we refer to as the segment. From this perspective, we show that our technique yields a model that learns segmentized functions of the numerical feature spanned by the set of functions of one's choice, namely, the spanning coefficients vary between segments. Hence, to improve model accuracy we advocate the use of functions known to have strong approximation power, and offer the B-Spline basis due to its well-known approximation power, availability in software libraries, and efficiency. Our technique preserves fast training and inference, and requires only a small modification of the computational graph of an FM model. Therefore, it is easy to incorporate into an existing system to improve its performance. Finally, we back our claims with a set of experiments, including synthetic, performance evaluation on several data-sets, and an A/B test on a real online advertising system which shows improved performance.
翻訳日:2023-05-25 23:27:11 公開日:2023-05-23
# Slovo: ロシアの手話データセット

Slovo: Russian Sign Language Dataset ( http://arxiv.org/abs/2305.14527v1 )

ライセンス: Link先を確認
Alexander Kapitanov, Karina Kvanchiani, Alexander Nagaev, Elizaveta Petrova(参考訳) 手話認識タスクの主な課題の1つは、聴覚と聴覚のギャップによる適切なデータセットの収集が困難であることである。 さらに、各国の手話は大きく異なり、それぞれに新しいデータの作成を義務付けている。 本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットSlovoについて述べる。 データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1000クラスのRSLジェスチャーに分割されている。 データ収集からビデオアノテーションまで、データセット生成パイプライン全体も、以下のデモアプリケーションで提供しています。 いくつかのニューラルネットワークがslovo上でトレーニングされ、その教育能力を示すために評価される。 提案されたデータと事前訓練されたモデルが公開されている。

One of the main challenges of the sign language recognition task is the difficulty of collecting a suitable dataset due to the gap between deaf and hearing society. In addition, the sign language in each country differs significantly, which obliges the creation of new data for each of them. This paper presents the Russian Sign Language (RSL) video dataset Slovo, produced using crowdsourcing platforms. The dataset contains 20,000 FullHD recordings, divided into 1,000 classes of RSL gestures received by 194 signers. We also provide the entire dataset creation pipeline, from data collection to video annotation, with the following demo application. Several neural networks are trained and evaluated on the Slovo to demonstrate its teaching ability. Proposed data and pre-trained models are publicly available.
翻訳日:2023-05-25 23:26:42 公開日:2023-05-23
# 電磁誘導型透明性とオートラータウン分割の展望

Perspective on electromagnetically induced transparency vs Autler-Townes splitting ( http://arxiv.org/abs/2305.14526v1 )

ライセンス: Link先を確認
Barry C Sanders(参考訳) 電磁誘導透過性とオートラータウンの分割は2つの異なるが関連する効果である。 これらの現象は量子メモリ、量子スイッチング、量子トランスダクションなどの量子技術に関係している。 そこで,これらの現象の歴史的・概念的類似性や相違を考察し,原子ガス,超伝導回路,光メカニクスなどの物理プラットフォーム上での類似性について詳述した。 特に著者らは、特定の入力が与えられた場合の出力をモデル化するブラックボックスアプローチに基づいて、どの現象が観測されるかを評価するための2つのアプローチを明らかにした。 さらに本論文では,二つの現象間の連続的な遷移に影響を及ぼす能力に注目した。

Electromagnetically induced transparency and Autler-Townes splitting are two distinct yet related effects. These phenomena are relevant to quantum technologies, including quantum memory, quantum switching, and quantum transduction. Here, the similarities and differences between these phenomena along historical and conceptual lines are discussed and their realizations on various physical platforms including atomic gases, superconducting circuits, and optomechanics are elaborated. In particular, the author clarifies two approaches to assessing which phenomenon is observed based on a black-box approach of modeling the output, given a particular input vs analyzing the underpinning physics. Furthermore, the author highlights the ability to effect a continuous transition between the two seemingly disparate phenomena.
翻訳日:2023-05-25 23:26:31 公開日:2023-05-23
# データ混合による事前学習モデルからのスプリアス相関の除去

Eliminating Spurious Correlations from Pre-trained Models via Data Mixing ( http://arxiv.org/abs/2305.14521v1 )

ライセンス: Link先を確認
Yihao Xue, Ali Payani, Yu Yang, Baharan Mirzasoleiman(参考訳) 大規模データセット上で事前訓練された機械学習モデルは、顕著な収束性と堅牢性を達成した。 しかし、これらのモデルはしばしば特定の属性とラベルの急激な相関を利用しており、これは特定のカテゴリのほとんどの例でよく見られるが、一般的にこれらのカテゴリの予測にはならない。 学習されたスプリアス相関は、新しいデータを微調整した後でも持続し、スプリアス相関を示さない例でモデルの性能を低下させる。 そこで本研究では,事前学習モデルからスプリアス相関を除去する簡易かつ高効率な手法を提案する。 提案手法の重要な考え方は,散発的な属性を持つ少数の例を活用し,データ混合によってすべてのクラスに散発的な属性をバランスさせることである。 本稿では,本手法の有効性を理論的に確認し,水鳥およびセロバにおけるresnet50のスプリアス相関の排除,imagenetでのresnet50の敵対的事前学習,民事訓練のbertなど,様々なビジョンおよびnlpタスクにおける最新性能を実証する。

Machine learning models pre-trained on large datasets have achieved remarkable convergence and robustness properties. However, these models often exploit spurious correlations between certain attributes and labels, which are prevalent in the majority of examples within specific categories but are not predictive of these categories in general. The learned spurious correlations may persist even after fine-tuning on new data, which degrades models' performance on examples that do not exhibit the spurious correlation. In this work, we propose a simple and highly effective method to eliminate spurious correlations from pre-trained models. The key idea of our method is to leverage a small set of examples with spurious attributes, and balance the spurious attributes across all classes via data mixing. We theoretically confirm the effectiveness of our method, and empirically demonstrate its state-of-the-art performance on various vision and NLP tasks, including eliminating spurious correlations from pre-trained ResNet50 on Waterbirds and CelebA, adversarially pre-trained ResNet50 on ImageNet, and BERT pre-trained on CivilComments.
翻訳日:2023-05-25 23:26:06 公開日:2023-05-23
# congfu: 薬物相乗効果予測のための条件グラフ融合

CongFu: Conditional Graph Fusion for Drug Synergy Prediction ( http://arxiv.org/abs/2305.14517v1 )

ライセンス: Link先を確認
Oleksii Tsepa, Bohdan Naida, Bo Wang(参考訳) 複数の薬物の増幅された併用効果を特徴とする薬物相乗効果は、治療結果の最適化に重要な現象を示す。 しかし、膨大な量の薬物の組み合わせと計算コストから生じる薬物相乗効果に関する限られたデータは、予測方法の必要性を動機付けている。 本稿では,薬物相乗効果を予測するための新しい条件付きグラフ融合層congfuについて紹介する。 CongFuは、グローバルコンテキスト内の局所グラフコンテキストと条件付きグラフデータを抽出するために、アテンションメカニズムとボトルネックを使用する。 モジュールアーキテクチャは、読み出しやグラフエンコーダを含むレイヤモジュールの柔軟な置き換えを可能にし、多様なアプリケーションのカスタマイズを容易にする。 CongFuの性能を評価するために、薬物相乗効果予測のための3つの異なる設定を含む4つのデータセットの総合的な実験を行った。 驚くべきことに、congfuは12のベンチマークデータセットのうち11で最先端の結果を達成し、薬物シナジーの複雑なパターンを捉える能力を示している。 広範なアブレーション研究を通じて,個々の層成分の意義を検証し,全体的な予測性能への寄与を確認した。 テストされていない薬物ペアの薬物シナジーを予測するという課題に対処することで、congfuは薬物の組み合わせを最適化し、パーソナライズされた医療を進歩させるための新しい道を開く。

Drug synergy, characterized by the amplified combined effect of multiple drugs, presents a critical phenomenon for optimizing therapeutic outcomes. However, limited data on drug synergy, arising from the vast number of possible drug combinations and computational costs, motivate the need for predictive methods. In this work, we introduce CongFu, a novel Conditional Graph Fusion Layer, designed to predict drug synergy. CongFu employs an attention mechanism and a bottleneck to extract local graph contexts and conditionally fuse graph data within a global context. Its modular architecture enables flexible replacement of layer modules, including readouts and graph encoders, facilitating customization for diverse applications. To evaluate the performance of CongFu, we conduct comprehensive experiments on four datasets, encompassing three distinct setups for drug synergy prediction. Remarkably, CongFu achieves state-of-the-art results on 11 out of 12 benchmark datasets, demonstrating its ability to capture intricate patterns of drug synergy. Through extensive ablation studies, we validate the significance of individual layer components, affirming their contributions to overall predictive performance. By addressing the challenge of predicting drug synergy in untested drug pairs, CongFu opens new avenues for optimizing drug combinations and advancing personalized medicine.
翻訳日:2023-05-25 23:25:47 公開日:2023-05-23
# 行列分解によるGAN潜時空間のセマンティック変動の探索

Exploring Semantic Variations in GAN Latent Spaces via Matrix Factorization ( http://arxiv.org/abs/2305.14551v1 )

ライセンス: Link先を確認
Andrey Palaev and Rustam A. Lukmanov and Adil Khan(参考訳) ganによる制御されたデータ生成は望ましいが、潜在空間の非線形性と高次元のため困難である。 そこで本研究では,PCAに基づく最先端手法であるGANSpaceで学習した画像操作について検討する。 定量的で質的な評価を通して (a) GANSpaceは、幅広い高品質の画像操作を生成するが、高い絡み合いがあり、潜在的なユースケースを制限することができる。 b) pca をica に置き換えることにより,操作の質及び絡み合いが向上する。 (c) 生成した画像の画質はGANのサイズに敏感であるが, その複雑さによらず, 潜在空間において基本的な制御方向を観察することができる。

Controlled data generation with GANs is desirable but challenging due to the nonlinearity and high dimensionality of their latent spaces. In this work, we explore image manipulations learned by GANSpace, a state-of-the-art method based on PCA. Through quantitative and qualitative assessments we show: (a) GANSpace produces a wide range of high-quality image manipulations, but they can be highly entangled, limiting potential use cases; (b) Replacing PCA with ICA improves the quality and disentanglement of manipulations; (c) The quality of the generated images can be sensitive to the size of GANs, but regardless of their complexity, fundamental controlling directions can be observed in their latent spaces.
翻訳日:2023-05-25 21:38:07 公開日:2023-05-23
# シーケンスモデリングはオフライン強化学習の強固な候補である

Sequence Modeling is a Robust Contender for Offline Reinforcement Learning ( http://arxiv.org/abs/2305.14550v1 )

ライセンス: Link先を確認
Prajjwal Bhargava, Rohan Chitnis, Alborz Geramifard, Shagun Sodhani, Amy Zhang(参考訳) オフライン強化学習(RL)により、エージェントは静的データセットから効率よく、戻り値の最大化ポリシーを学習できる。 オフラインRLの3つの主要なパラダイムは、Q-Learning、Imitation Learning、Sequence Modelingである。 重要なオープンな疑問は、どの条件でどのパラダイムが望ましいか、ということです。 本稿では、一般的なD4RLおよびロボミミックベンチマークを用いて、代表アルゴリズムである保守的Qラーニング(CQL)、行動クローン(BC)、決定変換(DT)のパフォーマンスを実証的に検討する。 我々は,データ・サブ最適性やタスクの複雑さに関する行動を理解するために,ターゲット実験を設計する。 その結果,(1) シーケンスモデリングはq-learningよりも多くのデータを必要とするが,より堅牢である,(2) シーケンスモデリングはスパース・リワードと低品質のデータ設定において,q-learningと模倣学習のどちらよりもかなり優れた選択である,(3) シーケンスモデリングと模倣学習はタスクホライズンの増加や,あるいはサブオプティカルな人間のデモストラクタから得られる場合において望ましいことがわかった。 シーケンスモデリングの全体的な強みに基づいて,atari と d4rl 上で dt のアーキテクチャ選択とスケーリングトレンドを調査し,設計の推奨を行う。 DTのデータ量を5倍にすることで,Atariの平均スコアが2.5倍向上することがわかった。

Offline reinforcement learning (RL) allows agents to learn effective, return-maximizing policies from a static dataset. Three major paradigms for offline RL are Q-Learning, Imitation Learning, and Sequence Modeling. A key open question is: which paradigm is preferred under what conditions? We study this question empirically by exploring the performance of representative algorithms -- Conservative Q-Learning (CQL), Behavior Cloning (BC), and Decision Transformer (DT) -- across the commonly used D4RL and Robomimic benchmarks. We design targeted experiments to understand their behavior concerning data suboptimality and task complexity. Our key findings are: (1) Sequence Modeling requires more data than Q-Learning to learn competitive policies but is more robust; (2) Sequence Modeling is a substantially better choice than both Q-Learning and Imitation Learning in sparse-reward and low-quality data settings; and (3) Sequence Modeling and Imitation Learning are preferable as task horizon increases, or when data is obtained from suboptimal human demonstrators. Based on the overall strength of Sequence Modeling, we also investigate architectural choices and scaling trends for DT on Atari and D4RL and make design recommendations. We find that scaling the amount of data for DT by 5x gives a 2.5x average score improvement on Atari.
翻訳日:2023-05-25 21:37:57 公開日:2023-05-23
# テキスト要約における解釈可能な微細不整合検出

Interpretable Automatic Fine-grained Inconsistency Detection in Text Summarization ( http://arxiv.org/abs/2305.14548v1 )

ライセンス: Link先を確認
Hou Pong Chan, Qi Zeng, Heng Ji(参考訳) テキスト要約のための既存の事実整合性評価アプローチは、要約システムの弱点に対するバイナリ予測と限定的な洞察を提供する。 そこで本研究では,細粒度不整合検出の課題を提案する。 要約における事実の不整合を人間がどのように検査するかを動機として,文書や要約中の事実を意味的役割ラベルで抽出した意味的フレームで明示的に表現し,関連する意味的フレームを強調して不整合を予測し,解釈可能な微粒不整合検出モデルであるFinGrainFactを提案する。 強調されたセマンティックフレームは、予測エラータイプと一貫性のない要約の検証に役立つ。 実験の結果,モデルが強いベースラインを上回っており,サマリーを支持するか,あるいは反論する証拠が得られている。

Existing factual consistency evaluation approaches for text summarization provide binary predictions and limited insights into the weakness of summarization systems. Therefore, we propose the task of fine-grained inconsistency detection, the goal of which is to predict the fine-grained types of factual errors in a summary. Motivated by how humans inspect factual inconsistency in summaries, we propose an interpretable fine-grained inconsistency detection model, FineGrainFact, which explicitly represents the facts in the documents and summaries with semantic frames extracted by semantic role labeling, and highlights the related semantic frames to predict inconsistency. The highlighted semantic frames help verify predicted error types and correct inconsistent summaries. Experiment results demonstrate that our model outperforms strong baselines and provides evidence to support or refute the summary.
翻訳日:2023-05-25 21:37:28 公開日:2023-05-23
# バルクスイッチング・メムリスタを用いた深部ニューラルネットワークトレーニング用コンピュータインメモリモジュール

Bulk-Switching Memristor-based Compute-In-Memory Module for Deep Neural Network Training ( http://arxiv.org/abs/2305.14547v1 )

ライセンス: Link先を確認
Yuting Wu, Qiwen Wang, Ziyu Wang, Xinxin Wang, Buvna Ayyagari, Siddarth Krishnan, Michael Chudzik and Wei D. Lu(参考訳) 高性能で優れた機能を持つディープニューラルネットワーク(DNN)モデルの必要性は、非常に大きなモデルの普及につながります。 しかし、モデルトレーニングには計算時間とエネルギーが集中的に必要である。 Memristor-based Compute-in-Memory (CIM)モジュールは,ベクトル行列乗算(VMM)をその場で,並列で実行することができる。 しかし、CIMベースのモデルトレーニングは、非線形ウェイト更新、デバイスのバリエーション、アナログ演算回路の低精度による課題に直面している。 本研究では,バルクスイッチング・メムリスタCIMモジュールを用いて,これらの効果を緩和するための混合精度トレーニング手法を実験的に実装した。 低精度CIMモジュールは高価なVMM操作を高速化するために使われ、デジタルユニットに高い精度の重量更新が蓄積されている。 memristorデバイスは、累積重量更新値が予め定義されたしきい値を超える場合にのみ変更される。 提案手法は,完全統合型アナログcimモジュールとディジタルサブシステムからなるsystem-on-chip (soc) を用いて実装され,レネットトレーニングを97.73%に高速収束させた。 より大規模なモデルのトレーニングの有効性は、現実的なハードウェアパラメータを用いて評価され、アナログCIMモジュールが、完全精度のソフトウェアトレーニングモデルに匹敵する精度で、効率的な混合精度DNNトレーニングを可能にすることを示す。 さらに、チップでトレーニングされたモデルは本質的にハードウェアのバリエーションに対して堅牢であり、追加のトレーニングなしでCIM推論チップに直接マッピングできる。

The need for deep neural network (DNN) models with higher performance and better functionality leads to the proliferation of very large models. Model training, however, requires intensive computation time and energy. Memristor-based compute-in-memory (CIM) modules can perform vector-matrix multiplication (VMM) in situ and in parallel, and have shown great promises in DNN inference applications. However, CIM-based model training faces challenges due to non-linear weight updates, device variations, and low-precision in analog computing circuits. In this work, we experimentally implement a mixed-precision training scheme to mitigate these effects using a bulk-switching memristor CIM module. Lowprecision CIM modules are used to accelerate the expensive VMM operations, with high precision weight updates accumulated in digital units. Memristor devices are only changed when the accumulated weight update value exceeds a pre-defined threshold. The proposed scheme is implemented with a system-on-chip (SoC) of fully integrated analog CIM modules and digital sub-systems, showing fast convergence of LeNet training to 97.73%. The efficacy of training larger models is evaluated using realistic hardware parameters and shows that that analog CIM modules can enable efficient mix-precision DNN training with accuracy comparable to full-precision software trained models. Additionally, models trained on chip are inherently robust to hardware variations, allowing direct mapping to CIM inference chips without additional re-training.
翻訳日:2023-05-25 21:37:11 公開日:2023-05-23
# In-the-Wild" クロスタスク下流音声用ウィスパーベース表現の伝達性について

On the Transferability of Whisper-based Representations for "In-the-Wild" Cross-Task Downstream Speech Applications ( http://arxiv.org/abs/2305.14546v1 )

ライセンス: Link先を確認
Vamsikrishna Chemudupati, Marzieh Tahaei, Heitor Guimaraes, Arthur Pimentel, Anderson Avila, Mehdi Rezagholizadeh, Boxing Chen, Tiago Falk(参考訳) 大規模自己教師付き事前訓練音声モデルは、様々な音声処理タスクにおいて顕著な成功を収めた。 これらのモデルの自己教師付きトレーニングは、自動音声認識(ASR)から話者識別まで、さまざまな下流タスクに使用できる普遍的な音声表現をもたらす。 最近、トランスフォーマーベースのモデルであるWhisperが提案され、ASRの弱い教師付きデータに基づいて訓練され、最先端の自己教師型モデルよりも優れていた。 本稿では,ASRにおけるWhisperの優位性を考慮し,SUPERBベンチマークにおける他の4つの音声タスクの表現の伝達可能性について検討する。 さらに,環境騒音や室内残響によって音声が劣化する「野生」作業におけるWhisper表現の堅牢性について検討する。 実験の結果、whisperはタスクと環境条件にまたがる有望な結果を達成し、タスク間の実世界展開の可能性を示している。

Large self-supervised pre-trained speech models have achieved remarkable success across various speech-processing tasks. The self-supervised training of these models leads to universal speech representations that can be used for different downstream tasks, ranging from automatic speech recognition (ASR) to speaker identification. Recently, Whisper, a transformer-based model was proposed and trained on large amount of weakly supervised data for ASR; it outperformed several state-of-the-art self-supervised models. Given the superiority of Whisper for ASR, in this paper we explore the transferability of the representation for four other speech tasks in SUPERB benchmark. Moreover, we explore the robustness of Whisper representation for ``in the wild'' tasks where speech is corrupted by environment noise and room reverberation. Experimental results show Whisper achieves promising results across tasks and environmental conditions, thus showing potential for cross-task real-world deployment.
翻訳日:2023-05-25 21:36:41 公開日:2023-05-23
# DF2M:高次元関数時系列のための説明可能なディープベイズ非パラメトリックモデル

DF2M: An Explainable Deep Bayesian Nonparametric Model for High-Dimensional Functional Time Series ( http://arxiv.org/abs/2305.14543v1 )

ライセンス: Link先を確認
Yirui Liu, Xinghao Qiao, Yulong Pei, Liying Wang(参考訳) 本稿では,高次元関数時系列解析のためのベイズ非パラメトリックモデルであるDeep Functional Factor Model (DF2M)を提案する。 df2m はインドのビュッフェ過程と、非マルコフおよび非線形時空力学を捉えるために深いカーネル関数を持つマルチタスクガウス過程を利用している。 多くのブラックボックスディープラーニングモデルとは異なり、df2mはファクタモデルを構築し、カーネル関数にディープニューラルネットワークを組み込むことで、ニューラルネットワークを使用するための説明可能な方法を提供する。 さらに,df2mを推定する計算効率の高い変分推論アルゴリズムを開発した。 4つの実世界のデータセットから得られた実験結果は、df2mが従来の高次元関数時系列のディープラーニングモデルよりも説明可能性が高く、予測精度も優れていることを示している。

In this paper, we present Deep Functional Factor Model (DF2M), a Bayesian nonparametric model for analyzing high-dimensional functional time series. The DF2M makes use of the Indian Buffet Process and the multi-task Gaussian Process with a deep kernel function to capture non-Markovian and nonlinear temporal dynamics. Unlike many black-box deep learning models, the DF2M provides an explainable way to use neural networks by constructing a factor model and incorporating deep neural networks within the kernel function. Additionally, we develop a computationally efficient variational inference algorithm for inferring the DF2M. Empirical results from four real-world datasets demonstrate that the DF2M offers better explainability and superior predictive accuracy compared to conventional deep learning models for high-dimensional functional time series.
翻訳日:2023-05-25 21:36:24 公開日:2023-05-23
# ファクチュアルリゾナーとしてのLLM:既存のベンチマークとそれ以上の視点

LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond ( http://arxiv.org/abs/2305.14540v1 )

ライセンス: Link先を確認
Philippe Laban, Wojciech Kry\'sci\'nski, Divyansh Agarwal, Alexander R. Fabbri, Caiming Xiong, Shafiq Joty, Chien-Sheng Wu(参考訳) 近年のLCMの実用化に伴い, 誤情報の伝播を低減し, モデル出力の信頼性を向上させるために, 事実上の矛盾を効果的に検出できる手法が求められている。 既存の事実整合性ベンチマークをテストすると、いくつかの大規模言語モデル(LLM)が、従来の非LLM法と比較して、事実整合性検出のための分類ベンチマークを競合的に実行していることが分かる。 しかし、より詳細な分析により、ほとんどのLLMはタスクのより複雑な定式化に失敗し、既存の評価ベンチマークの問題を露呈し、評価精度に影響を及ぼすことが明らかになった。 そこで本稿では,SummEditsと呼ばれる10ドメインベンチマークで不整合検出ベンチマークを作成し,実装するための新しいプロトコルを提案する。 この新しいベンチマークは、従来のベンチマークの20倍の費用効果があり、アノテータ間の合意を約0.9と見積もっている。 ほとんどのLLMはSummEditsで苦労し、パフォーマンスはランダムな確率に近づいた。 最高のパフォーマンスモデルであるGPT-4は、推定された人間のパフォーマンスよりも8倍低く、LLMが事実を推論し、不整合を検知する能力のギャップを浮き彫りにしている。

With the recent appearance of LLMs in practical settings, having methods that can effectively detect factual inconsistencies is crucial to reduce the propagation of misinformation and improve trust in model outputs. When testing on existing factual consistency benchmarks, we find that a few large language models (LLMs) perform competitively on classification benchmarks for factual inconsistency detection compared to traditional non-LLM methods. However, a closer analysis reveals that most LLMs fail on more complex formulations of the task and exposes issues with existing evaluation benchmarks, affecting evaluation precision. To address this, we propose a new protocol for inconsistency detection benchmark creation and implement it in a 10-domain benchmark called SummEdits. This new benchmark is 20 times more cost-effective per sample than previous benchmarks and highly reproducible, as we estimate inter-annotator agreement at about 0.9. Most LLMs struggle on SummEdits, with performance close to random chance. The best-performing model, GPT-4, is still 8\% below estimated human performance, highlighting the gaps in LLMs' ability to reason about facts and detect inconsistencies when they occur.
翻訳日:2023-05-25 21:36:13 公開日:2023-05-23
# カスケードビーム探索: ニューラルネットワーク翻訳のためのプラグ・アンド・プレイ語法

Cascaded Beam Search: Plug-and-Play Terminology-Forcing For Neural Machine Translation ( http://arxiv.org/abs/2305.14538v1 )

ライセンス: Link先を確認
Fr\'ed\'eric Odermatt and B\'eni Egressy and Roger Wattenhofer(参考訳) 本稿では,用語制約付き翻訳のためのプラグアンドプレイ方式を提案する。 用語の制約は多くの現代翻訳パイプラインの重要な側面である。 専門ドメインと新興ドメイン(新型コロナウイルスのパンデミックなど)では、技術的用語の正確な翻訳が重要である。 近年のアプローチでは、入力と共に対象用語を入力として入力から出力文にコピーするモデルがしばしば訓練されている。 しかし、基礎となる言語モデルが変更されたり、システムが新しいドメインに特化すべき時に、高価なトレーニングが必要になる。 本研究では,訓練を必要とせず,プラグ・アンド・プレイの用語検索手法であるカスケードビーム探索を提案する。 Cascade Beam Searchには2つの部分がある。 1)対象用語の確率を増加させるためのロジット操作 2) グリッドビームサーチに基づくカスケーディングビームのセットアップでは, ビームが含む用語の数によってグループ化される。 我々は,WMT21用語翻訳タスクの上位課題に対抗して提案手法の性能を評価する。 我々のプラグイン・アンド・プレイ方式は、ドメイン固有の言語モデルを用いることなく、追加のトレーニングも行わずに、入賞申請と同等に動作する。

This paper presents a plug-and-play approach for translation with terminology constraints. Terminology constraints are an important aspect of many modern translation pipelines. In both specialized domains and newly emerging domains (such as the COVID-19 pandemic), accurate translation of technical terms is crucial. Recent approaches often train models to copy terminologies from the input into the output sentence by feeding the target terminology along with the input. But this requires expensive training whenever the underlying language model is changed or the system should specialize to a new domain. We propose Cascade Beam Search, a plug-and-play terminology-forcing approach that requires no training. Cascade Beam Search has two parts: 1) logit manipulation to increase the probability of target terminologies and 2) a cascading beam setup based on grid beam search, where beams are grouped by the number of terminologies they contain. We evaluate the performance of our approach by competing against the top submissions of the WMT21 terminology translation task. Our plug-and-play approach performs on par with the winning submissions without using a domain-specific language model and with no additional training.
翻訳日:2023-05-25 21:35:52 公開日:2023-05-23
# ソーシャルネットワークにおける分極の分散化

Disincentivizing Polarization in Social Networks ( http://arxiv.org/abs/2305.14537v1 )

ライセンス: Link先を確認
Christian Borgs, Jennifer Chayes, Christian Ikeokwu, Ellen Vitercik(参考訳) ソーシャルネットワークでは、アルゴリズムによるパーソナライゼーションによって、ユーザーが興味から逸脱するコンテンツを見ることがほとんどないフィルターバブルに陥る。 本稿では,フィルタバブルを回避するコンテンツキュレーションとパーソナライズのためのモデルを提案する。 私たちのモデルでは、プラットフォームは、$T$タイムステップ以上の$n$ユーザと対話し、$k$カテゴリから各ユーザのコンテンツを選択する。 プラットフォームはマルチアームのバンディットのように確率的な報酬を受け取る。 フィルタバブルを避けるために、一部のユーザーがあるカテゴリーのコンテンツを見せられた場合、そのコンテンツの少なくとも一部を全ユーザーが見るべきであるという直感を描いている。 我々はまず,この直観のナイーブな形式化をまず分析し,意図しない結果をもたらすことを示した。 これは、この重荷を公平に分配する我々のモデルにつながります。 特定のタイプのコンテンツを表示する確率は、すべてのユーザがそのタイプのコンテンツを示す平均確率の少なくとも$\gamma$である必要がある。 完全パーソナライゼーションは$\gamma = 0$に対応し、完全ホモジェネライゼーションは$\gamma = 1$に対応するので、$\gamma$はパーソナライゼーションのレベルでハードキャップを符号化する。 また、プラットフォームが上限を超えることができるが、制約違反に比例するペナルティを支払う追加の定式化も分析する。 これらの制約を満たす推奨事項を最適化するためのアルゴリズム的保証を提供する。 これらには、$\gamma \in [0,1]$の全範囲における上界と下界がほぼ一致することを含み、UCBのマルチエージェント多様体の報酬がほぼ最適であることを示す。 実世界の嗜好データを用いて,本モデルでは,利用者が制約条件下での小規模のユーティリティ損失のみを伴い,多様化の負担を負うことを実証的に検証する。

On social networks, algorithmic personalization drives users into filter bubbles where they rarely see content that deviates from their interests. We present a model for content curation and personalization that avoids filter bubbles, along with algorithmic guarantees and nearly matching lower bounds. In our model, the platform interacts with $n$ users over $T$ timesteps, choosing content for each user from $k$ categories. The platform receives stochastic rewards as in a multi-arm bandit. To avoid filter bubbles, we draw on the intuition that if some users are shown some category of content, then all users should see at least a small amount of that content. We first analyze a naive formalization of this intuition and show it has unintended consequences: it leads to ``tyranny of the majority'' with the burden of diversification borne disproportionately by those with minority interests. This leads us to our model which distributes this burden more equitably. We require that the probability any user is shown a particular type of content is at least $\gamma$ times the average probability all users are shown that type of content. Full personalization corresponds to $\gamma = 0$ and complete homogenization corresponds to $\gamma = 1$; hence, $\gamma$ encodes a hard cap on the level of personalization. We also analyze additional formulations where the platform can exceed its cap but pays a penalty proportional to its constraint violation. We provide algorithmic guarantees for optimizing recommendations subject to these constraints. These include nearly matching upper and lower bounds for the entire range of $\gamma \in [0,1]$ showing that the reward of a multi-agent variant of UCB is nearly optimal. Using real-world preference data, we empirically verify that under our model, users share the burden of diversification with only minor utility loss under our constraints.
翻訳日:2023-05-25 21:35:36 公開日:2023-05-23
# MathDial: 数学推論問題に根ざした豊富な教育特性を持つ対話学習データセット

MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties Grounded in Math Reasoning Problems ( http://arxiv.org/abs/2305.14536v1 )

ライセンス: Link先を確認
Jakub Macina, Nico Daheim, Sankalan Pal Chowdhury, Tanmay Sinha, Manu Kapur, Iryna Gurevych, Mrinmaya Sachan(参考訳) 自動対話学習は、教育をパーソナライズし、アクセスしやすくする大きな可能性を秘めているが、そのようなシステムの研究は、十分に大規模で高品質なデータセットが不足しているために妨げられている。 しかし、学習セッションの記録がプライバシーの懸念を引き起こし、クラウドソーシングがデータ品質の不足につながるため、このようなデータセットの収集は依然として困難である。 そこで本研究では,実際の教師と,一般的な学生エラーを表現するために構築された大規模言語モデル(llm)の足場を組み合わせることで,半合成的に対話を生成できる枠組みを提案する。 本稿では,このフレームワークを用いて現在進行中のデータセットであるMathDialを収集する取り組みについて述べる。 多段階の数学用語問題に基づく1.5kの指導対話。 我々のデータセットは、学生が問題を探るためのセンスメイキングの質問を指導することに焦点を当て、豊かな教育特性を示す。 さらに、MathDialとその基盤となるアノテーションは、言語モデルをより効果的なチューター(問題解決者だけでなく)として微調整し、研究コミュニティが取り組まなければならない課題を強調します。 NLPのこの社会的に重要な分野の研究を促進するために、我々のデータセットを公開します。

Although automatic dialogue tutors hold great potential in making education personalized and more accessible, research on such systems has been hampered by a lack of sufficiently large and high-quality datasets. However, collecting such datasets remains challenging, as recording tutoring sessions raises privacy concerns and crowdsourcing leads to insufficient data quality. To address this problem, we propose a framework to semi-synthetically generate such dialogues by pairing real teachers with a large language model (LLM) scaffolded to represent common student errors. In this paper, we describe our ongoing efforts to use this framework to collect MathDial, a dataset of currently ca. 1.5k tutoring dialogues grounded in multi-step math word problems. We show that our dataset exhibits rich pedagogical properties, focusing on guiding students using sense-making questions to let them explore problems. Moreover, we outline that MathDial and its grounding annotations can be used to finetune language models to be more effective tutors (and not just solvers) and highlight remaining challenges that need to be addressed by the research community. We will release our dataset publicly to foster research in this socially important area of NLP.
翻訳日:2023-05-25 21:35:03 公開日:2023-05-23
# 定記憶注意神経プロセス

Constant Memory Attentive Neural Processes ( http://arxiv.org/abs/2305.14567v1 )

ライセンス: Link先を確認
Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Yoshua Bengio, Mohamed Osama Ahmed(参考訳) ニューラルプロセス(NP)は予測の不確実性を推定するための効率的な方法である。 npsは、コンテキストデータセットをエンコードするコンディショニングフェーズと、コンテキストデータセットエンコーディングを使用してモデルが予測を行うクエリフェーズと、モデルが新たに受信したデータポイントでエンコーディングを更新する更新フェーズとからなる。 しかし、最先端の手法では、特に低リソースの環境では、データセットのサイズに合わせて線形または二次的にスケールする追加メモリが必要である。 本研究では, 条件付け, クエリ, 更新フェーズにのみ一定のメモリを必要とするNP変種であるCMANP(Constant Memory Attentive Neural Processs)を提案する。 cmanpsを構築する際に,その出力を一定メモリで計算し,定数計算で更新可能な,新しい汎用注意ブロックであるconstant memory attention block (cmab)を提案する。 実験により,CMANPは,(1)従来の手法よりもメモリ効率が高く,(2)より拡張性が高い,という条件下で,メタ回帰および画像補完タスクにおける最先端の処理結果が得られることを示した。

Neural Processes (NPs) are efficient methods for estimating predictive uncertainties. NPs comprise of a conditioning phase where a context dataset is encoded, a querying phase where the model makes predictions using the context dataset encoding, and an updating phase where the model updates its encoding with newly received datapoints. However, state-of-the-art methods require additional memory which scales linearly or quadratically with the size of the dataset, limiting their applications, particularly in low-resource settings. In this work, we propose Constant Memory Attentive Neural Processes (CMANPs), an NP variant which only requires constant memory for the conditioning, querying, and updating phases. In building CMANPs, we propose Constant Memory Attention Block (CMAB), a novel general-purpose attention block that can compute its output in constant memory and perform updates in constant computation. Empirically, we show CMANPs achieve state-of-the-art results on meta-regression and image completion tasks while being (1) significantly more memory efficient than prior methods and (2) more scalable to harder settings.
翻訳日:2023-05-25 21:29:24 公開日:2023-05-23
# 全スライド画像レベルでの多ラベル腎画像分割のための加速パイプライン

An Accelerated Pipeline for Multi-label Renal Pathology Image Segmentation at the Whole Slide Image Level ( http://arxiv.org/abs/2305.14566v1 )

ライセンス: Link先を確認
Haoju Leng, Ruining Deng, Zuhayr Asad, R. Michael Womick, Haichun Yang, Lipeng Wan, and Yuankai Huo(参考訳) 深層学習技術は、ピクセルレベルの組織評価に必要な労働集約的かつ時間を要する手動アノテーションを緩和するために広く用いられている。 これまでの研究では,計算量が少ないマルチクラスマルチスケールの病理分節化を実現する効率的な単一動的ネットワークであるomni-segを導入した。 しかし、パッチワイドセグメンテーションのパラダイムは依然としてOmni-Segに当てはまり、WSI(Whole Slide Images)のセグメンテーションを提供するのにパイプラインは時間がかかる。 本稿では,繰り返し計算処理の削減を目的としたOmni-Segパイプラインの強化版を提案し,GPUを用いてモデルの性能向上と高速化の両面においてモデル予測を高速化する。 提案手法のイノベーティブな貢献は2つある: (1) エンドツーエンドのslide-wise multi-tissue segmentation for wsisのためにdockerがリリースされ、(2) パイプラインがgpuにデプロイされて予測を加速し、より短い時間でセグメント品質が向上する。 提案された高速化実装により、標準的な針生検WSIの平均処理時間を2.3時間から22分に短縮し、キドニー組織アトラス(KPMP)データセットから35 WSIを使用した。 ソースコードとDockerはhttps://github.com/ddrrnn123/Omni-Segで公開されている。

Deep-learning techniques have been used widely to alleviate the labour-intensive and time-consuming manual annotation required for pixel-level tissue characterization. Our previous study introduced an efficient single dynamic network - Omni-Seg - that achieved multi-class multi-scale pathological segmentation with less computational complexity. However, the patch-wise segmentation paradigm still applies to Omni-Seg, and the pipeline is time-consuming when providing segmentation for Whole Slide Images (WSIs). In this paper, we propose an enhanced version of the Omni-Seg pipeline in order to reduce the repetitive computing processes and utilize a GPU to accelerate the model's prediction for both better model performance and faster speed. Our proposed method's innovative contribution is two-fold: (1) a Docker is released for an end-to-end slide-wise multi-tissue segmentation for WSIs; and (2) the pipeline is deployed on a GPU to accelerate the prediction, achieving better segmentation quality in less time. The proposed accelerated implementation reduced the average processing time (at the testing stage) on a standard needle biopsy WSI from 2.3 hours to 22 minutes, using 35 WSIs from the Kidney Tissue Atlas (KPMP) Datasets. The source code and the Docker have been made publicly available at https://github.com/ddrrnn123/Omni-Seg.
翻訳日:2023-05-25 21:29:03 公開日:2023-05-23
# pearl: 大きな言語モデルに長いドキュメントに対するアクションの計画と実行を促す

PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents ( http://arxiv.org/abs/2305.14564v1 )

ライセンス: Link先を確認
Simeng Sun, Yang Liu, Shuohang Wang, Chenguang Zhu, Mohit Iyyer(参考訳) チェーンオブ思想のような戦略は、入力例を中間ステップに分解することで複雑な推論タスクにおける大規模言語モデル(LLM)の性能を向上させる。 しかし、各中間ステップの分解と出力の両方を得るのが自明であるような、長い入力文書の推論にそのような方法を適用する方法はまだ不明である。 本研究では, アクションマイニング, プラン定式化, 計画実行の3段階からなる, 長い文書に対する推論を改善するためのプロンプトフレームワークであるPEARLを提案する。 より具体的には、長い文書に関する質問が与えられた場合、PEARLは質問を一連のアクション(例えば、SUMMARIZE、FIND_EVENT、FIND_relation)に分解し、文書上で実行して答えを得る。 PEARLの各ステージは、最小限の人間入力でLLMをゼロショットまたは少数ショットでプロンプトすることで実装される。 PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長文よりも複雑な推論を必要とする質問を含む。 PEARLは、このデータセット上でゼロショットやチェーンオブ思想よりも優れており、アブレーション実験により、PEARLの各ステージがそのパフォーマンスに重要であることが示されている。 全体として、PEARLはLLMを活用して長いドキュメントを推論する最初のステップである。

Strategies such as chain-of-thought prompting improve the performance of large language models (LLMs) on complex reasoning tasks by decomposing input examples into intermediate steps. However, it remains unclear how to apply such methods to reason over long input documents, in which both the decomposition and the output of each intermediate step are non-trivial to obtain. In this work, we propose PEARL, a prompting framework to improve reasoning over long documents, which consists of three stages: action mining, plan formulation, and plan execution. More specifically, given a question about a long document, PEARL decomposes the question into a sequence of actions (e.g., SUMMARIZE, FIND_EVENT, FIND_RELATION) and then executes them over the document to obtain the answer. Each stage of PEARL is implemented via zero-shot or few-shot prompting of LLMs (in our work, GPT-4) with minimal human input. We evaluate PEARL on a challenging subset of the QuALITY dataset, which contains questions that require complex reasoning over long narrative texts. PEARL outperforms zero-shot and chain-of-thought prompting on this dataset, and ablation experiments show that each stage of PEARL is critical to its performance. Overall, PEARL is a first step towards leveraging LLMs to reason over long documents.
翻訳日:2023-05-25 21:28:34 公開日:2023-05-23
# GiPH: 適応的不均一コンピューティングのための一般化可能な配置学習

GiPH: Generalizable Placement Learning for Adaptive Heterogeneous Computing ( http://arxiv.org/abs/2305.14562v1 )

ライセンス: Link先を確認
Yi Hu, Chaoran Zhang, Edward Andert, Harshul Singh, Aviral Shrivastava, James Laudon, Yanqi Zhou, Bob Iannucci, Carlee Joe-Wong(参考訳) ターゲットデバイスクラスタ内の計算アプリケーションを注意深く配置することは、アプリケーション完了時間の短縮に不可欠である。 この問題はnpの硬さと組合せの性質から難しい。 近年,クラウドサーバ間でニューラルネットワークを配置する問題に動機付けられた,未発見のアプリケーションに適用可能な配置方針を学ぶための学習ベースのアプローチが提案されている。 しかし、これらのアプローチは一般的にデバイスクラスタが固定されていると仮定するが、これはモバイルやエッジコンピューティングの設定ではそうではない。 動的デバイスクラスタに一般化するポリシを学習するGiPHという新しい学習手法を提案する。 1)適切な配置を選択するために必要な情報を効率的に符号化する新しいグラフ表現gpNet 2) gpNet情報の要約を学習するスケーラブルグラフニューラルネットワーク(GNN)。 GiPHは配置問題を、任意のサイズの問題にスケールするこのシーケンスを選択するためのポリシーを学ぶことで、配置改善のシーケンスを見つける方法に転換する。 タスクグラフとデバイスクラスタの広い範囲でGiPHを評価し,学習したポリシが新たな問題インスタンスの適切な配置を迅速に見つけることを示す。 GiPHは他の検索ベースの配置ポリシーよりも最大3倍速く、完了時間の最大30.5%で配置を見つける。

Careful placement of a computational application within a target device cluster is critical for achieving low application completion time. The problem is challenging due to its NP-hardness and combinatorial nature. In recent years, learning-based approaches have been proposed to learn a placement policy that can be applied to unseen applications, motivated by the problem of placing a neural network across cloud servers. These approaches, however, generally assume the device cluster is fixed, which is not the case in mobile or edge computing settings, where heterogeneous devices move in and out of range for a particular application. We propose a new learning approach called GiPH, which learns policies that generalize to dynamic device clusters via 1) a novel graph representation gpNet that efficiently encodes the information needed for choosing a good placement, and 2) a scalable graph neural network (GNN) that learns a summary of the gpNet information. GiPH turns the placement problem into that of finding a sequence of placement improvements, learning a policy for selecting this sequence that scales to problems of arbitrary size. We evaluate GiPH with a wide range of task graphs and device clusters and show that our learned policy rapidly find good placements for new problem instances. GiPH finds placements with up to 30.5% lower completion times, searching up to 3X faster than other search-based placement policies.
翻訳日:2023-05-25 21:28:12 公開日:2023-05-23
# 負のフィードバックトレーニング:NVCiM DNN加速器のロバスト性を改善する新しい概念

Negative Feedback Training: A Novel Concept to Improve Robustness of NVCiM DNN Accelerators ( http://arxiv.org/abs/2305.14561v1 )

ライセンス: Link先を確認
Yifan Qin, Zheyu Yan, Wujie Wen, Xiaobo Sharon Hu and Yiyu Shi(参考訳) 非揮発性メモリ(NVM)デバイスを利用したCompute-in-Memory(CiM)は、ディープニューラルネットワーク(DNN)を加速するための極めて有望で効率的なアプローチを示す。 ネットワーク重みを同時に保存し、同じクロスバー構造内で行列演算を実行することで、CiMアクセラレータは最小の領域要件と例外的なエネルギー効率を備えたDNN推論加速を提供する。 しかし、NVMデバイスの確率性や内在性の変化は、期待される結果と比べて、分類精度の低下などの性能劣化につながることが多い。 デバイスの変化を緩和し、堅牢性を高めるためにいくつかの方法が提案されているが、そのほとんどは全体的な変調に依存し、トレーニングプロセスへの制約を欠いている。 負のフィードバック機構からインスピレーションを得て,マルチエグジット機構を負のフィードバックとして利用し,デバイス変動の有無でDNNモデルの性能を向上させる新たなトレーニング手法を提案する。 本手法は,デバイス変動に対するdnnのロバスト性に対する対処において,最大12.49%の改善を達成し,最先端技術を超えている。

Compute-in-Memory (CiM) utilizing non-volatile memory (NVM) devices presents a highly promising and efficient approach for accelerating deep neural networks (DNNs). By concurrently storing network weights and performing matrix operations within the same crossbar structure, CiM accelerators offer DNN inference acceleration with minimal area requirements and exceptional energy efficiency. However, the stochasticity and intrinsic variations of NVM devices often lead to performance degradation, such as reduced classification accuracy, compared to expected outcomes. Although several methods have been proposed to mitigate device variation and enhance robustness, most of them rely on overall modulation and lack constraints on the training process. Drawing inspiration from the negative feedback mechanism, we introduce a novel training approach that uses a multi-exit mechanism as negative feedback to enhance the performance of DNN models in the presence of device variation. Our negative feedback training method surpasses state-of-the-art techniques by achieving an impressive improvement of up to 12.49% in addressing DNN robustness against device variation.
翻訳日:2023-05-25 21:27:53 公開日:2023-05-23
# 量子アルゴリズムの対称性試験のメナジェリー

A Menagerie of Symmetry Testing Quantum Algorithms ( http://arxiv.org/abs/2305.14560v1 )

ライセンス: Link先を確認
Margarite L. LaBorde(参考訳) この論文は、量子状態とチャネルの対称性の概念を確立し、量子コンピュータ上でこれらの特性をテストするアルゴリズムを記述することを目的としている。 理想的には、この作品は主題の自己完結型概観として機能する。 まず、必要な数学的背景を確立することから始める。 離散有限群から対称性の概念を生成する方法と、それが連続群にどのように一般化するかを示す。 次にこれらの概念をハミルトン対称性の研究に用いる。 本稿では、ハミルトニアンが群に対して対称性を示すかどうかを検証できる量子アルゴリズムを提案し、このアルゴリズムがDQC1-Completeであることを示す。 次に量子状態の対称性のテストについて論じる。 各アルゴリズムの受容確率は、テスト中の状態の最大対称忠実度と等しいことを証明し、非対称性の資源理論の様々な一般化を確立する。 次の章では、そのようなテストの受理確率の分析形式が対称群 $S_k$ のサイクル指数多項式によって与えられることを示す。 各々が有限群によって生成される量子分離可能性テストの族を導出し、そのようなすべてのアルゴリズムに対して、受け入れ確率は群のサイクル指数多項式によって決定されることを示す。 最後に、これらのテストのための明示的な回路構成を作成し分析し、対称群と巡回群に対応するテストがそれぞれ$o(k^2)$と$o(k\log(k))$制御スワップゲートで実行され、そこで$k$が状態のコピー数であることを示した。 最後に、これまでに公表されていない追加の結果、具体的には密度行列指数を用いた量子状態の対称性のテスト、アベリア群を用いたハミルトン対称性測定のさらなる結果、ブロック符号化されたハミルトニアンに対する代替ハミルトニアン対称性試験構築を含む。

This thesis aims to establish notions of symmetry for quantum states and channels as well as describe algorithms to test for these properties on quantum computers. Ideally, the work will serve as a self-contained overview of the subject. We begin by establishing the necessary mathematical background. We show how to generate a notion of symmetry from a discrete, finite group and how this generalizes to a continuous group. We then use these notions to investigate Hamiltonian symmetries. We propose quantum algorithms capable of testing whether a Hamiltonian exhibits symmetry with respect to a group and show that this algorithm is DQC1-Complete. We next discuss tests of symmetry for quantum states. We prove that the acceptance probability of each algorithm is equal to the maximum symmetric fidelity of the state being tested and establish various generalizations of the resource theory of asymmetry. In the next chapter, we show that the analytical form of the acceptance probability of such a test is given by the cycle index polynomial of the symmetric group $S_k$. We derive a family of quantum separability tests, each of which is generated by a finite group; for all such algorithms, we show that the acceptance probability is determined by the cycle index polynomial of the group. Finally, we produce and analyze explicit circuit constructions for these tests, showing that the tests corresponding to the symmetric and cyclic groups can be executed with $O(k^2)$ and $O(k\log(k))$ controlled-SWAP gates, respectively, where $k$ is the number of copies of the state. Finally, we include additional results not previously published; specifically, we give a test for symmetry of a quantum state using density matrix exponentiation, a further result of Hamiltonian symmetry measurements when using Abelian groups, and an alternate Hamiltonian symmetry test construction for a block-encoded Hamiltonian.
翻訳日:2023-05-25 21:27:32 公開日:2023-05-23
# Unraveling ChatGPT:AI生成目標指向対話とアノテーションの批判的分析

Unraveling ChatGPT: A Critical Analysis of AI-Generated Goal-Oriented Dialogues and Annotations ( http://arxiv.org/abs/2305.14556v1 )

ライセンス: Link先を確認
Tiziano Labruna, Sofia Brenna, Andrea Zaninello, Bernardo Magnini(参考訳) 大規模な事前学習された言語モデルは、プロンプト技術によって高品質なテキストを生成する前例のない能力を発揮している。 この事実は、データ収集とアノテーションの新たな可能性をもたらし、特にデータ収集が不十分で、収集が複雑で、高価で、センシティブな状況においてである。 本稿では,これらのモデルが目標指向対話を生成・注釈する可能性を探究し,その品質を評価するための詳細な分析を行う。 実験では,ChatGPTを用い,目標指向対話(タスク指向,協調,説明),2世代モード(対話型,ワンショット型),2言語(英語,イタリア語)の3カテゴリを網羅した。 広範囲な人間による評価に基づいて、生成した対話やアノテーションの質が、人間が生成したものと同等であることを示す。

Large pre-trained language models have exhibited unprecedented capabilities in producing high-quality text via prompting techniques. This fact introduces new possibilities for data collection and annotation, particularly in situations where such data is scarce, complex to gather, expensive, or even sensitive. In this paper, we explore the potential of these models to generate and annotate goal-oriented dialogues, and conduct an in-depth analysis to evaluate their quality. Our experiments employ ChatGPT, and encompass three categories of goal-oriented dialogues (task-oriented, collaborative, and explanatory), two generation modes (interactive and one-shot), and two languages (English and Italian). Based on extensive human-based evaluations, we demonstrate that the quality of generated dialogues and annotations is on par with those generated by humans.
翻訳日:2023-05-25 21:27:05 公開日:2023-05-23
# 全ての道はローマに通じる? トランスフォーマーの表現の不変性を探る

All Roads Lead to Rome? Exploring the Invariance of Transformers' Representations ( http://arxiv.org/abs/2305.14555v1 )

ライセンス: Link先を確認
Yuxin Ren, Qipeng Guo, Zhijing Jin, Shauli Ravfogel, Mrinmaya Sachan, Bernhard Sch\"olkopf, Ryan Cotterell(参考訳) トランスフォーマーモデルは様々なNLPタスクに推進力をもたらすため、モデルの学習された表現に関する多くの解釈可能性の研究を誘導する。 しかし,表現の信頼性に関する基本的な疑問を提起する。 具体的には、トランスフォーマーが本質的に同型表現空間を学習しているか、あるいは事前学習過程においてランダムな種子に敏感であるかを検討する。 本研究では,各モデルの表現空間を整列するために単射法を用いることを示唆する単射仮説を定式化する。 本稿では, 可逆ニューラルネットワーク BERT-INN に基づくモデルを提案し, 正準相関解析 (CCA) のような既存の単射法よりも効果的にビジェクションを学習する。 BERT-INNの利点は理論上も広範な実験を通じても示し、再現されたBERT埋め込みを整合させて、解釈可能性研究に意義のある洞察を引き出すために応用する。 私たちのコードはhttps://github.com/twinkle0331/BERT-similarityにあります。

Transformer models bring propelling advances in various NLP tasks, thus inducing lots of interpretability research on the learned representations of the models. However, we raise a fundamental question regarding the reliability of the representations. Specifically, we investigate whether transformers learn essentially isomorphic representation spaces, or those that are sensitive to the random seeds in their pretraining process. In this work, we formulate the Bijection Hypothesis, which suggests the use of bijective methods to align different models' representation spaces. We propose a model based on invertible neural networks, BERT-INN, to learn the bijection more effectively than other existing bijective methods such as the canonical correlation analysis (CCA). We show the advantage of BERT-INN both theoretically and through extensive experiments, and apply it to align the reproduced BERT embeddings to draw insights that are meaningful to the interpretability research. Our code is at https://github.com/twinkle0331/BERT-similarity.
翻訳日:2023-05-25 21:26:48 公開日:2023-05-23
# 敵対的機械学習とサイバーセキュリティ: リスク、課題、法的意義

Adversarial Machine Learning and Cybersecurity: Risks, Challenges, and Legal Implications ( http://arxiv.org/abs/2305.14553v1 )

ライセンス: Link先を確認
Micah Musser, Andrew Lohn, James X. Dempsey, Jonathan Spring, Ram Shankar Siva Kumar, Brenda Leong, Christina Liaghati, Cindy Martinez, Crystal D. Grant, Daniel Rohrer, Heather Frase, Jonathan Elliott, John Bansemer, Mikel Rodriguez, Mitt Regan, Rumman Chowdhury, Stefan Hermanek(参考訳) 2022年7月、ジョージタウン大学の center for security and emerging technology (cset) と、スタンフォードサイバー政策センターの geopolitics, technology, and governance プログラムは、人工知能システムの脆弱性と、より伝統的なタイプのソフトウェア脆弱性との関係を調べる専門家のワークショップを開催した。 議論されたトピックには、標準のサイバーセキュリティプロセスの下でai脆弱性が処理できる範囲、現在、ai脆弱性に関する情報の正確な共有を妨げる障壁、aiシステムに対する敵対的攻撃に関連する法的問題、および政府がai脆弱性の管理と緩和を改善する可能性のある領域が含まれる。 この報告は2つのことを成し遂げることを目的としている。 まず、AI脆弱性に関するハイレベルな議論を提供する。それらは、それらが他のタイプの脆弱性と無関係である方法や、情報共有とAI脆弱性の法的監視に関する現在の状況などだ。 第2に,ワークショップの参加者の大半が支持しているような,幅広い推奨事項の明確化を試みている。

In July 2022, the Center for Security and Emerging Technology (CSET) at Georgetown University and the Program on Geopolitics, Technology, and Governance at the Stanford Cyber Policy Center convened a workshop of experts to examine the relationship between vulnerabilities in artificial intelligence systems and more traditional types of software vulnerabilities. Topics discussed included the extent to which AI vulnerabilities can be handled under standard cybersecurity processes, the barriers currently preventing the accurate sharing of information about AI vulnerabilities, legal issues associated with adversarial attacks on AI systems, and potential areas where government support could improve AI vulnerability management and mitigation. This report is meant to accomplish two things. First, it provides a high-level discussion of AI vulnerabilities, including the ways in which they are disanalogous to other types of vulnerabilities, and the current state of affairs regarding information sharing and legal oversight of AI vulnerabilities. Second, it attempts to articulate broad recommendations as endorsed by the majority of participants at the workshop.
翻訳日:2023-05-25 21:26:31 公開日:2023-05-23
# 推論課題に基づく大規模言語モデルによる幻覚の源泉

Sources of Hallucination by Large Language Models on Inference Tasks ( http://arxiv.org/abs/2305.14552v1 )

ライセンス: Link先を確認
Nick McKenna, Tianyi Li, Liang Cheng, Mohammad Javad Hosseini, Mark Johnson, Mark Steedman(参考訳) 大規模言語モデル(llm)は、質問応答や要約といった応用タスクに必要な自然言語推論(nli)能力があると主張しているが、この能力は未検討である。 制御実験により,複数のLPMファミリー(LLaMA, GPT-3.5, PaLM)の行動調査を行った。 我々は,その性能を予測できる2つの要因を確立し,これらが生成LDMの主要な幻覚源であることを示す。 第一に、最も影響力のある要因はトレーニングデータの記憶である。 前提によらず,仮説がトレーニングテキストで検証された場合,NLIテストサンプルを偽ラベルとして示す。 さらに、名前付きエンティティIDが記憶データにアクセスするために"インデックス"として使用されることを示す。 第2に,LLMは単語の相対周波数を用いてコーパスベースのヒューリスティックを利用することを示す。 また,これらの因子に適合しないNLI試験において,LLMのスコアが有意に低下していることを示し,両者の緊張関係と性能トレードオフについても考察した。

Large Language Models (LLMs) are claimed to be capable of Natural Language Inference (NLI), necessary for applied tasks like question answering and summarization, yet this capability is under-explored. We present a series of behavioral studies on several LLM families (LLaMA, GPT-3.5, and PaLM) which probe their behavior using controlled experiments. We establish two factors which predict much of their performance, and propose that these are major sources of hallucination in generative LLM. First, the most influential factor is memorization of the training data. We show that models falsely label NLI test samples as entailing when the hypothesis is attested in the training text, regardless of the premise. We further show that named entity IDs are used as "indices" to access the memorized data. Second, we show that LLMs exploit a further corpus-based heuristic using the relative frequencies of words. We show that LLMs score significantly worse on NLI test samples which do not conform to these factors than those which do; we also discuss a tension between the two factors, and a performance trade-off.
翻訳日:2023-05-25 21:26:13 公開日:2023-05-23
# 複合音声認識を用いた実時間アイドリング車検出

Real-Time Idling Vehicles Detection Using Combined Audio-Visual Deep Learning ( http://arxiv.org/abs/2305.14579v1 )

ライセンス: Link先を確認
Xiwen Li, Tristalee Mangin, Surojit Saha, Evan Blanchard, Dillon Tang, Henry Poppe, Nathan Searle, Ouk Choi, Kerry Kelly, and Ross Whitaker(参考訳) 燃焼車両の排出は空気の質が悪く、大気中に温室効果ガスを放出する要因となり、自動車の汚染は多くの有害な健康影響と関係している。 学校や病院の降車ゾーンなど、広範な待合室や乗客の降車を伴う道路は、アイドリング車両の発生率と密度を上昇させる可能性がある。 これにより自動車の大気汚染が増大する。 したがって、アイドリング車両の検出は不要なアイドリングの監視と対応に役立ち、結果として生じる汚染に対処するためにリアルタイムまたはオフラインのシステムに統合することができる。 本稿では,実時間,動的車両アイドリング検出アルゴリズムを提案する。 提案するアイドル検出アルゴリズムと通知は、これらのアイドル車両を検出するアルゴリズムに依存している。 提案手法は、マルチセンサー、オーディオビジュアル、機械学習ワークフローを使用して、移動、エンジンオンによる静的、エンジンオフによる静的の3つの条件下で、アイドル車両を視覚的に検出する。 視覚車両運動検出装置は第1段に構築され、次にコントラスト学習に基づく潜在空間を訓練して静的車両エンジン音の分類を行う。 我々はソルトレイクシティの病院の退院地点でリアルタイムでシステムをテストする。 このデータセットは収集され、注釈付けされ、さまざまなモデルとタイプを含む。 実験の結果, エンジンのオン/オフを瞬時に検出でき, 71.01平均精度 (map) を達成した。

Combustion vehicle emissions contribute to poor air quality and release greenhouse gases into the atmosphere, and vehicle pollution has been associated with numerous adverse health effects. Roadways with extensive waiting and/or passenger drop off, such as schools and hospital drop-off zones, can result in high incidence and density of idling vehicles. This can produce micro-climates of increased vehicle pollution. Thus, the detection of idling vehicles can be helpful in monitoring and responding to unnecessary idling and be integrated into real-time or off-line systems to address the resulting pollution. In this paper we present a real-time, dynamic vehicle idling detection algorithm. The proposed idle detection algorithm and notification rely on an algorithm to detect these idling vehicles. The proposed method relies on a multi-sensor, audio-visual, machine-learning workflow to detect idling vehicles visually under three conditions: moving, static with the engine on, and static with the engine off. The visual vehicle motion detector is built in the first stage, and then a contrastive-learning-based latent space is trained for classifying static vehicle engine sound. We test our system in real-time at a hospital drop-off point in Salt Lake City. This in-situ dataset was collected and annotated, and it includes vehicles of varying models and types. The experiments show that the method can detect engine switching on or off instantly and achieves 71.01 mean average precision (mAP).
翻訳日:2023-05-25 21:18:43 公開日:2023-05-23
# ドットの接続:グラフニューラルネットワークを用いたテキスト分類に最適なグラフベースのテキスト表現は何か?

Connecting the Dots: What Graph-Based Text Representations Work Best for Text Classification using Graph Neural Networks? ( http://arxiv.org/abs/2305.14578v1 )

ライセンス: Link先を確認
Margarita Bugue\~no, Gerard de Melo(参考訳) 構造認識機械学習におけるグラフニューラルネットワーク(GNN)の成功を踏まえ、従来の特徴表現モデルに代わるテキスト分類への応用について多くの研究がなされている。 しかし、ほとんどの研究は特定の領域のみを考慮し、特定の特性を持つデータに基づいて検証した。 本研究は,テキスト分類に提案されているグラフに基づくテキスト表現手法の広範な実証的考察を行い,その分野における実践的意義と課題を明らかにする。 いくつかのGNNアーキテクチャとBERTを5つのデータセットで比較し、短いドキュメントと長いドキュメントを含む。 結果はこう示しています 一 グラフの性能がテキスト入力の特徴及び領域に強く関係していること。 二 BERTは、その卓越した性能にもかかわらず、短文を扱う際、収束が困難である。 三 グラフ手法は、特に長い文書に有用である。

Given the success of Graph Neural Networks (GNNs) for structure-aware machine learning, numerous studies have explored their application to text classification, as an alternative to traditional feature representation models. However, most studies considered just a specific domain and validated on data with particular characteristics. This work presents an extensive empirical investigation of graph-based text representation methods proposed for text classification, identifying practical implications and open challenges in the field. We compare several GNN architectures as well as BERT across five datasets, encompassing short and also long documents. The results show that: i) graph performance is highly related to the textual input features and domain, ii) despite its outstanding performance, BERT has difficulties converging when dealing with short texts, iii) graph methods are particularly beneficial for longer documents.
翻訳日:2023-05-25 21:18:17 公開日:2023-05-23
# 差分マスキング:継続トレーニングにおけるマスクの選択

Difference-Masking: Choosing What to Mask in Continued Pretraining ( http://arxiv.org/abs/2305.14577v1 )

ライセンス: Link先を確認
Alex Wilf, Syeda Nahida Akter, Leena Mathur, Paul Pu Liang, Sheryl Mathew, Mengrou Shou, Eric Nyberg, Louis-Philippe Morency(参考訳) 自己教師付き学習(SSL)と特にマスキングと予測の目的は、さまざまな下流タスクでSSLのパフォーマンスを約束している。 しかし、ほとんどのアプローチはランダムにマスクするが、何を隠すかを決めることは学習結果を大幅に改善できるという教育分野からの強い直感がある。 そこで本稿では,未学習対象ドメインと事前学習対象ドメインとの違いを考慮し,継続事前学習中のマスクを自動的に選択するアプローチである差分マスキングを紹介する。 経験的に、差分マスキングは4つの言語およびマルチモーダルビデオタスクにわたる事前訓練設定のベースラインよりも優れていた。 差分マスキングのクロスタスク適用性は、言語、ビジョン、その他のドメインでのSSL事前トレーニングのためのフレームワークの有効性を支持します。

Self-supervised learning (SSL) and the objective of masking-and-predicting in particular have led to promising SSL performance on a variety of downstream tasks. However, while most approaches randomly mask tokens, there is strong intuition from the field of education that deciding what to mask can substantially improve learning outcomes. We introduce Difference-Masking, an approach that automatically chooses what to mask during continued pretraining by considering what makes an unlabelled target domain different from the pretraining domain. Empirically, we find that Difference-Masking outperforms baselines on continued pretraining settings across four diverse language and multimodal video tasks. The cross-task applicability of Difference-Masking supports the effectiveness of our framework for SSL pretraining in language, vision, and other domains.
翻訳日:2023-05-25 21:18:04 公開日:2023-05-23
# 低リソース環境下でのアクティブラーニングによるパラメータ効率の良い言語モデルチューニング

Parameter-Efficient Language Model Tuning with Active Learning in Low-Resource Settings ( http://arxiv.org/abs/2305.14576v1 )

ライセンス: Link先を確認
Josip Juki\'c, Jan \v{S}najder(参考訳) プレトレーニング言語モデル(PLM)は、特に低リソースのドメインや言語において、効果的な微調整技術に対する需要が急増している。 ラベルの複雑さを最小限に抑えるために設計されたアルゴリズムセットであるactive learning (al)は、ラベルのボトルネックに直面する可能性を示している。 同時に、パラメータ効率のよい微調整(PEFT)用に設計されたアダプタモジュールは、低リソース設定において顕著な可能性を示している。 しかし、alとアダプタベースのpeftの相互作用は未定である。 本研究では,テキスト分類タスクの低リソース設定におけるALを用いたPEFT動作を実証的に検討した。 本研究は,低リソース環境下でのFFTよりもPEFTの方が優れていることを確認し,この利点がAL設定で持続することを示した。 最後に, PEFT と FFT の特性を, ダイナミックスとインスタンスレベルの表現を忘れるレンズで探索し, AL のインスタンス選択挙動と PEFT の安定性にリンクする。 本研究は, AL, PEFT, TAPTの低リソース環境における相乗的ポテンシャルを実証し, 効率的かつ効果的な微調整の進歩の道を開くものである。

Pre-trained language models (PLMs) have ignited a surge in demand for effective fine-tuning techniques, particularly in low-resource domains and languages. Active learning (AL), a set of algorithms designed to decrease labeling costs by minimizing label complexity, has shown promise in confronting the labeling bottleneck. Concurrently, adapter modules, designed for parameter-efficient fine-tuning (PEFT), have showcased notable potential in low-resource settings. However, the interplay between AL and adapter-based PEFT remains unexplored. In our study, we empirically investigate PEFT behavior with AL in low-resource settings for text classification tasks. Our findings affirm the superiority of PEFT over full-fine tuning (FFT) in low-resource settings and demonstrate that this advantage persists in AL setups. Finally, we delve into the properties of PEFT and FFT through the lens of forgetting dynamics and instance-level representations, linking them to AL instance selection behavior and the stability of PEFT. Our research underscores the synergistic potential of AL, PEFT, and TAPT in low-resource settings, paving the way for advancements in efficient and effective fine-tuning.
翻訳日:2023-05-25 21:17:53 公開日:2023-05-23
# ヒトiPSC再プログラム成功の早期予測に向けて

Towards Early Prediction of Human iPSC Reprogramming Success ( http://arxiv.org/abs/2305.14575v1 )

ライセンス: Link先を確認
Abhineet Singh, Ila Jasra, Omar Mouhammed, Nidheesh Dadheech, Nilanjan Ray, James Shapiro(参考訳) 本報告では,iPSCを再生細胞療法の候補として,ヒト誘導多能性幹細胞(iPSCs)のプログラム成功の早期自動予測の進歩について述べる。 そのため、数百万の細胞を培養し、単一の最適なクローンを特定するために複数のクローンの強力な生物学的精査が必要である。 熟成の初期段階において、どの細胞が最適なiPSCラインとして成立するかを確実に予測できる能力は、パーソナライズドメディカルへの実用的で費用対効果の高いアプローチである。 細胞増殖の経時変化に関する時間的情報はその将来の成長予測に不可欠である。 このデータを生成するために,我々はまず,超高分解能顕微鏡を用いて培養中のiPSCの連続時間ラプス撮影を行った。 そこで我々は、信頼できる手動識別が可能な後期画像に、細胞の位置とアイデンティティを注釈付けした。 次に, 半自動追跡システムを用いてラベルを後方に伝播させ, 成長初期のラベルを得る。 最後に、このデータを用いてディープニューラルネットワークをトレーニングし、セルのセグメンテーションと分類を自動実行する。 私たちのコードとデータはhttps://github.com/abhineet123/ipsc_predictionで入手できます。

This paper presents advancements in automated early-stage prediction of the success of reprogramming human induced pluripotent stem cells (iPSCs) as a potential source for regenerative cell therapies.The minuscule success rate of iPSC-reprogramming of around $ 0.01% $ to $ 0.1% $ makes it labor-intensive, time-consuming, and exorbitantly expensive to generate a stable iPSC line. Since that requires culturing of millions of cells and intense biological scrutiny of multiple clones to identify a single optimal clone. The ability to reliably predict which cells are likely to establish as an optimal iPSC line at an early stage of pluripotency would therefore be ground-breaking in rendering this a practical and cost-effective approach to personalized medicine. Temporal information about changes in cellular appearance over time is crucial for predicting its future growth outcomes. In order to generate this data, we first performed continuous time-lapse imaging of iPSCs in culture using an ultra-high resolution microscope. We then annotated the locations and identities of cells in late-stage images where reliable manual identification is possible. Next, we propagated these labels backwards in time using a semi-automated tracking system to obtain labels for early stages of growth. Finally, we used this data to train deep neural networks to perform automatic cell segmentation and classification. Our code and data are available at https://github.com/abhineet123/ipsc_prediction.
翻訳日:2023-05-25 21:17:32 公開日:2023-05-23
# 単語埋め込みにおける間接ステレオタイプの検出と緩和

Detecting and Mitigating Indirect Stereotypes in Word Embeddings ( http://arxiv.org/abs/2305.14574v1 )

ライセンス: Link先を確認
Erin George, Joyce Chew, Deanna Needell(参考訳) 有害なステレオタイプを含む単語の使用における社会的バイアスは、共通の単語埋め込み法によってしばしば学習される。 これらのバイアスは、単語とそのステレオタイプを明確に示すマーカーの間だけでなく、関連するステレオタイプを共有する単語の間にも現れる。 この後者の現象は、しばしば「間接バイアス」と呼ばれるが、偏見の以前の試みに抵抗している。 本稿では,分布型単語組込みにおける間接的バイアスを軽減するために,組込み学習前に単語間のバイアス付き関係を変更する手法であるbiased indirect relationship modification (birm)を提案する。 これは、与えられた一対の単語の共起確率が、偏りの属性を示す単語の存在によってどのように変化するかを考慮し、これを用いて偏りの属性の効果を平均化する。 本手法を評価するために, 単語埋め込みにおけるバイアスの測定値が, 単語埋め込みのセマンティック品質の低下と引き換えに小さくなることを示す。 さらに,単語埋め込み関連テスト(weat)を間接性ステレオタイプのための新しいテストセットで拡張し,間接性ステレオタイプを測定するための新しいテストを行う。 これらのテストでは、以前の研究で対処されなかったより微妙なステレオタイプの存在が示される。 提案手法は、これらの新しいステレオタイプの存在を減少させ、非ステレオタイプの単語埋め込みへの重要な次のステップとなる。

Societal biases in the usage of words, including harmful stereotypes, are frequently learned by common word embedding methods. These biases manifest not only between a word and an explicit marker of its stereotype, but also between words that share related stereotypes. This latter phenomenon, sometimes called "indirect bias,'' has resisted prior attempts at debiasing. In this paper, we propose a novel method called Biased Indirect Relationship Modification (BIRM) to mitigate indirect bias in distributional word embeddings by modifying biased relationships between words before embeddings are learned. This is done by considering how the co-occurrence probability of a given pair of words changes in the presence of words marking an attribute of bias, and using this to average out the effect of a bias attribute. To evaluate this method, we perform a series of common tests and demonstrate that measures of bias in the word embeddings are reduced in exchange for minor reduction in the semantic quality of the embeddings. In addition, we conduct novel tests for measuring indirect stereotypes by extending the Word Embedding Association Test (WEAT) with new test sets for indirect binary gender stereotypes. With these tests, we demonstrate the presence of more subtle stereotypes not addressed by previous work. The proposed method is able to reduce the presence of some of these new stereotypes, serving as a crucial next step towards non-stereotyped word embeddings.
翻訳日:2023-05-25 21:17:06 公開日:2023-05-23
# 精製とバッファ時間最適化による量子リピータの絡み合い分布

Entanglement Distribution in Quantum Repeater with Purification and Optimized Buffer Time ( http://arxiv.org/abs/2305.14573v1 )

ライセンス: Link先を確認
Allen Zang, Xinan Chen, Alexander Kolar, Joaquin Chung, Martin Suchara, Tian Zhong, Rajkumar Kettimuthu(参考訳) 長距離エンタングルメント分布を許容する量子リピータネットワークは、分散量子情報処理のバックボーンとなる。 本稿では,バッファ時間を最適化した量子リピータによる絡み合い分布を探索し,ノイズの多い量子メモリを備え,不完全な絡み合いの浄化と交換を行う。 エンドノード上のメモリ数の増加は、メモリ当たりのエンタングルメント分布率が高くなり、少なくとも完全操作の場合、高い忠実度エンタングルメント分布の確率が高くなることを観察する。 しかし、不完全な操作を考慮すると、メモリ単位の絡み合いが記憶数の増加とともに減少するという驚くべき観察を行う。 この結果から,現実的な条件下でよく動作する量子リピータの構築には,有限かつ不完全な操作や資源を考慮した慎重なモデリングと設計が必要であることが示唆された。

Quantum repeater networks that allow long-distance entanglement distribution will be the backbone of distributed quantum information processing. In this paper we explore entanglement distribution using quantum repeaters with optimized buffer time, equipped with noisy quantum memories and performing imperfect entanglement purification and swapping. We observe that increasing the number of memories on end nodes leads to a higher entanglement distribution rate per memory and higher probability of high-fidelity entanglement distribution, at least for the case with perfect operations. When imperfect operations are considered, however, we make the surprising observation that the per-memory entanglement rate decreases with increasing number of memories. Our results suggest that building quantum repeaters that perform well under realistic conditions requires careful modeling and design that takes into consideration the operations and resources that are finite and imperfect.
翻訳日:2023-05-25 21:16:43 公開日:2023-05-23
# 文字から単語へ:オープン語彙言語理解のための階層型事前学習言語モデル

From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding ( http://arxiv.org/abs/2305.14571v1 )

ライセンス: Link先を確認
Li Sun, Florian Luisier, Kayhan Batmanghelich, Dinei Florencio, Cha Zhang(参考訳) 自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。 トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。 この固定語彙は、モデルの堅牢性をスペルエラーと新しいドメインに適応する能力に制限する。 そこで本研究では,階層的2レベルアプローチ(単語レベルでは1つ,シーケンスレベルでは1つ)を採用する,新しいオープンボキャブラリー言語モデルを提案する。 具体的には、浅いトランスフォーマーアーキテクチャを用いて文字から単語表現を学習するワード内モジュールと、単語シーケンス全体に参加することで各単語表現を文脈化する単語間トランスフォーマーモジュールを設計する。 このモデルでは,単語境界を明瞭に認識した文字列を直接操作するが,副語や単語レベルの語彙に偏りはない。 様々なダウンストリームタスクの実験により、我々の手法は強いベースラインを上回ります。 私たちの階層モデルは、テキストの破損やドメインシフトに対して堅牢であることも示しています。

Current state-of-the-art models for natural language understanding require a preprocessing step to convert raw text into discrete tokens. This process known as tokenization relies on a pre-built vocabulary of words or sub-word morphemes. This fixed vocabulary limits the model's robustness to spelling errors and its capacity to adapt to new domains. In this work, we introduce a novel open-vocabulary language model that adopts a hierarchical two-level approach: one at the word level and another at the sequence level. Concretely, we design an intra-word module that uses a shallow Transformer architecture to learn word representations from their characters, and a deep inter-word Transformer module that contextualizes each word representation by attending to the entire word sequence. Our model thus directly operates on character sequences with explicit awareness of word boundaries, but without biased sub-word or word-level vocabulary. Experiments on various downstream tasks show that our method outperforms strong baselines. We also demonstrate that our hierarchical model is robust to textual corruption and domain shift.
翻訳日:2023-05-25 21:16:28 公開日:2023-05-23
# 最小限の統一質問応答: モデルやプロンプトのチューニング?

Few-shot Unified Question Answering: Tuning Models or Prompts? ( http://arxiv.org/abs/2305.14569v1 )

ライセンス: Link先を確認
Srijan Bansal, Semih Yavuz, Bo Pang, Meghana Bhat, Yingbo Zhou(参考訳) 質問回答(QA)タスクは、特定の質問タイプ、知識ドメイン、推論スキルを調査することが多く、特定のカテゴリのQAタスクに対応する専門モデルにつながる。 最近の研究では、統合されたQAモデルの概念が検討されているが、そのようなモデルは通常、高リソースシナリオのために探索され、機能拡張のために再トレーニングが必要である。 これらの欠点を克服するために、低リソース環境下での統一QAのためのチューニング、モデル、プロンプトの2つのパラダイムの可能性を探る。 本稿は16のQAデータセットを用いて適用可能性の徹底的な分析を行い、高速チューニングとモデルチューニングを数ショットで行うことができ、良好な初期化が可能であることを明らかにした。 また,パラメータ共有により,低リソース環境下での事前トレーニングによる大幅なパフォーマンス向上を実現するとともに,簡単な知識伝達手法による迅速な初期化が実現可能であることを示した。 この研究は、少数の設定で統一qaの迅速なチューニングの利点と限界について洞察を与え、低リソースシナリオにおける効率的で効率的なシステムの開発に寄与する。

Question-answering (QA) tasks often investigate specific question types, knowledge domains, or reasoning skills, leading to specialized models catering to specific categories of QA tasks. While recent research has explored the idea of unified QA models, such models are usually explored for high-resource scenarios and require re-training to extend their capabilities. To overcome these drawbacks, the paper explores the potential of two paradigms of tuning, model, and prompts, for unified QA under a low-resource setting. The paper provides an exhaustive analysis of their applicability using 16 QA datasets, revealing that prompt tuning can perform as well as model tuning in a few-shot setting with a good initialization. The study also shows that parameter-sharing results in superior few-shot performance, simple knowledge transfer techniques for prompt initialization can be effective, and prompt tuning achieves a significant performance boost from pre-training in a low-resource regime. The research offers insights into the advantages and limitations of prompt tuning for unified QA in a few-shot setting, contributing to the development of effective and efficient systems in low-resource scenarios.
翻訳日:2023-05-25 21:16:09 公開日:2023-05-23
# GO-LDA: 一般化された最適線形判別分析

GO-LDA: Generalised Optimal Linear Discriminant Analysis ( http://arxiv.org/abs/2305.14568v1 )

ライセンス: Link先を確認
Jiahui Liu, Xiaohao Cai, and Mahesan Niranjan(参考訳) 線形識別分析(LDA)はパターン認識やデータ解析の研究や実践において有用なツールである。 クラス境界の線形性は常に期待できないが、事前訓練されたディープニューラルネットワークによる非線形投影は、線形識別がうまく機能する特徴空間に複雑なデータをマッピングするのに役立っている。 2値LDAの解は、クラス内およびクラス間散乱行列の固有値解析によって得られる。 多クラス LDA は一般化固有値問題である二項 LDA の拡張によって解かれることがよく知られており、そこから抽出できる最大の部分空間は与えられた問題のクラスの数よりも1次元低い。 本稿では, 識別方向の第一点とは別に, 多クラスLDAに対する一般化固有解析法は直交判別方向を導出せず, 投影データの識別を最大化しないことを示す。 驚いたことに、私たちの知る限りでは、このことはLDAに関する数十年にわたる文献では言及されていない。 この欠点を克服するために,本論文では,前述した方法と直交する判別方向を順次取得し,各ステップで最大化するための厳密な理論的支援を提示する。 これらの軸に沿った投影の分布を示し、これらの識別方向に投影されるデータの識別が最適分離であることを示し、これは多クラスLDAの一般化固有ベクトルよりもはるかに高い。 幅広いベンチマークタスクを用いて、パターン認識と分類の問題に対して、GO-LDA(Generalized Optimal LDA)と呼ばれる提案手法によって得られた最適な識別部分空間は、より優れた精度を提供できることを示す。

Linear discriminant analysis (LDA) has been a useful tool in pattern recognition and data analysis research and practice. While linearity of class boundaries cannot always be expected, nonlinear projections through pre-trained deep neural networks have served to map complex data onto feature spaces in which linear discrimination has served well. The solution to binary LDA is obtained by eigenvalue analysis of within-class and between-class scatter matrices. It is well known that the multiclass LDA is solved by an extension to the binary LDA, a generalised eigenvalue problem, from which the largest subspace that can be extracted is of dimension one lower than the number of classes in the given problem. In this paper, we show that, apart from the first of the discriminant directions, the generalised eigenanalysis solution to multiclass LDA does neither yield orthogonal discriminant directions nor maximise discrimination of projected data along them. Surprisingly, to the best of our knowledge, this has not been noted in decades of literature on LDA. To overcome this drawback, we present a derivation with a strict theoretical support for sequentially obtaining discriminant directions that are orthogonal to previously computed ones and maximise in each step the Fisher criterion. We show distributions of projections along these axes and demonstrate that discrimination of data projected onto these discriminant directions has optimal separation, which is much higher than those from the generalised eigenvectors of the multiclass LDA. Using a wide range of benchmark tasks, we present a comprehensive empirical demonstration that on a number of pattern recognition and classification problems, the optimal discriminant subspaces obtained by the proposed method, referred to as GO-LDA (Generalised Optimal LDA), can offer superior accuracy.
翻訳日:2023-05-25 21:15:49 公開日:2023-05-23
# 教師なし領域適応型医用画像翻訳のための注意的連続生成自己学習

Attentive Continuous Generative Self-training for Unsupervised Domain Adaptive Medical Image Translation ( http://arxiv.org/abs/2305.14589v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Jerry L. Prince, Fangxu Xing, Jiachen Zhuo, Reese Timothy, Maureen Stone, Georges El Fakhri, Jonghye Woo(参考訳) 自己学習は、ラベル付きソースドメインから学習した知識をラベル付きおよび不均一なターゲットドメインに適用する際に、ドメインシフトの問題を軽減するために使用される、教師なしドメイン適応(UDA)アプローチの重要なクラスである。 自己学習に基づくUDAは、最大ソフトマックス確率に基づく信頼度の高い擬似ラベルフィルタリングを通じて、分類やセグメンテーションを含む差別的なタスクにかなりの可能性を示してきたが、画像モダリティ変換を含む生成タスクのための自己学習ベースのUDAには、先行研究の欠如がある。 このギャップを埋めるため,本研究では,連続値予測と回帰目標を用いた,ドメイン適応画像翻訳のための生成的自己学習(gst)フレームワークの開発を目指す。 具体的には,合成データの信頼性を定量的に評価するために,変分ベイズ学習を用いてGST内のアレータリックな不確実性を定量化する。 また,背景領域の強調を損なうセルフアテンションスキームを導入し,トレーニングプロセスの支配を防止する。 適応は、疑似ラベルを持つ領域に注意を集中するターゲットドメインの監督を含む交互最適化スキームによって実行される。 T1-weighted MR-to-fractional anisotropy translation, T1-weighted MR-to-flactional anisotropy translationを含む2つの対象間翻訳タスクについて検討した。 対象領域の未整備データによる広範囲な検証の結果,GSTはUDA法と比較して優れた合成性能を示した。

Self-training is an important class of unsupervised domain adaptation (UDA) approaches that are used to mitigate the problem of domain shift, when applying knowledge learned from a labeled source domain to unlabeled and heterogeneous target domains. While self-training-based UDA has shown considerable promise on discriminative tasks, including classification and segmentation, through reliable pseudo-label filtering based on the maximum softmax probability, there is a paucity of prior work on self-training-based UDA for generative tasks, including image modality translation. To fill this gap, in this work, we seek to develop a generative self-training (GST) framework for domain adaptive image translation with continuous value prediction and regression objectives. Specifically, we quantify both aleatoric and epistemic uncertainties within our GST using variational Bayes learning to measure the reliability of synthesized data. We also introduce a self-attention scheme that de-emphasizes the background region to prevent it from dominating the training process. The adaptation is then carried out by an alternating optimization scheme with target domain supervision that focuses attention on the regions with reliable pseudo-labels. We evaluated our framework on two cross-scanner/center, inter-subject translation tasks, including tagged-to-cine magnetic resonance (MR) image translation and T1-weighted MR-to-fractional anisotropy translation. Extensive validations with unpaired target domain data showed that our GST yielded superior synthesis performance in comparison to adversarial training UDA methods.
翻訳日:2023-05-25 21:08:45 公開日:2023-05-23
# ドメイン固有の知識ベースをリンクするエンドツーエンドエンティティの評価:博物館コレクションから古代技術を学ぶ

Evaluating end-to-end entity linking on domain-specific knowledge bases: Learning about ancient technologies from museum collections ( http://arxiv.org/abs/2305.14588v1 )

ライセンス: Link先を確認
Sebastian Cadavid-Sanchez, Khalil Kacem, Rafael Aparecido Martins Frade, Johannes Boehm, Thomas Chaney, Danial Lashkari, Daniel Simig(参考訳) 社会的、経済的、歴史的問題を研究するために、社会科学と人文科学の研究者は、ますます大きな非構造化テキストデータセットを使い始めた。 NLPの最近の進歩は、そのようなデータを効率的に処理する多くのツールを提供しているが、既存のアプローチのほとんどは、ドメイン固有のタスクのパフォーマンスと適合性がよく理解されていない汎用的なソリューションに依存している。 本研究は,博物館コレクションデータの充実のための現代的エンティティリンクアプローチの利用を探求することで,この領域のギャップを埋める試みを示す。 このデータセットを用いて,7,510の言及と一致した1700以上のテキストからなるデータセットを収集し,市販のソリューションを詳細に評価し,最後に,このデータに基づいて最新のエンドツーエンドELモデルを微調整する。 我々の微調整モデルは、このドメインで現在利用可能な他のアプローチよりも大幅に優れており、このモデルの概念実証のユースケースを示す。 データセットと最高のモデルをリリースします。

To study social, economic, and historical questions, researchers in the social sciences and humanities have started to use increasingly large unstructured textual datasets. While recent advances in NLP provide many tools to efficiently process such data, most existing approaches rely on generic solutions whose performance and suitability for domain-specific tasks is not well understood. This work presents an attempt to bridge this domain gap by exploring the use of modern Entity Linking approaches for the enrichment of museum collection data. We collect a dataset comprising of more than 1700 texts annotated with 7,510 mention-entity pairs, evaluate some off-the-shelf solutions in detail using this dataset and finally fine-tune a recent end-to-end EL model on this data. We show that our fine-tuned model significantly outperforms other approaches currently available in this domain and present a proof-of-concept use case of this model. We release our dataset and our best model.
翻訳日:2023-05-25 21:08:15 公開日:2023-05-23
# 文脈化トピックコヒーレンスメトリクス

Contextualized Topic Coherence Metrics ( http://arxiv.org/abs/2305.14587v1 )

ライセンス: Link先を確認
Hamed Rahimi, Jacob Louis Hoover, David Mimno, Hubert Naacke, Camelia Constantin, Bernd Amann(参考訳) 最近のニューラルトピックモデリングの研究の爆発は、実際の意味のあるトピック識別を犠牲にして、自動トピック評価メトリクスを最適化したことで批判されている。 しかし、人間のアノテーションは高価で時間を要する。 本研究では,標準的な人間のトピック評価にインスパイアされたLCMに基づく手法を提案する。 我々は,完全自動バージョンと半自動CTCの両方を評価し,自動手法の効率を保ちながら,人間中心のコヒーレンス評価を可能にする。 6つのトピックモデルに関する他の5つのメトリクスと比較してctcを評価し、自動的なトピックコヒーレンスメソッドよりも優れており、短いドキュメントでうまく動作し、意味のない高精細なトピックには感受性がないことを突き止めた。

The recent explosion in work on neural topic modeling has been criticized for optimizing automated topic evaluation metrics at the expense of actual meaningful topic identification. But human annotation remains expensive and time-consuming. We propose LLM-based methods inspired by standard human topic evaluations, in a family of metrics called Contextualized Topic Coherence (CTC). We evaluate both a fully automated version as well as a semi-automated CTC that allows human-centered evaluation of coherence while maintaining the efficiency of automated methods. We evaluate CTC relative to five other metrics on six topic models and find that it outperforms automated topic coherence methods, works well on short documents, and is not susceptible to meaningless but high-scoring topics.
翻訳日:2023-05-25 21:07:57 公開日:2023-05-23
# pseudo neural tangent kernel surrogate model によるディープニューラルネットワークのロバストな説明

Robust Explanations for Deep Neural Networks via Pseudo Neural Tangent Kernel Surrogate Models ( http://arxiv.org/abs/2305.14585v1 )

ライセンス: Link先を確認
Andrew Engel, Zhichao Wang, Natalie S. Frank, Ioana Dumitriu, Sutanay Choudhury, Anand Sarwate, Tony Chiang(参考訳) 説明可能なAIに関する最近の進歩の1つは、具体的にはデータ属性タスクを通じて、説明と例示の戦略によるものである。 しかし、トレーニングデータに決定を属性付けるために使用される特徴空間は、ニューラルネットワーク(NN)の真の代表的代理モデルを形成するかどうかについて、互いに比較されていない。 Here, we demonstrate the efficacy of surrogate linear feature spaces to neural networks through two means: (1) we establish that a normalized psuedo neural tangent kernel (pNTK) is more correlated to the neural network decision functions than embedding based and influence based alternatives in both computer vision and large language model architectures; (2) we show that the attributions created from the normalized pNTK more accurately select perturbed training data in a data poisoning attribution task than these alternatives. これらの観測から、カーネル線形モデルは複数の分類アーキテクチャにまたがる効果的なサロゲートモデルであり、pNTKベースのカーネルは研究されている全てのカーネルの最も適切なサロゲート特徴空間である。

One of the ways recent progress has been made on explainable AI has been via explain-by-example strategies, specifically, through data attribution tasks. The feature spaces used to attribute decisions to training data, however, have not been compared against one another as to whether they form a truly representative surrogate model of the neural network (NN). Here, we demonstrate the efficacy of surrogate linear feature spaces to neural networks through two means: (1) we establish that a normalized psuedo neural tangent kernel (pNTK) is more correlated to the neural network decision functions than embedding based and influence based alternatives in both computer vision and large language model architectures; (2) we show that the attributions created from the normalized pNTK more accurately select perturbed training data in a data poisoning attribution task than these alternatives. Based on these observations, we conclude that kernel linear models are effective surrogate models across multiple classification architectures and that pNTK-based kernels are the most appropriate surrogate feature space of all kernels studied.
翻訳日:2023-05-25 21:07:42 公開日:2023-05-23
# 暗黙の明示化: nlpの第一級市民としての暗黙のコンテンツ

Making the Implicit Explicit: Implicit Content as a First Class Citizen in NLP ( http://arxiv.org/abs/2305.14583v1 )

ライセンス: Link先を確認
Alexander Hoyle, Rupak Sarkar, Pranav Goel, Philip Resnik(参考訳) 言語は多面的である。 与えられた発話は等価な形式で再表現することができ、その暗黙的および明示的な内容は様々な論理的および実用的推論をサポートする。 発話を処理するとき、私たちはこれらの異なる側面を、解釈的な目標によって媒介されていると考えます。 それでも、NLP法は通常、表面の形状だけで動作し、このニュアンスを導く。 本研究では、言語を言語で表現し、llmに発話を論理的かつ妥当な推論に分解させるよう指示する。 分解の複雑さの低減により、埋め込みが容易になり、新しいアプリケーションを開く。 この手法のバリエーションは文埋め込みベンチマークの最先端の改善、計算政治科学における実証的応用、そして人間のアノテーションで検証する新しい構成発見プロセスに繋がる。

Language is multifaceted. A given utterance can be re-expressed in equivalent forms, and its implicit and explicit content support various logical and pragmatic inferences. When processing an utterance, we consider these different aspects, as mediated by our interpretive goals -- understanding that "it's dark in here" may be a veiled direction to turn on a light. Nonetheless, NLP methods typically operate over the surface form alone, eliding this nuance. In this work, we represent language with language, and direct an LLM to decompose utterances into logical and plausible inferences. The reduced complexity of the decompositions makes them easier to embed, opening up novel applications. Variations on our technique lead to state-of-the-art improvements on sentence embedding benchmarks, a substantive application in computational political science, and to a novel construct-discovery process, which we validate with human annotations.
翻訳日:2023-05-25 21:07:23 公開日:2023-05-23
# 時系列深層モデルの解釈:調査

Interpretation of Time-Series Deep Models: A Survey ( http://arxiv.org/abs/2305.14582v1 )

ライセンス: Link先を確認
Ziqi Zhao, Yucheng Shi, Shushan Wu, Fan Yang, Wenzhan Song, Ninghao Liu(参考訳) 近年,時系列関連タスクのためのディープラーニングモデルが広く研究されている。 しかし、時系列データの直感的な性質のため、これらのモデルのボンネット下にあるものを理解するための解釈可能性の問題が重要になる。 コンピュータビジョンにおける同様の研究の進歩は多くのポストホックな手法を生み出し、時系列モデルを説明する方法にも光を当てることができる。 本稿では,バックプロパゲーション,摂動,近似に基づく時系列モデルに対する多種多様なポストホック解釈手法を提案する。 また、人間理解可能な情報をモデル内で設計する新しい解釈カテゴリーである、本質的に解釈可能なモデルにも焦点を当てたいと考えています。 さらに,説明に用いられる評価指標をいくつか紹介し,時系列解釈可能性問題に関する今後の研究の方向性について提案する。 私たちの研究は、確立された解釈方法だけでなく、その本質を捉え、イノベーションと即興化のための将来の努力を促すために、かなり最近で未開発のテクニックもまとめています。

Deep learning models developed for time-series associated tasks have become more widely researched nowadays. However, due to the unintuitive nature of time-series data, the interpretability problem -- where we understand what is under the hood of these models -- becomes crucial. The advancement of similar studies in computer vision has given rise to many post-hoc methods, which can also shed light on how to explain time-series models. In this paper, we present a wide range of post-hoc interpretation methods for time-series models based on backpropagation, perturbation, and approximation. We also want to bring focus onto inherently interpretable models, a novel category of interpretation where human-understandable information is designed within the models. Furthermore, we introduce some common evaluation metrics used for the explanations, and propose several directions of future researches on the time-series interpretability problem. As a highlight, our work summarizes not only the well-established interpretation methods, but also a handful of fairly recent and under-developed techniques, which we hope to capture their essence and spark future endeavours to innovate and improvise.
翻訳日:2023-05-25 21:07:07 公開日:2023-05-23
# openai のささやき asr の評価 : 人文博物館における生活史の時間予測と話題モデリング

Evaluating OpenAI's Whisper ASR for Punctuation Prediction and Topic Modeling of life histories of the Museum of the Person ( http://arxiv.org/abs/2305.14580v1 )

ライセンス: Link先を確認
Lucas Rafael Stefanel Gris and Ricardo Marcacini and Arnaldo Candido Junior and Edresson Casanova and Anderson Soares and Sandra Maria Alu\'isio(参考訳) 自動音声認識(ASR)システムは、人間と機械の相互作用を含むアプリケーションにおいて重要な役割を果たす。 その重要性にもかかわらず、過去10年間に提案されたポルトガル語のASRモデルは、自動転写における句読点の正確な識別に関して制限があり、他のシステム、モデル、さらには人間による転写の使用を妨げる。 しかし,近年のWhisper ASRは,そのような制約に対処する上で大きな期待を抱く汎用音声認識モデルOpenAIによって提案されている。 この章は、ポルトガル語の句読点予測のためのウィスパーのパフォーマンスに関する最初の研究を提示する。 本稿では,ポーズポイント(コマ)と完全アイデア(宣言,質問,フルストップ)の理論的側面と,トランスクリプトベースのトピックモデリング(有望なパフォーマンスのための句読点に依存するアプリケーション)の実践的側面の両方を考慮した実験的評価を行う。 本研究では,人間の生活史を語り,保存することを目的とした仮想博物館「人博物館」のビデオによる実験結果を分析し,現実のシナリオにおけるWhisperの長所と短所について考察した。 実験の結果,Whisperは最先端の結果が得られたが,宣誓供述書,セミコロン,結腸などの句読点には改善が必要であると結論づけた。

Automatic speech recognition (ASR) systems play a key role in applications involving human-machine interactions. Despite their importance, ASR models for the Portuguese language proposed in the last decade have limitations in relation to the correct identification of punctuation marks in automatic transcriptions, which hinder the use of transcriptions by other systems, models, and even by humans. However, recently Whisper ASR was proposed by OpenAI, a general-purpose speech recognition model that has generated great expectations in dealing with such limitations. This chapter presents the first study on the performance of Whisper for punctuation prediction in the Portuguese language. We present an experimental evaluation considering both theoretical aspects involving pausing points (comma) and complete ideas (exclamation, question, and fullstop), as well as practical aspects involving transcript-based topic modeling - an application dependent on punctuation marks for promising performance. We analyzed experimental results from videos of Museum of the Person, a virtual museum that aims to tell and preserve people's life histories, thus discussing the pros and cons of Whisper in a real-world scenario. Although our experiments indicate that Whisper achieves state-of-the-art results, we conclude that some punctuation marks require improvements, such as exclamation, semicolon and colon.
翻訳日:2023-05-25 21:06:51 公開日:2023-05-23
# SyNDock:学習可能なグループ同期によるNリギッドタンパク質ドッキング

SyNDock: N Rigid Protein Docking via Learnable Group Synchronization ( http://arxiv.org/abs/2305.15156v1 )

ライセンス: Link先を確認
Yuanfeng Ji, Yatao Bian, Guoji Fu, Peilin Zhao, Ping Luo(参考訳) 様々な細胞過程の制御は、生体内のタンパク質複合体に大きく依存しており、それらの3次元構造を包括的に理解し、基礎となるメカニズムを明らかにする必要がある。 神経ドッキング技術はバイナリタンパク質ドッキングにおいて有望な結果を示しているが、マルチメリックタンパク質ドッキングへの高度な神経構造の適用はいまだに不確かである。 本研究は、精度の高いマルチメリックコンプレックスを数秒で迅速に組み立てる自動フレームワークであるsyndockを紹介し、最近の先進的アプローチに匹敵する可能性のある性能を示す。 SyNDockには、以前のアプローチにはないいくつかの魅力的な利点がある。 まず、シンドックは多量タンパク質ドッキングをグローバル変換を学習する問題として定式化し、複合体の鎖単位の配置を規則的に描写し、学習中心のソリューションを可能にする。 次に、SyNDockは、初期ペアワイズ変換と信頼度推定を含むトレーニング可能な2段階SE(3)アルゴリズムを提案する。 これにより、コンプレックスをグローバルに一貫した方法で組み立てる効果的な学習が可能になる。 最後に、提案したベンチマークデータセットで実施された広範な実験により、SyNDockは既存のドッキングソフトウェアを精度や実行時間など重要なパフォーマンス指標で上回っていることが示された。 例えば、パフォーマンスが4.5%向上し、100万倍の高速化を達成している。

The regulation of various cellular processes heavily relies on the protein complexes within a living cell, necessitating a comprehensive understanding of their three-dimensional structures to elucidate the underlying mechanisms. While neural docking techniques have exhibited promising outcomes in binary protein docking, the application of advanced neural architectures to multimeric protein docking remains uncertain. This study introduces SyNDock, an automated framework that swiftly assembles precise multimeric complexes within seconds, showcasing performance that can potentially surpass or be on par with recent advanced approaches. SyNDock possesses several appealing advantages not present in previous approaches. Firstly, SyNDock formulates multimeric protein docking as a problem of learning global transformations to holistically depict the placement of chain units of a complex, enabling a learning-centric solution. Secondly, SyNDock proposes a trainable two-step SE(3) algorithm, involving initial pairwise transformation and confidence estimation, followed by global transformation synchronization. This enables effective learning for assembling the complex in a globally consistent manner. Lastly, extensive experiments conducted on our proposed benchmark dataset demonstrate that SyNDock outperforms existing docking software in crucial performance metrics, including accuracy and runtime. For instance, it achieves a 4.5% improvement in performance and a remarkable millionfold acceleration in speed.
翻訳日:2023-05-25 15:27:28 公開日:2023-05-23
# 線形回帰のロバストな学習混合について

On the robust learning mixtures of linear regressions ( http://arxiv.org/abs/2305.15317v1 )

ライセンス: Link先を確認
Ying Huang and Liang Chen(参考訳) 本稿では,線形回帰のロバストな学習混合問題について考察する。 線形回帰とガウス型混合の混合を単純なしきい値付きで結合し, 軽度分離条件下で準多項時間アルゴリズムを得ることができる。 このアルゴリズムは、以前の結果よりもかなり頑健である。

In this note, we consider the problem of robust learning mixtures of linear regressions. We connect mixtures of linear regressions and mixtures of Gaussians with a simple thresholding, so that a quasi-polynomial time algorithm can be obtained under some mild separation condition. This algorithm has significantly better robustness than the previous result.
翻訳日:2023-05-25 14:21:16 公開日:2023-05-23
# TheoremQA: Theorem-driven Question Answering データセット

TheoremQA: A Theorem-driven Question Answering dataset ( http://arxiv.org/abs/2305.12524v2 )

ライセンス: Link先を確認
Wenhu Chen, Ming Yin, Max Ku, Pan Lu, Yixin Wan, Xueguang Ma, Jianyu Xu, Xinyi Wang, Tony Xia(参考訳) GPT-4 や PaLM-2 のような最近の LLM は GSM8K のような基本的な数学の問題を90%以上の精度で解くことで大きな進歩を遂げた。 しかし、ドメイン固有の知識(すなわち定理)を必要とするより困難な数学問題を解く能力はまだ調査されていない。 本稿では,AIモデルの能力を評価するために設計された,最初の定理駆動型質問応答データセットであるTheoremQAを紹介する。 TheoremQAは、数学、物理学、EE&CS、ファイナンスから350の定理(テイラーの定理、ラグランジュの定理、ハフマンの符号化、量子定理、弾性定理など)を含む800の高品質の質問を含む領域の専門家によって計算される。 我々は、Chain-of-ThoughtsやProgram-of-Thoughtsなど、さまざまなプロンプト戦略を持つ16の大規模言語とコードモデルの範囲を評価した。 GPT-4では,これらの問題を解決する能力は非並列であり,Program-of-Thoughts Promptingでは51%の精度を実現している。 既存のオープンソースモデルはすべて15%以下で、ランダムゲーミングベースラインをわずかに上回っている。 TheoremQAの多様性と広範な範囲を考えると、科学上の課題を解決するためのLSMの能力を評価するためのより良いベンチマークとして使用できると信じている。 データとコードはhttps://github.com/wenhuchen/theoremqaでリリースされる。

The recent LLMs like GPT-4 and PaLM-2 have made tremendous progress in solving fundamental math problems like GSM8K by achieving over 90% accuracy. However, their capabilities to solve more challenging math problems which require domain-specific knowledge (i.e. theorem) have yet to be investigated. In this paper, we introduce TheoremQA, the first theorem-driven question-answering dataset designed to evaluate AI models' capabilities to apply theorems to solve challenging science problems. TheoremQA is curated by domain experts containing 800 high-quality questions covering 350 theorems (e.g. Taylor's theorem, Lagrange's theorem, Huffman coding, Quantum Theorem, Elasticity Theorem, etc) from Math, Physics, EE&CS, and Finance. We evaluate a wide spectrum of 16 large language and code models with different prompting strategies like Chain-of-Thoughts and Program-of-Thoughts. We found that GPT-4's capabilities to solve these problems are unparalleled, achieving an accuracy of 51% with Program-of-Thoughts Prompting. All the existing open-sourced models are below 15%, barely surpassing the random-guess baseline. Given the diversity and broad coverage of TheoremQA, we believe it can be used as a better benchmark to evaluate LLMs' capabilities to solve challenging science problems. The data and code are released in https://github.com/wenhuchen/TheoremQA.
翻訳日:2023-05-25 11:12:56 公開日:2023-05-23
# プロキシモデル共有による分散フェデレーション学習

Decentralized Federated Learning through Proxy Model Sharing ( http://arxiv.org/abs/2111.11343v2 )

ライセンス: Link先を確認
Shivam Kalra, Junfeng Wen, Jesse C. Cresswell, Maksims Volkovs, Hamid R. Tizhoosh(参考訳) 金融や医療といった高度に規制された分野の機関は、データ共有に関する制限的なルールを持つことが多い。 フェデレーション学習(federated learning)は分散学習フレームワークであり、分散データの複数機関によるコラボレーションを可能にし、各コラボレータのデータプライバシの保護を改善している。 本稿では,proxyfl(proxy-based federated learning)と呼ばれる分散連合学習のための通信効率の高い手法を提案する。 proxyflの各参加者は、プライベートモデルと、参加者のプライバシを保護するように設計された公開共有プロキシモデルという2つのモデルを維持している。 プロキシモデルは、集中型サーバを必要としない、参加者間の効率的な情報交換を可能にする。 提案手法は,モデルの不均一性を許容することにより,標準的フェデレーション学習の大幅な制限を解消する。 さらに、プロキシによる通信プロトコルは、差分プライバシー分析を用いてより強力なプライバシー保証をもたらす。 人気のある画像データセットの実験と、高品質のギガピクセルヒストロジー全体のスライド画像を用いたがん診断の問題は、ProxyFLが通信オーバーヘッドをはるかに減らし、より強力なプライバシーを持つ既存の選択肢よりも優れていることを示している。

Institutions in highly regulated domains such as finance and healthcare often have restrictive rules around data sharing. Federated learning is a distributed learning framework that enables multi-institutional collaborations on decentralized data with improved protection for each collaborator's data privacy. In this paper, we propose a communication-efficient scheme for decentralized federated learning called ProxyFL, or proxy-based federated learning. Each participant in ProxyFL maintains two models, a private model, and a publicly shared proxy model designed to protect the participant's privacy. Proxy models allow efficient information exchange among participants without the need of a centralized server. The proposed method eliminates a significant limitation of canonical federated learning by allowing model heterogeneity; each participant can have a private model with any architecture. Furthermore, our protocol for communication by proxy leads to stronger privacy guarantees using differential privacy analysis. Experiments on popular image datasets, and a cancer diagnostic problem using high-quality gigapixel histology whole slide images, show that ProxyFL can outperform existing alternatives with much less communication overhead and stronger privacy.
翻訳日:2023-05-25 02:10:35 公開日:2023-05-23
# 重み付き対合(wIoU):画像分割のための新しい評価基準

Weighted Intersection over Union (wIoU): A New Evaluation Metric for Image Segmentation ( http://arxiv.org/abs/2107.09858v4 )

ライセンス: Link先を確認
Yeong-Jun Cho(参考訳) 近年,シーン内のピクセルのラベルを予測するためのセマンティックセグメンテーション法が数多く提案されている。 一般に,面積予測誤差や境界予測誤差を比較手法として測定する。 しかし、両側面を評価する直感的な評価指標は存在しない。 本研究では,意味的セグメンテーションのための重み付き分割(wIoU)と呼ばれる新しい評価尺度を提案する。 まず、境界距離マップから生成される重みマップを構築し、境界重要度係数に基づいて各画素の重み付け評価を可能にする。 提案したwIoUは,境界重要度を設定することにより,輪郭と領域の両方を評価することができる。 我々は,33シーンのデータセット上でwIoUの有効性を検証し,その柔軟性を実証した。 提案手法を用いることで,セマンティックセグメンテーションにおけるより柔軟で直感的な評価が可能となることを期待する。

In recent years, many semantic segmentation methods have been proposed to predict label of pixels in the scene. In general, we measure area prediction errors or boundary prediction errors for comparing methods. However, there is no intuitive evaluation metric that evaluates both aspects. In this work, we propose a new evaluation measure called weighted Intersection over Union (wIoU) for semantic segmentation. First, it build a weight map generated from a boundary distance map, allowing weighted evaluation for each pixel based on a boundary importance factor. The proposed wIoU can evaluate both contour and region by setting a boundary importance factor. We validated the effectiveness of wIoU on a dataset of 33 scenes and demonstrated its flexibility. Using the proposed metric, we expect more flexible and intuitive evaluation in semantic segmentation filed are possible.
翻訳日:2023-05-25 02:08:56 公開日:2023-05-23
# ルービックキューブを解くのに必要なセルフスーパービジョン

Self-Supervision is All You Need for Solving Rubik's Cube ( http://arxiv.org/abs/2106.03157v5 )

ライセンス: Link先を確認
Kyo Takano(参考訳) 既存の組合せ探索法はしばしば複雑であり、ある程度の専門知識を必要とする。 本研究は,ルービックキューブで表される目標を事前に定義した組合せ問題を解くための,単純かつ効率的なディープラーニング手法を提案する。 このような問題に対して、目標状態から分岐するランダムスクランブル上でディープニューラルネットワークをトレーニングすることは、ほぼ最適解を達成するのに十分であることを示す。 ルービックキューブ,15Puzzle,7$\times$7 Lights Outの試験では,従来手法のDeepCubeAよりも優れ,学習データが少ないにもかかわらず,解の最適性と計算コストのトレードオフが改善された。 さらに,我々のルービックキューブ解法におけるモデルサイズとトレーニングデータ量に関するスケーリング則について検討した。

Existing combinatorial search methods are often complex and require some level of expertise. This work introduces a simple and efficient deep learning method for solving combinatorial problems with a predefined goal, represented by Rubik's Cube. We demonstrate that, for such problems, training a deep neural network on random scrambles branching from the goal state is sufficient to achieve near-optimal solutions. When tested on Rubik's Cube, 15 Puzzle, and 7$\times$7 Lights Out, our method outperformed the previous state-of-the-art method DeepCubeA, improving the trade-off between solution optimality and computational cost, despite significantly less training data. Furthermore, we investigate the scaling law of our Rubik's Cube solver with respect to model size and training data volume.
翻訳日:2023-05-25 02:08:41 公開日:2023-05-23
# 深層学習を用いたヒト脳MRIにおける鎖骨分割の自動化

Automated Claustrum Segmentation in Human Brain MRI Using Deep Learning ( http://arxiv.org/abs/2008.03465v3 )

ライセンス: Link先を確認
Hongwei Li, Aurore Menegaux, Benita Schmitz-Koep, Antonia Neubauer, Felix JB B\"auerlein, Suprosanna Shit, Christian Sorg, Bjoern Menze and Dennis Hedderich(参考訳) 過去20年間、神経科学は哺乳類の前脳の構造と機能においてクラウストラムの中心的な役割を示す興味深い証拠を生み出してきた。 しかし、ヒトには比較的少ないin vivoでのクラウストラムの研究が存在する。 この理由の一つとして、視床皮質と被膜の間にある鎖骨の繊細でシート状の構造が考えられるため、従来の分節法では使用できない。 近年、深層学習(DL)に基づくアプローチが、複雑な皮質下脳構造の自動セグメンテーションに成功している。 以下に、T1強調MRIスキャンで鎖骨を分割する多視点DLに基づくアプローチを提案する。 専門家神経放射線科医による両側手指節アノテーションを基準基準として181名を対象に,提案手法の訓練と評価を行った。 クロスバリデーション実験では、中央値の体積類似性、頑健なハウスドルフ距離、サイススコアはそれぞれ93.3%、1.41mm、71.8%となり、ヒトのレート内信頼性と同等または優れたセグメンテーション性能を示した。 scanner-out評価の結果,未検出スキャナからの画像へのアルゴリズムの転送性は若干劣ることがわかった。 さらに,多視点情報からDLをベースとしたクラストラムセグメンテーションの利点が得られ,トレーニングセットに約75個のMRIスキャンのサンプルサイズを必要とすることがわかった。 提案アルゴリズムは,ヒトの鎖骨に対するMRIによる研究を円滑に進める上で,有意な有意な可能性を秘めている。 この手法のソフトウェアとモデルは公開されています。

In the last two decades, neuroscience has produced intriguing evidence for a central role of the claustrum in mammalian forebrain structure and function. However, relatively few in vivo studies of the claustrum exist in humans. A reason for this may be the delicate and sheet-like structure of the claustrum lying between the insular cortex and the putamen, which makes it not amenable to conventional segmentation methods. Recently, Deep Learning (DL) based approaches have been successfully introduced for automated segmentation of complex, subcortical brain structures. In the following, we present a multi-view DL-based approach to segment the claustrum in T1-weighted MRI scans. We trained and evaluated the proposed method in 181 individuals, using bilateral manual claustrum annotations by an expert neuroradiologist as the reference standard. Cross-validation experiments yielded median volumetric similarity, robust Hausdorff distance, and Dice score of 93.3%, 1.41mm, and 71.8%, respectively, representing equal or superior segmentation performance compared to human intra-rater reliability. The leave-one-scanner-out evaluation showed good transferability of the algorithm to images from unseen scanners at slightly inferior performance. Furthermore, we found that DL-based claustrum segmentation benefits from multi-view information and requires a sample size of around 75 MRI scans in the training set. We conclude that the developed algorithm allows for robust automated claustrum segmentation and thus yields considerable potential for facilitating MRI-based research of the human claustrum. The software and models of our method are made publicly available.
翻訳日:2023-05-25 02:08:04 公開日:2023-05-23
# 拡散モデル学習の限界

The Limits to Learning a Diffusion Model ( http://arxiv.org/abs/2006.06373v3 )

ライセンス: Link先を確認
Jackie Baek, Vivek F. Farias, Andreea Georgescu, Retsef Levi, Tianyi Peng, Deeksha Sinha, Joshua Wilde, Andrew Zheng(参考訳) 本稿では,Bassモデル(モデル消費者採用に使用される)やSIRモデル(モデリング流行に使用される)を含む,単純な拡散モデルの推定のための,最初のサンプル複雑性の低いバウンダリを提供する。 拡散のかなり遅くまでそのようなモデルを学ぶことを期待できないことを示す。 具体的には、サンプルの複雑さよりも低い境界を超える多くの観測を収集するのに要する時間が大きいことを示す。 イノベーション率の低いBassモデルの場合、私たちの結果は、新規採用者の割合がピークに達するまでの道の少なくとも3分の2まで、最終的に採用顧客数を予測することはできないことを示唆しています。 同様の結果から,sirモデルの場合,感染率がピークに達した時点までの3分の2程度になるまで,感染の最終的な数を予測することは不可能であることが示唆された。 この推定の低限度はさらに、流行の介入における意思決定に対する後悔の低限度に繋がる。 結果は,正確な予測の課題を定式化し,付加的なデータソースの導入の重要性を強調した。 そこで我々は,SIRモデル推定を改善するために必要な研究の規模を特徴付ける,疫学におけるセロプレバレンス研究のメリットを分析した。 製品導入と流行データに関する広範な実証分析は,我々の理論的知見を裏付けるものだ。

This paper provides the first sample complexity lower bounds for the estimation of simple diffusion models, including the Bass model (used in modeling consumer adoption) and the SIR model (used in modeling epidemics). We show that one cannot hope to learn such models until quite late in the diffusion. Specifically, we show that the time required to collect a number of observations that exceeds our sample complexity lower bounds is large. For Bass models with low innovation rates, our results imply that one cannot hope to predict the eventual number of adopting customers until one is at least two-thirds of the way to the time at which the rate of new adopters is at its peak. In a similar vein, our results imply that in the case of an SIR model, one cannot hope to predict the eventual number of infections until one is approximately two-thirds of the way to the time at which the infection rate has peaked. This lower bound in estimation further translates into a lower bound in regret for decision-making in epidemic interventions. Our results formalize the challenge of accurate forecasting and highlight the importance of incorporating additional data sources. To this end, we analyze the benefit of a seroprevalence study in an epidemic, where we characterize the size of the study needed to improve SIR model estimation. Extensive empirical analyses on product adoption and epidemic data support our theoretical findings.
翻訳日:2023-05-25 02:07:40 公開日:2023-05-23
# 放射線用コンボリューションフィルタの標準化

Standardised convolutional filtering for radiomics ( http://arxiv.org/abs/2006.05470v8 )

ライセンス: Link先を確認
Adrien Depeursinge, Vincent Andrearczyk, Philip Whybra, Joost van Griethuysen, Henning M\"uller, Roger Schaer, Martin Valli\`eres, Alex Zwanenburg (for the Image Biomarker Standardisation Initiative)(参考訳) 画像バイオマーカー標準化イニシアチブ(IBSI)は、画像から画像バイオマーカー(特徴)を抽出する計算プロセスの標準化により、放射線医学研究の再現性を向上させることを目的としている。 従来,169の一般的な特徴の基準値を定め,標準放射能画像処理スキームを作成し,放射能研究のための報告ガイドラインを開発した。 しかし、いくつかの側面は標準化されていない。 ここでは、放射能における畳み込みフィルタの利用と定量的画像解析に関する参照マニュアルの完全なバージョンを示す。 ガウスフィルタのウェーブレットやラプラシアンのようなフィルタは、エッジやブロブのような特定の画像特性を強調する上で重要な役割を果たす。 フィルタ応答マップから得られた特徴は再現性が低かった。 このリファレンスマニュアルは、畳み込みフィルタの定義、報告すべきパラメータ、参照機能値、参照標準に準拠したソフトウェアを検証するテストを提供する。

The Image Biomarker Standardisation Initiative (IBSI) aims to improve reproducibility of radiomics studies by standardising the computational process of extracting image biomarkers (features) from images. We have previously established reference values for 169 commonly used features, created a standard radiomics image processing scheme, and developed reporting guidelines for radiomic studies. However, several aspects are not standardised. Here we present a complete version of a reference manual on the use of convolutional filters in radiomics and quantitative image analysis. Filters, such as wavelets or Laplacian of Gaussian filters, play an important part in emphasising specific image characteristics such as edges and blobs. Features derived from filter response maps were found to be poorly reproducible. This reference manual provides definitions for convolutional filters, parameters that should be reported, reference feature values, and tests to verify software compliance with the reference standard.
翻訳日:2023-05-25 02:07:21 公開日:2023-05-23
# 教師なしアンサンブル学習法を用いたスタック速度自動選択

Automatic Stack Velocity Picking Using an Unsupervised Ensemble Learning Method ( http://arxiv.org/abs/2205.08372v2 )

ライセンス: Link先を確認
H.T. Wang, J.S. Zhang, C.X. Zhang, Z.X. Zhao, W.F. Geng(参考訳) 精度と効率の両立した地震速度選択アルゴリズムは地震データ処理を大幅に高速化することができ、主なアプローチは速度スペクトルの利用である。 ベロシティを自動選択するための教師付きディープラーニングベースのアプローチが開発されているにもかかわらず、しばしば手作業によるラベル付けの費用がかかる。 対照的に、物理知識を用いて教師なし学習手法を駆動することは、この問題を効率的に解決する可能性がある。 スタック速度を決定するために,ラベル付きデータへの依存と精度の選択のバランスをとるために,教師なしアンサンブル学習(UEL)アプローチを提案する。 UELは、近くの速度スペクトルやその他の既知の情報源からのデータを利用して、クラスタリング技術によって取得される効率的で合理的な速度ポイントを選定する。 合成データとフィールドデータの両方をテストすると、uelは従来のクラスタリングベースの技術や広く使われている畳み込みニューラルネットワーク(cnn)よりも信頼性が高く、精度が高いことが分かる。

Seismic velocity picking algorithms that are both accurate and efficient can greatly speed up seismic data processing, with the primary approach being the use of velocity spectra. Despite the development of some supervised deep learning-based approaches to automatically pick the velocity, they often come with costly manual labeling expenses or lack interpretability. In comparison, using physical knowledge to drive unsupervised learning techniques has the potential to solve this problem in an efficient manner. We suggest an Unsupervised Ensemble Learning (UEL) approach to achieving a balance between reliance on labeled data and picking accuracy, with the aim of determining the stack velocity. UEL makes use of the data from nearby velocity spectra and other known sources to help pick efficient and reasonable velocity points, which are acquired through a clustering technique. Testing on both the synthetic and field data sets shows that UEL is more reliable and precise in auto-picking than traditional clustering-based techniques and the widely used Convolutional Neural Network (CNN) method.
翻訳日:2023-05-25 02:01:47 公開日:2023-05-23
# 外部に有効な政策選択

Externally Valid Policy Choice ( http://arxiv.org/abs/2205.05561v2 )

ライセンス: Link先を確認
Christopher Adjaho and Timothy Christensen(参考訳) 我々は、データをサンプル化した実験的(または訓練的)人口以外に、他の対象集団でよく機能する、外部的に有効または一般化可能なパーソナライズされた治療方針を学習する問題を考える。 まず, 実験集団の福祉最大化政策は, 実験個体群と対象個体群間の結果の分布(特性)の変化に頑健であることを示す。 そして、結果や特徴の変化に頑健な政策を学ぶための新しい方法を開発する。 そこで本研究では, 実験集団における治療効果の多様性が, 政策の一般化性に与える影響を強調する。 本手法は実験データや観察データ(内因性の場合)で用いることができる。 私たちの手法の多くは線形プログラミングで実装できます。

We consider the problem of learning personalized treatment policies that are externally valid or generalizable: they perform well in other target populations besides the experimental (or training) population from which data are sampled. We first show that welfare-maximizing policies for the experimental population are robust to shifts in the distribution of outcomes (but not characteristics) between the experimental and target populations. We then develop new methods for learning policies that are robust to shifts in outcomes and characteristics. In doing so, we highlight how treatment effect heterogeneity within the experimental population affects the generalizability of policies. Our methods may be used with experimental or observational data (where treatment is endogenous). Many of our methods can be implemented with linear programming.
翻訳日:2023-05-25 02:01:28 公開日:2023-05-23
# ブロック系複素アダマール行列

Block-Circulant Complex Hadamard Matrices ( http://arxiv.org/abs/2204.11727v4 )

ライセンス: Link先を確認
Wojciech Bruzda(参考訳) ブロック循環構造に基づく次元$N\geqslant 7$に対する孤立複素アダマール行列(CHM)の列を得る新しい方法を提案する。 本稿では,Sinkhornアルゴリズムの修正によるいくつかの解析例について論じる。 特に、新しく分離されたオーダーの行列を9ドル、10ドル、11ドルとし、要素はユニティのルーツではないし、新しい複数パラメトリックのオーダーのファミリも10ドルである。 特定の8次元行列間の新しい接続に注目し、$N\geqslant 7$に対するCHMの分類に対する新しい洞察を提供する。 これらのコントリビューションは、量子情報理論や、Mutually Unbiased Bases または Unitary Error Bases の新しいファミリーの構築において、実際の応用を見出すことができる。

A new method of obtaining a sequence of isolated complex Hadamard matrices (CHM) for dimensions $N\geqslant 7$, based on block-circulant structures, is presented. We discuss, several analytic examples resulting from a modification of the Sinkhorn algorithm. In particular, we present new isolated matrices of orders $9$, $10$ and $11$, which elements are not roots of unity, and also several new multiparametric families of order $10$. We note novel connections between certain eight-dimensional matrices and provide new insights towards classification of CHM for $N\geqslant 7$. These contributions can find real applications in Quantum Information Theory and constructions of new families of Mutually Unbiased Bases or Unitary Error Bases.
翻訳日:2023-05-25 02:01:15 公開日:2023-05-23
# 逆ネオンビーム:DNNに対する光による物理的攻撃

Adversarial Neon Beam: A Light-based Physical Attack to DNNs ( http://arxiv.org/abs/2204.00853v3 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi, Wen Li(参考訳) 物理的な世界では、ディープニューラルネットワーク(DNN)は光と影の影響を受け、その性能に大きな影響を与える可能性がある。 ステッカーは伝統的にほとんどの物理的攻撃で摂動として用いられてきたが、その摂動は容易に検出できる。 これを解決するために、レーザーやプロジェクターなどの光ベースの摂動を用いて、自然ではなく人工的なより微妙な摂動を生成する研究がある。 本研究では,一般的なネオンビームを用いて自然なブラックボックス物理攻撃を生成する,advnb(adversarial neon beam)と呼ばれる新しい光ベースの攻撃を提案する。 このアプローチは,有効性,ステルス性,堅牢性という,3つの重要な基準に基づいて評価される。 シミュレーション環境で得られた定量的な結果は,提案手法の有効性を示し,物理的シナリオでは攻撃成功率が81.82%に達し,ベースラインを超えている。 一般的なネオンビームを摂動として使用することで、提案する攻撃のステルス性を高め、物理的サンプルをより自然に見せることができる。 さらに, 先進的なDNNを75%以上の成功率で攻撃することで, アプローチの堅牢性を検証した。 また,advnb攻撃に対する防御戦略を議論し,その他のライトベース物理攻撃を展開する。

In the physical world, deep neural networks (DNNs) are impacted by light and shadow, which can have a significant effect on their performance. While stickers have traditionally been used as perturbations in most physical attacks, their perturbations can often be easily detected. To address this, some studies have explored the use of light-based perturbations, such as lasers or projectors, to generate more subtle perturbations, which are artificial rather than natural. In this study, we introduce a novel light-based attack called the adversarial neon beam (AdvNB), which utilizes common neon beams to create a natural black-box physical attack. Our approach is evaluated on three key criteria: effectiveness, stealthiness, and robustness. Quantitative results obtained in simulated environments demonstrate the effectiveness of the proposed method, and in physical scenarios, we achieve an attack success rate of 81.82%, surpassing the baseline. By using common neon beams as perturbations, we enhance the stealthiness of the proposed attack, enabling physical samples to appear more natural. Moreover, we validate the robustness of our approach by successfully attacking advanced DNNs with a success rate of over 75% in all cases. We also discuss defense strategies against the AdvNB attack and put forward other light-based physical attacks.
翻訳日:2023-05-25 02:00:34 公開日:2023-05-23
# 最適なサブセットOracleの下でのニューラルセット関数の学習

Learning Neural Set Functions Under the Optimal Subset Oracle ( http://arxiv.org/abs/2203.01693v4 )

ライセンス: Link先を確認
Zijing Ou, Tingyang Xu, Qinliang Su, Yingzhen Li, Peilin Zhao, Yatao Bian(参考訳) ニューラルセット関数の学習は、ai支援薬物発見における製品推奨や複合選択など、多くのアプリケーションでますます重要になっている。 既存の研究の多くは、関数値オラクルに基づく集合関数学習の方法論を研究しており、これは高価な監視信号を必要とする。 これは、オプティマル・サブセット(OS)のオラクルの下で弱い監督しか持たないアプリケーションにとって非現実的であり、その研究は驚くほど見落としている。 そこで本研究では,os oracle 下での学習集合関数のデシデラタを同時に満たすために,equivset と呼ばれる原理的かつ実用的最大度学習フレームワークを提案する。 一 モデル化されている集合質量関数の置換不変性 二 異なる地上セットの許可 三 最低限前のこと。 iv)スケーラビリティ。 私たちのフレームワークの主なコンポーネントは、集合質量関数のエネルギーベースの処理、置換不変性を扱うdeepsetスタイルのアーキテクチャ、平均場変分推論、そしてその償却変種である。 これらの高度なアーキテクチャのエレガントな組み合わせのおかげで、実世界の3つのアプリケーション(Amazon製品レコメンデーション、セット異常検出、仮想スクリーニングのための複合選択など)に関する実証的研究は、EquiVSetがベースラインをはるかに上回ることを示した。

Learning neural set functions becomes increasingly more important in many applications like product recommendation and compound selection in AI-aided drug discovery. The majority of existing works study methodologies of set function learning under the function value oracle, which, however, requires expensive supervision signals. This renders it impractical for applications with only weak supervisions under the Optimal Subset (OS) oracle, the study of which is surprisingly overlooked. In this work, we present a principled yet practical maximum likelihood learning framework, termed as EquiVSet, that simultaneously meets the following desiderata of learning set functions under the OS oracle: i) permutation invariance of the set mass function being modeled; ii) permission of varying ground set; iii) minimum prior; and iv) scalability. The main components of our framework involve: an energy-based treatment of the set mass function, DeepSet-style architectures to handle permutation invariance, mean-field variational inference, and its amortized variants. Thanks to the elegant combination of these advanced architectures, empirical studies on three real-world applications (including Amazon product recommendation, set anomaly detection, and compound selection for virtual screening) demonstrate that EquiVSet outperforms the baselines by a large margin.
翻訳日:2023-05-25 02:00:13 公開日:2023-05-23
# 量子チェシャー猫によるノイズの分離と増幅信号

Isolating noise and amplifying signal with quantum Cheshire cat ( http://arxiv.org/abs/2203.00254v2 )

ライセンス: Link先を確認
Ahana Ghoshal, Soham Sau, Debmalya Das, Ujjwal Sen(参考訳) いわゆる量子チェシャー・キャット(Quantum Cheshire cat)は、「キャット」と同定された物体が、猫の「灰色の」と同定された物体の性質から分離される現象である。 本研究では,物体(光子)の特性(偏光成分)を物体自体から分離し,すでに物体と分離されている場合に同時に増幅することができる干渉式セットアップを用いた思考実験を提案する。 さらに、この設定は、光子の偏光の直交成分である光子の偏光の2つの直交成分を互いに分離し、猫のスナールと同一視する2つの相補的性質を解離し、一方を他方から離間しながら増幅することができることを示す。 さらに, スピン軌道結合(spin-orbit-coupling-like extra interaction term in the hamiltonian for the measurement process) の効果により, ノイズの多いシナリオまで拡張し, この場合の物体はいわゆる「混乱したチェシャイアキャット」と同定される。 このような「融合」をシステムからうまく解離させることができるゲダンケン実験を考案し,その解離が信号の増幅に寄与することを明らかにした。

The so-called quantum Cheshire cat is a phenomenon in which an object, identified with a "cat", is dissociated from a property of the object, identified with the "grin" of the cat. We propose a thought experiment, similar to this phenomenon, with an interferometric setup, where a property (a component of polarization) of an object (photon) can be separated from the object itself and can simultaneously be amplified when it is already decoupled from its object. We further show that this setup can be used to dissociate two complementary properties, e.g., two orthogonal components of polarization of a photon and identified with the grin and the snarl of a cat, from each other and one of them can be amplified while being detached from the other. Moreover, we extend the work to a noisy scenario, effected by a spin-orbit-coupling -like additional interaction term in the Hamiltonian for the measurement process, with the object in this scenario being identified with a so-called confused Cheshire cat. We devise a gedanken experiment in which such a "confusion" can be successfully dissociated from the system, and we find that the dissociation helps in the amplification of signals.
翻訳日:2023-05-25 01:59:46 公開日:2023-05-23
# PFGE:DNNの高速な幾何学的組み立て

PFGE: Parsimonious Fast Geometric Ensembling of DNNs ( http://arxiv.org/abs/2202.06658v8 )

ライセンス: Link先を確認
Hao Guo, Jiyong Jin, Bin Liu(参考訳) アンサンブル法は、機械学習モデルの一般化性能を高めるために一般的に用いられる。 しかし、深層ニューラルネットワーク(DNN)のアンサンブルをトレーニングするために必要な計算オーバーヘッドが高いため、ディープラーニングシステムでは課題が提示される。 fge(fast geometric ensembling)やスナップショットアンサンブルといった最近の進歩は、単一モデルとして同時にモデルのアンサンブルを訓練することでこの問題に対処している。 それでも、これらのテクニックは単モデルベースの手法と比較してテスト時間推論のための追加メモリを必要とする。 本稿では,連続した確率的重み付け処理によって生成される高性能DNNの軽量アンサンブルを用いたPFGE ( parsimonious FGE) と呼ばれる新しい手法を提案する。 CIFAR-{10,100} と ImageNet の様々な最新の DNN アーキテクチャに対する実験結果から,PFGE が一般化性能を損なうことなく,従来の手法に比べて5倍のメモリ効率を実現することが示された。 興味のある人のために、私たちのコードはhttps://github.com/ZJLAB-AMMI/PFGE.comで入手できる。

Ensemble methods are commonly used to enhance the generalization performance of machine learning models. However, they present a challenge in deep learning systems due to the high computational overhead required to train an ensemble of deep neural networks (DNNs). Recent advancements such as fast geometric ensembling (FGE) and snapshot ensembles have addressed this issue by training model ensembles in the same time as a single model. Nonetheless, these techniques still require additional memory for test-time inference compared to single-model-based methods. In this paper, we propose a new method called parsimonious FGE (PFGE), which employs a lightweight ensemble of higher-performing DNNs generated through successive stochastic weight averaging procedures. Our experimental results on CIFAR-{10,100} and ImageNet datasets across various modern DNN architectures demonstrate that PFGE achieves 5x memory efficiency compared to previous methods, without compromising on generalization performance. For those interested, our code is available at https://github.com/ZJLAB-AMMI/PFGE.
翻訳日:2023-05-25 01:59:23 公開日:2023-05-23
# 波動関数 ansatz (but periodic) ネットワークと均質電子ガス

Wave function Ansatz (but Periodic) Networks and the Homogeneous Electron Gas ( http://arxiv.org/abs/2202.04622v3 )

ライセンス: Link先を確認
Max Wilson, Saverio Moroni, Markus Holzmann, Nicholas Gao, Filip Wudarski, Tejs Vegge and Arghya Bhowmik(参考訳) 我々は、相互作用するフェルミオン系の拡張系の物理モデルである均質電子ガスの基底状態波動関数を変動的に検出するニューラルネットワークAnsatzを設計する。 7,14,19のスピン偏極相と常磁性相を,r_s=1$ から $r_s=100$ までの幅広い密度で研究し,非常に強い相関の困難な状態であっても,最先端の反復バックフローベースラインと同等以上の精度を得た。 本研究は, ニューラルネットワークans\"{a}tzeの分子系への応用を, 周期境界条件の処理法で拡張し, スピンアライメントによるペアワイズストリームの分割と, ネットワークから軌道へのバックフロー座標の生成という, 性能向上のために2つの注目すべき変更を行った。 小型粒子密度行列の計算において, 高品質な波動関数の利点を示す。 この貢献により、ニューラルネットワークモデルは周期電子系に対する柔軟で高精度なAns\"{a}tzeとして確立され、結晶性固体への応用に向けた重要なステップとなる。

We design a neural network Ansatz for variationally finding the ground-state wave function of the Homogeneous Electron Gas, a fundamental model in the physics of extended systems of interacting fermions. We study the spin-polarised and paramagnetic phases with 7, 14 and 19 electrons over a broad range of densities from $r_s=1$ to $r_s=100$, obtaining similar or higher accuracy compared to a state-of-the-art iterative backflow baseline even in the challenging regime of very strong correlation. Our work extends previous applications of neural network Ans\"{a}tze to molecular systems with methods for handling periodic boundary conditions, and makes two notable changes to improve performance: splitting the pairwise streams by spin alignment and generating backflow coordinates for the orbitals from the network. We illustrate the advantage of our high quality wave functions in computing the reduced single particle density matrix. This contribution establishes neural network models as flexible and high precision Ans\"{a}tze for periodic electronic systems, an important step towards applications to crystalline solids.
翻訳日:2023-05-25 01:59:03 公開日:2023-05-23
# シナリオ非依存混合による識別的視覚表現学習の促進

Boosting Discriminative Visual Representation Learning with Scenario-Agnostic Mixup ( http://arxiv.org/abs/2111.15454v3 )

ライセンス: Link先を確認
Siyuan Li, Zicheng Liu, Zedong Wang, Di Wu, Zihan Liu, Stan Z. Li(参考訳) mixupはdnnでよく知られたデータ依存の強化技術であり、mixup生成と分類の2つのサブタスクで構成されている。 しかし、最近の支配的なオンライントレーニング手法では、mixupを教師あり学習(sl)に限定しており、生成サブタスクの目的は、データ多様体全体ではなく、選択されたサンプルペアに限定されている。 このような制約を克服するために、我々はミックスアップ生成の目的を総合的に研究し、SLシナリオと自己教師型学習(SSL)シナリオの両方に対して、 \textbf{S}cenario-\textbf{A}gnostic \textbf{Mix}up (SAMix)を提案する。 具体的には,ミックスアップ生成の目的関数を,他のクラスとグローバル差別を受ける2つの混合クラス間の局所的滑らかさを最適化することとして仮定し,検証する。 そこで我々は2つのサブオブジェクトの相補学習のために$\eta$- balanced mixup lossを提案する。 一方、ラベルフリーな生成サブネットワークが設計され、非自明な混合サンプルを効果的に提供し、転送能力を向上させる。 さらに,オンライントレーニングの計算コストを削減するために,事前学習したSAMix$^\mathcal{P}$を導入し,より良好な効率と一般化性を実現する。 9つのSLおよびSSLベンチマークの大規模な実験は、SAMixの既存の方法と比較して一貫した優位性と汎用性を示している。

Mixup is a well-known data-dependent augmentation technique for DNNs, consisting of two sub-tasks: mixup generation and classification. However, the recent dominant online training method confines mixup to supervised learning (SL), and the objective of the generation sub-task is limited to selected sample pairs instead of the whole data manifold, which might cause trivial solutions. To overcome such limitations, we comprehensively study the objective of mixup generation and propose \textbf{S}cenario-\textbf{A}gnostic \textbf{Mix}up (SAMix) for both SL and Self-supervised Learning (SSL) scenarios. Specifically, we hypothesize and verify the objective function of mixup generation as optimizing local smoothness between two mixed classes subject to global discrimination from other classes. Accordingly, we propose $\eta$-balanced mixup loss for complementary learning of the two sub-objectives. Meanwhile, a label-free generation sub-network is designed, which effectively provides non-trivial mixup samples and improves transferable abilities. Moreover, to reduce the computational cost of online training, we further introduce a pre-trained version, SAMix$^\mathcal{P}$, achieving more favorable efficiency and generalizability. Extensive experiments on nine SL and SSL benchmarks demonstrate the consistent superiority and versatility of SAMix compared with existing methods.
翻訳日:2023-05-25 01:58:41 公開日:2023-05-23
# 逆ズームレンズ:DNNに対する新たな物理世界攻撃

Adversarial Zoom Lens: A Novel Physical-World Attack to DNNs ( http://arxiv.org/abs/2206.12251v2 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) ディープニューラルネットワーク(DNN)は脆弱であることが知られているが、物理世界における画像のズームインとズームアウトがDNNのパフォーマンスに与える影響は研究されていない。 本稿では,対象物体の特性を変化させることなくdnnを騙し,ズームレンズを用いて物理世界の画像をズームイン/アウトし,dnnを騙す,adversarial zoom lens(advzl)と呼ばれる新しい物理敵攻撃手法を提案する。 提案手法は,DNNの物理的摂動を加味しない唯一の逆攻撃手法である。 デジタル環境では,AdvZLに基づくデータセットを構築し,DNNに対する等スケール拡大画像の対角性を検証する。 物理環境では、ズームレンズを操作して、対象オブジェクトをズームイン/アウトし、逆のサンプルを生成します。 実験により,デジタルおよび物理環境におけるAdvZLの有効性が示された。 さらに、改良されたDNNに対して提案したデータセットの敵意を解析する。 一方,我々は,advzlに対する攻撃訓練による防衛指針を提供する。 最後に、将来の自動運転と、提案された攻撃に類似した異種攻撃のアイデアに対する提案手法の脅威の可能性を検討する。

Although deep neural networks (DNNs) are known to be fragile, no one has studied the effects of zooming-in and zooming-out of images in the physical world on DNNs performance. In this paper, we demonstrate a novel physical adversarial attack technique called Adversarial Zoom Lens (AdvZL), which uses a zoom lens to zoom in and out of pictures of the physical world, fooling DNNs without changing the characteristics of the target object. The proposed method is so far the only adversarial attack technique that does not add physical adversarial perturbation attack DNNs. In a digital environment, we construct a data set based on AdvZL to verify the antagonism of equal-scale enlarged images to DNNs. In the physical environment, we manipulate the zoom lens to zoom in and out of the target object, and generate adversarial samples. The experimental results demonstrate the effectiveness of AdvZL in both digital and physical environments. We further analyze the antagonism of the proposed data set to the improved DNNs. On the other hand, we provide a guideline for defense against AdvZL by means of adversarial training. Finally, we look into the threat possibilities of the proposed approach to future autonomous driving and variant attack ideas similar to the proposed attack.
翻訳日:2023-05-25 01:51:00 公開日:2023-05-23
# 量子状態の不安定構造に基づく局所近似によるブラインド量子データ圧縮のレート低減

Rate Reduction of Blind Quantum Data Compression with Local Approximations Based on Unstable Structure of Quantum States ( http://arxiv.org/abs/2206.03501v3 )

ライセンス: Link先を確認
Kohdai Kuroiwa and Debbie Leung(参考訳) 本稿では,有限局所近似を用いたデータ圧縮タスクであるブラインド量子データ圧縮のための新しいプロトコルを提案する。 ブラインドデータ圧縮の速度は、近似が小さくても近似に影響を受けやすい。 この不安定性は近似に対する量子状態の構造の感度に由来するため、近似の存在下でのブラインド圧縮の解析は難解である。 本稿では, 圧縮速度を実質的に低減するために, 不安定性を利用したプロトコルを構築した。 本プロトコルは, 具体例において, 顕著な削減率を示す。 さらに,本手法を対角状態に適用し,この特別な場合において2種類の近似法を提案する。 数値実験を行い、これらの2つの近似法のうちの1つが他方よりもかなり優れていることを観察する。 そこで本研究では,ブラインド量子データ圧縮の近似速度トレードオフのさらなる検討に向けて,近似値を用いたブラインド量子データ圧縮の一般研究に向けて第一歩を踏み出した。

In this paper, we propose a new protocol for a data compression task, blind quantum data compression, with finite local approximations. The rate of blind data compression is susceptible to approximations even when the approximations are diminutive. This instability originates from the sensitivity of a structure of quantum states against approximations, which makes the analysis of blind compression in the presence of approximations intractable. In this paper, we constructed a protocol that takes advantage of the instability to reduce the compression rate substantially. Our protocol shows a significant reduction in rate for specific examples we examined. Moreover, we apply our methods to diagonal states, and propose two types of approximation methods in this special case. We perform numerical experiments and observe that one of these two approximation methods performs significantly better than the other. Thus, our analysis makes a first step toward general investigation of blind quantum data compression with the allowance of approximations towards further investigation of approximation-rate trade-off of blind quantum data compression.
翻訳日:2023-05-25 01:50:42 公開日:2023-05-23
# Snow Mountain:低資源言語における聖書のオーディオ録音のデータセット

Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages ( http://arxiv.org/abs/2206.01205v2 )

ライセンス: Link先を確認
Kavitha Raju, Anjaly V, Ryan Lish, Joel Mathew(参考訳) 自動音声認識(asr)は、現代の世界では有用性が高まっている。 英語のような大量のトレーニングデータを持つ言語には、多くのASRモデルが利用可能である。 しかし、低リソース言語は表現に乏しい。 これに応えて、低リソースの北インドの言語で聖書のオーディオ録音をオープンライセンスでフォーマットしたデータセットを作成し、リリースします。 我々は、複数の実験分割を設定し、このデータを用いて将来の研究のベースラインとなる2つの競合ASRモデルを訓練し、分析する。

Automatic Speech Recognition (ASR) has increasing utility in the modern world. There are a many ASR models available for languages with large amounts of training data like English. However, low-resource languages are poorly represented. In response we create and release an open-licensed and formatted dataset of audio recordings of the Bible in low-resource northern Indian languages. We setup multiple experimental splits and train and analyze two competitive ASR models to serve as the baseline for future research using this data.
翻訳日:2023-05-25 01:50:27 公開日:2023-05-23
# adversarial laser spot:dnnへの堅牢で隠された物理的攻撃

Adversarial Laser Spot: Robust and Covert Physical-World Attack to DNNs ( http://arxiv.org/abs/2206.01034v2 )

ライセンス: Link先を確認
Chengyin Hu, Yilong Wang, Kalibinuer Tiliwalidi, Wen Li(参考訳) 既存のディープニューラルネットワーク(DNN)の多くは、わずかなノイズによって容易に妨害される。 しかし、照明器具の配置による物理的攻撃に関する研究は少ない。 光ベースの物理的攻撃は優れた隠蔽性を持ち、多くのビジョンベースのアプリケーション(例えば自動運転)に重大なセキュリティリスクをもたらす。 そこで本研究では, 遺伝的アルゴリズムを用いて, レーザースポットの物理的パラメータを最適化し, 物理的攻撃を行う逆レーザースポット(AdvLS)と呼ばれる光による物理的攻撃を提案する。 低コストのレーザー装置を用いて、堅牢で隠密な物理的攻撃を実現する。 私たちが知る限りでは、AdvLSは昼間に物理的攻撃を行う最初の光ベースの物理的攻撃である。 デジタルおよび物理環境における多数の実験は、AdvLSが優れた堅牢性と隠蔽性を持っていることを示している。 また,実験データの詳細な解析により,AdvLSが生成する逆方向の摂動は,逆方向の攻撃マイグレーションに優れることがわかった。 実験の結果,AdvLSは高度DNNに深刻な干渉を強いることが明らかとなり,提案したAdvLSの注意を喚起する。 AdvLSのコードは、https://github.com/ChengYinHu/AdvLSで入手できる。

Most existing deep neural networks (DNNs) are easily disturbed by slight noise. However, there are few researches on physical attacks by deploying lighting equipment. The light-based physical attacks has excellent covertness, which brings great security risks to many vision-based applications (such as self-driving). Therefore, we propose a light-based physical attack, called adversarial laser spot (AdvLS), which optimizes the physical parameters of laser spots through genetic algorithm to perform physical attacks. It realizes robust and covert physical attack by using low-cost laser equipment. As far as we know, AdvLS is the first light-based physical attack that perform physical attacks in the daytime. A large number of experiments in the digital and physical environments show that AdvLS has excellent robustness and covertness. In addition, through in-depth analysis of the experimental data, we find that the adversarial perturbations generated by AdvLS have superior adversarial attack migration. The experimental results show that AdvLS impose serious interference to advanced DNNs, we call for the attention of the proposed AdvLS. The code of AdvLS is available at: https://github.com/ChengYinHu/AdvLS
翻訳日:2023-05-25 01:50:20 公開日:2023-05-23
# マスクベイズ型ニューラルネットワーク : 計算と最適性

Masked Bayesian Neural Networks : Computation and Optimality ( http://arxiv.org/abs/2206.00853v2 )

ライセンス: Link先を確認
Insung Kong, Dongyoon Yang, Jongjin Lee, Ilsang Ohn, Yongdai Kim(参考訳) データサイズと計算能力の増大に伴い、ディープニューラルネットワーク(DNN)のアーキテクチャは複雑で巨大になり、このような複雑で巨大なDNNを単純化する必要性が高まっている。 本稿では,適切な複雑さで優れたDNNを探索する,スパースベイズニューラルネットワーク(BNN)を提案する。 各ノードのマスキング変数を用いて、後続分布に応じていくつかのノードをオフにし、ノードワイズDNNを生成する。 我々は、後続分布が理論的最適性(すなわち極小最適性と適応性)を持つような事前分布を考案し、効率的なMCMCアルゴリズムを開発する。 いくつかのベンチマークデータセットを解析することにより、提案手法は他の手法と比較してよく機能し、大きなDNNと比較して予測精度と不確実性のあるよく凝縮したDNNアーキテクチャを発見できることを示す。

As data size and computing power increase, the architectures of deep neural networks (DNNs) have been getting more complex and huge, and thus there is a growing need to simplify such complex and huge DNNs. In this paper, we propose a novel sparse Bayesian neural network (BNN) which searches a good DNN with an appropriate complexity. We employ the masking variables at each node which can turn off some nodes according to the posterior distribution to yield a nodewise sparse DNN. We devise a prior distribution such that the posterior distribution has theoretical optimalities (i.e. minimax optimality and adaptiveness), and develop an efficient MCMC algorithm. By analyzing several benchmark datasets, we illustrate that the proposed BNN performs well compared to other existing methods in the sense that it discovers well condensed DNN architectures with similar prediction accuracy and uncertainty quantification compared to large DNNs.
翻訳日:2023-05-25 01:50:02 公開日:2023-05-23
# ガウス過程における後処理と計算の不確かさ

Posterior and Computational Uncertainty in Gaussian Processes ( http://arxiv.org/abs/2205.15449v4 )

ライセンス: Link先を確認
Jonathan Wenger, Geoff Pleiss, Marvin Pf\"ortner, Philipp Hennig, John P. Cunningham(参考訳) gaussianプロセスはデータセットのサイズによって制限的にスケールする。 これに応答して、近似誤差を必然的に導入する多くの近似法が開発されている。 この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。 したがって、実際にはgpモデルはデータに関するものと同様に近似法に関するものが多い。 そこで本研究では,観測される有限個のデータと有限個の計算量の両方から生じる組合せ不確かさを一貫した評価を行う手法を開発した。 このクラスで最も一般的なGP近似は、例えば、コレスキー分解に基づく方法、共役勾配、点の誘導などである。 このクラスの任意のメソッドに対して、我々は証明する。 i) 関連するRKHSにおける後方平均値の収束 (ii)その後続共分散を数学的・計算的共分散に分解すること、及び 三 結合分散は、メソッドの後方平均と潜在関数の間の二乗誤差に対して、厳密な最悪のケースである。 最後に、計算の不確実性を無視した結果が実証的に示され、ベンチマークデータセットの一般化性能をいかに暗黙的にモデル化するかを示す。

Gaussian processes scale prohibitively with the size of the dataset. In response, many approximation methods have been developed, which inevitably introduce approximation error. This additional source of uncertainty, due to limited computation, is entirely ignored when using the approximate posterior. Therefore in practice, GP models are often as much about the approximation method as they are about the data. Here, we develop a new class of methods that provides consistent estimation of the combined uncertainty arising from both the finite number of data observed and the finite amount of computation expended. The most common GP approximations map to an instance in this class, such as methods based on the Cholesky factorization, conjugate gradients, and inducing points. For any method in this class, we prove (i) convergence of its posterior mean in the associated RKHS, (ii) decomposability of its combined posterior covariance into mathematical and computational covariances, and (iii) that the combined variance is a tight worst-case bound for the squared error between the method's posterior mean and the latent function. Finally, we empirically demonstrate the consequences of ignoring computational uncertainty and show how implicitly modeling it improves generalization performance on benchmark datasets.
翻訳日:2023-05-25 01:49:45 公開日:2023-05-23
# NeuPSL: 神経確率的ソフト論理

NeuPSL: Neural Probabilistic Soft Logic ( http://arxiv.org/abs/2205.14268v3 )

ライセンス: Link先を確認
Connor Pryor, Charles Dickens, Eriq Augustine, Alon Albalak, William Wang, Lise Getoor(参考訳) 本稿では,ニューラル確率的ソフト論理(NeuPSL)を紹介する。これはニューラルシンボリック(NeSy)フレームワークで,最先端のシンボル推論と深層ニューラルネットワークの低レベル知覚を結合する。 ニューラル表現とシンボリック表現の境界をモデル化するために、エネルギーベースモデルであるNeSy Energy-based Modelのファミリーを提案し、NeSyLや他の多くのNeSyアプローチを組み込むのに十分な一般性を示す。 このフレームワークを用いて,neupslでニューラルネットワークとシンボリックパラメータ学習と推論をシームレスに統合する方法を示す。 広範な経験的評価を通じて,nesy法を用いることの利点を実証し,独立ニューラルネットワークモデルに対して30%以上の改善を達成する。 確立されたNeSyタスク、MNIST-Additionにおいて、NeuPSLは、データ設定で既存のNeSyアプローチを最大10%上回る、ジョイント推論機能を示している。 さらに、NeuPSLは、標準的な引用ネットワークタスクにおいて、最先端のNeSyメソッドよりも最大40倍の速度でパフォーマンスが5%向上する。

In this paper, we introduce Neural Probabilistic Soft Logic (NeuPSL), a novel neuro-symbolic (NeSy) framework that unites state-of-the-art symbolic reasoning with the low-level perception of deep neural networks. To model the boundary between neural and symbolic representations, we propose a family of energy-based models, NeSy Energy-Based Models, and show that they are general enough to include NeuPSL and many other NeSy approaches. Using this framework, we show how to seamlessly integrate neural and symbolic parameter learning and inference in NeuPSL. Through an extensive empirical evaluation, we demonstrate the benefits of using NeSy methods, achieving upwards of 30% improvement over independent neural network models. On a well-established NeSy task, MNIST-Addition, NeuPSL demonstrates its joint reasoning capabilities by outperforming existing NeSy approaches by up to 10% in low-data settings. Furthermore, NeuPSL achieves a 5% boost in performance over state-of-the-art NeSy methods in a canonical citation network task with up to a 40 times speed up.
翻訳日:2023-05-25 01:49:30 公開日:2023-05-23
# 波動-粒子双対性、不確かさ原理、位相空間、ミクロ状態のハイライト関係

Highlighting relations between Wave-particle duality, Uncertainty principle, Phase space and Microstates ( http://arxiv.org/abs/2205.08538v3 )

ライセンス: Link先を確認
Ravo Tokiniaina Ranaivoson, Voriraza S\'eraphin Hejesoa, Raoelina Andriambololona, Nirina Gilbert Rasolofoson, Hanitriarivo Rakotoson, Jacqueline Rabesahala Raoelina Andriambololona, Lala Rarivomanantsoa, Naivo Rabesiranana(参考訳) 波動粒子の双対性はしばしば、2000年以上の尋問の後、光の性質を知るために見つかった、現代的で満足のいく答えと見なされる。 これは物質粒子や他の放射線の性質に関する量子物理学の解でもある。 本研究の目的は, 歴史的, 哲学的, 科学的観点からこの波動粒子双対性の概念を解析し, その関係性, 不確実性原理, 位相空間とミクロ状態の概念を統計力学で考察し, 考察することである。 これらの関係は、物理学・数学・歴史哲学の両方の観点から説明され分析される。 特に、位相空間とミクロ状態の概念は、波動粒子の双対性の発見よりずっと前に古典物理学で既に導入されたが、それらの正しい理解は量子物理学なしでは達成できないことが強調されている。 しかし、逆に、不確実性原理、位相空間、微小状態との関係は、この双対性をより深く理解し、より適切な説明に役立つことも示されている。

The wave-particle duality is often considered as the modern and satisfactory answer that man found in searching to know the nature of light after more than 2000 years of questioning. It is also the answer given by quantum physics concerning the nature of matter particles and any other radiations. The aim of this work is to perform an analysis of this concept of wave-particle duality from a historical, philosophical and scientific point of view and to study and discuss about the relations which exist between it, the uncertainty principle and the concepts of phase space and microstates considered in statistical mechanics. These relations will be described and analyzed both from a physico-mathematical and historico-philosophical perspective. It is, in particular, highlighted that while the concepts of phase space and microstates were already introduced in classical physics long before the discovery of the wave-particle duality, a correct understanding of them cannot be achieved without quantum physics. But conversely, it is also shown that the relations of the wave-particle duality with uncertainty principle, phase space and microstates that are highlighted can help in a deeper understanding and more adequate description of this duality.
翻訳日:2023-05-25 01:48:38 公開日:2023-05-23
# 2次類似性下での高速なフェデレーション最適化

Faster federated optimization under second-order similarity ( http://arxiv.org/abs/2209.02257v2 )

ライセンス: Link先を確認
Ahmed Khaled and Chi Jin(参考訳) フェデレーション・ラーニング(FL)は、複数のクライアントが通信制約の下でネットワーク上のモデルを協調的に学習しようとする機械学習のサブフィールドである。 二階関数類似性条件と強い凸性の下での有限サム連立最適化を考察し、svrpと触媒svrpという2つの新しいアルゴリズムを提案する。 この2階類似性条件は近年普及しており、分散統計学習や微分プライベートな経験的リスク最小化を含む多くの応用で満足されている。 最初のアルゴリズムであるSVRPは、近似確率的近点評価、クライアントサンプリング、分散低減を組み合わせたものである。 SVRPは通信効率が高く,関数の類似性が十分高い場合,既存の多くのアルゴリズムよりも優れた性能を示す。 第2のアルゴリズムである Catalyzed SVRP は触媒加速型 SVRP で,より優れた性能を実現し,第2次類似性と強い凸性の下でのフェデレーション最適化のための既存のアルゴリズムを均一に改善する。 これらのアルゴリズムを解析する過程で、独立性のある確率的近点法(SPPM)を新たに分析する。 我々のSPPMの解析は単純で、近似的近点評価が可能であり、滑らかさの仮定を必要としない。

Federated learning (FL) is a subfield of machine learning where multiple clients try to collaboratively learn a model over a network under communication constraints. We consider finite-sum federated optimization under a second-order function similarity condition and strong convexity, and propose two new algorithms: SVRP and Catalyzed SVRP. This second-order similarity condition has grown popular recently, and is satisfied in many applications including distributed statistical learning and differentially private empirical risk minimization. The first algorithm, SVRP, combines approximate stochastic proximal point evaluations, client sampling, and variance reduction. We show that SVRP is communication efficient and achieves superior performance to many existing algorithms when function similarity is high enough. Our second algorithm, Catalyzed SVRP, is a Catalyst-accelerated variant of SVRP that achieves even better performance and uniformly improves upon existing algorithms for federated optimization under second-order similarity and strong convexity. In the course of analyzing these algorithms, we provide a new analysis of the Stochastic Proximal Point Method (SPPM) that might be of independent interest. Our analysis of SPPM is simple, allows for approximate proximal point evaluations, does not require any smoothness assumptions, and shows a clear benefit in communication complexity over ordinary distributed stochastic gradient descent.
翻訳日:2023-05-25 01:43:02 公開日:2023-05-23
# 深部ニューラルネットワークのロバスト性に及ぼすスケール画像の影響

Impact of Scaled Image on Robustness of Deep Neural Networks ( http://arxiv.org/abs/2209.02132v2 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) ディープニューラルネットワーク(DNN)は、画像分類、オブジェクト検出、セグメンテーションといったコンピュータビジョンタスクで広く使用されている。 近年の研究では、入力画像のデジタル摂動や歪みに対する脆弱性が示されている。 ネットワークの精度は、トレーニングデータセットのデータ分布によって著しく影響を受ける。 生画像のスケーリングは分散データを生成するため、ネットワークを騙すための敵対的な攻撃になる可能性がある。 本研究では,ImageNet Challengeデータセットのサブセットを複数でスケーリングすることで,Scaling-DistortionデータセットのImageNet-CSを提案する。 本研究の目的は,拡張DNNの性能に及ぼすスケール画像の影響を検討することである。 提案するimagenet-cs上で,最先端深層ニューラルネットワークアーキテクチャの実験を行い,スケーリングサイズと精度低下との間に有意な正の相関を示した。 さらに,resnet50アーキテクチャに基づき,最近提案するロバストなトレーニング手法と augmix, revisiting, normalizer などの戦略の性能に関するいくつかのテストを行った。 実験の結果、これらの堅牢なトレーニング技術は、ネットワークのスケール変換に対する堅牢性を改善することが示されている。

Deep neural networks (DNNs) have been widely used in computer vision tasks like image classification, object detection and segmentation. Whereas recent studies have shown their vulnerability to manual digital perturbations or distortion in the input images. The accuracy of the networks is remarkably influenced by the data distribution of their training dataset. Scaling the raw images creates out-of-distribution data, which makes it a possible adversarial attack to fool the networks. In this work, we propose a Scaling-distortion dataset ImageNet-CS by Scaling a subset of the ImageNet Challenge dataset by different multiples. The aim of our work is to study the impact of scaled images on the performance of advanced DNNs. We perform experiments on several state-of-the-art deep neural network architectures on the proposed ImageNet-CS, and the results show a significant positive correlation between scaling size and accuracy decline. Moreover, based on ResNet50 architecture, we demonstrate some tests on the performance of recent proposed robust training techniques and strategies like Augmix, Revisiting and Normalizer Free on our proposed ImageNet-CS. Experiment results have shown that these robust training techniques can improve networks' robustness to scaling transformation.
翻訳日:2023-05-25 01:42:38 公開日:2023-05-23
# ニューラルノベル・アクター:人間アクターのための汎用アニマタブルニューラル表現学習

Neural Novel Actor: Learning a Generalized Animatable Neural Representation for Human Actors ( http://arxiv.org/abs/2208.11905v2 )

ライセンス: Link先を確認
Yiming Wang, Qingzhe Gao, Libin Liu, Lingjie Liu, Christian Theobalt, Baoquan Chen(参考訳) 本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラルヒューマン表現を学習するための新しい手法を提案する。 学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。 既存の手法は、新しい人に一般化したり、ユーザー制御でアニメーションを合成したりできるが、どちらも同時に実現できない。 この成果は、共有多人モデルにおける3Dプロキシの活用によるものであり、さらに、異なるポーズの空間を、ニューラルネットワークを学習し、人やポーズに依存した変形を予測し、入力画像から抽出した特徴と出現する共有正準ポーズ空間に変形させるものである。 身体の形状やポーズ、衣服の変形の複雑さに対処するため、脳の形状や外観が異なっていたニューラル・ヒューマン・モデルを設計する。 さらに,3dプロキシの空間的および表面的両面で画像特徴を活用し,人物・ポーズ依存特性の予測を行う。 実験の結果,本手法は両タスクの最先端性を大幅に向上することがわかった。 ビデオとコードはhttps://talegqz.github.io/neural_novel_actorで入手できる。

We propose a new method for learning a generalized animatable neural human representation from a sparse set of multi-view imagery of multiple persons. The learned representation can be used to synthesize novel view images of an arbitrary person from a sparse set of cameras, and further animate them with the user's pose control. While existing methods can either generalize to new persons or synthesize animations with user control, none of them can achieve both at the same time. We attribute this accomplishment to the employment of a 3D proxy for a shared multi-person human model, and further the warping of the spaces of different poses to a shared canonical pose space, in which we learn a neural field and predict the person- and pose-dependent deformations, as well as appearance with the features extracted from input images. To cope with the complexity of the large variations in body shapes, poses, and clothing deformations, we design our neural human model with disentangled geometry and appearance. Furthermore, we utilize the image features both at the spatial point and on the surface points of the 3D proxy for predicting person- and pose-dependent properties. Experiments show that our method significantly outperforms the state-of-the-arts on both tasks. The video and code are available at https://talegqz.github.io/neural_novel_actor.
翻訳日:2023-05-25 01:42:20 公開日:2023-05-23
# Deep Patch Visual Odometry

Deep Patch Visual Odometry ( http://arxiv.org/abs/2208.04726v2 )

ライセンス: Link先を確認
Zachary Teed, Lahav Lipson and Jia Deng(参考訳) 本稿では,モノクラービジュアルオドメトリー(VO)のための新しいディープラーニングシステムであるDeep Patch Visual Odometry (DPVO)を提案する。 DPVOは、時間にわたってイメージパッチを追跡するように設計された、新しいリカレントネットワークアーキテクチャを使用している。 VOに対する最近のアプローチは、ディープネットワークを用いてビデオフレーム間の密流を予測することにより、最先端の精度を大幅に向上させた。 しかし、高密度流れを用いると計算コストが大きくなり、多くのユースケースではこれらの手法は実用的ではない。 それにもかかわらず、不正確な一致に対してさらなる冗長性をもたらすため、密度流が重要であると推測されている。 DPVOはこの仮定を否定し、密流に対するスパースパッチベースのマッチングの利点を活用することにより、最高の精度と効率が得られることを示した。 DPVOは、パッチベースの対応と異なるバンドル調整を組み合わせた新しい更新演算子を導入している。 標準ベンチマークでは、DPVOは、学習ベースの最先端のVOシステム(DROID)を含む、すべての以前の作業で、メモリの3分の1を使用して、平均3倍高速で動作する。 コードはhttps://github.com/princeton-vl/DPVOで入手できる。

We propose Deep Patch Visual Odometry (DPVO), a new deep learning system for monocular Visual Odometry (VO). DPVO uses a novel recurrent network architecture designed for tracking image patches across time. Recent approaches to VO have significantly improved the state-of-the-art accuracy by using deep networks to predict dense flow between video frames. However, using dense flow incurs a large computational cost, making these previous methods impractical for many use cases. Despite this, it has been assumed that dense flow is important as it provides additional redundancy against incorrect matches. DPVO disproves this assumption, showing that it is possible to get the best accuracy and efficiency by exploiting the advantages of sparse patch-based matching over dense flow. DPVO introduces a novel recurrent update operator for patch based correspondence coupled with differentiable bundle adjustment. On Standard benchmarks, DPVO outperforms all prior work, including the learning-based state-of-the-art VO-system (DROID) using a third of the memory while running 3x faster on average. Code is available at https://github.com/princeton-vl/DPVO
翻訳日:2023-05-25 01:41:57 公開日:2023-05-23
# 説明可能なグラフニューラルネットワークに関する調査 : 分類と評価指標

A Survey of Explainable Graph Neural Networks: Taxonomy and Evaluation Metrics ( http://arxiv.org/abs/2207.12599v2 )

ライセンス: Link先を確認
Yiqiao Li and Jianlong Zhou and Sunny Verma and Fang Chen(参考訳) グラフニューラルネットワーク(GNN)は,グラフデータ上での予測性能を著しく向上させた。 同時に、これらのモデルによってなされる予測は、しばしば解釈が難しい。 その点に関して、GNNExplainer、XGNN、PGExplainerといった視点から、これらのモデルの予測メカニズムを説明するために多くの取り組みがなされている。 このような研究は、GNNを解釈するための体系的なフレームワークを提供するが、説明可能なGNNの総合的なレビューは利用できない。 本稿では,GNN向けに開発された説明可能性技術について概説する。 本稿では,説明可能なグラフニューラルネットワークに着目し,説明可能な手法を用いて分類する。 さらに、GNNの説明に共通のパフォーマンス指標を提供し、今後の研究の方向性を指摘する。

Graph neural networks (GNNs) have demonstrated a significant boost in prediction performance on graph data. At the same time, the predictions made by these models are often hard to interpret. In that regard, many efforts have been made to explain the prediction mechanisms of these models from perspectives such as GNNExplainer, XGNN and PGExplainer. Although such works present systematic frameworks to interpret GNNs, a holistic review for explainable GNNs is unavailable. In this survey, we present a comprehensive review of explainability techniques developed for GNNs. We focus on explainable graph neural networks and categorize them based on the use of explainable methods. We further provide the common performance metrics for GNNs explanations and point out several future research directions.
翻訳日:2023-05-25 01:41:40 公開日:2023-05-23
# ラベル依存とメンバーモデルの共同学習による対人アンサンブルトレーニング

Adversarial Ensemble Training by Jointly Learning Label Dependencies and Member Models ( http://arxiv.org/abs/2206.14477v3 )

ライセンス: Link先を確認
Lele Wang, Bin Liu(参考訳) 多様なサブモデルのアンサンブルを訓練することは、ディープニューラルネットワークの対角的堅牢性を改善する効果的な戦略として実証されている。 しかし、現在の画像認識のためのアンサンブル訓練法は、通常、ラベル間の依存関係関係を見落としているワンホットベクトルを用いて画像ラベルを符号化する。 本稿では,ラベルの依存関係とメンバーモデルとを協調的に学習する,新たな逆アンサンブル学習手法を提案する。 提案手法は,学習したラベル依存をメンバーモデル間の表層的多様性に適応的に活用する。 mnist,fashionmnist,cifar-10など,広く使用されているデータセットに対するアプローチを評価し,最先端の手法と比較して,ブラックボックス攻撃に対して優れた堅牢性を実現することを示す。 私たちのコードはhttps://github.com/ZJLAB-AMMI/LSD.comで公開されています。

Training an ensemble of diverse sub-models has been empirically demonstrated as an effective strategy for improving the adversarial robustness of deep neural networks. However, current ensemble training methods for image recognition typically encode image labels using one-hot vectors, which overlook dependency relationships between the labels. In this paper, we propose a novel adversarial en-semble training approach that jointly learns the label dependencies and member models. Our approach adaptively exploits the learned label dependencies to pro-mote diversity among the member models. We evaluate our approach on widely used datasets including MNIST, FashionMNIST, and CIFAR-10, and show that it achieves superior robustness against black-box attacks compared to state-of-the-art methods. Our code is available at https://github.com/ZJLAB-AMMI/LSD.
翻訳日:2023-05-25 01:40:08 公開日:2023-05-23
# ラテントコンビネーションゲーム設計

Latent Combinational Game Design ( http://arxiv.org/abs/2206.14203v2 )

ライセンス: Link先を確認
Anurag Sarkar, Seth Cooper(参考訳) 我々は,あるゲームセットを所望の組合せにブレンドしたプレイ可能なゲームを生成するために,深層生成潜在変数モデルを用いた潜在組合せゲーム設計を提案する。 ガウス混合変分オートエンコーダ (gmvaes) を用いて, ガウス成分の混合によりvae潜在空間をモデル化する。 教師付きトレーニングを通じて、各コンポーネントは1つのゲームからレベルをエンコードし、これらのコンポーネントの線形結合としてブレンドゲームを定義する。 これにより、入力ゲームをブレンドし、各ゲームの相対比率をブレンドで制御する新しいゲームを生成することができる。 また,条件付きVAEを用いた先行ブレンディング作業を拡張し,GMVAEと比較し,また,全ブレンドレベルとレイアウトを生成するためのハイブリッドコンディショナルGAVAE(CGMVAE)アーキテクチャを導入する。 以上の手法は,入力ゲームと特定の組み合わせを混合したプレイ可能なゲームを生成することができることを示す。 プラットフォームとダンジョンベースのゲームの両方を使って結果を示しています。

We present latent combinational game design -- an approach for generating playable games that blend a given set of games in a desired combination using deep generative latent variable models. We use Gaussian Mixture Variational Autoencoders (GMVAEs) which model the VAE latent space via a mixture of Gaussian components. Through supervised training, each component encodes levels from one game and lets us define blended games as linear combinations of these components. This enables generating new games that blend the input games and controlling the relative proportions of each game in the blend. We also extend prior blending work using conditional VAEs and compare against the GMVAE and additionally introduce a hybrid conditional GMVAE (CGMVAE) architecture which lets us generate whole blended levels and layouts. Results show that the above approaches can generate playable games that blend the input games in specified combinations. We use both platformers and dungeon-based games to demonstrate our results.
翻訳日:2023-05-25 01:39:54 公開日:2023-05-23
# DiGress: グラフ生成のための離散化拡散

DiGress: Discrete Denoising diffusion for graph generation ( http://arxiv.org/abs/2209.14734v4 )

ライセンス: Link先を確認
Clement Vignac, Igor Krawczuk, Antoine Siraudin, Bohan Wang, Volkan Cevher, Pascal Frossard(参考訳) 本稿では,カテゴリノードとエッジ属性を持つグラフを生成するための離散分節拡散モデルである digress を紹介する。 このモデルでは,エッジの追加や削除,カテゴリ変更のプロセスを通じて,ノイズを伴うグラフの漸進的な編集を行う離散拡散プロセスを採用している。 グラフトランスフォーマーネットワークは、グラフ上の分布学習の問題をノードとエッジの分類タスクのシーケンスに単純化して、このプロセスを復元するように訓練される。 拡散中のノードとエッジの限界分布を保存するマルコフノイズモデルを導入し,補助的なグラフ理論的特徴を取り入れることで,サンプル品質をさらに向上する。 グラフレベル特徴量の生成条件付け手法も提案されている。 DiGressは、分子および非分子データセットの最先端のパフォーマンスを達成し、平面グラフデータセットの最大3倍の妥当性を向上する。 また、分子特異的表現を使わずに1.3mの薬物様分子を含む巨大なグアカモールデータセットにスケールした最初のモデルでもある。

This work introduces DiGress, a discrete denoising diffusion model for generating graphs with categorical node and edge attributes. Our model utilizes a discrete diffusion process that progressively edits graphs with noise, through the process of adding or removing edges and changing the categories. A graph transformer network is trained to revert this process, simplifying the problem of distribution learning over graphs into a sequence of node and edge classification tasks. We further improve sample quality by introducing a Markovian noise model that preserves the marginal distribution of node and edge types during diffusion, and by incorporating auxiliary graph-theoretic features. A procedure for conditioning the generation on graph-level features is also proposed. DiGress achieves state-of-the-art performance on molecular and non-molecular datasets, with up to 3x validity improvement on a planar graph dataset. It is also the first model to scale to the large GuacaMol dataset containing 1.3M drug-like molecules without the use of molecule-specific representations.
翻訳日:2023-05-25 01:32:43 公開日:2023-05-23
# 計画的同変ネットワークの探索

In Search of Projectively Equivariant Networks ( http://arxiv.org/abs/2209.14719v2 )

ライセンス: Link先を確認
Georg B\"okman, Axel Flinth, Fredrik Kahl(参考訳) 線形ニューラルネットワーク層の等価性はよく研究されている。 この研究において、同値条件は射影的意味でのみ真となるように緩和する。 本稿では,各中間特徴空間に作用する線形群表現が射影群表現の「乗法修正リフト」である標準同変ネットワークを構築することにより,射影同変ニューラルネットワークを構築する方法を提案する。 線形層の射影的および線形同値な関係を理論的に研究することで、このアプローチは線形層からネットワークを構築する際に最も一般的であることを示す。 この理論は2つの単純な実験で示される。

Equivariance of linear neural network layers is well studied. In this work, we relax the equivariance condition to only be true in a projective sense. We propose a way to construct a projectively equivariant neural network through building a standard equivariant network where the linear group representations acting on each intermediate feature space are "multiplicatively modified lifts" of projective group representations. By theoretically studying the relation of projectively and linearly equivariant linear layers, we show that our approach is the most general possible when building a network out of linear layers. The theory is showcased in two simple experiments.
翻訳日:2023-05-25 01:32:27 公開日:2023-05-23
# ビデオの時間的アクションセグメンテーションをリアルタイムでストリーミングする

Streaming Video Temporal Action Segmentation In Real Time ( http://arxiv.org/abs/2209.13808v2 )

ライセンス: Link先を確認
Wujun Wen, Yunheng Li, Zhuben Dong, Lin Feng, Wanxiao Yang, Shenlan Liu(参考訳) テンポラリアクションセグメンテーション(tas)は、長期的なビデオ理解への重要なステップである。 近年の研究は、生の映像情報の代わりに特徴に基づくモデルを構築するパターンに従っている。 しかし、これらのモデルは複雑に訓練され、アプリケーションのシナリオを制限していると主張する。 ビデオの全特徴が抽出された後に動作しなければならないため、ビデオの人間の動作をリアルタイムでセグメント化することは困難である。 リアルタイムアクションセグメンテーションタスクはtasタスクとは異なるので、ストリーミングビデオリアルタイムアクションセグメンテーション(svtas)タスクと定義する。 本稿では,SVTASタスクのためのリアルタイムエンドツーエンドマルチモーダリティモデルを提案する。 具体的には、将来的な情報が得られない状況下では、ビデオチャンクをリアルタイムにストリーミングする現在の人間の行動を分類する。 さらに,本モデルでは,言語モデルが抽出した最後の蒸散映像特徴と,画像モデルが抽出した現在の画像特徴とを組み合わせることにより,リアルタイムな時間的行動セグメンテーションの量を改善する。 我々の知る限りでは、これは初めてのマルチモーダルリアルタイム時空間行動分割モデルである。 フルビデオの時間的動作セグメンテーションと同じ評価基準の下では,最先端のモデル計算の40%未満でリアルタイムにヒューマンアクションをセグメンテーションし,全映像の90%の精度を達成する。

Temporal action segmentation (TAS) is a critical step toward long-term video understanding. Recent studies follow a pattern that builds models based on features instead of raw video picture information. However, we claim those models are trained complicatedly and limit application scenarios. It is hard for them to segment human actions of video in real time because they must work after the full video features are extracted. As the real-time action segmentation task is different from TAS task, we define it as streaming video real-time temporal action segmentation (SVTAS) task. In this paper, we propose a real-time end-to-end multi-modality model for SVTAS task. More specifically, under the circumstances that we cannot get any future information, we segment the current human action of streaming video chunk in real time. Furthermore, the model we propose combines the last steaming video chunk feature extracted by language model with the current image feature extracted by image model to improve the quantity of real-time temporal action segmentation. To the best of our knowledge, it is the first multi-modality real-time temporal action segmentation model. Under the same evaluation criteria as full video temporal action segmentation, our model segments human action in real time with less than 40% of state-of-the-art model computation and achieves 90% of the accuracy of the full video state-of-the-art model.
翻訳日:2023-05-25 01:32:18 公開日:2023-05-23
# 適応メタ学習による行動予測の展開範囲の拡大

Expanding the Deployment Envelope of Behavior Prediction via Adaptive Meta-Learning ( http://arxiv.org/abs/2209.11820v4 )

ライセンス: Link先を確認
Boris Ivanovic, James Harrison, Marco Pavone(参考訳) 学習に基づく行動予測手法は、例えば、世界中の主要都市で商業的に運用され始めている自動運転車の群れに、現実の自律システムに展開されつつある。 しかし、その進歩にもかかわらず、ほとんどの予測システムは、拡張された地理的領域または運用設計ドメインに特化しており、追加の都市、国、大陸への配備を複雑にしている。 そこで本研究では,行動予測モデルを新しい環境に適用するための新しい手法を提案する。 提案手法は,最近のメタラーニング,特にベイズ回帰の進歩を活かし,オフラインの微調整やオンライン適応などによる効率的なドメイン転送を可能にする適応層により,既存の行動予測モデルを強化している。 複数の実世界のデータセットにまたがる実験により、我々の手法は様々な未知の環境に効率的に適応できることを示した。

Learning-based behavior prediction methods are increasingly being deployed in real-world autonomous systems, e.g., in fleets of self-driving vehicles, which are beginning to commercially operate in major cities across the world. Despite their advancements, however, the vast majority of prediction systems are specialized to a set of well-explored geographic regions or operational design domains, complicating deployment to additional cities, countries, or continents. Towards this end, we present a novel method for efficiently adapting behavior prediction models to new environments. Our approach leverages recent advances in meta-learning, specifically Bayesian regression, to augment existing behavior prediction models with an adaptive layer that enables efficient domain transfer via offline fine-tuning, online adaptation, or both. Experiments across multiple real-world datasets demonstrate that our method can efficiently adapt to a variety of unseen environments.
翻訳日:2023-05-25 01:31:55 公開日:2023-05-23
# 対角灯:DNNに対する効果的で頑丈でロバストな物理世界攻撃

Adversarial Catoptric Light: An Effective, Stealthy and Robust Physical-World Attack to DNNs ( http://arxiv.org/abs/2209.11739v2 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) ディープニューラルネットワーク(DNN)は、高度なDNNの堅牢性を評価する必要性を浮き彫りにして、様々なタスクで例外的な成功を収めている。 しかし、ステッカーを物理的摂動として用いた伝統的な分類法は、ステルスネスを達成し印刷損失を被る際の課題を提示する。 近年の物理的攻撃の進歩は、レーザーやプロジェクターなどの光ビームを利用して攻撃を行い、光学的パターンは自然ではなく人工的である。 そこで本研究では, ブラックボックス環境下での高次DNNに対する盗難・自然主義的対人攻撃を実現するために, 共通自然現象, カタプトリ光を用いて, 対人的摂動を発生させる新しい物理攻撃, 対人的対人的対人的光(AdvCL)を導入する。 提案手法は, 有効性, ステルス性, 堅牢性の3つの側面で評価する。 シミュレーション環境で得られた定量的な結果は,提案手法の有効性を示し,物理的シナリオでは,攻撃成功率83.5%がベースラインを超えている。 一般的な白内障光を摂動として使用し, この方法のステルス性を高め, 物理的試料をより自然に見せる。 ロバストネスは、すべてのケースで80%以上の成功率で、高度で堅牢なDNNを攻撃することで検証される。 さらに,AdvCLに対する防衛戦略について論じ,光による物理的攻撃を行った。

Deep neural networks (DNNs) have demonstrated exceptional success across various tasks, underscoring the need to evaluate the robustness of advanced DNNs. However, traditional methods using stickers as physical perturbations to deceive classifiers present challenges in achieving stealthiness and suffer from printing loss. Recent advancements in physical attacks have utilized light beams such as lasers and projectors to perform attacks, where the optical patterns generated are artificial rather than natural. In this study, we introduce a novel physical attack, adversarial catoptric light (AdvCL), where adversarial perturbations are generated using a common natural phenomenon, catoptric light, to achieve stealthy and naturalistic adversarial attacks against advanced DNNs in a black-box setting. We evaluate the proposed method in three aspects: effectiveness, stealthiness, and robustness. Quantitative results obtained in simulated environments demonstrate the effectiveness of the proposed method, and in physical scenarios, we achieve an attack success rate of 83.5%, surpassing the baseline. We use common catoptric light as a perturbation to enhance the stealthiness of the method and make physical samples appear more natural. Robustness is validated by successfully attacking advanced and robust DNNs with a success rate over 80% in all cases. Additionally, we discuss defense strategy against AdvCL and put forward some light-based physical attacks.
翻訳日:2023-05-25 01:31:39 公開日:2023-05-23
# 逆色投影:DNNに対するプロジェクタによる物理的攻撃

Adversarial Color Projection: A Projector-based Physical Attack to DNNs ( http://arxiv.org/abs/2209.09652v2 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi, Ling Tian(参考訳) 最近の研究では、ディープニューラルネットワーク(DNN)が敵の摂動に弱いことが示されている。 したがって、敵攻撃に対する先進的DNNの弾力性を評価することが不可欠である。 しかし、ステッカーを物理的摂動として用い、分類器を欺く伝統的な手法は、ステルス性を達成することが困難であり、印刷損失の影響を受けやすい。 近年、物理的攻撃の進展はレーザーなどの光線を利用して、発生した光学パターンが自然ではなく人工的な攻撃を行っている。 本研究では,色投射の物理パラメータを制御し,対角攻撃を行う,ブラックボックス・プロジェクタに基づく物理的攻撃(AdvCP)を提案する。 弊社のアプローチは,有効性,ステルス性,堅牢性という3つの重要な基準で評価する。 デジタル環境では、ImageNetのサブセットで97.60%の攻撃成功率を達成する一方、物理的環境では、屋内テストで100%、屋外テストで82.14%の攻撃成功率を得る。 また,AdvCP が生成した逆数サンプルをベースライン試料と比較し,本手法のステルス性を示した。 先進DNNを攻撃した場合,実験結果から,AdvCPのロバスト性を検証したすべてのケースにおいて,攻撃成功率85%以上を達成できることが確認された。 最後に、advcpが将来のビジョンベースのシステムやアプリケーションに対して与える潜在的な脅威を検討し、光ベースの物理的攻撃のアイデアを提案する。

Recent research has demonstrated that deep neural networks (DNNs) are vulnerable to adversarial perturbations. Therefore, it is imperative to evaluate the resilience of advanced DNNs to adversarial attacks. However, traditional methods that use stickers as physical perturbations to deceive classifiers face challenges in achieving stealthiness and are susceptible to printing loss. Recently, advancements in physical attacks have utilized light beams, such as lasers, to perform attacks, where the optical patterns generated are artificial rather than natural. In this work, we propose a black-box projector-based physical attack, referred to as adversarial color projection (AdvCP), which manipulates the physical parameters of color projection to perform an adversarial attack. We evaluate our approach on three crucial criteria: effectiveness, stealthiness, and robustness. In the digital environment, we achieve an attack success rate of 97.60% on a subset of ImageNet, while in the physical environment, we attain an attack success rate of 100% in the indoor test and 82.14% in the outdoor test. The adversarial samples generated by AdvCP are compared with baseline samples to demonstrate the stealthiness of our approach. When attacking advanced DNNs, experimental results show that our method can achieve more than 85% attack success rate in all cases, which verifies the robustness of AdvCP. Finally, we consider the potential threats posed by AdvCP to future vision-based systems and applications and suggest some ideas for light-based physical attacks.
翻訳日:2023-05-25 01:31:13 公開日:2023-05-23
# 効率的な対話モデリングのためのステートフルメモリ型トランスフォーマー

Stateful Memory-Augmented Transformers for Efficient Dialogue Modeling ( http://arxiv.org/abs/2209.07634v2 )

ライセンス: Link先を確認
Qingyang Wu and Zhou Yu(参考訳) トランスフォーマーエンコーダ-デコーダモデルでは,対話生成タスクにおいて高い性能を達成しているが,長い対話履歴を処理できないことがしばしばコンテキストの切り離しにつながるため,既存のトレーニング済みエンコーダ-デコーダモデルと互換性があり,対話履歴情報の効率的な保存を可能にする新しいメモリ拡張トランスフォーマを提案する。 事前訓練された変換器と共に別々のメモリモジュールを組み込むことで、モデルはメモリ状態と現在の入力コンテキストの間で情報を効果的に交換することができる。 3つの対話データセットと2つの言語モデリングデータセットでモデルを評価する。 実験結果から,本手法は他のトレーニング済みトランスフォーマーベースラインに比べて効率と性能が優れていた。

Transformer encoder-decoder models have achieved great performance in dialogue generation tasks, however, their inability to process long dialogue history often leads to truncation of the context To address this problem, we propose a novel memory-augmented transformer that is compatible with existing pre-trained encoder-decoder models and enables efficient preservation of the dialogue history information. By incorporating a separate memory module alongside the pre-trained transformer, the model can effectively interchange information between the memory states and the current input context. We evaluate our model on three dialogue datasets and two language modeling datasets. Experimental results show that our method has achieved superior efficiency and performance compared to other pre-trained Transformer baselines.
翻訳日:2023-05-25 01:30:49 公開日:2023-05-23
# 連続時間ホークスプロセスによるセプシス関連配列のグランガー因果連鎖発見

Granger Causal Chain Discovery for Sepsis-Associated Derangements via Continuous-Time Hawkes Processes ( http://arxiv.org/abs/2209.04480v5 )

ライセンス: Link先を確認
Song Wei, Yao Xie, Christopher S. Josef, Rishikesan Kamaleswaran(参考訳) 現代の医療システムは、電子医療記録(EMR)を継続的に自動で監視し、頻度の上昇に伴う有害事象を識別するが、セプシスのような多くの事象は、その過程の早い段階で、有害事象を識別し、傍受するために用いられる、解明されたプロドロム(すなわち、イベントチェーン)を持っていない。 臨床的に関連があり 解釈可能な結果には (i)EMMデータ(例えば、ラボ、バイタルサイン等)にみられる複数の患者特徴間の時間的相互作用を推測すること。 (ii)差し迫っている副作用(敗血症など)に特異的なパターンを特定すること。 本研究では,ReLUリンク関数と組み合わさった線形多変量ホークスプロセスモデルを提案し,エキサイティングかつ抑制的な効果を持つGranger Causal(GC)グラフを復元する。 本研究では, 拡張性のある2相勾配法を開発し, 広範囲な数値シミュレーションにより有効であることを示す。 この方法はその後,米国アトランタのglady病院に入院した患者のデータセットに拡張され,推定gcグラフは敗血症に先行するいくつかの高度に解釈可能なgc鎖を同定する。 コードは \url{https://github.com/songwei-gt/two-phase-mhp} で入手できる。

Modern health care systems are conducting continuous, automated surveillance of the electronic medical record (EMR) to identify adverse events with increasing frequency; however, many events such as sepsis do not have elucidated prodromes (i.e., event chains) that can be used to identify and intercept the adverse event early in its course. Clinically relevant and interpretable results require a framework that can (i) infer temporal interactions across multiple patient features found in EMR data (e.g., Labs, vital signs, etc.) and (ii) identify patterns that precede and are specific to an impending adverse event (e.g., sepsis). In this work, we propose a linear multivariate Hawkes process model, coupled with ReLU link function, to recover a Granger Causal (GC) graph with both exciting and inhibiting effects. We develop a scalable two-phase gradient-based method to obtain a maximum surrogate-likelihood estimator, which is shown to be effective via extensive numerical simulation. Our method is subsequently extended to a data set of patients admitted to Grady hospital system in Atlanta, GA, USA, where the estimated GC graph identifies several highly interpretable GC chains that precede sepsis. The code is available at \url{https://github.com/SongWei-GT/two-phase-MHP}.
翻訳日:2023-05-25 01:30:36 公開日:2023-05-23
# 深部ニューラルネットワークのロバスト性に及ぼす色変化の影響

Impact of Colour Variation on Robustness of Deep Neural Networks ( http://arxiv.org/abs/2209.02832v2 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) ディープニューラルネットワーク(DNN)は、画像分類、セグメンテーション、オブジェクト検出といったコンピュータビジョンアプリケーションの最先端のパフォーマンスを示している。 近年の進歩は、入力データの手動のデジタル摂動、すなわち敵の攻撃に対する脆弱性を示している。 ネットワークの精度は、トレーニングデータセットのデータ分布に大きく影響を受ける。 入力画像の色空間上の歪みや摂動は分布外データを生成するため、ネットワークはそれらを誤分類しがちである。 本研究では,イメージネットのサブセットにRGB色を27種類の組み合わせで変形させることにより,色差データセットを提案する。 本研究の目的は,色変化がDNNの性能に与える影響を検討することである。 提案したデータセット上でいくつかの最先端DNNアーキテクチャの実験を行い,色変化と精度の損失との間に有意な相関関係を示す。 さらに,resnet50アーキテクチャに基づき,提案するデータセット上で,最近提案されている強固なトレーニング手法と戦略,例えば augmix,revisit,free normalizer の性能実験を行った。 実験結果から,これらのロバストトレーニング手法により,深層ネットワークのロバスト性の向上が期待できる。

Deep neural networks (DNNs) have have shown state-of-the-art performance for computer vision applications like image classification, segmentation and object detection. Whereas recent advances have shown their vulnerability to manual digital perturbations in the input data, namely adversarial attacks. The accuracy of the networks is significantly affected by the data distribution of their training dataset. Distortions or perturbations on color space of input images generates out-of-distribution data, which make networks more likely to misclassify them. In this work, we propose a color-variation dataset by distorting their RGB color on a subset of the ImageNet with 27 different combinations. The aim of our work is to study the impact of color variation on the performance of DNNs. We perform experiments on several state-of-the-art DNN architectures on the proposed dataset, and the result shows a significant correlation between color variation and loss of accuracy. Furthermore, based on the ResNet50 architecture, we demonstrate some experiments of the performance of recently proposed robust training techniques and strategies, such as Augmix, revisit, and free normalizer, on our proposed dataset. Experimental results indicate that these robust training techniques can improve the robustness of deep networks to color variation.
翻訳日:2023-05-25 01:30:09 公開日:2023-05-23
# 逆色フィルム:DNNに対する効果的な物理世界攻撃

Adversarial Color Film: Effective Physical-World Attack to DNNs ( http://arxiv.org/abs/2209.02430v2 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi(参考訳) ディープニューラルネットワーク(DNN)の性能が微妙な干渉の影響を受けやすいことはよく知られている。 今のところ、カメラベースの物理的敵攻撃はあまり注目されていませんが、物理的な攻撃の欠如です。 本稿では,カラーフィルムの物理パラメータを操作して攻撃を行うadvcf(adversarial color film)と呼ばれる簡易かつ効率的なカメラベース物理攻撃を提案する。 デジタル環境と物理環境の両方において提案手法の有効性を示す。 さらに,実験結果から,AdvCFが生成した対向検体は攻撃伝達性に優れた性能を示し,有効ブラックボックス攻撃を可能にした。 同時に、敵の訓練によってAdvCFに対する防衛の指導を行う。 最後に、将来のビジョンベースのシステムに対するAdvCFの脅威を考察し、カメラベースの物理的攻撃に対する有望な精神性を提案する。

It is well known that the performance of deep neural networks (DNNs) is susceptible to subtle interference. So far, camera-based physical adversarial attacks haven't gotten much attention, but it is the vacancy of physical attack. In this paper, we propose a simple and efficient camera-based physical attack called Adversarial Color Film (AdvCF), which manipulates the physical parameters of color film to perform attacks. Carefully designed experiments show the effectiveness of the proposed method in both digital and physical environments. In addition, experimental results show that the adversarial samples generated by AdvCF have excellent performance in attack transferability, which enables AdvCF effective black-box attacks. At the same time, we give the guidance of defense against AdvCF by means of adversarial training. Finally, we look into AdvCF's threat to future vision-based systems and propose some promising mentality for camera-based physical attacks.
翻訳日:2023-05-25 01:29:48 公開日:2023-05-23
# unbounded memoryを用いたオンライン凸最適化

Online Convex Optimization with Unbounded Memory ( http://arxiv.org/abs/2210.09903v3 )

ライセンス: Link先を確認
Raunak Kumar, Sarah Dean, and Robert Kleinberg(参考訳) online convex optimization(oco)は、オンライン学習において広く使われているフレームワークである。 各ラウンドにおいて、学習者は凸集合における決定を選択し、敵は凸損失関数を選択し、その後、学習者は現在の決定に関連する損失を被る。 しかし、多くのアプリケーションでは、学習者の損失は現在の決定だけでなく、その時点まですべての決定の歴史に依存する。 ocoフレームワークとその既存の一般化は、これを捉えておらず、長い一連の近似引数の後、多くの関心の設定にしか適用できない。 彼らはまた、非自明な下限がないため、メモリ依存がきついかどうかという疑問も残している。 本稿では,OCOフレームワークの一般化である ``Online Convex Optimization with Unbounded Memory'' を紹介する。 我々は,現在の損失に対する過去の決定の最大影響を定量化するメモリ容量$p$,$h_p$の概念を導入する。 o(\sqrt{h_p t})$ upperbound on the policy regret and a matching (worst-case) lowerbound を証明します。 特別な場合として、有限メモリを持つocoに対する最初の非自明な下界を証明し、独立な興味を持ち、既存の上界を改善することができる。 オンラインリニアコントロールやオンラインパフォーマンス予測など,さまざまなオンライン学習問題に対して,後悔境界の導出と既存の後悔境界導出を改善し,単純化することにより,フレームワークの広範な適用性を示す。

Online convex optimization (OCO) is a widely used framework in online learning. In each round, the learner chooses a decision in a convex set and an adversary chooses a convex loss function, and then the learner suffers the loss associated with their current decision. However, in many applications the learner's loss depends not only on the current decision but on the entire history of decisions until that point. The OCO framework and its existing generalizations do not capture this, and they can only be applied to many settings of interest after a long series of approximation arguments. They also leave open the question of whether the dependence on memory is tight because there are no non-trivial lower bounds. In this work we introduce a generalization of the OCO framework, ``Online Convex Optimization with Unbounded Memory'', that captures long-term dependence on past decisions. We introduce the notion of $p$-effective memory capacity, $H_p$, that quantifies the maximum influence of past decisions on present losses. We prove an $O(\sqrt{H_p T})$ upper bound on the policy regret and a matching (worst-case) lower bound. As a special case, we prove the first non-trivial lower bound for OCO with finite memory~\citep{anavaHM2015online}, which could be of independent interest, and also improve existing upper bounds. We demonstrate the broad applicability of our framework by using it to derive regret bounds, and to improve and simplify existing regret bound derivations, for a variety of online learning problems including online linear control and an online variant of performative prediction.
翻訳日:2023-05-25 01:24:22 公開日:2023-05-23
# ビジュアルディベートによる画像分類の説明

Explaining Image Classification with Visual Debates ( http://arxiv.org/abs/2210.09015v2 )

ライセンス: Link先を確認
Avinash Kori, Ben Glocker, Francesca Toni(参考訳) 特定のトピックについて異なる視点を得る効果的な方法は、参加者が議論し、そのトピックに対して反対する議論を行うことである。 本稿では,連続画像分類器の推論をマルチプレイヤーシーケンシャルゼロサムディベートゲームとしてモデル化することで理解し,説明するための新たな議論フレームワークを提案する。 我々のフレームワークの対照的な性質は、プレイヤーが議論中に多様な議論を提起することを学び、相手が見逃した推論の軌跡を拾い上げ、分類者の不確実性を強調させる。 特に, 提案手法では, プレイヤーは分類器の決定を支持するか, 反対するかするために, 分類器の非正規化された潜在知識から引き出された議論を提案する。 結果として得られた視覚的な議論は、分類器の離散化された潜在空間から支持と反対の特徴を収集し、分類器の内部的推論の予測への説明となる。 我々は、幾何学的SHAPEおよびMNISTデータセットと高分解能動物顔(AFHQ)データセットと、説明のための標準的な評価指標(忠実性と完全性)と、説明として視覚的議論のための目覚ましいメトリクス(合意と分割比率)を実証し、評価した。

An effective way to obtain different perspectives on any given topic is by conducting a debate, where participants argue for and against the topic. Here, we propose a novel debate framework for understanding and explaining a continuous image classifier's reasoning for making a particular prediction by modeling it as a multiplayer sequential zero-sum debate game. The contrastive nature of our framework encourages players to learn to put forward diverse arguments during the debates, picking up the reasoning trails missed by their opponents and highlighting any uncertainties in the classifier. Specifically, in our proposed setup, players propose arguments, drawn from the classifier's discretized latent knowledge, to support or oppose the classifier's decision. The resulting Visual Debates collect supporting and opposing features from the discretized latent space of the classifier, serving as explanations for the internal reasoning of the classifier towards its predictions. We demonstrate and evaluate (a practical realization of) our Visual Debates on the geometric SHAPE and MNIST datasets and on the high-resolution animal faces (AFHQ) dataset, along standard evaluation metrics for explanations (i.e. faithfulness and completeness) and novel, bespoke metrics for visual debates as explanations (consensus and split ratio).
翻訳日:2023-05-25 01:23:53 公開日:2023-05-23
# 言語モデルにおける構成性ギャップの測定と狭化

Measuring and Narrowing the Compositionality Gap in Language Models ( http://arxiv.org/abs/2210.03350v2 )

ライセンス: Link先を確認
Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah A. Smith, Mike Lewis(参考訳) 本稿では,サブプロブレムに対する解の正しい構成に依存した構成的推論タスクを言語モデルで行う能力について検討する。 モデルがすべてのサブ問題に正しく答えられる頻度を計測し、全体の解を生成しない。 我々は,事前学習中に複数の事実が一緒に観測されそうにない回答を複数問うことで,この比率を評価する。 GPT-3 モデルでは,モデルサイズの増加に伴い,シングルホップ質問応答性能はマルチホップ性能よりも高速に向上し,構成性差は減少しない。 この驚くべき結果は、より強力なモデルが実際の知識を記憶し記憶する一方で、そのような構成的推論を行う能力に対応する改善は見られないことを示唆している。 次に、暗黙的にではなく、明示的に推論することで構成性のギャップをいかに狭めるかを示す。 我々は,思考連鎖をさらに改善する新しい手法であるself-askを提案する。 本手法では,最初の質問に答える前に,モデルが自らを明示的に問う(そして答える)。 最後に、self-askの構造化プロンプトによって、検索エンジンをプラグインしてフォローアップ質問に答えることができます。

We investigate the ability of language models to perform compositional reasoning tasks where the overall solution depends on correctly composing the answers to sub-problems. We measure how often models can correctly answer all sub-problems but not generate the overall solution, a ratio we call the compositionality gap. We evaluate this ratio by asking multi-hop questions with answers that require composing multiple facts unlikely to have been observed together during pretraining. In the GPT-3 family of models, as model size increases we show that the single-hop question answering performance improves faster than the multi-hop performance does, therefore the compositionality gap does not decrease. This surprising result suggests that while more powerful models memorize and recall more factual knowledge, they show no corresponding improvement in their ability to perform this kind of compositional reasoning. We then demonstrate how elicitive prompting (such as chain of thought) narrows the compositionality gap by reasoning explicitly instead of implicitly. We present a new method, self-ask, that further improves on chain of thought. In our method, the model explicitly asks itself (and then answers) follow-up questions before answering the initial question. We finally show that self-ask's structured prompting lets us easily plug in a search engine to answer the follow-up questions, which additionally improves accuracy.
翻訳日:2023-05-25 01:22:51 公開日:2023-05-23
# 光ハイブリッドレトリバーの効率性と一般化に関する研究

A Study on the Efficiency and Generalization of Light Hybrid Retrievers ( http://arxiv.org/abs/2210.01371v2 )

ライセンス: Link先を確認
Man Luo, Shashank Jain, Anchit Gupta, Arash Einolghozati, Barlas Oguz, Debojeet Chatterjee, Xilun Chen, Chitta Baral, Peyman Heidari(参考訳) ハイブリッドレトリバーはスパースと高密度レトリバーの両方を利用することができる。 従来のハイブリッドレトリバーはインデックス重密レトリバーを活用する。 本研究では「性能を犠牲にすることなくハイブリッドレトリバーのインデクシングメモリを削減できるか」について検討する。 本稿では,DrBoostをインデックス化効率の高い高密度レトリバー(DrBoost)に利用し,さらにDrBoostのメモリを削減するLITEレトリバーを導入する。 LITEはDrBoostからの対照的な学習と知識の蒸留を共同で訓練している。 次に,sparseレトリバーであるbm25をliteまたはdrboostと統合し,軽量ハイブリッドレトリバーを形成する。 我々のハイブリッド-LITEレトリバーは、BM25とDPRのハイブリッドレトリバーの98.0%性能を維持しながら、13Xメモリを節約する。 さらに,ドメイン外データセットと敵対的アタックデータセット上での軽量ハイブリッドレトリバーの一般化能力について検討した。 実験により,光ハイブリッドレトリバーは個々のスパースや高密度レトリバーよりも優れた一般化性能が得られることが示された。 しかし,解析の結果,検索者の堅牢性向上のための大きな空間があることが示唆され,新たな研究の方向性が示唆された。

Hybrid retrievers can take advantage of both sparse and dense retrievers. Previous hybrid retrievers leverage indexing-heavy dense retrievers. In this work, we study "Is it possible to reduce the indexing memory of hybrid retrievers without sacrificing performance"? Driven by this question, we leverage an indexing-efficient dense retriever (i.e. DrBoost) and introduce a LITE retriever that further reduces the memory of DrBoost. LITE is jointly trained on contrastive learning and knowledge distillation from DrBoost. Then, we integrate BM25, a sparse retriever, with either LITE or DrBoost to form light hybrid retrievers. Our Hybrid-LITE retriever saves 13X memory while maintaining 98.0% performance of the hybrid retriever of BM25 and DPR. In addition, we study the generalization capacity of our light hybrid retrievers on out-of-domain dataset and a set of adversarial attacks datasets. Experiments showcase that light hybrid retrievers achieve better generalization performance than individual sparse and dense retrievers. Nevertheless, our analysis shows that there is a large room to improve the robustness of retrievers, suggesting a new research direction.
翻訳日:2023-05-25 01:21:50 公開日:2023-05-23
# Zemi: 複数のタスクからゼロショットセミパラメトリック言語モデルを学ぶ

Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple Tasks ( http://arxiv.org/abs/2210.00185v2 )

ライセンス: Link先を確認
Zhenhailong Wang, Xiaoman Pan, Dian Yu, Dong Yu, Jianshu Chen, Heng Ji(参考訳) 大きな言語モデルは印象的なゼロショット能力を達成したが、大きなモデルサイズは一般的に高いコストを発生させる。 近年,より小さな言語モデルを外部レトリバーで拡張するセミパラメトリック言語モデルは,有望な言語モデリング能力を実証している。 しかし、そのような半パラメトリック言語モデルが、下流タスクへのゼロショット一般化に関する完全なパラメトリック言語モデルと競合的に機能するかどうかは不明である。 本稿では,ゼロショットセミパラメトリック言語モデルである$\text{Zemi}$を紹介する。 私たちの知る限りでは、これは幅広い無意味なタスクで強いゼロショット性能を示すことができる最初の半パラメトリック言語モデルです。 我々は,T0 が提案したパラメトリックマルチタスクトレーニングと比較して大幅に改善した,新しい半パラメトリックマルチタスク誘導トレーニングパラダイムで $\text{Zemi}$ をトレーニングする。 具体的には,大規模タスク非依存コーパスからの検索により,マルチタスクトレーニングとゼロショット評価を増強する。 複数の潜在的にノイズの多い検索拡張を組み込むため、perceiver resamplerとgated cross-attentionを利用した新しい$\text{augmentation fusion}$モジュールも提案する。 特に,提案した$\text{Zemi}_\text{LARGE}$は,モデルサイズを3.9倍小さくしながら,T0-3Bを16%向上させる。

Although large language models have achieved impressive zero-shot ability, the huge model size generally incurs high cost. Recently, semi-parametric language models, which augment a smaller language model with an external retriever, have demonstrated promising language modeling capabilities. However, it remains unclear whether such semi-parametric language models can perform competitively well as their fully-parametric counterparts on zero-shot generalization to downstream tasks. In this work, we introduce $\text{Zemi}$, a zero-shot semi-parametric language model. To our best knowledge, this is the first semi-parametric language model that can demonstrate strong zero-shot performance on a wide range of held-out unseen tasks. We train $\text{Zemi}$ with a novel semi-parametric multitask prompted training paradigm, which shows significant improvement compared with the parametric multitask training as proposed by T0. Specifically, we augment the multitask training and zero-shot evaluation with retrieval from a large-scale task-agnostic unlabeled corpus. In order to incorporate multiple potentially noisy retrieved augmentations, we further propose a novel $\text{augmentation fusion}$ module leveraging perceiver resampler and gated cross-attention. Notably, our proposed $\text{Zemi}_\text{LARGE}$ outperforms T0-3B by 16% on all seven evaluation tasks while being 3.9x smaller in model size.
翻訳日:2023-05-25 01:21:29 公開日:2023-05-23
# コントラスト型自己教師型学習のためのスリムネットワーク

Slimmable Networks for Contrastive Self-supervised Learning ( http://arxiv.org/abs/2209.15525v2 )

ライセンス: Link先を確認
Shuai Zhao, Xiaohan Wang, Linchao Zhu, Yi Yang(参考訳) 自己教師付き学習は、大規模モデルの事前学習において大きな進歩をもたらすが、小さなモデルでは困難である。 この問題に対する従来の解決策は主に知識蒸留に依存しており、まず大きな教師モデルを訓練し、その後、より小さな教師の一般化能力を向上させるために蒸留する2段階の手順である。 本研究では,教師を余分に必要とせずに事前学習した小モデル,すなわち,コントラスト的自己教師付き学習のためのスリム化ネットワーク (\emph{slimclr}) を得るための一段階解を提案する。 スリム化可能なネットワークは、完全なネットワークと、計算コストの低い小さなネットワークを含む様々なネットワークを得るために、一度にトレーニングできるいくつかの重み共有サブネットワークで構成されている。 しかし、ウェイトシェアリングネットワーク間の干渉は、'emph{gradient magnitude im Balance} と 'emph{gradient direction divergence} によって証明されたように、自己監督されたケースで深刻なパフォーマンス劣化を引き起こす。 前者は,バックプロパゲーションにおいて,パラメータのごく一部が支配的な勾配を生じさせるが,主パラメータは完全最適化されない可能性があることを示している。 後者は勾配方向が乱れ、最適化過程が不安定であることを示す。 これらの問題に対処するために,主パラメータが支配的な勾配を生成し,サブネットワークが一貫した出力を持つようにするための3つの手法を導入する。 これらの技術には、サブネットワークのスロースタートトレーニング、オンライン蒸留、モデルサイズに応じた損失再重み付けが含まれる。 さらに, 線形評価において, 一つのスリム化可能な線形層が準最適であることを示す理論的結果を示した。 これにより、線形評価中に切り替え可能な線形プローブ層が適用される。 典型的なコントラスト学習フレームワークでSlimCLRをインスタンス化し、パラメータやFLOPが少ない従来の手法よりも優れたパフォーマンスを実現する。

Self-supervised learning makes significant progress in pre-training large models, but struggles with small models. Previous solutions to this problem rely mainly on knowledge distillation, which involves a two-stage procedure: first training a large teacher model and then distilling it to improve the generalization ability of smaller ones. In this work, we present a one-stage solution to obtain pre-trained small models without the need for extra teachers, namely, slimmable networks for contrastive self-supervised learning (\emph{SlimCLR}). A slimmable network consists of a full network and several weight-sharing sub-networks, which can be pre-trained once to obtain various networks, including small ones with low computation costs. However, interference between weight-sharing networks leads to severe performance degradation in self-supervised cases, as evidenced by \emph{gradient magnitude imbalance} and \emph{gradient direction divergence}. The former indicates that a small proportion of parameters produce dominant gradients during backpropagation, while the main parameters may not be fully optimized. The latter shows that the gradient direction is disordered, and the optimization process is unstable. To address these issues, we introduce three techniques to make the main parameters produce dominant gradients and sub-networks have consistent outputs. These techniques include slow start training of sub-networks, online distillation, and loss re-weighting according to model sizes. Furthermore, theoretical results are presented to demonstrate that a single slimmable linear layer is sub-optimal during linear evaluation. Thus a switchable linear probe layer is applied during linear evaluation. We instantiate SlimCLR with typical contrastive learning frameworks and achieve better performance than previous arts with fewer parameters and FLOPs.
翻訳日:2023-05-25 01:21:10 公開日:2023-05-23
# 中国のCLIP:中国の視力訓練

Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese ( http://arxiv.org/abs/2211.01335v3 )

ライセンス: Link先を確認
An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, Chang Zhou(参考訳) CLIP(Radford et al., 2021)の驚異的な成功は、視覚言語事前学習におけるコントラスト学習の研究と応用を促進している。 本研究では,中国における画像テキストペアの大規模データセットを構築し,公開データセットからほとんどのデータを抽出し,新しいデータセット上で中国語のCLIPモデルを事前学習する。 77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発した。 さらに,まず画像エンコーダを凍結してモデルをトレーニングし,その後,すべてのパラメータを最適化してモデル性能を向上させる2段階事前学習法を提案する。 本研究では,ゼロショット学習と微調整のセットアップにおいて,ミュージ,flickr30k-cn,coco-cnの最先端性能を達成し,elevaterベンチマーク (li et al., 2022) の評価に基づいて,ゼロショット画像分類における競合性能を実現できることを示す。 コード、モデル、デモはhttps://github.com/OFA-Sys/ Chinese-CLIPで公開しました。

The tremendous success of CLIP (Radford et al., 2021) has promoted the research and application of contrastive learning for vision-language pretraining. In this work, we construct a large-scale dataset of image-text pairs in Chinese, where most data are retrieved from publicly available datasets, and we pretrain Chinese CLIP models on the new dataset. We develop 5 Chinese CLIP models of multiple sizes, spanning from 77 to 958 million parameters. Furthermore, we propose a two-stage pretraining method, where the model is first trained with the image encoder frozen and then trained with all parameters being optimized, to achieve enhanced model performance. Our comprehensive experiments demonstrate that Chinese CLIP can achieve the state-of-the-art performance on MUGE, Flickr30K-CN, and COCO-CN in the setups of zero-shot learning and finetuning, and it is able to achieve competitive performance in zero-shot image classification based on the evaluation on the ELEVATER benchmark (Li et al., 2022). We have released our codes, models, and demos in https://github.com/OFA-Sys/Chinese-CLIP
翻訳日:2023-05-25 01:13:15 公開日:2023-05-23
# 拡張テスト時間適応を用いたオンライン機械学習駆動スマートシティアプリケーションにおけるデータ分散シフトの解消

Addressing Data Distribution Shifts in Online Machine Learning Powered Smart City Applications Using Augmented Test-Time Adaptation ( http://arxiv.org/abs/2211.01315v2 )

ライセンス: Link先を確認
Shawqi Al-Maliki, Faissal El Bouanani, Mohamed Abdallah, Junaid Qadir, Ala Al-Fuqaha(参考訳) データ分散シフトは、テストデータがトレーニングデータと異なる機械学習駆動のスマートシティアプリケーションにおいて一般的な問題である。 スマートシティアプリケーションをオンライン機械学習モデルで拡張することは、高いコストと信頼性の低いパフォーマンスで、テスト時にこの問題を処理できる。 To overcome this limitation, we propose to endow test-time adaptation with a systematic active fine-tuning (SAF) layer that is characterized by three key aspects: a continuity aspect that adapts to ever-present data distribution shifts; intelligence aspect that recognizes the importance of fine-tuning as a distribution-shift-aware process that occurs at the appropriate time to address the recently detected data distribution shifts; and cost-effectiveness aspect that involves budgeted human-machine collaboration to make relabeling cost-effective and practical for diverse smart city applications. 実験の結果,提案手法は従来のテスト時間適応を2倍に向上させることがわかった。

Data distribution shift is a common problem in machine learning-powered smart city applications where the test data differs from the training data. Augmenting smart city applications with online machine learning models can handle this issue at test time, albeit with high cost and unreliable performance. To overcome this limitation, we propose to endow test-time adaptation with a systematic active fine-tuning (SAF) layer that is characterized by three key aspects: a continuity aspect that adapts to ever-present data distribution shifts; intelligence aspect that recognizes the importance of fine-tuning as a distribution-shift-aware process that occurs at the appropriate time to address the recently detected data distribution shifts; and cost-effectiveness aspect that involves budgeted human-machine collaboration to make relabeling cost-effective and practical for diverse smart city applications. Our empirical results show that our proposed approach outperforms the traditional test-time adaptation by a factor of two.
翻訳日:2023-05-25 01:12:53 公開日:2023-05-23
# サンプリングのための出生死ダイナミクス:グローバル収束、近似とその漸近

Birth-death dynamics for sampling: Global convergence, approximations and their asymptotics ( http://arxiv.org/abs/2211.00450v2 )

ライセンス: Link先を確認
Yulong Lu, Dejan Slep\v{c}ev, Lihan Wang(参考訳) 非凸ポテンシャルを持つgibbs法をサンプリングすることの難しさに動機づけられ,連続死ダイナミクスの研究を行った。 先行研究 [51,57] の結果を改善し,kullback-leibler 発散あるいは $\chi^2$ 発散がgibbs 平衡測度に指数関数的に収束し,潜在的な障壁とは無関係な普遍的な速度で出生死の確率密度が低下する仮説を提示する。 純出生-死力学に基づく実用的な数値スプライマーを構築するために, 勾配流構造と古典的なフォッカー・プランク方程式に触発された相互作用粒子系を考察し, 測度のカーネルに基づく近似に依存する。 勾配流の$\gamma$-convergenceの手法を用いて、核化ダイナミクスのトーラス、滑らか、有界な正の解は有限時間間隔で収束し、カーネル帯域幅がゼロになるにつれて純出生-死のダイナミクスとなることを示す。 さらに,核化ダイナミクスに対応するエネルギーの最小値のバイアスを定量的に推定する。 最後に、Gibs測度に対する核化されたダイナミクスの漸近状態の収束について、長時間の漸近結果を証明する。

Motivated by the challenge of sampling Gibbs measures with nonconvex potentials, we study a continuum birth-death dynamics. We improve results in previous works [51,57] and provide weaker hypotheses under which the probability density of the birth-death governed by Kullback-Leibler divergence or by $\chi^2$ divergence converge exponentially fast to the Gibbs equilibrium measure, with a universal rate that is independent of the potential barrier. To build a practical numerical sampler based on the pure birth-death dynamics, we consider an interacting particle system, which is inspired by the gradient flow structure and the classical Fokker-Planck equation and relies on kernel-based approximations of the measure. Using the technique of $\Gamma$-convergence of gradient flows, we show that on the torus, smooth and bounded positive solutions of the kernelized dynamics converge on finite time intervals, to the pure birth-death dynamics as the kernel bandwidth shrinks to zero. Moreover we provide quantitative estimates on the bias of minimizers of the energy corresponding to the kernelized dynamics. Finally we prove the long-time asymptotic results on the convergence of the asymptotic states of the kernelized dynamics towards the Gibbs measure.
翻訳日:2023-05-25 01:12:36 公開日:2023-05-23
# 音声言語学習のための列車とテスト時間拡張の探索

Exploring Train and Test-Time Augmentations for Audio-Language Learning ( http://arxiv.org/abs/2210.17143v2 )

ライセンス: Link先を確認
Eungbeom Kim, Jinhee Kim, Yoori Oh, Kyungsu Kim, Minju Park, Jaeheon Sim, Jinwoo Lee, Kyogu Lee(参考訳) 本稿では,その重要性にもかかわらず検討されていない多モーダル学習におけるデータ拡張の効果を明らかにすることを目的とする。 列車時間だけでなくテスト時間でも様々な拡張手法を探索し、適切なデータ拡張が大幅な改善につながることを確かめる。 具体的には、最初のマルチモーダルな音声言語拡張手法であるPairMixを用いて、自動音声キャプションと音声テキスト検索の両タスクのベースラインを上回った。 データ拡張を完全に活用するために、テスト時間に対するマルチレベルテスト時間拡張(Multi-TTA)も提示する。 提案手法と一様拡張法を併用し,音声キャプションにおける47.5 SPIDErを実現し,ベースラインに対する18.2%の相対的な増加を示した。 音声テキスト検索において,提案手法は性能も向上している。

In this paper, we aim to unveil the impact of data augmentation in audio-language multi-modal learning, which has not been explored despite its importance. We explore various augmentation methods at not only train-time but also test-time and find out that proper data augmentation can lead to substantial improvements. Specifically, applying our proposed audio-language paired augmentation PairMix, which is the first multi-modal audio-language augmentation method, outperforms the baselines for both automated audio captioning and audio-text retrieval tasks. To fully take advantage of data augmentation, we also present multi-level test-time augmentation (Multi-TTA) for the test-time. We successfully incorporate the two proposed methods and uni-modal augmentations and achieve 47.5 SPIDEr on audio captioning, which is an 18.2% relative increase over the baseline. In audio-text retrieval, the proposed methods also show an improvement in performance as well.
翻訳日:2023-05-25 01:12:10 公開日:2023-05-23
# SAM-RL:微分物理学に基づくモデルに基づく強化学習とレンダリング

SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via Differentiable Physics-Based Simulation and Rendering ( http://arxiv.org/abs/2210.15185v3 )

ライセンス: Link先を確認
Jun Lv, Yunhai Feng, Cheng Zhang, Shuang Zhao, Lin Shao, Cewu Lu(参考訳) モデルベース強化学習(MBRL)は,モデルフリーRLよりも試料効率が高い可能性が認識されている。 特に複雑な環境やタスクにおいて、生の感覚入力(画像など)から正確なモデルを自動かつ効率的に開発する方法は、現実世界におけるMBRLの広範な適用を妨げる難しい問題である。 本研究では,SAM-RLと呼ばれる感性認識モデルに基づく強化学習システムを提案する。 差別化可能な物理シミュレーションとレンダリングを活用することで、SAM-RLはレンダリングされた画像と実際の生画像を比較してモデルを自動的に更新し、ポリシーを効率的に生成する。 センシング・アウェア学習パイプラインにより、sam-rlはロボットがタスクプロセスを監視するための情報的視点を選択することができる。 我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作を実世界の実験に適用する。 SAM-RLの有効性を実験的に検証した。 ビデオは、私たちのプロジェクトwebページhttps://sites.google.com/view/rss-sam-rlで閲覧できます。

Model-based reinforcement learning (MBRL) is recognized with the potential to be significantly more sample-efficient than model-free RL. How an accurate model can be developed automatically and efficiently from raw sensory inputs (such as images), especially for complex environments and tasks, is a challenging problem that hinders the broad application of MBRL in the real world. In this work, we propose a sensing-aware model-based reinforcement learning system called SAM-RL. Leveraging the differentiable physics-based simulation and rendering, SAM-RL automatically updates the model by comparing rendered images with real raw images and produces the policy efficiently. With the sensing-aware learning pipeline, SAM-RL allows a robot to select an informative viewpoint to monitor the task process. We apply our framework to real world experiments for accomplishing three manipulation tasks: robotic assembly, tool manipulation, and deformable object manipulation. We demonstrate the effectiveness of SAM-RL via extensive experiments. Videos are available on our project webpage at https://sites.google.com/view/rss-sam-rl.
翻訳日:2023-05-25 01:11:55 公開日:2023-05-23
# adams: 音響単語識別のための適応マージンと適応尺度を用いたディープメトリック学習

AdaMS: Deep Metric Learning with Adaptive Margin and Adaptive Scale for Acoustic Word Discrimination ( http://arxiv.org/abs/2210.14564v2 )

ライセンス: Link先を確認
Myunghun Jung, Hoirin Kim(参考訳) 深度学習における近年の損失関数の多くは対数的および指数的形式で表現され、その辺縁とスケールは必須のハイパーパラメータである。 各データクラスは固有の特性を持つため、適応的マージンを導入して実分布に近い埋め込み空間を学習しようと試みている。 しかし、適応スケールについてはまったく作業がなかった。 トレーニングの間、マージンとスケールは適応的に調整可能であるべきだ、と我々は主張する。 本稿では,適応マージンとスケールのハイパーパラメータを学習可能な適応マージンパラメータと適応マージンのパラメータに置き換える適応マージンとスケール(adams)という手法を提案する。 提案手法はwall street journalのデータセット上で評価され,単語識別タスクにおいて有意な結果が得られる。

Many recent loss functions in deep metric learning are expressed with logarithmic and exponential forms, and they involve margin and scale as essential hyper-parameters. Since each data class has an intrinsic characteristic, several previous works have tried to learn embedding space close to the real distribution by introducing adaptive margins. However, there was no work on adaptive scales at all. We argue that both margin and scale should be adaptively adjustable during the training. In this paper, we propose a method called Adaptive Margin and Scale (AdaMS), where hyper-parameters of margin and scale are replaced with learnable parameters of adaptive margins and adaptive scales for each class. Our method is evaluated on Wall Street Journal dataset, and we achieve outperforming results for word discrimination tasks.
翻訳日:2023-05-25 01:11:36 公開日:2023-05-23
# 過パラメータモデルにおける不確実性定量化の二重双日化について

On double-descent in uncertainty quantification in overparametrized models ( http://arxiv.org/abs/2210.12760v4 )

ライセンス: Link先を確認
Lucas Clart\'e, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 不確かさの定量化は、信頼性と信頼性のある機械学習における中心的な課題である。 ラスト層スコアのようなナイーブ測度は、過度にパラメータ化されたニューラルネットワークの文脈で過信的な推定が得られることでよく知られている。 温度スケーリングからニューラルネットワークの異なるベイズ処理まで、いくつかの方法が、より校正された不確実性測定をもたらすという数値観測によってしばしば支持される過剰信頼を軽減するために提案されている。 本研究では,超並列ニューラルネットワークのための数学的に扱いやすいモデルであるランダム特徴モデルにおいて,バイナリ分類のための一般的な不確実性尺度を鋭く比較する。 分類精度とキャリブレーションのトレードオフについて検討し, 最適正規化推定器のキャリブレーション曲線における二重降下様挙動を過パラメータ化の関数として明らかにする。 これは経験的ベイズ法とは対照的であり、一般化誤差と過度パラメトリゼーションにもかかわらず、我々の設定では十分に校正されている。

Uncertainty quantification is a central challenge in reliable and trustworthy machine learning. Naive measures such as last-layer scores are well-known to yield overconfident estimates in the context of overparametrized neural networks. Several methods, ranging from temperature scaling to different Bayesian treatments of neural networks, have been proposed to mitigate overconfidence, most often supported by the numerical observation that they yield better calibrated uncertainty measures. In this work, we provide a sharp comparison between popular uncertainty measures for binary classification in a mathematically tractable model for overparametrized neural networks: the random features model. We discuss a trade-off between classification accuracy and calibration, unveiling a double descent like behavior in the calibration curve of optimally regularized estimators as a function of overparametrization. This is in contrast with the empirical Bayes method, which we show to be well calibrated in our setting despite the higher generalization error and overparametrization.
翻訳日:2023-05-25 01:11:04 公開日:2023-05-23
# ハイブリッド回路力学からの量子通信におけるコヒーレンス要件

Coherence requirements for quantum communication from hybrid circuit dynamics ( http://arxiv.org/abs/2210.11547v2 )

ライセンス: Link先を確認
Shane P. Kelly, Ulrich Poschinger, Ferdinand Schmidt-Kaler, Matthew P.A. Fisher, and Jamir Marino(参考訳) 量子状態のコヒーレントな重ね合わせは、量子力学と情報を従来のものと区別する量子情報処理の重要な資源である。 本稿では、モニタリングされた量子力学と量子誤り訂正符号を含む広い環境で量子情報を伝えるためのコヒーレンス要件を決定する。 これらの要件は、2人の対戦相手であるアリスとイブの間で行われる量子情報ゲームによって生成されるハイブリッド回路と、固定数の量子ビット上でのユニタリと測定を競うことで決定される。 Aliceは量子チャネル容量を維持するためにユニタリを適用し、Eveはそれを破壊するために測定を適用している。 各対戦相手が利用可能なコヒーレンス生成または破壊操作を制限することにより、アリスのコヒーレンス要件を決定する。 Alice が汎用的な量子力学を模倣するランダムな戦略を実行すると、エンタングルメントと量子チャネルキャパシティのコヒーレンス調整相転移が見つかる。 次に、aliceが成功する戦略において必要最小限のコヒーレンスを与える定理を導出し、任意のstabelizer量子誤り訂正符号における符号距離の上界をコヒーレンスが設定することを証明する。 このような境界は、量子通信と誤り訂正のためのコヒーレンスリソース要件の厳密な定量化をもたらす。

The coherent superposition of quantum states is an important resource for quantum information processing which distinguishes quantum dynamics and information from their classical counterparts. In this article we determine the coherence requirements to communicate quantum information in a broad setting encompassing monitored quantum dynamics and quantum error correction codes. We determine these requirements by considering hybrid circuits that are generated by a quantum information game played between two opponents, Alice and Eve, who compete by applying unitaries and measurements on a fixed number of qubits. Alice applies unitaries in an attempt to maintain quantum channel capacity, while Eve applies measurements in an attempt to destroy it. By limiting the coherence generating or destroying operations available to each opponent, we determine Alice's coherence requirements. When Alice plays a random strategy aimed at mimicking generic monitored quantum dynamics, we discover a coherence-tuned phase transitions in entanglement and quantum channel capacity. We then derive a theorem giving the minimum coherence required by Alice in any successful strategy, and conclude by proving that coherence sets an upper bound on the code distance in any stabelizer quantum error correction codes. Such bounds provide a rigorous quantification of the coherence resource requirements for quantum communication and error correction.
翻訳日:2023-05-25 01:10:47 公開日:2023-05-23
# 局所的ショートカット除去

Localized Shortcut Removal ( http://arxiv.org/abs/2211.15510v2 )

ライセンス: Link先を確認
Nicolas M. M\"uller, Jochen Jacobs, Jennifer Williams, Konstantin B\"ottinger(参考訳) 機械学習はデータ駆動の分野であり、基礎となるデータセットの品質は、学習の成功において重要な役割を果たす。 しかし、ホールドアウトテストデータのハイパフォーマンスは、モデルが意味のあるものを一般化または学習することを必ずしも示さない。 多くの場合、これは機械学習のショートカットの存在によるもので、予測されるが目の前の問題とは無関係なデータの特徴である。 ショートカットが真の機能よりも小さくローカライズされているデータセットでこの問題に対処するため、これらを検出し削除するための新しいアプローチを提案する。 我々は、逆向きに訓練されたレンズを用いて、画像中の非常に予測的だが意味的に無関係な手がかりを検出し、排除する。 本研究では,合成データと実世界のデータの両方について実験を行い,提案手法がクリーンデータにおけるモデル性能の低下を生じさせることなく,その近道を確実に識別し,中和することを示す。 我々のアプローチは、特に基盤となるデータセットの品質が不可欠であるシナリオにおいて、より有意義で一般化可能な機械学習モデルにつながると信じています。

Machine learning is a data-driven field, and the quality of the underlying datasets plays a crucial role in learning success. However, high performance on held-out test data does not necessarily indicate that a model generalizes or learns anything meaningful. This is often due to the existence of machine learning shortcuts - features in the data that are predictive but unrelated to the problem at hand. To address this issue for datasets where the shortcuts are smaller and more localized than true features, we propose a novel approach to detect and remove them. We use an adversarially trained lens to detect and eliminate highly predictive but semantically unconnected clues in images. In our experiments on both synthetic and real-world data, we show that our proposed approach reliably identifies and neutralizes such shortcuts without causing degradation of model performance on clean data. We believe that our approach can lead to more meaningful and generalizable machine learning models, especially in scenarios where the quality of the underlying datasets is crucial.
翻訳日:2023-05-25 01:04:34 公開日:2023-05-23
# 自然言語生成のためのシーケンス補完によるインサンプルカリキュラム学習

In-sample Curriculum Learning by Sequence Completion for Natural Language Generation ( http://arxiv.org/abs/2211.11297v2 )

ライセンス: Link先を確認
Qi Jia, Yizhu Liu, Haifeng Tang, Kenny Q. Zhu(参考訳) カリキュラム学習は、簡単なサンプルから難しいものまで機械学習モデルをトレーニングすることで、複数のドメインで有望な改善が示されている。 タスク固有の専門知識に非常に依存し、一般化できない難易度を評価するためのルールやトレーニングモデルを設計する以前の作品。 難解な」直観に触発されて,自然言語生成タスクにサンプル内カリキュラム学習を行うことを提案する。 私たちの学習戦略は、最後の数単語、すなわちシーケンス完了を生成するようにモデルをトレーニングし始め、徐々に拡大して出力シーケンス全体を生成します。 総合的な実験により、様々なタスクを一般化し、強いベースラインよりも大幅に改善されていることが示されている。

Curriculum learning has shown promising improvements in multiple domains by training machine learning models from easy samples to hard ones. Previous works which either design rules or train models for scoring the difficulty highly rely on task-specific expertise, and cannot generalize. Inspired by the "easy-to-hard" intuition, we propose to do in-sample curriculum learning for natural language generation tasks. Our learning strategy starts training the model to generate the last few words, i.e., do sequence completion, and gradually extends to generate the whole output sequence. Comprehensive experiments show that it generalizes well to different tasks and achieves significant improvements over strong baselines.
翻訳日:2023-05-25 01:04:16 公開日:2023-05-23
# 双曲型デシッター空間における対称性解消エンタングルメントエントロピー

Symmetry Resolved Entanglement Entropy in Hyperbolic de Sitter Space ( http://arxiv.org/abs/2211.11218v2 )

ライセンス: Link先を確認
Himanshu Gaur and Urjit A. Yajnik(参考訳) 本稿では,ド・ジッター空間上の絡み合いと大域的内部対称性の関係について検討する。 ド・ジッター空間上の双曲チャートにおける2つの対称因果非連結領域を考える。 絡み合い測度は相関を特徴づけるので、2つの因果非連結領域間の絡み合いの研究はデ・ジッター空間における長距離相関に関する情報を与える。 理論が付加的な大域的内部対称性を持つとき、固定された大域電荷を持つ状態の絡み合い測度は、どちらのサブシステムにおいても局所電荷セクタに分解され、より細かい絡み合いの解決を与えることができる。 ここでは、自由複素スカラー場とド・ジッター空間上の自由ディラック場という2つの理論を考える。 どちらの理論も大域的な$U(1)$対称性を持つ。 Bunch-Davies真空状態における両理論の対称性分解エントロピーについて検討する。 対称性が解決された絡み合いエントロピーは、大きな$v_{h_3}$の極限において$v_{h_3}^0$の項まで局所電荷セクタに等分され、ここで$v_{h_3}$はどちらの領域の体積である。 しかし、この同分は順序 $o(1/v_{h_3})$ によってのみ破られる。 したがって、無限体積の極限における対称性分解エンタングルメントエントロピーの等分が存在する。

In this paper, we study the relation between entanglement and global internal symmetries on de Sitter space. We consider two symmetric causally disconnected regions in the hyperbolic chart on de Sitter space. Since entanglement measures characterises correlations, the study of entanglement between the two causally disconnected regions gives information about the long range correlations in de Sitter space. When a theory possesses an additive global internal symmetry, the entanglement measures for a state with fixed global charge may be decomposed into local charge sectors in either subsystem and thus providing a finer resolution of entanglement. Here we will consider two theories: free complex scalar field, and free Dirac field on de Sitter space. Both theories possess global internal $U(1)$ symmetry. We study the symmetry resolved entanglement entropy for both theories in the Bunch-Davies vacuum state. We find that the symmetry resolved entanglement entropy has equipartition into local charge sectors upto the terms that scale as $V_{H_3}^0$ in the limit of large $V_{H_3}$, where $V_{H_3}$ is the volume of either region. This equipartition however is only broken by the terms of order $O(1/V_{H_3})$. Consequently, we have equipartition of symmetry resolved entanglement entropy in the limit of infinite volume.
翻訳日:2023-05-25 01:04:03 公開日:2023-05-23
# 反事実分析に基づく教師付き特徴圧縮

Supervised Feature Compression based on Counterfactual Analysis ( http://arxiv.org/abs/2211.09894v3 )

ライセンス: Link先を確認
Veronica Piccialli, Dolores Romero Morales, Cecilia Salvatore(参考訳) 反事実的説明は、ポストホックな解釈可能な機械学習のデファクトスタンダードになりつつある。 与えられた分類器と、望ましくないクラスに分類されるインスタンスについて、その反実的な説明は、分類結果を変更することができるそのインスタンスの小さな摂動に対応する。 本研究は,事前学習したブラックボックスモデルの重要な決定境界を検出するために,非現実的説明を活用することを目的とする。 この情報は、調整可能な粒度でデータセットの機能の教師付き離散化を構築するために使用される。 離散化されたデータセットを使用すると、ブラックボックスモデルに似た最適な決定木を訓練できるが、解釈可能でコンパクトである。 実世界のデータセットの数値的な結果は、精度と空間性の観点からアプローチの有効性を示している。

Counterfactual Explanations are becoming a de-facto standard in post-hoc interpretable machine learning. For a given classifier and an instance classified in an undesired class, its counterfactual explanation corresponds to small perturbations of that instance that allows changing the classification outcome. This work aims to leverage Counterfactual Explanations to detect the important decision boundaries of a pre-trained black-box model. This information is used to build a supervised discretization of the features in the dataset with a tunable granularity. Using the discretized dataset, an optimal Decision Tree can be trained that resembles the black-box model, but that is interpretable and compact. Numerical results on real-world datasets show the effectiveness of the approach in terms of accuracy and sparsity.
翻訳日:2023-05-25 01:03:37 公開日:2023-05-23
# 非支配ソーティング遺伝的アルゴリズム(NSGA-III)の数学的実行解析

A Mathematical Runtime Analysis of the Non-dominated Sorting Genetic Algorithm III (NSGA-III) ( http://arxiv.org/abs/2211.08202v3 )

ライセンス: Link先を確認
Simon Wietheger, Benjamin Doerr(参考訳) NSGA-II (Non-Maninated Sorting Genetic Algorithm II) は、実世界の応用において最も顕著な多目的進化アルゴリズムである。 双目的最適化問題では明らかにうまく機能するが、2つ以上の目的を持つ問題に適用すると効果が低いことが実証研究で示唆されている。 最近の数学的ランタイム解析により、NGSA-IIを指数的な反復数で証明することで、単純な3つの客観的なOneMinMax問題のパレートフロントの定数因子を見逃すことが確認された。 本研究では,NSGA-IIIの数学的ランタイム解析として,NSGA-IIを改良し,2つ以上の目的をうまく扱えるようにした。 このアルゴリズムが提案するように、十分に多くの基準点を持つNSGA-IIIは、3オブジェクトのOneMinMaxベンチマークの完全なParetoフロントを、期待される数のO(n log n)反復で計算する。 この結果は、すべての人口規模(少なくともパレートフロントの大きさ)に当てはまる。 このベンチマークではNSGA-IIIのNSGA-IIに対する大きな優位性を示している。 ここで用いられる数学的議論と、NSGA-IIに関する以前の研究は、他の3つ以上の目的を持つベンチマークに対して同様の発見が考えられることを示唆している。

The Non-dominated Sorting Genetic Algorithm II (NSGA-II) is the most prominent multi-objective evolutionary algorithm for real-world applications. While it performs evidently well on bi-objective optimization problems, empirical studies suggest that it is less effective when applied to problems with more than two objectives. A recent mathematical runtime analysis confirmed this observation by proving the NGSA-II for an exponential number of iterations misses a constant factor of the Pareto front of the simple 3-objective OneMinMax problem. In this work, we provide the first mathematical runtime analysis of the NSGA-III, a refinement of the NSGA-II aimed at better handling more than two objectives. We prove that the NSGA-III with sufficiently many reference points -- a small constant factor more than the size of the Pareto front, as suggested for this algorithm -- computes the complete Pareto front of the 3-objective OneMinMax benchmark in an expected number of O(n log n) iterations. This result holds for all population sizes (that are at least the size of the Pareto front). It shows a drastic advantage of the NSGA-III over the NSGA-II on this benchmark. The mathematical arguments used here and in previous work on the NSGA-II suggest that similar findings are likely for other benchmarks with three or more objectives.
翻訳日:2023-05-25 01:03:26 公開日:2023-05-23
# 音声言語理解のための継続学習におけるリハーサルと知識蒸留の組み合わせの検討

An Investigation of the Combination of Rehearsal and Knowledge Distillation in Continual Learning for Spoken Language Understanding ( http://arxiv.org/abs/2211.08161v2 )

ライセンス: Link先を確認
Umberto Cappellazzo, Daniele Falavigna, Alessio Brutti(参考訳) 連続学習とは、モデルが時間とともに非定常データのストリームを受け取り、以前に取得した知識を保持しながら新しいデータに適応しなければならない動的フレームワークを指す。 不運にも、ニューラルネットワークはこれら2つのデシデラタを満たせず、いわゆる破滅的な忘れる現象を引き起こしている。 コンピュータビジョンの領域における忘れを弱めるための戦略が数多く提案されているが、音声関連のタスクについては、一方で多くの作品がある。 本稿では,言語理解のためのリハーサルと知識の蒸留(KD)の併用を,クラス増分学習シナリオ下で検討する。 ネットワーク内の異なるレベルにおける複数のKD組み合わせについて報告し、特徴レベルと予測レベルのKDの組み合わせが最良の結果をもたらすことを示す。 最後に,低リソースデバイスに対する我々のアプローチの有効性を裏付けるリハーサルメモリサイズの影響について,アブレーション研究を行った。

Continual learning refers to a dynamical framework in which a model receives a stream of non-stationary data over time and must adapt to new data while preserving previously acquired knowledge. Unluckily, neural networks fail to meet these two desiderata, incurring the so-called catastrophic forgetting phenomenon. Whereas a vast array of strategies have been proposed to attenuate forgetting in the computer vision domain, for speech-related tasks, on the other hand, there is a dearth of works. In this paper, we consider the joint use of rehearsal and knowledge distillation (KD) approaches for spoken language understanding under a class-incremental learning scenario. We report on multiple KD combinations at different levels in the network, showing that combining feature-level and predictions-level KDs leads to the best results. Finally, we provide an ablation study on the effect of the size of the rehearsal memory that corroborates the efficacy of our approach for low-resource devices.
翻訳日:2023-05-25 01:03:02 公開日:2023-05-23
# UGIF:UIの接地命令に続くもの

UGIF: UI Grounded Instruction Following ( http://arxiv.org/abs/2211.07615v2 )

ライセンス: Link先を確認
Sagar Gubbi Venkatesh, Partha Talukdar, Srini Narayanan(参考訳) スマートフォンユーザーは「未知の番号からの呼び出しをブロックする方法?」のような一般的なタスクを実行するために、無数のメニューをナビゲートすることが難しいことが多い。 現在、ステップバイステップのヘルプドキュメントはユーザを支援するために手作業で書かれています。 ヘルプドキュメントの指示をuiに接地し、電話uiにチュートリアルをオーバーレイすることで、ユーザエクスペリエンスをさらに強化することができる。 このようなチュートリアルを構築するには、検索、パース、グラウンドなどいくつかの自然言語処理コンポーネントが必要ですが、そのようなタスクに関連するデータセットはありません。 そこで,UGIF-DataSetは,8言語にまたがる4,184タスクを含むスマートフォン上のステップバイステップタスク補完のための,多言語でマルチモーダルなUI基盤データセットである。 この問題に対する最初のアプローチとして,ユーザのクエリに基づく関連する命令ステップの検索と,デバイス上で実行可能なマクロを生成するための大規模言語モデル(llms)を用いた構文解析を提案する。 命令手順は英語でのみ利用可能であるため、多くの言語のユーザクエリから英語のハウツーページをクロスモーダルで言語横断的に検索し、英語の命令ステップを潜在的に異なる言語のUIにマッピングするといった課題がある。 PaLM や GPT-3 など様々な LLM の性能を比較し,エンドツーエンドのタスク完了率は英語 UI では 48% であるが,他の言語では 32% に低下することがわかった。 既存のモデルの一般的な障害モードをこのタスクで解析し、改善すべき領域を指摘する。

Smartphone users often find it difficult to navigate myriad menus to perform common tasks such as "How to block calls from unknown numbers?". Currently, help documents with step-by-step instructions are manually written to aid the user. The user experience can be further enhanced by grounding the instructions in the help document to the UI and overlaying a tutorial on the phone UI. To build such tutorials, several natural language processing components including retrieval, parsing, and grounding are necessary, but there isn't any relevant dataset for such a task. Thus, we introduce UGIF-DataSet, a multi-lingual, multi-modal UI grounded dataset for step-by-step task completion on the smartphone containing 4,184 tasks across 8 languages. As an initial approach to this problem, we propose retrieving the relevant instruction steps based on the user's query and parsing the steps using Large Language Models (LLMs) to generate macros that can be executed on-device. The instruction steps are often available only in English, so the challenge includes cross-modal, cross-lingual retrieval of English how-to pages from user queries in many languages and mapping English instruction steps to UI in a potentially different language. We compare the performance of different LLMs including PaLM and GPT-3 and find that the end-to-end task completion rate is 48% for English UI but the performance drops to 32% for other languages. We analyze the common failure modes of existing models on this task and point out areas for improvement.
翻訳日:2023-05-25 01:02:25 公開日:2023-05-23
# 量子化潜在空間におけるテキスト・画像合成のための新しいサンプリング手法

A Novel Sampling Scheme for Text- and Image-Conditional Image Synthesis in Quantized Latent Spaces ( http://arxiv.org/abs/2211.07292v2 )

ライセンス: Link先を確認
Dominic Rampas, Pablo Pernias, and Marc Aubreville(参考訳) テキストと画像の合成領域の最近の進歩は、品質、忠実性、多様性に関する様々な拡張で頂点に達している。 現代の技術は、フォトリアリズムに近いクオリティに素早くアプローチする非常に複雑な視覚を生成することができる。 しかし、進歩が進むにつれて、これらの方法論の複雑さが増し、フィールド内の個人と外部の個人の間での理解障壁が強まる。 そこで本研究では,この差異を緩和するために,学習パラダイムとサンプリングプロセスの両方を包含するテキスト対画像生成の合理化手法を提案する。 本手法は, 極めて単純でありながら, サンプル反復が少なく, 審美的に満足な画像が得られ, モデルの条件付けに興味深い方法が得られ, 最先端技術に欠ける利点を付与する。 既存の作業に匹敵する結果を得る上で,このアプローチの有効性を示すために,我々は,パネラと呼ぶ1ビリオンパラメータのテキスト条件モデルを訓練した。 この分野で将来の探査を促進するため、私たちはソースコードとモデルを研究コミュニティに公開できるようにしました。

Recent advancements in the domain of text-to-image synthesis have culminated in a multitude of enhancements pertaining to quality, fidelity, and diversity. Contemporary techniques enable the generation of highly intricate visuals which rapidly approach near-photorealistic quality. Nevertheless, as progress is achieved, the complexity of these methodologies increases, consequently intensifying the comprehension barrier between individuals within the field and those external to it. In an endeavor to mitigate this disparity, we propose a streamlined approach for text-to-image generation, which encompasses both the training paradigm and the sampling process. Despite its remarkable simplicity, our method yields aesthetically pleasing images with few sampling iterations, allows for intriguing ways for conditioning the model, and imparts advantages absent in state-of-the-art techniques. To demonstrate the efficacy of this approach in achieving outcomes comparable to existing works, we have trained a one-billion parameter text-conditional model, which we refer to as "Paella". In the interest of fostering future exploration in this field, we have made our source code and models publicly accessible for the research community.
翻訳日:2023-05-25 01:01:58 公開日:2023-05-23
# miCSE:低ショット文埋め込みのための相互情報コントラスト学習

miCSE: Mutual Information Contrastive Learning for Low-shot Sentence Embeddings ( http://arxiv.org/abs/2211.04928v2 )

ライセンス: Link先を確認
Tassilo Klein and Moin Nabi(参考訳) そこで本稿では,相互情報に基づくコントラスト学習フレームワークであるmiCSEについて述べる。 提案手法は,コントラスト学習における異なる視点の注意パターンの整合性を示す。 miCSEで文章の埋め込みを学習するには、各文に対する拡張ビュー全体の構造的一貫性を強制する必要がある。 その結果,提案手法は,単発学習領域において高い性能を示す。 数ショットの学習では、複数のベンチマークの最先端メソッドと比較して優れた結果が得られるが、フルショットのシナリオでは同等である。 本研究は,従来の文埋め込み法よりも頑健な,効率的な自己指導型学習手法の道を開くものである。

This paper presents miCSE, a mutual information-based contrastive learning framework that significantly advances the state-of-the-art in few-shot sentence embedding. The proposed approach imposes alignment between the attention pattern of different views during contrastive learning. Learning sentence embeddings with miCSE entails enforcing the structural consistency across augmented views for every sentence, making contrastive self-supervised learning more sample efficient. As a result, the proposed approach shows strong performance in the few-shot learning domain. While it achieves superior results compared to state-of-the-art methods on multiple benchmarks in few-shot learning, it is comparable in the full-shot scenario. This study opens up avenues for efficient self-supervised learning methods that are more robust than current contrastive methods for sentence embedding.
翻訳日:2023-05-25 01:01:40 公開日:2023-05-23
# 領域外一般化のための群集アノテーションによる多視点知識蒸留

Multi-View Knowledge Distillation from Crowd Annotations for Out-of-Domain Generalization ( http://arxiv.org/abs/2212.09409v2 )

ライセンス: Link先を確認
Dustin Wright and Isabelle Augenstein(参考訳) 自然言語処理におけるタスクの効果的なトレーニング信号の選択は難しい。専門家アノテーションは高価であり、クラウドソースアノテーションは信頼性が低い。 同時に、NLPにおける最近の研究は、クラウドアノテーションから取得したラベルの分布から学習することが効果的であることを示した。 しかし,そのような分布を得るには多くの方法があり,どの方法によって割り当てられた性能も,そのタスクと利用可能なクラウドアノテーションの量に基づいて変動しうるため,どの分布が最適であるかを事前に知ることは困難である。 本論文はドメイン外設定においてこれを体系的に分析し,ドメイン内評価に注目したnlp文献に加え,既存の手法で生成した分布を集約することで,クラウド注釈からソフトラベルを取得する新しい手法を提案する。 特に,温度スケールとjensen-shannon centroidの発見により,クラウドアノテーションの複数ビューを集約することを提案する。 これらのアグリゲーション手法は、ドメイン外テストセット上の4つのNLPタスクにおいて最も一貫したパフォーマンスをもたらし、個々の分布からの性能変動を緩和することを示した。 さらに、アグリゲーションは最も一貫した不確実性推定をもたらす。 クラウドアノテーションの異なる視点を集約することは,個々のソフトラベル手法の不一致にもかかわらず,堅牢な分類器を誘導するソフトラベルを取得するための効果的かつ最小限の介入である。

Selecting an effective training signal for tasks in natural language processing is difficult: expert annotations are expensive, and crowd-sourced annotations may not be reliable. At the same time, recent work in NLP has demonstrated that learning from a distribution over labels acquired from crowd annotations can be effective. However, there are many ways to acquire such a distribution, and the performance allotted by any one method can fluctuate based on the task and the amount of available crowd annotations, making it difficult to know a priori which distribution is best. This paper systematically analyzes this in the out-of-domain setting, adding to the NLP literature which has focused on in-domain evaluation, and proposes new methods for acquiring soft-labels from crowd-annotations by aggregating the distributions produced by existing methods. In particular, we propose to aggregate multiple-views of crowd annotations via temperature scaling and finding their Jensen-Shannon centroid. We demonstrate that these aggregation methods lead to the most consistent performance across four NLP tasks on out-of-domain test sets, mitigating fluctuations in performance from the individual distributions. Additionally, aggregation results in the most consistently well-calibrated uncertainty estimation. We argue that aggregating different views of crowd-annotations is an effective and minimal intervention to acquire soft-labels which induce robust classifiers despite the inconsistency of the individual soft-labeling methods.
翻訳日:2023-05-25 00:54:21 公開日:2023-05-23
# MM-SHAP:視覚・言語モデル・タスクにおけるマルチモーダルコントリビューション計測のための性能診断基準

MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal Contributions in Vision and Language Models & Tasks ( http://arxiv.org/abs/2212.08158v2 )

ライセンス: Link先を確認
Letitia Parcalabescu and Anette Frank(参考訳) 視覚と言語モデル(VL)は、個々のモダリティ(例えば、分布バイアスによって導入された)において、各モダリティの関連情報に焦点をあてるのではなく、不正な指標を利用することが知られている。 ユニモーダルモデルがVLタスクとマルチモーダルタスクの類似の精度を達成したことは、いわゆるユニモーダル崩壊が起こったことを示している。 しかし、精度に基づくテストは、例えば、モデル予測が間違っている場合など、検出に失敗し、モデルでは、モダリティから関連する情報を使用する。 代わりに,マルチモーダルモデルの比例が個々のモダリティを使用するシャプリー値に基づく,パフォーマンス非依存なマルチモーダリティスコアmm-shapを提案する。 MM-SHAPは,(1)平均的マルチモーダリティのモデルを比較すること,(2)個々のモデルに対して異なるタスクやデータセットに対する個々のモダリティの寄与を測定すること,の2つの方法に適用する。 6つのVLモデル(LXMERT、CLIP、ALBEFの4つの変種)による4つのVLタスクの実験では、単調崩壊は異なる方向と異なる方向で起こり得ることが示され、単調崩壊は片側にあるという広い範囲の仮定に反している。 この結果に基づき,マルチモーダルタスクの分析,診断とマルチモーダル統合に向けた進展の導出を行うMM-SHAPを推奨する。 コードは \url{https://github.com/heidelberg-nlp/mm-shap}。

Vision and language models (VL) are known to exploit unrobust indicators in individual modalities (e.g., introduced by distributional biases) instead of focusing on relevant information in each modality. That a unimodal model achieves similar accuracy on a VL task to a multimodal one, indicates that so-called unimodal collapse occurred. However, accuracy-based tests fail to detect e.g., when the model prediction is wrong, while the model used relevant information from a modality. Instead, we propose MM-SHAP, a performance-agnostic multimodality score based on Shapley values that reliably quantifies in which proportions a multimodal model uses individual modalities. We apply MM-SHAP in two ways: (1) to compare models for their average degree of multimodality, and (2) to measure for individual models the contribution of individual modalities for different tasks and datasets. Experiments with six VL models -- LXMERT, CLIP and four ALBEF variants -- on four VL tasks highlight that unimodal collapse can occur to different degrees and in different directions, contradicting the wide-spread assumption that unimodal collapse is one-sided. Based on our results, we recommend MM-SHAP for analysing multimodal tasks, to diagnose and guide progress towards multimodal integration. Code available at \url{https://github.com/Heidelberg-NLP/MM-SHAP}.
翻訳日:2023-05-25 00:53:40 公開日:2023-05-23
# タスク命令からの学習のロバスト性

Robustness of Learning from Task Instructions ( http://arxiv.org/abs/2212.03813v4 )

ライセンス: Link先を確認
Jiasheng Gu, Hongyu Zhao, Hanzi Xu, Liangyu Nie, Hongyuan Mei and Wenpeng Yin(参考訳) 従来の教師付き学習は、主に個々のタスクに取り組み、タスク固有の大きな例のトレーニングを必要とする。 このパラダイムは、タスク固有の例セットを作成するのにコストがかかるため、タスクの一般化を著しく妨げます。 新たなタスクに迅速かつ容易に一般化できるシステムを構築するために,タスク命令が近年,監督の新たなトレンドとして採用されている。 これらの命令はモデルにタスクの定義を与え、モデルが命令と入力に基づいて適切な応答を出力することを可能にする。 しかし、タスク命令はしばしば異なる形式で表現され、2つのスレッドから解釈できる: まず、いくつかの命令は短い文であり、プロンプトのような事前学習された言語モデル(plm)指向であり、他の命令は段落であり、amazon mturkのような人間指向である。 タスク一般化のための堅牢なシステムは、命令の可変性に関係なく、新しいタスクを処理できる必要がある。 しかし、命令駆動タスクの一般化を扱うシステムの堅牢性はまだ未検討である。 本研究は,新しいタスクの指示がいつ強固であるかを考察する。 (i)操作された。 (ii)言い換える、または (iii)異なる簡潔さのレベルから。 私たちの知る限りでは、plmが可変性の異なる要素を持つ命令によって監視される場合の堅牢性について体系的に研究するのはこれが初めてです。

Traditional supervised learning mostly works on individual tasks and requires training on a large set of task-specific examples. This paradigm seriously hinders the development of task generalization since preparing a task-specific example set is costly. To build a system that can quickly and easily generalize to new tasks, task instructions have been adopted as an emerging trend of supervision recently. These instructions give the model the definition of the task and allow the model to output the appropriate answer based on the instructions and inputs. However, task instructions are often expressed in different forms, which can be interpreted from two threads: first, some instructions are short sentences and are pretrained language model (PLM) oriented, such as prompts, while other instructions are paragraphs and are human-oriented, such as those in Amazon MTurk; second, different end-users very likely explain the same task with instructions of different textual expressions. A robust system for task generalization should be able to handle any new tasks regardless of the variability of instructions. However, the system robustness in dealing with instruction-driven task generalization is still unexplored. This work investigates the system robustness when the instructions of new tasks are (i) manipulated, (ii) paraphrased, or (iii) from different levels of conciseness. To our knowledge, this is the first work that systematically studies how robust a PLM is when it is supervised by instructions with different factors of variability.
翻訳日:2023-05-25 00:53:10 公開日:2023-05-23
# プライバシ保護フェデレーション学習による風車条件情報のフリートワイド共有に向けて

Towards Fleet-wide Sharing of Wind Turbine Condition Information through Privacy-preserving Federated Learning ( http://arxiv.org/abs/2212.03529v2 )

ライセンス: Link先を確認
Lorin Jenkel, Stefan Jonas, Angela Meyer(参考訳) テラバイトのデータは、風力タービンメーカーが艦隊から毎日収集している。 データにはタービンの健康診断や性能モニタリングのための貴重なリアルタイム情報が含まれており、まれな故障や重要な部品の残りのサービス寿命を予測する。 しかし、風力タービンの艦隊から得られた豊富なデータは、製造会社がビジネス上の戦略的理由からタービンデータのプライバシーを優先しているため、オペレーター、ユーティリティ企業、研究者にはアクセスできないままです。 データアクセスの欠如は、データ駆動型タービンの運用とメンテナンス戦略の改善、ダウンタイムの削減といった機会の活用を妨げる。 本稿では,風力タービンにデータを残して,製造業者が望むようなデータのプライバシを保ちながら,そのローカルデータに対するフリートワイドな学習を可能にする分散フェデレーション機械学習手法を提案する。 代表的な訓練データに乏しい風力タービンは,フェデレート学習によるより正確な故障検出モデルから恩恵を受ける一方で,フェデレーション学習プロセスに参加することでモデル性能を損なうタービンは存在しないことを示す。 従来のトレーニングプロセスとフェデレーショントレーニングプロセスを比較すると,コミュニケーションやオーバヘッド操作の増加により,フェデレーショントレーニングにおける平均モデルトレーニング時間は最大14倍に向上する。 したがって、モデル訓練時間は、特に大型の風力タービン車両において、連合学習アプリケーションにおいてさらに探求され、緩和される必要がある障害を構成する可能性がある。

Terabytes of data are collected every day by wind turbine manufacturers from their fleets. The data contain valuable real-time information for turbine health diagnostics and performance monitoring, for predicting rare failures and the remaining service life of critical parts. And yet, this wealth of data from wind turbine fleets remains inaccessible to operators, utility companies, and researchers as manufacturing companies prefer the privacy of their fleets' turbine data for business strategic reasons. The lack of data access impedes the exploitation of opportunities, such as improving data-driven turbine operation and maintenance strategies and reducing downtimes. We present a distributed federated machine learning approach that leaves the data on the wind turbines to preserve the data privacy, as desired by manufacturers, while still enabling fleet-wide learning on those local data. We demonstrate in two case studies that wind turbines which are scarce in representative training data benefit from more accurate fault detection models with federated learning, while no turbine experiences a loss in model performance by participating in the federated learning process. When comparing conventional and federated training processes, the average model training time rises significantly by a factor of up to 14 in the federated training due to increased communication and overhead operations. Thus, model training times might constitute an impediment that needs to be further explored and alleviated in federated learning applications, especially for large wind turbine fleets.
翻訳日:2023-05-25 00:52:47 公開日:2023-05-23
# QEBVerif:ニューラルネットワークの量子化誤差境界検証

QEBVerif: Quantization Error Bound Verification of Neural Networks ( http://arxiv.org/abs/2212.02781v2 )

ライセンス: Link先を確認
Yedi Zhang and Fu Song and Jun Sun(参考訳) エッジデバイスにディープニューラルネットワーク(DNN)をデプロイする実践的制約を軽減するため、量子化は有望な1つのテクニックとして広く見なされている。 これは、DNNの重みと/またはアクティベーションテンソルを低いビット幅の固定点数に量子化し、量子化されたニューラルネットワーク(QNN)をもたらすことにより、計算力と記憶空間のリソース要求を低減させる。 実験により精度損失が小さいことが示されているが、DNNの臨界検証特性は一度量子化されると無効になる可能性がある。 既存の検証方法は、個々のニューラルネットワーク(DNNまたはQNN)または部分量子化のための量子化エラーにフォーカスする。 本研究では,重みと活性化テンソルの両方を量子化する量子化誤差境界検証法であるqebverifを提案する。 QEBVerif は微分到達可能性解析 (DRA) と混合整数線形計画法 (MILP) の2つの部分から構成される。 DRAは、DNNとその量子化対応層間の差分解析を行い、タイトな量子化誤差間隔を効率的に計算する。 DRAがエラー境界の証明に失敗した場合、検証問題を等価なMILP問題にエンコードし、既製の解法で解ける。 したがって、QEBVerifは健全で完全で、合理的に効率的である。 我々はQEBVerifを実装し、その有効性と効率を示す広範な実験を行う。

To alleviate the practical constraints for deploying deep neural networks (DNNs) on edge devices, quantization is widely regarded as one promising technique. It reduces the resource requirements for computational power and storage space by quantizing the weights and/or activation tensors of a DNN into lower bit-width fixed-point numbers, resulting in quantized neural networks (QNNs). While it has been empirically shown to introduce minor accuracy loss, critical verified properties of a DNN might become invalid once quantized. Existing verification methods focus on either individual neural networks (DNNs or QNNs) or quantization error bound for partial quantization. In this work, we propose a quantization error bound verification method, named QEBVerif, where both weights and activation tensors are quantized. QEBVerif consists of two parts, i.e., a differential reachability analysis (DRA) and a mixed-integer linear programming (MILP) based verification method. DRA performs difference analysis between the DNN and its quantized counterpart layer-by-layer to compute a tight quantization error interval efficiently. If DRA fails to prove the error bound, then we encode the verification problem into an equivalent MILP problem which can be solved by off-the-shelf solvers. Thus, QEBVerif is sound, complete, and reasonably efficient. We implement QEBVerif and conduct extensive experiments, showing its effectiveness and efficiency.
翻訳日:2023-05-25 00:52:24 公開日:2023-05-23
# 不確かさを持つマルコフジャンプ線形系の形式制御器合成

Formal Controller Synthesis for Markov Jump Linear Systems with Uncertain Dynamics ( http://arxiv.org/abs/2212.00679v2 )

ライセンス: Link先を確認
Luke Rickard, Thom Badings, Licio Romao, Alessandro Abate(参考訳) サイバーフィジカルシステムのための確実に正しい制御器の自動合成は、安全クリティカルなシナリオの展開に不可欠である。 しかし、ハイブリッド機能や確率的あるいは未知の振る舞いは、この問題を難しくする。 サイバーフィジカルシステムのための離散時間モデルのクラスであるマルコフジャンプ線形システム(mjlss)の制御器を合成する方法を提案する。 MJLSは有限集合の確率線型力学と、マルコフ決定過程(MDP)によって支配されるこれらの力学の間の離散ジャンプからなる。 本研究は, このMPPの遷移確率が一定間隔で知られているか, 完全に未知であるかを考察する。 我々のアプローチは、MJLSの離散(モードジャンプ)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。 我々は、この抽象概念を、いわゆる「scenario approach」のサンプリング手法を用いて遷移確率の間隔を計算する区間 MDP (iMDP) として定式化し、確率論的に近似を与える。 本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。

Automated synthesis of provably correct controllers for cyber-physical systems is crucial for deployment in safety-critical scenarios. However, hybrid features and stochastic or unknown behaviours make this problem challenging. We propose a method for synthesising controllers for Markov jump linear systems (MJLSs), a class of discrete-time models for cyber-physical systems, so that they certifiably satisfy probabilistic computation tree logic (PCTL) formulae. An MJLS consists of a finite set of stochastic linear dynamics and discrete jumps between these dynamics that are governed by a Markov decision process (MDP). We consider the cases where the transition probabilities of this MDP are either known up to an interval or completely unknown. Our approach is based on a finite-state abstraction that captures both the discrete (mode-jumping) and continuous (stochastic linear) behaviour of the MJLS. We formalise this abstraction as an interval MDP (iMDP) for which we compute intervals of transition probabilities using sampling techniques from the so-called 'scenario approach', resulting in a probabilistically sound approximation. We apply our method to multiple realistic benchmark problems, in particular, a temperature control and an aerial vehicle delivery problem.
翻訳日:2023-05-25 00:51:43 公開日:2023-05-23
# KRLS:強化キーワード学習によるタスク指向対話におけるエンドツーエンド応答生成の改善

KRLS: Improving End-to-End Response Generation in Task Oriented Dialog with Reinforced Keywords Learning ( http://arxiv.org/abs/2211.16773v4 )

ライセンス: Link先を確認
Xiao Yu, Qingyang Wu, Kun Qian, Zhou Yu(参考訳) タスク指向のダイアログでは、情報とシステム応答はホテルの電話番号などのキー情報を含む必要がある。 そこで本研究では,鍵量を正確に生成することに集中することで,モデルが全体的な性能を向上できるという仮説を立てる。 本稿では,強化学習を利用したキーワード強化学習(KRLS)を新たに提案し,時間を要する自己回帰生成を回避するとともに,モデルがキーワードをより堅牢に学習するための詳細な報酬関数を提案する。 実験の結果、krlsアルゴリズムは、マルチウォズベンチマークデータセットのインフォメーション、成功、複合スコアにおいて最先端のパフォーマンスを達成できることが示されている。

In task-oriented dialogs, an informative and successful system response needs to include key information such as the phone number of a hotel. Therefore, we hypothesize that a model can achieve better overall performance by focusing on correctly generating key quantities. In this paper, we propose a new training algorithm, Keywords Reinforcement Learning with Next-word Sampling (KRLS), that utilizes Reinforcement Learning but avoids the time-consuming auto-regressive generation, and a fine-grained per-token reward function to help the model learn keywords generation more robustly. Empirical results show that the KRLS algorithm can achieve state-of-the-art performance on the inform, success, and combined score on the MultiWoZ benchmark dataset.
翻訳日:2023-05-25 00:51:22 公開日:2023-05-23
# GPT-3.5によるプロンプトオピニオン要約

Prompted Opinion Summarization with GPT-3.5 ( http://arxiv.org/abs/2211.15914v2 )

ライセンス: Link先を確認
Adithya Bhaskar, Alexander R. Fabbri and Greg Durrett(参考訳) 大規模な言語モデルは、テキスト要約を含む、さまざまなタスクで印象的なパフォーマンスを示している。 本稿では,この強力な性能が意見要約にまで及んでいることを示す。 本稿では,GPT-3.5を適用した多数のユーザレビューをインプット形式で要約するパイプライン手法について検討する。 任意に多数のユーザレビューを処理するために、再帰的な要約と、クラスタリングや抽出によって要約する健全なコンテンツを選択する方法を検討する。 ホテルレビューのアスペクト指向要約データセット(SPACE)とAmazonとYelpレビューの汎用要約データセット(FewSum)の2つのデータセットにおいて、GPT-3.5モデルは人的評価において非常に高い性能を発揮することを示す。 標準評価指標は、これを反映していないと主張し、これらの異なる手法と対比するために、忠実さ、事実性、汎用性をターゲットとした3つの新しい指標を導入する。

Large language models have shown impressive performance across a wide variety of tasks, including text summarization. In this paper, we show that this strong performance extends to opinion summarization. We explore several pipeline methods for applying GPT-3.5 to summarize a large collection of user reviews in a prompted fashion. To handle arbitrarily large numbers of user reviews, we explore recursive summarization as well as methods for selecting salient content to summarize through supervised clustering or extraction. On two datasets, an aspect-oriented summarization dataset of hotel reviews (SPACE) and a generic summarization dataset of Amazon and Yelp reviews (FewSum), we show that GPT-3.5 models achieve very strong performance in human evaluation. We argue that standard evaluation metrics do not reflect this, and introduce three new metrics targeting faithfulness, factuality, and genericity to contrast these different methods.
翻訳日:2023-05-25 00:51:07 公開日:2023-05-23
# 単一結合クラスタ量子回路のMP2初期化を超えて

Beyond MP2 initialization for unitary coupled cluster quantum circuits ( http://arxiv.org/abs/2301.05666v2 )

ライセンス: Link先を確認
Mark R. Hirsbrunner, Diana Chamaki, J. Wayne Mullinax, and Norm M. Tubman(参考訳) ユニタリカップリングクラスタ(UCC)アンサッツは、NISQ時代の変分量子固有解法(VQE)アルゴリズムを用いて高精度な結果を得るための有望なツールである。 しかし、量子ハードウェアの結果は非常に限られており、シミュレーションは小さなシステムサイズにしかアクセスできない。 我々は,効率的なスパース波動関数回路ソルバと最大64量子ビットのシステムを用いて,UCCシミュレーションの技術の進歩を図る。 以上の結果から,UCCアンサッツのパワーや,最適初期パラメータ化や回路構成に関するプレス問題などが示された。 我々のアプローチは、量子優位性を達成するためのVQEの有用性を評価するための重要なステップであるUCCアンサッツの有意義なベンチマークを可能にする。

The unitary coupled cluster (UCC) ansatz is a promising tool for achieving high-precision results using the variational quantum eigensolver (VQE) algorithm in the NISQ era. However, results on quantum hardware are thus far very limited and simulations have only accessed small system sizes. We advance the state of the art of UCC simulations by utilizing an efficient sparse wavefunction circuit solver and studying systems up to 64 qubits. Our results demonstrate the power of the UCC ansatz and address pressing questions about optimal initial parameterizations and circuit construction, among others. Our approach enables meaningful benchmarking of the UCC ansatz, a crucial step in assessing the utility of VQE for achieving quantum advantage.
翻訳日:2023-05-25 00:45:17 公開日:2023-05-23
# 実世界部分観測による予測世界モデル

Predictive World Models from Real-World Partial Observations ( http://arxiv.org/abs/2301.04783v3 )

ライセンス: Link先を確認
Robin Karlsson, Alexander Carballo, Keisuke Fujii, Kento Ohtani, Kazuya Takeda(参考訳) 認知科学者は、人間のような適応可能な知的エージェントは、エージェントや環境の学習因果的メンタルシミュレーションを通じて推論を行うと信じている。 このようなシミュレーションを学習する問題は予測世界モデリングと呼ばれる。 近年,世界モデルを活用した強化学習(RL)エージェントがゲーム環境におけるSOTAの性能向上を実現している。 しかし,移動ロボットに関連する複雑な実世界の環境に世界モデリングアプローチを適用する方法を理解することは,未解決の問題である。 本稿では,現実の道路環境に対する確率的予測世界モデル学習のための枠組みを提案する。 本研究では,センサの蓄積観測から多種多様な観測可能な世界を予測可能な階層型vae (hvae) を用いてモデルを実装した。 従来のHVAE法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。 我々は96.21 IoUを達成する決定論的領域の正確な空間構造予測を実験的に実証し、そのギャップを62%の確率的領域に対して最良予測を用いて完全に予測する。 完全基底的真理状態が存在しない場合にhvaを拡張することにより、現実世界の移動ロボットアプリケーションのための説明可能で包括的な予測的世界モデルを実現するためのステップとして、空間予測の継続的な学習を促進する。 コードはhttps://github.com/robin-karlsson0/predictive-world-modelsで入手できる。

Cognitive scientists believe adaptable intelligent agents like humans perform reasoning through learned causal mental simulations of agents and environments. The problem of learning such simulations is called predictive world modeling. Recently, reinforcement learning (RL) agents leveraging world models have achieved SOTA performance in game environments. However, understanding how to apply the world modeling approach in complex real-world environments relevant to mobile robots remains an open question. In this paper, we present a framework for learning a probabilistic predictive world model for real-world road environments. We implement the model using a hierarchical VAE (HVAE) capable of predicting a diverse set of fully observed plausible worlds from accumulated sensor observations. While prior HVAE methods require complete states as ground truth for learning, we present a novel sequential training method to allow HVAEs to learn to predict complete states from partially observed states only. We experimentally demonstrate accurate spatial structure prediction of deterministic regions achieving 96.21 IoU, and close the gap to perfect prediction by 62% for stochastic regions using the best prediction. By extending HVAEs to cases where complete ground truth states do not exist, we facilitate continual learning of spatial prediction as a step towards realizing explainable and comprehensive predictive world models for real-world mobile robotics applications. Code is available at https://github.com/robin-karlsson0/predictive-world-models.
翻訳日:2023-05-25 00:45:03 公開日:2023-05-23
# 部分多体局在系における量子傷の塔

Tower of quantum scars in a partially many-body localized system ( http://arxiv.org/abs/2301.01681v2 )

ライセンス: Link先を確認
Michael Iversen, Anne E. B. Nielsen(参考訳) 孤立量子多体系はしばしば固有状態熱化仮説によってよく説明される。 しかし、異なる行動を引き起こすメカニズムがある:多体局在と量子多体傷である。 ここでは,親ハミルトニアンを見つけるための既知の方法を適用することで,傷の塔をホストする障害のあるハミルトニアンを見つける方法を示す。 この手法を用いて,部分局所化と傷跡を含むスピン1/2モデルを構築する。 本研究では,両部交絡エントロピーを数値的に解析することにより,モデルが部分的に局所化されていることを示す。 障害が発生するにつれて、隣接するギャップ比はガウス直交のアンサンブルからポアソン分布に遷移し、エントロピーは体積法則から面積法則スケーリングへと変化する。 局所的背景における傷痕の性状を調査し,熱的背景との比較を行った。 強い障害では、スカー部分空間内外において初期化された状態は異なる動的挙動を示すが、類似した絡み合いエントロピーとシュミットギャップを持つ。 局所化は初期状態のスカー再生を安定化し、スカー部分空間内外の両方をサポートすることを実証する。 最後に、強い障害がさらに固有状態の近似塔をもたらすことを示す。

Isolated quantum many-body systems are often well-described by the eigenstate thermalization hypothesis. There are, however, mechanisms that cause different behavior: many-body localization and quantum many-body scars. Here, we show how one can find disordered Hamiltonians hosting a tower of scars by adapting a known method for finding parent Hamiltonians. Using this method, we construct a spin-1/2 model which is both partially localized and contains scars. We demonstrate that the model is partially localized by studying numerically the level spacing statistics and bipartite entanglement entropy. As disorder is introduced, the adjacent gap ratio transitions from the Gaussian orthogonal ensemble to the Poisson distribution and the entropy shifts from volume-law to area-law scaling. We investigate the properties of scars in a partially localized background and compare with a thermal background. At strong disorder, states initialized inside or outside the scar subspace display different dynamical behavior but have similar entanglement entropy and Schmidt gap. We demonstrate that localization stabilizes scar revivals of initial states with support both inside and outside the scar subspace. Finally, we show how strong disorder introduces additional approximate towers of eigenstates.
翻訳日:2023-05-25 00:44:23 公開日:2023-05-23
# 半構造化オブジェクトシーケンスエンコーダ

Semi-Structured Object Sequence Encoders ( http://arxiv.org/abs/2301.01015v4 )

ライセンス: Link先を確認
Rudra Murthy V and Riyaz Bhat and Chulaka Gunasekara and Siva Sankalp Patel and Hui Wan and Tejas Indulal Dhamecha and Danish Contractor and Marina Danilevsky(参考訳) 本稿では,半構造化オブジェクト列をモデル化する課題について考察する。 そのようなデータの例としては、Webサイト上のユーザアクティビティ、マシンログなどがある。 このタイプのデータは、時間とともにキーと値のペアの集合の列として表され、常に増加するシーケンス長によるモデリング上の課題を示すことがある。 本稿では,まず各キーを独立に考慮し,その値の表現を時間とともに符号化する2部手法を提案する。 これにより、既存のメソッドよりも長いオブジェクトシーケンスで操作できます。 本稿では,2つのモジュール間の新しい共有アテンション・ヘッド・アーキテクチャを導入し,両モジュールのトレーニングを共有ウェイトでインターリーブする,革新的なトレーニングスケジュールを提案する。 本研究では,実世界データを用いた複数の予測タスクに関する実験により,階層的符号化を伴う統一ネットワークや,レコード中心表現や配列のフラット化表現を含む他の手法よりも優れることを示す。

In this paper we explore the task of modeling semi-structured object sequences; in particular, we focus our attention on the problem of developing a structure-aware input representation for such sequences. Examples of such data include user activity on websites, machine logs, and many others. This type of data is often represented as a sequence of sets of key-value pairs over time and can present modeling challenges due to an ever-increasing sequence length. We propose a two-part approach, which first considers each key independently and encodes a representation of its values over time; we then self-attend over these value-aware key representations to accomplish a downstream task. This allows us to operate on longer object sequences than existing methods. We introduce a novel shared-attention-head architecture between the two modules and present an innovative training schedule that interleaves the training of both modules with shared weights for some attention heads. Our experiments on multiple prediction tasks using real-world data demonstrate that our approach outperforms a unified network with hierarchical encoding, as well as other methods including a record-centric representation and a flattened representation of the sequence.
翻訳日:2023-05-25 00:44:04 公開日:2023-05-23
# 離散グラフ構造に基づく分子グラフ生成のための条件拡散

Conditional Diffusion Based on Discrete Graph Structures for Molecular Graph Generation ( http://arxiv.org/abs/2301.00427v2 )

ライセンス: Link先を確認
Han Huang, Leilei Sun, Bowen Du, Weifeng Lv(参考訳) 分子グラフの基盤となる分布を学習し、高忠実度サンプルを生成することは、薬物発見と物質科学の基本的な研究課題である。 しかし、正確な分布のモデル化と急速な新規分子グラフの生成は依然として重要かつ困難な目標である。 これらの目的を達成するために,分子グラフ生成のための離散グラフ構造(CDGS)に基づく条件拡散モデルを提案する。 具体的には, 確率微分方程式 (sde) によるグラフ構造と固有特徴の両方に対する前方グラフ拡散過程を構築し, 離散グラフ構造を逆生成過程の条件として導出する。 本稿では,中間グラフ状態からグローバルコンテキストとローカルノードエッジ依存性を抽出する,ハイブリッドグラフ雑音予測モデルを提案する。 さらに,確率フローodeの半線形構造に基づいて,効率的なグラフサンプリングに常微分方程式 (ode) ソルバを用いる。 多様なデータセットの実験は、我々のフレームワークの有効性を検証する。 特に,提案手法は限られた数ステップで高品質な分子グラフを生成する。 私たちのコードはhttps://github.com/GRAPH-0/CDGSで提供されています。

Learning the underlying distribution of molecular graphs and generating high-fidelity samples is a fundamental research problem in drug discovery and material science. However, accurately modeling distribution and rapidly generating novel molecular graphs remain crucial and challenging goals. To accomplish these goals, we propose a novel Conditional Diffusion model based on discrete Graph Structures (CDGS) for molecular graph generation. Specifically, we construct a forward graph diffusion process on both graph structures and inherent features through stochastic differential equations (SDE) and derive discrete graph structures as the condition for reverse generative processes. We present a specialized hybrid graph noise prediction model that extracts the global context and the local node-edge dependency from intermediate graph states. We further utilize ordinary differential equation (ODE) solvers for efficient graph sampling, based on the semi-linear structure of the probability flow ODE. Experiments on diverse datasets validate the effectiveness of our framework. Particularly, the proposed method still generates high-quality molecular graphs in a limited number of steps. Our code is provided in https://github.com/GRAPH-0/CDGS.
翻訳日:2023-05-25 00:43:45 公開日:2023-05-23
# NLIは低リソースバイオメディカルリレーショナルリレーション抽出のための間接的プロビジョンを向上できるか?

Can NLI Provide Proper Indirect Supervision for Low-resource Biomedical Relation Extraction? ( http://arxiv.org/abs/2212.10784v2 )

ライセンス: Link先を確認
Jiashu Xu, Mingyu Derek Ma, Muhao Chen(参考訳) バイオメディカルリレーション抽出(re)における2つの重要な障害は、アノテーションの不足と、アノテーションカバレッジの低さによるラベルを明示的に定義せずにインスタンスが発生することである。 バイオメディカルREをマルチクラス分類タスクとして扱う既存のアプローチでは、低リソース環境での一般化が不十分な場合が多く、未知のケースを選択的に予測する能力はないが、それらのアプローチの適用性を妨げている。 バイオメディカルREを自然言語推論の定式化として間接的な監督によって変換するNBRを提案する。 関係を自然言語の仮説に変換することで、NBRは意味的な手がかりを利用してアノテーションの不足を軽減することができる。 nbrは、暗黙的に断続的なインスタンスを校正するランキングベースの損失を組み込むことで、より明確な決定境界を学習し、不確定なインスタンスを放棄するように指示される。 chemprot、ddi、gadの3つの広く使用されている生物医学的reベンチマークに関する広範囲な実験は、フルセットと低リソースの両領域におけるnbrの有効性を検証する。 分析の結果,NLI知識とバイオメディカル知識を組み合わせれば,バイオメディカルREが有効であることがわかった。

Two key obstacles in biomedical relation extraction (RE) are the scarcity of annotations and the prevalence of instances without explicitly pre-defined labels due to low annotation coverage. Existing approaches, which treat biomedical RE as a multi-class classification task, often result in poor generalization in low-resource settings and do not have the ability to make selective prediction on unknown cases but give a guess from seen relations, hindering the applicability of those approaches. We present NBR, which converts biomedical RE as natural language inference formulation through indirect supervision. By converting relations to natural language hypotheses, NBR is capable of exploiting semantic cues to alleviate annotation scarcity. By incorporating a ranking-based loss that implicitly calibrates abstinent instances, NBR learns a clearer decision boundary and is instructed to abstain on uncertain instances. Extensive experiments on three widely-used biomedical RE benchmarks, namely ChemProt, DDI and GAD, verify the effectiveness of NBR in both full-set and low-resource regimes. Our analysis demonstrates that indirect supervision benefits biomedical RE even when a domain gap exists, and combining NLI knowledge with biomedical knowledge leads to the best performance gains.
翻訳日:2023-05-25 00:43:27 公開日:2023-05-23
# 門番としての言葉 : 学術出版における専門用語と意味の測定

Words as Gatekeepers: Measuring Discipline-specific Terms and Meanings in Scholarly Publications ( http://arxiv.org/abs/2212.09676v2 )

ライセンス: Link先を確認
Li Lucy, Jesse Dodge, David Bamman, Katherine A. Keith(参考訳) 学術的なテキストは、しばしばジャーゴン(jargon)や、フィールド内での効率的なグループ内コミュニケーションを促進するが、外部グループに対する理解を妨げる特殊言語が組み込まれている。 本研究では,テキストから学術用語を測定するための解釈可能なアプローチを開発し,検証する。 単語タイプに焦点を当てた事前作業の範囲を拡大し、word senseインダクションを使用して、フィールドにまたがる異なる意味を持つ広義の単語を識別します。 次に, 何百ものサブフィールドにまたがって, 規律固有の単語や感覚の出現率を推定し, 単語感覚は, 単語のタイプとともに, 相補的かつ独特なジャーゴンの視点を提供することを示した。 我々は,科学および計算社会言語学における指標の有用性を,二つの重要な社会的意味を浮き彫りにすることで実証する。 第一に、ほとんどの分野は汎用の会場のために書く際にジャーゴンの使用を減らすが、いくつかの分野(生物科学など)は他の分野よりも少ない。 第二に、ジャーゴンと引用率の相関の方向は場によって異なるが、ジャーゴンはほとんど常に学際的影響と負の相関関係にある。 概して,多分野の会場はより一般のオーディエンスを対象とするものの,一部の分野の文章規範は橋梁よりも障壁として機能する可能性があり,学術的アイデアの分散を阻害していることが示唆された。

Scholarly text is often laden with jargon, or specialized language that can facilitate efficient in-group communication within fields but hinder understanding for out-groups. In this work, we develop and validate an interpretable approach for measuring scholarly jargon from text. Expanding the scope of prior work which focuses on word types, we use word sense induction to also identify words that are widespread but overloaded with different meanings across fields. We then estimate the prevalence of these discipline-specific words and senses across hundreds of subfields, and show that word senses provide a complementary, yet unique view of jargon alongside word types. We demonstrate the utility of our metrics for science of science and computational sociolinguistics by highlighting two key social implications. First, though most fields reduce their use of jargon when writing for general-purpose venues, and some fields (e.g., biological sciences) do so less than others. Second, the direction of correlation between jargon and citation rates varies among fields, but jargon is nearly always negatively correlated with interdisciplinary impact. Broadly, our findings suggest that though multidisciplinary venues intend to cater to more general audiences, some fields' writing norms may act as barriers rather than bridges, and thus impede the dispersion of scholarly ideas.
翻訳日:2023-05-25 00:42:41 公開日:2023-05-23
# 大規模言語モデルによる自己検証による推論精度の向上

Large Language Models are Better Reasoners with Self-Verification ( http://arxiv.org/abs/2212.09561v3 )

ライセンス: Link先を確認
Yixuan Weng, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Kang Liu, Jun Zhao(参考訳) 近年、思考(CoT)の連鎖により、GPT-3のような大規模言語モデル(LLM)は、算術、常識、論理的推論といったいくつかの自然言語処理タスクにおいて強い推論能力を示している。 しかし、CoT を用いた LLM では、複数ステップのプロンプトとマルチトークン予測が必要であり、個々のミスに非常に敏感であり、エラーの蓄積に弱い。 上記の問題は、LLMが答えを検証する能力を必要としている。 実際、ある思考決定タスクで結論を推論した後、人々は間違いを避けるためのステップを再検証することでそれらをチェックします。 本稿では,LLMにも類似した自己検証能力があることを示す。 本稿では,CoTによる結論を,元の問題を解決する条件の一つとみなす。 原条件をマスキングし、その結果を予測することにより、再予測された条件が正しいかどうかに基づいて説明可能な回答検証スコアを算出する。 実験の結果,提案手法は様々な算術,コモンセンス,論理推論データセットの推論性能を向上させることができることがわかった。

Recently, with the chain of thought (CoT) prompting, large language models (LLMs), e.g., GPT-3, have shown strong reasoning ability in several natural language processing tasks such as arithmetic, commonsense, and logical reasoning. However, LLMs with CoT require multi-step prompting and multi-token prediction, which is highly sensitive to individual mistakes and vulnerable to error accumulation. The above issues make the LLMs need the ability to verify the answers. In fact, after inferring conclusions in some thinking decision tasks, people often check them by re-verifying steps to avoid some mistakes. In this paper, we propose and prove that LLMs also have similar self-verification abilities. We take the conclusion obtained by CoT as one of the conditions for solving the original problem. By taking turns masking the original conditions and predicting their results, we calculate an explainable answer verification score based on whether the re-predicted conditions are correct. Experimental results demonstrate that the proposed method can improve the reasoning performance on various arithmetic, commonsense, and logical reasoning datasets.
翻訳日:2023-05-25 00:42:17 公開日:2023-05-23
# 反統一と一般化:調査

Anti-unification and Generalization: A Survey ( http://arxiv.org/abs/2302.00277v4 )

ライセンス: Link先を確認
David M. Cerna and Temur Kutsia(参考訳) 反統一 (AU) は帰納的推論に使用される一般化計算の基本的な演算である。 これは統一への双対演算であり、自動定理証明の基礎における演算である。 AIとその関連コミュニティからのAUへの関心は高まっているが、既存の作業の概念や調査に関する体系的な研究がなければ、既存のアプローチがカバーできるアプリケーション固有の手法の開発に頼っていることが多い。 我々は、AU研究とその応用に関する最初の調査と、現在および将来の開発を分類するための一般的なフレームワークを提供する。

Anti-unification (AU) is a fundamental operation for generalization computation used for inductive inference. It is the dual operation to unification, an operation at the foundation of automated theorem proving. Interest in AU from the AI and related communities is growing, but without a systematic study of the concept nor surveys of existing work, investigations often resort to developing application-specific methods that existing approaches may cover. We provide the first survey of AU research and its applications and a general framework for categorizing existing and future developments.
翻訳日:2023-05-25 00:34:51 公開日:2023-05-23
# kernel stein discrepancy thinning:病理学の理論的展望と正規化による実際的修正

Kernel Stein Discrepancy thinning: a theoretical perspective of pathologies and a practical fix with regularization ( http://arxiv.org/abs/2301.13528v2 )

ライセンス: Link先を確認
Cl\'ement B\'enard, Brian Staber, S\'ebastien Da Veiga (CREST)(参考訳) Stein Thinning は (Riabiz et al., 2022) がマルコフ連鎖モンテカルロ (MCMC) のポストプロセッシング出力に対して提案した有望なアルゴリズムである。 主な原理は、ログターゲット分布の勾配だけを必要とする核化されたスタイン差分(KSD)を強引に最小化することであり、したがってベイズ推定に適している。 スタイン薄型化の主な利点は、バーンイン期間の自動除去、最近のMCMCアルゴリズムによるバイアスの補正、および目標分布に対する収束の漸近特性である。 それでも、スタインの薄型化はいくつかの経験的病理に悩まされ、文献で見られるように、近似が貧弱になる可能性がある。 本稿では,これらの病理を理論的に解析し,関連するメカニズムを明確に同定し,改善戦略を提案する。 次に, 同定された病理を緩和する正則化スタインシンキングアルゴリズムを導入する。 最後に、理論的な保証と広範な実験により、提案アルゴリズムの高効率性を示す。

Stein thinning is a promising algorithm proposed by (Riabiz et al., 2022) for post-processing outputs of Markov chain Monte Carlo (MCMC). The main principle is to greedily minimize the kernelized Stein discrepancy (KSD), which only requires the gradient of the log-target distribution, and is thus well-suited for Bayesian inference. The main advantages of Stein thinning are the automatic remove of the burn-in period, the correction of the bias introduced by recent MCMC algorithms, and the asymptotic properties of convergence towards the target distribution. Nevertheless, Stein thinning suffers from several empirical pathologies, which may result in poor approximations, as observed in the literature. In this article, we conduct a theoretical analysis of these pathologies, to clearly identify the mechanisms at stake, and suggest improved strategies. Then, we introduce the regularized Stein thinning algorithm to alleviate the identified pathologies. Finally, theoretical guarantees and extensive experiments show the high efficiency of the proposed algorithm.
翻訳日:2023-05-25 00:34:42 公開日:2023-05-23
# 都市空気移動の既存交通システムへの統合をシミュレーションする調査

Simulating the Integration of Urban Air Mobility into Existing Transportation Systems: A Survey ( http://arxiv.org/abs/2301.12901v3 )

ライセンス: Link先を確認
Xuan Jiang, Yuhan Tang, Zhiyi Tang, Junzhe Cao, Vishwanath Bulusu, Xin Peng, Cristian Poliziani, Raja Sengupta(参考訳) 都市空気移動(UAM)は、都市部の交通に革命をもたらす可能性があり、渋滞を緩和し、アクセシビリティを向上させる新しい交通手段を提供する。 しかし、既存の交通システムへのUAMの統合は、交通の流れとキャパシティへの影響を十分に理解する必要がある複雑な作業である。 本稿では,大都市交通におけるUAM研究の現状をシミュレーション手法を用いて調査する。 我々は,既存の交通パターンや渋滞,安全分析やリスク評価,潜在的経済的・環境的利益,UAMと地上交通のための共有インフラとルートの開発など,都市交通システムへのUAM統合の鍵となる課題と機会を特定した。 また,移動時間の短縮や未整備地域のアクセシビリティ向上など,uamの潜在的なメリットについても論じる。 本調査は,都市交通におけるUAM研究の現状をシミュレーションで概観し,今後の研究開発の要点を明らかにするものである。

Urban air mobility (UAM) has the potential to revolutionize transportation in metropolitan areas, providing a new mode of transportation that could alleviate congestion and improve accessibility. However, the integration of UAM into existing transportation systems is a complex task that requires a thorough understanding of its impact on traffic flow and capacity. In this paper, we conduct a survey to investigate the current state of research on UAM in metropolitan-scale traffic using simulation techniques. We identify key challenges and opportunities for the integration of UAM into urban transportation systems, including impacts on existing traffic patterns and congestion; safety analysis and risk assessment; potential economic and environmental benefits; and the development of shared infrastructure and routes for UAM and ground-based transportation. We also discuss the potential benefits of UAM, such as reduced travel times and improved accessibility for underserved areas. Our survey provides a comprehensive overview of the current state of research on UAM in metropolitan-scale traffic using simulation and highlights key areas for future research and development.
翻訳日:2023-05-25 00:34:25 公開日:2023-05-23
# 適応平滑化による分類器の精度・ロバスト性トレードオフの改善

Improving the Accuracy-Robustness Trade-Off of Classifiers via Adaptive Smoothing ( http://arxiv.org/abs/2301.12554v2 )

ライセンス: Link先を確認
Yatong Bai, Brendon G. Anderson, Aerin Kim, Somayeh Sojoudi(参考訳) 従来の研究では、ニューラル分類器の対向的堅牢性を高める方法が多数提案されているが、実践者はこれらの手法を採用することに消極的だ。 本稿では,標準分類器とロバストモデルの出力確率を混合することにより,標準ネットワークがクリーンな精度に最適化され,一般にロバストではない場合,この精度・ロバスト性トレードオフを著しく軽減できることを示す。 この改善の鍵となる要素は, 正誤例に対する頑健な基本分類器の信頼性差であることを示す。 直感的で経験的な証拠を提供するだけでなく、現実的な仮定の下で混合分類器の堅牢性も理論的に証明する。 さらに,2つのベースモデルの混合を適応的に調整する混合ネットワークに逆入力検出器を適応させ,ロバスト性を達成するための精度を低下させる。 提案したフレキシブルな手法は「適応的平滑化(adaptive smoothing)」と呼ばれ、クリーンな精度、堅牢性、敵検出を改善する既存のあるいは将来の方法と連携して機能する。 自己攻撃や適応攻撃など,強固な攻撃方法を検討した。 cifar-100データセットでは、38.72%の$\ell_\infty$-autoattacked (\epsilon$=8/255)精度を維持しながら85.21%のクリーン精度を達成し、提案時点でロバストベンチ cifar-100ベンチマークで2番目に堅牢な方法となり、クリーンな精度を10ポイント向上した。 このメソッドを実装するコードは、https://github.com/bai-yt/adaptivesmoothingで利用可能です。

While prior research has proposed a plethora of methods that enhance the adversarial robustness of neural classifiers, practitioners are still reluctant to adopt these techniques due to their unacceptably severe penalties in clean accuracy. This paper shows that by mixing the output probabilities of a standard classifier and a robust model, where the standard network is optimized for clean accuracy and is not robust in general, this accuracy-robustness trade-off can be significantly alleviated. We show that the robust base classifier's confidence difference for correct and incorrect examples is the key ingredient of this improvement. In addition to providing intuitive and empirical evidence, we also theoretically certify the robustness of the mixed classifier under realistic assumptions. Furthermore, we adapt an adversarial input detector into a mixing network that adaptively adjusts the mixture of the two base models, further reducing the accuracy penalty of achieving robustness. The proposed flexible method, termed "adaptive smoothing", can work in conjunction with existing or even future methods that improve clean accuracy, robustness, or adversary detection. Our empirical evaluation considers strong attack methods, including AutoAttack and adaptive attack. On the CIFAR-100 dataset, our method achieves an 85.21% clean accuracy while maintaining a 38.72% $\ell_\infty$-AutoAttacked ($\epsilon$=8/255) accuracy, becoming the second most robust method on the RobustBench CIFAR-100 benchmark as of submission, while improving the clean accuracy by ten percentage points compared with all listed models. The code that implements our method is available at https://github.com/Bai-YT/AdaptiveSmoothing.
翻訳日:2023-05-25 00:33:49 公開日:2023-05-23
# 高次元特徴を有する多段階定常処理政策の漸近推論

Asymptotic Inference for Multi-Stage Stationary Treatment Policy with High Dimensional Features ( http://arxiv.org/abs/2301.12553v2 )

ライセンス: Link先を確認
Daiqi Gao, Yufeng Liu, Donglin Zeng(参考訳) 動的処理ルールやポリシーは、個々の特徴に合わせた複数の段階にわたる決定機能のシーケンスである。 多段階定常治療方針(multi-stage stationary treatment policy)は、基準変数(例えば、人口動態)と時間発展変数(例えば、定期的に収集された疾患バイオマーカー)の両方からなる同じ特徴セットに基づいて決定を行う段階において、同じ決定関数を用いた治療割り当て確率を規定する。 動的処理ポリシに関連する値関数について,有効な推論を行うための文献が多数存在するが,特に高次元特徴変数の存在下では,ポリシー自体に対する作業はほとんど行われていない。 私たちはこの仕事のギャップを埋めようとしている。 具体的には、まず、漸近効率を高めるために値関数に対する拡張逆確率重み付き推定器に基づいて多段階定常処理方針を推定し、さらに重要な特徴変数の選択にペナルティを適用する。 次に、ポリシーパラメータ推定器のワンステップ改善を行う。 理論的には,低収束率でニュアサンスパラメータを推定し,サンプルサイズに応じて特徴変数の次元が増加する場合でも,改良された推定器は漸近的に正常であることを示す。 数値実験により,提案手法は小標本において十分な性能を示し,報酬近似や値関数の分散を最小化する増補項の選択により,その性能を向上できることを示した。

Dynamic treatment rules or policies are a sequence of decision functions over multiple stages that are tailored to individual features. One important class of treatment policies for practice, namely multi-stage stationary treatment policies, prescribe treatment assignment probabilities using the same decision function over stages, where the decision is based on the same set of features consisting of both baseline variables (e.g., demographics) and time-evolving variables (e.g., routinely collected disease biomarkers). Although there has been extensive literature to construct valid inference for the value function associated with the dynamic treatment policies, little work has been done for the policies themselves, especially in the presence of high dimensional feature variables. We aim to fill in the gap in this work. Specifically, we first estimate the multistage stationary treatment policy based on an augmented inverse probability weighted estimator for the value function to increase the asymptotic efficiency, and further apply a penalty to select important feature variables. We then construct one-step improvement of the policy parameter estimators. Theoretically, we show that the improved estimators are asymptotically normal, even if nuisance parameters are estimated at a slow convergence rate and the dimension of the feature variables increases with the sample size. Our numerical studies demonstrate that the proposed method has satisfactory performance in small samples, and that the performance can be improved with a choice of the augmentation term that approximates the rewards or minimizes the variance of the value function.
翻訳日:2023-05-25 00:33:16 公開日:2023-05-23
# アーティストとしての拡散モデル:人間と機械のギャップを縮めるのか?

Diffusion Models as Artists: Are we Closing the Gap between Humans and Machines? ( http://arxiv.org/abs/2301.11722v2 )

ライセンス: Link先を確認
Victor Boutin, Thomas Fel, Lakshya Singhal, Rishav Mukherji, Akash Nagaraj, Julien Colin and Thomas Serre(参考訳) AIの重要なマイルストーンは、人間のものと区別できない描画を生成できるアルゴリズムの開発である。 ここでは、boutin et al, 2022の'diversity vs. recognizability'スコアリングフレームワークを採用し、ワンショット拡散モデルが実際に人間と機械のギャップを縮め始めたことを見出します。 しかし, 個々の試料の原性についてよりきめ細かい測定値を用いて, 拡散モデルによるガイダンスの強化は, 図面の人文性向上に寄与するが, 図面の原性や認識性には及ばないことを示す。 オンライン心理物理学実験を通じて収集されたヒトカテゴリー診断の特徴と拡散モデルから得られた特徴を比較すると、ヒトはより局所的な特徴に頼っていることが分かる。 我々の研究は、拡散モデルが機械が生成した図面の品質を著しく向上させたことを示唆しているが、人間と機械の間のギャップは、部分的には視覚戦略の相違によって説明できる。

An important milestone for AI is the development of algorithms that can produce drawings that are indistinguishable from those of humans. Here, we adapt the 'diversity vs. recognizability' scoring framework from Boutin et al, 2022 and find that one-shot diffusion models have indeed started to close the gap between humans and machines. However, using a finer-grained measure of the originality of individual samples, we show that strengthening the guidance of diffusion models helps improve the humanness of their drawings, but they still fall short of approximating the originality and recognizability of human drawings. Comparing human category diagnostic features, collected through an online psychophysics experiment, against those derived from diffusion models reveals that humans rely on fewer and more localized features. Overall, our study suggests that diffusion models have significantly helped improve the quality of machine-generated drawings; however, a gap between humans and machines remains -- in part explainable by discrepancies in visual strategies.
翻訳日:2023-05-25 00:32:52 公開日:2023-05-23
# ベイズ自己教師付きコントラスト学習

Bayesian Self-Supervised Contrastive Learning ( http://arxiv.org/abs/2301.11673v3 )

ライセンス: Link先を確認
Bin Liu, Bang Wang(参考訳) 近年、さまざまな領域におけるコントラスト学習の多くの成功例が見られたが、自己管理版は依然として多くのエキサイティングな課題が残っている。 負のサンプルはラベルのないデータセットから抽出されるため、ランダムに選択されたサンプルは実際にはアンカーに偽の陰性であり、誤ったエンコーダのトレーニングをもたらす。 本稿では, ラベル付きデータからのランダムなサンプルを引き続き用いながら, 重み付きバイアスを補正するBCL損失という, 新たな自己監督型コントラスト損失を提案する。 鍵となる考え方は、ベイズフレームワークの下で真の正のサンプルをサンプリングするために望ましいサンプリング分布を設計することである。 顕著な利点は、所望のサンプリング分布がパラメトリック構造であり、それぞれが偽陰性および濃度パラメータを偏り、ハード負をマイニングする位置パラメータである点である。 実験はbcl損失の有効性と優位性を検証する。

Recent years have witnessed many successful applications of contrastive learning in diverse domains, yet its self-supervised version still remains many exciting challenges. As the negative samples are drawn from unlabeled datasets, a randomly selected sample may be actually a false negative to an anchor, leading to incorrect encoder training. This paper proposes a new self-supervised contrastive loss called the BCL loss that still uses random samples from the unlabeled data while correcting the resulting bias with importance weights. The key idea is to design the desired sampling distribution for sampling hard true negative samples under the Bayesian framework. The prominent advantage lies in that the desired sampling distribution is a parametric structure, with a location parameter for debiasing false negative and concentration parameter for mining hard negative, respectively. Experiments validate the effectiveness and superiority of the BCL loss.
翻訳日:2023-05-25 00:32:33 公開日:2023-05-23
# ヒト関連ビデオ異常検出のための収縮骨格運動学

Contracting Skeletal Kinematics for Human-Related Video Anomaly Detection ( http://arxiv.org/abs/2301.09489v4 )

ライセンス: Link先を確認
Alessandro Flaborea, Guido D'Amely, Stefano D'Arrigo, Marco Aurelio Sterpa, Alessio Sampieri, Fabio Galasso(参考訳) 人間の行動の異常を検出することは、ストリートファイトや高齢者の転倒といった危険な状況を認識するのに最重要である。 しかし、異常な事象は稀であり、開集合認識タスクである、すなわち推論の異常が訓練中に観測されていないため、異常検出は複雑である。 COSKADは,人間の骨格の動きをグラフ畳み込みネットワークで符号化し,ビデオ異常検出のための最小体積の潜時超球面へのSKeletal Kiinematicの埋め込みを抽出する新しいモデルである。 一般に付加されるユークリッド空間と、新しい球面および双曲空間の3つの潜在空間を提案する。 すべての変種は、最新のUBnormalデータセットの最先端よりも優れており、注釈付き骨格を持つ人間関連のバージョンに貢献する。 COSKADは、上海テックキャンパスとCUHKアベニューの人間関連バージョンに、ビデオベースの手法に匹敵するパフォーマンスで、最先端の技術を新たに設定している。 ソースコードとデータセットは受理時にリリースされる。

Detecting the anomaly of human behavior is paramount to timely recognizing endangering situations, such as street fights or elderly falls. However, anomaly detection is complex since anomalous events are rare and because it is an open set recognition task, i.e., what is anomalous at inference has not been observed at training. We propose COSKAD, a novel model that encodes skeletal human motion by a graph convolutional network and learns to COntract SKeletal kinematic embeddings onto a latent hypersphere of minimum volume for Video Anomaly Detection. We propose three latent spaces: the commonly-adopted Euclidean and the novel spherical and hyperbolic. All variants outperform the state-of-the-art on the most recent UBnormal dataset, for which we contribute a human-related version with annotated skeletons. COSKAD sets a new state-of-the-art on the human-related versions of ShanghaiTech Campus and CUHK Avenue, with performance comparable to video-based methods. Source code and dataset will be released upon acceptance.
翻訳日:2023-05-25 00:32:16 公開日:2023-05-23
# 量子コンピュータ上のスレーター行列式と相関状態の効率的な調製のための浅量子回路

Shallow quantum circuits for efficient preparation of Slater determinants and correlated states on a quantum computer ( http://arxiv.org/abs/2301.07477v4 )

ライセンス: Link先を確認
Chong Hian Chee, Daniel Leykam, Adrian M. Mak, Dimitris G. Angelakis(参考訳) フェルミオンアンザッツ状態調製は、量子化学や凝縮物質への応用のための変分量子固有解法のような多くの量子アルゴリズムにおける臨界サブルーチンである。 スレーター行列式と相関状態を作成するのに必要な最浅い回路深度は、システムサイズ$n$に対して少なくとも線形にスケールする。 量子機械学習のために開発されたデータローディング回路に触発されて、d-フェルミオンを用いたそのような状態を作成するために、より浅くスケーラブルな${\mathcal{o}}(d \log_2^2n)$ 2量子ビットのゲート深さ回路を提供する代替パラダイムを提案し、第二量子化における既存のアプローチよりもn$のサブ指数的削減を提供し、d{\ll}{\mathcal{o}}{\left(n / \log_2^2n\right)}$ fermionic systemsの精度の高い研究を可能にした。

Fermionic ansatz state preparation is a critical subroutine in many quantum algorithms such as Variational Quantum Eigensolver for quantum chemistry and condensed matter applications. The shallowest circuit depth needed to prepare Slater determinants and correlated states to date scale at least linearly with respect to the system size $N$. Inspired by data-loading circuits developed for quantum machine learning, we propose an alternate paradigm that provides shallower, yet scalable ${\mathcal{O}}(d \log_2^2N)$ two-qubit gate depth circuits to prepare such states with d-fermions, offering a subexponential reduction in $N$ over existing approaches in second quantization, enabling high-accuracy studies of $d{\ll}{\mathcal{O}}{\left(N / \log_2^2 N\right)}$ fermionic systems with larger basis sets on near-term quantum devices.
翻訳日:2023-05-25 00:31:57 公開日:2023-05-23
# 前駆体を用いたディープニューラルネットワークの校正

Calibrating a Deep Neural Network with Its Predecessors ( http://arxiv.org/abs/2302.06245v2 )

ライセンス: Link先を確認
Linwei Tao, Minjing Dong, Daochang Liu, Changming Sun, Chang Xu(参考訳) 信頼度校正 - ニューラルネットワークの出力確率分布を校正するプロセス - は、そのようなネットワークの安全性クリティカルな応用には不可欠である。 最近の研究は誤校正と過度適合の関連を検証している。 しかし、オーバーフィッティングを緩和する有名な手法として、早期停止はネットワークの校正に失敗する。 本研究では,各ブロックを考慮したネットワークの早期停止の限界について検討し,そのオーバーフィッティング問題を包括的に解析する。 そこで我々は,ブロック前駆体が対応するネットワークブロックであり,初期訓練段階からの重みパラメータを持つような,最適なブロック前駆体の組み合わせを探索することでキャリブレーションを改善する,新しい正規化手法であるPCSを提案する。 PCSは、複数のデータセットとアーキテクチャ上で最先端のキャリブレーション性能を達成する。 さらに、PCSはデータセットの分散シフトの下でモデルの堅牢性を改善する。

Confidence calibration - the process to calibrate the output probability distribution of neural networks - is essential for safety-critical applications of such networks. Recent works verify the link between mis-calibration and overfitting. However, early stopping, as a well-known technique to mitigate overfitting, fails to calibrate networks. In this work, we study the limitions of early stopping and comprehensively analyze the overfitting problem of a network considering each individual block. We then propose a novel regularization method, predecessor combination search (PCS), to improve calibration by searching a combination of best-fitting block predecessors, where block predecessors are the corresponding network blocks with weight parameters from earlier training stages. PCS achieves the state-of-the-art calibration performance on multiple datasets and architectures. In addition, PCS improves model robustness under dataset distribution shift.
翻訳日:2023-05-25 00:25:51 公開日:2023-05-23
# 合成データ生成のための機械学習: レビュー

Machine Learning for Synthetic Data Generation: A Review ( http://arxiv.org/abs/2302.04062v3 )

ライセンス: Link先を確認
Yingzhou Lu, Huazheng Wang, Wenqi Wei(参考訳) データは機械学習において重要な役割を果たす。 しかし、現実世界のアプリケーションでは、データの品質が低い、限られた数のデータポイントが機械学習モデルの過度な適合に繋がる、プライバシー、安全性、規制上の懸念によるデータへのアクセスが困難など、データにはいくつかの問題がある。 合成データ生成は、現実世界のデータではできない方法で共有および使用することができるため、有望な新しい道を提供する。 本稿では、合成データ生成に機械学習モデルを利用する既存の作品を体系的にレビューする。 具体的には,様々な視点から合成データ生成手法について考察する。 (i) コンピュータビジョン、音声、自然言語、医療及び事業を含む出願 (二 機械学習方法、特にニューラルネットワークアーキテクチャ及び深層生成モデル (三)プライバシーと公平性の問題 さらに、この新興分野における課題と機会を特定し、今後の研究方向性を提案する。

Data plays a crucial role in machine learning. However, in real-world applications, there are several problems with data, e.g., data are of low quality; a limited number of data points lead to under-fitting of the machine learning model; it is hard to access the data due to privacy, safety and regulatory concerns. Synthetic data generation offers a promising new avenue, as it can be shared and used in ways that real-world data cannot. This paper systematically reviews the existing works that leverage machine learning models for synthetic data generation. Specifically, we discuss the synthetic data generation works from several perspectives: (i) applications, including computer vision, speech, natural language, healthcare, and business; (ii) machine learning methods, particularly neural network architectures and deep generative models; (iii) privacy and fairness issue. In addition, we identify the challenges and opportunities in this emerging field and suggest future research directions.
翻訳日:2023-05-25 00:25:37 公開日:2023-05-23
# 大学入試における標準試験の代替としての学習入試モデルの評価

Evaluating a Learned Admission-Prediction Model as a Replacement for Standardized Tests in College Admissions ( http://arxiv.org/abs/2302.03610v3 )

ライセンス: Link先を確認
Hansol Lee, Ren\'e F. Kizilcec, Thorsten Joachims(参考訳) 大学アプリケーションの増加は、米国での大学入学に毎年挑戦している。 入場事務所は歴史的に標準テストスコアに依存しており、審査のために大きな応募者プールを実行可能なサブセットに整理している。 しかし、このアプローチは、テストのスコアのバイアスと、最近のテストオプションの受け入れ傾向によるテストテイクの選択バイアスが伴う可能性がある。 より総合的なレビューを支援するために,学生アプリケーションから抽出した幅広い要因を考慮しつつ,サブセット生成における標準化テストの役割を置き換えるための機械学習ベースのアプローチを検討する。 選択的な米国機関(13,248件)の学部受験所のデータに対するアプローチを評価した。 過去の入学者データに基づいてトレーニングされた予測モデルは、satベースのヒューリスティックよりも優れており、最終入学クラスの人口構成に合致する。 大学入試における人間の意思決定を支援するために、このような学習モデルをどのように活用できるかのリスクと機会について論じる。

A growing number of college applications has presented an annual challenge for college admissions in the United States. Admission offices have historically relied on standardized test scores to organize large applicant pools into viable subsets for review. However, this approach may be subject to bias in test scores and selection bias in test-taking with recent trends toward test-optional admission. We explore a machine learning-based approach to replace the role of standardized tests in subset generation while taking into account a wide range of factors extracted from student applications to support a more holistic review. We evaluate the approach on data from an undergraduate admission office at a selective US institution (13,248 applications). We find that a prediction model trained on past admission data outperforms an SAT-based heuristic and matches the demographic composition of the last admitted class. We discuss the risks and opportunities for how such a learned model could be leveraged to support human decision-making in college admissions.
翻訳日:2023-05-25 00:25:25 公開日:2023-05-23
# OPORP: 1つの置換+1つのランダム投影

OPORP: One Permutation + One Random Projection ( http://arxiv.org/abs/2302.03505v2 )

ライセンス: Link先を確認
Ping Li and Xiaoyun Li(参考訳) 2つのD$次元のデータベクトル(例えば埋め込み)を考える:$u, v$。 ベクトルが訓練されたモデルから生成される多くの埋め込みベース検索(EBR)アプリケーションでは、$D=256\sim 1024$が一般的である。 本稿では, oporp (one permutation + one random projection) が ``count-sketch''' 型のデータ構造の変種を用いて,データの縮小圧縮を実現する。 OPORPでは、まずデータベクトルに置換を適用する。 乱ベクトル$r$が生成される:$E(r_i) = 0, E(r_i^2)=1, E(r_i^3) =0, E(r_i^4)=s$。 ドット積として)$r$をすべての置換データベクトルに乗算します。 次に$D$列を$k$等長のビンに分割し、各ビンの値(すなわち和)を集約し、各データベクトルから$k$サンプルを取得する。 1つの重要なステップは、$k$サンプルを$l_2$標準に正規化することである。 推定分散は基本的に: $(s-1)A + \frac{D-k}{D-1}\frac{1}{k}\left[ (1-\rho^2)^2 -2A\right]$, ここで$A\geq 0$はデータ(u,v$)の関数である。 この式はいくつかの重要な性質を明らかにしている: (1)$s=1$。 2) 因子 $\frac{D-k}{D-1}$ は分散の減少に非常に有益である。 (3) $\frac{1}{k}(1-\rho^2)^2$ という用語は、非正規化推定器に対応する $\frac{1}{k}(1+\rho^2)$ と比較して大幅に改善される。 我々は、OPORPの$k$を$k=1$にし、プロシージャを$m$回繰り返すことで、 'very spars random projections' (VSRP)の作業を正確に回復する。 これはすぐにVSRPの正規化推定器につながり、VSRPの当初の推定器を大幅に改善した。 まとめると、OPORPでは、2つの重要なステップがあります。 (i)正規化及び (ii)固定長バイナリ化方式は,現代の埋め込み型検索 (ebr) アプリケーションにおいて日常的(かつ重要な)タスクであるコサイン類似度の推定精度を大幅に向上させた。

Consider two $D$-dimensional data vectors (e.g., embeddings): $u, v$. In many embedding-based retrieval (EBR) applications where the vectors are generated from trained models, $D=256\sim 1024$ are common. In this paper, OPORP (one permutation + one random projection) uses a variant of the ``count-sketch'' type of data structures for achieving data reduction/compression. With OPORP, we first apply a permutation on the data vectors. A random vector $r$ is generated i.i.d. with moments: $E(r_i) = 0, E(r_i^2)=1, E(r_i^3) =0, E(r_i^4)=s$. We multiply (as dot product) $r$ with all permuted data vectors. Then we break the $D$ columns into $k$ equal-length bins and aggregate (i.e., sum) the values in each bin to obtain $k$ samples from each data vector. One crucial step is to normalize the $k$ samples to the unit $l_2$ norm. We show that the estimation variance is essentially: $(s-1)A + \frac{D-k}{D-1}\frac{1}{k}\left[ (1-\rho^2)^2 -2A\right]$, where $A\geq 0$ is a function of the data ($u,v$). This formula reveals several key properties: (1) We need $s=1$. (2) The factor $\frac{D-k}{D-1}$ can be highly beneficial in reducing variances. (3) The term $\frac{1}{k}(1-\rho^2)^2$ is a substantial improvement compared with $\frac{1}{k}(1+\rho^2)$, which corresponds to the un-normalized estimator. We illustrate that by letting the $k$ in OPORP to be $k=1$ and repeat the procedure $m$ times, we exactly recover the work of ``very spars random projections'' (VSRP). This immediately leads to a normalized estimator for VSRP which substantially improves the original estimator of VSRP. In summary, with OPORP, the two key steps: (i) the normalization and (ii) the fixed-length binning scheme, have considerably improved the accuracy in estimating the cosine similarity, which is a routine (and crucial) task in modern embedding-based retrieval (EBR) applications.
翻訳日:2023-05-25 00:25:09 公開日:2023-05-23
# ファウショット生成領域適応のためのドメイン再変調

Domain Re-Modulation for Few-Shot Generative Domain Adaptation ( http://arxiv.org/abs/2302.02550v3 )

ライセンス: Link先を確認
Yi Wu, Ziqiang Li, Chaoyue Wang, Heliang Zheng, Shanshan Zhao, Bin Li, Dacheng Tao(参考訳) 本研究では,いくつかの参照画像のみを用いて,事前学習したジェネレータを1つのドメインから新しいドメインに転送する作業である生成ドメイン適応(GDA)について検討する。 人間の脳が新しいドメインの知識を得る方法に触発されて、ドメイン再構成(DoRM)と呼ばれる革新的なジェネレータ構造を示す。 DoRMは、GDAの以前の研究によって達成された高品質、大規模な合成の多様性、ドメイン間の整合性の基準を満たすだけでなく、人間の脳の動作に類似した記憶とドメイン関連も含んでいる。 具体的には、DoRMはソースジェネレータを凍結し、新しいマッピングとアフィンモジュール(M&Aモジュール)を導入し、GDA中にターゲットドメインの属性をキャプチャする。 この過程はヒト脳の新しいシナプスの形成に似ている。 その結果、スタイル空間において線形結合可能なドメインシフトが発生する。 複数の新しいm&aモジュールを組み込むことで、ジェネレータは高忠実度マルチドメインおよびハイブリッドドメイン生成を実行する能力を得る。 さらに、ドメイン間の一貫性をより効果的に維持するために、類似性に基づく構造損失を導入する。 この損失は、トレーニング中に対象画像の自己相関マップと対応するソース画像の自己相関マップとを一致させる。 広汎な実験により,数ショットGDAにおけるDoRMの優れた性能と類似性に基づく構造損失を定量的および定性的に実証した。 コードはhttps://github.com/wuyi2020/DoRM.comから入手できる。

In this study, we delve into the task of few-shot Generative Domain Adaptation (GDA), which involves transferring a pre-trained generator from one domain to a new domain using only a few reference images. Inspired by the way human brains acquire knowledge in new domains, we present an innovative generator structure called Domain Re-Modulation (DoRM). DoRM not only meets the criteria of high quality, large synthesis diversity, and cross-domain consistency, which were achieved by previous research in GDA, but also incorporates memory and domain association, akin to how human brains operate. Specifically, DoRM freezes the source generator and introduces new mapping and affine modules (M&A modules) to capture the attributes of the target domain during GDA. This process resembles the formation of new synapses in human brains. Consequently, a linearly combinable domain shift occurs in the style space. By incorporating multiple new M&A modules, the generator gains the capability to perform high-fidelity multi-domain and hybrid-domain generation. Moreover, to maintain cross-domain consistency more effectively, we introduce a similarity-based structure loss. This loss aligns the auto-correlation map of the target image with its corresponding auto-correlation map of the source image during training. Through extensive experiments, we demonstrate the superior performance of our DoRM and similarity-based structure loss in few-shot GDA, both quantitatively and qualitatively. The code will be available at https://github.com/wuyi2020/DoRM.
翻訳日:2023-05-25 00:24:03 公開日:2023-05-23
# Longformer: Longitudinal Transformer : 構造MRIによるアルツハイマー病分類

Longformer: Longitudinal Transformer for Alzheimer's Disease Classification with Structural MRIs ( http://arxiv.org/abs/2302.00901v3 )

ライセンス: Link先を確認
Qiuhui Chen, Yi Hong(参考訳) 構造核磁気共鳴画像(sMRI)は脳神経疾患の診断に広く用いられているが、アルツハイマー病(AD)の診断に使用されるように、経時的MRIは疾患の進行をモニターし、捉えるためにしばしば収集される。 しかし、現在のほとんどの手法はADの進歩的な性質を無視し、ADを認識するには単一のsMRIしか必要としない。 本稿では,被検体の縦方向MRIをAD識別に活用することの問題点について考察する。 本研究では,SMRIの経時的変化を捉えた新しいモデルLongformerを提案する。このネットワークは,各時点において,SMRI上で空間的に注意機構を実行し,時間とともに脳領域の特徴を統合して,分類のための経時的埋め込みを得る。 我々のLongformerはADNIデータセットを用いてADの異なるステージを分離する2つのバイナリ分類タスクで最先端のパフォーマンスを実現する。 ソースコードはhttps://github.com/qybc/longformerで入手できます。

Structural magnetic resonance imaging (sMRI) is widely used for brain neurological disease diagnosis; while longitudinal MRIs are often collected to monitor and capture disease progression, as clinically used in diagnosing Alzheimer's disease (AD). However, most current methods neglect AD's progressive nature and only take a single sMRI for recognizing AD. In this paper, we consider the problem of leveraging the longitudinal MRIs of a subject for AD identification. To capture longitudinal changes in sMRIs, we propose a novel model Longformer, a spatiotemporal transformer network that performs attention mechanisms spatially on sMRIs at each time point and integrates brain region features over time to obtain longitudinal embeddings for classification. Our Longformer achieves state-of-the-art performance on two binary classification tasks of separating different stages of AD using the ADNI dataset. Our source code is available at https://github.com/Qybc/LongFormer.
翻訳日:2023-05-25 00:23:12 公開日:2023-05-23
# インコンテキスト学習による対話の安全性向上

Using In-Context Learning to Improve Dialogue Safety ( http://arxiv.org/abs/2302.00871v2 )

ライセンス: Link先を確認
Nicholas Meade, Spandana Gella, Devamanyu Hazarika, Prakhar Gupta, Di Jin, Siva Reddy, Yang Liu, Dilek Hakkani-T\"ur(参考訳) 大規模なニューラルベースの対話型モデルでは,対話エージェントの習熟度が高まっているが,近年の研究では,これらのシステムに対する安全性の問題が強調されている。 例えば、これらのシステムは有害なコンテンツを生成し、しばしば社会的バイアスやステレオタイプを持続させる。 チャットボットからの応答のバイアスと毒性を低減させる検索ベース手法について検討した。 コンテキスト内学習を使用して、モデルをより安全な世代に向けて操る。 具体的には,安全でない対話コンテキストに対する応答を生成するために,類似した対話コンテキストに対する安全な応答のデモンストレーションを検索する。 本手法は,トレーニングを必要とせず,強いベースラインと競合する。 例えば、自動評価を用いて、最高の微調整ベースラインは、DiaSafety 4.04%以上の安全でない対話コンテキストに対してのみ安全な応答を生成する。 最後に,応答の安全性をさらに向上させるための再ランキング手順を提案する。

While large neural-based conversational models have become increasingly proficient dialogue agents, recent work has highlighted safety issues with these systems. For example, these systems can be goaded into generating toxic content, which often perpetuates social biases or stereotypes. We investigate a retrieval-based method for reducing bias and toxicity in responses from chatbots. It uses in-context learning to steer a model towards safer generations. Concretely, to generate a response to an unsafe dialogue context, we retrieve demonstrations of safe responses to similar dialogue contexts. We find our method performs competitively with strong baselines without requiring training. For instance, using automatic evaluation, we find our best fine-tuned baseline only generates safe responses to unsafe dialogue contexts from DiaSafety 4.04% more than our approach. Finally, we also propose a re-ranking procedure which can further improve response safeness.
翻訳日:2023-05-25 00:22:54 公開日:2023-05-23
# エピタキシャルal-inas平面ジョセフソン接合の準粒子ダイナミクス

Quasiparticle dynamics in epitaxial Al-InAs planar Josephson junctions ( http://arxiv.org/abs/2303.04784v3 )

ライセンス: Link先を確認
Bassel Heiba Elfeky, William M. Strickland, Jaewoo Lee, James T. Farmer, Sadman Shanto, Azarin Zarassi, Dylan Langone, Maxim G. Vavilov, Eli M. Levenson-Falk, Javad Shabani(参考訳) 準粒子効果(QP)は超伝導量子回路のコヒーレンスと忠実性において重要な役割を果たす。 高透明性ジョセフソン接合のアンドレフ境界状態はQPの低エネルギートラップとして作用し、QPと接合の両方の力学と性質を研究するメカニズムを提供する。 超伝導量子干渉装置(SQUID)に組み込まれたエピタキシャルAl-InAsジョセフソン接合のAndreev境界状態からのQPの捕捉と除去について,超伝導共振器を地上にガルバニカルに短縮する。 隣り合う電圧バイアスのジョセフソン接合を用いてQPを回路に注入する。 QPを注入すると、SQUIDがフラックスバイアスを受けたときにQPをトラップし、クリアできることを示す。 共振器におけるバルクQP輸送に伴うマイクロ波損失,ジャンクションにおけるQP関連消散,QP中毒について検討した。 時間内にQPトラップとクリアをモニタリングすることにより、これらのプロセスのダイナミクスを調べ、システム内の電子-フォノン緩和と相関する数マイクロ秒の時間スケールと、QPトラップとクリア機構の相関を見出す。 本研究は,al-inasヘテロ構造に基づく高透明性ジョセフソン接合におけるqpトラップとクリアリングのダイナミクスと関連する時間スケールに注目した。

Quasiparticle (QP) effects play a significant role in the coherence and fidelity of superconducting quantum circuits. The Andreev bound states of high transparency Josephson junctions can act as low-energy traps for QPs, providing a mechanism for studying the dynamics and properties of both the QPs and the junction. We study the trapping and clearing of QPs from the Andreev bound states of epitaxial Al-InAs Josephson junctions incorporated in a superconducting quantum interference device (SQUID) galvanically shorting a superconducting resonator to ground. We use a neighboring voltage-biased Josephson junction to inject QPs into the circuit. Upon the injection of QPs, we show that we can trap and clear QPs when the SQUID is flux-biased. We examine effects of the microwave loss associated with bulk QP transport in the resonator, QP-related dissipation in the junction, and QP poisoning events. By monitoring the QP trapping and clearing in time, we study the dynamics of these processes and find a time-scale of few microseconds that is consistent with electron-phonon relaxation in our system and correlated QP trapping and clearing mechanisms. Our results highlight the QP trapping and clearing dynamics as well as the associated time-scales in high transparency Josephson junctions based fabricated on Al-InAs heterostructures.
翻訳日:2023-05-25 00:15:41 公開日:2023-05-23
# EcoTTA: 自己蒸留正則化によるメモリ効率の良い連続テスト時間適応

EcoTTA: Memory-Efficient Continual Test-time Adaptation via Self-distilled Regularization ( http://arxiv.org/abs/2303.01904v4 )

ライセンス: Link先を確認
Junha Song, Jungsoo Lee, In So Kweon, Sungha Choi(参考訳) 本稿では,TTA(Continuous Test-Time Adaptance)をメモリ効率良く改善する,シンプルかつ効果的な手法を提案する。 TTAは主にメモリ制限のあるエッジデバイス上で実行されるため、メモリ削減は重要であるが、以前のTTA研究では見過ごされてきた。 加えて、長期的な適応は、しばしば破滅的な忘れとエラーの蓄積をもたらし、現実世界の展開においてTTAの適用を妨げる。 このアプローチは、これらの問題に対処する2つのコンポーネントで構成されています。 まず,凍結したオリジナルネットワークを対象ドメインに適応させる軽量なメタネットワークを提案する。 このアーキテクチャは、バックプロパゲーションに必要な中間活性化のサイズを小さくすることで、メモリ消費を最小化する。 第2に, 新たな自己蒸留正則化は, 凍結した元のネットワークの出力から著しく逸脱しないように, メタネットワークの出力を制御する。 追加のメモリがなければ、この正規化はエラーの蓄積と破滅的な忘れ込みを防止し、長期のテスト時間適応においても安定したパフォーマンスをもたらす。 画像分類やセマンティクスセグメンテーションタスクのベンチマークにおいて,我々の単純かつ効果的な戦略が,他の最先端手法よりも優れていることを実証する。 特に,ResNet-50およびWideResNet-40を用いた提案手法は,最近の最先端手法であるCoTTAよりも86%,80%少ないメモリを消費する。

This paper presents a simple yet effective approach that improves continual test-time adaptation (TTA) in a memory-efficient manner. TTA may primarily be conducted on edge devices with limited memory, so reducing memory is crucial but has been overlooked in previous TTA studies. In addition, long-term adaptation often leads to catastrophic forgetting and error accumulation, which hinders applying TTA in real-world deployments. Our approach consists of two components to address these issues. First, we present lightweight meta networks that can adapt the frozen original networks to the target domain. This novel architecture minimizes memory consumption by decreasing the size of intermediate activations required for backpropagation. Second, our novel self-distilled regularization controls the output of the meta networks not to deviate significantly from the output of the frozen original networks, thereby preserving well-trained knowledge from the source domain. Without additional memory, this regularization prevents error accumulation and catastrophic forgetting, resulting in stable performance even in long-term test-time adaptation. We demonstrate that our simple yet effective strategy outperforms other state-of-the-art methods on various benchmarks for image classification and semantic segmentation tasks. Notably, our proposed method with ResNet-50 and WideResNet-40 takes 86% and 80% less memory than the recent state-of-the-art method, CoTTA.
翻訳日:2023-05-25 00:15:17 公開日:2023-05-23
# AC2C:マルチエージェント強化学習のための適応制御2ホップ通信

AC2C: Adaptively Controlled Two-Hop Communication for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.12515v2 )

ライセンス: Link先を確認
Xuefeng Wang, Xinran Li, Jiawei Shao and Jun Zhang(参考訳) 協調型マルチエージェント強化学習(MARL)における学習コミュニケーション戦略は近年注目されている。 初期の研究は通常、エージェント間で完全に接続された通信トポロジーを仮定し、高い通信コストを発生させ、実現不可能である可能性がある。 近年,コミュニケーションのオーバーヘッドを軽減するための適応的コミュニケーション戦略が開発されているが,これらの手法はコミュニケーション範囲を超えたエージェントから有効な情報を得ることはできない。 本稿では,各エージェントが限られた通信範囲を有し,通信トポロジが動的に変化する現実的な通信モデルを考える。 効果的なエージェント通信を容易にするために,適応制御型2ホップ通信(ac2c)と呼ばれる新しい通信プロトコルを提案する。 最初のローカル通信ラウンドの後、ac2cは適応型2ホップ通信戦略を採用し、エージェント間の長距離情報交換を可能にし、通信コントローラによって実装される性能を向上させる。 このコントローラは、各エージェントが2ホップメッセージを要求すべきかどうかを判断し、分散実行時の通信オーバーヘッドを低減するのに役立つ。 本稿では,3つの協調型マルチエージェントタスクにおけるAC2Cの評価を行った。

Learning communication strategies in cooperative multi-agent reinforcement learning (MARL) has recently attracted intensive attention. Early studies typically assumed a fully-connected communication topology among agents, which induces high communication costs and may not be feasible. Some recent works have developed adaptive communication strategies to reduce communication overhead, but these methods cannot effectively obtain valuable information from agents that are beyond the communication range. In this paper, we consider a realistic communication model where each agent has a limited communication range, and the communication topology dynamically changes. To facilitate effective agent communication, we propose a novel communication protocol called Adaptively Controlled Two-Hop Communication (AC2C). After an initial local communication round, AC2C employs an adaptive two-hop communication strategy to enable long-range information exchange among agents to boost performance, which is implemented by a communication controller. This controller determines whether each agent should ask for two-hop messages and thus helps to reduce the communication overhead during distributed execution. We evaluate AC2C on three cooperative multi-agent tasks, and the experimental results show that it outperforms relevant baselines with lower communication costs.
翻訳日:2023-05-25 00:14:53 公開日:2023-05-23
# 大規模言語モデルのための連鎖型アクティブプロンプト

Active Prompting with Chain-of-Thought for Large Language Models ( http://arxiv.org/abs/2302.12246v3 )

ライセンス: Link先を確認
Shizhe Diao, Pengcheng Wang, Yong Lin, Tong Zhang(参考訳) 大規模言語モデル(LLM)の規模が大きくなると、算術や常識推論のような推論を必要とする様々な複雑なタスクに創発的能力がもたらされる。 タスク固有のプロンプトの効果的な設計は、llmsの高品質な答えを生み出す能力にとって重要であることが知られている。 特に、複雑な問合せタスクに対する効果的なアプローチは、LLMの性能を大幅に向上させるチェーン・オブ・シークレット(CoT)推論による例ベースのプロンプトである。 しかし、現在のCoT法は人間に注釈を付けた例の固定セットに依存しており、これは必ずしも異なるタスクの最も効果的な例ではない。 本稿では,タスク固有のサンプルプロンプト(人間設計のCoT推論に注釈を付ける)を用いて,LLMを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。 この目的のために、タスク固有のクエリのプールからアノテートする最も重要で有用な質問を決定するという重要な問題に対する解決策を提案する。 不確実性に基づくアクティブラーニングに関連する問題からアイデアを借用することにより,不確実性を特徴付ける指標をいくつか導入し,最も不確実性のある質問を選択する。 実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。 異なる不確実性指標,プールサイズ,ゼロショット学習,正確性不確実性関係のさらなる分析により,本手法の有効性が示された。 私たちのコードはhttps://github.com/shizhediao/active-promptで利用可能です。

The increasing scale of large language models (LLMs) brings emergent abilities to various complex tasks requiring reasoning, such as arithmetic and commonsense reasoning. It is known that the effective design of task-specific prompts is critical for LLMs' ability to produce high-quality answers. In particular, an effective approach for complex question-and-answer tasks is example-based prompting with chain-of-thought (CoT) reasoning, which significantly improves the performance of LLMs. However, current CoT methods rely on a fixed set of human-annotated exemplars, which are not necessarily the most effective examples for different tasks. This paper proposes a new method, Active-Prompt, to adapt LLMs to different tasks with task-specific example prompts (annotated with human-designed CoT reasoning). For this purpose, we propose a solution to the key problem of determining which questions are the most important and helpful ones to annotate from a pool of task-specific queries. By borrowing ideas from the related problem of uncertainty-based active learning, we introduce several metrics to characterize the uncertainty so as to select the most uncertain questions for annotation. Experimental results demonstrate the superiority of our proposed method, achieving state-of-the-art on eight complex reasoning tasks. Further analyses of different uncertainty metrics, pool sizes, zero-shot learning, and accuracy-uncertainty relationship demonstrate the effectiveness of our method. Our code will be available at https://github.com/shizhediao/active-prompt.
翻訳日:2023-05-25 00:14:08 公開日:2023-05-23
# MultiRobustBench: 複数の攻撃に対するロバスト性のベンチマーク

MultiRobustBench: Benchmarking Robustness Against Multiple Attacks ( http://arxiv.org/abs/2302.10980v2 )

ライセンス: Link先を確認
Sihui Dai, Saeed Mahloujifar, Chong Xiang, Vikash Sehwag, Pin-Yu Chen, Prateek Mittal(参考訳) 敵の例に対する防御に関する既存の研究の多くは、単一の(通常は境界付けられたLp-ノルム)攻撃に対する防御に焦点を当てているが、実際は機械学習(ML)モデルは様々な攻撃に対して堅牢であるべきである。 本稿では,MLモデルに対する多重攻撃を考慮した最初の統一フレームワークを提案する。 我々のフレームワークは、テスト時の敵に対する学習者の知識の異なるレベルをモデル化することができ、予期せぬ攻撃に対する頑健さと攻撃の結合に対する堅牢さをモデル化することができる。 このフレームワークを用いて,攻撃型と攻撃強度をまたいだ性能を捉えるマルチアタック評価のベンチマークを行うための,最初のリーダボードであるmultirobustbenchを提案する。 我々は,lpベースの脅威モデル,空間的変換,色変化を含む9種類の攻撃タイプに対するロバスト性に対する16種類の防御モデルの性能を20種類の攻撃強度(合計180攻撃)で評価した。 さらに、複数の攻撃に対する現在の防御状況を分析する。 我々の分析によると、既存の防御は、使用される攻撃セット全体の平均ロバストネスを進歩させたが、最悪の攻撃に対するロバストネスは依然として大きなオープンな問題であり、既存のすべてのモデルがランダムな推測よりも悪化している。

The bulk of existing research in defending against adversarial examples focuses on defending against a single (typically bounded Lp-norm) attack, but for a practical setting, machine learning (ML) models should be robust to a wide variety of attacks. In this paper, we present the first unified framework for considering multiple attacks against ML models. Our framework is able to model different levels of learner's knowledge about the test-time adversary, allowing us to model robustness against unforeseen attacks and robustness against unions of attacks. Using our framework, we present the first leaderboard, MultiRobustBench, for benchmarking multiattack evaluation which captures performance across attack types and attack strengths. We evaluate the performance of 16 defended models for robustness against a set of 9 different attack types, including Lp-based threat models, spatial transformations, and color changes, at 20 different attack strengths (180 attacks total). Additionally, we analyze the state of current defenses against multiple attacks. Our analysis shows that while existing defenses have made progress in terms of average robustness across the set of attacks used, robustness against the worst-case attack is still a big open problem as all existing models perform worse than random guessing.
翻訳日:2023-05-25 00:13:43 公開日:2023-05-23
# ChatGPT:すべての取引のジャック、何のマスターも

ChatGPT: Jack of all trades, master of none ( http://arxiv.org/abs/2302.10724v2 )

ライセンス: Link先を確認
Jan Koco\'n, Igor Cichecki, Oliwier Kaszyca, Mateusz Kochanek, Dominika Szyd{\l}o, Joanna Baran, Julita Bielaniewicz, Marcin Gruza, Arkadiusz Janz, Kamil Kanclerz, Anna Koco\'n, Bart{\l}omiej Koptyra, Wiktoria Mieleszczenko-Kowszewicz, Piotr Mi{\l}kowski, Marcin Oleksy, Maciej Piasecki, {\L}ukasz Radli\'nski, Konrad Wojtasik, Stanis{\l}aw Wo\'zniak, Przemys{\l}aw Kazienko(参考訳) openaiはチャット生成型事前学習トランスフォーマー(chatgpt)をリリースし、人工知能のヒューマンモデルインタラクションへのアプローチに革命をもたらした。 chatgpt評価に関するいくつかの出版物は、よく知られた自然言語処理(nlp)タスクの有効性をテストする。 しかし、既存の研究はほとんど自動化されておらず、非常に限定的な規模でテストされている。 本研究では,感情分析,感情認識,不快感,姿勢検出など,人間に対しても主観的であった25の多様分析nlpタスクにおけるchatgptの能力について検討した。 対照的に、他のタスクは、言葉感覚の曖昧さ、言語的受容性、質問応答のようなより客観的な推論を必要とする。 NLPタスクの5つのサブセットに対してGPT-4モデルの評価を行った。 われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。 この結果とSOTA(State-of-the-Art)を比較したところ、ChatGPTモデルの平均損失はゼロショットおよび少数ショット評価で約25%であった。 GPT-4モデルでは、意味的タスクの損失はChatGPTよりも大幅に小さい。 その結果、タスク(より低いSOTA性能)が困難であるほど、ChatGPT損失が大きくなることがわかった。 特に感情認識のような現実的なNLP問題を指す。 また,ランダム・コンテクスト・フューショット・パーソナライゼーションにより,選択した主観的タスクに対するChatGPT応答をパーソナライズする機能についても検証した。 さらなる質的分析により、openaiによる人間のトレーナーに課された規則によって、chatgptバイアスが明らかにされた。 本研究は,最近の予測型NLPモデルの高品質化が,ツールの社会への有用性や,そのようなシステムに対する学習・検証手順の確立に寄与するかどうか,基本的な議論の基盤となるものである。

OpenAI has released the Chat Generative Pre-trained Transformer (ChatGPT) and revolutionized the approach in artificial intelligence to human-model interaction. Several publications on ChatGPT evaluation test its effectiveness on well-known natural language processing (NLP) tasks. However, the existing studies are mostly non-automated and tested on a very limited scale. In this work, we examined ChatGPT's capabilities on 25 diverse analytical NLP tasks, most of them subjective even to humans, such as sentiment analysis, emotion recognition, offensiveness, and stance detection. In contrast, the other tasks require more objective reasoning like word sense disambiguation, linguistic acceptability, and question answering. We also evaluated GPT-4 model on five selected subsets of NLP tasks. We automated ChatGPT and GPT-4 prompting process and analyzed more than 49k responses. Our comparison of its results with available State-of-the-Art (SOTA) solutions showed that the average loss in quality of the ChatGPT model was about 25% for zero-shot and few-shot evaluation. For GPT-4 model, a loss for semantic tasks is significantly lower than for ChatGPT. We showed that the more difficult the task (lower SOTA performance), the higher the ChatGPT loss. It especially refers to pragmatic NLP problems like emotion recognition. We also tested the ability to personalize ChatGPT responses for selected subjective tasks via Random Contextual Few-Shot Personalization, and we obtained significantly better user-based predictions. Additional qualitative analysis revealed a ChatGPT bias, most likely due to the rules imposed on human trainers by OpenAI. Our results provide the basis for a fundamental discussion of whether the high quality of recent predictive NLP models can indicate a tool's usefulness to society and how the learning and validation procedures for such systems should be established.
翻訳日:2023-05-25 00:13:20 公開日:2023-05-23
# グラフニューラルネットワークが小さなデータセットから動脈速度推定を学習するSE(3)対称性

SE(3) symmetry lets graph neural networks learn arterial velocity estimation from small datasets ( http://arxiv.org/abs/2302.08780v2 )

ライセンス: Link先を確認
Julian Suk, Christoph Brune, Jelmer M. Wolterink(参考訳) 冠動脈血行動態は,心臓血管疾患の診断,予後,治療計画に有用なバイオマーカーの基礎となる可能性がある。 速度場は通常、計算流体力学(CFD)を用いて患者固有の3D動脈モデルから得られる。 しかしcfdシミュレーションは専門家による細心の注意が必要であり、時間を要するため、臨床実践の大規模受容を妨げる。 そこで我々は, グラフニューラルネットワーク (GNN) を効率的なブラックボックスサロゲート法として提案し, 動脈腔の四面体メッシュの頂点にマッピングされた3次元速度場を推定する。 我々はこれらのGNNを合成動脈モデルとCFDに基づく地上真理速度場に基づいて訓練する。 GNNのトレーニングが完了すると、CFDと比較して36倍のスピードアップで、新しい未知の動脈の速度推定値が得られる。 本稿では,入力メッシュの空間方向とは無関係なse(3)同値gnnの構築方法を示し,ベースラインニューラルネットワークと比較して,必要なトレーニングデータ量を削減する方法を示す。

Hemodynamic velocity fields in coronary arteries could be the basis of valuable biomarkers for diagnosis, prognosis and treatment planning in cardiovascular disease. Velocity fields are typically obtained from patient-specific 3D artery models via computational fluid dynamics (CFD). However, CFD simulation requires meticulous setup by experts and is time-intensive, which hinders large-scale acceptance in clinical practice. To address this, we propose graph neural networks (GNN) as an efficient black-box surrogate method to estimate 3D velocity fields mapped to the vertices of tetrahedral meshes of the artery lumen. We train these GNNs on synthetic artery models and CFD-based ground truth velocity fields. Once the GNN is trained, velocity estimates in a new and unseen artery can be obtained with 36-fold speed-up compared to CFD. We demonstrate how to construct an SE(3)-equivariant GNN that is independent of the spatial orientation of the input mesh and show how this reduces the necessary amount of training data compared to a baseline neural network.
翻訳日:2023-05-25 00:12:49 公開日:2023-05-23
# ベイズ混合効果と事前学習言語モデルを用いたl2前置学習の再検討

Reanalyzing L2 Preposition Learning with Bayesian Mixed Effects and a Pretrained Language Model ( http://arxiv.org/abs/2302.08150v2 )

ライセンス: Link先を確認
Jakob Prange and Man Ho Ivy Wong(参考訳) ベイジアンモデルとニューラルモデルの両方を用いて,英語前置詞の理解度を測定する2つのテストに対して,中国語学習者の介入前および介入後反応のデータセットを解析した。 その結果, 学生の能力, 課題タイプ, 刺激文間の重要な相互作用が新たに明らかになった。 ベイジアン法は, 学習者間でのデータのばらつきや多様性が高いことから, 言語モデルの確率を文法的・学習可能性の予測因子として用いる可能性も高い。

We use both Bayesian and neural models to dissect a data set of Chinese learners' pre- and post-interventional responses to two tests measuring their understanding of English prepositions. The results mostly replicate previous findings from frequentist analyses and newly reveal crucial interactions between student ability, task type, and stimulus sentence. Given the sparsity of the data as well as high diversity among learners, the Bayesian method proves most useful; but we also see potential in using language model probabilities as predictors of grammaticality and learnability.
翻訳日:2023-05-25 00:12:34 公開日:2023-05-23
# 多くの量子の民間統計的推定

Private Statistical Estimation of Many Quantiles ( http://arxiv.org/abs/2302.06943v2 )

ライセンス: Link先を確認
Cl\'ement Lalanne (ENS de Lyon, DANTE, OCKHAM), Aur\'elien Garivier (UMPA-ENSL, MC2), R\'emi Gribonval (DANTE, OCKHAM)(参考訳) 本研究は、微分プライバシー下での多くの統計量体の推定を考察する。 より正確には、その分布とi.d.サンプルへのアクセスが与えられたとき、特定の点における累積分布関数(量子関数)の逆関数の推定について検討する。 例えば、このタスクはプライベートデータ生成において重要なものです。 我々は2つの異なるアプローチを示す。 1つ目は、サンプルの経験的量子化をプライベートに推定し、この結果を用いて分布の量子化を推定することである。 特に,Kaplanらによって導入された最近発表されたアルゴリズムの統計的性質について検討する。 第二のアプローチは、ある間隔における量子関数を均一に推定するために密度推定の手法を使用することである。 特に、2つのメソッドの間にトレードオフがあることを示します。 多くの分位関数を推定したい場合、特定の点における分位関数を推定するよりも密度を推定する方がよい。

This work studies the estimation of many statistical quantiles under differential privacy. More precisely, given a distribution and access to i.i.d. samples from it, we study the estimation of the inverse of its cumulative distribution function (the quantile function) at specific points. For instance, this task is of key importance in private data generation. We present two different approaches. The first one consists in privately estimating the empirical quantiles of the samples and using this result as an estimator of the quantiles of the distribution. In particular, we study the statistical properties of the recently published algorithm introduced by Kaplan et al. 2022 that privately estimates the quantiles recursively. The second approach is to use techniques of density estimation in order to uniformly estimate the quantile function on an interval. In particular, we show that there is a tradeoff between the two methods. When we want to estimate many quantiles, it is better to estimate the density rather than estimating the quantile function at specific points.
翻訳日:2023-05-25 00:12:25 公開日:2023-05-23
# オフラインメタRLにおけるタスク表現学習における文脈分布シフトについて

On Context Distribution Shift in Task Representation Learning for Offline Meta RL ( http://arxiv.org/abs/2304.00354v2 )

ライセンス: Link先を確認
Chenyang Zhao, Zihao Zhou, Bin Liu(参考訳) オフラインメタ強化学習(OMRL)は、オフラインデータセットから転送可能な知識を学び、新しいターゲットタスクの学習プロセスを強化することを目的としている。 context-based reinforcement learning(rl)はコンテキストエンコーダを採用し、タスク表現を推論してエージェントを新しいタスクに即応させ、この推論された表現に基づいてポリシーを調整する。 本研究では,OMRLにおけるタスク表現学習の課題を中心に,文脈に基づくOMRLに注目した。 オフラインデータセットでトレーニングされたコンテキストエンコーダが、トレーニングとテストに使用されるコンテキスト間の分散シフトに遭遇する可能性を実証する実験を行う。 この問題を解決するために,ロバストなタスクコンテキストエンコーダをトレーニングするハードサンプリングベースの戦略を提案する。 連続制御タスクの多種多様な実験結果から,本手法の活用は,ベースライン法と比較して,より堅牢なタスク表現と,累積リターンによるテスト性能をもたらすことが明らかとなった。 私たちのコードはhttps://github.com/ZJLAB-AMMI/HS-OMRLで公開されています。

Offline Meta Reinforcement Learning (OMRL) aims to learn transferable knowledge from offline datasets to enhance the learning process for new target tasks. Context-based Reinforcement Learning (RL) adopts a context encoder to expediently adapt the agent to new tasks by inferring the task representation, and then adjusting the policy based on this inferred representation. In this work, we focus on context-based OMRL, specifically on the challenge of learning task representation for OMRL. We conduct experiments that demonstrate that the context encoder trained on offline datasets might encounter distribution shift between the contexts used for training and testing. To overcome this problem, we present a hard-sampling-based strategy to train a robust task context encoder. Our experimental findings on diverse continuous control tasks reveal that utilizing our approach yields more robust task representations and better testing performance in terms of accumulated returns compared to baseline methods. Our code is available at https://github.com/ZJLAB-AMMI/HS-OMRL.
翻訳日:2023-05-25 00:06:53 公開日:2023-05-23
# GlyphDraw: テキスト・画像生成における複雑な空間構造を持つシームレスレンダリングテキスト

GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures in Text-to-Image Generation ( http://arxiv.org/abs/2303.17870v2 )

ライセンス: Link先を確認
Jian Ma, Mingjun Zhao, Chen Chen, Ruichen Wang, Di Niu, Haonan Lu, Xiaodong Lin(参考訳) 近年の言語誘導画像生成の分野におけるブレークスルーは、ユーザ指示に基づく高品質・多彩な画像作成を可能にしている。合成性能は興味深いが、現在の画像生成モデルの重要な制限は、画像内で、特に漢字のような複雑なグリフ構造に対して、テキストを一貫性を持って生成する能力の不足である。 To address this problem, we introduce GlyphDraw, a general learning framework aiming to endow image generation models with the capacity to generate images coherently embedded with text for any specific language.We first sophisticatedly design the image-text dataset's construction strategy, then build our model specifically on a diffusion-based image generator and carefully modify the network structure to allow the model to learn drawing language characters with the help of glyph and position information.Furthermore, we maintain the model's open-domain image synthesis capability by preventing catastrophic forgetting by using parameter-efficient fine-tuning techniques.Extensive qualitative and quantitative experiments demonstrate that our method not only produces accurate language characters as in prompts, but also seamlessly blends the generated text into the background.Please refer to our \href{https://1073521013.github.io/glyph-draw.github.io/}{project page}. \end{abstract}

Recent breakthroughs in the field of language-guided image generation have yielded impressive achievements, enabling the creation of high-quality and diverse images based on user instructions.Although the synthesis performance is fascinating, one significant limitation of current image generation models is their insufficient ability to generate text coherently within images, particularly for complex glyph structures like Chinese characters. To address this problem, we introduce GlyphDraw, a general learning framework aiming to endow image generation models with the capacity to generate images coherently embedded with text for any specific language.We first sophisticatedly design the image-text dataset's construction strategy, then build our model specifically on a diffusion-based image generator and carefully modify the network structure to allow the model to learn drawing language characters with the help of glyph and position information.Furthermore, we maintain the model's open-domain image synthesis capability by preventing catastrophic forgetting by using parameter-efficient fine-tuning techniques.Extensive qualitative and quantitative experiments demonstrate that our method not only produces accurate language characters as in prompts, but also seamlessly blends the generated text into the background.Please refer to our \href{https://1073521013.github.io/glyph-draw.github.io/}{project page}. \end{abstract}
翻訳日:2023-05-25 00:06:34 公開日:2023-05-23
# 石炭柱安定度分類のためのニューラルネットワークバックプロパゲーション(ANN-BP)アーキテクチャのアンサンブル学習モデル

Ensemble Learning Model on Artificial Neural Network-Backpropagation (ANN-BP) Architecture for Coal Pillar Stability Classification ( http://arxiv.org/abs/2303.16524v2 )

ライセンス: Link先を確認
G. Aileen Mendrofa, Gatot Fatwanto Hertono, Bevina Desjwiandara Handari(参考訳) 柱は地下ハードロック鉱山の鉱業安全を確保するために使用される重要な構造単位である。 そのため,地下柱の安定性に関する正確な予測が必要である。 柱の安定性を評価するのによく使われる指標は安全因子(SF)である。 残念なことに、SFを用いた柱安定性評価におけるこのような鮮明な境界は信頼できない。 本稿では,ニューラルネットワーク-バックプロパゲーション(ANN-BP)とDeep Ensemble Learningの柱安定性分類への応用について述べる。 ANN-BP ReLU, ANN-BP ELU, ANN-BP GELUの3種類がある。 本研究は、SFに対する適合性を考慮して、柱安定性のための新しいラベリング代替案を提案する。 これにより、柱の安定性は、適切な安全要因で失敗し、適切な安全要素で失敗し、適切な安全要素で失敗し、適切な安全要素なくして、4つのカテゴリに拡張される。 各モデルに使用される入力は、柱幅、鉱業高さ、ボード幅、深さと床、および比率の5つである。 その結果、アンサンブルラーニングを用いたANN-BPモデルでは、平均精度86.48%、F_2スコア96.35%のANN-BP性能が向上し、適切な安全因子が与えられた。

Pillars are important structural units used to ensure mining safety in underground hard rock mines. Therefore, precise predictions regarding the stability of underground pillars are required. One common index that is often used to assess pillar stability is the Safety Factor (SF). Unfortunately, such crisp boundaries in pillar stability assessment using SF are unreliable. This paper presents a novel application of Artificial Neural Network-Backpropagation (ANN-BP) and Deep Ensemble Learning for pillar stability classification. There are three types of ANN-BP used for the classification of pillar stability distinguished by their activation functions: ANN-BP ReLU, ANN-BP ELU, and ANN-BP GELU. This research also presents a new labeling alternative for pillar stability by considering its suitability with the SF. Thus, pillar stability is expanded into four categories: failed with a suitable safety factor, intact with a suitable safety factor, failed without a suitable safety factor, and intact without a suitable safety factor. There are five inputs used for each model: pillar width, mining height, bord width, depth to floor, and ratio. The results showed that the ANN-BP model with Ensemble Learning could improve ANN-BP performance with an average accuracy of 86.48% and an F_2-score of 96.35% for the category of failed with a suitable safety factor.
翻訳日:2023-05-25 00:06:14 公開日:2023-05-23
# グラフニューラルネットワークの事前トレーニングはいつか? データ生成の観点から!

When to Pre-Train Graph Neural Networks? From Data Generation Perspective! ( http://arxiv.org/abs/2303.16458v3 )

ライセンス: Link先を確認
Yuxuan Cao, Jiarong Xu, Carl Yang, Jiaan Wang, Yunchao Zhang, Chunping Wang, Lei Chen, Yang Yang(参考訳) 近年,ラベルのないグラフデータから転送可能な知識を取得し,ダウンストリームのパフォーマンスを向上させることを中心に,グラフ事前学習が注目されている。 このような最近の取り組みにもかかわらず、グラフ事前学習されたモデルをダウンストリームタスクに利用する場合、負の転送の問題が大きな関心事となっている。 これまでの研究では、さまざまなグラフ事前トレーニングと微調整戦略を設計することで、事前トレーニングの方法と事前トレーニングの方法という課題に多大な努力を払った。 しかし、最も先進的な"事前訓練と微調整"のパラダイムでさえ、明確な利益を得られないケースもある。 本稿では,事前トレーニングや微調整を行う前に,事前トレーニングをいつ行うか(つまり,どのような状況でグラフ事前トレーニングを活用できるか)という重要な質問に答える汎用フレームワークw2pgnnを紹介する。 まず,新しい視点から,事前学習データから下流データへの複雑な生成メカニズムを探索する。 特に、w2pgnnは、まず事前トレーニングされたデータをgraphonベースに適合させ、graphon基底(すなわちgraphon)の各要素は、事前トレーニングされたグラフの集合によって共有される基本的な転送可能なパターンを識別する。 グラフェン塩基のすべての凸結合は生成空間を生じさせ、そこから生成されたグラフは、事前学習の恩恵を受ける下流データのための解空間を形成する。 これにより、発電機空間内の任意の発電機からの下流データの生成確率として事前学習の実現可能性を定量化することができる。 W2PGNNは、グラフ事前トレーニングモデルの適用範囲の提供、事前トレーニングの実現可能性の定量化、下流のパフォーマンスを高めるために事前トレーニングデータを選択する支援の3つの幅広いアプリケーションを提供している。 最初の応用に対する理論的に健全な解と後者の2つの応用に対する広範な経験的正当化を提供する。

In recent years, graph pre-training has gained significant attention, focusing on acquiring transferable knowledge from unlabeled graph data to improve downstream performance. Despite these recent endeavors, the problem of negative transfer remains a major concern when utilizing graph pre-trained models to downstream tasks. Previous studies made great efforts on the issue of what to pre-train and how to pre-train by designing a variety of graph pre-training and fine-tuning strategies. However, there are cases where even the most advanced "pre-train and fine-tune" paradigms fail to yield distinct benefits. This paper introduces a generic framework W2PGNN to answer the crucial question of when to pre-train (i.e., in what situations could we take advantage of graph pre-training) before performing effortful pre-training or fine-tuning. We start from a new perspective to explore the complex generative mechanisms from the pre-training data to downstream data. In particular, W2PGNN first fits the pre-training data into graphon bases, each element of graphon basis (i.e., a graphon) identifies a fundamental transferable pattern shared by a collection of pre-training graphs. All convex combinations of graphon bases give rise to a generator space, from which graphs generated form the solution space for those downstream data that can benefit from pre-training. In this manner, the feasibility of pre-training can be quantified as the generation probability of the downstream data from any generator in the generator space. W2PGNN offers three broad applications: providing the application scope of graph pre-trained models, quantifying the feasibility of pre-training, and assistance in selecting pre-training data to enhance downstream performance. We provide a theoretically sound solution for the first application and extensive empirical justifications for the latter two applications.
翻訳日:2023-05-25 00:05:49 公開日:2023-05-23
# Google, ChatGPT, Wikipedia, YouTubeにおける言語バイアスの調査

A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube ( http://arxiv.org/abs/2303.16281v2 )

ライセンス: Link先を確認
Queenie Luo, Michael J. Puett, Michael D. Smith(参考訳) グーグル検索が「世界を理解するために多くの角度」から情報を提供するというミッションとは対照的に、グーグルとその最も著名な検索結果であるwikipediaとyoutubeは、単に「仏教」、「リベラル主義」、「植民地化」、「イラン」、「アメリカ」といった複雑なトピックの検索言語に結びついた、限られた文化的ステレオタイプを反映している。 簡単に言えば、異なる言語で同じ検索で異なる異なる情報を提示し、それは私たちが「言語バイアス」と呼ぶ現象である。 本稿では,言語バイアスのエビデンスと分析を行い,その社会的意味について論じる。 複雑なトピックのグローバルなイメージを提示する代わりに、オンライン検索やChatGPTのような新しいツールによって、他の文化的視点の存在に無関係に、象の小さな部分に触れるまじめな盲人になるのです。 象を写実的に描写することは、人文科学と技術の両方の学者による協力を必要とする、挑戦的で重要な取り組みである。

Contrary to Google Search's mission of delivering information from "many angles so you can form your own understanding of the world," we find that Google and its most prominent returned results - Wikipedia and YouTube - simply reflect a narrow set of cultural stereotypes tied to the search language for complex topics like "Buddhism," "Liberalism," "colonization," "Iran" and "America." Simply stated, they present, to varying degrees, distinct information across the same search in different languages, a phenomenon we call 'language bias.' This paper presents evidence and analysis of language bias and discusses its larger social implications. Instead of presenting a global picture of a complex topic, our online searches and emerging tools like ChatGPT turn us into the proverbial blind person touching a small portion of an elephant, ignorant of the existence of other cultural perspectives. Piecing together a genuine depiction of the elephant is a challenging and important endeavor that will require collaborative efforts from scholars in both the humanities and technology.
翻訳日:2023-05-25 00:05:20 公開日:2023-05-23
# 動詞-副詞関係の測定による学習行動の変化

Learning Action Changes by Measuring Verb-Adverb Textual Relationships ( http://arxiv.org/abs/2303.15086v2 )

ライセンス: Link先を確認
Davide Moltisanti, Frank Keller, Hakan Bilen, Laura Sevilla-Lara(参考訳) この研究の目的は、ビデオでのアクションの実行方法を理解することです。 つまり、ビデオが与えられた場合、その動作に適用される修正を示す副詞(例えば「きめ細かい」カット)を予測しようとする。 我々はこの問題を回帰課題とみなした。 我々は,動詞と副詞間のテキスト関係を計測し,学習対象とする行動変化を表す回帰目標を生成する。 我々は,このアプローチを様々なデータセット上でテストし,adverb予測と対義語分類の両方において最先端の結果を得る。 さらに、テスト中にアクションラベルが利用可能であることと、副詞を対語としてペアリングすることの2つの一般的な仮定条件を持ち上げることで、以前の作業よりも優れています。 既存の副詞認識用データセットはノイズがあり、学習が困難になるか、外観が副詞の影響を受けない動作を含むため、評価の信頼性が低下する。 これに対処するために、私たちは新しい高品質データセット、adverbs in recipes (air)を収集します。 我々は,授業用レシピビデオに着目し,異なる実行時の視覚的な変化を示す一連のアクションをキュレートする。 AIRのビデオはよりトリミングされ、複数のアノテーションによって手動でレビューされ、高いラベリング品質が保証された。 結果は、よりクリーンなビデオから、モデルがAIRからより良く学習できることを示しています。 同時に、AIRの副詞予測は困難で、改善の余地がかなりあることを実証しています。

The goal of this work is to understand the way actions are performed in videos. That is, given a video, we aim to predict an adverb indicating a modification applied to the action (e.g. cut "finely"). We cast this problem as a regression task. We measure textual relationships between verbs and adverbs to generate a regression target representing the action change we aim to learn. We test our approach on a range of datasets and achieve state-of-the-art results on both adverb prediction and antonym classification. Furthermore, we outperform previous work when we lift two commonly assumed conditions: the availability of action labels during testing and the pairing of adverbs as antonyms. Existing datasets for adverb recognition are either noisy, which makes learning difficult, or contain actions whose appearance is not influenced by adverbs, which makes evaluation less reliable. To address this, we collect a new high quality dataset: Adverbs in Recipes (AIR). We focus on instructional recipes videos, curating a set of actions that exhibit meaningful visual changes when performed differently. Videos in AIR are more tightly trimmed and were manually reviewed by multiple annotators to ensure high labelling quality. Results show that models learn better from AIR given its cleaner videos. At the same time, adverb prediction on AIR is challenging, demonstrating that there is considerable room for improvement.
翻訳日:2023-05-25 00:04:55 公開日:2023-05-23
# DeltaScore: 摂動によるストーリ評価

DeltaScore: Story Evaluation with Perturbations ( http://arxiv.org/abs/2303.08991v3 )

ライセンス: Link先を確認
Zhuohan Xie, Miao Li, Trevor Cohn and Jey Han Lau(参考訳) 自然言語生成タスクに対しては,多くの評価指標が開発されているが,その有効性は,流布や面白さといった複雑なストーリーの側面を評価するのに特に適していないため,限定されている。 本稿では,摂動を利用した物語の微粒化評価手法であるDeltascoreを提案する。 私たちの核となる仮説は、ストーリーが特定の側面(例えば、フルエンシ)でパフォーマンスが向上すればするほど、特定の摂動(例えば、タイプミスの導入)によって影響を受けるというものです。 影響を測定するために,大規模な事前学習言語モデルを用いて,事前摂動と後摂動の‘textit{likelihood difference’を計算する。 我々はDeltascoreを2つのストーリー領域にまたがる一連の現在の指標に対して評価し、その5つのきめ細かなストーリー側面(流布、コヒーレンス、関連性、論理性、面白さ)における人間の判断との相関について検討する。 Deltascoreは非常に強力に動作し、1つの特定の摂動が複数の側面を捉えるのに非常にうまく働くという驚きの観察を行った。

Numerous evaluation metrics have been developed for natural language generation tasks but their effectiveness in evaluating stories is limited as they are not specifically tailored to assess intricate story aspects such as fluency and interestingness. In this paper, we propose Deltascore, an approach that utilizes perturbation to evaluate fine-grained story aspects. Our core hypothesis is that the better the story performs in a specific aspect (e.g., fluency), the more it will be affected by a particular perturbation (e.g., introducing typos). To measure the impact, we calculate the \textit{likelihood difference} between the pre- and post-perturbation using large pre-trained language models. We evaluate Deltascore against a suite of current metrics across two story domains, and investigate its correlation with human judgments on five fine-grained story aspects: fluency, coherence, relatedness, logicality, and interestingness. Deltascore performs very strongly, with a surprise observation that one particular perturbation works very well for capturing multiple aspects.
翻訳日:2023-05-25 00:04:17 公開日:2023-05-23
# NESS: 静的サブグラフからのノード埋め込み

NESS: Node Embeddings from Static SubGraphs ( http://arxiv.org/abs/2303.08958v2 )

ライセンス: Link先を確認
Talip Ucar(参考訳) 本稿では,グラフオートエンコーダ(GAE)を用いて静的サブグラフ(NESS)からノード埋め込みをトランスダクティブに学習するフレームワークを提案する。 NESSは2つの主要なアイデアに基づいている。 一 データの前処理中にランダムエッジ分割を用いて、重複しないエッジを持つ複数の静的スパース部分グラフにトレーニンググラフを分割すること。 二 各部分グラフから学んだノード表現を集約して、試験時にグラフの合同表現を得ること。 さらに,トランスダクティブ・セッティングにおいて,任意のコントラスト学習手法を提案する。 nessは,グラフ全体あるいは確率的部分グラフを使用する現在の自動エンコーディング手法と比較して,リンク予測タスクに優れたノード表現を与えることを示す。 実験により,NESSは多種多様なグラフエンコーダの性能を向上し,強いヘテロフィリーから強いホモフィリーまでのエッジホモフィリー比を持つ実世界の複数のデータセットのリンク予測を行う。

We present a framework for learning Node Embeddings from Static Subgraphs (NESS) using a graph autoencoder (GAE) in a transductive setting. NESS is based on two key ideas: i) Partitioning the training graph to multiple static, sparse subgraphs with non-overlapping edges using random edge split during data pre-processing, ii) Aggregating the node representations learned from each subgraph to obtain a joint representation of the graph at test time. Moreover, we propose an optional contrastive learning approach in transductive setting. We demonstrate that NESS gives a better node representation for link prediction tasks compared to current autoencoding methods that use either the whole graph or stochastic subgraphs. Our experiments also show that NESS improves the performance of a wide range of graph encoders and achieves state-of-the-art results for link prediction on multiple real-world datasets with edge homophily ratio ranging from strong heterophily to strong homophily.
翻訳日:2023-05-25 00:03:57 公開日:2023-05-23
# 非古典性のランダム性フリーテスト:概念実証

Randomness-free Test of Non-classicality: a Proof of Concept ( http://arxiv.org/abs/2303.06990v2 )

ライセンス: Link先を確認
Zhonghua Ma, Markus Rambach, Kaumudibikash Goswami, Some Sankar Bhattacharya, Manik Banik, and Jacquiline Romero(参考訳) 量子相関と非射影測定は、古典世界では不可能な多くの情報理論的なタスクをもたらす。 このような非古典的資源をデバイスに依存しない方法で証明するための既存のスキームは、多成分量子システムの異なる部分で実行される局所的な測定を選択するために、しばしばコストがかかり、ホールホールに対して脆弱なシードランダム性を必要とする。 本稿では、シードランダム性のない量子相関および非射影測定のための半デバイス独立認証手法を提案し、実験的に実装する。 我々のテストは、部品の寸法の事前知識のみを必要とするという意味では、半デバイス独立である。 横方向の空間モードで絡み合った一対の光子から特定の相関コインを生成することにより、相関コイントスティングにおいて新しい量子優位性を実験的に示す。 この利点は、絡み合った光子から得られる相関コインが、2つの2段階の古典相関硬貨からは得られないことを示すことである。 量子アドバンテージは、絡み合う対の各部分で量子ビットトリイン正の演算子値測度(povm)を実行する必要があるため、そのようなpovmを半デバイスに依存しない方法で証明する。 この概念の証明は、非古典的共有ランダム性を生成し、将来のマルチパーティ量子通信において重要となる非古典的測定を実装することによって、新しいコスト効率の証明技術を確立している。

Quantum correlations and non-projective measurements underlie a plethora of information-theoretic tasks, otherwise impossible in the classical world. Existing schemes to certify such non-classical resources in a device-independent manner require seed randomness -- which is often costly and vulnerable to loopholes -- for choosing the local measurements performed on different parts of a multipartite quantum system. In this letter, we propose and experimentally implement a semi-device independent certification technique for both quantum correlations and non-projective measurements without seed randomness. Our test is {\it semi-device independent} in the sense that it requires only prior knowledge of the dimension of the parts. By producing specific correlated coins from pairs of photons entangled in their transverse spatial modes we experimentally show a novel quantum advantage in correlated coin tossing. We establish the advantage by showing that the correlated coin procured from the entangled photons cannot be obtained from any two 2-level classical correlated coins. The quantum advantage requires performing qubit trine positive operator-valued measures (POVMs) on each part of the entangled pair, thus also certifying such POVMs in a semi-device-independent manner. This proof of concept firmly establishes a new cost-effective certification technique for both, generating non-classical shared randomness and implementing non-classical measurements which will be important for future multi-party quantum communications.
翻訳日:2023-05-25 00:03:44 公開日:2023-05-23
# 画像間変換のためのスペクトル正規化デュアルコントラスト正規化

Spectral Normalized Dual Contrastive Regularization for Image-to-Image Translation ( http://arxiv.org/abs/2304.11319v2 )

ライセンス: Link先を確認
Chen Zhao, Wei-Ling Cai, Zheng Yuan(参考訳) 既存のイメージ・ツー・イメージ(i2i)翻訳手法は,パッチ単位でのコントラスト学習を生成的敵ネットワークに組み込むことで,最先端のパフォーマンスを実現している。 しかしながら、パッチによるコントラスト学習は局所的なコンテンツの類似性のみに焦点を当てるが、生成された画像の品質に影響を与えるグローバル構造制約を無視する。 本稿では,2つのコントラスト正規化とスペクトル正規化に基づく新しい非ペアI2I翻訳フレームワーク,SN-DCRを提案する。 グローバルな構造とテクスチャの整合性を維持するため,異なる深層特徴空間を用いて2つのコントラスト正規化を設計する。 生成した画像のグローバルな構造情報を改善するため,意味的特徴空間における対象領域の実際の画像と類似した生成画像のグローバルな意味構造を構築するために,意味的コントラスト的損失を定式化する。 画像からテクスチャのスタイルを抽出するためにGram Matricesを使用します。 同様に、生成画像のグローバルテクスチャ情報を改善するために、スタイルコントラストロスを設計する。 さらに,モデルの安定性を高めるため,スペクトル正規化畳み込みネットワークを発生器の設計に用いた。 SN-DCRの有効性を評価するための総合実験を行い,本手法が複数のタスクにおいてSOTAを実現することを示す。

Existing image-to-image (I2I) translation methods achieve state-of-the-art performance by incorporating the patch-wise contrastive learning into Generative Adversarial Networks. However, patch-wise contrastive learning only focuses on the local content similarity but neglects the global structure constraint, which affects the quality of the generated images. In this paper, we propose a new unpaired I2I translation framework based on dual contrastive regularization and spectral normalization, namely SN-DCR. To maintain consistency of the global structure and texture, we design the dual contrastive regularization using different deep feature spaces respectively. In order to improve the global structure information of the generated images, we formulate a semantically contrastive loss to make the global semantic structure of the generated images similar to the real images from the target domain in the semantic feature space. We use Gram Matrices to extract the style of texture from images. Similarly, we design style contrastive loss to improve the global texture information of the generated images. Moreover, to enhance the stability of model, we employ the spectral normalized convolutional network in the design of our generator. We conduct the comprehensive experiments to evaluate the effectiveness of SN-DCR, and the results prove that our method achieves SOTA in multiple tasks.
翻訳日:2023-05-24 23:56:48 公開日:2023-05-23
# ChatGPT時代の責任AIに向けて:基礎モデルベースAIシステム設計のための参照アーキテクチャ

Towards Responsible AI in the Era of ChatGPT: A Reference Architecture for Designing Foundation Model-based AI Systems ( http://arxiv.org/abs/2304.11090v2 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Zhenchang Xing, Jon Whittle(参考訳) ChatGPT、Bard、およびその他のLLMベースのチャットボットのリリースは、世界中の基礎モデルに大きな注目を集めている。 ファウンデーションモデルが、将来のほとんどのaiシステムの基本的なビルディングブロックとして機能する傾向が強まっている。 しかし、基礎モデルをAIシステムに組み込むことは、ブラックボックスの性質と急速に進歩する超知能のため、責任あるAIに対して重大な懸念を提起する。 さらに、基盤モデルの能力拡大は、最終的にはaiシステムの他のコンポーネントを吸収し、アーキテクチャ設計における移動境界とインターフェース進化の課題を導入する。 これらの課題に対処するために,本研究では,基礎モデルに基づくAIシステムを設計するための,パターン指向のAI設計参照アーキテクチャを提案する。 具体的には,基礎モデル時代におけるAIシステムのアーキテクチャ進化を,"境界モデル・アズ・ア・コネクタ"から"境界モデル・ア・モノリシックアーキテクチャ"まで提示する。 そして、この論文は重要な設計決定ポイントを特定し、新しいアーキテクチャの進化とAIの課題に対処するために、再利用可能なAIバイデザインアーキテクチャソリューションを提供するパターン指向参照アーキテクチャを提案する。 これらのパターンは、ファンデーションモデルベースのAIシステムの製品機能として組み込むことができ、組織がファンデーションモデルの可能性に乗じながら、関連するリスクを最小限にすることができる。

The release of ChatGPT, Bard, and other large language model (LLM)-based chatbots has drawn huge attention on foundations models worldwide. There is a growing trend that foundation models will serve as the fundamental building blocks for most of the future AI systems. However, incorporating foundation models in AI systems raises significant concerns about responsible AI due to their black box nature and rapidly advancing super-intelligence. Additionally, the foundation model's growing capabilities can eventually absorb the other components of AI systems, introducing the moving boundary and interface evolution challenges in architecture design. To address these challenges, this paper proposes a pattern-oriented responsible-AI-by-design reference architecture for designing foundation model-based AI systems. Specially, the paper first presents an architecture evolution of AI systems in the era of foundation models, from "foundation-model-as-a-connector" to "foundation-model-as-a-monolithic architecture". The paper then identifies the key design decision points and proposes a pattern-oriented reference architecture to provide reusable responsible-AI-by-design architectural solutions to address the new architecture evolution and responsible AI challenges. The patterns can be embedded as product features of foundation model-based AI systems and can enable organisations to capitalise on the potential of foundation models while minimising associated risks.
翻訳日:2023-05-24 23:56:23 公開日:2023-05-23
# 逆赤外線ブロック:物理世界の複数の角度における熱赤外検出器に対するブラックボックス攻撃

Adversarial Infrared Blocks: A Black-box Attack to Thermal Infrared Detectors at Multiple Angles in Physical World ( http://arxiv.org/abs/2304.10712v2 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi, Tingsong Jiang, Wen Yao, Ling Tian, Xiaoqian Chen(参考訳) 赤外線イメージングシステムは歩行者検出や自動運転に多くの応用可能性があり、その安全性は大きな関心事となっている。 しかし、実世界における赤外線イメージングシステムの安全性を探求する研究はほとんどない。 これまでの研究では、小さな電球や熱的なQRコードなどの物理的摂動を利用して赤外線イメージング検出器を攻撃してきたが、そのような手法は見えやすく、ステルス性に欠けていた。 他の研究者は赤外線イメージング検出器を騙すために熱いブロックや冷たいブロックを使っているが、この方法は様々な角度から攻撃を行う能力に限られている。 これらの欠点に対処するために,逆赤外線ブロック(AdvIB)と呼ばれる新しい物理的攻撃を提案する。 逆赤外ブロックの物理パラメータを最適化することにより、様々な角度から熱画像システムに対するステルスブラックボックス攻撃を実行することができる。 提案手法の有効性,ステルス性,堅牢性に基づいて評価を行った。 提案手法は,ほとんどの距離および角度条件下で80%以上の成功率を達成し,その有効性を検証した。 ステルス性には,赤外線ブロックを衣服の内側に装着し,そのステルス性を高めることが必要である。 さらに, 提案手法を先進検出器で試験し, 実験結果から平均攻撃成功率51.2%を示し, その堅牢性を示した。 全体として,提案するadvib手法は,実世界の安全とセキュリティに潜在的に影響するサーマルイメージングシステムに対して,ステルスで効果的で堅牢なブラックボックス攻撃を行うための有望な手段を提供する。

Infrared imaging systems have a vast array of potential applications in pedestrian detection and autonomous driving, and their safety performance is of great concern. However, few studies have explored the safety of infrared imaging systems in real-world settings. Previous research has used physical perturbations such as small bulbs and thermal "QR codes" to attack infrared imaging detectors, but such methods are highly visible and lack stealthiness. Other researchers have used hot and cold blocks to deceive infrared imaging detectors, but this method is limited in its ability to execute attacks from various angles. To address these shortcomings, we propose a novel physical attack called adversarial infrared blocks (AdvIB). By optimizing the physical parameters of the adversarial infrared blocks, this method can execute a stealthy black-box attack on thermal imaging system from various angles. We evaluate the proposed method based on its effectiveness, stealthiness, and robustness. Our physical tests show that the proposed method achieves a success rate of over 80% under most distance and angle conditions, validating its effectiveness. For stealthiness, our method involves attaching the adversarial infrared block to the inside of clothing, enhancing its stealthiness. Additionally, we test the proposed method on advanced detectors, and experimental results demonstrate an average attack success rate of 51.2%, proving its robustness. Overall, our proposed AdvIB method offers a promising avenue for conducting stealthy, effective and robust black-box attacks on thermal imaging system, with potential implications for real-world safety and security applications.
翻訳日:2023-05-24 23:55:59 公開日:2023-05-23
# 付加磁場と有効負温度による量子オットーエンジンの高効率化

Enhanced efficiency in quantum Otto engine via additional magnetic field and effective negative temperature ( http://arxiv.org/abs/2304.10420v2 )

ライセンス: Link先を確認
Arghya Maity, Aditi Sen De(参考訳) 4ストロークの量子オットーエンジンは、正のスピン温度で1つ、正のスピン温度で1つ、有効の負のスピン温度で2つの熱貯水池の間で実行されると性能が向上する。 x,y)-平面内の磁場とともに、z-方向に新たな磁場を導入する。 また, 衝撃は単調ではないが, 付加磁場の強度の増加に伴い効率が向上することを示す。 具体的には、効率の利得を示す駆動時間に応じて、磁界の閾値を報告する。 この利点は、システムが運転時間とより一貫性を持ち、l1-ノルムのコヒーレンス尺度を用いて評価することによる可能性がある。 さらに, パラメータ空間における乱れが存在する場合でも, 追加磁場で効率良く得られるインクリメントが持続することがわかった。

A four-stroke quantum Otto engine can outperform when conducted between two thermal reservoirs, one at a positive spin temperature and the other one at an effective negative spin temperature. Along with a magnetic field in the (x,y)-plane, we introduce an additional magnetic field in the z-direction. We demonstrate that the efficiency increases with the increase in the strength of the additional magnetic field although the impact is not monotonic. Specifically, we report a threshold value of the magnetic field, depending on the driving time which exhibits a gain in efficiency. We argue that this benefit may result from the system being more coherent with driving time, which we assess using the l1-norm coherence measure. Moreover, we find that the increment obtained in efficiency with an additional magnetic field endures even in presence of disorder in parameter space.
翻訳日:2023-05-24 23:55:31 公開日:2023-05-23
# クロスモーダル蒸留と超ボクセルクラスタリングによる3次元点雲の教師なしセマンティクスセグメンテーション

Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering ( http://arxiv.org/abs/2304.08965v2 )

ライセンス: Link先を確認
Zisheng Chen and Hongbin Xu(参考訳) 点雲の意味セグメンテーションは、通常、人間のアノテーションの枯渇する努力を必要とするため、ラベルのない、またはより弱い形のアノテーションから学ぶことの難しいトピックに広く注目される。 本稿では,アノテーションを使わずに意味論的に意味のあるオブジェクトを記述することを目的とした,ポイントクラウドの完全教師なしセマンティックセマンティックセマンティックセマンティック化の試みを行う。 2dイメージに対する教師なしパイプラインの以前の作業は、ポイントクラウドのこのタスクでは失敗する。 1) データの大きさの制限とクラス分布の不均衡による曖昧さのクラスタリング 2)点雲の不規則なスパース性に起因する不規則な曖昧さ。 そこで本稿では, 上記の問題をそれぞれ処理する2つのステップ, クロスモーダル蒸留 (CMD) とスーパーボクセルクラスタリング (SVC) からなる新しいフレームワークであるPointDCを提案する。 CMDの第1段階では、多視点視覚特徴は3次元空間にバックプロジェクションされ、統一された点特徴に集約され、点表現の訓練を蒸留する。 svcの第2段階では、ポイント機能はスーパーボクセルに集約され、セマンティクスクラスを発掘するために反復クラスタリングプロセスに供給される。 pointdc は、scannet-v2 (+18.4 miou) と s3dis (+11.5 miou) のセマンティクスセグメンテーションベンチマークの両方において、以前の最先端の教師なしメソッドを大きく改善する。

Semantic segmentation of point clouds usually requires exhausting efforts of human annotations, hence it attracts wide attention to the challenging topic of learning from unlabeled or weaker forms of annotations. In this paper, we take the first attempt for fully unsupervised semantic segmentation of point clouds, which aims to delineate semantically meaningful objects without any form of annotations. Previous works of unsupervised pipeline on 2D images fails in this task of point clouds, due to: 1) Clustering Ambiguity caused by limited magnitude of data and imbalanced class distribution; 2) Irregularity Ambiguity caused by the irregular sparsity of point cloud. Therefore, we propose a novel framework, PointDC, which is comprised of two steps that handle the aforementioned problems respectively: Cross-Modal Distillation (CMD) and Super-Voxel Clustering (SVC). In the first stage of CMD, multi-view visual features are back-projected to the 3D space and aggregated to a unified point feature to distill the training of the point representation. In the second stage of SVC, the point features are aggregated to super-voxels and then fed to the iterative clustering process for excavating semantic classes. PointDC yields a significant improvement over the prior state-of-the-art unsupervised methods, on both the ScanNet-v2 (+18.4 mIoU) and S3DIS (+11.5 mIoU) semantic segmentation benchmarks.
翻訳日:2023-05-24 23:55:16 公開日:2023-05-23
# NeRFVS: 幾何学による自由視点合成のためのニューラルラジアンス場

NeRFVS: Neural Radiance Fields for Free View Synthesis via Geometry Scaffolds ( http://arxiv.org/abs/2304.06287v2 )

ライセンス: Link先を確認
Chen Yang, Peihao Li, Zanwei Zhou, Shanxin Yuan, Bingbing Liu, Xiaokang Yang, Weichao Qiu, Wei Shen(参考訳) 室内における自由ナビゲーションを可能にする新しいニューラル放射場(NeRF)法であるNeRFVSを提案する。 nerfは、トレーニングビューと大きく異なる新規ビューに苦しむ一方で、入力ビューに似た新規ビューのレンダリングで印象的なパフォーマンスを達成している。 この問題に対処するために,3次元屋内シーンの暗黙的ニューラルネットワーク表現の学習のガイドとして,ニューラルネットワーク再構成から疑似深度マップや視野カバレッジ情報を含む全体論的事前情報を利用する。 具体的には、既製のニューラル再構成法を利用して幾何学的足場を生成する。 そして、NeRFの学習を改善するために、全体論的事前に基づく2つの損失関数を提案する。 1)NeRFの幾何学的学習を導くために擬似深度マップの誤差を許容できる頑健な深度損失 2) 暗黙の神経表現の分散を規則化する分散損失は、学習手順の幾何学的・色彩的曖昧さを減少させる。 これらの2つの損失関数は、ビューカバレッジ情報に従ってNeRF最適化中に変調され、ビューカバレッジの不均衡による負の影響を低減する。 以上の結果から,NeRFVSは室内のシーンにおいて定量的かつ質的に最先端のビュー合成法より優れ,高忠実度なナビゲーション結果が得られることが示された。

We present NeRFVS, a novel neural radiance fields (NeRF) based method to enable free navigation in a room. NeRF achieves impressive performance in rendering images for novel views similar to the input views while suffering for novel views that are significantly different from the training views. To address this issue, we utilize the holistic priors, including pseudo depth maps and view coverage information, from neural reconstruction to guide the learning of implicit neural representations of 3D indoor scenes. Concretely, an off-the-shelf neural reconstruction method is leveraged to generate a geometry scaffold. Then, two loss functions based on the holistic priors are proposed to improve the learning of NeRF: 1) A robust depth loss that can tolerate the error of the pseudo depth map to guide the geometry learning of NeRF; 2) A variance loss to regularize the variance of implicit neural representations to reduce the geometry and color ambiguity in the learning procedure. These two loss functions are modulated during NeRF optimization according to the view coverage information to reduce the negative influence brought by the view coverage imbalance. Extensive results demonstrate that our NeRFVS outperforms state-of-the-art view synthesis methods quantitatively and qualitatively on indoor scenes, achieving high-fidelity free navigation results.
翻訳日:2023-05-24 23:54:44 公開日:2023-05-23
# パーソナライズしたの? リサンプリングを用いたオンライン強化学習アルゴリズムによるパーソナライズ評価

Did we personalize? Assessing personalization by an online reinforcement learning algorithm using resampling ( http://arxiv.org/abs/2304.05365v4 )

ライセンス: Link先を確認
Susobhan Ghosh, Raphael Kim, Prasidh Chhabria, Raaz Dwivedi, Predrag Klasnja, Peng Liao, Kelly Zhang, Susan Murphy(参考訳) デジタルヘルスにおける治療の順序をパーソナライズするために強化学習(RL)を使うことへの関心が高まっている。 このようなシーケンシャルな意思決定の問題は、ユーザのコンテキスト(例えば、以前のアクティビティレベル、位置など)に基づいて、いつ扱うか、どのように扱うかという決定を含む。 オンラインRLは、ユーザの過去の反応に基づいて学習し、その知識を使って意思決定をパーソナライズする、この問題に対する有望なデータ駆動アプローチである。 しかし,RLアルゴリズムが実際の展開のために ‘optimized' の介入に含めるべきかどうかを判断するためには,RLアルゴリズムが実際にユーザに対して治療をパーソナライズしていることを示すデータエビデンスを評価する必要がある。 RLアルゴリズムの確率性のため、特定の状態で学習し、この学習を用いて特定の治療を行っているという誤った印象を受けることがある。 パーソナライゼーションの動作定義を用いて、RLアルゴリズムが示すパーソナライゼーションがRLアルゴリズムの確率性の人工物であるかどうかを調べるリサンプリングベースの方法論を導入する。 本研究は,オンラインrlアルゴリズムを応用したheartstepsと呼ばれる身体活動臨床試験のデータを解析し,本手法をケーススタディで示す。 我々は,このアプローチがアルゴリズムのパーソナライズを,全ユーザと特定のユーザの両方に対して,データ駆動型真理広告の効果を高めることを実証する。

There is a growing interest in using reinforcement learning (RL) to personalize sequences of treatments in digital health to support users in adopting healthier behaviors. Such sequential decision-making problems involve decisions about when to treat and how to treat based on the user's context (e.g., prior activity level, location, etc.). Online RL is a promising data-driven approach for this problem as it learns based on each user's historical responses and uses that knowledge to personalize these decisions. However, to decide whether the RL algorithm should be included in an ``optimized'' intervention for real-world deployment, we must assess the data evidence indicating that the RL algorithm is actually personalizing the treatments to its users. Due to the stochasticity in the RL algorithm, one may get a false impression that it is learning in certain states and using this learning to provide specific treatments. We use a working definition of personalization and introduce a resampling-based methodology for investigating whether the personalization exhibited by the RL algorithm is an artifact of the RL algorithm stochasticity. We illustrate our methodology with a case study by analyzing the data from a physical activity clinical trial called HeartSteps, which included the use of an online RL algorithm. We demonstrate how our approach enhances data-driven truth-in-advertising of algorithm personalization both across all users as well as within specific users in the study.
翻訳日:2023-05-24 23:54:21 公開日:2023-05-23
# 文学的気分の代理としての影響

Affect as a proxy for literary mood ( http://arxiv.org/abs/2304.02894v2 )

ライセンス: Link先を確認
Emily \"Ohman and Riikka Rossi(参考訳) 文芸文章における感情の代理として「感情」を使うことを提案する。 本研究では,音色検出と気分検出の差異について検討する。 感情的な単語の埋め込みを利用して、異なるテキストセグメントの感情分布を調べる。 また,本研究では, 意味的シフトとテキストの領域を両立させ, 現代の質的分析と現代的質的分析の両立を考慮し, 感情の語彙をシンプルかつ効果的に向上させる手法を提案する。

We propose to use affect as a proxy for mood in literary texts. In this study, we explore the differences in computationally detecting tone versus detecting mood. Methodologically we utilize affective word embeddings to look at the affective distribution in different text segments. We also present a simple yet efficient and effective method of enhancing emotion lexicons to take both semantic shift and the domain of the text into account producing real-world congruent results closely matching both contemporary and modern qualitative analyses.
翻訳日:2023-05-24 23:53:27 公開日:2023-05-23
# マルチベクトル検索におけるトークン検索の役割再考

Rethinking the Role of Token Retrieval in Multi-Vector Retrieval ( http://arxiv.org/abs/2304.01982v2 )

ライセンス: Link先を確認
Jinhyuk Lee, Zhuyun Dai, Sai Meher Karthik Duddu, Tao Lei, Iftekhar Naim, Ming-Wei Chang, Vincent Y. Zhao(参考訳) ColBERT (Khattab and Zaharia, 2020) のようなマルチベクトル検索モデルは、クエリとドキュメント間のトークンレベルの相互作用を可能にし、多くの情報検索ベンチマークで最先端の技術を実現できる。 しかし、その非線形スコアリング機能は数百万のドキュメントにスケールできないため、トークン検索による初期候補の検索、トークンベクトルへのアクセス、初期候補文書のスコアリングといった3段階のプロセスが必要になる。 非線形スコアリング関数は、各候補文書の全てのトークンベクトルに適用され、推論処理が複雑で遅くなる。 本稿では,トークン検索の役割を再考することにより,マルチベクトル検索の簡略化を目指す。 提案するXTR, ConteXtualized Token Retrieverは, 単純かつ斬新で客観的な関数を導入し, まず最も重要な文書トークンを検索する。 トークン検索の改善により、XTRは文書中のすべてのトークンではなく、検索したトークンを使って候補をランク付けできるようになり、ColBERTより2~3桁安い新しく設計されたスコアリングステージが実現された。 有名なBEIRベンチマークでは、XTRは蒸留なしで2.8nDCG@10で最先端を推し進めている。 詳細な分析により、XTRはColBERTと比較してトークン検索ステージのリコールがはるかに優れていることを示すため、トークン検索ステージを再検討する決定が確定する。

Multi-vector retrieval models such as ColBERT [Khattab and Zaharia, 2020] allow token-level interactions between queries and documents, and hence achieve state of the art on many information retrieval benchmarks. However, their non-linear scoring function cannot be scaled to millions of documents, necessitating a three-stage process for inference: retrieving initial candidates via token retrieval, accessing all token vectors, and scoring the initial candidate documents. The non-linear scoring function is applied over all token vectors of each candidate document, making the inference process complicated and slow. In this paper, we aim to simplify the multi-vector retrieval by rethinking the role of token retrieval. We present XTR, ConteXtualized Token Retriever, which introduces a simple, yet novel, objective function that encourages the model to retrieve the most important document tokens first. The improvement to token retrieval allows XTR to rank candidates only using the retrieved tokens rather than all tokens in the document, and enables a newly designed scoring stage that is two-to-three orders of magnitude cheaper than that of ColBERT. On the popular BEIR benchmark, XTR advances the state-of-the-art by 2.8 nDCG@10 without any distillation. Detailed analysis confirms our decision to revisit the token retrieval stage, as XTR demonstrates much better recall of the token retrieval stage compared to ColBERT.
翻訳日:2023-05-24 23:53:20 公開日:2023-05-23
# 背景情報によるクラスアクティベーションの不確かさの低減

Reduction of Class Activation Uncertainty with Background Information ( http://arxiv.org/abs/2305.03238v2 )

ライセンス: Link先を確認
H M Dipu Kabir(参考訳) マルチタスク学習は、一般化を改善したハイパフォーマンスニューラルネットワークをトレーニングするための一般的なアプローチである。 本稿では,計算能力の低い研究者や組織に対して,マルチタスク学習よりも低い計算速度で一般化を実現するためのバックグラウンドクラスを提案する。 また,背景画像の選択手法を提案し,今後の改善について検討する。 提案手法を複数のデータセットに適用し,より少ない計算量で一般化した。 また,学習モデルのクラスアクティベーションマッピング(cams)についても検討し,提案するモデルトレーニング手法を用いて,いくつかのクラス分類問題において,より大きな視点を見る傾向を観察した。 STL-10、CIFAR-10、CIFAR-100、Oxford-102、Caltech-101、CINIC-10データセット上で、トランスフォーマーをバックグラウンドクラスに応用し、最先端(SOTA)性能を得る。 サンプルスクリプトは、次のgithubリポジトリの'cam'フォルダで利用可能である。

Multitask learning is a popular approach to training high-performing neural networks with improved generalization. In this paper, we propose a background class to achieve improved generalization at a lower computation compared to multitask learning to help researchers and organizations with limited computation power. We also present a methodology for selecting background images and discuss potential future improvements. We apply our approach to several datasets and achieved improved generalization with much lower computation. We also investigate class activation mappings (CAMs) of the trained model and observed the tendency towards looking at a bigger picture in a few class classification problems with the proposed model training methodology. Applying transformer with the proposed background class, we receive state-of-the-art (SOTA) performance on STL-10, CIFAR-10, CIFAR-100, Oxford-102, Caltech-101, and CINIC-10 datasets. Example scripts are available in the 'CAM' folder of the following GitHub Repository: github.com/dipuk0506/UQ
翻訳日:2023-05-24 23:47:28 公開日:2023-05-23
# 対訳 ポートレート・マッティング

Adversarially-Guided Portrait Matting ( http://arxiv.org/abs/2305.02981v2 )

ライセンス: Link先を確認
Sergej Chicherin, Karen Efremyan(参考訳) 限られたデータソースを用いてアルファ行列を生成する方法を提案する。 ポートレートデータセット上に新しいトランスフォーマーモデル(StyleMatte)を事前訓練する。 このモデルを用いて、StyleMatteGAN(StyleMatteGAN)ベースのネットワークに対して、画像マスクペアを提供する。 このネットワークは教師なしでトレーニングされ、以前は目に見えないイメージマスクトレーニングペアを生成し、StyleMatteに返される。 このサイクルでマット引き抜きネットワークの性能が向上し、ヒトの肖像画や動物データセットの最先端の指標の上位結果が得られることを実証する。 さらにstylematteganは、アルファマットで高解像度でプライバシーを保ったポートレートを提供し、様々な画像合成タスクに適している。 私たちのコードはhttps://github.com/chroneus/stylematteで利用可能です。

We present a method for generating alpha mattes using a limited data source. We pretrain a novel transformerbased model (StyleMatte) on portrait datasets. We utilize this model to provide image-mask pairs for the StyleGAN3-based network (StyleMatteGAN). This network is trained unsupervisedly and generates previously unseen imagemask training pairs that are fed back to StyleMatte. We demonstrate that the performance of the matte pulling network improves during this cycle and obtains top results on the human portraits and state-of-the-art metrics on animals dataset. Furthermore, StyleMatteGAN provides high-resolution, privacy-preserving portraits with alpha mattes, making it suitable for various image composition tasks. Our code is available at https://github.com/chroneus/stylematte
翻訳日:2023-05-24 23:47:13 公開日:2023-05-23
# 大規模言語モデルによるYAMLの情報技術タスクの自動コード生成

Automated Code generation for Information Technology Tasks in YAML through Large Language Models ( http://arxiv.org/abs/2305.02783v4 )

ライセンス: Link先を確認
Saurabh Pujar, Luca Buratti, Xiaojie Guo, Nicolas Dupuis, Burn Lewis, Sahil Suneja, Atin Sood, Ganesh Nalawade, Matthew Jones, Alessandro Morari, Ruchir Puri(参考訳) 大規模言語モデルの使用によるコード生成能力の最近の改善は、主に汎用プログラミング言語の恩恵を受けている。 ITオートメーションで使用されるようなドメイン固有言語は、多くのアクティブな開発者を巻き込み、現代のクラウドプラットフォームに不可欠なコンポーネントであるにもかかわらず、はるかに注目を集めている。 この作業は、ITオートメーションのための広く使われているマークアップ言語であるAnsible-YAMLの生成に焦点を当てている。 私たちは、IT自動化の生産性向上を目的とした、Ansible-YAMLコード生成ツールであるAnsible Wisdomを紹介します。 ansible wisdomはtransformerベースのモデルで、ansible-yamlを含む新しいデータセットでトレーニングによって拡張される。 また、YAMLとAnsibleの2つの新しいパフォーマンス指標を開発し、この領域の特徴を捉える。 その結果、Ansible Wisdomは、既存のアートコード生成モデルと同等かそれ以上のパフォーマンスで、自然言語プロンプトからAnsibleスクリプトを正確に生成できることがわかった。 わずかな設定で、Ansible、YAMLデータによるトレーニングの影響を評価し、Codex-Davinci-002など、さまざまなベースラインと比較します。 また、微調整後、我々のAnsible specific model (BLEU: 66.67) がはるかに大きなCodex-Davinci-002 (BLEU: 50.4) モデルより優れていることを示す。

The recent improvement in code generation capabilities due to the use of large language models has mainly benefited general purpose programming languages. Domain specific languages, such as the ones used for IT Automation, have received far less attention, despite involving many active developers and being an essential component of modern cloud platforms. This work focuses on the generation of Ansible-YAML, a widely used markup language for IT Automation. We present Ansible Wisdom, a natural-language to Ansible-YAML code generation tool, aimed at improving IT automation productivity. Ansible Wisdom is a transformer-based model, extended by training with a new dataset containing Ansible-YAML. We also develop two novel performance metrics for YAML and Ansible to capture the specific characteristics of this domain. Results show that Ansible Wisdom can accurately generate Ansible script from natural language prompts with performance comparable or better than existing state of the art code generation models. In few-shot settings we asses the impact of training with Ansible, YAML data and compare with different baselines including Codex-Davinci-002. We also show that after finetuning, our Ansible specific model (BLEU: 66.67) can outperform a much larger Codex-Davinci-002 (BLEU: 50.4) model, which was evaluated in few shot settings.
翻訳日:2023-05-24 23:47:03 公開日:2023-05-23
# 生存分析のための適切なスコアリングルール

Proper Scoring Rules for Survival Analysis ( http://arxiv.org/abs/2305.00621v2 )

ライセンス: Link先を確認
Hiroki Yanagisawa(参考訳) 生存分析は、将来の事象の確率分布を推定する問題であり、不確実な定量化の問題と見なすことができる。 不確実性定量化のための厳密なスコアリングルールに関する基本的な理論は存在するが、サバイバル分析についてはほとんど知られていない。 本稿では, 生存分析のための4つの主要な厳密なスコアリングルールの拡張について検討し, 確率分布の推定の離散化から生じる一定の条件下では, これらの拡張が適切であることを証明した。 また,これら拡張スコアルールの推定性能を実データを用いて比較し,対数スコアとブライアスコアの拡張が最良であった。

Survival analysis is the problem of estimating probability distributions for future event times, which can be seen as a problem in uncertainty quantification. Although there are fundamental theories on strictly proper scoring rules for uncertainty quantification, little is known about those for survival analysis. In this paper, we investigate extensions of four major strictly proper scoring rules for survival analysis and we prove that these extensions are proper under certain conditions, which arise from the discretization of the estimation of probability distributions. We also compare the estimation performances of these extended scoring rules by using real datasets, and the extensions of the logarithmic score and the Brier score performed the best.
翻訳日:2023-05-24 23:46:05 公開日:2023-05-23
# Sachdev-Ye-Kitaevモデルと荷電ブラックホールの量子統計力学

Quantum statistical mechanics of the Sachdev-Ye-Kitaev model and charged black holes ( http://arxiv.org/abs/2304.13744v4 )

ライセンス: Link先を確認
Subir Sachdev(参考訳) このレビューはMichael E. Fisherの記憶に捧げられた本への貢献である。 準粒子励起が期待できない量子多体系の最初の例は、ウィルソン・フィッシャー共形場理論である。 準粒子の欠如は、ランダム相互作用を持つフェルミオンのSachdev-Ye-Kitaevモデルの圧縮可能な金属状態に確立することができる。 後者のモデルの可解性は、量子ブラックホールを記述すると期待されるようなカオス多体状態の非量子粒子ダイナミクスの多くの計算を可能にした。 我々は、SYKモデルの熱力学特性を概説し、低エネルギー超対称性を持たない荷電ブラックホールの状態の低エネルギー密度の普遍構造をいかに理解したかを説明する。

This review is a contribution to a book dedicated to the memory of Michael E. Fisher. The first example of a quantum many body system not expected to have any quasiparticle excitations was the Wilson-Fisher conformal field theory. The absence of quasiparticles can be established in the compressible, metallic state of the Sachdev-Ye-Kitaev model of fermions with random interactions. The solvability of the latter model has enabled numerous computations of the non-quasiparticle dynamics of chaotic many-body states, such as those expected to describe quantum black holes. We review thermodynamic properties of the SYK model, and describe how they have led to an understanding of the universal structure of the low energy density of states of charged black holes without low energy supersymmetry.
翻訳日:2023-05-24 23:45:53 公開日:2023-05-23
# 生成モデルのための平均場ゲーム実験室

A mean-field games laboratory for generative modeling ( http://arxiv.org/abs/2304.13534v4 )

ライセンス: Link先を確認
Benjamin J. Zhang and Markos A. Katsoulakis(参考訳) 本稿では,生成モデルの説明,拡張,設計のための数学的枠組みとして,平均場ゲーム(MFG)の汎用性を実証する。 生成モデルコミュニティには、様々な流れと拡散に基づく生成モデルがいくつかの共通基盤構造と相互関係を持つという広義の感覚がある。 我々は,MFGと,連続時間正規化フロー,スコアベースモデル,ワッサーシュタイン勾配フローを含む拡散型生成モデルとの接続を確立する。 粒子動力学とコスト関数の異なる選択を通して、これら3つの生成モデルのクラスを導出する。 さらに、各生成モデルの数学的構造と性質を、結合した前向き非線形偏微分方程式(PDE)の集合である、関連するMFGの最適条件を研究することによって研究する。 したがって、MFGの理論は、非線形PDEの理論を通じて生成モデルの研究を可能にする。 この観点から,正規化フローの適切性と構造,スコアベース生成モデリングの数学的構造を解明し,ワッサースタイン勾配流れの平均場ゲーム定式化を導出する。 アルゴリズムの観点からは、MFGsの最適条件により、幅広い生成モデルの訓練を強化するためにHJB正規化器を導入することもできる。 特に,hamilton-jacobi-bellman正規化sgmの提案と実演を行い,標準sgmよりも性能が向上した。 本稿では,本フレームワークをMFG実験室として紹介し,新たな実験方法と生成モデルの創出の場として機能する。 この研究所は、多くのよく考えられた生成的モデリングの定式化を生み出し、数値的およびアルゴリズム的ツールが開発できる一貫した理論的枠組みを提供する。

In this paper, we demonstrate the versatility of mean-field games (MFGs) as a mathematical framework for explaining, enhancing, and designing generative models. There is a pervasive sense in the generative modeling community that the various flow and diffusion-based generative models have some common foundational structure and interrelationships. We establish connections between MFGs and major classes of flow and diffusion-based generative models including continuous-time normalizing flows, score-based models, and Wasserstein gradient flows. We derive these three classes of generative models through different choices of particle dynamics and cost functions. Furthermore, we study the mathematical structure and properties of each generative model by studying their associated MFG's optimality condition, which is a set of coupled forward-backward nonlinear partial differential equations (PDEs). The theory of MFGs, therefore, enables the study of generative models through the theory of nonlinear PDEs. Through this perspective, we investigate the well-posedness and structure of normalizing flows, unravel the mathematical structure of score-based generative modeling, and derive a mean-field game formulation of the Wasserstein gradient flow. From an algorithmic perspective, the optimality conditions of MFGs also allow us to introduce HJB regularizers for enhanced training of a broad class of generative models. In particular, we propose and demonstrate an Hamilton-Jacobi-Bellman regularized SGM with improved performance over standard SGMs. We present this framework as an MFG laboratory which serves as a platform for revealing new avenues of experimentation and invention of generative models. This laboratory will give rise to a multitude of well-posed generative modeling formulations and will provide a consistent theoretical framework upon which numerical and algorithmic tools may be developed.
翻訳日:2023-05-24 23:45:43 公開日:2023-05-23
# 思考連鎖のメタリゾン化による質問への回答

Answering Questions by Meta-Reasoning over Multiple Chains of Thought ( http://arxiv.org/abs/2304.13007v2 )

ライセンス: Link先を確認
Ori Yoran, Tomer Wolfson, Ben Bogin, Uri Katz, Daniel Deutch, Jonathan Berant(参考訳) マルチホップ質問応答(QA)のための現代のシステムは、最終回答に到達する前に、質問を一連の推論ステップ、すなわちチェーン・オブ・シント(CoT)に分割する。 多くの場合、複数の連鎖が最終回答の投票機構を通じてサンプリングされ集約されるが、中間ステップ自体は破棄される。 このようなアプローチはパフォーマンスを向上させるが、チェーン間の中間ステップ間の関係を考慮せず、予測された回答の統一的な説明を提供しない。 MCR(Multi-Chain Reasoning)は,大規模言語モデルに対して,回答を集約するのではなく,複数の思考チェーン上でメタ推論を行うアプローチである。 MCRは、異なる推論連鎖を調べ、それらを混合し、説明を生成し、答えを予測する際に最も関係のある事実を選択する。 MCRは7つのマルチホップQAデータセットで強いベースラインを上回ります。 さらに,本分析の結果から,MCRの説明は高品質であり,人間が回答を検証できることがわかった。

Modern systems for multi-hop question answering (QA) typically break questions into a sequence of reasoning steps, termed chain-of-thought (CoT), before arriving at a final answer. Often, multiple chains are sampled and aggregated through a voting mechanism over the final answers, but the intermediate steps themselves are discarded. While such approaches improve performance, they do not consider the relations between intermediate steps across chains and do not provide a unified explanation for the predicted answer. We introduce Multi-Chain Reasoning (MCR), an approach which prompts large language models to meta-reason over multiple chains of thought, rather than aggregating their answers. MCR examines different reasoning chains, mixes information between them and selects the most relevant facts in generating an explanation and predicting the answer. MCR outperforms strong baselines on 7 multi-hop QA datasets. Moreover, our analysis reveals that MCR explanations exhibit high quality, enabling humans to verify its answers.
翻訳日:2023-05-24 23:45:17 公開日:2023-05-23
# ACR放射線オンコロジー試験(TXIT)におけるChatGPT-4のベンチマーク:放射線オンコロジーにおけるAI支援医療教育と意思決定の可能性と課題

Benchmarking ChatGPT-4 on ACR Radiation Oncology In-Training (TXIT) Exam and Red Journal Gray Zone Cases: Potentials and Challenges for AI-Assisted Medical Education and Decision Making in Radiation Oncology ( http://arxiv.org/abs/2304.11957v3 )

ライセンス: Link先を確認
Yixing Huang, Ahmed Gomaa, Sabine Semrau, Marlen Haderlein, Sebastian Lettmaier, Thomas Weissmann, Johanna Grigo, Hassen Ben Tkhayat, Benjamin Frey, Udo S. Gaipl, Luitpold V. Distel, Andreas Maier, Rainer Fietkau, Christoph Bert, and Florian Putz(参考訳) 教育と意思決定のための医学における大規模言語モデルの可能性は、米国医療ライセンス試験(usmle)やメダカ試験などの医学試験で十分なスコアを得られることから証明されている。 本研究では,第38回米国放射線医学会(ACR)放射線オンコロジー試験(TXIT)と2022年のレッドジャーナルグレーゾーン試験を用いて,放射線オンコロジーの専門分野におけるChatGPT-4の性能を評価する。 TXIT試験では、ChatGPT-3.5とChatGPT-4はそれぞれ63.65%と74.57%のスコアを得た。 TXIT試験に基づき、ChatGPT-4の放射線腫瘍学における強弱領域をある程度同定した。 具体的には、ChatGPT-4は統計学、CNS & Eye、小児科、生物学、物理学の知識をよく示しているが、ACR知識ドメインと同様に骨・軟組織・婦人科に制限がある。 治療経路に関して、chatgpt-4は診断、予後、毒性に優れるが、ブラキセラピーや線量測定に関するトピックや臨床試験からの深い質問において、熟練度を欠いている。 グレーゾーンの場合、ChatGPT-4は、高い正確性と包括性を持つ各ケースに対してパーソナライズされた治療アプローチを提案することができる。 最も重要なことは、人間の専門家が提案していない多くのケースにおいて、新しい治療の側面を提供することである。 どちらの評価も、一般およびがん患者に対する医学教育におけるchatgpt-4の可能性と、特定の領域におけるその限界を認めつつ、臨床意思決定を支援する可能性を示している。 幻覚の危険性のため、ChatGPTが提供する事実は必ず検証する必要がある。

The potential of large language models in medicine for education and decision making purposes has been demonstrated as they achieve decent scores on medical exams such as the United States Medical Licensing Exam (USMLE) and the MedQA exam. In this work, we evaluate the performance of ChatGPT-4 in the specialized field of radiation oncology using the 38th American College of Radiology (ACR) radiation oncology in-training (TXIT) exam and the 2022 Red Journal gray zone cases. For the TXIT exam, ChatGPT-3.5 and ChatGPT-4 have achieved the scores of 63.65% and 74.57%, respectively, highlighting the advantage of the latest ChatGPT-4 model. Based on the TXIT exam, ChatGPT-4's strong and weak areas in radiation oncology are identified to some extent. Specifically, ChatGPT-4 demonstrates good knowledge of statistics, CNS & eye, pediatrics, biology, and physics but has limitations in bone & soft tissue and gynecology, as per the ACR knowledge domain. Regarding clinical care paths, ChatGPT-4 performs well in diagnosis, prognosis, and toxicity but lacks proficiency in topics related to brachytherapy and dosimetry, as well as in-depth questions from clinical trials. For the gray zone cases, ChatGPT-4 is able to suggest a personalized treatment approach to each case with high correctness and comprehensiveness. Most importantly, it provides novel treatment aspects for many cases, which are not suggested by any human experts. Both evaluations demonstrate the potential of ChatGPT-4 in medical education for the general public and cancer patients, as well as the potential to aid clinical decision-making, while acknowledging its limitations in certain domains. Because of the risk of hallucination, facts provided by ChatGPT always need to be verified.
翻訳日:2023-05-24 23:45:01 公開日:2023-05-23
# 放射光源のための高エネルギー相関多光子X線回折の理論

Theory of high-energy correlated multiphoton x-ray diffraction for synchrotron radiation sources ( http://arxiv.org/abs/2304.11440v2 )

ライセンス: Link先を確認
Arunangshu Debnath, Robin Santra(参考訳) 放射光源を用いた高エネルギーX線回折測定の解釈に適した,非相対論的極限における多光子回折現象の理論的定式化について述べる。 近似の階層と極限ケースの体系的解析について述べる。 回折信号の畳み込み表現は、相関署名に寄与する物理資源の分類を可能にする。 この定式化は、弾性および非弾性回折散乱における相関符号の不在または存在を記述できる理論記述を開発することを目的としている。 これらの相関シグネチャを入力場変調多体電子密度相関の観点から解釈することは、構造イメージング研究の新しい展望を提供する。 より本質的には、関連する再構成アルゴリズムの理論的発展に必要なフレームワークを提供する。

We present a theoretical formulation for the multiphoton diffraction phenomenology in the nonrelativistic limit, suitable for interpreting high-energy x-ray diffraction measurements using synchrotron radiation sources. A hierarchy of approximations and the systematic analysis of limiting cases are presented. A convolutional representation of the diffraction signal allows classification of the physical resources contributing to the correlation signatures. The formulation is intended for developing a theoretical description capable of describing plausible absence or presence of correlation signatures in elastic and inelastic diffractive scattering. Interpreting these correlation signatures in terms of the incoming field modulated many-body electronic density correlations provides a novel perspective for structural imaging studies. More essentially, it offers a framework necessary for theoretical developments of associated reconstruction algorithms.
翻訳日:2023-05-24 23:44:22 公開日:2023-05-23
# WebCPM:中国の長文質問応答のためのインタラクティブWeb検索

WebCPM: Interactive Web Search for Chinese Long-form Question Answering ( http://arxiv.org/abs/2305.06849v2 )

ライセンス: Link先を確認
Yujia Qin, Zihan Cai, Dian Jin, Lan Yan, Shihao Liang, Kunlun Zhu, Yankai Lin, Xu Han, Ning Ding, Huadong Wang, Ruobing Xie, Fanchao Qi, Zhiyuan Liu, Maosong Sun, and Jie Zhou(参考訳) LFQA(Long-form Question answering)は、複雑でオープンな質問に、段落長の詳細な回答で答えることを目的としている。 LFQAのデファクトパラダイムは、関連する支援事実を検索する情報検索と、これらの事実を一貫性のある回答に統合する情報合成という2つの手順を必要とする。 本稿では,中国初のLFQAデータセットであるWebCPMを紹介する。 WebCPMのユニークな特徴の1つは、その情報検索がインタラクティブなWeb検索に基づいており、リアルタイムで検索エンジンと関わることである。 WebGPT に続いて,Web 検索インタフェースを開発した。 私たちはアノテータを募集し、インターフェースを使って関連情報を検索し、質問に答えます。 一方、アノテータのweb検索動作は記録されるでしょう。 合計5500対の高品質な質問応答対を収集し,14,315件のサポート事実と121,330件のWeb検索行動を行った。 web 検索の動作を模倣し,収集した事実に基づいて回答を生成するために,事前学習した言語モデルを微調整した。 我々のLFQAパイプラインは、これらの微調整されたモデルに基づいており、データセットの32.5%と47.5%のケースで、人書きのものよりも悪い回答を生成する。

Long-form question answering (LFQA) aims at answering complex, open-ended questions with detailed, paragraph-length responses. The de facto paradigm of LFQA necessitates two procedures: information retrieval, which searches for relevant supporting facts, and information synthesis, which integrates these facts into a coherent answer. In this paper, we introduce WebCPM, the first Chinese LFQA dataset. One unique feature of WebCPM is that its information retrieval is based on interactive web search, which engages with a search engine in real time. Following WebGPT, we develop a web search interface. We recruit annotators to search for relevant information using our interface and then answer questions. Meanwhile, the web search behaviors of our annotators would be recorded. In total, we collect 5,500 high-quality question-answer pairs, together with 14,315 supporting facts and 121,330 web search actions. We fine-tune pre-trained language models to imitate human behaviors for web search and to generate answers based on the collected facts. Our LFQA pipeline, built on these fine-tuned models, generates answers that are no worse than human-written ones in 32.5% and 47.5% of the cases on our dataset and DuReader, respectively.
翻訳日:2023-05-24 23:37:13 公開日:2023-05-23
# Reckoning: 動的知識エンコーディングによる推論

RECKONING: Reasoning through Dynamic Knowledge Encoding ( http://arxiv.org/abs/2305.06349v2 )

ライセンス: Link先を確認
Zeming Chen, Gail Weiss, Eric Mitchell, Asli Celikyilmaz, Antoine Bosselut(参考訳) トランスフォーマティブ言語モデルに関する最近の研究は、文脈(すなわち、文脈内推論)の一部として提供される知識を推論することで、疑問に答えることができることを示している。 しかし、利用可能な知識は特定の質問に対してフィルタされないことが多いので、文脈内推論は、質問と無関係であるが、別の質問(つまり、必ずしもランダムなノイズではない)に関係のある追加のコンテンツに敏感である。 このような状況では、モデルが質問に答えるために必要な知識を区別できないため、散発的な推論とパフォーマンスの低下に繋がる。 この推論の失敗は、事前トレーニング中に記憶したすべての知識と文脈知識を区別するモデルの明らかな能力とは対照的である。 そこで本研究では,与えられた文脈知識をモデルのパラメータに折り畳むことによって,より頑健な推論をモデルに教えることを提案する。 我々の手法であるRECKONINGは、バックプロパゲーションによってパラメトリック知識を更新することで、言語モデルに推論を教える二段階学習アルゴリズムである。 トレーニング中、内部ループはモデル重みのコピーを迅速に適応させ、コンテキスト知識をパラメータにエンコードする。 外ループでは、モデルが更新された重みを使って記憶された知識に関する推論質問を再現し、答えることを学ぶ。 2つのマルチホップ推論データセットに対する実験により、RECKONINGのパフォーマンスは、コンテキスト内推論ベースライン(最大4.5%)よりも向上していることが示された。 また,コンテクスト内推論と比較すると,学習中に認識されない長大な推論チェーンを一般化し,コンテクスト内の邪魔者に対して頑健であり,同じ知識について複数の質問をした場合に計算効率が向上することがわかった。

Recent studies on transformer-based language models show that they can answer questions by reasoning over knowledge provided as part of the context (i.e., in-context reasoning). However, since the available knowledge is often not filtered for a particular question, in-context reasoning can be sensitive to distractor facts, additional content that is irrelevant to a question but that may be relevant for a different question (i.e., not necessarily random noise). In these situations, the model fails to distinguish the knowledge that is necessary to answer the question, leading to spurious reasoning and degraded performance. This reasoning failure contrasts with the model's apparent ability to distinguish its contextual knowledge from all the knowledge it has memorized during pre-training. Following this observation, we propose teaching the model to reason more robustly by folding the provided contextual knowledge into the model's parameters before presenting it with a question. Our method, RECKONING, is a bi-level learning algorithm that teaches language models to reason by updating their parametric knowledge through back-propagation, allowing them to then answer questions using the updated parameters. During training, the inner loop rapidly adapts a copy of the model weights to encode contextual knowledge into its parameters. In the outer loop, the model learns to use the updated weights to reproduce and answer reasoning questions about the memorized knowledge. Our experiments on two multi-hop reasoning datasets show that RECKONING's performance improves over the in-context reasoning baseline (by up to 4.5%). We also find that compared to in-context reasoning, RECKONING generalizes better to longer reasoning chains unseen during training, is more robust to distractors in the context, and is more computationally efficient when multiple questions are asked about the same knowledge.
翻訳日:2023-05-24 23:36:28 公開日:2023-05-23
# 社会生態工学システムとしてのアルゴリズム--アルゴリズム監査に関する環境正義レンズ

Algorithms as Social-Ecological-Technological Systems: an Environmental Justice Lens on Algorithmic Audits ( http://arxiv.org/abs/2305.05733v2 )

ライセンス: Link先を確認
Bogdana Rakova, Roel Dobbe(参考訳) 本稿では,社会・生態システムと密接に結びついているアルゴリズムシステムを再構成し,環境正義指向のアルゴリズム監査のための一級方法論を提案する。 アルゴリズムシステムの設計、開発、展開の仕方について、環境と気候の正義の次元をどう考えるか? これらの影響は本質的に創発的であり、アルゴリズムシステムと社会(制度を含む)と生態系の生態的構成要素との関係のレベルにおいてのみ理解され、対処することができる。 その結果、アルゴリズムシステムに対する積分オントロジーが存在しない場合、アルゴリズムシステムとその基礎となる計算基盤の広範な環境影響の創発的性質を正当化することはできないと主張している。 本稿では,アルゴリズムが統合・運用される幅広いファブリックの社会的,生態学的,技術的構成要素間の結合として,創発的含意を浮き彫りにする,社会生態工学システム(SETS)とは無関係なアルゴリズムシステムを定義することを提案する。 我々は、SETS分析に関する先行研究と、アルゴリズムの影響を概念化し評価するための環境正義(EJ)の文献と実践における新たなテーマについて述べる。 次に, アルゴリズム監査に対するSETSベースのEJアプローチの確立を支援するための3つの政策勧告を提案する。(1) インプットを広げ, 監査のアウトプットを開放すること,(2) レッドレスへの有意義なアクセスを可能にすること,(3) 影響評価プロセスにおける場所ベースおよびリレーショナルアプローチを保証すること。 私たちはこれらを、さまざまなステークホルダーの質問の質的枠組みとして運用します。 本稿は、政策立案者、研究者、実践者、市民社会、草の根コミュニティ間のより強く頻繁な交流を促すことを目的としている。

This paper reframes algorithmic systems as intimately connected to and part of social and ecological systems, and proposes a first-of-its-kind methodology for environmental justice-oriented algorithmic audits. How do we consider environmental and climate justice dimensions of the way algorithmic systems are designed, developed, and deployed? These impacts are inherently emergent and can only be understood and addressed at the level of relations between an algorithmic system and the social (including institutional) and ecological components of the broader ecosystem it operates in. As a result, we claim that in absence of an integral ontology for algorithmic systems, we cannot do justice to the emergent nature of broader environmental impacts of algorithmic systems and their underlying computational infrastructure. We propose to define algorithmic systems as ontologically indistinct from Social-Ecological-Technological Systems (SETS), framing emergent implications as couplings between social, ecological, and technical components of the broader fabric in which algorithms are integrated and operate. We draw upon prior work on SETS analysis as well as emerging themes in the literature and practices of Environmental Justice (EJ) to conceptualize and assess algorithmic impact. We then offer three policy recommendations to help establish a SETS-based EJ approach to algorithmic audits: (1) broaden the inputs and open-up the outputs of an audit, (2) enable meaningful access to redress, and (3) guarantee a place-based and relational approach to the process of evaluating impact. We operationalize these as a qualitative framework of questions for a spectrum of stakeholders. Doing so, this article aims to inspire stronger and more frequent interactions across policymakers, researchers, practitioners, civil society, and grassroots communities.
翻訳日:2023-05-24 23:35:56 公開日:2023-05-23
# 自然言語処理に自然を置く

Putting Natural in Natural Language Processing ( http://arxiv.org/abs/2305.04572v2 )

ライセンス: Link先を確認
Grzegorz Chrupa{\l}a(参考訳) 言語は第一に話し、第二に書かれる。 しかし、テキストは非常に便利で効率的な言語表現であり、近代文明はそれをユビキタスにしている。 したがって、NLPの分野は、音声言語よりも文章の処理に重点を置いてきた。 一方、音声言語に関する作業は、音声をテキストに書き込むことに不注意な、ほぼ独立した音声処理コミュニティ内でサイロ化されている。 近年の深層学習の進歩は,音声処理と主流NLPの手法に顕著な収束をもたらしている。 おそらく、この2つの分野を統一し、人間のコミュニケーションの第一の手段として音声言語を真剣に取り始めるための時期は熟しているだろう。 真に自然言語処理は、他の言語科学とのより良い統合につながる可能性があり、よりデータ効率が高く、より人間らしく、テキストのモダリティを超えてコミュニケーションできるシステムにつながる可能性がある。

Human language is firstly spoken and only secondarily written. Text, however, is a very convenient and efficient representation of language, and modern civilization has made it ubiquitous. Thus the field of NLP has overwhelmingly focused on processing written rather than spoken language. Work on spoken language, on the other hand, has been siloed off within the largely separate speech processing community which has been inordinately preoccupied with transcribing speech into text. Recent advances in deep learning have led to a fortuitous convergence in methods between speech processing and mainstream NLP. Arguably, the time is ripe for a unification of these two fields, and for starting to take spoken language seriously as the primary mode of human communication. Truly natural language processing could lead to better integration with the rest of language science and could lead to systems which are more data-efficient and more human-like, and which can communicate beyond the textual modality.
翻訳日:2023-05-24 23:35:24 公開日:2023-05-23
# 人工知能技術の最新動向:スコーピングレビュー

Latest Trends in Artificial Intelligence Technology: A Scoping Review ( http://arxiv.org/abs/2305.04532v2 )

ライセンス: Link先を確認
Teemu Niskanen, Tuomo Sipola, Olli V\"a\"an\"anen(参考訳) 人工知能は複数の領域においてよりユビキタスである。 スマートフォン、ソーシャルメディアプラットフォーム、検索エンジン、自動運転車は、人工知能技術を使ってパフォーマンスを向上させるアプリケーションの一例にすぎない。 本研究では、PRISMAフレームワークに続く最先端の人工知能技術のスコーピングレビューを行う。 目標は、人工知能技術研究のさまざまな分野で使われている最も先進的な技術を見つけることであった。 人工知能と機械学習の分野から認識された3つのジャーナル、journal of artificial intelligence research、journal of machine learning research、machine learningが使われ、2022年に出版された記事が観察された。 技術は同等のソリューションに対してテストされなければならず、一般的に承認されるか、あるいは適切に正当化されたデータセットは適用中に使用されなければならない。 技術開発の最も重要な部分の1つは、複数のソースから収集されたデータの処理と活用の方法であった。 データは高度に非構造化され、技術ソリューションは、人間による最小限の手動作業でデータを利用できるべきである。 このレビューの結果、ラベル付きデータセットの作成は非常に困難であり、教師なしまたは半教師なしの学習技術を利用したソリューションはますます研究されている。 学習アルゴリズムは効率的に更新でき、予測は解釈可能であるべきである。 現実の応用において人工知能技術を用いることで、安全と説明可能な予測は、大量導入が起こる前に考慮する必要がある。

Artificial intelligence is more ubiquitous in multiple domains. Smartphones, social media platforms, search engines, and autonomous vehicles are just a few examples of applications that utilize artificial intelligence technologies to enhance their performance. This study carries out a scoping review of the current state-of-the-art artificial intelligence technologies following the PRISMA framework. The goal was to find the most advanced technologies used in different domains of artificial intelligence technology research. Three recognized journals were used from artificial intelligence and machine learning domain: Journal of Artificial Intelligence Research, Journal of Machine Learning Research, and Machine Learning, and articles published in 2022 were observed. Certain qualifications were laid for the technological solutions: the technology must be tested against comparable solutions, commonly approved or otherwise well justified datasets must be used while applying, and results must show improvements against comparable solutions. One of the most important parts of the technology development appeared to be how to process and exploit the data gathered from multiple sources. The data can be highly unstructured and the technological solution should be able to utilize the data with minimum manual work from humans. The results of this review indicate that creating labeled datasets is very laborious, and solutions exploiting unsupervised or semi-supervised learning technologies are more and more researched. The learning algorithms should be able to be updated efficiently, and predictions should be interpretable. Using artificial intelligence technologies in real-world applications, safety and explainable predictions are mandatory to consider before mass adoption can occur.
翻訳日:2023-05-24 23:35:09 公開日:2023-05-23
# AADiff:テキストと画像の拡散によるオーディオ対応ビデオ合成

AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion ( http://arxiv.org/abs/2305.04001v2 )

ライセンス: Link先を確認
Seungwoo Lee, Chaerin Kong, Donghyeon Jeon, Nojun Kwak(参考訳) 拡散モデルの最近の進歩は、テキスト・トゥ・ビデオ(T2V)合成タスクにおいて有望な結果を示している。 しかし、これらのt2vモデルはテキストのみを指導として使用するため、詳細な時間ダイナミクスのモデリングに苦労する傾向がある。 本稿では,時間的ダイナミクスを制御するために音声信号を利用する新しいT2Vフレームワークを提案する。 本稿では,映像合成の相反する2つのデシデラタ,すなわち時間的柔軟性とコヒーレンスを良好にバランスさせるために,音声ベースの地域編集と信号平滑化を提案する。 実験により,本手法の有効性を実証的に実証し,さらにコンテンツ作成の実践的応用について述べる。

Recent advances in diffusion models have showcased promising results in the text-to-video (T2V) synthesis task. However, as these T2V models solely employ text as the guidance, they tend to struggle in modeling detailed temporal dynamics. In this paper, we introduce a novel T2V framework that additionally employ audio signals to control the temporal dynamics, empowering an off-the-shelf T2I diffusion to generate audio-aligned videos. We propose audio-based regional editing and signal smoothing to strike a good balance between the two contradicting desiderata of video synthesis, i.e., temporal flexibility and coherence. We empirically demonstrate the effectiveness of our method through experiments, and further present practical applications for contents creation.
翻訳日:2023-05-24 23:34:48 公開日:2023-05-23
# 単一フレームレイアウトによるマルチオブジェクトビデオ生成

Multi-object Video Generation from Single Frame Layouts ( http://arxiv.org/abs/2305.03983v2 )

ライセンス: Link先を確認
Yang Wu, Zhibin Liu, Hefeng Wu, Liang Lin(参考訳) 本稿では,生成条件の簡素化を重視した映像合成について検討する。 既存のビデオ合成モデルやデータセットは、単一のオブジェクトの複雑な動きに対処するために設計されており、複数のオブジェクト間の時空間関係を包括的に理解する能力がない。 また、現在の手法は通常、新しいビデオを生成するために複雑なアノテーション(例えばビデオセグメンテーション)で条件付けされる。 これにより、単一のフレームからオブジェクトレイアウトにのみ依存するマルチオブジェクトビデオを生成することができる。 上記の課題を解決し,レイアウトからの画像生成に関する最近の研究に触発された我々は,暗黙のニューラル表現とレイアウト動作自己推論を用いて,グローバルシーンを局所オブジェクトに合成できる新しいビデオ生成フレームワークを提案する。 我々のフレームワークは画像生成手法からの非自明な適応であり、この分野では新しいものである。 さらに,2つの広範に使用されているビデオ認識ベンチマークを用いて評価を行い,ベースラインモデルと比較して有効性を示した。

In this paper, we study video synthesis with emphasis on simplifying the generation conditions. Most existing video synthesis models or datasets are designed to address complex motions of a single object, lacking the ability of comprehensively understanding the spatio-temporal relationships among multiple objects. Besides, current methods are usually conditioned on intricate annotations (e.g. video segmentations) to generate new videos, being fundamentally less practical. These motivate us to generate multi-object videos conditioning exclusively on object layouts from a single frame. To solve above challenges and inspired by recent research on image generation from layouts, we have proposed a novel video generative framework capable of synthesizing global scenes with local objects, via implicit neural representations and layout motion self-inference. Our framework is a non-trivial adaptation from image generation methods, and is new to this field. In addition, our model has been evaluated on two widely-used video recognition benchmarks, demonstrating effectiveness compared to the baseline model.
翻訳日:2023-05-24 23:34:34 公開日:2023-05-23
# vera:commonsense文の汎用的妥当性推定モデル

Vera: A General-Purpose Plausibility Estimation Model for Commonsense Statements ( http://arxiv.org/abs/2305.03695v2 )

ライセンス: Link先を確認
Jiacheng Liu, Wenya Wang, Dianzhuo Wang, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi(参考訳) 今日の言語モデルでよく議論されている機能にもかかわらず、彼らはいまだにばかばかしく予期せぬコモンセンスの失敗の傾向にある。 我々は,lm出力の正確性を反映したふりかえり検証手法を検討し,共通認識知識に基づいて宣言文の妥当性を推定する汎用モデル vera を導入する。 19のqaデータセットと2つの大規模知識ベースから作成された約7mのcommonsenseステートメントでトレーニングされ、3つのトレーニング目標を組み合わせたveraは、さまざまなcommonsenseドメインにわたる不正ステートメントとを効果的に分離する汎用モデルである。 検証形式におけるコモンセンス問題の解法に適用した場合、Veraは、コモンセンス検証のために再利用できる既存のモデルを大幅に上回り、未確認タスクへの一般化能力を示し、よく校正された出力を提供する。 Vera は LM 生成したコモンセンス知識のフィルタリングに優れており,ChatGPT などのモデルが生成する誤ったコモンセンス文を実環境で検出するのに有用である。

Despite the much discussed capabilities of today's language models, they are still prone to silly and unexpected commonsense failures. We consider a retrospective verification approach that reflects on the correctness of LM outputs, and introduce Vera, a general-purpose model that estimates the plausibility of declarative statements based on commonsense knowledge. Trained on ~7M commonsense statements created from 19 QA datasets and two large-scale knowledge bases, and with a combination of three training objectives, Vera is a versatile model that effectively separates correct from incorrect statements across diverse commonsense domains. When applied to solving commonsense problems in the verification format, Vera substantially outperforms existing models that can be repurposed for commonsense verification, and it further exhibits generalization capabilities to unseen tasks and provides well-calibrated outputs. We find that Vera excels at filtering LM-generated commonsense knowledge and is useful in detecting erroneous commonsense statements generated by models like ChatGPT in real-world settings.
翻訳日:2023-05-24 23:34:17 公開日:2023-05-23
# 大規模視覚言語モデルにおける物体幻覚の評価

Evaluating Object Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2305.10355v2 )

ライセンス: Link先を確認
Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 大規模言語モデル(LLM)の優れた言語能力に触発されて、大規模視覚言語モデル(LVLM)は、複雑なマルチモーダルタスクの性能向上のために強力なLLMを統合することで近年研究されている。 lvlmsの有望な進歩にもかかわらず、lvlmsは幻覚の問題、すなわち記述のターゲット画像と矛盾するオブジェクトを生成する傾向がある。 本研究は,LVLMの物体幻覚に関する最初の体系的研究である。 いくつかの代表的LVLMに対して評価実験を行い, 主に重度物体幻覚障害に悩まされていることを示す。 さらに視覚的指示が幻覚に影響を及ぼす可能性についても議論し、視覚的指示に頻繁に発生する物体や、画像オブジェクトと共起する物体は明らかにLVLMによって幻覚される傾向にあることを示した。 また,既存の評価手法はLVLMの入力命令や生成スタイルに影響される可能性がある。 そこで我々は,popと呼ばれるポーリングベースの問合せ手法を提案することにより,対象幻覚の評価法を改良した。 実験の結果,POPEはより安定かつ柔軟な方法で物体幻覚を評価することができることがわかった。 私たちのコードとデータはhttps://github.com/RUCAIBox/POPEで公開されています。

Inspired by the superior language abilities of large language models (LLM), large vision-language models (LVLM) have been recently explored by integrating powerful LLMs for improving the performance on complex multimodal tasks. Despite the promising progress on LVLMs, we find that LVLMs suffer from the hallucination problem, i.e. they tend to generate objects that are inconsistent with the target images in the descriptions. To investigate it, this work presents the first systematic study on object hallucination of LVLMs. We conduct the evaluation experiments on several representative LVLMs, and show that they mostly suffer from severe object hallucination issue. We further discuss that the visual instructions may influence the hallucination, and find that: objects that frequently occur in the visual instructions or co-occur with the image objects, are obviously prone to be hallucinated by LVLMs. Besides, we find that existing evaluation methods might be affected by the input instructions and generation styles of LVLMs. Thus, we further design an improved evaluation method for object hallucination by proposing a polling-based query method called POPE. Experiment results demonstrate that our POPE can evaluate the object hallucination in a more stable and flexible way. Our codes and data are publicly available at https://github.com/RUCAIBox/POPE.
翻訳日:2023-05-24 23:29:02 公開日:2023-05-23
# 大規模ランガウジモデルにおけるシンボリック・プロンプト・エリシット計画

Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models ( http://arxiv.org/abs/2305.10276v2 )

ライセンス: Link先を確認
Hanxu Hu, Hongyuan Lu, Huajian Zhang, Wai Lam, Yue Zhang(参考訳) 本稿では,LLMが自然言語でシミュレートされた仮想空間環境を理解し,テキストで行動するために必要な複雑な計画課題におけるLLMの性能について検討する。 我々は,Brick World,NLVRベースのマニピュレーション,自然言語ナビゲーションといった新しいタスクからなる自然言語計画(NLP)というベンチマークを提案する。 現在の一般的なLLMであるChatGPTは、複雑な計画にはまだ能力がないことがわかった。 LLMは自然言語で記述された環境をよく理解しているのか、それとも記号表現のような他の代替手段はよりきれいで、LLMで理解しやすいのか? そこで本研究では,シンボリック空間表現が凝縮した複雑な環境を表現する新しい手法であるcos(chain-of-symbol prompting)を提案する。 CoSは使いやすく、LLMに関する追加のトレーニングは必要ありません。 大規模な実験の結果,CoT は ChatGPT と InstructGPT の CoT と比較して,入力に使用するトークンがさらに少ない3つの計画タスクにおいて,CoT プロンプトの性能を明らかに上回っていることがわかった。 Brick World for ChatGPTでは60.8%(31.8%から92.6%)の精度でパフォーマンスが向上した。 CoSはまた、ブリック・ワールドでのデモから中間段階のトークン(407から139まで)の65.8%まで、プロンプト内のトークンの数を明らかに削減している。

In this paper, we take the initiative to investigate the performance of LLMs on complex planning tasks that require LLMs to understand a virtual spatial environment simulated via natural language and act correspondingly in text. We propose a benchmark named Natural Language Planning (NLP) composed of a set of novel tasks: Brick World, NLVR-based Manipulations, and Natural Language Navigation. We found that current popular LLMs such as ChatGPT still lack abilities in complex planning. This arises a question -- do the LLMs have a good understanding of the environments described in natural language, or maybe other alternatives such as symbolic representations are neater and hence better to be understood by LLMs? To this end, we propose a novel method called CoS (Chain-of-Symbol Prompting) that represents the complex environments with condensed symbolic spatial representations during the chained intermediate thinking steps. CoS is easy to use and does not need additional training on LLMs. Extensive experiments indicate that CoS clearly surpasses the performance of the Chain-of-Thought (CoT) Prompting in all three planning tasks with even fewer tokens used in the inputs compared with CoT on ChatGPT and InstructGPT. The performance gain is strong, by up to 60.8% accuracy (from 31.8% to 92.6%) on Brick World for ChatGPT. CoS also reduces the number of tokens in the prompt obviously, by up to 65.8% of the tokens (from 407 to 139) for the intermediate steps from demonstrations on Brick World.
翻訳日:2023-05-24 23:28:41 公開日:2023-05-23
# 4096年のTokensビデオは、ゼロショットで見下ろすための会話的ストーリービデオ

A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot ( http://arxiv.org/abs/2305.09758v2 )

ライセンス: Link先を確認
Aanisha Bhattacharya, Yaman K Singla, Balaji Krishnamurthy, Rajiv Ratn Shah, Changyou Chen(参考訳) 広告やストーリービデオなどのマルチメディアコンテンツは、創造性と複数のモダリティの豊富なブレンドを示す。 テキスト、ビジュアル、オーディオ、ストーリーテリングといった要素が組み込まれており、感情、象徴、スローガンなどを使って意味を伝える。 マルチメディア理解におけるこれまでの研究は、主に料理のような特定のアクションを持つビデオに焦点を当ててきたが、大量の注釈付きトレーニングデータセットが発掘され、現実世界のアプリケーションに十分なパフォーマンスを持つ教師付き学習モデルの開発が妨げられている。 しかし、大規模言語モデル(LLM)の台頭は、感情分類、質問応答、話題分類など、様々な自然言語処理(NLP)タスクにおいて顕著なゼロショット性能をみせた。 マルチメディア理解におけるこのパフォーマンスギャップを埋めるため,本研究では,自然言語による記述を生成するために文章化ストーリービデオを提案し,生成したストーリーに対して,オリジナルビデオとは対照的にビデオ理解タスクを実行する。 5つのビデオ理解タスクに関する広範な実験を通じて,ゼロショットであるにも関わらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られることを実証した。 さらに、ストーリー理解ベンチマークの欠如を緩和し、計算社会科学における重要な課題である説得戦略識別に関する最初のデータセットを公開する。

Multimedia content, such as advertisements and story videos, exhibit a rich blend of creativity and multiple modalities. They incorporate elements like text, visuals, audio, and storytelling techniques, employing devices like emotions, symbolism, and slogans to convey meaning. While previous research in multimedia understanding has focused mainly on videos with specific actions like cooking, there is a dearth of large annotated training datasets, hindering the development of supervised learning models with satisfactory performance for real-world applications. However, the rise of large language models (LLMs) has witnessed remarkable zero-shot performance in various natural language processing (NLP) tasks, such as emotion classification, question-answering, and topic classification. To bridge this performance gap in multimedia understanding, we propose verbalizing story videos to generate their descriptions in natural language and then performing video-understanding tasks on the generated story as opposed to the original video. Through extensive experiments on five video-understanding tasks, we demonstrate that our method, despite being zero-shot, achieves significantly better results than supervised baselines for video understanding. Further, alleviating a lack of story understanding benchmarks, we publicly release the first dataset on a crucial task in computational social science, persuasion strategy identification.
翻訳日:2023-05-24 23:28:00 公開日:2023-05-23
# 説明不能な例がセキュリティの誤った感覚を与える: 学習可能な例で説明不能なデータをピアスする

Unlearnable Examples Give a False Sense of Security: Piercing through Unexploitable Data with Learnable Examples ( http://arxiv.org/abs/2305.09241v2 )

ライセンス: Link先を確認
Wan Jiang, Yunfeng Diao, He Wang, Jianxin Sun, Meng Wang, Richang Hong(参考訳) 不正な搾取からデータを保護することは、プライバシーとセキュリティにとって不可欠である。 この目的のために、データに知覚不可能な摂動を加え、それらに基づいてトレーニングされたモデルが、元のクリーンな分布でそれらを正確に分類できないようにすることで、近年、説得力のある保護として \textit{unlearnable examples} (UEs) が提案されている。 残念なことに、UEが誤ったセキュリティの感覚を提供するのは、未許可のユーザが他の保護されていないデータを使って保護を取り除くのを止められないからである。 この観察により、我々は、保護を取り除いたUEであるtextit{learnable unauthorized example} (LE)を導入して、新たな脅威を正式に定義する。 このアプローチの核は UE を LE の多様体に射影する新しい精製過程である。 これは、UEとLEの画素上条件付きおよび知覚的類似性を識別する新しいジョイント条件拡散モデルによって実現される。 広範囲にわたる実験により、LEは様々なシナリオにおいて教師なしのUEと教師なしのUEの両方に対して最先端の対応性能を提供することを示した。

Safeguarding data from unauthorized exploitation is vital for privacy and security, especially in recent rampant research in security breach such as adversarial/membership attacks. To this end, \textit{unlearnable examples} (UEs) have been recently proposed as a compelling protection, by adding imperceptible perturbation to data so that models trained on them cannot classify them accurately on original clean distribution. Unfortunately, we find UEs provide a false sense of security, because they cannot stop unauthorized users from utilizing other unprotected data to remove the protection, by turning unlearnable data into learnable again. Motivated by this observation, we formally define a new threat by introducing \textit{learnable unauthorized examples} (LEs) which are UEs with their protection removed. The core of this approach is a novel purification process that projects UEs onto the manifold of LEs. This is realized by a new joint-conditional diffusion model which denoises UEs conditioned on the pixel and perceptual similarity between UEs and LEs. Extensive experiments demonstrate that LE delivers state-of-the-art countering performance against both supervised UEs and unsupervised UEs in various scenarios, which is the first generalizable countermeasure to UEs across supervised learning and unsupervised learning.
翻訳日:2023-05-24 23:27:36 公開日:2023-05-23
# 伝達因果学習:知識伝達を用いた因果効果推定

Transfer Causal Learning: Causal Effect Estimation with Knowledge Transfer ( http://arxiv.org/abs/2305.09126v2 )

ライセンス: Link先を確認
Song Wei, Ronald Moore, Hanyu Zhang, Yao Xie, Rishikesan Kamaleswaran(参考訳) 同一共変量(または特徴)空間設定下での知識伝達の助けを借りて因果効果推定精度を向上させる新たな問題、すなわち同種移動学習(TL)について検討し、伝達因果学習(TCL)問題と呼ぶ。 TL手法を適用して平均因果効果(ACE)を推定する最近の研究は異種共変量空間の設定に重点を置いているが、アルゴリズム設計は共有およびドメイン固有の共変量空間への分解に基づいているため、TCL問題に取り組むには不十分である。 この問題に対処するため,Nuisanceパラメータ推定のための$\ell_1$-TCLという汎用フレームワークと,結果回帰,逆確率重み付け,二重頑健な推定器を含む下流プラグインACE推定器を提案する。 最も重要なことは、ラッソの高次元回帰の助けを借りて、提案された$\ell_1$-TCLの空間的仮定の下で一般化線形モデル(GLM)の漸近的回復を保証することである。 実証的な観点から、$\ell_1$-TCLは、GLMだけでなく、最近開発された多くの非パラメトリックメソッドを組み込むことができる汎用的な学習フレームワークである。 glmと最近のニューラルネットワークベースのアプローチの両方を$\ell_1$-tclに組み込むことで、この経験的利点を広範囲な数値シミュレーションにより実証する。 さらに、当社の$\ell_1$-TCLフレームワークを実際の研究に適用し、血管圧薬療法が敗血症患者の28日間の死亡を予防できることを示した。

A novel problem of improving causal effect estimation accuracy with the help of knowledge transfer under the same covariate (or feature) space setting, i.e., homogeneous transfer learning (TL), is studied, referred to as the Transfer Causal Learning (TCL) problem. While most recent efforts in adapting TL techniques to estimate average causal effect (ACE) have been focused on the heterogeneous covariate space setting, those methods are inadequate for tackling the TCL problem since their algorithm designs are based on the decomposition into shared and domain-specific covariate spaces. To address this issue, we propose a generic framework called $\ell_1$-TCL, which incorporates $\ell_1$ regularized TL for nuisance parameter estimation and downstream plug-in ACE estimators, including outcome regression, inverse probability weighted, and doubly robust estimators. Most importantly, with the help of Lasso for high-dimensional regression, we establish non-asymptotic recovery guarantees for the generalized linear model (GLM) under the sparsity assumption for the proposed $\ell_1$-TCL. From an empirical perspective, $\ell_1$-TCL is a generic learning framework that can incorporate not only GLM but also many recently developed non-parametric methods, which can enhance robustness to model mis-specification. We demonstrate this empirical benefit through extensive numerical simulation by incorporating both GLM and recent neural network-based approaches in $\ell_1$-TCL, which shows improved performance compared with existing TL approaches for ACE estimation. Furthermore, our $\ell_1$-TCL framework is subsequently applied to a real study, revealing that vasopressor therapy could prevent 28-day mortality within septic patients, which all baseline approaches fail to show.
翻訳日:2023-05-24 23:27:06 公開日:2023-05-23
# 医用画像解析のためのパラメーター効率の微調整:逃避機会

Parameter-Efficient Fine-Tuning for Medical Image Analysis: The Missed Opportunity ( http://arxiv.org/abs/2305.08252v2 )

ライセンス: Link先を確認
Raman Dutt, Linus Ericsson, Pedro Sanchez, Sotirios A. Tsaftaris, Timothy Hospedales(参考訳) 本稿では,多種多様な医用画像解析タスクにおけるパラメータ効率向上技術(PEFT)の総合評価について述べる。 PEFTは、自然言語処理、ビジョン、スピーチ、そして視覚言語やテキスト・ツー・イメージ生成のようなモーダルなタスクにおいて、事前訓練されたモデルから知識を伝達するための貴重なアプローチとして、ますます活用されている。 しかし、医用画像解析への応用はいまだに未解明である。 基礎モデルが医学領域でますます活用されるようになるにつれて、ダウンストリームタスクの範囲を補強する知識伝達の様々な戦略を調査し、比較評価することが重要となる。 コンボリューションとトランスフォーマーに基づくネットワークのために提案された16種類のPEFT手法を,サイズ,モダリティ,複雑性の6つの医学データセットを対象とした画像分類とテキスト・ツー・イメージ生成タスクに着目し,本研究で評価した。 600以上の制御された実験により,特定のシナリオ下では最大22%の性能向上を示し,医療用テキスト・画像生成におけるPEFTの有効性を示した。 さらに, 従来の微調整手法よりもPEFT法が特に優位である事例を明らかにし, 下流データ量との関係について検討する。

We present a comprehensive evaluation of Parameter-Efficient Fine-Tuning (PEFT) techniques for diverse medical image analysis tasks. PEFT is increasingly exploited as a valuable approach for knowledge transfer from pre-trained models in natural language processing, vision, speech, and cross-modal tasks, such as vision-language and text-to-image generation. However, its application in medical image analysis remains relatively unexplored. As foundation models are increasingly exploited in the medical domain, it is crucial to investigate and comparatively assess various strategies for knowledge transfer that can bolster a range of downstream tasks. Our study, the first of its kind (to the best of our knowledge), evaluates 16 distinct PEFT methodologies proposed for convolutional and transformer-based networks, focusing on image classification and text-to-image generation tasks across six medical datasets ranging in size, modality, and complexity. Through a battery of more than 600 controlled experiments, we demonstrate performance gains of up to 22% under certain scenarios and demonstrate the efficacy of PEFT for medical text-to-image generation. Further, we reveal the instances where PEFT methods particularly dominate over conventional fine-tuning approaches by studying their relationship with downstream data volume.
翻訳日:2023-05-24 23:26:30 公開日:2023-05-23
# mAedesID:畳み込みニューラルネットワークを用いた昆虫種同定のためのAndroidアプリケーション

mAedesID: Android Application for Aedes Mosquito Species Identification using Convolutional Neural Network ( http://arxiv.org/abs/2305.07664v2 )

ライセンス: Link先を確認
G. Jeyakodi, Trisha Agarwal, P. Shanthi Bala(参考訳) ベクター・ボーン病(英: vector-borne disease、vbd)は、蚊が媒介する感染症である。 Aedes 蚊ベクターの拡散を減らしてデング病を抑えることが重要である。 コミュニティの意識は、エイデスのプログラムを確実に制御し、コミュニティに活発な参加を促すために、厳しい役割を担っている。 蚊の種を特定することは、地域の蚊の密度を認識し、特定の地域で蚊の防除活動を強化するのに役立つ。 これは、住宅地周辺のエーズ繁殖地を避け、成虫の蚊を減らすのに役立つ。 この目的を達成するために、コミュニティが蚊のコントロールイベントに貢献するのに役立つAedes種を特定するアンドロイドアプリケーションを開発した。 いくつかのAndroidアプリケーションは、鳥類、植物種、およびアノフェレス蚊種などの種を特定するために開発されている。 本研究では,種画像分類に適した深層学習畳み込みニューラルネットワーク(cnn)アルゴリズムを用いて,aedesモスキート種を識別するためのユーザフレンドリーなモバイルアプリケーションmaedesidを開発した。 モバイルアプリはURLhttps://tinyurl.com/mAedesIDからダウンロードできる。

Vector-Borne Disease (VBD) is an infectious disease transmitted through the pathogenic female Aedes mosquito to humans and animals. It is important to control dengue disease by reducing the spread of Aedes mosquito vectors. Community awareness plays acrucial role to ensure Aedes control programmes and encourages the communities to involve active participation. Identifying the species of mosquito will help to recognize the mosquito density in the locality and intensifying mosquito control efforts in particular areas. This willhelp in avoiding Aedes breeding sites around residential areas and reduce adult mosquitoes. To serve this purpose, an android application are developed to identify Aedes species that help the community to contribute in mosquito control events. Several Android applications have been developed to identify species like birds, plant species, and Anopheles mosquito species. In this work, a user-friendly mobile application mAedesID is developed for identifying the Aedes mosquito species using a deep learning Convolutional Neural Network (CNN) algorithm which is best suited for species image classification and achieves better accuracy for voluminous images. The mobile application can be downloaded from the URLhttps://tinyurl.com/mAedesID.
翻訳日:2023-05-24 23:26:07 公開日:2023-05-23
# 混合状態の局所幾何学と量子幾何学テンソル

Local geometry and quantum geometric tensor of mixed states ( http://arxiv.org/abs/2305.07597v2 )

ライセンス: Link先を確認
Xu-Yang Hou, Zheng Zhou, Xin Wang, Hao Guo, Chih-Chun Chien(参考訳) 量子幾何学テンソル(QGT)は、量子状態の局所幾何学を特徴づける基本的な概念である。 純量子状態の幾何学を鋳造し、QGTを抽出した後、密度行列とその精製を通じて混合量子状態に一般化する。 混合状態のゲージ不変量 qgt は導出され、その実部と虚部はそれぞれバーズ計量とウルマン形式である。 ベリー曲率に比例する純粋状態 QGT の虚部とは対照的に、ウルマン形式は通常の物理過程に対して同一に消える。 さらに、異なる局所距離を結び、基礎となるフィブレーションを反映するピタゴラス型方程式が存在する。 ビューズ計量は、密度行列の固有値がプロセス中に変化しない場合、温度がゼロに近づくとフビニ・スタディ計量に還元され、純粋な状態と混合状態の対応が確立される。 また,局所的な地形を対比した2つの例を示し,実験的含意について論じる。

The quantum geometric tensor (QGT) is a fundamental concept for characterizing the local geometry of quantum states. After casting the geometry of pure quantum states and extracting the QGT, we generalize the geometry to mixed quantum states via the density matrix and its purification. The gauge-invariant QGT of mixed states is derived, whose real and imaginary parts are the Bures metric and the Uhlmann form, respectively. In contrast to the imaginary part of the pure-state QGT that is proportional to the Berry curvature, the Uhlmann form vanishes identically for ordinary physical processes. Moreover, there exists a Pythagorean-like equation that links different local distances and reflect the underlying fibration. The Bures metric reduces to the Fubini-Study metric as temperature approaches zero if the eigenvalues of the density matrix do not change during the process, establishing a correspondence between pure and mixed states. We also present two examples with contrasting local geometries and discuss experimental implications.
翻訳日:2023-05-24 23:25:47 公開日:2023-05-23
# AIにおけるユーザ信頼談話の課題と動向

Challenges and Trends in User Trust Discourse in AI ( http://arxiv.org/abs/2305.11876v2 )

ライセンス: Link先を確認
Sonia Sousa, Jose Cravino, Paulo Martins(参考訳) 1990年のインターネット革命、続いてデータ駆動と情報革命は、私たちが知っているように世界を変えた。 現在、10〜20年前には、科学フィクションのアイデア(すなわち、世界を支配する機械)が可能である。 この革命は、ユーザー信頼と人工知能(AI)の言説が中心的な役割を果たす新しい規制プラクティスの必要性ももたらした。 この研究は、AI談話におけるユーザーの信頼に関する誤解を明確にし、脆弱なインタラクションを設計する傾向と戦うことを目的としており、現実と知覚の両方において、信頼のさらなる侵害につながる。 発見は、ユーザ信頼の理解における明確さの欠如と、そのコンピュータ科学への影響、特にユーザ信頼特性の測定の欠如を示している。 AIの採用と評価において、信頼のギャップや誤解を避けるためにこれらの概念を明確にする。

The Internet revolution in 1990, followed by the data-driven and information revolution, has transformed the world as we know it. Nowadays, what seam to be 10 to 20 years ago, a science fiction idea (i.e., machines dominating the world) is seen as possible. This revolution also brought a need for new regulatory practices where user trust and artificial Intelligence (AI) discourse has a central role. This work aims to clarify some misconceptions about user trust in AI discourse and fight the tendency to design vulnerable interactions that lead to further breaches of trust, both real and perceived. Findings illustrate the lack of clarity in understanding user trust and its effects on computer science, especially in measuring user trust characteristics. It argues for clarifying those notions to avoid possible trust gaps and misinterpretations in AI adoption and appropriation.
翻訳日:2023-05-24 23:18:28 公開日:2023-05-23
# instruct2act: 大規模言語モデルによるマルチモダリティ命令とロボット動作のマッピング

Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model ( http://arxiv.org/abs/2305.11176v2 )

ライセンス: Link先を確認
Siyuan Huang, Zhengkai Jiang, Hao Dong, Yu Qiao, Peng Gao, Hongsheng Li(参考訳) 基礎モデルは、テキストから画像への生成、panopticのセグメンテーション、自然言語処理など、様々なアプリケーションで大きな進歩を遂げている。 Instruct2Actは,大規模言語モデルを用いて複数モーダル命令をロボット操作タスクの逐次動作にマッピングするフレームワークである。 具体的には、インストラクト2ActはLLMモデルを使用して、ロボットタスクの包括的な認識、計画、アクションループを構成するPythonプログラムを生成する。 認識セクションでは、事前に定義されたAPIを使用して複数の基盤モデルにアクセスし、Segment Anything Model(SAM)が候補オブジェクトを正確に特定し、CLIPがそれらを分類する。 このように、このフレームワークは基礎モデルとロボット能力の専門知識を活用し、複雑な高レベルの命令を正確なポリシーコードに変換する。 我々のアプローチは、様々な命令のモダリティや入力タイプを調整し、特定のタスク要求に合わせて調整できる。 テーブルトップ操作領域内の異なるシナリオのロボットタスクで評価することにより,本手法の実用性と効率性を検証する。 さらに,ゼロショット法は,いくつかのタスクにおいて,最先端の学習ベースポリシを上回っていた。 私たちの提案するアプローチのコードはhttps://github.com/opengvlab/instruct2actで利用可能です。

Foundation models have made significant strides in various applications, including text-to-image generation, panoptic segmentation, and natural language processing. This paper presents Instruct2Act, a framework that utilizes Large Language Models to map multi-modal instructions to sequential actions for robotic manipulation tasks. Specifically, Instruct2Act employs the LLM model to generate Python programs that constitute a comprehensive perception, planning, and action loop for robotic tasks. In the perception section, pre-defined APIs are used to access multiple foundation models where the Segment Anything Model (SAM) accurately locates candidate objects, and CLIP classifies them. In this way, the framework leverages the expertise of foundation models and robotic abilities to convert complex high-level instructions into precise policy codes. Our approach is adjustable and flexible in accommodating various instruction modalities and input types and catering to specific task demands. We validated the practicality and efficiency of our approach by assessing it on robotic tasks in different scenarios within tabletop manipulation domains. Furthermore, our zero-shot method outperformed many state-of-the-art learning-based policies in several tasks. The code for our proposed approach is available at https://github.com/OpenGVLab/Instruct2Act, serving as a robust benchmark for high-level robotic instruction tasks with assorted modality inputs.
翻訳日:2023-05-24 23:18:13 公開日:2023-05-23
# 名前付きエンティティ認識のための文脈内学習

Learning In-context Learning for Named Entity Recognition ( http://arxiv.org/abs/2305.11038v2 )

ライセンス: Link先を確認
Jiawei Chen, Yaojie Lu, Hongyu Lin, Jie Lou, Wei Jia, Dai Dai, Hua Wu, Boxi Cao, Xianpei Han and Le Sun(参考訳) 実世界のアプリケーションにおける名前付きエンティティ認識は、エンティティタイプの多様性、新しいエンティティ型の発生、高品質なアノテーションの欠如に苦しむ。 上記の問題に対処するため,本論文では,テキスト内NER能力を PLM に効果的に注入し,いくつかの実証例を用いて新たなタイプのエンティティをオンザフライで認識する,コンテキスト内学習に基づくNERアプローチを提案する。 具体的には、PLMをメタ関数 $\mathcal{ \lambda_ {\text{instruction, demonstrations, text}} としてモデル化する。 新しいエンティティ抽出器は、plm、すなわち$\mathcal{ (\lambda.m}$) に新しい命令とデモンストレーションを適用することで暗黙的に構築できる。 M) }$(インストラクション、デモ)$\to$ $\mathcal{F}$ where $\mathcal{F}$は新しいエンティティ抽出子、すなわち、$\mathcal{F}$: text $\to$エンティティとなる。 そこで本稿では,PLM に記述中の NER 能力を注入するメタ関数事前学習アルゴリズムを提案し,PLM を(指示,実演)初期抽出器と代用ゴールデン抽出器とを比較して事前学習する。 数発のNERデータセットによる実験結果から,本手法はテキスト内NER能力をPLMに効果的に注入し,PLM+fin-tuningよりも優れていた。

Named entity recognition in real-world applications suffers from the diversity of entity types, the emergence of new entity types, and the lack of high-quality annotations. To address the above problems, this paper proposes an in-context learning-based NER approach, which can effectively inject in-context NER ability into PLMs and recognize entities of novel types on-the-fly using only a few demonstrative instances. Specifically, we model PLMs as a meta-function $\mathcal{ \lambda_ {\text{instruction, demonstrations, text}}. M}$, and a new entity extractor can be implicitly constructed by applying new instruction and demonstrations to PLMs, i.e., $\mathcal{ (\lambda . M) }$(instruction, demonstrations) $\to$ $\mathcal{F}$ where $\mathcal{F}$ will be a new entity extractor, i.e., $\mathcal{F}$: text $\to$ entities. To inject the above in-context NER ability into PLMs, we propose a meta-function pre-training algorithm, which pre-trains PLMs by comparing the (instruction, demonstration)-initialized extractor with a surrogate golden extractor. Experimental results on 4 few-shot NER datasets show that our method can effectively inject in-context NER ability into PLMs and significantly outperforms the PLMs+fine-tuning counterparts.
翻訳日:2023-05-24 23:17:30 公開日:2023-05-23
# 量子インスパイアテンソルトレイン有限要素法による化学ミキサーの非圧縮ナビエ・ストークス方程式の数値解法

Numerical solution of the incompressible Navier-Stokes equations for chemical mixers via quantum-inspired Tensor Train Finite Element Method ( http://arxiv.org/abs/2305.10784v2 )

ライセンス: Link先を確認
Egor Kornev, Sergey Dolgov, Karan Pinto, Markus Pflitsch, Michael Perelshtein, and Artem Melnikov(参考訳) 計算流体力学問題の解は最も計算が難しいタスクの一つであり、特に複雑なジオメトリや乱流のレジームの場合である。 本稿では,問題サイズの対数複雑性を持ち,データ表現の構造において量子アルゴリズムと非常に類似したテンソルトレイン(tt)法を提案する。 テンソル列有限要素法(テトラフェム法)と、テンソル列による非圧縮ナビエ-ストークス方程式の解に対する明示的な数値スキームを開発した。 我々は,T字型ミキサーの液体混合シミュレーションにおいて,このような非自明な測地におけるテンソル法を用いて本手法を初めて行った。 期待されたように、全てのFEM行列のメモリにおける指数的圧縮を実現し、高密度メッシュ上の従来のFEM実装と比較して指数的高速化を示す。 さらに,この手法を量子コンピュータに拡張してより複雑な問題を解く可能性についても検討する。 本論文は, evonik industries ag で実施した研究に基づくものである。

The solution of computational fluid dynamics problems is one of the most computationally hard tasks, especially in the case of complex geometries and turbulent flow regimes. We propose to use Tensor Train (TT) methods, which possess logarithmic complexity in problem size and have great similarities with quantum algorithms in the structure of data representation. We develop the Tensor train Finite Element Method -- TetraFEM -- and the explicit numerical scheme for the solution of the incompressible Navier-Stokes equation via Tensor Trains. We test this approach on the simulation of liquids mixing in a T-shape mixer, which, to our knowledge, was done for the first time using tensor methods in such non-trivial geometries. As expected, we achieve exponential compression in memory of all FEM matrices and demonstrate an exponential speed-up compared to the conventional FEM implementation on dense meshes. In addition, we discuss the possibility of extending this method to a quantum computer to solve more complex problems. This paper is based on work we conducted for Evonik Industries AG.
翻訳日:2023-05-24 23:17:03 公開日:2023-05-23
# Masked Language Model Scoringのためのより良い方法

A Better Way to Do Masked Language Model Scoring ( http://arxiv.org/abs/2305.10588v2 )

ライセンス: Link先を確認
Carina Kauf and Anna Ivanova(参考訳) 自己回帰言語モデルの下で与えられた文のログ様度を推定するのは簡単である: チェーンルールを適用して、連続するトークンごとにログ様度値を和化することができる。 しかし、マスク言語モデル(mlms)では、文のログ類似度を推定する直接的方法は存在しない。 Salazar et al. (2020) は、各文トークンを連続的にマスキングし、残りの文を文脈として取り出し、結果の値を和らげることによって計算される文擬似log-likelihood (PLL) スコアを推定することを提案する。 そこで本研究では,原文のpll法が語彙外の単語に対して膨らませたスコアを与え,対象のトークンだけでなく,単語内のすべてのトークンをターゲットの右にマスクする適応指標を提案する。 適応された測度 (PLL-word-l2r) は、元のPLL測度とPLL測度の両方に優れており、すべての単語内トークンがマスクされていることを示す。 特に、理論的なデシデラタを満足し、自己回帰モデルからのスコアとよりよく相関する。 最後に,MLM特性を評価するための適切な評価基準を選択することの重要性を強調し,指標の選択がより厳密に制御された最小ペア評価ベンチマーク(BLiMPなど)に影響を与えることを示す。

Estimating the log-likelihood of a given sentence under an autoregressive language model is straightforward: one can simply apply the chain rule and sum the log-likelihood values for each successive token. However, for masked language models (MLMs), there is no direct way to estimate the log-likelihood of a sentence. To address this issue, Salazar et al. (2020) propose to estimate sentence pseudo-log-likelihood (PLL) scores, computed by successively masking each sentence token, retrieving its score using the rest of the sentence as context, and summing the resulting values. Here, we demonstrate that the original PLL method yields inflated scores for out-of-vocabulary words and propose an adapted metric, in which we mask not only the target token, but also all within-word tokens to the right of the target. We show that our adapted metric (PLL-word-l2r) outperforms both the original PLL metric and a PLL metric in which all within-word tokens are masked. In particular, it better satisfies theoretical desiderata and better correlates with scores from autoregressive models. Finally, we show that the choice of metric affects even tightly controlled, minimal pair evaluation benchmarks (such as BLiMP), underscoring the importance of selecting an appropriate scoring metric for evaluating MLM properties.
翻訳日:2023-05-24 23:16:15 公開日:2023-05-23
# クロスモーダルセマンティクスのマイニングによるオブジェクトセグメンテーション

Object Segmentation by Mining Cross-Modal Semantics ( http://arxiv.org/abs/2305.10469v2 )

ライセンス: Link先を確認
Zongwei Wu, Jingjing Wang, Zhuyun Zhou, Zhaochong An, Qiuping Jiang, C\'edric Demonceaux, Guolei Sun, Radu Timofte(参考訳) マルチセンサーの手がかりはオブジェクトのセグメンテーションに有望であるが、各センサの固有のノイズは、実際にはキャリブレーションエラーと同様に、セグメンテーションの精度をバイアスする可能性がある。 本稿では,マルチモーダル特徴の融合と復号化を導くために,クロスモーダル・セマンティックスをマイニングし,相対エントロピーに基づくモーダルコントリビューションの制御を目的とした新しいアプローチを提案する。 マルチモーダル入力のセマンティクスは、モダリティ共有一貫性とモダリティ固有変動の2つの側面で検討する。 具体的には,(1)全周可視核融合(af),(2)粗視デコーダ(cfd),(3)クロスレイヤー自己スーパービジョンからなる,xmsnetと呼ばれる新しいネットワークを提案する。 一方、AFブロックは、共有表現と特定表現を明示的に解離させ、品質に応じて比率、領域、パターンを調整することで、モーダル寄与を重み付けすることを学ぶ。 一方、当社のCFDは、まず共有機能をデコードし、それから特異性を考慮したクエリによって出力を洗練します。 さらに,ネットワーク階層間のインタラクションを可能にするために,復号層間の意味的一貫性を強制し,特徴判別性を改善する。 深さや熱的手がかりのある11のデータセットと、salientとcamouflage object segmentationという2つの困難なタスクの徹底的な比較は、パフォーマンスとロバスト性の両方の観点からの有効性を検証する。

Multi-sensor clues have shown promise for object segmentation, but inherent noise in each sensor, as well as the calibration error in practice, may bias the segmentation accuracy. In this paper, we propose a novel approach by mining the Cross-Modal Semantics to guide the fusion and decoding of multimodal features, with the aim of controlling the modal contribution based on relative entropy. We explore semantics among the multimodal inputs in two aspects: the modality-shared consistency and the modality-specific variation. Specifically, we propose a novel network, termed XMSNet, consisting of (1) all-round attentive fusion (AF), (2) coarse-to-fine decoder (CFD), and (3) cross-layer self-supervision. On the one hand, the AF block explicitly dissociates the shared and specific representation and learns to weight the modal contribution by adjusting the proportion, region, and pattern, depending upon the quality. On the other hand, our CFD initially decodes the shared feature and then refines the output through specificity-aware querying. Further, we enforce semantic consistency across the decoding layers to enable interaction across network hierarchies, improving feature discriminability. Exhaustive comparison on eleven datasets with depth or thermal clues, and on two challenging tasks, namely salient and camouflage object segmentation, validate our effectiveness in terms of both performance and robustness.
翻訳日:2023-05-24 23:15:31 公開日:2023-05-23
# 破れのない忠実さで魔法の状態を符号化する

Encoding a magic state with beyond break-even fidelity ( http://arxiv.org/abs/2305.13581v1 )

ライセンス: Link先を確認
Riddhi S. Gupta, Neereja Sundaresan, Thomas Alexander, Christopher J. Wood, Seth T. Merkel, Michael B. Healy, Marius Hillenbrand, Tomas Jochym-O'Connor, James R. Wootton, Theodore J. Yoder, Andrew W. Cross, Maika Takita and Benjamin J. Brown(参考訳) 我々は、大規模量子コンピューティングに必要なフォールトトレラント論理ゲートの普遍的なセットを完成させるために、マジックステートを蒸留する。 蒸留手順の質の高い入力状態をエンコードすることで、マジック状態を生成するためのかなりのリソースコストを削減できる。 我々は、超伝導量子ビットの配列上にcz状態と呼ばれる2量子ビット入力マジック状態の誤り抑制符号化方式を示す。 単一の回路エラーにも耐性のある投影論理ポーリ測定の完全なセットを用いて,不確かさ (1.87 \pm 0.16) \times 10^{-2}$ で用意されたマジック状態を示す回路を提案する。 さらに,中回路計測結果にリアルタイムに条件づけされた適応回路素子を用いることで,提案方式の利得が向上した。 実験の結果は適応回路の代わりにポストセレクションのみを用いる場合や、コードのデータキュービット上の量子状態トモグラフィーを用いて出力状態を問う場合など、実験のバリエーションと一致している。 特筆すべきは、誤差抑圧された準備実験は、同じデバイス上の1対の物理量子ビット上で同じ未符号化のマジック状態を作成することの忠実さを実証する。

We distill magic states to complete a universal set of fault-tolerant logic gates that is needed for large-scale quantum computing. By encoding better quality input states for our distillation procedure, we can reduce the considerable resource cost of producing magic states. We demonstrate an error-suppressed encoding scheme for a two-qubit input magic state, that we call the CZ state, on an array of superconducting qubits. Using a complete set of projective logical Pauli measurements, that are also tolerant to a single circuit error, we propose a circuit that demonstrates a magic state prepared with infidelity $(1.87 \pm 0.16) \times 10^{-2}$. Additionally, the yield of our scheme increases with the use of adaptive circuit elements that are conditioned in real time on mid-circuit measurement outcomes. We find our results are consistent with variations of the experiment, including where we use only post-selection in place of adaptive circuits, and where we interrogate our output state using quantum state tomography on the data qubits of the code. Remarkably, the error-suppressed preparation experiment demonstrates a fidelity exceeding that of the preparation of the same unencoded magic-state on any single pair of physical qubits on the same device.
翻訳日:2023-05-24 20:02:24 公開日:2023-05-23
# カスタマイズされたテキスト対画像生成のための詳細保存の強化:正規化フリーアプローチ

Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach ( http://arxiv.org/abs/2305.13579v1 )

ライセンス: Link先を確認
Yufan Zhou, Ruiyi Zhang, Tong Sun, Jinhui Xu(参考訳) 最近のテキスト対画像生成モデルは、高い忠実度でテキストに整合した画像を生成する素晴らしい能力を示している。 しかし、ユーザ入力画像から提供される新しい概念の画像を生成することは依然として難しい課題である。 この問題に対処するため、研究者は事前訓練されたテキスト・画像生成モデルをカスタマイズする様々な方法を模索してきた。 現在、トレーニング済みのテキスト・ツー・イメージ生成モデルをカスタマイズするほとんどの方法には、オーバーフィットを防ぐために正規化技術が使われている。 正規化はカスタマイズの難しさを和らげ、テキスト指導に関してコンテンツ作成を成功させるが、モデルの能力を制限する可能性があるため、詳細な情報が失われ、パフォーマンスが低下する。 本稿では,正規化を使わずにテキスト対画像生成をカスタマイズする新しいフレームワークを提案する。 具体的には,正規化を使わずに過度に適合する問題に対処可能な,エンコーダネットワークと新しいサンプリング手法から構成する。 提案フレームワークでは,単一のgpu上で30分以内の大規模テキストから画像への生成モデルを,ユーザが提供した1つのイメージでカスタマイズすることが可能である。 提案するフレームワークが既存の手法より優れており、よりきめ細かい詳細を保存できることを示す。

Recent text-to-image generation models have demonstrated impressive capability of generating text-aligned images with high fidelity. However, generating images of novel concept provided by the user input image is still a challenging task. To address this problem, researchers have been exploring various methods for customizing pre-trained text-to-image generation models. Currently, most existing methods for customizing pre-trained text-to-image generation models involve the use of regularization techniques to prevent over-fitting. While regularization will ease the challenge of customization and leads to successful content creation with respect to text guidance, it may restrict the model capability, resulting in the loss of detailed information and inferior performance. In this work, we propose a novel framework for customized text-to-image generation without the use of regularization. Specifically, our proposed framework consists of an encoder network and a novel sampling method which can tackle the over-fitting problem without the use of regularization. With the proposed framework, we are able to customize a large-scale text-to-image generation model within half a minute on single GPU, with only one image provided by the user. We demonstrate in experiments that our proposed framework outperforms existing methods, and preserves more fine-grained details.
翻訳日:2023-05-24 20:02:03 公開日:2023-05-23
# マルチスケール情報理論を用いたデータサイエンスへのアプローチ

Approach to Data Science with Multiscale Information Theory ( http://arxiv.org/abs/2305.13576v1 )

ライセンス: Link先を確認
Shahid Nawaz, Muhammad Saleem, F. V. Kusmartsev, Dalaver H. Anjum(参考訳) データサイエンスは、大規模で複雑なデータセットから貴重な洞察と知識を抽出する上で重要な役割を果たす、多分野の分野である。 データサイエンスの領域内では、情報理論(IT)と統計力学(SM)の2つの基本的な構成要素があり、データセットの性質を理解するための理論的枠組みを提供する。 ITは情報の効率的な保存と送信を可能にし、SMは多数の相互作用コンポーネントからなるシステムの振る舞いに焦点を当てている。 データサイエンスの文脈では、smはデータセット内の変数間の複雑なインタラクションをモデル化できる。 これらのツールを利用することで、データサイエンティストはデータ特性を深く理解することができ、分析と解釈のための高度なモデルとアルゴリズムの開発に繋がる。 その結果、データサイエンスは、財務、マーケティング、医療、科学研究など、さまざまな分野における正確な予測と意思決定を促進する可能性がある。 本稿では,このデータサイエンスの枠組みを,粒子からなる大規模で複雑な量子力学系に適用する。 本研究は,SMのボルツマン法によるマルチスケールエントロピック・ダイナミクス(MED)手法を用いて,そのようなシステムの動的・確率的性質を効果的に扱うことができることを示す。 MEDアプローチを通じて、非線形シュリンガー方程式の一般形式を定式化し、電子、プラズモン、ポーラロン、ソリトンのような粒子や準粒子を持つ様々な系にどのように適用できるかを記述できる。 この革新的なアプローチを採用することで、量子力学系とその挙動を複雑な材料の中でより深く理解する道を開いた。

Data Science is a multidisciplinary field that plays a crucial role in extracting valuable insights and knowledge from large and intricate datasets. Within the realm of Data Science, two fundamental components are Information Theory (IT) and Statistical Mechanics (SM), which provide a theoretical framework for understanding dataset properties. IT enables efficient storage and transmission of information, while SM focuses on the behavior of systems comprising numerous interacting components. In the context of data science, SM allows us to model complex interactions among variables within a dataset. By leveraging these tools, data scientists can gain a profound understanding of data properties, leading to the development of advanced models and algorithms for analysis and interpretation. Consequently, data science has the potential to drive accurate predictions and enhance decision-making across various domains, including finance, marketing, healthcare, and scientific research. In this paper, we apply this data science framework to a large and intricate quantum mechanical system composed of particles. Our research demonstrates that the dynamic and probabilistic nature of such systems can be effectively addressed using a Multiscale Entropic Dynamics (MED) approach, derived from the Boltzmann methods of SM. Through the MED approach, we can describe the system's dynamics by formulating a general form of the Nonlinear Schr\"odinger equation and how it can be applied to various systems with particles and quasi-particles, such as electrons, plasmons, polarons, and solitons. By employing this innovative approach, we pave the way for a deeper understanding of quantum mechanical systems and their behaviors within complex materials.
翻訳日:2023-05-24 20:01:41 公開日:2023-05-23
# ノイズデバイス上の誤差緩和量子ルーティング

Error-Mitigated Quantum Routing on Noisy Devices ( http://arxiv.org/abs/2305.13574v1 )

ライセンス: Link先を確認
Wenbo Shi and Robert Malaney(参考訳) 量子ハードウェア上でのサブスレッショルドな量子エラー補正がまだ普及していないため、量子エラー軽減法は、現在、短期ノイズ量子デバイス上で特定のアプリケーションを実装するための魅力的な選択肢と考えられている。 そのような応用の1つは量子ルーティング(quantum routing)であり、入ってくる量子信号を経路の重ね合わせにマッピングする能力である。 本研究では,7量子ビットibm量子デバイスを用いて,量子ルーティングにおいて有望な2つの量子誤り緩和法であるゼロノイズ外挿法(zne)と確率的エラーキャンセル法(pec)を実験的に展開する。 さらに,zneとpecによる量子ルーティングの性能向上を別途検討するだけでなく,これら2つの誤り除去手法の結合によるルーティング性能についても検討した。 実験の結果,このような結合化は,実装と比較して,エラーの軽減を伴わずに大幅に性能が向上することが示された。 実際、出力の絡み合ったパスの忠実さという観点で、ほぼ完璧なパフォーマンスが見出される。 これらの新たな結果は、結合された量子エラー緩和埋め込みによって、量子エラー訂正を必要とせずに、現在のデバイスで有用な量子ルーティングが実現可能になることを明らかにした。

With sub-threshold quantum error correction on quantum hardware still out of reach, quantum error mitigation methods are currently deemed an attractive option for implementing certain applications on near-term noisy quantum devices. One such application is quantum routing - the ability to map an incoming quantum signal into a superposition of paths. In this work, we use a 7-qubit IBM quantum device to experimentally deploy two promising quantum error mitigation methods, Zero-Noise Extrapolation (ZNE) and Probabilistic Error Cancellation (PEC), in the context of quantum routing. Importantly, beyond investigating the improved performance of quantum routing via ZNE and PEC separately, we also investigate the routing performance provided by the concatenation of these two error-mitigation methods. Our experimental results demonstrate that such concatenation leads a very significant performance improvement relative to implementation with no error mitigation. Indeed, an almost perfect performance in terms of fidelity of the output entangled paths is found. These new results reveal that with concatenated quantum error-mitigation embedded, useful quantum routing becomes feasible on current devices without the need for quantum error correction - opening up a potential implementation pathway to other applications that utilize a superposition of communication links.
翻訳日:2023-05-24 20:01:17 公開日:2023-05-23
# SAD: 動的グラフ上での半教師付き異常検出

SAD: Semi-Supervised Anomaly Detection on Dynamic Graphs ( http://arxiv.org/abs/2305.13573v1 )

ライセンス: Link先を確認
Sheng Tian, Jihai Dong, Jintang Li, Wenlong Zhao, Xiaolong Xu, Baokun wang, Bowen Song, Changhua Meng, Tianyi Zhang, Liang Chen(参考訳) 異常検出は、良性例の大多数と大きく異なる異常例を区別することを目的としている。 現実世界に現れるインスタンスは自然に接続され、グラフで表現できるため、グラフニューラルネットワークは異常検出問題に取り組むためにますます普及しています。 有望な結果にもかかわらず、異常検出の研究はほとんど静的グラフに焦点を合わせているが、動的グラフからの異常パターンのマイニングはほとんど研究されていない。 加えて、異常検出は通常、十分なラベル付きデータがないため、半教師付き視点から取り組まれる。 しかし、ほとんどの提案手法は単にラベル付きデータを利用するだけに限られており、多くのラベルなしサンプルが探索されていない。 本研究では,動的グラフ上の異常検出のためのエンドツーエンドフレームワークである半教師付き異常検出(SAD)を提案する。 時間付きメモリバンクと擬似ラベル付きコントラスト学習モジュールを組み合わせることで、SADは大きなラベルのないサンプルの可能性を完全に活用し、進化するグラフストリームの基盤となる異常を明らかにすることができる。 4つの実世界のデータセットに対する大規模な実験により、SADは動的グラフから異常を効率よく発見し、ラベル付きデータが少ない場合にも既存の高度な手法より優れていることが示された。

Anomaly detection aims to distinguish abnormal instances that deviate significantly from the majority of benign ones. As instances that appear in the real world are naturally connected and can be represented with graphs, graph neural networks become increasingly popular in tackling the anomaly detection problem. Despite the promising results, research on anomaly detection has almost exclusively focused on static graphs while the mining of anomalous patterns from dynamic graphs is rarely studied but has significant application value. In addition, anomaly detection is typically tackled from semi-supervised perspectives due to the lack of sufficient labeled data. However, most proposed methods are limited to merely exploiting labeled data, leaving a large number of unlabeled samples unexplored. In this work, we present semi-supervised anomaly detection (SAD), an end-to-end framework for anomaly detection on dynamic graphs. By a combination of a time-equipped memory bank and a pseudo-label contrastive learning module, SAD is able to fully exploit the potential of large unlabeled samples and uncover underlying anomalies on evolving graph streams. Extensive experiments on four real-world datasets demonstrate that SAD efficiently discovers anomalies from dynamic graphs and outperforms existing advanced methods even when provided with only little labeled data.
翻訳日:2023-05-24 20:00:53 公開日:2023-05-23
# 位置埋め込みのない変圧器言語モデルの自己注意変動における潜時位置情報

Latent Positional Information is in the Self-Attention Variance of Transformer Language Models Without Positional Embeddings ( http://arxiv.org/abs/2305.13571v1 )

ライセンス: Link先を確認
Ta-Chung Chi and Ting-Han Fan and Li-Wei Chen and Alexander I. Rudnicky and Peter J. Ramadge(参考訳) トランス言語モデルにおける位置埋め込みの使用は広く受け入れられている。 しかし、近年の研究はそのような埋め込みの必要性を疑問視している。 さらに、位置埋め込みを欠いたランダムに初期化・凍結したトランスフォーマー言語モデルが、自己注意分散の縮小を通じて、本質的に強い位置情報を符号化することを示した。 この分散を定量化するために、トランスフォーマー層内の各ステップの基底分布を導出する。 完全な事前学習モデルを用いた経験的検証により,広範囲な勾配更新後も分散収縮効果が持続することを示す。 本研究は,位置埋め込みを廃止し,トランスフォーマー言語モデルのより効率的な事前学習を促進する決定を正当化するのに役立つ。

The use of positional embeddings in transformer language models is widely accepted. However, recent research has called into question the necessity of such embeddings. We further extend this inquiry by demonstrating that a randomly initialized and frozen transformer language model, devoid of positional embeddings, inherently encodes strong positional information through the shrinkage of self-attention variance. To quantify this variance, we derive the underlying distribution of each step within a transformer layer. Through empirical validation using a fully pretrained model, we show that the variance shrinkage effect still persists after extensive gradient updates. Our findings serve to justify the decision to discard positional embeddings and thus facilitate more efficient pretraining of transformer language models.
翻訳日:2023-05-24 20:00:33 公開日:2023-05-23
# クロスソースなポイントクラウド登録:挑戦、進歩、展望

Cross-source Point Cloud Registration: Challenges, Progress and Prospects ( http://arxiv.org/abs/2305.13570v1 )

ライセンス: Link先を確認
Xiaoshui Huang, Guofeng Mei, Jian Zhang(参考訳) クロスソースポイントクラウド(CSPC)登録の新たな話題は、3Dセンサー技術の急速な開発背景によって注目を集めている。 同じ種類の3Dセンサー(Kinectなど)のデータにフォーカスする従来の同一ソースの点群とは異なり、CSPCは異なる種類の3Dセンサー(Kinectや { LiDAR}など)から来ている。 CSPC登録は、同一ソースから異なるソースへのデータ取得の要求を一般化し、一般化されたアプリケーションをもたらし、複数のセンサーの利点を組み合わせる。 本稿では,CSPC登録に関する体系的なレビューを行う。 まず, CSPCの特徴を概説し, 研究領域における課題をまとめた上で, 最新の研究成果と代表的研究成果をまとめた研究の進展について述べる。 最後に、この活気ある領域における重要な研究の方向性を説明し、いくつかの応用分野における役割を説明する。

The emerging topic of cross-source point cloud (CSPC) registration has attracted increasing attention with the fast development background of 3D sensor technologies. Different from the conventional same-source point clouds that focus on data from same kind of 3D sensor (e.g., Kinect), CSPCs come from different kinds of 3D sensors (e.g., Kinect and { LiDAR}). CSPC registration generalizes the requirement of data acquisition from same-source to different sources, which leads to generalized applications and combines the advantages of multiple sensors. In this paper, we provide a systematic review on CSPC registration. We first present the characteristics of CSPC, and then summarize the key challenges in this research area, followed by the corresponding research progress consisting of the most recent and representative developments on this topic. Finally, we discuss the important research directions in this vibrant area and explain the role in several application fields.
翻訳日:2023-05-24 20:00:21 公開日:2023-05-23
# クロス空間学習によるマルチスケールアテンションモジュールの効率化

Efficient Multi-Scale Attention Module with Cross-Spatial Learning ( http://arxiv.org/abs/2305.13563v1 )

ライセンス: Link先を確認
Daliang Ouyang, Su He, Jian Zhan, Huaiyong Guo, Zhijie Huang, Mingzhu Luo, Guozhong Zhang(参考訳) より識別可能な特徴表現を生成するためのチャネルや空間的注意機構の顕著な効果は、様々なコンピュータビジョンタスクで示される。 しかし、チャネル次元の減少を伴うチャネル間関係のモデル化は、深い視覚的表現の抽出に副作用をもたらす可能性がある。 本稿では,新しい効率的なマルチスケール・アテンション(ema)モジュールを提案する。 チャネルごとの情報保持と計算オーバーヘッドの低減に着目し,部分的なチャネルをバッチ次元に再形成し,チャネル次元を複数のサブ機能にグループ化し,各機能グループ内で空間意味的特徴を適切に分散させる。 具体的には、グローバル情報を符号化して各並列ブランチのチャネルワイドを補正することとは別に、2つの並列ブランチの出力特徴を画素レベルのペアワイド関係をキャプチャするためのクロス次元相互作用によってさらに集約する。 一般的なベンチマーク(CIFAR-100, ImageNet-1k, MS COCO, VisDrone2019)を用いて画像分類と物体検出タスクに関する広範囲にわたるアブレーション研究と実験を行った。

Remarkable effectiveness of the channel or spatial attention mechanisms for producing more discernible feature representation are illustrated in various computer vision tasks. However, modeling the cross-channel relationships with channel dimensionality reduction may bring side effect in extracting deep visual representations. In this paper, a novel efficient multi-scale attention (EMA) module is proposed. Focusing on retaining the information on per channel and decreasing the computational overhead, we reshape the partly channels into the batch dimensions and group the channel dimensions into multiple sub-features which make the spatial semantic features well-distributed inside each feature group. Specifically, apart from encoding the global information to re-calibrate the channel-wise weight in each parallel branch, the output features of the two parallel branches are further aggregated by a cross-dimension interaction for capturing pixel-level pairwise relationship. We conduct extensive ablation studies and experiments on image classification and object detection tasks with popular benchmarks (e.g., CIFAR-100, ImageNet-1k, MS COCO and VisDrone2019) for evaluating its performance.
翻訳日:2023-05-24 20:00:05 公開日:2023-05-23
# 予測符号化ネットワークにおける最適化の理解と改善

Understanding and Improving Optimization in Predictive Coding Networks ( http://arxiv.org/abs/2305.13562v1 )

ライセンス: Link先を確認
Nick Alonso, Jeff Krichmar, Emre Neftci(参考訳) ニューラルネットワークの標準学習アルゴリズムであるバックプロパゲーション(bp)は、しばしば生物学的に有望ではないと考えられている。 対照的に、推論学習アルゴリズム(IL)として知られる神経科学における予測符号化(PC)モデルのための標準的な学習アルゴリズムは、有望で生物学的に有望な代替手段である。 しかし、いくつかの課題や疑問がILの現実の問題への応用を妨げる。 例えば、ilは計算上必要であり、adamのようなメモリ集約型オプティマイザがなければ、ilは貧弱なローカルミニマに収束する可能性がある。 さらに、ilはbpよりも早く損失を減らすことができるが、これらのスピードアップの理由や堅牢性はいまだに不明である。 本稿では,これらの課題に対処する。 1)PC回路の標準実装を変更して計算を大幅に削減する。 2)メモリ使用量を増やすことなくILの収束を改善する新しい最適化器の開発 3) ILが2次・高次情報に敏感である条件を解明する理論的結果を確立すること。

Backpropagation (BP), the standard learning algorithm for artificial neural networks, is often considered biologically implausible. In contrast, the standard learning algorithm for predictive coding (PC) models in neuroscience, known as the inference learning algorithm (IL), is a promising, bio-plausible alternative. However, several challenges and questions hinder IL's application to real-world problems. For example, IL is computationally demanding, and without memory-intensive optimizers like Adam, IL may converge to poor local minima. Moreover, although IL can reduce loss more quickly than BP, the reasons for these speedups or their robustness remains unclear. In this paper, we tackle these challenges by 1) altering the standard implementation of PC circuits to substantially reduce computation, 2) developing a novel optimizer that improves the convergence of IL without increasing memory usage, and 3) establishing theoretical results that help elucidate the conditions under which IL is sensitive to second and higher-order information.
翻訳日:2023-05-24 19:59:46 公開日:2023-05-23
# 相関クラスタリングのためのシングルパスPivotアルゴリズム シンプルにしておけ!

Single-Pass Pivot Algorithm for Correlation Clustering. Keep it simple! ( http://arxiv.org/abs/2305.13560v1 )

ライセンス: Link先を確認
Sayak Chakrabarty and Konstantin Makarychev(参考訳) 相関クラスタリングのためのピボットアルゴリズムの単純な単一パスセミストリーミング変種は、o(n/{\epsilon})ワードオブメモリを用いて (3 + {\epsilon})近似を与える。 これは、Cambus、Kuhn、Lindy、Pai、UittoがO(n log n)ワードのメモリを使った3 + {\epsilon}-近似を、Behnezhad、Charikar、Ma、TanがO(n)ワードのメモリを使った5-近似を施した最近の結果よりもわずかに改善されている。 この論文の主な貢献の1つは、アルゴリズムとその分析が非常に単純であり、また、アルゴリズムの実装も容易であることである。

We show that a simple single-pass semi-streaming variant of the Pivot algorithm for Correlation Clustering gives a (3 + {\epsilon})-approximation using O(n/{\epsilon}) words of memory. This is a slight improvement over the recent results of Cambus, Kuhn, Lindy, Pai, and Uitto, who gave a (3 + {\epsilon})-approximation using O(n log n) words of memory, and Behnezhad, Charikar, Ma, and Tan, who gave a 5-approximation using O(n) words of memory. One of the main contributions of this paper is that both the algorithm and its analysis are very simple, and also the algorithm is easy to implement.
翻訳日:2023-05-24 19:59:29 公開日:2023-05-23
# 非対称学習率による分離合理化:フレキシブルリプシッツ拘束法

Decoupled Rationalization with Asymmetric Learning Rates: A Flexible Lipshitz Restraint ( http://arxiv.org/abs/2305.13599v1 )

ライセンス: Link先を確認
Wei Liu, Jun Wang, Haozhao Wang, Ruixuan Li, Yang Qiu, YuanKai Zhang, Jie Han, Yixiong Zou(参考訳) 自己説明的合理化モデルは通常、生成者が入力テキストから最も人間的な知性のある断片を論理として選択する協調ゲームで構築され、次に選択された合理性に基づいて予測を行う予測器が続く。 しかし、そのような協調ゲームは、予測者がまだ十分に訓練されていないジェネレータによって生成される非形式的ピースに過度に適合し、その結果、ジェネレータが無意味なピースを選択する傾向にあるサブ最適モデルに収束する、退化問題を引き起こす可能性がある。 本稿では,理論上,予測子のリプシッツ連続性による変性を橋渡しする。 そこで我々は, 予測器のリプシッツ定数を自然かつ柔軟に抑制し, 縮退の問題に対処する, DR という簡単な手法を実証的に提案する。 DRの主な考え方は、ジェネレータと予測器を分離して非対称な学習率で割り当てることである。 2つの広く使われているベンチマークで実施した一連の実験により,提案手法の有効性が検証された。 コード: \href{https://github.com/jugechengzi/Rationalization-DR}{https://github.com/jugechengzi/Rationalization-DR}。

A self-explaining rationalization model is generally constructed by a cooperative game where a generator selects the most human-intelligible pieces from the input text as rationales, followed by a predictor that makes predictions based on the selected rationales. However, such a cooperative game may incur the degeneration problem where the predictor overfits to the uninformative pieces generated by a not yet well-trained generator and in turn, leads the generator to converge to a sub-optimal model that tends to select senseless pieces. In this paper, we theoretically bridge degeneration with the predictor's Lipschitz continuity. Then, we empirically propose a simple but effective method named DR, which can naturally and flexibly restrain the Lipschitz constant of the predictor, to address the problem of degeneration. The main idea of DR is to decouple the generator and predictor to allocate them with asymmetric learning rates. A series of experiments conducted on two widely used benchmarks have verified the effectiveness of the proposed method. Codes: \href{https://github.com/jugechengzi/Rationalization-DR}{https://github.com/jugechengzi/Rationalization-DR}.
翻訳日:2023-05-24 19:54:30 公開日:2023-05-23
# ハミルトン構造とカオアエネルギーとフーリエ景観構造をつなぐ

Connecting the Hamiltonian structure to the QAOA energy and Fourier landscape structure ( http://arxiv.org/abs/2305.13594v1 )

ライセンス: Link先を確認
Micha{\l} St\k{e}ch{\l}y, Lanruo Gao, Boniface Yogendran, Enrico Fontana, Manuel Rudolph(参考訳) 本稿では,量子近似最適化アルゴリズム(QAOA)におけるハミルトニアンの構成と,対応するコスト景観特性との関係の理解を深めることを目的とする。 QAOAは、組合せ最適化に最もよく用いられる変分量子アルゴリズム(VQA)の顕著な例である。 qaoaの成功はパラメータ最適化に大きく依存しており、特にノイズの多い量子ハードウェアでは大きな課題となっている。 したがって、コスト関数のランドスケープを理解することは、より良い最適化ヒューリスティックを設計するのに役立つ。 最大5つの局所項と最大20量子ビットを持つハミルトニアンの1層QAOAの場合を考える。 コストランドスケープの可視化に加えて、それらのフーリエ変換を計算し、補完的な視点からハミルトニアンの構造との関係を研究する。 さらに,地形の粗さを定量化するための指標を導入し,高次元パラメトリドランドスケープの性質に関する貴重な知見を提供する。 これらの手法により、ハミルトン構造、項の順序、係数が最適化ランドスケープの粗さに与える影響を明らかにすることができるが、第一原理からVQAの複雑なランドスケープを予測することは非常に困難であり、一般的には実現不可能である。

In this paper, we aim to expand the understanding of the relationship between the composition of the Hamiltonian in the Quantum Approximate Optimization Algorithm (QAOA) and the corresponding cost landscape characteristics. QAOA is a prominent example of a Variational Quantum Algorithm (VQA), which is most commonly used for combinatorial optimization. The success of QAOA heavily relies on parameter optimization, which is a great challenge, especially on scarce noisy quantum hardware. Thus understanding the cost function landscape can aid in designing better optimization heuristics and therefore potentially provide eventual value. We consider the case of 1-layer QAOA for Hamiltonians with up to 5-local terms and up to 20 qubits. In addition to visualizing the cost landscapes, we calculate their Fourier transform to study the relationship with the structure of the Hamiltonians from a complementary perspective. Furthermore, we introduce metrics to quantify the roughness of the landscape, which provide valuable insights into the nature of high-dimensional parametrized landscapes. While these techniques allow us to elucidate the role of Hamiltonian structure, order of the terms and their coefficients on the roughness of the optimization landscape, we also find that predicting the intricate landscapes of VQAs from first principles is very challenging and unlikely to be feasible in general.
翻訳日:2023-05-24 19:54:08 公開日:2023-05-23
# ニューラルイメージ再露光

Neural Image Re-Exposure ( http://arxiv.org/abs/2305.13593v1 )

ライセンス: Link先を確認
Xinyu Zhang, Hefei Huang, Xu Jia, Dong Wang, Huchuan Lu(参考訳) 撮影プロセスに適用したシャッター戦略は撮影写真の品質に大きな影響を与える。 不適切なシャッターは、ぼやけた画像、ビデオの不連続、あるいはローリングシャッターアーティファクトにつながる可能性がある。 既存の作業は各問題に対して独立したソリューションを提供しようとしている。 本研究では,これらの問題を統一されたフレームワーク内でより柔軟な対処方法を提供するために,後処理で取得した写真を再公開することを目的とする。 具体的には,ニューラルネットワークによる画像の再露光フレームワークを提案する。 視覚的潜在空間構築のためのエンコーダ、所望のシャッター戦略でニューラルフィルムに情報を集約する再露光モジュール、およびニューラルフィルムを所望の画像に「展開」するためのデコーダから構成される。 情報の混乱やフレームの欠如を補うために、ほぼ連続的な明るさ変化をキャプチャできるイベントストリームは、視覚的な潜在コンテンツの計算に活用される。 自己アテンション層と交差アテンション層の両方が再露光モジュールに使用され、ニューラルフィルムと視覚的潜在コンテンツとニューラルフィルムへの情報集約の相互作用を促進する。 提案手法は,複数のシャッター関連画像回復タスクで評価され,独立した最先端手法に対して良好に機能する。

The shutter strategy applied to the photo-shooting process has a significant influence on the quality of the captured photograph. An improper shutter may lead to a blurry image, video discontinuity, or rolling shutter artifact. Existing works try to provide an independent solution for each issue. In this work, we aim to re-expose the captured photo in post-processing to provide a more flexible way of addressing those issues within a unified framework. Specifically, we propose a neural network-based image re-exposure framework. It consists of an encoder for visual latent space construction, a re-exposure module for aggregating information to neural film with a desired shutter strategy, and a decoder for 'developing' neural film into a desired image. To compensate for information confusion and missing frames, event streams, which can capture almost continuous brightness changes, are leveraged in computing visual latent content. Both self-attention layers and cross-attention layers are employed in the re-exposure module to promote interaction between neural film and visual latent content and information aggregation to neural film. The proposed unified image re-exposure framework is evaluated on several shutter-related image recovery tasks and performs favorably against independent state-of-the-art methods.
翻訳日:2023-05-24 19:53:45 公開日:2023-05-23
# 爆発(ファジィ)テストケースによるプログラム理解

Understanding Programs by Exploiting (Fuzzing) Test Cases ( http://arxiv.org/abs/2305.13592v1 )

ライセンス: Link先を確認
Jianyu Zhao and Yuyang Rong and Yiwen Guo and Yifeng He and Hao Chen(参考訳) プログラムの意味理解はコミュニティに大きな注目を集めている。 自然言語理解における大規模言語モデル(LLM)の最近の成功に触発されて、プログラミング言語を別の自然言語として扱い、プログラムコードのコーパス上でLLMを訓練することで大きな進歩を遂げた。 しかし、プログラムは基本的にはテキストと異なり、通常は重く構造化され、構文に制約がある。 特に、プログラムとその基本ユニット(関数とサブルーチン)は、様々な動作を示し、異なる入力を与えられた出力を提供するように設計されている。 入力と出力/振る舞いの関係は関数/サブルーチンを表し、プログラム全体をプロファイルする。 そこで,このような関係を学習に取り入れ,プログラムの意味理解の深化を図ることを提案する。 コードの大部分の実行をトリガーするのに十分なインプットを得るためには、fuzzテストとfuzzチューニングを提案し、事前訓練されたllmを与えられたプログラム理解とコード表現学習のパフォーマンスを向上させる。 提案手法の有効性は,コードクローン検出とコード分類を含む2つのプログラム理解課題において検証され,現状よりも大きなマージンで評価された。 コードはhttps://github.com/rabbitjy/fuzztuningで入手できる。

Semantic understanding of programs has attracted great attention in the community. Inspired by recent successes of large language models (LLMs) in natural language understanding, tremendous progress has been made by treating programming language as another sort of natural language and training LLMs on corpora of program code. However, programs are essentially different from texts after all, in a sense that they are normally heavily structured and syntax-strict. In particular, programs and their basic units (i.e., functions and subroutines) are designed to demonstrate a variety of behaviors and/or provide possible outputs, given different inputs. The relationship between inputs and possible outputs/behaviors represents the functions/subroutines and profiles the program as a whole. Therefore, we propose to incorporate such a relationship into learning, for achieving a deeper semantic understanding of programs. To obtain inputs that are representative enough to trigger the execution of most part of the code, we resort to fuzz testing and propose fuzz tuning to boost the performance of program understanding and code representation learning, given a pre-trained LLM. The effectiveness of the proposed method is verified on two program understanding tasks including code clone detection and code classification, and it outperforms current state-of-the-arts by large margins. Code is available at https://github.com/rabbitjy/FuzzTuning.
翻訳日:2023-05-24 19:53:23 公開日:2023-05-23
# biasx: 有害コンテンツモデレーションにおける「ゆっくり考える」と社会的バイアスの示唆

BiasX: "Thinking Slow" in Toxic Content Moderation with Explanations of Implied Social Biases ( http://arxiv.org/abs/2305.13589v1 )

ライセンス: Link先を確認
Yiming Zhang, Sravani Nanduri, Liwei Jiang, Tongshuang Wu, Maarten Sap(参考訳) 毒性アノテータやコンテンツモデレーターは、意思決定時に精神的なショートカットにデフォルトとなることが多い。 これは微妙な毒性を見逃し、一見有害だが無害な内容が過度に検出される可能性がある。 我々は,言明の含意する社会的バイアスをフリーテキストで説明し,コンテンツモデレーション設定を強化するためのフレームワークであるbiaxを紹介し,その効果をクラウドソースによる大規模ユーザスタディを通じて探究する。 実際、参加者は、亜毒性(非毒性)コンテンツを正しく識別するための説明からかなり恩恵を受けている。 不完全な機械による説明(強毒性の例では+2.4%)は専門家による説明(+7.2%)に比べて少ない。 以上の結果から,より思慮深い毒性モデレーションを促すために,フリーテキストによる説明を使うことが期待される。

Toxicity annotators and content moderators often default to mental shortcuts when making decisions. This can lead to subtle toxicity being missed, and seemingly toxic but harmless content being over-detected. We introduce BiasX, a framework that enhances content moderation setups with free-text explanations of statements' implied social biases, and explore its effectiveness through a large-scale crowdsourced user study. We show that indeed, participants substantially benefit from explanations for correctly identifying subtly (non-)toxic content. The quality of explanations is critical: imperfect machine-generated explanations (+2.4% on hard toxic examples) help less compared to expert-written human explanations (+7.2%). Our results showcase the promise of using free-text explanations to encourage more thoughtful toxicity moderation.
翻訳日:2023-05-24 19:53:02 公開日:2023-05-23
# RKHMとペロン・フロベニウス演算子によるカーネルによる深層学習

Deep Learning with Kernels through RKHM and the Perron-Frobenius Operator ( http://arxiv.org/abs/2305.13588v1 )

ライセンス: Link先を確認
Yuka Hashimoto, Masahiro Ikeda, Hachem Kadri(参考訳) 再生カーネル Hilbert $C^*$-module (RKHM) は、C^*$-algebra を用いて再生カーネル Hilbert 空間 (RKHS) の一般化であり、ペロン・フロベニウス作用素は函数の構成に関連する線型作用素である。 これら2つの概念を組み合わせることで、カーネルメソッドのディープラーニングフレームワークであるDeep RKHMを提案する。 この設定で束縛された新しいラデマッハ一般化を導出し、ペロン・フロベニウス作用素による良性過剰の理論的解釈を提供する。 C^*$-algebraにより、出力次元上の境界の依存性は、既存の境界よりも緩やかである。 C^*$-algebraはカーネルによるディープラーニングに適したツールであり、演算子の製品構造を活用でき、畳み込みニューラルネットワークとの明確な接続を提供することができる。 我々の理論的解析は、深いカーネルメソッドを設計、分析できる新しいレンズを提供する。

Reproducing kernel Hilbert $C^*$-module (RKHM) is a generalization of reproducing kernel Hilbert space (RKHS) by means of $C^*$-algebra, and the Perron-Frobenius operator is a linear operator related to the composition of functions. Combining these two concepts, we present deep RKHM, a deep learning framework for kernel methods. We derive a new Rademacher generalization bound in this setting and provide a theoretical interpretation of benign overfitting by means of Perron-Frobenius operators. By virtue of $C^*$-algebra, the dependency of the bound on output dimension is milder than existing bounds. We show that $C^*$-algebra is a suitable tool for deep learning with kernels, enabling us to take advantage of the product structure of operators and to provide a clear connection with convolutional neural networks. Our theoretical analysis provides a new lens through which one can design and analyze deep kernel methods.
翻訳日:2023-05-24 19:52:47 公開日:2023-05-23
# 知識グラフを用いた帰納論理推論のためのクエリ構造モデリング

Query Structure Modeling for Inductive Logical Reasoning Over Knowledge Graphs ( http://arxiv.org/abs/2305.13585v1 )

ライセンス: Link先を確認
Siyuan Wang, Zhongyu Wei, Meng Han, Zhihao Fan, Haijun Shan, Qi Zhang, Xuanjing Huang(参考訳) 複雑な論理クエリに対する不完全な知識グラフに対する論理的推論は難しい課題である。 常に進化するKGにおける新しい実体や関係の出現により、KGに対する帰納的論理的推論が重要な問題となっている。 しかし、従来のPLMは複雑なクエリの論理構造をモデル化するのに苦労し、同じ構造内で一般化する能力を制限する。 本稿では,KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。 事前学習された言語モデルを使って、線形化されたクエリ構造とエンティティをエンコードし、答えを見つける。 複雑なクエリの構造モデリングのために、各クエリにおける幾何演算の実行順序にplmを暗黙的に促すステップワイズ命令を設計する。 さらに,事前学習されたエンコーダを用いて表現空間上で異なる幾何学的操作(すなわち射影,交叉,結合)を別々にモデル化し,構造化モデリングを強化する。 2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。 本手法は, 帰納的およびトランスダクティブな設定において, kgs以上の論理推論に有効であることを示す。

Logical reasoning over incomplete knowledge graphs to answer complex logical queries is a challenging task. With the emergence of new entities and relations in constantly evolving KGs, inductive logical reasoning over KGs has become a crucial problem. However, previous PLMs-based methods struggle to model the logical structures of complex queries, which limits their ability to generalize within the same structure. In this paper, we propose a structure-modeled textual encoding framework for inductive logical reasoning over KGs. It encodes linearized query structures and entities using pre-trained language models to find answers. For structure modeling of complex queries, we design stepwise instructions that implicitly prompt PLMs on the execution order of geometric operations in each query. We further separately model different geometric operations (i.e., projection, intersection, and union) on the representation space using a pre-trained encoder with additional attention and maxout layers to enhance structured modeling. We conduct experiments on two inductive logical reasoning datasets and three transductive datasets. The results demonstrate the effectiveness of our method on logical reasoning over KGs in both inductive and transductive settings.
翻訳日:2023-05-24 19:52:28 公開日:2023-05-23
# マルチエクイットネットワークに対するモデル盗み攻撃

Model Stealing Attack against Multi-Exit Networks ( http://arxiv.org/abs/2305.13584v1 )

ライセンス: Link先を確認
Li Pan, Lv Peizhuo, Chen Kai, Cai Yuling, Xiang Fan, Zhang Shengzhi(参考訳) 単一出口を持つ従来のニューラルネットワークと比較して、マルチエグジットネットワークは複数のエグジットを持ち、モデルの中間層から早期に出力できるため、同様の認識精度を維持しながら計算効率が大幅に向上する。 このような貴重なモデルを従来のモデル盗み攻撃を用いて盗み取ろうとすると、従来の手法ではモデルの分類関数を盗むだけで、その出力戦略を捉えられていないことが分かりました。 これにより, 盗難代用モデルの計算効率が大幅に低下し, マルチエグジットネットワークの利点が失われ, モデル関数と出力戦略の両方を抽出する最初のモデル盗難攻撃が提案される。 対象モデルの出力戦略を分析するためにベイズ変化点検出を行い、代替モデルのトレーニングを導くために性能損失と戦略損失を利用する。 さらに,被害者モデルと代替モデルの出力の整合性を最大化するための最適出力戦略を探索する新しい出力戦略探索アルゴリズムを考案した。 複数の主流ネットワークとベンチマークデータセットの実験を通じて,本手法の有効性を徹底的に示す。

Compared to traditional neural networks with a single exit, a multi-exit network has multiple exits that allow for early output from intermediate layers of the model, thus bringing significant improvement in computational efficiency while maintaining similar recognition accuracy. When attempting to steal such valuable models using traditional model stealing attacks, we found that conventional methods can only steal the model's classification function while failing to capture its output strategy. This results in a significant decrease in computational efficiency for the stolen substitute model, thereby losing the advantages of multi-exit networks.In this paper, we propose the first model stealing attack to extract both the model function and output strategy. We employ bayesian changepoint detection to analyze the target model's output strategy and use performance loss and strategy loss to guide the training of the substitute model. Furthermore, we designed a novel output strategy search algorithm that can find the optimal output strategy to maximize the consistency between the victim model and the substitute model's outputs. Through experiments on multiple mainstream multi-exit networks and benchmark datasets, we thoroughly demonstrates the effectiveness of our method.
翻訳日:2023-05-24 19:51:58 公開日:2023-05-23
# クロス・アテンションは不十分:不合理さを意識したマルチモーダル感情分析と感情認識

Cross-Attention is Not Enough: Incongruity-Aware Multimodal Sentiment Analysis and Emotion Recognition ( http://arxiv.org/abs/2305.13583v1 )

ライセンス: Link先を確認
Yaoting Wang, Yuanchao Li, Peter Bell, Catherine Lai(参考訳) 情緒的な計算タスクに複数のモダリティを組み込むことは、性能改善に有効であることが証明されている。 しかし、マルチモーダル融合の仕組みはよく理解されておらず、実世界での使用は通常、大きなモデルサイズをもたらす。 本稿では,感情分析と感情分析について,まず,一方のモダリティにおける情緒的情報がどのように他方のモダリティに影響を与えているかを解析する。 モーダル間不整合は、モーダル間の注意による潜在レベルに存在する。 そこで本研究では,階層型クロスモーダルトランスフォーマーとモダリティゲーティング(HCT-MG)を用いた軽量モデルを提案する。 CMU-MOSI, CMU-MOSEI, IEMOCAP の3つのベンチマークデータセットに対する評価実験により, 本手法の有効性が確認された。 1) 競争の結果を達成し,かつ,ハードサンプルの認識を成功させることで,主要な先行作業より優れる。 2)モダリティが情緒的傾向と一致していない場合、潜在レベルでのモーダル間違和感を緩和する。 3) モデルのサイズを100万以下のパラメータに減らし、同じサイズの既存モデルを上回る。

Fusing multiple modalities for affective computing tasks has proven effective for performance improvement. However, how multimodal fusion works is not well understood, and its use in the real world usually results in large model sizes. In this work, on sentiment and emotion analysis, we first analyze how the salient affective information in one modality can be affected by the other in crossmodal attention. We find that inter-modal incongruity exists at the latent level due to crossmodal attention. Based on this finding, we propose a lightweight model via Hierarchical Crossmodal Transformer with Modality Gating (HCT-MG), which determines a primary modality according to its contribution to the target task and then hierarchically incorporates auxiliary modalities to alleviate inter-modal incongruity and reduce information redundancy. The experimental evaluation on three benchmark datasets: CMU-MOSI, CMU-MOSEI, and IEMOCAP verifies the efficacy of our approach, showing that it: 1) outperforms major prior work by achieving competitive results and can successfully recognize hard samples; 2) mitigates the inter-modal incongruity at the latent level when modalities have mismatched affective tendencies; 3) reduces model size to less than 1M parameters while outperforming existing models of similar sizes.
翻訳日:2023-05-24 19:51:25 公開日:2023-05-23
# 翻訳とアノテーション融合による低リソースエンティティ認識の改善

Better Low-Resource Entity Recognition Through Translation and Annotation Fusion ( http://arxiv.org/abs/2305.13582v1 )

ライセンス: Link先を確認
Yang Chen, Vedaant Shah, Alan Ritter(参考訳) 事前訓練された多言語モデルにより、言語間移動が大幅に進歩した。 しかし、これらのモデルは、特に事前学習されたデータに表示されていない言語に対して、高リソース言語から低リソース言語に移行する際に、パフォーマンスの差を示すことが多い。 低リソース言語と比較してこれらのモデルの性能が優れていることに感銘を受けて、低リソース言語テキストを低リソース言語に変換し、完全に教師付きモデルを使用してアノテーションを低リソース言語に戻すための高リソース言語に変換する、Translation-and-fusionフレームワークを導入する。 このフレームワークに基づいて,高リソース言語からの予測を融合し,低リソース言語で堅牢な予測を行うように訓練されたモデルであるtransfusionを提案する。 提案手法は,25言語をカバーする低リソースなエンティティ認識(NER)データセットである MasakhaNER2.0 と LORELEI NER を用いて評価し,英語の微調整システムに対して+16F$_1$まで改善し,トランスレート・トレインシステムと比較して最先端性能を実現した。 本分析では,翻訳誤りやソース言語の予測誤りに頑健なTransFusion法と,適応型多言語言語モデルに補完するTransFusion法の特徴について述べる。

Pre-trained multilingual language models have enabled significant advancements in cross-lingual transfer. However, these models often exhibit a performance disparity when transferring from high-resource languages to low-resource languages, especially for languages that are underrepresented or not in the pre-training data. Motivated by the superior performance of these models on high-resource languages compared to low-resource languages, we introduce a Translation-and-fusion framework, which translates low-resource language text into a high-resource language for annotation using fully supervised models before fusing the annotations back into the low-resource language. Based on this framework, we present TransFusion, a model trained to fuse predictions from a high-resource language to make robust predictions on low-resource languages. We evaluate our methods on two low-resource named entity recognition (NER) datasets, MasakhaNER2.0 and LORELEI NER, covering 25 languages, and show consistent improvement up to +16 F$_1$ over English fine-tuning systems, achieving state-of-the-art performance compared to Translate-train systems. Our analysis depicts the unique advantages of the TransFusion method which is robust to translation errors and source language prediction errors, and complimentary to adapted multilingual language models.
翻訳日:2023-05-24 19:51:00 公開日:2023-05-23
# 画像復元に先立つSAMへのディブ

A Dive into SAM Prior in Image Restoration ( http://arxiv.org/abs/2305.13620v1 )

ライセンス: Link先を確認
Zeyu Xiao, Jiawang Bai, Zhihe Lu, Zhiwei Xiong(参考訳) コンピュータビジョンの基本的な課題である画像復元(IR)の目標は、その劣化した低品質(LQ)観測から高品質(HQ)イメージを復元することである。 複数のHQソリューションは、この不十分な問題におけるLQ入力に対応し、あいまいな解空間を生成する。 これにより、解空間を効果的に制約し、復元された画像の品質を高めるために、事前知識の調査と導入の動機となる。 IRにおける手作り・学習の先駆的利用にもかかわらず、大規模な基礎モデルからの知識の取り込みには限定的な注意が払われている。 本稿では,既存のIRネットワークの性能をパラメータ効率のよいチューニング方法で向上させるために,SAM(State-of-the-art segment Any Model)の事前知識を初めて活用する。 特にSAMの選択は、画像劣化に対する堅牢性に基づいており、HQセマンティックマスクを抽出することができる。 セマンティックな事前情報を活用し,復元品質を向上させるために,軽量なSAM事前チューニングユニットを提案する。 このプラグアンドプレイコンポーネントにより、既存のirネットワークにセマンティクスプリエントを効果的に統合することが可能になり、復元品質が大幅に向上します。 我々の方法で唯一訓練可能なモジュールとして、SPTユニットは効率とスケーラビリティの両方を改善する可能性がある。 提案手法は,画像の超解像やカラー画像の復調など,複数のタスクにまたがる様々な手法の強化に有効であることを示す。

The goal of image restoration (IR), a fundamental issue in computer vision, is to restore a high-quality (HQ) image from its degraded low-quality (LQ) observation. Multiple HQ solutions may correspond to an LQ input in this poorly posed problem, creating an ambiguous solution space. This motivates the investigation and incorporation of prior knowledge in order to effectively constrain the solution space and enhance the quality of the restored images. In spite of the pervasive use of hand-crafted and learned priors in IR, limited attention has been paid to the incorporation of knowledge from large-scale foundation models. In this paper, we for the first time leverage the prior knowledge of the state-of-the-art segment anything model (SAM) to boost the performance of existing IR networks in an parameter-efficient tuning manner. In particular, the choice of SAM is based on its robustness to image degradations, such that HQ semantic masks can be extracted from it. In order to leverage semantic priors and enhance restoration quality, we propose a lightweight SAM prior tuning (SPT) unit. This plug-and-play component allows us to effectively integrate semantic priors into existing IR networks, resulting in significant improvements in restoration quality. As the only trainable module in our method, the SPT unit has the potential to improve both efficiency and scalability. We demonstrate the effectiveness of the proposed method in enhancing a variety of methods across multiple tasks, such as image super-resolution and color image denoising.
翻訳日:2023-05-24 19:43:59 公開日:2023-05-23
# SPEECH:エネルギーに基づくイベント中心超球面による構造予測

SPEECH: Structured Prediction with Energy-Based Event-Centric Hyperspheres ( http://arxiv.org/abs/2305.13617v1 )

ライセンス: Link先を確認
Shumin Deng, Shengyu Mao, Ningyu Zhang, Bryan Hooi(参考訳) イベント中心の構造化予測では、イベントの構造化出力を予測する。 ほとんどのNLPの場合、イベント構造は多様体依存を伴う複雑であり、これらの複雑な構造化イベントを効果的に表現することは困難である。 これらの問題に対処するため,我々はエネルギーベースの事象中心超球(speech)を用いた構造化予測を提案する。 SPEECHは、エネルギーベースモデリングによるイベント構造化コンポーネント間の複雑な依存関係をモデル化し、単純だが効果的なハイパースフィアを持つイベントクラスを表現する。 2つの統合アノテーション付きイベントデータセットの実験は、SPEECHがイベント検出とイベント関連抽出タスクに支配的であることを示している。

Event-centric structured prediction involves predicting structured outputs of events. In most NLP cases, event structures are complex with manifold dependency, and it is challenging to effectively represent these complicated structured events. To address these issues, we propose Structured Prediction with Energy-based Event-Centric Hyperspheres (SPEECH). SPEECH models complex dependency among event structured components with energy-based modeling, and represents event classes with simple but effective hyperspheres. Experiments on two unified-annotated event datasets indicate that SPEECH is predominant in event detection and event-relation extraction tasks.
翻訳日:2023-05-24 19:43:34 公開日:2023-05-23
# LLMを利用した精神科医用チャットボットと患者シミュレーション:応用と評価

LLM-empowered Chatbots for Psychiatrist and Patient Simulation: Application and Evaluation ( http://arxiv.org/abs/2305.13614v1 )

ライセンス: Link先を確認
Siyuan Chen, Mengyue Wu, Kenny Q. Zhu, Kunyao Lan, Zhiling Zhang, Lyuchun Cui(参考訳) メンタルヘルスの分野におけるチャットボットのエンパワーメントが注目されている一方で、精神科外来のシナリオにおけるチャットボットの開発と評価に関する調査が不足している。 本研究では、精神科医と患者シミュレーションのためのチャットボットにおけるChatGPTの可能性を探究する。 我々は精神科医と協力して目標を特定し,現実世界のシナリオと密接に連携する対話システムを反復的に開発する。 評価実験では、実際の精神科医や患者を雇い、チャットボットと診断会話を行い、評価のための評価を収集する。 本研究は,ChatGPTを利用したチャットボットを精神疾患に応用し,チャットボットの行動とユーザ体験に及ぼすプロンプトデザインの影響について検討した。

Empowering chatbots in the field of mental health is receiving increasing amount of attention, while there still lacks exploration in developing and evaluating chatbots in psychiatric outpatient scenarios. In this work, we focus on exploring the potential of ChatGPT in powering chatbots for psychiatrist and patient simulation. We collaborate with psychiatrists to identify objectives and iteratively develop the dialogue system to closely align with real-world scenarios. In the evaluation experiments, we recruit real psychiatrists and patients to engage in diagnostic conversations with the chatbots, collecting their ratings for assessment. Our findings demonstrate the feasibility of using ChatGPT-powered chatbots in psychiatric scenarios and explore the impact of prompt designs on chatbot behavior and user experience.
翻訳日:2023-05-24 19:43:24 公開日:2023-05-23
# 半教師付きビデオ異常検出・予測のための総合ベンチマーク

A New Comprehensive Benchmark for Semi-supervised Video Anomaly Detection and Anticipation ( http://arxiv.org/abs/2305.13611v1 )

ライセンス: Link先を確認
Congqi Cao, Yue Lu, Peng Wang and Yanning Zhang(参考訳) 半教師付きビデオ異常検出(VAD)はインテリジェント監視システムにおいて重要な課題である。 しかし,VADにおけるシーン依存型異常は研究者の注意を引いていない。 さらに,異常発生防止のための重要な課題である異常予知の調査は行われていない。 そこで本研究では,43のシーン,28の異常イベント,16時間の動画を含む包括的データセットNWPU Campusを提案する。 現在、このデータセットは、最も多くのシーンとクラス、最長の持続時間、そしてシーン依存の異常を考慮する唯一のデータを持つ、最大の半教師付きvadデータセットである。 一方、ビデオ異常予測のために提案された最初のデータセットでもある。 さらに,異常事象の同時検出と予測が可能な新しいモデルを提案する。 近年の7つの顕著なVADアルゴリズムと比較して,本手法はシーン依存の異常検出と異常予測の両方にうまく対応でき,上海技術,CUHK Avenue,IITB Corridor,新たに提案されたNWPU Campusデータセットを一貫した性能を実現している。 私たちのデータセットとコードは、https://campusvad.github.io.com/で利用可能です。

Semi-supervised video anomaly detection (VAD) is a critical task in the intelligent surveillance system. However, an essential type of anomaly in VAD named scene-dependent anomaly has not received the attention of researchers. Moreover, there is no research investigating anomaly anticipation, a more significant task for preventing the occurrence of anomalous events. To this end, we propose a new comprehensive dataset, NWPU Campus, containing 43 scenes, 28 classes of abnormal events, and 16 hours of videos. At present, it is the largest semi-supervised VAD dataset with the largest number of scenes and classes of anomalies, the longest duration, and the only one considering the scene-dependent anomaly. Meanwhile, it is also the first dataset proposed for video anomaly anticipation. We further propose a novel model capable of detecting and anticipating anomalous events simultaneously. Compared with 7 outstanding VAD algorithms in recent years, our method can cope with scene-dependent anomaly detection and anomaly anticipation both well, achieving state-of-the-art performance on ShanghaiTech, CUHK Avenue, IITB Corridor and the newly proposed NWPU Campus datasets consistently. Our dataset and code is available at: https://campusvad.github.io.
翻訳日:2023-05-24 19:43:09 公開日:2023-05-23
# 重み付き文脈自由言語順序付き二項決定図

Weighted Context-Free-Language Ordered Binary Decision Diagrams ( http://arxiv.org/abs/2305.13610v1 )

ライセンス: Link先を確認
Meghana Sistla, Swarat Chaudhuri, Thomas Reps(参考訳) 長年にわたり、バニラBDDの欠陥に対応するために、多くのバイナリ決定図(BDD)が開発されてきた。 最近のイノベーションはCFLOBDD(Context-Free-Language Ordered BDD)である。これは階層的に構造化された決定図で、プロシージャコール機構によって拡張されたBDDに似ている。 一部の関数では、CFLOBDDはBDDよりも指数関数的に簡潔である。 残念ながら、CFLOBDDのマルチ端末拡張は、多端末BDDと同様に、関数の範囲が多くの異なる値を持つ場合、B^n -> D型の関数を効率的に表現することはできない。 本稿では、この制限を、Weighted CFLOBDDs (WCFLOBDDs)と呼ばれる新しいデータ構造を通じて解決する。 WCFLOBDDはCFLOBDDを拡張し、重み付けされたBDD(WBDD) -- エッジに重みを持つBDDのような構造の設計から洞察を得る。 WCFLOBDDはWBDDやCFLOBDDよりも指数関数的に簡潔であることを示す。 また、量子回路シミュレーションのためのWCFLOBDDの評価を行い、ほとんどのベンチマークでWBDDやCFLOBDDよりも優れた性能を示した。 15分間のタイムアウトで、WCFLOBDDsで処理可能なキュービットの数は、GHZで1,048,576(CFLOBDDで1倍、WBDDで256倍)、BVとDJで262,144(CFLOBDDで2倍、WBDDで64倍)、QFTで2,048(CFLOBDDで128倍、WBDDで2倍)である。

Over the years, many variants of Binary Decision Diagrams (BDDs) have been developed to address the deficiencies of vanilla BDDs. A recent innovation is the Context-Free-Language Ordered BDD (CFLOBDD), a hierarchically structured decision diagram, akin to BDDs enhanced with a procedure-call mechanism, which allows substructures to be shared in ways not possible with BDDs. For some functions, CFLOBDDs are exponentially more succinct than BDDs. Unfortunately, the multi-terminal extension of CFLOBDDs, like multi-terminal BDDs, cannot efficiently represent functions of type B^n -> D, when the function's range has many different values. This paper addresses this limitation through a new data structure called Weighted CFLOBDDs (WCFLOBDDs). WCFLOBDDs extend CFLOBDDs using insights from the design of Weighted BDDs (WBDDs) -- BDD-like structures with weights on edges. We show that WCFLOBDDs can be exponentially more succinct than both WBDDs and CFLOBDDs. We also evaluate WCFLOBDDs for quantum-circuit simulation, and find that they perform better than WBDDs and CFLOBDDs on most benchmarks. With a 15-minute timeout, the number of qubits that can be handled by WCFLOBDDs is 1,048,576 for GHZ (1x over CFLOBDDs, 256x over WBDDs); 262,144 for BV and DJ (2x over CFLOBDDs, 64x over WBDDs); and 2,048 for QFT (128x over CFLOBDDs, 2x over WBDDs).
翻訳日:2023-05-24 19:42:51 公開日:2023-05-23
# VDD: セマンティックセグメンテーションのための空のドローンデータセット

VDD: Varied Drone Dataset for Semantic Segmentation ( http://arxiv.org/abs/2305.13608v1 )

ライセンス: Link先を確認
Wenxiao Cai, Ke Jin, Jinyan Hou, Cong Guo, Letian Wu, Wankou Yang(参考訳) ドローン画像のセマンティックセグメンテーションは、単眼カメラからの深度情報の欠如を補う重要なセマンティックな詳細を提供するため、多くの空中視覚タスクにとって重要である。 しかし、ドローンのセマンティックセグメンテーションモデルの高精度を維持するには、多種多様で大規模で高解像度なデータセットが必要である。 既存のデータセットは概して小さく、主に都市部に集中し、田園部や工業地帯を無視している。 このようなデータセットでトレーニングされたモデルは、ドローン画像に見られるさまざまな入力を処理するのに十分な装備がない。 VDD-Varied Drone Datasetでは、慎重に選択されたシーン、カメラアングル、様々な光と気象条件を含む400の高解像度画像からなる大規模で高密度なラベル付きデータセットを提供する。 さらに、既存のドローンデータセットをアノテーション標準に適合させ、VDDと統合して、Cityscapesの細かいアノテーションの1.5倍の大きさのデータセットを作成しました。 我々は,CNNとTransformerのバックボーンを組み合わせた新しいDeepLabTモデルを開発し,ドローン画像のセマンティックセグメンテーションのための信頼性の高いベースラインを提供する。 実験の結果,DeepLabTはVDDや他のドローンのデータセットで良好に動作することがわかった。 われわれのデータセットはドローン画像のセグメンテーションにかなりの関心を惹き出し、他のドローンビジョンタスクの基礎となるだろう。 VDDは、私たちのWebサイトで、https://vddvdd.com.comで無料で利用可能です。

Semantic segmentation of drone images is critical to many aerial vision tasks as it provides essential semantic details that can compensate for the lack of depth information from monocular cameras. However, maintaining high accuracy of semantic segmentation models for drones requires diverse, large-scale, and high-resolution datasets, which are rare in the field of aerial image processing. Existing datasets are typically small and focus primarily on urban scenes, neglecting rural and industrial areas. Models trained on such datasets are not sufficiently equipped to handle the variety of inputs seen in drone imagery. In the VDD-Varied Drone Dataset, we offer a large-scale and densely labeled dataset comprising 400 high-resolution images that feature carefully chosen scenes, camera angles, and varied light and weather conditions. Furthermore, we have adapted existing drone datasets to conform to our annotation standards and integrated them with VDD to create a dataset 1.5 times the size of fine annotation of Cityscapes. We have developed a novel DeepLabT model, which combines CNN and Transformer backbones, to provide a reliable baseline for semantic segmentation in drone imagery. Our experiments indicate that DeepLabT performs admirably on VDD and other drone datasets. We expect that our dataset will generate considerable interest in drone image segmentation and serve as a foundation for other drone vision tasks. VDD is freely available on our website at https://vddvdd.com .
翻訳日:2023-05-24 19:42:17 公開日:2023-05-23
# すべての画像領域が重要でない:自己回帰画像生成のためのマスクベクトル量子化

Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation ( http://arxiv.org/abs/2305.13607v1 )

ライセンス: Link先を確認
Mengqi Huang, Zhendong Mao, Quan Wang, Yongdong Zhang(参考訳) 既存の自己回帰モデルは、画像再構成のために潜在空間でコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従う。 しかし、既存のコードブック学習は、単にイメージのすべての局所的な情報を異なる知覚の重要性を区別することなくモデル化し、学習されたコードブックに冗長性をもたらし、次の段階の自己回帰モデルの重要な構造をモデル化する能力を制限するだけでなく、高いトレーニングコストと低い生成速度をもたらす。 本研究では,従来の画像符号化理論から重要度知覚の概念を借用し,マスク量子化vae(mq-vae)とstackformerからなる新しい2段階フレームワークを提案する。 具体的には、量子化前に冗長な領域特徴をマスキングするアダプティブマスクモジュールと、元のグリッド画像特徴マップを復元して量子化後の元の画像を忠実に再構築するアダプティブデマスクモジュールが組み込まれている。 次にstackformerは、次のコードとその機能マップの位置の組み合わせを予測することを学ぶ。 画像生成に関する総合的な実験は、我々の有効性と効率を検証する。 コードはhttps://github.com/CrossmodalGroup/MaskedVectorQuantizationでリリースされる。

Existing autoregressive models follow the two-stage generation paradigm that first learns a codebook in the latent space for image reconstruction and then completes the image generation autoregressively based on the learned codebook. However, existing codebook learning simply models all local region information of images without distinguishing their different perceptual importance, which brings redundancy in the learned codebook that not only limits the next stage's autoregressive model's ability to model important structure but also results in high training cost and slow generation speed. In this study, we borrow the idea of importance perception from classical image coding theory and propose a novel two-stage framework, which consists of Masked Quantization VAE (MQ-VAE) and Stackformer, to relieve the model from modeling redundancy. Specifically, MQ-VAE incorporates an adaptive mask module for masking redundant region features before quantization and an adaptive de-mask module for recovering the original grid image feature map to faithfully reconstruct the original images after quantization. Then, Stackformer learns to predict the combination of the next code and its position in the feature map. Comprehensive experiments on various image generation validate our effectiveness and efficiency. Code will be released at https://github.com/CrossmodalGroup/MaskedVectorQuantization.
翻訳日:2023-05-24 19:41:52 公開日:2023-05-23
# 逆情報ネットワークを用いた適応型顔認識

Adaptive Face Recognition Using Adversarial Information Network ( http://arxiv.org/abs/2305.13605v1 )

ライセンス: Link先を確認
Mei Wang, Weihong Deng(参考訳) 多くの現実世界のアプリケーションでは、トレーニングデータ(ソースドメインと参照される)がテストデータ(ターゲットドメインと参照される)と異なる場合、顔認識モデルは、しばしば退化します。 ポーズや肌のトーンなどの要因によるこのミスマッチを軽減するため、クラスタリングアルゴリズムによって生成された擬似ラベルの利用は、教師なしドメイン適応に有効な方法である。 しかし、彼らは常に厳しいポジティブなサンプルを見逃している。 擬似ラベル付きサンプルのスーパービジョンは、そのプロトタイプに向けてそれらを惹きつけ、擬似ラベル付きサンプルと対象ドメイン内の残りの未ラベル付きサンプルとの間にドメイン内ギャップを生じさせ、顔認識における識別の欠如をもたらす。 本稿では,顔認識の特異性を考慮し,それに対応する新しい敵情報ネットワーク(AIN)を提案する。 まず、目的分類器に関してMIを交互に最小化し、特徴抽出器に関してMIを最大化するために、新しい相互情報(MI)損失を提案する。 これにより、ターゲットプロトタイプの位置を適応的に修正し、未ラベル画像のクラスタ化を容易にし、ドメイン内ギャップを軽減することができる。 次に, 対向的mi損失を支援するために, グラフ畳み込みネットワークを用いて, 対象データ間のリンク確率を予測し, 擬似ラベルを生成する。 ノードのコンテキストで貴重な情報を活用し、より信頼性の高い結果を得ることができる。 提案手法は,ポーズと画像の条件にまたがる領域適応と,異なる肌色を持つ顔の領域適応という2つのシナリオで評価される。 大規模な実験により、AINはクロスドメインの一般化を成功させ、新しい最先端のRFWデータセットを提供する。

In many real-world applications, face recognition models often degenerate when training data (referred to as source domain) are different from testing data (referred to as target domain). To alleviate this mismatch caused by some factors like pose and skin tone, the utilization of pseudo-labels generated by clustering algorithms is an effective way in unsupervised domain adaptation. However, they always miss some hard positive samples. Supervision on pseudo-labeled samples attracts them towards their prototypes and would cause an intra-domain gap between pseudo-labeled samples and the remaining unlabeled samples within target domain, which results in the lack of discrimination in face recognition. In this paper, considering the particularity of face recognition, we propose a novel adversarial information network (AIN) to address it. First, a novel adversarial mutual information (MI) loss is proposed to alternately minimize MI with respect to the target classifier and maximize MI with respect to the feature extractor. By this min-max manner, the positions of target prototypes are adaptively modified which makes unlabeled images clustered more easily such that intra-domain gap can be mitigated. Second, to assist adversarial MI loss, we utilize a graph convolution network to predict linkage likelihoods between target data and generate pseudo-labels. It leverages valuable information in the context of nodes and can achieve more reliable results. The proposed method is evaluated under two scenarios, i.e., domain adaptation across poses and image conditions, and domain adaptation across faces with different skin tones. Extensive experiments show that AIN successfully improves cross-domain generalization and offers a new state-of-the-art on RFW dataset.
翻訳日:2023-05-24 19:41:28 公開日:2023-05-23
# Resee: オープンドメイン対話におけるきめ細かい視覚的知識の活用

ReSee: Responding through Seeing Fine-grained Visual Knowledge in Open-domain Dialogue ( http://arxiv.org/abs/2305.13602v1 )

ライセンス: Link先を確認
Haoqin Tu, Yitong Li, Fei Mi, Zhongliang Yang(参考訳) 視覚知識をテキストのみの対話システムに統合することは、人間の思考、想像、コミュニケーションを模倣する潜在的な方向になりつつある。 しかし、既存のマルチモーダル対話システムは、利用可能なデータセットのスケールと品質、あるいは視覚知識の粗い概念に制限されている。 これらの課題に対処するため,テキストのみの対話から拡張された2つのデータセット(ReSee-WoW,ReSee-DD)とともに,マルチモーダル対話を構築する新たなパラダイムを提供する。 視覚的知識をより細かい粒度( ``turn-level' と ``entity-level' )に明示的に分割することを提案する。 拡張視覚情報の精度と多様性をさらに高めるために,インターネットや大規模画像データセットから情報を取得する。 提供された視覚的知識の優越性と普遍性を示すために,モダリティ結合によるバニラ対話モデルに視覚表現を加えるためのシンプルで効果的なフレームワークReSeeを提案する。 また、さまざまなモデル設定や視覚的知識設定に関する広範な実験や改善も行います。 経験的かつ奨励的な結果は、エンティティレベルとターンレベルの両方で視覚知識を導入することの有効性を示すだけでなく、提案されたモデルの検証が、自動評価と人間評価のいくつかの最先端手法を上回っていることを示している。 テキストと視覚知識を活用することで、ReSeeは現実世界の視覚概念による情報応答を生成できる。

Incorporating visual knowledge into text-only dialogue systems has become a potential direction to imitate the way humans think, imagine, and communicate. However, existing multimodal dialogue systems are either confined by the scale and quality of available datasets or the coarse concept of visual knowledge. To address these issues, we provide a new paradigm of constructing multimodal dialogues as well as two datasets extended from text-only dialogues under such paradigm (ReSee-WoW, ReSee-DD). We propose to explicitly split the visual knowledge into finer granularity (``turn-level'' and ``entity-level''). To further boost the accuracy and diversity of augmented visual information, we retrieve them from the Internet or a large image dataset. To demonstrate the superiority and universality of the provided visual knowledge, we propose a simple but effective framework ReSee to add visual representation into vanilla dialogue models by modality concatenations. We also conduct extensive experiments and ablations w.r.t. different model configurations and visual knowledge settings. Empirical, encouraging results not only demonstrate the effectiveness of introducing visual knowledge at both entity and turn level but also verify the proposed model ReSee outperforms several state-of-the-art methods on automatic and human evaluations. By leveraging text and vision knowledge, ReSee can produce informative responses with real-world visual concepts.
翻訳日:2023-05-24 19:41:01 公開日:2023-05-23
# MaskCL: 衣服変化を伴う教師なし人物再同定のための意味的マスク駆動型コントラスト学習

MaskCL: Semantic Mask-Driven Contrastive Learning for Unsupervised Person Re-Identification with Clothes Change ( http://arxiv.org/abs/2305.13600v1 )

ライセンス: Link先を確認
Mingkun Li, Peng Xu, Chun-Guang Li, Jun Guo(参考訳) 本稿では,服の着替えに伴う長期的個人識別の非教師化という,新しい課題と課題を考察する。 残念なことに、従来の教師なしの人物再識別法は短期的なケースのために設計されており、RGBプロンプトによって単純に駆動されるため、衣服に依存しないパターンを認識できない。 このようなボトルネックに対処するために,2分岐ネットワークにおけるRGBとセマンティック特徴を組み合わせた階層的セマンティック隣り構造から,シルエットマスクをセマンティックプロンプトとクロスクロース不変性を学習する,セマンティックマスク駆動のコントラッシブラーニング手法を提案する。 このような難易度の高い再idタスク設定を初めて検討したので,広く使用されている5つの着替え再idデータセットにおける最先端の短期的人物再id手法を評価するための広範囲な実験を行った。 実験により,本手法は教師なしre-id競合よりも明確なマージンで優れており,教師付きベースラインとの差が狭いことが確認された。

This paper considers a novel and challenging problem: unsupervised long-term person re-identification with clothes change. Unfortunately, conventional unsupervised person re-id methods are designed for short-term cases and thus fail to perceive clothes-independent patterns due to simply being driven by RGB prompt. To tackle with such a bottleneck, we propose a semantic mask-driven contrastive learning approach, in which silhouette masks are embedded into contrastive learning framework as the semantic prompts and cross-clothes invariance is learnt from hierarchically semantic neighbor structure by combining both RGB and semantic features in a two-branches network. Since such a challenging re-id task setting is investigated for the first time, we conducted extensive experiments to evaluate state-of-the-art unsupervised short-term person re-id methods on five widely-used clothes-change re-id datasets. Experimental results verify that our approach outperforms the unsupervised re-id competitors by a clear margin, remaining a narrow gap to the supervised baselines.
翻訳日:2023-05-24 19:40:35 公開日:2023-05-23
# 1次元非エルミタンスターク系におけるエルゴディディティから多体局在へ

From Ergodicity to Many-Body Localization in a One-Dimensional Interacting Non-Hermitian Stark System ( http://arxiv.org/abs/2305.13636v1 )

ライセンス: Link先を確認
Jinghu Liu and Zhihao Xu(参考訳) 非エルミート量子系における無秩序誘導多体局在(mbl)の研究が注目されている。 しかし、非エルミート障害のないMBLは明らかにする必要がある。 時間-逆対称性を持つ非相互ホッピングを持つ1次元の相互作用するスタークモデルを考える。 周期境界条件 (pbc) 下では、そのようなモデルは3種類の位相遷移(固有エネルギーの実複素遷移、位相相転移、非エルミートスターク mbl遷移)を示す。 実複素およびトポロジカル相転移は熱力学的極限において同じ点で起こるが、非エルミートスタークMBL遷移とは一致しない。 レベル統計により、この系は、線形傾動ポテンシャルの強度が$\gamma$の増加とともに、ジニブレアンサンブル(GE)からガウス直交アンサンブル(GOE)からポッションアンサンブル(PE)へ遷移する。 固有値の実際の複素遷移は、エルゴード系におけるGE-to-GOE遷移を伴う。 さらに、レベル統計の第二の遷移は非エルミートスターク mbl の発生に対応する。 我々は、非エルミートスタークMBLがロバストであり、スペクトル統計学および固有状態特性の既存の特徴量で確認できる障害誘発MBLと多くの類似点を有することを示した。 絡み合いエントロピーと密度不均衡の動的進化は、実複素およびスタークMBL遷移を区別することができる。 最後に, 開境界条件下での系には実複素遷移が欠如しており, 非エルミートスターク mbl の遷移はpbcs の系と同じであることがわかった。

Recent studies on disorder-induced many-body localization (MBL) in non-Hermitian quantum systems have attracted great interest. However, the non-Hermitian disorder-free MBL still needs to be clarified. We consider a one-dimensional interacting Stark model with nonreciprocal hoppings having time-reversal symmetry, the properties of which are boundary dependent. Under periodic boundary conditions (PBC), such a model exhibits three types of phase transitions: the real-complex transition of eigenenergies, the topological phase transition, and the non-Hermitian Stark MBL transition. The real-complex and topological phase transitions occur at the same point in the thermodynamic limit, but do not coincide with the non-Hermitian Stark MBL transition, which is quite different from the non-Hermitian disordered cases. By the level statistics, the system undergoes from the Ginibre ensemble (GE) to Gaussian orthogonal ensemble (GOE) to Possion ensemble (PE) transitions with the increase of the linear tilt potential's strength $\gamma$. The real-complex transition of the eigenvalues is accompanied by the GE-to-GOE transition in the ergodic regime. Moreover, the second transition of the level statistics corresponds to the occurrence of non-Hermitian Stark MBL. We demonstrate that the non-Hermitian Stark MBL is robust and shares many similarities with disorder-induced MBL, which several existing characteristic quantities of the spectral statistics and eigenstate properties can confirm. The dynamical evolutions of the entanglement entropy and the density imbalance can distinguish the real-complex and Stark MBL transitions. Finally, we find that our system under open boundary conditions lacks a real-complex transition, and the transition of non-Hermitian Stark MBL is the same as that under PBCs.
翻訳日:2023-05-24 19:35:08 公開日:2023-05-23
# SMAP:シナリオベース最適モデルアサインメントのための新しい異種情報フレームワーク

SMAP: A Novel Heterogeneous Information Framework for Scenario-based Optimal Model Assignment ( http://arxiv.org/abs/2305.13634v1 )

ライセンス: Link先を確認
Zekun Qiu, Zhipu Xie, Zehua Ji, Yuhao Mao, Ke Cheng(参考訳) ビッグデータアプリケーションの成熟度が高まり、同じシナリオやデータセット内で同じ目的をターゲットとしたモデルが急増した。 しかしながら、特定の要件や制約を考慮しながら、モデルの機能を考慮する最も適切なモデルを選択することは、依然として大きな課題となる。 既存の手法では,クラウドソーシングに基づく作業者タスクの割り当てに重点を置いている。 この課題に対処するために、シナリオベース最適モデル割り当て(soma)問題と呼ばれる新しい問題を導入し、シナリオとモデル連想知覚(smap)という新しいフレームワークを開発した。 SMAPは、さまざまな種類の情報を統合して、適切なデータセットをインテリジェントに選択し、特定のシナリオに対して最適なモデルを割り当てる、異種情報フレームワークである。 モデルを包括的に評価するために,マルチヘッドアテンション機構を利用した新しいスコア関数を提案する。 さらに、一致した異種情報を記憶し、重複を防止すべく、モニーモニックセンターという新しい記憶機構を開発する。 6つの一般的な交通シナリオが研究ケースとして選択され、SMAPとスコア関数の有効性と効率を検証するためにデータセット上で広範な実験が行われる。

The increasing maturity of big data applications has led to a proliferation of models targeting the same objectives within the same scenarios and datasets. However, selecting the most suitable model that considers model's features while taking specific requirements and constraints into account still poses a significant challenge. Existing methods have focused on worker-task assignments based on crowdsourcing, they neglect the scenario-dataset-model assignment problem. To address this challenge, a new problem named the Scenario-based Optimal Model Assignment (SOMA) problem is introduced and a novel framework entitled Scenario and Model Associative percepts (SMAP) is developed. SMAP is a heterogeneous information framework that can integrate various types of information to intelligently select a suitable dataset and allocate the optimal model for a specific scenario. To comprehensively evaluate models, a new score function that utilizes multi-head attention mechanisms is proposed. Moreover, a novel memory mechanism named the mnemonic center is developed to store the matched heterogeneous information and prevent duplicate matching. Six popular traffic scenarios are selected as study cases and extensive experiments are conducted on a dataset to verify the effectiveness and efficiency of SMAP and the score function.
翻訳日:2023-05-24 19:34:40 公開日:2023-05-23
# 多言語要約における幻覚の検出と緩和

Detecting and Mitigating Hallucinations in Multilingual Summarisation ( http://arxiv.org/abs/2305.13632v1 )

ライセンス: Link先を確認
Yifu Qiu, Yftah Ziser, Anna Korhonen, Edoardo M. Ponti, Shay B. Cohen(参考訳) 幻覚は抽象的要約のための神経モデルの信頼性にとって重要な課題となる。 自動生成された要約は流麗であるが、しばしば元の文書に対する忠実さを欠いている。 この問題は、言語間転送のような低リソース設定でさらに顕著になる。 英語に焦点を当てた既存の忠実なメトリクスでは、この現象の程度を言語間設定で測定することさえ難しい。 そこで我々はまず,英語以外の要約の忠実度を評価するための新しい尺度mFACTを開発し,複数の英語の忠実度指標からの翻訳に基づく移動を利用した。 次に,言語間移動による幻覚の簡易かつ効果的な低減法を提案し,その忠実度スコアによる各トレーニング例の損失を重み付けする。 複数の言語の広範な実験を通して、mFACTは幻覚を検出するのに最も適した計量であることを示す。 さらに,提案手法はMAD-Xのような多言語間移動の強いベースラインと比較して,自動評価と人的評価の両方で性能と忠実度を大幅に向上させることがわかった。 私たちのコードとデータセットはhttps://github.com/yfqiu-nlp/mfact-summで利用可能です。

Hallucinations pose a significant challenge to the reliability of neural models for abstractive summarisation. While automatically generated summaries may be fluent, they often lack faithfulness to the original document. This issue becomes even more pronounced in low-resource settings, such as cross-lingual transfer. With the existing faithful metrics focusing on English, even measuring the extent of this phenomenon in cross-lingual settings is hard. To address this, we first develop a novel metric, mFACT, evaluating the faithfulness of non-English summaries, leveraging translation-based transfer from multiple English faithfulness metrics. We then propose a simple but effective method to reduce hallucinations with a cross-lingual transfer, which weighs the loss of each training example by its faithfulness score. Through extensive experiments in multiple languages, we demonstrate that mFACT is the metric that is most suited to detect hallucinations. Moreover, we find that our proposed loss weighting method drastically increases both performance and faithfulness according to both automatic and human evaluation when compared to strong baselines for cross-lingual transfer such as MAD-X. Our code and dataset are available at https://github.com/yfqiu-nlp/mfact-summ.
翻訳日:2023-05-24 19:34:19 公開日:2023-05-23
# edis: マルチモーダルwebコンテンツ上のエンティティ駆動イメージ検索

EDIS: Entity-Driven Image Search over Multimodal Web Content ( http://arxiv.org/abs/2305.13631v1 )

ライセンス: Link先を確認
Siqi Liu, Weixi Feng, Wenhu Chen, William Yang Wang(参考訳) 実世界の検索アプリケーションで画像検索を実践するには、データセットスケール、エンティティ理解、マルチモーダル情報融合の大幅な進歩が必要である。 本稿では,ニュース領域におけるクロスモーダル画像検索のための挑戦的データセットであるtextbf{E}ntity-\textbf{D}riven \textbf{I}mage \textbf{S}earch (EDIS)を紹介する。 EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。 単一のモダリティ候補を仮定するデータセットとは異なり、EDISは100万のマルチモーダルイメージテキストペアを候補として含むことで、現実世界のWebイメージ検索シナリオを反映している。 EDISは、クロスモーダル情報融合とマッチングを同時に扱う検索モデルの開発を奨励する。 正確なランキング結果を得るためには、以下のモデルが必要となる。 1)テキストクエリから名前付きエンティティやイベントを理解する。 2)画像又はテキスト記述への接地実体,及び 3) テキストと視覚表現を効果的に融合させる。 実験の結果,EDISは高密度エンティティと大規模候補セットを用いた最先端手法に挑戦していることがわかった。 また,テキストの特徴を視覚的特徴と融合させることが,検索結果の改善に重要であることを示す。

Making image retrieval methods practical for real-world search applications requires significant progress in dataset scales, entity comprehension, and multimodal information fusion. In this work, we introduce \textbf{E}ntity-\textbf{D}riven \textbf{I}mage \textbf{S}earch (EDIS), a challenging dataset for cross-modal image search in the news domain. EDIS consists of 1 million web images from actual search engine results and curated datasets, with each image paired with a textual description. Unlike datasets that assume a small set of single-modality candidates, EDIS reflects real-world web image search scenarios by including a million multimodal image-text pairs as candidates. EDIS encourages the development of retrieval models that simultaneously address cross-modal information fusion and matching. To achieve accurate ranking results, a model must: 1) understand named entities and events from text queries, 2) ground entities onto images or text descriptions, and 3) effectively fuse textual and visual representations. Our experimental results show that EDIS challenges state-of-the-art methods with dense entities and a large-scale candidate set. The ablation study also proves that fusing textual features with visual features is critical in improving retrieval results.
翻訳日:2023-05-24 19:34:04 公開日:2023-05-23
# コントラスト学習とプロトタイプ学習による言語横断型エンティティ認識のための自己学習の改善

Improving Self-training for Cross-lingual Named Entity Recognition with Contrastive and Prototype Learning ( http://arxiv.org/abs/2305.13628v1 )

ライセンス: Link先を確認
Ran Zhou, Xin Li, Lidong Bing, Erik Cambria, Chunyan Miao(参考訳) 言語横断的エンティティ認識(NER)では、擬似ラベル付きターゲット言語データに基づく訓練により、言語ギャップをブリッジするために自己学習が一般的である。 しかし、ターゲット言語での準最適性能のため、擬似ラベルはしばしばノイズが多く、全体的な性能が制限される。 本研究は,表現学習と擬似ラベルの洗練を両立させることにより,言語間NERの自己学習を改善することを目的とする。 提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。 対照的な自己学習は、異なるクラスの集合を分離することでスパン分類を促進し、ソースとターゲット言語間の密結合表現を生成することにより、言語間転送性を高める。 一方、プロトタイプベースの擬似ラベルは、トレーニング中の擬似ラベルの精度を効果的に向上させる。 提案手法は,複数のトランスファーペアにおけるcontprotoを評価し,現行手法よりも大幅に改善することを示す。

In cross-lingual named entity recognition (NER), self-training is commonly used to bridge the linguistic gap by training on pseudo-labeled target-language data. However, due to sub-optimal performance on target languages, the pseudo labels are often noisy and limit the overall performance. In this work, we aim to improve self-training for cross-lingual NER by combining representation learning and pseudo label refinement in one coherent framework. Our proposed method, namely ContProto mainly comprises two components: (1) contrastive self-training and (2) prototype-based pseudo-labeling. Our contrastive self-training facilitates span classification by separating clusters of different classes, and enhances cross-lingual transferability by producing closely-aligned representations between the source and target language. Meanwhile, prototype-based pseudo-labeling effectively improves the accuracy of pseudo labels during training. We evaluate ContProto on multiple transfer pairs, and experimental results show our method brings in substantial improvements over current state-of-the-art methods.
翻訳日:2023-05-24 19:33:37 公開日:2023-05-23
# instruct-align:アライメントに基づくクロスリンガル指導によるt-llmを用いた新しい言語教育

Instruct-Align: Teaching Novel Languages with to LLMs through Alignment-based Cross-Lingual Instruction ( http://arxiv.org/abs/2305.13627v1 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Holy Lovenia, Tiezheng Yu, Willy Chung, Pascale Fung(参考訳) 命令調整型大規模言語モデル(LLM)は、複数の言語で複数のタスクにまたがる顕著な一般化能力を示している。 しかし、それらの異なる言語への一般化は、特に表現不足の言語や、目に見えない言語まで様々である。 LLMに新しい言語を適応する以前の研究は、新しい言語を命令調整されたLLMに鼻で適応させることで、破滅的な忘れ込みが生じ、結果としてこれらのLLMのマルチタスク能力が失われることを発見した。 そこで本研究では,アライメントに基づくクロスリンガル・インストラクション・チューニングにより,未学習言語と未学習言語間の言語間アライメントを学習するインストラクション・アライメント a.k.a (ia)$^1$ フレームワークを提案する。 BLOOMZ-560Mにおける予備的な結果から, (IA)$^1$は, 限られた並列データしか持たず, 新しい言語を効果的に学習でき, 同時に, 連続的な指導調整を経験リプレイを通じて行うことにより, 破滅的な忘れを防止できることがわかった。 本研究は,命令調整型llmのための言語適応手法の進展に寄与し,既存の命令調整型llmに低表現型低リソース言語を適用する可能性を開く。 受け入れ次第、私たちのコードは公開されます。

Instruction-tuned large language models (LLMs) have shown remarkable generalization capability over multiple tasks in multiple languages. Nevertheless, their generalization towards different languages varies especially to underrepresented languages or even to unseen languages. Prior works on adapting new languages to LLMs find that naively adapting new languages to instruction-tuned LLMs will result in catastrophic forgetting, which in turn causes the loss of multitasking ability in these LLMs. To tackle this, we propose the Instruct-Align a.k.a (IA)$^1$ framework, which enables instruction-tuned LLMs to learn cross-lingual alignment between unseen and previously learned languages via alignment-based cross-lingual instruction-tuning. Our preliminary result on BLOOMZ-560M shows that (IA)$^1$ is able to learn a new language effectively with only a limited amount of parallel data and at the same time prevent catastrophic forgetting by applying continual instruction-tuning through experience replay. Our work contributes to the progression of language adaptation methods for instruction-tuned LLMs and opens up the possibility of adapting underrepresented low-resource languages into existing instruction-tuned LLMs. Our code will be publicly released upon acceptance.
翻訳日:2023-05-24 19:33:18 公開日:2023-05-23
# プロアクティブ対話のための大規模言語モデルの提案と評価:明確化、目標誘導、非協調

Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification, Target-guided, and Non-collaboration ( http://arxiv.org/abs/2305.13626v1 )

ライセンス: Link先を確認
Yang Deng, Wenqiang Lei, Lizi Liao, Tat-Seng Chua(参考訳) ChatGPTのようなLarge Language Models (LLM)に基づく会話システムは、文脈理解と応答生成において例外的な習熟度を示す。 しかし、その見事な能力にもかかわらず、あいまいなクエリに対してランダムにゲーミングされた回答を提供したり、ユーザの要求を拒否しなかったりといった制限がある。 これにより,LLMに基づく対話システムでは,対話の問題に対処できるかどうかが疑問視される。 本研究では,llmに基づく対話システムの包括的分析を行い,特に,対話の明確化,目標誘導,非協調対話の3つの側面に着目した。 LLMの能動性を高めるために,記述的推論チェーンよりも目標計画能力でLCMを増強するProactive Chain-of-Thought prompting schemeを提案する。 LLMに基づくプロアクティブ対話システムの今後の研究を促進するために,実証的な研究結果が議論されている。

Conversational systems based on Large Language Models (LLMs), such as ChatGPT, show exceptional proficiency in context understanding and response generation. However, despite their impressive capabilities, they still possess limitations, such as providing randomly-guessed answers to ambiguous queries or failing to refuse users' requests, both of which are considered aspects of a conversational agent's proactivity. This raises the question of whether LLM-based conversational systems are equipped to handle proactive dialogue problems. In this work, we conduct a comprehensive analysis of LLM-based conversational systems, specifically focusing on three aspects of proactive dialogue systems: clarification, target-guided, and non-collaborative dialogues. To trigger the proactivity of LLMs, we propose the Proactive Chain-of-Thought prompting scheme, which augments LLMs with the goal planning capability over descriptive reasoning chains. Empirical findings are discussed to promote future studies on LLM-based proactive dialogue systems.
翻訳日:2023-05-24 19:32:52 公開日:2023-05-23
# DiffProtect: 顔のプライバシー保護のための拡散モデルを用いた逆例の生成

DiffProtect: Generate Adversarial Examples with Diffusion Models for Facial Privacy Protection ( http://arxiv.org/abs/2305.13625v1 )

ライセンス: Link先を確認
Jiang Liu, Chun Pong Lau, Rama Chellappa(参考訳) ますます広まりつつある顔認識(FR)システムは、特にソーシャルメディアで写真を公開している何十億ものユーザーにとって、個人のプライバシーに対する深刻な懸念を引き起こしている。 いくつかの試みは、暗号化された顔画像を生成するために敵対的攻撃を利用する不正なFRシステムによって個人が識別されるのを防ぐために行われた。 しかし、既存の手法は視覚品質の低下や攻撃成功率の低下に苦しむため、実用性が制限される。 近年,拡散モデルが画像生成に多大な成功を収めている。 拡散モデルは、視覚品質と攻撃性能の両方を改善するために、逆の例を生成するために使用できますか? 本稿では拡散オートエンコーダを用いてFRシステム上で意味論的に意味のある摂動を生成するDiffProtectを提案する。 大規模な実験では、DiffProtectは最先端の手法よりも自然に見える暗号化画像を生成する一方で、CelebA-HQとFFHQのデータセットに対する24.5%と25.1%の絶対的な改善など、攻撃の成功率を大きく向上している。

The increasingly pervasive facial recognition (FR) systems raise serious concerns about personal privacy, especially for billions of users who have publicly shared their photos on social media. Several attempts have been made to protect individuals from being identified by unauthorized FR systems utilizing adversarial attacks to generate encrypted face images. However, existing methods suffer from poor visual quality or low attack success rates, which limit their utility. Recently, diffusion models have achieved tremendous success in image generation. In this work, we ask: can diffusion models be used to generate adversarial examples to improve both visual quality and attack performance? We propose DiffProtect, which utilizes a diffusion autoencoder to generate semantically meaningful perturbations on FR systems. Extensive experiments demonstrate that DiffProtect produces more natural-looking encrypted images than state-of-the-art methods while achieving significantly higher attack success rates, e.g., 24.5% and 25.1% absolute improvements on the CelebA-HQ and FFHQ datasets.
翻訳日:2023-05-24 19:32:34 公開日:2023-05-23
# semantic fusion によるマルチメディアコンテンツモデレーションソフトの検証

Validating Multimedia Content Moderation Software via Semantic Fusion ( http://arxiv.org/abs/2305.13623v1 )

ライセンス: Link先を確認
Wenxuan Wang, Jingyuan Huang, Chang Chen, Jiazhen Gu, Jianping Zhang, Weibin Wu, Pinjia He, Michael Lyu(参考訳) FacebookやTikTokのようなソーシャルメディアプラットフォームの指数関数的な成長は、人間社会におけるコミュニケーションとコンテンツ出版に革命をもたらした。 これらのプラットフォームのユーザーは、テキスト、オーディオ、画像、ビデオの組み合わせで情報を配信するマルチメディアコンテンツを公開することができる。 一方、マルチメディアコンテンツリリース施設は、ヘイトスピーチ、悪意のある広告、ポルノグラフィなどの有害コンテンツを広めるために、ますます利用されてきた。 この目的のために、コンテンツモデレーションソフトウェアは有害なコンテンツを検出しブロックするためにこれらのプラットフォームに広くデプロイされている。 しかし、コンテンツモデレーションモデルの複雑さと複数のモダリティにわたる情報を理解するのが難しいため、既存のコンテンツモデレーションソフトウェアは有害なコンテンツの検出に失敗し、しばしば非常にネガティブな影響をもたらす。 本稿では,マルチメディアコンテンツモデレーションソフトウェアを検証する汎用的手法であるsemantic fusionを提案する。 私たちのキーとなるアイデアは、2つ以上の既存の単一モーダル入力(例:テキスト文と画像)を、その祖先のセマンティクスを新しい方法で組み合わせ、建設によって有害な性質を持つ新しいインプットに融合させることです。 この融合された入力は、マルチメディアコンテンツモデレーションソフトウェアの検証に使用される。 実用的なコンテンツモデレーションソフトウェアテストツールであるduoとして,semantic fusionを実現しました。 我々はduoを用いて,3種類の有害コンテンツに対して5つの商用コンテンツモデレーションソフトウェアと2つの最新モデルの試験を行った。 その結果,モデレーションソフトウェアをテストする場合,duoは最大100%エラー検出率(efr)を達成した。 さらに、DUOが生成したテストケースを活用して、調査した2つのモデルを再トレーニングし、元のテストセットの精度を維持しながら、モデルの堅牢性を大幅に改善します。

The exponential growth of social media platforms, such as Facebook and TikTok, has revolutionized communication and content publication in human society. Users on these platforms can publish multimedia content that delivers information via the combination of text, audio, images, and video. Meanwhile, the multimedia content release facility has been increasingly exploited to propagate toxic content, such as hate speech, malicious advertisements, and pornography. To this end, content moderation software has been widely deployed on these platforms to detect and blocks toxic content. However, due to the complexity of content moderation models and the difficulty of understanding information across multiple modalities, existing content moderation software can fail to detect toxic content, which often leads to extremely negative impacts. We introduce Semantic Fusion, a general, effective methodology for validating multimedia content moderation software. Our key idea is to fuse two or more existing single-modal inputs (e.g., a textual sentence and an image) into a new input that combines the semantics of its ancestors in a novel manner and has toxic nature by construction. This fused input is then used for validating multimedia content moderation software. We realized Semantic Fusion as DUO, a practical content moderation software testing tool. In our evaluation, we employ DUO to test five commercial content moderation software and two state-of-the-art models against three kinds of toxic content. The results show that DUO achieves up to 100% error finding rate (EFR) when testing moderation software. In addition, we leverage the test cases generated by DUO to retrain the two models we explored, which largely improves model robustness while maintaining the accuracy on the original test set.
翻訳日:2023-05-24 19:32:12 公開日:2023-05-23
# 経験の強いリプレイによる連続学習

Continual Learning with Strong Experience Replay ( http://arxiv.org/abs/2305.13622v1 )

ライセンス: Link先を確認
Tao Zhuo, Zhiyong Cheng, Zan Gao, Mohan Kankanhalli(参考訳) 継続学習(CL)は、古いタスクから得た知識を忘れずに、新しいタスクを段階的に学習することを目的としている。 Experience Replay(ER)は、現在のトレーニングデータとメモリバッファに格納された古いサンプルのサブセットでモデルを最適化する、シンプルで効果的なリハーサルベースの戦略である。 忘れることをさらに軽減するため、最近のアプローチでは、モデル正規化やメモリサンプリングといった様々な手法でERを拡張している。 しかし、現在のトレーニングデータにおける新しいモデルと古いモデルとの予測一貫性は、ほとんど探求されておらず、以前のサンプルがほとんど入手できない場合の知識の保存は少ない。 この問題に対処するために,メモリバッファから過去の経験を抽出することに加えて,現在のトレーニングデータに模倣された将来の経験を活かしたSER(Strong Experience Replay)を用いたCL手法を提案する。 本手法では, 得られた知識を効果的に保存できるような近似出力を元のモデルとして生成する。 複数の画像分類データセットによる実験結果から,SER法が最先端の手法をはるかに上回ることがわかった。

Continual Learning (CL) aims at incrementally learning new tasks without forgetting the knowledge acquired from old ones. Experience Replay (ER) is a simple and effective rehearsal-based strategy, which optimizes the model with current training data and a subset of old samples stored in a memory buffer. To further reduce forgetting, recent approaches extend ER with various techniques, such as model regularization and memory sampling. However, the prediction consistency between the new model and the old one on current training data has been seldom explored, resulting in less knowledge preserved when few previous samples are available. To address this issue, we propose a CL method with Strong Experience Replay (SER), which additionally utilizes future experiences mimicked on the current training data, besides distilling past experience from the memory buffer. In our method, the updated model will produce approximate outputs as its original ones, which can effectively preserve the acquired knowledge. Experimental results on multiple image classification datasets show that our SER method surpasses the state-of-the-art methods by a noticeable margin.
翻訳日:2023-05-24 19:31:43 公開日:2023-05-23
# RaSa:テキスト検索における関係性と感性を考慮した表現学習

RaSa: Relation and Sensitivity Aware Representation Learning for Text-based Person Search ( http://arxiv.org/abs/2305.13653v1 )

ライセンス: Link先を確認
Yang Bai, Min Cao, Daming Gao, Ziqiang Cao, Chen Chen, Zhenfeng Fan, Liqiang Nie, Min Zhang(参考訳) テキストベースの人物検索は、テキスト記述が与えられた特定人物画像の検索を目的としている。 このような困難なタスクに取り組む鍵は、強力なマルチモーダル表現を学ぶことである。 そこで我々は,関係認識学習(RA)と感認識学習(SA)の2つの新しいタスクを含む関係認識型表現学習法(RaSa)を提案する。 例えば、既存の方法では、テキストとペア画像がノイズ対応を持つ弱い正のペアによって引き起こされるノイズ問題を区別せず、見落としずに、すべての正のペアの表現をクラスタ化する。 RAは、新しい正の関係検出タスク(すなわち、強い正と弱い正のペアを区別する学習)を導入することで、過適合リスクをオフセットする。 別の例として、データ拡張の下で不変表現を学習することは、既存の方法における表現のロバスト性を改善する一般的なプラクティスである。 その上、表現はsaによる敏感な変換(つまり置換された単語を検出するための学習)を知覚することを奨励し、表現の堅牢性を促進する。 RaSaは、CUHK-PEDESの Rank@1 と ICFG-PEDES と RSTPReid のデータセットでそれぞれ6.94%、4.45%、および15.35% で、既存の最先端手法より優れていることを示した。 コードは、https://github.com/Flame-Chasers/RaSa.comで入手できる。

Text-based person search aims to retrieve the specified person images given a textual description. The key to tackling such a challenging task is to learn powerful multi-modal representations. Towards this, we propose a Relation and Sensitivity aware representation learning method (RaSa), including two novel tasks: Relation-Aware learning (RA) and Sensitivity-Aware learning (SA). For one thing, existing methods cluster representations of all positive pairs without distinction and overlook the noise problem caused by the weak positive pairs where the text and the paired image have noise correspondences, thus leading to overfitting learning. RA offsets the overfitting risk by introducing a novel positive relation detection task (i.e., learning to distinguish strong and weak positive pairs). For another thing, learning invariant representation under data augmentation (i.e., being insensitive to some transformations) is a general practice for improving representation's robustness in existing methods. Beyond that, we encourage the representation to perceive the sensitive transformation by SA (i.e., learning to detect the replaced words), thus promoting the representation's robustness. Experiments demonstrate that RaSa outperforms existing state-of-the-art methods by 6.94%, 4.45% and 15.35% in terms of Rank@1 on CUHK-PEDES, ICFG-PEDES and RSTPReid datasets, respectively. Code is available at: https://github.com/Flame-Chasers/RaSa.
翻訳日:2023-05-24 19:24:13 公開日:2023-05-23
# トランスデューサを用いた低リソース音声認識のための言語間知識伝達と繰り返し擬似ラベル

Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for Low-Resource Speech Recognition with Transducers ( http://arxiv.org/abs/2305.13652v1 )

ライセンス: Link先を確認
Jan Silovsky, Liuhui Deng, Arturo Argueta, Tresi Arvizo, Roger Hsiao, Sasha Kuznietsov, Yiu-Chang Lin, Xiaoqiang Xiao, Yuanyuan Zhang(参考訳) 音声技術は最近普及している。 しかし、様々な言語における正確さ、すなわち経験は著しく異なり、この技術は等しく包摂的ではない。 異なる言語に対するデータの可用性は、特に全神経終末自動音声認識システムの訓練において、精度に影響を及ぼす重要な要因の1つである。 言語間の知識伝達と反復的な擬似ラベル化は、特にウクライナ語のような低リソース言語において、ASRシステムの精度を向上させるために成功した2つの手法である。 我々の目標は、DNN-HMMハイブリッドシステムに手動で注釈付きトレーニングデータなしで置き換えるために、全神経トランスデューサベースのASRシステムを訓練することである。 ハイブリッドシステムで生成した書き起こしを用いて学習したトランスデューサシステムは,単語誤り率で18%削減できることを示す。 しかし,関連言語からの言語間知識伝達と反復的な擬似ラベル処理の組み合わせにより,誤り率を35%削減することができる。

Voice technology has become ubiquitous recently. However, the accuracy, and hence experience, in different languages varies significantly, which makes the technology not equally inclusive. The availability of data for different languages is one of the key factors affecting accuracy, especially in training of all-neural end-to-end automatic speech recognition systems. Cross-lingual knowledge transfer and iterative pseudo-labeling are two techniques that have been shown to be successful for improving the accuracy of ASR systems, in particular for low-resource languages, like Ukrainian. Our goal is to train an all-neural Transducer-based ASR system to replace a DNN-HMM hybrid system with no manually annotated training data. We show that the Transducer system trained using transcripts produced by the hybrid system achieves 18% reduction in terms of word error rate. However, using a combination of cross-lingual knowledge transfer from related languages and iterative pseudo-labeling, we are able to achieve 35% reduction of the error rate.
翻訳日:2023-05-24 19:23:43 公開日:2023-05-23
# ベクトル量子化による敵防御

Adversarial Defenses via Vector Quantization ( http://arxiv.org/abs/2305.13651v1 )

ライセンス: Link先を確認
Zhiyi Dong and Yongyi Mao(参考訳) ランダム化された離散化に基づいて,高次元空間におけるベクトル量子化を利用した,ホワイトボックスpgd攻撃に対する2つの新しい逆防御法を開発した。 これらの手法は pRD や swRD と呼ばれ、認証精度の点で理論的な保証を提供するだけでなく、豊富な実験を通して、現在の敵防衛技術と相容れない、あるいはそれ以上に優れていることが示される。 これらのメソッドは、ターゲット分類器のさらなるトレーニングを可能にし、さらなるパフォーマンス向上を示すバージョンに拡張することができる。

Building upon Randomized Discretization, we develop two novel adversarial defenses against white-box PGD attacks, utilizing vector quantization in higher dimensional spaces. These methods, termed pRD and swRD, not only offer a theoretical guarantee in terms of certified accuracy, they are also shown, via abundant experiments, to perform comparably or even superior to the current art of adversarial defenses. These methods can be extended to a version that allows further training of the target classifier and demonstrates further improved performance.
翻訳日:2023-05-24 19:23:26 公開日:2023-05-23
# 不均衡データを用いたロバストモデル設計のための特性誘導型生成モデル

Property-Guided Generative Modelling for Robust Model-Based Design with Imbalanced Data ( http://arxiv.org/abs/2305.13650v1 )

ライセンス: Link先を確認
Saba Ghaffari, Ehsan Saleh, Alexander G. Schwing, Yu-Xiong Wang, Martin D. Burke, Saurabh Sinha(参考訳) 所望の特性を持つタンパク質配列を設計する問題は、非常に希薄な領域を持つ高次元のタンパク質配列空間を探索する必要があるため、難しい。 これにより、シーケンス空間上の特性によって導かれる効果的な探索モデルを用いることで、設計を支援するモデルベース最適化(mbo)技術の開発につながった。 しかし、実験的に導出されたデータセットの本質的な不均衡性は、既存のMBOアプローチに苦労や失敗を引き起こす。 本稿では,これらの特性に応じてサンプルが優先度付けされるような特性値によって遅延空間が明示的に構造化される特性誘導変分自動エンコーダ(PGVAE)を提案する。 実および半合成タンパク質データセットの広範なベンチマークを通じて、PGVAEを用いたMBOは、データセットの不均衡が著しいにもかかわらず、改良された特性を持つ配列を確実に見つけることを示した。 さらに、連続的な設計空間に対する我々のアプローチの一般化と、物理インフォームドニューラルネットワークへの応用における不均衡のデータセット化に対する頑健さについて述べる。

The problem of designing protein sequences with desired properties is challenging, as it requires to explore a high-dimensional protein sequence space with extremely sparse meaningful regions. This has led to the development of model-based optimization (MBO) techniques that aid in the design, by using effective search models guided by the properties over the sequence space. However, the intrinsic imbalanced nature of experimentally derived datasets causes existing MBO approaches to struggle or outright fail. We propose a property-guided variational auto-encoder (PGVAE) whose latent space is explicitly structured by the property values such that samples are prioritized according to these properties. Through extensive benchmarking on real and semi-synthetic protein datasets, we demonstrate that MBO with PGVAE robustly finds sequences with improved properties despite significant dataset imbalances. We further showcase the generality of our approach to continuous design spaces, and its robustness to dataset imbalance in an application to physics-informed neural networks.
翻訳日:2023-05-24 19:23:16 公開日:2023-05-23
# ニューラルマシン翻訳のための非パラメトリック近傍支援ファインチューニング

Non-parametric, Nearest-neighbor-assisted Fine-tuning for Neural Machine Translation ( http://arxiv.org/abs/2305.13648v1 )

ライセンス: Link先を確認
Jiayi Wang, Ke Wang, Yuqi Zhang, Yu Zhao, Pontus Stenetorp(参考訳) 非パラメトリック k-nearest-neighborアルゴリズムは、最近、言語モデルや機械翻訳デコーダなどの生成モデルを支援するために普及している。 このような非パラメトリックモデルは、kNN予測の統計を組み込んで、ベースライン翻訳モデルの勾配更新を知らせることで、微調整段階で機械翻訳モデルを改善することができるかどうかを検討する。 kNN統計を組み込むための複数の手法があり、ゲーティング機構による勾配スケーリング、kNNの基底真理確率、強化学習について検討する。 古典的微調整と比較して、4つの標準の機械翻訳データセットについて、ドイツ語と英語とドイツ語の翻訳に対して、それぞれ 1.45 bleu と 1.28 bleu による3つの方法の一貫した改善を報告している。 質的な分析により,文法的関係や機能的単語の翻訳に関して特に改善が見られ,その結果,モデルの流布度が向上した。

Non-parametric, k-nearest-neighbor algorithms have recently made inroads to assist generative models such as language models and machine translation decoders. We explore whether such non-parametric models can improve machine translation models at the fine-tuning stage by incorporating statistics from the kNN predictions to inform the gradient updates for a baseline translation model. There are multiple methods which could be used to incorporate kNN statistics and we investigate gradient scaling by a gating mechanism, the kNN's ground truth probability, and reinforcement learning. For four standard in-domain machine translation datasets, compared with classic fine-tuning, we report consistent improvements of all of the three methods by as much as 1.45 BLEU and 1.28 BLEU for German-English and English-German translations respectively. Through qualitative analysis, we found particular improvements when it comes to translating grammatical relations or function words, which results in increased fluency of our model.
翻訳日:2023-05-24 19:22:58 公開日:2023-05-23
# 自動エンコーダに基づく雪の干ばつ指数

An Autoencoder-based Snow Drought Index ( http://arxiv.org/abs/2305.13646v1 )

ライセンス: Link先を確認
Sinan Rasiya Koya, Kanak Kanti Kar, Shivendra Srivastava, Tsegaye Tadesse, Mark Svoboda, Tirthankar Roy(参考訳) 世界中のいくつかの地域では、雪が水文学に大きな影響を与えている。 地面に浸透し、流出として流れる水の量は、雪の融解によって引き起こされる。 そのため,融雪の規模と効果を検討することが重要である。 降雪量の減少に起因する雪の干ばつは、米国西部など、降雪が支配的な盆地の水の供給に大きく影響する可能性がある。 したがって,降雪の時間と重大度を効率的に検出することが重要である。 SnoDRI(Snow Drought Response Index, SnoDRI)は, 降雪の干ばつの発生を識別し, 定量化するために用いられる新しい指標である。 各種積雪変数の最先端MLアルゴリズムを用いて,本指数を算出した。 オートエンコーダの自己教師付き学習とモデル内の相互情報とを組み合わせる。 本研究では,SnoDRIの特徴抽出にランダム林を用い,各変数の重要性を評価する。 1981年から2021年までの再分析データ(nldas-2)を用いて,新積雪干ばつ指標の有効性について検討した。 我々は,その解釈と実際の降雪事故の一致を確認して指標を評価する。

In several regions across the globe, snow has a significant impact on hydrology. The amounts of water that infiltrate the ground and flow as runoff are driven by the melting of snow. Therefore, it is crucial to study the magnitude and effect of snowmelt. Snow droughts, resulting from reduced snow storage, can drastically impact the water supplies in basins where snow predominates, such as in the western United States. Hence, it is important to detect the time and severity of snow droughts efficiently. We propose Snow Drought Response Index or SnoDRI, a novel indicator that could be used to identify and quantify snow drought occurrences. Our index is calculated using cutting-edge ML algorithms from various snow-related variables. The self-supervised learning of an autoencoder is combined with mutual information in the model. In this study, we use random forests for feature extraction for SnoDRI and assess the importance of each variable. We use reanalysis data (NLDAS-2) from 1981 to 2021 for the Pacific United States to study the efficacy of the new snow drought index. We evaluate the index by confirming the coincidence of its interpretation and the actual snow drought incidents.
翻訳日:2023-05-24 19:22:39 公開日:2023-05-23
# mpmr:多言語事前学習型機械読取装置

mPMR: A Multilingual Pre-trained Machine Reader at Scale ( http://arxiv.org/abs/2305.13645v1 )

ライセンス: Link先を確認
Weiwen Xu, Xin Li, Wai Lam, Lidong Bing(参考訳) 本稿では,多言語機械読解(mrc)型事前学習手法であるmpmr(multilingual pre-trained machine reader)を提案する。 mPMRは、多言語事前学習言語モデル(mPLM)をガイドして、複数の言語におけるシーケンス分類とスパン抽出を含む自然言語理解(NLU)を実行することを目的としている。 ソース言語微調整データのみを利用できる場合、既存のmPLMはソース言語からターゲット言語にのみNLU機能を転送する。 対照的に、mPMRはMRCスタイルの事前学習から下流タスクへの多言語NLU機能の直接継承を可能にする。 したがって、mPMRはターゲット言語に対してより良いNLU能力を得る。 mPMRはまた、言語間スパン抽出とシーケンス分類に対処するための統一的な解決器を提供し、それによって、文対分類のプロセスを説明する合理性の抽出を可能にする。

We present multilingual Pre-trained Machine Reader (mPMR), a novel method for multilingual machine reading comprehension (MRC)-style pre-training. mPMR aims to guide multilingual pre-trained language models (mPLMs) to perform natural language understanding (NLU) including both sequence classification and span extraction in multiple languages. To achieve cross-lingual generalization when only source-language fine-tuning data is available, existing mPLMs solely transfer NLU capability from a source language to target languages. In contrast, mPMR allows the direct inheritance of multilingual NLU capability from the MRC-style pre-training to downstream tasks. Therefore, mPMR acquires better NLU capability for target languages. mPMR also provides a unified solver for tackling cross-lingual span extraction and sequence classification, thereby enabling the extraction of rationales to explain the sentence-pair classification process.
翻訳日:2023-05-24 19:22:23 公開日:2023-05-23
# トランスニックビュッフェの主特性同定のための物理支援低次モデル

Physics-Assisted Reduced-Order Modeling for Identifying Dominant Features of Transonic Buffet ( http://arxiv.org/abs/2305.13644v1 )

ライセンス: Link先を確認
Jing Wang, Hairun Xie, Miao Zhang, Hui Xu(参考訳) トランスニックビュッフェ(transonic buffet)は、衝撃波と分離境界層との相互作用から生じる流れ不安定現象である。 この流れ現象は飛行中に非常に有害であると考えられ、航空機の構造的強度と疲労寿命に重大なリスクをもたらす。 これまで、ビュッフェを予測し、空力設計に実行可能な制約を課すために、正確で効率的で直感的な測定基準が欠如していた。 本稿では,教師なしの減数次モデルとビュッフェ分類器に埋め込まれた物理情報を組み合わせたトランスニックビュッフェの主要な特徴を特定するために,物理支援型変分オートエンコーダ (pavae) を提案する。 具体的には、分類器の寄与を調節する様々な重みを持つ4つのモデルを訓練し、潜在空間に対するビュッフェ情報の影響を調べる。 統計的には、ビュッフェ状態は、分類器の適切な重みが選択されたとき、1つの潜在空間で正確に決定できる。 支配的な潜在空間はさらにショックの下流の境界層に位置する重要な流れの特徴と強い関連性を示す。 この同定に基づき, バフェット予測の指標として, 声道方向80%の変位厚さが提案されている。 この基準はバフェット状態の分類において98.5%の精度を達成するが、これは設計で使われている既存の分離基準よりも信頼性が高い。 提案手法は,特徴抽出,フロー再構成,バフェット予測の利点を統一されたフレームワークに統合し,高次元フローデータの低次元表現と「ブラックボックス」ニューラルネットワークの解釈の可能性を示す。

Transonic buffet is a flow instability phenomenon that arises from the interaction between the shock wave and the separated boundary layer. This flow phenomenon is considered to be highly detrimental during flight and poses a significant risk to the structural strength and fatigue life of aircraft. Up to now, there has been a lack of an accurate, efficient, and intuitive metric to predict buffet and impose a feasible constraint on aerodynamic design. In this paper, a Physics-Assisted Variational Autoencoder (PAVAE) is proposed to identify dominant features of transonic buffet, which combines unsupervised reduced-order modeling with additional physical information embedded via a buffet classifier. Specifically, four models with various weights adjusting the contribution of the classifier are trained, so as to investigate the impact of buffet information on the latent space. Statistical results reveal that buffet state can be determined exactly with just one latent space when a proper weight of classifier is chosen. The dominant latent space further reveals a strong relevance with the key flow features located in the boundary layers downstream of shock. Based on this identification, the displacement thickness at 80% chordwise location is proposed as a metric for buffet prediction. This metric achieves an accuracy of 98.5% in buffet state classification, which is more reliable than the existing separation metric used in design. The proposed method integrates the benefits of feature extraction, flow reconstruction, and buffet prediction into a unified framework, demonstrating its potential in low-dimensional representations of high-dimensional flow data and interpreting the "black box" neural network.
翻訳日:2023-05-24 19:22:08 公開日:2023-05-23
# AxomiyaBERTa:アサメの音韻変換モデル

AxomiyaBERTa: A Phonologically-aware Transformer Model for Assamese ( http://arxiv.org/abs/2305.13641v1 )

ライセンス: Link先を確認
Abhijnan Nath, Sheikh Mannan, Nikhil Krishnaswamy(参考訳) nlpでの成功にもかかわらず、トランスフォーマーベースの言語モデルは依然として広範な計算リソースを必要とし、低リソースまたは低コンピューティング設定に苦しむ。 本稿では,東インドの形態学的に豊かな低リソース言語であるAssameseの新しいBERTモデルであるAxomiyaBERTaを紹介する。 AxomiyaBERTa はマスク付き言語モデリング (MLM) タスクでのみ訓練されており、通常の次の文予測 (NSP) の目的を満たさない。 AxomiyaBERTaは、名前付きエンティティ認識のようなトークンレベルのタスクでSOTAを達成し、新しい埋め込み分散器と音声信号の助けを借りて、ClozeスタイルのQAやWiki Title Predictionのような"より長いコンテキスト"タスクでもうまく機能する。 さらに,axomiyaberta は,翻訳された ecb+ コーパス上の新しいクロスドキュメントコリファレンスタスクなど,さらに困難なタスクに対して音韻信号を活用することが可能であり,そこでは lrl に対して新たな sota 結果を示す。 ソースコードと評価スクリプトはhttps://github.com/csu-signal/axomiyabertaで確認できます。

Despite their successes in NLP, Transformer-based language models still require extensive computing resources and suffer in low-resource or low-compute settings. In this paper, we present AxomiyaBERTa, a novel BERT model for Assamese, a morphologically-rich low-resource language (LRL) of Eastern India. AxomiyaBERTa is trained only on the masked language modeling (MLM) task, without the typical additional next sentence prediction (NSP) objective, and our results show that in resource-scarce settings for very low-resource languages like Assamese, MLM alone can be successfully leveraged for a range of tasks. AxomiyaBERTa achieves SOTA on token-level tasks like Named Entity Recognition and also performs well on "longer-context" tasks like Cloze-style QA and Wiki Title Prediction, with the assistance of a novel embedding disperser and phonological signals respectively. Moreover, we show that AxomiyaBERTa can leverage phonological signals for even more challenging tasks, such as a novel cross-document coreference task on a translated version of the ECB+ corpus, where we present a new SOTA result for an LRL. Our source code and evaluation scripts may be found at https://github.com/csu-signal/axomiyaberta.
翻訳日:2023-05-24 19:21:41 公開日:2023-05-23
# IdEALS: 言語スキル向上のための慣用表現

IdEALS: Idiomatic Expressions for Advancement of Language Skills ( http://arxiv.org/abs/2305.13637v1 )

ライセンス: Link先を確認
Narutatsu Ri, Bill Sun, Sam Davidson, Zhou Yu(参考訳) 文法的誤り訂正法(GEC)の開発において顕著な進展がみられたが, 単語選択の改良は, 語句を先進表現に置き換えることによる文表現性の向上を目立って欠いている。 本稿では,この領域に焦点をあて,学生の文章に慣用表現を取り入れることの課題について検討する。 そこで本研究では,実世界のデータを用いて,広範囲なトレーニングセットと専門家アノテートテストセットをキュレートし,さまざまなアプローチを評価し,その性能を人的専門家と比較する。

Although significant progress has been made in developing methods for Grammatical Error Correction (GEC), addressing word choice improvements has been notably lacking and enhancing sentence expressivity by replacing phrases with advanced expressions is an understudied aspect. In this paper, we focus on this area and present our investigation into the task of incorporating the usage of idiomatic expressions in student writing. To facilitate our study, we curate extensive training sets and expert-annotated testing sets using real-world data and evaluate various approaches and compare their performance against human experts.
翻訳日:2023-05-24 19:21:17 公開日:2023-05-23
# キャリブレーションのための二重焦点損失

Dual Focal Loss for Calibration ( http://arxiv.org/abs/2305.13665v1 )

ライセンス: Link先を確認
Linwei Tao, Minjing Dong and Chang Xu(参考訳) 現実世界のアプリケーションにおけるディープニューラルネットワークの使用には、実際の確率を正確に反映する信頼スコアを持つ、よく校正されたネットワークが必要である。 しかし、これらのネットワークはしばしば過信的な予測を提供し、キャリブレーションが低くなることが判明した。 近年、過信を減らそうとする焦点損失によるこの問題への対処が試みられているが、このアプローチは過信の予測にも繋がる可能性がある。 焦点損失の異なる変種が研究されているが、過信と過信のバランスを見つけることは困難である。 本研究では,二重ロジットに着目した新しい損失関数を提案する。 本手法は, 基礎的真理ロジットを考えるだけでなく, 基礎的真理ロジットの次位の上位ロジットを考慮に入れる。 これら2つのロジット間のギャップを最大化することにより、提案した二重焦点損失は、過信と過信のバランスを改善することができる。 我々は,提案手法を支持する理論的証拠を提供し,その効果を複数のモデルやデータセット上で評価することで実証する。 コードはhttps://github.com/Linwei94/DualFocalLossで入手できる。

The use of deep neural networks in real-world applications require well-calibrated networks with confidence scores that accurately reflect the actual probability. However, it has been found that these networks often provide over-confident predictions, which leads to poor calibration. Recent efforts have sought to address this issue by focal loss to reduce over-confidence, but this approach can also lead to under-confident predictions. While different variants of focal loss have been explored, it is difficult to find a balance between over-confidence and under-confidence. In our work, we propose a new loss function by focusing on dual logits. Our method not only considers the ground truth logit, but also take into account the highest logit ranked after the ground truth logit. By maximizing the gap between these two logits, our proposed dual focal loss can achieve a better balance between over-confidence and under-confidence. We provide theoretical evidence to support our approach and demonstrate its effectiveness through evaluations on multiple models and datasets, where it achieves state-of-the-art performance. Code is available at https://github.com/Linwei94/DualFocalLoss
翻訳日:2023-05-24 19:16:01 公開日:2023-05-23
# 深層学習のための確率的一階法のための層ワイド適応ステップサイズ

Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for Deep Learning ( http://arxiv.org/abs/2305.13664v1 )

ライセンス: Link先を確認
Achraf Bahamou, Donald Goldfarb(参考訳) 本稿では,ディープラーニングにおける経験的損失関数を最小化し,学習率(LR)を調整する必要をなくすための,確率的1次最適化手法を提案する。 提案手法は、ディープニューラルネットワーク(DNN)におけるヘッセンの対角ブロックに含まれる層幅確率曲率情報を用いて、各層に対する適応的なステップサイズ(LR)を計算する。 この手法は、一階法に匹敵するメモリ要件を持ち、その時間単位の複雑性は、追加の勾配計算とほぼ同等の量でのみ増大する。 数値実験により、SGDと運動量とAdamWと、提案した階層ごとのステップサイズの組み合わせにより、これらの手法の効率的なLRスケジュールと細調整LRバージョン、およびオートエンコーダ、畳み込みニューラルネットワーク(CNN)、グラフ畳み込みニューラルネットワーク(GCN)モデルでDNNをトレーニングするための一般的な1次および2次アルゴリズムを選択できることが示されている。 最後に,全バッチ勾配を用いた場合,層別ステップサイズを持つsgdの理想化バージョンが線形収束することが証明された。

We propose a new per-layer adaptive step-size procedure for stochastic first-order optimization methods for minimizing empirical loss functions in deep learning, eliminating the need for the user to tune the learning rate (LR). The proposed approach exploits the layer-wise stochastic curvature information contained in the diagonal blocks of the Hessian in deep neural networks (DNNs) to compute adaptive step-sizes (i.e., LRs) for each layer. The method has memory requirements that are comparable to those of first-order methods, while its per-iteration time complexity is only increased by an amount that is roughly equivalent to an additional gradient computation. Numerical experiments show that SGD with momentum and AdamW combined with the proposed per-layer step-sizes are able to choose effective LR schedules and outperform fine-tuned LR versions of these methods as well as popular first-order and second-order algorithms for training DNNs on Autoencoder, Convolutional Neural Network (CNN) and Graph Convolutional Network (GCN) models. Finally, it is proved that an idealized version of SGD with the layer-wise step sizes converges linearly when using full-batch gradients.
翻訳日:2023-05-24 19:15:45 公開日:2023-05-23
# 大規模言語モデルによる誤情報汚染のリスクについて

On the Risk of Misinformation Pollution with Large Language Models ( http://arxiv.org/abs/2305.13661v1 )

ライセンス: Link先を確認
Yikang Pan, Liangming Pan, Wenhu Chen, Preslav Nakov, Min-Yen Kan, William Yang Wang(参考訳) 本稿では,情報集約型アプリケーション,特にオープンドメイン質問回答システム(ODQA)における,信頼度の高い誤情報を生成するための現代大規模言語モデル(LLM)の誤用の可能性について,包括的に検討する。 脅威モデルを構築し,意図的および意図的の両方において潜在的誤用シナリオをシミュレートし,LSMが誤情報を生成できる範囲を評価する。 本研究は,LDMが効果的な誤情報発生器として機能し,ODQAシステムの性能が著しく低下することを明らかにする。 LLMが生成した誤情報による被害を軽減するため、我々は3つの防衛戦略を探索する: 促進、誤情報検出、多数決。 最初の結果はこれらの防衛戦略に有望な傾向を示しているが、誤った情報汚染の課題に対処するためにもっと多くの作業が必要である。 本研究は,LLM生成誤報に対処し,LCMの責任ある利用を促進するために,さらなる研究と学際協力の必要性を強調するものである。

In this paper, we comprehensively investigate the potential misuse of modern Large Language Models (LLMs) for generating credible-sounding misinformation and its subsequent impact on information-intensive applications, particularly Open-Domain Question Answering (ODQA) systems. We establish a threat model and simulate potential misuse scenarios, both unintentional and intentional, to assess the extent to which LLMs can be utilized to produce misinformation. Our study reveals that LLMs can act as effective misinformation generators, leading to a significant degradation in the performance of ODQA systems. To mitigate the harm caused by LLM-generated misinformation, we explore three defense strategies: prompting, misinformation detection, and majority voting. While initial results show promising trends for these defensive strategies, much more work needs to be done to address the challenge of misinformation pollution. Our work highlights the need for further research and interdisciplinary collaboration to address LLM-generated misinformation and to promote responsible use of LLMs.
翻訳日:2023-05-24 19:15:21 公開日:2023-05-23
# 目標指向対話政策計画のためのプロンプト型モンテカルロ木探索

Prompt-Based Monte-Carlo Tree Search for Goal-Oriented Dialogue Policy Planning ( http://arxiv.org/abs/2305.13660v1 )

ライセンス: Link先を確認
Xiao Yu, Maximillian Chen, Zhou Yu(参考訳) 目標指向対話の計画には、しばしば将来の対話のシミュレーションとタスクの進捗推定が必要である。 したがって、A*検索やMCTS(Monte Carlo Tree Search)のようなルックアヘッド検索アルゴリズムを実行するためのニューラルネットワークのトレーニングを検討する。 しかし、このトレーニングには豊富な注釈データが必要であり、ノイズの多いアノテーションや低リソース設定に直面すると課題が発生する。 GDP-Zeroは、オープンループMCTSを用いて、モデルトレーニングなしで目標指向の対話ポリシー計画を実行するアプローチである。 GDP-Zeroは、ツリー検索中にポリシープライド、値関数、ユーザシミュレータ、システムモデルとして機能するよう、大きな言語モデルに促す。 目標指向タスクであるPersuasionForGoodでGDP-Zeroを評価し、その応答がChatGPTよりも59.32%好まれ、対話的評価においてChatGPTよりも説得力が高いと評価した。

Planning for goal-oriented dialogue often requires simulating future dialogue interactions and estimating task progress. Many approaches thus consider training neural networks to perform look-ahead search algorithms such as A* search and Monte Carlo Tree Search (MCTS). However, this training often require abundant annotated data, which creates challenges when faced with noisy annotations or low-resource settings. We introduce GDP-Zero, an approach using Open-Loop MCTS to perform goal-oriented dialogue policy planning without any model training. GDP-Zero prompts a large language model to act as a policy prior, value function, user simulator, and system model during the tree search. We evaluate GDP-Zero on the goal-oriented task PersuasionForGood, and find that its responses are preferred over ChatGPT up to 59.32% of the time, and are rated more persuasive than ChatGPT during interactive evaluations.
翻訳日:2023-05-24 19:15:02 公開日:2023-05-23
# マルチスペクトル車両再識別のためのフレアアウェアクロスモーダル拡張ネットワーク

Flare-Aware Cross-modal Enhancement Network for Multi-spectral Vehicle Re-identification ( http://arxiv.org/abs/2305.13659v1 )

ライセンス: Link先を確認
Aihua Zheng, Zhiqi Ma, Zi Wang, Chenglong Li(参考訳) マルチスペクトル車両再識別は、複雑な照明条件下での車両識別の課題に対して、補完的な可視情報と赤外線情報を統合することを目的としている。 しかし,過酷な環境下では,車両灯や日光からの強いフレアにより,rgbとnirモードの識別的手がかりが失われることが多く,既存のマルチモーダル融合法はこれらの重要な手がかりを回収する能力に制限されている。 この問題に対処するために、フレア免疫熱赤外スペクトルから誘導されるフレア崩壊RGBとNIRの特徴を適応的に復元するフレア対応クロスモーダル拡張ネットワークを提案する。 まず, 豪華なフレアによる局部劣化による外観への影響を低減するため, RGB と NIR の両モードで共同でフレア崩壊マスクを得るための相互フレアマスク予測モジュールを提案する。 第2に、フレア免疫されたTI情報を用いて、マスクされたRGBとNIRを強化するために、マスクされたRGBとNIRスペクトルの特徴抽出を、事前のフレア免疫された知識で適応的に誘導するフレア・アウェア・クロスモーダル・エンハンスメント・モジュールを提案する。 第3に、RGBとNIRから共通情報的意味情報を抽出するために、両モード間の意味的一貫性を強制するモダリティ間一貫性損失を提案する。 最後に,提案手法による激しいフレアに対処するためのファセットネットを評価するために,wmveid863と呼ばれる新しいマルチスペクトル車両のre-idデータセットを導入する。 新たに収集したデータセットと公開ベンチマークのマルチスペクトル車用re-IDデータセットの総合的な実験は、特に強いフレアを扱う場合の最先端手法と比較して、提案したFACENetの優れた性能を示している。 コードとデータセットは間もなくリリースされる。

Multi-spectral vehicle re-identification aims to address the challenge of identifying vehicles in complex lighting conditions by incorporating complementary visible and infrared information. However, in harsh environments, the discriminative cues in RGB and NIR modalities are often lost due to strong flares from vehicle lamps or sunlight, and existing multi-modal fusion methods are limited in their ability to recover these important cues. To address this problem, we propose a Flare-Aware Cross-modal Enhancement Network that adaptively restores flare-corrupted RGB and NIR features with guidance from the flare-immunized thermal infrared spectrum. First, to reduce the influence of locally degraded appearance due to intense flare, we propose a Mutual Flare Mask Prediction module to jointly obtain flare-corrupted masks in RGB and NIR modalities in a self-supervised manner. Second, to use the flare-immunized TI information to enhance the masked RGB and NIR, we propose a Flare-Aware Cross-modal Enhancement module that adaptively guides feature extraction of masked RGB and NIR spectra with prior flare-immunized knowledge from the TI spectrum. Third, to extract common informative semantic information from RGB and NIR, we propose an Inter-modality Consistency loss that enforces semantic consistency between the two modalities. Finally, to evaluate the proposed FACENet in handling intense flare, we introduce a new multi-spectral vehicle re-ID dataset, called WMVEID863, with additional challenges such as motion blur, significant background changes, and particularly intense flare degradation. Comprehensive experiments on both the newly collected dataset and public benchmark multi-spectral vehicle re-ID datasets demonstrate the superior performance of the proposed FACENet compared to state-of-the-art methods, especially in handling strong flares. The code and dataset will be released soon.
翻訳日:2023-05-24 19:14:44 公開日:2023-05-23
# 自動形態素変換における合成データ拡張の理解

Understanding compositional data augmentation in automatic morphological inflection ( http://arxiv.org/abs/2305.13658v1 )

ライセンス: Link先を確認
Farhan Samir and Miikka Silfverberg(参考訳) データ拡張技術は、データ空間の問題に対処するために、低リソースの自動形態変化において広く利用されている。 しかし、これらの技法の完全な意味はいまだに理解されていない。 本研究では,既存の金標準トレーニング例において,無作為に茎文字を置換して合成例を生成するStemCorruptという,データ拡張戦略の理論的側面を明らかにすることを目的とする。 我々の分析によると、StemCorruptは基礎となるデータ分布に根本的な変化をもたらし、固有の構成的結合構造を明らかにしている。 理論的解析を補完するため,StemCorruptのデータ効率について検討する。 異なる7つの言語を多種多様に分けて評価することにより,高い多様性と高い予測不確実性を持つデータポイントのサブセットを選択することで,競争ベースラインと比較してStemCorruptのデータ効率が著しく向上することを示した。 さらに,類型的特徴が拡張戦略の選択に与える影響について検討し,モーフォロジカルな変化などの非連結性を含む言語は,高い予測不確実性を有する合成例の利点を損なうことを見出した。 本研究は,自然言語形態のスペクトル全体にわたって最適な性能を確保するために,さらなる研究が必要であることを強調する。

Data augmentation techniques are widely used in low-resource automatic morphological inflection to address the issue of data sparsity. However, the full implications of these techniques remain poorly understood. In this study, we aim to shed light on the theoretical aspects of the data augmentation strategy StemCorrupt, a method that generates synthetic examples by randomly substituting stem characters in existing gold standard training examples. Our analysis uncovers that StemCorrupt brings about fundamental changes in the underlying data distribution, revealing inherent compositional concatenative structure. To complement our theoretical analysis, we investigate the data-efficiency of StemCorrupt. Through evaluation across a diverse set of seven typologically distinct languages, we demonstrate that selecting a subset of datapoints with both high diversity and high predictive uncertainty significantly enhances the data-efficiency of StemCorrupt compared to competitive baselines. Furthermore, we explore the impact of typological features on the choice of augmentation strategy and find that languages incorporating non-concatenativity, such as morphonological alternations, derive less benefit from synthetic examples with high predictive uncertainty. We attribute this effect to phonotactic violations induced by StemCorrupt, emphasizing the need for further research to ensure optimal performance across the entire spectrum of natural language morphology.
翻訳日:2023-05-24 19:14:04 公開日:2023-05-23
# パーソナルデータサイエンティストとしてのChatGPT

ChatGPT as your Personal Data Scientist ( http://arxiv.org/abs/2305.13657v1 )

ライセンス: Link先を確認
Md Mahadi Hassan, Alex Knipper, Shubhra Kanti Karmaker Santu(参考訳) ビッグデータの台頭は、効率的でユーザフレンドリな自動機械学習(AutoML)ツールの必要性を増幅した。 しかし、ドメイン固有のデータを理解し、予測タスクを定義することの複雑さは、人間の介入を必要とし、完全な自動化を防ぎながらプロセスに時間がかかる。 その代わり、ユーザーは機械学習(ML)プロセスの深い知識を必要とせず、直感的で自然な会話を通じてAutoMLタスクの実行を支援するインテリジェントエージェントを構想する。 このエージェントの主な課題は、ユーザの予測目標を正確に理解し、その結果、正確なMLタスクを定式化し、それに応じてデータセットとモデルパラメータを調整し、結果を効果的に表現することである。 本稿では,ChatGPTに基づく対話型データサイエンスフレームワークを導入することで,この野心的な目標に向けて先駆的な一歩を踏み出した。 正確には、私たちは、大きな言語モデル(chatgpt)を使用して、ユーザとmlモデル(scikit-learn)の間の自然なインターフェースを構築します。 私たちのモデルは、データの可視化、タスクの定式化、予測エンジニアリング、結果の要約とレコメンデーションという4つの対話状態を中心に動きます。 各状態はユニークな会話フェーズを示し、ユーザーとシステム全体の相互作用に影響を与える。 マイクロエージェント"として機能する複数のLLMインスタンスは、凝集性のある会話フローを確保し、会話の進行を細かく制御する。 まとめると,会話型データサイエンスの新たな概念の実現可能性を証明するとともに,複雑なタスクを解決する上でのllmの能力の低下を実証するエンド・ツー・エンドシステムを開発した。 興味深いことに、その開発は現在のLLM(ChatGPT)においていくつかの重大な弱点を浮き彫りにした。

The rise of big data has amplified the need for efficient, user-friendly automated machine learning (AutoML) tools. However, the intricacy of understanding domain-specific data and defining prediction tasks necessitates human intervention making the process time-consuming while preventing full automation. Instead, envision an intelligent agent capable of assisting users in conducting AutoML tasks through intuitive, natural conversations without requiring in-depth knowledge of the underlying machine learning (ML) processes. This agent's key challenge is to accurately comprehend the user's prediction goals and, consequently, formulate precise ML tasks, adjust data sets and model parameters accordingly, and articulate results effectively. In this paper, we take a pioneering step towards this ambitious goal by introducing a ChatGPT-based conversational data-science framework to act as a "personal data scientist". Precisely, we utilize Large Language Models (ChatGPT) to build a natural interface between the users and the ML models (Scikit-Learn), which in turn, allows us to approach this ambitious problem with a realistic solution. Our model pivots around four dialogue states: Data Visualization, Task Formulation, Prediction Engineering, and Result Summary and Recommendation. Each state marks a unique conversation phase, impacting the overall user-system interaction. Multiple LLM instances, serving as "micro-agents", ensure a cohesive conversation flow, granting us granular control over the conversation's progression. In summary, we developed an end-to-end system that not only proves the viability of the novel concept of conversational data science but also underscores the potency of LLMs in solving complex tasks. Interestingly, its development spotlighted several critical weaknesses in the current LLMs (ChatGPT) and highlighted substantial opportunities for improvement.
翻訳日:2023-05-24 19:13:41 公開日:2023-05-23
# グラフニューラルネットワークによるリンク予測

Link Prediction without Graph Neural Networks ( http://arxiv.org/abs/2305.13656v1 )

ライセンス: Link先を確認
Zexi Huang, Mert Kosan, Arlei Silva, Ambuj Singh(参考訳) グラフの特徴に基づいてエッジを予測するリンク予測は、多くのグラフアプリケーションにおいて基本的なタスクである。 いくつかの関連する問題に関して、属性中心のメッセージパッシングパラダイムに基づくグラフニューラルネットワーク(GNN)がリンク予測の主要なフレームワークとなっている。 gnnは従来のトポロジベースのヒューリスティックを一貫して上回っているが、パフォーマンスに何をもたらすのか? 同等あるいはより良い結果を達成するシンプルなアプローチはありますか? これらの質問に答えるために、まず、gnnベースのリンク予測手法が、そのトレーニングと評価において、問題の本質的なクラス不均衡をどのように扱うか、という重要な制限を特定します。 さらに,グラフ学習による属性情報によって強化されたグラフにトポロジカルヒューリスティックを適用した新しいトポロジ中心のフレームワークであるGelatoを提案する。 我々のモデルは、クラス不均衡に対処する非バイアスのトレーニングセットに対して、N対損失でエンドツーエンドにトレーニングされる。 実験の結果、ジェラトは145%の精度で、列車は11倍速く、6,000倍の速度で推算でき、また、現在のGNNに比べてトレーニング可能なパラメータの半分以下であることがわかった。

Link prediction, which consists of predicting edges based on graph features, is a fundamental task in many graph applications. As for several related problems, Graph Neural Networks (GNNs), which are based on an attribute-centric message-passing paradigm, have become the predominant framework for link prediction. GNNs have consistently outperformed traditional topology-based heuristics, but what contributes to their performance? Are there simpler approaches that achieve comparable or better results? To answer these questions, we first identify important limitations in how GNN-based link prediction methods handle the intrinsic class imbalance of the problem -- due to the graph sparsity -- in their training and evaluation. Moreover, we propose Gelato, a novel topology-centric framework that applies a topological heuristic to a graph enhanced by attribute information via graph learning. Our model is trained end-to-end with an N-pair loss on an unbiased training set to address class imbalance. Experiments show that Gelato is 145% more accurate, trains 11 times faster, infers 6,000 times faster, and has less than half of the trainable parameters compared to state-of-the-art GNNs for link prediction.
翻訳日:2023-05-24 19:13:11 公開日:2023-05-23
# LLM-grounded Diffusion:大規模言語モデルを用いたテキスト間拡散モデルのプロンプト理解の促進

LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models ( http://arxiv.org/abs/2305.13655v1 )

ライセンス: Link先を確認
Long Lian, Boyi Li, Adam Yala, Trevor Darrell(参考訳) 近年の拡散モデルによるテキスト対画像生成の進歩は、高度にリアルで多様な画像を合成する驚くべき結果をもたらした。 しかし、これらのモデルは空間的あるいは常識的推論を必要とするプロンプトから画像を生成する際にも困難に直面する。 本稿では,新たな2段階生成プロセスにおいて,市販の事前学習型大言語モデル(LLM)を用いて,推論能力を向上した拡散モデルを提案する。 まず、llmをコンテキスト内学習を通じてテキスト誘導型レイアウト生成器に適応させる。 画像プロンプトを備えると、LCMは、対応する個々の記述とともに境界ボックスの形式でシーンレイアウトを出力する。 第2に,新しいコントローラを用いて拡散モデルを操り,レイアウトに条件付き画像を生成する。 どちらの段階も、LLMや拡散モデルパラメータ最適化を使わずに、凍結事前訓練されたモデルを利用する。 我々は, 言語的・空間的推論を必要とするプロンプトに従って, 画像を正確に生成する上で, ベース拡散モデルに勝る能力を示すことにより, 設計の優位性を検証する。 さらに,本手法は自然にダイアログベースのシーン仕様を許容し,基礎となる拡散モデルに十分にサポートされていない言語でプロンプトを処理できる。

Recent advancements in text-to-image generation with diffusion models have yielded remarkable results synthesizing highly realistic and diverse images. However, these models still encounter difficulties when generating images from prompts that demand spatial or common sense reasoning. We propose to equip diffusion models with enhanced reasoning capabilities by using off-the-shelf pretrained large language models (LLMs) in a novel two-stage generation process. First, we adapt an LLM to be a text-guided layout generator through in-context learning. When provided with an image prompt, an LLM outputs a scene layout in the form of bounding boxes along with corresponding individual descriptions. Second, we steer a diffusion model with a novel controller to generate images conditioned on the layout. Both stages utilize frozen pretrained models without any LLM or diffusion model parameter optimization. We validate the superiority of our design by demonstrating its ability to outperform the base diffusion model in accurately generating images according to prompts that necessitate both language and spatial reasoning. Additionally, our method naturally allows dialog-based scene specification and is able to handle prompts in a language that is not well-supported by the underlying diffusion model.
翻訳日:2023-05-24 19:12:50 公開日:2023-05-23
# テキスト分類におけるスプリアス相関の理解と緩和

Understanding and Mitigating Spurious Correlations in Text Classification ( http://arxiv.org/abs/2305.13654v1 )

ライセンス: Link先を確認
Oscar Chew, Kuan-Hao Huang, Kai-Wei Chang, Hsuan-Tien Lin(参考訳) 近年の研究では、ディープラーニングモデルがトレーニングセットに存在する散発的な相関を活用しがちであるが、一般的には当てはまらない可能性があることが示されている。 感情分類器は、スピルバーグのトークンが常に肯定的な映画レビューに結びついていることを誤って知ることがある。 散発的な相関に依存すると、一般化可能性が大きく低下し、避けるべきである。 本稿では,言語モデルがスプリアス相関をどのように活用するかを説明するための近傍分析フレームワークを提案する。 この分析に基づいて、状況を防止するためにNFL(言語を忘れない)という正規化手法のファミリーを提案する。 2つのテキスト分類タスクの実験では、NFLは分配精度を犠牲にすることなく、ロバスト性の観点から標準微調整よりも大幅に改善されている。

Recent work has shown that deep learning models are prone to exploit spurious correlations that are present in the training set, yet may not hold true in general. A sentiment classifier may erroneously learn that the token spielberg is always tied to positive movie reviews. Relying on spurious correlations may lead to significant degradation in generalizability and should be avoided. In this paper, we propose a neighborhood analysis framework to explain how exactly language models exploit spurious correlations. Driven by the analysis, we propose a family of regularization methods, NFL (do Not Forget your Language) to prevent the situation. Experiments on two text classification tasks show that NFL brings a significant improvement over standard fine-tuning in terms of robustness without sacrificing in-distribution accuracy.
翻訳日:2023-05-24 19:12:32 公開日:2023-05-23
# テキストからSQLへの意味解析における誤り検出

Error Detection for Text-to-SQL Semantic Parsing ( http://arxiv.org/abs/2305.13683v1 )

ライセンス: Link先を確認
Shijie Chen, Ziru Chen, Huan Sun, Yu Su(参考訳) 近年、テキストからsqlへのセマンティクスが著しく進歩しているが、既存のパーサーのパフォーマンスは完璧にはほど遠い。 同時に、現代のディープラーニングベースのテキスト-SQLパーサは、しばしば過信であり、実際の使用のためにデプロイされた際の信頼性に疑問を呈する。 そこで本研究では,テキストからSQLへのセマンティック解析のためのパーサに依存しないエラー検出モデルを提案する。 提案モデルは,事前訓練された言語モデルに基づくもので,グラフニューラルネットワークによって学習された構造的特徴によって拡張されている。 クロスドメイン設定から収集した現実的な解析エラーをモデルでトレーニングします。 異なる復号機構を備えた3つの強力なテキスト-SQLパーサによる実験により、我々のアプローチはパーサに依存した不確実性指標よりも優れており、アーキテクチャに関わらず、テキスト-SQLセマンティックパーサの性能とユーザビリティを効果的に向上できることを示した。

Despite remarkable progress in text-to-SQL semantic parsing in recent years, the performance of existing parsers is still far from perfect. At the same time, modern deep learning based text-to-SQL parsers are often over-confident and thus casting doubt on their trustworthiness when deployed for real use. To that end, we propose to build a parser-independent error detection model for text-to-SQL semantic parsing. The proposed model is based on pre-trained language model of code and is enhanced with structural features learned by graph neural networks. We train our model on realistic parsing errors collected from a cross-domain setting. Experiments with three strong text-to-SQL parsers featuring different decoding mechanisms show that our approach outperforms parser-dependent uncertainty metrics and could effectively improve the performance and usability of text-to-SQL semantic parsers regardless of their architectures.
翻訳日:2023-05-24 19:05:08 公開日:2023-05-23
# GUARD: 安全な強化学習ベンチマーク

GUARD: A Safe Reinforcement Learning Benchmark ( http://arxiv.org/abs/2305.13681v1 )

ライセンス: Link先を確認
Weiye Zhao, Rui Chen, Yifan Sun, Ruixuan Liu, Tianhao Wei, Changliu Liu(参考訳) 試行錯誤の性質のため、そのようなエラーが許容できない自律運転、人間とロボットのインタラクション、ロボット操作など、安全クリティカルな現実世界のアプリケーションにRLアルゴリズムを適用するのは難しい。 近年、安全なRL(すなわち制約付きRL)は、制約を満たすとともに、エージェントが環境を探索する文献に急速に現れている。 アルゴリズムとタスクの多様性のため、既存の安全なRLアルゴリズムを比較するのは難しい。 このギャップを埋めるため,我々は,統一型安全強化学習開発ベンチマークであるguardを紹介する。 GUARDは既存のベンチマークと比べていくつかの利点がある。 まず、GUARDは様々なRLエージェント、タスク、安全制約仕様を備えた一般化されたベンチマークである。 第2に、ガードは自己完結型実装による最先端の安全なrlアルゴリズムを包括的にカバーする。 第3に、GUARDはタスクやアルゴリズムで高度にカスタマイズできる。 本稿では,GUARDを用いた各種タスク設定における最先端安全RLアルゴリズムの比較を行い,今後の作業が構築できるベースラインを確立する。

Due to the trial-and-error nature, it is typically challenging to apply RL algorithms to safety-critical real-world applications, such as autonomous driving, human-robot interaction, robot manipulation, etc, where such errors are not tolerable. Recently, safe RL (i.e. constrained RL) has emerged rapidly in the literature, in which the agents explore the environment while satisfying constraints. Due to the diversity of algorithms and tasks, it remains difficult to compare existing safe RL algorithms. To fill that gap, we introduce GUARD, a Generalized Unified SAfe Reinforcement Learning Development Benchmark. GUARD has several advantages compared to existing benchmarks. First, GUARD is a generalized benchmark with a wide variety of RL agents, tasks, and safety constraint specifications. Second, GUARD comprehensively covers state-of-the-art safe RL algorithms with self-contained implementations. Third, GUARD is highly customizable in tasks and algorithms. We present a comparison of state-of-the-art safe RL algorithms in various task settings using GUARD and establish baselines that future work can build on.
翻訳日:2023-05-24 19:04:49 公開日:2023-05-23
# 授業インクリメンタル学習における対人訓練による精度とロバスト性の向上

Enhancing Accuracy and Robustness through Adversarial Training in Class Incremental Continual Learning ( http://arxiv.org/abs/2305.13678v1 )

ライセンス: Link先を確認
Minchan Kwon, Kangil Kim(参考訳) 現実には、ディープラーニングモデルに対する敵対的な攻撃は致命的なセキュリティ問題である。 しかし、この問題は、広く使われているクラス増分連続学習(CICL)で議論されることはめったにない。 本稿では、敵攻撃に対する防御法としてよく知られたCICLに対する敵攻撃訓練の適用の問題に対処する。 CICLのよく知られた問題は、前のタスクのサンプルによってモデルを現在のタスクにバイアスするクラス不均衡である。 敵の訓練に合わせると、不均衡はタスクに対する別の攻撃試験の不均衡を引き起こす。 集団不均衡によるマイノリティ階級のクリーンなデータの欠如と、二次不均衡による多数派階級からの攻撃試験の増加により、敵対的な訓練は最適な決定境界を歪める。 この歪みは結局、敵の訓練よりも正確さと頑健さの両方を減少させる。 この効果を除外するために,経験的リプレイを用いた手法に適用可能な,単純かつ効果的に外敵訓練(EAT)を提案する。 各タイミングで現在のタスクデータに対する補助的外部モデルに対して敵訓練を行い、生成した敵例を適用して目標モデルを訓練する。 玩具問題に対する効果を検証し,画像分類のCICLベンチマークにおいて意義を示す。 結果がCICLの堅牢性研究の最初のベースラインとして使われることを期待している。

In real life, adversarial attack to deep learning models is a fatal security issue. However, the issue has been rarely discussed in a widely used class-incremental continual learning (CICL). In this paper, we address problems of applying adversarial training to CICL, which is well-known defense method against adversarial attack. A well-known problem of CICL is class-imbalance that biases a model to the current task by a few samples of previous tasks. Meeting with the adversarial training, the imbalance causes another imbalance of attack trials over tasks. Lacking clean data of a minority class by the class-imbalance and increasing of attack trials from a majority class by the secondary imbalance, adversarial training distorts optimal decision boundaries. The distortion eventually decreases both accuracy and robustness than adversarial training. To exclude the effects, we propose a straightforward but significantly effective method, External Adversarial Training (EAT) which can be applied to methods using experience replay. This method conduct adversarial training to an auxiliary external model for the current task data at each time step, and applies generated adversarial examples to train the target model. We verify the effects on a toy problem and show significance on CICL benchmarks of image classification. We expect that the results will be used as the first baseline for robustness research of CICL.
翻訳日:2023-05-24 19:04:33 公開日:2023-05-23
# 公共フォーラムにおける法的強制型ヘイトスピーチ検出に向けて

Towards Legally Enforceable Hate Speech Detection for Public Forums ( http://arxiv.org/abs/2305.13677v1 )

ライセンス: Link先を確認
Chu Fei Luo, Rohan Bhambhoria, Xiaodan Zhu, Samuel Dahan(参考訳) ヘイトスピーチは公の場で深刻な問題であり、ヘイトスピーチ法の適切な施行は、有害で差別的な言語から人々のグループを保護する鍵となる。 しかし、ヘイトスピーチを構成するものを決定することは、主観的解釈に非常にオープンな複雑なタスクである。 既存の作品では、彼らのシステムはヘイトスピーチの強制可能な定義とは一致せず、その結果は規制当局の目標と矛盾する可能性がある。 我々の研究は、法的定義を中心とした強制的ヘイトスピーチ検出のための新しいタスクと、法の専門家による11の可能な定義違反に関するデータセットを導入している。 ヘイトスピーチの明確で法的に強制可能なインスタンスを特定することの難しさを踏まえ、専門家が作成したサンプルと自動マイニングされたチャレンジセットでデータセットを拡張する。 ゼロショットと少数ショットのプロンプトを用いてモデル決定をこれらの定義に基礎付ける実験を行った。 次に,いくつかの大規模言語モデル (LLM) の結果を報告する。 このタスク定義により、自動ヘイトスピーチ検出は強制可能な法律により緊密に適合し、公共フォーラムにおける有害なスピーチに対するより厳格な法的保護の実施を支援することができる。

Hate speech is a serious issue on public forums, and proper enforcement of hate speech laws is key for protecting groups of people against harmful and discriminatory language. However, determining what constitutes hate speech is a complex task that is highly open to subjective interpretations. Existing works do not align their systems with enforceable definitions of hate speech, which can make their outputs inconsistent with the goals of regulators. Our work introduces a new task for enforceable hate speech detection centred around legal definitions, and a dataset annotated on violations of eleven possible definitions by legal experts. Given the challenge of identifying clear, legally enforceable instances of hate speech, we augment the dataset with expert-generated samples and an automatically mined challenge set. We experiment with grounding the model decision in these definitions using zero-shot and few-shot prompting. We then report results on several large language models (LLMs). With this task definition, automatic hate speech detection can be more closely aligned to enforceable laws, and hence assist in more rigorous enforcement of legal protections against harmful speech in public forums.
翻訳日:2023-05-24 19:04:12 公開日:2023-05-23
# ポリグロットかノーか? 基礎言語モデルによる多言語百科事典知識検索の測定

Polyglot or Not? Measuring Multilingual Encyclopedic Knowledge Retrieval from Foundation Language Models ( http://arxiv.org/abs/2305.13675v1 )

ライセンス: Link先を確認
Tim Schott, Daniel Furman, and Shreshta Bhat(参考訳) 本研究では,多種多様な言語,話題,文脈にまたがる百科事典知識を取得するための基礎モデルの能力を評価する。 この取り組みをサポートするために 1) 20言語で303kの事実関連を含む新しいデータセットを作成する。 2 新たな反事実的知識評価、ポリグロットの有無を定式化し、 3) ベンチマーク5では、多言語設定で基礎モデルを、英語のみの設定で20モデルを多用した。 メタのLLaMAは多言語および英語のみの評価を上回り, 興味のあるモデルに有意な精度差が認められた。 誤り分析は、Cyrillicスクリプトで書かれた言語で事実を検索するLLaMAの能力の欠如と、関連する被験者の位置と性別に基づく事実の理解のギャップを明らかにしている。 究極的には、ボナフィド多言語として基礎言語モデルを活用するという約束は、英語以外の言語で情報を検索する任務を負うと大幅に減少する。 サポートコード(https://github.com/daniel-furman/Polyglot-or-Not)とデータセット(https://huggingface.co/datasets/Polyglot-or-Not/Fact-Completion)が公開されている。

In this work, we evaluate the capacity for foundation models to retrieve encyclopedic knowledge across a wide range of languages, topics, and contexts. To support this effort, we 1) produce a new dataset containing 303k factual associations in 20 different languages, 2) formulate a new counterfactual knowledge assessment, Polyglot or Not, and 3) benchmark 5 foundation models in a multilingual setting and a diverse set of 20 models in an English-only setting. We observed significant accuracy differences in models of interest, with Meta's LLaMA topping both the multilingual and English-only assessments. Error analysis reveals a significant deficiency in LLaMA's ability to retrieve facts in languages written in the Cyrillic script and gaps in its understanding of facts based on the location and gender of entailed subjects. Ultimately, we argue that the promise of utilizing foundation language models as bonafide polyglots is greatly diminished when they are tasked with retrieving information in languages other than English. Supporting code (https://github.com/daniel-furman/Polyglot-or-Not) and dataset (https://huggingface.co/datasets/Polyglot-or-Not/Fact-Completion) are openly released.
翻訳日:2023-05-24 19:03:52 公開日:2023-05-23
# 言語モデルの物理:その1 文脈自由文法

Physics of Language Models: Part 1, Context-Free Grammar ( http://arxiv.org/abs/2305.13673v1 )

ライセンス: Link先を確認
Zeyuan Allen-Zhu, Yuanzhi Li(参考訳) gptのような生成言語モデル、すなわち文脈自由文法(cfgs) -- 自然言語、プログラム、ヒューマンロジックの多くの側面を捉えた木のような構造を持つ多様な言語システムです。 CFGはプッシュダウンオートマトンと同じくらい難しいため、文字列が規則を満たすかどうかを検証するためには、動的プログラミングが必要である。 合成データを構築し、非常に困難なCFGであっても、事前学習した変換器は、ほぼ完璧な精度で文を生成することを学習できることを示す。 さらに重要なのは、変換器がCFGを学ぶ方法の背後にある$\textit{physical principles}$を掘り下げることです。 トランスフォーマー内の隠れた状態と$\textit{precisely}$がcfg構造(木ノードの情報を正確にサブツリー境界に配置するなど)をエンコードし、動的プログラミングに類似した"バウンダリからバウンダリへの注意"を形成することを学ぶ。 また、cfgsの拡張や文法ミスに対するトランスフォーマーの堅牢性についても取り上げます。 全体として、我々の研究はトランスフォーマーがCFGをどう学習するかを包括的で実証的な理解を提供し、トランスフォーマーが言語の構造と規則を捉えている物理的メカニズムを明らかにする。

We design experiments to study $\textit{how}$ generative language models, like GPT, learn context-free grammars (CFGs) -- diverse language systems with a tree-like structure capturing many aspects of natural languages, programs, and human logics. CFGs are as hard as pushdown automata, and can be ambiguous so that verifying if a string satisfies the rules requires dynamic programming. We construct synthetic data and demonstrate that even for very challenging CFGs, pre-trained transformers can learn to generate sentences with near-perfect accuracy and remarkable $\textit{diversity}$. More importantly, we delve into the $\textit{physical principles}$ behind how transformers learns CFGs. We discover that the hidden states within the transformer implicitly and $\textit{precisely}$ encode the CFG structure (such as putting tree node information exactly on the subtree boundary), and learn to form "boundary to boundary" attentions that resemble dynamic programming. We also cover some extension of CFGs as well as the robustness aspect of transformers against grammar mistakes. Overall, our research provides a comprehensive and empirical understanding of how transformers learn CFGs, and reveals the physical mechanisms utilized by transformers to capture the structure and rules of languages.
翻訳日:2023-05-24 19:03:32 公開日:2023-05-23
# federated variational inference: パーソナライゼーションと一般化の改善に向けて

Federated Variational Inference: Towards Improved Personalization and Generalization ( http://arxiv.org/abs/2305.13672v1 )

ライセンス: Link先を確認
Elahe Vedadi, Joshua V. Dillon, Philip Andrew Mansfield, Karan Singhal, Arash Afkanpour, Warren Richard Morningstar(参考訳) 従来のフェデレーション学習アルゴリズムは、すべてのクライアントのデータを活用することで、単一のグローバルモデルをトレーニングする。 しかし、クライアント生成分布と予測モデルの不均一性のため、これらのアプローチは予測過程を適切に近似したり、最適な状態に収束したり、新しいクライアントに一般化したりはできない。 本研究では,クライアントデータ分布と予測モデルにおける不均一性を仮定した,ステートレスクロスデバイスフェデレーション学習におけるパーソナライゼーションと一般化について検討する。 まず階層的生成モデルを提案し,ベイズ推論を用いて形式化する。 次に,モデルを効率的に学習するために変分推論を用いてこの過程を近似する。 我々はこのアルゴリズムをフェデレート変分推論 (FedVI) と呼ぶ。 我々は、FedVIの一般化境界を提供するためにPAC-Bayes解析を用いる。 我々は,FEMNISTとCIFAR-100画像分類のモデルを評価し,FedVIが両タスクの最先端性に勝っていることを示す。

Conventional federated learning algorithms train a single global model by leveraging all participating clients' data. However, due to heterogeneity in client generative distributions and predictive models, these approaches may not appropriately approximate the predictive process, converge to an optimal state, or generalize to new clients. We study personalization and generalization in stateless cross-device federated learning setups assuming heterogeneity in client data distributions and predictive models. We first propose a hierarchical generative model and formalize it using Bayesian Inference. We then approximate this process using Variational Inference to train our model efficiently. We call this algorithm Federated Variational Inference (FedVI). We use PAC-Bayes analysis to provide generalization bounds for FedVI. We evaluate our model on FEMNIST and CIFAR-100 image classification and show that FedVI beats the state-of-the-art on both tasks.
翻訳日:2023-05-24 19:03:05 公開日:2023-05-23
# 対話型質問知識アライメントによる言語モデル幻覚の緩和

Mitigating Language Model Hallucination with Interactive Question-Knowledge Alignment ( http://arxiv.org/abs/2305.13669v1 )

ライセンス: Link先を確認
Shuo Zhang, Liangming Pan, Junzhou Zhao, William Yang Wang(参考訳) 言語モデルの目覚ましい進歩にもかかわらず、幻覚の問題に苦しめられ、誤解を招くことやサポートされない反応を生み出すことができる。 幻覚の問題を緩和するための一般的なアプローチは、知識ベースから支持する証拠を検索し、取り入れることである。 しかし,ユーザの質問は通常,質問する前に利用可能な情報を知らないため,記憶されている知識とうまく一致しない。 このミスアライメントは、言語モデルの知識の発見と活用を制限し、検索された証拠を無視したり覆ったりすることで幻覚を強いる可能性がある。 この問題に対処するために,ユーザと知識ベースの両方と相互作用するフレームワークであるMixAlignを導入する。 MixAlignは言語モデルを用いて自動質問知識アライメントを実現し、必要に応じて、人間のユーザによる明確化を通じて、このアライメントをさらに強化する。 実験結果から,MixAlignによる言語モデル幻覚の緩和効果が示された。

Despite the remarkable recent advances in language models, they still struggle with the hallucination problem and can generate misleading and unsupported responses. A common approach to mitigate the hallucination issue is retrieving and incorporating supporting evidence from a knowledge base. However, user questions usually do not align well with the stored knowledge, as they are unaware of the information available before asking questions. This misalignment can limit the language model's ability to locate and utilize the knowledge, potentially forcing it to hallucinate by ignoring or overriding the retrieved evidence. To address this issue, we introduce MixAlign, a framework that interacts with both the user and the knowledge base to obtain and integrate clarifications on how the user question relates to the stored information. MixAlign employs a language model to achieve automatic question-knowledge alignment and, if necessary, further enhances this alignment through human user clarifications. Experimental results demonstrate significant improvements over state-of-the-art methods, showcasing the effectiveness of MixAlign in mitigating language model hallucination.
翻訳日:2023-05-24 19:02:52 公開日:2023-05-23
# 身体シミュレーションにおける類似学習による概念語彙の接地と識別

Grounding and Distinguishing Conceptual Vocabulary Through Similarity Learning in Embodied Simulations ( http://arxiv.org/abs/2305.13668v1 )

ライセンス: Link先を確認
Sadaf Ghaffari and Nikhil Krishnaswamy(参考訳) 本稿では,具体化シミュレーションにより収集したエージェント体験を用いて,文脈化された単語ベクトルを対象表現に接地する新しい手法を提案する。 類似性学習を用いて、相互作用するオブジェクトの特性に基づいて異なるオブジェクトタイプの比較を行い、オブジェクトの振る舞いに関連する共通の特徴を抽出する。 次に、異なるトランスフォーマティブベースの言語モデルから文脈化された単語ベクトルをこの学習空間に変換する投影行列を計算し、変換されたトークンベクトルの新しいテストインスタンスがオブジェクト埋め込み空間の正しい概念を識別するかどうかを評価する。 その結果, 4 つの変圧器モデルの埋め込み空間の性質が明らかになり, 対象のトークンベクトルの接地は, 逆よりも動詞や属性のトークンベクトルの接地に有用であることが示唆された。

We present a novel method for using agent experiences gathered through an embodied simulation to ground contextualized word vectors to object representations. We use similarity learning to make comparisons between different object types based on their properties when interacted with, and to extract common features pertaining to the objects' behavior. We then use an affine transformation to calculate a projection matrix that transforms contextualized word vectors from different transformer-based language models into this learned space, and evaluate whether new test instances of transformed token vectors identify the correct concept in the object embedding space. Our results expose properties of the embedding spaces of four different transformer models and show that grounding object token vectors is usually more helpful to grounding verb and attribute token vectors than the reverse, which reflects earlier conclusions in the analogical reasoning and psycholinguistic literature.
翻訳日:2023-05-24 19:02:33 公開日:2023-05-23
# コントラスト学習による非自己回帰変換器の最適化

Optimizing Non-Autoregressive Transformers with Contrastive Learning ( http://arxiv.org/abs/2305.13667v1 )

ライセンス: Link先を確認
Chenxin An, Jiangtao Feng, Fei Huang, xipeng Qiu(参考訳) 非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。 彼らは機械翻訳や他の多くの応用において顕著な進歩を遂げた。 しかし、NATの長年にわたる課題は、NATとATのパフォーマンスギャップの主な原因であるマルチモーダリティデータ分散の学習である。 本稿では,データ分布ではなくモデル分布からサンプリングすることで,モダリティ学習の難易度を高めることを提案する。 我々は、トレーニングプロセスを安定させ、その結果の目的を最先端のNATアーキテクチャDA-Transformerと統合するために、対照的な制約を導出する。 提案手法は,5つのベンチマークを用いた機械翻訳,テキスト要約,パラフレージングの3つのタスクで検討した。 その結果,本手法は,従来の非自己回帰的ベースラインをかなりのマージンで上回り,すべてのベンチマークで非自己回帰的トランスフォーマーに対して新たな最先端結果が得られた。

Non-autoregressive Transformers (NATs) reduce the inference latency of Autoregressive Transformers (ATs) by predicting words all at once rather than in sequential order. They have achieved remarkable progress in machine translation as well as many other applications. However, a long-standing challenge for NATs is the learning of multi-modality data distribution, which is the main cause of the performance gap between NATs and ATs. In this paper, we propose to ease the difficulty of modality learning via sampling from the model distribution instead of the data distribution. We derive contrastive constraints to stabilize the training process and integrate this resulting objective with the state-of-the-art NAT architecture DA-Transformer. Our model \method is examined on 3 different tasks, including machine translation, text summarization, and paraphrasing with 5 benchmarks. Results show that our approach outperforms previous non-autoregressive baselines by a significant margin and establishes new state-of-the-art results for non-autoregressive transformers on all the benchmarks.
翻訳日:2023-05-24 19:02:06 公開日:2023-05-23
# MemeCap: ミームのキャプションと解釈のためのデータセット

MemeCap: A Dataset for Captioning and Interpreting Memes ( http://arxiv.org/abs/2305.13703v1 )

ライセンス: Link先を確認
EunJeong Hwang and Vered Shwartz(参考訳) ミームは、視覚的なメタファーを使って自分の思考を表現するWebユーザにとって、広く普及しているツールである。 ミームを理解するには、しばしば背景知識と推論能力を使用しながら、ミームの中や周囲のテキストに関する視覚的メタファーを認識し解釈する必要がある。 memeキャプションのタスクを提示し,新しいデータセットであるmemecapをリリースする。 我々のデータセットには、6.3Kミームと、ミーム、ミームキャプション、リテラルイメージキャプション、ビジュアルメタファを含む投稿のタイトルが含まれています。 近年、画像キャプションや視覚的質問応答といったタスクにおける視覚と言語(VL)モデルの成功にもかかわらず、最先端のVLモデルを用いた広範な実験により、彼らはまだ視覚的なメタファーに苦しんでおり、人間よりもはるかに酷いパフォーマンスを示した。

Memes are a widely popular tool for web users to express their thoughts using visual metaphors. Understanding memes requires recognizing and interpreting visual metaphors with respect to the text inside or around the meme, often while employing background knowledge and reasoning abilities. We present the task of meme captioning and release a new dataset, MemeCap. Our dataset contains 6.3K memes along with the title of the post containing the meme, the meme captions, the literal image caption, and the visual metaphors. Despite the recent success of vision and language (VL) models on tasks such as image captioning and visual question answering, our extensive experiments using state-of-the-art VL models show that they still struggle with visual metaphors, and perform substantially worse than humans.
翻訳日:2023-05-24 18:56:17 公開日:2023-05-23
# 古典哲学のための大規模言語モデル探索

Exploring Large Language Models for Classical Philology ( http://arxiv.org/abs/2305.13698v1 )

ライセンス: Link先を確認
Frederick Riemenschneider and Anette Frank(参考訳) NLPの最近の進歩は、古代ギリシア語やラテン語を含む多くの言語のための強力な言語モデルの作成につながった。 古典言語に関する以前の研究は、全会一致でBERTを使用していたが、この研究では、2次元に沿って異なる古代ギリシア語のための4つの言語モデルを作成し、古典言語に興味のあるタスクに対するそれらの汎用性を研究する。 (i)RoBERTaとT5を強力なモデル型として用いたエンコーダのみおよびエンコーダデコーダアーキテクチャ (ii)一言語古代ギリシア語で、ラテン語と英語を含む多言語例。 我々は,T5の復号能力の付加価値を示す補題化を含む,形態的および構文的タスクに関するすべてのモデルを評価する。 さらに,古典テキストに事前学習したモデルが獲得した知識を調査するための2つの探索タスクも定義する。 我々の実験は、古代ギリシアのモデルの最初のベンチマーク分析を提供する。 その結果, sotaに対して, モデルによる大幅な改善が得られた。 モデルタイプの体系的分析は、新しい生成タスクの開発を含む、古典言語のための言語モデルを設計する将来の研究に役立つ。 私たちは、すべてのモデルをコミュニティのリソースとして利用でき、また古代ギリシアのための大規模な訓練済みのコーパスも提供し、より大きく、比較可能な古典哲学のためのモデル動物園の創設を支援しています。 私たちのモデルとリソースはhttps://github.com/heidelberg-nlp/ancient-language-modelsで利用可能です。

Recent advances in NLP have led to the creation of powerful language models for many languages including Ancient Greek and Latin. While prior work on Classical languages unanimously uses BERT, in this work we create four language models for Ancient Greek that vary along two dimensions to study their versatility for tasks of interest for Classical languages: we explore (i) encoder-only and encoder-decoder architectures using RoBERTa and T5 as strong model types, and create for each of them (ii) a monolingual Ancient Greek and a multilingual instance that includes Latin and English. We evaluate all models on morphological and syntactic tasks, including lemmatization, which demonstrates the added value of T5's decoding abilities. We further define two probing tasks to investigate the knowledge acquired by models pre-trained on Classical texts. Our experiments provide the first benchmarking analysis of existing models of Ancient Greek. Results show that our models provide significant improvements over the SoTA. The systematic analysis of model types can inform future research in designing language models for Classical languages, including the development of novel generative tasks. We make all our models available as community resources, along with a large curated pre-training corpus for Ancient Greek, to support the creation of a larger, comparable model zoo for Classical Philology. Our models and resources are available at https://github.com/Heidelberg-NLP/ancient-language-models.
翻訳日:2023-05-24 18:56:01 公開日:2023-05-23
# unimo-3: 視覚言語表現学習のためのマルチグラニュラリティインタラクション

UNIMO-3: Multi-granularity Interaction for Vision-Language Representation Learning ( http://arxiv.org/abs/2305.13697v1 )

ライセンス: Link先を確認
Hao Yang, Can Gao, Hao L\'iu, Xinyan Xiao, Yanyan Zhao, Bing Qin(参考訳) vision-and-language (vl) pre-training – さまざまな視覚言語タスクに転送可能な、画像テキストペアの一般的な表現を学ぶことを目的としている。 ユニモーダルデータのモデリングと比較して、VLモデルの主な課題は、マルチモーダルデータ、特にきめ細かい相互作用から相互モーダル相互作用を学習する方法である。 既存の研究によると、層内クロスモデルインタラクションを学ぶために注意機構を採用する完全トランスフォーマーベースのモデルは、様々なクロスモーダルダウンストリームタスクで印象的なパフォーマンスを示すことができる。 しかし、同一層における異なるモーダルのセマンティクス情報は一様ではないことを無視し、それによってクロスモーダル相互作用は限定されたマルチモーダルセマンティクス情報相互作用に崩壊する。 本研究では,マルチモーダルな層内相互作用と層間相互作用を同時に学習できるunimo-3モデルを提案する。 UNIMO-3モデルは、クロスモーダルエンコーダ内の異なる層間の効果的な接続を確立し、異なるレベルで2つのモード間の相互作用を適応的にキャプチャする。 実験結果から,本モデルは下流タスクにおける最先端性能を達成し,アブレーション研究により,効果的なクロスレイヤー学習によりマルチモーダル表現の能力が向上することを示す。

Vision-and-language (VL) pre-training, which aims to learn a general representation of image-text pairs that can be transferred to various vision-and-language tasks. Compared with modeling uni-modal data, the main challenge of the VL model is: how to learn the cross-modal interaction from multimodal data, especially the fine-grained interaction. Existing works have shown that fully transformer-based models that adopt attention mechanisms to learn in-layer cross-model interaction can demonstrate impressive performance on various cross-modal downstream tasks. However, they ignored that the semantic information of the different modals at the same layer was not uniform, which leads to the cross-modal interaction collapsing into a limited multi-modal semantic information interaction. In this work, we propose the UNIMO-3 model, which has the capacity to simultaneously learn the multimodal in-layer interaction and cross-layer interaction. UNIMO-3 model can establish effective connections between different layers in a cross-modal encoder, and adaptively capture the interaction between two modalities at different levels. The experimental results show that our model achieves state-of-the-art performance in various downstream tasks, and through ablation study can prove that effective cross-layer learning improves the model's ability of multimodal representation.
翻訳日:2023-05-24 18:55:38 公開日:2023-05-23
# BRIOトレーニングパラダイムを用いた抽象テキスト要約

Abstractive Text Summarization Using the BRIO Training Paradigm ( http://arxiv.org/abs/2305.13696v1 )

ライセンス: Link先を確認
Khang Nhut Lam and Thieu Gia Doan and Khang Thua Pham and Jugal Kalita(参考訳) 抽象的な要約モデルによって生成された要約文は一貫性があり包括的であるが、制御に欠け、参照要約に大きく依存している。 BRIOトレーニングパラダイムは、モデルが参照要約に依存することを減らすために非決定論的分布を仮定し、推論時のモデル性能を改善する。 本稿では,事前学習した言語モデルを微調整し,BRIOパラダイムで学習することにより,抽象要約を改善する手法を提案する。 ベトナム語向けのテキスト要約データセットであるviesumを構築します。 我々はcnndmとviesumデータセットでbrioパラダイムで訓練された抽象的要約モデルを用いて実験を行う。 その結果、基本的なハードウェアで訓練されたモデルは、既存の抽象要約モデル、特にベトナムのモデルよりも優れていることが判明した。

Summary sentences produced by abstractive summarization models may be coherent and comprehensive, but they lack control and rely heavily on reference summaries. The BRIO training paradigm assumes a non-deterministic distribution to reduce the model's dependence on reference summaries, and improve model performance during inference. This paper presents a straightforward but effective technique to improve abstractive summaries by fine-tuning pre-trained language models, and training them with the BRIO paradigm. We build a text summarization dataset for Vietnamese, called VieSum. We perform experiments with abstractive summarization models trained with the BRIO paradigm on the CNNDM and the VieSum datasets. The results show that the models, trained on basic hardware, outperform all existing abstractive summarization models, especially for Vietnamese.
翻訳日:2023-05-24 18:55:15 公開日:2023-05-23
# 医療用多文書要約診断のための自動メトリクスと人的評価

Automated Metrics for Medical Multi-Document Summarization Disagree with Human Evaluations ( http://arxiv.org/abs/2305.13693v1 )

ライセンス: Link先を確認
Lucy Lu Wang, Yulia Otmakhova, Jay DeYoung, Thinh Hung Truong, Bailey E. Kuehl, Erin Bransom, Byron C. Wallace(参考訳) 多文書要約(MDS)の品質評価は困難である。 これは特に生物医学文献レビューのmdsの場合、異なる文書で報告された矛盾した証拠をモデルが合成しなければならない場合に当てはまる。 以前の研究は、タスクを実行する代わりに、ROUGEのような標準のn-gram類似度メトリクスを使って検出するのが難しいショートカットを利用することを示した。 より良い自動評価メトリクスが必要ですが、提案されたメトリクスを評価するためのリソースはほとんどありません。 そこで本研究では,人間に評価された要約品質ファセットとペアワイズ好みのデータセットを導入し,文献レビューmdsのためのより良い自動評価手法の開発を奨励し,支援する。 文献レビューのための多文書要約(mslr)共有タスクのコミュニティ投稿を利用して,生成した要約の多様かつ代表的なサンプルをコンパイルする。 我々は,自動要約評価指標が生成した要約の語彙的特徴とどのように相関するかを,本研究で提案するいくつかの自動化指標,人為的な要約品質の面から分析する。 自動メトリクスは、人間が評価した品質の側面を捉えるのに失敗するだけでなく、多くの場合、これらのメトリクスによって生成されるシステムランキングは、人間の注釈によるランキングと反相関している。

Evaluating multi-document summarization (MDS) quality is difficult. This is especially true in the case of MDS for biomedical literature reviews, where models must synthesize contradicting evidence reported across different documents. Prior work has shown that rather than performing the task, models may exploit shortcuts that are difficult to detect using standard n-gram similarity metrics such as ROUGE. Better automated evaluation metrics are needed, but few resources exist to assess metrics when they are proposed. Therefore, we introduce a dataset of human-assessed summary quality facets and pairwise preferences to encourage and support the development of better automated evaluation methods for literature review MDS. We take advantage of community submissions to the Multi-document Summarization for Literature Review (MSLR) shared task to compile a diverse and representative sample of generated summaries. We analyze how automated summarization evaluation metrics correlate with lexical features of generated summaries, to other automated metrics including several we propose in this work, and to aspects of human-assessed summary quality. We find that not only do automated metrics fail to capture aspects of quality as assessed by humans, in many cases the system rankings produced by these metrics are anti-correlated with rankings according to human annotators.
翻訳日:2023-05-24 18:55:03 公開日:2023-05-23
# 少ないデータ合成による効率的なオープンドメインマルチホップ質問応答

Efficient Open Domain Multi-Hop Question Answering with Few-Shot Data Synthesis ( http://arxiv.org/abs/2305.13691v1 )

ライセンス: Link先を確認
Mingda Chen, Xilun Chen, Wen-tau Yih(参考訳) オープンドメインのマルチホップ質問応答のためのわずかな学習は、通常、大きな言語モデル(LLM)に依存している。 llmは強力だが、推論時には非効率である。 質問応答が10組未満の言語モデルの改善を可能にするマルチホップ質問応答のためのデータ合成フレームワークを提案する。 このフレームワークは、LLMとプロンプトによってパラメータ化されたデータ生成関数の上に構築されている。 経験上、私たちは数百万のマルチホップ質問とクレームを合成します。 合成データ上で言語モデルを微調整した後、マルチホップ質問応答と事実検証に関する人気のあるベンチマークでモデルを評価する。 実験の結果, 合成データの微調整により, モデル性能が大幅に向上し, パラメータ数が約3分の1の精度で, 先行モデルとの競合性が向上した。

Few-shot learning for open domain multi-hop question answering typically relies on large language models (LLMs). While powerful, LLMs are inefficient at the inference time. We propose a data synthesis framework for multi-hop question answering that allows for improving smaller language models with less than 10 human-annotated question answer pairs. The framework is built upon the data generation functions parameterized by LLMs and prompts, which requires minimal hand-crafted features. Empirically, we synthesize millions of multi-hop questions and claims. After finetuning language models on the synthetic data, we evaluate the models on popular benchmarks on multi-hop question answering and fact verification. Our experimental results show that finetuning on the synthetic data improves model performance significantly, allowing our finetuned models to be competitive with prior models while being almost one-third the size in terms of parameter counts.
翻訳日:2023-05-24 18:54:42 公開日:2023-05-23
# タスク指向対話における情報探索の解明に向けて

Towards Asking Clarification Questions for Information Seeking on Task-Oriented Dialogues ( http://arxiv.org/abs/2305.13690v1 )

ライセンス: Link先を確認
Yue Feng, Hossein A. Rahmani, Aldo Lipani, Emine Yilmaz(参考訳) タスク指向対話システムは、ユーザに対してタスク固有のサービスを提供することを目的としている。 このようなシステムのユーザは、自分が達成しようとしているタスクに関するすべての情報を知らないことが多く、タスクに関する情報を求める必要がある。 結果を求めるタスク指向情報を正確かつパーソナライズするためには、タスク指向対話システムは2つの潜在的な問題に対処する必要がある。 1)ユーザが要求する複雑な情報要求を記述できないこと,及び 2) システムのユーザに関する曖昧/欠落情報。 本稿では,MAS2Sと呼ばれるマルチアテンションSeq2Seqネットワークを提案し,タスク指向情報探索におけるユーザの情報ニーズとユーザのプロファイルを明らかにする。 また、タスク指向情報検索のための既存のデータセットを拡張して、約10kのタスク指向情報を含む \ourdatasetを公開公開する\footnote{datasetとコードは、 \href{https://github.com/sweetalyssum/clarit}{https://github.com/sweetalyssum/clarit}で利用可能である。 }. 実験結果から,MAS2Sは解答問題生成と解答予測の両方において,ベースラインよりも優れていた。

Task-oriented dialogue systems aim at providing users with task-specific services. Users of such systems often do not know all the information about the task they are trying to accomplish, requiring them to seek information about the task. To provide accurate and personalized task-oriented information seeking results, task-oriented dialogue systems need to address two potential issues: 1) users' inability to describe their complex information needs in their requests; and 2) ambiguous/missing information the system has about the users. In this paper, we propose a new Multi-Attention Seq2Seq Network, named MAS2S, which can ask questions to clarify the user's information needs and the user's profile in task-oriented information seeking. We also extend an existing dataset for task-oriented information seeking, leading to the \ourdataset which contains about 100k task-oriented information seeking dialogues that are made publicly available\footnote{Dataset and code is available at \href{https://github.com/sweetalyssum/clarit}{https://github.com/sweetalyssum/clarit}.}. Experimental results on \ourdataset show that MAS2S outperforms baselines on both clarification question generation and answer prediction.
翻訳日:2023-05-24 18:54:28 公開日:2023-05-23
# 自己指導型学習を知る:画像に基づく生成・識別学習に関する調査

Know Your Self-supervised Learning: A Survey on Image-based Generative and Discriminative Training ( http://arxiv.org/abs/2305.13689v1 )

ライセンス: Link先を確認
Utku Ozbulak, Hyun Jung Lee, Beril Boga, Esla Timothy Anzaku, Homin Park, Arnout Van Messem, Wesley De Neve, Joris Vankerschaver(参考訳) 教師付き学習は、画像ベースのコンピュータビジョンの分野における最先端技術の改善に成功してきたが、近年は改善率は大幅に低下しており、台地が見えていることを示している。 一方、自然言語処理(NLP)を目的とした自己教師付き学習(SSL)の利用は、ここ数年で大きな成功を収めており、この新しい学習パラダイムは強力な言語モデルを生み出している。 nlpの分野で得られた優れた結果に触発されて、クラスタリング、コントラスト学習、蒸留、情報最大化に依存する自己教師ありの手法は、すべて差別的sslの旗の下に置かれ、コンピュータビジョンの領域で急速に普及した。 その後間もなく、主にマスク画像モデリングに基づく生成SSLフレームワークが、差別的なSSLで得られた結果を補完し、上回った。 その結果、3年以内に、画像に焦点をあてた生成的で差別的なSSLのための100ドル以上のユニークな汎用フレームワークが提案された。 本調査では,イメージ指向SSLに関する数多くの研究成果を概観し,歴史的視点を提供し,ベストプラクティスや有用なソフトウェアパッケージに注意を払っている。 その間、イメージベースSSLのプリテキストタスクや、イメージベースSSLで一般的に使用されるテクニックについて議論する。 最後に、画像中心のsslへの貢献を目指す研究者を支援するために、多くの有望な研究方向を概説する。

Although supervised learning has been highly successful in improving the state-of-the-art in the domain of image-based computer vision in the past, the margin of improvement has diminished significantly in recent years, indicating that a plateau is in sight. Meanwhile, the use of self-supervised learning (SSL) for the purpose of natural language processing (NLP) has seen tremendous successes during the past couple of years, with this new learning paradigm yielding powerful language models. Inspired by the excellent results obtained in the field of NLP, self-supervised methods that rely on clustering, contrastive learning, distillation, and information-maximization, which all fall under the banner of discriminative SSL, have experienced a swift uptake in the area of computer vision. Shortly afterwards, generative SSL frameworks that are mostly based on masked image modeling, complemented and surpassed the results obtained with discriminative SSL. Consequently, within a span of three years, over $100$ unique general-purpose frameworks for generative and discriminative SSL, with a focus on imaging, were proposed. In this survey, we review a plethora of research efforts conducted on image-oriented SSL, providing a historic view and paying attention to best practices as well as useful software packages. While doing so, we discuss pretext tasks for image-based SSL, as well as techniques that are commonly used in image-based SSL. Lastly, to aid researchers who aim at contributing to image-focused SSL, we outline a number of promising research directions.
翻訳日:2023-05-24 18:54:07 公開日:2023-05-23
# 抽象的作業生成のための因果干渉

Causal Intervention for Abstractive Related Work Generation ( http://arxiv.org/abs/2305.13685v1 )

ライセンス: Link先を確認
Jiachang Liu, Qi Zhang, Chongyang Shi, Usman Naseem, Shoujin Wang, Ivor Tsang(参考訳) 抽象的関連ワーク生成は、現在の研究の背景を理解するのに役立つコヒーレントな関連ワークの生成に注目が集まっている。 しかし、既存の抽象モデルの多くは、関連するワーク生成の固有の因果性を無視し、生成された関連作業の品質が低くなり、モデルの一般化性に影響を与えるスプリアス相関が発生する。 本研究では, 因果介入がこれらの限界に対処し, 生成した関連作品の品質とコヒーレンスを向上させることを論じる。 そこで本稿では, 生成過程における因果関係を効果的に捉え, 生成関連作品の品質と一貫性を向上させるための, 関連ワークジェネレーション(cam)のための新しい因果介入モジュールを提案する。 具体的には,まず,因果グラフを用いた関連作業生成における文順序,文書関係,経過内容の関係をモデル化する。 次に, 因果介入の実施と, 素因果相関の負の影響を軽減するために, 通常の条件付き確率の導出とCaMによる因果効果の同定にdo-calculusを用いた。 最後に,CaM を Transformer と微視的に融合させ,エンドツーエンド生成モデルを得る。 2つの実世界のデータセットに対する大規模な実験により、CaMの因果介入は因果関係を学習し、より高い品質と一貫性の関連作業を生成するために効果的にモデルを促進することが示されている。

Abstractive related work generation has attracted increasing attention in generating coherent related work that better helps readers grasp the background in the current research. However, most existing abstractive models ignore the inherent causality of related work generation, leading to low quality of generated related work and spurious correlations that affect the models' generalizability. In this study, we argue that causal intervention can address these limitations and improve the quality and coherence of the generated related works. To this end, we propose a novel Causal Intervention Module for Related Work Generation (CaM) to effectively capture causalities in the generation process and improve the quality and coherence of the generated related works. Specifically, we first model the relations among sentence order, document relation, and transitional content in related work generation using a causal graph. Then, to implement the causal intervention and mitigate the negative impact of spurious correlations, we use do-calculus to derive ordinary conditional probabilities and identify causal effects through CaM. Finally, we subtly fuse CaM with Transformer to obtain an end-to-end generation model. Extensive experiments on two real-world datasets show that causal interventions in CaM can effectively promote the model to learn causal relations and produce related work of higher quality and coherence.
翻訳日:2023-05-24 18:53:40 公開日:2023-05-23
# mPLM-Sim:多言語事前学習言語モデルにおける言語間類似性の向上と伝達

mPLM-Sim: Unveiling Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models ( http://arxiv.org/abs/2305.13684v1 )

ライセンス: Link先を確認
Peiqin Lin, Chengzhi Hu, Zheyu Zhang, Andr\'e F. T. Martins, Hinrich Sch\"utze(参考訳) 近年の多言語事前訓練言語モデル (mPLM) は、事前訓練中に明示的に提供されない強い言語固有の信号を符号化することが示されている。 mplmを使用して言語の類似度を測定し、その後、類似度結果を使用して言語間転送を促進するためのソース言語を選択することは可能かどうか、まだ疑問の余地はない。 そこで本研究では,マルチパラレルコーパスを用いたmPLMから言語間の類似性を誘導する言語類似度尺度mPLM-Simを提案する。 本研究により,mplm-simは,語彙統計学,系譜学的言語族,地理的散布など,言語類似度尺度と適度に高い相関を示した。 また、相関が低い言語についてもケーススタディを行い、mPLM-Simがより正確な類似性結果をもたらすことを観察する。 さらに,mPLM内の異なる層と異なる層に類似性が認められた。 さらに,mPLM-Simは低レベル構文タスクと高レベル意味タスクの両方で実験を行うことで,ゼロショットの言語間移動に有効かどうかを考察する。 実験の結果,mPLM-Simは言語指標よりも優れたソース言語を選択することができ,ゼロショット言語間転送性能は1%-2%向上した。

Recent multilingual pretrained language models (mPLMs) have been shown to encode strong language-specific signals, which are not explicitly provided during pretraining. It remains an open question whether it is feasible to employ mPLMs to measure language similarity, and subsequently use the similarity results to select source languages for boosting cross-lingual transfer. To investigate this, we propose mPLM-Sim, a new language similarity measure that induces the similarities across languages from mPLMs using multi-parallel corpora. Our study shows that mPLM-Sim exhibits moderately high correlations with linguistic similarity measures, such as lexicostatistics, genealogical language family, and geographical sprachbund. We also conduct a case study on languages with low correlation and observe that mPLM-Sim yields more accurate similarity results. Additionally, we find that similarity results vary across different mPLMs and different layers within an mPLM. We further investigate whether mPLM-Sim is effective for zero-shot cross-lingual transfer by conducting experiments on both low-level syntactic tasks and high-level semantic tasks. The experimental results demonstrate that mPLM-Sim is capable of selecting better source languages than linguistic measures, resulting in a 1%-2% improvement in zero-shot cross-lingual transfer performance.
翻訳日:2023-05-24 18:53:16 公開日:2023-05-23
# BA-SOT:マルチ話者ASRのための境界対応シリアライズアウトプットトレーニング

BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR ( http://arxiv.org/abs/2305.13716v1 )

ライセンス: Link先を確認
Yuhao Liang, Fan Yu, Yangze Li, Pengcheng Guo, Shiliang Zhang, Qian Chen, Lei Xie(参考訳) 最近提案されたシリアライズアウトプットトレーニング(SOT)は、特別なトークンで分離された話者書き起こしを生成することで、マルチストーカー自動音声認識(ASR)を単純化する。 しかし、頻繁な話者変化は話者変化予測を難しくする。 そこで本稿では,話者変化検出タスクと境界制約損失による境界知識をデコーダに明示的に組み込んだ境界対応直列出力トレーニング(BA-SOT)を提案する。 また、トークンレベルSOT CTCを組み込んだ2段階接続型時間分類(CTC)戦略を導入し、時間的文脈情報を復元する。 典型的な文字誤り率(CER)に加えて,話者変化予測の精度を高めるために発話依存文字誤り率(UD-CER)を導入する。 SOTと比較して、BA-SOTはCER/UD-CERを5.1%/14.0%削減し、BA-SOTモデルの初期化のために事前訓練されたASRモデルを活用することで、CER/UD-CERをさらに8.4%/19.9%削減する。

The recently proposed serialized output training (SOT) simplifies multi-talker automatic speech recognition (ASR) by generating speaker transcriptions separated by a special token. However, frequent speaker changes can make speaker change prediction difficult. To address this, we propose boundary-aware serialized output training (BA-SOT), which explicitly incorporates boundary knowledge into the decoder via a speaker change detection task and boundary constraint loss. We also introduce a two-stage connectionist temporal classification (CTC) strategy that incorporates token-level SOT CTC to restore temporal context information. Besides typical character error rate (CER), we introduce utterance-dependent character error rate (UD-CER) to further measure the precision of speaker change prediction. Compared to original SOT, BA-SOT reduces CER/UD-CER by 5.1%/14.0%, and leveraging a pre-trained ASR model for BA-SOT model initialization further reduces CER/UD-CER by 8.4%/19.9%.
翻訳日:2023-05-24 18:45:06 公開日:2023-05-23
# 因果推論のための積分確率計量を用いた共変バランス

Covariate balancing using the integral probability metric for causal inference ( http://arxiv.org/abs/2305.13715v1 )

ライセンス: Link先を確認
Insung Kong, Yuha Park, Joonhyuk Jung, Kwonsang Lee, Yongdai Kim(参考訳) 因果推論における重み付け法は、望ましい共変量バランスを達成するために広く用いられている。 しかし、既存の重み付け法は、確率スコアまたは結果回帰モデルのいずれかの特定のモデルが正しく特定された場合にのみ望ましい理論的性質を有する。 さらに、対応する推定器はモデルが正しく特定された場合でも大きな分散のために有限標本に対してうまく振る舞わない。 本稿では,2つの確率測度間の計量である積分確率計量(ipm)を共変バランスに利用することを検討する。 最適重み付けは、処理群および制御群に対する重み付き経験分布が所定の判別器群に対して最小のipm値を持つように決定される。 モデル(確率スコアも結果回帰モデルも)を正しく指定することなく,対応する推定器の整合性を証明する。 さらに, 提案手法は, 有限サンプルに対して, 既存の重み付け法よりも高い性能を示した。

Weighting methods in causal inference have been widely used to achieve a desirable level of covariate balancing. However, the existing weighting methods have desirable theoretical properties only when a certain model, either the propensity score or outcome regression model, is correctly specified. In addition, the corresponding estimators do not behave well for finite samples due to large variance even when the model is correctly specified. In this paper, we consider to use the integral probability metric (IPM), which is a metric between two probability measures, for covariate balancing. Optimal weights are determined so that weighted empirical distributions for the treated and control groups have the smallest IPM value for a given set of discriminators. We prove that the corresponding estimator can be consistent without correctly specifying any model (neither the propensity score nor the outcome regression model). In addition, we empirically show that our proposed method outperforms existing weighting methods with large margins for finite samples.
翻訳日:2023-05-24 18:44:45 公開日:2023-05-23
# CALLS:顧客センターにおける苦情処理と注意聴取の日本語共感対話音声コーパス

CALLS: Japanese Empathetic Dialogue Speech Corpus of Complaint Handling and Attentive Listening in Customer Center ( http://arxiv.org/abs/2305.13713v1 )

ライセンス: Link先を確認
Yuki Saito, Eiji Iimori, Shinnosuke Takamichi, Kentaro Tachibana, Hiroshi Saruwatari(参考訳) 本稿では,顧客センターでの通話を共感的音声対話の新たな領域とみなす日本語コーパスCALLSを紹介する。 既存のSTUDIESコーパスは、教師と学校の学生の間の共感的な対話のみをカバーしている。 情緒的対話音声合成(EDSS)の適用範囲を拡大するため,STUDIES教師と同じ女性話者を含むコーパスを設計した。 コーパス構築手法を記述し、録音された音声を解析する。 また,CALLSとSTUDIESコーパスを用いてEDSS実験を行い,領域差の影響について検討した。 その結果,2つのコーパスの混合は,表現度の違いによる合成音声の品質向上のバイアスとなることがわかった。 コーパスのプロジェクトページはhttp://sython.org/Corpus/STUDIES-2。

We present CALLS, a Japanese speech corpus that considers phone calls in a customer center as a new domain of empathetic spoken dialogue. The existing STUDIES corpus covers only empathetic dialogue between a teacher and student in a school. To extend the application range of empathetic dialogue speech synthesis (EDSS), we designed our corpus to include the same female speaker as the STUDIES teacher, acting as an operator in simulated phone calls. We describe a corpus construction methodology and analyze the recorded speech. We also conduct EDSS experiments using the CALLS and STUDIES corpora to investigate the effect of domain differences. The results show that mixing the two corpora during training causes biased improvements in the quality of synthetic speech due to the different degrees of expressiveness. Our project page of the corpus is http://sython.org/Corpus/STUDIES-2.
翻訳日:2023-05-24 18:44:30 公開日:2023-05-23
# 知識の知識:大言語モデルによる未知の未知の探索

Knowledge of Knowledge: Exploring Known-Unknowns Uncertainty with Large Language Models ( http://arxiv.org/abs/2305.13712v1 )

ライセンス: Link先を確認
Alfonso Amayuelas, Liangming Pan, Wenhu Chen, William Wang(参考訳) 本稿では,Large Language Models (LLM) の知識の理解と不確実性評価の文脈における能力について検討する。 これは幻覚を緩和するための重要な機能である。 具体的には,不確定な回答がないことから,不確実性が高いことが特徴である。 本研究では,新しい未知の質問(KUQ)を用いたデータセットを収集し,不確実性の原因を解明する新たな分類手法を提案する。 その後、既知の質問と未知の質問を区別するllmsの能力を評価し、それに従って分類する。 さらに,オープンエンドQA設定で回答の質を評価する。 回答に表される不確かさを定量化するために,既知の質問と未知質問の間の不確実性を表現する際に,モデルの正確性を測定する意味的評価手法を提案する。

This paper investigates the capabilities of Large Language Models (LLMs) in the context of understanding their own knowledge and measuring their uncertainty. We argue this is an important feature for mitigating hallucinations. Specifically, we focus on addressing \textit{known-unknown} questions, characterized by high uncertainty due to the absence of definitive answers. To facilitate our study, we collect a dataset with new Known-Unknown Questions (KUQ) and propose a novel categorization scheme to elucidate the sources of uncertainty. Subsequently, we assess the LLMs' ability to differentiate between known and unknown questions and classify them accordingly. Moreover, we evaluate the quality of their answers in an Open-Ended QA setting. To quantify the uncertainty expressed in the answers, we create a semantic evaluation method that measures the model's accuracy in expressing uncertainty between known vs unknown questions.
翻訳日:2023-05-24 18:44:16 公開日:2023-05-23
# llm-eval: 大言語モデルを用いたオープンドメイン会話の統一多次元自動評価

LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models ( http://arxiv.org/abs/2305.13711v1 )

ライセンス: Link先を確認
Yen-Ting Lin, Yun-Nung Chen(参考訳) 大規模言語モデル (LLM) を用いたオープンドメイン会話のための多次元自動評価手法 LLM-Eval を提案する。 既存の評価手法は、人間のアノテーション、地味な反応、あるいは複数のLSMプロンプトに頼っていることが多い。 これらの問題に対処するために,単一のモデルコールにおける会話品質の複数の次元をカバーするために,統一的な評価スキーマを利用する単一プロンプトベースの評価手法を設計する。 各種ベンチマークデータセットを用いたLCM-Evalの性能評価を行い,その有効性,効率,適応性について,最先端評価法と比較した。 また,正確な評価結果に適切なLCMと復号戦略を選択することの重要性を強調した。 LLM-Evalは、オープンドメインの会話システムを評価し、評価プロセスを合理化し、さまざまなシナリオで一貫したパフォーマンスを提供する、汎用的で堅牢なソリューションを提供する。

We propose LLM-Eval, a unified multi-dimensional automatic evaluation method for open-domain conversations with large language models (LLMs). Existing evaluation methods often rely on human annotations, ground-truth responses, or multiple LLM prompts, which can be expensive and time-consuming. To address these issues, we design a single prompt-based evaluation method that leverages a unified evaluation schema to cover multiple dimensions of conversation quality in a single model call. We extensively evaluate the performance of LLM-Eval on various benchmark datasets, demonstrating its effectiveness, efficiency, and adaptability compared to state-of-the-art evaluation methods. Our analysis also highlights the importance of choosing suitable LLMs and decoding strategies for accurate evaluation results. LLM-Eval offers a versatile and robust solution for evaluating open-domain conversation systems, streamlining the evaluation process and providing consistent performance across diverse scenarios.
翻訳日:2023-05-24 18:44:01 公開日:2023-05-23
# タスク指向対話システムにおけるテキストインタフェースによる外部知識の調整

Using Textual Interface to Align External Knowledge for End-to-End Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2305.13710v1 )

ライセンス: Link先を確認
Qingyang Wu, Deema Alnuhait, Derek Chen, Zhou Yu(参考訳) 従来のエンドツーエンドのタスク指向対話システムはモジュール化された設計で構築されてきた。 しかし,このような設計は情報表現が不十分なため,エージェント応答と外部知識のミスアライメントを引き起こすことが多い。 さらに、その評価指標は、完了した応答の品質を無視して、エージェントのプレレキシケーション応答を評価することを強調する。 本研究では,外部知識の整合と冗長なプロセスの排除にテキストインタフェースを用いた新しいパラダイムを提案する。 我々は、MultiWOZ-Remakeを用いて、MultiWOZデータベース用に構築されたインタラクティブテキストインタフェースと、それに対応する再処理データセットを含む、我々のパラダイムを実際に示す。 我々は、この新たなデータセットを評価するために、エンドツーエンドの対話システムを訓練する。 実験の結果,本手法はより自然な最終応答を生成し,従来のモデルよりも高いタスク成功率を達成した。

Traditional end-to-end task-oriented dialogue systems have been built with a modularized design. However, such design often causes misalignment between the agent response and external knowledge, due to inadequate representation of information. Furthermore, its evaluation metrics emphasize assessing the agent's pre-lexicalization response, neglecting the quality of the completed response. In this work, we propose a novel paradigm that uses a textual interface to align external knowledge and eliminate redundant processes. We demonstrate our paradigm in practice through MultiWOZ-Remake, including an interactive textual interface built for the MultiWOZ database and a correspondingly re-processed dataset. We train an end-to-end dialogue system to evaluate this new dataset. The experimental results show that our approach generates more natural final responses and achieves a greater task success rate compared to the previous models.
翻訳日:2023-05-24 18:43:44 公開日:2023-05-23
# すべての言語は同じコストか? 商業言語モデルにおけるトークン化

Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models ( http://arxiv.org/abs/2305.13707v1 )

ライセンス: Link先を確認
Orevaoghene Ahia, Sachin Kumar, Hila Gonen, Jungo Kasai, David R. Mortensen, Noah A. Smith, Yulia Tsvetkov(参考訳) 言語モデルは、Web APIとして提供される商用製品の研究プロトタイプから卒業し、最近の研究でこれらの製品の多言語機能を強調している。 APIベンダは、使用量に基づいてユーザを課金する。具体的には、基礎となる言語モデルによって処理され、あるいは生成される‘tokens’の数に基づいている。 しかしトークンを構成するのは、同じ情報を異なる言語で伝えるために必要なトークンの数に大きなばらつきに依存する、データとモデルをトレーニングすることだ。 本研究では,この不均一性が言語間のAPIの価格ポリシーの公平性に与える影響を分析する。 我々は,多言語ベンチマークを用いたopenaiの言語モデルapiのコストと有用性に関する体系的分析を行う。 我々は,サポート言語が多数ある話者が過剰にチャージされ,結果が貧弱であることを示す。 これらのスピーカーは、APIが最初から手頃な価格ではない地域からも来る傾向があります。 これらの分析を通じて、言語モデルAPIの価格ポリシーに関する透明性を高め、ベンダーがより公平にすることを目指している。

Language models have graduated from being research prototypes to commercialized products offered as web APIs, and recent works have highlighted the multilingual capabilities of these products. The API vendors charge their users based on usage, more specifically on the number of ``tokens'' processed or generated by the underlying language models. What constitutes a token, however, is training data and model dependent with a large variance in the number of tokens required to convey the same information in different languages. In this work, we analyze the effect of this non-uniformity on the fairness of an API's pricing policy across languages. We conduct a systematic analysis of the cost and utility of OpenAI's language model API on multilingual benchmarks in 22 typologically diverse languages. We show evidence that speakers of a large number of the supported languages are overcharged while obtaining poorer results. These speakers tend to also come from regions where the APIs are less affordable to begin with. Through these analyses, we aim to increase transparency around language model APIs' pricing policies and encourage the vendors to make them more equitable.
翻訳日:2023-05-24 18:43:28 公開日:2023-05-23
# 意味認識型伝送スケジューリング:単調性駆動型深層強化学習アプローチ

Semantic-aware Transmission Scheduling: a Monotonicity-driven Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2305.13706v1 )

ライセンス: Link先を確認
Jiazheng Chen, Wanchun Liu, Daniel Quevedo, Yonghui Li and Branka Vucetic(参考訳) 6G時代のサイバー物理システムでは、動的制御とリモート状態推定のために分散デバイスを接続するセマンティック通信は、単なる通信中心の性能ではなく、アプリケーションレベルの性能を保証するために必要である。 意味論は、情報伝達の有用性の尺度である。 大規模システムのセマンティクス・アウェア・トランスミッションスケジューリングは、しばしば大きな意思決定空間を必要とするが、既存のアルゴリズムでは効果的に最適なポリシーを得ることはできない。 本稿では,まず,最適セマンティック・アウェア・スケジューリング・ポリシーの基本的特性を考察し,理論ガイドラインを活用して高度強化学習(DRL)アルゴリズムを開発する。 その結果,提案アルゴリズムはベンチマークアルゴリズムと比較してトレーニング時間を大幅に短縮し,トレーニング性能を向上させることができることがわかった。

For cyber-physical systems in the 6G era, semantic communications connecting distributed devices for dynamic control and remote state estimation are required to guarantee application-level performance, not merely focus on communication-centric performance. Semantics here is a measure of the usefulness of information transmissions. Semantic-aware transmission scheduling of a large system often involves a large decision-making space, and the optimal policy cannot be obtained by existing algorithms effectively. In this paper, we first investigate the fundamental properties of the optimal semantic-aware scheduling policy and then develop advanced deep reinforcement learning (DRL) algorithms by leveraging the theoretical guidelines. Our numerical results show that the proposed algorithms can substantially reduce training time and enhance training performance compared to benchmark algorithms.
翻訳日:2023-05-24 18:43:14 公開日:2023-05-23
# DiffHand:拡散モデルによるエンドツーエンドハンドメッシュ再構築

DiffHand: End-to-End Hand Mesh Reconstruction via Diffusion Models ( http://arxiv.org/abs/2305.13705v1 )

ライセンス: Link先を確認
Lijun Li, Li'an Zhuo, Bang Zhang, Liefeng Bo, Chen Chen(参考訳) 単眼画像からの手メッシュ再構築は, 深度あいまいさと重度閉塞性のため困難な作業であり, 単眼画像と手メッシュとの間には特異なマッピングが残っている。 そこで我々は,手メッシュ再構成をデノナイズ拡散プロセスとして活用する最初の拡散基盤フレームワークであるDiffHandを開発した。 1段階のパイプラインではノイズを利用して,中間ハンドメッシュの不確実性分布をフォワードプロセスでモデル化する。 ノイズの多い手メッシュを徐々に洗練し,画像自体に基づいて高い確率でメッシュを選択し,事前に抽出した2次元関節に頼らずに拡散過程を再構築する。 ハンド頂点の接続性をモデル化するために,クロスモダリティデコーダと呼ばれる新しいネットワークモジュールを設計する。 本手法は,Freihandテストセットで5.8mm PA-MPJPE,DexYCBテストセットで4.98mm PA-MPJPEを達成して,最先端の手メッシュ再構築手法よりも優れていることを示す。

Hand mesh reconstruction from the monocular image is a challenging task due to its depth ambiguity and severe occlusion, there remains a non-unique mapping between the monocular image and hand mesh. To address this, we develop DiffHand, the first diffusion-based framework that approaches hand mesh reconstruction as a denoising diffusion process. Our one-stage pipeline utilizes noise to model the uncertainty distribution of the intermediate hand mesh in a forward process. We reformulate the denoising diffusion process to gradually refine noisy hand mesh and then select mesh with the highest probability of being correct based on the image itself, rather than relying on 2D joints extracted beforehand. To better model the connectivity of hand vertices, we design a novel network module called the cross-modality decoder. Extensive experiments on the popular benchmarks demonstrate that our method outperforms the state-of-the-art hand mesh reconstruction approaches by achieving 5.8mm PA-MPJPE on the Freihand test set, 4.98mm PA-MPJPE on the DexYCB test set.
翻訳日:2023-05-24 18:42:59 公開日:2023-05-23
# FlowChroma - ビデオカラー化のためのディープリカレントニューラルネットワーク

FlowChroma -- A Deep Recurrent Neural Network for Video Colorization ( http://arxiv.org/abs/2305.13704v1 )

ライセンス: Link先を確認
Thejan Wijesinghe, Chamath Abeysinghe, Chanuka Wijayakoon, Lahiru Jayathilake, Uthayasanker Thayasivam(参考訳) フレーム間の色合いを最小限に抑える自動ビデオカラー化フレームワークを開発した。 映像の連続フレームに画像カラー化技術を適用する場合、各フレームを別個のカラー化タスクとして扱う。 したがって、後続のフレームに連続してシーンの色を維持する必要はない。 提案手法は,ビデオの連続フレーム間の時間的および文脈的コヒーレンスを維持可能な,新しいディープリカレントエンコーダ・デコーダアーキテクチャを含む。 フレームシーケンスの空間的特徴と時間的特徴を組み合わせたカスタム融合層を用いて,高レベルな意味的特徴抽出器を用いて,オブジェクトを含むシナリオのコンテキストを自動的に識別する。 ビデオカラー化における色の整合性を改善するために、繰り返しニューラルネットワークをうまく利用できることを定性的に示す実験結果を示す。

We develop an automated video colorization framework that minimizes the flickering of colors across frames. If we apply image colorization techniques to successive frames of a video, they treat each frame as a separate colorization task. Thus, they do not necessarily maintain the colors of a scene consistently across subsequent frames. The proposed solution includes a novel deep recurrent encoder-decoder architecture which is capable of maintaining temporal and contextual coherence between consecutive frames of a video. We use a high-level semantic feature extractor to automatically identify the context of a scenario including objects, with a custom fusion layer that combines the spatial and temporal features of a frame sequence. We demonstrate experimental results, qualitatively showing that recurrent neural networks can be successfully used to improve color consistency in video colorization.
翻訳日:2023-05-24 18:42:36 公開日:2023-05-23
# i-Code Studio: 統合AIのための構成可能で構成可能なフレームワーク

i-Code Studio: A Configurable and Composable Framework for Integrative AI ( http://arxiv.org/abs/2305.13738v1 )

ライセンス: Link先を確認
Yuwei Fang, Mahmoud Khademi, Chenguang Zhu, Ziyi Yang, Reid Pryzant, Yichong Xu, Yao Qian, Takuya Yoshioka, Lu Yuan, Michael Zeng and Xuedong Huang(参考訳) 人工知能(AGI)は、様々なモダリティと機能にまたがる様々なタスクに対して、包括的な理解と生成能力を必要とする。 統合AIは、複雑なマルチモーダルタスクに取り組むために複数のモデルを組み合わせることで、AGIにアプローチするための重要な方向のひとつです。 しかし、効率的で効果的なモデル構成と調整を容易にする柔軟性と構成可能なプラットフォームが欠如している。 本稿では,統合型AIのための構成可能で構成可能なフレームワークであるi-Code Studioを提案する。 i-Code Studioは、複雑なマルチモーダルタスクを実行するために、複数の事前訓練されたモデルを微調整なしで編成する。 シンプルなモデル構成の代わりに、i-code studioは統合的で柔軟で構成可能な設定を提供し、開発者は特定の要求に合わせた最先端のサービスや技術を素早く簡単に構成できる。 i-Code Studioは、ビデオからテキストへの検索、音声から音声への翻訳、視覚的質問応答など、さまざまなゼロショットマルチモーダルタスクに関する印象的な結果を達成する。 また,ユーザとのコミュニケーションやパーソナライズが可能なi-code studioをベースとしたマルチモーダルエージェントを迅速に構築する方法をデモする。

Artificial General Intelligence (AGI) requires comprehensive understanding and generation capabilities for a variety of tasks spanning different modalities and functionalities. Integrative AI is one important direction to approach AGI, through combining multiple models to tackle complex multimodal tasks. However, there is a lack of a flexible and composable platform to facilitate efficient and effective model composition and coordination. In this paper, we propose the i-Code Studio, a configurable and composable framework for Integrative AI. The i-Code Studio orchestrates multiple pre-trained models in a finetuning-free fashion to conduct complex multimodal tasks. Instead of simple model composition, the i-Code Studio provides an integrative, flexible, and composable setting for developers to quickly and easily compose cutting-edge services and technologies tailored to their specific requirements. The i-Code Studio achieves impressive results on a variety of zero-shot multimodal tasks, such as video-to-text retrieval, speech-to-speech translation, and visual question answering. We also demonstrate how to quickly build a multimodal agent based on the i-Code Studio that can communicate and personalize for users.
翻訳日:2023-05-24 18:37:48 公開日:2023-05-23
# 合成フィードバックによる大規模言語モデルの調整

Aligning Large Language Models through Synthetic Feedback ( http://arxiv.org/abs/2305.13735v1 )

ライセンス: Link先を確認
Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak, Kang Min Yoo, Minjoon Seo(参考訳) 大型言語モデル(LLM)を人的価値に適応させることは、LLMの高度なステアリングを可能にするため、例えば、与えられた指示に従って、毒性を抑えながら、それらを従わせることがますます重要になっている。 しかし、それはかなりの量の人間のデモとフィードバックを必要とする。 オープンソースモデルは、instructgptやchatgptといった既に調整済みのllmからデータを蒸留することで、アライメント学習プロセスを再現しようと試みている。 このプロセスは人間の努力を減らすが、これらのデータセットの構築は教師のモデルに大きく依存する。 本研究では,人間の労働力にほとんど依存せず,あらかじめ整列されたLLMに依存しないアライメント学習の枠組みを提案する。 まず,バニラLLMからの応答を様々なサイズとプロンプトと対比することにより,合成フィードバックによる報酬モデリング(RM)を行う。 次に,質の高い実演をシミュレートし,教師付きポリシーを訓練し,強化学習によりモデルをさらに最適化するためにrmを用いる。 得られたモデルであるAligned Language Model with Synthetic Training dataset (ALMoST)は、Alpaca、Dlly、OpenAssistantなどのオープンソースモデルよりも優れており、InstructGPTや人手による指示の出力に基づいてトレーニングされている。 7bサイズモデルは,gpt-4を平均75%の勝率で判定したa/bテストで12~13bモデルを上回った。

Aligning large language models (LLMs) to human values has become increasingly important as it enables sophisticated steering of LLMs, e.g., making them follow given instructions while keeping them less toxic. However, it requires a significant amount of human demonstrations and feedback. Recently, open-sourced models have attempted to replicate the alignment learning process by distilling data from already aligned LLMs like InstructGPT or ChatGPT. While this process reduces human efforts, constructing these datasets has a heavy dependency on the teacher models. In this work, we propose a novel framework for alignment learning with almost no human labor and no dependency on pre-aligned LLMs. First, we perform reward modeling (RM) with synthetic feedback by contrasting responses from vanilla LLMs with various sizes and prompts. Then, we use the RM for simulating high-quality demonstrations to train a supervised policy and for further optimizing the model with reinforcement learning. Our resulting model, Aligned Language Model with Synthetic Training dataset (ALMoST), outperforms open-sourced models, including Alpaca, Dolly, and OpenAssistant, which are trained on the outputs of InstructGPT or human-annotated instructions. Our 7B-sized model outperforms the 12-13B models in the A/B tests using GPT-4 as the judge with about 75% winning rate on average.
翻訳日:2023-05-24 18:37:16 公開日:2023-05-23
# 単一量子干渉計における周波数和と差の同時決定によるbiphotonsの完全スペクトル特性評価

Complete spectral characterization of biphotons by simultaneously determining its frequency sum and difference in a single quantum interferometer ( http://arxiv.org/abs/2305.13734v1 )

ライセンス: Link先を確認
Baihong Li, Changhua Chen, Boxin Yuan, Xiangying Hao, Rui-Bo Jin(参考訳) 本研究では,NOON状態干渉計(NOONI)とHong-Ou-Mandel干渉計(HOMI)を組み合わせた新しい量子干渉計を提案する。 この干渉計は、二光子周波数和に依存するnooniと、1つの干渉計に二光子周波数差に依存するhomiの両方の利点を組み合わせる。 これにより、1つの時間領域量子インターフェログラムからフーリエ変換を取り出して、2光子のスペクトル相関情報を周波数和と差の双方で同時に得ることができ、交換対称性を持つ任意の2光子の状態の完全なスペクトル評価法を提供する。 このような干渉計の直接応用は、直接スペクトル測定が難しい量子フーリエ変換分光法で見ることができる。 さらに、3つのスケールで同時に時間間隔の測定を実現することができるので、量子メトロロジーにおける新しい方法を提供できると期待する。 最後に,高次元および位相制御周波数絡み合いの発生と特性評価における干渉計の別の可能性について考察する。

We theoretically propose a novel quantum interferometer in which the NOON state interferometer (NOONI) is combined with the Hong-Ou-Mandel interferometer (HOMI). This interferometer combined the advantages of both the NOONI that depends on biphoton frequency sum, and the HOMI that depends on biphoton frequency difference into a single interferometer. It can thus simultaneously obtain the spectral correlation information of biphotons in both frequency sum and difference by taking the Fourier transform from a single time-domain quantum interferogram, which provides a method for complete spectral characterization of an arbitrary two-photon state with exchange symmetry. A direct application of such an interferometer can be found in quantum Fourier-transform spectroscopy where direct spectral measurement is difficult. Furthermore, as it can realize the measurement of time intervals on three scales at the same time, we expect that it can provide a new method in quantum metrology. Finally, we discuss another potential application of such an interferometer in the generation and characterization of high-dimensional and phase-controlled frequency entanglement.
翻訳日:2023-05-24 18:36:28 公開日:2023-05-23
# インダクティブインストラクションのための大規模言語モデルを用いた自己批判型プロンプト

Self-Critique Prompting with Large Language Models for Inductive Instructions ( http://arxiv.org/abs/2305.13733v1 )

ライセンス: Link先を確認
Rui Wang, Hongru Wang, Fei Mi, Yi Chen, Ruifeng Xu, Kam-Fai Wong(参考訳) 大規模言語モデル(LLM)のユーザ命令を満たす能力を改善するか評価するために,多くの研究が提案されている。 しかし、利用者の誤った信念や悪意のある意図によって、利用者の入力が本質的に誤った情報を含む可能性を無視している。 このように、ユーザーの偽コンテンツに盲目的に固執すると、詐欺や危害が生じる。 この問題に対処するため,インダクティブインストラクション(INDust)を用いて,LLMがこれらの命令に抵抗できるかどうかを評価する。 INDustには、Fact-Checking Instructions、False Premisesに基づく質問、False Premisesに基づくCreative Instructionsという3つのカテゴリの15K命令が含まれている。 いくつかの強力な LLM に関する実験により,現在の LLM は INDUSt によって誤認されやすいことが判明した。 そこで我々は,従来の作品と同様の批判をLLMに促すとともに,ゼロショット設定と少数ショット設定の両方でインダクティブ命令処理の大幅な改善を図った。

Numerous works are proposed to improve or evaluate the capabilities of Large language models (LLMs) to fulfill user instructions. However, they neglect the possibility that user inputs may inherently contain incorrect information due to users' false beliefs or malicious intents. In this way, blindly adhering to users' false content will cause deception and harm. To address this problem, we propose a challenging benchmark consisting of Inductive Instructions (INDust) to evaluate whether LLMs could resist these instructions. The INDust includes 15K instructions across three categories: Fact-Checking Instructions, Questions based on False Premises, and Creative Instructions based on False Premises. Our experiments on several strong LLMs reveal that current LLMs can be easily deceived by INDust into generating misleading and malicious statements. Hence we employ Self-Critique prompting to encourage LLMs to not only critique themselves like in previous works but also the users, which show remarkable improvement in handling inductive instructions under both zero-shot and few-shot settings.
翻訳日:2023-05-24 18:35:59 公開日:2023-05-23
# ゼロショットリランカの制約生成による離散プロンプト最適化

Discrete Prompt Optimization via Constrained Generation for Zero-shot Re-ranker ( http://arxiv.org/abs/2305.13729v1 )

ライセンス: Link先を確認
Sukmin Cho, Soyeong Jeong, Jeongyeon Seo and Jong C. Park(参考訳) 検索された文書を所定のクエリの関連点に関して注文した再ランカは、情報検索(IR)タスクに注目されている。 事前訓練された言語モデル(PLM)を微調整する代わりに、大規模言語モデル(LLM)をゼロショットリランカとして、優れた結果が得られる。 LLMはプロンプトに大きく依存するが、ゼロショット再ランカに対するプロンプトの影響と最適化はまだ検討されていない。 ゼロショット再ランカに対する最適化の影響を強調するとともに,再ランクの最適度を推定する手法として,新しい離散的なプロンプト生成手法であるConstrained Prompt(Co-Prompt)を提案する。 Co-Prompt はパラメータを更新せずにパラメータに基づいて PLM から生成されたテキストを最適なプロンプトに導く。 実験の結果,共同プロンプトは,ベースラインに対する性能向上に寄与することが示された。 また、Co-Promptは他のプロンプト最適化手法に対してより解釈可能なプロンプトを生成する。

Re-rankers, which order retrieved documents with respect to the relevance score on the given query, have gained attention for the information retrieval (IR) task. Rather than fine-tuning the pre-trained language model (PLM), the large-scale language model (LLM) is utilized as a zero-shot re-ranker with excellent results. While LLM is highly dependent on the prompts, the impact and the optimization of the prompts for the zero-shot re-ranker are not explored yet. Along with highlighting the impact of optimization on the zero-shot re-ranker, we propose a novel discrete prompt optimization method, Constrained Prompt generation (Co-Prompt), with the metric estimating the optimum for re-ranking. Co-Prompt guides the generated texts from PLM toward optimal prompts based on the metric without parameter update. The experimental results demonstrate that Co-Prompt leads to outstanding re-ranking performance against the baselines. Also, Co-Prompt generates more interpretable prompts for humans against other prompt optimization methods.
翻訳日:2023-05-24 18:35:29 公開日:2023-05-23
# Retrievalとしての会話レコメンデーション:シンプルで強力なベースライン

Conversational Recommendation as Retrieval: A Simple, Strong Baseline ( http://arxiv.org/abs/2305.13725v1 )

ライセンス: Link先を確認
Raghav Gupta, Renat Aksitov, Samrat Phatale, Simral Chaudhary, Harrison Lee, Abhinav Rastogi(参考訳) 会話レコメンデーションシステム(CRS)は,自然言語会話を通じて適切な項目をユーザに推薦することを目的としている。 しかし、ほとんどのCRSアプローチはこれらの会話が提供する信号を有効に利用していない。 それらは、例えば、アイテムや属性に対するモデルの理解を高めるために、知識グラフのような明示的な外部知識に大きく依存する。 そこで我々は,CRSアイテムレコメンデーションタスクに対する代替情報検索(IR)スタイルのアプローチを提案し,会話をクエリとして,項目を文書として表現する。 トレーニングセットからの会話で検索に使用する文書表現を拡張した。 単純なBM25ベースの検索器を用いて、我々のタスク定式化は、一般的なCRSベンチマークの複雑な外部知識を用いて、より複雑なベースラインと良好に比較できることを示す。 我々は,CRSのコールドスタート問題に対処するため,ユーザ中心モデリングとデータ拡張によるさらなる改善を示す。

Conversational recommendation systems (CRS) aim to recommend suitable items to users through natural language conversation. However, most CRS approaches do not effectively utilize the signal provided by these conversations. They rely heavily on explicit external knowledge e.g., knowledge graphs to augment the models' understanding of the items and attributes, which is quite hard to scale. To alleviate this, we propose an alternative information retrieval (IR)-styled approach to the CRS item recommendation task, where we represent conversations as queries and items as documents to be retrieved. We expand the document representation used for retrieval with conversations from the training set. With a simple BM25-based retriever, we show that our task formulation compares favorably with much more complex baselines using complex external knowledge on a popular CRS benchmark. We demonstrate further improvements using user-centric modeling and data augmentation to counter the cold start problem for CRSs.
翻訳日:2023-05-24 18:35:11 公開日:2023-05-23
# ChatGPT-EDSS: ChatGPT由来コンテキスト単語埋め込みを用いた共感対話音声合成

ChatGPT-EDSS: Empathetic Dialogue Speech Synthesis Trained from ChatGPT-derived Context Word Embeddings ( http://arxiv.org/abs/2305.13724v1 )

ライセンス: Link先を確認
Yuki Saito, Shinnosuke Takamichi, Eiji Iimori, Kentaro Tachibana, Hiroshi Saruwatari(参考訳) そこで我々は,ChatGPTを用いた情緒的対話音声合成(EDSS)手法であるChatGPT-EDSSを提案する。 ChatGPTは、入力プロンプトの内容と目的を深く理解し、ユーザの要求に適切に応答できるチャットボットである。 本稿では,ChatGPTの読み理解に着目し,対話者の感情に共感できる音声合成タスクであるEDSSを紹介する。 まず、チャット履歴をチャットgptに与え、チャット中の各行の意図、感情、話し方を表す3つの単語を生成する。 次に、ChatGPT由来の文脈単語を条件付き特徴として埋め込みを用いてEDSSモデルを訓練する。 提案手法は,チャット履歴から学習した感情ラベルやニューラルネットワーク由来のコンテキスト埋め込みを用いて比較可能であった。 収集されたChatGPT由来のコンテキスト情報はhttps://sarulab-speech.github.io/demo_ChatGPT_EDSS/で確認できる。

We propose ChatGPT-EDSS, an empathetic dialogue speech synthesis (EDSS) method using ChatGPT for extracting dialogue context. ChatGPT is a chatbot that can deeply understand the content and purpose of an input prompt and appropriately respond to the user's request. We focus on ChatGPT's reading comprehension and introduce it to EDSS, a task of synthesizing speech that can empathize with the interlocutor's emotion. Our method first gives chat history to ChatGPT and asks it to generate three words representing the intention, emotion, and speaking style for each line in the chat. Then, it trains an EDSS model using the embeddings of ChatGPT-derived context words as the conditioning features. The experimental results demonstrate that our method performs comparably to ones using emotion labels or neural network-derived context embeddings learned from chat histories. The collected ChatGPT-derived context information is available at https://sarulab-speech.github.io/demo_ChatGPT_EDSS/.
翻訳日:2023-05-24 18:34:55 公開日:2023-05-23
# PromptClass: ノイズローバスト自己学習の促進によるテキスト分類

PromptClass: Weakly-Supervised Text Classification with Prompting Enhanced Noise-Robust Self-Training ( http://arxiv.org/abs/2305.13723v1 )

ライセンス: Link先を確認
Yunyi Zhang, Minhao Jiang, Yu Meng, Yu Zhang, Jiawei Han(参考訳) 最近提案された弱い教師付きテキスト分類設定は、各ターゲットクラスのラベル名のみを使用して分類器を訓練する。 このような弱い教師付き設定は、完全教師付き設定や半教師付き設定に比べて人的アノテーションの労力を大幅に削減できるため、注目を集めている。 既存のメソッドの多くは、まずラベル名を静的な特徴として使用して擬似ラベルを生成し、その後分類訓練に使用する戦略に従っている。 妥当ではあるが,(1) 単語は異なる文脈で異なる意味を持つことができるため,文脈自由マッチングにラベル名を用いると,非常にノイズの多い擬似ラベルを誘導し,(2) 擬似ラベル生成段階における誤りは,訂正されることなく直接分類者訓練段階に伝播する。 本稿では,(1)事前学習済み言語モデル(plm)のゼロショットプロンプトを用いて文脈的テキスト理解に基づく擬似ラベルを取得する擬似ラベル取得モジュールと,(2)分類器を反復的に訓練し,相互に正規化する2つのplm微調整戦略を用いて擬似ラベルを更新するノイズロバスト自己学習モジュールという,2つのモジュールからなる新しい手法を提案する。 広範な実験により、4つのベンチマークデータセットで既存の強力なベースラインよりも全体的なパフォーマンスが向上し、感情分類タスクで完全な教師付き分類器と同等のパフォーマンスが達成されることが示された。

Recently proposed weakly-supervised text classification settings train a classifier using the label name of each target class as the only supervision. Such weakly-supervised settings have been gaining increasing attention since they can largely reduce human annotation efforts compared to fully-supervised and semi-supervised settings. Most existing methods follow the strategy that first uses the label names as static features to generate pseudo labels, which are then used for classifier training. While reasonable, such a commonly adopted framework suffers from two limitations: (1) words can have different meanings in different contexts, so using label names for context-free matching can induce very noisy pseudo labels; and (2) the errors made in the pseudo label generation stage will directly propagate to the classifier training stage without a chance of being corrected. In this paper, we propose a new method, PromptClass, consisting of two modules: (1) a pseudo label acquisition module that uses zero-shot prompting of pre-trained language models (PLM) to get pseudo labels based on contextualized text understanding, and (2) a noise-robust self-training module that iteratively trains the classifier and updates pseudo labels by utilizing two PLM fine-tuning strategies that regularize each other. Extensive experiments show that PromptClass achieves overall better performance than existing strong baselines on four benchmark datasets and even achieves similar performance to fully-supervised classifiers on sentiment classification tasks.
翻訳日:2023-05-24 18:34:40 公開日:2023-05-23
# 事例案内質問応答による対話状態追跡

Continual Dialogue State Tracking via Example-Guided Question Answering ( http://arxiv.org/abs/2305.13721v1 )

ライセンス: Link先を確認
Hyundong Cho, Andrea Madotto, Zhaojiang Lin, Khyathi Raghavi Chandu, Satwik Kottur, Jing Xu, Jonathan May, Chinnadhurai Sankar(参考訳) 対話システムは、新しいサービスに対応するために頻繁に更新されるが、学習済みサービスのパフォーマンスを低下させるため、新しいサービスのデータを継続的にトレーニングすることで、ナビゲート的に更新される。 対話状態追跡(DST)は,会話の進行に伴ってユーザの目標を推定する対話システムにおいて重要な要素であり,単純な自然言語理解タスクであり,サービス間のタスクシフトを最小限に抑えるために,詳細なサンプル誘導質問応答タスクのバンドルとして,それを再構成することを提案する。 提案手法はサービス固有の暗記を緩和し、与えられた質問やサンプルを文脈化して会話から必要な情報を抽出するモデルを教える。 60mのパラメータを持つモデルは、同様の対話状態の変化でターンを識別する訓練を受けたレトリバーが取得したコンテキスト内サンプルから学習することで、大幅な向上を達成できることが分かりました。 提案手法と対話レベルのメモリリプレイを組み合わせることで,複雑な正規化やパラメータ拡張手法を必要とせずに,dst連続学習指標におけるアートパフォーマンスを実現する。

Dialogue systems are frequently updated to accommodate new services, but naively updating them by continually training with data for new services in diminishing performance on previously learnt services. Motivated by the insight that dialogue state tracking (DST), a crucial component of dialogue systems that estimates the user's goal as a conversation proceeds, is a simple natural language understanding task, we propose reformulating it as a bundle of granular example-guided question answering tasks to minimize the task shift between services and thus benefit continual learning. Our approach alleviates service-specific memorization and teaches a model to contextualize the given question and example to extract the necessary information from the conversation. We find that a model with just 60M parameters can achieve a significant boost by learning to learn from in-context examples retrieved by a retriever trained to identify turns with similar dialogue state changes. Combining our method with dialogue-level memory replay, our approach attains state of the art performance on DST continual learning metrics without relying on any complex regularization or parameter expansion methods.
翻訳日:2023-05-24 18:34:13 公開日:2023-05-23
# LogicLLM:大規模言語モデルのための自己教師型論理強化トレーニング

LogicLLM: Exploring Self-supervised Logic-enhanced Training for Large Language Models ( http://arxiv.org/abs/2305.13718v1 )

ライセンス: Link先を確認
Fangkai Jiao, Zhiyang Teng, Shafiq Joty, Bosheng Ding, Aixin Sun, Zhengyuan Liu, Nancy F. Chen(参考訳) 言語モデルの論理的推論能力を改善する努力は、主に教師付き微調整に依存し、新しいドメインやタスクへの一般化を妨げる。 LLM(Large Langauge Models)の開発は、豊富な知識を単一のプロキシに圧縮する能力を示し、複数のタスクに効果的に取り組むことができる。 予備実験では, LLMは論理的推論の能力を示していない。 論理推論ベンチマークにおけるllmsのパフォーマンスは、既存の最先端のベースラインよりもはるかに低い。 本稿では,自己教師付きポストトレーニングを通じて論理知識を組み込むことの実現可能性について検討し,論理LLM(LogicLLM)と呼ぶコンテキスト内学習を通じてそれを活性化する試みを行う。 具体的には、自動回帰客観的なMERItを考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの難解な論理推論ベンチマークの結果は、logicllmの有効性を示している。 さらに,論理指向プロキシタスクの設計における重要な要因を分析するために,広範なアブレーション研究を行う。

Existing efforts to improve logical reasoning ability of language models have predominantly relied on supervised fine-tuning, hindering generalization to new domains and/or tasks. The development of Large Langauge Models (LLMs) has demonstrated the capacity of compressing abundant knowledge into a single proxy, enabling them to tackle multiple tasks effectively. Our preliminary experiments, nevertheless, show that LLMs do not show capability on logical reasoning. The performance of LLMs on logical reasoning benchmarks is far behind the existing state-of-the-art baselines. In this paper, we make the first attempt to investigate the feasibility of incorporating logical knowledge through self-supervised post-training, and activating it via in-context learning, which we termed as LogicLLM. Specifically, we devise an auto-regressive objective variant of MERIt and integrate it with two LLM series, i.e., FLAN-T5 and LLaMA, with parameter size ranging from 3 billion to 13 billion. The results on two challenging logical reasoning benchmarks demonstrate the effectiveness of LogicLLM. Besides, we conduct extensive ablation studies to analyze the key factors in designing logic-oriented proxy tasks.
翻訳日:2023-05-24 18:33:52 公開日:2023-05-23
# Mixup-Privacy:プライバシー保護セグメンテーションのためのシンプルで効果的なアプローチ

Mixup-Privacy: A simple yet effective approach for privacy-preserving segmentation ( http://arxiv.org/abs/2305.13756v1 )

ライセンス: Link先を確認
Bach Kim, Jose Dolz, Pierre-Marc Jodoin, Christian Desrosiers(参考訳) 医療データのプライバシー保護は、集中型機械学習アプリケーションにとって正当な障害である。 本稿では,患者プライバシを保ちながらマルチ中心医療画像の分析を可能にするクライアントサーバイメージセグメンテーションシステムを提案する。 このアプローチでは、クライアントは、参照画像と混合することにより、患者イメージを保護します。 我々の研究で示されているように、画像の混在を正確なオリジナルコンテンツと区別することは困難であり、不許可な人にはデータが動作不能で認識不能になる。 このプロキシイメージは処理のためにサーバに送られる。 サーバはセグメンテーションマップの混合物を返却し、クライアントは正しいターゲットセグメンテーションに戻すことができる。 システムには2つの要素があります 1)画像混合を処理するサーバ側のセグメンテーションネットワーク 2)セグメント化未混合ネットワークは、セグメント化混合物から正しいセグメント化マップを復元する。 さらに、システム全体をエンドツーエンドでトレーニングする。 提案手法は, 2つの異なるデータセットから得られた画像を用いて, mri脳分割のタスクで検証する。 その結果,本手法のセグメンテーション精度は生画像で学習したシステムと同等であり,計算オーバーヘッドの少ない他のプライバシ保存手法よりも優れていることがわかった。

Privacy protection in medical data is a legitimate obstacle for centralized machine learning applications. Here, we propose a client-server image segmentation system which allows for the analysis of multi-centric medical images while preserving patient privacy. In this approach, the client protects the to-be-segmented patient image by mixing it to a reference image. As shown in our work, it is challenging to separate the image mixture to exact original content, thus making the data unworkable and unrecognizable for an unauthorized person. This proxy image is sent to a server for processing. The server then returns the mixture of segmentation maps, which the client can revert to a correct target segmentation. Our system has two components: 1) a segmentation network on the server side which processes the image mixture, and 2) a segmentation unmixing network which recovers the correct segmentation map from the segmentation mixture. Furthermore, the whole system is trained end-to-end. The proposed method is validated on the task of MRI brain segmentation using images from two different datasets. Results show that the segmentation accuracy of our method is comparable to a system trained on raw images, and outperforms other privacy-preserving methods with little computational overhead.
翻訳日:2023-05-24 18:25:48 公開日:2023-05-23
# マクロレベルの談話解析のためのトピック駆動遠隔監視フレームワーク

Topic-driven Distant Supervision Framework for Macro-level Discourse Parsing ( http://arxiv.org/abs/2305.13755v1 )

ライセンス: Link先を確認
Feng Jiang, Longwang He, Peifeng Li, Qiaoming Zhu, Haizhou Li(参考訳) テキストの内部修辞構造を解析するタスクである談話構文解析は、自然言語処理において難しい問題である。 近年の神経モデルの進歩にもかかわらず、大規模で高品質なトレーニング用コーパスの欠如は依然として大きな障害となっている。 最近の研究では、他のnlpタスク(感情極性、注意行列、セグメンテーション確率など)の結果を利用して談話木を解析することにより、この制限を克服しようと試みている。 しかし、これらの手法はドメイン内タスクとドメイン外タスクの違いを考慮していないため、パフォーマンスが低下し、ドメイン内データの品質が向上しない。 これらの課題に対処するために,トピック構造と修辞構造の関係を利用した遠隔監視フレームワークを提案する。 具体的には,ラベルマッピングとoracleのアノテーションによってドメイン内タスクとドメイン外タスクのギャップを狭める,転送学習と教師・学生モデルに基づく2つの遠隔指導手法を提案する。 MCDTB と RST-DT のデータセットを用いた実験結果から,本手法は遠隔教師付きシナリオと教師付きシナリオの両方において最高の性能を発揮することが示された。

Discourse parsing, the task of analyzing the internal rhetorical structure of texts, is a challenging problem in natural language processing. Despite the recent advances in neural models, the lack of large-scale, high-quality corpora for training remains a major obstacle. Recent studies have attempted to overcome this limitation by using distant supervision, which utilizes results from other NLP tasks (e.g., sentiment polarity, attention matrix, and segmentation probability) to parse discourse trees. However, these methods do not take into account the differences between in-domain and out-of-domain tasks, resulting in lower performance and inability to leverage the high-quality in-domain data for further improvement. To address these issues, we propose a distant supervision framework that leverages the relations between topic structure and rhetorical structure. Specifically, we propose two distantly supervised methods, based on transfer learning and the teacher-student model, that narrow the gap between in-domain and out-of-domain tasks through label mapping and oracle annotation. Experimental results on the MCDTB and RST-DT datasets show that our methods achieve the best performance in both distant-supervised and supervised scenarios.
翻訳日:2023-05-24 18:25:27 公開日:2023-05-23
# ターゲットをソースにプルする: ドメイン適応セマンティックセマンティックセグメンテーションの新しい視点

Pulling Target to Source: A New Perspective on Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2305.13752v1 )

ライセンス: Link先を確認
Haochen Wang and Yujun Shen and Jingjing Fei and Wei Li and Liwei Wu and Yuxi Wang and Zhaoxiang Zhang(参考訳) ドメイン適応セマンティックセグメンテーションは、ラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としている。 しかし,既存の手法は主に,対象とする特徴を直接学習することに集中しており,対象ラベルの欠如による識別の保証が困難である。 この作品は新しい視点を与える。 ソースデータで学習された機能は、トレーニング中も分類学的に識別できるため、各カテゴリのソース機能に近いターゲット機能を単に \textbf{pulling target features" するだけで、適切なターゲット表現を暗黙的に学習することができる。 この目的のために我々はT2S-DAを提案し、T2S-DAはドメイン適応のためのソースにターゲットを引っ張る形式であり、同様のクロスドメイン機能を学ぶモデルを促進する。 また、ピクセルカテゴリはセグメンテーションデータセットに対して非常に不均衡であるので、モデルがそれらの性能の低いクラスに集中するのに役立つ動的な再重み付け戦略を思いついた。 広範な実験により、T2S-DAはより差別的で一般化可能な表現を学び、最先端の状態をはるかに上回っていることが確認された。 さらに,本手法はドメイン一般化タスクに適しており,そのドメイン不変性を検証する。

Domain adaptive semantic segmentation aims to transfer knowledge from a labeled source domain to an unlabeled target domain. However, existing methods primarily focus on directly learning qualified target features, making it challenging to guarantee their discrimination in the absence of target labels. This work provides a new perspective. We observe that the features learned with source data manage to keep categorically discriminative during training, thereby enabling us to implicitly learn adequate target representations by simply \textbf{pulling target features close to source features for each category}. To this end, we propose T2S-DA, which we interpret as a form of pulling Target to Source for Domain Adaptation, encouraging the model in learning similar cross-domain features. Also, considering the pixel categories are heavily imbalanced for segmentation datasets, we come up with a dynamic re-weighting strategy to help the model concentrate on those underperforming classes. Extensive experiments confirm that T2S-DA learns a more discriminative and generalizable representation, significantly surpassing the state-of-the-art. We further show that our method is quite qualified for the domain generalization task, verifying its domain-invariant property.
翻訳日:2023-05-24 18:25:07 公開日:2023-05-23
# 文脈認識ニューラルマシン翻訳の課題

Challenges in Context-Aware Neural Machine Translation ( http://arxiv.org/abs/2305.13751v1 )

ライセンス: Link先を確認
Linghao Jin, Jacqueline He, Jonathan May, Xuezhe Ma(参考訳) 文脈認識型ニューラルマシン翻訳は、文レベルのコンテキストを超えた情報を活用して、文間会話の依存関係を解決し、文書レベルの翻訳品質を改善する。 しかし、よく理解された直感にもかかわらず、ほとんどの文脈対応翻訳モデルは、文レベルシステムよりもわずかに改善されている。 本研究では,談話現象,文脈利用,モデルアーキテクチャ,文書レベルの評価など,この分野の進展を妨げるいくつかの課題について検討する。 これらの問題に対処するために,パラパラグラフ(パラパラグラフ)翻訳という,より現実的な文書レベルの翻訳環境を提案し,今後の研究を促進するために,漢文小説の新しいデータセットを収集する。

Context-aware neural machine translation involves leveraging information beyond sentence-level context to resolve inter-sentential discourse dependencies and improve document-level translation quality, and has given rise to a number of recent techniques. However, despite well-reasoned intuitions, most context-aware translation models show only modest improvements over sentence-level systems. In this work, we investigate several challenges that impede progress within this field, relating to discourse phenomena, context usage, model architectures, and document-level evaluation. To address these problems, we propose a more realistic setting for document-level translation, called paragraph-to-paragraph (para2para) translation, and collect a new dataset of Chinese-English novels to promote future research.
翻訳日:2023-05-24 18:24:44 公開日:2023-05-23
# 位相整形によるチューニング原子-磁場相互作用

Tuning atom-field interaction via phase shaping ( http://arxiv.org/abs/2305.13750v1 )

ライセンス: Link先を確認
Y.-T. Cheng, C.-H. Chien, K.-M. Hsieh, Y.-H. Huang, P. Y. Wen, W.-J. Lin, Y. Lu, F. Aziz, C.-P. Lee, K.-T. Lin, C.-Y. Chen, J. C. Chen, C.-S. Chuu, A. F. Kockum, G.-D. Lin, Y.-H. Lin, and I.-C. Hoi(参考訳) コヒーレント電磁場はその振幅、周波数、位相によって記述することができる。 これらの性質は、場と原子の間の相互作用に影響を与える。 ここでは、半無限の1次元伝送線における超伝導人工原子にロードされるマイクロ波の位相整形を、鏡の前の原子に対応する構成で示す。 特に、原子ミラー系に位相変調を施した弱い指数的に上昇するパルスを入力する。 我々は、場-原子間相互作用が、ほぼ完全な相互作用(負荷効率、すなわち、場から原子へ転送されるエネルギーの量、94.5 %)から効果的に相互作用(負荷効率3.5 %)に調整可能であることを観察した。

A coherent electromagnetic field can be described by its amplitude, frequency, and phase. All these properties can influence the interaction between the field and an atom. Here we demonstrate the phase shaping of microwaves that are loaded onto a superconducting artificial atom in a semiinfinite 1D transmission line, a setup corresponding to an atom in front of a mirror. In particular, we input a weak exponentially rising pulse with phase modulation to the atom-mirror system. We observe that field-atom interaction can be tuned from nearly full interaction (loading efficiency, i.e., amount of energy transferred from the field to the atom, of 94.5 %) to effectively no interaction (loading efficiency 3.5 %).
翻訳日:2023-05-24 18:24:30 公開日:2023-05-23
# 言語記述による目標駆動型説明可能なクラスタリング

Goal-Driven Explainable Clustering via Language Descriptions ( http://arxiv.org/abs/2305.13749v1 )

ライセンス: Link先を確認
Zihan Wang, Jingbo Shang, Ruiqi Zhong(参考訳) 教師なしクラスタリングは大規模なコーパスの探索に広く用いられているが、既存の定式化ではユーザの目標やクラスタの意味の説明は考慮されていない。 目的と説明の両方を自由形式の言語記述として表現する,新たなタスク定式化 "Goal-Driven Clustering with Explanations" (GoalEx) を提案する。 For example, to categorize the errors made by a summarization system, the input to GoalEx is a corpus of annotator-written comments for system-generated summaries and a goal description "cluster the comments based on why the annotators think the summary is imperfect.''; the outputs are text clusters each with an explanation ("this cluster mentions that the summary misses important context information."), which relates to the goal and precisely explain which comments should (not) belong to a cluster. To tackle GoalEx, we prompt a language model with "[corpus subset] + [goal] + Brainstorm a list of explanations each representing a cluster. そして、各サンプルがその説明に基づいてクラスタに属しているかどうかを分類し、最後に整数線形プログラミングを使用して、ほとんどのサンプルをカバーするために候補クラスタのサブセットを選択し、重複を最小限に抑える。 GoalExを階層的に応用して、よりきめ細かなクラスタのツリーを生成し、議論や顧客の苦情、モデルエラーを分類する。 データと実装はhttps://github.com/ZihanWangKi/GoalExで公開しています。

Unsupervised clustering is widely used to explore large corpora, but existing formulations neither consider the users' goals nor explain clusters' meanings. We propose a new task formulation, "Goal-Driven Clustering with Explanations" (GoalEx), which represents both the goal and the explanations as free-form language descriptions. For example, to categorize the errors made by a summarization system, the input to GoalEx is a corpus of annotator-written comments for system-generated summaries and a goal description "cluster the comments based on why the annotators think the summary is imperfect.''; the outputs are text clusters each with an explanation ("this cluster mentions that the summary misses important context information."), which relates to the goal and precisely explain which comments should (not) belong to a cluster. To tackle GoalEx, we prompt a language model with "[corpus subset] + [goal] + Brainstorm a list of explanations each representing a cluster."; then we classify whether each sample belongs to a cluster based on its explanation; finally, we use integer linear programming to select a subset of candidate clusters to cover most samples while minimizing overlaps. We apply GoalEx hierarchically to produce trees of progressively finer-grained clusters, inducing taxonomies over debate arguments, customer complaints, and model errors. We release our data and implementation at https://github.com/ZihanWangKi/GoalEx.
翻訳日:2023-05-24 18:24:18 公開日:2023-05-23
# オンポリシー強化学習によるオークション型レコメンダシステムの長期的価値最適化

Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning ( http://arxiv.org/abs/2305.13747v1 )

ライセンス: Link先を確認
Ruiyang Xu, Jalaj Bhandari, Dmytro Korenkevych, Fan Liu, Yuchen He, Alex Nikulkov, Zheqing Zhu(参考訳) オークションベースのレコメンデーターシステムはオンライン広告プラットフォームで一般的であるが、通常、ユーザの行動に対するレコメンデーションの下流効果を無視して、すぐに期待されるリターン指標に基づいてレコメンデーションスロットを割り当てるように最適化されている。 本研究では,オークションベースのレコメンデーションシステムにおいて,長期リターン指標の最適化に強化学習を用いる。 基本強化学習アルゴリズムである時間差学習を用いて,長期ユーザエンゲージメント指標の高いレコメンデーションに向けてシステムをバイアスする1段階のポリシー改善手法を実装した。 これはオークションフレームワークとの互換性を維持しながら、長期にわたって価値を最適化する。 提案手法は,提案手法が既存のオークションベースポリシーを有効に改善することを示す動的プログラミングの考え方に基づいている。 オークションベースのレコメンデーションシステムで実施したオンラインA/Bテストを通じて,提案手法がユーザエンゲージメントの長期指標において,現在の生産システムより優れていることを実証的に証明した。

Auction-based recommender systems are prevalent in online advertising platforms, but they are typically optimized to allocate recommendation slots based on immediate expected return metrics, neglecting the downstream effects of recommendations on user behavior. In this study, we employ reinforcement learning to optimize for long-term return metrics in an auction-based recommender system. Utilizing temporal difference learning, a fundamental reinforcement learning algorithm, we implement an one-step policy improvement approach that biases the system towards recommendations with higher long-term user engagement metrics. This optimizes value over long horizons while maintaining compatibility with the auction framework. Our approach is grounded in dynamic programming ideas which show that our method provably improves upon the existing auction-based base policy. Through an online A/B test conducted on an auction-based recommender system which handles billions of impressions and users daily, we empirically establish that our proposed method outperforms the current production system in terms of long-term user engagement metrics.
翻訳日:2023-05-24 18:23:55 公開日:2023-05-23
# 6tb/s (60*100gb/s) dwdmおよびqkdチャネルの50km標準シングルモードファイバ上での17dbm集約wdm電力の共伝播

Co-propagation of 6 Tb/s (60*100Gb/s) DWDM & QKD channels with ~17 dBm aggregated WDM power over 50 km standard single mode fiber ( http://arxiv.org/abs/2305.13742v1 )

ライセンス: Link先を確認
P. Gavignet, F. Mondain, E. Pincemin, A. J. Grant, L. Johnson, R. I. Woodward, J. F. Dynes, A. J. Shields(参考訳) 我々は,DWDMデータ通信路(1550nm範囲)の合計電力が17dBmであるQKD系の量子チャネル(1310nm)の50km以上のSSMFの共伝播を報告する。 共伝播効率を評価する指標を提案する。

We report the co-propagation, over 50 km of SSMF, of the quantum channel (1310 nm) of a QKD system with ~17 dBm total power of DWDM data channels (1550 nm range). A metric to evaluate Co-propagation Efficiency is proposed.
翻訳日:2023-05-24 18:23:35 公開日:2023-05-23
# L-SA:マルチターゲット強化学習における探索対象の学習

L-SA: Learning Under-Explored Targets in Multi-Target Reinforcement Learning ( http://arxiv.org/abs/2305.13741v1 )

ライセンス: Link先を確認
Kibeom Kim, Hyundo Lee, Min Whoo Lee, Moonheon Lee, Minsu Lee, Byoung-Tak Zhang(参考訳) 様々なターゲットとのインタラクションを含むタスクはマルチターゲットタスクと呼ばれる。 このようなタスクに一般的な強化学習アプローチを適用する場合、アクセスや対話が難しい特定のターゲットは、トレーニングの過程で無視される可能性がある。 この問題に対処するため,適応サンプリングとアクティブクエリを含むL-SA(Adaptive Sampling and Active querying)フレームワークを提案する。 l-saフレームワークでは、適応サンプリングは、高い割合で最も高い成功率で動的にターゲットをサンプリングし、易度から硬度への学習に繋がる。 アクティブクエリにより、エージェントはより経験や探索を必要とする未探索のターゲットとより頻繁に対話できるようになる。 視覚的ナビゲーションタスクに関する実験結果から,l-saフレームワークはサンプル効率の向上と,utpを用いた多目的タスクの成功率を示した。 また, 適応サンプリングとアクティブクエリの循環的関係は, 探索対象の標本豊かさを効果的に改善し, UTPを緩和することを示した。

Tasks that involve interaction with various targets are called multi-target tasks. When applying general reinforcement learning approaches for such tasks, certain targets that are difficult to access or interact with may be neglected throughout the course of training - a predicament we call Under-explored Target Problem (UTP). To address this problem, we propose L-SA (Learning by adaptive Sampling and Active querying) framework that includes adaptive sampling and active querying. In the L-SA framework, adaptive sampling dynamically samples targets with the highest increase of success rates at a high proportion, resulting in curricular learning from easy to hard targets. Active querying prompts the agent to interact more frequently with under-explored targets that need more experience or exploration. Our experimental results on visual navigation tasks show that the L-SA framework improves sample efficiency as well as success rates on various multi-target tasks with UTP. Also, it is experimentally demonstrated that the cyclic relationship between adaptive sampling and active querying effectively improves the sample richness of under-explored targets and alleviates UTP.
翻訳日:2023-05-24 18:23:23 公開日:2023-05-23
# TeCS: 機械翻訳のテンス一貫性のためのデータセットとベンチマーク

TeCS: A Dataset and Benchmark for Tense Consistency of Machine Translation ( http://arxiv.org/abs/2305.13740v1 )

ライセンス: Link先を確認
Yiming Ai, Zhiwei He, Kai Yu, Rui Wang(参考訳) テンスの不整合はしばしば機械翻訳で起こる。 しかし、言語学的観点から、モデルの時制予測の熟達を評価するための基準は少ない。 本稿では,フランス語の552発話を含む並列時制テストセットを提案する。 また、対応するベンチマーク、テンス予測精度も導入する。 テンステストセットとベンチマークによって、研究者は初めて機械翻訳システムのテンス一貫性のパフォーマンスを測定することができる。

Tense inconsistency frequently occurs in machine translation. However, there are few criteria to assess the model's mastery of tense prediction from a linguistic perspective. In this paper, we present a parallel tense test set, containing French-English 552 utterances. We also introduce a corresponding benchmark, tense prediction accuracy. With the tense test set and the benchmark, researchers are able to measure the tense consistency performance of machine translation systems for the first time.
翻訳日:2023-05-24 18:23:07 公開日:2023-05-23
# 量子強化重力波観測装置のための機械学習

Machine Learning for Quantum-Enhanced Gravitational-Wave Observatories ( http://arxiv.org/abs/2305.13780v1 )

ライセンス: Link先を確認
Chris Whittle, Ge Yang, Matthew Evans, Lisa Barsotti(参考訳) 機械学習は、大規模な物理実験によって生成された広範なデータセットを処理する効果的なツールとなっている。 重力波検出器は、スクイズド真空状態の注入によって、量子エンハンスド感度で宇宙を聴いている。 スクイーズ状態の調製と注入は操作的に複雑であり、環境変動や干渉計の状態の変化に非常に敏感である。 最適なスクイーズレベルを達成・維持することは困難な問題であり、将来の観測と次世代検出器のための設計目標によって設定された高い目標に到達するために、新しい技術の開発が必要である。 補助データストリームに基づくligo(laser interferometer gravitational wave observatory)の第3観測動作中のスクイーズレベルを予測するために機械学習技術を用いて,本モデルの解釈を行い,スクイーズ劣化源の同定と定量化を行う。 これらの技術の開発は、重力波検出器における圧縮状態注入を最適化するための将来の取り組みの基盤となり、機械学習に基づくエージェントによるスクイーサーサブシステムのクローズループ制御を可能にすることを目的としている。

Machine learning has become an effective tool for processing the extensive data sets produced by large physics experiments. Gravitational-wave detectors are now listening to the universe with quantum-enhanced sensitivity, accomplished with the injection of squeezed vacuum states. Squeezed state preparation and injection is operationally complicated, as well as highly sensitive to environmental fluctuations and variations in the interferometer state. Achieving and maintaining optimal squeezing levels is a challenging problem and will require development of new techniques to reach the lofty targets set by design goals for future observing runs and next-generation detectors. We use machine learning techniques to predict the squeezing level during the third observing run of the Laser Interferometer Gravitational-Wave Observatory (LIGO) based on auxiliary data streams, and offer interpretations of our models to identify and quantify salient sources of squeezing degradation. The development of these techniques lays the groundwork for future efforts to optimize squeezed state injection in gravitational-wave detectors, with the goal of enabling closed-loop control of the squeezer subsystem by an agent based on machine learning.
翻訳日:2023-05-24 18:17:23 公開日:2023-05-23
# 全分解能反復計数

Full Resolution Repetition Counting ( http://arxiv.org/abs/2305.13778v1 )

ライセンス: Link先を確認
Jianing Li and Bowen Chen and Zhiyong Wang and Honghai Liu(参考訳) 繰り返しアクションのカウントは、クラスに依存しないアクションの繰り返しの数を見積もることを目的としている。 ビデオの様々な長さと繰り返し動作を扱うために、エンドツーエンドのビデオモデルトレーニングにおける最適化の課題として、ダウンサンプリングは最近の最先端の手法で一般的に利用されており、複数の繰り返しサンプルを無視している。 本稿では,オフライン特徴抽出と時間畳み込みネットワークを組み合わせることで,全時間分解視点から繰り返し動作を理解することを試みる。 前回のステップでは,ビデオの長さや動作周波数に関わらず,すべての繰り返しを保存しながら,ダウンサンプリングすることなく繰り返しカウントネットワークをトレーニングすることが可能であり,後段のネットワークでは,全フレームを柔軟かつ動的に拡張した時間的受容野でモデル化し,全繰り返しをグローバルに取得できる。 提案手法は,TransRAC,UCFRep,QUVAの3つの公開データセットにおいて,より優れた,あるいは同等のパフォーマンスが得られることを示す。 この作業がコミュニティに、完全な時間的解決の重要性について考えさせることを期待しています。

Given an untrimmed video, repetitive actions counting aims to estimate the number of repetitions of class-agnostic actions. To handle the various length of videos and repetitive actions, also optimization challenges in end-to-end video model training, down-sampling is commonly utilized in recent state-of-the-art methods, leading to ignorance of several repetitive samples. In this paper, we attempt to understand repetitive actions from a full temporal resolution view, by combining offline feature extraction and temporal convolution networks. The former step enables us to train repetition counting network without down-sampling while preserving all repetition regardless of the video length and action frequency, and the later network models all frames in a flexible and dynamically expanding temporal receptive field to retrieve all repetitions with a global aspect. We experimentally demonstrate that our method achieves better or comparable performance in three public datasets, i.e., TransRAC, UCFRep and QUVA. We expect this work will encourage our community to think about the importance of full temporal resolution.
翻訳日:2023-05-24 18:17:04 公開日:2023-05-23
# VisorGPT: 生成的事前学習による視覚的優先学習

VisorGPT: Learning Visual Prior via Generative Pre-Training ( http://arxiv.org/abs/2305.13777v1 )

ライセンス: Link先を確認
Jinheng Xie, Kai Ye, Yudong Li, Yuexiang Li, Kevin Qinghong Lin, Yefeng Zheng, Linlin Shen, Mike Zheng Shou(参考訳) 視覚データ内の様々な物や物は、ディープニューラルネットワークによって学習できる特定の特徴を持ち、モデル内のオブジェクトの位置や形状など、視覚的に先行するものとして暗黙的に表現される。 このような事前処理は多くの視覚タスクに影響を与える可能性がある。 例えば、条件付き画像合成では、事前に固執しない空間条件は、視覚的に不正確な合成結果をもたらす。 この作業は、視覚的事前学習とサンプリングのカスタマイズを可能にすることを目的としている。 言語モデリングの進歩に触発されて、私たちはVisorGPTと呼ばれるジェネレーティブ・プレトレーニングを通してビジュアル・プレトレーニングを学ぶことを提案する。 例えば、バウンディングボックス、人間のポーズ、インスタンスマスクなど、オブジェクトの視覚的な位置をシーケンスに識別することで、最大化によるモデルの事前設定が可能になる。 さらに、様々な視覚的位置を統一し、学習前の逐次的な出力のサンプリングをカスタマイズできるようにする。 実験の結果,制御ネットのような条件付き画像合成モデルに対して,正確な人間のポーズをカスタマイズするなど,視覚的なタスクの多くに使用できる視覚的事前を効果的にモデル化できることが示されている。 コードはhttps://github.com/Sierkinhane/VisorGPTでリリースされる。

Various stuff and things in visual data possess specific traits, which can be learned by deep neural networks and are implicitly represented as the visual prior, \emph{e.g.,} object location and shape, in the model. Such prior potentially impacts many vision tasks. For example, in conditional image synthesis, spatial conditions failing to adhere to the prior can result in visually inaccurate synthetic results. This work aims to explicitly learn the visual prior and enable the customization of sampling. Inspired by advances in language modeling, we propose to learn Visual prior via Generative Pre-Training, dubbed VisorGPT. By discretizing visual locations of objects, \emph{e.g.,} bounding boxes, human pose, and instance masks, into sequences, \our~can model visual prior through likelihood maximization. Besides, prompt engineering is investigated to unify various visual locations and enable customized sampling of sequential outputs from the learned prior. Experimental results demonstrate that \our~can effectively model the visual prior, which can be employed for many vision tasks, such as customizing accurate human pose for conditional image synthesis models like ControlNet. Code will be released at https://github.com/Sierkinhane/VisorGPT.
翻訳日:2023-05-24 18:16:43 公開日:2023-05-23
# 袖をふさぎなさい! インテント分布学習と永続融合によるインテントコンディション音声生成

Counterspeeches up my sleeve! Intent Distribution Learning and Persistent Fusion for Intent-Conditioned Counterspeech Generation ( http://arxiv.org/abs/2305.13776v1 )

ライセンス: Link先を確認
Rishabh Gupta, Shaily Desai, Manvi Goel, Anil Bandhakavi, Tanmoy Chakraborty and Md. Shad Akhtar(参考訳) counterspeechはヘイトスピーチと戦うための効果的なアプローチであることが示されている。 様々な伝統的かつ制御されたアプローチが近年研究されているが、あらゆるシナリオにおいて特定の意図を持ったカウンタースパイクは不十分かもしれない。 ヘイトスピーチの複雑で多面的な性質のため、異なる状況下で異なる意図を持つ複数の形態の反ナラティブを利用するのが有利である。 本稿では,意図条件付き対音声生成について検討する。 IntentCONANは、6831のカウンタースピーチを5つのインテント(情報、名詞、質問、肯定、ユーモア)で条件付けした、多種多様な意図特異的なカウンタースピーチデータセットである。 次に,意図条件付き音声生成のための2段階フレームワークであるQUARCを提案する。 QUIRCは、インテント固有の情報をモデルに組み込む新しい融合モジュールであるPerFuMeとともに、各インテントカテゴリで学んだベクトル量子化表現を利用する。 評価結果から, quRC は評価指標全体で平均10% 以上の性能を示した。 人的評価は、比較システムよりも優れた適切な応答の仮説を補う。

Counterspeech has been demonstrated to be an efficacious approach for combating hate speech. While various conventional and controlled approaches have been studied in recent years to generate counterspeech, a counterspeech with a certain intent may not be sufficient in every scenario. Due to the complex and multifaceted nature of hate speech, utilizing multiple forms of counter-narratives with varying intents may be advantageous in different circumstances. In this paper, we explore intent-conditioned counterspeech generation. At first, we develop IntentCONAN, a diversified intent-specific counterspeech dataset with 6831 counterspeeches conditioned on five intents, i.e., informative, denouncing, question, positive, and humour. Subsequently, we propose QUARC, a two-stage framework for intent-conditioned counterspeech generation. QUARC leverages vector-quantized representations learned for each intent category along with PerFuMe, a novel fusion module to incorporate intent-specific information into the model. Our evaluation demonstrates that QUARC outperforms several baselines by an average of 10% across evaluation metrics. An extensive human evaluation supplements our hypothesis of better and more appropriate responses than comparative systems.
翻訳日:2023-05-24 18:16:21 公開日:2023-05-23
# 概念認識トレーニングによる言語モデルのコンテキスト内学習能力の向上

Concept-aware Training Improves In-context Learning Ability of Language Models ( http://arxiv.org/abs/2305.13775v1 )

ライセンス: Link先を確認
Michal \v{S}tef\'anik and Marek Kadl\v{c}\'ik(参考訳) トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、自然言語入力に記述されたタスクによってそれらの機能を修飾するLMの能力において、いわゆるインコンテキスト学習(ICL)能力を示す。 これらのモデルをキュレートする以前の作業では、iclは超過パラメータ化やマルチタスクトレーニングの規模から生じると仮定している。 しかし、最近の理論研究の相補的な分野は、トレーニングデータの特定の特性にiclが出現し、小規模で合成的な設定で機能的インコンテキスト学習者を作成する。 ICLの出現を駆動するデータ特性に関する最近の知見に触発されて,ILCが類似の推論概念を捉えるのに有用である訓練シナリオを構築することにより,文脈内情報をよりよく活用できるLMを作成する方法を提案する。 概念認識トレーニング(CoAT)のデータサンプリングはモデルの推論能力を継続的に改善する。 その結果、1つの(QA)タスクの2つのデータセットでCoATでトレーニングされたコンテキスト内学習者は、1600以上のタスクでトレーニングされたより大きなモデルと互換性がある。

Many recent language models (LMs) of Transformers family exhibit so-called in-context learning (ICL) ability, manifested in the LMs' ability to modulate their function by a task described in a natural language input. Previous work curating these models assumes that ICL emerges from vast over-parametrization or the scale of multi-task training. However, a complementary branch of recent theoretical work attributes ICL emergence to specific properties of training data and creates functional in-context learners in small-scale, synthetic settings. Inspired by recent findings on data properties driving the emergence of ICL, we propose a method to create LMs able to better utilize the in-context information, by constructing training scenarios where it is beneficial for the LM to capture the analogical reasoning concepts. We measure that data sampling of Concept-aware Training (CoAT) consistently improves models' reasoning ability. As a result, the in-context learners trained with CoAT on only two datasets of a single (QA) task perform comparably to larger models trained on 1600+ tasks.
翻訳日:2023-05-24 18:15:59 公開日:2023-05-23
# 拡散モデルによるキーフレーム協調によるテキスト駆動動作合成の理解

Understanding Text-driven Motion Synthesis with Keyframe Collaboration via Diffusion Models ( http://arxiv.org/abs/2305.13773v1 )

ライセンス: Link先を確認
Dong Wei, Xiaoning Sun, Huaijiang Sun, Bin Li, Shengxiang Hu, Weiqing Li, Jianfeng Lu(参考訳) テキスト駆動のモーション合成技術の出現は、アニメーターに効率的に生成する大きな可能性を与える。 しかし、多くの場合、テキスト表現は一般的な動き記述と質的な動きしか含まないが、微妙な描写と十分な強度が欠如しており、合成された動きのどちらかに繋がる。 (a)意味的に適合するが、特定のポーズの詳細について制御できない、または (b)提供された記述から逸脱し、望ましくない事例をアニメーターに持ち込む。 本稿では,鍵フレームを用いたテキスト駆動動作合成のための条件拡散モデルDiffKFCを提案する。 平易なテキスト駆動設計とは異なり、テキスト、キーフレーム、その他の拡散フレーム間の完全な相互作用は訓練時に行われ、効率的で協調的な二重レベル制御の下で現実的な生成を可能にする。 具体的にはDilated Mask Attentionモジュールをカスタマイズし、拡張鍵フレームマスクで示される部分有効なトークンのみを局所的・言語的注意に限定する。 ユーザの柔軟性のために、DiffKFCはきめ細かいキーフレーム制御の重要性の調整をサポートする。 実験結果から,HumanML3DとKITのテキスト・トゥ・モーション・データセット上での最先端性能が得られた。

The emergence of text-driven motion synthesis technique provides animators with great potential to create efficiently. However, in most cases, textual expressions only contain general and qualitative motion descriptions, while lack fine depiction and sufficient intensity, leading to the synthesized motions that either (a) semantically compliant but uncontrollable over specific pose details, or (b) even deviates from the provided descriptions, bringing animators with undesired cases. In this paper, we propose DiffKFC, a conditional diffusion model for text-driven motion synthesis with keyframes collaborated. Different from plain text-driven designs, full interaction among texts, keyframes and the rest diffused frames are conducted at training, enabling realistic generation under efficient, collaborative dual-level control: coarse guidance at semantic level, with only few keyframes for direct and fine-grained depiction down to body posture level, to satisfy animator requirements without tedious labor. Specifically, we customize efficient Dilated Mask Attention modules, where only partial valid tokens participate in local-to-global attention, indicated by the dilated keyframe mask. For user flexibility, DiffKFC supports adjustment on importance of fine-grained keyframe control. Experimental results show that our model achieves state-of-the-art performance on text-to-motion datasets HumanML3D and KIT.
翻訳日:2023-05-24 18:15:39 公開日:2023-05-23
# 夜間フレア除去に関するmipi 2023チャレンジ : 方法と結果

MIPI 2023 Challenge on Nighttime Flare Removal: Methods and Results ( http://arxiv.org/abs/2305.13770v1 )

ライセンス: Link先を確認
Yuekun Dai, Chongyi Li, Shangchen Zhou, Ruicheng Feng, Qingpeng Zhu, Qianhui Sun, Wenxiu Sun, Chen Change Loy, Jinwei Gu(参考訳) カメラシステムにおける新しいアルゴリズムによる高度な画像センサの開発と統合は、モバイルプラットフォームでの計算写真や画像の需要の増加とともに普及している。 しかし、研究のための高品質なデータがないことと、産業や学界からの視点を深く交換する稀な機会が、モバイル・インテリジェント・フォトグラフィー・イメージング(MIPI)の開発を妨げている。 第1回MIPIワークショップ@ECCV 2022の成功により、新しい画像センサと画像アルゴリズムに焦点を当てた4つのトラックを含む第2回MIPIチャレンジを紹介した。 本稿では,MIPI 2023のナイトタイムフレア除去トラックについて概説する。 合計で120人の参加者が登録に成功し、11チームが最終テストフェーズの結果を提出した。 この課題で開発されたソリューションは、夜間フレア除去における最先端のパフォーマンスを達成した。 本論文では,本課題で開発された全モデルについて詳述する。 この課題の詳細とデータセットへのリンクはhttps://mipi-challenge.org/MIPI2023/ で確認できる。

Developing and integrating advanced image sensors with novel algorithms in camera systems are prevalent with the increasing demand for computational photography and imaging on mobile platforms. However, the lack of high-quality data for research and the rare opportunity for in-depth exchange of views from industry and academia constrain the development of mobile intelligent photography and imaging (MIPI). With the success of the 1st MIPI Workshop@ECCV 2022, we introduce the second MIPI challenge including four tracks focusing on novel image sensors and imaging algorithms. In this paper, we summarize and review the Nighttime Flare Removal track on MIPI 2023. In total, 120 participants were successfully registered, and 11 teams submitted results in the final testing phase. The developed solutions in this challenge achieved state-of-the-art performance on Nighttime Flare Removal. A detailed description of all models developed in this challenge is provided in this paper. More details of this challenge and the link to the dataset can be found at https://mipi-challenge.org/MIPI2023/ .
翻訳日:2023-05-24 18:15:18 公開日:2023-05-23
# 反復アルゴリズムの一段階微分

One-step differentiation of iterative algorithms ( http://arxiv.org/abs/2305.13768v1 )

ライセンス: Link先を確認
J\'er\^ome Bolte, Edouard Pauwels, Samuel Vaiter(参考訳) 適切なフレームワークでは、操作数が大きければ計算量を大幅に負担するコストがかかるため、自動微分はユーザに透過的である。 反復アルゴリズムでは、暗黙の微分がこの問題を緩和するが、ジャコビアン評価のカスタム実装が必要である。 本稿では,高速アルゴリズム(超線形最適化法など)における一段階微分,すなわちジャコビアンフリーバックプロパゲーション,自動微分と同様に容易で,暗黙的微分としての性能について検討する。 両レベル最適化の結果とともに,特定の例(ニュートン法,勾配降下法)を用いた完全理論近似解析を行う。 いくつかの数値的な例は、ワンステップ推定器の確立性を示している。

In appropriate frameworks, automatic differentiation is transparent to the user at the cost of being a significant computational burden when the number of operations is large. For iterative algorithms, implicit differentiation alleviates this issue but requires custom implementation of Jacobian evaluation. In this paper, we study one-step differentiation, also known as Jacobian-free backpropagation, a method as easy as automatic differentiation and as performant as implicit differentiation for fast algorithms (e.g., superlinear optimization methods). We provide a complete theoretical approximation analysis with specific examples (Newton's method, gradient descent) along with its consequences in bilevel optimization. Several numerical examples illustrate the well-foundness of the one-step estimator.
翻訳日:2023-05-24 18:15:03 公開日:2023-05-23
# 歩行識別のための人体ポーズ推定:データセットとモデルに関する包括的調査

Human Body Pose Estimation for Gait Identification: A Comprehensive Survey of Datasets and Models ( http://arxiv.org/abs/2305.13765v1 )

ライセンス: Link先を確認
Luke K. Topham, Wasiq Khan, Dhiya Al-Jumeily, Abir Hussain(参考訳) 個人識別は特にセキュリティ領域において大きな注目を集めている問題である。 歩行認識は、高品質な画像を必要としない距離での人物識別を可能にする最も便利なアプローチの1つである。 顔画像、シルエット画像、ウェアラブルセンサーの利用など、人物識別に対処するいくつかのレビュー研究がある。 従来のアプローチの課題を克服しながら、骨格に基づく人物識別が人気を博しているが、既存の調査では歩行識別に対する骨格に基づくアプローチの包括的なレビューが欠如している。 本稿では,骨格に基づくアプローチを可能にする人間のポーズ推定と歩行解析の詳細なレビューを行う。 この研究は、さまざまな種類の関連するデータセット、ツール、方法論、および関連する課題、制限、アプリケーションドメインによる評価指標をカバーしている。 それぞれの側面について詳細な比較を行い、潜在的な研究や代替案を推奨する。 この論文全体を通して共通する傾向は、人間のポーズ推定や歩行識別といったトピックにディープラーニング技術が与えるポジティブな影響である。 調査結果は、既存の方法論、潜在的研究ギャップ、アプリケーションドメイン、将来的なコントリビューションのパフォーマンス分析の観点から、関連する研究コミュニティや他のステークホルダーにとって有用かもしれない。

Person identification is a problem that has received substantial attention, particularly in security domains. Gait recognition is one of the most convenient approaches enabling person identification at a distance without the need of high-quality images. There are several review studies addressing person identification such as the utilization of facial images, silhouette images, and wearable sensor. Despite skeleton-based person identification gaining popularity while overcoming the challenges of traditional approaches, existing survey studies lack the comprehensive review of skeleton-based approaches to gait identification. We present a detailed review of the human pose estimation and gait analysis that make the skeleton-based approaches possible. The study covers various types of related datasets, tools, methodologies, and evaluation metrics with associated challenges, limitations, and application domains. Detailed comparisons are presented for each of these aspects with recommendations for potential research and alternatives. A common trend throughout this paper is the positive impact that deep learning techniques are beginning to have on topics such as human pose estimation and gait identification. The survey outcomes might be useful for the related research community and other stakeholders in terms of performance analysis of existing methodologies, potential research gaps, application domains, and possible contributions in the future.
翻訳日:2023-05-24 18:14:49 公開日:2023-05-23
# データ曖昧化によるラベルノイズの低減

Mitigating Label Noise through Data Ambiguation ( http://arxiv.org/abs/2305.13764v1 )

ライセンス: Link先を確認
Julian Lienen, Eyke H\"ullermeier(参考訳) ラベルノイズは、特にディープラーニングにおいて、高い表現力を持つ大きなモデルがフィールドを支配している機械学習において重要な課題となる。 このようなモデルは誤ったラベルを覚えやすいため、一般化性能を損なう。 この問題を解決するために、ロバストな損失関数やより複雑なラベル補正アプローチを含む多くの手法が提案されている。 ロバストな損失関数はその単純さのために魅力的だが、通常は柔軟性が欠けている。 本稿では,学習者が観測された学習ラベルを十分に理解していない場合,目標情報を「曖昧化」し,補足的な候補ラベルを追加することで,両手法の欠点を解決することを提案する。 より正確には、いわゆる超集合学習の枠組みを利用して、信頼度閾値に基づいて設定された値の目標を構築する。 提案手法は, 合成および実世界の騒音に対する良好な学習行動を示し, 誤学習ラベルの検出と修正の有効性を確認した。

Label noise poses an important challenge in machine learning, especially in deep learning, in which large models with high expressive power dominate the field. Models of that kind are prone to memorizing incorrect labels, thereby harming generalization performance. Many methods have been proposed to address this problem, including robust loss functions and more complex label correction approaches. Robust loss functions are appealing due to their simplicity, but typically lack flexibility, while label correction usually adds substantial complexity to the training setup. In this paper, we suggest to address the shortcomings of both methodologies by "ambiguating" the target information, adding additional, complementary candidate labels in case the learner is not sufficiently convinced of the observed training label. More precisely, we leverage the framework of so-called superset learning to construct set-valued targets based on a confidence threshold, which deliver imprecise yet more reliable beliefs about the ground-truth, effectively helping the learner to suppress the memorization effect. In an extensive empirical evaluation, our method demonstrates favorable learning behavior on synthetic and real-world noise, confirming the effectiveness in detecting and correcting erroneous training labels.
翻訳日:2023-05-24 18:14:32 公開日:2023-05-23
# SE-Bridge: 一貫性のあるブラウン橋による音声強調

SE-Bridge: Speech Enhancement with Consistent Brownian Bridge ( http://arxiv.org/abs/2305.13796v1 )

ライセンス: Link先を確認
Zhibin Qiu, Mengfan Fu, Fuchun Sun, Gulila Altenbek, Hao Huang(参考訳) 音声強調(SE)の新しい手法であるSE-Bridgeを提案する。 近年,拡散モデルを音声強調に適用し,確率微分方程式(sde)を解いて音声強調を実現する。 各SDEは確率フロー常微分方程式(PF-ODE)に対応し、PF-ODE解の軌道は異なる時点の音声状態からなる。 提案手法は,同一PF-ODE軌道上の任意の音声状態が同一初期状態に対応することを保証する一貫性モデルに基づく。 Brownian Bridgeプロセスを統合することで、モデルは敵の訓練なしに高信頼度音声サンプルを生成することができる。 これは、seタスクに一貫性モデルを適用する最初の試みであり、分散ベースのベースラインと比較してサンプリングに要する15倍の時間を節約しながら、最先端の結果を複数のメトリクスで達成する。 複数のデータセットに対する実験により,SE-Bridgeの有効性が示された。 さらに,音声自動認識(ASR)や話者検証(SV)など,下流タスクに対する広範囲な実験を通じて,SE-Bridgeは複数の下流タスクを効果的にサポートできることを示す。

We propose SE-Bridge, a novel method for speech enhancement (SE). After recently applying the diffusion models to speech enhancement, we can achieve speech enhancement by solving a stochastic differential equation (SDE). Each SDE corresponds to a probabilistic flow ordinary differential equation (PF-ODE), and the trajectory of the PF-ODE solution consists of the speech states at different moments. Our approach is based on consistency model that ensure any speech states on the same PF-ODE trajectory, correspond to the same initial state. By integrating the Brownian Bridge process, the model is able to generate high-intelligibility speech samples without adversarial training. This is the first attempt that applies the consistency models to SE task, achieving state-of-the-art results in several metrics while saving 15 x the time required for sampling compared to the diffusion-based baseline. Our experiments on multiple datasets demonstrate the effectiveness of SE-Bridge in SE. Furthermore, we show through extensive experiments on downstream tasks, including Automatic Speech Recognition (ASR) and Speaker Verification (SV), that SE-Bridge can effectively support multiple downstream tasks.
翻訳日:2023-05-24 18:07:11 公開日:2023-05-23
# 品質多様性強化学習のための近似的ポリシーグラディエントアーボラミネッセンス

Proximal Policy Gradient Arborescence for Quality Diversity Reinforcement Learning ( http://arxiv.org/abs/2305.13795v1 )

ライセンス: Link先を確認
Sumeet Batra, Bryon Tjanaka, Matthew C. Fontaine, Aleksei Petrenko, Stefanos Nikolaidis, Gaurav Sukhatme(参考訳) 見えない動的環境でうまく機能する一般的な能力のあるエージェントを訓練することは、ロボット学習の長期的な目標である。 品質多様性強化学習 (qd-rl) は、品質多様性 (qd) と rl から洞察をブレンドし、行動埋め込みに関してハイパフォーマンスで行動に多様性のあるポリシーの集合を生成する、強化学習 (rl) アルゴリズムの新しいクラスである。 既存のQD-RLアプローチは、これまでサンプル効率の良いオフポリシーRLアルゴリズムを利用してきた。 しかし、近年の大規模並列化ロボットシミュレータの進歩により、このような並列性を生かしたアルゴリズムの扉が開かれており、これらの新しいデータに富む既存のQD-RL手法をどのように拡張するかは不明である。 本稿では, 大規模並列処理をQDに活用できるPPO(Proximal Policy Optimization, Proximal Policy Optimization, Proximal Policy Optimization, PPO)法と高スループットシミュレータを用いた新しいQD-RL法を提案する。 提案する近位政策勾配arbeorescence(ppga)アルゴリズムは,ヒューマノイド領域のベースラインよりも4倍改善する。

Training generally capable agents that perform well in unseen dynamic environments is a long-term goal of robot learning. Quality Diversity Reinforcement Learning (QD-RL) is an emerging class of reinforcement learning (RL) algorithms that blend insights from Quality Diversity (QD) and RL to produce a collection of high performing and behaviorally diverse policies with respect to a behavioral embedding. Existing QD-RL approaches have thus far taken advantage of sample-efficient off-policy RL algorithms. However, recent advances in high-throughput, massively parallelized robotic simulators have opened the door for algorithms that can take advantage of such parallelism, and it is unclear how to scale existing off-policy QD-RL methods to these new data-rich regimes. In this work, we take the first steps to combine on-policy RL methods, specifically Proximal Policy Optimization (PPO), that can leverage massive parallelism, with QD, and propose a new QD-RL method with these high-throughput simulators and on-policy training in mind. Our proposed Proximal Policy Gradient Arborescence (PPGA) algorithm yields a 4x improvement over baselines on the challenging humanoid domain.
翻訳日:2023-05-24 18:06:53 公開日:2023-05-23
# 音声アシスタントにおける遅延低減のための個人化予測型ASR

Personalized Predictive ASR for Latency Reduction in Voice Assistants ( http://arxiv.org/abs/2305.13794v1 )

ライセンス: Link先を確認
Andreas Schwarz, Di He, Maarten Van Segbroeck, Mohammed Hethnawi, Ariya Rastrow(参考訳) 音声アシスタントにおけるストリーミング自動音声認識(ASR)は、プレフェッチを利用して応答生成のレイテンシを部分的に隠すことができる。 プリフェッチには、応答をプリフェッチしキャッシュするために、ダウンストリームシステムに予備asr仮説を渡すことが含まれる。 エンドポイント検出後の最終asr仮説が予備値と一致する場合、キャッシュされた応答をユーザに届けることができ、レイテンシを節約できる。 本稿では,このアイデアを,部分的に観察された発話から全発話を予測し,予測された発話に基づいて応答をプリフェッチする予測自動音声認識を導入して拡張する。 本稿では,2つのパーソナライズ手法を導入し,成功予測と失敗予測のコスト増加とのトレードオフを検討する。 提案手法は,slurpデータセットと同様に,内部音声アシスタントデータセット上で評価する。

Streaming Automatic Speech Recognition (ASR) in voice assistants can utilize prefetching to partially hide the latency of response generation. Prefetching involves passing a preliminary ASR hypothesis to downstream systems in order to prefetch and cache a response. If the final ASR hypothesis after endpoint detection matches the preliminary one, the cached response can be delivered to the user, thus saving latency. In this paper, we extend this idea by introducing predictive automatic speech recognition, where we predict the full utterance from a partially observed utterance, and prefetch the response based on the predicted utterance. We introduce two personalization approaches and investigate the tradeoff between potential latency gains from successful predictions and the cost increase from failed predictions. We evaluate our methods on an internal voice assistant dataset as well as the public SLURP dataset.
翻訳日:2023-05-24 18:06:28 公開日:2023-05-23
# 大規模言語モデルは人間のように推論し、診断できるのか?

Can Large Language Models Infer and Disagree Like Humans? ( http://arxiv.org/abs/2305.13788v1 )

ライセンス: Link先を確認
Noah Lee, Na Min An and James Thorne(参考訳) 大規模言語モデル(llm)は、幅広いタスクの解決において大きな業績を示している。 LLMが人間の不一致分布と密接に一致しているか否かは、特に自然言語推論(NLI)の範囲内でよく研究されていない。 本稿では,モンテカルロ再構成(MCR)とログ確率再構成(LPR)の2つの異なる手法を用いて,LLM分布の性能とアライメントを評価する。 その結果、LLMはNLIタスクを解く能力に限界を示し、同時に人間の不一致分布を捉えることに失敗し、自然言語理解能力(NLU)と人間の代表性に対する懸念を提起した。

Large Language Models (LLMs) have shown stellar achievements in solving a broad range of tasks. When generating text, it is common to sample tokens from these models: whether LLMs closely align with the human disagreement distribution has not been well-studied, especially within the scope of Natural Language Inference (NLI). In this paper, we evaluate the performance and alignment of LLM distribution with humans using two different techniques: Monte Carlo Reconstruction (MCR) and Log Probability Reconstruction (LPR). As a result, we show LLMs exhibit limited ability in solving NLI tasks and simultaneously fail to capture human disagreement distribution, raising concerns about their natural language understanding (NLU) ability and their representativeness of human users.
翻訳日:2023-05-24 18:06:15 公開日:2023-05-23
# 有効量子電磁力学:相対論的水素様原子の1次元モデル

Effective quantum electrodynamics: One-dimensional model of the relativistic hydrogen-like atom ( http://arxiv.org/abs/2305.13787v1 )

ライセンス: Link先を確認
Timoth\'ee Audinet (LCT), Julien Toulouse (LCT, IUF)(参考訳) デルタポテンシャル相互作用を用いた相対論的水素様原子の1次元有効量子電磁力学(QED)モデルを考える。 一般の正確な理論とハートリー・フォック近似について議論する。 核電荷は真空状態(電子-陽電子対の生成)を分極し、これは有界エネルギーのQEDラム型シフトをもたらす。 しかし、この1次元有効qedモデルは、再正規化から生じる3次元理論の最も深刻な技術的困難を取り除いている。 2粒子相互作用における0次真空偏極密度と2粒子相互作用における1次境界状態エネルギーのQEDラム型シフトの計算方法を示す。 本研究は、原子と分子の量子化学的有効qed理論の開発に向けた一歩と考えることができる。

We consider a one-dimensional effective quantum electrodynamics (QED) model of the relativistic hydrogen-like atom using delta-potential interactions. We discuss the general exact theory and the Hartree-Fock approximation. The present one-dimensional effective QED model shares the essential physical feature of the three-dimensional theory: the nuclear charge polarizes the vacuum state (creation of electron-positron pairs) which results in a QED Lamb-type shift of the bound-state energy. Yet, this 1D effective QED model eliminates some of the most serious technical difficulties of the three-dimensional theory coming from renormalization. We show how to calculate the vacuum-polarization density at zeroth order in the two-particle interaction and the QED Lamb-type shift of the bound-state energy at first order in the two-particle interaction. The present work may be considered as a step toward the development of a quantum-chemistry effective QED theory of atoms and molecules.
翻訳日:2023-05-24 18:06:01 公開日:2023-05-23
# 知覚テスト:マルチモーダルビデオモデルの診断ベンチマーク

Perception Test: A Diagnostic Benchmark for Multimodal Video Models ( http://arxiv.org/abs/2305.13786v1 )

ライセンス: Link先を確認
Viorica P\u{a}tr\u{a}ucean, Lucas Smaira, Ankush Gupta, Adri\`a Recasens Continente, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Joseph Heyward, Mateusz Malinowski, Yi Yang, Carl Doersch, Tatiana Matejovicova, Yury Sulsky, Antoine Miech, Alex Frechette, Hanna Klimczak, Raphael Koster, Junlin Zhang, Stephanie Winkler, Yusuf Aytar, Simon Osindero, Dima Damen, Andrew Zisserman, Jo\~ao Carreira(参考訳) 本研究では,事前学習したマルチモーダルモデル(Flamingo, BEiT-3, GPT-4)の知覚と推論能力を評価するための新しいマルチモーダルビデオベンチマーク,Perception Testを提案する。 計算タスク(例えば分類、検出、追跡)に焦点を当てた既存のベンチマークと比較すると、知覚テストは、ビデオ、音声、テキストのモダリティにまたがるスキル(記憶、抽象、物理学、意味論)と推論の種類(記述、説明、予測、反事実)に焦点を当て、包括的で効率的な評価ツールを提供する。 このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。 これらの目的のために、知覚テストでは、世界中の約100人の参加者によって撮影された知覚的に興味深い状況を示すために設計された、平均23秒の11.6kの現実世界ビデオが導入されている。 ビデオには6種類のラベル(マルチチョイスと接地ビデオ、オブジェクトとポイントトラック、テンポラルアクションとサウンドセグメント)が密にアノテートされており、言語と非言語の両方の評価を可能にする。 ベンチマークの微調整とバリデーションの分割(cc-by license)は、保持テストの分割を備えたチャレンジサーバに加えて、公開されている(cc-by license)。 最先端のビデオQAモデルと比較して、人間のベースラインの結果は、パフォーマンスの顕著な差(91.4%対43.6%)を示し、マルチモーダルビデオ理解の改善の余地があることを示唆している。 dataset、baselines code、challenge serverはhttps://github.com/deepmind/perception_testで利用可能である。

We propose a novel multimodal video benchmark - the Perception Test - to evaluate the perception and reasoning skills of pre-trained multimodal models (e.g. Flamingo, BEiT-3, or GPT-4). Compared to existing benchmarks that focus on computational tasks (e.g. classification, detection or tracking), the Perception Test focuses on skills (Memory, Abstraction, Physics, Semantics) and types of reasoning (descriptive, explanatory, predictive, counterfactual) across video, audio, and text modalities, to provide a comprehensive and efficient evaluation tool. The benchmark probes pre-trained models for their transfer capabilities, in a zero-shot / few-shot or limited finetuning regime. For these purposes, the Perception Test introduces 11.6k real-world videos, 23s average length, designed to show perceptually interesting situations, filmed by around 100 participants worldwide. The videos are densely annotated with six types of labels (multiple-choice and grounded video question-answers, object and point tracks, temporal action and sound segments), enabling both language and non-language evaluations. The fine-tuning and validation splits of the benchmark are publicly available (CC-BY license), in addition to a challenge server with a held-out test split. Human baseline results compared to state-of-the-art video QA models show a significant gap in performance (91.4% vs 43.6%), suggesting that there is significant room for improvement in multimodal video understanding. Dataset, baselines code, and challenge server are available at https://github.com/deepmind/perception_test
翻訳日:2023-05-24 18:05:48 公開日:2023-05-23
# Prompt-based data Augmentation を用いたブラックボックスFew-Shotテキスト分類の強化

Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data Augmentation ( http://arxiv.org/abs/2305.13785v1 )

ライセンス: Link先を確認
Danqing Luo, Chen Zhang, Jiahui Xu, Bin Wang, Yiming Chen, Yan Zhang, Haizhou Li(参考訳) GPT-3のような大規模言語モデル(LLM)の訓練や微調整には、かなりの計算資源が必要である。 1つの実践的な研究領域は、これらのモデルをブラックボックスとして扱い、推論APIを通じてそれらと対話することである。 本稿では,llmの勾配にアクセスせずにテキスト分類を最適化する方法について検討する。 これを実現するために,ブラックボックスモデルを特徴抽出器として扱い,拡張テキストデータを用いて分類器を訓練する。 データ拡張は、ブラックボックスモデルよりもはるかに小さいパラメータサイズで補助言語モデルのプロンプトベースの微調整によって実行される。 8つのテキスト分類データセットに関する広範な実験により、BT-Classifierと呼ばれる我々のアプローチは、最先端のブラックボックス数ショット学習者よりも優れ、フルモデルチューニングに依存した手法と同等に機能することを示した。

Training or finetuning large-scale language models (LLMs) such as GPT-3 requires substantial computation resources, motivating recent efforts to explore parameter-efficient adaptation to downstream tasks. One practical area of research is to treat these models as black boxes and interact with them through their inference APIs. In this paper, we investigate how to optimize few-shot text classification without accessing the gradients of the LLMs. To achieve this, we treat the black-box model as a feature extractor and train a classifier with the augmented text data. Data augmentation is performed using prompt-based finetuning on an auxiliary language model with a much smaller parameter size than the black-box model. Through extensive experiments on eight text classification datasets, we show that our approach, dubbed BT-Classifier, significantly outperforms state-of-the-art black-box few-shot learners and performs on par with methods that rely on full-model tuning.
翻訳日:2023-05-24 18:05:16 公開日:2023-05-23
# 反応拡散系としてのレニアの実装

Implementation of Lenia as a Reaction-Diffusion System ( http://arxiv.org/abs/2305.13784v1 )

ライセンス: Link先を確認
Hiroki Kojima and Takashi Ikegami(参考訳) 連続時空間状態を特徴とする反応拡散(RD)系と,離散時空間状態を特徴とする細胞性オートマトン(CA)の関係はよく分かっていない。 本論文は,最近開発されたレニアとして知られるcaの検討を通じて,この関係を考察する。 我々は、レニアの変種である漸近性レニアが微分方程式によって包括的に記述できることを示した。 さらに,この定式化はktモデル(kernel-based turing model)の一般化と数学的に等価であることを示す。 これらの知見から, 拡散的, 空間的局所的な反応項のみからなるRD系で無症候性レニアを再現できることが判明し, RD系に基づく模擬無症候性レニア(RD Lenia)が得られた。 しかし、反応項が質量反応速度を満たさないため、我々のRD Leniaは化学系とは解釈できない。

The relationship between reaction-diffusion (RD) systems, characterized by continuous spatiotemporal states, and cellular automata (CA), marked by discrete spatiotemporal states, remains poorly understood. This paper delves into this relationship through an examination of a recently developed CA known as Lenia. We demonstrate that asymptotic Lenia, a variant of Lenia, can be comprehensively described by differential equations, and, unlike the original Lenia, it is independent of time-step ticks. Further, we establish that this formulation is mathematically equivalent to a generalization of the kernel-based Turing model (KT model). Stemming from these insights, we establish that asymptotic Lenia can be replicated by an RD system composed solely of diffusion and spatially local reaction terms, resulting in the simulated asymptotic Lenia based on an RD system, or "RD Lenia". However, our RD Lenia cannot be construed as a chemical system since the reaction term fails to satisfy mass-action kinetics.
翻訳日:2023-05-24 18:04:57 公開日:2023-05-23
# 深部強化学習に基づく地上車両のオフロード環境における多目的経路計画

Deep Reinforcement Learning-based Multi-objective Path Planning on the Off-road Terrain Environment for Ground Vehicles ( http://arxiv.org/abs/2305.13783v1 )

ライセンス: Link先を確認
Guoming Huang, Xiaofang Yuan, Zhixian Liu, Weihua Tan, Xiru Wu, Yaonan Wang(参考訳) アップスロープとダウンスロープの間のエネルギー消費効率は非常に異なるため、複雑なオフロード地形環境(2.5Dマップ)における最短経路は、エネルギー消費の少ない経路であるとは限らない。 エネルギーに敏感な車両の場合、2.5D経路計画において距離とエネルギー消費の良好なトレードオフを実現することは有意義である。 本稿では,深い強化学習に基づく2.5D多目的経路計画法(DMOP)を提案する。 DMOPは,(1)高解像度2.5Dマップを小型マップに変換する3ステップで,所望の経路を効率的に見つけることができる。 2) 訓練された深度Qネットワーク(DQN)を用いて,小型地図上で所望の経路を求める。 3) 経路拡張法を用いて, 当初の高分解能マップへの計画パスを構築する。 また, dqnの学習には, 模倣学習法と報酬形成理論を適用した。 報酬関数は、地形、距離、国境に関する情報で構築される。 シミュレーションにより,提案手法が多目的2.5dパス計画タスクを完了できることを示す。 また、シミュレーションにより、同じ地図上で任意の未学習計画タスクを実行できる強力な推論能力があることが証明された。

Due to the energy-consumption efficiency between up-slope and down-slope is hugely different, a path with the shortest length on a complex off-road terrain environment (2.5D map) is not always the path with the least energy consumption. For any energy-sensitive vehicles, realizing a good trade-off between distance and energy consumption on 2.5D path planning is significantly meaningful. In this paper, a deep reinforcement learning-based 2.5D multi-objective path planning method (DMOP) is proposed. The DMOP can efficiently find the desired path with three steps: (1) Transform the high-resolution 2.5D map into a small-size map. (2) Use a trained deep Q network (DQN) to find the desired path on the small-size map. (3) Build the planned path to the original high-resolution map using a path enhanced method. In addition, the imitation learning method and reward shaping theory are applied to train the DQN. The reward function is constructed with the information of terrain, distance, border. Simulation shows that the proposed method can finish the multi-objective 2.5D path planning task. Also, simulation proves that the method has powerful reasoning capability that enables it to perform arbitrary untrained planning tasks on the same map.
翻訳日:2023-05-24 18:04:38 公開日:2023-05-23
# 言語空間のイメージ:ビジョンと言語タスクのための大規模言語モデルの適合性を探る

Images in Language Space: Exploring the Suitability of Large Language Models for Vision & Language Tasks ( http://arxiv.org/abs/2305.13782v1 )

ライセンス: Link先を確認
Sherzod Hakimov, David Schlangen(参考訳) 大規模言語モデルは、ゼロショットまたは少数ショット学習パラダイムを使用して、様々な言語タスクで堅牢なパフォーマンスを示す。 積極的に研究されている一方で、入力としてイメージを処理できるマルチモーダルモデルは、言語のみのモデルでサイズや汎用性に追いついていない。 この作業では、視覚的な入力を必要とするタスクに言語のみのモデルを使用することができるかどうかを問うとともに、議論するように、しばしば強力な推論コンポーネントを必要とする。 近年のいくつかの関連する研究と同様に、別個の言語モデルを用いて視覚情報を言語モデルにアクセスできるようにしている。 具体的には,5つの視覚的タスクにおけるGPT-3に対するオープンソースのオープンアクセス言語モデルの性能について検討する。 その結果,限られたサンプルでも言語モデルが視覚言語課題の解決に有効であることが示唆された。 このアプローチは、言語化された画像コンテンツを通して出力を追跡する手段を提供することで、モデルの出力の解釈可能性を高める。

Large language models have demonstrated robust performance on various language tasks using zero-shot or few-shot learning paradigms. While being actively researched, multimodal models that can additionally handle images as input have yet to catch up in size and generality with language-only models. In this work, we ask whether language-only models can be utilised for tasks that require visual input -- but also, as we argue, often require a strong reasoning component. Similar to some recent related work, we make visual information accessible to the language model using separate verbalisation models. Specifically, we investigate the performance of open-source, open-access language models against GPT-3 on five vision-language tasks when given textually-encoded visual information. Our results suggest that language models are effective for solving vision-language tasks even with limited samples. This approach also enhances the interpretability of a model's output by providing a means of tracing the output back through the verbalised image content.
翻訳日:2023-05-24 18:04:19 公開日:2023-05-23
# 360度視覚的位置認識のためのBEV表現の活用

Leveraging BEV Representation for 360-degree Visual Place Recognition ( http://arxiv.org/abs/2305.13814v1 )

ライセンス: Link先を確認
Xuecheng Xu, Yanmei Jiao, Sha Lu, Xiaqing Ding, Rong Xiong, Yue Wang(参考訳) 本稿では,360度視覚位置認識 (vpr) における鳥の目視 (bev) 表現の利点について検討する。 本稿では,bev表現を特徴抽出,特徴集約,視覚・ライダー融合に活用し,視覚の手がかりと空間認識を橋渡しする新しいネットワークアーキテクチャを提案する。 本手法は,標準畳み込みネットワークを用いて画像特徴を抽出し,予め定義された3次元グリッド空間点に応じて特徴を合成する。 カメラ間の機械的・時間的ミスアライメントを軽減するため,補正の学習のために変形可能な注意を導入する。 次に、bev特徴表現に基づいて、極変換と離散フーリエ変換をアグリゲーションに適用し、回転不変であることが示される。 さらに、画像と点雲の手がかりを同じ座標で簡単に記述することができ、位置認識のためのセンサ融合の恩恵を受ける。 提案するbevに基づく手法は,2つのデータを用いたアブレーションおよび比較研究において評価されている。 実験の結果,bevはベースライン法よりも優れた性能でvprに有益であるという仮説を検証した。 私たちの知る限りでは、このタスクにBEV表現を採用する最初の試みである。

This paper investigates the advantages of using Bird's Eye View (BEV) representation in 360-degree visual place recognition (VPR). We propose a novel network architecture that utilizes the BEV representation in feature extraction, feature aggregation, and vision-LiDAR fusion, which bridges visual cues and spatial awareness. Our method extracts image features using standard convolutional networks and combines the features according to pre-defined 3D grid spatial points. To alleviate the mechanical and time misalignments between cameras, we further introduce deformable attention to learn the compensation. Upon the BEV feature representation, we then employ the polar transform and the Discrete Fourier transform for aggregation, which is shown to be rotation-invariant. In addition, the image and point cloud cues can be easily stated in the same coordinates, which benefits sensor fusion for place recognition. The proposed BEV-based method is evaluated in ablation and comparative studies on two datasets, including on-the-road and off-the-road scenarios. The experimental results verify the hypothesis that BEV can benefit VPR by its superior performance compared to baseline methods. To the best of our knowledge, this is the first trial of employing BEV representation in this task.
翻訳日:2023-05-24 17:59:18 公開日:2023-05-23
# 画像テキストグラフ空間における粗相関学習による視覚・言語構成性の向上

Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality ( http://arxiv.org/abs/2305.13812v1 )

ライセンス: Link先を確認
Harman Singh, Pengchuan Zhang, Qifan Wang, Mengjiao Wang, Wenhan Xiong, Jingfei Du, Yu Chen(参考訳) 対照的に訓練された視覚言語モデルは、視覚と言語表現の学習において著しく進歩し、様々な下流のマルチモーダルタスクのための最先端のモデルに繋がった。 しかし、最近の研究では、オブジェクト、属性、関係性に対して構成的推論を行う能力において、これらのモデルの厳しい制限が強調されている。 シーングラフは、イメージを合成的に理解する効果的な方法として登場した。 これらは、オブジェクト、それらの属性、シーン内の他のオブジェクトとの関係を含む画像のグラフ構造化セマンティック表現である。 本研究では,テキストから解析したシーングラフを画像シーングラフのプロキシとして考慮し,様々な複雑な文を同じ画像にアライメントする画像とテキスト間の粗い相互差分学習目標とともに,グラフ分解と拡張フレームワークを提案する。 これと合わせて,属性結合と関係理解を改善するために,シーングラフ空間における新規な負のマイニング手法を提案する。 本研究では,提案する複数のベンチマークにおいて,属性結合,関係理解,系統的一般化,生産性を大幅に向上させる手法の有効性を実証すると共に,様々なマルチモーダルタスクにおけるクリップと同等あるいは優れた性能を実現するとともに,提案手法の有効性を実証する。

Contrastively trained vision-language models have achieved remarkable progress in vision and language representation learning, leading to state-of-the-art models for various downstream multimodal tasks. However, recent research has highlighted severe limitations of these models in their ability to perform compositional reasoning over objects, attributes, and relations. Scene graphs have emerged as an effective way to understand images compositionally. These are graph-structured semantic representations of images that contain objects, their attributes, and relations with other objects in a scene. In this work, we consider the scene graph parsed from text as a proxy for the image scene graph and propose a graph decomposition and augmentation framework along with a coarse-to-fine contrastive learning objective between images and text that aligns sentences of various complexities to the same image. Along with this, we propose novel negative mining techniques in the scene graph space for improving attribute binding and relation understanding. Through extensive experiments, we demonstrate the effectiveness of our approach that significantly improves attribute binding, relation understanding, systematic generalization, and productivity on multiple recently proposed benchmarks (For example, improvements upto $18\%$ for systematic generalization, $16.5\%$ for relation understanding over a strong baseline), while achieving similar or better performance than CLIP on various general multimodal tasks.
翻訳日:2023-05-24 17:58:58 公開日:2023-05-23
# オープンドメインQAにおけるあいまいさの扱いについて

Asking Clarification Questions to Handle Ambiguity in Open-Domain QA ( http://arxiv.org/abs/2305.13808v1 )

ライセンス: Link先を確認
Dongryeol Lee, Segwang Kim, Minwoo Lee, Hwanhee Lee, Joonsuk Park, Sang-Woo Lee and Kyomin Jung(参考訳) 明確な質問を独特な答えで定式化することは、しばしば困難である。 以前、Min et al. (2020) は曖昧な質問の可能な全ての解釈に対して曖昧な質問を発生させることでこの問題に対処した。 これは効果的であるが、ユーザーに答えを提供するのに理想的ではない。 そこで,我々は,ユーザの意図に最も合致する解釈を特定するのに,ユーザの反応が役立つ明確化質問を提示する。 我々はまず,5,654の曖昧な質問からなるデータセットであるCAMBIGNQを提示する。 説明質問はinstructgptを用いて生成し,必要に応じて手作業で修正することで効率的に作成される。 次にタスクのパイプラインを定義し、適切な評価メトリクスを設計する。 最後に,曖昧性検出では61.3 f1,明確化に基づくqaでは40.5 f1を達成し,今後の作業において強力なベースラインを提供する。

Ambiguous questions persist in open-domain question answering, because formulating a precise question with a unique answer is often challenging. Previously, Min et al. (2020) have tackled this issue by generating disambiguated questions for all possible interpretations of the ambiguous question. This can be effective, but not ideal for providing an answer to the user. Instead, we propose to ask a clarification question, where the user's response will help identify the interpretation that best aligns with the user's intention. We first present CAMBIGNQ, a dataset consisting of 5,654 ambiguous questions, each with relevant passages, possible answers, and a clarification question. The clarification questions were efficiently created by generating them using InstructGPT and manually revising them as necessary. We then define a pipeline of tasks and design appropriate evaluation metrics. Lastly, we achieve 61.3 F1 on ambiguity detection and 40.5 F1 on clarification-based QA, providing strong baselines for future work.
翻訳日:2023-05-24 17:58:34 公開日:2023-05-23
# Webマイニングにおけるゼロショット関係抽出に向けて:相対XMLパスを用いたマルチモーダルアプローチ

Towards Zero-shot Relation Extraction in Web Mining: A Multimodal Approach with Relative XML Path ( http://arxiv.org/abs/2305.13805v1 )

ライセンス: Link先を確認
Zilong Wang, Jingbo Shang(参考訳) ウェブページの急速な成長とそれらの構造の複雑さの増大は、Webマイニングモデルに課題をもたらす。 Webマイニングモデルは、特に新しいページの主題やテンプレートについてほとんど知られていない場合、半構造化されたWebページを理解するために必要である。 現在の手法では、xmlソースコードをトランスフォーマーに埋め込むか、グラフニューラルネットワークで描画されたレイアウトをエンコードすることで、言語モデルをwebマイニングに移行する。 しかし、これらのアプローチはページ内とページ間のテキストノード間の関係を考慮していない。 本稿では,ウェブマイニングにおけるゼロショット関係抽出のための新しい手法であるReXMinerを提案する。 ReXMinerはDocument Object Model(DOM)ツリーの最も短い相対パスをエンコードする。 また、異なるWebページ間で同じテキストノードの発生をカウントすることで、各テキストノードの人気も反映している。 我々は,関係抽出におけるスパーシティの問題に対処するために,コントラスト学習を用いる。 提案手法であるReXMinerは,Webマイニングにおけるゼロショット関係抽出のタスクにおいて,最先端のベースラインよりも優れていることを示す。

The rapid growth of web pages and the increasing complexity of their structure poses a challenge for web mining models. Web mining models are required to understand the semi-structured web pages, particularly when little is known about the subject or template of a new page. Current methods migrate language models to the web mining by embedding the XML source code into the transformer or encoding the rendered layout with graph neural networks. However, these approaches do not take into account the relationships between text nodes within and across pages. In this paper, we propose a new approach, ReXMiner, for zero-shot relation extraction in web mining. ReXMiner encodes the shortest relative paths in the Document Object Model (DOM) tree which is a more accurate and efficient signal for key-value pair extraction within a web page. It also incorporates the popularity of each text node by counting the occurrence of the same text node across different web pages. We use the contrastive learning to address the issue of sparsity in relation extraction. Extensive experiments on public benchmarks show that our method, ReXMiner, outperforms the state-of-the-art baselines in the task of zero-shot relation extraction in web mining.
翻訳日:2023-05-24 17:58:16 公開日:2023-05-23
# オフライン強化学習のためのオフライン体験リプレイ

Offline Experience Replay for Continual Offline Reinforcement Learning ( http://arxiv.org/abs/2305.13804v1 )

ライセンス: Link先を確認
Sibo Gai, Donglin Wang, Li He(参考訳) エージェントには,事前に収集したオフラインデータセットのシーケンスを通じて,新たなスキルを継続的に学習する能力が望まれる。 しかし、オフラインタスクのシーケンスを連続的に学習すると、リソース制限されたシナリオで壊滅的な問題が発生する可能性がある。 本稿では,エージェントがオフライン強化学習タスクのシーケンスを学習し,各タスクの環境を探索することなく,小さなリプレイバッファですべての学習タスクの優れたパフォーマンスを追求する,連続的オフライン強化学習(continual offline reinforcement learning,corl)という新しい設定を定式化する。 シーケンシャルなタスクで一貫して学習するには、エージェントは新しい知識を取得し、一方、古い知識をオフラインで保存する必要がある。 この目的のために,連続学習アルゴリズムを導入し,corl問題に最適なアルゴリズムとしてexperience replay(er)を実験的に発見した。 しかし、CORLにERを導入すると、リプレイバッファにおける経験と学習ポリシーからの軌跡とのミスマッチという、新しい分散シフト問題が発生する。 このような問題に対処するために、リプレイバッファを構築するための新しいモデルベースエクスペリエンスセレクション(MBES)方式を提案し、そこで遷移モデルを学習して状態分布を近似する。 このモデルは、学習したモデルに最もよく似ているオフラインデータからデータをフィルタリングすることで、リプレイバッファと学習モデルの分散バイアスを橋渡しするために使用される。 さらに,新しいタスクを学習する能力を高めるために,新しい二重行動クローニング(DBC)アーキテクチャを用いて経験再現手法を再構成し,Q-ラーニングプロセスにおける行動閉鎖の障害を回避する。 一般に、アルゴリズムをオフライン体験再生(OER)と呼ぶ。 広汎な実験により,OER法は広く使用されているムジョコ環境においてSOTAベースラインを上回っていることが示された。

The capability of continuously learning new skills via a sequence of pre-collected offline datasets is desired for an agent. However, consecutively learning a sequence of offline tasks likely leads to the catastrophic forgetting issue under resource-limited scenarios. In this paper, we formulate a new setting, continual offline reinforcement learning (CORL), where an agent learns a sequence of offline reinforcement learning tasks and pursues good performance on all learned tasks with a small replay buffer without exploring any of the environments of all the sequential tasks. For consistently learning on all sequential tasks, an agent requires acquiring new knowledge and meanwhile preserving old knowledge in an offline manner. To this end, we introduced continual learning algorithms and experimentally found experience replay (ER) to be the most suitable algorithm for the CORL problem. However, we observe that introducing ER into CORL encounters a new distribution shift problem: the mismatch between the experiences in the replay buffer and trajectories from the learned policy. To address such an issue, we propose a new model-based experience selection (MBES) scheme to build the replay buffer, where a transition model is learned to approximate the state distribution. This model is used to bridge the distribution bias between the replay buffer and the learned model by filtering the data from offline data that most closely resembles the learned model for storage. Moreover, in order to enhance the ability on learning new tasks, we retrofit the experience replay method with a new dual behavior cloning (DBC) architecture to avoid the disturbance of behavior-cloning loss on the Q-learning process. In general, we call our algorithm offline experience replay (OER). Extensive experiments demonstrate that our OER method outperforms SOTA baselines in widely-used Mujoco environments.
翻訳日:2023-05-24 17:57:57 公開日:2023-05-23
# NORM:N-to-One表現マッチングによる知識蒸留

NORM: Knowledge Distillation via N-to-One Representation Matching ( http://arxiv.org/abs/2305.13803v1 )

ライセンス: Link先を確認
Xiaolong Liu, Lujun Li, Chao Li, Anbang Yao(参考訳) 既存の特徴蒸留法では、事前に選択された教師-学生層間の一対一表現マッチングが一般的である。 本稿では,N-to-One Representation (NORM) という,2つの線形層からなる単純な特徴変換 (FT) モジュールに依存する新しい2段階の知識蒸留法を提案する。 教師ネットワークが学習した無傷情報を保存するため,学習中は,学習者ネットワークの最後の畳み込み層にftモジュールを挿入するだけでよい。 第1の線形層は、最後の畳み込み層から教師表現よりもN倍の特徴チャネルを有する特徴空間に生徒表現を投影し、第2の線形層は拡張出力を元の特徴空間に戻す。 拡張した生徒表現を教師と同数の特徴チャネルを持つn個の非重複特徴セグメントに順次分割することにより、教師と教師の層対を条件とする新規な多対一表現マッチング機構を定式化することにより、教師表現をそのまま同時に近似することができる。 訓練後、そのようなFTモジュールは線形性のため、後続の完全連結層に自然にマージされ、推論時に学生ネットワークに余分なパラメータやアーキテクチャの変更は導入されない。 様々な視覚認識ベンチマークに関する広範囲な実験により,本手法が有意な性能を示す。 例えば、NORMによってトレーニングされたResNet18|MobileNet|ResNet50-1/4モデルは、トレーニング済みのResNet34|ResNet50|ResNet50モデルを教師として使用する際に、ImageNetデータセット上で72.14%|74.26%|68.03%のトップ1精度に達した。 コードはhttps://github.com/OSVAI/NORMで入手できる。

Existing feature distillation methods commonly adopt the One-to-one Representation Matching between any pre-selected teacher-student layer pair. In this paper, we present N-to-One Representation (NORM), a new two-stage knowledge distillation method, which relies on a simple Feature Transform (FT) module consisting of two linear layers. In view of preserving the intact information learnt by the teacher network, during training, our FT module is merely inserted after the last convolutional layer of the student network. The first linear layer projects the student representation to a feature space having N times feature channels than the teacher representation from the last convolutional layer, and the second linear layer contracts the expanded output back to the original feature space. By sequentially splitting the expanded student representation into N non-overlapping feature segments having the same number of feature channels as the teacher's, they can be readily forced to approximate the intact teacher representation simultaneously, formulating a novel many-to-one representation matching mechanism conditioned on a single teacher-student layer pair. After training, such an FT module will be naturally merged into the subsequent fully connected layer thanks to its linear property, introducing no extra parameters or architectural modifications to the student network at inference. Extensive experiments on different visual recognition benchmarks demonstrate the leading performance of our method. For instance, the ResNet18|MobileNet|ResNet50-1/4 model trained by NORM reaches 72.14%|74.26%|68.03% top-1 accuracy on the ImageNet dataset when using a pre-trained ResNet34|ResNet50|ResNet50 model as the teacher, achieving an absolute improvement of 2.01%|4.63%|3.03% against the individually trained counterpart. Code is available at https://github.com/OSVAI/NORM
翻訳日:2023-05-24 17:57:26 公開日:2023-05-23
# 半教師付き外乱フィルタによるオンラインオープンセット半教師付き物体検出

Online Open-set Semi-supervised Object Detection via Semi-supervised Outlier Filtering ( http://arxiv.org/abs/2305.13802v1 )

ライセンス: Link先を確認
Zerun Wang, Ling Xiao, Liuyu Xiang, Zhaotian Weng, Toshihiko Yamasaki(参考訳) open-set semi-supervised object detection (ossod)メソッドは、オブジェクト検出にout-of-distribution (ood)インスタンスを使った実用的なラベルなしデータセットを利用することを目的としている。 OSSODの主な課題は、擬似ラベル作成中にOODインスタンスとIDインスタンスを区別してフィルタリングすることである。 従来の手法では,ラベル付きデータのみをトレーニングしたオフラインOOD検出ネットワークを使用してこの問題を解決する。 しかし、利用可能なデータの不足は、改善の可能性を制限する。 一方、トレーニングは別々に効率を低下させる。 上記の問題を緩和するために,ラベルのないデータからより価値のあるインスタンスをマイニングすることで,パフォーマンスと効率を向上させる新しいエンドツーエンドオンラインフレームワークを提案する。 具体的には、まず、トレーニングのためのラベルなしデータセットにおいて、価値あるIDとOODインスタンスをマイニングするための半教師付きOOD検出戦略を提案する。 そして,OOD検出ヘッドをオブジェクト検出器に統合することにより,オンライン・エンドツーエンドのOSSODフレームワークを構築し,元の検出タスクと共同でトレーニングする。 実験の結果,提案手法はオープンセットクラスを部分的にラベル付けしたCOCOデータセットや,大規模オープンセット未ラベルデータセットのOpenImagesなど,いくつかのベンチマークで有効であることがわかった。 従来のOSSOD法と比較すると,Open Imagesでは+0.94 mAP,44.07 mAPに向上した。

Open-set semi-supervised object detection (OSSOD) methods aim to utilize practical unlabeled datasets with out-of-distribution (OOD) instances for object detection. The main challenge in OSSOD is distinguishing and filtering the OOD instances from the in-distribution (ID) instances during pseudo-labeling. The previous method uses an offline OOD detection network trained only with labeled data for solving this problem. However, the scarcity of available data limits the potential for improvement. Meanwhile, training separately leads to low efficiency. To alleviate the above issues, this paper proposes a novel end-to-end online framework that improves performance and efficiency by mining more valuable instances from unlabeled data. Specifically, we first propose a semi-supervised OOD detection strategy to mine valuable ID and OOD instances in unlabeled datasets for training. Then, we constitute an online end-to-end trainable OSSOD framework by integrating the OOD detection head into the object detector, making it jointly trainable with the original detection task. Our experimental results show that our method works well on several benchmarks, including the partially labeled COCO dataset with open-set classes and the fully labeled COCO dataset with the additional large-scale open-set unlabeled dataset, OpenImages. Compared with previous OSSOD methods, our approach achieves the best performance on COCO with OpenImages by +0.94 mAP, reaching 44.07 mAP.
翻訳日:2023-05-24 17:56:48 公開日:2023-05-23
# 言語誘導型コントラスト学習による汎用合成画像検出

Generalizable Synthetic Image Detection via Language-guided Contrastive Learning ( http://arxiv.org/abs/2305.13800v1 )

ライセンス: Link先を確認
Haiwei Wu and Jiantao Zhou and Shile Zhang(参考訳) ai生成画像の高精細化は、生成逆ネットワーク(gans)や拡散モデル(dms)を含む合成モデルの急速な発展に起因している。 しかし、偽のニュースの拡散や偽のプロフィールの作成といった合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。 合成画像の検出のために多くの法医学的アルゴリズムが開発されているが、その性能、特に一般化能力は、合成モデルの増加に対応するには程遠い。 本研究では,言語指導によるコントラスト学習と検出問題の新たな定式化による,シンプルながら極めて効果的な合成画像検出手法を提案する。 まず, 精巧に設計されたテキストラベルを用いて訓練画像の強化を行い, 法医学的特徴抽出に画像・テキストの対比学習を併用した。 さらに,従来の分類に基づく手法とは大きく異なる識別問題として合成画像検出を定式化する。 提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上し,22.66%の精度と+15.24%のAUCで,最先端の競合他社をはるかに上回る有望な性能を実現している。 コードはhttps://github.com/HighwayWu/LASTEDで公開されている。

The heightened realism of AI-generated images can be attributed to the rapid development of synthetic models, including generative adversarial networks (GANs) and diffusion models (DMs). The malevolent use of synthetic images, such as the dissemination of fake news or the creation of fake profiles, however, raises significant concerns regarding the authenticity of images. Though many forensic algorithms have been developed for detecting synthetic images, their performance, especially the generalization capability, is still far from being adequate to cope with the increasing number of synthetic models. In this work, we propose a simple yet very effective synthetic image detection method via a language-guided contrastive learning and a new formulation of the detection problem. We first augment the training images with carefully-designed textual labels, enabling us to use a joint image-text contrastive learning for the forensic feature extraction. In addition, we formulate the synthetic image detection as an identification problem, which is vastly different from the traditional classification-based approaches. It is shown that our proposed LanguAge-guided SynThEsis Detection (LASTED) model achieves much improved generalizability to unseen image generation models and delivers promising performance that far exceeds state-of-the-art competitors by +22.66% accuracy and +15.24% AUC. The code is available at https://github.com/HighwayWu/LASTED.
翻訳日:2023-05-24 17:56:21 公開日:2023-05-23
# 不確かさの定量化によるロバストな初休憩時間選択

Leveraging Uncertainty Quantification for Picking Robust First Break Times ( http://arxiv.org/abs/2305.13799v1 )

ライセンス: Link先を確認
Hongtao Wang, Jiangshe Zhang, Xiaoli Wei, Li Long, Chunxia Zhang(参考訳) 地震探査において、第一破断時間の選択は地下速度モデルの決定において重要な側面であり、それによって井戸の配置に大きな影響を及ぼす。 多くのディープニューラルネットワーク(DNN)ベースの自動ファースト・ブレーク・ピッキング手法が提案されており、このピッキング処理を高速化している。 しかし、DNNの出力の最初の採点結果の不確実性については研究されていない。 本稿では,ベイジアンニューラルネットワークを用いた最初のブレークピッキングのための新しいフレームワークを提案し,出力の不確実性をさらに説明する。 多くの実験において,提案手法は決定論的DNNモデルよりも精度と堅牢性が高いことが評価された。 また,測定の不確かさが有意義であることも確認し,人間の意思決定への参考となる。

In seismic exploration, the selection of first break times is a crucial aspect in the determination of subsurface velocity models, which in turn significantly influences the placement of wells. Many deep neural network (DNN)-based automatic first break picking methods have been proposed to speed up this picking processing. However, there has been no work on the uncertainty of the first picking results of the output of DNN. In this paper, we propose a new framework for first break picking based on a Bayesian neural network to further explain the uncertainty of the output. In a large number of experiments, we evaluate that the proposed method has better accuracy and robustness than the deterministic DNN-based model. In addition, we also verify that the uncertainty of measurement is meaningful, which can provide a reference for human decision-making.
翻訳日:2023-05-24 17:55:57 公開日:2023-05-23
# snekhorn:対称エントロピーアフィニティによる次元縮小

SNEkhorn: Dimension Reduction with Symmetric Entropic Affinities ( http://arxiv.org/abs/2305.13797v1 )

ライセンス: Link先を確認
Hugues Van Assel, Titouan Vayer, R\'emi Flamary, Nicolas Courty(参考訳) 機械学習における多くのアプローチは、データセットのサンプル間の類似性を符号化する重み付きグラフに依存している。 ポピュラー次元還元 (dr) アルゴリズム t-sne で特に用いられるエントロピーアフィニティ (eas) は、そのようなグラフの具体例である。 不均質なサンプリング密度に対するロバスト性を確保するため、easは各サンプルにカーネル帯域幅パラメータを割り当て、親和性行列の各行のエントロピーが、指数関数がパープレキシティとして知られる特定の値で一定に保たれるようにした。 EAは本質的に非対称で行ワイド確率であるが、行ワイドなエントロピーと確率性の両方に反するヒューリスティックな対称性の手法を実行した後、DRアプローチで使用される。 本研究では,最適な輸送問題としてのEAの新たな特徴を明らかにし,二重昇華を用いて効率的に計算できる自然な対称性を実現する。 対応する新規親和性行列は、クラスタリング性能の点で対称確率正規化の利点を生かし、また各行のエントロピーを効果的に制御することにより、ノイズレベルの変化に対して特に堅牢である。 次に,この新しい親和性行列を利用した新しいdrアルゴリズムsnekhornを提案する。 我々は,合成データと実世界のデータの両方についていくつかの指標を用いて,最先端のアプローチよりも明らかに優れていることを示す。

Many approaches in machine learning rely on a weighted graph to encode the similarities between samples in a dataset. Entropic affinities (EAs), which are notably used in the popular Dimensionality Reduction (DR) algorithm t-SNE, are particular instances of such graphs. To ensure robustness to heterogeneous sampling densities, EAs assign a kernel bandwidth parameter to every sample in such a way that the entropy of each row in the affinity matrix is kept constant at a specific value, whose exponential is known as perplexity. EAs are inherently asymmetric and row-wise stochastic, but they are used in DR approaches after undergoing heuristic symmetrization methods that violate both the row-wise constant entropy and stochasticity properties. In this work, we uncover a novel characterization of EA as an optimal transport problem, allowing a natural symmetrization that can be computed efficiently using dual ascent. The corresponding novel affinity matrix derives advantages from symmetric doubly stochastic normalization in terms of clustering performance, while also effectively controlling the entropy of each row thus making it particularly robust to varying noise levels. Following, we present a new DR algorithm, SNEkhorn, that leverages this new affinity matrix. We show its clear superiority to state-of-the-art approaches with several indicators on both synthetic and real-world datasets.
翻訳日:2023-05-24 17:55:45 公開日:2023-05-23
# 量子粒子の弱値と過去」へのコメント

Comment on "Weak values and the past of a quantum particle" ( http://arxiv.org/abs/2305.13828v1 )

ライセンス: Link先を確認
Lev Vaidman(参考訳) 最近の論文では、Hance, Rarity and Ladyman [Phys]。 Rev. Res. {\bf 5}, 023048 (2023)] は、最近の弱い値と量子粒子の過去をつなぐ提案を批判した。 彼らの結論は、彼らが議論した粒子の過去へのアプローチを理解するという概念的誤りから従うと私は論じる。

In a recent paper, Hance, Rarity and Ladyman [Phys. Rev. Res. {\bf 5}, 023048 (2023)] criticized recent proposals connecting weak values and the past of a quantum particle. I argue that their conclusion follows from a conceptual error in understanding the approach to the past of the particle they discuss.
翻訳日:2023-05-24 17:49:02 公開日:2023-05-23
# 2次元トポロジカル量子符号の層間分離

Layer-by-layer disentangling two-dimensional topological quantum codes ( http://arxiv.org/abs/2305.13827v1 )

ライセンス: Link先を確認
Mohammad Hossein Zarei and Mohsen Rahmani Haghighi(参考訳) 局所ユニタリ変換は、同じ位相クラスに属する量子状態を特定するために用いられるが、非局所ユニタリ変換は異なる位相クラス間の遷移を研究する上でも重要である。 特に、異なる位相クラスを体系的に網羅する適切な非局所変換を見つけることが重要である。 ここでは、トポロジカルクラスにおける次元の役割について、部分局所ユニタリ変換、すなわちグリーンベルガー・ホルン・ザイリンガー(GHZ)ディジエンタングルを導入し、層バイ層ディジエンタングル機構により初期トポロジカルモデルの次元を減少させる。 2次元(2次元)トポロジカル量子符号にそのような非絡み合いを応用し、それらが北エフのはしごの多くのコピーに変換されることを示す。 これは、GHZディジエンタングルが固有位相から対称性で保護された位相へ遷移することを意味する。 次に,キタエフのラダーは色コードとトーリックコードの両方の構成要素であるが,2次元色コードとトーリックコードではラダーが絡み合うパターンが異なることを示す。 これらのトポロジカルコードの異なるトポロジカルな特徴が、絡み合うはしごの異なるパターンに反映されていることを示す。 そこで本研究では,位相格子モデルにおける長距離絡みのパターンの異なるパターンを探索し,位相秩序の分類方法として層間解離機構を用いる方法を提案する。

While local unitary transformations are used for identifying quantum states which are in the same topological class, non-local unitary transformations are also important for studying the transition between different topological classes. In particular, it is an important task to find suitable non-local transformations that systematically sweep different topological classes. Here, regarding the role of dimension in the topological classes, we introduce partially local unitary transformations namely Greenberger-Horne-Zeilinger (GHZ) disentanglers which reduce the dimension of the initial topological model by a layer-by-layer disentangling mechanism. We apply such disentanglers to two-dimensional (2D) topological quantum codes and show that they are converted to many copies of Kitaev's ladders. It implies that the GHZ disentangler causes a transition from an intrinsic topological phase to a symmetry-protected topological phase. Then, we show that while Kitaev's ladders are building blocks of both color code and toric code, there are different patterns of entangling ladders in 2D color code and toric code. It shows that different topological features of these topological codes are reflected in different patterns of entangling ladders. In this regard, we propose that the layer-by-layer disentangling mechanism can be used as a systematic method for classification of topological orders based on finding different patterns of the long-range entanglement in topological lattice models.
翻訳日:2023-05-24 17:48:56 公開日:2023-05-23
# 「教皇はカトリックですか?」 チェーン・オブ・ソート推論による会話障害の理解

"Is the Pope Catholic?" Applying Chain-of-Thought Reasoning to Understanding Conversational Implicatures ( http://arxiv.org/abs/2305.13826v1 )

ライセンス: Link先を確認
Zae Myung Kim, David E. Taylor, Dongyeop Kang(参考訳) 会話的模倣(conversational implicature)とは、話者が明示的な発話から伝達する意図的な意味を、リスナーが推測することを要求する実用的な推論である。 このような推論推論は人間のコミュニケーションに不可欠であるが、最近の研究は、大きな言語モデルがこれらの不適応を平均的な人間と同じくらい効果的に理解するのに苦労していることを示している。 本稿では,Grice's Four Maximsをチェーン・オブ・シークレット・プロンプトを通じてモデルに組み込むことで,その性能を大幅に向上させることができることを示す。

Conversational implicatures are pragmatic inferences that require listeners to deduce the intended meaning conveyed by a speaker from their explicit utterances. Although such inferential reasoning is fundamental to human communication, recent research indicates that large language models struggle to comprehend these implicatures as effectively as the average human. This paper demonstrates that by incorporating Grice's Four Maxims into the model through chain-of-thought prompting, we can significantly enhance its performance, surpassing even the average human performance on this task.
翻訳日:2023-05-24 17:48:27 公開日:2023-05-23
# パラメータ分離による動的グラフの連続学習

Continual Learning on Dynamic Graphs via Parameter Isolation ( http://arxiv.org/abs/2305.13825v1 )

ライセンス: Link先を確認
Peiyan Zhang, Yuchen Yan, Chaozhuo Li, Senzhang Wang, Xing Xie, Guojie Song, Sunghun Kim(参考訳) 実世界のグラフ学習タスクの多くは、新しいノードとエッジが出現する動的グラフの処理を必要とする。 動的グラフ学習法は一般に、過去のグラフで学んだ知識が新しいグラフの更新によって上書きされる破滅的な忘れ問題に悩まされる。 問題を緩和するため,連続グラフ学習法を提案する。 しかし、既存の連続グラフ学習手法は、新しいパターンを学習し、同じパラメータセットの固定サイズで古いパターンを維持することを目的としており、したがって両目標の根本的なトレードオフに直面している。 本稿では,パラメータ分離と拡張によるトレードオフを回避する動的グラフの連続学習のためのパラメータ分離GNN(PI-GNN)を提案する。 私たちのモチベーションは、異なるパラメータが異なるグラフパターンの学習に寄与することにあります。 このアイデアに基づいて,モデルパラメータを拡張して,新たなグラフパターンを継続的に学習する。 一方、影響のないパターンの知識を効果的に保存するために、最適化によってそれらに対応するパラメータを見つけ、それらを凍結して書き換えるのを防ぐ。 8つの実世界のデータセットの実験は、最先端のベースラインと比較してPI-GNNの有効性を裏付ける。

Many real-world graph learning tasks require handling dynamic graphs where new nodes and edges emerge. Dynamic graph learning methods commonly suffer from the catastrophic forgetting problem, where knowledge learned for previous graphs is overwritten by updates for new graphs. To alleviate the problem, continual graph learning methods are proposed. However, existing continual graph learning methods aim to learn new patterns and maintain old ones with the same set of parameters of fixed size, and thus face a fundamental tradeoff between both goals. In this paper, we propose Parameter Isolation GNN (PI-GNN) for continual learning on dynamic graphs that circumvents the tradeoff via parameter isolation and expansion. Our motivation lies in that different parameters contribute to learning different graph patterns. Based on the idea, we expand model parameters to continually learn emerging graph patterns. Meanwhile, to effectively preserve knowledge for unaffected patterns, we find parameters that correspond to them via optimization and freeze them to prevent them from being rewritten. Experiments on eight real-world datasets corroborate the effectiveness of PI-GNN compared to state-of-the-art baselines.
翻訳日:2023-05-24 17:48:08 公開日:2023-05-23
# 動的材料ハンドリングのための拘束強化学習

Constrained Reinforcement Learning for Dynamic Material Handling ( http://arxiv.org/abs/2305.13824v1 )

ライセンス: Link先を確認
Chengpeng Hu, Ziming Wang, Jialin Liu, Junyi Wen, Bifei Mao, Xin Yao(参考訳) フレキシブル・マニュファクチャリング・システムの中核部分の一つとして、材料処理にはワークステーションと自動走行車の間での材料の保管と輸送が含まれる。 材料処理の改善は、製造システムの全体的な効率を損なう可能性がある。 しかしながら、タスクアレンジメントの最適化中に動的イベントが発生することは、適応性と有効性を必要とする課題となる。 本稿では,動的材料処理のための自動誘導車両のスケジューリングを目的とした。 いくつかの現実世界のシナリオに動機づけられ、未知の新しいタスクと予期しない車両の故障は、我々の問題における動的な出来事とみなされる。 我々は,この問題を,重大性を考慮したマルコフ決定過程として定式化し,各車両を累積的および即時的制約として定式化する。 ラグランジュ緩和と無効動作マスキングを組み合わせた適応的制約強化学習アルゴリズムRCPOMを提案する。 さらに,dmh-gymと呼ばれるジム型動的材料ハンドリングシミュレータを開発し,動的材料ハンドリングのベンチマークとして使用できる多様な問題インスタンスを装備した。 提案手法は,8種類の制約付きおよび非拘束型強化学習アルゴリズムと,材料処理に広く用いられているディスパッチルールと比較して,提案手法の優れた性能を示す実験結果を得た。

As one of the core parts of flexible manufacturing systems, material handling involves storage and transportation of materials between workstations with automated vehicles. The improvement in material handling can impulse the overall efficiency of the manufacturing system. However, the occurrence of dynamic events during the optimisation of task arrangements poses a challenge that requires adaptability and effectiveness. In this paper, we aim at the scheduling of automated guided vehicles for dynamic material handling. Motivated by some real-world scenarios, unknown new tasks and unexpected vehicle breakdowns are regarded as dynamic events in our problem. We formulate the problem as a constrained Markov decision process which takes into account tardiness and available vehicles as cumulative and instantaneous constraints, respectively. An adaptive constrained reinforcement learning algorithm that combines Lagrangian relaxation and invalid action masking, named RCPOM, is proposed to address the problem with two hybrid constraints. Moreover, a gym-like dynamic material handling simulator, named DMH-GYM, is developed and equipped with diverse problem instances, which can be used as benchmarks for dynamic material handling. Experimental results on the problem instances demonstrate the outstanding performance of our proposed approach compared with eight state-of-the-art constrained and non-constrained reinforcement learning algorithms, and widely used dispatching rules for material handling.
翻訳日:2023-05-24 17:47:42 公開日:2023-05-23
# XRoute Environment: ルーティングのための新しい強化学習環境

XRoute Environment: A Novel Reinforcement Learning Environment for Routing ( http://arxiv.org/abs/2305.13823v1 )

ライセンス: Link先を確認
Zhanwen Zhou, Hankz Hankui Zhuo, Xiaowu Zhang, Qiyuan Deng(参考訳) ルーティングは、先進技術ノードのための現代的な設計自動化フローにおいて重要かつ時間のかかる段階である。 強化学習の分野での大きな進歩は、これらのアプローチを使ってルーティングの品質と効率を改善することができる。 しかし,最近の研究で強化学習法が解決した経路問題の規模は小さすぎて,商用のedaツールでは利用できない。 我々はXRoute環境を紹介した。XRoute環境は、エージェントが高度なエンドツーエンドのルーティングフレームワークにおいて、ネットの選択とルーティングを訓練する新しい強化学習環境である。 新たなアルゴリズムやアイデアは、安全かつ再現可能な方法で迅速にテストすることができる。 結果として生じる環境は難しく、使いやすく、カスタマイズし、追加のシナリオを追加し、寛容なオープンソースライセンスの下で利用できる。 さらに、分散デプロイメントとマルチインスタンス実験のサポートも提供する。 本稿では,各地域規模のベンチマークをルーティングするフルチップテストベッドを構築するための2つのタスクを提案する。 また,ピン密度やネット数が異なる静的ルーティング領域を事前定義することで,学習やテストが容易になる。 ネットオーダリングタスクでは,広く使用されている強化学習アルゴリズム(ppoとdqn)と検索ベースアルゴリズム(tritonroute)のベースライン結果について報告する。 XRoute Environmentはhttps://github.com/xplanlab/xroute_env.comから入手できる。

Routing is a crucial and time-consuming stage in modern design automation flow for advanced technology nodes. Great progress in the field of reinforcement learning makes it possible to use those approaches to improve the routing quality and efficiency. However, the scale of the routing problems solved by reinforcement learning-based methods in recent studies is too small for these methods to be used in commercial EDA tools. We introduce the XRoute Environment, a new reinforcement learning environment where agents are trained to select and route nets in an advanced, end-to-end routing framework. Novel algorithms and ideas can be quickly tested in a safe and reproducible manner in it. The resulting environment is challenging, easy to use, customize and add additional scenarios, and it is available under a permissive open-source license. In addition, it provides support for distributed deployment and multi-instance experiments. We propose two tasks for learning and build a full-chip test bed with routing benchmarks of various region sizes. We also pre-define several static routing regions with different pin density and number of nets for easier learning and testing. For net ordering task, we report baseline results for two widely used reinforcement learning algorithms (PPO and DQN) and one searching-based algorithm (TritonRoute). The XRoute Environment will be available at https://github.com/xplanlab/xroute_env.
翻訳日:2023-05-24 17:47:00 公開日:2023-05-23
# GenSpectrum Chat: 大規模言語モデルを用いた公衆衛生におけるデータ探索

GenSpectrum Chat: Data Exploration in Public Health Using Large Language Models ( http://arxiv.org/abs/2305.13821v1 )

ライセンス: Link先を確認
Chaoran Chen, Tanja Stadler(参考訳) 導入:新型コロナウイルス(COVID-19)パンデミックは、公衆衛生機関や一般市民、研究者にとって、疫学的データや科学的知見を容易に入手し、探索できることの重要性を強調した。 データと洞察を共有するための最先端のアプローチには、定期的に更新されたレポートとWebダッシュボードが含まれる。 しかし、データ探索の単純さと柔軟性の間にはトレードオフがある。 GPT-4のような最近の大規模言語モデル(LLM)の能力により、このトレードオフは克服できる。 結果:sars-cov-2ゲノムシーケンシングデータを探索するためにgpt-4を基礎とするチャットボット「genspectrum chat」(https://cov-spectrum.org/chat)を開発した。 現実世界のユーザーから500件のインプットのうち、チャットボットは453件のプロンプトに対して正しい回答を提供し、13件のプロンプトに対する誤った回答と34件のプロンプトの範囲内であったにもかかわらず、答えは得られなかった。 また、このチャットボットを10の異なる言語からのインプットでテストし、英語の指示や例のみを提供するにもかかわらず、すべてのテスト言語でプロンプトの処理に成功した。 結論: LLMは情報システムと対話する新しい方法を可能にする。 公衆衛生の分野では、GenSpectrum Chatはリアルタイム病原体ゲノムデータの解析を容易にする。 私たちのチャットボットはさまざまな言語でのインタラクティブな探索をサポートしており、世界中の政策立案者のための最新の証拠に素早く直接アクセスできることを想定しています。

Introduction: The COVID-19 pandemic highlighted the importance of making epidemiological data and scientific insights easily accessible and explorable for public health agencies, the general public, and researchers. State-of-the-art approaches for sharing data and insights included regularly updated reports and web dashboards. However, they face a trade-off between the simplicity and flexibility of data exploration. With the capabilities of recent large language models (LLMs) such as GPT-4, this trade-off can be overcome. Results: We developed the chatbot "GenSpectrum Chat" (https://cov-spectrum.org/chat) which uses GPT-4 as the underlying large language model (LLM) to explore SARS-CoV-2 genomic sequencing data. Out of 500 inputs from real-world users, the chatbot provided a correct answer for 453 prompts; an incorrect answer for 13 prompts, and no answer although the question was within scope for 34 prompts. We also tested the chatbot with inputs from 10 different languages, and despite being provided solely with English instructions and examples, it successfully processed prompts in all tested languages. Conclusion: LLMs enable new ways of interacting with information systems. In the field of public health, GenSpectrum Chat can facilitate the analysis of real-time pathogen genomic data. With our chatbot supporting interactive exploration in different languages, we envision quick and direct access to the latest evidence for policymakers around the world.
翻訳日:2023-05-24 17:46:26 公開日:2023-05-23
# 言語識別のためのオープンデータセットとモデル

An Open Dataset and Model for Language Identification ( http://arxiv.org/abs/2305.13820v1 )

ライセンス: Link先を確認
Laurie Burchell, Alexandra Birch, Nikolay Bogoychev and Kenneth Heafield(参考訳) 言語識別(LID)は多くの自然言語処理パイプラインの基本ステップである。 しかし、現在のLIDシステムは、特に低リソース言語では完璧にはほど遠い。 マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成し、過去の作業より優れるLIDモデルを提案する。 我々は、単言語データのキュレートされたデータセットをトレーニングし、各ソースと各言語からサンプルを手動で監査することで、信頼性を確保する。 モデルとデータセットの両方を研究コミュニティに公開しています。 最後に、既存のオープンモデルと言語クラスの両方と比較して、モデルのパフォーマンスに関する詳細な分析を行います。

Language identification (LID) is a fundamental step in many natural language processing pipelines. However, current LID systems are far from perfect, particularly on lower-resource languages. We present a LID model which achieves a macro-average F1 score of 0.93 and a false positive rate of 0.033 across 201 languages, outperforming previous work. We achieve this by training on a curated dataset of monolingual data, the reliability of which we ensure by auditing a sample from each source and each language manually. We make both the model and the dataset available to the research community. Finally, we carry out detailed analysis into our model's performance, both in comparison to existing open models and by language class.
翻訳日:2023-05-24 17:46:00 公開日:2023-05-23
# WaveDM:画像復元のためのウェーブレットベース拡散モデル

WaveDM: Wavelet-Based Diffusion Models for Image Restoration ( http://arxiv.org/abs/2305.13819v1 )

ライセンス: Link先を確認
Yi Huang, Jiancheng Huang, Jianzhuang Liu, Yu Dong, Jiaxi Lv, Shifeng Chen(参考訳) 多くの画像復元タスクに対する最新の拡散ベース手法は、従来のモデルよりも優れているが、長期にわたる推論問題に遭遇する。 そこで本研究では,効率的な条件サンプリング(ECS)戦略を備えたWavelet-based Diffusion Model (WaveDM)を提案する。 WaveDMは,ウェーブレット変換後の劣化画像のウェーブレットスペクトルに条件付きウェーブレット領域におけるクリーン画像の分布を学習する。 さらに、ECSは初期サンプリング期間における決定論的暗黙サンプリングと同じ手順を踏襲し、クリーンな画像を直接予測するのを停止し、全サンプリングステップ数を約5に削減する。 画像雨滴除去,デフォーカス除去,復号化,復号化を含む4つのベンチマークデータセットの評価は,WaveDMが従来のワンパス手法に匹敵する効率と,バニラ拡散モデルを用いた既存の画像復元手法の100倍以上の速度で,最先端のパフォーマンスを達成することを示した。

Latest diffusion-based methods for many image restoration tasks outperform traditional models, but they encounter the long-time inference problem. To tackle it, this paper proposes a Wavelet-Based Diffusion Model (WaveDM) with an Efficient Conditional Sampling (ECS) strategy. WaveDM learns the distribution of clean images in the wavelet domain conditioned on the wavelet spectrum of degraded images after wavelet transform, which is more time-saving in each step of sampling than modeling in the spatial domain. In addition, ECS follows the same procedure as the deterministic implicit sampling in the initial sampling period and then stops to predict clean images directly, which reduces the number of total sampling steps to around 5. Evaluations on four benchmark datasets including image raindrop removal, defocus deblurring, demoir\'eing, and denoising demonstrate that WaveDM achieves state-of-the-art performance with the efficiency that is comparable to traditional one-pass methods and over 100 times faster than existing image restoration methods using vanilla diffusion models.
翻訳日:2023-05-24 17:45:50 公開日:2023-05-23
# 下流自然言語処理の性能向上のための臨床文書のレイアウトの自動検出

Detecting automatically the layout of clinical documents to enhance the performances of downstream natural language processing ( http://arxiv.org/abs/2305.13817v1 )

ライセンス: Link先を確認
Christel G\'erardin, Perceval Wajsb\"urt, Basile Dura, Alice Calliger, Alexandre Moucher, Xavier Tannier and Romain Bey(参考訳) 目的:下流自然言語処理タスクの性能を向上させるために,PDF臨床文書のレイアウト解析アルゴリズムの開発と検証を行う。 資料と方法: 臨床用PDF文書を処理し, 臨床用テキストのみを抽出するアルゴリズムを設計した。 このアルゴリズムは、PDFパーサを使用した初期テキスト抽出、続いてトランスフォーマーのディープニューラルネットワークアーキテクチャを使用したボディテキスト、左メモ、フッタなどのカテゴリに分類され、最終的にテキスト内の与えられたラベルの行をコンパイルする集約ステップで構成されている。 注釈付き文書のランダムなサンプルに適用することにより,身体テキスト抽出アルゴリズムの技術的性能を評価した。 それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。 最後に,病院報告に記載された急性感染症を自動的に検出する医療症例に対して,エンド・ツー・エンドシステムの試験を行った。 結果:我々のアルゴリズムは,体線抽出の精度,リコール,F1スコアを98.4,97.0,97.7とした。 急性感染症検出アルゴリズムの精度、リコール、F1スコアはそれぞれ82.54(95CI 72.86-91.60)、85.24(95CI 76.61-93.70)、83.87(95CI 76, 92-90.08)であった。 結論:我々はPDF形式で臨床文書から身体テキストを抽出するシステムを開発し,そのレイアウトを同定した。 我々は,この前処理により,共通の下流作業,すなわちそれぞれの部分における医療概念の抽出において,より良いパフォーマンスが得られることを実証し,臨床症例における本手法の意義を証明できた。

Objective:Develop and validate an algorithm for analyzing the layout of PDF clinical documents to improve the performance of downstream natural language processing tasks. Materials and Methods: We designed an algorithm to process clinical PDF documents and extract only clinically relevant text. The algorithm consists of several steps: initial text extraction using a PDF parser, followed by classification into categories such as body text, left notes, and footers using a Transformer deep neural network architecture, and finally an aggregation step to compile the lines of a given label in the text. We evaluated the technical performance of the body text extraction algorithm by applying it to a random sample of documents that were annotated. Medical performance was evaluated by examining the extraction of medical concepts of interest from the text in their respective sections. Finally, we tested an end-to-end system on a medical use case of automatic detection of acute infection described in the hospital report. Results:Our algorithm achieved per-line precision, recall, and F1 score of 98.4, 97.0, and 97.7, respectively, for body line extraction. The precision, recall, and F1 score per document for the acute infection detection algorithm were 82.54 (95CI 72.86-91.60), 85.24 (95CI 76.61-93.70), 83.87 (95CI 76, 92-90.08) with exploitation of the results of the advanced body extraction algorithm, respectively. Conclusion:We have developed and validated a system for extracting body text from clinical documents in PDF format by identifying their layout. We were able to demonstrate that this preprocessing allowed us to obtain better performances for a common downstream task, i.e., the extraction of medical concepts in their respective sections, thus proving the interest of this method on a clinical use case.
翻訳日:2023-05-24 17:45:28 公開日:2023-05-23
# KidneyRegNet:呼吸中の3DCT-2DUS Kidney登録のためのディープラーニング手法

KidneyRegNet: A Deep Learning Method for 3DCT-2DUS Kidney Registration during Breathing ( http://arxiv.org/abs/2305.13855v1 )

ライセンス: Link先を確認
Chi Yanling, Xu Yuyu, Liu Huiying, Wu Xiaoxiang, Liu Zhiqiang, Mao Jiawei, Xu Guibin, Huang Weimin(参考訳) 本研究は、3DCTと2D U/S腎スキャンのための新しいディープ登録パイプラインを提案し、特徴ネットワークと3D-2D CNNベースの登録ネットワークで構成される。 特徴ネットワークは、セマンティックギャップを減らすために手作りテクスチャ特徴層を備えている。 登録ネットワークは、特徴画像移動(fim)の損失を伴うエンコーダデコーダ構造であり、デコーダ層での階層的回帰を可能にし、複数のネットワーク結合を回避する。 トレーニングデータ生成戦略を反映した振り返りデータセットを事前訓練し, 現場アプリケーションにおける教師なし1サイクル移行学習に基づく特定の患者データに適用した。 実験は132のU/S配列、39の多相CT、210の公開単相CT画像、25のCTおよびU/Sシーケンスで実施された。 その結果、CTでは腎臓とU/S画像の平均輪郭距離(MCD)が0.94mm、CTでは1.15mm、基準CTでは1.15mmとなった。 小さな変換を持つデータセットでは、それぞれ0.82mmと1.02mmのMDDとなる。 大きな変換では、それぞれ1.10mmと1.28mmのMDDとなる。 この研究は、新しいネットワーク構造と訓練戦略による自由呼吸中の3dct-2dus腎臓登録の難しさに対処した。

This work proposed a novel deep registration pipeline for 3D CT and 2D U/S kidney scans of free breathing, which consists of a feature network, and a 3D-2D CNN-based registration network. The feature network has handcraft texture feature layers to reduce the semantic gap. The registration network is encoder-decoder structure with loss of feature-image-motion (FIM), which enables hierarchical regression at decoder layers and avoids multiple network concatenation. It was first pretrained with retrospective datasets cum training data generation strategy, then adapted to specific patient data under unsupervised one-cycle transfer learning in onsite application. The experiment was on 132 U/S sequences, 39 multiple phase CT and 210 public single phase CT images, and 25 pairs of CT and U/S sequences. It resulted in mean contour distance (MCD) of 0.94 mm between kidneys on CT and U/S images and MCD of 1.15 mm on CT and reference CT images. For datasets with small transformations, it resulted in MCD of 0.82 and 1.02 mm respectively. For large transformations, it resulted in MCD of 1.10 and 1.28 mm respectively. This work addressed difficulties in 3DCT-2DUS kidney registration during free breathing via novel network structures and training strategy.
翻訳日:2023-05-24 17:39:04 公開日:2023-05-23
# グラフニューラルネットワークのための分散システムの進化とグラフ処理とディープラーニングにおけるその起源

The Evolution of Distributed Systems for Graph Neural Networks and their Origin in Graph Processing and Deep Learning: A Survey ( http://arxiv.org/abs/2305.13854v1 )

ライセンス: Link先を確認
Jana Vatter, Ruben Mayer, Hans-Arno Jacobsen(参考訳) グラフニューラルネットワーク(GNN)は、新たな研究分野である。 この専門的なDeep Neural Network(DNN)アーキテクチャは、グラフ構造化データを処理し、グラフ処理とディープラーニング(DL)のギャップを埋める。 グラフがどこにでもあるので、GNNはレコメンデーションシステム、コンピュータビジョン、自然言語処理、生物学、化学など様々な分野に適用できる。 現実世界のグラフが急速に拡大するにつれ、効率的でスケーラブルなGNNトレーニングソリューションの必要性が高まっている。 その結果、近年、GNNシステムを提案する作品が数多く出現している。 しかし,このようなシステムには,概観,分類,比較の急な欠如がある。 我々は,大規模GNNソリューションの重要な手法と手法を要約し,分類することで,このギャップを埋めることを目指している。 さらに,GNNシステム,グラフ処理システム,DLシステム間の接続を確立する。

Graph Neural Networks (GNNs) are an emerging research field. This specialized Deep Neural Network (DNN) architecture is capable of processing graph structured data and bridges the gap between graph processing and Deep Learning (DL). As graphs are everywhere, GNNs can be applied to various domains including recommendation systems, computer vision, natural language processing, biology and chemistry. With the rapid growing size of real world graphs, the need for efficient and scalable GNN training solutions has come. Consequently, many works proposing GNN systems have emerged throughout the past few years. However, there is an acute lack of overview, categorization and comparison of such systems. We aim to fill this gap by summarizing and categorizing important methods and techniques for large-scale GNN solutions. In addition, we establish connections between GNN systems, graph processing systems and DL systems.
翻訳日:2023-05-24 17:38:41 公開日:2023-05-23
# ビジュアルリッチ文書のグローバル構造知識誘導関係抽出法

Global Structure Knowledge-Guided Relation Extraction Method for Visually-Rich Document ( http://arxiv.org/abs/2305.13850v1 )

ライセンス: Link先を確認
Xiangnan Chen, Juncheng Li, Duo Dong, Qian Xiao, Jun Lin, Xiaozhong Liu, Siliang Tang(参考訳) 視覚関係抽出(VRE)は、視覚的に豊かな文書から実体間の関係を抽出することを目的としている。 既存の手法は通常、エンティティの特徴に基づいて各エンティティペアの関係を予測するが、グローバルな構造情報、すなわちエンティティペア間の依存関係を無視する。 グローバル構造情報の欠如は、モデルが長距離関係を学習し、矛盾した結果を容易に予測するのに苦労するかもしれない。 このような制約を緩和するため,我々は,エンティティペア間の依存関係を反復的に捉えたgose(global structure knowledgeguided relation extraction)フレームワークを提案する。 文書のスキャン画像が与えられると、goseはまずエンティティペアに関する予備関係予測を生成する。 第2に、前回の予測結果に基づいてグローバル構造知識をマイニングし、さらにグローバル構造知識をエンティティ表現に組み込む。 この"ジェネレート・キャプチャー・インコーポレート"スキーマは、エンティティ表現とグローバル構造知識が相互に強化できるように、複数回実行される。 広汎な実験により,GOSEは従来の手法を標準微調整環境で上回るだけでなく,言語間学習において有望な優位性を示し,低リソース環境でのデータ効率が向上することが示された。

Visual relation extraction (VRE) aims to extract relations between entities from visuallyrich documents. Existing methods usually predict relations for each entity pair independently based on entity features but ignore the global structure information, i.e., dependencies between entity pairs. The absence of global structure information may make the model struggle to learn long-range relations and easily predict conflicted results. To alleviate such limitations, we propose a GlObal Structure knowledgeguided relation Extraction (GOSE) framework, which captures dependencies between entity pairs in an iterative manner. Given a scanned image of the document, GOSE firstly generates preliminary relation predictions on entity pairs. Secondly, it mines global structure knowledge based on prediction results of the previous iteration and further incorporates global structure knowledge into entity representations. This "generate-capture-incorporate" schema is performed multiple times so that entity representations and global structure knowledge can mutually reinforce each other. Extensive experiments show that GOSE not only outperforms previous methods on the standard fine-tuning setting but also shows promising superiority in cross-lingual learning; even yields stronger data-efficient performance in the low-resource setting.
翻訳日:2023-05-24 17:38:30 公開日:2023-05-23
# マハラノビス距離に基づく不確かさ推定のための深分類器の自己教師付きガウス正則化

Self-Supervised Gaussian Regularization of Deep Classifiers for Mahalanobis-Distance-Based Uncertainty Estimation ( http://arxiv.org/abs/2305.13849v1 )

ライセンス: Link先を確認
Aishwarya Venkataramanan, Assia Benbihi, Martin Laviale, Cedric Pradalier(参考訳) 近年,ネットワークの潜在空間におけるデータ分布は,分類の不確かさを推定し,ood(out-of-distribution)サンプルを検出するのに有用であることが示された。 不確実性推定に資するよく規則化された潜在空間を得るため、既存の手法はモデルアーキテクチャやトレーニング手順に大きな変化をもたらす。 本稿では,マハラノビス距離に基づく不確実性予測のための軽量,高速,高性能な正規化手法を提案する。 マハラノビス距離計算に好適なガウス的潜在表現を導出するために、クラス内表現を複数のガウス的表現に分離する自己教師付き表現学習法を提案する。 非ガウス表現を持つクラスは自動的に識別され、ほぼガウス表現である複数の新しいクラスに動的にクラスタ化される。 標準OODベンチマークによる評価の結果,提案手法は最小推定時間でOOD検出の最先端化を実現し,予測確率のキャリブレーションに非常に競争力があることがわかった。 最後に,本手法の微生物分類における実生活コンピュータビジョン利用事例への適用性を示す。

Recent works show that the data distribution in a network's latent space is useful for estimating classification uncertainty and detecting Out-of-distribution (OOD) samples. To obtain a well-regularized latent space that is conducive for uncertainty estimation, existing methods bring in significant changes to model architectures and training procedures. In this paper, we present a lightweight, fast, and high-performance regularization method for Mahalanobis distance-based uncertainty prediction, and that requires minimal changes to the network's architecture. To derive Gaussian latent representation favourable for Mahalanobis Distance calculation, we introduce a self-supervised representation learning method that separates in-class representations into multiple Gaussians. Classes with non-Gaussian representations are automatically identified and dynamically clustered into multiple new classes that are approximately Gaussian. Evaluation on standard OOD benchmarks shows that our method achieves state-of-the-art results on OOD detection with minimal inference time, and is very competitive on predictive probability calibration. Finally, we show the applicability of our method to a real-life computer vision use case on microorganism classification.
翻訳日:2023-05-24 17:38:10 公開日:2023-05-23
# 地理的エンティティ参照、コリファレンス、リンクアノテーションを備えたarukikata travelogueデータセット

Arukikata Travelogue Dataset with Geographic Entity Mention, Coreference, and Link Annotation ( http://arxiv.org/abs/2305.13844v1 )

ライセンス: Link先を確認
Shohei Higashiyama, Hiroki Ouchi, Hiroki Teranishi, Hiroyuki Otomo, Yusuke Ide, Aitaro Yamamoto, Hiroyuki Shindo, Yuki Matsuda, Shoko Wakamiya, Naoya Inoue, Ikuya Yamada, Taro Watanabe(参考訳) ジオパーシング(geoparsing)は、テキスト中のジオエンティティ情報を分析する基本的な手法である。 本稿では,地理的関連性を考慮した文書レベルのジオペアリングに着目し,文書レベルのジオペアリングシステムを評価するための日本のトラベローグデータセットを提案する。 我々のデータセットは、ジオデータベースエントリにリンクされた12,171の言及、6,339のコア参照クラスタ、2,551のジオエンティティを含む200の旅行情報からなる。

Geoparsing is a fundamental technique for analyzing geo-entity information in text. We focus on document-level geoparsing, which considers geographic relatedness among geo-entity mentions, and presents a Japanese travelogue dataset designed for evaluating document-level geoparsing systems. Our dataset comprises 200 travelogue documents with rich geo-entity information: 12,171 mentions, 6,339 coreference clusters, and 2,551 geo-entities linked to geo-database entries.
翻訳日:2023-05-24 17:37:50 公開日:2023-05-23
# control-a-video:拡散モデルを用いたテキスト対ビデオ生成

Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models ( http://arxiv.org/abs/2305.13840v1 )

ライセンス: Link先を確認
Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, Xin Xia, Xuefeng Xiao, Liang Lin(参考訳) 本稿では,エッジマップや深度マップなどの一連の制御信号に基づく映像を生成するビデオ制御ネットという,制御可能なt2v拡散モデルを提案する。 video-controlnetは、空間-時間間自己着機構と訓練可能な時間層を組み込んだ事前学習された条件付きテキスト・ツー・イメージ(t2i)拡散モデルに基づいて構築され、効率的なクロスフレームモデリングを行う。 画像領域から転送されるビデオや任意の長さの動画を自動回帰的に生成するための第1フレーム条件付け戦略を提案する。 さらに、Video-ControlNetは、新しい残差に基づくノイズ初期化戦略を採用し、入力ビデオから動きを導入し、よりコヒーレントなビデオを生成する。 提案したアーキテクチャと戦略により、Video-ControlNetはリソース効率の高い収束を実現し、きめ細かい制御で高品質で一貫したビデオを生成することができる。 ビデオ編集やビデオスタイルの転送といった様々なビデオ生成タスクにおいて、その成功を実証し、一貫性と品質の点で従来の手法よりも優れていた。 プロジェクトページ: https://controlavideo.github.io/

This paper presents a controllable text-to-video (T2V) diffusion model, named Video-ControlNet, that generates videos conditioned on a sequence of control signals, such as edge or depth maps. Video-ControlNet is built on a pre-trained conditional text-to-image (T2I) diffusion model by incorporating a spatial-temporal self-attention mechanism and trainable temporal layers for efficient cross-frame modeling. A first-frame conditioning strategy is proposed to facilitate the model to generate videos transferred from the image domain as well as arbitrary-length videos in an auto-regressive manner. Moreover, Video-ControlNet employs a novel residual-based noise initialization strategy to introduce motion prior from an input video, producing more coherent videos. With the proposed architecture and strategies, Video-ControlNet can achieve resource-efficient convergence and generate superior quality and consistent videos with fine-grained control. Extensive experiments demonstrate its success in various video generative tasks such as video editing and video style transfer, outperforming previous methods in terms of consistency and quality. Project Page: https://controlavideo.github.io/
翻訳日:2023-05-24 17:37:41 公開日:2023-05-23
# sar-to-optical image translation via thermodynamics-inspired network (特集 熱力学)

SAR-to-Optical Image Translation via Thermodynamics-inspired Network ( http://arxiv.org/abs/2305.13839v1 )

ライセンス: Link先を確認
Mingjin Zhang, Jiamin Xu, Chengyu He, Wenteng Shang, Yunsong Li, and Xinbo Gao(参考訳) 合成開口レーダ(SAR)はリモートセンシング分野では一般的であるが,人間の視覚知覚では解釈が困難である。 近年,sar-to-optical (s2o) 画像変換手法が提案されている。 しかし、光学画像とsar画像の間には大きな領域差があるため、生成した光学画像の画質の低下と幾何学的歪みに苦しむ。 本稿では,S2O画像翻訳中の画素と熱場中の分子の類似により,SAR-to-Optical Image Translation (S2O-TDN) のための熱力学ネットワークを提案する。 具体的には、熱力学のTFD方程式に照らして3次有限差分(TFD)残差構造を設計し、ドメイン間不変性を効率的に抽出し、非線形変換写像の学習を容易にする。 さらに,熱力学の第1法則を用いて,不安定な拡散状態から安定な状態への特徴値の状態遷移を促進するFLT誘導分岐を考案し,S2O画像翻訳における特徴拡散の規則化と画像構造保存を目的とした。 S2O-TDNは熱力学理論から導かれた明示的な設計原理に従い、説明可能性の利点を享受する。 公的なSEN1-2データセットの実験は、より繊細なテクスチャとより定量的な結果を持つ現在の手法よりも提案されたS2O-TDNの利点を示している。

Synthetic aperture radar (SAR) is prevalent in the remote sensing field but is difficult to interpret in human visual perception. Recently, SAR-to-optical (S2O) image conversion methods have provided a prospective solution for interpretation. However, since there is a huge domain difference between optical and SAR images, they suffer from low image quality and geometric distortion in the produced optical images. Motivated by the analogy between pixels during the S2O image translation and molecules in a heat field, Thermodynamics-inspired Network for SAR-to-Optical Image Translation (S2O-TDN) is proposed in this paper. Specifically, we design a Third-order Finite Difference (TFD) residual structure in light of the TFD equation of thermodynamics, which allows us to efficiently extract inter-domain invariant features and facilitate the learning of the nonlinear translation mapping. In addition, we exploit the first law of thermodynamics (FLT) to devise an FLT-guided branch that promotes the state transition of the feature values from the unstable diffusion state to the stable one, aiming to regularize the feature diffusion and preserve image structures during S2O image translation. S2O-TDN follows an explicit design principle derived from thermodynamic theory and enjoys the advantage of explainability. Experiments on the public SEN1-2 dataset show the advantages of the proposed S2O-TDN over the current methods with more delicate textures and higher quantitative results.
翻訳日:2023-05-24 17:37:20 公開日:2023-05-23
# 対話からのテキスト生成における話者名の感度の低減

Reducing Sensitivity on Speaker Names for Text Generation from Dialogues ( http://arxiv.org/abs/2305.13833v1 )

ライセンス: Link先を確認
Qi Jia, Haifeng Tang, Kenny Q. Zhu(参考訳) 対話を通して一貫して話者名を変更することは、対話からテキストを生成するための意味や対応する出力に影響を与えてはならない。 しかし、対話処理タスクのバックボーンとして機能する事前訓練された言語モデルはニュアンスに敏感であることが示されている。 これは現実世界のアプリケーションで不公平になる可能性がある。 この問題に関する包括的分析は過去に行われていない。 そこで本研究では,話者名に対するモデルの感度を定量的に測定し,話者名の感度を低減するための既知の手法を包括的に評価することを提案する。 複数のデータセットに対する大規模な実験は、この問題に対するベンチマークを提供し、感度低下と生成品質における我々のアプローチの好ましい性能を示す。

Changing speaker names consistently throughout a dialogue should not affect its meaning and corresponding outputs for text generation from dialogues. However, pre-trained language models, serving as the backbone for dialogue-processing tasks, have shown to be sensitive to nuances. This may result in unfairness in real-world applications. No comprehensive analysis of this problem has been done in the past. In this work, we propose to quantitatively measure a model's sensitivity on speaker names, and comprehensively evaluate a number of known methods for reducing speaker name sensitivity, including a novel approach of our own. Extensive experiments on multiple datasets provide a benchmark for this problem and show the favorable performance of our approach in sensitivity reduction and quality of generation.
翻訳日:2023-05-24 17:36:54 公開日:2023-05-23
# ZET-Speech:拡散モデルとスタイルモデルを用いたゼロショット適応型感情制御型テキスト音声合成

ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models ( http://arxiv.org/abs/2305.13831v1 )

ライセンス: Link先を確認
Minki Kang, Wooseok Han, Sung Ju Hwang, Eunho Yang(参考訳) Emotional Text-To-Speech (TTS) は、自然および感情的な音声を必要とするシステム(例えば人間のような対話エージェント)の開発において重要なタスクである。 しかし、既存のアプローチは、訓練中に見る話者に感情的なttを生成することだけを目的としており、見当たらない話者への一般化を考慮していない。 本稿では,ゼロショット適応型感情制御型TTSモデルであるZET-Speechを提案する。 具体的には,ゼロショット適応ttsモデルが感情音声合成を可能にするために,拡散モデル上でのドメイン逆学習と指導法を提案する。 実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。 サンプルはhttps://ZET-Speech.github.io/ZET-Speech-Demo/にある。

Emotional Text-To-Speech (TTS) is an important task in the development of systems (e.g., human-like dialogue agents) that require natural and emotional speech. Existing approaches, however, only aim to produce emotional TTS for seen speakers during training, without consideration of the generalization to unseen speakers. In this paper, we propose ZET-Speech, a zero-shot adaptive emotion-controllable TTS model that allows users to synthesize any speaker's emotional speech using only a short, neutral speech segment and the target emotion label. Specifically, to enable a zero-shot adaptive TTS model to synthesize emotional speech, we propose domain adversarial learning and guidance methods on the diffusion model. Experimental results demonstrate that ZET-Speech successfully synthesizes natural and emotional speech with the desired emotion for both seen and unseen speakers. Samples are at https://ZET-Speech.github.io/ZET-Speech-Demo/.
翻訳日:2023-05-24 17:36:42 公開日:2023-05-23
# 学習アシスタントとの協調によるミスから学ぶ

Learn from Mistakes through Cooperative Interaction with Study Assistant ( http://arxiv.org/abs/2305.13829v1 )

ライセンス: Link先を確認
Danqing Wang, Lei Li(参考訳) 大規模な言語モデルでは、世代を自己反射し、洗練し、パフォーマンスをさらに向上させる能力が実証されている。 しかしながら、このフィードバックメカニズムは、正しさの保証やモデルの弱点に対するグローバルな洞察の欠如といった課題に直面している。 本稿では,リフレクションとリファインメントプロセスにおけるllmを支援するために,大規模言語モデル学習支援システム(salam)を提案する。 人間の学習助手に動機づけられたこの枠組みは、過去の反応を基礎的真実と評価し、トレーニングフェーズにおける誤りを収集する。 推論中は、ミスコレクションに基づいて一般的な誤解を特定し、モデルが推論中に同様のミスを避けるのに役立つガイドラインを提供する。 SALAMはモデルに依存しないフレームワークで、一般的なフィードバックを提供することに重点を置いており、どんなベースモデルにも適応できる。 2つの難易度ベンチマークにおけるsalamの評価は,様々なベースラインに対して有意な改善を示した。

Large language models have demonstrated their ability to self-reflect and refine their generation, which can further improve their performance. However, this feedback mechanism faces challenges such as no guarantee of correctness and the lack of global insight into the model's weaknesses. In this paper, we propose a novel framework, Study Assistant for Large Language Model (SALAM), to aid LLMs in the reflection and refinement process. Motivated by the human study assistant, this framework grades previous responses with the ground truth and collects mistakes in the training phase. During inference, it identifies common misunderstandings based on the mistake collections and provides guidelines for the model to help the model avoid similar mistakes during inference. SALAM is a model-agnostic framework, focusing on providing general feedback and can adapt to any base model. Our evaluation of SALAM on two challenging benchmarks demonstrated a significant improvement over various baselines.
翻訳日:2023-05-24 17:36:24 公開日:2023-05-23
# 超電導リニア加速器におけるゼロショットによるsacビーム制御

Trend-Based SAC Beam Control Method with Zero-Shot in Superconducting Linear Accelerator ( http://arxiv.org/abs/2305.13869v1 )

ライセンス: Link先を確認
Xiaolong Chen and Xin Qi and Chunguang Su and Yuan He and Zhijun Wang(参考訳) 超伝導線形加速器は近代的な科学的発見のための非常に柔軟な施設であり、毎週の再構成とチューニングを必要とする。 したがって、セットアップ時間の最小化は、十分な実験時間をユーザに提供する上で必須である。 本研究では,強いロバスト性を有するトレンドベースソフトアクタクリティック(tbsac)ビーム制御法を提案し,エージェントをシミュレーション環境で訓練し,ゼロショットで実加速器に直接適用する。 提案手法の有効性を検証するため,中国超重元素加速器施設(CAFe II)と軽粒子注入器(LPI)の2つの典型的なビーム制御タスクを行った。 軌道修正作業はCAFe IIの3つの低温加群で行われ、調整に必要な時間は人間の要求の10分の1に短縮され、修正された軌道のRMS値はいずれも1mm未満であった。 他の伝送効率最適化タスクはlpiで行われ、無線周波数四極子(rfq)の伝送効率を2分で85\%超に最適化した。 これら2つの実験の結果から,提案したTBSACアプローチが,熟練した人的専門家と同じ基準を維持しつつ,ビーム割り当てタスクを効率的に効果的に達成できることが実証された。 そこで,本手法は,他の加速器利用分野における将来の応用の可能性を示す。

The superconducting linear accelerator is a highly flexiable facility for modern scientific discoveries, necessitating weekly reconfiguration and tuning. Accordingly, minimizing setup time proves essential in affording users with ample experimental time. We propose a trend-based soft actor-critic(TBSAC) beam control method with strong robustness, allowing the agents to be trained in a simulated environment and applied to the real accelerator directly with zero-shot. To validate the effectiveness of our method, two different typical beam control tasks were performed on China Accelerator Facility for Superheavy Elements (CAFe II) and a light particle injector(LPI) respectively. The orbit correction tasks were performed in three cryomodules in CAFe II seperately, the time required for tuning has been reduced to one-tenth of that needed by human experts, and the RMS values of the corrected orbit were all less than 1mm. The other transmission efficiency optimization task was conducted in the LPI, our agent successfully optimized the transmission efficiency of radio-frequency quadrupole(RFQ) to over $85\%$ within 2 minutes. The outcomes of these two experiments offer substantiation that our proposed TBSAC approach can efficiently and effectively accomplish beam commissioning tasks while upholding the same standard as skilled human experts. As such, our method exhibits potential for future applications in other accelerator commissioning fields.
翻訳日:2023-05-24 17:28:38 公開日:2023-05-23
# プライベート微調整のための選択的事前学習

Selective Pre-training for Private Fine-tuning ( http://arxiv.org/abs/2305.13865v1 )

ライセンス: Link先を確認
Da Yu, Sivakanth Gopi, Janardhan Kulkarni, Zinan Lin, Saurabh Naik, Tomasz Lukasz Religa, Jian Yin, Huishuai Zhang(参考訳) 電子メールクライアントやワードプロセッサでテキスト予測モデルをトレーニングしたいとします。 モデルはユーザデータのプライバシを保持し、メモリと推論時間要件を満たすために、特定の固定サイズに従わなければならない。 この問題を解決するための汎用フレームワークを提案する。 具体的には、公開データセット$D_\text{pub}$と、ダウンストリームタスク$T$に対応するプライベートデータセット$D_\text{priv}$が与えられます。 固定サイズのモデル $m$ on $d_\text{pub}$ を事前学習し、$d_\text{priv}$ でそれを微調整すれば、$t$ に対する $m$ のパフォーマンスが最大化され、$m$ は $d_\text{priv}$ に関して微分プライバシーを満たすか? データセット $d_\text{pub}$ の "em subset} での事前学習は、パブリックディストリビューションをプライベートディストリビューションに近づける上で重要な要素であり、特にモデルサイズが比較的小さい場合において、事前学習後に$m$の転送学習能力を最大化する。 性能改善に加えて、我々のフレームワークは、注意深い事前トレーニングとプライベート微調整により、より大規模なモデルの性能にマッチし、モデル圧縮と効率のツールとしての差分プライベートトレーニングの約束を強調している。

Suppose we want to train text prediction models in email clients or word processors. The models must preserve the privacy of user data and adhere to a specific fixed size to meet memory and inference time requirements. We introduce a generic framework to solve this problem. Specifically, we are given a public dataset $D_\text{pub}$ and a private dataset $D_\text{priv}$ corresponding to a downstream task $T$. How should we pre-train a fixed-size model $M$ on $D_\text{pub}$ and fine-tune it on $D_\text{priv}$ such that performance of $M$ with respect to $T$ is maximized and $M$ satisfies differential privacy with respect to $D_\text{priv}$? We show that pre-training on a {\em subset} of dataset $D_\text{pub}$ that brings the public distribution closer to the private distribution is a crucial ingredient to maximize the transfer learning abilities of $M$ after pre-training, especially in the regimes where model sizes are relatively small. Besides performance improvements, our framework also shows that with careful pre-training and private fine-tuning, {\em smaller models} can match the performance of much larger models, highlighting the promise of differentially private training as a tool for model compression and efficiency.
翻訳日:2023-05-24 17:28:15 公開日:2023-05-23
# MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic Segmentation

MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2305.13864v1 )

ライセンス: Link先を確認
Yong Yang and Qiong Chen and Yuan Feng and Tianlin Huang(参考訳) 既存の少数ショットセグメンテーション手法はメタラーニング戦略に基づいて、サポートセットからインスタンス知識を抽出し、クエリセット内のターゲットオブジェクトのセグメンテーションにその知識を適用する。 しかし, 抽出した知識は, サポートセット内のサンプルから得られた知識から, クラス内差に対処するには不十分である。 そこで本研究では,汎用知識(意味語埋め込み,インスタンス情報)を効果的に活用し,正確なセグメンテーションを実現する多情報集約ネットワーク(mianet)を提案する。 特にMIANetでは,汎用情報モジュール (GIM) が提案され,例情報の補足として単語埋め込みから一般クラスプロトタイプを抽出する。 そこで我々は,一般クラスプロトタイプをアンカーとして扱う三重項損失を設計し,サポートセットの局所特徴から正負のペアをサンプリングする。 計算された三重項損失は、単語埋め込み空間から視覚表現空間へ言語アイデンティティ間の意味的類似性を伝達することができる。 学習クラスに対するモデルの偏りを緩和し,マルチスケール情報を得るために,非パラメトリック階層型事前モジュール(hpm)を導入し,サポートと問い合わせ画像の特徴のピクセルレベルの類似度を算出し,不偏のインスタンスレベル情報を生成する。 最後に、情報融合モジュール(IFM)は、一般情報とインスタンス情報を組み合わせてクエリ画像の予測を行う。 PASCAL-5iとCOCO-20iの大規模な実験により、MIANetは優れた性能を示し、新しい最先端技術を確立した。 コードはhttps://github.com/Aldrich2y/MIANetで入手できる。

Existing few-shot segmentation methods are based on the meta-learning strategy and extract instance knowledge from a support set and then apply the knowledge to segment target objects in a query set. However, the extracted knowledge is insufficient to cope with the variable intra-class differences since the knowledge is obtained from a few samples in the support set. To address the problem, we propose a multi-information aggregation network (MIANet) that effectively leverages the general knowledge, i.e., semantic word embeddings, and instance information for accurate segmentation. Specifically, in MIANet, a general information module (GIM) is proposed to extract a general class prototype from word embeddings as a supplement to instance information. To this end, we design a triplet loss that treats the general class prototype as an anchor and samples positive-negative pairs from local features in the support set. The calculated triplet loss can transfer semantic similarities among language identities from a word embedding space to a visual representation space. To alleviate the model biasing towards the seen training classes and to obtain multi-scale information, we then introduce a non-parametric hierarchical prior module (HPM) to generate unbiased instance-level information via calculating the pixel-level similarity between the support and query image features. Finally, an information fusion module (IFM) combines the general and instance information to make predictions for the query image. Extensive experiments on PASCAL-5i and COCO-20i show that MIANet yields superior performance and set a new state-of-the-art. Code is available at https://github.com/Aldrich2y/MIANet.
翻訳日:2023-05-24 17:27:50 公開日:2023-05-23
# マズード・アテンション・ジェネレーションを用いた脳コンテキスト感度の探索

Probing Brain Context-Sensitivity with Masked-Attention Generation ( http://arxiv.org/abs/2305.13863v1 )

ライセンス: Link先を確認
Alexandre Pasquiou, Yair Lakretz, Bertrand Thirion, Christophe Pallier(参考訳) 神経言語学における2つの基本的な疑問は、語彙レベルを超えて情報を統合する脳領域と、その統合の窓の大きさに関するものである。 これらの問題に対処するために,マスク・アテンション・ジェネレーションという新しいアプローチを導入する。 GPT-2変換器を使用して、一定量のコンテキスト情報をキャプチャする単語埋め込みを生成する。 そして、自然主義的なテキストを聴く人間のfMRI脳活動を予測することができるかどうかを検証した。 その結果、言語ネットワーク内の大脳皮質の大部分は文脈情報に敏感であり、右半球は左半球よりも長い文脈に敏感であることが示された。 Masked-attention 生成は、以前の脳のコンテキスト感受性の分析をサポートし、voxel 当たりのコンテキスト統合のウィンドウサイズを定量化することによってそれらを補完する。

Two fundamental questions in neurolinguistics concerns the brain regions that integrate information beyond the lexical level, and the size of their window of integration. To address these questions we introduce a new approach named masked-attention generation. It uses GPT-2 transformers to generate word embeddings that capture a fixed amount of contextual information. We then tested whether these embeddings could predict fMRI brain activity in humans listening to naturalistic text. The results showed that most of the cortex within the language network is sensitive to contextual information, and that the right hemisphere is more sensitive to longer contexts than the left. Masked-attention generation supports previous analyses of context-sensitivity in the brain, and complements them by quantifying the window size of context integration per voxel.
翻訳日:2023-05-24 17:27:21 公開日:2023-05-23
# フェアネスに向けて:大規模言語モデルにおけるバイアスと非バイアス

A Trip Towards Fairness: Bias and De-Biasing in Large Language Models ( http://arxiv.org/abs/2305.13862v1 )

ライセンス: Link先を確認
Leonardo Ranaldi, Elena Sofia Ruzzetti, Davide Venditti, Dario Onorati, Fabio Massimo Zanzotto(参考訳) トランスフォーマーベースの言語モデル(GPT(Brown et al., 2020)やPaLM(Chowdhery et al., 2022)など)の人気が高まり、新しい機械学習アプリケーションへの扉が開かれた。 特に、自然言語処理や大規模テキストからの事前学習において、コーパスは下流タスクで顕著な結果を達成するのに不可欠である。 しかし、これらの言語モデルは、訓練データに反映される特定の人口層に対して固有の偏見を持っているようである。 研究はこの問題を緩和しようとしたが、既存の手法ではバイアスを完全に取り除いたり、性能を低下させたり、費用がかかる。 本稿では,様々なパラメータや事前学習データにおいて,有望な言語モデルが生み出すバイアスについて検討する。 最後に,下流タスクのパフォーマンスを維持するロバストなデバイアスモデルを生成するデバイアス手法を提案する。

An outbreak in the popularity of transformer-based Language Models (such as GPT (Brown et al., 2020) and PaLM (Chowdhery et al., 2022)) has opened the doors to new Machine Learning applications. In particular, in Natural Language Processing and how pre-training from large text, corpora is essential in achieving remarkable results in downstream tasks. However, these Language Models seem to have inherent biases toward certain demographics reflected in their training data. While research has attempted to mitigate this problem, existing methods either fail to remove bias altogether, degrade performance, or are expensive. This paper examines the bias produced by promising Language Models when varying parameters and pre-training data. Finally, we propose a de-biasing technique that produces robust de-bias models that maintain performance on downstream tasks.
翻訳日:2023-05-24 17:27:06 公開日:2023-05-23
# 実用相符号化サイドチャネルセキュア量子キー分布

Practical Phase-Coding Side-Channel-Secure Quantum Key Distribution ( http://arxiv.org/abs/2305.13861v1 )

ライセンス: Link先を確認
Yang-Guang Shan, Zhen-Qiang Yin, Shuang Wang, Wei Chen, De-Yong He, Guang-Can Guo, Zheng-Fu Han(参考訳) あらゆる種類のデバイスループホールは、実用的なセキュアな量子鍵分布(QKD)に大きな障害をもたらす。 本稿では,従来のサイドチャネルセキュアプロトコル(Physical Review Applied 12, 054034 (2019)]にヒントを得て,位相符号化サイドチャネルセキュアプロトコル(PC-SCS)と呼ばれる新しいQKDプロトコルを提案する。 このプロトコルは、ソース部のすべての非相関側チャネルおよび測定側のすべての抜け穴に免疫することができる。 新しいプロトコルのコヒーレント攻撃に対する有限鍵セキュリティ解析が与えられる。 提案プロトコルは2つの位相の変調のみを必要とするため、完全な真空状態を作成することの難しさを回避できる。 数値シミュレーションにより,pc-scsプロトコルにより実用的伝送距離300kmを実現することができた。

All kinds of device loopholes give rise to a great obstacle to practical secure quantum key distribution (QKD). In this article, inspired by the original side-channel-secure protocol [Physical Review Applied 12, 054034 (2019)], a new QKD protocol called phase-coding side-channel-secure (PC-SCS) protocol is proposed. This protocol can be immune to all uncorrelated side channels of the source part and all loopholes of the measurement side. A finite-key security analysis against coherent attack of the new protocol is given. The proposed protocol only requires modulation of two phases, which can avoid the challenge of preparing perfect vacuum states. Numerical simulation shows that a practical transmission distance of 300 km can be realized by the PC-SCS protocol.
翻訳日:2023-05-24 17:26:51 公開日:2023-05-23
# プロンプトエンジニアリングによるジェイルブレイクChatGPT:実証的研究

Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study ( http://arxiv.org/abs/2305.13860v1 )

ライセンス: Link先を確認
Yi Liu, Gelei Deng, Zhengzi Xu, Yuekang Li, Yaowen Zheng, Ying Zhang, Lida Zhao, Tianwei Zhang, and Yang Liu(参考訳) ChatGPTのような大規模言語モデル(LLM)は、大きな可能性を示しているが、コンテンツ制約や潜在的な誤用に関連する課題ももたらしている。 本研究は, 1 つの重要な研究課題について,(1) 脱獄性 LLM を回避できる異なるプロンプトの種類数,(2) 脱獄性 LLM 制約を回避するための脱獄性プロンプトの有効性,(3) 脱獄性プロンプトに対する ChatGPT のレジリエンスについて検討した。 まず,既存のプロンプトの分布を分析し,10種類のパターンと3種類のジェイルブレイクプロンプトを識別する分類モデルを開発した。 その後,チャットgptバージョン3.5と4.0のプロンプトによるジェイルブレイク能力を評価し,8つの禁止シナリオにまたがる3,120件のジェイルブレイク質問のデータセットを用いた。 最後に、チャットgptの脱獄プロンプトに対する耐性を評価し、40のユースケースシナリオにおいて、プロンプトが一貫して制限を回避できることを見出した。 本研究は, 脱獄型LDMの迅速な構造の重要性を浮き彫りにして, 堅牢な脱獄早期発生・予防の課題を論じるものである。

Large Language Models (LLMs), like ChatGPT, have demonstrated vast potential but also introduce challenges related to content constraints and potential misuse. Our study investigates three key research questions: (1) the number of different prompt types that can jailbreak LLMs, (2) the effectiveness of jailbreak prompts in circumventing LLM constraints, and (3) the resilience of ChatGPT against these jailbreak prompts. Initially, we develop a classification model to analyze the distribution of existing prompts, identifying ten distinct patterns and three categories of jailbreak prompts. Subsequently, we assess the jailbreak capability of prompts with ChatGPT versions 3.5 and 4.0, utilizing a dataset of 3,120 jailbreak questions across eight prohibited scenarios. Finally, we evaluate the resistance of ChatGPT against jailbreak prompts, finding that the prompts can consistently evade the restrictions in 40 use-case scenarios. The study underscores the importance of prompt structures in jailbreaking LLMs and discusses the challenges of robust jailbreak prompt generation and prevention.
翻訳日:2023-05-24 17:26:37 公開日:2023-05-23
# 深層学習技術を用いたスピードクライミングトレーニングビデオの標準データセット作成

Producing a Standard Dataset of Speed Climbing Training Videos Using Deep Learning Techniques ( http://arxiv.org/abs/2305.13858v1 )

ライセンス: Link先を確認
Yufei Xie, Shaoman Li and Penghui Lin(参考訳) この論文は、複数のカメラでスピードクライミングトレーニングセッションを記録し、身体の位置、手足の位置、タイミングなどの関連データで動画に注釈を付けるための方法論を提示する。 注釈付きデータはディープラーニング技術を使って分析され、スピードクライミングトレーニングビデオの標準データセットを作成する。 研究成果は, スピードクライミングのトレーニングと研究を改善するための新たなデータセットの可能性を示し, 改善分野の特定, パーソナライズされたトレーニング計画の作成, 異なるトレーニング方法の効果を分析するとともに, さらなる実証的研究を通じて江西登山チームのトレーニングプロセスにも適用し, 研究の実施可能性について検討する。

This dissertation presents a methodology for recording speed climbing training sessions with multiple cameras and annotating the videos with relevant data, including body position, hand and foot placement, and timing. The annotated data is then analyzed using deep learning techniques to create a standard dataset of speed climbing training videos. The results demonstrate the potential of the new dataset for improving speed climbing training and research, including identifying areas for improvement, creating personalized training plans, and analyzing the effects of different training methods.The findings will also be applied to the training process of the Jiangxi climbing team through further empirical research to test the findings and further explore the feasibility of this study.
翻訳日:2023-05-24 17:26:12 公開日:2023-05-23
# 対話的評価によるタスク指向対話におけるユーザ親和性バイアスの探索

Revealing User Familiarity Bias in Task-Oriented Dialogue via Interactive Evaluation ( http://arxiv.org/abs/2305.13857v1 )

ライセンス: Link先を確認
Takyoung Kim, Jamin Shin, Young-Ho Kim, Sanghwan Bae, Sungdong Kim(参考訳) ほとんどのタスク指向対話(TOD)ベンチマークでは、システムの機能内でのユーザ動作を厳格なユーザ目標、すなわち"ユーザ親しみ"バイアスによって制限することで、システムの使用方法を正確に知るユーザを前提としている。 このデータバイアスは、データ駆動のtodシステムと組み合わせると深くなり、既存の静的評価とデータの影響を相殺することは不可能である。 そこで本研究では,現実シナリオに対するTODシステムの脆弱性を明らかにするために,インタラクティブなユーザスタディを実施している。 特にユーザとユーザを比較します 1)システムの境界(閉じたゴール)に適合する詳細な目標指示 2) しばしばサポートされないが現実的な(オープンゴール)曖昧な目標指示。 本研究は,対話の92%が重大な問題を抱えたシステムにおいて,オープンゴール環境での会話が壊滅的な失敗に繋がることを明らかにした。 さらに,エラーアノテーションによる2つの設定間の特徴を特定するために,徹底的な解析を行う。 このことから,システムの機能を超えても,システムがユーザの要求を処理するように振る舞う,新たな“予測”行動が発見された。 todシステムの透明性とフォールバック戦略を強調しながら,その特性と毒性について考察する。

Most task-oriented dialogue (TOD) benchmarks assume users that know exactly how to use the system by constraining the user behaviors within the system's capabilities via strict user goals, namely "user familiarity" bias. This data bias deepens when it combines with data-driven TOD systems, as it is impossible to fathom the effect of it with existing static evaluations. Hence, we conduct an interactive user study to unveil how vulnerable TOD systems are against realistic scenarios. In particular, we compare users with 1) detailed goal instructions that conform to the system boundaries (closed-goal) and 2) vague goal instructions that are often unsupported but realistic (open-goal). Our study reveals that conversations in open-goal settings lead to catastrophic failures of the system, in which 92% of the dialogues had significant issues. Moreover, we conduct a thorough analysis to identify distinctive features between the two settings through error annotation. From this, we discover a novel "pretending" behavior, in which the system pretends to handle the user requests even though they are beyond the system's capabilities. We discuss its characteristics and toxicity while emphasizing transparency and a fallback strategy for robust TOD systems.
翻訳日:2023-05-24 17:25:58 公開日:2023-05-23
# Byzantine-Robust分散学習のための最適バッチサイズについて

On the Optimal Batch Size for Byzantine-Robust Distributed Learning ( http://arxiv.org/abs/2305.13856v1 )

ライセンス: Link先を確認
Yi-Rui Yang, Chang-Wei Shi, Wu-Jun Li(参考訳) Byzantine-Robust Distributed Learning (BRDL) は、コンピュータ機器が事故や悪意のある攻撃によって異常に振る舞う可能性が高く、近年ホットな研究トピックとなっている。 しかし、独立かつ同一に分布している場合(すなわち、d)においても、既存のBRDL法は確率勾配の大きなばらつきによりモデルの精度が著しく低下する。 バッチサイズの増加は、分散を減らすためのシンプルかつ効果的な方法である。 しかし、勾配計算の総数が固定されると、大きすぎるバッチサイズがあまりに小さな反復数(更新数)につながるため、モデル精度も低下する可能性がある。 この課題を踏まえて,本研究における勾配計算の総数を固定した場合の最適バッチサイズについて主に検討する。 特に,グラデーション計算の総数を固定すると,ビザンチン作業者の分数でbrdlの最適バッチサイズが増加することを理論的に実証的に示す。 したがって、攻撃のない場合と比較して、ビザンチン攻撃時にバッチサイズを大きく設定する必要がある。 しかし、既存のBRDLメソッドでは、大規模なバッチサイズは、たとえビザンチン攻撃がなくても、モデルの精度を低下させる。 この問題に対処するため,本手法はビザンチン-ロブスト確率勾配降下法 (bizantine-robust stochastic gradient descent with normalized momentum (byzsgdnm) と呼ばれる,大規模バッチの場合のモデルの精度低下を緩和する新しいbrdl法を提案する。 さらに、ビザンチン攻撃下での一般非凸ケースに対するByzSGDnmの収束を理論的に証明する。 実験の結果,byzsgdnmはビットフリッピング障害時の既存のbrdl法に匹敵する性能を持つが,故意に作成した攻撃では既存のbrdl法に勝ることがわかった。

Byzantine-robust distributed learning (BRDL), in which computing devices are likely to behave abnormally due to accidental failures or malicious attacks, has recently become a hot research topic. However, even in the independent and identically distributed (i.i.d.) case, existing BRDL methods will suffer from a significant drop on model accuracy due to the large variance of stochastic gradients. Increasing batch sizes is a simple yet effective way to reduce the variance. However, when the total number of gradient computation is fixed, a too-large batch size will lead to a too-small iteration number (update number), which may also degrade the model accuracy. In view of this challenge, we mainly study the optimal batch size when the total number of gradient computation is fixed in this work. In particular, we theoretically and empirically show that when the total number of gradient computation is fixed, the optimal batch size in BRDL increases with the fraction of Byzantine workers. Therefore, compared to the case without attacks, the batch size should be set larger when under Byzantine attacks. However, for existing BRDL methods, large batch sizes will lead to a drop on model accuracy, even if there is no Byzantine attack. To deal with this problem, we propose a novel BRDL method, called Byzantine-robust stochastic gradient descent with normalized momentum (ByzSGDnm), which can alleviate the drop on model accuracy in large-batch cases. Moreover, we theoretically prove the convergence of ByzSGDnm for general non-convex cases under Byzantine attacks. Empirical results show that ByzSGDnm has a comparable performance to existing BRDL methods under bit-flipping failure, but can outperform existing BRDL methods under deliberately crafted attacks.
翻訳日:2023-05-24 17:25:38 公開日:2023-05-23
# 確率勾配ランゲヴィン拡散におけるサブサンプリング誤差

Subsampling Error in Stochastic Gradient Langevin Diffusions ( http://arxiv.org/abs/2305.13882v1 )

ライセンス: Link先を確認
Kexin Jin, Chenguang Liu, Jonas Latz(参考訳) Stochastic Gradient Langevin Dynamics (SGLD) は、統計的学習過程におけるベイズ的後部分布を大規模データで近似するために広く用いられている。 通常のマルコフ連鎖モンテカルロ (MCMC) アルゴリズムとは異なり、SGLD は後続分布に関して定常的ではなく、2つのエラー源が現れる: 最初のエラーはランゲヴィン拡散過程のオイラー・マルヤマ離散化によって導入され、2番目のエラーは大規模なデータ設定での使用を可能にするデータサブサンプリングに由来する。 本研究では,SGLDの最適バージョンを,拡散法に基づくMCMC法における最良ケース誤差とみなす純粋サブサンプリング誤差を解析するために検討する。 実際、SGLDiff(Stochastic Gradient Langevin Diffusion)は、データサブセットに対応するランゲヴィン拡散に従って、指数的待ち時間後にデータサブセットを切り替える連続的なマルコフ過程である。 そこで,SGLDiffの後方と限界分布の間のワッサーシュタイン距離は,平均待ち時間の分断力で上界していることを示す。 重要なことに、この分数パワーは状態空間の次元に依存しない。 我々は、SGLDの他の分析とコンテキストに結果をもたらす。

The Stochastic Gradient Langevin Dynamics (SGLD) are popularly used to approximate Bayesian posterior distributions in statistical learning procedures with large-scale data. As opposed to many usual Markov chain Monte Carlo (MCMC) algorithms, SGLD is not stationary with respect to the posterior distribution; two sources of error appear: The first error is introduced by an Euler--Maruyama discretisation of a Langevin diffusion process, the second error comes from the data subsampling that enables its use in large-scale data settings. In this work, we consider an idealised version of SGLD to analyse the method's pure subsampling error that we then see as a best-case error for diffusion-based subsampling MCMC methods. Indeed, we introduce and study the Stochastic Gradient Langevin Diffusion (SGLDiff), a continuous-time Markov process that follows the Langevin diffusion corresponding to a data subset and switches this data subset after exponential waiting times. There, we show that the Wasserstein distance between the posterior and the limiting distribution of SGLDiff is bounded above by a fractional power of the mean waiting time. Importantly, this fractional power does not depend on the dimension of the state space. We bring our results into context with other analyses of SGLD.
翻訳日:2023-05-24 17:20:12 公開日:2023-05-23
# ブラインド画像超解像のための一般化期待最大化フレームワーク

Generalized Expectation Maximization Framework for Blind Image Super Resolution ( http://arxiv.org/abs/2305.13880v1 )

ライセンス: Link先を確認
Yuxiao Li, Zhiming Wang, Yuan Shen(参考訳) ブラインド・シングル・イメージ・スーパーレゾリューション(SISR)の学習的手法は、高解像度(HR)画像と低解像度(LR)画像を任意のぼやけたカーネルで分解した学習的マッピングによって復元を行う。 しかし、これらの手法は主に、ぼやけたカーネルを推定するために独立したステップを必要とし、ステップ間のエラーの蓄積につながる。 本研究では,全スーパービジョンと半スーパービジョンのいずれにおいても,統一ベイズフレームワーク内で画像復元を可能にするブラインドsisr問題に対するエンドツーエンド学習フレームワークを提案する。 提案手法,すなわちSREMNは,一般予測最大化(GEM)アルゴリズムに学習技術を統合し,最大推定(MLE)からHR画像を推定する。 半教師あり学習における既存の作業と新規性と比較して,提案手法の優位性を示す。

Learning-based methods for blind single image super resolution (SISR) conduct the restoration by a learned mapping between high-resolution (HR) images and their low-resolution (LR) counterparts degraded with arbitrary blur kernels. However, these methods mostly require an independent step to estimate the blur kernel, leading to error accumulation between steps. We propose an end-to-end learning framework for the blind SISR problem, which enables image restoration within a unified Bayesian framework with either full- or semi-supervision. The proposed method, namely SREMN, integrates learning techniques into the generalized expectation-maximization (GEM) algorithm and infers HR images from the maximum likelihood estimation (MLE). Extensive experiments show the superiority of the proposed method with comparison to existing work and novelty in semi-supervised learning.
翻訳日:2023-05-24 17:19:48 公開日:2023-05-23
# 大規模ガウス過程回帰と統計的有限要素解析のための確率場の確率的PDE表現

Stochastic PDE representation of random fields for large-scale Gaussian process regression and statistical finite element analysis ( http://arxiv.org/abs/2305.13879v1 )

ライセンス: Link先を確認
Kim Jie Koh and Fehmi Cirak(参考訳) 幾何学的複素領域上のランダムフィールドの効率的な表現は、エンジニアリングと機械学習におけるベイズモデルにとって重要である。 今日の一般的な確率場表現は、非有界領域に制限されるか、あるいは可能フィールド特性の観点で制限的すぎる。 その結果、確率的PDE(SPDE)とランダム場(ランダム場)の歴史的に確立されたリンクを利用する新しい手法は、物理保存方程式を解くために既に有限要素の離散化を持つ複雑な測地を持つ工学的応用に特に魅力的である。 ランダム場の密度共分散行列とは異なり、その逆行列である精度行列は通常スパースであり、ヘルムホルツ型SPDEの剛性行列と等しい。 本稿ではSPDE表現を用いて、幾何学的複素領域上の大規模統計有限要素解析(statFEM)およびガウス過程(GP)回帰のためのスケーラブルなフレームワークを開発する。 我々はSPDE定式化を用いて、スパース精度行列を用いて関連する事前確率密度を求める。 事前の性質は、ヘルムホルツ様のspdeのパラメータと分数次数によって制御され、有界な領域と多様体上で任意の滑らか性を持つ異方性、非均質な確率場をモデル化できる。 我々は、物理保存方程式の解法として用いられる同じ有限要素メッシュのスパース精度行列を組み立てるために使用する。 statfemとgp回帰の観測モデルは、後確率密度が閉形式平均と精度を持つガウス型である。 平均ベクトルと精度行列の式はスパース行列演算のみを用いて評価することができる。 提案するフレームワークの汎用性とその収束特性を,1次元および2次元ポアソンおよび薄殻の例で示す。

The efficient representation of random fields on geometrically complex domains is crucial for Bayesian modelling in engineering and machine learning. Today's prevalent random field representations are restricted to unbounded domains or are too restrictive in terms of possible field properties. As a result, new techniques leveraging the historically established link between stochastic PDEs (SPDEs) and random fields are especially appealing for engineering applications with complex geometries which already have a finite element discretisation for solving the physical conservation equations. Unlike the dense covariance matrix of a random field, its inverse, the precision matrix, is usually sparse and equal to the stiffness matrix of a Helmholtz-like SPDE. In this paper, we use the SPDE representation to develop a scalable framework for large-scale statistical finite element analysis (statFEM) and Gaussian process (GP) regression on geometrically complex domains. We use the SPDE formulation to obtain the relevant prior probability densities with a sparse precision matrix. The properties of the priors are governed by the parameters and possibly fractional order of the Helmholtz-like SPDE so that we can model on bounded domains and manifolds anisotropic, non-homogeneous random fields with arbitrary smoothness. We use for assembling the sparse precision matrix the same finite element mesh used for solving the physical conservation equations. The observation models for statFEM and GP regression are such that the posterior probability densities are Gaussians with a closed-form mean and precision. The expressions for the mean vector and the precision matrix can be evaluated using only sparse matrix operations. We demonstrate the versatility of the proposed framework and its convergence properties with one and two-dimensional Poisson and thin-shell examples.
翻訳日:2023-05-24 17:19:32 公開日:2023-05-23
# 公正な個人的フェデレーション学習フレームワーク

Fair Differentially Private Federated Learning Framework ( http://arxiv.org/abs/2305.13878v1 )

ライセンス: Link先を確認
Ayush K. Varshney, Sonakshi Garg, Arka Ghosh, Sargam Gupta(参考訳) Federated Learning(FL)は、参加者が個々のデータセットを共有することなく、協力し、共有モデルをトレーニングするための分散機械学習戦略である。 FLではプライバシと公平性が重要な考慮事項である。 flは中央サーバに格納されるユーザデータの量を最小限にすることでプライバシを促進するが、それでも対処しなければならないプライバシのリスクが伴う。 FLのプライバシーを確保するために、ディファレンシャルプライバシ、セキュアなマルチパーティ計算、同型暗号化、セキュアなアグリゲーションプロトコルといった業界標準が従う。 モデルがローカルデータセットに存在するバイアスを継承し、不公平な予測につながるため、フェアネスもまたFLの重要な問題である。 プライバシーはユーザーデータを保護する必要があり、公平性は代表的なトレーニングデータを必要とする。 本稿では、検証データなしで公正なグローバルモデルを作成し、グローバルなプライベートディファレンシャルモデルを作成するという課題に対処する「Fair Differentially Private Federated Learning Framework」を提案する。 このフレームワークは、偏りのあるモデル更新のためのクリッピング技術と微分プライバシーのためのガウス機構を使用している。 論文はまた、flのプライバシーと公平性に関する関連作品もレビューし、バイアスを緩和し、プライバシーを確保するための最近の進歩とアプローチを強調している。 FLにおけるプライバシーと公正性を達成するには、業界標準や技術の最新の発展を考慮して、特定のコンテキストと要求を慎重に考慮する必要がある。

Federated learning (FL) is a distributed machine learning strategy that enables participants to collaborate and train a shared model without sharing their individual datasets. Privacy and fairness are crucial considerations in FL. While FL promotes privacy by minimizing the amount of user data stored on central servers, it still poses privacy risks that need to be addressed. Industry standards such as differential privacy, secure multi-party computation, homomorphic encryption, and secure aggregation protocols are followed to ensure privacy in FL. Fairness is also a critical issue in FL, as models can inherit biases present in local datasets, leading to unfair predictions. Balancing privacy and fairness in FL is a challenge, as privacy requires protecting user data while fairness requires representative training data. This paper presents a "Fair Differentially Private Federated Learning Framework" that addresses the challenges of generating a fair global model without validation data and creating a globally private differential model. The framework employs clipping techniques for biased model updates and Gaussian mechanisms for differential privacy. The paper also reviews related works on privacy and fairness in FL, highlighting recent advancements and approaches to mitigate bias and ensure privacy. Achieving privacy and fairness in FL requires careful consideration of specific contexts and requirements, taking into account the latest developments in industry standards and techniques.
翻訳日:2023-05-24 17:19:00 公開日:2023-05-23
# Narrative XL: 長期記憶モデルのための大規模データセット

Narrative XL: A Large-scale Dataset For Long-Term Memory Models ( http://arxiv.org/abs/2305.13877v1 )

ライセンス: Link先を確認
Arseny Moskvichev and Ky-Vinh Mai(参考訳) 彼らの大きな成功にもかかわらず、ほとんどの大きな言語モデルは長期記憶機構を持っておらず、アプリケーションを制限する。 この制限を克服するには、典型的なトランスフォーマーアーキテクチャやトレーニング手順の変更だけでなく、これらの新しいモデルのトレーニングと評価が可能なデータセットが必要となる。 既存のリソースにはいくつかの重要な特性がなく、現在、長期記憶言語モデルを訓練する(そして評価するだけでなく)十分なスケールの自然なデータセットは存在しない。 そして、このようなデータセットを作成するための短期記憶言語モデルの進歩を生かしたソリューションを提示する。 GPT 3.5を用いて,プロジェクト・グーテンベルクの1500冊のハンドカレーションされた本で各シーンを要約し,約150巻のシーンレベルの要約を行った。 次に,これらの要約に基づいて,3種類の複数場面認識質問,自由形式の物語再構築質問など,多くの読解質問を作成した。 それぞれの本は500以上の読解質問に関連付けられている。 重要な点として、ほとんどの質問は ''retention demand'' として知られており、その疑問に答えるためにメモリの長期的要求がどれくらい必要かを示している。 人間のラベルを付けた実験と、既存の言語モデルを使った実験の3つの小さな実験で、我々のデータを検証した。 私たちは質問に答える 1)原材料を適切に表現する 2)モデルのメモリ容量の診断に使用することができる。 3) メモリ需要がそれらのモデルのコンテキスト長を超えない場合でも、現代の言語モデルにとって自明ではない。 最後に、私たちは、データセットを自動で拡張するために使用できるコードを提供します。

Despite their tremendous successes, most large language models do not have any long-term memory mechanisms, which restricts their applications. Overcoming this limitation would not only require changes to the typical transformer architectures or training procedures, but also a dataset on which these new models could be trained and evaluated. We argue that existing resources lack a few key properties, and that at present, there are no naturalistic datasets of sufficient scale to train (and not only evaluate) long-term memory language models. We then present our solution that capitalizes on the advances in short-term memory language models to create such a dataset. Using GPT 3.5, we summarized each scene in 1500 hand-curated books from Project Gutenberg, which resulted in approximately 150 scene-level summaries per book. We then created a number of reading comprehension questions based on these summaries, including three types of multiple-choice scene recognition questions, as well as free-form narrative reconstruction questions. Each book is thus associated with more than 500 reading comprehension questions. Crucially, most questions have a known ``retention demand'', indicating how long-term of a memory is needed to answer it, which should aid long-term memory performance evaluation. We validate our data in three small-scale experiments: one with human labelers, and two with existing language models. We show that our questions 1) adequately represent the source material 2) can be used to diagnose the model's memory capacity 3) are not trivial for modern language models even when the memory demand does not exceed those models' context lengths. Lastly, we provide our code which can be used to further expand the dataset in an automated manner.
翻訳日:2023-05-24 17:18:35 公開日:2023-05-23
# Cross3DVG: 異なるRGB-Dスコープ上のクロスデータセットビジュアルグラウンドのためのベースラインとデータセット

Cross3DVG: Baseline and Dataset for Cross-Dataset 3D Visual Grounding on Different RGB-D Scans ( http://arxiv.org/abs/2305.13876v1 )

ライセンス: Link先を確認
Taiki Miyanishi, Daichi Azuma, Shuhei Kurita, Motoki Kawanabe(参考訳) 本研究では,3dシーンにおけるクロスデータセット表示のための新しいタスクであるcross3dvgについて,制約付き3dリソースを用いた既存の3dビジュアルグラウンドモデルの制限を明らかにすることにより,特定の3dデータセットに容易にオーバーフィットする手法を提案する。 そこで我々は,Cross3DVGを実現するために,ScanReferの既存の52k記述と組み合わせて,3RScanの1,380個の屋内RGB-Dスキャンから,63万以上の3Dオブジェクトの多様な記述を含む大規模3D画像グラウンドデータセットを構築した。 我々は,ソース3d視覚接地データセット上でモデルをトレーニングし,ターゲットラベルを使用せずに,異なる方法で構築されたターゲットデータセット(例えば,異なるセンサ,3d再構成方法,言語アノテーション)上で評価することにより,クロス3dvgを行う。 確立された視覚的接地モデルとCLIPに基づく2D-3D統合手法を用いて総合的な実験を行う。 Cross3DVGタスクを実行することで (i)1つのデータセットによる学習や評価に比べて、データ横断型3d視覚接地の性能は著しく低下しており、3次元視覚接地におけるデータ横断型一般化の改善の余地が大きいことを示唆する。 (ii)3次元接地のためのより良い検出器および変圧器に基づく位置決めモジュールは、3次元接地性能の向上に有用である。 (iii) clipを用いた2d-3dデータの利用は、さらなる性能向上を示す。 私たちのCross3DVGタスクは、多種多様な3Dシーンを深く理解しながら処理できる堅牢な3Dビジュアルグラウンドモデルを開発するためのベンチマークを提供する。

We present Cross3DVG, a novel task for cross-dataset visual grounding in 3D scenes, revealing the limitations of existing 3D visual grounding models using restricted 3D resources and thus easily overfit to a specific 3D dataset. To facilitate Cross3DVG, we have created a large-scale 3D visual grounding dataset containing more than 63k diverse descriptions of 3D objects within 1,380 indoor RGB-D scans from 3RScan with human annotations, paired with the existing 52k descriptions on ScanRefer. We perform Cross3DVG by training a model on the source 3D visual grounding dataset and then evaluating it on the target dataset constructed in different ways (e.g., different sensors, 3D reconstruction methods, and language annotators) without using target labels. We conduct comprehensive experiments using established visual grounding models, as well as a CLIP-based 2D-3D integration method, designed to bridge the gaps between 3D datasets. By performing Cross3DVG tasks, we found that (i) cross-dataset 3D visual grounding has significantly lower performance than learning and evaluation with a single dataset, suggesting much room for improvement in cross-dataset generalization of 3D visual grounding, (ii) better detectors and transformer-based localization modules for 3D grounding are beneficial for enhancing 3D grounding performance and (iii) fusing 2D-3D data using CLIP demonstrates further performance improvements. Our Cross3DVG task will provide a benchmark for developing robust 3D visual grounding models capable of handling diverse 3D scenes while leveraging deep language understanding.
翻訳日:2023-05-24 17:18:08 公開日:2023-05-23
# 不均一クラスターを用いたフェアオーバーサンプリング技術

Fair Oversampling Technique using Heterogeneous Clusters ( http://arxiv.org/abs/2305.13875v1 )

ライセンス: Link先を確認
Ryosuke Sonoda(参考訳) クラス不均衡とグループ(例えば、人種、性別、年齢)の不均衡は、機械学習分類器の公平性と有用性の間のトレードオフを妨げる2つの理由として認識される。 既存の手法では,公平なオーバーサンプリング手法を提案することで,クラス不均衡とグループ不均衡の問題に共同で対処してきた。 クラス不均衡に対処する一般的なオーバーサンプリング技術とは異なり、フェアオーバーサンプリング技術はグループ不均衡にも対処できるため、上記のトレードオフを大幅に改善する。 しかし、元のクラスタのサイズが小さすぎると、これらのテクニックが分類器の過剰フィットを引き起こす可能性がある。 この問題に対処するため,異種クラスタのデータを用いた公平なオーバーサンプリング手法を開発した。 提案手法は,クラスミックス特徴やグループミックス特徴を有する合成データを生成し,分類器を過度に適合させる。 さらに,元のクラスタ分布とデータノイズを考慮して,生成した合成データの妥当性を高める補間法を開発した。 最後に,5つの現実的データセットと3つの分類器について実験を行い,提案手法の有効性を公平性と有用性の観点から実証した。

Class imbalance and group (e.g., race, gender, and age) imbalance are acknowledged as two reasons in data that hinder the trade-off between fairness and utility of machine learning classifiers. Existing techniques have jointly addressed issues regarding class imbalance and group imbalance by proposing fair over-sampling techniques. Unlike the common oversampling techniques, which only address class imbalance, fair oversampling techniques significantly improve the abovementioned trade-off, as they can also address group imbalance. However, if the size of the original clusters is too small, these techniques may cause classifier overfitting. To address this problem, we herein develop a fair oversampling technique using data from heterogeneous clusters. The proposed technique generates synthetic data that have class-mix features or group-mix features to make classifiers robust to overfitting. Moreover, we develop an interpolation method that can enhance the validity of generated synthetic data by considering the original cluster distribution and data noise. Finally, we conduct experiments on five realistic datasets and three classifiers, and the experimental results demonstrate the effectiveness of the proposed technique in terms of fairness and utility.
翻訳日:2023-05-24 17:17:35 公開日:2023-05-23
# 安全でない拡散:テキスト・ツー・イメージモデルから安全でない画像と有害なミームの生成について

Unsafe Diffusion: On the Generation of Unsafe Images and Hateful Memes From Text-To-Image Models ( http://arxiv.org/abs/2305.13873v1 )

ライセンス: Link先を確認
Yiting Qu, Xinyue Shen, Xinlei He, Michael Backes, Savvas Zannettou, Yang Zhang(参考訳) 安定拡散やdalle$\cdot$2のような最先端のテキスト対画像モデルは、人々がビジュアルコンテンツを生成する方法に革命をもたらしている。 同時に、社会は、敵がそのようなモデルを使って安全でない画像を生成する方法に深刻な懸念を抱いている。 本研究では,テキスト・ツー・イメージ・モデルから安全でない画像と憎しみのあるミームを生成することに焦点を当てる。 まず5つのカテゴリー(性的に明示的、暴力的、乱暴、憎悪的、政治的)からなる安全でないイメージのタイプポロジーを構築する。 次に、4つのプロンプトデータセットを用いて、4つの高度なテキスト対画像モデルによって生成される安全でない画像の割合を評価する。 4つのモデルと4つのプロンプトデータセットにおいて、生成された画像の14.56%が安全ではない。 4つのモデルを比較すると、異なるリスクレベルが見つかり、安定拡散は安全でないコンテンツを生成する最も起こりやすい(生成した画像の18.92%は安全でない)。 安定した拡散がより安全でないコンテンツを生成する傾向を考えると、敵が特定の個人やコミュニティを攻撃するために悪用された場合、その可能性を評価できる。 我々はDreamBooth, Textual Inversion, SDEditの3つの画像編集手法を採用し, 安定拡散をサポートする。 以上の結果から,DreamBoothを用いた画像の24%は,本来の憎悪ミームの特徴と,対象とする個人・コミュニティの特徴を示す憎悪ミームの変種であり,これらの画像は実世界から収集された憎悪ミームの変種に匹敵するものであることが示された。 全体として,安全でない画像の大規模生成の危険性が差し迫っていることが示された。 トレーニングデータのキュレーション,プロンプトの調整,安全フィルタの実装など,いくつかの対策について検討し,安全でない生成を防止するために,より優れた安全対策ツールの開発を奨励する。

State-of-the-art Text-to-Image models like Stable Diffusion and DALLE$\cdot$2 are revolutionizing how people generate visual content. At the same time, society has serious concerns about how adversaries can exploit such models to generate unsafe images. In this work, we focus on demystifying the generation of unsafe images and hateful memes from Text-to-Image models. We first construct a typology of unsafe images consisting of five categories (sexually explicit, violent, disturbing, hateful, and political). Then, we assess the proportion of unsafe images generated by four advanced Text-to-Image models using four prompt datasets. We find that these models can generate a substantial percentage of unsafe images; across four models and four prompt datasets, 14.56% of all generated images are unsafe. When comparing the four models, we find different risk levels, with Stable Diffusion being the most prone to generating unsafe content (18.92% of all generated images are unsafe). Given Stable Diffusion's tendency to generate more unsafe content, we evaluate its potential to generate hateful meme variants if exploited by an adversary to attack a specific individual or community. We employ three image editing methods, DreamBooth, Textual Inversion, and SDEdit, which are supported by Stable Diffusion. Our evaluation result shows that 24% of the generated images using DreamBooth are hateful meme variants that present the features of the original hateful meme and the target individual/community; these generated images are comparable to hateful meme variants collected from the real world. Overall, our results demonstrate that the danger of large-scale generation of unsafe images is imminent. We discuss several mitigating measures, such as curating training data, regulating prompts, and implementing safety filters, and encourage better safeguard tools to be developed to prevent unsafe generation.
翻訳日:2023-05-24 17:17:17 公開日:2023-05-23
# ドメイン関連変数を用いた高度な画像生成のための変分ベイズフレームワーク

Variational Bayesian Framework for Advanced Image Generation with Domain-Related Variables ( http://arxiv.org/abs/2305.13872v1 )

ライセンス: Link先を確認
Yuxiao Li, Santiago Mazuelas, Yuan Shen(参考訳) 深部生成モデル(DGM)とその条件付きモデルは、データ分布の汎用生成モデルに強力な能力を提供する。 しかし、既存の手法がアノテーションなしで高度な条件生成問題に対処することは依然として困難であり、画像から画像への変換や画像編集といった複数のアプリケーションを可能にする。 このような問題に対する統一ベイズフレームワークを提案し,学習過程における潜在変数の推論ステージを導入する。 特に,複数の画像翻訳および編集作業が可能な変分ベイズ画像翻訳ネットワーク(VBITN)を提案する。 総合的な実験により, 教師なし画像から画像への翻訳に本手法の有効性を示し, セマンティック編集と混合ドメイン翻訳の新たな高度な機能を示す。

Deep generative models (DGMs) and their conditional counterparts provide a powerful ability for general-purpose generative modeling of data distributions. However, it remains challenging for existing methods to address advanced conditional generative problems without annotations, which can enable multiple applications like image-to-image translation and image editing. We present a unified Bayesian framework for such problems, which introduces an inference stage on latent variables within the learning process. In particular, we propose a variational Bayesian image translation network (VBITN) that enables multiple image translation and editing tasks. Comprehensive experiments show the effectiveness of our method on unsupervised image-to-image translation, and demonstrate the novel advanced capabilities for semantic editing and mixed domain translation.
翻訳日:2023-05-24 17:16:43 公開日:2023-05-23
# 密度推定による異種モデル再利用の改善

Improving Heterogeneous Model Reuse by Density Estimation ( http://arxiv.org/abs/2305.13871v1 )

ライセンス: Link先を確認
Anke Tang, Yong Luo, Han Hu, Fengxiang He, Kehua Su, Bo Du, Yixin Chen, Dacheng Tao(参考訳) 本稿では,異なる参加者の個人データを用いてモデルを学ぶことを目的とした多人数学習について述べる。 モデルの再利用は、各パーティーのためにローカルモデルがトレーニングされていると仮定して、マルチパーティの学習にとって有望なソリューションである。 異なる当事者間のサンプル選択バイアスを考慮した異種モデル再利用手法が開発されている。 しかし,これらの手法では事前学習した局所分類器が活用されているが,局所データの特徴は十分に活用されていない。 これにより、局所データの密度を推定し、再利用のための局所分類器と共に補助モデルを設計する動機付けとなる。 いくつかの局所モデルが十分に事前訓練されていないシナリオに対処するため、キャリブレーションのためのマルチパーティクロスエントロピー損失を設計する。 既存手法では, 決定理論の観点から不均質モデル再利用の課題に対処し, 近年の密度推定の進歩を生かした。 合成データとベンチマークデータの両方の実験結果から,提案手法の優位性を実証した。

This paper studies multiparty learning, aiming to learn a model using the private data of different participants. Model reuse is a promising solution for multiparty learning, assuming that a local model has been trained for each party. Considering the potential sample selection bias among different parties, some heterogeneous model reuse approaches have been developed. However, although pre-trained local classifiers are utilized in these approaches, the characteristics of the local data are not well exploited. This motivates us to estimate the density of local data and design an auxiliary model together with the local classifiers for reuse. To address the scenarios where some local models are not well pre-trained, we further design a multiparty cross-entropy loss for calibration. Upon existing works, we address a challenging problem of heterogeneous model reuse from a decision theory perspective and take advantage of recent advances in density estimation. Experimental results on both synthetic and benchmark data demonstrate the superiority of the proposed method.
翻訳日:2023-05-24 17:16:31 公開日:2023-05-23
# スパイクニューラルネットワークのための時間的コントラスト学習

Temporal Contrastive Learning for Spiking Neural Networks ( http://arxiv.org/abs/2305.13909v1 )

ライセンス: Link先を確認
Haonan Qiu, Zeyin Song, Yanqi Chen, Munan Ning, Wei Fang, Tao Sun, Zhengyu Ma, Li Yuan, and Yonghong Tian(参考訳) 生物学的にインスパイアされたスパイクニューラルネットワーク(SNN)は、低エネルギー消費と時空間情報処理能力のためにかなりの注目を集めている。 既存のSNNのトレーニング手法の多くは、まず時間ステップにまたがって出力情報を統合し、次に平均表現の予測を監督するためにクロスエントロピー(CE)損失を採用する。 しかし,本研究では,SNNの時間的ダイナミクスを省略し,推論時間ステップの減少とともに性能を低下させるため,上記の手法はSNNのトレーニングに最適ではない。 時間相関をモデル化するための一つの誘惑は、それぞれの時間ステップで同じラベルの監督を適用し、それらを同一に扱うことである。 様々な時間ステップで比較的一貫したパフォーマンスを得ることができるが、高いパフォーマンスでSNNを得るには依然として課題に直面している。 これらの観測から着想を得て,時間的ドメイン情報とコントラスト的ドメイン情報を組み合わせることで,低レイテンシで高性能なSNNを得る新しい手法であるTCLフレームワークを提案する。 コントラスト学習(CL)は、ネットワークに表現空間における一貫性と可変性を区別させ、識別性と一般化可能な特徴をよりよく学習させる。 我々はこの概念をSNNの時間領域に拡張し、異なる時間ステップにおける表現間の相関を柔軟に完全に活用する。 さらに,SNNの強化,時間的制約,クラス制約を同時に行うための,シームズ・テンポラルドメイン型コントラスト学習(STCL)フレームワークを提案する。 広範な実験結果から,tclとstclでトレーニングされたsnsは,高パフォーマンスと低レイテンシの両方を実現し,さまざまなデータセット(cifar-10,cifar-100,dvs-cifar10など)で最先端のパフォーマンスを達成できることが示されました。

Biologically inspired spiking neural networks (SNNs) have garnered considerable attention due to their low-energy consumption and spatio-temporal information processing capabilities. Most existing SNNs training methods first integrate output information across time steps, then adopt the cross-entropy (CE) loss to supervise the prediction of the average representations. However, in this work, we find the method above is not ideal for the SNNs training as it omits the temporal dynamics of SNNs and degrades the performance quickly with the decrease of inference time steps. One tempting method to model temporal correlations is to apply the same label supervision at each time step and treat them identically. Although it can acquire relatively consistent performance across various time steps, it still faces challenges in obtaining SNNs with high performance. Inspired by these observations, we propose Temporal-domain supervised Contrastive Learning (TCL) framework, a novel method to obtain SNNs with low latency and high performance by incorporating contrastive supervision with temporal domain information. Contrastive learning (CL) prompts the network to discern both consistency and variability in the representation space, enabling it to better learn discriminative and generalizable features. We extend this concept to the temporal domain of SNNs, allowing us to flexibly and fully leverage the correlation between representations at different time steps. Furthermore, we propose a Siamese Temporal-domain supervised Contrastive Learning (STCL) framework to enhance the SNNs via augmentation, temporal and class constraints simultaneously. Extensive experimental results demonstrate that SNNs trained by our TCL and STCL can achieve both high performance and low latency, achieving state-of-the-art performance on a variety of datasets (e.g., CIFAR-10, CIFAR-100, and DVS-CIFAR10).
翻訳日:2023-05-24 17:09:43 公開日:2023-05-23
# EfficientSpeech: 音声モデルのためのオンデバイステキスト

EfficientSpeech: An On-Device Text to Speech Model ( http://arxiv.org/abs/2305.13905v1 )

ライセンス: Link先を確認
Rowel Atienza(参考訳) State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。 これらのモデルは、クラウド推論を念頭に置いて音声品質に長年注力してきたため、大きなメモリフットプリントとかなりの数の操作によって特徴付けられる。 ニューラルTSモデルは一般に、リソース制約のあるインターネットアクセスエッジデバイス上でスタンドアロンの音声合成を行うように設計されていない。 本稿では,arm cpu上で音声をリアルタイムに合成する効率的なニューラルネットワークtts, efficientspeechを提案する。 efficientspeechはuネットワークを形成する浅い非自己回帰ピラミッド構造トランスを使用する。 EfficientSpeechは266kのパラメータを持ち、MFLOPSはMixer-TTSのような現代のコンパクトモデルでは90のMFLOPSしか消費しない。 efficientspeechはrpi4上の平均メル生成リアルタイム係数104.3を達成する。 人間の評価では、FastSpeech2に比べてオーディオ品質がわずかに低下している。

State of the art (SOTA) neural text to speech (TTS) models can generate natural-sounding synthetic voices. These models are characterized by large memory footprints and substantial number of operations due to the long-standing focus on speech quality with cloud inference in mind. Neural TTS models are generally not designed to perform standalone speech syntheses on resource-constrained and no Internet access edge devices. In this work, an efficient neural TTS called EfficientSpeech that synthesizes speech on an ARM CPU in real-time is proposed. EfficientSpeech uses a shallow non-autoregressive pyramid-structure transformer forming a U-Network. EfficientSpeech has 266k parameters and consumes 90 MFLOPS only or about 1% of the size and amount of computation in modern compact models such as Mixer-TTS. EfficientSpeech achieves an average mel generation real-time factor of 104.3 on an RPi4. Human evaluation shows only a slight degradation in audio quality as compared to FastSpeech2.
翻訳日:2023-05-24 17:09:08 公開日:2023-05-23
# 弱教師付きUWBラング誤り除去のための深部EMに基づくネットワーク

Deep GEM-Based Network for Weakly Supervised UWB Ranging Error Mitigation ( http://arxiv.org/abs/2305.13904v1 )

ライセンス: Link先を確認
Yuxiao Li, Santiago Mazuelas, Yuan Shen(参考訳) 超広帯域(uwb)ベースの技術は、高精度な位置決めの主流となる一方で、厳しい環境でバイアスを分散させることで挑戦される傾向がある。 エラー緩和のための新しい学習ベースの手法は、生データから高い意味的特徴を活用し、優れたパフォーマンス向上を示している。 しかし、これらの手法はラベル付きデータに大きく依存しており、データ取得のコストが高い。 本稿では,uwb範囲の誤差軽減のための弱監視に基づく学習フレームワークを提案する。 具体的には,弱監督下での頑健なuwb範囲誤差緩和のための一般化期待最大化(gem)アルゴリズムに基づく深層学習法を提案する。 このような手法は確率的モデリングをディープラーニング手法に統合し、弱い教師付きラベルを事前情報として採用する。 様々な監視シナリオにおける大規模な実験は,提案手法の優位性を示している。

Ultra-wideband (UWB)-based techniques, while becoming mainstream approaches for high-accurate positioning, tend to be challenged by ranging bias in harsh environments. The emerging learning-based methods for error mitigation have shown great performance improvement via exploiting high semantic features from raw data. However, these methods rely heavily on fully labeled data, leading to a high cost for data acquisition. We present a learning framework based on weak supervision for UWB ranging error mitigation. Specifically, we propose a deep learning method based on the generalized expectation-maximization (GEM) algorithm for robust UWB ranging error mitigation under weak supervision. Such method integrate probabilistic modeling into the deep learning scheme, and adopt weakly supervised labels as prior information. Extensive experiments in various supervision scenarios illustrate the superiority of the proposed method.
翻訳日:2023-05-24 17:08:55 公開日:2023-05-23
# フレーム・バイ・フレーム:ビデオ・インフィルと予測による思考のビデオ・チェーンの評価

Let's Think Frame by Frame: Evaluating Video Chain of Thought with Video Infilling and Prediction ( http://arxiv.org/abs/2305.13903v1 )

ライセンス: Link先を確認
Vaishnavi Himakunthala, Andy Ouyang, Daniel Rose, Ryan He, Alex Mei, Yujie Lu, Chinmay Sonar, Michael Saxon, William Yang Wang(参考訳) 2023年に全インターネットトラフィックの65%を構成しているにもかかわらず、ビデオコンテンツは生成AI研究では不足している。 一方、最近の大規模言語モデル(LLM)は視覚的モダリティの能力と統合されつつある。 LLMとビデオの統合は、次の自然なステップであり、このギャップを埋めるにはどうすればいいのか? 映像推論を高度化するために,視覚言語モデルのマルチモーダル生成能力を活用して,数百フレームから数千フレームの処理の計算複雑性を低減しつつ,映像推論を強化するビデオキーフレームに対するビデオコットの新たな研究方向を提案する。 我々は、ビデオCOTの評価に使用できる推論時データセットであるVIPを導入する。 1)キーフレームと対応する非構造化・構造化シーン記述の多種多様な実生活映像 2)2つの新しいビデオ推論タスク:映像の埋め合わせとシーン予測。 VIP上で様々な視覚言語モデルをベンチマークし、視覚言語モデルとLLMを用いて思考推論のビデオ連鎖を強化する可能性を実証した。

Despite constituting 65% of all internet traffic in 2023, video content is underrepresented in generative AI research. Meanwhile, recent large language models (LLMs) have become increasingly integrated with capabilities in the visual modality. Integrating video with LLMs is a natural next step, so how can this gap be bridged? To advance video reasoning, we propose a new research direction of VideoCOT on video keyframes, which leverages the multimodal generative abilities of vision-language models to enhance video reasoning while reducing the computational complexity of processing hundreds or thousands of frames. We introduce VIP, an inference-time dataset that can be used to evaluate VideoCOT, containing 1) a variety of real-life videos with keyframes and corresponding unstructured and structured scene descriptions, and 2) two new video reasoning tasks: video infilling and scene prediction. We benchmark various vision-language models on VIP, demonstrating the potential to use vision-language models and LLMs to enhance video chain of thought reasoning.
翻訳日:2023-05-24 17:08:41 公開日:2023-05-23
# WinDB: HMDフリーで歪みのないパノラマビデオ固定学習

WinDB: HMD-free and Distortion-free Panoptic Video Fixation Learning ( http://arxiv.org/abs/2305.13901v1 )

ライセンス: Link先を確認
Guotao Wang, Chenglizhao Chen, Aimin Hao, Hong Qin, Deng-ping Fan(参考訳) これまで、パンオプティカルビデオで固定コレクションを行う方法は、hmdを装着しながら参加者の固定を収集し、与えられたパンオプティカルシーンを自由に探索するヘッドマウントディスプレイ(hmd)に基づいている。 しかし、この広範に使用されているデータ収集手法は、間欠的な有意なイベントを含む場合、与えられたパノプティクス内のどの領域が最も重要であるかを正確に予測する深層モデルの訓練には不十分である。 主な理由は、参加者が常にパン光学シーン全体を探索するために頭を回転させ続けることができないため、HMDを使用して固定を収集する際、常に「盲ズーム」が存在するからである。 その結果、収集された固定は一部のローカルビューに閉じ込められがちであり、残りの領域は「盲ズーム」である。 したがって、局所的なビューを蓄積するHMDベースの手法を用いて収集した固定データは、複雑なパノラマシーンの全体的重要性を正確に表すことはできない。 本稿では,HMDを必要とせず,失明を伴わないパンオプティカルビデオに対して,動的ブラリング(WinDB)による補助窓を提案する。 したがって、収集された固定は地域的重要性の度合いをよく反映することができる。 WinDBアプローチを使用して、225以上のカテゴリをカバーする300のパノプティクスクリップを含む、新しいPanopticVideo-300データセットをリリースしました。 さらに,我々はpanopticvideo-300をフル活用し,ブラインドブルームフリー属性による固定シフト問題に対処するためのシンプルなベースライン設計を提案した。 当社のWinDBアプローチであるPanopticVideo-300と調整済みのフィクスレーション予測モデルは、すべてhttps://github.com/360submit/WinDBで公開されています。

To date, the widely-adopted way to perform fixation collection in panoptic video is based on a head-mounted display (HMD), where participants' fixations are collected while wearing an HMD to explore the given panoptic scene freely. However, this widely-used data collection method is insufficient for training deep models to accurately predict which regions in a given panoptic are most important when it contains intermittent salient events. The main reason is that there always exist "blind zooms" when using HMD to collect fixations since the participants cannot keep spinning their heads to explore the entire panoptic scene all the time. Consequently, the collected fixations tend to be trapped in some local views, leaving the remaining areas to be the "blind zooms". Therefore, fixation data collected using HMD-based methods that accumulate local views cannot accurately represent the overall global importance of complex panoramic scenes. This paper introduces the auxiliary Window with a Dynamic Blurring (WinDB) fixation collection approach for panoptic video, which doesn't need HMD and is blind-zoom-free. Thus, the collected fixations can well reflect the regional-wise importance degree. Using our WinDB approach, we have released a new PanopticVideo-300 dataset, containing 300 panoptic clips covering over 225 categories. Besides, we have presented a simple baseline design to take full advantage of PanopticVideo-300 to handle the blind-zoom-free attribute-induced fixation shifting problem. Our WinDB approach, PanopticVideo-300, and tailored fixation prediction model are all publicly available at https://github.com/360submit/WinDB.
翻訳日:2023-05-24 17:08:23 公開日:2023-05-23
# クラスインクリメンタルエンドツーエンド音声言語理解のためのシーケンスレベル知識蒸留

Sequence-Level Knowledge Distillation for Class-Incremental End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2305.13899v1 )

ライセンス: Link先を確認
Umberto Cappellazzo, Muqiao Yang, Daniele Falavigna, Alessio Brutti(参考訳) 新しい概念を逐次学習する能力は、現代のニューラルネットワークの大きな弱点であり、非定常環境での使用を妨げる。 過去の取得した知識を損なうために現在のデータ分布に適合する傾向は、破滅的な忘れる問題に繋がる。 本研究では,継続学習環境に適用した音声言語理解の課題に対処する。 まず、SLURPデータセットのクラスインクリメンタルシナリオを定義します。 そこで我々は,第1のKD法をエンコーダ出力(audio-KD)に適用し,トークンレベル(tok-KD)やシーケンスレベル(seq-KD)の分布に直接デコーダ出力を適用する3つの知識蒸留(KD)手法を提案する。 seq-kdは性能指標を実質的に改善し,audio-kdとの組合せにより平均werがさらに減少し,エンティティ予測指標が向上することを示す。

The ability to learn new concepts sequentially is a major weakness for modern neural networks, which hinders their use in non-stationary environments. Their propensity to fit the current data distribution to the detriment of the past acquired knowledge leads to the catastrophic forgetting issue. In this work we tackle the problem of Spoken Language Understanding applied to a continual learning setting. We first define a class-incremental scenario for the SLURP dataset. Then, we propose three knowledge distillation (KD) approaches to mitigate forgetting for a sequence-to-sequence transformer model: the first KD method is applied to the encoder output (audio-KD), and the other two work on the decoder output, either directly on the token-level (tok-KD) or on the sequence-level (seq-KD) distributions. We show that the seq-KD substantially improves all the performance metrics, and its combination with the audio-KD further decreases the average WER and enhances the entity prediction metric.
翻訳日:2023-05-24 17:07:54 公開日:2023-05-23
# PaD:大規模な推論モデルに特化したプログラム支援蒸留

PaD: Program-aided Distillation Specializes Large Models in Reasoning ( http://arxiv.org/abs/2305.13888v1 )

ライセンス: Link先を確認
Xuekai Zhu, Biqing Qi, Kaiyan Zhang, Xingwei Long, Bowen Zhou(参考訳) 大規模言語モデル(LLM)はいくつかの自然言語処理タスクに優れていますが、そのサイズとアクセシビリティは広範な実践的応用の課題を示します。 以前の研究ではllmの蒸留によって特殊スキルを取得しており、これはモデル特殊化と呼ばれる汎用能力の取引に繋がる。 推理能力としては、後続の蒸留に連鎖して合成した。 しかし、幻覚のため、LSMsの合成鎖は不完全な推論を含んでいる。 これらの誤った推論ステップは推論能力を損なう。 そこで本研究では,llmを蒸留し,推論タスクにおいて特殊小モデルを得るプログラム支援蒸留(pad)を提案する。 PaDでは、プログラム支援推論による特殊モデルを強化し、自動エラーチェックによる欠陥推論ステップの克服を支援する。 実験の結果、gsm8kベンチマークでは、padを用いた0.06bモデルは特定のllm(例えばllama)よりも優れるだけでなく、パラメータやデータのスケールがかなり小さいベースラインよりも10%改善できることがわかった。 データプルーニング分析により、padはトレーニング効率が高いことが判明した。

While Large Language Models (LLMs) excel in several natural language processing tasks, their size and inaccessibility present challenges for extensive practical application. Previous studies acquire specialized skills through distillation on LLMs, which result in trading generic abilities, called model specialization. As for reasoning ability, chain-of-thought was synthesized to subsequent distillation. However, due to hallucination, synthetic chain-of-thought from LLMs contains faulty reasoning. These incorrect reasoning steps damage the reasoning capability. To tackle above issues, we propose Program-aided Distillation (PaD), which distills LLMs to obtain specialized small models in reasoning tasks. In PaD, we strengthen specialized models with program-aided reasoning, and help them overcome faulty reasoning steps with automated error checking. Experimental results demonstrate that, on the GSM8K benchmark, a 0.06B model using PaD can not only outperform certain LLMs (e.g., LLaMA), but also achieves a 10% improvement over baselines with a significantly smaller scale of parameters and data. Data pruning analysis reveals that PaD possesses higher training efficiency.
翻訳日:2023-05-24 17:07:35 公開日:2023-05-23
# 目標自動認識のための深部トランスダクティブトランスダクティブトランスダクション学習

Deep Transductive Transfer Learning for Automatic Target Recognition ( http://arxiv.org/abs/2305.13886v1 )

ライセンス: Link先を確認
Shoaib M. Sami, Nasser M. Nasrabadi, Raghuveer Rao(参考訳) 自動目標認識(ATR)アルゴリズムを設計する際の大きな障害の1つは、しばしば1つのドメイン(赤外線ソースドメイン)にラベル付き画像があるが、他のターゲットドメイン(つまり、SAR、LIDAR)には注釈付き画像がないことである。 したがって、ソースドメインのラベル付きイメージに基づいて、ターゲットドメインにロバストな分類器を構築するには、これらのイメージに自動アノテートすることが不可欠である。 トランスダクティブトランスファー学習は、ソースドメイン内の事前学習されたATRネットワークを利用することで、ネットワークを新しいターゲットドメインに適応させる効果的な方法である。 本稿では、ソースドメイン内のCycleGANモデルとよく訓練されたATR分類器を用いて、ターゲットドメインにラベル付きデータを持たずに、ターゲットドメイン内のATR分類器を構築する、非ペア化トランスダクティブ学習フレームワークを提案する。 我々は、CycleGANモデルを用いて、中波長赤外線画像(MWIR)を可視(VIS)領域画像(またはMWIR領域に可視)に転送する。 トランスダクティブなCycleGANをトレーニングするために、ソースとターゲットの分類器の両方に対して、逆数、アイデンティティ、サイクル整合性、カテゴリ間のエントロピー損失からなるコスト関数を最適化する。 本稿では,挑戦的なDSIAC ATRデータセットに関する詳細な実験的検討を行う。 データセットは、MWIRドメインとVISドメインの両方で、異なるポーズと距離で10種類の車両で構成されている。 実験では、VIS領域の画像が未ラベルのターゲットデータセットであると仮定した。 まず、原画像から車両を検出して収穫し、その後、共通の距離2kmに投影します。 提案したトランスダクティブCycleGANは, DSIAC ATRデータセットの可視領域車両の分類において, 71.56%の精度を実現している。

One of the major obstacles in designing an automatic target recognition (ATR) algorithm, is that there are often labeled images in one domain (i.e., infrared source domain) but no annotated images in the other target domains (i.e., visible, SAR, LIDAR). Therefore, automatically annotating these images is essential to build a robust classifier in the target domain based on the labeled images of the source domain. Transductive transfer learning is an effective way to adapt a network to a new target domain by utilizing a pretrained ATR network in the source domain. We propose an unpaired transductive transfer learning framework where a CycleGAN model and a well-trained ATR classifier in the source domain are used to construct an ATR classifier in the target domain without having any labeled data in the target domain. We employ a CycleGAN model to transfer the mid-wave infrared (MWIR) images to visible (VIS) domain images (or visible to MWIR domain). To train the transductive CycleGAN, we optimize a cost function consisting of the adversarial, identity, cycle-consistency, and categorical cross-entropy loss for both the source and target classifiers. In this paper, we perform a detailed experimental analysis on the challenging DSIAC ATR dataset. The dataset consists of ten classes of vehicles at different poses and distances ranging from 1-5 kilometers on both the MWIR and VIS domains. In our experiment, we assume that the images in the VIS domain are the unlabeled target dataset. We first detect and crop the vehicles from the raw images and then project them into a common distance of 2 kilometers. Our proposed transductive CycleGAN achieves 71.56% accuracy in classifying the visible domain vehicles in the DSIAC ATR dataset.
翻訳日:2023-05-24 17:07:15 公開日:2023-05-23
# 脆弱性修正のためのマルチグラニュラリティ検出器

Multi-Granularity Detector for Vulnerability Fixes ( http://arxiv.org/abs/2305.13884v1 )

ライセンス: Link先を確認
Truong Giang Nguyen, Thanh Le-Cong, Hong Jin Kang, Ratnadira Widyasari, Chengran Yang, Zhipeng Zhao, Bowen Xu, Jiayuan Zhou, Xin Xia, Ahmed E. Hassan, Xuan-Bach D. Le, David Lo(参考訳) オープンソースソフトウェアへの依存が高まり、ユーザはサードパーティのライブラリの脆弱性に晒される。 このような脆弱性をユーザに警告するソフトウェア構成分析(sca)ツールが開発された。 SCAは脆弱性修正コミットの識別を必要とします。 以前の作業では,このような脆弱性フィックスコミットを自動的に識別する手法が提案されている。 しかし、そのようなコミットの特定は非常に困難であり、ごく少数のコミットだけが脆弱性の修正である。 さらに、コードの変更は騒がしく分析が難しい場合もあります。 ノイズは様々なレベルで発生するため、脆弱性の修正を正確に検出することは困難である。 これらの課題に対処し、先行研究の有効性を高めるために、Multi-Granularity Detector for Vulnerability Fixesを提案する。 以前の作業と異なる、midaは、コミットレベル、ファイルレベル、hunkレベル、行レベルに対応する各レベルのコード粒度を変更するために、異なるニューラルネットワークを構築している。 そして、すべてのベースモデルを組み合わせて最終予測を生成するアンサンブルモデルを利用する。 この設計により、midaは脆弱性フィックスコミットデータのノイズと高度にバランスのとれた性質をよりうまく扱うことができる。 さらに,コード変更の検査に要する人的労力を削減するため,コミット長に基づいて,Midasの出力に対する作業意識の調整を設計した。 評価結果は、MiDasが現在の最先端ベースラインをAUCで4.9%、JavaとPythonベースのデータセットで13.7%上回っていることを示している。 さらに、EffortCost@LとPopt@Lの2つの取り組みを意識して、MiDasは最先端のベースラインを上回り、Javaで最大28.2%、Javaで15.9%、Pythonで60%、51.4%の改善を実現している。

With the increasing reliance on Open Source Software, users are exposed to third-party library vulnerabilities. Software Composition Analysis (SCA) tools have been created to alert users of such vulnerabilities. SCA requires the identification of vulnerability-fixing commits. Prior works have proposed methods that can automatically identify such vulnerability-fixing commits. However, identifying such commits is highly challenging, as only a very small minority of commits are vulnerability fixing. Moreover, code changes can be noisy and difficult to analyze. We observe that noise can occur at different levels of detail, making it challenging to detect vulnerability fixes accurately. To address these challenges and boost the effectiveness of prior works, we propose MiDas (Multi-Granularity Detector for Vulnerability Fixes). Unique from prior works, Midas constructs different neural networks for each level of code change granularity, corresponding to commit-level, file-level, hunk-level, and line-level, following their natural organization. It then utilizes an ensemble model that combines all base models to generate the final prediction. This design allows MiDas to better handle the noisy and highly imbalanced nature of vulnerability-fixing commit data. Additionally, to reduce the human effort required to inspect code changes, we have designed an effort-aware adjustment for Midas's outputs based on commit length. The evaluation results demonstrate that MiDas outperforms the current state-of-the-art baseline in terms of AUC by 4.9% and 13.7% on Java and Python-based datasets, respectively. Furthermore, in terms of two effort-aware metrics, EffortCost@L and Popt@L, MiDas also outperforms the state-of-the-art baseline, achieving improvements of up to 28.2% and 15.9% on Java, and 60% and 51.4% on Python, respectively.
翻訳日:2023-05-24 17:06:39 公開日:2023-05-23
# 公正な監査に直面するAPIの関連性について

On the relevance of APIs facing fairwashed audits ( http://arxiv.org/abs/2305.13883v1 )

ライセンス: Link先を確認
Jade Garcia Bourr\'ee, Erwan Le Merrer, Gilles Tredan and Beno\^it Rottembourg(参考訳) 最近の法律では、規制当局が法律へのコンプライアンスを評価するためのAPIの提供をAIプラットフォームに要求している。 それにもかかわらず、プラットフォームはfairwashingによってapiの答えを操作できることが研究によって示されている。 本稿では,信頼度の高い監査の脅威に直面し,プラットフォームスクレイピングとAPIの併用によるメリットについて検討する。 このセットアップでは、操作された回答を検出するスクレイピングの使用について詳しく説明する。 特定のapi-scrap状況の広い範囲を抽象化するために、監査者が両方のデータソース間で期待する一貫性をキャプチャするプロキシの概念を導入する。 もしレギュレータが一貫性の優れたプロキシを持っているなら、容易に操作を検出し、apiをバイパスして監査を行うことができます。 一方、適切なプロキシがなければ、APIに依存する必要があり、監査役はフェアウォッシングから守ることはできない。 次に、監査人が監査タスクを便利に行うためにAPIに大きく依存し、潜在的な操作を検出する機会を維持しながら、実際のシナリオをシミュレートする。 監査タスクとapiフェアウォッシング検出タスクの緊張関係を強調するため,実際の監査シナリオにおいて,パレート最適戦略を特定する。 この研究は、実用的で操作しやすいセットアップにおける信頼性の高い監査の舞台となると信じています。

Recent legislation required AI platforms to provide APIs for regulators to assess their compliance with the law. Research has nevertheless shown that platforms can manipulate their API answers through fairwashing. Facing this threat for reliable auditing, this paper studies the benefits of the joint use of platform scraping and of APIs. In this setup, we elaborate on the use of scraping to detect manipulated answers: since fairwashing only manipulates API answers, exploiting scraps may reveal a manipulation. To abstract the wide range of specific API-scrap situations, we introduce a notion of proxy that captures the consistency an auditor might expect between both data sources. If the regulator has a good proxy of the consistency, then she can easily detect manipulation and even bypass the API to conduct her audit. On the other hand, without a good proxy, relying on the API is necessary, and the auditor cannot defend against fairwashing. We then simulate practical scenarios in which the auditor may mostly rely on the API to conveniently conduct the audit task, while maintaining her chances to detect a potential manipulation. To highlight the tension between the audit task and the API fairwashing detection task, we identify Pareto-optimal strategies in a practical audit scenario. We believe this research sets the stage for reliable audits in practical and manipulation-prone setups.
翻訳日:2023-05-24 17:06:11 公開日:2023-05-23
# Kullback-Leiblerの分散損失の分離

Decoupled Kullback-Leibler Divergence Loss ( http://arxiv.org/abs/2305.13948v1 )

ライセンス: Link先を確認
Jiequan Cui, Zhuotao Tian, Zhisheng Zhong, Xiaojuan Qi, Bei Yu, Hanwang Zhang(参考訳) 本稿では,クルバック・リブラー (KL) の分岐損失を深く掘り下げ,DKL (Douled Kullback-Leibler) の分岐損失と等価であることを示す。 1)重み付き平均正方形誤差(wMSE)と損失 2)ソフトラベルを組み込んだクロスエントロピー損失。 DKL損失の分析から,改善すべき2つの領域を特定した。 まず, 学習最適化における非対称性を損なうことにより, 知識蒸留などのシナリオにおけるdklの限界に対処した。 この修正は、wMSEコンポーネントがトレーニング中に常に有効であることを保証する。 次に,クラス内整合性正規化のためのグローバル情報をDKLに導入する。 これらの2つの拡張により、改良されたクルバック・リーブラー(IKL)の分散損失を導出し、CIFAR-10/100およびImageNetデータセットの実験を行い、敵の訓練と知識蒸留タスクに焦点を当ててその効果を評価する。 提案手法は両タスクの最先端性能を実現し,実用的メリットを実証する。 コードとモデルは近々https://github.com/jiequancui/DKL.comで公開される。

In this paper, we delve deeper into the Kullback-Leibler (KL) Divergence loss and observe that it is equivalent to the Doupled Kullback-Leibler (DKL) Divergence loss that consists of 1) a weighted Mean Square Error (wMSE) loss and 2) a Cross-Entropy loss incorporating soft labels. From our analysis of the DKL loss, we have identified two areas for improvement. Firstly, we address the limitation of DKL in scenarios like knowledge distillation by breaking its asymmetry property in training optimization. This modification ensures that the wMSE component is always effective during training, providing extra constructive cues. Secondly, we introduce global information into DKL for intra-class consistency regularization. With these two enhancements, we derive the Improved Kullback-Leibler (IKL) Divergence loss and evaluate its effectiveness by conducting experiments on CIFAR-10/100 and ImageNet datasets, focusing on adversarial training and knowledge distillation tasks. The proposed approach achieves new state-of-the-art performance on both tasks, demonstrating the substantial practical merits. Code and models will be available soon at https://github.com/jiequancui/DKL.
翻訳日:2023-05-24 17:01:04 公開日:2023-05-23
# テンソルCP分解のための深層学習支援型ラストスクエアとそのMIMOチャネル推定への応用

Deep-Learning-Aided Alternating Least Squares for Tensor CP Decomposition and Its Application to Massive MIMO Channel Estimation ( http://arxiv.org/abs/2305.13947v1 )

ライセンス: Link先を確認
Xiao Gong, Wei Chen, Bo Ai, Geert Leus(参考訳) candecomp/parafac(cp)分解(candecomp/parafac decomposition)は、受信したテンソル信号をマルチドメインの大規模多重入力多重出力(mimo)システムで定式化するモデルである。 高精度かつ低遅延チャネル推定を実現するために, cp分解アルゴリズムを良好かつ高速に求める。 cp alternating least squares (cpals) はcp分解を計算するためのワークホースアルゴリズムである。 しかし、そのパフォーマンスは初期化に依存しており、良い開始値がより効率的なソリューションにつながる可能性がある。 既存の初期化戦略はCPALSから切り離され、CP分解の解決に必ずしも有利ではない。 アルゴリズムの高速化と精度向上のために,ディープニューラルネットワーク(DNN)を用いたディープラーニング支援型CPALS(DL-CPALS)手法を提案する。 提案したDL-CPALSは、DNNとCPALSをモデルベースディープラーニングパラダイムに統合し、高速かつ正確なCP分解を容易にする初期化を生成するためにDNNを訓練する。 さらに,提案手法はCP低ランク化の恩恵を受け,ノイズデータを用いて学習し,ペアのクリーンデータを必要としない。 提案するDL-CPALSはミリ波MIMO直交周波数分割多重(mmWave MIMO-OFDM)チャネル推定に応用される。 実験により,CP分解とチャネル推定の高速化と精度の両面で,提案手法の大幅な改善が示された。

CANDECOMP/PARAFAC (CP) decomposition is the mostly used model to formulate the received tensor signal in a multi-domain massive multiple-input multiple-output (MIMO) system, as the receiver generally sums the components from different paths or users. To achieve accurate and low-latency channel estimation, good and fast CP decomposition algorithms are desired. The CP alternating least squares (CPALS) is the workhorse algorithm for calculating the CP decomposition. However, its performance depends on the initializations, and good starting values can lead to more efficient solutions. Existing initialization strategies are decoupled from the CPALS and are not necessarily favorable for solving the CP decomposition. To enhance the algorithm's speed and accuracy, this paper proposes a deep-learning-aided CPALS (DL-CPALS) method that uses a deep neural network (DNN) to generate favorable initializations. The proposed DL-CPALS integrates the DNN and CPALS to a model-based deep learning paradigm, where it trains the DNN to generate an initialization that facilitates fast and accurate CP decomposition. Moreover, benefiting from the CP low-rankness, the proposed method is trained using noisy data and does not require paired clean data. The proposed DL-CPALS is applied to millimeter wave MIMO orthogonal frequency division multiplexing (mmWave MIMO-OFDM) channel estimation. Experimental results demonstrate the significant improvements of the proposed method in terms of both speed and accuracy for CP decomposition and channel estimation.
翻訳日:2023-05-24 17:00:43 公開日:2023-05-23
# リピッツネスとスムーズネスのないオンラインポートフォリオ選択のためのデータ依存境界

Data-Dependent Bounds for Online Portfolio Selection Without Lipschitzness and Smoothness ( http://arxiv.org/abs/2305.13946v1 )

ライセンス: Link先を確認
Chung-En Tsai and Ying-Ting Lin and Yen-Huan Li(参考訳) この研究は、オンラインポートフォリオ選択における最初の小さな損失と段階的な後悔の限界を導入し、非リプシッツ、非スムース損失によるオンライン凸最適化のためのデータ依存境界の最初の例を示している。 提案するアルゴリズムは、最悪の場合におけるサブ線形後悔率を示し、データが「容易」である場合に対数後悔を達成する。 後悔境界は、対数損失の新たなスムーズな特徴付け、正規化リーダ(FTRL)と必ずしも障壁ではない自己調和正則化器による局所ノルムに基づく解析、および対数バリアによる楽観的FTRLの暗黙的変種を用いて導出される。

This work introduces the first small-loss and gradual-variation regret bounds for online portfolio selection, marking the first instances of data-dependent bounds for online convex optimization with non-Lipschitz, non-smooth losses. The algorithms we propose exhibit sublinear regret rates in the worst cases and achieve logarithmic regrets when the data is "easy," with per-iteration time almost linear in the number of investment alternatives. The regret bounds are derived using novel smoothness characterizations of the logarithmic loss, a local norm-based analysis of following the regularized leader (FTRL) with self-concordant regularizers, which are not necessarily barriers, and an implicit variant of optimistic FTRL with the log-barrier.
翻訳日:2023-05-24 17:00:15 公開日:2023-05-23
# 意味的フレーム誘導のためのDeep Metric Learningを用いたフレーム要素知識の獲得

Acquiring Frame Element Knowledge with Deep Metric Learning for Semantic Frame Induction ( http://arxiv.org/abs/2305.13944v1 )

ライセンス: Link先を確認
Kosuke Yamada, Ryohei Sasano, Koichi Takeda(参考訳) 意味的フレーム誘導タスクは、それらが引き起こすフレームへの単語のクラスタリングと、それらが満たすべきフレーム要素ロールに従って引数のクラスタリングとして定義される。 本稿では,フレーム要素知識獲得を目的とした議論クラスタリングの課題である後者の課題に対処し,深層メトリック学習を適用する手法を提案する。 この方法では、フレームアノテートデータを用いてフレーム要素の役割を区別するのに適した訓練済み言語モデルを微調整し、微調整されたモデルから得られた埋め込みを用いて引数クラスタリングを行う。 FrameNetの実験結果から,本手法は既存手法よりも大幅に性能が向上することが示された。

The semantic frame induction tasks are defined as a clustering of words into the frames that they evoke, and a clustering of their arguments according to the frame element roles that they should fill. In this paper, we address the latter task of argument clustering, which aims to acquire frame element knowledge, and propose a method that applies deep metric learning. In this method, a pre-trained language model is fine-tuned to be suitable for distinguishing frame element roles through the use of frame-annotated data, and argument clustering is performed with embeddings obtained from the fine-tuned model. Experimental results on FrameNet demonstrate that our method achieves substantially better performance than existing methods.
翻訳日:2023-05-24 16:59:59 公開日:2023-05-23
# クラスタリング指標に基づく自動分類モデル選択

Clustering Indices based Automatic Classification Model Selection ( http://arxiv.org/abs/2305.13926v1 )

ライセンス: Link先を確認
Sudarsun Santhiappan, Nitin Shravan, Balaraman Ravindran(参考訳) 分類モデル選択は、データセット上の所定の分類タスクに適したモデルクラスを識別するプロセスである。 伝統的にモデルの選択は、横断評価、メタラーニング、ユーザの好みに基づいており、それらはしばしば時間消費とリソース集約である。 任意の機械学習分類タスクのパフォーマンスは、モデルクラスの選択、学習アルゴリズム、およびデータセットの特徴に依存する。 本研究では,データセットのクラスタリング指標のみに基づいて経験的モデル適合性を決定することにより,候補モデルクラスからモデルの自動選択手法を提案する。 クラスタリング指標は、同様のデータ特性を持つ良質な近傍を誘導するクラスタリングアルゴリズムの能力を測定する。 本研究では,与えられたデータセットのクラスタリング指標が特徴を表現し,従属変数が期待される分類性能を表すモデルクラスの回帰タスクを提案する。 我々は,データセットクラスタリング指標を計算し,学習された回帰器を用いて予測された分類性能を直接予測し,データセット分類に適したモデルクラスを推奨する。 我々は、60の公開バイナリクラスデータセットを用いたクロスバリデーションによるモデル選択手法を評価し、上位3のモデル推奨が60のデータセットのうち45以上において正確であることを示す。 また,モデル選択法に基づくデータ分類のためのエンドツーエンド自動MLシステムを提案する。 25のパブリックドメインバイナリクラスデータセットの異なるコレクションを用いて、一般的な商用および非商用のMLシステムに対するエンドツーエンドシステムの評価を行った。 提案手法は,平均ランク1.68の他の手法よりも優れていた。

Classification model selection is a process of identifying a suitable model class for a given classification task on a dataset. Traditionally, model selection is based on cross-validation, meta-learning, and user preferences, which are often time-consuming and resource-intensive. The performance of any machine learning classification task depends on the choice of the model class, the learning algorithm, and the dataset's characteristics. Our work proposes a novel method for automatic classification model selection from a set of candidate model classes by determining the empirical model-fitness for a dataset based only on its clustering indices. Clustering Indices measure the ability of a clustering algorithm to induce good quality neighborhoods with similar data characteristics. We propose a regression task for a given model class, where the clustering indices of a given dataset form the features and the dependent variable represents the expected classification performance. We compute the dataset clustering indices and directly predict the expected classification performance using the learned regressor for each candidate model class to recommend a suitable model class for dataset classification. We evaluate our model selection method through cross-validation with 60 publicly available binary class datasets and show that our top3 model recommendation is accurate for over 45 of 60 datasets. We also propose an end-to-end Automated ML system for data classification based on our model selection method. We evaluate our end-to-end system against popular commercial and noncommercial Automated ML systems using a different collection of 25 public domain binary class datasets. We show that the proposed system outperforms other methods with an excellent average rank of 1.68.
翻訳日:2023-05-24 16:59:46 公開日:2023-05-23
# 量子ウォークフレームワークにおけるニュートリノ振動に対するオープンシステムアプローチ

Open system approach to Neutrino oscillations in a quantum walk framework ( http://arxiv.org/abs/2305.13923v1 )

ライセンス: Link先を確認
Himanshu Sahu, C. M. Chandrashekar(参考訳) 量子シミュレーションは、量子現象が系の振る舞いを定義するような化学、凝縮物質物理学、高エネルギー物理学の多くの問題をモデル化し研究するための計算可能なアプローチを提供する。 高エネルギー物理学では、ゲージ理論とその動的問題、トポロジカル問題、高バリオン密度配置、あるいは集団ニュートリノ振動への応用に関して、かなり多くの応用が研究されている。 特に、量子ウォークフレームワークを用いてニュートリノ振動をシミュレーションするためのスキームを提案する。 本研究では,オープン量子系の観点からニュートリノ振動をシミュレーションする問題に,量子ウォークの位置空間を環境として扱うことでアプローチする。 ニュートリノのフレーバー変化のダイナミクスを表すために, クラウス作用素に対して, 還元されたコイン状態の形で再帰関係を得た。 還元されたコイン状態とニュートリノ現象学のダイナミクスの関連性を確立し、与えられたニュートリノ実験のシミュレーションパラメータを固定し、ニュートリノ振動をシミュレートするための拡張位置空間の必要性を低減する。 また,同じ枠組みにおける異なるフレーバー間の絡み合いの尺度として線形エントロピーの挙動を検討した。

Quantum simulation provides a computationally-feasible approach to model and study many problems in chemistry, condensed-matter physics, or high-energy physics where quantum phenomenon define the systems behaviour. In high-energy physics, quite a few possible applications are investigated in the context of gauge theories and their application to dynamic problems, topological problems, high-baryon density configurations, or collective neutrino oscillations. In particular, schemes for simulating neutrino oscillations are proposed using a quantum walk framework. In this study, we approach the problem of simulating neutrino oscillation from the perspective of open quantum systems by treating the position space of quantum walk as environment. We have obtained the recurrence relation for Kraus operator which is used to represent the dynamics of the neutrino flavor change in the form of reduced coin states. We establish a connection between the dynamics of reduced coin state and neutrino phenomenology, enabling one to fix the simulation parameters for a given neutrino experiment and reduces the need for extended position space to simulate neutrino oscillations. We have also studied the behavior of linear entropy as a measure of entanglement between different flavors in the same framework.
翻訳日:2023-05-24 16:59:22 公開日:2023-05-23
# 拡散モデルの注意マップ制御による合成テキスト・画像合成

Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models ( http://arxiv.org/abs/2305.13921v1 )

ライセンス: Link先を確認
Ruichen Wang, Zekang Chen, Chen Chen, Jian Ma, Haonan Lu, Xiaodong Lin(参考訳) 最近のtext-to-image(t2i)拡散モデルは、テキストプロンプトに基づく高品質画像の生成において優れた性能を示している。 しかし、これらのモデルは合成能力が限られているため、生成した画像とテキスト記述を意味的に一致させることに失敗し、属性の漏洩、エンティティの漏洩、エンティティの欠如を招いた。 本稿では,これら3つの課題に対処するために,予測対象ボックスに基づく注意マスク制御手法を提案する。 特に、プロンプトで指定された属性を持つ各エンティティのボックスを予測するために、まずboxnetをトレーニングします。 そして、予測ボックスに応じて、クロスマップとセルフアテンションマップに独自のマスク制御を適用する。 提案手法は,画像へのプロンプト中の各トークンの注意領域を制約することにより,より意味論的に合成する。 さらに,提案手法は単純かつ効果的であり,既存のクロスアテンション拡散型T2Iジェネレータに容易に組み込むことができる。 提案手法を競合する手法と比較し,オリジナルテキストのセマンティクスを生成コンテンツに忠実に伝達するだけでなく,利用できるプラグインとして高可用性を実現することを示す。

Recent text-to-image (T2I) diffusion models show outstanding performance in generating high-quality images conditioned on textual prompts. However, these models fail to semantically align the generated images with the text descriptions due to their limited compositional capabilities, leading to attribute leakage, entity leakage, and missing entities. In this paper, we propose a novel attention mask control strategy based on predicted object boxes to address these three issues. In particular, we first train a BoxNet to predict a box for each entity that possesses the attribute specified in the prompt. Then, depending on the predicted boxes, unique mask control is applied to the cross- and self-attention maps. Our approach produces a more semantically accurate synthesis by constraining the attention regions of each token in the prompt to the image. In addition, the proposed method is straightforward and effective, and can be readily integrated into existing cross-attention-diffusion-based T2I generators. We compare our approach to competing methods and demonstrate that it not only faithfully conveys the semantics of the original text to the generated content, but also achieves high availability as a ready-to-use plugin.
翻訳日:2023-05-24 16:59:02 公開日:2023-05-23
# 大規模言語モデルを用いたシンボリック言語のためのデータ生成

Generating Data for Symbolic Language with Large Language Models ( http://arxiv.org/abs/2305.13917v1 )

ライセンス: Link先を確認
Jiacheng Ye, Chengzu Li, Lingpeng Kong, Tao Yu(参考訳) 大規模言語モデル(llm)は、パフォーマンスだけでなく、複雑さも生み出すが、最近の作業は、タスク推論ではなく、llmをデータジェネレータにし始めている。 しかしながら、このようなアプローチは主に自然言語タスクに適用されており、複雑な構造化アウトプット(意味解析やコード生成など)を持つシンボリック言語タスクについてはまだ検討されていない。 本稿では,LLMを利用して様々なアノテーション抽出記号言語データを生成するSymGenを提案する。 SymGenは、データ正確性を改善するために、ステアジェネレーションに対する情報的プロンプトと合意に基づく検証から構成される。 我々は6つのシンボリック言語タスクを様々な設定で広範囲に実験する。 llmと比較して,1\%のタスクモデルが同等あるいは優れた性能を達成できることを実証し,主に推論とデプロイメントコストを削減した。 また,人間の実演数が少ない生成データは,タスクモデルをトレーニングする際の人間の注釈データ量の10倍以上の有効性を示し,大量のアノテーションの労力を節約できることを示した。 SymGenは複雑なタスクのためのデータ生成に新たな光を放ち、コードのリリースは \href{https://github.com/HKUNLP/SymGen}{https://github.com/HKUNLP/SymGen} である。

While large language models (LLMs) bring not only performance but also complexity, recent work has started to turn LLMs into data generators rather than task inferencers, where another affordable task model is trained for efficient deployment and inference. However, such an approach has primarily been applied to natural language tasks and has not yet been explored for symbolic language tasks with complex structured outputs (e.g., semantic parsing and code generation). In this paper, we propose SymGen which utilizes LLMs for generating various annotation-expensive symbolic language data. SymGen consists of an informative prompt to steer generation and an agreement-based verifier to improve data correctness. We conduct extensive experiments on six symbolic language tasks across various settings. Compared with the LLMs, we demonstrate the 1\%-sized task model can achieve comparable or better performance, largely cutting inference and deployment costs. We also show that generated data with only a few human demonstrations can be as effective as over 10 times the amount of human-annotated data when training the task model, saving a considerable amount of annotation effort. SymGen sheds new light on data generation for complex tasks, and we release the code at \href{https://github.com/HKUNLP/SymGen}{https://github.com/HKUNLP/SymGen}.
翻訳日:2023-05-24 16:58:42 公開日:2023-05-23
# DAPR:Document-Aware Passage Retrievalのベンチマーク

DAPR: A Benchmark on Document-Aware Passage Retrieval ( http://arxiv.org/abs/2305.13915v1 )

ライセンス: Link先を確認
Kexin Wang, Nils Reimers, Iryna Gurevych(参考訳) 最近のニューラルネットワーク検索は主に短いテキストのランク付けに焦点を当てており、長い文書に挑戦している。 既存の作品は、主にランク付けや文書全体を評価している。 しかし、巨大なコーパス(例えば、訴訟、研究論文など)から、長い文書の中に関連性のあるパスを見つけたい場合が多い。 このシナリオでは、パッセージはドキュメントのコンテキストをほとんど提供せず、正しいドキュメントを見つけ、正しい結果を返す現在のアプローチに挑戦します。 このギャップを埋めるために,このタスクをdapr(document-aware passage retrieval)と命名し,daprと全文書検索の両方をカバーする,さまざまなドメインの複数のデータセットを含むベンチマークを構築する。 実験では,先行文書要約,パス表現のプール化,bm25によるハイブリッド検索など,さまざまなアプローチにより,最先端のニューラルパスレトリバーを文書レベルコンテキストで拡張する。 総合的に最良であるハイブリッド検索システムは、DAPRタスクを極端に改善するだけで、ドキュメント検索タスクを著しく改善することができる。 これにより、新しいタスクのためのより良い検索システムを開発するためのさらなる研究が促進される。 コードとデータはhttps://github.com/kwang2049/daprで入手できる。

Recent neural retrieval mainly focuses on ranking short texts and is challenged with long documents. Existing work mainly evaluates either ranking passages or whole documents. However, there are many cases where the users want to find a relevant passage within a long document from a huge corpus, e.g. legal cases, research papers, etc. In this scenario, the passage often provides little document context and thus challenges the current approaches to finding the correct document and returning accurate results. To fill this gap, we propose and name this task Document-Aware Passage Retrieval (DAPR) and build a benchmark including multiple datasets from various domains, covering both DAPR and whole-document retrieval. In experiments, we extend the state-of-the-art neural passage retrievers with document-level context via different approaches including prepending document summary, pooling over passage representations, and hybrid retrieval with BM25. The hybrid-retrieval systems, the overall best, can only improve on the DAPR tasks marginally while significantly improving on the document-retrieval tasks. This motivates further research in developing better retrieval systems for the new task. The code and the data are available at https://github.com/kwang2049/dapr
翻訳日:2023-05-24 16:58:02 公開日:2023-05-23
# RFデータからソフトレンジ情報を生成するための深層学習手法

A Deep Learning Approach for Generating Soft Range Information from RF Data ( http://arxiv.org/abs/2305.13911v1 )

ライセンス: Link先を確認
Yuxiao Li, Santiago Mazuelas, Yuan Shen(参考訳) 測定値から十分な情報を抽出することの難しさにもかかわらず、無線周波数(RF)ベースの手法が屋内のローカライゼーションに広く採用されている。 soft range information (sri) は、単一の距離推定ではなく、すべての可能な範囲値を与える、高精度なローカライズのための有望な代替手段を提供する。 RF計測から正確なSRIを生成するための深層学習手法を提案する。 特に、提案手法は2つのニューラルモジュールを持つネットワークによって実装され、生データから直接生成を行う。 2つの公開データセットを用いたケーススタディにおける広範囲な実験を行い、屋内の異なるローカライゼーションタスクの効率を定量化する。 その結果,提案手法は高精度なSRIを生成することができ,NLOS(Non-of-Sight)検出とレンジ誤差軽減の両面で従来の手法よりも優れていることがわかった。

Radio frequency (RF)-based techniques are widely adopted for indoor localization despite the challenges in extracting sufficient information from measurements. Soft range information (SRI) offers a promising alternative for highly accurate localization that gives all probable range values rather than a single estimate of distance. We propose a deep learning approach to generate accurate SRI from RF measurements. In particular, the proposed approach is implemented by a network with two neural modules and conducts the generation directly from raw data. Extensive experiments on a case study with two public datasets are conducted to quantify the efficiency in different indoor localization tasks. The results show that the proposed approach can generate highly accurate SRI, and significantly outperforms conventional techniques in both non-line-of-sight (NLOS) detection and ranging error mitigation.
翻訳日:2023-05-24 16:57:27 公開日:2023-05-23
# 深部強化学習によるシミュレーションMRIスキャナの制御

Control of a simulated MRI scanner with deep reinforcement learning ( http://arxiv.org/abs/2305.13979v1 )

ライセンス: Link先を確認
Simon Walker-Samuel(参考訳) 磁気共鳴イメージング(MRI)は、非常に多用途で広く用いられている臨床画像ツールである。 mri画像の内容は、スキャナハードウェアアクティベーションのタイミングと大きさを調整し、体内の磁化を形状および調整し、コヒーレント信号を生成する取得シーケンスによって制御される。 この過程を制御し、mriにおける新しい効率的な獲得戦略を決定するための深層強化学習(drl)の使用は検討されていない。 本稿では、DRLを用いて仮想MRIスキャナーを制御し、部分的に再構成された等級画像を用いて画像ファントムの形状を効率的に再構成することを目的としたゲームとして、この問題に対処する。 その結果,DRLは仮想MRIスキャナーを誘導して有用な信号を生成し,それらの信号を解釈して幻の形状を決定するという2つの重要なタスクを完了した。 この概念実証研究は、自律的なMRIデータ取得におけるDRLの可能性を強調し、複雑なタスクに対するDRLの適合性に光を当て、監督が限定され、人間が読める出力を提供する必要がない。

Magnetic resonance imaging (MRI) is a highly versatile and widely used clinical imaging tool. The content of MRI images is controlled by an acquisition sequence, which coordinates the timing and magnitude of the scanner hardware activations, which shape and coordinate the magnetisation within the body, allowing a coherent signal to be produced. The use of deep reinforcement learning (DRL) to control this process, and determine new and efficient acquisition strategies in MRI, has not been explored. Here, we take a first step into this area, by using DRL to control a virtual MRI scanner, and framing the problem as a game that aims to efficiently reconstruct the shape of an imaging phantom using partially reconstructed magnitude images. Our findings demonstrate that DRL successfully completed two key tasks: inducing the virtual MRI scanner to generate useful signals and interpreting those signals to determine the phantom's shape. This proof-of-concept study highlights the potential of DRL in autonomous MRI data acquisition, shedding light on the suitability of DRL for complex tasks, with limited supervision, and without the need to provide human-readable outputs.
翻訳日:2023-05-24 16:50:13 公開日:2023-05-23
# オープンドメイン会話システムへのメモリ管理の無力な統合

Effortless Integration of Memory Management into Open-Domain Conversation Systems ( http://arxiv.org/abs/2305.13973v1 )

ライセンス: Link先を確認
Eunbi Choi, Kyoung-Woon On, Gunsoo Han, Sungwoong Kim, Daniel Wontae Nam, Daejin Jo, Seung Eun Rho, Taehwan Kwon, Minjoon Seo(参考訳) オープンドメイン会話システムはモジュール方式で複数の会話スキルを単一のシステムに統合する。 しかし、システムの制限の1つは、外部メモリの管理機能がないことである。 本稿では,メモリ管理機能を統合することでblenderbot3を改善するための簡易な方法を提案する。 この目的のためにトレーニングデータがないため、メモリ管理のための自動データセット作成を提案する。 我々の方法 1)データ構築にはほとんど費用がかからない。 2)他のタスクのパフォーマンスに影響を与えず、 3)外部メモリの削減。 提案したモデルであるBlenderBot3-M^3は、メモリ管理の訓練を受けたマルチタスクであり、F1スコアの点でBlenderBot3よりも4%高い性能を示した。

Open-domain conversation systems integrate multiple conversation skills into a single system through a modular approach. One of the limitations of the system, however, is the absence of management capability for external memory. In this paper, we propose a simple method to improve BlenderBot3 by integrating memory management ability into it. Since no training data exists for this purpose, we propose an automating dataset creation for memory management. Our method 1) requires little cost for data construction, 2) does not affect performance in other tasks, and 3) reduces external memory. We show that our proposed model BlenderBot3-M^3, which is multi-task trained with memory management, outperforms BlenderBot3 with a relative 4% performance gain in terms of F1 score.
翻訳日:2023-05-24 16:49:53 公開日:2023-05-23
# 選択しろ! インテクスト学習による知識ベース質問応答

Make a Choice! Knowledge Base Question Answering with In-Context Learning ( http://arxiv.org/abs/2305.13972v1 )

ライセンス: Link先を確認
Chuanyuan Tan, Yuehe Chen, Wenbiao Shao, Wenliang Chen(参考訳) 知識ベースに対する質問応答(KBQA)は、与えられた知識ベース(KB)でファクトイドな質問に答えることを目的としている。 KBの大規模化により、注釈付きデータはKB内のすべてのファクトスキーマをカバーすることは不可能であり、十分な量の注釈付きデータを必要とするメソッドの一般化能力への挑戦となる。 近年,多くのNLPタスクにおいてLLMの性能が向上している。 LLMは、特に低リソース環境で、既存の手法が一般化能力を向上させるのに役立つと期待している。 In this paper, we present McL-KBQA, a framework that a few-shot ability of LLM to the KBQA method through ICL-based multiple choice and to improve the effective of the QA task。 KBQAデータセットの2つの実験結果から,McL-KBQAの競争性能が向上した。 llmと連携して、kbqaからqaタスクへの新たな方法、規範的かつ正しく回答を生成する方法、強力な一般化について検討する予定です。

Question answering over knowledge bases (KBQA) aims to answer factoid questions with a given knowledge base (KB). Due to the large scale of KB, annotated data is impossible to cover all fact schemas in KB, which poses a challenge to the generalization ability of methods that require a sufficient amount of annotated data. Recently, LLMs have shown strong few-shot performance in many NLP tasks. We expect LLM can help existing methods improve their generalization ability, especially in low-resource situations. In this paper, we present McL-KBQA, a framework that incorporates the few-shot ability of LLM into the KBQA method via ICL-based multiple choice and then improves the effectiveness of the QA tasks. Experimental results on two KBQA datasets demonstrate the competitive performance of McL-KBQA with strong improvements in generalization. We expect to explore a new way to QA tasks from KBQA in conjunction with LLM, how to generate answers normatively and correctly with strong generalization.
翻訳日:2023-05-24 16:49:41 公開日:2023-05-23
# フレキシブル文法に基づく言語モデルのための制約付きデコーディング

Flexible Grammar-Based Constrained Decoding for Language Models ( http://arxiv.org/abs/2305.13971v1 )

ライセンス: Link先を確認
Saibo Geng, Martin Josifosky, Maxime Peyrard, Robert West(参考訳) LLMは多くのタスクで印象的な数ショットのパフォーマンスを示している。 しかし、情報抽出に必要な複雑な出力構造を生成するという点では、依然として苦労している。 この制限は、LLMが微調整なしで特定の文法に従う正確な構造よりも自由テキストを生成する傾向があるという事実に由来する。 本稿では,形式的文法制約により復号化ステップを強化することを提案する。 ビーム探索中、文法生成規則に準拠した有効なトークン継続のみが考慮される。 これは有効なシーケンスを排他的に生成する。 フレームワークは非常に汎用的で柔軟性があり、任意のContext-Free Grammar(CFG)をカスタム制約ビームサーチ実装に統合することができます。 我々は,多くのNLPタスクの出力を形式言語として表現できることを示す。 出力空間が入力に依存するタスクに対しては,生成を制約する入力依存文法を提案する。 文法における大きなアルファベット (wikidata entities and relations) を含む2つの課題(情報抽出とエンティティの曖昧さ)を用いて実験を行った。 LLaMAモデルを用いた結果から,文法制約付き復号化は制約のない数発のプロンプトよりも優れており,タスク固有の微調整モデルと競合することが明らかとなった。 これらの結果から,デコード中に文法に基づく制約を統合することは,llmが構造化アウトプットを確実に生成する上で,特にトレーニングデータが不足し,微調整が高価である場合に大きな期待が持てることが示唆された。

LLMs have shown impressive few-shot performance across many tasks. However, they still struggle when it comes to generating complex output structures, such as those required for Information Extraction. This limitation stems from the fact that LLMs, without finetuning, tend to generate free text rather than precise structures that follow a specific grammar. In this work, we propose to enrich the decoding step with formal grammar constraints. During beam search, only valid token continuations compliant with the grammar production rules are considered. This enforces the generation of valid sequences exclusively. Our framework is highly general and flexible, allowing any Context-Free Grammar (CFG) to be integrated into our custom constrained beam search implementation. We demonstrate that the outputs of many NLP tasks can be represented as formal languages, making them suitable for direct use in our framework. For task where the output space is dependent on the input, we propose input-dependent grammars to constrain the generation. We conducted experiments with two challenging tasks involving large alphabets in their grammar (Wikidata entities and relations): information extraction and entity disambiguation. Our results with LLaMA models clearly indicate that grammar-constrained decoding outperforms few-shot prompting without constraints, and even competes with task-specific finetuned models. These findings suggest that integrating grammar-based constraints during decoding holds great promise in making LLMs reliably produce structured outputs, especially in setting where training data is scarce and finetuning is expensive.
翻訳日:2023-05-24 16:49:23 公開日:2023-05-23
# REGARD:侵入対策のためのサイバリン自動防御のためのエンガGementルール

REGARD: Rules of EngaGement for Automated cybeR Defense to aid in Intrusion Response ( http://arxiv.org/abs/2305.13967v1 )

ライセンス: Link先を確認
Damodar Panigrahi, William Anderson, Joshua Whitman, Sudip Mittal, Benjamin A Blakely(参考訳) 侵入検知システム(IDS)の一部と侵入応答システム(IRS)の一部であるインテリジェントサイバー防御エージェント(AICA)は、高度で自動化されたサイバー攻撃から保護するために設計されている。 自己適応型自律コンピューティングシステム(SA-ACS)の考え方に基づくAICAは、パーソナルコンピュータやWebアプリケーション、クリティカルインフラストラクチャなどのマネージドシステムを保護する管理システムとして考えられる。 AICA、特にIRSコンポーネントは、攻撃が完了しないよう行動を取ること、組織的セキュリティポリシーを遵守するシステムを復元すること、攻撃を封じ込めたり閉じたりすること、根絶すること、将来の攻撃分析を可能にするための法医学的な措置を展開することなど、そのセキュリティ目標と目的を満たすために、幅広い潜在的な応答を計算することができる。 協調的・組織的損害を最小限に抑えるためにその活動を制限するためには、自動化されたシステムが関与規則(roe)を定める必要がある。 自動システムは、どの操作が完全に自動化され(そしていつ)、どのアクションが人間の操作者確認を必要とし、どのアクションが実行されなければならないかを決定する必要がある。 本稿では、この制御機能をirs上で有効にするために、人間オペレータが提供した指示に従って、管理されたシステムを保護するためのroe(laws of engagement)セットを保持するautomated cyber defense(regard)システムのためのエンゲージメントルールを作成する。 これらのルールは、ドメインエキスパートの推薦に従って、管理システムにおけるIRSのアクションを制限するのに役立つ。 我々は、自動IRSの動作を制限するために、ルール・オブ・エンゲージメント(RoE)の実行、管理、運用、紛争解決の詳細を提供する。 また,システム実装,サイバー防衛のためのセキュリティケーススタディ,roeデモについても述べる。

Automated Intelligent Cyberdefense Agents (AICAs) that are part Intrusion Detection Systems (IDS) and part Intrusion Response Systems (IRS) are being designed to protect against sophisticated and automated cyber-attacks. An AICA based on the ideas of Self-Adaptive Autonomic Computing Systems (SA-ACS) can be considered as a managing system that protects a managed system like a personal computer, web application, critical infrastructure, etc. An AICA, specifically the IRS components, can compute a wide range of potential responses to meet its security goals and objectives, such as taking actions to prevent the attack from completing, restoring the system to comply with the organizational security policy, containing or confining an attack, attack eradication, deploying forensics measures to enable future attack analysis, counterattack, and so on. To restrict its activities in order to minimize collateral/organizational damage, such an automated system must have set Rules of Engagement (RoE). Automated systems must determine which operations can be completely automated (and when), which actions require human operator confirmation, and which actions must never be undertaken. In this paper, to enable this control functionality over an IRS, we create Rules of EngaGement for Automated cybeR Defense (REGARD) system which holds a set of Rules of Engagement (RoE) to protect the managed system according to the instructions provided by the human operator. These rules help limit the action of the IRS on the managed system in compliance with the recommendations of the domain expert. We provide details of execution, management, operation, and conflict resolution for Rules of Engagement (RoE) to constrain the actions of an automated IRS. We also describe REGARD system implementation, security case studies for cyber defense, and RoE demonstrations.
翻訳日:2023-05-24 16:48:59 公開日:2023-05-23
# CPNet:CLIPベースのアテンションコンデンサの爆発と高忠実な会話顔生成のための確率マップガイダンス

CPNet: Exploiting CLIP-based Attention Condenser and Probability Map Guidance for High-fidelity Talking Face Generation ( http://arxiv.org/abs/2305.13962v1 )

ライセンス: Link先を確認
Jingning Xu, Benlai Tang, Mingjie Wang, Minghao Li, Meirong Ma(参考訳) 近年,映画アニメーションや仮想アンカーなど,コンピュータビジョンの難題や幅広い応用シナリオにより,会話による顔生成が研究コミュニティから注目を集めている。 生成した音声音声の忠実度とリップシンク品質を向上させるため,永続的な努力が続けられているが,合成品質と効率性をさらに向上する余地は依然として大きい。 実際、これらの試みは、細粒度特徴抽出/積分の探索やランドマークの確率分布の整合性を無視し、局所的な詳細の曖昧さと劣化した忠実さの問題を繰り返す。 本稿では,これらのジレンマを緩和するために,CLIPをベースとした新しいCPNet(Attention and Probability Map Guided Network)を提案する。 具体的には、細粒度機能再構成の要求を考慮し、クリップベースのアテンションコンデンサを用いて、一般的なCLIPモデルからリッチセマンティックプリミティブで知識を伝達する。 さらに,確率空間の一貫性を保証し,ランドマーク曖昧さを抑制するため,生成したフレームのランドマーク分布学習を導くために,補助監督信号として顔ランドマークの密度マップを創造的に提案する。 広く使用されているベンチマークデータセットに対する大規模な実験は、画像とリップシンクの品質の観点から、CPNetの最先端性を示している。 さらに、個々の主成分の影響を緩和する研究のコホートも実施されている。

Recently, talking face generation has drawn ever-increasing attention from the research community in computer vision due to its arduous challenges and widespread application scenarios, e.g. movie animation and virtual anchor. Although persevering efforts have been undertaken to enhance the fidelity and lip-sync quality of generated talking face videos, there is still large room for further improvements of synthesis quality and efficiency. Actually, these attempts somewhat ignore the explorations of fine-granularity feature extraction/integration and the consistency between probability distributions of landmarks, thereby recurring the issues of local details blurring and degraded fidelity. To mitigate these dilemmas, in this paper, a novel CLIP-based Attention and Probability Map Guided Network (CPNet) is delicately designed for inferring high-fidelity talking face videos. Specifically, considering the demands of fine-grained feature recalibration, a clip-based attention condenser is exploited to transfer knowledge with rich semantic priors from the prevailing CLIP model. Moreover, to guarantee the consistency in probability space and suppress the landmark ambiguity, we creatively propose the density map of facial landmark as auxiliary supervisory signal to guide the landmark distribution learning of generated frame. Extensive experiments on the widely-used benchmark dataset demonstrate the superiority of our CPNet against state of the arts in terms of image and lip-sync quality. In addition, a cohort of studies are also conducted to ablate the impacts of the individual pivotal components.
翻訳日:2023-05-24 16:48:24 公開日:2023-05-23
# 外科的位相認識におけるメトリクス

Metrics Matter in Surgical Phase Recognition ( http://arxiv.org/abs/2305.13961v1 )

ライセンス: Link先を確認
Isabel Funke, Dominik Rivoir and Stefanie Speidel(参考訳) 手術相認識は, コンピュータやロボット支援手術において, 異なる文脈認識応用のための基本要素である。 近年,いくつかの自動位相認識法が提案され,有望な結果が得られた。 しかし,評価プロセスの違いや評価詳細の不完全な報告のため,これらの手法の有意義な比較は困難である。 特に、計量計算の詳細は異なる研究によって大きく異なる可能性がある。 そこで本研究では,Cholec80ベンチマークにおける位相認識アルゴリズムの評価における共通偏差について述べる。 また、既に報告されたcholec80の評価結果の構造化概要を提供し、評価プロトコルの既知の相違を考慮に入れる。 評価の詳細にもっと注意を払えば、手術段階認識タスクにおいてより一貫した比較結果が得られ、この分野の進歩と、最終的に臨床への翻訳に関するより信頼性の高い結論が得られます。

Surgical phase recognition is a basic component for different context-aware applications in computer- and robot-assisted surgery. In recent years, several methods for automatic surgical phase recognition have been proposed, showing promising results. However, a meaningful comparison of these methods is difficult due to differences in the evaluation process and incomplete reporting of evaluation details. In particular, the details of metric computation can vary widely between different studies. To raise awareness of potential inconsistencies, this paper summarizes common deviations in the evaluation of phase recognition algorithms on the Cholec80 benchmark. In addition, a structured overview of previously reported evaluation results on Cholec80 is provided, taking known differences in evaluation protocols into account. Greater attention to evaluation details could help achieve more consistent and comparable results on the surgical phase recognition task, leading to more reliable conclusions about advancements in the field and, finally, translation into clinical practice.
翻訳日:2023-05-24 16:47:56 公開日:2023-05-23
# モデルベースからデータ駆動シミュレーションへ:自律運転の課題と動向

From Model-Based to Data-Driven Simulation: Challenges and Trends in Autonomous Driving ( http://arxiv.org/abs/2305.13960v1 )

ライセンス: Link先を確認
Ferdinand M\"utsch, Helen Gremmelmaier, Nicolas Becker, Daniel Bogdoll, Marc Ren\'e Zofka, J. Marius Z\"ollner(参考訳) シミュレーションは自動運転車の開発プロセスにおいて不可欠な部分であり、運転機能の訓練、検証、検証に有利である。 シミュレーションには実世界の実験と比べて様々な利点があるが、バーチャルテストが物理的なテストドライブを完全に置き換えることを防いでいる。 我々の研究は、これらの課題について様々な側面やシミュレーションのタイプについて概説し、克服する現在の傾向を仮定する。 我々は、認識、行動、およびコンテンツリアリズムに関する側面と、シミュレーションの領域における一般的なハードルをカバーしている。 モデルベースシミュレーションの代替として,データ駆動型,生成的アプローチ,高忠実度データ合成のトレンドを考察する。

Simulation is an integral part in the process of developing autonomous vehicles and advantageous for training, validation, and verification of driving functions. Even though simulations come with a series of benefits compared to real-world experiments, various challenges still prevent virtual testing from entirely replacing physical test-drives. Our work provides an overview of these challenges with regard to different aspects and types of simulation and subsumes current trends to overcome them. We cover aspects around perception-, behavior- and content-realism as well as general hurdles in the domain of simulation. Among others, we observe a trend of data-driven, generative approaches and high-fidelity data synthesis to increasingly replace model-based simulation.
翻訳日:2023-05-24 16:47:42 公開日:2023-05-23
# 分布シフトを伴う大規模言語モデルのロバスト命令最適化

Robust Instruction Optimization for Large Language Models with Distribution Shifts ( http://arxiv.org/abs/2305.13954v1 )

ライセンス: Link先を確認
Moxin Li, Wenjie Wang, Fuli Feng, Jizhi Zhang, Tat-Seng Chua(参考訳) 大規模言語モデルは、幅広い自然言語処理(nlp)タスクを達成する上で有意な能力を示している。 しかし、それらの性能はタスク命令のフィラシングの微妙な変化に非常に敏感であり、nlpタスクのパフォーマンス向上に向けた自動命令最適化の研究の行に繋がる。 残念なことに、既存の命令最適化の方法は、見掛けられたトレーニングデータと見当たらないテストデータの間の分散シフトを考慮していない。 本稿では,分散シフトを持つデータ群間でllm命令の最適化の問題を検討する最初のステップについて述べる。 最適命令は特定の分布シフトの下でLLMの性能低下に遭遇する。 そこで本研究では,見掛けたデータ群を犠牲にすることなく,見当たらないデータ群の性能を向上させるための,よりロバストな最適命令を導出する枠組みを提案する。 提案手法の有効性を実験的に検証した。

Large Language Models have demonstrated significant ability in accomplishing a wide range of Natural Language Processing (NLP) tasks. However, their performance is highly sensitive to the even minor changes in the phrasing of the task instructions, leading to a line of research in automatic instruction optimization towards better performance for NLP tasks. Unfortunately, existing methods for instruction optimization fail to consider the distribution shift between the seen training data and the unseen test data, where testing on unseen group of data with a different distribution could potentially lead to performance drop. In this paper, we take an initial step of investigating the problem of LLM instruction optimization across data groups with distribution shifts. We find that the optimal instructions do encounter performance drops on LLM under certain distribution shifts. To this end, we propose a framework to derive more robust optimal instructions that improve the performance on the unseen data group without large sacrifice on the seen data group. Experimental results demonstrate the effectiveness of our proposed framework.
翻訳日:2023-05-24 16:47:31 公開日:2023-05-23
# 渦超電流による量子干渉

Quantum Interference by Vortex Supercurrents ( http://arxiv.org/abs/2305.13952v1 )

ライセンス: Link先を確認
G. P. Papari and V. M. Fomin(参考訳) 有限幅超伝導メソスコピックリングで測定された磁気抵抗振動のパラボラ背景の起源を入力・出力スタブとパターン付きフィルムで解析した。 磁気抵抗の正弦波振動を説明する伝達モデルは、パラボリック背景を磁場の関数として扱うために拡張される。 リングによって活性化される干渉機構とは別に、位相欠陥としての超伝導渦は、ボルトメータが感知する準粒子に影響を与える、さらに干渉に基づく超電流の分布をもたらす。 渦の開始は、リングと2重連結なトポロジーと渦格子の両方によって誘導される秩序パラメータの成分の干渉により、完全な磁気抵抗ダイナミクスを解釈することができるように、メソスコピック環の超伝導状態のトポロジーを変化させる。

We analyze the origin of the parabolic background of magnetoresistance oscillations measured in finite-width superconducting mesoscopic rings with input and output stubs and in patterned films. The transmission model explaining the sinusoidal oscillation of magnetoresistance is extended to address the parabolic background as a function of the magnetic field. Apart from the interference mechanism activated by the ring, pinned superconducting vortices as topological defects introduce a further interference-based distribution of supercurrents that affects, in turn, the voltmeter-sensed quasiparticles. The onset of vortices changes the topology of the superconducting state in a mesoscopic ring in a such a way that the full magnetoresistance dynamics can be interpreted owing to the interference of the constituents of the order parameter induced by both the ring with its doubly-connected topology and the vortex lattice in it.
翻訳日:2023-05-24 16:47:14 公開日:2023-05-23
# SMT 2.0:階層および混合変数ガウスプロセスに焦点を当てた代理モデリングツールボックス

SMT 2.0: A Surrogate Modeling Toolbox with a focus on Hierarchical and Mixed Variables Gaussian Processes ( http://arxiv.org/abs/2305.13998v1 )

ライセンス: Link先を確認
Paul Saves and Remi Lafage and Nathalie Bartoli and Youssef Diouane and Jasper Bussemaker and Thierry Lefebvre and John T. Hwang and Joseph Morlier and Joaquim R. R. A. Martins(参考訳) Surrogate Modeling Toolbox (SMT)はオープンソースのPythonパッケージで、一連のサロゲートモデリングメソッド、サンプリング技術、サンプル問題の集合を提供する。 本稿では、ツールボックスに大幅なアップグレードと新機能を導入したSMT 2.0について述べる。 このリリースには、混合変数サロゲートモデルと階層変数を扱う機能が追加されている。 これらのタイプの変数は、いくつかの代理モデリングアプリケーションでますます重要になっている。 SMT 2.0はサンプリング方法を拡張し、新しいサロゲートモデルを追加し、分散計算とKrigingのカーネルデリバティブを演算することでSMTを改善した。 このリリースには、ノイズを処理し、マルチフィデリティデータを使用する新しい機能も含まれている。 我々の知る限り、SMT 2.0は階層的および混合的な入力に対するサロゲートモデルを提案する最初のオープンソースサロゲートライブラリである。 このオープンソースソフトウェアは、新しいbsdライセンスの下で配布される。

The Surrogate Modeling Toolbox (SMT) is an open-source Python package that offers a collection of surrogate modeling methods, sampling techniques, and a set of sample problems. This paper presents SMT 2.0, a major new release of SMT that introduces significant upgrades and new features to the toolbox. This release adds the capability to handle mixed-variable surrogate models and hierarchical variables. These types of variables are becoming increasingly important in several surrogate modeling applications. SMT 2.0 also improves SMT by extending sampling methods, adding new surrogate models, and computing variance and kernel derivatives for Kriging. This release also includes new functions to handle noisy and use multifidelity data. To the best of our knowledge, SMT 2.0 is the first open-source surrogate library to propose surrogate models for hierarchical and mixed inputs. This open-source software is distributed under the New BSD license.
翻訳日:2023-05-24 16:41:28 公開日:2023-05-23
# 量子電磁力学におけるアハロノフ・ボーム相のゲージ依存性

Gauge dependence of the Aharonov-Bohm phase in quantum electrodynamics framework ( http://arxiv.org/abs/2305.13995v1 )

ライセンス: Link先を確認
A. Hayashi(参考訳) Aharonov-Bohm (AB) 相は通常、ソレノイドのような外部電流源によって生成される電磁ベクトルポテンシャルの線積分と関連付けられる。 この解釈によれば、積分はベクトルポテンシャルのゲージ選択に依存するため、非閉経路のAB位相は観測できない。 荷電粒子と外部電流の相互作用によるAB効果を説明する最近の試みは、量子光子の交換によるものであり、AB相のシフトは荷電粒子と外部電流源との相互作用エネルギーの変化に比例すると仮定されている。 その結果、これらの試みは、経路に沿ったab相変化はゲージの選択に依存しず、非閉経路のab相シフトは原則的に測定可能であると主張する。 本稿では,この主張を批判的に検証し,この手法により得られた位相が実際にゲージ依存であり,非閉路の観測可能でないことを示す。 また,非閉鎖経路のAB位相シフトを観測するための提案実験について,簡単な批判的考察を行った。

The Aharonov-Bohm (AB) phase is usually associated with a line integral of the electromagnetic vector potential generated by an external current source, such as a solenoid. According to this interpretation, the AB phase of a nonclosed path cannot be observed, as the integral depends on the gauge choice of the vector potential. Recent attempts to explain the AB effect through the interaction between a charged particle and an external current, mediated by the exchange of quantum photons, have assumed that the AB phase shift is proportional to the change in interaction energy between the charged particle and the external current source. As a result, these attempts argue that the AB phase change along a path does not depend on the gauge choice, and that the AB phase shift for a nonclosed path is in principle measurable. In this paper, we critically examine this claim and demonstrate that the phase obtained through this approach is actually gauge-dependent and not an observable for a nonclosed path. We also provide a brief critical discussion of the proposed experiment for observing the AB phase shift of a nonclosed path.
翻訳日:2023-05-24 16:40:56 公開日:2023-05-23
# 軽量言語モジュールによる多言語知識の凝縮

Condensing Multilingual Knowledge with Lightweight Language-Specific Modules ( http://arxiv.org/abs/2305.13993v1 )

ライセンス: Link先を確認
Haoran Xu, Weiting Tan, Shuyue Stella Li, Yunmo Chen, Benjamin Van Durme, Philipp Koehn, Kenton Murray(参考訳) 言語固有の(LS)モジュールを組み込むことは、多言語機械翻訳の性能を高めるための実証された方法である。 このアプローチはFLOPをインフレしないため、Mixture-of-Experts (MoE)と似ている。 しかしながら、数百の言語(専門家)に対するこのアプローチのスケーラビリティは、完全連結層でフルランク行列によって導入されたパラメータの数が制限されるため、管理できない傾向がある。 本稿では,Language-Specific Matrix Synthesis (LMS)法について述べる。 このアプローチは、フルランク行列を近似するために、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。 さらに,複数のLSモジュールからの多言語知識をFuse Distillation (FD)技術で単一の共有モジュールに凝縮し,推論とモデルシリアライゼーションの効率化を図る。 LMS法は, 多数の多言語機械翻訳において, Switch Transformer 上の 1.73 BLEU 点と同一量の余剰パラメータで, 従来のLS法と MoE 法を著しく上回ることを示す。 重要なことに、lmsはより少ないパラメータで同等の翻訳性能を得ることができる。

Incorporating language-specific (LS) modules is a proven method to boost performance in multilingual machine translation. This approach bears similarity to Mixture-of-Experts (MoE) because it does not inflate FLOPs. However, the scalability of this approach to hundreds of languages (experts) tends to be unmanageable due to the prohibitive number of parameters introduced by full-rank matrices in fully-connected layers. In this work, we introduce the Language-Specific Matrix Synthesis (LMS) method. This approach constructs LS modules by generating low-rank matrices from two significantly smaller matrices to approximate the full-rank matrix. Furthermore, we condense multilingual knowledge from multiple LS modules into a single shared module with the Fuse Distillation (FD) technique to improve the efficiency of inference and model serialization. We show that our LMS method significantly outperforms previous LS methods and MoE methods with the same amount of extra parameters, e.g., 1.73 BLEU points over the Switch Transformer on many-to-many multilingual machine translation. Importantly, LMS is able to have comparable translation performance with much fewer parameters.
翻訳日:2023-05-24 16:40:39 公開日:2023-05-23
# 密度行列のLiouville空間ニューラルネットワーク表現

Liouville Space Neural Network Representation of Density Matrices ( http://arxiv.org/abs/2305.13992v1 )

ライセンス: Link先を確認
Simon Kothe and Peter Kirton(参考訳) アンザッツ波動関数としてのニューラルネットワーク量子状態は、スピンモデルの基底状態を見つけるための多くの約束を示す。 近年、オープンシステムのダイナミクスをシミュレートするために、このアイデアを混合状態に拡張することに注力している。 これまでのほとんどのアプローチでは、系のヒルベルト空間のコピーが加わり、トレースアウトされたとき正しい密度行列が与えられる精製アンサッツを用いていた。 ここでは、リウヴィル空間の密度行列を直接表現する制限ボルツマンマシンの拡張を示す。 これにより平均場理論に現れる状態のコンパクト表現が可能になる。 我々は,2種類の散逸性逆場Isingモデルのアプローチをベンチマークし,他の最先端のアプローチと競合できることを示す。

Neural network quantum states as ansatz wavefunctions have shown a lot of promise for finding the ground state of spin models. Recently, work has been focused on extending this idea to mixed states for simulating the dynamics of open systems. Most approaches so far have used a purification ansatz where a copy of the system Hilbert space is added which when traced out gives the correct density matrix. Here, we instead present an extension of the Restricted Boltzmann Machine which directly represents the density matrix in Liouville space. This allows the compact representation of states which appear in mean-field theory. We benchmark our approach on two different version of the dissipative transverse field Ising model which show our ansatz is able to compete with other state-of-the-art approaches.
翻訳日:2023-05-24 16:40:21 公開日:2023-05-23
# 凸結合によるロバスト性検証のための表現的損失

Expressive Losses for Verified Robustness via Convex Combinations ( http://arxiv.org/abs/2305.13991v1 )

ライセンス: Link先を確認
Alessandro De Palma, Rudy Bunel, Krishnamurthy Dvijotham, M. Pawan Kumar, Robert Stanforth, Alessio Lomuscio(参考訳) 検証された敵の堅牢性のためにネットワークをトレーニングするために、以前の研究は典型的には、摂動領域(サブセット)に対する最悪の損失を過度に評価する。 最先端のパフォーマンスの鍵は、採用済みの損失関数の表現性にある。 表現性の定義を定式化し、逆攻撃とipp境界の間の単純な凸結合によって満足できることを示す。 次に, CC-IBP と MTL-IBP というアルゴリズムが, 概念的単純さに拘わらず, 様々な状況において, 最先端の結果をもたらすことを示す。 特に、TinyImageNet上の$\ell_\infty$摂動$$\frac{1}{255}$とダウンスケールImageNetの場合、MTL-IBPは、最高の標準と検証された精度を文献から1.98\%$から3.92\%$ポイントまで改善し、シングルステップの敵攻撃にのみ依存する。

In order to train networks for verified adversarial robustness, previous work typically over-approximates the worst-case loss over (subsets of) perturbation regions or induces verifiability on top of adversarial training. The key to state-of-the-art performance lies in the expressivity of the employed loss function, which should be able to match the tightness of the verifiers to be employed post-training. We formalize a definition of expressivity, and show that it can be satisfied via simple convex combinations between adversarial attacks and IBP bounds. We then show that the resulting algorithms, named CC-IBP and MTL-IBP, yield state-of-the-art results across a variety of settings in spite of their conceptual simplicity. In particular, for $\ell_\infty$ perturbations of radius $\frac{1}{255}$ on TinyImageNet and downscaled ImageNet, MTL-IBP improves on the best standard and verified accuracies from the literature by from $1.98\%$ to $3.92\%$ points while only relying on single-step adversarial attacks.
翻訳日:2023-05-24 16:40:09 公開日:2023-05-23
# MasakhaPOS: タイポロジー的に異なるアフリカの言語のための音声タグ

MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African Languages ( http://arxiv.org/abs/2305.13989v1 )

ライセンス: Link先を確認
Cheikh M. Bamba Dione, David Adelani, Peter Nabende, Jesujoba Alabi, Thapelo Sindane, Happy Buzaaba, Shamsuddeen Hassan Muhammad, Chris Chinenye Emezue, Perez Ogayo, Anuoluwapo Aremu, Catherine Gitau, Derguene Mbaye, Jonathan Mukiibi, Blessing Sibanda, Bonaventure F. P. Dossou, Andiswa Bukula, Rooweither Mabuya, Allahsera Auguste Tapo, Edwin Munkoh-Buabeng, victoire Memdjokam Koagne, Fatoumata Ouoba Kabore, Amelia Taylor, Godson Kalipe, Tebogo Macucwa, Vukosi Marivate, Tajuddeen Gwadabe, Mboning Tchiaze Elvis, Ikechukwu Onyenwe, Gratien Atindogbe, Tolulope Adelani, Idris Akinade, Olanrewaju Samuel, Marien Nahimana, Th\'eog\`ene Musabeyezu, Emile Niyomutabazi, Ester Chimhenga, Kudzai Gotosa, Patrick Mizha, Apelete Agbolo, Seydou Traore, Chinedu Uchechukwu, Aliyu Yusuf, Muhammad Abdullahi and Dietrich Klakow(参考訳) 本稿では,20の類型的に多様なアフリカ言語を対象としたPOSデータセットであるMashokhaPOSを提案する。 UD(UniversalDependency)ガイドラインを用いて,これらの言語に対してPOSに注釈をつける際の課題について議論する。 条件付きランダムフィールドと多言語事前学習言語モデルを用いたPOSベースライン実験を行った。 UDで利用可能なデータをトレーニングした多種多様な言語間移動モデルを適用した。 masakhaposデータセット上での評価では、単一ソースと複数ソースの両方で最高の転送言語を選択することで、特に言語間パラメータ効率の良い微調整手法と組み合わせることで、ターゲット言語のposタグ性能が大幅に向上することが示された。 重要な点として、言語ファミリーと形態素的特性にマッチする言語から知識を移すことは、未熟な言語でのposタグ付けにより効果的である。

In this paper, we present MasakhaPOS, the largest part-of-speech (POS) dataset for 20 typologically diverse African languages. We discuss the challenges in annotating POS for these languages using the UD (universal dependencies) guidelines. We conducted extensive POS baseline experiments using conditional random field and several multilingual pre-trained language models. We applied various cross-lingual transfer models trained with data available in UD. Evaluating on the MasakhaPOS dataset, we show that choosing the best transfer language(s) in both single-source and multi-source setups greatly improves the POS tagging performance of the target languages, in particular when combined with cross-lingual parameter-efficient fine-tuning methods. Crucially, transferring knowledge from a language that matches the language family and morphosyntactic properties seems more effective for POS tagging in unseen languages.
翻訳日:2023-05-24 16:39:42 公開日:2023-05-23
# グラフ変換器の構造表現力について

On Structural Expressive Power of Graph Transformers ( http://arxiv.org/abs/2305.13987v1 )

ライセンス: Link先を確認
Wenhao Zhu, Tianyu Wen, Guojie Song, Liang Wang, Bo Zheng(参考訳) グラフトランスフォーマーは最近、優れた性能で研究コミュニティで注目を集めているが、その構造的表現力は十分に分析されていない。 Wesfeiler-Lehman (WL) グラフ同型テストとグラフニューラルネットワーク (GNN) の接続にインスパイアされ、グラフ変換器の構造的識別力を探索するための強力な理論的ツールとして、一般化されたグラフ同型テストアルゴリズムである \textbf{SEG-WL test} (\textbf{S}tructural \textbf{E}ncoding enhanced \textbf{G}lobal \textbf{W}eisfeiler-\textbf{L}ehman test) を導入する。 理論上、seg-wlテストは幅広いグラフ変換器上での表現率上限であり、seg-wlテストの表現力は特定の条件下で任意に単純なトランスフォーマネットワークによって近似できることを示した。 SEG-WL テストでは,グラフ変換器の表現力は構造符号化の設計によって決定されることを示すとともに,WL テストや GNN 以外のグラフ変換器の表現性を示す条件を示す。 さらに, 最短経路距離符号化に動機付けられ, 理論指向の原理を踏襲し, より強力な構造符号化法であるショート・パス誘導サブグラフ (\textit{SPIS}) の符号化を開発する。 本理論はグラフトランスフォーマの表現力を調べるための新しい実用的なパラダイムを提供し,提案手法の強みを実証的に検証した。

Graph Transformer has recently received wide attention in the research community with its outstanding performance, yet its structural expressive power has not been well analyzed. Inspired by the connections between Weisfeiler-Lehman (WL) graph isomorphism test and graph neural network (GNN), we introduce \textbf{SEG-WL test} (\textbf{S}tructural \textbf{E}ncoding enhanced \textbf{G}lobal \textbf{W}eisfeiler-\textbf{L}ehman test), a generalized graph isomorphism test algorithm as a powerful theoretical tool for exploring the structural discriminative power of graph Transformers. We theoretically prove that the SEG-WL test is an expressivity upper bound on a wide range of graph Transformers, and the representational power of SEG-WL test can be approximated by a simple Transformer network arbitrarily under certain conditions. With the SEG-WL test, we show how graph Transformers' expressive power is determined by the design of structural encodings, and present conditions that make the expressivity of graph Transformers beyond WL test and GNNs. Moreover, motivated by the popular shortest path distance encoding, we follow the theory-oriented principles and develop a provably stronger structural encoding method, Shortest Path Induced Subgraph (\textit{SPIS}) encoding. Our theoretical findings provide a novel and practical paradigm for investigating the expressive power of graph Transformers, and extensive synthetic and real-world experiments empirically verify the strengths of our proposed methods.
翻訳日:2023-05-24 16:39:26 公開日:2023-05-23
# スパイクに基づく確率ニューラルコンピューティングに向けて

Toward spike-based stochastic neural computing ( http://arxiv.org/abs/2305.13982v1 )

ライセンス: Link先を確認
Yang Qi, Zhichao Zhu, Yiming Wei, Lu Cao, Zhigang Wang, Wenlian Lu, Jianfeng Feng(参考訳) 皮質ニューロンの非常に不規則なスパイク活動にインスパイアされた確率的ニューラルコンピューティングは、脳の動作原理と知的エージェントによる不確実性を表現する能力を説明する魅力的な理論である。 しかし、ニューロンの集団にまたがるスパイク神経活動の高次元的確率分布を用いた計算と学習は大きな課題である。 そこで本研究では,スパイキングニューラルネットワークにおける勾配に基づく学習を可能にする新しいモーメント埋め込み手法を開発した。 我々は、この方法で訓練されたスパイクニューラルネットワークを教師付き学習設定の下で、不確実性を最小化しながらタスクを学習できることを示し、さらにニューロモルフィックハードウェアへの応用を実証する。 スパイクに基づく確率的ニューラルコンピューティングの原理に基づいて構築されたこの手法は、不確かさを計算し、非慣習的コンピューティングアーキテクチャを設計するための新しい機会を開く。

Inspired by the highly irregular spiking activity of cortical neurons, stochastic neural computing is an attractive theory for explaining the operating principles of the brain and the ability to represent uncertainty by intelligent agents. However, computing and learning with high-dimensional joint probability distributions of spiking neural activity across large populations of neurons present as a major challenge. To overcome this, we develop a novel moment embedding approach to enable gradient-based learning in spiking neural networks accounting for the propagation of correlated neural variability. We show under the supervised learning setting a spiking neural network trained this way is able to learn the task while simultaneously minimizing uncertainty, and further demonstrate its application to neuromorphic hardware. Built on the principle of spike-based stochastic neural computing, the proposed method opens up new opportunities for developing machine intelligence capable of computing uncertainty and for designing unconventional computing architectures.
翻訳日:2023-05-24 16:38:48 公開日:2023-05-23
# 知識の不変性を保つ:オープン情報抽出のロバスト性評価の再検討

Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction ( http://arxiv.org/abs/2305.13981v1 )

ライセンス: Link先を確認
Ji Qi, Chuchun Zhang, Xiaozhi Wang, Kaisheng Zeng, Jifan Yu, Jinxin Liu, Jiuding Sun, Yuxiang Chen, Lei How, Juanzi Li, Bin Xu(参考訳) 分布変化に対するロバスト性は、NLPモデルを現実の世界、特に情報抽出タスクにうまく適用できることを保証する。 しかしながら、ほとんどの先行評価ベンチマークは、ロバスト性の重要な測定値を無視して、ペアワイズマッチングの正しさを検証することに費やされてきた。 本稿では,実世界におけるオープン情報抽出モデルの評価をシミュレートした最初のベンチマークを提案する。 それぞれの例が、同じ意味の構造化された知識を持つが、異なる構文と表現形式を持つ文からなる、知識不変のクランクである大規模なテストベッドを設計し、アノテートする。 さらにロバスト性メトリクスを詳述することで、モデルが全体のクランクで一貫して正確である場合、ロバストであると判断される。 我々は過去10年間に発行された典型的なモデルと一般的な大言語モデルの実験を行い、その結果、既存の成功したモデルは、最大で23.43 F1スコアのフラストレーションのある劣化を示した。 私たちのリソースとコードは公開されます。

The robustness to distribution changes ensures that NLP models can be successfully applied in the realistic world, especially for information extraction tasks. However, most prior evaluation benchmarks have been devoted to validating pairwise matching correctness, ignoring the crucial measurement of robustness. In this paper, we present the first benchmark that simulates the evaluation of open information extraction models in the real world, where the syntactic and expressive distributions under the same knowledge meaning may drift variously. We design and annotate a large-scale testbed in which each example is a knowledge-invariant clique that consists of sentences with structured knowledge of the same meaning but with different syntactic and expressive forms. By further elaborating the robustness metric, a model is judged to be robust if its performance is consistently accurate on the overall cliques. We perform experiments on typical models published in the last decade as well as a popular large language model, the results show that the existing successful models exhibit a frustrating degradation, with a maximum drop of 23.43 F1 score. Our resources and code will be publicly available.
翻訳日:2023-05-24 16:38:31 公開日:2023-05-23
# CLIP4STR: 事前学習型視覚言語モデルによるシーンテキスト認識のための簡易ベースライン

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model ( http://arxiv.org/abs/2305.14014v1 )

ライセンス: Link先を確認
Shuai Zhao, Xiaohan Wang, Linchao Zhu, Yi Yang(参考訳) 事前訓練された視覚言語モデルは、様々な下流タスクのデファクト基盤モデルである。 しかし、この傾向はCLIPが強力なシーンテキストリーダーとして機能する可能性にもかかわらず、シーンテキスト認識(STR)の分野には及ばない。 CLIPは、自然画像中の正規(水平)および不規則(回転、湾曲、ぼやけた、あるいは隠された)テキストを堅牢に識別することができる。 このようなメリットにより、CLIPのイメージエンコーダとテキストエンコーダ上に構築された、シンプルで効果的なSTRメソッドであるCLIP4STRを導入する。 ビジュアルブランチとクロスモーダルブランチの2つのエンコーダ/デコーダブランチがある。 視覚分岐は、視覚特徴に基づく初期予測を提供し、横断的分岐は、視覚特徴とテキスト意味論の相違に対処することによって、この予測を洗練させる。 両分岐の機能を完全に活用するために、推論のための2つの予測と再定義の復号方式を設計する。 CLIP4STRは11のSTRベンチマークで新しい最先端のパフォーマンスを実現する。 さらに、CLIPのSTRへの適応の理解を高めるための総合的な実証研究が提供される。 VLモデルを用いた将来のSTR研究において,本手法は単純だが強力なベースラインを確立する。

Pre-trained vision-language models are the de-facto foundation models for various downstream tasks. However, this trend has not extended to the field of scene text recognition (STR), despite the potential of CLIP to serve as a powerful scene text reader. CLIP can robustly identify regular (horizontal) and irregular (rotated, curved, blurred, or occluded) text in natural images. With such merits, we introduce CLIP4STR, a simple yet effective STR method built upon image and text encoders of CLIP. It has two encoder-decoder branches: a visual branch and a cross-modal branch. The visual branch provides an initial prediction based on the visual feature, and the cross-modal branch refines this prediction by addressing the discrepancy between the visual feature and text semantics. To fully leverage the capabilities of both branches, we design a dual predict-and-refine decoding scheme for inference. CLIP4STR achieves new state-of-the-art performance on 11 STR benchmarks. Additionally, a comprehensive empirical study is provided to enhance the understanding of the adaptation of CLIP to STR. We believe our method establishes a simple but strong baseline for future STR research with VL models.
翻訳日:2023-05-24 16:31:13 公開日:2023-05-23
# データ不均衡・密接な言語ペアのための教師なしバイリンガル語彙誘導法

A Simple Method for Unsupervised Bilingual Lexicon Induction for Data-Imbalanced, Closely Related Language Pairs ( http://arxiv.org/abs/2305.14012v1 )

ライセンス: Link先を確認
Niyati Bafna, Cristina Espa\~na-Bonet, Josef van Genabith, Beno\^it Sagot, Rachel Bawden(参考訳) 既存のBLI(unsupervised bilingual lexicon induction)のアプローチは、両方の言語に対して大きな単言語コーパスで訓練された高品質な静的または文脈的な埋め込みに依存することが多い。 しかし、実際には、教師なしのBLIは、大量の単言語データを持たない方言や言語にとって最も有用である可能性が高い。 本稿では,高資源言語である単言語bertの推論のみを必要とする低資源言語に対して,教師なしbliの簡易かつ高速な手法を提案する。 我々は2つの低リソース言語($<5M$ monolingual tokens)、Bhojpuri と Magahi を用いて研究を行い、文献中の最先端の手法がこれらの設定においてほぼゼロに近い性能を示し、より単純な手法がより優れた結果をもたらすことを示した。 我々は,マラーティー語とネパール語について実験を繰り返し,資源範囲によるアプローチ性能の比較を行った。 方言連続体の5つの言語で, 自動生成された二言語レキシコンを初めてリリースする。

Existing approaches for unsupervised bilingual lexicon induction (BLI) often depend on good quality static or contextual embeddings trained on large monolingual corpora for both languages. In reality, however, unsupervised BLI is most likely to be useful for dialects and languages that do not have abundant amounts of monolingual data. We introduce a simple and fast method for unsupervised BLI for low-resource languages with a related mid-to-high resource language, only requiring inference on the higher-resource language monolingual BERT. We work with two low-resource languages ($<5M$ monolingual tokens), Bhojpuri and Magahi, of the severely under-researched Indic dialect continuum, showing that state-of-the-art methods in the literature show near-zero performance in these settings, and that our simpler method gives much better results. We repeat our experiments on Marathi and Nepali, two higher-resource Indic languages, to compare approach performances by resource range. We release automatically created bilingual lexicons for the first time for five languages of the Indic dialect continuum.
翻訳日:2023-05-24 16:30:51 公開日:2023-05-23
# IfQA: 対実的前提に基づくオープンドメイン質問回答データセット

IfQA: A Dataset for Open-domain Question Answering under Counterfactual Presuppositions ( http://arxiv.org/abs/2305.14010v1 )

ライセンス: Link先を確認
Wenhao Yu, Meng Jiang, Peter Clark, Ashish Sabharwal(参考訳) 反事実推論はインテリジェンスの基本的側面であるが、大規模な反事実的オープンドメイン質問応答(QA)ベンチマークの欠如により、この能力のモデルの評価と改善が困難になる。 この空白に対処するために、最初のデータセットであるIfQAを導入し、各質問は"if"節による反ファクト的前提に基づいている。 例えば、もしロサンゼルスがアメリカの東海岸にあったら、ロサンゼルスとパリの時間差は何でしょう? そのような質問は、モデルがwebから直接の事実知識を取得すること以上のことを要求する。 パラメータに組み込まれた事実に逆らう可能性のある想像上の状況について、適切な情報を特定し、推論する必要がある。 IfQAデータセットには3,800以上の質問が含まれており、関連するウィキペディアの項目についてクラウドワーカーが注釈を付けた。 実証分析により、IfQAデータセットは既存のオープンドメインQAメソッドでは極めて困難であることが判明した。その中には、教師付きレトリビュート・リード・パイプライン手法(EMスコア36.2)や、GPT-3(EMスコア27.4)でトリガーするチェーン・オブ・シントのような最近のいくつかのアプローチが含まれる。 IfQAベンチマークのユニークな課題は、検索と対実的推論の両方に関して、オープンドメインのQA研究を促進することである。

Although counterfactual reasoning is a fundamental aspect of intelligence, the lack of large-scale counterfactual open-domain question-answering (QA) benchmarks makes it difficult to evaluate and improve models on this ability. To address this void, we introduce the first such dataset, named IfQA, where each question is based on a counterfactual presupposition via an "if" clause. For example, if Los Angeles was on the east coast of the U.S., what would be the time difference between Los Angeles and Paris? Such questions require models to go beyond retrieving direct factual knowledge from the Web: they must identify the right information to retrieve and reason about an imagined situation that may even go against the facts built into their parameters. The IfQA dataset contains over 3,800 questions that were annotated annotated by crowdworkers on relevant Wikipedia passages. Empirical analysis reveals that the IfQA dataset is highly challenging for existing open-domain QA methods, including supervised retrieve-then-read pipeline methods (EM score 36.2), as well as recent few-shot approaches such as chain-of-thought prompting with GPT-3 (EM score 27.4). The unique challenges posed by the IfQA benchmark will push open-domain QA research on both retrieval and counterfactual reasoning fronts.
翻訳日:2023-05-24 16:30:28 公開日:2023-05-23
# AutoMLのためのディープパイプライン埋め込み

Deep Pipeline Embeddings for AutoML ( http://arxiv.org/abs/2305.14009v1 )

ライセンス: Link先を確認
Sebastian Pineda Arango, Josif Grabocka(参考訳) Automated Machine Learning (AutoML)は、人間の専門知識を最小限に抑えた機械学習システムを自動的にデプロイすることで、AIを民主化するための有望な方向である。 AutoMLの背後にある技術的な課題は、機械学習システムのパイプライン(例えば、前処理、拡張、モデル、オプティマイザなど)を最適化することだ。 既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。 本稿では,機械学習パイプラインの構成要素間の深い相互作用を捉えたニューラルアーキテクチャを提案する。 本稿では,新しい部品単位のエンコーダ機構により,パイプラインを潜在表現に埋め込む手法を提案する。 最適なパイプラインを探すために、そのようなパイプラインの埋め込みは、ベイズ最適化のセットアップ内で、ディープカーネルのガウスプロセスに使用される。 さらに、パイプライン埋め込みネットワークのパラメータを、関連するデータセット(メタデータセット)のさまざまなコレクション上でのパイプラインの既存の評価を用いてメタ学習する。 3つの大規模メタデータに関する広範な実験を通じて、パイプライン埋め込みがパイプライン最適化に最先端の結果をもたらすことを実証する。

Automated Machine Learning (AutoML) is a promising direction for democratizing AI by automatically deploying Machine Learning systems with minimal human expertise. The core technical challenge behind AutoML is optimizing the pipelines of Machine Learning systems (e.g. the choice of preprocessing, augmentations, models, optimizers, etc.). Existing Pipeline Optimization techniques fail to explore deep interactions between pipeline stages/components. As a remedy, this paper proposes a novel neural architecture that captures the deep interaction between the components of a Machine Learning pipeline. We propose embedding pipelines into a latent representation through a novel per-component encoder mechanism. To search for optimal pipelines, such pipeline embeddings are used within deep-kernel Gaussian Process surrogates inside a Bayesian Optimization setup. Furthermore, we meta-learn the parameters of the pipeline embedding network using existing evaluations of pipelines on diverse collections of related datasets (a.k.a. meta-datasets). Through extensive experiments on three large-scale meta-datasets, we demonstrate that pipeline embeddings yield state-of-the-art results in Pipeline Optimization.
翻訳日:2023-05-24 16:30:02 公開日:2023-05-23
# 悪天候におけるマルチエコーデノージング

Multi-Echo Denoising in Adverse Weather ( http://arxiv.org/abs/2305.14008v1 )

ライセンス: Link先を確認
Alvari Sepp\"anen, Risto Ojala, Kari Tammi(参考訳) 逆天候は光検出・測光(LiDAR)データにノイズを引き起こすことがある。 これは、オブジェクト検出やマッピングなど、多くの屋外アプリケーションで使われているため、問題である。 我々は,関心対象を表すエコーを選択し,他のエコーを破棄するマルチエコー・デノイジングのタスクを提案する。 したがって、ノイズのために標準の最強のエコーポイント雲では利用できない代替エコーからポイントを選ぼうという考え方である。 直感的な意味では、私たちは悪天候を乗り越えようとしている。 この目的を達成するために,新しい自己教師型深層学習法と特徴類似度正規化法を提案し,その性能を向上する。 半合成データセットに関する広範な実験に基づいて, 自己監督型悪天候認知(23%改善)における最先端の手法と比較して, 優れた性能を実現する。 さらに,実マルチエコー悪天候データセットを用いた実験により,マルチエコー発振の有効性が証明された。 我々の研究は、悪天候下でのより信頼性の高いポイントクラウドの獲得を可能にし、そのような状況下でのより安全な自動運転および運転支援システムを約束します。 コードはhttps://github.com/alvariseppanen/SMEDNetで入手できる。

Adverse weather can cause noise to light detection and ranging (LiDAR) data. This is a problem since it is used in many outdoor applications, e.g. object detection and mapping. We propose the task of multi-echo denoising, where the goal is to pick the echo that represents the objects of interest and discard other echoes. Thus, the idea is to pick points from alternative echoes that are not available in standard strongest echo point clouds due to the noise. In an intuitive sense, we are trying to see through the adverse weather. To achieve this goal, we propose a novel self-supervised deep learning method and the characteristics similarity regularization method to boost its performance. Based on extensive experiments on a semi-synthetic dataset, our method achieves superior performance compared to the state-of-the-art in self-supervised adverse weather denoising (23% improvement). Moreover, the experiments with a real multi-echo adverse weather dataset prove the efficacy of multi-echo denoising. Our work enables more reliable point cloud acquisition in adverse weather and thus promises safer autonomous driving and driving assistance systems in such conditions. The code is available at https://github.com/alvariseppanen/SMEDNet
翻訳日:2023-05-24 16:29:45 公開日:2023-05-23
# マルチタスク学習はいつ複数のスキルを集約するか? 金融nlpにおけるケーススタディ

When Does Aggregating Multiple Skills with Multi-Task Learning Work? A Case Study in Financial NLP ( http://arxiv.org/abs/2305.14007v1 )

ライセンス: Link先を確認
Jingwei Ni, Zhijing Jin, Qian Wang, Mrinmaya Sachan, Markus Leippold(参考訳) マルチタスク学習(MTL)は、複数のタスクからデータと知識を活用することにより、よりよいモデルを実現することを目的としている。 しかし、MTLは常に機能しない - 特にゆるやかな関連スキルを集約する場合は、タスク間の負の移動が発生することがある。 従来の研究では、MTLの性能はアルゴリズムのトリックによって改善できることが示された。 しかし、どのタスクやスキルを含めるべきかは十分に検討されていない。 本研究では、数値推論や感情分析など、ドメインに関連するスキルについて複数のデータセットが存在する金融nlpのケーススタディを行う。 金融nlpドメインにおけるタスクの難易度とデータ不足のため、mtlで複数のデータセットからこのような多様なスキルを集約することで、効果が期待できる。 以上の結果から,MTLの成功の鍵は,スキル多様性,タスク間の関連性,集約サイズと共有能力の選択にあることが示唆された。 具体的には、タスクが多様だが関連性がある場合や、タスクアグリゲーションのサイズとモデルの共有能力のバランスが取れた場合には、MTLはうまく機能する。

Multi-task learning (MTL) aims at achieving a better model by leveraging data and knowledge from multiple tasks. However, MTL does not always work -- sometimes negative transfer occurs between tasks, especially when aggregating loosely related skills, leaving it an open question when MTL works. Previous studies show that MTL performance can be improved by algorithmic tricks. However, what tasks and skills should be included is less well explored. In this work, we conduct a case study in Financial NLP where multiple datasets exist for skills relevant to the domain, such as numeric reasoning and sentiment analysis. Due to the task difficulty and data scarcity in the Financial NLP domain, we explore when aggregating such diverse skills from multiple datasets with MTL can work. Our findings suggest that the key to MTL success lies in skill diversity, relatedness between tasks, and choice of aggregation size and shared capacity. Specifically, MTL works well when tasks are diverse but related, and when the size of the task aggregation and the shared capacity of the model are balanced to avoid overwhelming certain tasks.
翻訳日:2023-05-24 16:29:29 公開日:2023-05-23
# 対話におけるトピックシフト検出のためのマルチグラニュラ性プロンプト

Multi-Granularity Prompts for Topic Shift Detection in Dialogue ( http://arxiv.org/abs/2305.14006v1 )

ライセンス: Link先を確認
Jiangyi Lin, Yaxin Fan, Xiaomin Chu, Peifeng Li and Qiaoming Zhu(参考訳) 対話トピックシフト検出の目標は、会話中の現在のトピックが変わったか、あるいは変更する必要があるかを特定することである。 従来の研究は、事前学習したモデルを用いて発話を符号化し、対話における話題の粒度を掘り下げたり、会話の内容を理解するのに失敗したトピックシフトの検出に重点を置いていた。 上記の課題に対処するために,複数粒度での対話,すなわちラベル,ターン,トピックから話題情報を抽出する,プロンプトベースのアプローチを採用する。 注釈付き中国自然トピック対話データセットCNTDと英語TIAGEデータセットの実験結果から,提案モデルがベースラインより優れていることが示された。 さらなる実験により、異なる粒度で抽出された情報は、モデルが会話のトピックを理解するのに効果的であることが示された。

The goal of dialogue topic shift detection is to identify whether the current topic in a conversation has changed or needs to change. Previous work focused on detecting topic shifts using pre-trained models to encode the utterance, failing to delve into the various levels of topic granularity in the dialogue and understand dialogue contents. To address the above issues, we take a prompt-based approach to fully extract topic information from dialogues at multiple-granularity, i.e., label, turn, and topic. Experimental results on our annotated Chinese Natural Topic Dialogue dataset CNTD and the publicly available English TIAGE dataset show that the proposed model outperforms the baselines. Further experiments show that the information extracted at different levels of granularity effectively helps the model comprehend the conversation topics.
翻訳日:2023-05-24 16:29:08 公開日:2023-05-23
# S\={a}mayik:英語・サンスクリット翻訳のためのベンチマークとデータセット

S\={a}mayik: A Benchmark and Dataset for English-Sanskrit Translation ( http://arxiv.org/abs/2305.14004v1 )

ライセンス: Link先を確認
Ayush Maheshwari, Ashim Gupta, Amrith Krishna, Ganesh Ramakrishnan, G. Anil Kumar, Jitin Singla(参考訳) サンスクリットは、豊富な遺産を持つ低リソース言語である。 サンスクリットの現代的な用法を反映したディジタイズされたサンスクリットのコーパス、特に散文でも同様であるが、現在はほとんど表現されていない。 現在、このような英語とサンスクリットの並列データセットは公開されていない。 このギャップを埋めるために、4つの異なるコーパスから42,000以上の並列英語-サンスクリット文からなるデータセット s\={a}mayik をリリースします。 さらに,サンスクリット英語翻訳のための既存の多言語事前学習モデルから適応したベンチマークもリリースする。 私たちは、現在のデータセットからのトレーニング分割と、以前リリースされたsanskritを含む古典時代の機械翻訳データセットであるitih\={a}saのトレーニング分割から、sanskrit- english並列文を含む。

Sanskrit is a low-resource language with a rich heritage. Digitized Sanskrit corpora reflective of the contemporary usage of Sanskrit, specifically that too in prose, is heavily under-represented at present. Presently, no such English-Sanskrit parallel dataset is publicly available. We release a dataset, S\={a}mayik, of more than 42,000 parallel English-Sanskrit sentences, from four different corpora that aim to bridge this gap. Moreover, we also release benchmarks adapted from existing multilingual pretrained models for Sanskrit-English translation. We include training splits from our contemporary dataset and the Sanskrit-English parallel sentences from the training split of Itih\={a}sa, a previously released classical era machine translation dataset containing Sanskrit.
翻訳日:2023-05-24 16:28:52 公開日:2023-05-23
# プラグアンドプレイ検索フィードバックによる言語モデルの改善

Improving Language Models via Plug-and-Play Retrieval Feedback ( http://arxiv.org/abs/2305.14002v1 )

ライセンス: Link先を確認
Wenhao Yu, Zhihan Zhang, Zhenwen Liang, Meng Jiang, Ashish Sabharwal(参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示す。 しかし、それらはしばしば誤った情報や幻覚的な情報を生成し、現実のシナリオで実用的適用を妨げる。 人間のフィードバックは、生成されたコンテンツの事実と品質を効果的に向上させ、これらの制限に対処することが示されている。 しかし、このアプローチはリソース集約的であり、手作業による入力と監視が伴う。 さらに、推論中に提供できないため、動的およびインタラクティブなアプリケーションにおける実用性はさらに制限される。 本稿では,高コストな微調整を必要とせず,プラグイン・アンド・プレイのフレームワークで自動検索フィードバックを提供することにより,llmを強化するための新しいパイプライン refeed を提案する。 ReFeedは、まず最初に初期出力を生成し、次に検索モデルを用いて、大規模な文書コレクションから関連情報を取得し、最終的に検索した情報を出力改善のためのコンテキスト内デモに組み込んで、LCMの限界をより効率的でコスト効率の良い方法で解決する。 4つの知識集約型ベンチマークデータセットの実験により、提案したReFeedはゼロショット設定で+6.0%以上、数ショット設定で+2.5%以上改善できることを示した。

Large language models (LLMs) exhibit remarkable performance across various NLP tasks. However, they often generate incorrect or hallucinated information, which hinders their practical applicability in real-world scenarios. Human feedback has been shown to effectively enhance the factuality and quality of generated content, addressing some of these limitations. However, this approach is resource-intensive, involving manual input and supervision, which can be time-consuming and expensive. Moreover, it cannot be provided during inference, further limiting its practical utility in dynamic and interactive applications. In this paper, we introduce ReFeed, a novel pipeline designed to enhance LLMs by providing automatic retrieval feedback in a plug-and-play framework without the need for expensive fine-tuning. ReFeed first generates initial outputs, then utilizes a retrieval model to acquire relevant information from large document collections, and finally incorporates the retrieved information into the in-context demonstration for output refinement, thereby addressing the limitations of LLMs in a more efficient and cost-effective manner. Experiments on four knowledge-intensive benchmark datasets demonstrate our proposed ReFeed could improve over +6.0% under zero-shot setting and +2.5% under few-shot setting, compared to baselines without using retrieval feedback.
翻訳日:2023-05-24 16:28:37 公開日:2023-05-23
# 事前学習型大規模言語モデルにおけるスパースフィードフォワードネットワークの統一化に向けて

Towards A Unified View of Sparse Feed-Forward Network in Pretraining Large Language Model ( http://arxiv.org/abs/2305.13999v1 )

ライセンス: Link先を確認
Leo Z. Liu, Tim Dettmers, Xi Victoria Lin, Veselin Stoyanov, Xian Li(参考訳) Mixture-of-Experts (MoE) のような大規模かつスパースなフィードフォワードネットワーク (S-FFN) は、大きな言語モデルを事前訓練するためのTransformersモデルサイズをスケールアップするための効率的なアプローチであることが示されている。 S-FFNは、入力を条件にFFNパラメータの一部を活性化することによって、トレーニングと推論コスト(FLOP)を固定したまま、一般化性能を向上させる。 本研究では,s-ffnのメモリブロックサイズ(あるいはエキスパート)とメモリブロック選択方法の2つの主要な設計選択を,スパースニューラルメモリの一般的な概念枠組みに基づいて解析した。 この統合フレームワークを用いて、言語モデリングのためのいくつかのS-FFNアーキテクチャを比較し、それらの相対的有効性と効率に関する洞察を提供する。 分析結果から,avg-kはブロックを平均集約した隠れ状態から選択し,既存のmoeアーキテクチャよりも言語モデリング事前学習においてより低いパープレキシティを実現する。

Large and sparse feed-forward networks (S-FFN) such as Mixture-of-Experts (MoE) have demonstrated to be an efficient approach for scaling up Transformers model size for pretraining large language models. By only activating part of the FFN parameters conditioning on input, S-FFN improves generalization performance while keeping training and inference costs (in FLOPs) fixed. In this work, we analyzed the two major design choices of S-FFN: the memory block (or expert) size and the memory block selection method under a general conceptual framework of sparse neural memory. Using this unified framework, we compare several S-FFN architectures for language modeling and provide insights into their relative efficacy and efficiency. From our analysis results, we found a simpler selection method -- Avg-K that selects blocks through their mean aggregated hidden states, achieves lower perplexity in language modeling pretraining compared to existing MoE architectures.
翻訳日:2023-05-24 16:28:14 公開日:2023-05-23
# 低光画像強調のための単一畳み込み層モデル学習

Learning a Single Convolutional Layer Model for Low Light Image Enhancement ( http://arxiv.org/abs/2305.14039v1 )

ライセンス: Link先を確認
Yuantong Zhang, Baoxin Teng, Daiqin Yang, Zhenzhong Chen, Haichuan Ma, Gang Li, Wenpeng Ding(参考訳) low-light image enhancement (llie) は、露光不足による画像の照度向上を目的としている。 近年,低コントラスト,低輝度などの課題に対処するために,軽量学習に基づくllie手法が提案されている。 本稿では,ネットワークのアーキテクチャを最大限に合理化している。 効率的な構造再パラメータ化手法を用いて,大域的低光度を粗い結果として提供する単一畳み込み層モデル(sclm)を提案する。 さらに,各画像領域の露光レベルの異なる問題に対処するため,局所照明補正を実現するために,共有パラメータの集合を学習する局所適応モジュールを導入する。 実験の結果,本手法は客観的指標と主観的視覚効果の両方において最先端のllie法に好適な効果を示した。 さらに,提案手法は,他の学習方式に比べてパラメータが少なく,推論の複雑さも低い。

Low-light image enhancement (LLIE) aims to improve the illuminance of images due to insufficient light exposure. Recently, various lightweight learning-based LLIE methods have been proposed to handle the challenges of unfavorable prevailing low contrast, low brightness, etc. In this paper, we have streamlined the architecture of the network to the utmost degree. By utilizing the effective structural re-parameterization technique, a single convolutional layer model (SCLM) is proposed that provides global low-light enhancement as the coarsely enhanced results. In addition, we introduce a local adaptation module that learns a set of shared parameters to accomplish local illumination correction to address the issue of varied exposure levels in different image regions. Experimental results demonstrate that the proposed method performs favorably against the state-of-the-art LLIE methods in both objective metrics and subjective visual effects. Additionally, our method has fewer parameters and lower inference complexity compared to other learning-based schemes.
翻訳日:2023-05-24 16:22:26 公開日:2023-05-23
# セマンティクスが重要な理由:lidarセマンティクスポールマップにおけるセマンティクス粒子フィルタリング局在に関する深い研究

Why semantics matters: A deep study on semantic particle-filtering localization in a LiDAR semantic pole-map ( http://arxiv.org/abs/2305.14038v1 )

ライセンス: Link先を確認
Yuming Huang, Yi Gu, Chengzhong Xu and Hui Kong(参考訳) ほとんどの都市や郊外では、樹木の幹や電柱のような柱状の構造がユビキタスである。 これらの構造的ランドマークは、地図やセンサーからの計測で幾何学的な位置が与えられた自動運転車のローカライズに非常に有用である。 本研究では,自走車やロボットに対して,極状構造を主体とする位置決めランドマークとして正確な地図を作成することを目的としている。 従来のポールベースマッピングやローカライズ手法とは対照的に、ポールのような構造のセマンティクスを利用する。 特にセマンティックセグメンテーションは,マスク分類パラダイムにおける新しいマスクレンジトランスフォーマーネットワークによって実現される。 各フレームの極状構造に対するセマンティクスを抽出し、検出された極状構造を全フレームから集約して多層セマンティクスポールマップを作成する。 セマンティクス・ポール・マップを想定し,車両位置推定のためのセマンティクス粒子フィルタ局在化スキームを提案する。 理論的には, セマンティックKITTIデータセットでは, 粒子のドメトリー予測やオンライン観測が有意なレベルの不確実性を受ける場合, セマンティックKITTIデータセットでは, セマンティックスによる粒子フィルタリングの局所化は, セマンティックスなしでは, セマンティックスよりもはるかに優れた性能を発揮することが実証されている。

In most urban and suburban areas, pole-like structures such as tree trunks or utility poles are ubiquitous. These structural landmarks are very useful for the localization of autonomous vehicles given their geometrical locations in maps and measurements from sensors. In this work, we aim at creating an accurate map for autonomous vehicles or robots with pole-like structures as the dominant localization landmarks, hence called pole-map. In contrast to the previous pole-based mapping or localization methods, we exploit the semantics of pole-like structures. Specifically, semantic segmentation is achieved by a new mask-range transformer network in a mask-classfication paradigm. With the semantics extracted for the pole-like structures in each frame, a multi-layer semantic pole-map is created by aggregating the detected pole-like structures from all frames. Given the semantic pole-map, we propose a semantic particle-filtering localization scheme for vehicle localization. Theoretically, we have analyzed why the semantic information can benefit the particle-filter localization, and empirically it is validated on the public SemanticKITTI dataset that the particle-filtering localization with semantics achieves much better performance than the counterpart without semantics when each particle's odometry prediction and/or the online observation is subject to uncertainties at significant levels.
翻訳日:2023-05-24 16:22:12 公開日:2023-05-23
# 人間の音声に事前学習された自己教師付きニューラルネットワークは、動物の発信者を区別できるのか?

Can Self-Supervised Neural Networks Pre-Trained on Human Speech distinguish Animal Callers? ( http://arxiv.org/abs/2305.14035v1 )

ライセンス: Link先を確認
Eklavya Sarkar and Mathew Magimai.-Doss(参考訳) 自己教師付き学習(SSL)モデルは、入力から埋め込み空間へ重要な情報を抽出するために、その音響領域とは独立して与えられた信号の固有の構造のみを使用する。 これは、そのような表現の有用性は、人間の発話のみをモデル化することに限らないことを意味する。 この理解に基づいて,人間の音声から学習したSSLニューラル表現の相互伝達性を調べ,生体音響信号の解析を行う。 各種プリテキストタスクを事前学習した11種類のSSLモデルを用いて、発声者識別分析および発声者検出を行う。 その結果, 埋め込み空間には意味のある発信者情報があり, 微調整なしでマーモセット発呼者の個人識別に成功できることが示唆された。 このことは、人間の発話に事前訓練された表現がバイオ音響領域に効果的に適用できることを示し、この分野での今後の研究に有用な洞察を提供する。

Self-supervised learning (SSL) models use only the intrinsic structure of a given signal, independent of its acoustic domain, to extract essential information from the input to an embedding space. This implies that the utility of such representations is not limited to modeling human speech alone. Building on this understanding, this paper explores the cross-transferability of SSL neural representations learned from human speech to analyze bio-acoustic signals. We conduct a caller discrimination analysis and a caller detection study on Marmoset vocalizations using eleven SSL models pre-trained with various pretext tasks. The results show that the embedding spaces carry meaningful caller information and can successfully distinguish the individual identities of Marmoset callers without fine-tuning. This demonstrates that representations pre-trained on human speech can be effectively applied to the bio-acoustics domain, providing valuable insights for future investigations in this field.
翻訳日:2023-05-24 16:21:44 公開日:2023-05-23
# 呼吸音分類における音声スペクトログラムトランスフォーマを用いたパッチミックスコントラスト学習

Patch-Mix Contrastive Learning with Audio Spectrogram Transformer on Respiratory Sound Classification ( http://arxiv.org/abs/2305.14032v1 )

ライセンス: Link先を確認
Sangmin Bae, June-Woo Kim, Won-Yang Cho, Hyerim Baek, Soyoun Son, Byungjo Lee, Changwan Ha, Kyongpil Tae, Sungnyun Kim, Se-Young Yun(参考訳) 呼吸音は致命的な肺疾患の早期診断に重要な情報を含んでいる。 新型コロナウイルス(COVID-19)のパンデミック以降、電子聴診器に基づく非接触医療への関心が高まっている。 この目的のために、最先端の深層学習モデルが肺疾患の診断のために開発されたが、医療データの不足のため、依然として困難である。 本研究では,大規模視覚および音声データセットにおける事前学習モデルが呼吸音分類タスクに一般化できることを実証する。 さらに,Audio Spectrogram Transformer (AST) を用いて,異なるサンプル間のパッチをランダムに混合する,単純なPatch-Mix Augmentationを導入する。 さらに,潜在空間における混合表現を識別する新しいパッチ混合コントラスト学習を提案する。 提案手法はICBHIデータセット上での最先端性能を実現し,4.08%の改善により先行先行スコアを上回った。

Respiratory sound contains crucial information for the early diagnosis of fatal lung diseases. Since the COVID-19 pandemic, there has been a growing interest in contact-free medical care based on electronic stethoscopes. To this end, cutting-edge deep learning models have been developed to diagnose lung diseases; however, it is still challenging due to the scarcity of medical data. In this study, we demonstrate that the pretrained model on large-scale visual and audio datasets can be generalized to the respiratory sound classification task. In addition, we introduce a straightforward Patch-Mix augmentation, which randomly mixes patches between different samples, with Audio Spectrogram Transformer (AST). We further propose a novel and effective Patch-Mix Contrastive Learning to distinguish the mixed representations in the latent space. Our method achieves state-of-the-art performance on the ICBHI dataset, outperforming the prior leading score by an improvement of 4.08%.
翻訳日:2023-05-24 16:21:29 公開日:2023-05-23
# 拡散モデルによる現実的な雑音合成

Realistic Noise Synthesis with Diffusion Models ( http://arxiv.org/abs/2305.14022v1 )

ライセンス: Link先を確認
Qi Wu, Mingyan Han, Ting Jiang, Haoqiang Fan, Bing Zeng, Shuaicheng Liu(参考訳) 深層学習に基づくアプローチは、単一イメージの認知において顕著なパフォーマンスを達成した。 しかし、デノベーションモデルのトレーニングは通常大量のデータを必要とするため、現実のシナリオでは入手が困難である。 さらに, 従来の合成ノイズは, 後者の複雑さやGANモデルのノイズ分布のモデル化能力の低さにより, 実世界のノイズと比較して大きな差が生じることが多く, 残留ノイズやデノナイジングモデル内のアーティファクトが生じる。 これらの課題に対処するために,拡散モデルを用いて現実的な雑音を合成する新しい手法を提案する。 本手法は,異なる環境条件をシミュレートするためにカメラ設定を制御し,マルチスケールコンテンツ情報を誘導することにより,マルチ周波数空間相関を用いた実雑音生成能力の向上を図り,高品位モデル学習のための高品質なデータを生成することができる。 特に,情報の設定をせずに,よりパブリックなデータセットに拡張するインバージョン機構を設計した。 そこで,我々が合成したノイズデータセットに基づいて,複数のベンチマークについて十分な実験を行い,実験結果から,複数のベンチマークや測定値における最先端手法を上回って,現実的なノイズ合成の有効性を実証した。

Deep learning-based approaches have achieved remarkable performance in single-image denoising. However, training denoising models typically requires a large amount of data, which can be difficult to obtain in real-world scenarios. Furthermore, synthetic noise used in the past has often produced significant differences compared to real-world noise due to the complexity of the latter and the poor modeling ability of noise distributions of Generative Adversarial Network (GAN) models, resulting in residual noise and artifacts within denoising models. To address these challenges, we propose a novel method for synthesizing realistic noise using diffusion models. This approach enables us to generate large amounts of high-quality data for training denoising models by controlling camera settings to simulate different environmental conditions and employing guided multi-scale content information to ensure that our method is more capable of generating real noise with multi-frequency spatial correlations. In particular, we design an inversion mechanism for the setting, which extends our method to more public datasets without setting information. Based on the noise dataset we synthesized, we have conducted sufficient experiments on multiple benchmarks, and experimental results demonstrate that our method outperforms state-of-the-art methods on multiple benchmarks and metrics, demonstrating its effectiveness in synthesizing realistic noise for training denoising models.
翻訳日:2023-05-24 16:21:13 公開日:2023-05-23
# ChatGPTは心の理論を持っているか?

Does ChatGPT have Theory of Mind? ( http://arxiv.org/abs/2305.14020v1 )

ライセンス: Link先を確認
Bart Holterman and Kees van Deemter(参考訳) 心の理論 (Theory of Mind) とは、人間の思考と意思決定を理解する能力であり、言語コミュニケーションを含む様々な種類の社会的相互作用において重要な役割を果たす能力である。 本稿では,近年のChatGPT伝統における大規模言語モデルがToMをどの程度持っているかを検討する。 6つのよく知られたToM問題に着目し、各問題をChatGPTの2つのバージョンに配置し、その結果を一連のプロンプト戦略で比較した。 ChatGPT-3に関する結果は幾らか決定的ではなかったが、ChatGPT-4は偶然に予想されるよりも頻繁に正しい答えに到達した。

``Theory of Mind" (ToM) is the ability to understand human thinking and decision-making, an ability that plays a crucial role in many types of social interaction between people, including linguistic communication. This paper investigates to what extent recent Large Language Models in the ChatGPT tradition possess ToM. Focussing on six well-known ToM problems, we posed each problem to two versions of ChatGPT and compared the results under a range of prompting strategies. While the results concerning ChatGPT-3 were somewhat inconclusive, ChatGPT-4 was shown to arrive at the correct answers more often than would be expected based on chance, although correct answers were often arrived at on the basis of false assumptions or invalid reasoning.
翻訳日:2023-05-24 16:20:48 公開日:2023-05-23
# ChipGPT: 自然言語のハードウェア設計からどこまで離れているのか

ChipGPT: How far are we from natural language hardware design ( http://arxiv.org/abs/2305.14019v1 )

ライセンス: Link先を確認
Kaiyan Chang, Ying Wang, Haimeng Ren, Mengdi Wang, Shengwen Liang, Yinhe Han, Huawei Li and Xiaowei Li(参考訳) ChatGPTのような大規模言語モデル(LLM)は前例のないマシンインテリジェンスを示しており、ハードウェアエンジニアが自然言語インタラクションによる高効率論理設計を実現するのに優れた性能を示している。 LLMが支援するハードウェア設計プロセスの可能性を推定するために、LLMを探索して自然言語仕様からハードウェア論理設計を生成する自動設計環境の実証を試みる。 よりアクセシブルで効率的なチップ開発フローを実現するために,LLMをベースとしたスケーラブルな4段階ゼロコード論理設計フレームワークを提案する。 最初、デモのChipGPTはLSMのプロンプトを生成して始まり、最初のVerilogプログラムを生成する。 第二に、出力マネージャは最終設計空間に収集する前にこれらのプログラムを修正・最適化する。 最終的にChipGPTはこの領域を探索し、ターゲットのメトリクスの下で最適な設計を選択する。 この評価は、LLMがいくつかの仕様のために自然言語で記述された正確で完全なハードウェアロジック設計を生成できるかどうかにいくつかの光を当てている。 この結果,ChipGPTはプログラム性,制御性を改善し,従来の作業環境やネイティブLLMよりも広い設計最適化空間を示すことがわかった。

As large language models (LLMs) like ChatGPT exhibited unprecedented machine intelligence, it also shows great performance in assisting hardware engineers to realize higher-efficiency logic design via natural language interaction. To estimate the potential of the hardware design process assisted by LLMs, this work attempts to demonstrate an automated design environment that explores LLMs to generate hardware logic designs from natural language specifications. To realize a more accessible and efficient chip development flow, we present a scalable four-stage zero-code logic design framework based on LLMs without retraining or finetuning. At first, the demo, ChipGPT, begins by generating prompts for the LLM, which then produces initial Verilog programs. Second, an output manager corrects and optimizes these programs before collecting them into the final design space. Eventually, ChipGPT will search through this space to select the optimal design under the target metrics. The evaluation sheds some light on whether LLMs can generate correct and complete hardware logic designs described by natural language for some specifications. It is shown that ChipGPT improves programmability, and controllability, and shows broader design optimization space compared to prior work and native LLMs alone.
翻訳日:2023-05-24 16:20:35 公開日:2023-05-23
# Sparse4D v2: スパースモデルによる経時的核融合

Sparse4D v2: Recurrent Temporal Fusion with Sparse Model ( http://arxiv.org/abs/2305.14018v1 )

ライセンス: Link先を確認
Xuewu Lin, Tianwei Lin, Zixiang Pei, Lichao Huang, Zhizhong Su(参考訳) スパースアルゴリズムは多視点時間知覚タスクに優れた柔軟性を提供する。 本稿では,マルチフレーム特徴サンプリングの帰納形式を実装した時間的融合モジュールを改良したsparse4dの拡張版を提案する。 画像特徴と構造化アンカー特徴を効果的に分離することにより、sparse4dは、時間的特徴の高度に効率的な変換を可能にする。 反復時間融合アプローチは2つの大きな利点をもたらす。 まず、時間的融合の計算複雑性を$o(t)$から$o(1)$に削減し、推論速度とメモリ使用量を大幅に改善する。 第二に、長期情報の融合を可能にし、時間融合によるパフォーマンスの向上がより顕著になる。 提案手法であるSparse4Dv2により,スパース認識アルゴリズムの性能が向上し,nuScenes 3D 検出ベンチマークの最先端結果が得られた。 コードは \url{https://github.com/linxuewu/Sparse4D} で入手できる。

Sparse algorithms offer great flexibility for multi-view temporal perception tasks. In this paper, we present an enhanced version of Sparse4D, in which we improve the temporal fusion module by implementing a recursive form of multi-frame feature sampling. By effectively decoupling image features and structured anchor features, Sparse4D enables a highly efficient transformation of temporal features, thereby facilitating temporal fusion solely through the frame-by-frame transmission of sparse features. The recurrent temporal fusion approach provides two main benefits. Firstly, it reduces the computational complexity of temporal fusion from $O(T)$ to $O(1)$, resulting in significant improvements in inference speed and memory usage. Secondly, it enables the fusion of long-term information, leading to more pronounced performance improvements due to temporal fusion. Our proposed approach, Sparse4Dv2, further enhances the performance of the sparse perception algorithm and achieves state-of-the-art results on the nuScenes 3D detection benchmark. Code will be available at \url{https://github.com/linxuewu/Sparse4D}.
翻訳日:2023-05-24 16:20:14 公開日:2023-05-23
# ポイントレベルスーパービジョンによる高速ビデオモーメント検索

Faster Video Moment Retrieval with Point-Level Supervision ( http://arxiv.org/abs/2305.14017v1 )

ライセンス: Link先を確認
Xun Jiang, Zailei Zhou, Xing Xu, Yang Yang, Guoqing Wang, Heng Tao Shen(参考訳) Video Moment Retrieval (VMR)は、自然言語クエリでトリミングされていないビデオから最も関連性の高いイベントを取得することを目的としている。 既存のvmrメソッドには2つの欠陥がある: (1) 性能を満たすために大量の高価な時空アノテーションが必要; (2) 複雑なクロスモーダルインタラクションモジュールがデプロイされ、高い計算コストと検索プロセスの効率が低下する。 これらの問題に対処するため,我々は,VMRの検索精度,効率,アノテーションコストのバランスをとるCFMR (Cheaper and Faster Moment Retrieval) という新しい手法を提案する。 特に,提案手法は,各アノテーションが対象モーメント内にランダムに配置された単一フレームである点レベルの監督から学習する。 従来のイベント境界アノテーションの6倍のコストがかかる。 さらに,概念に基づくマルチモーダルアライメント機構も設計し,推定過程におけるクロスモーダルインタラクションモジュールの使用を回避し,検索効率を向上させる。 広範に使用されている3つのVMRベンチマーク実験の結果,提案手法は点レベルの監督を伴う新しい最先端技術を確立する。 さらに,従来の点レベルの監視手法と比較して,100倍以上のFLOPで検索速度を大幅に高速化する。

Video Moment Retrieval (VMR) aims at retrieving the most relevant events from an untrimmed video with natural language queries. Existing VMR methods suffer from two defects: (1) massive expensive temporal annotations are required to obtain satisfying performance; (2) complicated cross-modal interaction modules are deployed, which lead to high computational cost and low efficiency for the retrieval process. To address these issues, we propose a novel method termed Cheaper and Faster Moment Retrieval (CFMR), which well balances the retrieval accuracy, efficiency, and annotation cost for VMR. Specifically, our proposed CFMR method learns from point-level supervision where each annotation is a single frame randomly located within the target moment. It is 6 times cheaper than the conventional annotations of event boundaries. Furthermore, we also design a concept-based multimodal alignment mechanism to bypass the usage of cross-modal interaction modules during the inference process, remarkably improving retrieval efficiency. The experimental results on three widely used VMR benchmarks demonstrate the proposed CFMR method establishes new state-of-the-art with point-level supervision. Moreover, it significantly accelerates the retrieval speed with more than 100 times FLOPs compared to existing approaches with point-level supervision.
翻訳日:2023-05-24 16:19:53 公開日:2023-05-23
# 多言語機械翻訳におけるバイアスの緩和のための目標非依存性学習

Target-Agnostic Gender-Aware Contrastive Learning for Mitigating Bias in Multilingual Machine Translation ( http://arxiv.org/abs/2305.14016v1 )

ライセンス: Link先を確認
Minwoo Lee, Hyukhun Koh, Kang-il Lee, Dongdong Zhang, Minsung Kim, Kyomin Jung(参考訳) ジェンダーバイアスは機械翻訳において重要な問題であり、バイアス軽減技術の研究が進行中である。 しかし、ほとんどの作品は多言語系を考慮せずにバイリンガルモデルのデバイアスに焦点を当てている。 本稿では,多言語機械翻訳モデルの不明瞭なジェンダーバイアス問題を特に対象とし,この問題に対する新たな視点に基づく新たな緩和手法を提案する。 非あいまいな設定のジェンダーバイアスは、性別以外の単語にエンコードされた性別情報の欠如と、正しい性別情報を潜在埋め込みにエンコードするスキームの考案によるものであると仮定する。 具体的には、性別認識型コントラスト学習(gacl)を用いて、エンコーダ埋め込みの性別情報を符号化する。 提案手法はターゲット言語に依存しない手法であり,複数言語翻訳モデルに適用可能である。 本手法は多言語評価により, 翻訳性能を損なうことなく, 男女差を広く改善できることを示す。 また、性別情報伝達が組み込まれていることも観察し、性別の正確性に関する他の対象言語に便益をもたらす。 最後に,本手法が様々なサイズのモデルに適用可能であることを示す。

Gender bias is a significant issue in machine translation, leading to ongoing research efforts in developing bias mitigation techniques. However, most works focus on debiasing of bilingual models without consideration for multilingual systems. In this paper, we specifically target the unambiguous gender bias issue of multilingual machine translation models and propose a new mitigation method based on a novel perspective on the problem. We hypothesize that the gender bias in unambiguous settings is due to the lack of gender information encoded into the non-explicit gender words and devise a scheme to encode correct gender information into their latent embeddings. Specifically, we employ Gender-Aware Contrastive Learning, GACL, based on gender pseudo-labels to encode gender information on the encoder embeddings. Our method is target-language-agnostic and applicable to already trained multilingual machine translation models through post-fine-tuning. Through multilingual evaluation, we show that our approach improves gender accuracy by a wide margin without hampering translation performance. We also observe that incorporated gender information transfers and benefits other target languages regarding gender accuracy. Finally, we demonstrate that our method is applicable and beneficial to models of various sizes.
翻訳日:2023-05-24 16:19:30 公開日:2023-05-23
# ひずみゲルマニウム二重量子井戸における垂直ゲート定義二重量子ドット

A vertical gate-defined double quantum dot in a strained germanium double quantum well ( http://arxiv.org/abs/2305.14064v1 )

ライセンス: Link先を確認
Hanifa Tidjani, Alberto Tosato, Alexander Ivlev, Corentin D\'eprez, Stefan Oosterhout, Lucas Stehouwer, Amir Sammak, Giordano Scappucci and Menno Veldhorst(参考訳) シリコン-ゲルマニウムヘテロ構造におけるゲート定義量子ドットは、量子計算とシミュレーションのための魅力的なプラットフォームとなっている。 これまでのところ、発展は単一の平面で定義された量子ドットに限られている。 本稿では,複数の量子井戸を持つヘテロ構造を活用し,平面系を超越する手法を提案する。 歪んだゲルマニウム二重量子井戸におけるゲート定義垂直2量子ドットの動作を実証する。 量子輸送測定では、二重量子ドット系に対応する安定性図を観測する。 我々は、近くのゲートとの容量結合を分析し、2つの量子ドットを中央プランジャゲートの下に蓄積する。 位置と推定サイズを抽出し、2つの量子井戸に2つの量子ドットが垂直に積み重ねられていると結論付ける。 課題と機会を議論し、量子コンピューティングと量子シミュレーションの潜在的な応用について概説する。

Gate-defined quantum dots in silicon-germanium heterostructures have become a compelling platform for quantum computation and simulation. Thus far, developments have been limited to quantum dots defined in a single plane. Here, we propose to advance beyond planar systems by exploiting heterostructures with multiple quantum wells. We demonstrate the operation of a gate-defined vertical double quantum dot in a strained germanium double quantum well. In quantum transport measurements we observe stability diagrams corresponding to a double quantum dot system. We analyze the capacitive coupling to the nearby gates and find two quantum dots accumulated under the central plunger gate. We extract the position and estimated size, from which we conclude that the double quantum dots are vertically stacked in the two quantum wells. We discuss challenges and opportunities and outline potential applications in quantum computing and quantum simulation.
翻訳日:2023-05-24 16:11:55 公開日:2023-05-23
# 可視グラフと移動学習によるPSGの振幅非依存機械学習

Amplitude-Independent Machine Learning for PPG through Visibility Graphs and Transfer Learning ( http://arxiv.org/abs/2305.14062v1 )

ライセンス: Link先を確認
Yuyang Miao, Harry J. Davies, Danilo P. Mandic(参考訳) photoplethysmography (ppg) 信号は、led技術を用いて血液量の変化を測定するため、ウェアラブルデバイスで広く使われている。 これらのシグナルは、身体の循環系に関する洞察を与え、心拍数や血管老化などの様々な生体機能を引き出すために用いられる。 この目的のためにいくつかのアルゴリズムが提案されているが、人間のキャリブレーション、高い信号品質要求、一般化の欠如など多くの制限がある。 本稿では、アフィン変換に不変なグラフ理論とコンピュータビジョンアルゴリズムを統合し、高速な計算速度を提供し、タスクやデータセット間の堅牢な一般化を示すPSG信号処理フレームワークを提案する。

Photoplethysmography (PPG) signals are omnipresent in wearable devices, as they measure blood volume variations using LED technology. These signals provide insight into the body's circulatory system and can be employed to extract various bio-features, such as heart rate and vascular ageing. Although several algorithms have been proposed for this purpose, many exhibit limitations, including heavy reliance on human calibration, high signal quality requirements, and a lack of generalization. In this paper, we introduce a PPG signal processing framework that integrates graph theory and computer vision algorithms, which is invariant to affine transformations, offers rapid computation speed, and exhibits robust generalization across tasks and datasets.
翻訳日:2023-05-24 16:11:44 公開日:2023-05-23
# accelerated coordinate encoding: rgbとpassを使って数分で再ローカライズする学習

Accelerated Coordinate Encoding: Learning to Relocalize in Minutes using RGB and Poses ( http://arxiv.org/abs/2305.14059v1 )

ライセンス: Link先を確認
Eric Brachmann, Tommaso Cavallari, Victor Adrian Prisacariu(参考訳) 学習ベースの視覚的再ローカライザは、主要なポーズの精度を示すが、訓練には数時間や数日を要する。 トレーニングは新たなシーンごとに行われる必要があるため、学習ベースの再ローカライゼーションは、高い精度を約束しているにもかかわらず、ほとんどのアプリケーションにとって現実的ではない。 本稿では,このようなシステムが実際に5分以内で同じ精度を達成できることを示す。 再ローカライゼーションネットワークは、シーンに依存しない機能バックボーンとシーン固有の予測ヘッドに分割することができる。 MLP予測ヘッドを使用することで、単一のトレーニングイテレーション毎に数千のビューポイントを同時に最適化することが可能になります。 これは安定かつ極めて高速な収束をもたらす。 さらに,リジェクション損失に対するカリキュラム付きロバストポーズソルバを用いて,効果的だが遅いエンドツーエンドトレーニングを代用する。 私たちのアプローチでは、高速トレーニングのために深度マップや3dモデルといった特権的な知識は必要ありません。 全体として、我々のアプローチは、最先端のシーン座標回帰よりもマッピングが最大300倍高速であり、精度は同等です。

Learning-based visual relocalizers exhibit leading pose accuracy, but require hours or days of training. Since training needs to happen on each new scene again, long training times make learning-based relocalization impractical for most applications, despite its promise of high accuracy. In this paper we show how such a system can actually achieve the same accuracy in less than 5 minutes. We start from the obvious: a relocalization network can be split in a scene-agnostic feature backbone, and a scene-specific prediction head. Less obvious: using an MLP prediction head allows us to optimize across thousands of view points simultaneously in each single training iteration. This leads to stable and extremely fast convergence. Furthermore, we substitute effective but slow end-to-end training using a robust pose solver with a curriculum over a reprojection loss. Our approach does not require privileged knowledge, such a depth maps or a 3D model, for speedy training. Overall, our approach is up to 300x faster in mapping than state-of-the-art scene coordinate regression, while keeping accuracy on par.
翻訳日:2023-05-24 16:11:32 公開日:2023-05-23
# 言語モデルは物理的概念を理解できるか?

Can Language Models Understand Physical Concepts? ( http://arxiv.org/abs/2305.14057v1 )

ライセンス: Link先を確認
Lei Li, Jingjing Xu, Qingxiu Dong, Ce Zheng, Qi Liu, Lingpeng Kong, Xu Sun(参考訳) 言語モデル~(LM)は、物理的概念の理解が必須の前提条件である対話的で具体化された世界で、次第に汎用的なインターフェースとなる。 しかし、LMが人間の世界における物理的概念を理解できるかどうかはまだ分かっていない。 そこで我々は,タスクをカバーしたベンチマークVECを設計した。 (i)物体の形状や素材といった視覚概念 (ii)物体の温度などの世界との相互作用から学んだ概念を具現化した。 我々のゼロショットプロンプトの結果は、ある視覚概念の理解が、LMをスケールアップするときに現れることを示しているが、スケーリング法則が適用できない基本的な概念がある。 例えば OPT-175B は、物質概念では 85% のゼロショット精度で人間に近づきながら、質量概念ではランダムな推測のように振る舞う。 代わりに、CLIPやBLIPのような視覚増強されたLMは、具体化された概念を人間レベルで理解する。 分析は、視覚表現の豊かな意味論が、具体的知識の貴重な源となることを示唆している。 そこで本研究では, VLM から LM へエンボディド知識を伝達する蒸留法を提案し, LM 134x のパラメータをスケールアップすることにより, 性能向上を実現した。 データセットは \url{https://github.com/TobiasLee/VEC} で利用可能です。

Language models~(LMs) gradually become general-purpose interfaces in the interactive and embodied world, where the understanding of physical concepts is an essential prerequisite. However, it is not yet clear whether LMs can understand physical concepts in the human world. To investigate this, we design a benchmark VEC that covers the tasks of (i) Visual concepts, such as the shape and material of objects, and (ii) Embodied Concepts, learned from the interaction with the world such as the temperature of objects. Our zero (few)-shot prompting results show that the understanding of certain visual concepts emerges as scaling up LMs, but there are still basic concepts to which the scaling law does not apply. For example, OPT-175B performs close to humans with a zero-shot accuracy of 85\% on the material concept, yet behaves like random guessing on the mass concept. Instead, vision-augmented LMs such as CLIP and BLIP achieve a human-level understanding of embodied concepts. Analysis indicates that the rich semantics in visual representation can serve as a valuable source of embodied knowledge. Inspired by this, we propose a distillation method to transfer embodied knowledge from VLMs to LMs, achieving performance gain comparable with that by scaling up the parameters of LMs 134x. Our dataset is available at \url{https://github.com/TobiasLee/VEC}
翻訳日:2023-05-24 16:11:12 公開日:2023-05-23
# 視覚言語モデルにおける音声接地部分空間の部分

Parts of Speech-Grounded Subspaces in Vision-Language Models ( http://arxiv.org/abs/2305.14053v1 )

ライセンス: Link先を確認
James Oldfield, Christos Tzelepis, Yannis Panagakis, Mihalis A. Nicolaou, Ioannis Patras(参考訳) 視覚言語モデルから生じる潜在画像表現は、様々な下流タスクに非常に有用であることが証明された。 しかし、その実用性は、異なる視覚特性に対する絡み合いによって制限される。 例えば、最近の研究によると、CLIPの画像表現は予測不可能な方法で(オブジェクトやアクションなど)特定の視覚特性に偏っていることが多い。 本稿では,CLIPの関節視覚言語空間における異なる視覚的モダリティの表現を,音声の一部と特定の視覚的モードの関連性を利用して分離する(例えば,名詞は対象に関連し,形容詞は外観を記述する)。 これは、音声の特定の部分に対応する変動を捉えた部分空間を学習する適切な成分分析モデルを定式化し、残りの部分への変動を最小化する。 そのような部分空間は、表現が横たわる多様体の基底幾何学を尊重しながら、画像やテキストの異なる視覚的性質の閉形式の非交叉表現を与える。 さらに,提案モデルにより,特定の視覚的外観(例えばアーティストの絵画スタイル)に対応するサブスペースの学習が促進され,CLIPベースのテキスト・ツー・イメージ合成から視覚的テーマ全体を選択的に除去できることを示す。 サブスペースの投影をテキストから画像へのモデルで可視化し,アーティストのスタイルを模倣することを防止し,クラス非分散メトリクスとベースラインゼロショット分類の改善を通じて定量的にモデルを検証する。 私たちのコードは、https://github.com/james-oldfield/PoS-subspacesで利用可能です。

Latent image representations arising from vision-language models have proved immensely useful for a variety of downstream tasks. However, their utility is limited by their entanglement with respect to different visual attributes. For instance, recent work has shown that CLIP image representations are often biased toward specific visual properties (such as objects or actions) in an unpredictable manner. In this paper, we propose to separate representations of the different visual modalities in CLIP's joint vision-language space by leveraging the association between parts of speech and specific visual modes of variation (e.g. nouns relate to objects, adjectives describe appearance). This is achieved by formulating an appropriate component analysis model that learns subspaces capturing variability corresponding to a specific part of speech, while jointly minimising variability to the rest. Such a subspace yields disentangled representations of the different visual properties of an image or text in closed form while respecting the underlying geometry of the manifold on which the representations lie. What's more, we show the proposed model additionally facilitates learning subspaces corresponding to specific visual appearances (e.g. artists' painting styles), which enables the selective removal of entire visual themes from CLIP-based text-to-image synthesis. We validate the model both qualitatively, by visualising the subspace projections with a text-to-image model and by preventing the imitation of artists' styles, and quantitatively, through class invariance metrics and improvements to baseline zero-shot classification. Our code is available at: https://github.com/james-oldfield/PoS-subspaces.
翻訳日:2023-05-24 16:10:50 公開日:2023-05-23
# 音響・意味的協調復号によるマルチモーダル視点による音声認識の再考

Rethinking Speech Recognition with A Multimodal Perspective via Acoustic and Semantic Cooperative Decoding ( http://arxiv.org/abs/2305.14049v1 )

ライセンス: Link先を確認
Tian-Hao Zhang, Hai-Bo Qin, Zhi-Hao Lai, Song-Lu Chen, Qi Liu, Feng Chen, Xinyuan Qian, Xu-Cheng Yin(参考訳) Attention-based encoder-decoder (AED) モデルは、ASRで顕著な性能を示した。 しかし、既存のAED手法の多くはデコーダの音響的特徴と意味的特徴の両方を同時に活用することを無視している。 本稿では,ASRのための音響・意味的協調デコーダ(ASCD)を提案する。 特に、音響的特徴と意味的特徴を2つの異なる段階で処理するバニラデコーダとは異なり、ASCDはそれらを協調的に統合する。 トレーニング中の情報漏洩を防止するために,コーサルマルチモーダルマスクを設計する。 さらに,精度と計算コストのバランスをとるため,Semi-ASCDの変種を提案する。 本提案は,transformer,conformer,branchformerをエンコーダとして使用するaishell-1およびaidatatang_200zhデータセット上で評価する。 実験の結果,ASCDは音響情報と意味情報の両方を協調的に活用することにより,性能を著しく向上させることがわかった。

Attention-based encoder-decoder (AED) models have shown impressive performance in ASR. However, most existing AED methods neglect to simultaneously leverage both acoustic and semantic features in decoder, which is crucial for generating more accurate and informative semantic states. In this paper, we propose an Acoustic and Semantic Cooperative Decoder (ASCD) for ASR. In particular, unlike vanilla decoders that process acoustic and semantic features in two separate stages, ASCD integrates them cooperatively. To prevent information leakage during training, we design a Causal Multimodal Mask. Moreover, a variant Semi-ASCD is proposed to balance accuracy and computational cost. Our proposal is evaluated on the publicly available AISHELL-1 and aidatatang_200zh datasets using Transformer, Conformer, and Branchformer as encoders, respectively. The experimental results show that ASCD significantly improves the performance by leveraging both the acoustic and semantic information cooperatively.
翻訳日:2023-05-24 16:10:23 公開日:2023-05-23
# CoTコレクション:Chain-of-Thoughtファインチューニングによるゼロショット学習とFew-shot学習の改善

The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning ( http://arxiv.org/abs/2305.14045v1 )

ライセンス: Link先を確認
Seungone Kim, Se June Joo, Doyoung Kim, Joel Jang, Seonghyeon Ye, Jamin Shin, Minjoon Seo(参考訳) 大規模言語モデル(LLM)は、CoT(Chain-of-Thought)推論(Chain-of-Thought)と呼ばれるステップバイステップの推論によって、新しいタスクを解決する能力を向上している。 1,060のタスクで1億8800万のcotの合理性を高める、新しい命令チューニングデータセットであるcotコレクションを紹介します。 CoT CollectionによるFlan-T5(3Bと11B)の連続微調整により、3Bと11BのLMは未確認のタスクでCoTをより良く実行でき、BIG-Bench-Hardベンチマークの27のデータセットの平均ゼロショット精度を+4.34%、+2.44%改善できることを示す。 さらに,Flan-T5(3Bおよび11B)上での4つのドメイン固有タスクに対して,LMが2.97%,+2.37%向上することを示す。 私たちはCoT Collectionのデータとトレーニング済みのモデルをhttps://github.com/kaist-lklab/CoT-Collectionで公開しています。

Large Language Models (LLMs) have shown enhanced capabilities of solving novel tasks by reasoning step-by-step known as Chain-of-Thought (CoT) reasoning; how can we instill the same capability of reasoning step-by-step on unseen tasks into LMs that possess less than <100B parameters? To address this question, we first introduce the CoT Collection, a new instruction-tuning dataset that augments 1.88 million CoT rationales across 1,060 tasks. We show that continually fine-tuning Flan-T5 (3B & 11B) with the CoT Collection enables the 3B & 11B LMs to perform CoT better on unseen tasks, leading to an improvement in the average zero-shot accuracy on 27 datasets of the BIG-Bench-Hard benchmark by +4.34% and +2.44%, respectively. Furthermore, we show that instruction tuning with CoT allows LMs to possess stronger few-shot learning capabilities, resulting in an improvement of +2.97% and +2.37% on 4 domain-specific tasks over Flan-T5 (3B & 11B), respectively. We make our CoT Collection data and our trained models publicly available at https://github.com/kaist-lklab/CoT-Collection.
翻訳日:2023-05-24 16:10:08 公開日:2023-05-23
# Process-To-Text:自然言語におけるプロセスの定量的記述のためのフレームワーク

Process-To-Text: A Framework for the Quantitative Description of Processes in Natural Language ( http://arxiv.org/abs/2305.14044v1 )

ライセンス: Link先を確認
Yago Fontenla-Seco, Alberto Bugar\'in-Diz, Manuel Lama(参考訳) 本稿では,プロセスのテキスト記述的説明の自動生成のためのP2Tフレームワークを提案する。 p2tは、プロセスから時間的および構造的な情報を抽出するプロセスマイニング、不確定な用語をモデル化するためのファジィ言語原型、説明を構築するための自然言語生成の3つのaiパラダイムを統合している。 心臓科領域における実際のユースケースが提示され、専門家に話しかける自然言語の説明を提供するためのP2Tの可能性を示している。

In this paper we present the Process-To-Text (P2T) framework for the automatic generation of textual descriptive explanations of processes. P2T integrates three AI paradigms: process mining for extracting temporal and structural information from a process, fuzzy linguistic protoforms for modelling uncertain terms, and natural language generation for building the explanations. A real use-case in the cardiology domain is presented, showing the potential of P2T for providing natural language explanations addressed to specialists.
翻訳日:2023-05-24 16:09:40 公開日:2023-05-23
# 音声とテキストの融合による音声翻訳の改善

Improving speech translation by fusing speech and text ( http://arxiv.org/abs/2305.14042v1 )

ライセンス: Link先を確認
Wenbiao Yin, Zhicheng Liu, Chengqi Zhao, Tao Wang, Jian Tong, Rong Ye(参考訳) 音声翻訳では,マルチモーダルデータの活用によるモデル性能の向上と個々のモーダルの対応限界が有意な効果を示した。 本稿では,異なるモーダル性を持つ音声とテキストの相補的強みを利用する。 それらの間のモダリティギャップの3つのレベルを観察し、モダリティ入力表現、モダリティ意味論、モダリティ隠れ状態によって表される。 これらのギャップに対処するために, 音声, テキスト, 融合音声文の3つの異なる入力モダリティをサポートするクロスモーダルモデルである \textbf{F}use-\textbf{S}peech-\textbf{T}ext (\textbf{FST})を提案する。 クロスモーダルアライメントのための複数の手法を活用し,その音声翻訳,機械翻訳,融合音声テキスト翻訳に与える影響を総合的に分析する。 我々は, MuST-C, GigaST, およびニューズテストベンチマークを用いてFSTを評価する。 実験の結果、提案されたFSTは MuST-C En$\rightarrow$De/Es/Fr (vs SOTA +1.1 BLEU)上で平均34.0 BLEUを達成することが示された。 さらなる実験により、FSTは以前の研究で見られるようにMTタスクでは劣化しないことが示された。 その代わり、事前訓練されたmtモデルよりも平均3.2 bleuが向上する。

In speech translation, leveraging multimodal data to improve model performance and address limitations of individual modalities has shown significant effectiveness. In this paper, we harness the complementary strengths of speech and text, which are disparate modalities. We observe three levels of modality gap between them, denoted by Modal input representation, Modal semantic, and Modal hidden states. To tackle these gaps, we propose \textbf{F}use-\textbf{S}peech-\textbf{T}ext (\textbf{FST}), a cross-modal model which supports three distinct input modalities for translation: speech, text, and fused speech-text. We leverage multiple techniques for cross-modal alignment and conduct a comprehensive analysis to assess its impact on speech translation, machine translation, and fused speech-text translation. We evaluate FST on MuST-C, GigaST, and newstest benchmark. Experiments show that the proposed FST achieves an average 34.0 BLEU on MuST-C En$\rightarrow$De/Es/Fr (vs SOTA +1.1 BLEU). Further experiments demonstrate that FST does not degrade on MT task, as observed in prior works. Instead, it yields an average improvement of 3.2 BLEU over the pre-trained MT model.
翻訳日:2023-05-24 16:09:30 公開日:2023-05-23
# リポジトリにおける科学PDFアクセシビリティの現状:スイスにおける調査

The state of scientific PDF accessibility in repositories: A survey in Switzerland ( http://arxiv.org/abs/2305.14041v1 )

ライセンス: Link先を確認
Alireza Darvishy, Rolf Sethe, Ines Engler, Oriane Pierres, Juliet Manning(参考訳) 本調査は、スイスのオンラインリポジトリにおけるPDF文書の品質を分析し、視覚障害者に対するアクセシビリティを検討した。 2つの最小限のアクセシビリティ機能が分析された。PDFにはタグと階層的な方向構造が必要だった。 調査には、PDFアクセシビリティに関する一般的な意見や知識を評価するため、複数のスイス大学のリポジトリの管理者や責任者へのインタビューも含まれていた。 インタビュアーの回答の分析は、PDFアクセシビリティに対する全体的な認識の欠如を示し、オンラインリポジトリにはこの問題に対処する具体的な計画がないことを示した。 本稿では,PDF文書のアクセス性を向上させるために,オンラインリポジトリのレコメンデーションセットを提示する。

This survey analyzed the quality of the PDF documents on online repositories in Switzerland, examining their accessibility for people with visual impairments. Two minimal accessibility features were analyzed: the PDFs had to have tags and a hierarchical heading structure. The survey also included interviews with the managers or heads of multiple Swiss universities' repositories to assess the general opinion and knowledge of PDF accessibility. An analysis of interviewee responses indicates an overall lack of awareness of PDF accessibility, and showed that online repositories currently have no concrete plans to address the issue. This paper concludes by presenting a set of recommendations for online repositories to improve the accessibility of their PDF documents.
翻訳日:2023-05-24 16:09:03 公開日:2023-05-23
# スパイクを意識する:固定次元におけるカーネルとニューラルネットワークの過剰適合性

Mind the spikes: Benign overfitting of kernels and neural networks in fixed dimension ( http://arxiv.org/abs/2305.14077v1 )

ライセンス: Link先を確認
Moritz Haas, David Holzm\"uller, Ulrike von Luxburg, Ingo Steinwart(参考訳) ほぼゼロに近いトレーニングエラーでトレーニングされた過パラメータニューラルネットワークの成功は、ノイズの多いトレーニングデータを補間したとしても、推定者が統計的に一貫した状態にある良性オーバーフィッティング現象に大きな関心を惹きつけた。 固定次元における良性オーバーフィッティングはいくつかの学習手法で確立されているが、現在の文献では、典型的なカーネル法や広いニューラルネットワークによる回帰では、良性オーバーフィッティングは、その寸法がサンプルサイズとともに大きくなるような高次元の設定を必要とすることを示唆している。 本稿では, 次元ではなく, 推定子の滑らかさが鍵であることが示される: 推定子の微分が十分に大きい場合にのみ, 良性オーバーフィッティングが可能である。 我々は既存の矛盾結果を非補間モデルやより多くのカーネルに一般化し、中間微分による良性過剰適合が固定次元では不可能であることを示す。 逆に、大きな微分を持つスパイキーなスムースカーネルの列による回帰に良性オーバーフィッティングが可能であることを示す。 ニューラルネットワークを用いて、結果を広いニューラルネットワークに変換する。 無限幅ネットワークはReLUアクティベーションに優越しないが、アクティベーション関数に小さな高周波揺らぎを加えることでこれを固定できることを示す。 我々の実験は、そのようなニューラルネットワークが過度に適合しているにもかかわらず、低次元のデータセットでもうまく一般化できることを検証する。

The success of over-parameterized neural networks trained to near-zero training error has caused great interest in the phenomenon of benign overfitting, where estimators are statistically consistent even though they interpolate noisy training data. While benign overfitting in fixed dimension has been established for some learning methods, current literature suggests that for regression with typical kernel methods and wide neural networks, benign overfitting requires a high-dimensional setting where the dimension grows with the sample size. In this paper, we show that the smoothness of the estimators, and not the dimension, is the key: benign overfitting is possible if and only if the estimator's derivatives are large enough. We generalize existing inconsistency results to non-interpolating models and more kernels to show that benign overfitting with moderate derivatives is impossible in fixed dimension. Conversely, we show that benign overfitting is possible for regression with a sequence of spiky-smooth kernels with large derivatives. Using neural tangent kernels, we translate our results to wide neural networks. We prove that while infinite-width networks do not overfit benignly with the ReLU activation, this can be fixed by adding small high-frequency fluctuations to the activation function. Our experiments verify that such neural networks, while overfitting, can indeed generalize well even on low-dimensional data sets.
翻訳日:2023-05-24 16:03:56 公開日:2023-05-23
# ガウス-シュタイン変分勾配のダイナミクスの理解に向けて

Towards Understanding the Dynamics of Gaussian--Stein Variational Gradient Descent ( http://arxiv.org/abs/2305.14076v1 )

ライセンス: Link先を確認
Tianle Liu, Promit Ghosal, Krishnakumar Balasubramanian, Natesh Pillai(参考訳) Stein Variational Gradient Descent (SVGD) は非パラメトリック粒子に基づく決定論的サンプリングアルゴリズムである。 広く使われているにもかかわらず、SVGDの理論的性質の理解は依然として難しい問題である。 ガウス的対象からサンプリングする場合、二線型核を持つsvgdダイナミクスは初期化子がガウス的であればガウス的となる。 この事実に触発された我々は、ガウス-SVGDの詳細な理論的研究、すなわち、双線型核を通してガウス分布の族に投影されるSVGD、またはそれに相当するガウス変分推論(GVI)をSVGDで行う。 平均場PDEと離散粒子系の両方を考慮した完全な図形を示す。 ターゲットが強い対数対数の場合、平均場ガウス-SVGDダイナミクスはKL分散においてターゲットに最も近いガウス分布に線形に収束することが証明される。 有限粒子設定では、平均場極限への時間収束と、目標がガウス的である場合の平衡への時間収束の両方がある。 一般の場合、密度ベースおよび粒子ベースによるガウス-SVGDの実装を提案し、GVIの最近のアルゴリズムが、異なる視点から提案され、我々の統一フレームワークの特別なケースとして現れていることを示す。 興味深いことに、このフレームワークの新しい粒子ベースのインスタンスの1つは、既存のアプローチを経験的に上回っている。 その結果,SVGDとGVIの双方の理解を深める上で,具体的な貢献が得られた。

Stein Variational Gradient Descent (SVGD) is a nonparametric particle-based deterministic sampling algorithm. Despite its wide usage, understanding the theoretical properties of SVGD has remained a challenging problem. For sampling from a Gaussian target, the SVGD dynamics with a bilinear kernel will remain Gaussian as long as the initializer is Gaussian. Inspired by this fact, we undertake a detailed theoretical study of the Gaussian-SVGD, i.e., SVGD projected to the family of Gaussian distributions via the bilinear kernel, or equivalently Gaussian variational inference (GVI) with SVGD. We present a complete picture by considering both the mean-field PDE and discrete particle systems. When the target is strongly log-concave, the mean-field Gaussian-SVGD dynamics is proven to converge linearly to the Gaussian distribution closest to the target in KL divergence. In the finite-particle setting, there is both uniform in time convergence to the mean-field limit and linear convergence in time to the equilibrium if the target is Gaussian. In the general case, we propose a density-based and a particle-based implementation of the Gaussian-SVGD, and show that several recent algorithms for GVI, proposed from different perspectives, emerge as special cases of our unified framework. Interestingly, one of the new particle-based instance from this framework empirically outperforms existing approaches. Our results make concrete contributions towards obtaining a deeper understanding of both SVGD and GVI.
翻訳日:2023-05-24 16:03:30 公開日:2023-05-23
# 帰納的関係推論のためのメッセージ通信

Message Intercommunication for Inductive Relation Reasoning ( http://arxiv.org/abs/2305.14074v1 )

ライセンス: Link先を確認
Ke Liang, Lingyuan Meng, Sihang Zhou, Siwei Wang, Wenxuan Tu, Yue Liu, Meng Liu, Xinwang Liu(参考訳) 知識グラフの帰納的関係推論は,新たなエンティティ間のリンク不足を推測することを目的として,注目を集めている。 グラフインダクティブ学習に基づいて開発されたモデルは、grailベースのモデルと呼ばれ、このタスクに有望な可能性を示している。 しかし、一方向メッセージパッシング機構は、有向グラフ内のエンティティ間の隠れた相互関係を悪用することを妨げる。 さらに、ほとんどのグレールベースモデルにおける囲い込み部分グラフ抽出は、推論のために十分な識別情報を抽出することを制限している。 したがって、これらのモデルの表現能力は限られている。 この問題に対処するため, 隣り合う部分グラフにメッセージ通信機構を導入することで, MINES と呼ばれる新しい GraIL ベースの帰納的関係推論モデルを提案する。 具体的には、メッセージ間通信機構は、省略された隠れた相互情報をキャプチャするように設計されている。 双方向/双方向のgcn層を一方向のrscn層に挿入することにより、接続されたエンティティ間の双方向情報インタラクションを導入する。 さらに、他のグラフベースのタスクにより多くの隣人を巻き込むという成功に触発されて、囲い込み部分グラフを超えて近隣領域を拡張し、帰納的関係推論のための情報収集を強化する。 12個のインダクティブベンチマークデータセットに関する広範な実験は、我々の鉱山が既存の最先端モデルよりも優れており、隣り合う部分グラフにおける通信メカニズムと推論の有効性を示している。

Inductive relation reasoning for knowledge graphs, aiming to infer missing links between brand-new entities, has drawn increasing attention. The models developed based on Graph Inductive Learning, called GraIL-based models, have shown promising potential for this task. However, the uni-directional message-passing mechanism hinders such models from exploiting hidden mutual relations between entities in directed graphs. Besides, the enclosing subgraph extraction in most GraIL-based models restricts the model from extracting enough discriminative information for reasoning. Consequently, the expressive ability of these models is limited. To address the problems, we propose a novel GraIL-based inductive relation reasoning model, termed MINES, by introducing a Message Intercommunication mechanism on the Neighbor-Enhanced Subgraph. Concretely, the message intercommunication mechanism is designed to capture the omitted hidden mutual information. It introduces bi-directed information interactions between connected entities by inserting an undirected/bi-directed GCN layer between uni-directed RGCN layers. Moreover, inspired by the success of involving more neighbors in other graph-based tasks, we extend the neighborhood area beyond the enclosing subgraph to enhance the information collection for inductive relation reasoning. Extensive experiments on twelve inductive benchmark datasets demonstrate that our MINES outperforms existing state-of-the-art models, and show the effectiveness of our intercommunication mechanism and reasoning on the neighbor-enhanced subgraph.
翻訳日:2023-05-24 16:03:02 公開日:2023-05-23
# 会話における感情認識のためのばらつき可変オートエンコーダ

Disentangled Variational Autoencoder for Emotion Recognition in Conversations ( http://arxiv.org/abs/2305.14071v1 )

ライセンス: Link先を確認
Kailai Yang, Tianlin Zhang, Sophia Ananiadou(参考訳) 会話における感情認識(erc)では、対象発話の感情は文脈に密接に依存する。 そこで,既存の研究は,文脈情報を利用した感情認識を目的とした,対象発話の応答を生成するためにモデルを訓練する。 しかし、隣接する応答生成は長距離依存を無視し、多くの場合、限られた感情情報を提供する。 さらに、ほとんどのERCモデルは、解釈可能性や頑健性に欠ける発話ごとに統一された分散表現を学ぶ。 これらの問題に対処するために、まず、変分オートエンコーダに基づくターゲット発話再構成タスクを導入し、次に、潜時空間からValence-Arousal-Dominance (VAD) に影響を及ぼす3つの表現を分解するVAD-VAE(Valence-Arousal-Dominance)を提案する。 また,感情レキシコンからVAD監視信号を導入し,VAD分布間の相互情報を最小化することにより,不整合表現を強化する。 実験によれば、vad-vaeは2つのデータセットで最先端のモデルを上回る。 さらに解析により,各モジュールの有効性と不整合なVAD表現の品質が証明される。 コードはhttps://github.com/stevekgyang/vad-vaeで入手できる。

In Emotion Recognition in Conversations (ERC), the emotions of target utterances are closely dependent on their context. Therefore, existing works train the model to generate the response of the target utterance, which aims to recognise emotions leveraging contextual information. However, adjacent response generation ignores long-range dependencies and provides limited affective information in many cases. In addition, most ERC models learn a unified distributed representation for each utterance, which lacks interpretability and robustness. To address these issues, we propose a VAD-disentangled Variational AutoEncoder (VAD-VAE), which first introduces a target utterance reconstruction task based on Variational Autoencoder, then disentangles three affect representations Valence-Arousal-Dominance (VAD) from the latent space. We also enhance the disentangled representations by introducing VAD supervision signals from a sentiment lexicon and minimising the mutual information between VAD distributions. Experiments show that VAD-VAE outperforms the state-of-the-art model on two datasets. Further analysis proves the effectiveness of each proposed module and the quality of disentangled VAD representations. The code is available at https://github.com/SteveKGYang/VAD-VAE.
翻訳日:2023-05-24 16:02:38 公開日:2023-05-23
# 言語モデルにおける言語一般化の評価:ブラジルポルトガル語のデータセット

Assessing Linguistic Generalisation in Language Models: A Dataset for Brazilian Portuguese ( http://arxiv.org/abs/2305.14070v1 )

ライセンス: Link先を確認
Rodrigo Wilkens, Leonardo Zilio and Aline Villavicencio(参考訳) 近年、大規模な言語モデルの作成に力を入れている。 現在、最も顕著なアプローチはBERTのようなディープニューラルネットワークに基づいている。 しかし、それらは透明性と解釈性に欠けており、しばしばブラックボックスと見なされる。 これは下流タスクへの適用性だけでなく、異なるアーキテクチャの互換性や、異なるコーパスやハイパーパラメータを使ってトレーニングされた同じモデルにも影響します。 本稿では,ブラジル・ポルトガル語で開発されたモデルにエンコードされた言語情報を調べるための本質的評価タスクを提案する。 これらのタスクは、異なる言語モデルが文法構造やマルチワード表現(MWE)に関連する情報を一般化する方法を評価するために設計され、異なる言語現象を学習したかどうかを評価する。 これらのタスクのために開発されたデータセットは、1つのマスクされた単語を含む一連の文と、コンテキストを狭めるのに役立つキューフレーズで構成されている。 このデータセットはmweと文法構造に分けられ、後者は不個人動詞、主題合意、動詞合意、名目合意、受動的およびコネクタの6つのタスクに分けられる。 MWEのサブセットはBERTimbau Large、BERTimbau Base、mBERTのテストに使用された。 文法構造については, BERTimbau Largeのみを用い, MWEタスクで最高の結果を得た。

Much recent effort has been devoted to creating large-scale language models. Nowadays, the most prominent approaches are based on deep neural networks, such as BERT. However, they lack transparency and interpretability, and are often seen as black boxes. This affects not only their applicability in downstream tasks but also the comparability of different architectures or even of the same model trained using different corpora or hyperparameters. In this paper, we propose a set of intrinsic evaluation tasks that inspect the linguistic information encoded in models developed for Brazilian Portuguese. These tasks are designed to evaluate how different language models generalise information related to grammatical structures and multiword expressions (MWEs), thus allowing for an assessment of whether the model has learned different linguistic phenomena. The dataset that was developed for these tasks is composed of a series of sentences with a single masked word and a cue phrase that helps in narrowing down the context. This dataset is divided into MWEs and grammatical structures, and the latter is subdivided into 6 tasks: impersonal verbs, subject agreement, verb agreement, nominal agreement, passive and connectors. The subset for MWEs was used to test BERTimbau Large, BERTimbau Base and mBERT. For the grammatical structures, we used only BERTimbau Large, because it yielded the best results in the MWE task.
翻訳日:2023-05-24 16:02:18 公開日:2023-05-23
# 大規模言語モデルを用いた要約の事実整合性の評価

Evaluating Factual Consistency of Summaries with Large Language Models ( http://arxiv.org/abs/2305.14069v1 )

ライセンス: Link先を確認
Shiqi Chen, Siyang Gao and Junxian He(参考訳) 要約における事実誤りの検出は,要約研究において重要かつ困難な課題となっている。 大規模言語モデル (LLM) の創発的能力に触発され, LLM を直接刺激することで要約の現実的一貫性を評価する。 We present a comprehensive empirical study to assess the ability of LLMs as factual consistency evaluators, which consists of (1) analyzing different LLMs such as the GPT model series and Flan-T5; (2) investigating a variety of prompting methods including vanilla prompting, chain-of-thought prompting, and a sentence-by-sentence prompting method to tackle long summaries; and (3) evaluating on diverse summaries generated by multiple summarization systems, ranging from pre-transformer methods to SOTA pretrained models. 実験の結果,LLMは全ての設定において,非整合検出における二項分類精度で最大12.2の絶対点を達成できることがわかった。

Detecting factual errors in summaries has been an important and challenging subject in summarization research. Inspired by the emergent ability of large language models (LLMs), we explore evaluating factual consistency of summaries by directly prompting LLMs. We present a comprehensive empirical study to assess the ability of LLMs as factual consistency evaluators, which consists of (1) analyzing different LLMs such as the GPT model series and Flan-T5; (2) investigating a variety of prompting methods including vanilla prompting, chain-of-thought prompting, and a sentence-by-sentence prompting method to tackle long summaries; and (3) evaluating on diverse summaries generated by multiple summarization systems, ranging from pre-transformer methods to SOTA pretrained models. Our experiments demonstrate that prompting LLMs is able to outperform the previous best factuality systems in all settings, by up to 12.2 absolute points in terms of the binary classification accuracy on inconsistency detection.
翻訳日:2023-05-24 16:01:58 公開日:2023-05-23
# エンリッチストリングネットモデルとその励起

Enriched string-net models and their excitations ( http://arxiv.org/abs/2305.14068v1 )

ライセンス: Link先を確認
David Green, Peter Huston, Kyle Kawagoe, David Penneys, Anup Poudel, Sean Sanford(参考訳) ウォーカー・ワンモデルの境界は、境界励起としてキラルユニタリモジュラーテンソル圏(UMTC)を実現する通勤プロジェクターモデルを構築するために用いられる。 anomaly の witt クラスを表す umtc $\mathcal{a}$ が与えられると、 [arxiv:2208.14018] の記事は$\mathcal{a}$-enriched unitary fusion category $\mathcal{x}$ に関連する可換射影モデルを与え、$\mathcal{a}$ に関連付けられた 3d walker-wang モデルの 2d 境界上に与えた。 その記事は、境界励起は強化センター/M\"uger centralizer $Z^\mathcal{A}(\mathcal{X})$ of $\mathcal{A}$ in $Z(\mathcal{X})$によって与えられると主張した。 本稿では,この2次元境界モデルの厳密な処理を行い,skein加群や表現圏が境界励起を記述するある半単純代数学を含む位相量子場理論(tqft)手法を用いて,この主張を検証する。 また、Walker-Wangバルクの3次元バルク点励起を M\ "uger center $Z_2(\mathcal{A})$ で示し、バルクからバウンダリへのホッピング作用素 $Z_2(\mathcal{A})\to Z^{\mathcal{A}}(\mathcal{X})$ 境界励起のUMTCが$Z^{\mathcal{A}}(\mathcal{X})$ が$Z_2(\mathcal{A})$ でリッチされた対称なブレイドであることを示すためにTQFT技術を用いている。 この記事ではまた、骨格の6j$シンボルの観点とは対照的に、ユニタリテンソル圏の観点からレビン・ウェン弦ネットモデルの自己完結した包括的なレビューも含んでいる。

Boundaries of Walker-Wang models have been used to construct commuting projector models which realize chiral unitary modular tensor categories (UMTCs) as boundary excitations. Given a UMTC $\mathcal{A}$ representing the Witt class of an anomaly, the article [arXiv:2208.14018] gave a commuting projector model associated to an $\mathcal{A}$-enriched unitary fusion category $\mathcal{X}$ on a 2D boundary of the 3D Walker-Wang model associated to $\mathcal{A}$. That article claimed that the boundary excitations were given by the enriched center/M\"uger centralizer $Z^\mathcal{A}(\mathcal{X})$ of $\mathcal{A}$ in $Z(\mathcal{X})$. In this article, we give a rigorous treatment of this 2D boundary model, and we verify this assertion using topological quantum field theory (TQFT) techniques, including skein modules and a certain semisimple algebra whose representation category describes boundary excitations. We also use TQFT techniques to show the 3D bulk point excitations of the Walker-Wang bulk are given by the M\"uger center $Z_2(\mathcal{A})$, and we construct bulk-to-boundary hopping operators $Z_2(\mathcal{A})\to Z^{\mathcal{A}}(\mathcal{X})$ reflecting how the UMTC of boundary excitations $Z^{\mathcal{A}}(\mathcal{X})$ is symmetric-braided enriched in $Z_2(\mathcal{A})$. This article also includes a self-contained comprehensive review of the Levin-Wen string net model from a unitary tensor category viewpoint, as opposed to the skeletal $6j$ symbol viewpoint.
翻訳日:2023-05-24 16:01:41 公開日:2023-05-23
# DIVA: 変分オートエンコーダによるディリクレプロセスに基づくインクリメンタルディープクラスタリングアルゴリズム

DIVA: A Dirichlet Process Based Incremental Deep Clustering Algorithm via Variational Auto-Encoder ( http://arxiv.org/abs/2305.14067v1 )

ライセンス: Link先を確認
Zhenshan Bing, Yuan Meng, Yuqi Yun, Hang Su, Xiaojie Su, Kai Huang, Alois Knoll(参考訳) 生成モデルベースのディープクラスタリングフレームワークは、複雑なデータの分類に優れているが、クラスタ数の事前知識を必要とするため、動的で複雑な機能を扱うには制限がある。 本稿では,ガウスの無限混合を先行として利用する非パラメトリックディープクラスタリングフレームワークを提案する。 我々のフレームワークは,クラスタの「生成」と「マージ」を可能とし,特徴量の事前知識を必要とせず,動的適応的な方法でデータをクラスタ化することができる,メモ化されたオンライン変分推論手法を使用している。 このフレームワークをDirichlet ProcessベースのインクリメンタルディープクラスタリングフレームワークであるDIVAと名付けます。 我々のフレームワークは、最先端のベースラインよりも優れており、特にインクリメンタル機能の場合、動的に変化する特徴を持つ複雑なデータの分類において優れた性能を示す。

Generative model-based deep clustering frameworks excel in classifying complex data, but are limited in handling dynamic and complex features because they require prior knowledge of the number of clusters. In this paper, we propose a nonparametric deep clustering framework that employs an infinite mixture of Gaussians as a prior. Our framework utilizes a memoized online variational inference method that enables the "birth" and "merge" moves of clusters, allowing our framework to cluster data in a "dynamic-adaptive" manner, without requiring prior knowledge of the number of features. We name the framework as DIVA, a Dirichlet Process-based Incremental deep clustering framework via Variational Auto-Encoder. Our framework, which outperforms state-of-the-art baselines, exhibits superior performance in classifying complex data with dynamically changing features, particularly in the case of incremental features.
翻訳日:2023-05-24 16:00:51 公開日:2023-05-23
# 多言語機械翻訳のためのマルチキャパシティモデルのワンストップ学習

One-stop Training of Multiple Capacity Models for Multilingual Machine Translation ( http://arxiv.org/abs/2305.14066v1 )

ライセンス: Link先を確認
Lan Jiang, Haoyang Huang, Dongdong Zhang, Rui Jiang, Furu Wei(参考訳) さまざまな能力を持つトレーニングモデルは、異なるシナリオにデプロイする上で有利である。 高容量モデルはより良いパフォーマンスを提供するが、低容量モデルはトレーニングと推論のために計算リソースを少なくする。 本研究では,2つの複合モデルアーキテクチャと2段階共同訓練アルゴリズム(TSJT)からなる新しいワンストップトレーニングフレームワークを提案する。 複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるフレキシブルキャパシティモデルからの監督を同時に統合し、より高速で効率的な収束をもたらす。 WMT10ベンチマークの大規模な実験により,本手法は低容量ベースラインモデルより優れ,高容量モデル上での同等あるいは優れた性能を実現することが示された。 特に,本手法が初期訓練過程に大きな影響を与え,より効率的な収束と優れた解法が導かれることを示した。

Training models with varying capacities can be advantageous for deploying them in different scenarios. While high-capacity models offer better performance, low-capacity models require fewer computing resources for training and inference. In this work, we propose a novel one-stop training framework consisting of two composite model architectures and a joint training algorithm called Two-Stage Joint-Training (TSJT). Unlike knowledge distillation, where multiple capacity models are trained from scratch separately, our approach integrates supervisions from different flexible-capacity models simultaneously, leading to faster and more efficient convergence. Extensive experiments on the WMT10 benchmark show that our method outperforms low-capacity baseline models and achieves comparable or better performance on high-capacity models. Notably, the analysis demonstrates that our method significantly influences the initial training process, leading to more efficient convergence and superior solutions.
翻訳日:2023-05-24 16:00:35 公開日:2023-05-23
# トレーニングしない:グラフニューラルネットワークの線形ニューラルネットワーク探索

Do Not Train It: A Linear Neural Architecture Search of Graph Neural Networks ( http://arxiv.org/abs/2305.14065v1 )

ライセンス: Link先を確認
Peng Xu, Lin Zhang, Xuanzhou Liu, Jiaqi Sun, Yue Zhao, Haiqing Yang, Bei Yu(参考訳) グラフニューラルネットワーク(GNN)のためのNAS(Neural Architecture Search)はNAS-GNNと呼ばれ、手作業で設計されたGNNアーキテクチャよりも大きなパフォーマンスを実現している。 しかし、これらの手法は計算コストや最適化の難しさといった従来のNAS法から問題を継承する。 さらに重要なことは、従来のNAS手法はGNNの独自性を無視しており、GNNは訓練なしで表現力を持っている。 ランダムに初期化される重みにより、スパースコーディングの目的によって最適なアーキテクチャパラメータを求め、新しいNAS-GNN法、すなわちニューラルアーキテクチャコーディング(NAC)を導出できる。 その結果、NACはGNNの更新なしスキームを持ち、線形時間で効率的に計算できる。 複数のGNNベンチマークデータセットに対する実証的な評価は、我々のアプローチが最先端のパフォーマンスにつながることを示している。

Neural architecture search (NAS) for Graph neural networks (GNNs), called NAS-GNNs, has achieved significant performance over manually designed GNN architectures. However, these methods inherit issues from the conventional NAS methods, such as high computational cost and optimization difficulty. More importantly, previous NAS methods have ignored the uniqueness of GNNs, where GNNs possess expressive power without training. With the randomly-initialized weights, we can then seek the optimal architecture parameters via the sparse coding objective and derive a novel NAS-GNNs method, namely neural architecture coding (NAC). Consequently, our NAC holds a no-update scheme on GNNs and can efficiently compute in linear time. Empirical evaluations on multiple GNN benchmark datasets demonstrate that our approach leads to state-of-the-art performance, which is up to $200\times$ faster and $18.8\%$ more accurate than the strong baselines.
翻訳日:2023-05-24 16:00:18 公開日:2023-05-23
# S-CLIP: 少数のスペシャリストキャプションを用いた半教師型視力訓練

S-CLIP: Semi-supervised Vision-Language Pre-training using Few Specialist Captions ( http://arxiv.org/abs/2305.14095v1 )

ライセンス: Link先を確認
Sangwoo Mo, Minkyu Kim, Kyungmin Lee, Jinwoo Shin(参考訳) 対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。 しかしながら、リモートセンシングなどの専門分野に適用する場合、トレーニングに利用可能な画像テキストペア数が限られているため、これらのモデルでは苦労することが多い。 そこで本稿では,CLIPを訓練するための半教師付き学習手法であるS-CLIPを提案する。 s-clipは、コントラスト学習と言語モダリティに特化した2つの擬似ラベル戦略を採用している。 このキャプションレベルの擬似ラベルは、ペア画像のキャプションの組み合わせにより与えられるもので、ペア画像とペア画像の最適な輸送問題を解く。 キーワードレベルの擬似ラベルは、最も近いペア画像のキャプションのキーワードによって与えられ、正確なラベルではなく、ラベルの候補セットを想定した部分ラベル学習によって訓練される。 これらの目的を組み合わせることで、S-CLIPは、リモートセンシング、ファッション、科学的人物、漫画など、さまざまな専門分野において示されるように、少数の画像テキストペアを使用したCLIPのトレーニングを大幅に強化する。 例えば、s-clipは、ゼロショット分類ではクリップを10%改善し、リモートセンシングベンチマークでは画像テキスト検索では4%改善し、教師付きクリップのパフォーマンスにマッチし、3倍少ない画像テキストペアを使用する。

Vision-language models, such as contrastive language-image pre-training (CLIP), have demonstrated impressive results in natural image domains. However, these models often struggle when applied to specialized domains like remote sensing, and adapting to such domains is challenging due to the limited number of image-text pairs available for training. To address this, we propose S-CLIP, a semi-supervised learning method for training CLIP that utilizes additional unpaired images. S-CLIP employs two pseudo-labeling strategies specifically designed for contrastive learning and the language modality. The caption-level pseudo-label is given by a combination of captions of paired images, obtained by solving an optimal transport problem between unpaired and paired images. The keyword-level pseudo-label is given by a keyword in the caption of the nearest paired image, trained through partial label learning that assumes a candidate set of labels for supervision instead of the exact one. By combining these objectives, S-CLIP significantly enhances the training of CLIP using only a few image-text pairs, as demonstrated in various specialist domains, including remote sensing, fashion, scientific figures, and comics. For instance, S-CLIP improves CLIP by 10% for zero-shot classification and 4% for image-text retrieval on the remote sensing benchmark, matching the performance of supervised CLIP while using three times fewer image-text pairs.
翻訳日:2023-05-24 15:52:43 公開日:2023-05-23
# エネルギーを意識した早期退出を通した持続的エッジインテリジェンス

Sustainable Edge Intelligence Through Energy-Aware Early Exiting ( http://arxiv.org/abs/2305.14094v1 )

ライセンス: Link先を確認
Marcello Bullo, Seifallah Jardak, Pietro Carnelli, Deniz Gunduz(参考訳) ディープラーニング(DL)モデルは、IoT(Internet of Things)アプリケーションのための有望なソリューションとして登場した。 しかし、その計算複雑性のため、DLモデルは大量のエネルギーを消費し、バッテリを急速に消費し、IoTデバイスの性能を損なう可能性がある。 持続的な運転には、充電可能な電池とエネルギ回収機能を備えたエッジデバイスを考える。 環境エネルギー源の確率的性質に加えて、収穫率はしばしば推定エネルギー要件を満たすために不十分であり、エネルギー非依存のデバイスでは劇的に性能が低下する。 この問題を軽減するため,EHエッジインテリジェンスシステムにおいて,エネルギー適応型動的早期退避(EE)を提案する。 提案手法は, サンプルごとの最適計算量を決定する, エネルギー対応のEEポリシーを導出する。 提案した方針は、限られた入出力に適合するエネルギー消費のバランスをとり、連続的な可用性を実現する。 その結果, エネルギー非依存政策と比較して, 精度は25%, サービス速度は35%向上した。

Deep learning (DL) models have emerged as a promising solution for Internet of Things (IoT) applications. However, due to their computational complexity, DL models consume significant amounts of energy, which can rapidly drain the battery and compromise the performance of IoT devices. For sustainable operation, we consider an edge device with a rechargeable battery and energy harvesting (EH) capabilities. In addition to the stochastic nature of the ambient energy source, the harvesting rate is often insufficient to meet the inference energy requirements, leading to drastic performance degradation in energy-agnostic devices. To mitigate this problem, we propose energy-adaptive dynamic early exiting (EE) to enable efficient and accurate inference in an EH edge intelligence system. Our approach derives an energy-aware EE policy that determines the optimal amount of computational processing on a per-sample basis. The proposed policy balances the energy consumption to match the limited incoming energy and achieves continuous availability. Numerical results show that accuracy and service rate are improved up to 25% and 35%, respectively, in comparison with an energy-agnostic policy.
翻訳日:2023-05-24 15:52:16 公開日:2023-05-23
# 基礎モデルを用いた3次元オープン語彙セグメンテーション

3D Open-vocabulary Segmentation with Foundation Models ( http://arxiv.org/abs/2305.14093v1 )

ライセンス: Link先を確認
Kunhao Liu, Fangneng Zhan, Jiahui Zhang, Muyu Xu, Yingchen Yu, Abdulmotaleb El Saddik, Christian Theobalt, Eric Xing, Shijian Lu(参考訳) 3Dシーンのオープンボキャブラリセグメンテーションは人間の知覚の基本的な機能であり、コンピュータビジョン研究において重要な目的である。 しかし、このタスクは、堅牢で一般化可能なモデルをトレーニングするための大規模で多様な3dopen-vocabulary segmentationデータセットの欠如によって大きく妨げられている。 事前訓練された2Dオープン語彙セグメンテーションモデルからの知識の希釈は役立つが、2Dモデルは概ね近接語彙データセットで微調整されているため、オープン語彙の特徴を著しく損なう。 我々は,事前学習された基礎モデル clip と dino のオープンボキャブラリなマルチモーダル知識とオブジェクト推論能力を活用し,微調整を必要とせずに,3次元オープンボキャブラリセグメンテーションの課題に取り組む。 具体的には,CLIPからのオープンボキャブラリ知識とテキスト知識をニューラルラディアンス場(NeRF)に蒸留し,2次元特徴をビュー一貫性の3Dセグメンテーションに効果的に持ち上げる。 さらに,CLIP特徴のあいまいさを軽減し,DINO特徴から正確なオブジェクト境界を抽出し,トレーニング中にセグメンテーションアノテーションを不要にするため,Relevancy-Distribution Alignment LosとFeature-Distriion Alignment Losを導入する。 大規模な実験により,本手法はセグメンテーションアノテーションで訓練した完全教師付きモデルよりも優れており,2次元画像とテキストイメージペアから3次元オープン語彙セグメンテーションを効果的に学習できることが示唆された。

Open-vocabulary segmentation of 3D scenes is a fundamental function of human perception and thus a crucial objective in computer vision research. However, this task is heavily impeded by the lack of large-scale and diverse 3D open-vocabulary segmentation datasets for training robust and generalizable models. Distilling knowledge from pre-trained 2D open-vocabulary segmentation models helps but it compromises the open-vocabulary feature significantly as the 2D models are mostly finetuned with close-vocabulary datasets. We tackle the challenges in 3D open-vocabulary segmentation by exploiting the open-vocabulary multimodal knowledge and object reasoning capability of pre-trained foundation models CLIP and DINO, without necessitating any fine-tuning. Specifically, we distill open-vocabulary visual and textual knowledge from CLIP into a neural radiance field (NeRF) which effectively lifts 2D features into view-consistent 3D segmentation. Furthermore, we introduce the Relevancy-Distribution Alignment loss and Feature-Distribution Alignment loss to respectively mitigate the ambiguities of CLIP features and distill precise object boundaries from DINO features, eliminating the need for segmentation annotations during training. Extensive experiments show that our method even outperforms fully supervised models trained with segmentation annotations, suggesting that 3D open-vocabulary segmentation can be effectively learned from 2D images and text-image pairs.
翻訳日:2023-05-24 15:51:58 公開日:2023-05-23
# アクセプタビリティの判断を再考する

Revisiting Acceptability Judgements ( http://arxiv.org/abs/2305.14091v1 )

ライセンス: Link先を確認
Hai Hu and Ziyin Zhang and Weifang Huang and Jackie Yan-Ki Lai and Aini Li and Yina Ma and Jiahui Huang and Peng Zhang and Rui Wang(参考訳) NLPコミュニティが言語受容性に注目してから何年も経ちました。 本研究では,この話題を大規模言語モデルの文脈で再検討する。 CoLAC - Corpus of Linguistic Acceptability in Chineseを紹介します。これは、ネイティブスピーカーによって検証され、2つのラベルセットが付属する、最初の大規模非英語アクセプタビリティデータセットです。 実験の結果,最も大きなインストラクトGPTモデルでさえ,CoLAC上では偶然にのみ動作し,ChatGPTの性能(48.30 MCC)は教師付きモデル(59.03 MCC)と人間(65.11 MCC)より低い。 言語受容性に関する知識をタイプ論的に異なる言語間で伝達し,事前学習まで遡ることができることを,言語間伝達実験ときめ細かな言語解析を通じて初めて実証した。

Years have passed since the NLP community has last focused on linguistic acceptability. In this work, we revisit this topic in the context of large language models. We introduce CoLAC - Corpus of Linguistic Acceptability in Chinese, the first large-scale non-English acceptability dataset that is verified by native speakers and comes with two sets of labels. Our experiments show that even the largest InstructGPT model performs only at chance level on CoLAC, while ChatGPT's performance (48.30 MCC) is also way below supervised models (59.03 MCC) and human (65.11 MCC). Through cross-lingual transfer experiments and fine-grained linguistic analysis, we demonstrate for the first time that knowledge of linguistic acceptability can be transferred across typologically distinct languages, as well as be traced back to pre-training.
翻訳日:2023-05-24 15:51:27 公開日:2023-05-23
# エンドツーエンドのBM25クエリ拡張

BM25 Query Augmentation Learned End-to-End ( http://arxiv.org/abs/2305.14087v1 )

ライセンス: Link先を確認
Xiaoyin Chen and Sam Wiseman(参考訳) 情報検索ベースラインとしてのbm25の持続的な競争力を考慮し,そのスパースなクエリベクトル表現の強化と再重み付けにより,さらにどの程度改善できるか検討する。 本稿では,拡張学習と終端重み付け学習のアプローチを提案し,その速度を保ちながらBM25よりも性能が向上することが確認された。 さらに、学習された拡張と再重み付けは、見当たらないデータセットにうまく転送される。

Given BM25's enduring competitiveness as an information retrieval baseline, we investigate to what extent it can be even further improved by augmenting and re-weighting its sparse query-vector representation. We propose an approach to learning an augmentation and a re-weighting end-to-end, and we find that our approach improves performance over BM25 while retaining its speed. We furthermore find that the learned augmentations and re-weightings transfer well to unseen datasets.
翻訳日:2023-05-24 15:51:11 公開日:2023-05-23
# 引用に基づくモデルによる調査回答の予測:米国に対する好意性に関する事例研究

Predicting Survey Response with Quotation-based Modeling: A Case Study on Favorability towards the United States ( http://arxiv.org/abs/2305.14086v1 )

ライセンス: Link先を確認
Alireza Amirshahi, Nicolas kirsch, Jonathan Reymond and Saleh Baghersalimi(参考訳) 世論の理解を目的とした調査を行う上で,調査回答の獲得は重要な要素である。 しかし、適切な応答率を保証することなく、調査データ収集は困難であり、時間がかかり、高価である。 本稿では,機械学習を用いた引用を検証し,調査回答を予測する先駆的手法を提案する。 本調査は、多くの組織や政府に対する関心事である米国に対する優遇度を評価することに焦点を当てている。 異なる国籍や期間にまたがる個人からの膨大な引用を活用し、彼らの好意のレベルを抽出する。 自然言語処理技術と機械学習アルゴリズムを組み合わせて,質問応答の予測モデルを構築した。 第一に, 国内調査が行われていない場合, 第二に調査が行われた場合, 特定の年において, 年中調査を行わない場合の2つのシナリオについて検討した。 実験の結果,提案手法は高精度にサーベイ応答を予測できることがわかった。 さらに,モデルの性能に寄与した重要な特徴を徹底的に分析する。 本研究は、世論の正確な予測を同時に提供しつつ、調査に要するコストと時間を大幅に削減し、データサイエンス分野における調査研究に影響を与える可能性がある。

The acquisition of survey responses is a crucial component in conducting research aimed at comprehending public opinion. However, survey data collection can be arduous, time-consuming, and expensive, with no assurance of an adequate response rate. In this paper, we propose a pioneering approach for predicting survey responses by examining quotations using machine learning. Our investigation focuses on evaluating the degree of favorability towards the United States, a topic of interest to many organizations and governments. We leverage a vast corpus of quotations from individuals across different nationalities and time periods to extract their level of favorability. We employ a combination of natural language processing techniques and machine learning algorithms to construct a predictive model for survey responses. We investigate two scenarios: first, when no surveys have been conducted in a country, and second when surveys have been conducted but in specific years and do not cover all the years. Our experimental results demonstrate that our proposed approach can predict survey responses with high accuracy. Furthermore, we provide an exhaustive analysis of the crucial features that contributed to the model's performance. This study has the potential to impact survey research in the field of data science by substantially decreasing the cost and time required to conduct surveys while simultaneously providing accurate predictions of public opinion.
翻訳日:2023-05-24 15:51:01 公開日:2023-05-23
# 鎖不等式の最大量子値の厳密な上限に基づくデバイス独立ランダム性

Device-independent randomness based on a tight upper bound of the maximal quantum value of chained inequality ( http://arxiv.org/abs/2305.14084v1 )

ライセンス: Link先を確認
Youwang Xiao, Xinhui Li, Jing Wang, Ming Li, Shao-Ming Fei(参考訳) ベルの不等式違反は、古典的な概念から量子理論を最も急進的に逸脱させるだけでなく、デバイス独立なランダム性証明のような応用の道を開いた。 ここでは、連鎖ベルの不等式に対する最大量子値の厳密な上限と、各辺について任意の数の測度を導出する。 \lxh{ 上界飽和度が表される制約も示される。 この方法では、いくつかの量子状態がチェーンベルの不等式を任意の数の測定値で破るために必要な十分条件を与える。 厳密な上界に基づいて、ヴェルナー状態に関してデバイス独立ランダム性に関する下界を示す。 特に、異なる測定数に対して連鎖ベル不等式のランダム性生成率の低い境界を示すが、これはWooltortonらによって提案されたベル不等式の族と比較される。 [Phys. Rev. Lett. 129, 150403 (2022)] その結果,3つの測定値を持つ連鎖ベルの不等式は低騒音下で一定の利点があり,実際にランダム性発生率を向上させることができることがわかった。

The violation of Bell inequality not only provides the most radical departure of quantum theory from classical concepts, but also paves the way of applications in such as device independent randomness certification. Here, we derive the tight upper bound of the maximum quantum value for chained Bell inequality with arbitrary number of measurements on each party. \lxh{ The constraints where the upper bound saturates are also presented. This method provides us the necessary and sufficient conditions for some quantum states to violate the chained Bell inequality with arbitrary number of measurements}. Based on the tight upper bound we present the lower bounds on the device independent randomness with respect to the Werner states. \lxh{In particular, we present lower bounds on the randomness generation rates of chained Bell inequality for different number of measurements, which are compared with the family of Bell inequalities proposed by Wooltorton et al. [Phys. Rev. Lett. 129, 150403 (2022)]. Our results show that chained Bell inequality with three measurements has certain advantages at a low level of noise and could be used to improve randomness generation rates in practice.
翻訳日:2023-05-24 15:50:40 公開日:2023-05-23
# プレゼンテーションバイアス下におけるマルチモーダル学習の反事実強化

Counterfactual Augmentation for Multimodal Learning Under Presentation Bias ( http://arxiv.org/abs/2305.14083v1 )

ライセンス: Link先を確認
Victoria Lin, Louis-Philippe Morency, Dimitrios Dimitriadis, Srinagesh Sharma(参考訳) 現実世界の機械学習システムでは、ラベルはシステムが奨励したいユーザー行動に由来することが多い。 時間とともに、新しいモデルは新しいトレーニング例と機能が利用可能になるようにトレーニングされなければなりません。 しかし、ユーザーとモデルの間のフィードバックループは将来のユーザの振る舞いをバイアスし、新しいモデルをトレーニングする能力を損なうラベルにプレゼンテーションバイアスを引き起こす。 本稿では,生成したデファクトラベルを用いて提示バイアスを補正する新しい因果的手法である,デファクト拡張を提案する。 実証実験により,非補正モデルと既存バイアス補正手法の双方と比較して,デファクト改善により下流性能が向上することが示された。 モデル分析はさらに、生成された偽物はオラクルの設定において真の偽物と密接に一致していることを示している。

In real-world machine learning systems, labels are often derived from user behaviors that the system wishes to encourage. Over time, new models must be trained as new training examples and features become available. However, feedback loops between users and models can bias future user behavior, inducing a presentation bias in the labels that compromises the ability to train new models. In this paper, we propose counterfactual augmentation, a novel causal method for correcting presentation bias using generated counterfactual labels. Our empirical evaluations demonstrate that counterfactual augmentation yields better downstream performance compared to both uncorrected models and existing bias-correction methods. Model analyses further indicate that the generated counterfactuals align closely with true counterfactuals in an oracle setting.
翻訳日:2023-05-24 15:50:22 公開日:2023-05-23
# 実際に取得したデータを用いた乱用コンテンツ検出の解法

How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have ( http://arxiv.org/abs/2305.14081v1 )

ライセンス: Link先を確認
Viktor Hangya, Alexander Fraser(参考訳) ソーシャルメディアプラットフォームとそのユーザグループの範囲が広いため、乱用言語検出システムの要件は様々であり、常に変化している。 ヘイトや不正検出など、さまざまな特性とラベルセットを持つ注釈付きコーパスがすでに作成されているが、乱用されたスピーチの形式とターゲットは常に変化している。 新しいコーパスのアノテーションは高価であるため、この作業では、私たちがすでに持っているデータセットを活用して、乱用言語検出に関連する幅広いタスクをカバーし、ターゲットドメインのいくつかのトレーニング例のみを使用して、新しいターゲットラベルセットと/または言語のためのモデルを安価に構築します。 まず,マルチタスク方式でモデルをトレーニングする。 次に、ターゲット要件に少数の順応を実行します。 我々の実験は、既存のデータセットとターゲットタスクのほんの数ショットだけを活用することで、モデルの性能をモノリンガルだけでなく言語間でも改善できることを示した。 また,本モデルでは,対象データセットにのみ存在するラベルの予測を改善するため,乱用言語に対する一般的な理解も得られている。 また、既存のデータセットを最適なパフォーマンスのために所定のターゲット設定に特殊化することと、モデル適応性に悪影響を及ぼすこととのトレードオフを分析する。

Due to the broad range of social media platforms and their user groups, the requirements of abusive language detection systems are varied and ever-changing. Already a large set of annotated corpora with different properties and label sets were created, such as hate or misogyny detection, but the form and targets of abusive speech are constantly changing. Since, the annotation of new corpora is expensive, in this work we leverage datasets we already have, covering a wide range of tasks related to abusive language detection, in order to build models cheaply for a new target label set and/or language, using only a few training examples of the target domain. We propose a two-step approach: first we train our model in a multitask fashion. We then carry out few-shot adaptation to the target requirements. Our experiments show that by leveraging already existing datasets and only a few-shots of the target task the performance of models can be improved not only monolingually but across languages as well. Our analysis also shows that our models acquire a general understanding of abusive language, since they improve the prediction of labels which are present only in the target dataset. We also analyze the trade-off between specializing the already existing datasets to a given target setup for best performance and its negative effects on model adaptability.
翻訳日:2023-05-24 15:50:10 公開日:2023-05-23
# eye-tracked virtual reality: 方法とプライバシーの課題に関する包括的調査

Eye-tracked Virtual Reality: A Comprehensive Survey on Methods and Privacy Challenges ( http://arxiv.org/abs/2305.14080v1 )

ライセンス: Link先を確認
Efe Bozkir and S\"uleyman \"Ozdel and Mengdi Wang and Brendan David-John and Hong Gao and Kevin Butler and Eakta Jain and Enkelejda Kasneci(参考訳) コンピュータハードウェア、センサー技術、人工知能の最近の進歩は、仮想現実(VR)と仮想空間を人間の日常生活の重要な部分とすることができる。 視線追跡は、ハンズフリーのインタラクション方法だけでなく、人間の視覚的注意とVRの認知過程をより深く理解する可能性も提供する。 これらの可能性にもかかわらず、アイトラッキングデータは、提示された刺激に関する情報と組み合わせられたユーザーのプライバシーに敏感な属性も明らかにする。 これらの可能性と潜在的なプライバシー問題に対処するため、この調査では、2012年から2022年の間に、視線追跡、VR、およびプライバシー分野における主要な研究を最初に取り上げる。 vrのアイトラッキングは、瞳孔検出や視線推定からオフライン使用や分析まで、視線追跡の方法の完全なパイプラインをカバーしていますが、プライバシーやセキュリティに関しては、アイベースの認証と、個人のプライバシーと視線追跡データをvrで保存するための計算手法にフォーカスしています。 その後,プライバシー問題を中心に,研究コミュニティの3つの方向性を考察した。 要約すると、この調査はvrにおける視線追跡とそれらの可能性のプライバシーへの影響について、最も有望な可能性に関する広範な文献レビューを提供する。

Latest developments in computer hardware, sensor technologies, and artificial intelligence can make virtual reality (VR) and virtual spaces an important part of human everyday life. Eye tracking offers not only a hands-free way of interaction but also the possibility of a deeper understanding of human visual attention and cognitive processes in VR. Despite these possibilities, eye-tracking data also reveal privacy-sensitive attributes of users when it is combined with the information about the presented stimulus. To address these possibilities and potential privacy issues, in this survey, we first cover major works in eye tracking, VR, and privacy areas between the years 2012 and 2022. While eye tracking in the VR part covers the complete pipeline of eye-tracking methodology from pupil detection and gaze estimation to offline use and analyses, as for privacy and security, we focus on eye-based authentication as well as computational methods to preserve the privacy of individuals and their eye-tracking data in VR. Later, taking all into consideration, we draw three main directions for the research community by mainly focusing on privacy challenges. In summary, this survey provides an extensive literature review of the utmost possibilities with eye tracking in VR and the privacy implications of those possibilities.
翻訳日:2023-05-24 15:49:51 公開日:2023-05-23
# 投影計測の情報理論的意義

Information Theoretic Significance of Projective Measurements ( http://arxiv.org/abs/2305.14110v1 )

ライセンス: Link先を確認
Huangjun Zhu(参考訳) 量子論における射影測度は非常に単純な代数的定義を持つが、それらの情報理論の意義は非常に明白である。 ここでは、慣れ親しんだデータ処理順序を補完するフィッシャー情報の集中に基づく単純な順序関係を紹介する。 この順序関係の下では、射影測定の情報理論的意義はすぐに顕著である。 特に、射影的測定は、フィッシャー情報を可能な限り集中的に抽出した量子測定であり、それをフィッシャー-シャープ測定と呼ぶ。 また、シャープネス指数の概念を導入し、与えられた測定の粗粒度のうち最も微細な投影計測によって完全に決定されることを示す。

Projective measurements in quantum theory have a very simple algebraic definition, but their information theoretic significance is quite elusive. Here we introduce a simple order relation based on the concentration of Fisher information, which complements the familiar data-processing order. Under this order relation, the information theoretic significance of projective measurements stands out immediately. Notably, projective measurements are exactly those quantum measurements whose extracted Fisher information is as concentrated as possible, which we call Fisher-sharp measurements. We also introduce the concept of sharpness index and show that it is completely determined by the finest projective measurement among the coarse graining of a given measurement.
翻訳日:2023-05-24 15:44:54 公開日:2023-05-23
# ニューラルネットワークの多目的ベイズ最適化のための拡張ランダム探索

Augmented Random Search for Multi-Objective Bayesian Optimization of Neural Networks ( http://arxiv.org/abs/2305.14109v1 )

ライセンス: Link先を確認
Mark Deutel, Georgios Kontes, Christopher Mutschler, J\"urgen Teich(参考訳) 深層ニューラルネットワーク(dnn)を小さなデバイスにデプロイすることは、センサデータ生成量の増加を処理する一般的なトレンドである。 メモリフットプリント(RAM)、パラメータ数(ROM)、浮動小数点演算数(FLOP)を最小化するためにネットワークプルーニングと重み量子化を適用してDNNを圧縮するために多目的最適化手法を用いることができる。 本稿では,既存の多目的ベイズ最適化 (MOBOpt) アプローチがパレートフロントにおける最適候補の発見に不足していることを示すとともに,拡張ランダム探索強化学習 (RL) エージェントを用いて訓練された競合パラメトリックポリシーのアンサンブルに基づく新しい解法を提案する。 本手法は, DNNの予測精度, 所定のターゲットシステムにおけるメモリ消費量, 計算複雑性の相違点を明らかにすることを目的とする。 実験の結果,既存のMOBOptアプローチをResNet-18やMobileNetV3など,さまざまなデータセットやアーキテクチャ上で一貫した性能を発揮することがわかった。

Deploying Deep Neural Networks (DNNs) on tiny devices is a common trend to process the increasing amount of sensor data being generated. Multi-objective optimization approaches can be used to compress DNNs by applying network pruning and weight quantization to minimize the memory footprint (RAM), the number of parameters (ROM) and the number of floating point operations (FLOPs) while maintaining the predictive accuracy. In this paper, we show that existing multi-objective Bayesian optimization (MOBOpt) approaches can fall short in finding optimal candidates on the Pareto front and propose a novel solver based on an ensemble of competing parametric policies trained using an Augmented Random Search Reinforcement Learning (RL) agent. Our methodology aims at finding feasible tradeoffs between a DNN's predictive accuracy, memory consumption on a given target system, and computational complexity. Our experiments show that we outperform existing MOBOpt approaches consistently on different data sets and architectures such as ResNet-18 and MobileNetV3.
翻訳日:2023-05-24 15:44:43 公開日:2023-05-23
# 連合型一般化圏発見

Federated Generalized Category Discovery ( http://arxiv.org/abs/2305.14107v1 )

ライセンス: Link先を確認
Nan Pu and Zhun Zhong and Xinyuan Ji and Nicu Sebe(参考訳) Generalized category discovery (GCD) は、既知のクラスと未知のクラスからラベル付けされていないサンプルをグループ化することを目的としている。 近年のコミュニティにおける分散化傾向に対応するため,我々は,訓練データを分散的にローカルクライアントに格納し,クライアント間で共有できないような,実践的で困難なタスクであるフェデレートgcd(fed-gcd)を導入する。 Fed-GCDの目標は、プライバシー保護の制約の下で、クライアントのコラボレーションによって一般的なGCDモデルをトレーニングすることだ。 Fed-GCDは2つの課題をもたらす。 1)集中型gcd学習よりも少ないデータで各クライアントモデルをトレーニングすることによる表現劣化 2) 異なるクライアントにまたがる高度ヘテロジニアスなラベル空間。 そこで本研究では,クライアントセマンティックス・アソシエーション (CSA) とグローバルローカルGMMコントラスト・ラーニング (GCL) から構成される,学習可能なGMMをベースとした新しいAssociated Gaussian Contrastive Learning (AGCL) フレームワークを提案する。 サーバ上では、CSAはローカルクライアントGMMの不均一なカテゴリを集約し、より包括的なカテゴリ知識を含むグローバルGMMを生成する。 各クライアント上でGCLは、ローカルとグローバルの両方のGMMでクラスレベルのコントラスト学習を構築する。 ローカルGCLは、限られたローカルデータで堅牢な表現を学ぶ。 グローバルGCLは、局所データに存在しない可能性のある包括的カテゴリ関係により、より差別的な表現を生み出すようモデルに奨励する。 我々はFed-GCDの研究を容易にするために、6つのビジュアルデータセットに基づくベンチマークを構築した。 大規模な実験により、AGCLはすべてのデータセットでFedAvgベースのベースラインよりも優れています。

Generalized category discovery (GCD) aims at grouping unlabeled samples from known and unknown classes, given labeled data of known classes. To meet the recent decentralization trend in the community, we introduce a practical yet challenging task, namely Federated GCD (Fed-GCD), where the training data are distributively stored in local clients and cannot be shared among clients. The goal of Fed-GCD is to train a generic GCD model by client collaboration under the privacy-protected constraint. The Fed-GCD leads to two challenges: 1) representation degradation caused by training each client model with fewer data than centralized GCD learning, and 2) highly heterogeneous label spaces across different clients. To this end, we propose a novel Associated Gaussian Contrastive Learning (AGCL) framework based on learnable GMMs, which consists of a Client Semantics Association (CSA) and a global-local GMM Contrastive Learning (GCL). On the server, CSA aggregates the heterogeneous categories of local-client GMMs to generate a global GMM containing more comprehensive category knowledge. On each client, GCL builds class-level contrastive learning with both local and global GMMs. The local GCL learns robust representation with limited local data. The global GCL encourages the model to produce more discriminative representation with the comprehensive category relationships that may not exist in local data. We build a benchmark based on six visual datasets to facilitate the study of Fed-GCD. Extensive experiments show that our AGCL outperforms the FedAvg-based baseline on all datasets.
翻訳日:2023-05-24 15:44:22 公開日:2023-05-23
# 自己適応型プロンプトによるゼロショット推論の改善

Better Zero-Shot Reasoning with Self-Adaptive Prompting ( http://arxiv.org/abs/2305.14106v1 )

ライセンス: Link先を確認
Xingchen Wan, Ruoxi Sun, Hanjun Dai, Sercan O. Arik, Tomas Pfister(参考訳) 現代の大規模言語モデル(llm)は、人間に似たステップバイステップ推論を通じて、高度なタスクで印象的な能力を発揮している。 これは、非常に少数でゼロショットの能力によって実現される - 少数の手作りで完了した応答("in-context example")から効果的に学習したり、特別に設計されたトリガーを通じて自然に推論するように促される。 しかし、いくつかの制限が観測されている。 第一に、数ショット設定のパフォーマンスは、人間の努力を要する設計の例の選択に敏感である。 さらに、LLMの様々な下流タスクを考えると、タスク毎のハンドクラフトには困難か、あるいは手間がかかる可能性がある。 第2に、ゼロショット設定は手作りを必要としないが、llmへのガイダンスの欠如により性能が制限されている。 これらの制約に対処するために,LLMの新しいプロンプト設計手法である一貫性に基づく自己適応型プロンプト(COSP)を提案する。 手作りの応答も地味ラベルも必要とせず、COSPは一貫性、多様性、反復性を組み合わせた慎重に設計された基準により、LCMゼロショット出力からサンプルセットを選択し、構築する。 3つの異なるLCMのゼロショット設定において、LCM予測のみを用いることで、COSPはゼロショットベースラインと比較して最大15%向上し、様々な推論タスクにおいて数ショットベースラインを超えるか、あるいは超えることを示す。

Modern large language models (LLMs) have demonstrated impressive capabilities at sophisticated tasks, often through step-by-step reasoning similar to humans. This is made possible by their strong few and zero-shot abilities -- they can effectively learn from a handful of handcrafted, completed responses ("in-context examples"), or are prompted to reason spontaneously through specially designed triggers. Nonetheless, some limitations have been observed. First, performance in the few-shot setting is sensitive to the choice of examples, whose design requires significant human effort. Moreover, given the diverse downstream tasks of LLMs, it may be difficult or laborious to handcraft per-task labels. Second, while the zero-shot setting does not require handcrafting, its performance is limited due to the lack of guidance to the LLMs. To address these limitations, we propose Consistency-based Self-adaptive Prompting (COSP), a novel prompt design method for LLMs. Requiring neither handcrafted responses nor ground-truth labels, COSP selects and builds the set of examples from the LLM zero-shot outputs via carefully designed criteria that combine consistency, diversity and repetition. In the zero-shot setting for three different LLMs, we show that using only LLM predictions, COSP improves performance up to 15% compared to zero-shot baselines and matches or exceeds few-shot baselines for a range of reasoning tasks.
翻訳日:2023-05-24 15:43:53 公開日:2023-05-23
# 複数特徴量を用いた機械翻訳のためのテキスト内例選択

In-context Example Selection for Machine Translation Using Multiple Features ( http://arxiv.org/abs/2305.14105v1 )

ライセンス: Link先を確認
Aswanth Kumar and Anoop Kunchukuttan and Ratish Puduppully and Raj Dabre(参考訳) 大規模な言語モデルでは、入力がいくつかの例(コンテキスト内学習)で促されると、多くのnlpタスクでうまく機能する能力が実証されている。 翻訳の質は、その品質や関連性など、選択された例の様々な特徴に依存する。 しかしながら、以前の作業は、例えば選択など、個々の機能に重点を置いてきた。 サンプル選択に影響を及ぼす異なる特徴を組み合わせるための汎用フレームワークを提案する。 翻訳品質を最大化するために、複数の特徴に基づいてサンプルを選択する回帰関数を学習する。 複数の言語ペアと言語モデルを用いて,本論文で報告した強い単一要素ベースラインに加えて,サンプル選択法がランダム選択を著しく上回ることを示す。 提案手法を用いることで,BM25検索ベースラインに対する平均2.5 COMET点の精度が向上することを確認した。

Large language models have demonstrated the capability to perform well on many NLP tasks when the input is prompted with a few examples (in-context learning) including machine translation, which is the focus of this work. The quality of translation depends on various features of the selected examples, such as their quality and relevance. However, previous work has predominantly focused on individual features for example selection. We propose a general framework for combining different features influencing example selection. We learn a regression function that selects examples based on multiple features in order to maximize the translation quality. On multiple language pairs and language models, we show that our example selection method significantly outperforms random selection as well as strong single-factor baselines reported in the literature. Using our example selection method, we see an improvement of over 2.5 COMET points on average with respect to a strong BM25 retrieval-based baseline.
翻訳日:2023-05-24 15:43:27 公開日:2023-05-23
# テキスト分類におけるアウト・オブ・ディストリビューションの一般化:過去・現在・未来

Out-of-Distribution Generalization in Text Classification: Past, Present, and Future ( http://arxiv.org/abs/2305.14104v1 )

ライセンス: Link先を確認
Linyi Yang, Yaoxiao Song, Xuan Ren, Chenyang Lyu, Yidong Wang, Lingqiao Liu, Jindong Wang, Jennifer Foster, Yue Zhang(参考訳) 自然言語処理(NLP)における機械学習(ML)システムは、トレーニングデータ分布とテスト分布が異なるOODデータへの一般化において重大な課題に直面している。 このことは、NLPモデルの堅牢性とその高い精度に関する重要な疑問を提起する。 これらの課題にもかかわらず、テキスト分類におけるoodの観点からの一般化チャレンジに関する包括的な調査が欠如している。 そこで本稿では,最近の進歩,方法,評価を総合的に概観し,このギャップを埋めることを目的としている。 課題と今後の研究の方向性について論じる。 既存の作業への迅速なアクセスを提供することで、この分野の今後の研究を促進することを願っている。

Machine learning (ML) systems in natural language processing (NLP) face significant challenges in generalizing to out-of-distribution (OOD) data, where the test distribution differs from the training data distribution. This poses important questions about the robustness of NLP models and their high accuracy, which may be artificially inflated due to their underlying sensitivity to systematic biases. Despite these challenges, there is a lack of comprehensive surveys on the generalization challenge from an OOD perspective in text classification. Therefore, this paper aims to fill this gap by presenting the first comprehensive review of recent progress, methods, and evaluations on this topic. We furth discuss the challenges involved and potential future research directions. By providing quick access to existing work, we hope this survey will encourage future research in this area.
翻訳日:2023-05-24 15:43:13 公開日:2023-05-23
# 楽しみと利益のためにニュースレコメンデーションエコシステムをシミュレートする

Simulating News Recommendation Ecosystem for Fun and Profit ( http://arxiv.org/abs/2305.14103v1 )

ライセンス: Link先を確認
Guangping Zhang, Dongsheng Li, Hansu Gu, Tun Lu, Li Shang, Ning Gu(参考訳) オンラインニュースコミュニティの進化を理解することは、より効果的なニュースレコメンデーションシステムの設計に不可欠である。 しかしながら、適切なデータセットやプラットフォームが欠如しているため、既存の文献では、この進化過程と基盤となるメカニズムに対するレコメンダシステムの影響を理解することが限られており、結果として、長期的なユーティリティに影響を与える可能性のあるサブ最適システム設計がもたらされる。 本研究では,ニュースレコメンデーションエコシステムの進化を解析するシミュレーションプラットフォームであるsimulineを提案する。 SimuLineはまず人間の振る舞いをよく反映した潜伏空間を構築し、エージェントベースのモデリングを通じてニュースレコメンデーションエコシステムをシミュレートする。 定量的指標,可視化,テキスト的説明からなる広範なシミュレーション実験と包括的分析の枠組みに基づき,ライフサイクル理論の観点から各進化段階の特徴を分析し,鍵となる因子と影響メカニズムを示す関係グラフを提案する。 さらに, コールドスタートニュースの利用, ブレークニュース, プロモーションなどのレコメンダシステム設計戦略が, 進化過程に及ぼす影響について検討し, 推薦システムの設計に新たな光を当てた。

Understanding the evolution of online news communities is essential for designing more effective news recommender systems. However, due to the lack of appropriate datasets and platforms, the existing literature is limited in understanding the impact of recommender systems on this evolutionary process and the underlying mechanisms, resulting in sub-optimal system designs that may affect long-term utilities. In this work, we propose SimuLine, a simulation platform to dissect the evolution of news recommendation ecosystems and present a detailed analysis of the evolutionary process and underlying mechanisms. SimuLine first constructs a latent space well reflecting the human behaviors, and then simulates the news recommendation ecosystem via agent-based modeling. Based on extensive simulation experiments and the comprehensive analysis framework consisting of quantitative metrics, visualization, and textual explanations, we analyze the characteristics of each evolutionary phase from the perspective of life-cycle theory, and propose a relationship graph illustrating the key factors and affecting mechanisms. Furthermore, we explore the impacts of recommender system designing strategies, including the utilization of cold-start news, breaking news, and promotion, on the evolutionary process, which shed new light on the design of recommender systems.
翻訳日:2023-05-24 15:42:59 公開日:2023-05-23
# ISP:無作為な縫製パターンで多層ガーメントドレーピング

ISP: Multi-Layered Garment Draping with Implicit Sewing Patterns ( http://arxiv.org/abs/2305.14100v1 )

ライセンス: Link先を確認
Ren Li, Beno\^it Guillard, Pascal Fua(参考訳) 人体モデルに個々の衣服を描く多くのアプローチは現実的であり、高速であり、ドレーピングされた身体形状に対して微分可能な出力を産出する。 しかし、いずれも日常の服装で一般的な多層衣服を扱えない。 本稿では,パラメトリックな衣服表現モデルを提案する。 衣料デザイナーが使用するモデルと同様に、各衣服は個々の2Dパネルで構成されている。 その2次元形状は、符号付き距離関数と2次元から3次元のマッピングによって定義される。 2Dパラメタライゼーションは潜在的な衝突の検出を容易にし、3Dパラメタライゼーションは複雑な形状を効果的に扱う。 この組み合わせは、純粋に暗黙的な表面表現よりも高速で高品質な再構成を実現し、その微分性により、画像からの層状衣服の回収を可能にする。 さらに、個々の2Dパネルを変更することで、衣服の形状やテクスチャの迅速な編集を支援する。

Many approaches to draping individual garments on human body models are realistic, fast, and yield outputs that are differentiable with respect to the body shape on which they are draped. However, none of them can handle multi-layered clothing, which is prevalent in everyday dress. In this paper, we introduce a parametric garment representation model that can. As in models used by clothing designers, each garment consists of individual 2D panels. Their 2D shape is defined by a Signed Distance Function and 3D shape by a 2D to 3D mapping. The 2D parameterization enables easy detection of potential collisions and the 3D parameterization handles complex shapes effectively. We show that this combination is faster and yields higher quality reconstructions than purely implicit surface representations, and makes the recovery of layered garments from images possible thanks to its differentiability. Furthermore, it supports rapid editing of garment shapes and texture by modifying individual 2D panels.
翻訳日:2023-05-24 15:42:27 公開日:2023-05-23
# 説明可能性のバランスをとる-複雑モデルの精度

Balancing Explainability-Accuracy of Complex Models ( http://arxiv.org/abs/2305.14098v1 )

ライセンス: Link先を確認
Poushali Sengupta, Yan Zhang, Sabita Maharjan, Frank Eliassen(参考訳) AIモデルの説明可能性は、自律運転からヘルスケアまで、すべてのドメインやアプリケーションに大きな影響を与える重要なトピックである。 説明可能なAI(XAI)のアプローチは主に単純な機械学習アルゴリズムに限られており、ニューラルネットワークやディープラーニング(DL)といった複雑な機械学習技術に関心がある場合、説明可能性と精度のトレードオフに関する研究はまだ初期段階にある。 本研究では,コリレーション効果に基づく複雑なモデルに対する新しいアプローチを導入し,高いレベルでの精度を確保しつつ,説明可能性を大幅に向上させる。 独立機能と依存機能の両方のシナリオに対するアプローチを提案する。 また,特徴や出力に関する不確実性についても検討した。 さらに,提案手法の計算複雑性の上限を,従属的な特徴に対して与える。 複雑性境界は観測数の対数順に依存するため、より少ない観測数で従属的特徴空間の高次元を考慮した信頼性の高い結果が得られる。

Explainability of AI models is an important topic that can have a significant impact in all domains and applications from autonomous driving to healthcare. The existing approaches to explainable AI (XAI) are mainly limited to simple machine learning algorithms, and the research regarding the explainability-accuracy tradeoff is still in its infancy especially when we are concerned about complex machine learning techniques like neural networks and deep learning (DL). In this work, we introduce a new approach for complex models based on the co-relation impact which enhances the explainability considerably while also ensuring the accuracy at a high level. We propose approaches for both scenarios of independent features and dependent features. In addition, we study the uncertainty associated with features and output. Furthermore, we provide an upper bound of the computation complexity of our proposed approach for the dependent features. The complexity bound depends on the order of logarithmic of the number of observations which provides a reliable result considering the higher dimension of dependent feature space with a smaller number of observations.
翻訳日:2023-05-24 15:42:05 公開日:2023-05-23
# QFA2SR: 話者認識システムに対するクエリフリー逆変換攻撃

QFA2SR: Query-Free Adversarial Transfer Attacks to Speaker Recognition Systems ( http://arxiv.org/abs/2305.14097v1 )

ライセンス: Link先を確認
Guangke Chen, Yedi Zhang, Zhe Zhao, Fu Song(参考訳) 話者認識システム(SRS)に対する現在の敵対攻撃は、ターゲットSRSへのホワイトボックスアクセスまたは重いブラックボックスクエリを必要とするため、プロプライエタリな商用APIや音声制御デバイスに対する実用的な攻撃には依然として遅れている。 このギャップを埋めるために、敵声の転送可能性を活用することにより、QFA2SRを提案する。 トランスファビリティを向上させるために, 3つの新しい手法, 調整された損失関数, SRSアンサンブル, タイムフレク腐食を提案する。 最初の1つのテーラーは異なる攻撃シナリオで機能を失う。 後者の2つはsrsを2つの異なる方法で拡張する。 SRSアンサンブルは、多様なサロゲートSRSと新しい戦略を組み合わせることで、SRSのユニークなスコアリング特性に対応する。 時間フレック腐食は、標的srsの決定境界をシミュレートし近似するよく設計された時間領域/周波数領域修正関数を組み込むことで、サロゲートsrsを増強する。 QFA2SRは、人気のある4つの商用API(Microsoft Azure、iFlytek、Jingdong、TalentedSoft)において、ターゲット転送可能性を20.9%から70.7%向上させ、クエリフリー環境での既存の攻撃を著しく上回った。 QFA2SRは、Google Assistant、Apple Siri、TMall Genieの3つの広帯域音声アシスタントに対して、それぞれ60%、46%、ターゲット転送性70%に対して、空中起動時に非常に効果的である。

Current adversarial attacks against speaker recognition systems (SRSs) require either white-box access or heavy black-box queries to the target SRS, thus still falling behind practical attacks against proprietary commercial APIs and voice-controlled devices. To fill this gap, we propose QFA2SR, an effective and imperceptible query-free black-box attack, by leveraging the transferability of adversarial voices. To improve transferability, we present three novel methods, tailored loss functions, SRS ensemble, and time-freq corrosion. The first one tailors loss functions to different attack scenarios. The latter two augment surrogate SRSs in two different ways. SRS ensemble combines diverse surrogate SRSs with new strategies, amenable to the unique scoring characteristics of SRSs. Time-freq corrosion augments surrogate SRSs by incorporating well-designed time-/frequency-domain modification functions, which simulate and approximate the decision boundary of the target SRS and distortions introduced during over-the-air attacks. QFA2SR boosts the targeted transferability by 20.9%-70.7% on four popular commercial APIs (Microsoft Azure, iFlytek, Jingdong, and TalentedSoft), significantly outperforming existing attacks in query-free setting, with negligible effect on the imperceptibility. QFA2SR is also highly effective when launched over the air against three wide-spread voice assistants (Google Assistant, Apple Siri, and TMall Genie) with 60%, 46%, and 70% targeted transferability, respectively.
翻訳日:2023-05-24 15:41:21 公開日:2023-05-23
# dr.icl: デモンストレーションによるコンテキスト内学習

Dr.ICL: Demonstration-Retrieved In-context Learning ( http://arxiv.org/abs/2305.14128v1 )

ライセンス: Link先を確認
Man Luo, Xin Xu, Zhuyun Dai, Panupong Pasupat, Mehran Kazemi, Chitta Baral, Vaiva Imbrasaite, Vincent Y Zhao(参考訳) 大規模言語モデル(llm)にモデルパラメータを調整するのではなく、わずかなデモでタスクを実行するように教えるin-context learning(icl)は、llmを使用するための強力なパラダイムとして登場した。 初期の研究では、主にすべてのテストクエリに対して固定またはランダムなデモセットを使用していたが、最近の研究では、利用可能なデモプールからの入力に対して意味的に類似したデモを検索することで、パフォーマンスが向上することを示唆している。 この研究は、bm25のような単純な単語オーバーラップの類似性がランダムに選択されたデモよりも優れていることを示すことによって、検索ベースのiclアプローチの適用性を高める。 さらに、我々は検索ベースのICLの成功を、命令を微調整したLLMやChain-of-Thought(CoT)プロンプトに拡張する。 指導精細 LLM の場合,モデルはすでにトレーニング時にトレーニングデータを見たが,テスト時にトレーニングデータから実演を検索すると,実演やランダムな実演を使わずによい結果が得られることがわかった。 最後に、私たちはタスク固有のデモレトリバーをトレーニングし、棚外のレトリバーより優れています。

In-context learning (ICL), teaching a large language model (LLM) to perform a task with few-shot demonstrations rather than adjusting the model parameters, has emerged as a strong paradigm for using LLMs. While early studies primarily used a fixed or random set of demonstrations for all test queries, recent research suggests that retrieving semantically similar demonstrations to the input from a pool of available demonstrations results in better performance. This work expands the applicability of retrieval-based ICL approaches by demonstrating that even simple word-overlap similarity measures such as BM25 outperform randomly selected demonstrations. Furthermore, we extend the success of retrieval-based ICL to instruction-finetuned LLMs as well as Chain-of-Thought (CoT) prompting. For instruction-finetuned LLMs, we find that although a model has already seen the training data at training time, retrieving demonstrations from the training data at test time yields better results compared to using no demonstrations or random demonstrations. Last but not least, we train a task-specific demonstration retriever that outperforms off-the-shelf retrievers.
翻訳日:2023-05-24 15:33:43 公開日:2023-05-23
# 記憶ではなくコピーする: ナレッジグラフ補完のための垂直学習パラダイム

To Copy Rather Than Memorize: A Vertical Learning Paradigm for Knowledge Graph Completion ( http://arxiv.org/abs/2305.14126v1 )

ライセンス: Link先を確認
Rui Li, Xu Chen, Chaozhuo Li, Yanming Shen, Jianan Zhao, Yujing Wang, Weihao Han, Hao Sun, Weiwei Deng, Qi Zhang, Xing Xie(参考訳) 埋め込みモデルは知識グラフ補完(KGC)タスクにおいて大きな力を示している。 各トレーニングトリプルの構造的制約を学習することにより、本質的な関係ルールを暗黙的に記憶し、欠落したリンクを推測する。 しかし,本論文では,このような暗黙的暗黙的暗示化戦略の固有の欠陥のため,マルチホップ関係ルールを確実に記憶することは困難であり,組込みモデルは遠方のエンティティペア間のリンクを予測できないことを指摘している。 この問題を軽減するために、より正確な予測のために、関係する実数三重から対象情報を明示的にコピーすることで、埋め込みモデルを拡張する垂直学習パラダイム(VLP)を提案する。 暗黙のメモリのみに頼るのではなく、VLPは直接的に埋め込みモデルの一般化能力を改善するためのヒントを提供する。 また、より効率的な最適化のための新しい相対距離ベース負サンプリング手法(ReD)を提案する。 実験は、2つの標準ベンチマークにおける提案の有効性と一般性を示す。 私たちのコードはhttps://github.com/rui9812/VLPで利用可能です。

Embedding models have shown great power in knowledge graph completion (KGC) task. By learning structural constraints for each training triple, these methods implicitly memorize intrinsic relation rules to infer missing links. However, this paper points out that the multi-hop relation rules are hard to be reliably memorized due to the inherent deficiencies of such implicit memorization strategy, making embedding models underperform in predicting links between distant entity pairs. To alleviate this problem, we present Vertical Learning Paradigm (VLP), which extends embedding models by allowing to explicitly copy target information from related factual triples for more accurate prediction. Rather than solely relying on the implicit memory, VLP directly provides additional cues to improve the generalization ability of embedding models, especially making the distant link prediction significantly easier. Moreover, we also propose a novel relative distance based negative sampling technique (ReD) for more effective optimization. Experiments demonstrate the validity and generality of our proposals on two standard benchmarks. Our code is available at https://github.com/rui9812/VLP.
翻訳日:2023-05-24 15:33:25 公開日:2023-05-23
# 単言語データは多言語翻訳にいつ役立つか:ドメインとモデルスケールの役割

When Does Monolingual Data Help Multilingual Translation: The Role of Domain and Model Scale ( http://arxiv.org/abs/2305.14124v1 )

ライセンス: Link先を確認
Christos Baziotis, Biao Zhang, Alexandra Birch, Barry Haddow(参考訳) 並列データと単言語データの混合に基づいて訓練された多言語機械翻訳(MMT)は、低リソース言語ペアの翻訳を改善する鍵となる。 しかし、この文献は異なる手法の性能について矛盾する結果をもたらす。 そこで本研究では,DAE(Denoising Autoencoding)とBT(Back Translation)がMPTにどう影響するかを,異なるデータ条件とモデルスケールで検討する。 先行研究とは異なり、100方向の現実的なデータセットを使用し、モノリンガルデータとテストデータの多くの領域の組み合わせを検討する。 モノリンガルデータは一般的にMTMに役立つが、モデルは驚くほどドメインミスマッチ、特により小さなモデルスケールでは不安定である。 BTは、並列、単言語、およびテストデータソースが類似している場合に有用であるが、それ以外は有害であり、DAEは以前報告したよりも効果が低い。 次に、スケールの影響(90Mから1.6Bパラメータ)を分析し、これら2つの手法、特にDAEにとって重要であることを発見した。 スケールが増加するにつれて、daeは90mで並列のみのベースラインを過小評価し、1.6bでbtパフォーマンスを収束させ、低リソースでそれを超えることさえある。 これらの結果は、MTにおけるモノリンガルデータの使用方法に関する新たな洞察を提供する。

Multilingual machine translation (MMT), trained on a mixture of parallel and monolingual data, is key for improving translation in low-resource language pairs. However, the literature offers conflicting results on the performance of different methods. To resolve this, we examine how denoising autoencoding (DAE) and backtranslation (BT) impact MMT under different data conditions and model scales. Unlike prior studies, we use a realistic dataset of 100 directions and consider many domain combinations of monolingual and test data. We find that monolingual data generally helps MMT, but models are surprisingly brittle to domain mismatches, especially at smaller model scales. BT is beneficial when the parallel, monolingual, and test data sources are similar but can be detrimental otherwise, while DAE is less effective than previously reported. Next, we analyze the impact of scale (from 90M to 1.6B parameters) and find it is important for both methods, particularly DAE. As scale increases, DAE transitions from underperforming the parallel-only baseline at 90M to converging with BT performance at 1.6B, and even surpassing it in low-resource. These results offer new insights into how to best use monolingual data in MMT.
翻訳日:2023-05-24 15:33:09 公開日:2023-05-23
# ニューラルネットワークの学習軌跡の伝達

Transferring Learning Trajectories of Neural Networks ( http://arxiv.org/abs/2305.14122v1 )

ライセンス: Link先を確認
Daiki Chijiwa(参考訳) 深層ニューラルネットワーク(DNN)のトレーニングは計算コストが高く、特にモデルアンサンブルや知識蒸留のような重複トレーニングの実行では問題となる。 あるデータセットで1つのdnnをトレーニングすると、その学習軌跡(トレーニング中の中間パラメータのシーケンス)があり、データセットの学習に有用な情報を含む可能性がある。 しかし、ある学習軌跡のそのような情報を他の訓練に活用する試みは行われていない。 本稿では,与えられた学習軌跡を1つの初期パラメータから別のパラメータへ"転送する"という問題を定式化し,置換対称性を通した軌道に沿った勾配の整合により,学習伝達問題と呼ばれる最初のアルゴリズムを導出する。 直接トレーニングを行う前に,伝達パラメータが非自明な精度が得られることを実証的に示す。 また,移動パラメータの損失景観特性,特にモード接続性の観点から解析を行った。

Training deep neural networks (DNNs) is computationally expensive, which is problematic especially when performing duplicated training runs, such as model ensemble or knowledge distillation. Once we have trained one DNN on some dataset, we have its learning trajectory (i.e., a sequence of intermediate parameters during training) which may potentially contain useful information for learning the dataset. However, there has been no attempt to utilize such information of a given learning trajectory for another training. In this paper, we formulate the problem of "transferring" a given learning trajectory from one initial parameter to another one, called learning transfer problem, and derive the first algorithm to approximately solve it by matching gradients successively along the trajectory via permutation symmetry. We empirically show that the transferred parameters achieve non-trivial accuracy before any direct training. Also, we analyze the loss landscape property of the transferred parameters, especially from a viewpoint of mode connectivity.
翻訳日:2023-05-24 15:32:44 公開日:2023-05-23
# 長距離横フィールドイジング鎖における動的量子臨界現象の確率近似解析

Stochastic approximation analysis of dynamical quantum critical phenomena in long-range transverse-field Ising chain ( http://arxiv.org/abs/2305.14121v1 )

ライセンス: Link先を確認
Sora Shiratani and Synge Todo(参考訳) 長距離横磁場イジングモデルの量子相転移は、量子モンテカルロ法と、空間と虚時等方性を表現する最適な計算複雑性スケーリングと確率パラメータ最適化を組み合わせたもので、特に相関長のチューニングによって達成されている。 長距離相互作用の減衰速度を変化させ、平均場、非普遍的、イジング普遍性理論において、動的臨界指数およびその他の指数を徹底的に計算する。 シミュレーションでは,L$の異なるシミュレーションの集合からのみ臨界特性を抽出し,データ崩壊に基づく標準的な有限サイズスケーリング手法と比較して計算コストを大幅に改善した。 また,予測普遍性境界における仮説テストを実施し,従来の理論予測は普遍性境界の特定に失敗すると主張する先行報告を支持する。

The quantum phase transition of the long-range transverse-field Ising model is explored by combining a quantum Monte Carlo method with the optimal computational complexity scaling and stochastic parameter optimization that renders space and imaginary time isotropic, specifically achieved by tuning correlation lengths. Varying the decay rate of the long-range interaction, we exhaustively calculate the dynamical critical exponent and the other exponents precisely in mean-field, nonuniversal, and Ising universality regimes. In our simulations, critical properties are extracted only from a set of simulations with different $L$, significantly improving computational cost compared to the standard finite-size scaling approach based on data collapse. We also perform a hypothesis test at the predicted universality boundary, which supports preceding reports arguing that conventional theoretical prediction fails to locate the universality boundary.
翻訳日:2023-05-24 15:32:27 公開日:2023-05-23
# ベイズ最適化における関連する文脈変数のコスト認識学習

Cost-aware learning of relevant contextual variables within Bayesian optimization ( http://arxiv.org/abs/2305.14120v1 )

ライセンス: Link先を確認
Julien Martinelli, Ayush Bharti, S.T. John, Armi Tiihonen, Sabina Sloman, Louis Filstroff and Samuel Kaski(参考訳) 文脈ベイズ最適化(CBO)は、設計変数に関してブラックボックスで高価な関数を最適化する強力なフレームワークであり、同時に実験条件などの環境に関する関連するコンテキスト情報を統合する。 しかし、多くの実践シナリオにおいて、文脈変数の関連性は必ずしも事前に分かっていない。 さらに、現在のCBOアルゴリズムが考慮していない設定として、コンテキスト変数を自分自身で最適化する場合もある。 文脈変数の最適化はコストがかかるため、最小の関連する部分集合を決定するという問題を引き起こす。 本稿では,この問題をコスト認識型モデル選択boタスクとして捉え,新しい手法である感度分析駆動コンテキストボ(sadcbo)を用いて解決する。 入力点における後方サーロゲートモデルの感度解析によりコンテキスト変数の関連性を学習し,boの早期停止における最近の展開を利用して最適化コストを最小化する。 提案するsacboを合成実験の代替品に対して,広範なアブレーション研究とともに実証的に評価し,実例で一貫した改善を示す。

Contextual Bayesian Optimization (CBO) is a powerful framework for optimizing black-box, expensive-to-evaluate functions with respect to design variables, while simultaneously efficiently integrating relevant contextual information regarding the environment, such as experimental conditions. However, in many practical scenarios, the relevance of contextual variables is not necessarily known beforehand. Moreover, the contextual variables can sometimes be optimized themselves, a setting that current CBO algorithms do not take into account. Optimizing contextual variables may be costly, which raises the question of determining a minimal relevant subset. In this paper, we frame this problem as a cost-aware model selection BO task and address it using a novel method, Sensitivity-Analysis-Driven Contextual BO (SADCBO). We learn the relevance of context variables by sensitivity analysis of the posterior surrogate model at specific input points, whilst minimizing the cost of optimization by leveraging recent developments on early stopping for BO. We empirically evaluate our proposed SADCBO against alternatives on synthetic experiments together with extensive ablation studies, and demonstrate a consistent improvement across examples.
翻訳日:2023-05-24 15:32:11 公開日:2023-05-23
# 量子センシングネットワークを用いた磁場の強度分布の匿名推定

Anonymous estimation of intensity distribution of magnetic fields with quantum sensing network ( http://arxiv.org/abs/2305.14119v1 )

ライセンス: Link先を確認
Hiroto Kasai, Yuki Takeuchi, Yuichiro Matsuzaki, Yasuhiro Tokura(参考訳) 量子センシングネットワークは、磁場などの物理量を異なる場所で同時に検出し、測定するために使用される。 しかし、通信中に測定データが第三者に漏洩する危険性がある。 高いレベルのセキュリティが保証されるセキュアな量子センシングネットワークを実現するために、多くの理論的および実験的努力がなされている。 本稿では,対象フィールドの個々の値を知ることなく,異なる場所における対象フィールドの統計量を推定するプロトコルを提案する。 我々は、l$量子センサー間のエンタングルメントを生成し、量子センサをローカルフィールドと相互作用させ、特定の測定を行う。 量子フィッシャー情報を計算して磁場の個々の値を推定することにより、大きな$L$の制限で個々の磁場の値のいかなる情報も得られないことを示す。 一方,我々のプロトコルでは,特定の観測可能かつ評価可能なk$-th (k=1,2,3,4$) オーダーモーメントの相対的不確かさを計測することにより,理論上任意のモーメントの場分布を推定することができる。 私たちの結果は、セキュリティを組み込んだ量子センシングネットワークを使うための重要なステップです。

A quantum sensing network is used to simultaneously detect and measure physical quantities, such as magnetic fields, at different locations. However, there is a risk that the measurement data is leaked to the third party during the communication. Many theoretical and experimental efforts have been made to realize a secure quantum sensing network where a high level of security is guaranteed. In this paper, we propose a protocol to estimate statistical quantities of the target fields at different places without knowing individual value of the target fields. We generate an enanglement between $L$ quantum sensors, let the quantum sensor interact with local fields, and perform specific measurements on them. By calculating the quantum Fisher information to estimate the individual value of the magnetic fields, we show that we cannot obtain any information of the value of the individual fields in the limit of large $L$. On the other hand, in our protocol, we can estimate theoretically any moment of the field distribution by measuring a specific observable and evaluated relative uncertainty of $k$-th ($k=1,2,3,4$) order moment. Our results are a significant step towards using a quantum sensing network with security inbuilt.
翻訳日:2023-05-24 15:31:52 公開日:2023-05-23
# 短期量子ネットワークのための半デバイス独立非局所性証明

Semi-device independent nonlocality certification for near-term quantum networks ( http://arxiv.org/abs/2305.14116v1 )

ライセンス: Link先を確認
Sophie Engineer, Ana C. S. Costa, Alexandre C. Orthey Jr., Xiaogang Qiang, Jianwei Wang, Jeremy L. O'Brien, Jonathan C.F. Matthews, Will McCutcheon, Roope Uola, and Sabine Wollmann(参考訳) 当事者間の絡み合いの検証はセキュアな量子ネットワークの構築には不可欠であり、ベルテストは最も厳格な方法である。 しかし、両者の間に何らかのシグナルがある場合、これらの不等式違反は、絡み合いの存在に関する結論を引き出すためにもはや使用できない。 これは、当事者間の信号が測定設定と結果の調整を可能にするためであり、当事者が真に絡まっていない場合でもベルの不平等が生じる可能性があるためである。 通信セキュリティ,物理基盤,資源利用など,さまざまな観点からの量子通信プロトコルにおけるシグナル伝達の役割を検討するとともに,革新的な技術応用を推進していく必要がある。 本稿では,統計的揺らぎと実験不完全性に起因する実験確率分布における相関効果を数値的に補正する半デバイス独立プロトコルを提案する。 我々のノイズロバストプロトコルは、半定値プログラミングを用いて、リソース集約トモグラフィーを必要とせずに最適な量子ステアリング不等式を数値的に同定する、ステアリングロバストネスと呼ばれるトモグラフィーに基づく最適化手法の緩和を示す。 提案プロトコルは,無作為な不整合測定の文脈で数値的,実験的に解析し,必要ならば信号の修正を行い,既存の最先端の不等式と比較して高い違反率を示す。 我々の研究は、絡み合い検証のための半定値プログラミングのパワーを示し、量子ネットワークを実用的な応用に近づける。

Verifying entanglement between parties is essential for creating a secure quantum network, and Bell tests are the most rigorous method for doing so. However, if there is any signaling between the parties, then the violation of these inequalities can no longer be used to draw conclusions about the presence of entanglement. This is because signaling between the parties allows them to coordinate their measurement settings and outcomes, which can give rise to a violation of Bell inequalities even if the parties are not genuinely entangled. There is a pressing need to examine the role of signaling in quantum communication protocols from multiple perspectives, including communication security, physics foundations, and resource utilization while also promoting innovative technological applications. Here, we propose a semi-device independent protocol that allows us to numerically correct for effects of correlations in experimental probability distributions, caused by statistical fluctuations and experimental imperfections. Our noise robust protocol presents a relaxation of a tomography-based optimisation method called the steering robustness, that uses semidefinite programming to numerically identify the optimal quantum steering inequality without the need for resource-intensive tomography. The proposed protocol is numerically and experimentally analyzed in the context of random, misaligned measurements, correcting for signalling where necessary, resulting in a higher probability of violation compared to existing state-of-the-art inequalities. Our work demonstrates the power of semidefinite programming for entanglement verification and brings quantum networks closer to practical applications.
翻訳日:2023-05-24 15:31:31 公開日:2023-05-23
# RLBoost: 深層強化学習を用いた教師付きモデルの強化

RLBoost: Boosting Supervised Models using Deep Reinforcement Learning ( http://arxiv.org/abs/2305.14115v1 )

ライセンス: Link先を確認
Eloy Anguiano Batanero, \'Angela Fern\'andez Pascual, \'Alvaro Barbero Jim\'enez(参考訳) データ品質やデータ評価は、正確な人工知能モデルを生成する上で、大量のデータを集めるのと同じくらい重要なタスクである。 実際、データを評価することは、疑わしい品質のデータを自動でフィルタリングする能力があるため、特定の問題により適したより大きなデータベースにつながる可能性がある。 本稿では,深層強化学習戦略を用いて特定のデータセットを評価し,教師付き学習モデルの最終的な予測品質を改善するために,新たなデータの品質を推定可能なモデルを得るためのアルゴリズムrlboostを提案する。 このソリューションは、使用する教師付きモデルに非依存であり、マルチアテンション戦略を通じて、個々のデータだけでなく、そのコンテキストにおけるデータを考慮するという利点がある。 論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。

Data quality or data evaluation is sometimes a task as important as collecting a large volume of data when it comes to generating accurate artificial intelligence models. In fact, being able to evaluate the data can lead to a larger database that is better suited to a particular problem because we have the ability to filter out data obtained automatically of dubious quality. In this paper we present RLBoost, an algorithm that uses deep reinforcement learning strategies to evaluate a particular dataset and obtain a model capable of estimating the quality of any new data in order to improve the final predictive quality of a supervised learning model. This solution has the advantage that of being agnostic regarding the supervised model used and, through multi-attention strategies, takes into account the data in its context and not only individually. The results of the article show that this model obtains better and more stable results than other state-of-the-art algorithms such as LOO, DataShapley or DVRL.
翻訳日:2023-05-24 15:31:05 公開日:2023-05-23
# 蒸留集合のサイズと近似誤差について

On the Size and Approximation Error of Distilled Sets ( http://arxiv.org/abs/2305.14113v1 )

ライセンス: Link先を確認
Alaa Maalouf and Murad Tukan and Noel Loo and Ramin Hasani and Mathias Lechner and Daniela Rus(参考訳) Dataset Distillationは、大きなデータセットから小さなデータセットを合成する作業であり、オリジナルの圧縮されていないデータセットと同等の予測精度を維持している。 近年の有意な実証的進歩にもかかわらず、データセット蒸留の理論上の限界/保証者、具体的には、元のデータセットと比較して蒸留によって得られる過剰なリスクと、蒸留データセットの大きさについてはほとんど理解されていない。 本研究では,カーネルリッジ回帰法(krr)に基づく核誘導点などのデータセット蒸留法について理論的に考察する。 ランダムフーリエ特徴量(RFF)空間におけるリッジ回帰を変換することにより、小さく(サイズ)蒸留したデータセットの存在と、それに対応するシフト不変カーネルの過剰リスクを初めて証明する。 rff空間における解が元のデータの解と一致するように、元の入力空間に小さなインスタンス集合が存在することが証明される。 さらに,全入力データに最適化されたKRR溶液に対して近似を与える,この蒸留液を用いてKRR溶液を生成可能であることを示す。 この集合のサイズは入力集合の rff 空間の次元において線形であるか、あるいはその核の関数である有効自由度数、データ点の数、正規化パラメータ $\lambda$ の線型に近いかのどちらかである。 この蒸留された集合の誤差境界も$\lambda$の関数である。 境界を分析的かつ経験的に検証する。

Dataset Distillation is the task of synthesizing small datasets from large ones while still retaining comparable predictive accuracy to the original uncompressed dataset. Despite significant empirical progress in recent years, there is little understanding of the theoretical limitations/guarantees of dataset distillation, specifically, what excess risk is achieved by distillation compared to the original dataset, and how large are distilled datasets? In this work, we take a theoretical view on kernel ridge regression (KRR) based methods of dataset distillation such as Kernel Inducing Points. By transforming ridge regression in random Fourier features (RFF) space, we provide the first proof of the existence of small (size) distilled datasets and their corresponding excess risk for shift-invariant kernels. We prove that a small set of instances exists in the original input space such that its solution in the RFF space coincides with the solution of the original data. We further show that a KRR solution can be generated using this distilled set of instances which gives an approximation towards the KRR solution optimized on the full input data. The size of this set is linear in the dimension of the RFF space of the input set or alternatively near linear in the number of effective degrees of freedom, which is a function of the kernel, number of datapoints, and the regularization parameter $\lambda$. The error bound of this distilled set is also a function of $\lambda$. We verify our bounds analytically and empirically.
翻訳日:2023-05-24 15:30:51 公開日:2023-05-23
# サブ4ビット整数量子化による圧縮大言語モデルのメモリ効率向上

Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization ( http://arxiv.org/abs/2305.14152v1 )

ライセンス: Link先を確認
Jeonghoon Kim, Jung Hyun Lee, Sungdong Kim, Joonsuk Park, Kang Min Yoo, Se Jung Kwon, Dongsoo Lee(参考訳) パラメータ効率のよい微細チューニング(PEFT)法が登場し、完全微調整大言語モデル(LLM)の禁止コストを軽減している。 それでも、LLMの巨大なサイズは、定期的なデプロイメントを妨げる。 そこで本研究では,モデル圧縮を容易にし,推論を高速化する新しい量子化対応PEFT技術PEQAを提案する。 PEQAは、最初は、各完全連結層のパラメータ行列が低ビット整数の行列とスカラーベクトルの行列に量子化され、その後、各下流タスクのスカラーベクトルに微調整が行われる。 このような戦略はモデルのサイズを大幅に圧縮し、デプロイメント時の推論遅延の低減と、必要なメモリ全体の削減につながる。 同時に、高速な微調整と効率的なタスク切り替えが可能となる。 このようにPEQAは、PEFTの利点を継承しながら、量子化の利点を提供する。 自然言語理解から生成ベンチマークまでの総合的な実験において,PEQAと競争ベースラインを比較した。 これは、PEQAのスケーラビリティ、タスク固有の適応性能、命令に従う能力を示す、最大65億ドルのパラメータを持つ大きな言語モデルを使用して実現されている。

Parameter-efficient fine-tuning (PEFT) methods have emerged to mitigate the prohibitive cost of full fine-tuning large language models (LLMs). Nonetheless, the enormous size of LLMs impedes routine deployment. To address the issue, we present Parameter-Efficient and Quantization-aware Adaptation (PEQA), a novel quantization-aware PEFT technique that facilitates model compression and accelerates inference. PEQA operates through a dual-stage process: initially, the parameter matrix of each fully-connected layer undergoes quantization into a matrix of low-bit integers and a scalar vector; subsequently, fine-tuning occurs on the scalar vector for each downstream task. Such a strategy compresses the size of the model considerably, leading to a lower inference latency upon deployment and a reduction in the overall memory required. At the same time, fast fine-tuning and efficient task switching becomes possible. In this way, PEQA offers the benefits of quantization, while inheriting the advantages of PEFT. We compare PEQA with competitive baselines in comprehensive experiments ranging from natural language understanding to generation benchmarks. This is done using large language models of up to $65$ billion parameters, demonstrating PEQA's scalability, task-specific adaptation performance, and ability to follow instructions, even in extremely low-bit settings.
翻訳日:2023-05-24 15:24:38 公開日:2023-05-23
# WYWEB:古典中国語のNLP評価ベンチマーク

WYWEB: A NLP Evaluation Benchmark For Classical Chinese ( http://arxiv.org/abs/2305.14150v1 )

ライセンス: Link先を確認
Bo Zhou, Qianglong Chen, Tianyu Wang, Xiaomi Zhong, Yin Zhang(参考訳) 与えられた領域における異なるNLPモデルの全体的な性能を評価するため、GLUE、SuperGLUE、CLUEなど多くの評価ベンチマークが提案されている。 自然言語理解のfi eldは、伝統的に中国語、英語、マルチリンガなどの言語における様々なタスクのベンチマークに焦点を当ててきたが、数千年にわたる豊富な歴史を持ち、文化や学術的な価値を持つ古典中国語の領域には注意が払われていない。 本稿では,nlpコミュニティの繁栄のために,古典中国語における9つのnlpタスクからなるwyweb評価ベンチマーク(wyweb evaluation benchmark)を紹介する。 我々は、このベンチマークで苦労している既存の事前学習言語モデルを評価する。 また,中国の古典的nluのさらなる発展を促進するために,補足データセットや追加ツールについても紹介する。 githubリポジトリはhttps://github.com/baudzhou/WYWEBです。

To fully evaluate the overall performance of different NLP models in a given domain, many evaluation benchmarks are proposed, such as GLUE, SuperGLUE and CLUE. The fi eld of natural language understanding has traditionally focused on benchmarks for various tasks in languages such as Chinese, English, and multilingua, however, there has been a lack of attention given to the area of classical Chinese, also known as "wen yan wen", which has a rich history spanning thousands of years and holds signifi cant cultural and academic value. For the prosperity of the NLP community, in this paper, we introduce the WYWEB evaluation benchmark, which consists of nine NLP tasks in classical Chinese, implementing sentence classifi cation, sequence labeling, reading comprehension, and machine translation. We evaluate the existing pre-trained language models, which are all struggling with this benchmark. We also introduce a number of supplementary datasets and additional tools to help facilitate further progress on classical Chinese NLU. The github repository is https://github.com/baudzhou/WYWEB.
翻訳日:2023-05-24 15:24:17 公開日:2023-05-23
# 不均一なモジュラー量子コンピューティングネットワークアーキテクチャ上の分散回路

Distributing circuits over heterogeneous, modular quantum computing network architectures ( http://arxiv.org/abs/2305.14148v1 )

ライセンス: Link先を確認
Pablo Andres-Martinez, Tim Forrer, Daniel Mills, Jun-Yi Wu, Luciana Henaut, Kentaro Yamamoto, Mio Murao, Ross Duncan(参考訳) 我々は,ベル状態を介して疎結合な量子コンピューティングモジュールのヘテロジニアスネットワークを考える。 これらの接続間の操作は計算のボトルネックとなり、モジュール内で実行される操作よりも計算にノイズを加える可能性が高い。 本稿では,上述のタイプのネットワーク上で,与えられた量子回路を1つの実装可能なものに変換する手法をいくつか導入し,そのために必要なベル状態の数を最小化する。 我々は,完全接続ネットワーク上での回路分布に関する先行研究を,異種ネットワークの場合にも拡張する。 一方、[Andres-Martinez & Heunen. 2019] のハイパーグラフアプローチを任意のネットワークトポロジに拡張しています。 また,ネットワーク内での絡み合いの効率的な共有を実現するために,Steiner木を用いて,既存のコネクションを可能な限り頻繁に再利用する。 一方で,[wu, et al. 2022] の埋め込み技術を2つ以上のモジュールを持つネットワークにまで拡張した。 さらに、これら2つの非互換なアプローチをどのように連携させるかについて議論する。 我々の提案は実装され、ベンチマークされ、その結果、2つのアプローチが互いに弱みを補うことが確認された。

We consider a heterogeneous network of quantum computing modules, sparsely connected via Bell states. Operations across these connections constitute a computational bottleneck and they are likely to add more noise to the computation than operations performed within a module. We introduce several techniques for transforming a given quantum circuit into one implementable on a network of the aforementioned type, minimising the number of Bell states required to do so. We extend previous works on circuit distribution over fully connected networks to the case of heterogeneous networks. On the one hand, we extend the hypergraph approach of [Andres-Martinez & Heunen. 2019] to arbitrary network topologies. We additionally make use of Steiner trees to find efficient realisations of the entanglement sharing within the network, reusing already established connections as often as possible. On the other hand, we extend the embedding techniques of [Wu, et al. 2022] to networks with more than two modules. Furthermore, we discuss how these two seemingly incompatible approaches can be made to cooperate. Our proposal is implemented and benchmarked; the results confirming that, when orchestrated, the two approaches complement each other's weaknesses.
翻訳日:2023-05-24 15:24:00 公開日:2023-05-23
# 猫量子ビット上の変分量子アルゴリズム

Variational quantum algorithms on cat qubits ( http://arxiv.org/abs/2305.14143v1 )

ライセンス: Link先を確認
Anne-Sol\`ene Bornens and Michel Nowak(参考訳) 変分量子アルゴリズム(VQA)は様々な用途に応用されている。 質問の1つは、それらを効率的に実装し、既存のアーキテクチャ上で実行することができるかである。 現在のハードウェアは、制御不能なノイズに悩まされ、1つの計算の期待結果を変更できる。 このノイズの性質は、ある技術と別の技術とは異なっている。 本研究では,本質的にビットフリップに耐性のある技術であるcat qubitsについて検討することを選んだ。 この目的のために,2つのノイズモデルを実装した。 ひとつはハードウェアに依存しない - 異なるハードウェアタイプをカバーするために文献で使用されるという意味で。 2つ目はcat qubitsに特有なものです。 vqas (quantum approximation optimization algorithm (qaoa) とvariatinoal quantum linear soler (vqls)) で定式化できる2種類の問題に対するシミュレーションを行い、コスト関数の進化に対するノイズの影響を調査し、ノイズ耐性のあるレジームを考慮できるノイズレベル閾値を抽出する。 コンパイル問題に対処することで,ハードウェアに依存しないノイズモデルの実装の必要性を論じる。

Variational Quantum Algorithms (VQA) have emerged with a wide variety of applications. One question to ask is either they can efficiently be implemented and executed on existing architectures. Current hardware suffers from uncontrolled noise that can alter the expected results of one calculation. The nature of this noise is different from one technology to another. In this work, we chose to investigate a technology that is intrinsically resilient to bit-flips: cat qubits. To this end, we implement two noise models. The first one is hardware-agnostic -- in the sense that it is used in the literature to cover different hardware types. The second one is specific to cat qubits. We perform simulations on two types of problems that can be formulated with VQAs (Quantum Approximate Optimization Algorithm (QAOA) and the Variatinoal Quantum Linear Soler (VQLS)), study the impact of noise on the evolution of the cost function and extract noise level thresholds from which a noise-resilient regime can be considered. By tackling compilation issues, we discuss the need of implementing hardware-specific noise models as hardware-agnostic ones can lead to misleading conclusions regarding the regime of noise that is acceptable for an algorithm to run.
翻訳日:2023-05-24 15:23:44 公開日:2023-05-23
# 術後感染診断におけるクロスアテンションと畳み込みに基づくマルチモーダル法

A multimodal method based on cross-attention and convolution for postoperative infection diagnosis ( http://arxiv.org/abs/2305.14142v1 )

ライセンス: Link先を確認
Xianjie Liu, Hongwei Shi(参考訳) 術後感染症の診断は一般的で重篤な合併症であり、一般に高い診断課題を引き起こす。 本研究は術後感染症の一種であるPJIに焦点を当てた。 X線検査は、関節補綴と隣接する組織を評価し、痛みの原因を検出するPJI患者の画像検査である。 検査データは感度と特異性が高く,PJI診断に有意な可能性を秘めている。 本研究では,CrossAttentionの機能融合ネットワークを通じて,2つのモーダル特徴間の相互作用を効果的に実装する,自己教師型マスク付きオートエンコーダ事前学習戦略とマルチモーダル融合診断ネットワークMED-NVCを提案する。 提案手法を収集したPJIデータセット上で検証し,比較およびアブレーション実験によりその性能と実現可能性を評価した。 その結果,accは94.71%,aucは98.22%となり,最新の手法よりも優れ,パラメータ数も減少した。 提案手法は,臨床医に精度と効率を向上させる強力なツールを提供する可能性がある。

Postoperative infection diagnosis is a common and serious complication that generally poses a high diagnostic challenge. This study focuses on PJI, a type of postoperative infection. X-ray examination is an imaging examination for suspected PJI patients that can evaluate joint prostheses and adjacent tissues, and detect the cause of pain. Laboratory examination data has high sensitivity and specificity and has significant potential in PJI diagnosis. In this study, we proposed a self-supervised masked autoencoder pre-training strategy and a multimodal fusion diagnostic network MED-NVC, which effectively implements the interaction between two modal features through the feature fusion network of CrossAttention. We tested our proposed method on our collected PJI dataset and evaluated its performance and feasibility through comparison and ablation experiments. The results showed that our method achieved an ACC of 94.71% and an AUC of 98.22%, which is better than the latest method and also reduces the number of parameters. Our proposed method has the potential to provide clinicians with a powerful tool for enhancing accuracy and efficiency.
翻訳日:2023-05-24 15:23:21 公開日:2023-05-23
# 単一点監視によるリモートセンシング物体検出の学習

Learning Remote Sensing Object Detection with Single Point Supervision ( http://arxiv.org/abs/2305.14141v1 )

ライセンス: Link先を確認
Shitian He, Huanxin Zou, Yingqian Wang, Boyang Li, Xu Cao and Ning Jing(参考訳) pointly supervised object detection (psod) は、ボックスレベルの教師付きオブジェクト検出に比べてラベリングコストが低く、かなりの関心を集めている。 しかしながら、リモートセンシング(rs)画像における複雑なシーン、密集した動的スケールオブジェクトは、rsフィールドにおけるpsodメソッドの開発を妨げる。 本稿では,RSオブジェクト検出を単一点監視で実現するための最初の試みを行い,RS画像に合わせたPSODフレームワークを提案する。 具体的には、単一点ラベルから擬似箱ラベルを生成するための点ラベル更新器(PLUG)を設計し、擬似箱を用いて既存の検出器の最適化を監督する。 さらに,RS画像中の密集したオブジェクトの課題に対処するため,スパースオブジェクトから情報的手がかりをフル活用して高品質なセマンティックマップを生成可能なスパース特徴ガイド型セマンティック予測モジュールを提案する。 DOTAデータセットの大規模なアブレーション研究により,本手法の有効性が検証された。 提案手法は,最先端の画像レベルとポイントレベルの教師付き検出法と比較して性能が大幅に向上し,PSODとボックスレベルの教師付きオブジェクト検出の差を低減できる。 コードはhttps://github.com/heshitian/plugで入手できる。

Pointly Supervised Object Detection (PSOD) has attracted considerable interests due to its lower labeling cost as compared to box-level supervised object detection. However, the complex scenes, densely packed and dynamic-scale objects in Remote Sensing (RS) images hinder the development of PSOD methods in RS field. In this paper, we make the first attempt to achieve RS object detection with single point supervision, and propose a PSOD framework tailored with RS images. Specifically, we design a point label upgrader (PLUG) to generate pseudo box labels from single point labels, and then use the pseudo boxes to supervise the optimization of existing detectors. Moreover, to handle the challenge of the densely packed objects in RS images, we propose a sparse feature guided semantic prediction module which can generate high-quality semantic maps by fully exploiting informative cues from sparse objects. Extensive ablation studies on the DOTA dataset have validated the effectiveness of our method. Our method can achieve significantly better performance as compared to state-of-the-art image-level and point-level supervised detection methods, and reduce the performance gap between PSOD and box-level supervised object detection. Code will be available at https://github.com/heshitian/PLUG.
翻訳日:2023-05-24 15:23:03 公開日:2023-05-23
# Neyman-Pearsonテストによる適合性の良さ

Goodness of fit by Neyman-Pearson testing ( http://arxiv.org/abs/2305.14137v1 )

ライセンス: Link先を確認
Gaia Grosso, Marco Letizia, Maurizio Pierini, Andrea Wulzer(参考訳) 仮説テストに対するナイマン・ピアソンの戦略は、代替仮説が$\rm H_1$で有意なバイアスを生じさせないのに十分な一般性を持ち、同時に過度な適合を避けることができる。 この考え方の実践的実装(NPLM)は高エネルギー物理学の文脈で開発されており、標準モデルでは予測されない新しい物理効果のコライダーデータの検出を目標としている。 本稿では,この手法と適合性の良さに対する他のアプローチ,特にNPLMと強い類似性を持つ分類器ベースの戦略との比較を開始する。 NPLMは、予想される分布からのデータのわずかな離脱に対してより敏感であり、他人に目が見えない状態で特定の種類の異常を検出することに偏りがないため、我々の比較から明らかである。 これらの特徴により、コライダー実験における新しい物理学の発見に適している。 他のコンテキストでのデプロイメントについても検討する必要がある。

The Neyman-Pearson strategy for hypothesis testing can be employed for goodness of fit if the alternative hypothesis $\rm H_1$ is generic enough not to introduce a significant bias while at the same time avoiding overfitting. A practical implementation of this idea (dubbed NPLM) has been developed in the context of high energy physics, targeting the detection in collider data of new physical effects not foreseen by the Standard Model. In this paper we initiate a comparison of this methodology with other approaches to goodness of fit, and in particular with classifier-based strategies that share strong similarities with NPLM. NPLM emerges from our comparison as more sensitive to small departures of the data from the expected distribution and not biased towards detecting specific types of anomalies while being blind to others. These features make it more suited for agnostic searches for new physics at collider experiments. Its deployment in other contexts should be investigated.
翻訳日:2023-05-24 15:22:42 公開日:2023-05-23
# reparo:ビデオ会議用ロスレジリエント生成コーデック

Reparo: Loss-Resilient Generative Codec for Video Conferencing ( http://arxiv.org/abs/2305.14135v1 )

ライセンス: Link先を確認
Tianhong Li, Vibhaalakshmi Sivaraman, Lijie Fan, Mohammad Alizadeh, Dina Katabi(参考訳) ビデオ会議におけるパケットの喪失は、しばしば品質の低下とビデオの凍結をもたらす。 失われたパケットを再送信しようとする試みは通常、リアルタイム再生の必要性から実用的ではない。 損失パケットの回収にFEC(Forward Error Correction)を用いることは,適切な冗長度を決定するのが難しいため困難である。 本稿では,再生深層学習モデルを用いた損失耐性ビデオ会議作成のためのReparoというフレームワークを提案する。 我々のアプローチは、フレームまたはフレームの一部が失われたときに、欠落した情報を生成することである。 この世代は、これまで受信されたデータと、視覚の世界における人々の見た目、服装、および相互作用に関するモデルの知識に基づいて調整される。 公開されているビデオ会議データセットを用いた実験により,レパロは映像品質(PSNR)と映像凍結の両方の観点から,最先端のFECベースのビデオ会議よりも優れていた。

Loss of packets in video conferencing often results in poor quality and video freezing. Attempting to retransmit the lost packets is usually not practical due to the requirement for real-time playback. Using Forward Error Correction (FEC) to recover the lost packets is challenging since it is difficult to determine the appropriate level of redundancy. In this paper, we propose a framework called Reparo for creating loss-resilient video conferencing using generative deep learning models. Our approach involves generating missing information when a frame or part of a frame is lost. This generation is conditioned on the data received so far, and the model's knowledge of how people look, dress, and interact in the visual world. Our experiments on publicly available video conferencing datasets show that Reparo outperforms state-of-the-art FEC-based video conferencing in terms of both video quality (measured by PSNR) and video freezes.
翻訳日:2023-05-24 15:22:24 公開日:2023-05-23
# 強化学習における連接表現の条件付き相互情報

Conditional Mutual Information for Disentangled Representations in Reinforcement Learning ( http://arxiv.org/abs/2305.14133v1 )

ライセンス: Link先を確認
Mhairi Dunion, Trevor McInroe, Kevin Sebastian Luck, Josiah P. Hanna, Stefano V. Albrecht(参考訳) 強化学習(rl)環境は、トレーニングデータ量や制限された機能カバレッジによって、機能間のスパーラスな相関を持つトレーニングデータを生成することができる。 これにより、これらの誤解を招く相関を潜在表現でエンコードするrlエージェントが出現し、エージェントが環境内で相関が変化するかどうか、あるいは現実世界にデプロイされた場合の一般化を防止できる。 絡み合った表現はロバスト性を改善するが、機能間の相互情報を最小限にする既存の絡み合い技法では、独立した特徴を必要とするため、相関した特徴を絡み合わせることはできない。 本稿では,高次元観測の異方性表現を相関特徴量で学習するrlアルゴリズムの補助タスクを提案し,その特徴量間の条件付き相互情報を最小限に抑える。 我々は,連続制御タスクを用いて,相関シフト下での一般化と,相関特徴の存在下でのrlアルゴリズムのトレーニング性能の向上を実験的に実証する。

Reinforcement Learning (RL) environments can produce training data with spurious correlations between features due to the amount of training data or its limited feature coverage. This can lead to RL agents encoding these misleading correlations in their latent representation, preventing the agent from generalising if the correlation changes within the environment or when deployed in the real world. Disentangled representations can improve robustness, but existing disentanglement techniques that minimise mutual information between features require independent features, thus they cannot disentangle correlated features. We propose an auxiliary task for RL algorithms that learns a disentangled representation of high-dimensional observations with correlated features by minimising the conditional mutual information between features in the representation. We demonstrate experimentally, using continuous control tasks, that our approach improves generalisation under correlation shifts, as well as improving the training performance of RL algorithms in the presence of correlated features.
翻訳日:2023-05-24 15:22:08 公開日:2023-05-23
# GrACE: 関連コード編集による生成

GrACE: Generation using Associated Code Edits ( http://arxiv.org/abs/2305.14129v1 )

ライセンス: Link先を確認
Priyanshu Gupta, Avishree Khare, Yasharth Bajpai, Saikat Chakraborty, Sumit Gulwani, Aditya Kanade, Arjun Radhakrishna, Gustavo Soares, Ashish Tiwari(参考訳) 開発者はバグ修正や新機能の追加など、さまざまな理由でコードの編集にかなりの時間を費やしている。 コード編集を予測する効果的な方法の設計は、コード編集の多様性と開発者の意図を捉えることの難しさから、活発だが困難な研究領域となっている。 本研究では,事前学習された大言語モデル(LLM)を,事前の関連編集の知識と組み合わせることで,これらの課題に対処する。 LLMの生成能力は、コード変更の多様性に対処し、事前編集でコード生成を条件付けることで、潜んでいる開発者の意図を捉えるのに役立つ。 Codex と CodeT5 の2つの有名な LLM を,ゼロショット設定と微調整設定でそれぞれ評価した。 2つのデータセットを用いて行った実験では、先行編集の知識がLLMの性能を大幅に向上させ、現在最先端のシンボルとニューラルアプローチと比較して、29%と54%の正確な編集コードを生成することができる。

Developers expend a significant amount of time in editing code for a variety of reasons such as bug fixing or adding new features. Designing effective methods to predict code edits has been an active yet challenging area of research due to the diversity of code edits and the difficulty of capturing the developer intent. In this work, we address these challenges by endowing pre-trained large language models (LLMs) of code with the knowledge of prior, relevant edits. The generative capability of the LLMs helps address the diversity in code changes and conditioning code generation on prior edits helps capture the latent developer intent. We evaluate two well-known LLMs, Codex and CodeT5, in zero-shot and fine-tuning settings respectively. In our experiments with two datasets, the knowledge of prior edits boosts the performance of the LLMs significantly and enables them to generate 29% and 54% more correctly edited code in top-1 suggestions relative to the current state-of-the-art symbolic and neural approaches, respectively.
翻訳日:2023-05-24 15:21:51 公開日:2023-05-23
# 時間整合性向上によるスパイクニューラルネットワークの安定性と性能向上

Improving Stability and Performance of Spiking Neural Networks through Enhancing Temporal Consistency ( http://arxiv.org/abs/2305.14174v1 )

ライセンス: Link先を確認
Dongcheng Zhao, Guobin Shen, Yiting Dong, Yang Li, Yi Zeng(参考訳) スパイクニューラルネットワークは、脳のような情報処理能力のために大きな注目を集めている。 代理勾配の使用により、バックプロパゲーションによるスパイクニューラルネットワークのトレーニングが可能となり、様々なタスクで顕著なパフォーマンスを実現した。 しかしながら、バックプロパゲーションでトレーニングされたスパイクニューラルネットワークは通常、平均出力を使用して実際のラベルを近似し、ネットワークのパフォーマンスを高めるためにより大きなシミュレーションタイムステップを必要とする。 この遅延制約は、SNNのさらなる進歩に挑戦する。 現在のトレーニングアルゴリズムは、様々なタイミングで出力分布の違いを無視する傾向にある。 特にニューロモルフィックデータセットでは、異なる時間ステップでの入力は出力分布の不整合を引き起こし、異なるモーメントからの最適化方向を組み合わせる際に最適な方向から著しくずれる。 この問題に対処するため,我々は異なる時間ステップで出力の時間的一貫性を高める手法を考案した。 CIFAR10, CIFAR100, ImageNetなどの静的データセットの実験を行った。 その結果,本アルゴリズムは他のSNNアルゴリズムに匹敵する性能が得られた。 特に,本アルゴリズムはニューロモルフィックデータセットDVS-CIFAR10とN-Caltech101の最先端性能を達成し,タイムステップT=1の試験段階において優れた性能が得られる。

Spiking neural networks have gained significant attention due to their brain-like information processing capabilities. The use of surrogate gradients has made it possible to train spiking neural networks with backpropagation, leading to impressive performance in various tasks. However, spiking neural networks trained with backpropagation typically approximate actual labels using the average output, often necessitating a larger simulation timestep to enhance the network's performance. This delay constraint poses a challenge to the further advancement of SNNs. Current training algorithms tend to overlook the differences in output distribution at various timesteps. Particularly for neuromorphic datasets, inputs at different timesteps can cause inconsistencies in output distribution, leading to a significant deviation from the optimal direction when combining optimization directions from different moments. To tackle this issue, we have designed a method to enhance the temporal consistency of outputs at different timesteps. We have conducted experiments on static datasets such as CIFAR10, CIFAR100, and ImageNet. The results demonstrate that our algorithm can achieve comparable performance to other optimal SNN algorithms. Notably, our algorithm has achieved state-of-the-art performance on neuromorphic datasets DVS-CIFAR10 and N-Caltech101, and can achieve superior performance in the test phase with timestep T=1.
翻訳日:2023-05-24 15:15:08 公開日:2023-05-23
# TVTSv2: 時空間の空間的表現を大規模に学習する

TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale ( http://arxiv.org/abs/2305.14173v1 )

ライセンス: Link先を確認
Ziyun Zeng, Yixiao Ge, Zhan Tong, Xihui Liu, Shu-Tao Xia, Ying Shan(参考訳) 基礎モデルの最終的な目標は、タスク非依存、すなわちタスク固有の微調整なしでのアウト・オブ・ボックスの使用をサポートすることを実現することである。 自然言語処理や画像表現学習におけるブレークスルーはあったが、時空間信号の不確実性が高まるため、ビデオモデルがそれに到達することは依然として困難である。 トレーニングを容易にするため、既存の作品はイメージファウンデーションモデルの事前知識を活用し、効率的なテンポラリモジュールを装備している。 良好な微調整性能にもかかわらず、ゼロショット/リニアプロトコルのパフォーマンスがベースラインのプロトコルと比べてさらに低下していることを考えると、アウトオブボックスの使い方に欠けていることが実証的に分かります。 本研究では,言語指導の歪みの観点から,その劣化要因を解析する。 テキストエンコーダをエンド・ツー・エンドにチューニングすることは、スタイルの面で過度に適合する可能性があり、様々な言語レジスタのセマンティクスをキャプチャする本来の一般化能力を失うため、前回の研究と同様に、最適ではない。 過度に適合したテキストエンコーダは、ビデオ表現を劣化させる有害な監視信号を提供する。 この問題に対処するために,タスク関連セマンティクスを調整可能な深層に取り込みながら,浅い層を凍結することでテキストエンコーダの一般化能力を維持するための,劣化のない事前学習戦略を提案する。 トレーニングの目的については,拡張性のあるトレーニングを実現するために,マスキング技術が組み込まれたTVTSの書き起こし分類タスクを採用した。 その結果、最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを生成しました。 我々は,最新のImageBindやInternVideoなどを上回る冷凍バックボーンを備えたさまざまなビデオベンチマークで,新たな最先端技術を実現している。 コードはhttps://github.com/TencentARC/TVTSで公開されている。

The ultimate goal for foundation models is realizing task-agnostic, i.e., supporting out-of-the-box usage without task-specific fine-tuning. Although breakthroughs have been made in natural language processing and image representation learning, it is still challenging for video models to reach it due to the increasing uncertainty of spatiotemporal signals. To ease training, existing works leverage image foundation models' prior knowledge and equip them with efficient temporal modules. Despite the satisfactory fine-tuning performance, we empirically find they fall short of out-of-the-box usage, given the even degraded performance in zero-shot/linear protocols compared to their baseline counterparts. In this work, we analyze the factor that leads to degradation from the perspective of language supervision distortion. We argue that tuning a text encoder end-to-end, as done in previous work, is suboptimal since it may overfit in terms of styles, thereby losing its original generalization ability to capture the semantics of various language registers. The overfitted text encoder, in turn, provides a harmful supervision signal, degrading the video representation. To tackle this issue, we propose a degradation-free pre-training strategy to retain the generalization ability of the text encoder via freezing shallow layers while enabling the task-related semantics capturing in tunable deep layers. As for the training objective, we adopted the transcript sorting task in TVTS incorporated with masking techniques to enable scalable training. As a result, we produce a series of models, dubbed TVTSv2, with up to one billion parameters. We achieve new state-of-the-arts on various video benchmarks with a frozen backbone, surpassing the recent ImageBind, InternVideo, etc. Code is available at https://github.com/TencentARC/TVTS.
翻訳日:2023-05-24 15:14:31 公開日:2023-05-23
# 文脈における探索:大規模言語モデルによるロバスト分類器の構築に向けて

Probing in Context: Toward Building Robust Classifiers via Probing Large Language Models ( http://arxiv.org/abs/2305.14171v1 )

ライセンス: Link先を確認
Afra Amini and Massimiliano Ciaramita(参考訳) 大きな言語モデルは、新しいタスクをコンテキストで学習することができ、命令といくつかの注釈付きの例が提供されている。 しかしながら、コンテキスト内学習の有効性は提供されたコンテキストに依存しており、下流タスクのパフォーマンスは命令によって大きく異なる可能性がある。 重要なのは、このようなコンテキストへの依存が予測不能な方法で発生する可能性があることだ。 本稿では,文脈内探索(in-context probing)という代替手法を提案する。 文脈内学習と同様に、入力の表現を命令でコンテキスト化するが、出力予測をデコードする代わりに、文脈化された表現を探索してラベルを予測する。 多様な分類タスクの一連の実験を通して、文脈内探索は命令の変化に対してはるかに堅牢であることを示す。 さらに,より小さなモデル上に分類器を構築する上で,100のトレーニング例だけでは特に有益であることを示す。

Large language models are able to learn new tasks in context, where they are provided with instructions and a few annotated examples. However, the effectiveness of in-context learning is dependent to the provided context, and the performance on a downstream task can vary a lot depending on the instruction. Importantly, such dependency on the context can happen in unpredictable ways, e.g., a seemingly more informative instruction might lead to a worse performance. In this paper, we propose an alternative approach, which we term in-context probing. Similar to in-context learning, we contextualize the representation of the input with an instruction, but instead of decoding the output prediction, we probe the contextualized representation to predict the label. Through a series of experiments on a diverse set of classification tasks, we show that in-context probing is significantly more robust to changes in instructions. We further show that probing can be particularly helpful to build classifiers on top of smaller models, and with only a hundred training examples.
翻訳日:2023-05-24 15:13:57 公開日:2023-05-23
# EASE: 効率向上機構を利用した簡易なカスタマイズアノテーションシステム

EASE: An Easily-Customized Annotation System Powered by Efficiency Enhancement Mechanisms ( http://arxiv.org/abs/2305.14169v1 )

ライセンス: Link先を確認
Naihao Deng, Yikai Liu, Mingye Chen, Winston Wu, Siyang Liu, Yulong Chen, Yue Zhang, Rada Mihalcea(参考訳) 現在の教師付きAIシステムのパフォーマンスは、注釈付きデータセットの可用性と密接に関連している。 アノテーションは通常、特定のタスク用に設計され、カスタマイズが難しいアノテーションツールによって収集される。 さらに、アクティブな学習メカニズムを持つ既存のアノテーションツールは、限られたユースケースしかサポートしないことが多い。 これらの制約に対処するため,効率向上機構を利用した簡易カスタマイズアノテーションシステムEASEを提案する。 \sysnameは、カスタマイズされたアノテーションインターフェイスを構築するためのモジュール化されたアノテーションユニットを提供するとともに、(1)マルチタスクアクティブラーニング、(2)人口統計に基づくアクティブラーニング、(3)大きな言語モデルのapiをクエリできるプロンプトシステムを使用してアノテーションを推奨する複数のバックエンドオプションを提供する。 システムの柔軟性と有効性を評価するために,複数の実験とユーザスタディを実施している。 その結果,本システムはnlp研究者の多様なニーズを満たし,アノテーション処理を著しく加速できることがわかった。

The performance of current supervised AI systems is tightly connected to the availability of annotated datasets. Annotations are usually collected through annotation tools, which are often designed for specific tasks and are difficult to customize. Moreover, existing annotation tools with an active learning mechanism often only support limited use cases. To address these limitations, we present EASE, an Easily-Customized Annotation System Powered by Efficiency Enhancement Mechanisms. \sysname provides modular annotation units for building customized annotation interfaces and also provides multiple back-end options that suggest annotations using (1) multi-task active learning; (2) demographic feature based active learning; (3) a prompt system that can query the API of large language models. We conduct multiple experiments and user studies to evaluate our system's flexibility and effectiveness. Our results show that our system can meet the diverse needs of NLP researchers and significantly accelerate the annotation process.
翻訳日:2023-05-24 15:13:41 公開日:2023-05-23
# DetGPT: 推論で必要なものを検出する

DetGPT: Detect What You Need via Reasoning ( http://arxiv.org/abs/2305.14167v1 )

ライセンス: Link先を確認
Renjie Pi, Jiahui Gao, Shizhe Diao, Rui Pan, Hanze Dong, Jipeng Zhang, Lewei Yao, Jianhua Han, Hang Xu, Lingpeng Kong Tong Zhang(参考訳) 近年,大規模言語モデル(LLM)の開発により,コンピュータビジョンの分野が大幅に進歩している。 これらのモデルは、人間と機械の間のより効果的で洗練された相互作用を可能にし、人間と機械の知性の境界を曖昧にする新しいテクニックの道を開いた。 本稿では、推論に基づくオブジェクト検出と呼ばれるオブジェクト検出の新しいパラダイムを提案する。 特定のオブジェクト名に依存する従来のオブジェクト検出方法とは異なり,本手法では自然言語命令を用いてシステムと対話することが可能であり,対話性が向上する。 提案手法はdetgptと呼ばれ,最先端のマルチモーダルモデルとオープンボキャブラリオブジェクト検出器を用いて,ユーザの指示と視覚シーンのコンテキスト内で推論を行う。 これにより、明示的に言及されていないオブジェクトであっても、ユーザの表現された要求に基づいて、DetGPTが自動的に関心の対象を特定できる。 例えば、ユーザーが冷たい飲み物を欲しがっている場合、DetGPTはイメージを分析し、冷蔵庫を特定し、典型的な冷蔵庫の内容の知識を使って飲み物を見つけることができる。 この柔軟性により、ロボット工学や自動化から自動運転まで、幅広い分野に適用できます。 全体として、提案したパラダイムとDetGPTは、人間と機械間のより洗練された直感的な相互作用の可能性を示している。 提案したパラダイムとアプローチがコミュニティにインスピレーションを与え、よりインタラクティブで多目的なオブジェクト検出システムへの扉を開くことを願っています。 プロジェクトページはdetgpt.github.ioで公開しています。

In recent years, the field of computer vision has seen significant advancements thanks to the development of large language models (LLMs). These models have enabled more effective and sophisticated interactions between humans and machines, paving the way for novel techniques that blur the lines between human and machine intelligence. In this paper, we introduce a new paradigm for object detection that we call reasoning-based object detection. Unlike conventional object detection methods that rely on specific object names, our approach enables users to interact with the system using natural language instructions, allowing for a higher level of interactivity. Our proposed method, called DetGPT, leverages state-of-the-art multi-modal models and open-vocabulary object detectors to perform reasoning within the context of the user's instructions and the visual scene. This enables DetGPT to automatically locate the object of interest based on the user's expressed desires, even if the object is not explicitly mentioned. For instance, if a user expresses a desire for a cold beverage, DetGPT can analyze the image, identify a fridge, and use its knowledge of typical fridge contents to locate the beverage. This flexibility makes our system applicable across a wide range of fields, from robotics and automation to autonomous driving. Overall, our proposed paradigm and DetGPT demonstrate the potential for more sophisticated and intuitive interactions between humans and machines. We hope that our proposed paradigm and approach will provide inspiration to the community and open the door to more interative and versatile object detection systems. Our project page is launched at detgpt.github.io.
翻訳日:2023-05-24 15:13:25 公開日:2023-05-23
# 深層ニューラルネットワークのロバスト性に及ぼす光と影の影響

Impact of Light and Shadow on Robustness of Deep Neural Networks ( http://arxiv.org/abs/2305.14165v1 )

ライセンス: Link先を確認
Chengyin Hu, Weiwen Shi, Chao Li, Jialiang Sun, Donghua Wang, Junqi Wu, Guijian Tang(参考訳) ディープニューラルネットワーク(DNN)は、画像分類、セグメンテーション、オブジェクト検出など、様々なコンピュータビジョンタスクにおいて顕著な進歩を遂げている。 しかし、最近の研究では、敵攻撃として知られる入力データの故意な操作に直面した先進的なDNNの脆弱性が明らかにされている。 さらに、DNNの精度はトレーニングデータセットの分布に大きく影響される。 入力画像の色空間における歪みや摂動は、分散データを導入し、誤った分類をもたらす。 本研究では,イメージネットのサブセット内に,各画像に対して24種類の輝度レベルを組み込んだ輝度変化データセットを提案する。 このデータセットは、画像に対する光と影の効果をシミュレートできるので、dnnの性能に対する光と影の影響を調べることができる。 本研究では,先述したデータセット上で,最先端のDNNアーキテクチャを用いて実験を行う。 分析の結果,DNNの明るさレベルと精度の低下との間に有意な正の相関が認められた。 さらに,最近提案しているaugmix,revisit,free normalizerなどのロバストなトレーニング手法の有効性を,輝度変動データセットのresnet50アーキテクチャを用いて評価した。 実験の結果,これらの技術はDNNの輝度変化に対する堅牢性を向上し,輝度レベルの異なる画像を扱う場合の性能向上につながることが示された。

Deep neural networks (DNNs) have made remarkable strides in various computer vision tasks, including image classification, segmentation, and object detection. However, recent research has revealed a vulnerability in advanced DNNs when faced with deliberate manipulations of input data, known as adversarial attacks. Moreover, the accuracy of DNNs is heavily influenced by the distribution of the training dataset. Distortions or perturbations in the color space of input images can introduce out-of-distribution data, resulting in misclassification. In this work, we propose a brightness-variation dataset, which incorporates 24 distinct brightness levels for each image within a subset of ImageNet. This dataset enables us to simulate the effects of light and shadow on the images, so as is to investigate the impact of light and shadow on the performance of DNNs. In our study, we conduct experiments using several state-of-the-art DNN architectures on the aforementioned dataset. Through our analysis, we discover a noteworthy positive correlation between the brightness levels and the loss of accuracy in DNNs. Furthermore, we assess the effectiveness of recently proposed robust training techniques and strategies, including AugMix, Revisit, and Free Normalizer, using the ResNet50 architecture on our brightness-variation dataset. Our experimental results demonstrate that these techniques can enhance the robustness of DNNs against brightness variation, leading to improved performance when dealing with images exhibiting varying brightness levels.
翻訳日:2023-05-24 15:13:01 公開日:2023-05-23
# 予測補正によるスコアベース拡散モデルの収束性の向上

Improved Convergence of Score-Based Diffusion Models via Prediction-Correction ( http://arxiv.org/abs/2305.14164v1 )

ライセンス: Link先を確認
Francesco Pedrotti, Jan Maas, Marco Mondelli(参考訳) スコアベース生成モデル(SGM)は、複雑なデータ分布からサンプリングする強力なツールである。 その根底にある考え方は (i)データにノイズを加えることで、時間$T_1$のフォワードプロセスを実行する。 (ii)スコア関数を推定し、 (iii)そのような推定を用いて逆プロセスを実行する。 逆プロセスはフォワードの定常分布で初期化されるので、既存の分析パラダイムは$t_1\to\infty$を必要とする。 理論的には、スコア近似の所定の精度について、収束保証は$T_1$が分岐すると失敗し、実際的な観点からは、大きな$T_1$が計算コストを増大させ、エラーの伝播をもたらす。 本稿では,一般的な予測器-補正スキームのバージョンを考えることでこの問題に対処した。前方プロセスを実行した後,まず不正確なランジュバンダイナミクスを用いて最終分布を推定し,その後プロセスを反転させる。 私たちの重要な技術的貢献は、有限時間$t_1$だけフォワードプロセスを実行する必要のあるwasserstein距離での収束保証を提供することです。 我々の境界線は、入力次元とターゲット分布の準ガウスノルムに緩やかな対数依存を示し、データに最小の仮定を持ち、実際に最小化された量であるスコア近似の損失をL^2$制御することしか必要としない。

Score-based generative models (SGMs) are powerful tools to sample from complex data distributions. Their underlying idea is to (i) run a forward process for time $T_1$ by adding noise to the data, (ii) estimate its score function, and (iii) use such estimate to run a reverse process. As the reverse process is initialized with the stationary distribution of the forward one, the existing analysis paradigm requires $T_1\to\infty$. This is however problematic: from a theoretical viewpoint, for a given precision of the score approximation, the convergence guarantee fails as $T_1$ diverges; from a practical viewpoint, a large $T_1$ increases computational costs and leads to error propagation. This paper addresses the issue by considering a version of the popular predictor-corrector scheme: after running the forward process, we first estimate the final distribution via an inexact Langevin dynamics and then revert the process. Our key technical contribution is to provide convergence guarantees in Wasserstein distance which require to run the forward process only for a finite time $T_1$. Our bounds exhibit a mild logarithmic dependence on the input dimension and the subgaussian norm of the target distribution, have minimal assumptions on the data, and require only to control the $L^2$ loss on the score approximation, which is the quantity minimized in practice.
翻訳日:2023-05-24 15:12:37 公開日:2023-05-23
# Few-Shot Trigger検出ドメイン転送改善のためのオープン情報抽出の活用

Leveraging Open Information Extraction for Improving Few-Shot Trigger Detection Domain Transfer ( http://arxiv.org/abs/2305.14163v1 )

ライセンス: Link先を確認
David Duki\'c, Kiril Gashteovski, Goran Glava\v{s}, Jan \v{S}najder(参考訳) イベント検出は、wikipediaやnewsなど、多くのドメインで重要な情報抽出タスクである。 このタスクは通常、特定のイベントを引き起こすテキスト内のトークンスパンを識別するトリガー検出(td)に依存します。 トリガーの概念はドメインにまたがって理想的には普遍的であるべきであるが、高リソースドメインから低リソースドメインへのtdのドメイン転送は大幅なパフォーマンス低下をもたらす。 本稿では,ルールベースオープン情報抽出(OIE)システムから得られた主観対象関係を用いて,ドメイン間の結合トリガによるTDの負の転送の問題に対処する。 マルチタスクトレーニングによって注入された関係は、異なるドメインのトリガ間の仲介役として機能し、ゼロおよび少数ショットのTDドメイン転送を強化し、負の転送を低減できることを実証する。 さらに,抽出した関係を対象領域のマスキング言語モデルと組み合わせることで,さらなるTD性能向上を実現する。 最後に、OIEシステムの選択に対して、結果が堅牢であることを示す。

Event detection is a crucial information extraction task in many domains, such as Wikipedia or news. The task typically relies on trigger detection (TD) -- identifying token spans in the text that evoke specific events. While the notion of triggers should ideally be universal across domains, domain transfer for TD from high- to low-resource domains results in significant performance drops. We address the problem of negative transfer for TD by coupling triggers between domains using subject-object relations obtained from a rule-based open information extraction (OIE) system. We demonstrate that relations injected through multi-task training can act as mediators between triggers in different domains, enhancing zero- and few-shot TD domain transfer and reducing negative transfer, in particular when transferring from a high-resource source Wikipedia domain to a low-resource target news domain. Additionally, we combine the extracted relations with masked language modeling on the target domain and obtain further TD performance gains. Finally, we demonstrate that the results are robust to the choice of the OIE system.
翻訳日:2023-05-24 15:12:14 公開日:2023-05-23
# リプシッツ連続性を超えた複雑さと収束性

Revisiting Subgradient Method: Complexity and Convergence Beyond Lipschitz Continuity ( http://arxiv.org/abs/2305.14161v1 )

ライセンス: Link先を確認
Xiao Li, Lei Zhao, Daoli Zhu, Anthony Man-Cho So(参考訳) 勾配法は非滑らかな最適化のための最も基本的なアルゴリズムスキームの1つである。 このアルゴリズムの既存の複雑性と収束結果は、主にリプシッツ連続目的関数に導かれる。 本研究では、まず、リプシッツの連続性を仮定することなく、下次法の典型的な複雑性結果を凸と弱凸最小化に拡張する。 具体的には、凸の場合の準最適ギャップ ``$f(x) - f^*$'' と弱凸の場合のモロー包絡関数の勾配の項で $\mathcal{o}(1/{t}^{1/4})$ の項で $\mathcal{o}(1/\sqrt{t})$ を定める。 さらに、ステップサイズの適切な減少規則を用いて、非Lipschitz凸および弱凸目的関数に対する収束結果を提供する。 特に、$f$ が凸であるとき、準最適ギャップの観点から $\mathcal{O}(\log(k)/\sqrt{k})$収束率を示す。 追加の二次成長条件により、最適解集合への二乗距離の観点で、レートは$\mathcal{o}(1/k)$に改善される。 f$ が弱凸であるとき、漸近収束が導かれる。 中心的な考え方は、適切に選択されたステップサイズルールのダイナミクスが、反復の有界性をもたらす下位法の運動を完全に制御し、そこで軌道に基づく解析を行い、所望の結果を確立することである。 さらに,このフレームワークの幅広い適用性を説明するために,非リプシッツ関数の縮約部分次数,確率的部分次数,漸進的部分次数,近位部分次数への複雑性結果を拡張した。

The subgradient method is one of the most fundamental algorithmic schemes for nonsmooth optimization. The existing complexity and convergence results for this algorithm are mainly derived for Lipschitz continuous objective functions. In this work, we first extend the typical complexity results for the subgradient method to convex and weakly convex minimization without assuming Lipschitz continuity. Specifically, we establish $\mathcal{O}(1/\sqrt{T})$ bound in terms of the suboptimality gap ``$f(x) - f^*$'' for convex case and $\mathcal{O}(1/{T}^{1/4})$ bound in terms of the gradient of the Moreau envelope function for weakly convex case. Furthermore, we provide convergence results for non-Lipschitz convex and weakly convex objective functions using proper diminishing rules on the step sizes. In particular, when $f$ is convex, we show $\mathcal{O}(\log(k)/\sqrt{k})$ rate of convergence in terms of the suboptimality gap. With an additional quadratic growth condition, the rate is improved to $\mathcal{O}(1/k)$ in terms of the squared distance to the optimal solution set. When $f$ is weakly convex, asymptotic convergence is derived. The central idea is that the dynamics of properly chosen step sizes rule fully controls the movement of the subgradient method, which leads to boundedness of the iterates, and then a trajectory-based analysis can be conducted to establish the desired results. To further illustrate the wide applicability of our framework, we extend the complexity results to the truncated subgradient, the stochastic subgradient, the incremental subgradient, and the proximal subgradient methods for non-Lipschitz functions.
翻訳日:2023-05-24 15:11:54 公開日:2023-05-23
# ラベル語はアンカーである:インコンテキスト学習を理解するための情報フロー視点

Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning ( http://arxiv.org/abs/2305.14160v1 )

ライセンス: Link先を確認
Lean Wang, Lei Li, Damai Dai, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun(参考訳) In-context Learning (ICL)は、大規模言語モデル(LLM)の有望な能力として出現し、多様なタスクを実行するための実例を提供する。 しかしながら、llmが提供されたコンテキストからどのように学習するかのメカニズムは、まだ未検討のままである。 本稿では,情報フローレンズを用いたICLの動作機構について検討する。 その結果,(1)浅い計算層の処理中に意味情報がラベル語表現に集約され,(2)ラベル語に含まれる統合情報はllmsの最終予測の参照となることがわかった。 これらの知見に基づき、iclの性能向上のためのアンカー再重み付け法、推論を迅速化するデモンストレーション圧縮法、gpt2-xlにおけるiclエラーの診断のための分析フレームワークを提案する。 本研究の有望な応用は、未発見のICL作業機構を再び検証し、今後の研究の道を開くことである。

In-context learning (ICL) emerges as a promising capability of large language models (LLMs) by providing them with demonstration examples to perform diverse tasks. However, the underlying mechanism of how LLMs learn from the provided context remains under-explored. In this paper, we investigate the working mechanism of ICL through an information flow lens. Our findings reveal that label words in the demonstration examples function as anchors: (1) semantic information aggregates into label word representations during the shallow computation layers' processing; (2) the consolidated information in label words serves as a reference for LLMs' final predictions. Based on these insights, we introduce an anchor re-weighting method to improve ICL performance, a demonstration compression technique to expedite inference, and an analysis framework for diagnosing ICL errors in GPT2-XL. The promising applications of our findings again validate the uncovered ICL working mechanism and pave the way for future studies.
翻訳日:2023-05-24 15:11:23 公開日:2023-05-23
# 制約のない離散最適化のためのNISQ互換近似量子アルゴリズム

NISQ-compatible approximate quantum algorithm for unconstrained and constrained discrete optimization ( http://arxiv.org/abs/2305.14197v1 )

ライセンス: Link先を確認
M. R. Perelshtein, A. I. Pakhomchik, Ar. A. Melnikov, M. Podobrii, A. Termanova, I. Kreidich, B. Nuriev, S. Iudin, C. W. Mansell, V. M. Vinokur(参考訳) 量子アルゴリズムは古典的アルゴリズムを著しく上回る可能性があるため、非常に人気がある。 しかしながら、最適化問題に量子アルゴリズムを適用することは、量子アルゴリズムのトレーニングの効率、コスト環境の形状、アウトプットの精度、大規模問題へのスケール能力に関する課題を満たしている。 本稿では,振幅符号化を用いたハードウェア効率の高い回路に対する近似勾配型量子アルゴリズムを提案する。 目的関数にペナルティ項を加えることなく, 単純な線形制約を回路に直接組み込むことができることを示す。 我々は,数千ノードの重み付きグラフを用いたmaxcut問題に対して数値シミュレーションを行い,超伝導量子プロセッサ上でアルゴリズムを実行する。 1000以上のノードを持つ制約のないMaxCut問題に対して、我々のアルゴリズムとCPLEXと呼ばれる古典的解法を組み合わせるハイブリッドアプローチは、CPLEX単独よりも優れた解を見つけることができる。 これはハイブリッド最適化が現代の量子デバイスの主要なユースケースの1つであることを証明している。

Quantum algorithms are getting extremely popular due to their potential to significantly outperform classical algorithms. Yet, applying quantum algorithms to optimization problems meets challenges related to the efficiency of quantum algorithms training, the shape of their cost landscape, the accuracy of their output, and their ability to scale to large-size problems. Here, we present an approximate gradient-based quantum algorithm for hardware-efficient circuits with amplitude encoding. We show how simple linear constraints can be directly incorporated into the circuit without additional modification of the objective function with penalty terms. We employ numerical simulations to test it on MaxCut problems with complete weighted graphs with thousands of nodes and run the algorithm on a superconducting quantum processor. We find that for unconstrained MaxCut problems with more than 1000 nodes, the hybrid approach combining our algorithm with a classical solver called CPLEX can find a better solution than CPLEX alone. This demonstrates that hybrid optimization is one of the leading use cases for modern quantum devices.
翻訳日:2023-05-24 15:05:52 公開日:2023-05-23
# ZeroSCROLLS: 長文理解のためのゼロショットベンチマーク

ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding ( http://arxiv.org/abs/2305.14196v1 )

ライセンス: Link先を確認
Uri Shaham and Maor Ivgi and Avia Efrat and Jonathan Berant and Omer Levy(参考訳) 我々は、学習や開発データなしに、テストセットのみを含む長いテキストに対する自然言語理解のためのゼロショットベンチマークであるZeroSCROLLSを紹介した。 scrollsベンチマークから6つのタスクを適応させ、ポジティブレビューのパーセンテージを集約するなど、2つの新しい情報融合タスクを含む4つの新しいデータセットを追加します。 ZeroSCROLLS を用いて,オープンソースおよびクローズドな大言語モデルの総合評価を行い,Claude が ChatGPT を上回り,GPT-4 が最高スコアを達成していることを確認した。 しかし、アグリゲーションタスクのようなゼロスクロールにおける複数のオープンチャレンジを改善する余地はまだ残っており、モデルが単純なベースラインを通すのに苦労している。 現状は動きのターゲットであり、ZeroSCROLLSのリーダーボード上で彼らのアイデアを評価するために研究者を招待する。

We introduce ZeroSCROLLS, a zero-shot benchmark for natural language understanding over long texts, which contains only test sets, without training or development data. We adapt six tasks from the SCROLLS benchmark, and add four new datasets, including two novel information fusing tasks, such as aggregating the percentage of positive reviews. Using ZeroSCROLLS, we conduct a comprehensive evaluation of both open-source and closed large language models, finding that Claude outperforms ChatGPT, and that GPT-4 achieves the highest average score. However, there is still room for improvement on multiple open challenges in ZeroSCROLLS, such as aggregation tasks, where models struggle to pass the naive baseline. As the state of the art is a moving target, we invite researchers to evaluate their ideas on the live ZeroSCROLLS leaderboard
翻訳日:2023-05-24 15:05:36 公開日:2023-05-23
# GPTはいくつあるか? 人口統計データを用いた言語モデル評価のためのhumbelフレームワーク

How Old is GPT?: The HumBEL Framework for Evaluating Language Models using Human Demographic Dat ( http://arxiv.org/abs/2305.14195v1 )

ライセンス: Link先を確認
Anthony Sicilia, Jennifer C. Gates, and Malihe Alikhani(参考訳) 大規模な事前学習型言語モデル(LM)は、NLP全体にわたって広く使用されるが、既存の評価プロトコルでは、LM言語の使用が特定の人間の人口統計群とどのように一致しているかは考慮していない。 このギャップを補うために、人間のサブ人口と比較し、LM言語スキルをどのように測定するかを検討する。 本稿では,(人間)年齢によって組織される言語スキル獲得基準が確立された音声言語病理からの臨床技術を提案する。 ドメインの専門家(すなわち臨床ライセンスの言語病理学者)による評価を行い、また、大規模に臨床評価を代用する自動化手法を提案する。 gpt-3.5では,単語の意味を推測する必要のあるタスクにおいて,典型的な6~9歳児の能力を模倣し,記憶時では21歳児を上回っていた。 GPT-3.5(InstructGPT)も社会語の使用に支障を来しており、テストされた実用的スキルの50%以下である。 特定の単語のパート・オブ・音声や連想的な単語関係を理解する際の誤りを示す。 最終的には、これらのモデルをパブリックなツールとして使用する場合、人口統計アライメントと会話目標を検討することの重要性を再考する。 私たちのフレームワークはコード、データ、pythonパッケージを通じて公開されます。

While large pre-trained language models (LMs) find greater use across NLP, existing evaluation protocols do not consider how LM language use aligns with particular human demographic groups, which can be an important consideration in conversational AI applications. To remedy this gap, we consider how LM language skills can be measured and compared to human sub-populations. We suggest clinical techniques from Speech Language Pathology, which has well-established norms for acquisition of language skills, organized by (human) age. We conduct evaluation with a domain expert (i.e., a clinically licensed speech language pathologist), and also propose automated techniques to substitute clinical evaluation at scale. We find LM capability varies widely depending on task with GPT-3.5 mimicking the ability of a typical 6-9 year old at tasks requiring inference about word meanings and simultaneously outperforming a typical 21 year old at memorization. GPT-3.5 (InstructGPT) also has trouble with social language use, exhibiting less than 50\% of the tested pragmatic skills. It shows errors in understanding particular word parts-of-speech and associative word relations, among other lexical features. Ultimately, findings reiterate the importance of considering demographic alignment and conversational goals when using these models as public-facing tools. Our framework will be publicly available via code, data, and a python package.
翻訳日:2023-05-24 15:05:19 公開日:2023-05-23
# 共有語彙を超えて:多言語機械翻訳のための言語間の表現的単語類似性の向上

Beyond Shared Vocabulary: Increasing Representational Word Similarities across Languages for Multilingual Machine Translation ( http://arxiv.org/abs/2305.14189v1 )

ライセンス: Link先を確認
Di Wu and Christof Monz(参考訳) 共有語彙の使用は、MNMT(Multilingual Neural Machine Translation)において一般的である。 その単純な設計に加えて、共有トークンは肯定的な知識伝達において重要な役割を果たす。 しかし、このような設計には自然の欠陥もある。 1)言語が異なる文字体系を使用する場合、転送を阻害し、 2) 言語が類似の書き込みシステムを使用しているとしても,共有トークンは異なる言語で完全に異なる意味を持ち,曖昧さが増す可能性がある。 本稿では,最初の問題を緩和するため,埋め込み構築のための再パラメータ化手法を提案する。 具体的には,単語等価クラスによる単語レベルの情報伝達経路を定義し,言語間の単語埋め込みを融合するグラフネットワークに依存する。 我々の実験は我々のアプローチの利点を示しています 1)埋め込みのセマンティクスは言語間でよりよく一致します。 2) 高速・低出力MNMTにおけるBLEUの大幅な改善を実現し, 3) 計算コストが制限された場合, 追加のトレーニング可能なパラメータは 1.0 % 未満に留まる。

Using a shared vocabulary is common practice in Multilingual Neural Machine Translation (MNMT). In addition to its simple design, shared tokens play an important role in positive knowledge transfer, which manifests naturally when the shared tokens refer to similar meanings across languages. However, natural flaws exist in such a design as well: 1) when languages use different writing systems, transfer is inhibited, and 2) even if languages use similar writing systems, shared tokens may have completely different meanings in different languages, increasing ambiguity. In this paper, we propose a re-parameterized method for building embeddings to alleviate the first problem. More specifically, we define word-level information transfer pathways via word equivalence classes and rely on graph networks to fuse word embeddings across languages. Our experiments demonstrate the advantages of our approach: 1) the semantics of embeddings are better aligned across languages, 2) our method achieves significant BLEU improvements on high- and low-resource MNMT, and 3) only less than 1.0\% additional trainable parameters are required with a limited increase in computational costs.
翻訳日:2023-05-24 15:04:55 公開日:2023-05-23
# 最善の防御は善悪 - 敵の攻撃に対する敵意の強化

The Best Defense is a Good Offense: Adversarial Augmentation against Adversarial Attacks ( http://arxiv.org/abs/2305.14188v1 )

ライセンス: Link先を確認
Iuri Frosio and Jan Kautz(参考訳) 敵の攻撃に対する多くの防御(強固な分類器、ランダム化、画像浄化)は、攻撃が実行された後にのみ機能する。 我々は、敵攻撃に対する最初の証明された先制防御を含む新しい枠組みである$A^5$を導入するために異なる視点を採用する。 主なアイデアは、入力に対する攻撃(与えられた大きさまで)が失敗することを保証するために防御的な摂動を作ることである。 この目的のために,既存のニューラルネットワークの自動摂動解析ツールを活用する。 a^5$を効果的に適用する条件を検討し,to-be-defended分類器のロバスト性の重要性を分析し,ロバスト化画像の出現を検査した。 そこで,本研究では,ロバストファイタネットワークによる有効防御強化効果を示すとともに,ロバストファイタとクラシファイタ協調学習の利点を実証する。 私たちのテストでは、$A^5$は、MNIST、CIFAR10、FashionMNIST、Tinyimagenetの芸術認定防御状態を常に上回ります。 また、$A^5$を適用して、確実に堅牢な物理オブジェクトを作成する方法を示す。 私たちのコードはhttps://github.com/nvlabs/a5で、物理的攻撃を含む中間者攻撃以外の幅広いシナリオを実験できます。

Many defenses against adversarial attacks (\eg robust classifiers, randomization, or image purification) use countermeasures put to work only after the attack has been crafted. We adopt a different perspective to introduce $A^5$ (Adversarial Augmentation Against Adversarial Attacks), a novel framework including the first certified preemptive defense against adversarial attacks. The main idea is to craft a defensive perturbation to guarantee that any attack (up to a given magnitude) towards the input in hand will fail. To this aim, we leverage existing automatic perturbation analysis tools for neural networks. We study the conditions to apply $A^5$ effectively, analyze the importance of the robustness of the to-be-defended classifier, and inspect the appearance of the robustified images. We show effective on-the-fly defensive augmentation with a robustifier network that ignores the ground truth label, and demonstrate the benefits of robustifier and classifier co-training. In our tests, $A^5$ consistently beats state of the art certified defenses on MNIST, CIFAR10, FashionMNIST and Tinyimagenet. We also show how to apply $A^5$ to create certifiably robust physical objects. Our code at https://github.com/NVlabs/A5 allows experimenting on a wide range of scenarios beyond the man-in-the-middle attack tested here, including the case of physical attacks.
翻訳日:2023-05-24 15:04:40 公開日:2023-05-23
# 量子カオスの制御:時間依存型蹴りローター

Controlling quantum chaos: time-dependent kicked rotor ( http://arxiv.org/abs/2305.14187v1 )

ライセンス: Link先を確認
Steven Tomsovic, Juan Diego Urbina, and Klaus Richter(参考訳) 古典的なカオス力学系を制御する主な目的は、システムの初期条件に対する極度の感度を利用して、所定の目標状態に到達することである。 最近の手紙[phys.~rev.~lett. 130, 020201 (2023)]では、量子状態の自然な拡散に対抗する逐次ユニタリ変換を用いて、このターゲティング法の量子システムへの一般化が示されている。 この論文ではさらに詳細が述べられ、重要な拡張が確立される。 特に、コヒーレント制御ダイナミクスを構築するための別のアプローチが与えられ、以前に導入されたカオス的ヘテロクリニック軌道を使い続ける新しい時間依存で局所安定な制御ハミルトニアンを導入するが、量子状態の拡散に対抗する必要はない。 量子キックローターの拡張の実装は、文字で説明されるよりもはるかに単純な近似制御技術を生成する。 単純なメソッドのエラーは、$\hbar \rightarrow 0$として消えるようにできる。

One major objective of controlling classical chaotic dynamical systems is exploiting the system's extreme sensitivity to initial conditions in order to arrive at a predetermined target state. In a recent letter [Phys.~Rev.~Lett. 130, 020201 (2023)], a generalization of this targeting method to quantum systems was demonstrated using successive unitary transformations that counter the natural spreading of a quantum state. In this paper further details are given and an important quite general extension is established. In particular, an alternate approach to constructing the coherent control dynamics is given, which introduces a new time-dependent, locally stable control Hamiltonian that continues to use the chaotic heteroclinic orbits previously introduced, but without the need of countering quantum state spreading. Implementing that extension for the quantum kicked rotor generates a much simpler approximate control technique than discussed in the letter, which is a little less accurate, but far more easily realizable in experiments. The simpler method's error can still be made to vanish as $\hbar \rightarrow 0$.
翻訳日:2023-05-24 15:04:15 公開日:2023-05-23
# 会話における倫理:医療における自律型AI対応音声エージェントの倫理保証ケースの構築

Ethics in conversation: Building an ethics assurance case for autonomous AI-enabled voice agents in healthcare ( http://arxiv.org/abs/2305.14182v1 )

ライセンス: Link先を確認
Marten H. L. Kaas, Zoe Porter, Ernest Lim, Aisling Higham, Sarah Khavandi and Ibrahim Habli(参考訳) aiシステムのデプロイと使用は安全かつ広く倫理的に受け入れられるべきである。 原則に基づく倫理保証議論パターンは、その目的を支援し達成しようとするAI倫理のランドスケープにおける1つの提案である。 この議論パターンまたはフレームワークの目的は、複雑な社会技術的文脈における特定の現実世界のaiシステムの使用の倫理的受容性について推論し、コミュニケーションし、信頼を育むことである。 本稿では,AIをベースとした遠隔医療システムであるDoraの利用に倫理保証フレームワークを適用したケーススタディの中間的結果について,その実用性と有用性を評価する。 これまでのケーススタディプロセスでは、doraプラットフォームによるポジティブな倫理的影響、特に臨床の自律性に関して、最前線の臨床医に対するリスクなど、評価を優先する予期せぬ洞察や領域が明らかにされている。 倫理保証の議論パターンは、対処すべき問題を特定するだけでなく、利益、リスク、および影響する利害関係者間の倫理的格差を減らす人間の自律性に対する制約の調整という形でソリューションを構築するための実践的な枠組みを提供する。 多くの課題が残っているが、この研究は安全で倫理的に受け入れられるAIシステムの開発と利用に向けた一歩であり、理想的には、AIシステム全般のより包括的で包括的な評価へのシフトである。

The deployment and use of AI systems should be both safe and broadly ethically acceptable. The principles-based ethics assurance argument pattern is one proposal in the AI ethics landscape that seeks to support and achieve that aim. The purpose of this argument pattern or framework is to structure reasoning about, and to communicate and foster confidence in, the ethical acceptability of uses of specific real-world AI systems in complex socio-technical contexts. This paper presents the interim findings of a case study applying this ethics assurance framework to the use of Dora, an AI-based telemedicine system, to assess its viability and usefulness as an approach. The case study process to date has revealed some of the positive ethical impacts of the Dora platform, as well as unexpected insights and areas to prioritise for evaluation, such as risks to the frontline clinician, particularly in respect of clinician autonomy. The ethics assurance argument pattern offers a practical framework not just for identifying issues to be addressed, but also to start to construct solutions in the form of adjustments to the distribution of benefits, risks and constraints on human autonomy that could reduce ethical disparities across affected stakeholders. Though many challenges remain, this research represents a step in the direction towards the development and use of safe and ethically acceptable AI systems and, ideally, a shift towards more comprehensive and inclusive evaluations of AI systems in general.
翻訳日:2023-05-24 15:03:54 公開日:2023-05-23
# 化合物相互接続によるマルチbvoc超解像化

Multi-BVOC Super-Resolution Exploiting Compounds Inter-Connection ( http://arxiv.org/abs/2305.14180v1 )

ライセンス: Link先を確認
Antonio Giganti, Sara Mandelli, Paolo Bestagini, Marco Marcon, Stefano Tubaro(参考訳) 地球の大気中に地球生態系から放出される生体揮発性有機化合物(BVOC)は大気化学の重要な構成要素である。 測定が不十分なため、BVOCの放射マップの信頼性の向上は、大気化学、気候、大気質のモデルにより密集したデータを提供するのに役立つ。 本研究では, 異なる化合物の寄与を同時に活用し, 粗bvoc排出マップの超解法を提案する。 そこで本研究ではまず,複数のBVOC種間の空間的相互接続を正確に検討する。 そこで,この類似性を生かして,多次元超解像 (misr) システムを構築し,多種多様な化合物に関連したエミッションマップを集約し,超解像 (sr) 性能を向上させる。 種と結合するBVOCの数について異なる構成を比較した。 実験の結果, BVOCsの関係をプロセスに組み込むことで, 超解写像の精度を大幅に向上できることがわかった。 興味深いことに、強い非相関化合物の放出マップを集約すると、最良の結果が得られる。 この特異性は、他のデータドメイン、すなわち結合された非相関情報は、misrのパフォーマンスを高めるために相関した情報よりも有用である。 それでも、提案された研究は、複数の異なる化合物の融合によるbvoc排出の最初の試みである。

Biogenic Volatile Organic Compounds (BVOCs) emitted from the terrestrial ecosystem into the Earth's atmosphere are an important component of atmospheric chemistry. Due to the scarcity of measurement, a reliable enhancement of BVOCs emission maps can aid in providing denser data for atmospheric chemical, climate, and air quality models. In this work, we propose a strategy to super-resolve coarse BVOC emission maps by simultaneously exploiting the contributions of different compounds. To this purpose, we first accurately investigate the spatial inter-connections between several BVOC species. Then, we exploit the found similarities to build a Multi-Image Super-Resolution (MISR) system, in which a number of emission maps associated with diverse compounds are aggregated to boost Super-Resolution (SR) performance. We compare different configurations regarding the species and the number of joined BVOCs. Our experimental results show that incorporating BVOCs' relationship into the process can substantially improve the accuracy of the super-resolved maps. Interestingly, the best results are achieved when we aggregate the emission maps of strongly uncorrelated compounds. This peculiarity seems to confirm what was already guessed for other data-domains, i.e., joined uncorrelated information are more helpful than correlated ones to boost MISR performance. Nonetheless, the proposed work represents the first attempt in SR of BVOC emissions through the fusion of multiple different compounds.
翻訳日:2023-05-24 15:03:29 公開日:2023-05-23
# ChemGymRL: デジタル化学の強化学習のためのインタラクティブフレームワーク

ChemGymRL: An Interactive Framework for Reinforcement Learning for Digital Chemistry ( http://arxiv.org/abs/2305.14177v1 )

ライセンス: Link先を確認
Chris Beeler, Sriram Ganapathi Subramanian, Kyle Sprague, Nouha Chatti, Colin Bellinger, Mitchell Shahen, Nicholas Paquin, Mark Baula, Amanuel Dawit, Zihan Yang, Xinkai Li, Mark Crowley, Isaac Tamblyn(参考訳) 本稿では,化学発見にRL(Reinforcement Learning)を応用するための模擬実験室を提供する。 RLは、かなりデータ集約型であるため、実世界での行動を取る訓練エージェント「on-the-fly」は実現不可能であり、おそらく危険である。 さらに、化学処理と発見には、rlベンチマークにはあまり見られない課題が伴うため、作業スペースが豊富になる。 我々は、標準のOpen AI Gymテンプレートに基づいて、高度にカスタマイズ可能でオープンソースのRL環境であるChemGymRLを紹介します。 ChemGymRLは、RLエージェントが操作および訓練できる一連の相互接続された仮想化学ベンチをサポートする。 本稿では,これらのベンチについて,よく知られた化学反応を例に紹介・詳述し,各ベンチに標準RLアルゴリズムのセットを訓練する。 最後に、ChemGymRLのさらなる開発と利用のビジョンとして、今後の作業の方向性のリストに加え、いくつかの標準RL法の性能に関する議論と比較を行った。

This paper provides a simulated laboratory for making use of Reinforcement Learning (RL) for chemical discovery. Since RL is fairly data intensive, training agents `on-the-fly' by taking actions in the real world is infeasible and possibly dangerous. Moreover, chemical processing and discovery involves challenges which are not commonly found in RL benchmarks and therefore offer a rich space to work in. We introduce a set of highly customizable and open-source RL environments, ChemGymRL, based on the standard Open AI Gym template. ChemGymRL supports a series of interconnected virtual chemical benches where RL agents can operate and train. The paper introduces and details each of these benches using well-known chemical reactions as illustrative examples, and trains a set of standard RL algorithms in each of these benches. Finally, discussion and comparison of the performances of several standard RL methods are provided in addition to a list of directions for future work as a vision for the further development and usage of ChemGymRL.
翻訳日:2023-05-24 15:03:07 公開日:2023-05-23
# 局所ヘリウムイオン照射による超伝導ナノワイヤ単光子検出器のサイト選択性向上

Site-Selective Enhancement of Superconducting Nanowire Single-Photon Detectors via Local Helium Ion Irradiation ( http://arxiv.org/abs/2305.14175v1 )

ライセンス: Link先を確認
Stefan Strohauer, Fabian Wietschorke, Lucio Zugliani, Rasmus Flaschmann, Christian Schmid, Stefanie Grotowski, Manuel M\"uller, Bj\"orn Jonas, Matthias Althammer, Rudolf Gross, Kai M\"uller, Jonathan J. Finley(参考訳) 超伝導ナノワイヤ単光子検出器(SNSPD)のアレイの動作には,名目上同一画素間の均一な性能測定が困難である。 本稿では, 単一光子検出効率, スイッチ電流, 臨界温度を同一チップ上で調整するために, 局所ヘリウムイオン照射を利用する。 照射前の単光子感度がほとんどない12nm厚の高吸収性snspdに対して, 照射後のシステム検出効率は<0.05\,\%$から$(55.3 \pm 1.1)\,\%$に上昇した。 さらに, 内部検出効率は, 1,800\, \mathrm{ions}\, \mathrm{nm}^{-2}$の照射後に4.5Kの温度で飽和する。 照射された10nm厚み検出器に対して、同様の検出効率の8nm SNSPDと比較してスイッチング電流の倍(20, \mu\mathrm{A}$)を観察し、検出電圧パルスの振幅を増加させる。 2600\, \mathrm{ions}\, \mathrm{nm}^{-2}$までの光照射による超伝導薄膜特性のスケーリングに関する研究により, 耐食性の増加と高温への臨界温度の低下が明らかになった。 ヘリウムイオン照射中の欠陥発生とスパッタリングを考慮した物理モデルを示し,実験との質的整合性を示した。

Achieving homogeneous performance metrics between nominally identical pixels is challenging for the operation of arrays of superconducting nanowire single-photon detectors (SNSPDs). Here, we utilize local helium ion irradiation to post-process and tune single-photon detection efficiency, switching current, and critical temperature of individual devices on the same chip. For 12nm thick highly absorptive SNSPDs, which are barely single-photon sensitive prior to irradiation, we observe an increase of the system detection efficiency from $< 0.05\,\%$ to $(55.3 \pm 1.1)\,\%$ following irradiation. Moreover, the internal detection efficiency saturates at a temperature of 4.5 K after irradiation with $1800\, \mathrm{ions}\, \mathrm{nm}^{-2}$. For irradiated 10 nm thick detectors we observe a doubling of the switching current (to $20\, \mu\mathrm{A}$) compared to 8 nm SNSPDs of similar detection efficiency, increasing the amplitude of detection voltage pulses. Investigations of the scaling of superconducting thin film properties with irradiation up to a fluence of $2600\, \mathrm{ions}\, \mathrm{nm}^{-2}$ revealed an increase of sheet resistance and a decrease of critical temperature towards high fluences. A physical model accounting for defect generation and sputtering during helium ion irradiation is presented and shows good qualitative agreement with experiments.
翻訳日:2023-05-24 15:02:50 公開日:2023-05-23
# CompoundPiece: 言語モデルの分解性能の評価と改善

CompoundPiece: Evaluating and Improving Decompounding Performance of Language Models ( http://arxiv.org/abs/2305.14214v1 )

ライセンス: Link先を確認
Benjamin Minixhofer, Jonas Pfeiffer, Ivan Vuli\'c(参考訳) 多くの言語は複合語を作るために2つ以上の単語を結合するプロセスを持っているが、以前の研究は一般的に過剰に生産的な複合語(例えばドイツ語、オランダ語)を持つ言語に限られており、多くの言語に複合語と非複合語を含む公開データセットは存在しない。 本研究では, 複合語を構成語に分割する作業である分解処理を, 大規模に体系的に研究する。 まず、Wiktionaryから得られた56の多様な言語に255kの複合語と非複合語のデータセットを導入することで、データギャップに対処する。 次に、このデータセットを使用して、分割タスク上のLarge Language Model(LLM)の配列を評価する。 LLMは、特にサブワードトークン化によって不利にトークン化される単語に対して、性能が良くないことがわかった。 そこで本研究では,分解のための専用モデルをトレーニングするための新しい手法を提案する。 提案した2段階の手順は、第1段階で完全に自己制御された目的に依存し、第2段階の教師付き学習段階は、注釈付きウィキオナリーデータに基づいてモデルを任意に微調整する。 我々の自己教師付きモデルは、以前の最良の教師なし推論モデルよりも平均13.9%正確である。 私たちの微調整モデルは、以前の(言語固有の)分解ツールよりも優れています。 さらに,このモデルを用いて,サブワードトークン生成時のデコンパリングを活用し,これを複合ピースと呼ぶ。 コンプレックスピースは、平均でより好適に複合語をトークン化するので、文節のトークン化を用いた同等のモデル上での分解のパフォーマンスが向上する。

While many languages possess processes of joining two or more words to create compound words, previous studies have been typically limited only to languages with excessively productive compound formation (e.g., German, Dutch) and there is no public dataset containing compound and non-compound words across a large number of languages. In this work, we systematically study decompounding, the task of splitting compound words into their constituents, at a wide scale. We first address the data gap by introducing a dataset of 255k compound and non-compound words across 56 diverse languages obtained from Wiktionary. We then use this dataset to evaluate an array of Large Language Models (LLMs) on the decompounding task. We find that LLMs perform poorly, especially on words which are tokenized unfavorably by subword tokenization. We thus introduce a novel methodology to train dedicated models for decompounding. The proposed two-stage procedure relies on a fully self-supervised objective in the first stage, while the second, supervised learning stage optionally fine-tunes the model on the annotated Wiktionary data. Our self-supervised models outperform the prior best unsupervised decompounding models by 13.9% accuracy on average. Our fine-tuned models outperform all prior (language-specific) decompounding tools. Furthermore, we use our models to leverage decompounding during the creation of a subword tokenizer, which we refer to as CompoundPiece. CompoundPiece tokenizes compound words more favorably on average, leading to improved performance on decompounding over an otherwise equivalent model using SentencePiece tokenization.
翻訳日:2023-05-24 14:55:08 公開日:2023-05-23
# テキストデータベースを用いた複雑な質問応答におけるグラフホップ検索と推論

Towards Graph-hop Retrieval and Reasoning in Complex Question Answering over Textual Database ( http://arxiv.org/abs/2305.14211v1 )

ライセンス: Link先を確認
Minjun Zhu, Yixuan Weng, Shizhu He, Kang Liu, Jun Zhao(参考訳) テキスト質問応答システム(TQA)では、複雑な質問は複数の推論ステップで複数のテキスト事実連鎖を取得する必要がある。 既存のベンチマークはシングルチェーンまたはシングルホップ検索シナリオに限定されている。 本稿では,複雑な質問応答において,新しいマルチチェーンとマルチホップ検索と推論パラダイムであるgraph-hopを提案する。 我々はReasonGraphQAと呼ばれる新しいベンチマークを構築し、解釈可能な推論、包括的で詳細な推論をサポートする複雑な質問に対して、明確できめ細かいエビデンスグラフを提供する。 ReasonGraphQAは多様性とスケールの推論にも利点がある。 さらに,二方向グラフ検索法 (BGR) と呼ばれる強力なグラフホップベースラインを提案し,知識推論と質問応答におけるテキスト証拠の説明グラフを生成する。 我々はReasonGraphQAの既存のエビデンス検索と推論モデルを徹底的に評価した。 実験では、Graph-Hopは複雑な質問に答えるための有望な方向であるが、まだ一定の制限がある。 我々は,これらの課題を克服し,今後の方向性を議論するための緩和戦略をさらに検討した。

In Textual question answering (TQA) systems, complex questions often require retrieving multiple textual fact chains with multiple reasoning steps. While existing benchmarks are limited to single-chain or single-hop retrieval scenarios. In this paper, we propose to conduct Graph-Hop -- a novel multi-chains and multi-hops retrieval and reasoning paradigm in complex question answering. We construct a new benchmark called ReasonGraphQA, which provides explicit and fine-grained evidence graphs for complex questions to support interpretable reasoning, comprehensive and detailed reasoning. And ReasonGraphQA also shows an advantage in reasoning diversity and scale. Moreover, We propose a strong graph-hop baseline called Bidirectional Graph Retrieval (BGR) method for generating an explanation graph of textual evidence in knowledge reasoning and question answering. We have thoroughly evaluated existing evidence retrieval and reasoning models on the ReasonGraphQA. Experiments highlight Graph-Hop is a promising direction for answering complex questions, but it still has certain limitations. We have further studied mitigation strategies to meet these challenges and discuss future directions.
翻訳日:2023-05-24 14:54:40 公開日:2023-05-23
# コンテキスト内学習のためのスキルベースマイノショット選択

Skill-Based Few-Shot Selection for In-Context Learning ( http://arxiv.org/abs/2305.14210v1 )

ライセンス: Link先を確認
Shengnan An, Bo Zhou, Zeqi Lin, Qiang Fu, Bei Chen, Nanning Zheng, Weizhu Chen and Jian-Guang Lou(参考訳) インコンテキスト学習(in-context learning)は,大規模な言語モデルをダウンストリームタスクに適用するパラダイムである。 テストインスタンス毎に適切な例を選択することの少ない選択は、コンテキスト内学習において重要です。 本稿では,テキスト内学習のためのスキルベース少数ショット選択手法であるSkill-KNNを提案する。 skill-knnの主な利点は、(1)事前学習された埋め込みに基づく既存のメソッドが、ターゲットタスクにとって重要でない表面的自然言語特徴によって、容易にバイアスを負うことができるという問題、(2)いかなるモデルのトレーニングや微調整も必要とせず、頻繁な拡張や変更に適すること、である。 重要な洞察は、モデル自体をチューニングするのではなく、組み込みモデルに供給される入力を最適化することだ。 技術的には、Skill-KNNは、事前処理された数発のプロンプトを利用して、各テストケースと候補例のスキルベースの表現を生成する。 4つのクロスドメイン意味解析タスクと4つのバックボーンモデルによる実験結果は、skill-knnが既存のメソッドを大きく上回っていることを示している。

In-Context learning is the paradigm that adapts large language models to downstream tasks by providing a few examples. Few-shot selection -- selecting appropriate examples for each test instance separately -- is important for in-context learning. In this paper, we propose Skill-KNN, a skill-based few-shot selection method for in-context learning. The key advantages of Skill-KNN include: (1) it addresses the problem that existing methods based on pre-trained embeddings can be easily biased by surface natural language features that are not important for the target task; (2) it does not require training or fine-tuning of any models, making it suitable for frequently expanding or changing example banks. The key insight is to optimize the inputs fed into the embedding model, rather than tuning the model itself. Technically, Skill-KNN generates the skill-based representations for each test case and candidate example by utilizing a pre-processing few-shot prompting, thus eliminating unimportant surface features. Experimental results across four cross-domain semantic parsing tasks and four backbone models show that Skill-KNN significantly outperforms existing methods.
翻訳日:2023-05-24 14:54:24 公開日:2023-05-23
# ドメインプライベートトランスフォーマー

Domain Private Transformers ( http://arxiv.org/abs/2305.14208v1 )

ライセンス: Link先を確認
Anmol Kabra, Ethan R. Elenberg(参考訳) 大規模で汎用的な言語モデルは、多くの異なる会話ドメインで印象的なパフォーマンスを示している。 マルチドメイン言語モデルは全体的なパープレキシティが低いが、その出力は入力プロンプトのドメイン内に留まることは保証されていない。 本稿では、条件付き言語モデルがドメイン間でリークする確率を定量化する新しい方法として、ドメインプライバシを提案する。 また,トークンレベルのドメイン分類に基づくポリシ関数を開発し,トレーニングモデルのドメインプライバシを改善するための効率的な微調整手法を提案する。 メンバシップ推論攻撃の実験により,提案手法は,微分プライベート言語モデルにおける最近の文献から適応した手法と同等の弾力性を有することが示された。

Large, general purpose language models have demonstrated impressive performance across many different conversational domains. While multi-domain language models achieve low overall perplexity, their outputs are not guaranteed to stay within the domain of a given input prompt. This paper proposes domain privacy as a novel way to quantify how likely a conditional language model will leak across domains. We also develop policy functions based on token-level domain classification, and propose an efficient fine-tuning method to improve the trained model's domain privacy. Experiments on membership inference attacks show that our proposed method has comparable resiliency to methods adapted from recent literature on differentially private language models.
翻訳日:2023-05-24 14:54:02 公開日:2023-05-23
# SAD: RGBDのセグメンテーション

SAD: Segment Any RGBD ( http://arxiv.org/abs/2305.14207v1 )

ライセンス: Link先を確認
Jun Cen, Yizheng Wu, Kewei Wang, Xingyi Li, Jingkang Yang, Yixuan Pei, Lingdong Kong, Ziwei Liu, Qifeng Chen(参考訳) Segment Anything Model (SAM)は、2D RGB画像の任意の部分のセグメント化の有効性を示した。 しかし、サムはrgb画像のセグメンテーション時に幾何情報にあまり注意を払わず、テクスチャ情報に重点を置いている。 この制限に対処するために,画像から直接幾何情報を抽出するために特別に設計されたsegment any rgbd (sad)モデルを提案する。 深度マップの可視化を通して、人間が物体を識別する自然の能力に触発されて、SADはSAMを使用して描画された深度マップを分割し、拡張された幾何情報と過剰なセグメンテーションの問題を緩和する手がかりを提供する。 さらに、我々のフレームワークには、オープンボキャブラリーセマンティクスセグメンテーション(open-vocabulary semantic segmentation)が含まれており、3d panopticセグメンテーションが実現する。 このプロジェクトはhttps://github.com/Jun-CEN/SegmentAnyRGBDで入手できる。

The Segment Anything Model (SAM) has demonstrated its effectiveness in segmenting any part of 2D RGB images. However, SAM exhibits a stronger emphasis on texture information while paying less attention to geometry information when segmenting RGB images. To address this limitation, we propose the Segment Any RGBD (SAD) model, which is specifically designed to extract geometry information directly from images. Inspired by the natural ability of humans to identify objects through the visualization of depth maps, SAD utilizes SAM to segment the rendered depth map, thus providing cues with enhanced geometry information and mitigating the issue of over-segmentation. We further include the open-vocabulary semantic segmentation in our framework, so that the 3D panoptic segmentation is fulfilled. The project is available on https://github.com/Jun-CEN/SegmentAnyRGBD.
翻訳日:2023-05-24 14:53:50 公開日:2023-05-23
# $\mu$PLAN: クロスリンガルブリッジとしてのコンテンツプランを用いた要約

$\mu$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge ( http://arxiv.org/abs/2305.14205v1 )

ライセンス: Link先を確認
Fantine Huot, Joshua Maynez, Chris Alberti, Reinald Kim Amplayo, Priyanka Agrawal, Constanza Fierro, Shashi Narayan, Mirella Lapata(参考訳) 言語間の要約は、異なる言語で入力文書が与えられた1つの言語で要約を生成し、他の言語の話者間で関連コンテンツの拡散を可能にする。 しかし、言語間データセットの必要性と、要約と翻訳の複合的な難しさから、この課題は依然として困難である。 この研究は、中間計画段階を言語横断橋として利用する言語横断要約へのアプローチである$\mu$PLANを提示する。 我々は,サマリの概念化を捉えたエンティティのシーケンス,すなわち,サニエントコンテンツの識別と,表層形式とは別個の情報提示の順序表現としてプランを定式化する。 多言語知識ベースを用いて、そのエンティティを言語間の標準指定と整合させる。 まず、$\mu$planモデルはプランを生成し、その後プランとインプットに基づいて条件付けられたサマリーを生成します。 提案手法は,4言語間の言語間ペアを用いたXWikisデータセット上で評価し,ROUGEと忠実度スコアの観点から,最先端のパフォーマンスを実現することを実証する。 さらに、この計画手法は、非計画ベースラインに比べて、新たな言語間ペアへのゼロショット転送を改善する。

Cross-lingual summarization consists of generating a summary in one language given an input document in a different language, allowing for the dissemination of relevant content across speakers of other languages. However, this task remains challenging, mainly because of the need for cross-lingual datasets and the compounded difficulty of summarizing and translating. This work presents $\mu$PLAN, an approach to cross-lingual summarization that uses an intermediate planning step as a cross-lingual bridge. We formulate the plan as a sequence of entities that captures the conceptualization of the summary, i.e. identifying the salient content and expressing in which order to present the information, separate from the surface form. Using a multilingual knowledge base, we align the entities to their canonical designation across languages. $\mu$PLAN models first learn to generate the plan and then continue generating the summary conditioned on the plan and the input. We evaluate our methodology on the XWikis dataset on cross-lingual pairs across four languages and demonstrate that this planning objective achieves state-of-the-art performance in terms of ROUGE and faithfulness scores. Moreover, this planning approach improves the zero-shot transfer to new cross-lingual language pairs compared to non-planning baselines.
翻訳日:2023-05-24 14:53:34 公開日:2023-05-23
# メトリック学習に基づく正常音声と無声音声の視覚音声認識におけるギャップの改善

Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric Learning ( http://arxiv.org/abs/2305.14203v1 )

ライセンス: Link先を確認
Sara Kashiwagi, Keitaro Tanaka, Qi Feng, Shigeo Morishima(参考訳) 本稿では,視覚音声認識(VSR)における正常音声と無声音声のパフォーマンスギャップに対処する新しい距離学習手法を提案する。 両者の唇の動きの違いは既存のVSRモデルにとって困難であり、無声音声に適用すると劣化した精度を示す。 この問題を解決し,サイレントスピーチの訓練データの不足に対処するために,正規音声とサイレント音声の共有リテラルコンテンツを活用し,バイセムに基づくメトリック学習手法を提案する。 具体的には,2種類の音声の入力を,類似のビセム表現を持つ場合の潜時空間にマッピングすることを目的とする。 2つの音声タイプ間の予測されたビジーム確率分布のkullback-leibler発散を最小化することにより、実測のアイデンティティを効果的に学習し予測する。 本手法は,限られた訓練データであってもサイレントVSRの精度を向上させることを示す。

This paper presents a novel metric learning approach to address the performance gap between normal and silent speech in visual speech recognition (VSR). The difference in lip movements between the two poses a challenge for existing VSR models, which exhibit degraded accuracy when applied to silent speech. To solve this issue and tackle the scarcity of training data for silent speech, we propose to leverage the shared literal content between normal and silent speech and present a metric learning approach based on visemes. Specifically, we aim to map the input of two speech types close to each other in a latent space if they have similar viseme representations. By minimizing the Kullback-Leibler divergence of the predicted viseme probability distributions between and within the two speech types, our model effectively learns and predicts viseme identities. Our evaluation demonstrates that our method improves the accuracy of silent VSR, even when limited training data is available.
翻訳日:2023-05-24 14:53:11 公開日:2023-05-23
# wikidataを用いたsequence-to-sequenceセマンティクス解析によるgpt-3の補完

Complementing GPT-3 with Few-Shot Sequence-to-Sequence Semantic Parsing over Wikidata ( http://arxiv.org/abs/2305.14202v1 )

ライセンス: Link先を確認
Silei Xu, Theo Culhane, Meng-Hsi Wu, Sina J. Semnani, Monica S. Lam(参考訳) 最大の知識基盤として、Wikidataは膨大な知識源であり、構造化されたデータで大きな言語モデルを補完する。 本稿では,Wikidataの高品質な知識ベース質問応答ベンチマークであるWikiWebQuestionsを紹介する。 今回のベンチマークでは、Wikidataの最新の回答を利用した大規模言語モデルとのより正確な比較を容易にするために、SPARQLアノテーションを使用した現実世界の人間データを使用する。 さらに、このベンチマークのベースラインは、効果的なトレーニングデータ合成方法論と、大きなノイズの多い知識グラフを処理するseq2seqセマンティックパーサであるwikispで確立されている。 実験結果は,開発セットとテストセットでそれぞれ69%,回答精度59%を達成し,本手法の有効性を実証した。 GPT-3とセマンティックパーザを組み合わせて検証結果と有資格推定の組み合わせを提供することで,ベンチマークのディベロップメントセットの97%に有用な回答が得られることを示した。

As the largest knowledge base, Wikidata is a massive source of knowledge, complementing large language models with well-structured data. In this paper, we present WikiWebQuestions, a high-quality knowledge base question answering benchmark for Wikidata. This new benchmark uses real-world human data with SPARQL annotation to facilitate a more accurate comparison with large language models utilizing the up-to-date answers from Wikidata. Additionally, a baseline for this benchmark is established with an effective training data synthesis methodology and WikiSP, a Seq2Seq semantic parser, that handles large noisy knowledge graphs. Experimental results illustrate the effectiveness of this methodology, achieving 69% and 59% answer accuracy in the dev set and test set, respectively. We showed that we can pair semantic parsers with GPT-3 to provide a combination of verifiable results and qualified guesses that can provide useful answers to 97% of the questions in the dev set of our benchmark.
翻訳日:2023-05-24 14:52:53 公開日:2023-05-23
# goat: 算術タスクでgpt-4を上回る微調整ラマ

Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks ( http://arxiv.org/abs/2305.14201v1 )

ライセンス: Link先を確認
Tiedong Liu and Bryan Kian Hsiang Low(参考訳) 我々は,GPT-4を演算タスクの範囲で大幅に上回る微調整LLaMAモデルであるGoatを紹介する。 合成データセットに基づいて微調整されたGoatは、BIG-bench算術サブタスク上で最先端のパフォーマンスを達成する。 特に、ゼロショットのGoat-7Bは、数発のPaLM-540Bで達成された精度を上回ります。 驚いたことに、Goatは教師付き微調整のみによって、大容量の追加と減算においてほぼ完璧な精度を達成できるが、Bloom、OPT、GPT-NeoXといった以前の事前訓練言語モデルでは不可能に近い。 ゴートの例外的な性能は、LLaMAの数値の一貫したトークン化に起因する。 本稿では,多桁乗算や除算といった課題に対処するため,学習可能性に基づいてタスクを分類し,その後,多桁乗算や除算などの未学習タスクを,基本的算術原理を利用して一連の学習可能なタスクに分解する手法を提案する。 本モデルの性能を徹底的に検証し,提案手法の有効性を総合的に評価した。 さらに、Goat-7Bは24GBのVRAM GPU上でLoRAを使って簡単にトレーニングすることができ、他の研究者の再現性を促進することができる。 データセット生成のためのモデル、データセット、Pythonスクリプトをリリースします。

We introduce Goat, a fine-tuned LLaMA model that significantly outperforms GPT-4 on a range of arithmetic tasks. Fine-tuned on a synthetically generated dataset, Goat achieves state-of-the-art performance on BIG-bench arithmetic sub-task. In particular, the zero-shot Goat-7B matches or even surpasses the accuracy achieved by the few-shot PaLM-540B. Surprisingly, Goat can achieve near-perfect accuracy on large-number addition and subtraction through supervised fine-tuning only, which is almost impossible with previous pretrained language models, such as Bloom, OPT, GPT-NeoX, etc. We attribute Goat's exceptional performance to LLaMA's consistent tokenization of numbers. To tackle more challenging tasks like large-number multiplication and division, we propose an approach that classifies tasks based on their learnability, and subsequently decomposes unlearnable tasks, such as multi-digit multiplication and division, into a series of learnable tasks by leveraging basic arithmetic principles. We thoroughly examine the performance of our model, offering a comprehensive evaluation of the effectiveness of our proposed decomposition steps. Additionally, Goat-7B can be easily trained using LoRA on a 24GB VRAM GPU, facilitating reproducibility for other researchers. We release our model, dataset, and the Python script for dataset generation.
翻訳日:2023-05-24 14:52:36 公開日:2023-05-23
# 教師なし翻訳のための高次元アクセス

Accessing Higher Dimensions for Unsupervised Word Translation ( http://arxiv.org/abs/2305.14200v1 )

ライセンス: Link先を確認
Sida I. Wang(参考訳) 教師なしの単語翻訳の顕著な能力は、単語ベクトル/事前学習の助けを借りて実証されてきたが、それらは大量のデータを必要とし、通常、データが異なるドメインから来ると失敗する。 本研究では,高次元共起数あるいは低次元近似を用いたcoocmapを提案する。 低次元の限界から解放された我々は、低次元ベクトルとその付随的性質に依存することは、高次元のより良い分別法と有用な世界知識を逃し、データのポテンシャルを阻害することを示している。 我々の結果は、教師なしの翻訳は従来考えられていたよりも簡単かつ堅牢に達成できることを示します - フィンランド語、ハンガリー語、中国語の翻訳において、同様のデータでトレーニングされた場合、80MB未満のCPU時間と50%以上の正確さが要求されます。 これらの結果は、低次元ベクトルの必要性と優越性に関する仮定に挑み、同様に処理された共曲は、他のタスクでも密集したベクトルを上回ることができることを示唆する。

The striking ability of unsupervised word translation has been demonstrated with the help of word vectors / pretraining; however, they require large amounts of data and usually fails if the data come from different domains. We propose coocmap, a method that can use either high-dimensional co-occurrence counts or their lower-dimensional approximations. Freed from the limits of low dimensions, we show that relying on low-dimensional vectors and their incidental properties miss out on better denoising methods and useful world knowledge in high dimensions, thus stunting the potential of the data. Our results show that unsupervised translation can be achieved more easily and robustly than previously thought -- less than 80MB and minutes of CPU time is required to achieve over 50\% accuracy for English to Finnish, Hungarian, and Chinese translations when trained on similar data; even under domain mismatch, we show coocmap still works fully unsupervised on English NewsCrawl to Chinese Wikipedia and English Europarl to Spanish Wikipedia, among others. These results challenge prevailing assumptions on the necessity and superiority of low-dimensional vectors, and suggest that similarly processed co-occurrences can outperform dense vectors on other tasks too.
翻訳日:2023-05-24 14:52:15 公開日:2023-05-23
# 多分オブジェクト中心表現を学習する

Provably Learning Object-Centric Representations ( http://arxiv.org/abs/2305.14229v1 )

ライセンス: Link先を確認
Jack Brady, Roland S. Zimmermann, Yash Sharma, Bernhard Sch\"olkopf, Julius von K\"ugelgen, Wieland Brendel(参考訳) オブジェクトの観点から視覚世界の構造化表現を学ぶことは、現在の機械学習モデルの一般化能力を大幅に改善することを約束する。 この目的への最近の取り組みは有望な実証的進歩を示しているが、教師なしのオブジェクト中心表現学習がいつ可能かという理論的説明はまだ欠けている。 その結果、既存のオブジェクト指向手法の成功の理由と、新しい理論的根拠を持つ手法の設計は依然として困難である。 本研究では,オブジェクト中心表現が監視なしで確実に学習できるかを分析する。 この目的のために,まず,複数の対象からなるシーンの生成過程について,構成性と既約性という2つの仮定を導入する。 この生成過程の下では、オブジェクト間の依存関係が存在する場合でも、基底オブジェクト表現は可逆および合成推論モデルによって識別可能であることが証明される。 人工データを用いた実験により,実験結果を実証的に検証した。 最後に,本理論がモデルの構成性と可逆性と経験的識別可能性との密接な対応を示すことによって,既存の対象中心モデルに対する予測力を持つことを示す。

Learning structured representations of the visual world in terms of objects promises to significantly improve the generalization abilities of current machine learning models. While recent efforts to this end have shown promising empirical progress, a theoretical account of when unsupervised object-centric representation learning is possible is still lacking. Consequently, understanding the reasons for the success of existing object-centric methods as well as designing new theoretically grounded methods remains challenging. In the present work, we analyze when object-centric representations can provably be learned without supervision. To this end, we first introduce two assumptions on the generative process for scenes comprised of several objects, which we call compositionality and irreducibility. Under this generative process, we prove that the ground-truth object representations can be identified by an invertible and compositional inference model, even in the presence of dependencies between objects. We empirically validate our results through experiments on synthetic data. Finally, we provide evidence that our theory holds predictive power for existing object-centric models by showing a close correspondence between models' compositionality and invertibility and their empirical identifiability.
翻訳日:2023-05-24 14:46:24 公開日:2023-05-23
# 局所的一般化測定による二部交絡検出

Bipartite entanglement detection by local generalized measurements ( http://arxiv.org/abs/2305.14226v1 )

ライセンス: Link先を確認
Maximilian Schumacher, Gernot Alber(参考訳) 遠方の観測者が行うことができる局所的な測定による絡み合い検出は、量子鍵分布や量子通信の応用に特に興味を持っている。 本稿では, 相関行列とそのような局所測定の連接確率分布に基づく任意の次元二部交絡検出のための十分条件について検討する。 特に、局所的な測定の性質への依存は、典型的な二部分量子状態や、最近導入された$(N,M)$-type ($(N,M)$-POVMs) \cite{NMPOVM} の情報的に完備な正の演算子値測定に基づく局所正則エルミート演算子基底(LOOs)を含む測定、あるいは一般化された測定のために調べられる。 n,m)$-povmの対称性は,二成分の絡み合い検出に十分な条件が等しく効率的な局所絡み合い検出シナリオに関連する特異なスケーリング特性を示すことを示している。 例えば相関行列に基づく局所的絡み合い検出では、LOOと全ての情報的に完備な$(N,M)$-POVMが等しく強力である。 ヒット・アンド・ランのモンテカルロアルゴリズムを用いて、典型的な二部量子状態の局所絡み検出の有効性を数値的に検討する。 この目的のために、局所的に検出可能な絡み合い状態と全ての二成分量子状態との間のユークリッド体積比を決定する。

Entanglement detection by local measurements, which can possibly be performed by far distant observers, are of particular interest for applications in quantum key distribution and quantum communication. In this paper sufficient conditions for arbitrary dimensional bipartite entanglement detection based on correlation matrices and joint probability distributions of such local measurements are investigated. In particular, their dependence on the nature of the local measurements is explored for typical bipartite quantum states and for measurements involving local orthonormal hermitian operators bases (LOOs) or generalized measurements based on informationally complete positive operator valued measures of the recently introduced $(N,M)$-type ($(N,M)$-POVMs) \cite{NMPOVM}. It is shown that symmetry properties of $(N,M)$-POVMs imply that sufficient conditions for bipartite entanglement detection exhibit peculiar scaling properties relating different equally efficient local entanglement detection scenarios. For correlation-matrix based bipartite local entanglement detection, for example, this has the consequence that LOOs and all informationally complete $(N,M)$-POVMs are equally powerful. With the help of a hit-and-run Monte-Carlo algorithm the effectiveness of local entanglement detection of typical bipartite quantum states is explored numerically. For this purpose Euclidean volume ratios between locally detectable entangled states and all bipartite quantum states are determined.
翻訳日:2023-05-24 14:46:06 公開日:2023-05-23
# ManiTweet: ソーシャルメディア上のニュースの操作を識別するための新しいベンチマーク

ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media ( http://arxiv.org/abs/2305.14225v1 )

ライセンス: Link先を確認
Kung-Hsiang Huang, Hou Pong Chan, Kathleen McKeown, Heng Ji(参考訳) 事実確認と忠実な要約の領域において、参照記事から得られる情報の誤表現に対処するための重要な進歩がなされている。 しかし、未修正の側面が残っており、関連するニュース記事内の情報を操作するソーシャルメディア投稿の特定がされている。 この課題は、主にそのような役職における個人的な意見が広まることから、大きな課題となる。 ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。 この課題を検討するため,我々はデータ収集スキーマを提案し,3.6k対のつぶやきと対応する記事からなるmanitweetというデータセットをキュレートした。 我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。 さらに, ManiTweet データセット上で LLM を大幅に上回る,単純かつ効果的な基本モデルを開発した。 最後に、人書きツイートの探索分析を行い、操作とドメイン間の興味深いつながりとニュース記事の事実を明らかにするとともに、操作された文章がニュースメディアのメインストーリーや結果をカプセル化しやすいことを明らかにした。

Considerable advancements have been made to tackle the misrepresentation of information derived from reference articles in the domains of fact-checking and faithful summarization. However, an unaddressed aspect remains - the identification of social media posts that manipulate information within associated news articles. This task presents a significant challenge, primarily due to the prevalence of personal opinions in such posts. We present a novel task, identifying manipulation of news on social media, which aims to detect manipulation in social media posts and identify manipulated or inserted information. To study this task, we have proposed a data collection schema and curated a dataset called ManiTweet, consisting of 3.6K pairs of tweets and corresponding articles. Our analysis demonstrates that this task is highly challenging, with large language models (LLMs) yielding unsatisfactory performance. Additionally, we have developed a simple yet effective basic model that outperforms LLMs significantly on the ManiTweet dataset. Finally, we have conducted an exploratory analysis of human-written tweets, unveiling intriguing connections between manipulation and the domain and factuality of news articles, as well as revealing that manipulated sentences are more likely to encapsulate the main story or consequences of a news outlet.
翻訳日:2023-05-24 14:45:38 公開日:2023-05-23
# mmt5:modular multilingual pre-trainingは、ソース言語幻覚を解消する

mmT5: Modular Multilingual Pre-Training Solves Source Language Hallucinations ( http://arxiv.org/abs/2305.14224v1 )

ライセンス: Link先を確認
Jonas Pfeiffer, Francesco Piccinno, Massimo Nicosia, Xinyi Wang, Machel Reid, Sebastian Ruder(参考訳) 多言語シーケンス・ツー・シーケンスモデルでは、言語カバレッジの増加とともに性能が悪く、数ショット設定で適切なターゲット言語でテキストを一貫して生成できない。 これらの課題に対処するため,モジュール型多言語シーケンス列列モデルmmT5を提案する。 mmT5は事前訓練中に言語固有のモジュールを使用し、言語に依存しない情報から言語固有の情報を遠ざけている。 モジュラー生成モデルの鍵となる制限として,微調整時の表現ドリフトを識別し,効果的なゼロショット転送を可能にする戦略を開発する。 我々のモデルは、40以上の言語における代表的自然言語理解および生成タスクにおいて、mT5を同じパラメータサイズで比較する。 mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する確率を7%から99%に引き上げ、ソースコードの幻覚の問題を大幅に緩和する。

Multilingual sequence-to-sequence models perform poorly with increased language coverage and fail to consistently generate text in the correct target language in few-shot settings. To address these challenges, we propose mmT5, a modular multilingual sequence-to-sequence model. mmT5 utilizes language-specific modules during pre-training, which disentangle language-specific information from language-agnostic information. We identify representation drift during fine-tuning as a key limitation of modular generative models and develop strategies that enable effective zero-shot transfer. Our model outperforms mT5 at the same parameter sizes by a large margin on representative natural language understanding and generation tasks in 40+ languages. Compared to mT5, mmT5 raises the rate of generating text in the correct language under zero-shot settings from 7% to 99%, thereby greatly alleviating the source language hallucination problem.
翻訳日:2023-05-24 14:45:19 公開日:2023-05-23
# 共学の実証ゲームと世界モデル

Co-Learning Empirical Games and World Models ( http://arxiv.org/abs/2305.14223v1 )

ライセンス: Link先を確認
Max Olan Smith, Michael P. Wellman(参考訳) ゲームベースの意思決定は、エージェント間のワールドダイナミクスと戦略的相互作用の両方を推論する。 典型的には、これらの各側面を捉えた経験モデルが別々に学習され、使用される。 これらの要素を共同学習することで得られる可能性について検討する。ダイナミックスの世界モデルと戦略的相互作用の実証ゲームである。 実証ゲームは、戦略プロファイルの多様性によって引き起こされるゲームダイナミクスのより広範な考慮に向けて世界モデルを駆動する。 逆に、世界モデルは経験的なゲームをガイドし、計画を通じて新しい戦略を効率的に発見する。 実験ゲームと世界モデルを共同学習する新しいアルゴリズムDyna-PSROによって実現されたように,これらの利点をまず独立して示す。 ベースラインな経験ゲーム構築アルゴリズムであるPSROと比較して、Dyna-PSROは部分的に観測可能な汎用ゲームにおいて、低い後悔解を計算する。 実験では,プレイヤとプレイヤのインタラクションデータを収集する際のアルゴリズム上の利点として,PSROよりもはるかに少ないエクスペリエンスを必要とする。

Game-based decision-making involves reasoning over both world dynamics and strategic interactions among the agents. Typically, empirical models capturing these respective aspects are learned and used separately. We investigate the potential gain from co-learning these elements: a world model for dynamics and an empirical game for strategic interactions. Empirical games drive world models toward a broader consideration of possible game dynamics induced by a diversity of strategy profiles. Conversely, world models guide empirical games to efficiently discover new strategies through planning. We demonstrate these benefits first independently, then in combination as realized by a new algorithm, Dyna-PSRO, that co-learns an empirical game and a world model. When compared to PSRO -- a baseline empirical-game building algorithm, Dyna-PSRO is found to compute lower regret solutions on partially observable general-sum games. In our experiments, Dyna-PSRO also requires substantially fewer experiences than PSRO, a key algorithmic advantage for settings where collecting player-game interaction data is a cost-limiting factor.
翻訳日:2023-05-24 14:45:04 公開日:2023-05-23
# 時間に敏感な質問を解くためのプログラミングとしての質問答え

Question Answering as Programming for Solving Time-Sensitive Questions ( http://arxiv.org/abs/2305.14221v1 )

ライセンス: Link先を確認
Xinyu Zhu, Cheng Yang, Bei Chen, Siheng Li, Jian-Guang Lou, Yujiu Yang(参考訳) この作業では、質問回答タスクをプログラミング(QAaP)として再編成するために、LLM(Large Language Models)を適用しようとしています。 現実の世界の本質的な動的な性質のため、現実的な質問はしばしば象徴的な制約を伴う:時間、これらの質問を解決するには、広い世界の知識だけでなく、時間的制約を満たす高度な推論能力も必要である。 LLMが様々なNLPタスクで顕著なインテリジェンスを示したにも拘わらず、上記の問題が既存のLLMに重大な課題をもたらし続けていることが明らかとなった。 これらの時間に敏感な事実問題を解決するために、現代のLLMは自然言語の理解とプログラミングの両方において優れた能力を持っていることを考慮し、多様に表現されたテキストとよく構造化されたコードを表現するためにLLMを活用し、基礎となる記号的制約とともに所望の知識を把握する。

In this work we try to apply Large Language Models (LLMs) to reframe the Question Answering task as Programming (QAaP). Due to the inherent dynamic nature of the real world, factual questions frequently involve a symbolic constraint: time, solving these questions necessitates not only extensive world knowledge, but also advanced reasoning ability to satisfy the temporal constraints. Despite the remarkable intelligence exhibited by LLMs in various NLP tasks, our experiments reveal that the aforementioned problems continue to pose a significant challenge to existing LLMs. To solve these time-sensitive factual questions, considering that modern LLMs possess superior ability in both natural language understanding and programming,we endeavor to leverage LLMs to represent diversely expressed text as well-structured code, and thereby grasp the desired knowledge along with the underlying symbolic constraint.
翻訳日:2023-05-24 14:44:28 公開日:2023-05-23
# DUBLIN -- 言語画像ネットワークによる文書理解

DUBLIN -- Document Understanding By Language-Image Network ( http://arxiv.org/abs/2305.14218v1 )

ライセンス: Link先を確認
Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu, Monojit Choudhury, Subhojit Som, Vishrav Chaudhary, Saurabh Tiwary(参考訳) 視覚的文書理解は、文書画像中のテキストとビジュアル要素の両方を分析する複雑なタスクである。 既存のモデルは、しばしば手動の機能エンジニアリングやドメイン固有のパイプラインに依存しており、異なるドキュメントタイプや言語での一般化能力を制限する。 本稿では,文書画像の空間的・意味的な情報を利用する3つの新しい目的,マスド文書コンテンツ生成タスク,バウンディングボックスタスク,およびRendered Question Answeringタスクを用いて,Webページ上で事前学習を行うDUBLINを提案する。 webベースの構造的読解、文書による視覚的質問応答、キー情報抽出、ダイアグラム理解、テーブル質問応答など、いくつかのベンチマークでモデルを評価した。 我々のモデルは,これらのタスクにおける最先端モデルよりも,競争力や優れた結果が得られることを示す。 特に, DUBLIN は WebSRC データセット上で 77.75 と 84.25 の EM を達成する最初のピクセルベースモデルであることを示す。 また,本モデルでは,DocVQAおよびAI2Dデータセットにおける現行の画素ベースSOTAモデルよりも,それぞれ2%,21%の性能向上を示す。 また、DUBLINは、セマンティックエンティティ認識のためのXFUNDデータセット上のテキストベースのSOTAメソッドに匹敵する、最初のピクセルベースモデルである。 さらに、文書画像としてレンダリングし、このモデルを適用することで、テキストベースのデータセットの新しいベースラインを作成する。

Visual document understanding is a complex task that involves analyzing both the text and the visual elements in document images. Existing models often rely on manual feature engineering or domain-specific pipelines, which limit their generalization ability across different document types and languages. In this paper, we propose DUBLIN, which is pretrained on webpages using three novel objectives that leverage the spatial and semantic information in the document images: Masked Document Content Generation Task, Bounding Box Task, and Rendered Question Answering Task. We evaluate our model on several benchmarks, such as Web-Based Structural Reading Comprehension, Document Visual Question Answering, Key Information Extraction, Diagram Understanding, and Table Question Answering. We show that our model achieves competitive or better results than the state-of-the-art models on these tasks. In particular, we show that DUBLIN is the first pixel-based model to achieve an EM of 77.75 and F1 of 84.25 on the WebSRC dataset. We also show that our model outperforms the current pixel-based SOTA models on DocVQA and AI2D datasets by significant margins, 2% and 21% increase in performance, respectively. Also, DUBLIN is the first ever pixel-based model which achieves comparable to text-based SOTA methods on XFUND dataset for Semantic Entity Recognition showcasing its multilingual capability. Moreover, we create new baselines for text-based datasets by rendering them as document images and applying this model.
翻訳日:2023-05-24 14:44:09 公開日:2023-05-23
# 制約付き近位政策最適化

Constrained Proximal Policy Optimization ( http://arxiv.org/abs/2305.14216v1 )

ライセンス: Link先を確認
Chengbin Xuan, Feng Zhang, Faliang Yin, Hak-Keung Lam(参考訳) 制約強化学習(CRL)の問題は、強化学習(RL)分野における重要な安全満足度に対処するための枠組みを提供するため、重要である。 しかし、制約満足度の導入により、現在のCRL法はラグランジアン乗算器を付加した二階最適化や原始双対フレームワークの利用が必要となり、実装の複雑さと非効率性が増大する。 そこで本研究では,制約付き近位政策最適化 (cppo) という新しい一階法を提案する。 CRL問題を確率的推論問題として扱うことにより、予測最大化フレームワークを統合し、2つのステップで解決する。 1)実現可能な領域(E段階)内の最適政策分布を計算し、 2)eステップ(mステップ)で得られた最適方針に向けて、現在の方針を調整するための第1次更新を行う。 我々は,Eステップを凸最適化問題に変換するために,確率比とKL分岐の関係を確立する。 さらに,この問題を解決するために,幾何学的観点から反復ヒューリスティックアルゴリズムを開発した。 さらに,既存の適用可能な領域法で発生する制約違反を克服する保守的な更新機構を導入する。 複雑で不確定な環境で実施した経験的評価は,提案手法の有効性を検証する。

The problem of constrained reinforcement learning (CRL) holds significant importance as it provides a framework for addressing critical safety satisfaction concerns in the field of reinforcement learning (RL). However, with the introduction of constraint satisfaction, the current CRL methods necessitate the utilization of second-order optimization or primal-dual frameworks with additional Lagrangian multipliers, resulting in increased complexity and inefficiency during implementation. To address these issues, we propose a novel first-order feasible method named Constrained Proximal Policy Optimization (CPPO). By treating the CRL problem as a probabilistic inference problem, our approach integrates the Expectation-Maximization framework to solve it through two steps: 1) calculating the optimal policy distribution within the feasible region (E-step), and 2) conducting a first-order update to adjust the current policy towards the optimal policy obtained in the E-step (M-step). We establish the relationship between the probability ratios and KL divergence to convert the E-step into a convex optimization problem. Furthermore, we develop an iterative heuristic algorithm from a geometric perspective to solve this problem. Additionally, we introduce a conservative update mechanism to overcome the constraint violation issue that occurs in the existing feasible region method. Empirical evaluations conducted in complex and uncertain environments validate the effectiveness of our proposed method, as it performs at least as well as other baselines.
翻訳日:2023-05-24 14:43:45 公開日:2023-05-23
# テキストからSQLへのチェーン型プロンプトの探索

Exploring Chain-of-Thought Style Prompting for Text-to-SQL ( http://arxiv.org/abs/2305.14215v1 )

ライセンス: Link先を確認
Chang-You Tai, Ziru Chen, Tianshu Zhang, Xiang Deng and Huan Sun(参考訳) テキストからSQLへのパースのための従来の教師付きアプローチは、大量の注釈付きデータを必要とすることが多い。 近年,大規模言語モデル(LLM)を用いたインコンテキスト学習が注目されている。 しかし、テキストからSQLへのパースにコンテキスト内学習を使おうとする試みのほとんどは、教師付きメソッドに遅れを取っている。 我々は,テキストからSQLへの解析には複雑で多段階の推論が必要であるため,性能が低いと仮定する。 本稿では,CoTプロンプトやLast-to-Mostプロンプトを含むチェーン・オブ・シント(CoT)スタイルのプロンプトを通したテキスト-SQL解析におけるLCMの推論能力の向上について,体系的に検討する。 私たちの実験では、テキストからsqlへのパースや、既存のcotスタイルのプロンプトメソッドを直接適用するとエラー伝搬の問題が発生する可能性がある。 誤り伝播につながる可能性のある推論ステップにおいて,詳細な情報を避けつつ,多段階推論を改善することにより,本手法は既存手法を2.4ポイントの絶対値で上回る。

Conventional supervised approaches for text-to-SQL parsing often require large amounts of annotated data, which is costly to obtain in practice. Recently, in-context learning with large language models (LLMs) has caught increasing attention due to its superior few-shot performance in a wide range of tasks. However, most attempts to use in-context learning for text-to-SQL parsing still lag behind supervised methods. We hypothesize that the under-performance is because text-to-SQL parsing requires complex, multi-step reasoning. In this paper, we systematically study how to enhance the reasoning ability of LLMs for text-to-SQL parsing through chain-of-thought (CoT) style promptings including CoT prompting and Least-to-Most prompting. Our experiments demonstrate that iterative prompting as in Least-to-Most prompting may be unnecessary for text-to-SQL parsing and directly applying existing CoT style prompting methods leads to error propagation issues. By improving multi-step reasoning while avoiding much detailed information in the reasoning steps which may lead to error propagation, our new method outperforms existing ones by 2.4 point absolute gains on the Spider development set.
翻訳日:2023-05-24 14:43:22 公開日:2023-05-23
# 位相結合干渉計を用いたパラドックス

Paradox with Phase-Coupled Interferometers ( http://arxiv.org/abs/2305.14241v1 )

ライセンス: Link先を確認
Saba Etezad-Razavi and Lucien Hardy(参考訳) 一対の干渉計は、それぞれから1つの経路が重なり合うように結合することができ、この重なり合う領域で粒子が交わると消滅する。 30年以上前の我々の一人は、このような消滅結合干渉計が明らかにパラドックス的な振る舞いを示すことを示した。 最近では、BoseらとMarlettoとVedralは、位相カップリングされた2つの干渉計(重力相互作用による結合)を検討した。 この場合、各干渉計からの1つの経路が位相結合相互作用を受ける。 これらの位相結合型干渉計は消滅結合型干渉計と同じ明らかなパラドックスを示すが、奇妙な双対的な方法である。

A pair of interferometers can be coupled by allowing one path from each to overlap such that if the particles meet in this overlap region, they annihilate. It was shown by one of us over thirty years ago that such annihilation-coupled interferometers can exhibit apparently paradoxical behaviour. More recently, Bose et al. and Marletto and Vedral have considered a pair of interferometers that are phase-coupled (where the coupling is through gravitational interaction). In this case one path from each interferometer undergoes a phase-coupling interaction. We show that these phase-coupled interferometers exhibit the same apparent paradox as the annihilation-coupled interferometers, though in a curiously dual manner.
翻訳日:2023-05-24 14:35:12 公開日:2023-05-23
# 言語横断分類のための機械翻訳の再検討

Revisiting Machine Translation for Cross-lingual Classification ( http://arxiv.org/abs/2305.14240v1 )

ライセンス: Link先を確認
Mikel Artetxe, Vedanuj Goswami, Shruti Bhosale, Angela Fan, Luke Zettlemoyer(参考訳) 機械翻訳(mt)は、テストセットを英語に翻訳し、単言語モデル(translate-test)で推論を実行するか、トレーニングセットをターゲット言語に翻訳し、多言語モデル(translate-train)を微調整することによって、言語横断分類に広く使われている。 しかし、この分野のほとんどの研究はMT成分ではなく多言語モデルに焦点を当てている。 より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。 しかし、最適なアプローチはタスクに依存しており、異なるタスクやアプローチに影響を与える様々な言語間伝達ギャップの源を特定する。 本研究は,言語横断分類における多言語モデルの優位性に疑問を投げかけ,MTベースラインにもっと注意を払うことを促す。

Machine Translation (MT) has been widely used for cross-lingual classification, either by translating the test set into English and running inference with a monolingual model (translate-test), or translating the training set into the target languages and finetuning a multilingual model (translate-train). However, most research in the area focuses on the multilingual models rather than the MT component. We show that, by using a stronger MT system and mitigating the mismatch between training on original text and running inference on machine translated text, translate-test can do substantially better than previously assumed. The optimal approach, however, is highly task dependent, as we identify various sources of cross-lingual transfer gap that affect different tasks and approaches differently. Our work calls into question the dominance of multilingual models for cross-lingual classification, and prompts to pay more attention to MT-based baselines.
翻訳日:2023-05-24 14:35:00 公開日:2023-05-23
# 大規模言語モデルによる要約学習について

On Learning to Summarize with Large Language Models as References ( http://arxiv.org/abs/2305.14239v1 )

ライセンス: Link先を確認
Yixin Liu, Alexander R. Fabbri, Pengfei Liu, Dragomir Radev, Arman Cohan(参考訳) 近年の研究では、大言語モデル(LLM)によって生成された要約は、一般的に使用される要約データセットの本来の参照要約よりも人間のアノテーションに好まれている。 そこで本研究では,CNN/DailyMailデータセットなどの一般的な要約データセットにおいて,LLMを参照とみなすテキスト要約モデルの新たな学習パラダイムについて検討する。 新たな学習環境に整合した標準的実践を検討するため,LLMを用いたコントラスト学習を要約品質評価手法として提案する。 本手法では, GPTScore と GPTRank という2種類の LLM を用いた要約品質評価手法について検討する。 CNN/DailyMailデータセットを用いた実験により,提案手法によって訓練されたより小さな要約モデルにより,LLM自体が評価した基準LLMと同等以上の性能が得られることを示した。 このことは,標準最大推定(MLE)トレーニング法よりもモデル性能を向上させる上での本提案手法の有効性と,LLMへのアクセスに最小限の予算しか必要としないため,その効率性を裏付けるものである。 今後の研究を促進するために,トレーニングスクリプト,モデル出力,llmベースの評価結果をリリースする。

Recent studies have found that summaries generated by large language models (LLMs) are favored by human annotators over the original reference summaries in commonly used summarization datasets. Therefore, we investigate a new learning paradigm of text summarization models that considers the LLMs as the reference or the gold-standard oracle on commonly used summarization datasets such as the CNN/DailyMail dataset. To examine the standard practices that are aligned with the new learning setting, we propose a novel training method that is based on contrastive learning with LLMs as a summarization quality evaluator. For this reward-based training method, we investigate two different methods of utilizing LLMs for summary quality evaluation, namely GPTScore and GPTRank. Our experiments on the CNN/DailyMail dataset demonstrate that smaller summarization models trained by our proposed method can achieve performance equal to or surpass that of the reference LLMs, as evaluated by the LLMs themselves. This underscores the efficacy of our proposed paradigm in enhancing model performance over the standard maximum likelihood estimation (MLE) training method, and its efficiency since it only requires a small budget to access the LLMs. We release the training scripts, model outputs, and LLM-based evaluation results to facilitate future studies.
翻訳日:2023-05-24 14:34:43 公開日:2023-05-23
# HOP, UNION, Genee: Rationale Supervisionのない説明可能なマルチホップ推論

HOP, UNION, GENERATE: Explainable Multi-hop Reasoning without Rationale Supervision ( http://arxiv.org/abs/2305.14237v1 )

ライセンス: Link先を確認
Wenting Zhao and Justin T. Chiu and Claire Cardie and Alexander M. Rush(参考訳) 説明可能なマルチホップ質問応答(QA)は、回答を予測するだけでなく、理性も識別する。 e. 答えを導き出すために使われる入力文のサブセット。 この問題は教師付きセッティングの下で広く研究され、回答と合理性の両方が与えられる。 合理性アノテーションは収集にコストがかかり、必ずしも利用可能ではないため、最近の取り組みは合理性に対する監督に依存しない手法の開発に費やされてきた。 しかし,このような手法は文間の相互作用をモデル化する能力に限界がある。 本研究は、合理的な監督なしに説明可能なマルチホップQAシステムを訓練するための原則的確率論的アプローチを提案する。 本手法は,合理性を集合として明示的にモデル化することでマルチホップ推論を行い,文書内の文書と文間の相互作用をモデル化する。 実験の結果,提案手法は従来の手法よりも精度が高く,回答予測にも類似した精度を保っていることがわかった。

Explainable multi-hop question answering (QA) not only predicts answers but also identifies rationales, i. e. subsets of input sentences used to derive the answers. This problem has been extensively studied under the supervised setting, where both answer and rationale annotations are given. Because rationale annotations are expensive to collect and not always available, recent efforts have been devoted to developing methods that do not rely on supervision for rationales. However, such methods have limited capacities in modeling interactions between sentences, let alone reasoning across multiple documents. This work proposes a principled, probabilistic approach for training explainable multi-hop QA systems without rationale supervision. Our approach performs multi-hop reasoning by explicitly modeling rationales as sets, enabling the model to capture interactions between documents and sentences within a document. Experimental results show that our approach is more accurate at selecting rationales than the previous methods, while maintaining similar accuracy in predicting answers.
翻訳日:2023-05-24 14:34:23 公開日:2023-05-23
# REC-MV:モノクロ映像から3D動的衣服を再構築

REC-MV: REconstructing 3D Dynamic Cloth from Monocular Videos ( http://arxiv.org/abs/2305.14236v1 )

ライセンス: Link先を確認
Lingteng Qiu, Guanying Chen, Jiapeng Zhou, Mutian Xu, Junle Wang and Xiaoguang Han(参考訳) モノクロ映像から開放された境界で動的3D衣料表面を再構築することは、実用的で低コストな衣料デジタル化ソリューションを提供するため重要な問題である。 近年のニューラルレンダリング法は, モノクロ映像から高品質な動的布地を再現するが, 衣服表面を体から切り離すことはできない。 さらに, 特徴曲線表現に基づく既存の衣服再構築手法は, 単一画像からの衣服復元の印象的な結果を示すが, 映像入力に対して時間的に一貫した表面を生成するのに苦慮している。 本稿では,この課題を3次元衣料特徴曲線の最適化問題と単眼映像による表面再構成問題として定式化する。 衣服の明示的特徴曲線と暗黙的符号距離場(SDF)を協調的に最適化する,REC-MVと呼ばれる新しい手法を提案する。 そして、前記開衣メッシュを、前記正準空間における衣料テンプレート登録により抽出することができる。 複数のカジュアルにキャプチャされたデータセットの実験は、我々のアプローチが既存の手法より優れており、高品質な動的衣服表面を作り出すことができることを示している。 ソースコードはhttps://github.com/GAP-LAB-CUHK-SZ/REC-MVで入手できる。

Reconstructing dynamic 3D garment surfaces with open boundaries from monocular videos is an important problem as it provides a practical and low-cost solution for clothes digitization. Recent neural rendering methods achieve high-quality dynamic clothed human reconstruction results from monocular video, but these methods cannot separate the garment surface from the body. Moreover, despite existing garment reconstruction methods based on feature curve representation demonstrating impressive results for garment reconstruction from a single image, they struggle to generate temporally consistent surfaces for the video input. To address the above limitations, in this paper, we formulate this task as an optimization problem of 3D garment feature curves and surface reconstruction from monocular video. We introduce a novel approach, called REC-MV, to jointly optimize the explicit feature curves and the implicit signed distance field (SDF) of the garments. Then the open garment meshes can be extracted via garment template registration in the canonical space. Experiments on multiple casually captured datasets show that our approach outperforms existing methods and can produce high-quality dynamic garment surfaces. The source code is available at https://github.com/GAP-LAB-CUHK-SZ/REC-MV.
翻訳日:2023-05-24 14:34:06 公開日:2023-05-23
# 多言語大言語モデルは(Yet)コードスイッチアではない

Multilingual Large Language Models Are Not (Yet) Code-Switchers ( http://arxiv.org/abs/2305.14235v1 )

ライセンス: Link先を確認
Ruochen Zhang, Samuel Cahyawijaya, Jan Christian Blaise Cruz and Alham Fikri Aji(参考訳) 多言語大言語モデル(LLM)は、最近、様々なタスクにおいて優れた能力を示し、ほとんどショットやゼロショットのプロンプトメソッドを使用して最先端のパフォーマンスを示す。 これらのモデルは、入力が単一言語に属すると仮定されるタスクにおいて広範囲に研究されているが、入力がコードスイッチング(CSW)に関わる場合、そのパフォーマンスを調べることにはあまり注意が払われていない。 本稿では,多言語 LLM について広範な実証研究を行い,その性能を感情分析,機械翻訳,単語レベルの言語識別の3つのタスクで評価する。 その結果, ゼロ/フェーショットプロンプトを用いた場合, 特定のタスクにおいて有望な結果を示す多言語LLMでは, より小型のモデルに比べて, 性能が低いことが示唆された。 のLCMが必ずしもコードスイッチ互換性を持ち、このギャップを完全に埋めるためには将来の広範な研究が必要であると主張する。

Multilingual Large Language Models (LLMs) have recently shown great capability in various tasks, exhibiting state-of-the-art performance using few-shot or zero-shot prompting methods. While these models have been extensively studied in tasks where inputs are assumed to be in a single language, less attention has been paid to exploring their performance when inputs involve code-switching (CSW). In this paper, we provide an extensive empirical study of various multilingual LLMs and benchmark their performance in three tasks: sentiment analysis, machine translation, and word-level language identification. Our findings indicate that despite multilingual LLMs showing promising outcomes in certain tasks when using zero-/few-shot prompting, their performance still falls short on average when compared to smaller finetuned models. We argue that LLMs that are "multilingual" are not necessarily code-switching compatible and extensive future research is required to fully bridge this gap.
翻訳日:2023-05-24 14:33:45 公開日:2023-05-23
# 高品質なインストラクショナル会話のスケーリングによるチャット言語モデルの強化

Enhancing Chat Language Models by Scaling High-quality Instructional Conversations ( http://arxiv.org/abs/2305.14233v1 )

ライセンス: Link先を確認
Ning Ding, Yulin Chen, Bokai Xu, Yujia Qin, Zhi Zheng, Shengding Hu, Zhiyuan Liu, Maosong Sun, Bowen Zhou(参考訳) chatgptのようなチャット言語モデルを実装するための効果的なプラクティスとして、命令データの微調整が広く検証されている。 このようなデータの多様性と品質のスケールアップは、単純ではあるが、パフォーマンス向上につながる大きなチャンスである。 本稿では,オープンソースモデルの上限をさらに高めることを目的とする。 まず,人間の問合せを含まないインストラクション会話,ウルトラチャットの体系的設計,多様化,情報化,大規模データセットを提供する。 我々の目標は、人間がAIアシスタントと持つであろう対話の幅を捉えることであり、マルチターン会話を反復的に生成するための包括的なフレームワークを利用することである。 UltraChatには150万の高品質なマルチターン対話が含まれており、幅広いトピックや指示をカバーしている。 我々の統計分析によると、UltraChatはスケール、平均長、多様性、コヒーレンスなど、さまざまな重要な指標において優位性を示し、オープンソースデータセットとしての地位を固めています。 UltraChatに基づいてLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成します。 今回の評価から,ultrallamaは,これまで認識されていた最先端のオープンソースモデルであるvicunaなど,他のオープンソースモデルよりも一貫して優れています。 データセットとモデルが公開される。\footnote{\url{https://github.com/thunlp/UltraChat}}。

Fine-tuning on instruction data has been widely validated as an effective practice for implementing chat language models like ChatGPT. Scaling the diversity and quality of such data, although straightforward, stands a great chance of leading to improved performance. This paper aims to improve the upper bound of open-source models further. We first provide a systematically designed, diverse, informative, large-scale dataset of instructional conversations, UltraChat, which does not involve human queries. Our objective is to capture the breadth of interactions that a human might have with an AI assistant and employs a comprehensive framework to generate multi-turn conversation iteratively. UltraChat contains 1.5 million high-quality multi-turn dialogues and covers a wide range of topics and instructions. Our statistical analysis of UltraChat reveals its superiority in various key metrics, including scale, average length, diversity, coherence, etc., solidifying its position as a leading open-source dataset. Building upon UltraChat, we fine-tune a LLaMA model to create a powerful conversational model, UltraLLaMA. Our evaluations indicate that UltraLLaMA consistently outperforms other open-source models, including Vicuna, the previously recognized state-of-the-art open-source model. The dataset and the model will be publicly released\footnote{\url{https://github.com/thunlp/UltraChat}}.
翻訳日:2023-05-24 14:33:27 公開日:2023-05-23
# 科学文献理解のためのマルチタスクコントラスト学習モデル

Pre-training Multi-task Contrastive Learning Models for Scientific Literature Understanding ( http://arxiv.org/abs/2305.14232v1 )

ライセンス: Link先を確認
Yu Zhang, Hao Cheng, Zhihong Shen, Xiaodong Liu, Ye-Yi Wang, Jianfeng Gao(参考訳) 科学文献理解タスクは、科学的発見を加速する可能性から、大きな注目を集めている。 事前訓練された言語モデル(LM)は、特に対照的な学習によって調整された場合、これらのタスクにおいて有効性を示す。 しかしながら、複数の異種タスク(極端な分類、引用予測、文学検索など)で事前トレーニングされたデータを共同利用することは、ほとんど未定である。 このギャップを埋めるために,タスク固有のスキルが相互に干渉することを防ぐとともに,科学文献理解タスク間の共通知識共有を容易にするマルチタスクコントラスト学習フレームワークSciMultを提案する。 具体的には、タスク対応の特殊化と命令のチューニングという2つのテクニックを探求する。 前者はタスク対応サブレイヤを備えたMixture-of-Experts Transformerアーキテクチャを採用し、後者はタスク対応の出力を生成するために入力テキストにタスク固有の命令をプリペンドする。 ベンチマークデータセットの包括的なコレクションに関する広範な実験は、様々なタスクにおけるタスクアウェア特殊化戦略の有効性を検証します。

Scientific literature understanding tasks have gained significant attention due to their potential to accelerate scientific discovery. Pre-trained language models (LMs) have shown effectiveness in these tasks, especially when tuned via contrastive learning. However, jointly utilizing pre-training data across multiple heterogeneous tasks (e.g., extreme classification, citation prediction, and literature search) remains largely unexplored. To bridge this gap, we propose a multi-task contrastive learning framework, SciMult, with a focus on facilitating common knowledge sharing across different scientific literature understanding tasks while preventing task-specific skills from interfering with each other. To be specific, we explore two techniques -- task-aware specialization and instruction tuning. The former adopts a Mixture-of-Experts Transformer architecture with task-aware sub-layers; the latter prepends task-specific instructions to the input text so as to produce task-aware outputs. Extensive experiments on a comprehensive collection of benchmark datasets verify the effectiveness of our task-aware specialization strategy in various tasks, where we outperform state-of-the-art scientific LMs.
翻訳日:2023-05-24 14:33:04 公開日:2023-05-23
# 2次元クラスター状態におけるバルク測定による境界相転移のトリガリング

Triggering Boundary Phase Transitions through Bulk Measurements in 2D Cluster States ( http://arxiv.org/abs/2305.14231v1 )

ライセンス: Link先を確認
Yuchen Guo, Jian-Hao Zhang, Zhen Bi, Shuo Yang(参考訳) テンソルネットワーク法を用いてバルク測定を行う無限2次元クラスター状態の境界における位相図について検討する。 状態は下限量子ビットと全てのバルク量子ビットで一様測定値$m = \cos{\theta}z+\sin{\theta}x$となる。 以上の結果から, システムの境界は, 測定角度$\theta = \pi/2$ および任意の$\theta < \pi/2$ に対して領域法的絡み合いを示すことがわかった。 領域ロー位相では、相転移は$\theta_c=1.371$で起こる。 $\theta \in(\theta_c,\pi/2)$ の位相は、非射影行列積状態によって特徴づけられ、1次元局所ガッピングハミルトニアンの一意な基底状態として実現できない。 その代わり、自発的な対称性の破れを伴う猫の状態に似ている。 これらの結果から, 2次元系の境界の位相図は, 標準1次元系よりも複雑であることが示された。

We investigate the phase diagram at the boundary of an infinite two-dimensional cluster state subject to bulk measurements using tensor network methods. The state is subjected to uniform measurements $M = \cos{\theta}Z+\sin{\theta}X$ on the lower boundary qubits and all bulk qubits. Our results show that the boundary of the system exhibits volume-law entanglement at the measurement angle $\theta = \pi/2$ and area-law entanglement for any $\theta < \pi/2$. Within the area-law phase, a phase transition occurs at $\theta_c=1.371$. The phase with $\theta \in(\theta_c,\pi/2)$ is characterized by a non-injective matrix product state, which cannot be realized as the unique ground state of a 1D local, gapped Hamiltonian. Instead, it resembles a cat state with spontaneous symmetry breaking. These findings demonstrate that the phase diagram of the boundary of a two-dimensional system can be more intricate than that of a standard one-dimensional system.
翻訳日:2023-05-24 14:32:44 公開日:2023-05-23
# 多言語翻訳モデルとバイリンガル翻訳モデル間の表現格差の探索

Exploring Representational Disparities Between Multilingual and Bilingual Translation Models ( http://arxiv.org/abs/2305.14230v1 )

ライセンス: Link先を確認
Neha Verma, Kenton Murray, Kevin Duh(参考訳) 多言語機械翻訳は低リソースとゼロショットの言語ペアで非常に有用であることが証明されている。 しかし、多言語モデルにおける言語ペアは、特に一対一で翻訳する場合、多言語モデルよりもパフォーマンスが悪くなることがある。 そこで本研究では,両言語モデルと多言語モデルとの表現の幾何学的差異について検討する。 具体的には、表現の等方性を評価し、その基礎となるベクトル空間の次元をいかにうまく利用するかを測定する。 両モデルで同じ評価データを用いて、多言語モデルデコーダ表現はバイリンガルモデルデコーダ表現よりも異方性が低い傾向にあることを示した。 さらに,多言語デコーダ表現における異方性の多くは,言語固有の情報モデリングに起因し,表現能力に制限があることを示す。

Multilingual machine translation has proven immensely useful for low-resource and zero-shot language pairs. However, language pairs in multilingual models sometimes see worse performance than in bilingual models, especially when translating in a one-to-many setting. To understand why, we examine the geometric differences in the representations from bilingual models versus those from one-to-many multilingual models. Specifically, we evaluate the isotropy of the representations, to measure how well they utilize the dimensions in their underlying vector space. Using the same evaluation data in both models, we find that multilingual model decoder representations tend to be less isotropic than bilingual model decoder representations. Additionally, we show that much of the anisotropy in multilingual decoder representations can be attributed to modeling language-specific information, therefore limiting remaining representational capacity.
翻訳日:2023-05-24 14:32:25 公開日:2023-05-23
# 弱々しいAUC最適化:統一された部分的AUCアプローチ

Weakly Supervised AUC Optimization: A Unified Partial AUC Approach ( http://arxiv.org/abs/2305.14258v1 )

ライセンス: Link先を確認
Zheng Xie, Yu Liu, Hao-Yuan He, Ming Li, Zhi-Hua Zhou(参考訳) 完全な監視を得ることは通常難しいため、現実の機械学習タスクは、しばしば不正確な、不完全な、あるいは不正確な監督に直面する。 本稿では,雑音ラベル学習,正ラベル学習,マルチインスタンス学習,半教師付き学習シナリオを含む,弱教師付きauc最適化問題の統一フレームワークであるwsaucを提案する。 WSAUCフレームワーク内では、まず、汚染された集合上でのAUCリスクを最小限に抑える共通の定式化として、様々な弱教師付きシナリオにおけるAUC最適化問題をモデル化し、経験的リスク最小化問題と真のAUCとの整合性を実証する。 そこで我々は, 汚染ラベルの存在下でのAUC最大化のための堅牢なトレーニング目標として, 逆部分AUC (rpAUC) を新たに導入した。 WSAUCは、経験的rpAUCを最大化することにより、様々な弱教師付きシナリオにおいてAUC最適化のための普遍的なソリューションを提供する。 複数の条件下での理論的および実験的結果は、弱い教師付きAUC最適化タスクにおけるWSAUCの有効性を支持する。

Since acquiring perfect supervision is usually difficult, real-world machine learning tasks often confront inaccurate, incomplete, or inexact supervision, collectively referred to as weak supervision. In this work, we present WSAUC, a unified framework for weakly supervised AUC optimization problems, which covers noisy label learning, positive-unlabeled learning, multi-instance learning, and semi-supervised learning scenarios. Within the WSAUC framework, we first frame the AUC optimization problems in various weakly supervised scenarios as a common formulation of minimizing the AUC risk on contaminated sets, and demonstrate that the empirical risk minimization problems are consistent with the true AUC. Then, we introduce a new type of partial AUC, specifically, the reversed partial AUC (rpAUC), which serves as a robust training objective for AUC maximization in the presence of contaminated labels. WSAUC offers a universal solution for AUC optimization in various weakly supervised scenarios by maximizing the empirical rpAUC. Theoretical and experimental results under multiple settings support the effectiveness of WSAUC on a range of weakly supervised AUC optimization tasks.
翻訳日:2023-05-24 14:27:48 公開日:2023-05-23
# 階層型プロンプティング支援 Webナビゲーションにおける大規模言語モデル

Hierarchical Prompting Assists Large Language Model on Web Navigation ( http://arxiv.org/abs/2305.14257v1 )

ライセンス: Link先を確認
Abishek Sridhar, Robert Lo, Frank F. Xu, Hao Zhu, Shuyan Zhou(参考訳) 大規模言語モデル(LLM)は、対話的な意思決定において複雑な観察を処理するのに苦労する。 この問題を軽減するために,簡単な階層的プロンプト手法を提案する。 常に「emph{full} observation~(\eg a web page)」をプロンプトに配置する従来のプロンプトアプローチから逸脱し、より「emph{condensed}」と「emph{relevant}」を専用の「\summ」プロンプトで構築することを提案する。 次に \actor プロンプトは、要約された履歴に基づいて次のアクションを予測する。 提案手法は適用範囲が広いが,Webナビゲーションの複雑な領域において,完全な観測が冗長で無関係な情報を含む場合が特に有効であることを示す。 提案手法は,タスク成功率を6.2倍に向上させ,長い観察トレースを持つ対話的意思決定タスクにおいてその可能性を実証する。

Large language models (LLMs) struggle on processing complicated observations in interactive decision making. To alleviate this issue, we propose a simple hierarchical prompting approach. Diverging from previous prompting approaches that always put the \emph{full} observation~(\eg a web page) to the prompt, we propose to first construct an action-aware observation which is more \emph{condensed} and \emph{relevant} with a dedicated \summ prompt. The \actor prompt then predicts the next action based on the summarized history. While our method has broad applicability, we particularly demonstrate its efficacy in the complex domain of web navigation where a full observation often contains redundant and irrelevant information. Our approach outperforms the previous state-of-the-art prompting mechanism with the same LLM by 6.2\% on task success rate, demonstrating its potential on interactive decision making tasks with long observation traces.
翻訳日:2023-05-24 14:27:26 公開日:2023-05-23
# 文埋め込みの線形言語間マッピング

Linear Cross-Lingual Mapping of Sentence Embeddings ( http://arxiv.org/abs/2305.14256v1 )

ライセンス: Link先を確認
Oleg Vasilyev, Fumika Isono, John Bohannon(参考訳) 文の意味論は、一つの単語の意味論よりもはるかに曖昧さで定義され、他の言語への翻訳によって保存される。 多言語文の埋め込みが文の意味を表現しようとするなら、2つの文の埋め込みの類似性は翻訳に関して不変である。 この提案に基づき、単純線形言語間マッピングを多言語埋め込みの改善の可能性として検討する。 また,組込みの不足の尺度として直交条件からの逸脱も考慮する。

Semantics of a sentence is defined with much less ambiguity than semantics of a single word, and it should be better preserved by translation to another language. If multilingual sentence embeddings intend to represent sentence semantics, then the similarity between embeddings of any two sentences must be invariant with respect to translation. Based on this suggestion, we consider a simple linear cross-lingual mapping as a possible improvement of the multilingual embeddings. We also consider deviation from orthogonality conditions as a measure of deficiency of the embeddings.
翻訳日:2023-05-24 14:27:00 公開日:2023-05-23
# 決定論的制御量子チューリングマシンにおける量子コルモゴロフ複雑性と量子相関

Quantum Kolmogorov complexity and quantum correlations in deterministic-control quantum Turing machines ( http://arxiv.org/abs/2305.14252v1 )

ライセンス: Link先を確認
Mariano Lemus, Ricardo Faleiro, Paulo Mateus, Nikola Paunkovi\'c, Andr\'e Souto(参考訳) 我々は、決定論的制御量子チューリングマシン(dcq-tm)モデルを拡張し、状態入力と出力を混合する。 さらに、dcq-計算可能な状態をdcq-tmで正確に近似できるものと定義し、量子状態の(条件付き)コルモゴロフ複雑性を導入する。 この概念は機械独立であり、dcq計算可能な状態の集合は計算可能な古典表現を持つ状態と一致することを示す。 さらに,非閉包定理のアルゴリズム情報版を証明し,ほとんどの量子状態のクローニングはそれらを作成するのと同じくらい困難であることを示した。 最後に,アルゴリズムの相互情報に対する相関認識定義を提案し,情報特性の対称性を満足することを示す。

We extend the deterministic-control quantum Turing machine (dcq-TM) model to incorporate mixed state inputs and outputs. Moreover, we define dcq-computable states as those that can be accurately approximated by a dcq-TM, and we introduce (conditional) Kolmogorov complexity of quantum states. We show that this notion is machine independent and that the set of dcq-computable states coincides with states having computable classical representations. Furthermore, we prove an algorithmic information version of the no-cloning theorem stating that cloning most quantum states is as difficult as creating them. Finally, we also propose a correlation-aware definition for algorithmic mutual information and shown that it satisfies symmetry of information property.
翻訳日:2023-05-24 14:26:54 公開日:2023-05-23
# FActScore:ロングフォームテキスト生成におけるFactual Precisionの微粒化評価

FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation ( http://arxiv.org/abs/2305.14251v1 )

ライセンス: Link先を確認
Sewon Min, Kalpesh Krishna, Xinxi Lyu, Mike Lewis, Wen-tau Yih, Pang Wei Koh, Mohit Iyyer, Luke Zettlemoyer, Hannaneh Hajishirzi(参考訳) 大規模言語モデル(lms)によって生成された長文の事実性の評価は、(1)世代はサポート対象とサポート対象の情報の混合を含むことが多く、品質の二元的判断が不十分であり、(2)人間評価は時間がかかり、費用がかかるため、自明ではない。 本稿では, FActScore (Factual precision in Atomicity Score) を紹介する。これは, 世代を一連の原子事実に分解し, 信頼性のある知識源が支持する原子事実の割合を計算する新しい評価法である。 我々は,最先端の商業用LM (InstructGPT, ChatGPT, and the retrieve-augmented PerplexityAI) が生み出す人々のFActScoreを広範囲に評価し,このような微細なスコアの必要性を示す新たな分析を報告する(例: ChatGPTは58%しか達成できない)。 人為的評価はコストがかかるため、検索と強力な言語モデルを用いて、2%未満のエラー率でファクトスコアを推定する自動化モデルも導入する。 最後に、この自動化メトリックを使用して、最新の13のlsmから6,500世代を評価しています。これは、人間によって評価されれば26kドル(約2万2000円)かかります。

Evaluating the factuality of long-form text generated by large language models (LMs) is non-trivial because (1) generations often contain a mixture of supported and unsupported pieces of information, making binary judgments of quality inadequate, and (2) human evaluation is time-consuming and costly. In this paper, we introduce FActScore (Factual precision in Atomicity Score), a new evaluation that breaks a generation into a series of atomic facts and computes the percentage of atomic facts supported by a reliable knowledge source. We conduct an extensive human evaluation to obtain FActScores of people biographies generated by several state-of-the-art commercial LMs -- InstructGPT, ChatGPT, and the retrieval-augmented PerplexityAI -- and report new analysis demonstrating the need for such a fine-grained score (e.g., ChatGPT only achieves 58%). Since human evaluation is costly, we also introduce an automated model that estimates FActScore, using retrieval and a strong language model, with less than a 2% error rate. Finally, we use this automated metric to evaluate 6,500 generations from a new set of 13 recent LMs that would have cost $26K if evaluated by humans, with various findings: GPT-4 and ChatGPT are more factual than public models, and Vicuna and Alpaca are some of the best public models.
翻訳日:2023-05-24 14:26:30 公開日:2023-05-23
# 合理性を持つ言語モデル

Language Models with Rationality ( http://arxiv.org/abs/2305.14250v1 )

ライセンス: Link先を確認
Nora Kassner, Oyvind Tafjord, Ashish Sabharwal, Kyle Richardson, Hinrich Schutze, Peter Clark(参考訳) 大規模言語モデル(llm)はq&a(q&a: question-answering)に熟達しているが、回答と世界に関する他の「信条」の間の依存関係は一般的に公表されておらず、紛争状態にある可能性もある。 我々のゴールは、そのような依存関係を解明し、それら間の矛盾を減らし、一貫した信念のネットワークから引き出された、忠実でシステムに信頼された推論の連鎖によって答えが支えられるようにすることです。 われわれのアプローチはREFLEXと呼ばれ、LSMの上に「合理的な自己反射層」を追加することである。 第一に、ある疑問が与えられた場合、我々は、関係するモデル「信念」(回答候補に関する信念を含む)とそれらの間の推論関係を構成するために、後方連鎖プロセスを用いて信念グラフを構築します。 第二に、形式的制約推論器を用いて、そのグラフの矛盾を識別し、最小化する。 その結果,REFLEXは全体の解答精度を損なうことなく,一貫性を8%-11%向上させ,より一貫した信念体系から引き出された推論の忠実な連鎖に支えられることがわかった。 これは、自己反射の合理的な層で拡張されたllmが、llm単独で潜在不整合を修復できる、新しいスタイルのシステムアーキテクチャを示唆する。

While large language models (LLMs) are proficient at question-answering (QA), the dependencies between their answers and other "beliefs" they may have about the world are typically unstated, and may even be in conflict. Our goal is to uncover such dependencies and reduce inconsistencies among them, so that answers are supported by faithful, system-believed chains of reasoning drawn from a consistent network of beliefs. Our approach, which we call REFLEX, is to add a "rational", self-reflecting layer on top of the LLM. First, given a question, we construct a belief graph using a backward-chaining process to materialize relevant model "beliefs" (including beliefs about answer candidates) and the inferential relationships between them. Second, we identify and minimize contradictions in that graph using a formal constraint reasoner. We find that REFLEX significantly improves consistency (by 8%-11% absolute) without harming overall answer accuracy, resulting in answers supported by faithful chains of reasoning drawn from a more consistent belief system. This suggests a new style of system architecture, in which an LLM extended with a rational layer of self-reflection can repair latent inconsistencies within the LLM alone.
翻訳日:2023-05-24 14:25:41 公開日:2023-05-23
# MACE力場構造の評価-医薬化学から材料科学へ

Evaluation of the MACE Force Field Architecture: from Medicinal Chemistry to Materials Science ( http://arxiv.org/abs/2305.14247v1 )

ライセンス: Link先を確認
David Peter Kovacs, Ilyes Batatia, Eszter Sara Arany, Gabor Csanyi(参考訳) MACEアーキテクチャは、さまざまなドメイン内、外挿、低データレギュレーションタスクのための機械学習力フィールドの分野における芸術の状態を表現している。 本稿では,公開ベンチマークデータセットに適合するモデルを用いて,maceをさらに評価する。 MACEは、一般に、アモルファス炭素や一般的な小さな分子有機化学から、大きな分子や液体水に至るまで、幅広い系の代替品よりも優れていることを示す。 制約付き幾何最適化から分子動力学シミュレーションに至るまでのタスクにおけるモデルの性能を実証し,全てのテスト領域で優れた性能を示す。 MACEは非常にデータ効率が高く、50個のランダムに選択された基準構成でトレーニングした場合、実験分子振動スペクトルを再現できることを示す。 さらに, 厳密な局所原子中心モデルが, 大きな分子や弱い相互作用を持つ分子集合体の場合においても十分であることを示す。

The MACE architecture represents the state of the art in the field of machine learning force fields for a variety of in-domain, extrapolation and low-data regime tasks. In this paper, we further evaluate MACE by fitting models for published benchmark datasets. We show that MACE generally outperforms alternatives for a wide range of systems from amorphous carbon and general small molecule organic chemistry to large molecules and liquid water. We demonstrate the capabilities of the model on tasks ranging from constrained geometry optimisation to molecular dynamics simulations and find excellent performance across all tested domains. We show that MACE is very data efficient, and can reproduce experimental molecular vibrational spectra when trained on as few as 50 randomly selected reference configurations. We further demonstrate that the strictly local atom-centered model is sufficient for such tasks even in the case of large molecules and weakly interacting molecular assemblies.
翻訳日:2023-05-24 14:25:01 公開日:2023-05-23
# 物語における共感的類似性のモデル化

Modeling Empathic Similarity in Personal Narratives ( http://arxiv.org/abs/2305.14246v1 )

ライセンス: Link先を確認
Jocelyn Shen, Maarten Sap, Pedro Colon-Hernandez, Hae Won Park, Cynthia Breazeal(参考訳) 人々間の最も意味のあるつながりは、個人的な物語の中で共通の脆弱性や感情的な経験を表現することによって育まれることが多い。 本研究は,nlpで主に研究されているような意味的・語彙的類似性とは対照的に,共感的共鳴(empathic resonance)に基づく個人的物語における類似性,すなわち2人がお互いの経験に共感する程度を識別する新たな課題を提案する。 社会心理学からの洞察を用いて、主要な出来事、感情的軌道、全体的モラルまたはテイクアウトの3つの主要な特徴の観点から共感的類似性を運用する枠組みを構築する。 EmpathicStoriesは、1500の個人ストーリーに共感的類似性の特徴を付加したデータセットで、2000のストーリーに共感的類似性スコアを付加した。 我々のデータセットを用いて、ストーリーペアの共感的類似性を計算するためのモデルを微調整し、自動相関と検索メトリクスのセマンティック類似性モデルより優れていることを示す。 また,150名を対象に行ったユーザ調査の結果から,ユーザが共感するストーリの検索に対する効果を,意味的類似性に基づくナイーブな検索と比較して評価し,モデルによって検索されたストーリーに対して参加者が有意に共感していることを確認した。 私たちの研究は、人間間のつながりと共感を促進するために共感認識モデルを使うことに強い意味を持っています。

The most meaningful connections between people are often fostered through expression of shared vulnerability and emotional experiences in personal narratives. We introduce a new task of identifying similarity in personal stories based on empathic resonance, i.e., the extent to which two people empathize with each others' experiences, as opposed to raw semantic or lexical similarity, as has predominantly been studied in NLP. Using insights from social psychology, we craft a framework that operationalizes empathic similarity in terms of three key features of stories: main events, emotional trajectories, and overall morals or takeaways. We create EmpathicStories, a dataset of 1,500 personal stories annotated with our empathic similarity features, and 2,000 pairs of stories annotated with empathic similarity scores. Using our dataset, we fine-tune a model to compute empathic similarity of story pairs, and show that this outperforms semantic similarity models on automated correlation and retrieval metrics. Through a user study with 150 participants, we also assess the effect our model has on retrieving stories that users empathize with, compared to naive semantic similarity-based retrieval, and find that participants empathized significantly more with stories retrieved by our model. Our work has strong implications for the use of empathy-aware models to foster human connection and empathy between people.
翻訳日:2023-05-24 14:24:49 公開日:2023-05-23
# フェデレーション気象予報のための時空間学習

Spatial-temporal Prompt Learning for Federated Weather Forecasting ( http://arxiv.org/abs/2305.14244v1 )

ライセンス: Link先を確認
Shengchao Chen, Guodong Long, Tao Shen, Tianyi Zhou, Jing Jiang(参考訳) フェデレート気象予報は、さまざまな国や地域の参加者間で気象データを分析するための有望な協調学習フレームワークであり、気候変動に対処するためのグローバルなリアルタイム気象データ予測プラットフォームを具体化している。 本稿では,多くの分散型低リソースセンサを異なる場所に配置するフェデレート環境での気象データをモデル化する。 具体的には、空間時空間気象データを、軽量なプロンプトを活用して有意義な表現と構造的知識を参加者間で共有するファシリテート学習フレームワークにモデル化する。 プロンプトベースの通信により、サーバは参加者間の構造トポロジー関係を確立し、通信オーバーヘッドを緩和しながらプライベートデータを送信することなく、複雑な空間-時間相関を探索することができる。 さらに,サーバ上でのグローバルな共有大型モデルに加えて,提案手法により,特定の地理的領域の気候変化に対処するために高度にカスタマイズされたパーソナライズされたモデルを取得することができる。 我々は3つの時空間多変量気象データを用いて,従来の天気予報作業における手法の有効性を実証した。

Federated weather forecasting is a promising collaborative learning framework for analyzing meteorological data across participants from different countries and regions, thus embodying a global-scale real-time weather data predictive analytics platform to tackle climate change. This paper is to model the meteorological data in a federated setting where many distributed low-resourced sensors are deployed in different locations. Specifically, we model the spatial-temporal weather data into a federated prompt learning framework that leverages lightweight prompts to share meaningful representation and structural knowledge among participants. Prompts-based communication allows the server to establish the structural topology relationships among participants and further explore the complex spatial-temporal correlations without transmitting private data while mitigating communication overhead. Moreover, in addition to a globally shared large model at the server, our proposed method enables each participant to acquire a personalized model that is highly customized to tackle climate changes in a specific geographic area. We have demonstrated the effectiveness of our method on classical weather forecasting tasks by utilizing three spatial-temporal multivariate time-series weather data.
翻訳日:2023-05-24 14:24:27 公開日:2023-05-23
# LoReTTaを用いた過渡・多モード変圧器の訓練

Training Transitive and Commutative Multimodal Transformers with LoReTTa ( http://arxiv.org/abs/2305.14243v1 )

ライセンス: Link先を確認
Manuel Tran, Amal Lahiani, Yashin Dicente Cid, Fabian J. Theis, Tingying Peng, Eldad Klaiman(参考訳) 2組のモダリティa,b,b,cのマルチモーダルデータセットの収集は,実際には困難である。 A、B、Cの3つのアライメントを持つデータセットを取得することは、さらに難しい。 例えば、一部の公衆医療データセットは、ある患者のための遺伝子配列と顕微鏡画像のみを持ち、別の患者のための遺伝配列と放射線画像のみを持っている。 これにより、すべてのモダリティを大規模なトレーニング済みニューラルネットワークに統合し、結合することが困難になる。 本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。 我々の自己監督型フレームワークは、因果マスクモデルと可換性と推移性の規則を組み合わせて、異なるモダリティの内および間を移行する。 したがって、A -> C と A -> B -> C の関係をモデル化することができる。 解離結合(A, B) と (B, C) のみを含むデータセットが与えられた場合、LoReTTa で事前訓練された変換器は、予期せぬペア(A, C) と三重項(A, B, C)を含む任意のモダリティ結合を推論時に処理できることを示す。 我々は,音声,視覚,言語を含むMNISTから派生したマルチモーダルデータセットと,TCGAからmRNA,miRNA,RPPAのサンプルを含む実世界の医療データセットについて検討した。 従来のプレトレーニング法と比較して,自己回帰型生成タスクでは最大100ポイントのパープレキシティが低下し,プレトレーニングフェーズではそれまで認識されていなかったモダリティペアの分類精度が最大15%向上した。

Collecting a multimodal dataset with two paired modalities A and B or B and C is difficult in practice. Obtaining a dataset with three aligned modalities A, B, and C is even more challenging. For example, some public medical datasets have only genetic sequences and microscopic images for one patient, and only genetic sequences and radiological images for another - but no dataset includes both microscopic and radiological images for the same patient. This makes it difficult to integrate and combine all modalities into a large pre-trained neural network. We introduce LoReTTa (Linking mOdalities with a tRansitive and commutativE pre-Training sTrAtegy) to address this understudied problem. Our self-supervised framework combines causal masked modeling with the rules of commutativity and transitivity to transition within and between different modalities. Thus, it can model the relation A -> C with A -> B -> C. Given a dataset containing only the disjoint combinations (A, B) and (B, C), we show that a transformer pre-trained with LoReTTa can handle any modality combination at inference time, including the never-seen pair (A, C) and the triplet (A, B, C). We evaluate our approach on a multimodal dataset derived from MNIST containing speech, vision, and language, as well as a real-world medical dataset containing mRNA, miRNA, and RPPA samples from TCGA. Compared to traditional pre-training methods, we observe up to a 100-point reduction in perplexity for autoregressive generation tasks and up to a 15% improvement in classification accuracy for previously unseen modality pairs during the pre-training phase.
翻訳日:2023-05-24 14:24:07 公開日:2023-05-23
# カバレッジ保証付き変分推論

Variational Inference with Coverage Guarantees ( http://arxiv.org/abs/2305.14275v1 )

ライセンス: Link先を確認
Yash Patel, Declan McNamara, Jackson Loper, Jeffrey Regier, Ambuj Tewari(参考訳) Amortized variational inferenceは、新しい観測がなければ後部近似を計算できる後部近似器を生成する。 残念ながら、これらの近似後部の品質に関する保証はほとんどない。 我々は,スケーラブルで実装が容易で,限界カバレッジが保証された,コンフォーマライズされたamortized neural variational inference (canvi)を提案する。 候補補正後近似器の集合が与えられた場合、CANVIは各候補に基づいて共形予測器を構築し、予測効率と呼ばれる計量を用いて予測器を比較し、最も効率的な予測器を返す。 CANVIは、結果の予測器が真理を含む領域を高い確率で構築することを保証する。 CANVIは、候補近似器の定式化における設計上の決定に非依存であり、フォワードモデルからのサンプルへのアクセスのみを必要とするため、可能性のない設定での使用が可能である。 我々は,CANVIが生成する領域の予測効率の低い境界を証明し,その近似に基づいて,後部近似の品質と予測領域の予測効率の関係について検討する。 最後に、シミュレーションベース推論ベンチマークの一連のタスクと重要な科学的タスクである銀河放出スペクトルの分析において、CANVIの正確な校正と高い予測効率を示す。

Amortized variational inference produces a posterior approximator that can compute a posterior approximation given any new observation. Unfortunately, there are few guarantees about the quality of these approximate posteriors. We propose Conformalized Amortized Neural Variational Inference (CANVI), a procedure that is scalable, easily implemented, and provides guaranteed marginal coverage. Given a collection of candidate amortized posterior approximators, CANVI constructs conformalized predictors based on each candidate, compares the predictors using a metric known as predictive efficiency, and returns the most efficient predictor. CANVI ensures that the resulting predictor constructs regions that contain the truth with high probability (exactly how high is prespecified by the user). CANVI is agnostic to design decisions in formulating the candidate approximators and only requires access to samples from the forward model, permitting its use in likelihood-free settings. We prove lower bounds on the predictive efficiency of the regions produced by CANVI and explore how the quality of a posterior approximation relates to the predictive efficiency of prediction regions based on that approximation. Finally, we demonstrate the accurate calibration and high predictive efficiency of CANVI on a suite of simulation-based inference benchmark tasks and an important scientific task: analyzing galaxy emission spectra.
翻訳日:2023-05-24 14:16:27 公開日:2023-05-23
# 誤差基底と量子チャネル

Error Basis and Quantum Channel ( http://arxiv.org/abs/2305.14274v1 )

ライセンス: Link先を確認
B. V. Rajarama Bhat, Purbayan Chakraborty, Uwe Franz(参考訳) ワイル作用素は、ヒルベルト・シュミット内積に関して正則である$M_n(\mathbb{C})$の便利な基底を与える。 そのような基底の性質は、E. Knillによって導入されたような良い誤差基底(NEB)の概念に一般化することができる。 M_n(\mathbb{C})$ の NEB を用いて、$Lin(M_n(\mathbb{C}))$, $M_n(\mathbb{C})$ 上の線型写像の空間である$Lin(M_n(\mathbb{C}))$ の NEB を構成することができる。 すると、$M_n(\mathbb{C})$上の任意の線型写像は、基底分解における$n^2\times n^2$係数行列と、$Lin(M_n(\mathbb{C}))$のそのようなNEBに対応する。 ポジティビティ、完全(co)ポジティビティ、あるいは線型写像の他の性質は、そのような係数行列を用いて特徴づけることができる。

The Weyl operators give a convenient basis of $M_n(\mathbb{C})$ which is also orthonormal with respect to the Hilbert-Schmidt inner product. The properties of such a basis can be generalised to the notion of a nice error basis(NEB), as introduced by E. Knill. We can use an NEB of $M_n(\mathbb{C})$ to construct an NEB for $Lin(M_n(\mathbb{C}))$, the space of linear maps on $M_n(\mathbb{C})$. Any linear map on $M_n(\mathbb{C})$ will then correspond to a $n^2\times n^2$ coefficient matrix in the basis decomposition with respect to such an NEB of $Lin(M_n(\mathbb{C}))$. Positivity, complete (co)positivity or other properties of a linear map can be characterised in terms of such a coefficient matrix.
翻訳日:2023-05-24 14:16:06 公開日:2023-05-23
# イオンの準安定状態を用いた量子チャネルの実験的識別

Experimental quantum channel discrimination using metastable states of a trapped ion ( http://arxiv.org/abs/2305.14272v1 )

ライセンス: Link先を確認
Kyle DeBry, Jasmine Sinanan-Singh, Colin D. Bruzewicz, David Reens, May E. Kim, Matthew P. Roychowdhury, Robert McConnell, Isaac L. Chuang, and John Chiaverini(参考訳) 本稿では,3つの量子チャネル間の精度と不明瞭な単一ショット識別を,1つの捕捉された$^{40}\text{Ca}^{+}$イオンを用いて実験的に実証する。 3つのチャネルは、自然の古典的アナログである反復的な単一チャネルクエリを使ってあいまいに区別できない。 我々は6次元の$\text{D}_{5/2}$状態空間を量子情報処理に利用するための技術を開発し、古典的な無線通信で使用される位相シフト鍵と振幅シフト鍵データエンコーディングの量子チャネルアナログを識別するためのプロトコルを実装した。 それぞれのケースで99\%以上の識別精度が達成され、既知の実験不足によって完全に制限される。

We present experimental demonstrations of accurate and unambiguous single-shot discrimination between three quantum channels using a single trapped $^{40}\text{Ca}^{+}$ ion. The three channels cannot be distinguished unambiguously using repeated single channel queries, the natural classical analogue. We develop techniques for using the 6-dimensional $\text{D}_{5/2}$ state space for quantum information processing, and we implement protocols to discriminate quantum channel analogues of phase shift keying and amplitude shift keying data encodings used in classical radio communication. The demonstrations achieve discrimination accuracy exceeding $99\%$ in each case, limited entirely by known experimental imperfections.
翻訳日:2023-05-24 14:15:49 公開日:2023-05-23
# 視覚変換器を用いたrgb-d意味セグメンテーションのためのソースフリー領域適応

Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers ( http://arxiv.org/abs/2305.14269v1 )

ライセンス: Link先を確認
Giulia Rizzoli, Donald Shenaj, Pietro Zanuttigh(参考訳) 深度センサの普及に伴い、色情報と深度データを組み合わせたマルチモーダルフレームワークが注目されている。 セマンティクスセグメンテーションの難しいタスクにおいて、深度マップは異なる深さで同じ色の物体を区別し、有用な幾何学的手がかりを提供する。 一方、セマンティックセグメンテーションのための基底真理データは提供しづらいため、ドメイン適応もまた重要な研究分野である。 具体的には、ソースデータを再利用せずに適応を行う難易度の高いソースフリードメイン適応設定に対処する。 MISFIT:MultImodal Source-Free Information fusion Transformerは,複数段階の視覚変換器,すなわち入力,特徴,出力レベルに基づいて,深度情報をセグメンテーションモジュールに注入する深度対応フレームワークである。 色と深さのスタイルの転送は、初期ドメインのアライメントに役立ち、モダリティ間の自己アテンションを再接続することで、より優れたセマンティックコンテンツを取り出すことができる。 さらに,異なる距離での適応的な重み付け領域に対して,深さに基づくエントロピー最小化戦略も提案されている。 我々のフレームワークは、また、ソースフリーセマンティックセグメンテーションに視覚変換器を使った最初のアプローチであり、標準戦略に対する顕著な性能改善を示している。

With the increasing availability of depth sensors, multimodal frameworks that combine color information with depth data are attracting increasing interest. In the challenging task of semantic segmentation, depth maps allow to distinguish between similarly colored objects at different depths and provide useful geometric cues. On the other side, ground truth data for semantic segmentation is burdensome to be provided and thus domain adaptation is another significant research area. Specifically, we address the challenging source-free domain adaptation setting where the adaptation is performed without reusing source data. We propose MISFIT: MultImodal Source-Free Information fusion Transformer, a depth-aware framework which injects depth information into a segmentation module based on vision transformers at multiple stages, namely at the input, feature and output levels. Color and depth style transfer helps early-stage domain alignment while re-wiring self-attention between modalities creates mixed features allowing the extraction of better semantic content. Furthermore, a depth-based entropy minimization strategy is also proposed to adaptively weight regions at different distances. Our framework, which is also the first approach using vision transformers for source-free semantic segmentation, shows noticeable performance improvements with respect to standard strategies.
翻訳日:2023-05-24 14:15:36 公開日:2023-05-23
# 視覚・言語ナビゲーションのためのマスクドパスモデリング

Masked Path Modeling for Vision-and-Language Navigation ( http://arxiv.org/abs/2305.14268v1 )

ライセンス: Link先を確認
Zi-Yi Dou, Feng Gao, Nanyun Peng(参考訳) 視覚言語ナビゲーション(vln)エージェントは、自然言語命令に従うことで現実世界の環境をナビゲートするように訓練される。 VLNの大きな課題は、トレーニングデータの可用性の制限であり、モデルが効果的に一般化する能力を妨げている。 従来のアプローチでは、トレーニング中に追加の監視を導入することでこの問題に対処しようとしていた。 本稿では,下流ナビゲーションタスクに自己収集データを用いてエージェントを事前学習するマスキングパスモデリング(mpm)の目的について述べる。 提案手法では,特定の目標を満たさずにナビゲーション環境を積極的に探索し,横断する経路を収集する。 その後、この収集データに基づいてエージェントを訓練し、ランダムにマスクされたサブパスが与えられた元のパスを再構築する。 このように、エージェントは条件付きアクション生成を学習しながら、多様でかなりの量のデータを積極的に蓄積することができる。 提案手法の有効性を評価するため,様々なVLNデータセットを用いて実験を行い,命令複雑性の異なるレベルのPMの汎用性を実証した。 その結果,Room-to-Roomデータセット,Room-for-Roomデータセット,Room-across-Roomデータセットのval-unseen分割における1.32\%,1.05\%, 1.19\%の改善が得られた。 さらに,エージェントが未発見の環境をテスト前に探索できる場合,さらなる改善の可能性を強調した分析を行う。

Vision-and-language navigation (VLN) agents are trained to navigate in real-world environments by following natural language instructions. A major challenge in VLN is the limited availability of training data, which hinders the models' ability to generalize effectively. Previous approaches have attempted to address this issue by introducing additional supervision during training, often requiring costly human-annotated data that restricts scalability. In this paper, we introduce a masked path modeling (MPM) objective, which pretrains an agent using self-collected data for downstream navigation tasks. Our proposed method involves allowing the agent to actively explore navigation environments without a specific goal and collect the paths it traverses. Subsequently, we train the agent on this collected data to reconstruct the original path given a randomly masked subpath. This way, the agent can actively accumulate a diverse and substantial amount of data while learning conditional action generation. To evaluate the effectiveness of our technique, we conduct experiments on various VLN datasets and demonstrate the versatility of MPM across different levels of instruction complexity. Our results exhibit significant improvements in success rates, with enhancements of 1.32\%, 1.05\%, and 1.19\% on the val-unseen split of the Room-to-Room, Room-for-Room, and Room-across-Room datasets, respectively. Furthermore, we conduct an analysis that highlights the potential for additional improvements when the agent is allowed to explore unseen environments prior to testing.
翻訳日:2023-05-24 14:15:13 公開日:2023-05-23
# SEEDS:拡散モデルによる高速高品質サンプリングのための指数SDE解法

SEEDS: Exponential SDE Solvers for Fast High-Quality Sampling from Diffusion Models ( http://arxiv.org/abs/2305.14267v1 )

ライセンス: Link先を確認
Martin Gonzalez, Nelson Fernandez, Thuy Tran, Elies Gherbi, Hatem Hajri, Nader Masmoudi(参考訳) DPM(Diffusion Probabilistic Models)として知られる強力な生成モデルのクラスが注目されている。 前方拡散プロセスはデータに徐々にノイズを付加し、一方、モデルは徐々に認知を学習する。 事前学習されたDPMからのサンプリングは、学習者モデルによって定義された微分方程式(DE)を解くことで得られる。 このプロセスを高速化する多くの努力は、強力なodeソルバの開発に費やされてきた。 速いにもかかわらず、そのような解法は通常、利用可能な遅いSDE解法によって達成される最適な品質に達しない。 我々のゴールは、数百から数千のNFEを必要とせずに最適な品質に達するSDEソルバを提案することである。 本研究では,いくつかのフレームワークにおける確率的ケースに対する指数積分器アプローチの改良と一般化を行う。 拡散SDEの正確な解の定式化を慎重に分析した後、SEEDSを用いてそのような解の線形部分を解析的に計算する。 指数時間差法にインスパイアされたSEEDSは、解の確率成分を新しい方法で処理し、分散を解析的に計算し、最適な品質のサンプリングを行えるような高次項を含む、以前のSDE法よりも高速な$\sim3$-$5\times$である。 提案手法を複数の画像生成ベンチマークで検証し,SEEDSが従来のSDEソルバよりも優れているか,あるいは競合していることを示す。 後者とは対照的に、種子は派生的で訓練は自由であり、我々はそれらに対して強い収束保証を十分に証明する。

A potent class of generative models known as Diffusion Probabilistic Models (DPMs) has become prominent. A forward diffusion process adds gradually noise to data, while a model learns to gradually denoise. Sampling from pre-trained DPMs is obtained by solving differential equations (DE) defined by the learnt model, a process which has shown to be prohibitively slow. Numerous efforts on speeding-up this process have consisted on crafting powerful ODE solvers. Despite being quick, such solvers do not usually reach the optimal quality achieved by available slow SDE solvers. Our goal is to propose SDE solvers that reach optimal quality without requiring several hundreds or thousands of NFEs to achieve that goal. In this work, we propose Stochastic Exponential Derivative-free Solvers (SEEDS), improving and generalizing Exponential Integrator approaches to the stochastic case on several frameworks. After carefully analyzing the formulation of exact solutions of diffusion SDEs, we craft SEEDS to analytically compute the linear part of such solutions. Inspired by the Exponential Time-Differencing method, SEEDS uses a novel treatment of the stochastic components of solutions, enabling the analytical computation of their variance, and contains high-order terms allowing to reach optimal quality sampling $\sim3$-$5\times$ faster than previous SDE methods. We validate our approach on several image generation benchmarks, showing that SEEDS outperforms or is competitive with previous SDE solvers. Contrary to the latter, SEEDS are derivative and training free, and we fully prove strong convergence guarantees for them.
翻訳日:2023-05-24 14:14:44 公開日:2023-05-23
# 大規模言語モデルを用いた文脈内学習のためのアクティブラーニング原則

Active Learning Principles for In-Context Learning with Large Language Models ( http://arxiv.org/abs/2305.14264v1 )

ライセンス: Link先を確認
Katerina Margatina and Timo Schick and Nikolaos Aletras and Jane Dwivedi-Yu(参考訳) 大規模言語モデル(LLM)の顕著な進歩は、数ショットの学習環境での性能を大幅に向上させた。 デモと呼ばれる少数のラベル付き例を使用することで、LLMはコンテキスト内学習を通じて、手元のタスクを効果的に把握することができる。 しかし、事前の作業では、適切なデモンストレーションを選択するプロセスに注意が向けられている。 本稿では,一反復でプールベースのアクティブラーニング(AL)問題としてアプローチすることで,数発の学習において最も有益な実演を識別する問題に対処する。 本研究の目的は,alアルゴリズムがコンテキスト内学習における効果的な実演選択手法としてどのように役立つかを検討することである。 我々は、不確実性、多様性、類似性に基づく様々な標準ALアルゴリズムを比較し、後者がランダムサンプリングを含む他の手法よりも優れていることを一貫して観察する。 特に、従来の教師付き学習シナリオの成功にもかかわらず、この文脈では不確実なサンプリングが不十分である。 広範にわたるGPTモデルとOPTモデルによる2,4ドルの分類と複数選択タスクの多種多様な実験と、徹底的な分析により、ALによる文脈内サンプル選択が、不確実性の低い高品質な例を優先し、テスト例と類似性を持つことを示した。

The remarkable advancements in large language models (LLMs) have significantly enhanced the performance in few-shot learning settings. By using only a small number of labeled examples, referred to as demonstrations, LLMs can effectively grasp the task at hand through in-context learning. However, the process of selecting appropriate demonstrations has received limited attention in prior work. This paper addresses the issue of identifying the most informative demonstrations for few-shot learning by approaching it as a pool-based Active Learning (AL) problem over a single iteration. Our objective is to investigate how AL algorithms can serve as effective demonstration selection methods for in-context learning. We compare various standard AL algorithms based on uncertainty, diversity, and similarity, and consistently observe that the latter outperforms all other methods, including random sampling. Notably, uncertainty sampling, despite its success in conventional supervised learning scenarios, performs poorly in this context. Our extensive experimentation involving a diverse range of GPT and OPT models across $24$ classification and multi-choice tasks, coupled with thorough analysis, unambiguously demonstrates that in-context example selection through AL prioritizes high-quality examples that exhibit low uncertainty and bear similarity to the test examples.
翻訳日:2023-05-24 14:14:20 公開日:2023-05-23
# 制限:350以上の言語における階層モデルを用いた言語識別・誤認・翻訳

LIMIT: Language Identification, Misidentification, and Translation using Hierarchical Models in 350+ Languages ( http://arxiv.org/abs/2305.14263v1 )

ライセンス: Link先を確認
Milind Agarwal, Md Mahfuz Ibn Alam, Antonios Anastasopoulos(参考訳) 入力テキスト/オーディオの言語を知ることは、タグ付け、パーサー、翻訳システムなど、ほぼすべての自然言語処理(NLP)ツールを使用するための第一歩である。 言語識別はよく研究されている問題であり、時には解決されると考えられ、実際には世界の7000言語のほとんどは現在のシステムではサポートされていない。 この表現の欠如は大規模なデータマイニングに影響を与え、低リソース言語のデータ不足をさらに悪化させる。 350以上の言語と方言に50万以上の並列した子どもの物語のコーパスをコンパイルし,言語識別のための軽量な階層モデルを構築することで,データのボトルネックに取り組むための一歩を踏み出した。 私たちのデータは、短いテキストの言語識別や、インド語やアフリカ語などの未熟な翻訳指示のためのベンチマークデータとして機能します。 提案手法であるHierarchical LIMITは,予測品質を保ちながら,限られた計算量を用いて対象言語に範囲を広げる。

Knowing the language of an input text/audio is a necessary first step for using almost every natural language processing (NLP) tool such as taggers, parsers, or translation systems. Language identification is a well-studied problem, sometimes even considered solved; in reality, most of the world's 7000 languages are not supported by current systems. This lack of representation affects large-scale data mining efforts and further exacerbates data shortage for low-resource languages. We take a step towards tackling the data bottleneck by compiling a corpus of over 50K parallel children's stories in 350+ languages and dialects, and the computation bottleneck by building lightweight hierarchical models for language identification. Our data can serve as benchmark data for language identification of short texts and for understudied translation directions such as those between Indian or African languages. Our proposed method, Hierarchical LIMIT, uses limited computation to expand coverage into excluded languages while maintaining prediction quality.
翻訳日:2023-05-24 14:13:58 公開日:2023-05-23
# R2H: 助けを求めるマルチモーダルナビゲーションヘルパーの構築

R2H: Building Multimodal Navigation Helpers that Respond to Help ( http://arxiv.org/abs/2305.14260v1 )

ライセンス: Link先を確認
Yue Fan, Kaizhi Zheng, Jing Gu, Xin Eric Wang(参考訳) 補助的な役割のナビゲーションタスク中に人間を助ける能力は、知的エージェントにとって不可欠である。 このようなエージェントは、環境知識と会話能力を備えており、周囲の視覚情報に基づく質問に対して自然言語応答を発生させることで、不慣れな地形を通じて個人を誘導することができる。 しかし、これらのマルチモーダルな対話ナビゲーションヘルパーはまだ未開発である。 本稿では、既存のダイアログベースの埋め込みデータセットに基づいて、ヘルプに応答可能なマルチモーダルナビゲーションヘルパーを構築するための新しいベンチマークであるRespond to Help (R2H)を提案する。 r2hは主に、(1)ヘルパーエージェントが与えられたダイアログ履歴に基づいて情報応答を生成する能力を評価するrdhに応答する、(2)ヘルパーエージェントがリアルタイムでタスク実行エージェントと効果的かつ一貫した協調を維持する能力を評価するrdiに応答する、という2つのタスクを含んでいる。 さらに,タスクパフォーマーを具体的タスクで案内するナビゲーション・ヘルパーとして,SeeReeと呼ばれる,タスク指向のマルチモーダル応答生成モデルを提案する。 自動評価と人的評価の両方を通して、SeeReeは、異なるナビゲーションタスクでタスクパフォーマーを支援するベースライン手法よりも、より効果的で有益な応答を生成する。 プロジェクトウェブサイト: https://sites.google.com/view/respond2help/home

The ability to assist humans during a navigation task in a supportive role is crucial for intelligent agents. Such agents, equipped with environment knowledge and conversational abilities, can guide individuals through unfamiliar terrains by generating natural language responses to their inquiries, grounded in the visual information of their surroundings. However, these multimodal conversational navigation helpers are still underdeveloped. This paper proposes a new benchmark, Respond to Help (R2H), to build multimodal navigation helpers that can respond to help, based on existing dialog-based embodied datasets. R2H mainly includes two tasks: (1) Respond to Dialog History (RDH), which assesses the helper agent's ability to generate informative responses based on a given dialog history, and (2) Respond during Interaction (RdI), which evaluates the helper agent's ability to maintain effective and consistent cooperation with a task performer agent during navigation in real-time. Furthermore, we propose a novel task-oriented multimodal response generation model that can see and respond, named SeeRee, as the navigation helper to guide the task performer in embodied tasks. Through both automatic and human evaluations, we show that SeeRee produces more effective and informative responses than baseline methods in assisting the task performer with different navigation tasks. Project website: https://sites.google.com/view/respond2help/home.
翻訳日:2023-05-24 14:13:40 公開日:2023-05-23
# 文脈化文学に基づく発見による新しい科学的方向の学習

Learning to Generate Novel Scientific Directions with Contextualized Literature-based Discovery ( http://arxiv.org/abs/2305.14259v1 )

ライセンス: Link先を確認
Qingyun Wang, Doug Downey, Heng Ji, Tom Hope(参考訳) 文学に基づく発見(LBD)は、論文の採掘と仮説の生成によって新しい科学的知識を発見することを目的としている。 標準LBDは、離散概念(例えば、薬物放出リンク)間のペアワイズ関係の予測に限られる。 LBDはまた、実験的な状況(例えば、薬物が評価される特定の患者集団)や、人間の科学者が考える背景知識や動機(例えば、特定の副作用のない薬物候補を見つけるなど)を無視する。 これらの制約を文脈化されたLBD (C-LBD) の新たな定式化によって解決し、仮説探索空間を制御するコンテキストに基礎を置いている。 本稿では,引用と知識グラフ関係のヘテロジニアスネットワークから ‘inspirations'' を検索する新しいモデリングフレームワークを提案し,論文から得られた新しいデータセットを作成する。 自動化と人間による評価では、強力な大規模言語モデル(llm)を含むベースラインよりも改善していますが、新たな科学的知識を生み出すマシン構築の課題も明らかにしています。

Literature-Based Discovery (LBD) aims to discover new scientific knowledge by mining papers and generating hypotheses. Standard LBD is limited to predicting pairwise relations between discrete concepts (e.g., drug-disease links). LBD also ignores critical contexts like experimental settings (e.g., a specific patient population where a drug is evaluated) and background knowledge and motivations that human scientists consider (e.g., to find a drug candidate without specific side effects). We address these limitations with a novel formulation of contextualized-LBD (C-LBD): generating scientific hypotheses in natural language, while grounding them in a context that controls the hypothesis search space. We present a new modeling framework using retrieval of ``inspirations'' from a heterogeneous network of citations and knowledge graph relations, and create a new dataset derived from papers. In automated and human evaluations, our models improve over baselines, including powerful large language models (LLMs), but also reveal challenges on the road to building machines that generate new scientific knowledge.
翻訳日:2023-05-24 14:13:14 公開日:2023-05-23
# 駆動型量子ラビモデルにおける特異定常スクイーズ

Unique Steady-State Squeezing in a Driven Quantum Rabi Model ( http://arxiv.org/abs/2305.14290v1 )

ライセンス: Link先を確認
Karol Gietka, Christoph Hotter, and Helmut Ritsch(参考訳) スクイージングは多くの量子技術と量子物理学の理解に不可欠である。 ここでは、閉および開量子ラビおよびディッケモデルで生成可能な定常スクイージングの理論を展開する。 これにより、物理的調和振動子に対して固有状態が絞られた抽象調和振動子を効果的に導くスピンダイナミクスを解消する。 生成されたスクイージングの形式は、時間に依存しない不確かさと、新しいタイプの量子行動であるスクイージングダイナミクスのユニークな性質を持つ。 このようなスクイーズ法は、連続したバックアクション回避測定に適用できる可能性があり、オプティメカル系やクーロン結晶で既に観測可能である。

Squeezing is essential to many quantum technologies and our understanding of quantum physics. Here we develop a theory of steady-state squeezing that can be generated in the closed and open quantum Rabi as well as Dicke model. To this end, we eliminate the spin dynamics which effectively leads to an abstract harmonic oscillator whose eigenstates are squeezed with respect to the physical harmonic oscillator. The generated form of squeezing has the unique property of time-independent uncertainties and squeezed dynamics, a novel type of quantum behavior. Such squeezing might find applications in continuous back-action evading measurements and should already be observable in optomechanical systems and Coulomb crystals.
翻訳日:2023-05-24 14:06:54 公開日:2023-05-23
# 言語間性能向上のためのllmデータ拡張

LLM-powered Data Augmentation for Enhanced Crosslingual Performance ( http://arxiv.org/abs/2305.14288v1 )

ライセンス: Link先を確認
Chenxi Whitehouse, Monojit Choudhury, Alham Fikri Aji(参考訳) 本稿では,言語間コモンセンス推論データセットにおけるデータ拡張にLarge Language Models (LLMs)を活用する可能性について検討する。 これを実現するために、私たちは、XCOPA、XWinograd、XStoryClozeの3つのデータセットを増強するために、Dlly-v2、StableVicuna、ChatGPT、GPT-4などのLCMを使用します。 次に, 合成データを用いて, mBERT と XLMR を微調整した小型言語モデルの有効性を評価する。 我々は、英語とターゲット言語で生成されたデータとトレーニングのパフォーマンスを比較し、英語で生成されたデータを対象言語に翻訳する。 実験の結果,LLMが生成したデータの総合的な利点が明らかになった。 gpt-4が生成する合成データのトレーニングは、英語でも多言語でも、ベースラインと比較して一貫してパフォーマンスが向上する。 他のモデルも全体的な性能向上を示すが、いくつかの設定では効果が低下する。 また,母国語話者に対して,生成した事例の自然性や論理的な健全性を評価するよう求めた。 人間の評価によると、ChatGPT や GPT-4 のような LLM は、タミルのような一部の言語を除いて、多くの言語で自然テキストを生成するのに優れている。 さらに、ChatGPTは、オリジナルのデータセットと比較してもっともらしい代替品を生成するのを後押しし、GPT-4は合成データにおける競合論理の一貫性を示す。

This paper aims to explore the potential of leveraging Large Language Models (LLMs) for data augmentation in crosslingual commonsense reasoning datasets, where the available training data is extremely limited. To achieve this, we employ several LLMs including Dolly-v2, StableVicuna, ChatGPT, and GPT-4 to augment three datasets: XCOPA, XWinograd, and XStoryCloze. Subsequently, we assess the effectiveness of fine-tuning smaller crosslingual models, mBERT and XLMR, using the synthesised data. We compare the performance of training with data generated in English and target languages, as well as translating the English-generated data into the target languages. Our experiments reveal the overall advantages of incorporating data generated by LLMs. Training on synthetic data generated by GPT-4, whether English or multilingual, improves performance consistently compared to the baseline. Other models also exhibit an overall increase in performance, however, their effectiveness decreases in some settings. We also ask native speakers to evaluate the naturalness and logical soundness of the generated examples for different languages. Human evaluation reveals that LLMs like ChatGPT and GPT-4 excel at generating natural text in most languages, except a few such as Tamil. Moreover, ChatGPT trails behind in generating plausible alternatives in comparison to the original dataset, while GPT-4 demonstrates competitive logic consistency in the synthesised data.
翻訳日:2023-05-24 14:06:40 公開日:2023-05-23
# 確率時空間ダイナミクスのための同変ニューラルシミュレータ

Equivariant Neural Simulators for Stochastic Spatiotemporal Dynamics ( http://arxiv.org/abs/2305.14286v1 )

ライセンス: Link先を確認
Koen Minartz, Yoeri Poels, Simon Koop, Vlado Menkovski(参考訳) ニューラルネットワークは、高次元力学系のスケーラブルなデータ駆動シミュレーションのツールとして、特に数値解法が実現不可能あるいは計算コストが高い環境で登場している。 特に、決定論的ニューラルネットワークシミュレータにドメイン対称性を組み込むことで、精度、サンプル効率、パラメータ効率を大幅に改善できることが示されている。 しかし、確率的現象をシミュレートできる確率的神経シミュレータに対称性を組み込むには、同変関数近似ではなく、軌道上の同変分布を生成するモデルが必要である。 本稿では,同変分布の自己回帰的確率論的モデリングの枠組みであるEquivariant Probabilistic Neural Simulation (EPNS)を提案する。 我々はepnsを用いて確率的n体系と確率的細胞動力学のモデルを設計する。 実験の結果,EPNSは既存のニューラルネットワークを用いた確率的シミュレーション法よりもかなり優れていた。 具体的には,epnに等価性を導入することで,シミュレーション品質,データ効率,ロールアウト安定性,不確実性定量化が向上することを示す。 EPNSは様々な領域における効率的なデータ駆動確率シミュレーションのための有望な手法である。

Neural networks are emerging as a tool for scalable data-driven simulation of high-dimensional dynamical systems, especially in settings where numerical methods are infeasible or computationally expensive. Notably, it has been shown that incorporating domain symmetries in deterministic neural simulators can substantially improve their accuracy, sample efficiency, and parameter efficiency. However, to incorporate symmetries in probabilistic neural simulators that can simulate stochastic phenomena, we need a model that produces equivariant distributions over trajectories, rather than equivariant function approximations. In this paper, we propose Equivariant Probabilistic Neural Simulation (EPNS), a framework for autoregressive probabilistic modeling of equivariant distributions over system evolutions. We use EPNS to design models for a stochastic n-body system and stochastic cellular dynamics. Our results show that EPNS considerably outperforms existing neural network-based methods for probabilistic simulation. More specifically, we demonstrate that incorporating equivariance in EPNS improves simulation quality, data efficiency, rollout stability, and uncertainty quantification. We conclude that EPNS is a promising method for efficient and effective data-driven probabilistic simulation in a diverse range of domains.
翻訳日:2023-05-24 14:06:15 公開日:2023-05-23
# 同一粒子干渉法による最大交絡状態のロバスト工学

Robust engineering of maximally entangled states by identical particle interferometry ( http://arxiv.org/abs/2305.14285v1 )

ライセンス: Link先を確認
Matteo Piccolini, Vittorio Giovannetti, Rosario Lo Franco(参考訳) 同一のフェルミオン量子ビットの最大絡み合い状態のロバストな合成法を提案し,その過程における粒子統計が果たす役割について検討した。 このプロトコルは外部のアクティブなノイズチャネルを利用してシステムを既知の状態にリセットする。 ビームスプリッタで発生する後続の干渉効果は、最大に絡み合ったベル状態と正午状態の混合物となる。 また, 2つの空間モード上に分布する2つのフェルミオン量子ビットの極大絡み合い状態が, フェルミオン受動光変換によって互いに得ることができるかについても検討した。 疑似スピン非感応性,非吸収性,パリティチェック検出器を用いて, 2つの同一フェルミオンの任意の最大絡み合った状態を生成する。 これらの結果は,bosonic qubitsに関する最近の知見を裏付けるものである。 最後に,外部にアクティベートされたノイズチャネルを使用しない場合,ボソンとフェルミオンの両方のプロトコルの性能を解析し,この2つのキュービットが標準ノイズとなる。 この結果は、量子エンハンシング技術で活用可能なノイズ保護エンタングルメントの実行可能な戦略に対するさらなる洞察を与える。

We propose a procedure for the robust preparation of maximally entangled states of identical fermionic qubits, studying the role played by particle statistics in the process. The protocol exploits externally activated noisy channels to reset the system to a known state. The subsequent interference effects generated at a beam splitter result in a mixture of maximally entangled Bell states and NOON states. We also discuss how every maximally entangled state of two fermionic qubits distributed over two spatial modes can be obtained from one another by fermionic passive optical transformations. Using a pseudospin-insensitive, non-absorbing, parity check detector, the proposed technique is thus shown to deterministically prepare any arbitrary maximally entangled state of two identical fermions. These results extend recent findings related to bosonic qubits. Finally, we analyze the performance of the protocol for both bosons and fermions when the externally activated noisy channels are not used and the two qubits undergo standard types of noise. The results supply further insights towards viable strategies for noise-protected entanglement exploitable in quantum-enhanced technologies.
翻訳日:2023-05-24 14:05:56 公開日:2023-05-23
# 検索型大規模言語モデルのクエリ書き換え

Query Rewriting for Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2305.14283v1 )

ライセンス: Link先を確認
Xinbei Ma, Yeyun Gong, Pengcheng He, Hai Zhao, Nan Duan(参考訳) 大規模言語モデル (llms) は \textit{retrieve-then-read} パイプラインの強力な \textit{reader} を再生し、知識ベースのオープンドメインタスクにおいて大きな進歩を遂げている。 この作業では,クエリ書き換えの観点から検索指定メソッドを改善する,新しいフレームワークである \textit{rewrite-retrieve-read}が導入されている。 先行研究は、主にレトリバーの適応や読者の刺激に寄与する。 それらと異なり、我々のアプローチはクエリ適応に注意を払っている。 なぜなら、元のクエリは、特に現実世界において LLM の検索に最適であるとは限らないからである。 1)まず LLM にクエリの書き直しを指示し,次に検索拡張読解を行う。 2) 学習可能な書き換え子として, 検索クエリを書き換えて, 冷凍レトリバーとllmリーダに対応させる小さな言語モデルを適用した。 リライタの微調整には、まず擬似データを用いて教師付きウォームアップトレーニングを行う。 次に、‘textit{Retrieve-then-Read}パイプラインは強化学習コンテキストとしてモデル化される。 リライトは、パイプラインのパフォーマンスの報酬を最大化することで、ポリシーモデルとしてさらに訓練される。 評価は、オープンドメインQAと複数選択の2つの下流タスクで行われる。 私たちのフレームワークは効果的でスケーラブルです。

Large Language Models (LLMs) play a powerful \textit{Reader} of the \textit{Retrieve-then-Read} pipeline, making great progress in knowledge-based open-domain tasks. This work introduces a new framework, \textit{Rewrite-Retrieve-Read} that improves the retrieval-augmented method from the perspective of the query rewriting. Prior studies mostly contribute to adapt the retriever or stimulate the reader. Different from them, our approach pay attention of the query adaptation. Because the original query can not be always optimal to retrieve for the LLM, especially in the real world.(1) We first prompt an LLM to rewrite the queries, then conduct retrieval-augmented reading. (2) We further apply a small language model as a trainable rewriter, which rewrite the search query to cater to the frozen retriever and the LLM reader. To fine-tune the rewriter, we first use a pseudo data to conduct supervised warm-up training. Then the \textit{Retrieve-then-Read} pipeline is modeled as a reinforcement learning context. The rewriter is further trained as a policy model by maximize the reward of the pipeline performance. Evaluation is performed on two downstream tasks, open-domain QA and multiple choice. Our framework is proved effective and scalable.
翻訳日:2023-05-24 14:05:39 公開日:2023-05-23
# INSTRUCTSCORE: 自動フィードバックによる説明可能なテキスト生成評価を目指して

INSTRUCTSCORE: Towards Explainable Text Generation Evaluation with Automatic Feedback ( http://arxiv.org/abs/2305.14282v1 )

ライセンス: Link先を確認
Wenda Xu, Danqing Wang, Liangming Pan, Zhenqiao Song, Markus Freitag, William Yang Wang, Lei Li(参考訳) テキスト生成の自動評価の分野は、ここ数年で大きな進歩を遂げた。 特に、COMET、BLEURT、SEScore2のようなニューラルメトリックの出現以来、最新の世代のメトリクスは人間の判断と高い相関関係を示している。 残念ながら、ニューラルメトリックスで生成された品質スコアは解釈不可能であり、生成アウトプットのどの部分がメトリクスによって批判されているかは明らかではない。 この制限に対処するため、テキスト生成のためのオープンソースの説明可能な評価指標であるINSTRUCTSCOREを提案する。 明示的なヒューマンインストラクションとgpt4の暗黙の知識の両方を利用することで、ラマモデルを微調整し、人間の判断と一致した診断レポートを作成できる評価指標を作成する。 我々は、7Bモデルが175B GPT3を含む他のLLMベースラインを超えるWMT22 Zh-En翻訳タスクにおいてINSTRUCTSCOREを評価する。 印象的なことに、私たちのINSTRUCTSCOREは、人間の評価データを直接監督することなく、人間の評価に基づいて微調整されたCOMET22のような最先端のメトリクスと同等のパフォーマンスレベルを達成する。

The field of automatic evaluation of text generation made tremendous progress in the last few years. In particular, since the advent of neural metrics, like COMET, BLEURT, and SEScore2, the newest generation of metrics show a high correlation with human judgment. Unfortunately, quality scores generated with neural metrics are not interpretable, and it is unclear which part of the generation output is criticized by the metrics. To address this limitation, we present INSTRUCTSCORE, an open-source, explainable evaluation metric for text generation. By harnessing both explicit human instruction and the implicit knowledge of GPT4, we fine-tune a LLAMA model to create an evaluative metric that can produce a diagnostic report aligned with human judgment. We evaluate INSTRUCTSCORE on the WMT22 Zh-En translation task, where our 7B model surpasses other LLM-based baselines, including those based on 175B GPT3. Impressively, our INSTRUCTSCORE, even without direct supervision from human-rated data, achieves performance levels on par with state-of-the-art metrics like COMET22, which was fine-tuned on human ratings.
翻訳日:2023-05-24 14:05:19 公開日:2023-05-23
# マルチモーダルプリトレーニングにおける視覚関係の弱教師付き学習

Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining ( http://arxiv.org/abs/2305.14281v1 )

ライセンス: Link先を確認
Emanuele Bugliarello, Aida Nematzadeh, Lisa Anne Hendricks(参考訳) 視覚・言語事前学習における最近の研究は、オブジェクト検出データからの教師付き信号を調べ、より精密なマルチモーダル表現を学習している。 そこで本研究では,小規模視覚関係データからの監視をいかに追加するかを,さらに詳しく検討する。 特に,マルチモーダルな設定で視覚エンティティをコンテキスト化するための2つの事前学習手法を提案する。 言語化されたシーングラフを用いて、視覚関係のトリプレットを構造化キャプションに変換し、画像の追加ビューとして扱う。 マスキング関係予測により、視覚的にマスキングされたコンテキストから関連づけることをさらに奨励する。 大量のwebデータに事前学習された強力なベースラインに適用すると,粗粒度と細粒度の両方のタスクにおけるゼロショット評価が,弱教師付き関係データからマルチモーダル表現を学習する手法の有効性を示す。

Recent work in vision-and-language pretraining has investigated supervised signals from object detection data to learn better, fine-grained multimodal representations. In this work, we take a step further and explore how we add supervision from small-scale visual relation data. In particular, we propose two pretraining approaches to contextualise visual entities in a multimodal setup. With verbalised scene graphs, we transform visual relation triplets into structured captions, and treat them as additional views of images. With masked relation prediction, we further encourage relating entities from visually masked contexts. When applied to strong baselines pretrained on large amounts of Web data, zero-shot evaluations on both coarse-grained and fine-grained tasks show the efficacy of our methods in learning multimodal representations from weakly-supervised relations data.
翻訳日:2023-05-24 14:04:58 公開日:2023-05-23
# 多言語翻訳とデータ効率の良い言語間転送のためのピクセル表現

Pixel Representations for Multilingual Translation and Data-efficient Cross-lingual Transfer ( http://arxiv.org/abs/2305.14280v1 )

ライセンス: Link先を確認
Elizabeth Salesky, Neha Verma, Philipp Koehn, Matt Post(参考訳) 画素表現を用いた多言語機械翻訳モデルを効果的に学習する方法を紹介し,実証する。 我々は、さまざまな言語とスクリプトカバレッジを持つ2つの異なるデータ設定を実験し、サブワード埋め込みと競合するパフォーマンスを示す。 画素表現の様々な特性を分析し、その潜在的な利点と異なるスクリプトやデータ表現の影響をよりよく理解する。 これらの特性は, 未知のスクリプトへのシームレスな言語間移動を可能にするだけでなく, 語彙展開などの代替手段よりも, 画素表現をよりデータ効率良くする。 この作業が、すべての言語とスクリプトに対して、より拡張可能な多言語モデルに貢献することを願っています。

We introduce and demonstrate how to effectively train multilingual machine translation models with pixel representations. We experiment with two different data settings with a variety of language and script coverage, and show performance competitive with subword embeddings. We analyze various properties of pixel representations to better understand where they provide potential benefits and the impact of different scripts and data representations. We observe that these properties not only enable seamless cross-lingual transfer to unseen scripts, but make pixel representations more data-efficient than alternatives such as vocabulary expansion. We hope this work contributes to more extensible multilingual models for all languages and scripts.
翻訳日:2023-05-24 14:04:42 公開日:2023-05-23
# LLMのマルチステップ推論における自己整合性の2つの失敗

Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs ( http://arxiv.org/abs/2305.14279v1 )

ライセンス: Link先を確認
Angelica Chen, Jason Phang, Alicia Parrish, Vishakh Padmakumar, Chen Zhao, Samuel R. Bowman, Kyunghyun Cho(参考訳) 大規模言語モデル(LLM)は、様々なコンテキスト内数ショットタスクで広く成功しているが、この成功は通常、一貫性よりも正確性によって評価される。 我々は、自己整合性は有効な多段階推論の重要な基準であり、多段階論理において特に重要である2種類の自己整合性(仮説的な他の文脈での出力を予測するためのモデルの可能性)と構成的整合性(中間ステップがそのステップでモデルの出力に置き換えられた場合でも、モデルが構成的タスクに対して出力の整合性)を提案する。 GPT-3モデルの4つのサイズは、4つのタスク(Wikipedia、DailyDialog、算術、GeoQuery)において、両タイプの一貫性が低いことを示す。

Large language models (LLMs) have achieved widespread success on a variety of in-context few-shot tasks, but this success is typically evaluated via correctness rather than consistency. We argue that self-consistency is an important criteria for valid multi-step reasoning and propose two types of self-consistency that are particularly important for multi-step logic -- hypothetical consistency (the ability for a model to predict what its output would be in a hypothetical other context) and compositional consistency (consistency of a model's outputs for a compositional task even when an intermediate step is replaced with the model's output for that step). We demonstrate that four sizes of the GPT-3 model exhibit poor consistency rates across both types of consistency on four different tasks (Wikipedia, DailyDialog, arithmetic, and GeoQuery).
翻訳日:2023-05-24 14:04:30 公開日:2023-05-23
# 大きな頂点集合間のかなり良い状態伝達

Pretty good state transfer among large sets of vertices ( http://arxiv.org/abs/2305.14276v1 )

ライセンス: Link先を確認
Ada Chan and Peter Sin(参考訳) 量子ビットのネットワーク上での連続時間量子ウォークでは、かなり良い状態移動(英: pretty good state transfer)とは、2つの頂点間の状態移動現象である。 グラフの族を構築して、集合の任意の2つの頂点間の状態移動がかなり良いことを許容する頂点の集合のサイズに制限がないことを示す。

In a continuous-time quantum walk on a network of qubits, pretty good state transfer is the phenomenon of state transfer between two vertices with fidelity arbitrarily close to 1. We construct families of graphs to demonstrate that there is no bound on the size of a set of vertices that admit pretty good state transfer between any two vertices of the set.
翻訳日:2023-05-24 14:04:15 公開日:2023-05-23
# QTSumm: クエリフォーカステーブル要約のための新しいベンチマーク

QTSumm: A New Benchmark for Query-Focused Table Summarization ( http://arxiv.org/abs/2305.14303v1 )

ライセンス: Link先を確認
Yilun Zhao, Zhenting Qi, Linyong Nan, Boyu Mi, Yixin Liu, Weijin Zou, Simeng Han, Xiangru Tang, Yumo Xu, Arman Cohan, Dragomir Radev(参考訳) 人々は主に、データ分析や特定の質問に答えるためにテーブルをコンサルティングします。 ユーザの情報に合わせた正確な表要約を提供するテキスト生成システムは、関連するデータへのより効率的なアクセスを容易にする。 しかし、既存の表からテキストへの生成研究は主に、情報参照の目的ではなく、表データからコヒーレントステートメントへの変換に焦点を当てている。 本稿では,与えられたテーブル上でテキスト生成モデルが人間的な推論と分析を行なわなければならない,クエリ中心のテーブル要約タスクを定義し,このタスクにqtsummという新しいベンチマークを導入する。 QTSummは、さまざまなトピックに関する2,437のテーブル上に、5,625の人間アノテーション付きクエリサマリーペアで構成されている。 さらに,qtsummデータセットの最先端モデル(テキスト生成,テーブル間生成,大規模言語モデル)についても検討する。 実験結果と手動解析により,本ベンチマークはテーブル・ツー・テクスチャ生成における重要な課題を示す。

People primarily consult tables to conduct data analysis or answer specific questions. Text generation systems that can provide accurate table summaries tailored to users' information needs can facilitate more efficient access to relevant data insights. However, existing table-to-text generation studies primarily focus on converting tabular data into coherent statements, rather than addressing information-seeking purposes. In this paper, we define a new query-focused table summarization task, where text generation models have to perform human-like reasoning and analysis over the given table to generate a tailored summary, and we introduce a new benchmark named QTSumm for this task. QTSumm consists of 5,625 human-annotated query-summary pairs over 2,437 tables on diverse topics. Moreover, we investigate state-of-the-art models (i.e., text generation, table-to-text generation, and large language models) on the QTSumm dataset. Experimental results and manual analysis reveal that our benchmark presents significant challenges in table-to-text generation for future research.
翻訳日:2023-05-24 13:57:33 公開日:2023-05-23
# vip5:レコメンデーションのためのマルチモーダル基礎モデルに向けて

VIP5: Towards Multimodal Foundation Models for Recommendation ( http://arxiv.org/abs/2305.14302v1 )

ライセンス: Link先を確認
Shijie Geng and Juntao Tan and Shuchang Liu and Zuohui Fu and Yongfeng Zhang(参考訳) Computer Vision(CV)、Natural Language Processing(NLP)、Recommender Systems(RecSys)は、伝統的に独立して開発された3つの著名なAIアプリケーションである。 このことは、これらの分野が互いの進歩から直接利益を得る能力を妨げている。 Web上でのマルチモーダルデータの可用性の向上に伴い,ユーザへのレコメンデーションを行う上で,さまざまなモダリティを検討する必要性が高まっている。 近年の基盤モデルの出現により、様々なモダリティと問題定式化を統一するための汎用インターフェースとして、大きな言語モデルが出現している。 そこで本研究では,P5レコメンデーションパラダイム(VIP5)に基づく視覚とテキストの両方のモダリティを考慮し,様々なモダリティとレコメンデーションタスクを統一したマルチモーダル基盤モデルを提案する。 これにより、ビジョン、言語、パーソナライズ情報を共有アーキテクチャで処理し、レコメンデーションを改善することができる。 これを実現するために、共有フォーマットで複数のモダリティに対応するマルチモーダルパーソナライズされたプロンプトを導入する。 さらに,バックボーンと微調整された軽量アダプタの凍結を伴う基礎モデルのパラメータ効率向上学習手法を提案し,トレーニング時間やメモリ使用量の観点から,推奨性能の向上と効率の向上を実現した。

Computer Vision (CV), Natural Language Processing (NLP), and Recommender Systems (RecSys) are three prominent AI applications that have traditionally developed independently, resulting in disparate modeling and engineering methodologies. This has impeded the ability for these fields to directly benefit from each other's advancements. With the increasing availability of multimodal data on the web, there is a growing need to consider various modalities when making recommendations for users. With the recent emergence of foundation models, large language models have emerged as a potential general-purpose interface for unifying different modalities and problem formulations. In light of this, we propose the development of a multimodal foundation model by considering both visual and textual modalities under the P5 recommendation paradigm (VIP5) to unify various modalities and recommendation tasks. This will enable the processing of vision, language, and personalization information in a shared architecture for improved recommendations. To achieve this, we introduce multimodal personalized prompts to accommodate multiple modalities under a shared format. Additionally, we propose a parameter-efficient training method for foundation models, which involves freezing the backbone and fine-tuning lightweight adapters, resulting in improved recommendation performance and increased efficiency in terms of training time and memory usage.
翻訳日:2023-05-24 13:57:14 公開日:2023-05-23
# ラプラシアンピラミッドを用いた生成H&Eステイン拡張ネットワーク

A Laplacian Pyramid Based Generative H&E Stain Augmentation Network ( http://arxiv.org/abs/2305.14301v1 )

ライセンス: Link先を確認
Fangda Li, Zhiqiang Hu, Wen Chen, Avinash Kak(参考訳) ヘマトキシリンおよびエオシン染色(ヘマトキシリンとエオシン、H&E)は、組織部位の飽和度と核と細胞質のコントラストを高めるために広く用いられている試料調製法である。 しかし、使用中の試薬の違いなど様々な要因により、実際に記録された染料の色が変化しやすい。 この可変性は、機械学習ベースのコンピュータ支援診断ツールの一般化を達成する上で課題となる。 GANベースのフレームワークであるGenerative Stain Augmentation Network (G-SAN)を提案する。 その核となるg-sanは、細胞の形態から染色を分離できる新しい計算効率の高いラプラシアンピラミッド(lp)ベースのジェネレータアーキテクチャを使用している。 パッチ分類と核分割の課題を通じて,G-SANによるトレーニングデータを用いることで,F1スコアの平均15.7%,汎視的品質7.3%の向上が得られた。 私たちのコードはhttps://github.com/lifangda01/gsan-demoで利用可能です。

Hematoxylin and Eosin (H&E) staining is a widely used sample preparation procedure for enhancing the saturation of tissue sections and the contrast between nuclei and cytoplasm in histology images for medical diagnostics. However, various factors, such as the differences in the reagents used, result in high variability in the colors of the stains actually recorded. This variability poses a challenge in achieving generalization for machine-learning based computer-aided diagnostic tools. To desensitize the learned models to stain variations, we propose the Generative Stain Augmentation Network (G-SAN) -- a GAN-based framework that augments a collection of cell images with simulated yet realistic stain variations. At its core, G-SAN uses a novel and highly computationally efficient Laplacian Pyramid (LP) based generator architecture, that is capable of disentangling stain from cell morphology. Through the task of patch classification and nucleus segmentation, we show that using G-SAN-augmented training data provides on average 15.7% improvement in F1 score and 7.3% improvement in panoptic quality, respectively. Our code is available at https://github.com/lifangda01/GSAN-Demo.
翻訳日:2023-05-24 13:56:49 公開日:2023-05-23
# TaDSE:テンプレート対応対話文埋め込み

TaDSE: Template-aware Dialogue Sentence Embeddings ( http://arxiv.org/abs/2305.14299v1 )

ライセンス: Link先を確認
Minsik Oh, Jiwei Li, Guoyin Wang(参考訳) アノテーションコストの低い対話指向タスクの解決が不可欠であるため,対話から高品質な文の埋め込みを学習することが注目されている。 しかし、会話の中でアノテートや発話関係の収集は難しいが、トークンレベルのアノテーション、例えば、エンティティ、スロット、テンプレートは入手が容易である。 一般的な文埋め込み手法は通常文レベルの自己教師付きフレームワークであり、トークンレベルの余分な知識を活用できない。 本稿では,テンプレート情報を利用した自己教師付きコントラスト学習フレームワークによる発話表現を効果的に学習する,テンプレート対応対話文埋め込み(TaDSE)を提案する。 tadseは各文を対応するテンプレートで拡張し、文とテンプレートの両方でペアでコントラスト学習を行う。 エンティティ検出(スロットフィル)が予備的なステップである発話-テンプレート関係を強化する合成拡張データセットにより、さらに効果を高める。 5つのダウンストリームベンチマークデータセットでTaDSEの性能を評価する。 実験の結果,TaDSEは従来のSOTA法よりも大幅に改善され,一貫したインテント分類タスク性能改善マージンが得られた。 さらに,一様性とアライメントとの相関性を見出すために,意味圧縮法の新たな分析手法を提案する。 私たちのコードはまもなくリリースされます。

Learning high quality sentence embeddings from dialogues has drawn increasing attentions as it is essential to solve a variety of dialogue-oriented tasks with low annotation cost. However, directly annotating and gathering utterance relationships in conversations are difficult, while token-level annotations, \eg, entities, slots and templates, are much easier to obtain. General sentence embedding methods are usually sentence-level self-supervised frameworks and cannot utilize token-level extra knowledge. In this paper, we introduce Template-aware Dialogue Sentence Embedding (TaDSE), a novel augmentation method that utilizes template information to effectively learn utterance representation via self-supervised contrastive learning framework. TaDSE augments each sentence with its corresponding template and then conducts pairwise contrastive learning over both sentence and template. We further enhance the effect with a synthetically augmented dataset that enhances utterance-template relation, in which entity detection (slot-filling) is a preliminary step. We evaluate TaDSE performance on five downstream benchmark datasets. The experiment results show that TaDSE achieves significant improvements over previous SOTA methods, along with a consistent Intent Classification task performance improvement margin. We further introduce a novel analytic instrument of Semantic Compression method, for which we discover a correlation with uniformity and alignment. Our code will be released soon.
翻訳日:2023-05-24 13:56:25 公開日:2023-05-23
# MOTRv3: エンドツーエンドマルチオブジェクト追跡のためのリリース・フェッチ・スーパービジョン

MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking ( http://arxiv.org/abs/2305.14298v1 )

ライセンス: Link先を確認
En Yu, Tiancai Wang, Zhuoling Li, Yuang Zhang, Xiangyu Zhang, Wenbing Tao(参考訳) MOTRのようなエンドツーエンドのマルチオブジェクトトラッカーは単純さの利点を享受するが、検出と関連性の対立に悩まされ、不満足な収束ダイナミクスをもたらす。 MOTRv2は部分的にこの問題に対処するが、補助のために追加の検知ネットワークを必要とする。 本研究は,クエリ検出とトレーニング中のクエリ追跡の不正なラベル割り当てから,クエリ検出がターゲットを認識し,関連するクエリを追跡するという,この競合を最初に明らかにするものである。 そこで本研究では,本手法を用いてラベル割当プロセスのバランスをとるmotrv3を提案する。 この戦略では、ラベルは最初に検出のためにリリースされ、徐々に関連付けられていく。 さらにpseudo label distillationとtrack group denoisingという別の2つの戦略は、検出と関連付けの監督をさらに改善するために設計されている。 推論中に追加の検知ネットワークの助けがなければ、MOTRv3はMOT17やDanceTrackといった様々なベンチマークで優れたパフォーマンスを達成できる。

Although end-to-end multi-object trackers like MOTR enjoy the merits of simplicity, they suffer from the conflict between detection and association seriously, resulting in unsatisfactory convergence dynamics. While MOTRv2 partly addresses this problem, it demands an additional detection network for assistance. In this work, we serve as the first to reveal that this conflict arises from the unfair label assignment between detect queries and track queries during training, where these detect queries recognize targets and track queries associate them. Based on this observation, we propose MOTRv3, which balances the label assignment process using the developed release-fetch supervision strategy. In this strategy, labels are first released for detection and gradually fetched back for association. Besides, another two strategies named pseudo label distillation and track group denoising are designed to further improve the supervision for detection and association. Without the assistance of an extra detection network during inference, MOTRv3 achieves impressive performance across diverse benchmarks, e.g., MOT17, DanceTrack.
翻訳日:2023-05-24 13:56:03 公開日:2023-05-23
# usb:タスクとドメインをまたいだ統一要約ベンチマーク

USB: A Unified Summarization Benchmark Across Tasks and Domains ( http://arxiv.org/abs/2305.14296v1 )

ライセンス: Link先を確認
Kundan Krishna, Prakhar Gupta, Sanjana Ramprasad, Byron C. Wallace, Jeffrey P. Bigham, Zachary C. Lipton(参考訳) しかし、これらのデータセットはしばしばヒューリスティックに抽出され、エビデンス抽出や制御可能な要約など、要約のあらゆる側面の研究を支援する十分なアノテーションが欠如している。 本稿では,要約の多次元的理解を必要とする8つのタスクからなるベンチマークについて紹介する。 このベンチマークの様々な方法を比較し、複数のタスクにおいて、中程度の微調整されたモデルが、ずっと大きな数発の言語モデルを上回ることを発見します。 事実に関するタスクについては、既存のヒューリスティックスを評価してトレーニングデータを作成し、トレーニングが20ドル以上のトレーニングよりもパフォーマンスが悪いことを確認します。 ベンチマークは6つの異なるドメインのデータで構成されており、トレーニングされたモデルのクロスドメインパフォーマンスを研究できます。 いくつかのタスクでは、トレーニングデータの量は、それがもたらすドメインよりも重要であるのに対して、ターゲットドメインのデータに特化してトレーニングするタスクは、たとえ制限されたとしても、より有益であることに気付きます。 当社の作業は,多種多様なタスクによる注釈付き要約ベンチマークの必要性を満たすとともに,トレーニングデータの品質,サイズ,ドメインへの影響に関する有用な洞察を提供する。

An abundance of datasets exist for training and evaluating models on the task of summary generation.However, these datasets are often derived heuristically, and lack sufficient annotations to support research into all aspects of summarization, such as evidence extraction and controllable summarization. We introduce a benchmark comprising 8 tasks that require multi-dimensional understanding of summarization, e.g., surfacing evidence for a summary, assessing its correctness, and gauging its relevance to different topics. We compare various methods on this benchmark and discover that on multiple tasks, moderately-sized fine-tuned models consistently outperform much larger few-shot prompted language models. For factuality related tasks, we also evaluate existing heuristics to create training data and find that training on them performs worse than training on $20\times$ less human-labeled data. Our benchmark consists of data from 6 different domains, allowing us to study cross-domain performance of trained models. We find that for some tasks, the amount of training data matters more than the domain where it comes from, while for other tasks training specifically on data from the target domain, even if limited, is more beneficial. Our work fulfills the need for a well-annotated summarization benchmark with diverse tasks, and provides useful insights about the impact of the quality, size and domain of training data.
翻訳日:2023-05-24 13:55:44 公開日:2023-05-23
# 投影量子進化による時間依存変分モンテカルロの非バイアス化

Unbiasing time-dependent Variational Monte Carlo by projected quantum evolution ( http://arxiv.org/abs/2305.14294v1 )

ライセンス: Link先を確認
Alessandro Sinibaldi, Clemens Giuliani, Giuseppe Carleo, Filippo Vicentini(参考訳) 変分モンテカルロ法による多体量子系の力学を古典的にシミュレートするための精度とサンプルの複雑さを解析する。 関連する確率的推定器を体系的に研究することで (i) 最もよく用いられるスキームである時間依存変分モンテカルロ(tvmc)は、波動関数がフェルミオン系や量子情報プロトコルにとって重要な場合である(おそらく近似)零点を含むとき、系統的統計バイアスまたは指数的サンプル複雑性に影響されていることを証明する。 (ii)各段階における最適化問題の解に基づく異なるスキームは、そのような問題から自由であることを示す。 (iii) この後者のアプローチのサンプル複雑性を、以前の概念実証に関して数桁の桁数で改善する。 最後に,2次元の局所ランダム測定による非クリフォードユニタリ力学のプロトコルを用いて,まず小さなスピン格子上でのベンチマークを行い,次に大規模システムに拡張した。

We analyze the accuracy and sample complexity of variational Monte Carlo approaches to simulate the dynamics of many-body quantum systems classically. By systematically studying the relevant stochastic estimators, we are able to: (i) prove that the most used scheme, the time-dependent Variational Monte Carlo (tVMC), is affected by a systematic statistical bias or exponential sample complexity when the wave function contains some (possibly approximate) zeros, an important case for fermionic systems and quantum information protocols; (ii) show that a different scheme based on the solution of an optimization problem at each time step is free from such problems; (iii) improve the sample complexity of this latter approach by several orders of magnitude with respect to previous proofs of concept. Finally, we apply our advancements to study the high-entanglement phase in a protocol of non-Clifford unitary dynamics with local random measurements in 2D, first benchmarking on small spin lattices and then extending to large systems.
翻訳日:2023-05-24 13:55:20 公開日:2023-05-23
# WebIE: Web上の忠実でロバストな情報抽出

WebIE: Faithful and Robust Information Extraction on the Web ( http://arxiv.org/abs/2305.14293v1 )

ライセンス: Link先を確認
Chenxi Whitehouse, Clara Vania, Alham Fikri Aji, Christos Christodoulopoulos, Andrea Pierleoni(参考訳) 原文から構造化事実と接地事実を抽出することは情報抽出(IE)の基本課題である。 既存のIEデータセットは通常ウィキペディアの記事から収集され、ハイパーリンクを使用してエンティティをウィキデータナレッジベースにリンクする。 しかし、wikipediaでのみトレーニングされたモデルは、webドメインに適用すると制限があり、それらは、事実情報を持たないノイズの多いテキストやテキストを含んでいることが多い。 webieは、英語のコモンクロールコーパスから自動的に収集される1.6mの文からなる、最初の大規模なエンティティリンクのクローズドieデータセットである。 WebIEはまた、Web上のデータをよりよく反映するために、事実の3倍の文のような否定的な例も含んでいる。 クラウドソーシングを通じてWebIEから25万トリプルを注釈付けし、他の4つの言語(フランス語、スペイン語、ポルトガル語、ヒンディー語)で注釈付けされたセットの翻訳であるmWebIEを紹介します。 生成IEモデルのドメイン内, ドメイン内, ドメイン内, ゼロショットのクロスランガル性能を評価し, WebIE で訓練されたモデルの方がより汎用性が高いことを示す。 また,エンティティリンクを補助タスクとして使用する3つのトレーニング戦略を提案する。 実験の結果,Entity-Linkingの目的を付加することで,生成IEモデルの忠実度が向上することがわかった。

Extracting structured and grounded fact triples from raw text is a fundamental task in Information Extraction (IE). Existing IE datasets are typically collected from Wikipedia articles, using hyperlinks to link entities to the Wikidata knowledge base. However, models trained only on Wikipedia have limitations when applied to web domains, which often contain noisy text or text that does not have any factual information. We present WebIE, the first large-scale, entity-linked closed IE dataset consisting of 1.6M sentences automatically collected from the English Common Crawl corpus. WebIE also includes negative examples, i.e. sentences without fact triples, to better reflect the data on the web. We annotate ~25K triples from WebIE through crowdsourcing and introduce mWebIE, a translation of the annotated set in four other languages: French, Spanish, Portuguese, and Hindi. We evaluate the in-domain, out-of-domain, and zero-shot cross-lingual performance of generative IE models and find models trained on WebIE show better generalisability. We also propose three training strategies that use entity linking as an auxiliary task. Our experiments show that adding Entity-Linking objectives improves the faithfulness of our generative IE models.
翻訳日:2023-05-24 13:55:01 公開日:2023-05-23
# WikiChat:ウィキペディアをベースとしたLLMベースのチャットボット

WikiChat: A Few-Shot LLM-Based Chatbot Grounded with Wikipedia ( http://arxiv.org/abs/2305.14292v1 )

ライセンス: Link先を確認
Sina J. Semnani, Violet Z. Yao, Heidi C. Zhang, Monica S. Lam(参考訳) 近年のLarge Language Models (LLMs) の進歩にもかかわらず、ユーザは応答で提供される情報を信頼できない。 llmは、トレーニング後に発生した出来事について正確には話せず、ユーザにとって非常に関心のあるトピックであり、本論文で示すように、より人気の低い(テール)トピックについて話すとき、幻覚に陥りやすい。 本稿は、wikipediaのライブ情報を基盤とする、数発のllmベースのチャットボットであるwikichatについて紹介する。 実験の繰り返しを通じて我々は,(1)ウィキペディアに対して個別に検証された興味深い事実をLLMを用いて提案し,(2)最新情報を検索し,(3)一貫性と係り合う応答を構成する,情報検索に基づくパイプラインを構築した。 LLMベースのチャットボットの現実性と会話性を分析するために,新しいハイブリッドヒューマン・アンド・LLM評価手法を提案する。 我々は、最近の話題や末尾に関する議論など、重要で無視された問題を評価することに注力する。 WikiChatは,多種多様な会話トピックに対して,高度に微調整されたLLMベースのベースラインに対して評価する。 WikiChatは、その主張の事実的正確さですべてのベースラインを上回り、12.1%、28.3%、32.7%を頭、最近のトピック、尾のトピックで上回り、GPT-3.5を自然で関係のない、情報的応答でマッチングしている。

Despite recent advances in Large Language Models (LLMs), users still cannot trust the information provided in their responses. LLMs cannot speak accurately about events that occurred after their training, which are often topics of great interest to users, and, as we show in this paper, they are highly prone to hallucination when talking about less popular (tail) topics. This paper presents WikiChat, a few-shot LLM-based chatbot that is grounded with live information from Wikipedia. Through many iterations of experimentation, we have crafte a pipeline based on information retrieval that (1) uses LLMs to suggest interesting and relevant facts that are individually verified against Wikipedia, (2) retrieves additional up-to-date information, and (3) composes coherent and engaging time-aware responses. We propose a novel hybrid human-and-LLM evaluation methodology to analyze the factuality and conversationality of LLM-based chatbots. We focus on evaluating important but previously neglected issues such as conversing about recent and tail topics. We evaluate WikiChat against strong fine-tuned and LLM-based baselines across a diverse set of conversation topics. We find that WikiChat outperforms all baselines in terms of the factual accuracy of its claims, by up to 12.1%, 28.3% and 32.7% on head, recent and tail topics, while matching GPT-3.5 in terms of providing natural, relevant, non-repetitive and informational responses.
翻訳日:2023-05-24 13:54:39 公開日:2023-05-23
# 自然言語生成におけるアフリカ系アメリカ人言語バイアスの評価

Evaluation of African American Language Bias in Natural Language Generation ( http://arxiv.org/abs/2305.14291v1 )

ライセンス: Link先を確認
Nicholas Deas and Jessi Grieser and Shana Kleiner and Desmond Patton and Elsbeth Turcan and Kathleen McKeown(参考訳) llmがアフリカ系アメリカ人の言語(aal)をいかによく理解しているかを、アメリカの教室で教えられる「標準」な英語であるホワイト・メインストリーム・イングリッシュ(wme)のパフォーマンスと比較し、評価した。 モデルが与えられたWME(またはAAL)からAAL(またはWME)を生成し、マスク付きスパン予測(MSP)タスクを生成し、モデルが入力から削除されたフレーズを予測する。 1)2つの言語生成タスクにおける6つの事前学習された大規模言語モデルの評価,2)複数の文脈(ソーシャルメディア,ヒップホップ歌詞,フォーカスグループ,言語インタビュー)からのaalテキストの新しいデータセットとwmeの人間に注釈された対応語との比較,3)aal特徴の理解の欠如に対するバイアスとトレンドの識別を示唆するモデルパフォーマンスギャップの文書化,などである。

We evaluate how well LLMs understand African American Language (AAL) in comparison to their performance on White Mainstream English (WME), the encouraged "standard" form of English taught in American classrooms. We measure LLM performance using automatic metrics and human judgments for two tasks: a counterpart generation task, where a model generates AAL (or WME) given WME (or AAL), and a masked span prediction (MSP) task, where models predict a phrase that was removed from their input. Our contributions include: (1) evaluation of six pre-trained, large language models on the two language generation tasks; (2) a novel dataset of AAL text from multiple contexts (social media, hip-hop lyrics, focus groups, and linguistic interviews) with human-annotated counterparts in WME; and (3) documentation of model performance gaps that suggest bias and identification of trends in lack of understanding of AAL features.
翻訳日:2023-05-24 13:54:09 公開日:2023-05-23
# RET-LLM:大規模言語モデルのための一般的な読み書きメモリを目指して

RET-LLM: Towards a General Read-Write Memory for Large Language Models ( http://arxiv.org/abs/2305.14322v1 )

ライセンス: Link先を確認
Ali Modarressi, Ayyoob Imani, Mohsen Fayyaz, Hinrich Sch\"utze(参考訳) 大規模言語モデル(LLM)は、その広範なパラメータと包括的なデータ利用を通じて、自然言語処理(NLP)の分野を著しく進歩させてきた。 しかし、既存のLLMには専用のメモリユニットがなく、様々なタスクの知識を明示的に保存し、取得する能力に制限がある。 本稿では,llmに一般的なライトリードメモリユニットを装備し,タスクパフォーマンスに必要なテキストから知識を抽出・保存・リコールできる,新しいフレームワーク ret-llm を提案する。 デビッドソンのセマンティクス理論に触発され、三重項の形で知識を抽出し保存する。 メモリユニットはスケーラブルで、集約可能で、拡張可能で、解釈可能なように設計されている。 質的評価を通じて,質問応答タスクにおけるベースラインアプローチよりも,提案フレームワークが優れていることを示す。 さらに,時間に依存した質問応答タスクの処理にロバストな性能を示し,時間依存情報を管理する能力を示す。

Large language models (LLMs) have significantly advanced the field of natural language processing (NLP) through their extensive parameters and comprehensive data utilization. However, existing LLMs lack a dedicated memory unit, limiting their ability to explicitly store and retrieve knowledge for various tasks. In this paper, we propose RET-LLM a novel framework that equips LLMs with a general write-read memory unit, allowing them to extract, store, and recall knowledge from the text as needed for task performance. Inspired by Davidsonian semantics theory, we extract and save knowledge in the form of triplets. The memory unit is designed to be scalable, aggregatable, updatable, and interpretable. Through qualitative evaluations, we demonstrate the superiority of our proposed framework over baseline approaches in question answering tasks. Moreover, our framework exhibits robust performance in handling temporal-based question answering tasks, showcasing its ability to effectively manage time-dependent information.
翻訳日:2023-05-24 13:48:43 公開日:2023-05-23
# congrat:ジョイントグラフとテキスト埋め込みのための自己教師付きコントラストプリトレーニング

ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings ( http://arxiv.org/abs/2305.14321v1 )

ライセンス: Link先を確認
William Brannon, Suyash Fulay, Hang Jiang, Wonjune Kang, Brandon Roy, Jad Kabbara, Deb Roy(参考訳) そこで本研究では,親(あるいは'supervening')グラフにおいて,各テキストがノードの1つに関連付けられるような,テキストとノードの別々の表現を協調的に学習する手法であるcongrat(contrastive graph-text pretraining)を提案する。 このパラダイムに適合するデータセットは、ソーシャルメディア(ユーザーと投稿)から記事上の引用ネットワーク、Webページ上のグラフのリンクまで、一般的である。 我々は,特定のデータセット構造や特定のタスクに依存しない,汎用的で自己管理型の共同事前学習手法を提供することにより,先行作業を拡張する。 本手法では,グラフノードとテキストに対して2つの異なるエンコーダを用い,それらの表現を共通の潜在空間内で整列するように訓練する。 トレーニングでは、ジョイントテキストと画像エンコーディングの先行作業に触発された、バッチ的なコントラスト学習目標を使用する。 グラフは画像よりも構造化されたオブジェクトであるため、ノードの類似性や、一致するノードやテキストの次の推測に関する情報を組み込むためのトレーニング目的も拡張する。 さまざまなデータセットの実験により、ConGraTは、ノードとテキストのカテゴリ分類やリンク予測など、さまざまな下流タスクにおいて、強いベースラインを上回ります。 コードとデータセットはhttps://github.com/wwbrannon/congratで入手できる。

We propose ConGraT(Contrastive Graph-Text pretraining), a general, self-supervised method for jointly learning separate representations of texts and nodes in a parent (or ``supervening'') graph, where each text is associated with one of the nodes. Datasets fitting this paradigm are common, from social media (users and posts), to citation networks over articles, to link graphs over web pages. We expand on prior work by providing a general, self-supervised, joint pretraining method, one which does not depend on particular dataset structure or a specific task. Our method uses two separate encoders for graph nodes and texts, which are trained to align their representations within a common latent space. Training uses a batch-wise contrastive learning objective inspired by prior work on joint text and image encoding. As graphs are more structured objects than images, we also extend the training objective to incorporate information about node similarity and plausible next guesses in matching nodes and texts. Experiments on various datasets reveal that ConGraT outperforms strong baselines on various downstream tasks, including node and text category classification and link prediction. Code and certain datasets are available at https://github.com/wwbrannon/congrat.
翻訳日:2023-05-24 13:48:27 公開日:2023-05-23
# CREATOR:ツール作成による大規模言語モデルの抽象的・具体的な推論

CREATOR: Disentangling Abstract and Concrete Reasonings of Large Language Models through Tool Creation ( http://arxiv.org/abs/2305.14318v1 )

ライセンス: Link先を確認
Cheng Qian, Chi Han, Yi R. Fung, Yujia Qin, Zhiyuan Liu, Heng Ji(参考訳) 大きな言語モデル(LLM)は、様々なタスクのためのツールとして外部APIを活用する上で大きな進歩を見せている。 しかし、それらのツールの使用能力は、適切なapiが利用可能であること、暗黙の推論が不安定であること、特に計画や実際の計算について推論するときに制限される。 これらの制限に対処するため、私たちは、LCMがドキュメントやコード実現を通じて独自のツールを作成できるようにする新しいフレームワークCREATORを提案します。 CREATORはLLMの能力を2つの異なるフェーズ(抽象ツール作成と具体的な決定実行)に切り離し、LLMのパフォーマンスが向上する。 2つの確立したベンチマークでクリエーターを評価する:数学は数学の競争に挑戦する問題から成り、tabmwpは問題解決のための様々な表的なコンテンツを含んでいる。 注目すべきは、CREATORが既存のチェーン・オブ・シークレット(CoT)、プログラム・オブ・シークレット(PoT)、ツール使用ベースラインを2つのベンチマークで大幅に上回っていることだ。 さらに,これらの課題を効果的に解決するためのllmsのツール作成能力の必要性とメリットを強調するために,2kの多様な質問からなる新しいデータセット「create challenge」を提案する。 さらに,LSMをツール作成者として活用することで,知識伝達が促進され,LSMは様々なレベルのツール作成能力を示し,多様な状況に柔軟に取り組むことができる。 我々の研究は、LLMの可能性を最大化し、真にインテリジェントで適応可能なAIシステムに向けて進むための、有望な道のりを示す。

Large Language Models (LLMs) have demonstrated significant progress in utilizing external APIs as tools for various tasks. However, their tool-using ability is limited by the availability of suitable APIs and the instability of implicit reasoning, particularly when simultaneously engaging in reasoning about plans and actual calculations. To address these limitations, we propose CREATOR, a novel framework that empowers LLMs to create their own tools through documentation and code realization. CREATOR disentangles the LLM's ability into two distinct phases: abstract tool creation and concrete decision execution, which results in improved LLM performance. We evaluate CREATOR on two established benchmarks: MATH, which consists of challenging math competition problems, and TabMWP, which includes diverse tabular contents for problem-solving. Remarkably, CREATOR significantly outperforms existing chain-of-thought (CoT), program-of-thought (PoT), and tool-using baselines on these two benchmarks. Additionally, we present a new dataset, Creation Challenge, comprising 2K diverse questions, to highlight the necessity and benefits of LLMs' tool creation ability in effectively addressing these problems. Furthermore, our research reveals that leveraging LLMs as tool creators facilitates knowledge transfer, and LLMs exhibit varying levels of tool creation abilities, enabling them to flexibly tackle diverse situations. Our study represents a promising avenue for maximizing the potential of LLMs and advancing toward truly intelligent and adaptable AI systems.
翻訳日:2023-05-24 13:48:02 公開日:2023-05-23
# QLoRA:量子化LDMの効率的な微細加工

QLoRA: Efficient Finetuning of Quantized LLMs ( http://arxiv.org/abs/2305.14314v1 )

ライセンス: Link先を確認
Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer(参考訳) QLoRAは,1つの48GB GPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減し,全16ビットの微調整タスク性能を保っている。 QLoRAは、凍結した4ビットの量子化事前訓練言語モデルを通して勾配をローランクアダプタ~(LoRA)にバックプロパゲートする。 私たちがguanacoと名づけた最高のモデルファミリは、これまでのvicunaベンチマークでリリースされたすべてのモデルよりも優れており、単一のgpuで24時間のみ微調整しながら、chatgptのパフォーマンスレベルの99.3%に達しています。 QLoRAは、パフォーマンスを犠牲にすることなくメモリを節約するための多くのイノベーションを紹介している。 (a) 4-bit NormalFloat (NF4) 正規分布重みに対して理論的に最適な情報である新しいデータ型 b) 量子化定数を定量化することにより平均メモリフットプリントを削減するための二重量子化 (c) メモリスパイクを管理するオプティマイザ。 我々はQLoRAを使用して1000以上のモデルを微調整し、8つの命令データセット、複数のモデルタイプ(LLaMA、T5)、および通常の微調整で実行できないモデルスケール(33B、65Bパラメータモデルなど)にわたる命令追従とチャットボットのパフォーマンスを詳細に分析する。 以上の結果から,QLoRAファインタニングは,従来のSoTAよりも小さなモデルを用いた場合であっても,最先端のデータセットに導かれることがわかった。 本稿では,人間とGPT-4の評価に基づくチャットボットの性能の詳細な分析を行い,GPT-4の評価が人間の評価に対する安価で合理的な代替手段であることを示す。 さらに、現在のチャットボットベンチマークでは、チャットボットのパフォーマンスレベルを正確に評価することは信用できない。 レモンピクチャード分析は、グアナコがChatGPTと比較してどこで失敗したかを示している。 4ビットトレーニング用のCUDAカーネルを含む、すべてのモデルとコードをリリースしています。

We present QLoRA, an efficient finetuning approach that reduces memory usage enough to finetune a 65B parameter model on a single 48GB GPU while preserving full 16-bit finetuning task performance. QLoRA backpropagates gradients through a frozen, 4-bit quantized pretrained language model into Low Rank Adapters~(LoRA). Our best model family, which we name Guanaco, outperforms all previous openly released models on the Vicuna benchmark, reaching 99.3% of the performance level of ChatGPT while only requiring 24 hours of finetuning on a single GPU. QLoRA introduces a number of innovations to save memory without sacrificing performance: (a) 4-bit NormalFloat (NF4), a new data type that is information theoretically optimal for normally distributed weights (b) double quantization to reduce the average memory footprint by quantizing the quantization constants, and (c) paged optimziers to manage memory spikes. We use QLoRA to finetune more than 1,000 models, providing a detailed analysis of instruction following and chatbot performance across 8 instruction datasets, multiple model types (LLaMA, T5), and model scales that would be infeasible to run with regular finetuning (e.g. 33B and 65B parameter models). Our results show that QLoRA finetuning on a small high-quality dataset leads to state-of-the-art results, even when using smaller models than the previous SoTA. We provide a detailed analysis of chatbot performance based on both human and GPT-4 evaluations showing that GPT-4 evaluations are a cheap and reasonable alternative to human evaluation. Furthermore, we find that current chatbot benchmarks are not trustworthy to accurately evaluate the performance levels of chatbots. A lemon-picked analysis demonstrates where Guanaco fails compared to ChatGPT. We release all of our models and code, including CUDA kernels for 4-bit training.
翻訳日:2023-05-24 13:47:35 公開日:2023-05-23
# 2dコレクションからのテキスト誘導型3d人間生成

Text-guided 3D Human Generation from 2D Collections ( http://arxiv.org/abs/2305.14312v1 )

ライセンス: Link先を確認
Tsu-Jui Fu and Wenhan Xiong and Yixin Nie and Jingyu Liu and Barlas O\u{g}uz and William Yang Wang(参考訳) 3d人間のモデリングはゲーム、映画、アニメーションの相互作用に広く使われている。 これらの文字のカスタマイズはクリエイティビティとスケーラビリティにとって不可欠であり、制御性の重要性を強調している。 本稿では,ファッション記述に導かれる3次元人間を生成するためのモデルとして,テキスト誘導3次元人間生成(\texttt{t3h})を導入する。 2つの目標があります 1) 3次元人間は、明瞭に描画し、 2) その衣服は所定のテキストによって制御される。 この課題に対処するため,我々はCCH(Compositional Cross-modal Human)を提案する。 CCHは、抽出されたファッションセマンティクスを用いたヒューズ合成ヒトのレンダリングに、クロスモーダルアテンションを採用する。 人体の各部位は、視覚パターンとして関連するテキストガイダンスを知覚する。 我々は,3次元形状変換ときめ細かな一貫性を強化するために,人間の先行的および意味的識別を取り入れ,データ効率のために2次元コレクションから学ぶことができる。 本研究は,上着と下着の形状,布地,色彩を包含する多様なファッション特性を有する深層ファシオンとshhqについて評価を行う。 大規模な実験により、CCH は高効率で \texttt{T3H} に対して優れた結果が得られることを示した。

3D human modeling has been widely used for engaging interaction in gaming, film, and animation. The customization of these characters is crucial for creativity and scalability, which highlights the importance of controllability. In this work, we introduce Text-guided 3D Human Generation (\texttt{T3H}), where a model is to generate a 3D human, guided by the fashion description. There are two goals: 1) the 3D human should render articulately, and 2) its outfit is controlled by the given text. To address this \texttt{T3H} task, we propose Compositional Cross-modal Human (CCH). CCH adopts cross-modal attention to fuse compositional human rendering with the extracted fashion semantics. Each human body part perceives relevant textual guidance as its visual patterns. We incorporate the human prior and semantic discrimination to enhance 3D geometry transformation and fine-grained consistency, enabling it to learn from 2D collections for data efficiency. We conduct evaluations on DeepFashion and SHHQ with diverse fashion attributes covering the shape, fabric, and color of upper and lower clothing. Extensive experiments demonstrate that CCH achieves superior results for \texttt{T3H} with high efficiency.
翻訳日:2023-05-24 13:47:03 公開日:2023-05-23
# 学習アルゴリズムの統計的識別不能性

Statistical Indistinguishability of Learning Algorithms ( http://arxiv.org/abs/2305.14311v1 )

ライセンス: Link先を確認
Alkis Kalavasis, Amin Karbasi, Shay Moran, Grigoris Velegkas(参考訳) 2つの異なるパーティが同じ学習ルールを自身のデータで使用する場合、その2つの結果の分布が似ているかどうかをどうやってテストできるのか? 本稿では,分布の全変動(tv)距離のレンズを通して学習規則の結果の類似性について検討する。 学習ルールは,同じ分布から独立して描画された2つのトレーニングデータセット上で実行される出力の後方分布間のテレビ距離が小さい場合,テレビが識別不可能である。 まず,テレビの不明瞭な学習者を用いた仮説クラスの学習可能性について検討する。 我々の主な結果は,テレビの識別可能性と再現性や近似微分プライバシーといった既存のアルゴリズム安定性概念との間の情報理論的等価性である。 そして,テレビの見分けがつかない学習者に対して,統計的増幅と促進アルゴリズムを提供する。

When two different parties use the same learning rule on their own data, how can we test whether the distributions of the two outcomes are similar? In this paper, we study the similarity of outcomes of learning rules through the lens of the Total Variation (TV) distance of distributions. We say that a learning rule is TV indistinguishable if the expected TV distance between the posterior distributions of its outputs, executed on two training data sets drawn independently from the same distribution, is small. We first investigate the learnability of hypothesis classes using TV indistinguishable learners. Our main results are information-theoretic equivalences between TV indistinguishability and existing algorithmic stability notions such as replicability and approximate differential privacy. Then, we provide statistical amplification and boosting algorithms for TV indistinguishable learners.
翻訳日:2023-05-24 13:46:46 公開日:2023-05-23
# ゼロショット分類のための素早い複雑性の探索--計算社会科学における大規模言語モデルの研究

Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science ( http://arxiv.org/abs/2305.14310v1 )

ライセンス: Link先を確認
Yida Mu, Ben P. Wu, William Thorne, Ambrose Robinson, Nikolaos Aletras, Carolina Scarton, Kalina Bontcheva, Xingyi Song(参考訳) LLM(Instruction-tuned Large Language Models)は、言語理解と特定の命令に従う応答を生成する能力を示す。 しかしながら、これらのモデルのトレーニングに関連する計算要求のため、それらのアプリケーションはゼロショット設定に依存することが多い。 本稿では,計算社会科学の分類課題の文脈において,公開アクセス可能な2つのllmであるchatgptとopen assistantのゼロショット性能を評価するとともに,様々なプロンプト戦略の効果について検討する。 本実験では,ラベル定義をプロンプトに組み込む効果,ラベル名の同義語を用いる効果,基礎モデルトレーニングにおける過去の記憶の統合効果など,プロンプトの複雑さの影響について考察する。 その結果、ゼロショット設定では、現在のLLMはより小型で微調整されたベースライントランスモデル(BERTなど)の性能と一致しないことがわかった。 さらに,異なるプロンプト戦略が分類精度に大きく影響し,精度の変動とf1スコアが10%を超えることが判明した。

Instruction-tuned Large Language Models (LLMs) have exhibited impressive language understanding and the capacity to generate responses that follow specific instructions. However, due to the computational demands associated with training these models, their applications often rely on zero-shot settings. In this paper, we evaluate the zero-shot performance of two publicly accessible LLMs, ChatGPT and OpenAssistant, in the context of Computational Social Science classification tasks, while also investigating the effects of various prompting strategies. Our experiment considers the impact of prompt complexity, including the effect of incorporating label definitions into the prompt, using synonyms for label names, and the influence of integrating past memories during the foundation model training. The findings indicate that in a zero-shot setting, the current LLMs are unable to match the performance of smaller, fine-tuned baseline transformer models (such as BERT). Additionally, we find that different prompting strategies can significantly affect classification accuracy, with variations in accuracy and F1 scores exceeding 10%.
翻訳日:2023-05-24 13:46:36 公開日:2023-05-23
# 脱バイアスは良いこと、悪いこと:言語モデルにおける脱バイアス手法の一貫性の測定

Debiasing should be Good and Bad: Measuring the Consistency of Debiasing Techniques in Language Models ( http://arxiv.org/abs/2305.14307v1 )

ライセンス: Link先を確認
Robert Morabito, Jad Kabbara, Ali Emami(参考訳) 有害なテキストや不適切なテキストを出力する言語モデル(lms)の傾向を緩和しようとするデバイアス手法が最近注目を集めている。 本稿では,望ましい結果を得るだけでなく,そのメカニズムや仕様に整合した手法を識別する標準化されたプロトコルを提案する。 例えば、LMの毒性を減らすために開発された脱バイアス法について、脱バイアス法で用いられる毒性の定義が逆転した場合、脱バイアスの結果も逆逆転するだろうか? 私たちは、新しいプロトコルの3つの基準、仕様の極性、仕様の重要度、ドメインの転送可能性について考案しました。 ケーススタディとして、我々のプロトコルを一般的なデバイアス手法であるセルフデバイアスに適用し、インストラクティブデバイアス(Instructive Debiasing)と呼ばれる手法と比較し、一貫性が単に望ましい結果であるように、生存性をデバイアスする上で重要であることを示す。 我々は,本プロトコルがデバイアス手法の一般化可能性と解釈可能性に本質的な洞察を与えることを示す。

Debiasing methods that seek to mitigate the tendency of Language Models (LMs) to occasionally output toxic or inappropriate text have recently gained traction. In this paper, we propose a standardized protocol which distinguishes methods that yield not only desirable results, but are also consistent with their mechanisms and specifications. For example, we ask, given a debiasing method that is developed to reduce toxicity in LMs, if the definition of toxicity used by the debiasing method is reversed, would the debiasing results also be reversed? We used such considerations to devise three criteria for our new protocol: Specification Polarity, Specification Importance, and Domain Transferability. As a case study, we apply our protocol to a popular debiasing method, Self-Debiasing, and compare it to one we propose, called Instructive Debiasing, and demonstrate that consistency is as important an aspect to debiasing viability as is simply a desirable result. We show that our protocol provides essential insights into the generalizability and interpretability of debiasing methods that may otherwise go overlooked.
翻訳日:2023-05-24 13:46:14 公開日:2023-05-23
# 大規模点群におけるリアルタイムアプリケーションのための階層的適応ボクセル誘導サンプリング

Hierarchical Adaptive Voxel-guided Sampling for Real-time Applications in Large-scale Point Clouds ( http://arxiv.org/abs/2305.14306v1 )

ライセンス: Link先を確認
Junyuan Ouyang and Xiao Liu and Haoyao Chen(参考訳) ポイントベースのニューラルネットワークは有効性を示しているが、時間を要するサンプルは、現在、シーンレベルのポイントクラウドでリアルタイムの推論を行うのを妨げている。 既存の手法では、一般に推奨される遠点サンプリング~(FPS)ではなく、ランダムサンプリング戦略を用いてこの問題を克服しようとするが、性能は低下する。 したがって、有効/効率のトレードオフは未検討のままです。 本稿では, グリッドを用いて自然に得られる部分集合内の点間の偶数間隔を確保することで, 高品質サンプリングの鍵を明らかにする。 この知見に基づいて,線形複雑化と高並列化が可能な階層型適応ボクセル誘導点サンプリング器を提案する。 大規模ポイントクラウド検出およびセグメンテーションタスクに関する広範囲な実験により,本手法は,最も強力なfpsで,100倍以上の速さで性能を発揮できることが証明された。 この効率のブレークスルーは、シーンレベルのポイントクラウドを扱う際のサンプリングステップのボトルネックに対処する。 さらに、我々のサンプルは既存のモデルに簡単に統合でき、最小限の労力でランタイムを20$\sim$80\%削減できる。 コードはhttps://github.com/ouyangjunyuan/pointcloud-3d-detector-tensorrtで入手できる。

While point-based neural architectures have demonstrated their efficacy, the time-consuming sampler currently prevents them from performing real-time reasoning on scene-level point clouds. Existing methods attempt to overcome this issue by using random sampling strategy instead of the commonly-adopted farthest point sampling~(FPS), but at the expense of lower performance. So the effectiveness/efficiency trade-off remains under-explored. In this paper, we reveal the key to high-quality sampling is ensuring an even spacing between points in the subset, which can be naturally obtained through a grid. Based on this insight, we propose a hierarchical adaptive voxel-guided point sampler with linear complexity and high parallelization for real-time applications. Extensive experiments on large-scale point cloud detection and segmentation tasks demonstrate that our method achieves competitive performance with the most powerful FPS, at an amazing speed that is more than 100 times faster. This breakthrough in efficiency addresses the bottleneck of the sampling step when handling scene-level point clouds. Furthermore, our sampler can be easily integrated into existing models and achieves a 20$\sim$80\% reduction in runtime with minimal effort. The code will be available at https://github.com/OuyangJunyuan/pointcloud-3d-detector-tensorrt
翻訳日:2023-05-24 13:45:53 公開日:2023-05-23
# デジタル量子コンピュータのための古典的アーキテクチャ

A Classical Architecture For Digital Quantum Computers ( http://arxiv.org/abs/2305.14304v1 )

ライセンス: Link先を確認
Fang Zhang, Xing Zhu, Rui Chao, Cupjin Huang, Linghang Kong, Guoyang Chen, Dawei Ding, Haishan Feng, Yihuai Gao, Xiaotong Ni, Liwei Qiu, Zhe Wei, Yueming Yang, Yang Zhao, Yaoyun Shi, Weifeng Zhang, Peng Zhou, Jianxin Chen(参考訳) スケーリングはデジタル量子コンピュータの作成をボトルネックにし、量子コンピュータと古典的コンポーネントの両方の課題を提起する。 本稿では,マルチコアRISC-V CPUを内部制御回路に統合することにより,従来のアーキテクチャで後者の課題の包括的リストに一度に対処し,エンドツーエンドシステムで完全に実装する。 我々のアーキテクチャは、大規模量子プロセッサのスケーラブルで高精度な制御を可能にし、量子ハードウェアの進化する要求に対応する。 中心となる特徴は、任意の事前定義された量子ビット群上で並列に量子演算を実行するマイクロアーキテクチャである。 もう一つの重要な特徴は、簡単に量子ビットの再グループ化と命令拡張をサポートする再構成可能な量子命令セットである。 実演として、我々は、コントローラと古典計算の統合の両方を要求されるように、広く研究されているサーフェスコード量子コンピューティングワークフローを実装した。 我々の設計は、初めて命令の発行と送信コストを定数に削減するが、これは、復号化やディスパッチのオーバーヘッドを追加することなく、キュービット数にスケールしない。 本システムは,シンドローム復号化のための専用ハードウェアに頼るのではなく,量子ビット制御と古典計算の両方に専用マルチコアCPUを使用する。 これはシステム設計を単純化し、量子部品と古典部品の負荷分散を容易にする。 我々は、一般的な内部デコーダを並列化するRISC-Vシステムオンチップ(SoC)上のファームウェアとして、最近の提案を実装している。 社内の Union-Find と PyMatching 2 実装を使用することで,物理誤差率 $p=0.001 と p=0.0001 の現実的および楽観的な仮定の下で,現在利用可能な SoC に対して 47 と 67 の先例のない復号化を実現することができる。

Scaling bottlenecks the making of digital quantum computers, posing challenges from both the quantum and the classical components. We present a classical architecture to cope with a comprehensive list of the latter challenges {\em all at once}, and implement it fully in an end-to-end system by integrating a multi-core RISC-V CPU with our in-house control electronics. Our architecture enables scalable, high-precision control of large quantum processors and accommodates evolving requirements of quantum hardware. A central feature is a microarchitecture executing quantum operations in parallel on arbitrary predefined qubit groups. Another key feature is a reconfigurable quantum instruction set that supports easy qubit re-grouping and instructions extensions. As a demonstration, we implement the widely-studied surface code quantum computing workflow, which is instructive for being demanding on both the controllers and the integrated classical computation. Our design, for the first time, reduces instruction issuing and transmission costs to constants, which do not scale with the number of qubits, without adding any overheads in decoding or dispatching. Rather than relying on specialized hardware for syndrome decoding, our system uses a dedicated multi-core CPU for both qubit control and classical computation, including syndrome decoding. This simplifies the system design and facilitates load-balancing between the quantum and classical components. We implement recent proposals as decoding firmware on a RISC-V system-on-chip (SoC) that parallelizes general inner decoders. By using our in-house Union-Find and PyMatching 2 implementations, we can achieve unprecedented decoding capabilities of up to distances 47 and 67 with the currently available SoCs, under realistic and optimistic assumptions of physical error rate $p=0.001 and p=0.0001, respectively, all in just 1 \textmu s.
翻訳日:2023-05-24 13:45:32 公開日:2023-05-23
# 推論のための大規模言語モデルを用いたモデル自動選択

Automatic Model Selection with Large Language Models for Reasoning ( http://arxiv.org/abs/2305.14333v1 )

ライセンス: Link先を確認
Xu Zhao, Yuxi Xie, Kenji Kawaguchi, Junxian He, Qizhe Xie(参考訳) chain-of-thoughtとプログラム支援言語モデルは、2つの異なる推論方法を示し、それぞれに強みと弱みがある。 本研究では,異なる問題に対して異なるモデルを用いて,大言語モデル(LLM)を用いてモデル選択を行うことにより,両世界の長所を結合できることを実証する。 理論解析により, 組み合わせ手法とモデル選択の成功率の差によって, 性能改善が決定されることがわかった。 8つの推論データセットにおいて,提案手法は大幅な改善を示す。 さらに, GSM8K と SVAMP でそれぞれ96.5% と93.7% の精度で最新の結果が得られる。 私たちのコードはhttps://github.com/xuzhao0/model-selection-reasoningで公開されています。

Chain-of-Thought and Program-Aided Language Models represent two distinct reasoning methods, each with its own strengths and weaknesses. We demonstrate that it is possible to combine the best of both worlds by using different models for different problems, employing a large language model (LLM) to perform model selection. Through a theoretical analysis, we discover that the performance improvement is determined by the differences between the combined methods and the success rate of choosing the correct model. On eight reasoning datasets, our proposed approach shows significant improvements. Furthermore, we achieve new state-of-the-art results on GSM8K and SVAMP with accuracies of 96.5% and 93.7%, respectively. Our code is publicly available at https://github.com/XuZhao0/Model-Selection-Reasoning.
翻訳日:2023-05-24 13:38:38 公開日:2023-05-23
# 言語横断質問応答の評価とモデル化

Evaluating and Modeling Attribution for Cross-Lingual Question Answering ( http://arxiv.org/abs/2305.14332v1 )

ライセンス: Link先を確認
Benjamin Muller, John Wieting, Jonathan H. Clark, Tom Kwiatkowski, Sebastian Ruder, Livio Baldini Soares, Roee Aharoni, Jonathan Herzig, Xinyi Wang(参考訳) 信頼できる回答コンテンツは多くの高ソース言語で豊富であり、質問応答システムを通じて即座にアクセスできるが、これらの言語を話さない人にとってはアクセスが困難である。 生成言語モデルが提供する言語間のモデリング品質の飛躍は、多くの可能性をもたらすが、それらの生の世代は事実に乏しい。 これらのシステムの信頼性を向上させるために、期待できる方向は、答えを検索されたソース、おそらくクエリとは異なるコンテンツ豊富な言語に属性付けることである。 私たちの研究は、言語間質問応答の属性を初めて研究しました。 まず、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。 驚いたことに、システムは検索されたテキストに直接出席できるにもかかわらず、回答のかなりの部分が検索された文(金の参照と正確に一致する回答の最大50%)に寄与しないことがわかった。 第2に,この不適切な帰属レベルに対処するために,幅広い帰属検出手法を実験した。 ごく少量の属性データに基づいて微調整された自然言語推論モデルと PaLM 2 が,属性を正確に検出できることがわかった。 これらのモデルに基づき,言語間質問応答システムの帰属レベルを向上させる。 全体として、現在の学術的生成型言語間QAシステムには、属性に重大な欠点があることを示し、これらの問題を緩和するためのツールを構築している。

Trustworthy answer content is abundant in many high-resource languages and is instantly accessible through question answering systems, yet this content can be hard to access for those that do not speak these languages. The leap forward in cross-lingual modeling quality offered by generative language models offers much promise, yet their raw generations often fall short in factuality. To improve trustworthiness in these systems, a promising direction is to attribute the answer to a retrieved source, possibly in a content-rich language different from the query. Our work is the first to study attribution for cross-lingual question answering. First, we collect data in 5 languages to assess the attribution level of a state-of-the-art cross-lingual QA system. To our surprise, we find that a substantial portion of the answers is not attributable to any retrieved passages (up to 50% of answers exactly matching a gold reference) despite the system being able to attend directly to the retrieved text. Second, to address this poor attribution level, we experiment with a wide range of attribution detection techniques. We find that Natural Language Inference models and PaLM 2 fine-tuned on a very small amount of attribution data can accurately detect attribution. Based on these models, we improve the attribution level of a cross-lingual question-answering system. Overall, we show that current academic generative cross-lingual QA systems have substantial shortcomings in attribution and we build tooling to mitigate these issues.
翻訳日:2023-05-24 13:38:27 公開日:2023-05-23
# 知っておくべきことは何か? 背景情報がaiシステムへのユーザの依存度に及ぼす影響

What Else Do I Need to Know? The Effect of Background Information on Users' Reliance on AI Systems ( http://arxiv.org/abs/2305.14331v1 )

ライセンス: Link先を確認
Navita Goyal, Eleftheria Briakou, Amanda Liu, Connor Baumler, Claire Bonial, Jeffrey Micher, Clare R. Voss, Marine Carpuat, Hal Daum\'e III(参考訳) aiシステムは、関連するコンテキストを検索することで、質問に答える素晴らしいパフォーマンスを示している。 しかし、ますます大きなモデルでは、モデルの知識や推論を検索されたコンテキストのみに制限することは不可能であり、しばしば望ましくない。 これにより、これらのモデルが回答を導き出すためにアクセスする情報と、AI予測を消費してAI予測された回答を評価するために使用可能な情報とのミスマッチにつながる。 本研究では,AI予測を評価するのに十分な情報がない場合に,ユーザがAIシステムとどのように対話するかを検討する。 さらに、必要なバックグラウンドを追加することで、AI予測の過度な信頼性に関する懸念が軽減されるかどうかを問う。 本研究は,正確性を評価するのに必要な十分な情報がなくても,ユーザはai予測に依存していることを明らかにした。 しかし、関連するバックグラウンドを提供することで、AIエラーのキャッチがより良くなり、誤ったAI予測への過度な信頼が軽減される。 逆に、背景情報はユーザーの正しい判断に対する信頼を高めるだけでなく、誤った判断もする。 一般的な期待に反して、ハイライトによるユーザのコンテキストと背景の説得は、より多くの情報の提供によって生じる過度な信頼の問題を軽減するのに役立ちません。 我々の研究は、NLP開発者が人間とAIのインタラクションにおける情報的ニーズをどのように感じているかと、それらに利用可能な情報との実際のヒューマンインタラクションとの間にあるギャップを強調することを目的としている。

AI systems have shown impressive performance at answering questions by retrieving relevant context. However, with the increasingly large models, it is impossible and often undesirable to constrain models' knowledge or reasoning to only the retrieved context. This leads to a mismatch between the information that these models access to derive the answer and the information available to the user consuming the AI predictions to assess the AI predicted answer. In this work, we study how users interact with AI systems in absence of sufficient information to assess AI predictions. Further, we ask the question of whether adding the requisite background alleviates the concerns around over-reliance in AI predictions. Our study reveals that users rely on AI predictions even in the absence of sufficient information needed to assess its correctness. Providing the relevant background, however, helps users catch AI errors better, reducing over-reliance on incorrect AI predictions. On the flip side, background information also increases users' confidence in their correct as well as incorrect judgments. Contrary to common expectation, aiding a user's perusal of the context and the background through highlights is not helpful in alleviating the issue of over-confidence stemming from availability of more information. Our work aims to highlight the gap between how NLP developers perceive informational need in human-AI interaction and the actual human interaction with the information available to them.
翻訳日:2023-05-24 13:38:04 公開日:2023-05-23
# 大言語モデルはゼロショットテキスト・ビデオ生成のためのフレームレベルディレクトリである

Large Language Models are Frame-level Directors for Zero-shot Text-to-Video Generation ( http://arxiv.org/abs/2305.14330v1 )

ライセンス: Link先を確認
Susung Hong, Junyoung Seo, Sunghwan Hong, Heeseong Shin, Seungryong Kim(参考訳) AI生成コンテンツ(AIGC)のパラダイムでは、事前訓練されたテキスト・ツー・イメージ(T2I)モデルからテキスト・ツー・ビデオ(T2V)生成への拡張に注目が集まっている。 その効果にもかかわらず、これらのフレームワークは、一貫性のある物語の維持と、1人のユーザープロンプトからのシーン構成またはオブジェクト配置の迅速なシフトを扱う上での課題に直面している。 本稿では,1つの抽象ユーザプロンプトからフレーム・バイ・フレーム記述を生成するために,命令調整型大規模言語モデル(LLM)を利用するDirecT2Vという新しいフレームワークを提案する。 DirecT2VはLDMディレクトリを使用して、ユーザ入力を各フレーム毎に別々のプロンプトに分割し、時間変化のあるコンテンツを含め、一貫したビデオ生成を容易にする。 時間的一貫性を維持し,オブジェクトの崩壊を防止するため,新しい値マッピング法とデュアルソフトマックスフィルタを提案する。 広範にわたる実験結果は、ゼロショットビデオ生成の課題に対処するため、抽象ユーザプロンプトから視覚的に一貫性のある一貫したビデオを生成する上で、DirecT2Vフレームワークの有効性を検証する。

In the paradigm of AI-generated content (AIGC), there has been increasing attention in extending pre-trained text-to-image (T2I) models to text-to-video (T2V) generation. Despite their effectiveness, these frameworks face challenges in maintaining consistent narratives and handling rapid shifts in scene composition or object placement from a single user prompt. This paper introduces a new framework, dubbed DirecT2V, which leverages instruction-tuned large language models (LLMs) to generate frame-by-frame descriptions from a single abstract user prompt. DirecT2V utilizes LLM directors to divide user inputs into separate prompts for each frame, enabling the inclusion of time-varying content and facilitating consistent video generation. To maintain temporal consistency and prevent object collapse, we propose a novel value mapping method and dual-softmax filtering. Extensive experimental results validate the effectiveness of the DirecT2V framework in producing visually coherent and consistent videos from abstract user prompts, addressing the challenges of zero-shot video generation.
翻訳日:2023-05-24 13:37:41 公開日:2023-05-23
# 文化認識によるLLM機械翻訳の活用

Empowering LLM-based Machine Translation with Cultural Awareness ( http://arxiv.org/abs/2305.14328v1 )

ライセンス: Link先を確認
Binwei Yao, Ming Jiang, Diyi Yang, Junjie Hu(参考訳) 伝統的なニューラルネットワーク翻訳(NMT)システムは、しばしば文化的に特定の情報を含む文の翻訳に失敗する。 従来のnmt法は、トレーニング中に外部文化的知識を取り入れており、文化特有の低周波項目を微調整する必要がある。 近年のインコンテキスト学習では,機械翻訳に文化意識を注入する手法として,大規模言語モデル(LLM)の指導に軽量なプロンプトが用いられている。 そこで本研究では,文化的に関連のある並列コーパスを構築するための新しいデータキュレーションパイプラインを提案する。 さらに,このLLM翻訳を支援するため,シンプルだが効果的なプロンプト戦略を設計する。 広範囲にわたる実験の結果,我々のアプローチは文化知識をLLMベースの機械翻訳に組み込むのに大きく役立ち,従来のNMTシステムよりも文化特化文の翻訳に優れていた。

Traditional neural machine translation (NMT) systems often fail to translate sentences that contain culturally specific information. Most previous NMT methods have incorporated external cultural knowledge during training, which requires fine-tuning on low-frequency items specific to the culture. Recent in-context learning utilizes lightweight prompts to guide large language models (LLMs) to perform machine translation, however, whether such an approach works in terms of injecting culture awareness into machine translation remains unclear. To this end, we introduce a new data curation pipeline to construct a culturally relevant parallel corpus, enriched with annotations of cultural-specific entities. Additionally, we design simple but effective prompting strategies to assist this LLM-based translation. Extensive experiments show that our approaches can largely help incorporate cultural knowledge into LLM-based machine translation, outperforming traditional NMT systems in translating cultural-specific sentences.
翻訳日:2023-05-24 13:37:06 公開日:2023-05-23
# dynosaur: 命令チューニングデータキュレーションのための動的成長パラダイム

Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation ( http://arxiv.org/abs/2305.14327v1 )

ライセンス: Link先を確認
Da Yin, Xiao Liu, Fan Yin, Ming Zhong, Hritik Bansal, Jiawei Han, Kai-Wei Chang(参考訳) インストラクションチューニングは、入力命令に基づいた適切な出力を提供することで、大きな言語モデル(LLM)の機能を高めるために登場した。 しかし,既存の命令調整データ収集手法は,スケーラビリティや手頃さの限界に悩まされている。 本稿では,インストラクションチューニングデータキュレーションのための動的成長パラダイムであるDynosaurを提案する。 既存のNLPデータセットのメタデータに基づいて、さまざまなNLPデータセットに適用可能な複数のタスク命令を生成し、LLMを用いて命令チューニングデータを構築するための関連するデータフィールドを決定する。 ダイノサウルスにはいくつかの利点がある。 1) 生成コストの低減(800Kの命令チューニングデータを生成するための12ドル未満) 2) 命令チューニングデータの品質(Alpaca と Instruction GPT-4 の Super-NI におけるデータサイズに匹敵する性能)、 3) Huggingface Datasets Platformの新しいデータセットを組み込むことで、動的に成長することができる。 さらに,継続学習を教育訓練データセットを用いて学習するためのアプローチとして検討する。 我々は,リプレイ手法が問題を忘れないようにするだけでなく,未確認タスクの一般化に役立つことを実証した。 命令調整のための新しい連続学習シナリオとして、命令表現に基づくタスクの選択は効果的な再生戦略である。 コードとデータは \url{https://github.com/wadeyin9712/dynosaur} でリリースされる。

Instruction tuning has emerged to enhance the capabilities of large language models (LLMs) in providing appropriate outputs based on input instructions. However, existing methods for collecting instruction-tuning data suffer from limitations in scalability and affordability. In this paper, we propose Dynosaur, a dynamic growth paradigm for instruction-tuning data curation. Built upon the metadata of existing NLP datasets, we generate multiple task instructions applicable to various NLP datasets and determine the relevant data fields for constructing instruction-tuning data with LLMs. Dynosaur offers several advantages: 1) lower generation costs (less than $12 for generating 800K instruction-tuning data), 2) good quality of instruction-tuning data (better performance than Alpaca and Instruction GPT-4 on Super-NI with comparable data sizes), and 3) the ability to grow dynamically by incorporating new datasets from Huggingface Datasets Platform. We further investigate continual learning as an approach to learning with the ever-growing instruction-tuning dataset. We demonstrate that replay methods not only help mitigate forgetting issues but help generalize to unseen tasks better. As a novel continual learning scenario for instruction tuning, selecting tasks based on instruction representations can be an effective replaying strategy. Code and data are released at \url{https://github.com/WadeYin9712/Dynosaur}.
翻訳日:2023-05-24 13:36:36 公開日:2023-05-23
# TalkUp: 言語を強力に理解するための新しいデータセット

TalkUp: A Novel Dataset Paving the Way for Understanding Empowering Language ( http://arxiv.org/abs/2305.14326v1 )

ライセンス: Link先を確認
Lucille Njoo, Chan Young Park, Octavia Stappart, Marvin Thielk, Yi Chu and Yulia Tsvetkov(参考訳) 教育から職場のダイナミクス、医療に至るまで、多くの現実世界の文脈において、言語エンパワーメントは重要である。 言語技術はこれらの文脈で普及しているが、NLPではエンパワーメントの研究は行われておらず、またその微妙で暗黙的な性質のため、本質的に運用が困難である。 本研究は、言語エンパワーメントの最初の計算的探索を示す。 まず,エンパワーメント検出を新たな課題として定義し,言語心理学と社会心理学の文献に基礎を置く。 次に私たちは、エンパワーメントのためにラベル付けされたreddit投稿の新しいデータセット、これらの投稿が読者に権限を与える理由、ポスターと読者の間の社会的関係をクラウドソースします。 予備分析の結果、TalkUpと呼ばれるこのデータセットは、エンパワーメントと非エンパワーメント言語をキャプチャする言語モデルのトレーニングに使用することができることがわかった。 より広義には、現実世界の言語の曖昧さや多様な解釈に富んでいるため、talkupは含意、前提条件、そして社会的文脈が言語の意味にどのように影響するかを探求する道筋を提供する。

Empowering language is important in many real-world contexts, from education to workplace dynamics to healthcare. Though language technologies are growing more prevalent in these contexts, empowerment has not been studied in NLP, and moreover, it is inherently challenging to operationalize because of its subtle, implicit nature. This work presents the first computational exploration of empowering language. We first define empowerment detection as a new task, grounding it in linguistic and social psychology literature. We then crowdsource a novel dataset of Reddit posts labeled for empowerment, reasons why these posts are empowering to readers, and the social relationships between posters and readers. Our preliminary analyses show that this dataset, which we call TalkUp, can be used to train language models that capture empowering and disempowering language. More broadly, as it is rich with the ambiguities and diverse interpretations of real-world language, TalkUp provides an avenue to explore implication, presuppositions, and how social context influences the meaning of language.
翻訳日:2023-05-24 13:36:12 公開日:2023-05-23
# マルチエージェント討論による言語モデルの現実性と推論の改善

Improving Factuality and Reasoning in Language Models through Multiagent Debate ( http://arxiv.org/abs/2305.14325v1 )

ライセンス: Link先を確認
Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, Igor Mordatch(参考訳) 大規模言語モデル(llm)は近年,言語生成,理解,少数ショット学習において顕著な能力を発揮している。 検証や自己整合性,中間的なスクラッチパッドなど,さまざまなツールを通じて,パフォーマンスがさらに向上する可能性について,広範な研究が進められている。 本稿では,複数の言語モデルインスタンスが個々の応答を提案し,議論し,複数のラウンドにまたがる推論プロセスが共通の最終回答に達するという,言語応答を改善するための補完的アプローチを提案する。 その結果,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることがわかった。 また,本手法により生成したコンテンツの事実妥当性が向上し,同時代のモデルが好む誤答や幻覚の低減が図られる。 このアプローチは、既存のブラックボックスモデルに直接適用でき、調査するすべてのタスクに対して同じ手順とプロンプトを使用します。 全体として,このような「心の社会」アプローチは,llmの能力を大幅に向上させ,言語生成と理解のさらなるブレークスルーへの道を開く可能性を示唆する。

Large language models (LLMs) have demonstrated remarkable capabilities in language generation, understanding, and few-shot learning in recent years. An extensive body of work has explored how their performance may be further improved through the tools of prompting, ranging from verification, self-consistency, or intermediate scratchpads. In this paper, we present a complementary approach to improve language responses where multiple language model instances propose and debate their individual responses and reasoning processes over multiple rounds to arrive at a common final answer. Our findings indicate that this approach significantly enhances mathematical and strategic reasoning across a number of tasks. We also demonstrate that our approach improves the factual validity of generated content, reducing fallacious answers and hallucinations that contemporary models are prone to. Our approach may be directly applied to existing black-box models and uses identical procedure and prompts for all tasks we investigate. Overall, our findings suggest that such "society of minds" approach has the potential to significantly advance the capabilities of LLMs and pave the way for further breakthroughs in language generation and understanding.
翻訳日:2023-05-24 13:35:52 公開日:2023-05-23
# Ties Matter: 現代的なメトリックメタ評価のためのKendall’s Tauの修正

Ties Matter: Modifying Kendall's Tau for Modern Metric Meta-Evaluation ( http://arxiv.org/abs/2305.14324v1 )

ライセンス: Link先を確認
Daniel Deutsch and George Foster and Markus Freitag(参考訳) ケンドールのタウはしばしば、機械翻訳(MT)評価指標が個々の翻訳をどれだけよく評価するかをメタ評価するために使われる。 ペアのスコア比較に重点を置いているのは直感的だが、文献のさまざまなバリエーションを動機付けているグレーな領域である、関係をどのように扱うべきかという疑問が提起されている。 現代のmtメタ評価のような設定では、既存の変種は結合の取り扱いによって生じる弱点があり、いくつかの状況ではゲーム化できる。 本稿では,関係を正しく予測するためのメトリクスクレジットと,相関を自動で導入する最適化手法を提案し,関係を予測しないメトリクスの公平な比較を可能にする。 我々は、これらの修正がより公正なケンドールに基づくメートル法の性能評価につながるという実験的証拠を議論し、提示する。

Kendall's tau is frequently used to meta-evaluate how well machine translation (MT) evaluation metrics score individual translations. Its focus on pairwise score comparisons is intuitive but raises the question of how ties should be handled, a gray area that has motivated different variants in the literature. We demonstrate that, in settings like modern MT meta-evaluation, existing variants have weaknesses arising from their handling of ties, and in some situations can even be gamed. We propose a novel variant that gives metrics credit for correctly predicting ties, as well as an optimization procedure that automatically introduces ties into metric scores, enabling fair comparison between metrics that do and do not predict ties. We argue and provide experimental evidence that these modifications lead to fairer Kendall-based assessments of metric performance.
翻訳日:2023-05-24 13:35:32 公開日:2023-05-23
# chatcot: チャットベースの大規模言語モデルにおけるツールによる思考の連鎖推論

ChatCoT: Tool-Augmented Chain-of-Thought Reasoning on\\ Chat-based Large Language Models ( http://arxiv.org/abs/2305.14323v1 )

ライセンス: Link先を確認
Zhipeng Chen, Kun Zhou, Beichen Zhang, Zheng Gong, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 大規模言語モデル(llm)は様々な評価ベンチマークで優れた性能を達成しているが、特定の知識とマルチホップ推論を必要とする複雑な推論タスクにはまだ苦労している。 推論能力を向上させるために,チャットベースのLLMのためのツール拡張チェーン推論フレームワークである \textbf{ChatCoT} を提案する。 ChatCoTでは、チャットを通じてより自然な方法でツールを活用するために、マルチターン会話として思考の連鎖(CoT)推論をモデル化します。 各ターンで、LSMはツールと対話するか、推論を実行することができる。 %フレームワーク マルチラウンド対話による複雑な推論タスクのための推論ツールの分解と操作。 %我々の考えは、複雑な問題をいくつかのサブプロブレムに分解し、外部ツールの助けを借りてこれらのサブプロブレムを解決することである。 提案手法は,チャットベースのLLMのマルチターン会話能力を効果的に活用し,思考連鎖とツール操作を統一的に統合する。 特に、ツールやタスク、推論形式によって会話の初期のターンを初期化し、ステップバイステップのツールによる推論を実行するための反復的な \emph{tool-augmented reasoning} ステップを提案する。 2つの複雑な推論データセット(MATHとHotpotQA)の実験結果は、ChatCoTが複雑な推論タスクに与える影響を示し、最先端のベースラインに対して6.8倍の相対的な改善を実現している。 %およびChatCoTはMathのパフォーマンスを達成できる。 私たちのコードとデータは、 \url{https://github.com/rucaibox/chatcot} で利用可能です。

Although large language models (LLMs) have achieved excellent performance in a variety of evaluation benchmarks, they still struggle in complex reasoning tasks which require specific knowledge and multi-hop reasoning. To improve the reasoning abilities, we propose \textbf{ChatCoT}, a tool-augmented chain-of-thought reasoning framework for chat-based LLMs. In ChatCoT, we model the chain-of-thought~(CoT) reasoning as multi-turn conversations, to utilize tools in a more natural way through chatting. At each turn, LLMs can either interact with tools or perform the reasoning. %framework to decompose reasoning and manipulate tools for complex reasoning tasks via multi-round dialogue. %Our idea is to decompose the complex problems into several sub-problems and solve these sub-problems with the help of external tools. Our approach can effectively leverage the multi-turn conversation ability of chat-based LLMs, and integrate the thought chain following and tools manipulation in a unified way. Specially, we initialize the early turns of the conversation by the tools, tasks and reasoning format, and propose an iterative \emph{tool-augmented reasoning} step to perform step-by-step tool-augmented reasoning. The experiment results on two complex reasoning datasets (MATH and HotpotQA) have shown the effectiveness of ChatCoT on complex reasoning tasks, achieving a 6.8\% relative improvement over the state-of-the-art baseline. %and ChatCoT can achieve performance on Math. Our code and data are available at: \url{https://github.com/RUCAIBOX/ChatCoT}.
翻訳日:2023-05-24 13:35:16 公開日:2023-05-23
# 電子サブバスの存在下での2レベルフラクタの雑音スペクトルの一般化モデル

A generalized model of the noise spectrum of a two-level fluctuator in the presence of an electron subbath ( http://arxiv.org/abs/2305.14348v1 )

ライセンス: Link先を確認
Robert E. Throckmorton and S. Das Sarma(参考訳) ahnの仕事は、フル電子浴のサブ領域とのみ相互作用し、ゆらぎ温度を受ける場合において、2レベルフラクタ(tlf)のノイズパワースペクトルを導出する。 しかし、Eq。 ~(1)は、熱容量の点でサブバス温度のばらつきを与えるが、この仕事において、このサブバスの熱容量は一定であり、高温では良い近似であるが、低い温度では分解する、という暗黙の仮定を持つ。 したがって、この研究は、2次元電子ガス(2DEG)$C_V\propto T$の電子熱容量が温度の一定ではなく完全に考慮される場合にまで拡張される。 低温では、s(\omega)\propto e^{-c/t^{3/8}}$というノイズのパワースペクトルは、s(\omega)\propto e^{-c'/t^{1/3}}$とは対照的であり、ここでは$c$と$c'$が定数である。 また, 2 つのモデルから得られる数値結果を比較し, s(\omega)$ の値が ahn の値と低温で数桁異なることが分かった。

The work of Ahn derives the noise power spectrum of a two-level fluctuator (TLF) in the case that it interacts only with a subregion of a full electron bath and thus is subject to a fluctuating temperature. However, Eq.~(1), which gives the variance of the subbath temperature in terms of the heat capacity, in that work carries the implicit assumption that the heat capacity of this subbath may be taken to be a constant, which is a good approximation at higher temperatures, but breaks down at lower temperatures. We thus extend this work to the case in which the fact that the electronic heat capacity of a two-dimensional electron gas (2DEG) $C_V\propto T$, rather than constant in temperature, is fully taken into account. We show that, at low temperatures, the resulting power spectrum of the noise $S(\omega)\propto e^{-C/T^{3/8}}$, in contrast to $S(\omega)\propto e^{-C'/T^{1/3}}$ as found previously, where $C$ and $C'$ are constants. We also compare the numerical results that one would obtain from the two models and find that our results for $S(\omega)$ can differ from those of Ahn by several orders of magnitude at low temperatures.
翻訳日:2023-05-24 13:29:51 公開日:2023-05-23
# NCHO:人間と物体のニューラル3次元合成のための教師なし学習

NCHO: Unsupervised Learning for Neural 3D Composition of Humans and Objects ( http://arxiv.org/abs/2305.14345v1 )

ライセンス: Link先を確認
Taeksoo Kim, Shunsuke Saito, Hanbyul Joo(参考訳) 深層生成モデルは、最近3Dデジタル人間を合成するために拡張されている。 しかし、従来のアプローチでは衣服やアクセサリーの構成性を考慮せずに、衣料人間を単一の幾何学の塊として扱う。 その結果、個々のアイテムは自然に新しいアイデンティティに分解できず、生成する3Dアバターの表現性と制御性が制限される。 合成データを利用してこの問題に対処する手法もいくつかあるが、ドメインギャップのため、人間と物体の相互作用は本物ではなく、多種多様なオブジェクトに対して手動のアセット生成が困難である。 本稿では,現実世界の3dスキャンから人間と物体(バックパック,コート,スカーフなど)の合成生成モデルを学ぶための新しい枠組みを提案する。 我々の構成モデルは,人間と物体の空間的関係を意識した相互作用認識であり,物理的接触による相互形状変化は完全に組み込まれている。 鍵となる課題は、人間と物体が接触しているため、3Dスキャンは1つにまとめられることだ。 手動アノテーションなしでそれらを分解するために、オブジェクトの有無に関わらず、1人の3dスキャンの2セットを活用することを提案する。 私たちのアプローチは、オブジェクトを分解し、自然に生成的な人間モデルに教師なしの方法で戻すことを学びます。 実験では,対象対象を1つにまとめるだけでよいが,多様なポーズにおける対象の自然な構成と,トレーニングデータでは見当たらない複数の対象の合成を可能とし,モデルの強力な一般化を実証する。

Deep generative models have been recently extended to synthesizing 3D digital humans. However, previous approaches treat clothed humans as a single chunk of geometry without considering the compositionality of clothing and accessories. As a result, individual items cannot be naturally composed into novel identities, leading to limited expressiveness and controllability of generative 3D avatars. While several methods attempt to address this by leveraging synthetic data, the interaction between humans and objects is not authentic due to the domain gap, and manual asset creation is difficult to scale for a wide variety of objects. In this work, we present a novel framework for learning a compositional generative model of humans and objects (backpacks, coats, scarves, and more) from real-world 3D scans. Our compositional model is interaction-aware, meaning the spatial relationship between humans and objects, and the mutual shape change by physical contact is fully incorporated. The key challenge is that, since humans and objects are in contact, their 3D scans are merged into a single piece. To decompose them without manual annotations, we propose to leverage two sets of 3D scans of a single person with and without objects. Our approach learns to decompose objects and naturally compose them back into a generative human model in an unsupervised manner. Despite our simple setup requiring only the capture of a single subject with objects, our experiments demonstrate the strong generalization of our model by enabling the natural composition of objects to diverse identities in various poses and the composition of multiple objects, which is unseen in training data.
翻訳日:2023-05-24 13:29:23 公開日:2023-05-23
# siamese masked autoencoder(英語)

Siamese Masked Autoencoders ( http://arxiv.org/abs/2305.14344v1 )

ライセンス: Link先を確認
Agrim Gupta, Jiajun Wu, Jia Deng, Li Fei-Fei(参考訳) 画像やシーン間の対応を確立することは、特にオクルージョンや視点の変化、オブジェクトの外観の変化など、コンピュータビジョンにおいて重要な課題である。 本稿では,ビデオから視覚的対応を学習するためのMasked Autoencoders(MAE)の簡易拡張であるSiamese Masked Autoencoders(SiamMAE)を提案する。 siammaeはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にマスクする。 これらのフレームはエンコーダネットワークによって独立に処理され、複数のクロスアテンション層からなるデコーダは、将来のフレームの欠落パッチを予測する。 SiamMAEは、過去のフレームをそのままにして、将来のフレームで大量のパッチをマスクすることで、オブジェクトの動きに集中し、オブジェクト中心の表現を学ぶようネットワークに促す。 概念的単純さにもかかわらず、SiamMAEで学んだ機能は、ビデオオブジェクトのセグメンテーション、キーポイントの伝搬、セマンティック部分の伝搬タスクにおいて、最先端の自己管理手法より優れている。 SiamMAEは、データ拡張、手作りのトラッキングベースのプレテキストタスク、あるいは表現の崩壊を防ぐための他のテクニックに頼ることなく、競争結果を達成する。

Establishing correspondence between images or scenes is a significant challenge in computer vision, especially given occlusions, viewpoint changes, and varying object appearances. In this paper, we present Siamese Masked Autoencoders (SiamMAE), a simple extension of Masked Autoencoders (MAE) for learning visual correspondence from videos. SiamMAE operates on pairs of randomly sampled video frames and asymmetrically masks them. These frames are processed independently by an encoder network, and a decoder composed of a sequence of cross-attention layers is tasked with predicting the missing patches in the future frame. By masking a large fraction ($95\%$) of patches in the future frame while leaving the past frame unchanged, SiamMAE encourages the network to focus on object motion and learn object-centric representations. Despite its conceptual simplicity, features learned via SiamMAE outperform state-of-the-art self-supervised methods on video object segmentation, pose keypoint propagation, and semantic part propagation tasks. SiamMAE achieves competitive results without relying on data augmentation, handcrafted tracking-based pretext tasks, or other techniques to prevent representational collapse.
翻訳日:2023-05-24 13:28:58 公開日:2023-05-23
# 強化学習のための報酬としての映像予測モデル

Video Prediction Models as Rewards for Reinforcement Learning ( http://arxiv.org/abs/2305.14343v1 )

ライセンス: Link先を確認
Alejandro Escontrela and Ademi Adeniji and Wilson Yan and Ajay Jain and Xue Bin Peng and Ken Goldberg and Youngwoon Lee and Danijar Hafner and Pieter Abbeel(参考訳) 複雑な振る舞いを学習できる報酬信号を特定することは、強化学習における長年の課題である。 有望なアプローチは、インターネットで広く入手可能なラベルのないビデオから行動の好みを抽出することである。 本稿では、事前訓練された映像予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムであるビデオ予測逆数(VIPER)を提案する。 具体的には、まずエキスパートビデオに自己回帰変換器を訓練し、次に、強化学習エージェントの報酬信号としてビデオ予測可能性を使用する。 VIPERは、DMC、Atari、RLBenchタスクの幅広い範囲にわたるプログラム的なタスク報酬なしで、専門家レベルの制御を可能にする。 さらに,映像予測モデルの一般化により,専門家データがない分散環境における報酬を導き出すことが可能となり,テーブル上操作のクロスエンボディメント一般化が可能となった。 当社の作業は、生成モデリングの急速な進歩の恩恵を受ける、ラベルのないビデオによるスケーラブルな報酬仕様の出発点として捉えています。 ソースコードとデータセットはプロジェクトのWebサイトで公開されている。

Specifying reward signals that allow agents to learn complex behaviors is a long-standing challenge in reinforcement learning. A promising approach is to extract preferences for behaviors from unlabeled videos, which are widely available on the internet. We present Video Prediction Rewards (VIPER), an algorithm that leverages pretrained video prediction models as action-free reward signals for reinforcement learning. Specifically, we first train an autoregressive transformer on expert videos and then use the video prediction likelihoods as reward signals for a reinforcement learning agent. VIPER enables expert-level control without programmatic task rewards across a wide range of DMC, Atari, and RLBench tasks. Moreover, generalization of the video prediction model allows us to derive rewards for an out-of-distribution environment where no expert data is available, enabling cross-embodiment generalization for tabletop manipulation. We see our work as starting point for scalable reward specification from unlabeled videos that will benefit from the rapid advances in generative modeling. Source code and datasets are available on the project website: https://escontrela.me
翻訳日:2023-05-24 13:28:35 公開日:2023-05-23
# Sophia: 言語モデル事前トレーニングのためのスケーラブルな確率的2次最適化

Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training ( http://arxiv.org/abs/2305.14342v1 )

ライセンス: Link先を確認
Hong Liu, Zhiyuan Li, David Hall, Percy Liang, Tengyu Ma(参考訳) 言語モデルの事前学習の膨大なコストを考えると、最適化アルゴリズムの非自明な改善は、トレーニングの時間とコストの物質的削減につながるだろう。 アダムとその変種は長年最先端であり、より洗練された第2次最適化(ヘシアンベース)はしばしばステップ毎のオーバーヘッドを負う。 本稿では,対角ヘッシアンの軽量推定を前提条件として用いた,スケーラブルな2次最適化手法であるソフィアを提案する。 この更新は、推定されたヘッセンの移動平均で分割された勾配の移動平均であり、次いで要素ワイドクリッピングである。 クリップは最悪のケースの更新サイズを制御し、非凸性の悪影響と軌道に沿ったヘッセンの急速な変化を和らげる。 sophiaは一握りのイテレーションで対角ヘッシアンを見積もるだけで、ステップ毎の平均時間とメモリオーバーヘッドは無視できる。 125Mから770MまでのGPT-2モデルを用いた言語モデリングでは,ステップ数,総計算量,ウォールクロック時間の2倍の高速化を実現している。 理論的には、ソフィアはパラメータの異なる成分の曲率に適応し、言語モデリングタスクには非常に不均一であることを示す。 実行時のバウンドは、損失の条件番号に依存しません。

Given the massive cost of language model pre-training, a non-trivial improvement of the optimization algorithm would lead to a material reduction on the time and cost of training. Adam and its variants have been state-of-the-art for years, and more sophisticated second-order (Hessian-based) optimizers often incur too much per-step overhead. In this paper, we propose Sophia, Second-order Clipped Stochastic Optimization, a simple scalable second-order optimizer that uses a light-weight estimate of the diagonal Hessian as the pre-conditioner. The update is the moving average of the gradients divided by the moving average of the estimated Hessian, followed by element-wise clipping. The clipping controls the worst-case update size and tames the negative impact of non-convexity and rapid change of Hessian along the trajectory. Sophia only estimates the diagonal Hessian every handful of iterations, which has negligible average per-step time and memory overhead. On language modeling with GPT-2 models of sizes ranging from 125M to 770M, Sophia achieves a 2x speed-up compared with Adam in the number of steps, total compute, and wall-clock time. Theoretically, we show that Sophia adapts to the curvature in different components of the parameters, which can be highly heterogeneous for language modeling tasks. Our run-time bound does not depend on the condition number of the loss.
翻訳日:2023-05-24 13:28:16 公開日:2023-05-23
# APPLS: 平易な言語要約のためのメタ評価テストベッド

APPLS: A Meta-evaluation Testbed for Plain Language Summarization ( http://arxiv.org/abs/2305.14341v1 )

ライセンス: Link先を確認
Yue Guo, Tal August, Gondy Leroy, Trevor Cohen, Lucy Lu Wang(参考訳) PLS(Plain Language Summarization)のモデルの開発は進んでいるが、評価は依然として課題である。 これはplsが複数の相互関連言語変換(背景説明の追加、専門用語の削除など)を伴っているためである。 PLSのためのメトリクスは明示的に設計されておらず、他のテキスト生成評価指標の適合性はまだ不明である。 これらの問題に対処するため,本研究では,PLSの既存の指標を評価するために,詳細なメタ評価テストベッドであるAPPLSを提案する。 従来の研究から得られた知見に基づいて、我々は、平易言語の計量が捉えるべき4つの基準(情報性、単純化、一貫性、忠実性)に沿って、テストベッドに対する制御された摂動を定義する。 このテストベッドを使ってメトリクスを分析した結果、現在のメトリクスは単純化を捉えられず、重大なギャップを示唆しています。 そこで本研究では,plsにおけるテキスト簡易化を評価するための新しい指標であるpommeを紹介する。 我々は、単純化摂動と相関を示し、様々なデータセットにまたがって検証する。 本研究は,PLSのための最初のメタ評価テストベッドと既存のメトリクスを総合的に評価し,他のテキスト生成タスクに関連性のある洞察を提供する。

While there has been significant development of models for Plain Language Summarization (PLS), evaluation remains a challenge. This is in part because PLS involves multiple, interrelated language transformations (e.g., adding background explanations, removing specialized terminology). No metrics are explicitly engineered for PLS, and the suitability of other text generation evaluation metrics remains unclear. To address these concerns, our study presents a granular meta-evaluation testbed, APPLS, designed to evaluate existing metrics for PLS. Drawing on insights from previous research, we define controlled perturbations for our testbed along four criteria that a metric of plain language should capture: informativeness, simplification, coherence, and faithfulness. Our analysis of metrics using this testbed reveals that current metrics fail to capture simplification, signaling a crucial gap. In response, we introduce POMME, a novel metric designed to assess text simplification in PLS. We demonstrate its correlation with simplification perturbations and validate across a variety of datasets. Our research contributes the first meta-evaluation testbed for PLS and a comprehensive evaluation of existing metrics, offering insights with relevance to other text generation tasks.
翻訳日:2023-05-24 13:27:53 公開日:2023-05-23
# アンカー予測:インターネットリンクの自動リファインメント

Anchor Prediction: Automatic Refinement of Internet Links ( http://arxiv.org/abs/2305.14337v1 )

ライセンス: Link先を確認
Nelson F. Liu and Kenton Lee and Kristina Toutanova(参考訳) インターネットリンクにより、ユーザーは関連する情報に便利なアクセスを提供することで、トピックの理解を深めることができる。 しかし、ほとんどのリンクは未登録であり、ターゲットWebページ全体をリンクしており、読者はリンクのソースコンテキストに対する理解を深めるターゲットWebページの特定の部分のローカライズにかなりの労力を費やす可能性がある。 本稿では,リンクされたWebページの情報を効果的に見つけるために,リンクされたターゲットWebページの特定の部分を特定することを目的として,アンカー予測のタスクを導入する。 我々は,ソース記事の著者による関連性判断を反映した34kのアンカーリンクのコレクションであるauthoranchorsデータセットをリリースする。 読者関連判断をモデル化するために、読者が有用なアンカーの評価セットであるReaderAnchorsを注釈してリリースする。 分析の結果、効果的なアンカー予測では、長いソースとターゲットwebページを同時に推論し、暗黙の関係を判断し、関連するが冗長ではないターゲットwebページの一部を特定することがしばしば求められている。 我々は、タスクのベースライン性能を確立するために、パフォーマンスの高いT5ベースのランキング手法をベンチマークし、改善の余地を十分に見つける。

Internet links enable users to deepen their understanding of a topic by providing convenient access to related information. However, the majority of links are unanchored -- they link to a target webpage as a whole, and readers may expend considerable effort localizing the specific parts of the target webpage that enrich their understanding of the link's source context. To help readers effectively find information in linked webpages, we introduce the task of anchor prediction, where the goal is to identify the specific part of the linked target webpage that is most related to the source linking context. We release the AuthorAnchors dataset, a collection of 34K naturally-occurring anchored links, which reflect relevance judgments by the authors of the source article. To model reader relevance judgments, we annotate and release ReaderAnchors, an evaluation set of anchors that readers find useful. Our analysis shows that effective anchor prediction often requires jointly reasoning over lengthy source and target webpages to determine their implicit relations and identify parts of the target webpage that are related but not redundant. We benchmark a performant T5-based ranking approach to establish baseline performance on the task, finding ample room for improvement.
翻訳日:2023-05-24 13:27:31 公開日:2023-05-23
# 不均一テーブルからのスキーマ駆動情報抽出

Schema-Driven Information Extraction from Heterogeneous Tables ( http://arxiv.org/abs/2305.14336v1 )

ライセンス: Link先を確認
Fan Bai, Junmo Kang, Gabriel Stanovsky, Dayne Freitag, Alan Ritter(参考訳) 本稿では,言語モデル(LLM)が複雑なテーブルからコスト効率の高い情報抽出を支援することができるかどうかを考察する。 本稿では,llmを用いて表データから構造化レコードへの変換を行う新しいタスクであるスキーマ駆動情報抽出を提案する。 このタスクにおける様々なllmの能力を評価するために、我々は機械学習論文、化学表、webページという3つの異なるドメインからなるテーブルからなるベンチマークを開発した。 提案するインストラクテ(Instructe)は,命令調整 LLM に基づくテーブル抽出手法である。 この方法は、人間の構築した抽出スキーマのみを必要とし、エラー回復戦略を組み込む。 特に、Instructeはタスク固有のラベルなしでの競争性能を示し、F1スコアは72.3から95.7までである。 さらに,よりコンパクトなテーブル抽出モデルを蒸留し,抽出コストを最小化し,API依存度を低減できる可能性を検証する。 本研究は,コスト効率のよいテーブル抽出のための命令追従モデルの今後の開発方法について述べる。

In this paper, we explore the question of whether language models (LLMs) can support cost-efficient information extraction from complex tables. We introduce schema-driven information extraction, a new task that uses LLMs to transform tabular data into structured records following a human-authored schema. To assess various LLM's capabilities on this task, we develop a benchmark composed of tables from three diverse domains: machine learning papers, chemistry tables, and webpages. Accompanying the benchmark, we present InstrucTE, a table extraction method based on instruction-tuned LLMs. This method necessitates only a human-constructed extraction schema, and incorporates an error-recovery strategy. Notably, InstrucTE demonstrates competitive performance without task-specific labels, achieving an F1 score ranging from 72.3 to 95.7. Moreover, we validate the feasibility of distilling more compact table extraction models to minimize extraction costs and reduce API reliance. This study paves the way for the future development of instruction-following models for cost-efficient table extraction.
翻訳日:2023-05-24 13:27:09 公開日:2023-05-23
# 最小およびゼロショット3d点クラウドセマンティクスセグメンテーションのためのプロトタイプ適応と投影

Prototype Adaption and Projection for Few- and Zero-shot 3D Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2305.14335v1 )

ライセンス: Link先を確認
Shuting He, Xudong Jiang, Wei Jiang, Henghui Ding(参考訳) 本研究は,小ショットとゼロショットの3Dポイントクラウドセマンティックセマンティックセグメンテーションの課題に対処する。 2Dコンピュータビジョンにおける少数ショットセマンティックセグメンテーションの成功は、主にImagenetのような大規模データセットの事前トレーニングによって引き起こされる。 大規模な2Dデータセットで事前訓練された特徴抽出器は、2Dの複数ショット学習に大いに役立ちます。 しかし、3次元深層学習の開発は、3次元データ収集とアノテーションの大幅なコストのため、データセットのボリュームとインスタンスのモダリティの制限によって妨げられている。 この結果、代表的な機能が少なくなり、3dポイントのクラウドセグメンテーションのためのクラス内特徴のばらつきが大きくなります。 結果として、既存の2Dスプリットショット分類/セグメンテーションのプロトタイプメソッドを直接3Dポイントクラウドセグメンテーションに拡張することは、2Dドメインほどうまくいきません。 この問題に対処するため,我々はQGPA(Query-Guided Prototype Adaption)モジュールを提案し,プロトタイプをサポートポイントクラウドの機能空間からクエリポイントクラウドの機能空間に適応させる。 このようなプロトタイプ適応により、ポイントクラウドにおける大きな機能内変動の問題を大幅に軽減し、少数ショット3Dセグメンテーションの性能を大幅に改善する。 また,プロトタイプの表現性を高めるために,プロトタイプがサポートマスクを可能な限り再構築できる自己再構築(sr)モジュールを導入する。 さらに,サポートサンプルが存在しないゼロショット3Dポイントクラウドセマンティックセマンティックセグメンテーションについても検討する。 この目的のために,カテゴリー単語を意味情報として導入し,意味空間と視覚空間を橋渡しする意味・視覚投影モデルを提案する。 提案手法は,S3DISベンチマークとScanNetベンチマークの2方向1ショット設定により,最先端のアルゴリズムを約7.90%,14.82%上回る。 コードはhttps://github.com/heshuting555/PAP-FZS3Dで入手できる。

In this work, we address the challenging task of few-shot and zero-shot 3D point cloud semantic segmentation. The success of few-shot semantic segmentation in 2D computer vision is mainly driven by the pre-training on large-scale datasets like imagenet. The feature extractor pre-trained on large-scale 2D datasets greatly helps the 2D few-shot learning. However, the development of 3D deep learning is hindered by the limited volume and instance modality of datasets due to the significant cost of 3D data collection and annotation. This results in less representative features and large intra-class feature variation for few-shot 3D point cloud segmentation. As a consequence, directly extending existing popular prototypical methods of 2D few-shot classification/segmentation into 3D point cloud segmentation won't work as well as in 2D domain. To address this issue, we propose a Query-Guided Prototype Adaption (QGPA) module to adapt the prototype from support point clouds feature space to query point clouds feature space. With such prototype adaption, we greatly alleviate the issue of large feature intra-class variation in point cloud and significantly improve the performance of few-shot 3D segmentation. Besides, to enhance the representation of prototypes, we introduce a Self-Reconstruction (SR) module that enables prototype to reconstruct the support mask as well as possible. Moreover, we further consider zero-shot 3D point cloud semantic segmentation where there is no support sample. To this end, we introduce category words as semantic information and propose a semantic-visual projection model to bridge the semantic and visual spaces. Our proposed method surpasses state-of-the-art algorithms by a considerable 7.90% and 14.82% under the 2-way 1-shot setting on S3DIS and ScanNet benchmarks, respectively. Code is available at https://github.com/heshuting555/PAP-FZS3D.
翻訳日:2023-05-24 13:26:54 公開日:2023-05-23
# diffusion hyperfeatures: 意味対応のための時間と空間の探索

Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence ( http://arxiv.org/abs/2305.14334v1 )

ライセンス: Link先を確認
Grace Luo, Lisa Dunlap, Dong Huk Park, Aleksander Holynski, Trevor Darrell(参考訳) 拡散モデルは高品質な画像を生成することができ、意味のある内部表現を含むことができることが示されている。 残念ながら、拡散モデルの内部情報を符号化する特徴マップは、ネットワークの層だけでなく、拡散タイムステップにも広がっており、有用な記述子を抽出することは困難である。 本研究では,マルチスケールとマルチタイムステップの機能マップを,サブストリームタスクに使用可能なピクセル単位の機能記述子に統合するフレームワークであるdiffence hyperfeaturesを提案する。 これらのディスクリプタは、生成および反転プロセスを使用して合成および実画像の両方に対して抽出することができる。 本手法は,spair-71k実画像ベンチマークにおいて優れた性能を実現する。 実画像ペアの反転特性を訓練した特徴集約ネットワークは,未認識のオブジェクトと構成を持つ合成画像ペアの生成機能に使用できる。 我々のコードは \url{https://diffusion-hyperfeatures.github.io} で入手できる。

Diffusion models have been shown to be capable of generating high-quality images, suggesting that they could contain meaningful internal representations. Unfortunately, the feature maps that encode a diffusion model's internal information are spread not only over layers of the network, but also over diffusion timesteps, making it challenging to extract useful descriptors. We propose Diffusion Hyperfeatures, a framework for consolidating multi-scale and multi-timestep feature maps into per-pixel feature descriptors that can be used for downstream tasks. These descriptors can be extracted for both synthetic and real images using the generation and inversion processes. We evaluate the utility of our Diffusion Hyperfeatures on the task of semantic keypoint correspondence: our method achieves superior performance on the SPair-71k real image benchmark. We also demonstrate that our method is flexible and transferable: our feature aggregation network trained on the inversion features of real image pairs can be used on the generation features of synthetic image pairs with unseen objects and compositions. Our code is available at \url{https://diffusion-hyperfeatures.github.io}.
翻訳日:2023-05-24 13:26:24 公開日:2023-05-23
# L2XGNN: グラフニューラルネットワークの解説を学ぶ

L2XGNN: Learning to Explain Graph Neural Networks ( http://arxiv.org/abs/2209.14402v3 )

ライセンス: Link先を確認
Giuseppe Serra, Mathias Niepert(参考訳) グラフニューラルネットワーク(GNN)は、機械学習モデルの一般的なクラスである。 L2X(L2X)のパラダイムを説明する学習に触発されて、設計による忠実な説明を提供する説明可能なGNNのフレームワークであるL2XGNNを提案する。 L2XGNNは、GNNのメッセージパッシング操作でのみ使用される説明サブグラフ(モチーフ)を選択するメカニズムを学習する。 L2XGNNは各入力グラフに対してスパースや接続などの特定の特性を持つグラフを選択することができる。 このような制約をモチーフに課すことは、しばしばより解釈可能で効果的な説明につながる。 いくつかのデータセットの実験では、L2XGNNは入力グラフ全体を用いたベースライン法と同じ分類精度を達成し、提供された説明のみが予測に使用されることを保証している。 さらに,L2XGNNは,予測対象のグラフの性質に責任を持つモチーフを識別可能であることを示す。

Graph Neural Networks (GNNs) are a popular class of machine learning models. Inspired by the learning to explain (L2X) paradigm, we propose L2XGNN, a framework for explainable GNNs which provides faithful explanations by design. L2XGNN learns a mechanism for selecting explanatory subgraphs (motifs) which are exclusively used in the GNNs message-passing operations. L2XGNN is able to select, for each input graph, a subgraph with specific properties such as being sparse and connected. Imposing such constraints on the motifs often leads to more interpretable and effective explanations. Experiments on several datasets suggest that L2XGNN achieves the same classification accuracy as baseline methods using the entire input graph while ensuring that only the provided explanations are used to make predictions. Moreover, we show that L2XGNN is able to identify motifs responsible for the graph's properties it is intended to predict.
翻訳日:2023-05-24 11:21:21 公開日:2023-05-23
# 並列コーパスを用いた原理的パラフレーズ生成

Principled Paraphrase Generation with Parallel Corpora ( http://arxiv.org/abs/2205.12213v3 )

ライセンス: Link先を確認
Aitor Ormazabal, Mikel Artetxe, Aitor Soroa, Gorka Labaka and Eneko Agirre(参考訳) ラウンドトリップ機械翻訳(MT)は、容易に利用可能な並列コーパスを利用したパラフレーズ生成の一般的な選択である。 本稿では,このアプローチによって引き起こされる暗黙的類似性関数を定式化し,非パラフローゼ対が1つの曖昧な翻訳を共有できることを示す。 これらの知見に基づいて, 翻訳分布全体を一致させ, 情報ボトルネック法による緩和を実現することにより, この問題を緩和する代替類似度指標を考案する。 提案手法では,入力に関する情報を極力少ないまま,参照翻訳に関する情報をできるだけ多くエンコードする表現を学習するために,MT訓練に敵対語を組み込む。 パラフレーズは、ピボット変換を生成することなく、この表現からソースにデコードすることで生成することができる。 ラウンドトリップmtよりも原理的かつ効率的であることに加えて,忠実度-多様性トレードオフを制御するための調整可能なパラメータを提供し,実験でより良い結果を得る。

Round-trip Machine Translation (MT) is a popular choice for paraphrase generation, which leverages readily available parallel corpora for supervision. In this paper, we formalize the implicit similarity function induced by this approach, and show that it is susceptible to non-paraphrase pairs sharing a single ambiguous translation. Based on these insights, we design an alternative similarity metric that mitigates this issue by requiring the entire translation distribution to match, and implement a relaxation of it through the Information Bottleneck method. Our approach incorporates an adversarial term into MT training in order to learn representations that encode as much information about the reference translation as possible, while keeping as little information about the input as possible. Paraphrases can be generated by decoding back to the source from this representation, without having to generate pivot translations. In addition to being more principled and efficient than round-trip MT, our approach offers an adjustable parameter to control the fidelity-diversity trade-off, and obtains better results in our experiments.
翻訳日:2023-05-24 11:21:06 公開日:2023-05-23
# テキストからSQLへのLLMのプロンプト方法:ゼロショット、シングルドメイン、クロスドメイン設定の検討

How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain, and Cross-domain Settings ( http://arxiv.org/abs/2305.11853v2 )

ライセンス: Link先を確認
Shuaichen Chang, Eric Fosler-Lussier(参考訳) 文脈内学習を伴う大規模言語モデル(LLM)は、テキストからSQLへのタスクにおいて顕著な能力を示している。 従来の研究は、LLMの性能を高めるために、様々な実証検索戦略と中間的推論ステップを持つLCMを誘導している。 しかしながら、これらの作業は、データベースや実演例など、テキストからSQLへの入力のためのプロンプトテキストを構築する際に、様々な戦略を用いることが多い。 これにより、迅速な構成と主要な貢献の両方において互換性が欠如することになる。 さらに, 効率的なプロンプト構築の選択が今後の研究の永続的な課題として浮上している。 この制限に対処するため、我々は様々な設定におけるプロンプト構築の影響を包括的に調査し、今後の作業への洞察を提供する。

Large language models (LLMs) with in-context learning have demonstrated remarkable capability in the text-to-SQL task. Previous research has prompted LLMs with various demonstration-retrieval strategies and intermediate reasoning steps to enhance the performance of LLMs. However, those works often employ varied strategies when constructing the prompt text for text-to-SQL inputs, such as databases and demonstration examples. This leads to a lack of comparability in both the prompt constructions and their primary contributions. Furthermore, selecting an effective prompt construction has emerged as a persistent problem for future research. To address this limitation, we comprehensively investigate the impact of prompt constructions across various settings and provide insights for future work.
翻訳日:2023-05-24 11:12:38 公開日:2023-05-23
# 自動温度調整によるソフトアクター臨界アルゴリズムの正則化

Regularization of Soft Actor-Critic Algorithms with Automatic Temperature Adjustment ( http://arxiv.org/abs/2305.11831v2 )

ライセンス: Link先を確認
Ben You(参考訳) 本研究は,ソフトアクタ・クリティカル(SAC)アルゴリズムを自動温度調整で正規化するための包括的解析を行う。 政策評価、政策改善、温度調整を改定し、特定の修正に対処し、より明示的な方法で原理論の明確性を高める。

This work presents a comprehensive analysis to regularize the Soft Actor-Critic (SAC) algorithm with automatic temperature adjustment. The the policy evaluation, the policy improvement and the temperature adjustment are reformulated, addressing certain modification and enhancing the clarity of the original theory in a more explicit manner.
翻訳日:2023-05-24 11:12:26 公開日:2023-05-23
# 形態と意味の分離:複数感覚におけるタスク理解の定量化に自己整合性を用いる

Separating form and meaning: Using self-consistency to quantify task understanding across multiple senses ( http://arxiv.org/abs/2305.11662v2 )

ライセンス: Link先を確認
Xenia Ohmer, Elia Bruni, Dieuwke Hupkes(参考訳) 大規模言語モデル(LLM)の能力が増大する停滞するペースでは、その理解を評価するための将来的な評価セットがますます難しくなっている。 本稿では, 正しい世界理解は, 同じ意味の異なる(Fregean)感覚にまたがって整合するべきだという考え方を生かして, LLMを評価するための新しいパラダイムを提案する。 したがって、モデルの正確性ではなく、モデル自体によって生成される複数の感覚の一貫性を評価することで理解度を測定する。 我々は,異なる感覚が異なる言語であるテストのインスタンス化を行い,モデル理解のためのリトマステストとして多言語自己一貫性を用い,同時に多言語主義の重要な話題に対処した。 そこで我々は,ChatGPTの最新バージョンを研究対象として,3言語にわたる2つのタスクの多言語一貫性を評価した。 その多言語一貫性は依然として欠如しており、そのタスクと世界理解は言語に依存しない。 我々のアプローチは英語以外の言語で静的評価コーパスを必要としないため、様々な言語やタスクに簡単かつ安価に拡張することができ、将来のベンチマーク活動の不可欠な部分となる可能性がある。

At the staggering pace with which the capabilities of large language models (LLMs) are increasing, creating future-proof evaluation sets to assess their understanding becomes more and more challenging. In this paper, we propose a novel paradigm for evaluating LLMs which leverages the idea that correct world understanding should be consistent across different (Fregean) senses of the same meaning. Accordingly, we measure understanding not in terms of correctness but by evaluating consistency across multiple senses that are generated by the model itself. We showcase our approach by instantiating a test where the different senses are different languages, hence using multilingual self-consistency as a litmus test for the model's understanding and simultaneously addressing the important topic of multilingualism. Taking one of the latest versions of ChatGPT as our object of study, we evaluate multilingual consistency for two different tasks across three different languages. We show that its multilingual consistency is still lacking, and that its task and world understanding are thus not language-independent. As our approach does not require any static evaluation corpora in languages other than English, it can easily and cheaply be extended to different languages and tasks and could become an integral part of future benchmarking efforts.
翻訳日:2023-05-24 11:12:17 公開日:2023-05-23
# 距離測度空間におけるランダム探索からバンディット学習へ

From Random Search to Bandit Learning in Metric Measure Spaces ( http://arxiv.org/abs/2305.11509v2 )

ライセンス: Link先を確認
Chuying Han, Yasong Feng, Tianyu Wang(参考訳) ランダム検索はハイパーパラメータ最適化の最も広く使われている手法の1つであり、ディープラーニングモデルの成功に不可欠である。 驚くべき性能にもかかわらず、基礎となる作用機構を記述するために非ヒューリスティック理論はほとんど開発されていない。 本稿ではランダム探索に関する理論的考察を行う。 本稿では,基礎となる関数のランドスケープを記述する「emph{scattering dimension}」の概念を導入し,ランダム探索の性能を定量化する。 環境がノイズのない場合、ランダム探索の出力はレート $ \widetilde{\mathcal{o}} \left( \left( \frac{1}{t} \right)^{ \frac{1}{d_s} } \right) $ の確率において最適値に収束する。 観測された関数値が有界な$iid$ノイズによって破損した場合、ランダム探索の出力は、$ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right)$で確率の最適値に収束する。 さらに、ランダム探索の原理に基づいて、ボレル測度を持つ2倍の計量空間におけるリプシッツバンドイットに対するblin-mosと呼ばれるアルゴリズムを導入し、blin-mos が問題インスタンスのズーム次元である$d_z_d_z + 1} } \right(t^{ \frac{d_z}{d_z + 1} } \right) $, ここで、blin-mos が整列の後悔率を達成することを示す。 その結果、ある条件下では、Lipschitz banditsの既知の情報理論の下界$\Omega \left(T^{\frac{d_z+1}{d_z+2}} \right)$が改善できることが示されている。

Random Search is one of the most widely-used method for Hyperparameter Optimization, and is critical to the success of deep learning models. Despite its astonishing performance, little non-heuristic theory has been developed to describe the underlying working mechanism. This paper gives a theoretical accounting of Random Search. We introduce the concept of \emph{scattering dimension} that describes the landscape of the underlying function, and quantifies the performance of random search. We show that, when the environment is noise-free, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s} } \right) $, where $ d_s \ge 0 $ is the scattering dimension of the underlying function. When the observed function values are corrupted by bounded $iid$ noise, the output of random search converges to the optimal value in probability at rate $ \widetilde{\mathcal{O}} \left( \left( \frac{1}{T} \right)^{ \frac{1}{d_s + 1} } \right) $. In addition, based on the principles of random search, we introduce an algorithm, called BLiN-MOS, for Lipschitz bandits in doubling metric spaces that are also endowed with a Borel measure, and show that BLiN-MOS achieves a regret rate of order $ \widetilde{\mathcal{O}} \left( T^{ \frac{d_z}{d_z + 1} } \right) $, where $d_z$ is the zooming dimension of the problem instance. Our results show that under certain conditions, the known information-theoretical lower bounds for Lipschitz bandits $\Omega \left( T^{\frac{d_z+1}{d_z+2}} \right)$ can be improved.
翻訳日:2023-05-24 11:11:54 公開日:2023-05-23
# PointGPT: ポイントクラウドからの自動回帰生成事前トレーニング

PointGPT: Auto-regressively Generative Pre-training from Point Clouds ( http://arxiv.org/abs/2305.11487v2 )

ライセンス: Link先を確認
Guangyan Chen, Meiling Wang, Yi Yang, Kai Yu, Li Yuan, Yufeng Yue(参考訳) GPT(generative pre-training transformer)に基づく大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な効果を示した。 GPTの進歩にインスパイアされたPointGPTは、GPTの概念をポイントクラウドに拡張し、障害特性、低情報密度、タスクギャップに関連する課題に対処する新しいアプローチである。 具体的には、変圧器モデルの事前学習にポイントクラウド自動回帰生成タスクが提案されている。 提案手法は,入力点雲を複数の点パッチに分割し,その空間的近接に基づいて順序順に配置する。 そして、抽出器ジェネレータをベースとしたトランスフォーマーデコーダを2つのマスキング戦略により、先行する点パッチに条件付き潜時表現を学習し、次の点を自動回帰的に予測する。 当社のスケーラブルなアプローチでは、さまざまな下流タスクで最先端のパフォーマンスを実現することによって、一般化された高容量モデルを学ぶことができます。 特に,ModelNet40データセットでは94.9%,ScanObjectNNデータセットでは93.4%の分類精度を達成し,他のトランスフォーマーモデルよりも優れている。 さらに,本手法は,4つの数発の学習ベンチマークにおいて,最先端の精度を新たに達成する。

Large language models (LLMs) based on the generative pre-training transformer (GPT) have demonstrated remarkable effectiveness across a diverse range of downstream tasks. Inspired by the advancements of the GPT, we present PointGPT, a novel approach that extends the concept of GPT to point clouds, addressing the challenges associated with disorder properties, low information density, and task gaps. Specifically, a point cloud auto-regressive generation task is proposed to pre-train transformer models. Our method partitions the input point cloud into multiple point patches and arranges them in an ordered sequence based on their spatial proximity. Then, an extractor-generator based transformer decoder, with a dual masking strategy, learns latent representations conditioned on the preceding point patches, aiming to predict the next one in an auto-regressive manner. Our scalable approach allows for learning high-capacity models that generalize well, achieving state-of-the-art performance on various downstream tasks. In particular, our approach achieves classification accuracies of 94.9% on the ModelNet40 dataset and 93.4% on the ScanObjectNN dataset, outperforming all other transformer models. Furthermore, our method also attains new state-of-the-art accuracies on all four few-shot learning benchmarks.
翻訳日:2023-05-24 11:11:10 公開日:2023-05-23
# MGR:マルチジェネレータに基づく合理化

MGR: Multi-generator based Rationalization ( http://arxiv.org/abs/2305.04492v4 )

ライセンス: Link先を確認
Wei Liu, Haozhao Wang, Jun Wang, Ruixuan Li, Xinyang Li, Yuankai Zhang, Yang Qiu(参考訳) 合理化は、ジェネレータと予測器を用いて、ジェネレータが入力テキストの人間の知性の部分集合を次の予測器に選択する自己説明型NLPモデルを構築することである。 しかし、合理化には2つの重要な課題、すなわち、スプリアス相関とデジェネレーションがあり、予測器は、未熟な訓練済みジェネレータによって選択されたスプリアスまたは無意味なピースを過剰に適合させ、ジェネレータを劣化させる。 2つの課題に対処するために多くの研究が提案されているが、通常は個別に設計されており、どちらも考慮していない。 本稿では,この2つの問題を同時に解くために,MGRというシンプルな手法を提案する。 MGRの鍵となる考え方は、実際の部品の発生安定性を改善し、より有意義な部品を予測者に届けるように複数の発電機を採用することである。 実験により,MGRは最先端手法と比較してF1スコアを最大20.9%改善することがわかった。 コードはhttps://github.com/jugechengzi/Rationalization-MGRで公開されている。

Rationalization is to employ a generator and a predictor to construct a self-explaining NLP model in which the generator selects a subset of human-intelligible pieces of the input text to the following predictor. However, rationalization suffers from two key challenges, i.e., spurious correlation and degeneration, where the predictor overfits the spurious or meaningless pieces solely selected by the not-yet well-trained generator and in turn deteriorates the generator. Although many studies have been proposed to address the two challenges, they are usually designed separately and do not take both of them into account. In this paper, we propose a simple yet effective method named MGR to simultaneously solve the two problems. The key idea of MGR is to employ multiple generators such that the occurrence stability of real pieces is improved and more meaningful pieces are delivered to the predictor. Empirically, we show that MGR improves the F1 score by up to 20.9% as compared to state-of-the-art methods. Codes are available at https://github.com/jugechengzi/Rationalization-MGR .
翻訳日:2023-05-24 11:10:50 公開日:2023-05-23
# 因果世界モデルによる説明可能な強化学習

Explainable Reinforcement Learning via a Causal World Model ( http://arxiv.org/abs/2305.02749v4 )

ライセンス: Link先を確認
Zhongwei Yu, Jingqing Ruan, Dengpeng Xing(参考訳) 強化学習(RL)のための説明を生成することは、行動が未来に長期的な影響をもたらす可能性があるため困難である。 本稿では,環境の因果構造を事前に知ることなく,因果世界モデルを学習し,説明可能なRLのための新しい枠組みを開発する。 このモデルは行動の影響を捉え、因果連鎖による行動の長期的な影響を解釈し、行動が環境変数にどのように影響し、最終的に報酬につながるかを示す。 精度の低いほとんどの説明モデルとは異なり、説明可能性を改善しながら精度を保ち、モデルベース学習に適用できる。 その結果,我々の因果モデルが説明可能性と学習の橋渡しとなることを示した。

Generating explanations for reinforcement learning (RL) is challenging as actions may produce long-term effects on the future. In this paper, we develop a novel framework for explainable RL by learning a causal world model without prior knowledge of the causal structure of the environment. The model captures the influence of actions, allowing us to interpret the long-term effects of actions through causal chains, which present how actions influence environmental variables and finally lead to rewards. Different from most explanatory models which suffer from low accuracy, our model remains accurate while improving explainability, making it applicable in model-based learning. As a result, we demonstrate that our causal model can serve as the bridge between explainability and learning.
翻訳日:2023-05-24 11:10:31 公開日:2023-05-23
# サンプリングに基づくnystr\"om近似とカーネル二次

Sampling-based Nystr\"om Approximation and Kernel Quadrature ( http://arxiv.org/abs/2301.09517v3 )

ライセンス: Link先を確認
Satoshi Hayakawa, Harald Oberhauser, Terry Lyons(参考訳) 確率測度に付随する正定値核のnystr\"om近似を解析した。 まず,従来のnystr\"om近似に対する連続的なサンプリングと特異値分解による誤差境界の改善を証明し,その証明手法を統計的学習理論から借用する。 我々はさらに,非i.i.d.ランドマーク点に適用可能な理論的保証を伴うnystr\"om近似における部分空間の洗練された選択を導入する。 最後に, 核の凸二次体への応用について論じ, 数値観測だけでなく理論上の新たな保証を与える。

We analyze the Nystr\"om approximation of a positive definite kernel associated with a probability measure. We first prove an improved error bound for the conventional Nystr\"om approximation with i.i.d. sampling and singular-value decomposition in the continuous regime; the proof techniques are borrowed from statistical learning theory. We further introduce a refined selection of subspaces in Nystr\"om approximation with theoretical guarantees that is applicable to non-i.i.d. landmark points. Finally, we discuss their application to convex kernel quadrature and give novel theoretical guarantees as well as numerical observations.
翻訳日:2023-05-24 11:10:18 公開日:2023-05-23
# インテリジェントメッシュ生成の状況:調査と展望

What's the Situation with Intelligent Mesh Generation: A Survey and Perspectives ( http://arxiv.org/abs/2211.06009v3 )

ライセンス: Link先を確認
Na Lei, Zezeng Li, Zebin Xu, Ying Li, and Xianfeng Gu(参考訳) Intelligent Mesh Generation(IMG)は、機械学習技術を利用してメッシュを生成する、新しくて有望な研究分野である。 比較的幼少期にもかかわらず、ICGはメッシュ生成技術の適応性と実用性を大幅に向上させ、多くのブレークスルーをもたらし、将来的な経路を明らかにした。 しかし、IMG法の総合的な調査に関する現代文献に顕著な空白が存在する。 本稿では,現在のimg景観を体系的かつ徹底的に調査することにより,このギャップを埋めようとしている。 113の予備的なimg手法に着目し,コアアルゴリズム手法とその適用範囲,エージェント学習目標,データ型,目標課題,メリットと限界を包含して,様々な角度から細心の注意を払って分析を行った。 文献を整理し分類し、キー技術、出力メッシュ単位要素、関連する入力データ型に基づく3つのユニークな分類法を提案する。 IMGにおける今後の研究の方向性と課題についても述べる。 読者アクセシビリティを高めるため、専用のIGGプロジェクトページが \url{https://github.com/xzb030/IMG_Survey} で公開されている。

Intelligent Mesh Generation (IMG) represents a novel and promising field of research, utilizing machine learning techniques to generate meshes. Despite its relative infancy, IMG has significantly broadened the adaptability and practicality of mesh generation techniques, delivering numerous breakthroughs and unveiling potential future pathways. However, a noticeable void exists in the contemporary literature concerning comprehensive surveys of IMG methods. This paper endeavors to fill this gap by providing a systematic and thorough survey of the current IMG landscape. With a focus on 113 preliminary IMG methods, we undertake a meticulous analysis from various angles, encompassing core algorithm techniques and their application scope, agent learning objectives, data types, targeted challenges, as well as advantages and limitations. We have curated and categorized the literature, proposing three unique taxonomies based on key techniques, output mesh unit elements, and relevant input data types. This paper also underscores several promising future research directions and challenges in IMG. To augment reader accessibility, a dedicated IMG project page is available at \url{https://github.com/xzb030/IMG_Survey}.
翻訳日:2023-05-24 11:10:08 公開日:2023-05-23
# ロボット制御のためのオプション対応逆強化学習

Option-Aware Adversarial Inverse Reinforcement Learning for Robotic Control ( http://arxiv.org/abs/2210.01969v4 )

ライセンス: Link先を確認
Jiayu Chen, Tian Lan, Vaneet Aggarwal(参考訳) 階層的模倣学習(Hierarchical Imitation Learning, HIL)は、タスク階層をオプションフレームワークでモデル化することにより、専門家による実証から長期タスクの複雑な振る舞いを復元するために提案されている。 既存の方法は、サブタスクとそれに対応するポリシーの間の因果関係を見落としているか、あるいはエンドツーエンドでポリシーを学ぶことができないため、亜最適性につながる。 本研究では, 適応逆強化学習に基づく新しいHILアルゴリズムを開発し, 予測最大化アルゴリズムで適応することで, 注釈のない実演から階層的ポリシーを直接復元する。 さらに,目的関数に有向情報項を導入して因果性を高めるとともに,目的をエンドツーエンドで学習するための変分オートエンコーダフレームワークを提案する。 本アルゴリズムの優位性を示すため,ロボット制御の課題に対する理論的正当化と評価を行った。 コードはhttps://github.com/lucascjysdl/hierairlで入手できる。

Hierarchical Imitation Learning (HIL) has been proposed to recover highly-complex behaviors in long-horizon tasks from expert demonstrations by modeling the task hierarchy with the option framework. Existing methods either overlook the causal relationship between the subtask and its corresponding policy or cannot learn the policy in an end-to-end fashion, which leads to suboptimality. In this work, we develop a novel HIL algorithm based on Adversarial Inverse Reinforcement Learning and adapt it with the Expectation-Maximization algorithm in order to directly recover a hierarchical policy from the unannotated demonstrations. Further, we introduce a directed information term to the objective function to enhance the causality and propose a Variational Autoencoder framework for learning with our objectives in an end-to-end fashion. Theoretical justifications and evaluations on challenging robotic control tasks are provided to show the superiority of our algorithm. The codes are available at https://github.com/LucasCJYSDL/HierAIRL.
翻訳日:2023-05-24 11:09:49 公開日:2023-05-23
# 医学文献の多言語化

Multilingual Simplification of Medical Texts ( http://arxiv.org/abs/2305.12532v2 )

ライセンス: Link先を確認
Sebastian Joseph, Kathryn Kazanas, Keziah Reina, Vishnesh J. Ramanathan, Wei Xu, Byron C. Wallace, and Junyi Jessy Li(参考訳) 自動テキスト単純化は、複雑なテキストの単純なバージョンを作成することを目的としている。 このタスクは特に医学領域で有用であり、最新の医学所見は一般的に複雑で技術的な記事を通じて伝達される。 このことは、最新の医学的発見へのアクセスを求める平民にとって障壁となり、その結果、健康リテラシーの進歩を妨げる。 医学的テキストの単純化に関する既存の研究は、モノリンガルな設定に重点を置いており、その結果、そのような証拠はたった一つの言語(多くは英語)でのみ利用可能となる。 この作業は、多言語による単純化、すなわち複雑なテキストを複数の言語で単純化されたテキストへ直接単純化することで、この制限に対処する。 英語、スペイン語、フランス語、ファルシ語という4つの言語で、医学領域で最初の文を並べた多言語テキスト簡易化データセットであるmulticochraneを導入する。 我々はこれらの言語にまたがる微調整およびゼロショットモデルを評価し,広範な評価と分析を行った。 モデルは現在、実行可能な簡易テキストを生成することができるが、このデータセットが対処できる未解決の課題を特定する。

Automated text simplification aims to produce simple versions of complex texts. This task is especially useful in the medical domain, where the latest medical findings are typically communicated via complex and technical articles. This creates barriers for laypeople seeking access to up-to-date medical findings, consequently impeding progress on health literacy. Most existing work on medical text simplification has focused on monolingual settings, with the result that such evidence would be available only in just one language (most often, English). This work addresses this limitation via multilingual simplification, i.e., directly simplifying complex texts into simplified texts in multiple languages. We introduce MultiCochrane, the first sentence-aligned multilingual text simplification dataset for the medical domain in four languages: English, Spanish, French, and Farsi. We evaluate fine-tuned and zero-shot models across these languages, with extensive human assessments and analyses. Although models can now generate viable simplified texts, we identify outstanding challenges that this dataset might be used to address.
翻訳日:2023-05-24 11:02:18 公開日:2023-05-23
# gaokaoベンチマークによる大規模言語モデルの性能評価

Evaluating the Performance of Large Language Models on GAOKAO Benchmark ( http://arxiv.org/abs/2305.12474v2 )

ライセンス: Link先を確認
Xiaotian Zhang, Chunyang Li, Yi Zong, Zhengyu Ying, Liang He, Xipeng Qiu(参考訳) 大規模言語モデルは、様々な自然言語処理タスクにおいて顕著な性能を示しているが、より困難でドメイン固有のタスクにおけるその効果は、いまだに探究されていない。 本稿では,中国ガオカオ検定の質問を大規模言語モデル評価の指標として用いた直感的なベンチマークであるガオカオベンチマーク(GAokaO-Bench)を紹介し,その評価結果を人間と可能な限り整合させるため,質問を主観型と客観的型に分割することで,ゼロショットプロンプトに基づくモデル精度と評価率の分析手法を考案した。 ガオカオベンチマークにおけるChatGPTモデルの評価を行った結果,ChatGPTモデルは客観的な問題に対処する上で優れており,欠点や改善の領域にも光を当てていることがわかった。 本研究は,今後の大規模言語モデルに対するロバストな評価ベンチマークに貢献し,そのようなモデルの限界について貴重な知見を提供する。

Large language models have demonstrated remarkable performance across various natural language processing tasks; however, their efficacy in more challenging and domain-specific tasks remains less explored. This paper introduces the GAOKAO-Benchmark (GAOKAO-Bench), an intuitive benchmark that employs questions from the Chinese Gaokao examination as test samples for evaluating large language models.In order to align the evaluation results with humans as much as possible, we designed a method based on zero-shot prompts to analyze the accuracy and scoring rate of the model by dividing the questions into subjective and objective types. We evaluated the ChatGPT model on GAOKAO-Benchmark performance.Our findings reveal that the ChatGPT model excels in tackling objective questions, while also shedding light on its shortcomings and areas for improvement. To further scrutinize the model's responses, we incorporate human evaluations.In conclusion, this research contributes a robust evaluation benchmark for future large-scale language models and offers valuable insights into the limitations of such models.
翻訳日:2023-05-24 11:02:02 公開日:2023-05-23
# particlewnn:偏微分方程式を解くための新しいニューラルネットワークフレームワーク

ParticleWNN: a Novel Neural Networks Framework for Solving Partial Differential Equations ( http://arxiv.org/abs/2305.12433v2 )

ライセンス: Link先を確認
Yaohua Zang, Gang Bao(参考訳) 近年、偏微分方程式(PDE)の解法としてディープニューラルネットワーク(DNN)が広く用いられている。 本研究では、PDEを弱い形で解くために、ParticleWNN(Particle Weak-form Based Neural Networks)と呼ばれる新しいディープラーニングベースのフレームワークを開発した。 この枠組みでは、試行空間はdnnの空間として選択され、テスト空間は中心が粒子である極小領域でコンパクトに支持される関数によって構成される。 ニューラルネットワークをトレーニングするために、R適応戦略はトレーニング中に領域の半径を適応的に修正するように設計されている。 particlewnnは、解の正則性が少なく、積分を計算するために少数の二次点を必要とするなど、弱/変量定式化の利点を継承する。 さらに、テスト関数の特別な構成のため、ParticleWNNはネットワークの局所的なトレーニング、並列実装、および極めて小さな領域でのみ積分計算を可能にする。 このフレームワークは高次元および複雑な領域の問題を解決するのに特に望ましい。 particlewnnの効率と精度は、いくつかの数値例で示される。 その結果,ParticleWNNの最先端手法に対する利点が明らかとなった。

Deep neural networks (DNNs) have been widely used to solve partial differential equations (PDEs) in recent years. In this work, a novel deep learning-based framework named Particle Weak-form based Neural Networks (ParticleWNN) is developed for solving PDEs in the weak form. In this framework, the trial space is chosen as the space of DNNs, and the test space is constructed by functions compactly supported in extremely small regions whose centers are particles. To train the neural networks, an R-adaptive strategy is designed to adaptively modify the radius of regions during training. The ParticleWNN inherits the advantages of weak/variational formulation, such as requiring less regularity of the solution and a small number of quadrature points for computing the integrals. Moreover, due to the special construction of the test functions, the ParticleWNN allows local training of networks, parallel implementation, and integral calculations only in extremely small regions. The framework is particularly desirable for solving problems with high-dimensional and complex domains. The efficiency and accuracy of the ParticleWNN are demonstrated with several numerical examples. The numerical results show clear advantages of the ParticleWNN over the state-of-the-art methods.
翻訳日:2023-05-24 11:01:41 公開日:2023-05-23
# 室内3次元シーンにおける異種人間の動作の合成

Synthesizing Diverse Human Motions in 3D Indoor Scenes ( http://arxiv.org/abs/2305.12411v2 )

ライセンス: Link先を確認
Kaifeng Zhao, Yan Zhang, Shaofei Wang, Thabo Beeler, and Siyu Tang(参考訳) 本研究では,現実的な方法で環境をナビゲートし,物体と対話できる仮想人間を用いた3次元屋内シーンの撮影手法を提案する。 既存のアプローチは、3Dシーンでさまざまな人間の動きをキャプチャする高品質なトレーニングシーケンスに依存している。 しかし、こうした動きデータは費用がかかり、入手が難しく、複雑な屋内環境における人間とシーンの完全な相互作用をカバーできない。 これらの課題に対処するために,大規模モーションキャプチャデータセット(amass)上で学習される強力な生成運動モデルの潜在変数を予測するポリシネットワークを学習するための強化学習ベースアプローチを提案する。 3次元環境をナビゲートするために,新しい衝突回避報酬関数を用いたシーン認識型政策訓練手法を提案する。 強力な生成運動モデルと組み合わせることで、3D屋内シーンをナビゲートする非常に多様な人間の動きを合成することができる。 詳細な人間と物体の相互作用について、マーカーに基づく身体表現と3Dシーンの符号付き距離場(SDF)表現を活用することにより、インタラクション認識報酬関数を慎重にキュレートする。 多くの重要なトレーニング設計スキームを用いて, 物体形状, 向き, 姿勢, 姿勢の異なる分布外テストシナリオであっても, 現実的で多様な人間と物体の相互作用(例えば, 椅子に座って, 立ち上がるなど)を合成することができる。 実験の結果,本手法は動作自然性と多様性の両方の観点から,最先端のヒューマン・シーン相互作用合成フレームワークよりも優れていた。 ビデオはプロジェクトページで公開されている。

We present a novel method for populating 3D indoor scenes with virtual humans that can navigate the environment and interact with objects in a realistic manner. Existing approaches rely on high-quality training sequences that capture a diverse range of human motions in 3D scenes. However, such motion data is costly, difficult to obtain and can never cover the full range of plausible human-scene interactions in complex indoor environments. To address these challenges, we propose a reinforcement learning-based approach to learn policy networks that predict latent variables of a powerful generative motion model that is trained on a large-scale motion capture dataset (AMASS). For navigating in a 3D environment, we propose a scene-aware policy training scheme with a novel collision avoidance reward function. Combined with the powerful generative motion model, we can synthesize highly diverse human motions navigating 3D indoor scenes, meanwhile effectively avoiding obstacles. For detailed human-object interactions, we carefully curate interaction-aware reward functions by leveraging a marker-based body representation and the signed distance field (SDF) representation of the 3D scene. With a number of important training design schemes, our method can synthesize realistic and diverse human-object interactions (e.g.,~sitting on a chair and then getting up) even for out-of-distribution test scenarios with different object shapes, orientations, starting body positions, and poses. Experimental results demonstrate that our approach outperforms state-of-the-art human-scene interaction synthesis frameworks in terms of both motion naturalness and diversity. Video results are available on the project page: https://zkf1997.github.io/DIMOS.
翻訳日:2023-05-24 11:01:23 公開日:2023-05-23
# 比較言語-画像事前学習モデルはゼロショットヒトスキャンパス予測器である

Contrastive Language-Image Pretrained Models are Zero-Shot Human Scanpath Predictors ( http://arxiv.org/abs/2305.12380v2 )

ライセンス: Link先を確認
Dario Zanca, Andrea Zugarini, Simon Dietz, Thomas R. Altstidl, Mark A. Turban Ndjeuha, Leo Schwinn, Bjoern Eskofier(参考訳) 人間の注意を支えるメカニズムを理解することは、視覚科学と人工知能の両方にとって根本的な課題である。 フリービューの多くの計算モデルが提案されているが、タスク駆動画像探索の基礎となるメカニズムについてはあまり知られていない。 そこで本研究では,キャプションタスク中に収集されたキャプションのデータベースであるcapmit1003を提案する。 CapMIT1003は、よく知られたMIT1003ベンチマークと同じ刺激に基づいており、自由視聴条件下での視線追跡データが利用可能である。 このデータセットを一般公開して、この分野の今後の研究を支援します。 さらに, 比較言語画像事前訓練(CLIP)モデルと生物学的に着想を得たニューラルビジュアルアテンション(NeVA)アルゴリズムを組み合わせた, 視覚スキャンパスのゼロショット予測手法NevaClipを紹介する。 NevaClipはヒトのスキャンパスをシミュレートし、フレーバー付き視覚刺激の表現と関連するキャプションの表現を調整し、勾配駆動型視覚探索を用いてスキャンパスを生成する。 実験の結果,nevaclipはキャプション処理とフリービュー処理の両方において,人間の視覚注意の教師なし計算モデルよりもスキャパシビリティが優れていることがわかった。 さらに,誤字文や誤字文でNevaClipを条件付けると,ランダムな動作が生じ,意思決定プロセスにおけるキャプションガイダンスの意義が強調される。 これらの知見は、人間の注意を誘導し、下流タスクの直接トップダウンガイダンスを統合するスキャンパス予測へのより洗練された計算アプローチへの道を開くメカニズムをよりよく理解するのに役立つ。

Understanding the mechanisms underlying human attention is a fundamental challenge for both vision science and artificial intelligence. While numerous computational models of free-viewing have been proposed, less is known about the mechanisms underlying task-driven image exploration. To address this gap, we present CapMIT1003, a database of captions and click-contingent image explorations collected during captioning tasks. CapMIT1003 is based on the same stimuli from the well-known MIT1003 benchmark, for which eye-tracking data under free-viewing conditions is available, which offers a promising opportunity to concurrently study human attention under both tasks. We make this dataset publicly available to facilitate future research in this field. In addition, we introduce NevaClip, a novel zero-shot method for predicting visual scanpaths that combines contrastive language-image pretrained (CLIP) models with biologically-inspired neural visual attention (NeVA) algorithms. NevaClip simulates human scanpaths by aligning the representation of the foveated visual stimulus and the representation of the associated caption, employing gradient-driven visual exploration to generate scanpaths. Our experimental results demonstrate that NevaClip outperforms existing unsupervised computational models of human visual attention in terms of scanpath plausibility, for both captioning and free-viewing tasks. Furthermore, we show that conditioning NevaClip with incorrect or misleading captions leads to random behavior, highlighting the significant impact of caption guidance in the decision-making process. These findings contribute to a better understanding of mechanisms that guide human attention and pave the way for more sophisticated computational approaches to scanpath prediction that can integrate direct top-down guidance of downstream tasks.
翻訳日:2023-05-24 11:00:57 公開日:2023-05-23
# PhotoMat:1枚のフラッシュ写真から学ぶ素材発電機

PhotoMat: A Material Generator Learned from Single Flash Photos ( http://arxiv.org/abs/2305.12296v2 )

ライセンス: Link先を確認
Xilong Zhou, Milo\v{s} Ha\v{s}an, Valentin Deschaintre, Paul Guerrero, Yannick Hold-Geoffroy, Kalyan Sunkavalli, Nima Khademi Kalantari(参考訳) 高品質なデジタル素材の制作は、3dレンダリングにおける現実主義の鍵である。 既存の材料生成モデルは、合成データにのみ訓練されており、それらのデータは可用性に制限されており、実際の材料に視覚的ギャップがある。 photomatは、携帯電話のカメラでフラッシュで撮影されたサンプルの実際の写真のみを訓練した最初の素材生成装置です。 個々の物質マップの監督はこの設定では利用できない。 代わりに、学習したリライトモジュールでレンダリングされたニューラルマテリアル表現のためのジェネレータをトレーニングして、任意に照らされたRGB画像を生成する。 次に、材料マップ推定器をトレーニングし、神経材料表現から材料反射特性を復号する。 フラッシュ照明下で携帯型カメラで撮影した1万2000枚の素材写真からphotomatをトレーニングした。 得られた材料は, 従来の合成データを用いた材料生成装置よりも優れた視覚品質を示す。 さらに,これらの生成した神経材料と密接に適合する解析材料モデルに適合させることにより,3次元レンダリングにおけるさらなる編集・使用を可能にした。

Authoring high-quality digital materials is key to realism in 3D rendering. Previous generative models for materials have been trained exclusively on synthetic data; such data is limited in availability and has a visual gap to real materials. We circumvent this limitation by proposing PhotoMat: the first material generator trained exclusively on real photos of material samples captured using a cell phone camera with flash. Supervision on individual material maps is not available in this setting. Instead, we train a generator for a neural material representation that is rendered with a learned relighting module to create arbitrarily lit RGB images; these are compared against real photos using a discriminator. We then train a material maps estimator to decode material reflectance properties from the neural material representation. We train PhotoMat with a new dataset of 12,000 material photos captured with handheld phone cameras under flash lighting. We demonstrate that our generated materials have better visual quality than previous material generators trained on synthetic data. Moreover, we can fit analytical material models to closely match these generated neural materials, thus allowing for further editing and use in 3D rendering.
翻訳日:2023-05-24 11:00:27 公開日:2023-05-23
# 大規模言語モデルのための優れたビジュアルトケナイザには何をもたらすか?

What Makes for Good Visual Tokenizers for Large Language Models? ( http://arxiv.org/abs/2305.12223v2 )

ライセンス: Link先を確認
Guangzhi Wang, Yixiao Ge, Xiaohan Ding, Mohan Kankanhalli, Ying Shan(参考訳) 優れた視覚的トークン化を実現するための適切な事前学習手法を実証的に検討し、LLM(Large Language Models)とMLLM(Multimodal Large Language Models)を開発した。 MLLMの視覚的意味理解と微粒化知覚能力を評価するために評価されたベンチマークでは、支配的手法(DeiT、CLIP、MAE、DINO)で事前訓練された異なる視覚的トークン化剤について検討し、それを観察した。 i) 完全/弱教師付きモデルでは,自己教師付きモデルよりもセマンティクスを多く取得するが,事前トレーニングデータセットのスケールアップによってギャップが狭まる。 二 自己監督モデルは、パッチレベルの監督が特に効果的である細かい知覚に優れる。 三 視覚的トークン化器のチューニングは、比較的小規模の命令チューニングデータセットでは好ましくない、大規模な事前学習から得られる意味論の喪失につながる。 本研究は, セマンティックスときめ細かな視覚的理解, 例えば, セマンティックに富んだターゲットを用いたパッチレベルの特徴蒸留を行おうとする手法について検討した。 優れた視覚的トークン化剤を得るためには,すべての怒りが適用できないような,興味深い洞察マスクベースの戦略が得られた。 この批判的な観察に基づいて,複数スケールで強力な視覚理解能力を示すGVT(Good Visual Tokenizer)を備えたMLLMを提案する。 特に、余分なパラメータとタスク固有の微調整を導入することなく、gvtは、視覚的質問応答、画像キャプション、およびオブジェクトのカウントやマルチクラス識別などの詳細なビジュアル理解タスクにおいて優れたパフォーマンスを達成する。

We empirically investigate proper pre-training methods to build good visual tokenizers, making Large Language Models (LLMs) powerful Multimodal Large Language Models (MLLMs). In our benchmark, which is curated to evaluate MLLMs visual semantic understanding and fine-grained perception capabilities, we discussed different visual tokenizers pre-trained with dominant methods (i.e., DeiT, CLIP, MAE, DINO), and observe that: i) Fully/weakly supervised models capture more semantics than self-supervised models, but the gap is narrowed by scaling up the pre-training dataset. ii) Self-supervised models are better at fine-grained perception, where patch-level supervision is particularly effective. iii) Tuning the visual tokenizer leads to the loss of semantics obtained from large-scale pretraining, which is unfavorable with relatively small-scale instruction-tuning dataset. Given the findings, we reviewed methods that attempted to unify semantics and fine-grained visual understanding, e.g., patch-level feature distillation with semantically-rich targets. We obtain an intriguing insight mask-based strategies that were once all the rage may not be applicable for obtaining good visual tokenizers. Based on this critical observation, we obtain a new MLLM equipped with a tailored Good Visual Tokenizer (GVT), which exhibits strong visual comprehension capability at multiple scales. In particular, without introducing extra parameters and task-specific fine-tuning, GVT achieves superior performance on visual question answering, image captioning, and other fine-grained visual understanding tasks such as object counting and multi-class identification.
翻訳日:2023-05-24 11:00:11 公開日:2023-05-23
# 出版指向文書の双方向翻訳におけるヘッジ

Hedges in Bidirectional Translations of Publicity-Oriented Documents ( http://arxiv.org/abs/2305.12146v2 )

ライセンス: Link先を確認
Zhaokun Jiang and Ziyin Zhang(参考訳) ヘッジはレジスターや規律で広く研究されているが、政治文書におけるヘッジの翻訳に関する研究は非常に限られている。 本研究は, 対象テキスト中のヘッジ装置の周波数にダイアクロニックな変化があるか, 翻訳したヘッジの経年変化頻度が原文に起因するか, それらを扱うためにどのような翻訳戦略を採用するかを検討することを目的としている。 この研究のために、中国と国連からの2種類の公式な政治文書とその翻訳が収集され、3つのサブコーポラを形成した。 結果、ヘッジはオリジナルの英語や翻訳された英語のように、英語の政治文献に頻繁に現れる傾向がある。 加えて、方向性はヘッジの使用に関する頻度と翻訳戦略の両方に影響を与える重要な役割を担っているようである。 また,本コーパスではヘジングデバイスの増加が顕著に観察された。

Hedges are widely studied across registers and disciplines, yet research on the translation of hedges in political texts is extremely limited. This contrastive study is dedicated to investigating whether there is a diachronic change in the frequencies of hedging devices in the target texts, to what extent the changing frequencies of translated hedges through years are attributed to the source texts, and what translation strategies are adopted to deal with them. For the purposes of this research, two types of official political texts and their translations from China and the United Nations were collected to form three sub-corpora. Results show that hedges tend to appear more frequently in English political texts, be it original English or translated English. In addition, directionality seems to play an important role in influencing both the frequencies and translation strategies regarding the use of hedges. A noticeable diachronic increase of hedging devices is also observed in our corpus.
翻訳日:2023-05-24 10:59:39 公開日:2023-05-23
# GCNにおける$\ell_p$-regularized Stochastic Learningの安定性と一般化

Stability and Generalization of $\ell_p$-Regularized Stochastic Learning for GCN ( http://arxiv.org/abs/2305.12085v2 )

ライセンス: Link先を確認
Shiyu Liu, Linsen Wei, Shaogao Lv and Ming Li(参考訳) グラフ畳み込みネットワーク(GCN)はグラフデータ上のグラフニューラルネットワークの変種の中で最も一般的な表現の1つと見なされ、経験的実験において強力な性能を示している。 この$\ell_2$-based graph smoothingはGCNのグローバルなスムーズさを強制するが、 (soft) $\ell_1$-based スパースグラフ学習は不連続性のために信号の空間性を促進する傾向がある。 本稿では,GCNの滑らかさと疎さのトレードオフを,一般の$\ell_p$-regularized $(1<p\leq 2)$確率学習の助けを借りて定量化する。 安定性に基づく一般化解析は2次微分客観性関数の先行研究で行われているが、我々の$\ell_p$-regularized learning schemeはそのような滑らかな条件を満たさない。 この問題に対処するために,不正確な演算子を持つGCNに対する新しいSGD近位アルゴリズムを提案する。 単層GCNの場合、SGD近位アルゴリズムの安定性を解析することにより、$\ell_p$-regularized stochastic learningを用いてGCNの明確な理論的理解を確立する。 理論的結果を検証するために,複数の実験を行った。

Graph convolutional networks (GCN) are viewed as one of the most popular representations among the variants of graph neural networks over graph data and have shown powerful performance in empirical experiments. That $\ell_2$-based graph smoothing enforces the global smoothness of GCN, while (soft) $\ell_1$-based sparse graph learning tends to promote signal sparsity to trade for discontinuity. This paper aims to quantify the trade-off of GCN between smoothness and sparsity, with the help of a general $\ell_p$-regularized $(1<p\leq 2)$ stochastic learning proposed within. While stability-based generalization analyses have been given in prior work for a second derivative objectiveness function, our $\ell_p$-regularized learning scheme does not satisfy such a smooth condition. To tackle this issue, we propose a novel SGD proximal algorithm for GCNs with an inexact operator. For a single-layer GCN, we establish an explicit theoretical understanding of GCN with the $\ell_p$-regularized stochastic learning by analyzing the stability of our SGD proximal algorithm. We conduct multiple empirical experiments to validate our theoretical findings.
翻訳日:2023-05-24 10:59:24 公開日:2023-05-23
# ISPとディープラーニング: 画像信号処理のためのディープラーニング手法に関する調査

ISP meets Deep Learning: A Survey on Deep Learning Methods for Image Signal Processing ( http://arxiv.org/abs/2305.11994v2 )

ライセンス: Link先を確認
Matheus Henrique Marques da Silva, Jhessica Victoria Santos da Silva, Rodrigo Reis Arrais, Wladimir Barroso Guedes de Ara\'ujo Neto, Leonardo Tadeu Lopes, Guilherme Augusto Bileki, Iago Oliveira Lima, Lucas Borges Rondon, Bruno Melo de Souza, Mayara Costa Regazio, Rodolfo Coelho Dalapicola, Claudio Filipi Gon\c{c}alves dos Santos(参考訳) カメラの全画像信号処理装置(isp)は、デモサイシング、デノイジング、エンハンスメントなど、カラーフィルタアレイ(cfa)センサーからデータを変換するためのいくつかのプロセスに依存している。 これらのプロセスはハードウェアでもソフトウェアでも実行できる。 近年では、Deep Learningが一部のソリューションとして登場したり、あるいはひとつのニューラルネットワークを使ってISP全体を置き換えたりもしています。 本研究では,この領域における最近の研究をいくつか調査し,今後の研究成果や改善点などについて,より深い分析と比較を行った。

The entire Image Signal Processor (ISP) of a camera relies on several processes to transform the data from the Color Filter Array (CFA) sensor, such as demosaicing, denoising, and enhancement. These processes can be executed either by some hardware or via software. In recent years, Deep Learning has emerged as one solution for some of them or even to replace the entire ISP using a single neural network for the task. In this work, we investigated several recent pieces of research in this area and provide deeper analysis and comparison among them, including results and possible points of improvement for future researchers.
翻訳日:2023-05-24 10:58:59 公開日:2023-05-23
# 強化学習による拡散モデルの訓練

Training Diffusion Models with Reinforcement Learning ( http://arxiv.org/abs/2305.13301v2 )

ライセンス: Link先を確認
Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, and Sergey Levine(参考訳) 拡散モデルは、log-likelihoodの目的に近似して訓練されたフレキシブルな生成モデルのクラスである。 しかし、拡散モデルのほとんどのユースケースは、可能性ではなく、人間の知覚画像の品質や薬物の有効性といった下流の目的に関係している。 本稿では,拡散モデルを直接最適化するための強化学習手法について検討する。 本稿では,マルチステップ意思決定問題としてのデノイジングの手法によって,デノイジン拡散政策最適化 (ddpo) と呼ばれる政策勾配アルゴリズムのクラスが実現可能であり,代替報酬重み付け手法よりも効果的であることを示す。 DDPOは、画像圧縮性などのプロンプトによる表現が難しい対象や、美的品質などの人間のフィードバックから派生した対象に、テキストから画像への拡散モデルを適用することができる。 最後に、ddpoは視覚言語モデルからのフィードバックにより、追加のデータ収集や人間のアノテーションを必要とせずに、プロンプト画像アライメントを改善することができることを示す。

Diffusion models are a class of flexible generative models trained with an approximation to the log-likelihood objective. However, most use cases of diffusion models are not concerned with likelihoods, but instead with downstream objectives such as human-perceived image quality or drug effectiveness. In this paper, we investigate reinforcement learning methods for directly optimizing diffusion models for such objectives. We describe how posing denoising as a multi-step decision-making problem enables a class of policy gradient algorithms, which we refer to as denoising diffusion policy optimization (DDPO), that are more effective than alternative reward-weighted likelihood approaches. Empirically, DDPO is able to adapt text-to-image diffusion models to objectives that are difficult to express via prompting, such as image compressibility, and those derived from human feedback, such as aesthetic quality. Finally, we show that DDPO can improve prompt-image alignment using feedback from a vision-language model without the need for additional data collection or human annotation.
翻訳日:2023-05-24 10:53:18 公開日:2023-05-23
# videollm: 大きな言語モデルによるビデオシーケンスのモデリング

VideoLLM: Modeling Video Sequence with Large Language Models ( http://arxiv.org/abs/2305.13292v2 )

ライセンス: Link先を確認
Guo Chen, Yin-Dong Zheng, Jiahao Wang, Jilan Xu, Yifei Huang, Junting Pan, Yi Wang, Yali Wang, Yu Qiao, Tong Lu, Limin Wang(参考訳) ビデオデータの指数的増加に伴い、ビデオコンテンツを分析・理解する自動化技術が緊急に必要となる。 しかし、既存のビデオ理解モデルは、しばしばタスク固有のものであり、多様なタスクを扱う包括的な能力に欠ける。 GPTのような大規模言語モデル(LLM)の成功は、シーケンス因果推論におけるその印象的な能力を示している。 この知見に基づいて,ビデオシーケンス理解のための自然言語処理(NLP)から学習済みLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。 VideoLLMは慎重に設計されたModality EncoderとSemantic Translatorを組み込んでおり、様々なモードからの入力を統一トークンシーケンスに変換する。 このトークンシーケンスはデコーダのみのLLMに入力される。 その後、簡単なタスクヘッドの助けを借りて、ビデオLLMは様々な種類のビデオ理解タスクに対して効果的な統合フレームワークを提供する。 ビデオLLMの有効性を評価するため,複数のLCMと微調整法を用いて広範囲な実験を行った。 我々は,4つの異なるデータセットから得られた8つのタスクに対して,ビデオLLMを評価する。 実験結果から,LLMの理解と推論能力は,映像理解タスクに効果的に移行できることが示唆された。 コードはhttps://github.com/cg1177/videollmでリリースします。

With the exponential growth of video data, there is an urgent need for automated technology to analyze and comprehend video content. However, existing video understanding models are often task-specific and lack a comprehensive capability of handling diverse tasks. The success of large language models (LLMs) like GPT has demonstrated their impressive abilities in sequence causal reasoning. Building upon this insight, we propose a novel framework called VideoLLM that leverages the sequence reasoning capabilities of pre-trained LLMs from natural language processing (NLP) for video sequence understanding. VideoLLM incorporates a carefully designed Modality Encoder and Semantic Translator, which convert inputs from various modalities into a unified token sequence. This token sequence is then fed into a decoder-only LLM. Subsequently, with the aid of a simple task head, our VideoLLM yields an effective unified framework for different kinds of video understanding tasks. To evaluate the efficacy of VideoLLM, we conduct extensive experiments using multiple LLMs and fine-tuning methods. We evaluate our VideoLLM on eight tasks sourced from four different datasets. The experimental results demonstrate that the understanding and reasoning capabilities of LLMs can be effectively transferred to video understanding tasks. We release the code at https://github.com/cg1177/VideoLLM.
翻訳日:2023-05-24 10:53:03 公開日:2023-05-23
# 多言語および絵文字に基づくHate音声検出におけるChatGPTの性能評価

Evaluating ChatGPT's Performance for Multilingual and Emoji-based Hate Speech Detection ( http://arxiv.org/abs/2305.13276v2 )

ライセンス: Link先を確認
Mithun Das, Saurabh Kumar Pandey, Animesh Mukherjee(参考訳) ヘイトスピーチは多くのオンラインプラットフォームに影響を与える深刻な問題である。 これまで、ロバストなヘイトスピーチ検出システムを開発するために、いくつかの研究が行われている。 ChatGPTのような大規模言語モデルは、ヘイトスピーチ検出など、いくつかのタスクを実行する上で大きな可能性を最近示した。 しかし,頑健なヘイトスピーチ検出システムを構築するためには,これらのモデルの限界を理解することが重要である。 このギャップを埋めるため,本研究は11言語間におけるヘイトスピーチの検出におけるchatgptモデルの強みと弱みを評価することを目的としている。 我々の評価では、マクロF1や精度のような集約的なメトリクスが展開できない、モデルの様々な複雑な失敗を明らかにする一連の機能テストを採用している。 さらに、ヘイトスピーチにおける絵文字の使用などの複雑な感情がChatGPTモデルの性能に及ぼす影響について検討する。 本分析は,ある種のヘイトスピーチの検出における生成モデルの欠点を浮き彫りにして,これらのモデルの研究と改善の必要性を強調した。

Hate speech is a severe issue that affects many online platforms. So far, several studies have been performed to develop robust hate speech detection systems. Large language models like ChatGPT have recently shown a great promise in performing several tasks, including hate speech detection. However, it is crucial to comprehend the limitations of these models to build robust hate speech detection systems. To bridge this gap, our study aims to evaluate the strengths and weaknesses of the ChatGPT model in detecting hate speech at a granular level across 11 languages. Our evaluation employs a series of functionality tests that reveals various intricate failures of the model which the aggregate metrics like macro F1 or accuracy are not able to unfold. In addition, we investigate the influence of complex emotions, such as the use of emojis in hate speech, on the performance of the ChatGPT model. Our analysis highlights the shortcomings of the generative models in detecting certain types of hate speech and highlighting the need for further research and improvements in the workings of these models.
翻訳日:2023-05-24 10:52:44 公開日:2023-05-23
# SPARSEFIT:Sparse Fine-tuningを用いたFew-shot Promptingによる予測と自然言語説明の同時生成

SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations ( http://arxiv.org/abs/2305.13235v2 )

ライセンス: Link先を確認
Jesus Solano, Oana-Maria Camburu, Pasquale Minervini(参考訳) 神経モデルの決定を説明することは、デプロイ時に信頼性を確保するために不可欠である。 モデルの予測を正当化するために自然言語説明(NLE)を使用すると、最近関心が高まっている。 しかし、このアプローチは通常、人間によって書かれたNLEの大規模なデータセットを地道な答えとして要求する。 数個のNLEしか利用できない場合、モデルが高品質なNLEを生成するために、プロンプトベースの学習とともにPLM(Pre-trained Language Models)の微調整が最近現れた。 しかし、PLMは通常数十億のパラメータを持ち、微調整は高価である。 離散的なプロンプトを利用して予測とNLEを共同生成するスパース数発の微調整戦略であるSparseFitを提案する。 t5モデルと4つのデータセットでsparsefitを実験し、それを最先端のパラメータ効率の良い微調整技術と比較する。 我々は,モデル生成NLEの品質を評価するための自動評価と人為評価を行い,モデルパラメータの6.8%のみを微調整することで,タスク性能とNLEの品質の両面での競争結果が得られることを示した。

Explaining the decisions of neural models is crucial for ensuring their trustworthiness at deployment time. Using Natural Language Explanations (NLEs) to justify a model's predictions has recently gained increasing interest. However, this approach usually demands large datasets of human-written NLEs for the ground-truth answers, which are expensive and potentially infeasible for some applications. For models to generate high-quality NLEs when only a few NLEs are available, the fine-tuning of Pre-trained Language Models (PLMs) in conjunction with prompt-based learning recently emerged. However, PLMs typically have billions of parameters, making fine-tuning expensive. We propose SparseFit, a sparse few-shot fine-tuning strategy that leverages discrete prompts to jointly generate predictions and NLEs. We experiment with SparseFit on the T5 model and four datasets and compare it against state-of-the-art parameter-efficient fine-tuning techniques. We perform automatic and human evaluations to assess the quality of the model-generated NLEs, finding that fine-tuning only 6.8% of the model parameters leads to competitive results for both the task performance and the quality of the NLEs.
翻訳日:2023-05-24 10:52:29 公開日:2023-05-23
# GPT-SW3:北欧語の自動回帰言語モデル

GPT-SW3: An Autoregressive Language Model for the Nordic Languages ( http://arxiv.org/abs/2305.12987v2 )

ライセンス: Link先を確認
Ariel Ekgren, Amaru Cuba Gyllensten, Felix Stollenwerk, Joey \"Ohman, Tim Isbister, Evangelia Gogoulou, Fredrik Carlsson, Alice Heiman, Judit Casademont, Magnus Sahlgren(参考訳) 本稿は,北欧語における最初の大規模生成言語モデルであるGPT-SW3の開発過程を詳述する。 データ収集や処理,構成のトレーニング,命令の微調整,リリース戦略の評価や検討など,開発プロセスのすべての部分をカバーしています。 本論文は,より小規模な言語のための大規模生成モデルの開発に携わる研究者のガイドおよび参考となることを期待する。

This paper details the process of developing the first native large generative language model for the Nordic languages, GPT-SW3. We cover all parts of the development process, from data collection and processing, training configuration and instruction finetuning, to evaluation and considerations for release strategies. We hope that this paper can serve as a guide and reference for other researchers that undertake the development of large generative models for smaller languages.
翻訳日:2023-05-24 10:52:06 公開日:2023-05-23
# VanillaNet: ディープラーニングにおけるミニマリズムの力

VanillaNet: the Power of Minimalism in Deep Learning ( http://arxiv.org/abs/2305.12972v2 )

ライセンス: Link先を確認
Hanting Chen, Yunhe Wang, Jianyuan Guo, Dacheng Tao(参考訳) 基礎モデルの核心は「より異なる」という哲学であり、コンピュータビジョンと自然言語処理の驚くべき成功によって実証されている。 しかし、トランスフォーマーモデルの最適化と固有の複雑さの課題は、単純さへのパラダイムシフトである。 本研究では,設計のエレガンスを取り入れたニューラルネットワークアーキテクチャであるVanillaNetを紹介する。 深い奥行き、近道、セルフアテンションのような複雑な操作を避けることで、vanillanetは鮮やかに簡潔で、非常に強力です。 各層はコンパクトで素直に設計されており、元のアーキテクチャを復元するためにトレーニング後に非線形アクティベーション機能が切断されている。 VanillaNetは、固有の複雑さの課題を克服し、リソース制約のある環境に最適である。 理解しやすく、高度に単純化されたアーキテクチャは、効率的なデプロイメントの新たな可能性を開く。 広範な実験によって、vanillanetは有名なディープニューラルネットワークや視覚トランスフォーマーと同等のパフォーマンスを提供し、ディープラーニングにおけるミニマリズムのパワーを示している。 このバニラネットのヴィジュアルな旅は、景観を再定義し、基礎モデルの現状に挑戦し、エレガントで効果的なモデル設計のための新しい道を設定する大きな可能性を秘めている。 事前トレーニングされたモデルとコードは、https://github.com/huawei-noah/VanillaNetとhttps://gitee.com/mindspore/models/tree/master/research/cv/vanillanetで利用できる。

At the heart of foundation models is the philosophy of "more is different", exemplified by the astonishing success in computer vision and natural language processing. However, the challenges of optimization and inherent complexity of transformer models call for a paradigm shift towards simplicity. In this study, we introduce VanillaNet, a neural network architecture that embraces elegance in design. By avoiding high depth, shortcuts, and intricate operations like self-attention, VanillaNet is refreshingly concise yet remarkably powerful. Each layer is carefully crafted to be compact and straightforward, with nonlinear activation functions pruned after training to restore the original architecture. VanillaNet overcomes the challenges of inherent complexity, making it ideal for resource-constrained environments. Its easy-to-understand and highly simplified architecture opens new possibilities for efficient deployment. Extensive experimentation demonstrates that VanillaNet delivers performance on par with renowned deep neural networks and vision transformers, showcasing the power of minimalism in deep learning. This visionary journey of VanillaNet has significant potential to redefine the landscape and challenge the status quo of foundation model, setting a new path for elegant and effective model design. Pre-trained models and codes are available at https://github.com/huawei-noah/VanillaNet and https://gitee.com/mindspore/models/tree/master/research/cv/vanillanet.
翻訳日:2023-05-24 10:51:58 公開日:2023-05-23
# 臨界状態近傍の非保存的双曲保存則に対する保守的物理情報ニューラルネットワーク

Conservative Physics-Informed Neural Networks for Non-Conservative Hyperbolic Conservation Laws Near Critical States ( http://arxiv.org/abs/2305.12817v2 )

ライセンス: Link先を確認
Reyna Quita, Yu-Shuo Chen, Hsin-Yi Lee Alex C. Hu, John M. Hong(参考訳) 本稿では,非保存形式での双曲スカラー保存法則に対するリーマン問題の弱解を構築するために,保守的物理情報ニューラルネットワーク(cPINN)の修正版について述べる。 この結果を示すために,多孔質媒質中の不連続多孔質を有する一般化Buckley-Leverett方程式(略してGBL方程式)のモデルを用いる。 新しい未知の方程式を発明することにより、GBL方程式は保守的な形で2対2の共鳴双曲保存則に変換される。 修正されたcPINN法は、ポーシティの不連続性とリーマンデータにおける臨界状態(真空付近)の出現による困難を克服するために発明された。 我々は,保存的および非保存的形式と臨界状態と非臨界状態の両方において,gbl方程式を深層学習アルゴリズムを用いて解く実験を行った。 この方法は、2つの異なるニューラルネットワークと対応する損失関数の組み合わせを提供し、一方は2対2の共振双曲系であり、もう一方は非凸フラックスに不連続な摂動項を持つスカラー保存則のためのものである。 未知への再スケーリングのテクニックは、臨界リーマンデータの場合のリーマン解の振動を避けるために採用されている。 修正されたcpinnによって構築された解は、双曲保存則の理論解析によって構築された厳密な解と一致する。 さらに、これらの解は保守的かつ非保守的な場合でも同一である。 最後に,修正cPINNの性能をWENO5と呼ばれる数値法と比較する。 weno5 は gbl 方程式の非保存形式のリーマン問題に対する近似解の高振動に苦しむが、cpinn はうまく働く。

In this paper, a modified version of conservative Physics-informed Neural Networks (cPINN for short) is provided to construct the weak solutions of Riemann problem for the hyperbolic scalar conservation laws in non-conservative form. To demonstrate the results, we use the model of generalized Buckley-Leverett equation (GBL equation for short) with discontinuous porosity in porous media. By inventing a new unknown, the GBL equation is transformed into a two-by-two resonant hyperbolic conservation laws in conservative form. The modified method of cPINN is invented to overcome the difficulties due to the discontinuity of the porosity and the appearance of the critical states (near vacuum) in the Riemann data. We experiment with our idea by using a deep learning algorithm to solve the GBL equation in both conservative and non-conservative forms, as well as the cases of critical and non-critical states. This method provides a combination of two different neural networks and corresponding loss functions, one is for the two-by-two resonant hyperbolic system, and the other is for the scalar conservation law with a discontinuous perturbation term in the non-convex flux. The technique of re-scaling to the unknowns is adopted to avoid the oscillation of the Riemann solutions in the cases of critical Riemann data. The solutions constructed by the modified cPINN match the exact solutions constructed by the theoretical analysis for hyperbolic conservation laws. In addition, the solutions are identical in both conservative and non-conservative cases. Finally, we compare the performance of the modified cPINN with numerical method called WENO5. Whereas WENO5 struggles with the highly oscillation of approximate solutions for the Riemann problems of GBL equation in non-conservative form, cPINN works admirably.
翻訳日:2023-05-24 10:51:36 公開日:2023-05-23
# 不正確ラベル学習:不正確ラベル構成を用いた統一学習フレームワーク

Imprecise Label Learning: A Unified Framework for Learning with Various Imprecise Label Configurations ( http://arxiv.org/abs/2305.12715v2 )

ライセンス: Link先を確認
Hao Chen, Ankit Shah, Jindong Wang, Ran Tao, Yidong Wang, Xing Xie, Masashi Sugiyama, Rita Singh, Bhiksha Raj(参考訳) 本稿では,機械学習タスクにおける一般的な課題である,不正確なラベル構成を扱うための統一的なアプローチである,不正確なラベル学習(ILL)フレームワークを紹介する。 ILLは、不正確なラベル情報の最大推定(MLE)のために予測最大化(EM)アルゴリズムを活用し、正確なラベルを潜時変数として扱う。 提案手法は,不正確なラベル情報から正しいラベルを推測しようとする従来の汎用手法と比較して,不正確なラベル情報によって課されるすべてのラベリングを考慮し,統一されたソリューションが不正確なラベルに対処できるようにする。 総合的な実験結果から, ILLは部分的なラベル学習, 半教師付き学習, ノイズのあるラベル学習, およびこれらの設定の混合など, 様々な状況にシームレスに適応できることを示した。 特に,我々の単純な手法は,既存の不正確なラベルを扱う手法を上回っており,不正確なラベルにまたがる堅牢で効果的なパフォーマンスを持つ最初の統一フレームワークである。 我々は,精度の高いラベルの取得が高価で複雑なタスクにおいて,機械学習モデルの性能を大幅に向上させる可能性があると考えている。 私たちは、オープンソースコードベースのリリースで、このトピックに関するさらなる研究を刺激することを期待しています。

In this paper, we introduce the imprecise label learning (ILL) framework, a unified approach to handle various imprecise label configurations, which are commonplace challenges in machine learning tasks. ILL leverages an expectation-maximization (EM) algorithm for the maximum likelihood estimation (MLE) of the imprecise label information, treating the precise labels as latent variables. Compared to previous versatile methods attempting to infer correct labels from the imprecise label information, our ILL framework considers all possible labeling imposed by the imprecise label information, allowing a unified solution to deal with any imprecise labels. With comprehensive experimental results, we demonstrate that ILL can seamlessly adapt to various situations, including partial label learning, semi-supervised learning, noisy label learning, and a mixture of these settings. Notably, our simple method surpasses the existing techniques for handling imprecise labels, marking the first unified framework with robust and effective performance across various imprecise labels. We believe that our approach has the potential to significantly enhance the performance of machine learning models on tasks where obtaining precise labels is expensive and complicated. We hope our work will inspire further research on this topic with an open-source codebase release.
翻訳日:2023-05-24 10:51:07 公開日:2023-05-23
# Hi-ResNet: セマンティックセグメンテーションのための高分解能リモートセンシングネットワーク

Hi-ResNet: A High-Resolution Remote Sensing Network for Semantic Segmentation ( http://arxiv.org/abs/2305.12691v2 )

ライセンス: Link先を確認
Yuxia Chen, Pengcheng Fang, Jianhui Yu, Xiaoling Zhong, Xiaoming Zhang, Tianrui Li(参考訳) 高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。 しかし、HRS画像内の同じカテゴリのオブジェクトは、様々な地理的環境におけるスケールと形状の顕著な違いを示し、データ分布に適合することが困難である。 さらに、複雑な背景環境は異なるカテゴリのオブジェクトに類似した外観をもたらし、かなりの数のオブジェクトが背景として誤分類される。 これらの問題は、既存の学習アルゴリズムを最適化する。 本研究では,ファンネルモジュール,情報集約スタック(ia)ブロックを有するマルチブランチモジュール,機能改良モジュール,シーケンシャルかつクラス非依存なエッジ認識(cea)損失からなる効率的なネットワーク構造設計により,高解像度リモートセンシングネットワーク(hi-resnet)を提案することで,上記の課題を解決する。 具体的には,計算コストを低減し,初期入力画像から高分解能な意味情報を抽出するファンネルモジュールを提案する。 第2に,処理された特徴画像を段階的にマルチレゾリューションに分解し,異なるスケールで画像特徴をキャプチャし,IAブロックを適用し,注意機構を利用して重要な潜時情報をキャプチャし,特徴集約を効果的に行い,同一クラスの画像特徴を異なるスケールと形状で識別する。 最後に,cea損失関数を統合し,クラス間オブジェクトの類似形状を曖昧にし,正確な予測のためにデータ分布距離を増加させる。 実効的な事前学習戦略により、3つのHRSセグメンテーションベンチマークの最先端手法よりもHi-ResNetの方が優れていることを示した。

High-resolution remote sensing (HRS) semantic segmentation extracts key objects from high-resolution coverage areas. However, objects of the same category within HRS images generally show significant differences in scale and shape across diverse geographical environments, making it difficult to fit the data distribution. Additionally, a complex background environment causes similar appearances of objects of different categories, which precipitates a substantial number of objects into misclassification as background. These issues make existing learning algorithms sub-optimal. In this work, we solve the above-mentioned problems by proposing a High-resolution remote sensing network (Hi-ResNet) with efficient network structure designs, which consists of a funnel module, a multi-branch module with stacks of information aggregation (IA) blocks, and a feature refinement module, sequentially, and Class-agnostic Edge Aware (CEA) loss. Specifically, we propose a funnel module to downsample, which reduces the computational cost, and extract high-resolution semantic information from the initial input image. Secondly, we downsample the processed feature images into multi-resolution branches incrementally to capture image features at different scales and apply IA blocks, which capture key latent information by leveraging attention mechanisms, for effective feature aggregation, distinguishing image features of the same class with variant scales and shapes. Finally, our feature refinement module integrate the CEA loss function, which disambiguates inter-class objects with similar shapes and increases the data distribution distance for correct predictions. With effective pre-training strategies, we demonstrated the superiority of Hi-ResNet over state-of-the-art methods on three HRS segmentation benchmarks.
翻訳日:2023-05-24 10:50:44 公開日:2023-05-23
# Beyond Words: 文表現に関する総合的な調査

Beyond Words: A Comprehensive Survey of Sentence Representations ( http://arxiv.org/abs/2305.12641v2 )

ライセンス: Link先を確認
Abhinav Ramesh Kashyap, Thanh-Tung Nguyen, Viktor Schlegel, Stefan Winkler, See-Kiong Ng, Soujanya Poria(参考訳) 文表現は、検索、質問応答、テキスト分類などの自然言語処理アプリケーションにおいて重要な要素となっている。 彼らは文の意味と意味を捉え、機械が人間の言語を理解し、推論することができる。 近年, 教師なし, 教師なし, 伝達学習など, 文表現の学習方法の開発が著しい進歩を遂げている。 本稿では,従来の文表現学習と深層学習の両方の手法を含む,文表現学習の異なる方法の概要について述べる。 文表現学習に関する文献を体系的に整理し,この分野における重要な貢献と課題を強調する。 全体として,文表現学習の進歩,自然言語処理におけるこの領域の重要性,残る課題について考察した。 我々は,NLPアプリケーションにおける文表現の質と効率を改善するための潜在的方法を提案する。

Sentence representations have become a critical component in natural language processing applications, such as retrieval, question answering, and text classification. They capture the semantics and meaning of a sentence, enabling machines to understand and reason over human language. In recent years, significant progress has been made in developing methods for learning sentence representations, including unsupervised, supervised, and transfer learning approaches. In this paper, we provide an overview of the different methods for sentence representation learning, including both traditional and deep learning-based techniques. We provide a systematic organization of the literature on sentence representation learning, highlighting the key contributions and challenges in this area. Overall, our review highlights the progress made in sentence representation learning, the importance of this area in natural language processing, and the challenges that remain. We conclude with directions for future research, suggesting potential avenues for improving the quality and efficiency of sentence representations in NLP applications.
翻訳日:2023-05-24 10:50:13 公開日:2023-05-23