このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230516となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 反復変異のあるバグの再現を通した有能なプログラマ仮説の新しい展望 A new perspective on the competent programmer hypothesis through the reproduction of bugs with repeated mutations ( http://arxiv.org/abs/2104.02517v2 ) ライセンス: Link先を確認 | Zaheed Ahmed, Eike Stein, Steffen Herbold, Fabian Trautsch, Jens Grabowski | (参考訳) 有能なプログラマ仮説では、ほとんどのプログラマは正しいソースコードやほぼ正しいソースコードを作成する能力を持っている。
これは、バグは通常、正しいコードの小さなバリエーションを通して現れるべきであることを意味しているため、有能なプログラマ仮説は突然変異テストの基本的な仮定の1つである。
残念ながら、有能なプログラマ仮説が成立し、過去の研究が矛盾する主張を提示するかどうかはまだ不明である。
この記事では、有能なプログラマ仮説とその突然変異テストとの関連について、新しい視点を示します。
私たちは、突然変異テストとバグの間に直接リンクがあるかどうかを理解するために、突然変異の連鎖を通じて現実世界のバグを再現しようとします。
これらのパスの長さは、ソースコードが本当にほぼ正しいのか、大きなバリエーションが必要なのかを理解するのに役立ちます。
結果は、有能なプログラマ仮説は正しいように見えるが、突然変異テストは、典型的な現実世界のバグを生成する重要なオペレーターを欠いていることを示している。 The competent programmer hypothesis states that most programmers are competent enough to create correct or almost correct source code. Because this implies that bugs should usually manifest through small variations of the correct code, the competent programmer hypothesis is one of the fundamental assumptions of mutation testing. Unfortunately, it is still unclear if the competent programmer hypothesis holds and past research presents contradictory claims. Within this article, we provide a new perspective on the competent programmer hypothesis and its relation to mutation testing. We try to re-create real-world bugs through chains of mutations to understand if there is a direct link between mutation testing and bugs. The lengths of these paths help us to understand if the source code is really almost correct, or if large variations are required. Our results indicate that while the competent programmer hypothesis seems to be true, mutation testing is missing important operators to generate representative real-world bugs. | 翻訳日:2023-10-24 16:00:56 公開日:2023-05-16 |
# sbftツールコンペティション2023 -- ファジングトラック SBFT Tool Competition 2023 -- Fuzzing Track ( http://arxiv.org/abs/2304.10070v2 ) ライセンス: Link先を確認 | Dongge Liu, Jonathan Metzman, Marcel B\"ohme, Oliver Chang, Abhishek Arya | (参考訳) 本報告では,SBFT 2023で開催された第1回ファジングコンペティションの目的,方法論,課題,成果について概説する。
コンペティションでは、fuzzbenchを使用して、23時間にわたって8つの参加者によるコードカバレッジのパフォーマンスとバグ発見の有効性を評価した。
大会は3つの段階に分かれた。
第1フェーズでは、参加者はファザーをFuzzBenchに統合し、公開ベンチマークに対するローカル実験をプライベートに実行できるように求められた。
第2フェーズでは、提出されたすべてのファザーを公開ベンチマークで公開し、参加者がファザーの残りのバグを修正できるようにしました。
第3フェーズでは,提案したファジイザと3つの広く使用されているベースラインファジイザを隠蔽セットで公開し,ベンチマークプログラムを公開して最終結果を確立した。 This report outlines the objectives, methodology, challenges, and results of the first Fuzzing Competition held at SBFT 2023. The competition utilized FuzzBench to assess the code-coverage performance and bug-finding efficacy of eight participating fuzzers over 23 hours. The competition was organized in three phases. In the first phase, participants were asked to integrate their fuzzers into FuzzBench and allowed them to privately run local experiments against the publicly available benchmarks. In the second phase, we publicly ran all submitted fuzzers on the publicly available benchmarks and allowed participants to fix any remaining bugs in their fuzzers. In the third phase, we publicly ran all submitted fuzzers plus three widely-used baseline fuzzers on a hidden set and the publicly available set of benchmark programs to establish the final results. | 翻訳日:2023-10-24 12:35:07 公開日:2023-05-16 |
# UQpy v4.1: Pythonによる不確かさの定量化 UQpy v4.1: Uncertainty Quantification with Python ( http://arxiv.org/abs/2305.09572v1 ) ライセンス: Link先を確認 | Dimitrios Tsapetis, Michael D. Shields, Dimitris G. Giovanis, Audrey Olivier, Lukas Novak, Promit Chakroborty, Himanshu Sharma, Mohit Chauhan, Katiana Kontolati, Lohit Vandanapu, Dimitrios Loukrezis, Michael Gardner | (参考訳) 本稿では、UQpyのバージョン4で導入された最新の改善、Pythonによる不確実性定量化、ライブラリについて述べる。
最新バージョンでは、コードは最新のPythonコーディング規約に適合するように再構成され、以前の密結合機能を単純化し、拡張性とモジュール化を改善した。
UQpyの堅牢性を改善するために、ソフトウェアエンジニアリングのベストプラクティスが採用された。
新しいソフトウェア開発ワークフローは、チームメンバ間のコラボレーションを大幅に改善し、継続的統合と自動テストによって、ソフトウェアパフォーマンスの堅牢性と信頼性が保証された。
UQpyの継続的デプロイは、複数のチャネルを介して、システム非依存の形式での自動パッケージングと配布を可能にし、Dockerイメージは、オペレーティングシステムの制限にかかわらず、ツールボックスの使用を可能にする。 This paper presents the latest improvements introduced in Version 4 of the UQpy, Uncertainty Quantification with Python, library. In the latest version, the code was restructured to conform with the latest Python coding conventions, refactored to simplify previous tightly coupled features, and improve its extensibility and modularity. To improve the robustness of UQpy, software engineering best practices were adopted. A new software development workflow significantly improved collaboration between team members, and continous integration and automated testing ensured the robustness and reliability of software performance. Continuous deployment of UQpy allowed its automated packaging and distribution in system agnostic format via multiple channels, while a Docker image enables the use of the toolbox regardless of operating system limitations. | 翻訳日:2023-10-24 08:35:40 公開日:2023-05-16 |
# OSS新参者の課題解決におけるハッカソンの役割の実証的研究 An Exploratory Study on the Evidence of Hackathons' Role in Solving OSS Newcomers' Challenges ( http://arxiv.org/abs/2305.09546v1 ) ライセンス: Link先を確認 | Ahmed Samir Imam Mahmoud, Alexander Nolte and Dietmar Pfahl | (参考訳) 背景:OSSプロジェクトはさまざまな課題に直面しています。
1つの大きな課題は、プロジェクトへの新規メンバの参加と統合です。
Aim: 私たちはOSSプロジェクトに参加する際、新参者が直面する課題を理解し、議論することを目指しています。
方法:(1)新参者がossプロジェクトに参加する際に直面する課題を探究し,(2)ハッカソンの対処方法のエビデンスを集めるため,デジタル図書館を2回調査した。
私たちは、ハッカソンがいかに課題に対処するかの証拠を分類するために、4つのエビデンスカテゴリ(肯定的、決定的、証拠なし)を定義しました。
さらに,ハッカソンイベントがOSSプロジェクトと関連しているかどうかを検討した。
結果:ハッカソンでうまく対処できた様々な新参者課題を特定した。
しかしながら、OSSの文脈で私たちが特定したすべてのソリューションが適用されたわけではない。
結論: ハッカソンを使ってossプロジェクトでの新参者の課題を克服し、プロジェクトへのより迅速な統合を可能にする可能性はあるようだ。 Background: OSS projects face various challenges. One major challenge is to onboard and integrate newcomers to the project. Aim: We aim to understand and discuss the challenges newcomers face when joining an OSS project and present evidence on how hackathons can mitigate those challenges. Method: We conducted two searches on digital libraries to (1) explore challenges faced by newcomers to join OSS projects, and (2) collect evidence on how hackathons were used to address them. We defined four evidence categories (positive, inconclusive, and no evidence) to classify evidence how hackathons address challenges. In addition, we investigated whether a hackathon event was related to an OSS project or not. Result: We identified a range of newcomer challenges that were successfully addressed using hackathons. However, not all of the solutions we identified were applied in the context of OSS. Conclusion: There seems to be potential in using hackathons to overcome newcomers' challenges in OSS projects and allow them to integrate faster into the project. | 翻訳日:2023-10-24 08:35:27 公開日:2023-05-16 |
# ゼロショット型モバイル自動GUIテストのためのGPT-3のマッチング Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI Testing ( http://arxiv.org/abs/2305.09434v1 ) ライセンス: Link先を確認 | Zhe Liu, Chunyang Chen, Junjie Wang, Mengzhuo Chen, Boyu Wu, Xing Che, Dandan Wang, Qing Wang | (参考訳) モバイルアプリは日々の生活に不可欠であり、GUI(Graphical User Interface)の自動テストはアプリの品質保証に広く利用されている。
ヒューマンライクなアクションやインタラクションを生成することを目的とした,GUI自動テストのための学習ベースのテクニックの使用に対する関心が高まっている。
しかしながら、低いテストカバレッジ、弱い一般化、トレーニングデータへの強い依存といった制限は、モバイルアプリを徹底的にテストするための人間的なアクションを生成するための、より効果的なアプローチを緊急に必要とします。
gpt-3やchatgptといった大規模言語モデル(llm)の成功に触発されて,自然言語理解と質問応答において,モバイルguiテスト問題をq&aタスクとして定式化した。
gptdroidを提案し,guiページ情報をllmに渡してテストスクリプトを省略し,アプリケーションのフィードバックをllmに渡すように実行し,プロセス全体を繰り返すことで,モバイルアプリとのチャットをllmに依頼する。
そこで我々は,GUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出し,この情報をLLMに入力する設計プロンプトを作成し,LLMの出力を動作可能なステップにデコードしてアプリケーションを実行するニューラルマッチングネットワークを開発する。
Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
GPTDroidはまた、Google Playで48のバグを検出し、そのうち25が確認/修正されている。
さらに,semantic text input,complex action,long meaningful test trace,test case prioritizationなど,優れたパフォーマンスを実現する上でのgptdroidの機能についても概説する。 Mobile apps are indispensable for people's daily life, and automated GUI (Graphical User Interface) testing is widely used for app quality assurance. There is a growing interest in using learning-based techniques for automated GUI testing which aims at generating human-like actions and interactions. However, the limitations such as low testing coverage, weak generalization, and heavy reliance on training data, make an urgent need for a more effective approach to generate human-like actions to thoroughly test mobile apps. Inspired by the success of the Large Language Model (LLM), e.g., GPT-3 and ChatGPT, in natural language understanding and question answering, we formulate the mobile GUI testing problem as a Q&A task. We propose GPTDroid, asking LLM to chat with the mobile apps by passing the GUI page information to LLM to elicit testing scripts, and executing them to keep passing the app feedback to LLM, iterating the whole process. Within it, we extract the static context of the GUI page and the dynamic context of the iterative testing process, design prompts for inputting this information to LLM, and develop a neural matching network to decode the LLM's output into actionable steps to execute the app. We evaluate GPTDroid on 86 apps from Google Play, and its activity coverage is 71%, with 32% higher than the best baseline, and can detect 36% more bugs with faster speed than the best baseline. GPTDroid also detects 48 new bugs on the Google Play with 25 of them being confirmed/fixed. We further summarize the capabilities of GPTDroid behind the superior performance, including semantic text input, compound action, long meaningful test trace, and test case prioritization. | 翻訳日:2023-10-24 08:34:40 公開日:2023-05-16 |
# プログラム依存解析と有効フィルタ機構を用いたニューラルプログラム修復 Neural Program Repair with Program Dependence Analysis and Effective Filter Mechanism ( http://arxiv.org/abs/2305.09315v1 ) ライセンス: Link先を確認 | Yuwei Zhang and Ge Li and Zhi Jin and Ying Xing | (参考訳) 自動プログラム修復は、ソフトウェア開発者の効率を改善するための重要なタスクである。
近年、ニューラルネットワーク技術はバグのあるコードスニペットの正しいパッチを生成する上で大きな可能性を証明している。
しかし、既存のほとんどのアプローチは、バギーステートメントとそのコンテキスト間の意味的関係を捉えるために分析することなく、バギーコンテキストを任意に扱う。
さらに、既存のニューラルモデルが、入力バギーコードスニペットに準拠した未修正のパッチを出力する可能性があることを観察する。
上記の制限に対処するため,本稿では,単一行javaバグの修正に一般的な事前学習言語モデルを適用した,新しいニューラルプログラム修復フレームワーク \approach を提案する。
まず,プログラムスライシングを用いて,与えられたバギー文に直接関連した文脈情報を,対応するプログラム依存グラフから補修成分として抽出し,直感的かつ効果的なフィルタ機構を用いて未修正のパッチを除去する。
最先端のベースラインと比較した場合の5つのベンチマークにおける \approach の有効性を示す。 Automated program repair is a crucial task for improving the efficiency of software developers. Recently, neural-based techniques have demonstrated significant promise in generating correct patches for buggy code snippets. However, most existing approaches arbitrarily treat the buggy context without any analysis to capture the semantic relationship between the buggy statement and its context. Additionally, we observe that existing neural models may output an unaltered patch consistent with the input buggy code snippet, which fails to be the correct human-written one for fixing the given bug. To address the aforementioned limitations, we present in this paper a novel neural program repair framework called \approach, which adapts the general pre-trained language model for fixing single-line Java bugs. We make the first attempt to use program slicing to extract contextual information directly related to the given buggy statement as repair ingredients from the corresponding program dependence graph and eliminate unaltered patches using an intuitive but effective filter mechanism. We demonstrate the effectiveness of \approach on five benchmarks when compared with state-of-the-art baselines. | 翻訳日:2023-10-24 08:34:07 公開日:2023-05-16 |
# 実世界のデータを管理するために、unreal engine 5シミュレータと混合現実のコンテキストにおいて、どのアーキテクチャを実装するべきか? Which architecture should be implemented to manage data from the real world, in an Unreal Engine 5 simulator and in the context of mixed reality? ( http://arxiv.org/abs/2305.09244v1 ) ライセンス: Link先を確認 | Jonathan Cassaing | (参考訳) 何百万もの粒子を生成する能力、非常に詳細なシーン、そして現実と混ざった人工照明のおかげで、Unreal Engineのバージョン5は前例のない工業的応用を約束している。
Unreal Engineのパラダイムと目的は、科学コミュニティで一般的に使われている産業シミュレータとは対照的である。
レンダリングエンジンの視覚的品質とパフォーマンスは、特に産業やシミュレーションビジネスにおいて、相互運用性とスケーラビリティが求められる機会を増やします。
実世界のデータをunreal engine 5シミュレータと混合現実環境で統合するために実装すべきアーキテクチャについての研究
「」は視点を提供する。
このトピックは、複合現実感技術の一般化、モノのインターネット、デジタルツイン、ビッグデータなど、革新的で概念的な方法で再検討されている。
本論文は, 理論レベルと運用レベルの両方において, 問題の詳細な解析を行う。
次に、ドキュメントは、バニラ機能を抽出するために、Unreal Engineのオペレーションに深く入り込みます。
次に、C++プラグインシステムの詳細とサードパーティライブラリの統合についてレビューする。
最後に、最終章では、協調作業やハイパーコネクテッドシミュレータといった大規模産業用3Dアプリケーションに有用な汎用アーキテクチャを提案する。
この文書はサーバアーキテクチャについて知りたいUnreal Engineの専門家にとって興味があるかもしれない。
逆に、Unreal Engineの機能について学びたいバックエンドサーバの専門家に関係があるかもしれない。
この研究は、Unreal Engineのモジュラリティがほぼすべてのプロトコルとの統合を可能にすると結論付けている。
外部実データを統合する機能は多数あるが、ユースケースによって異なる。
ビッグデータのための分散システムは、おそらくUnreal Engine専用のサーバを使わずに、スケーラブルなアーキテクチャを必要とする。
秒以下のレイテンシを必要とする環境は、中間サーバをバイパスして直接接続を実装する必要がある。 Due to its ability to generate millions of particles, massively detailed scenes and confusing artificial illumination with reality, the version 5 of Unreal Engine promises unprecedented industrial applications. The paradigms and aims of Unreal Engine contrast with the industrial simulators typically used by the scientific community. The visual quality and performance of its rendering engine increase the opportunities, especially for industries and simulation business: where interoperability and scalability are required. The study of the following issue `` Which architecture should we implement to integrate real-world data, in an Unreal Engine 5 simulator and in a mixed-reality environment? '' offers a point of view. The topic is reexamined in an innovative and conceptual way, such as the generalization of mixedreality technologies, Internet of Things, digital twins, Big Data but providing a solution for simple and actual use cases. This paper gives a detailed analysis of the issue, at both theoretical and operational level. Then, the document goes deep into Unreal Engine's operation in order to extract the vanilla capabilities. Next, the C++ Plugin system is reviewed in details as well as the third-party library integration: pitfalls to be avoided are shown. Finally, the last chapter proposes a generic architecture, useful in large-scale industrial 3D applications, such as collaborative work or hyper-connected simulators. This document might be of interest to an Unreal Engine expert who would like to discover about server architectures. Conversely, it could be relevant for an expert in backend servers who wants to learn about Unreal Engine capabilities. This research concludes that Unreal Engine's modularity enables integration with almost any protocol. The features to integrate external real data are numerous but depend on use cases. Distributed systems for Big Data require a scalable architecture, possibly without the use of the Unreal Engine dedicated server. Environments, which require sub-second latency need to implement direct connections, bypassing any intermediate servers. | 翻訳日:2023-10-24 08:33:34 公開日:2023-05-16 |
# The Good, the Bad, and the Missing: Neural Code Generation for Machine Learning Tasks The Good, the Bad, and the Missing: Neural Code Generation for Machine Learning Tasks ( http://arxiv.org/abs/2305.09082v1 ) ライセンス: Link先を確認 | Jiho Shin, Moshi Wei, Junjie Wang, Lin Shi, Song Wang | (参考訳) 機械学習(ML)は、さまざまな領域でますます使われているが、MLプログラミングタスクの解決には、一般的なプログラミングタスクと根本的に異なる性質と構成、特にMLバックグラウンドを持たない開発者にとって、ユニークな課題が生じる。
自然言語記述からコードスニペットを生成する自動コード生成は、MLプログラミングタスクを高速化するための有望なテクニックである。
近年,多くのディープラーニングベースのニューラルコード生成モデルが高い精度で提案されているが,そのほとんどが一般的なプログラミングタスクで評価されているという事実は,MLプログラミングタスクの有効性と有用性に疑問を呈している。
本稿では,MLプログラミングにおける既存のニューラルコード生成モデルの有効性について検討する。
そこで本研究では,6つの最先端ニューラルコード生成モデルを選択し,その性能を4つのmlライブラリで評価し,新たに83kペアの自然言語記述mlプログラミングタスクを用いて評価した。
私たちの経験的研究は、MLタスクにおけるニューラルネットワーク生成モデルの優れた、悪い、そして欠落した側面を明らかにします。
(おはよう)
ニューラルコード生成モデルは、非MLタスクよりもMLタスクで大幅にパフォーマンスが向上する。
(悪)
生成されたコードのほとんどは意味的に間違っています。
(悪)
コード生成モデルは、開発者の完了時間を大幅に改善することはできない。
(おはよう)
生成されたコードは、開発者が正しいAPIを使用するためのヒントを提供することで、より正確なコードを書くのに役立つ。
(ミス)
ユーザ調査から明らかになったのは,MLタスクのコード生成の欠如,例えば分割/クエリのためのコード生成を2つのタスクに分解する,という2つの側面だ。 Machine learning (ML) has been increasingly used in a variety of domains, while solving ML programming tasks poses unique challenges because of the fundamentally different nature and construction from general programming tasks, especially for developers who do not have ML backgrounds. Automatic code generation that produces a code snippet from a natural language description can be a promising technique to accelerate ML programming tasks. In recent years, although many deep learning-based neural code generation models have been proposed with high accuracy, the fact that most of them are mainly evaluated on general programming tasks calls into question their effectiveness and usefulness in ML programming tasks. In this paper, we set out to investigate the effectiveness of existing neural code generation models on ML programming tasks. For our analysis, we select six state-of-the-art neural code generation models, and evaluate their performance on four widely used ML libraries, with newly-created 83K pairs of natural-language described ML programming tasks. Our empirical study reveals some good, bad, and missing aspects of neural code generation models on ML tasks, with a few major ones listed below. (Good) Neural code generation models perform significantly better on ML tasks than on non-ML tasks. (Bad) Most of the generated code is semantically incorrect. (Bad) Code generation models cannot significantly improve developers' completion time. (Good) The generated code can help developers write more correct code by providing developers with clues for using correct APIs. (Missing) The observation from our user study reveals the missing aspects of code generation for ML tasks, e.g., decomposing code generation for divide-and-conquer into two tasks: API sequence identification and API usage generation. | 翻訳日:2023-10-24 08:33:07 公開日:2023-05-16 |
# ソフトウェア分析モデルの生涯学習に向けて:ブラウンビルドとリスク予測に関する実証的研究 Towards Lifelong Learning for Software Analytics Models: Empirical Study on Brown Build and Risk Prediction ( http://arxiv.org/abs/2305.09824v1 ) ライセンス: Link先を確認 | Doriane Olewicki, Sarra Habchi, Mathieu Nayrolles, Mojtaba Faramarzi, Sarath Chandar, Bram Adams | (参考訳) 今日では、例えばコード変更のリスクを予測する機械学習(ML)モデルを用いたソフトウェア分析ツールが十分に確立されています。
しかしながら、プロジェクトの目標が時間とともに変化し、開発者とその習慣が変わるにつれて、そのモデルのパフォーマンスは、新しいデータを使ってモデルを再トレーニングするまで、時間とともに低下する傾向があります。
現在のリトレーニングプラクティスは、一般的には後から考える(従ってコストがかかる)ことで、ランダムなポイントでセットされた大きな更新データに対して、新しいモデルをスクラッチから再トレーニングする必要があります。
本稿では,MLベースのソフトウェア分析ツールを継続的に構築し,維持するために,生涯学習(LL)を用いて,新たなデータを用いて旧モデルを段階的に更新するインクリメンタル学習装置を提案する。
重要な古いデータポイントのいわゆる「破滅的な忘れ」を避けるため、私たちは古いデータのリプレイバッファを採用しています。
我々は,2つの産業ユースケース,すなわち茶色のビルド検出器とジャストインタイムのリスク予測ツールに対して,LLのアプローチを実証的に評価し,各更新時に3.3~13.7倍の少ないデータを使用しながら,F1スコアの観点から,LLが従来のリトレーニング・トゥ・スクラッチのパフォーマンスと少なくとも一致していることを示す。
更新の計算労力とモデル更新の時間の両方を考慮すると、LLセットアップはスクラッチ設定の再トレーニングよりも2~40倍少ない計算労力を必要とする。 Nowadays, software analytics tools using machine learning (ML) models to, for example, predict the risk of a code change are well established. However, as the goals of a project shift over time, and developers and their habits change, the performance of said models tends to degrade (drift) over time, until a model is retrained using new data. Current retraining practices typically are an afterthought (and hence costly), requiring a new model to be retrained from scratch on a large, updated data set at random points in time; also, there is no continuity between the old and new model. In this paper, we propose to use lifelong learning (LL) to continuously build and maintain ML-based software analytics tools using an incremental learner that progressively updates the old model using new data. To avoid so-called ''catastrophic forgetting'' of important older data points, we adopt a replay buffer of older data, which still allows us to drastically reduce the size of the overall training data set, and hence model training time. We empirically evaluate our LL approach on two industrial use cases, i.e., a brown build detector and a Just-in-Time risk prediction tool, showing how LL in practice manages to at least match traditional retraining-from-scratch performance in terms of F1-score, while using 3.3-13.7x less data at each update, thus considerably speeding up the model updating process. Considering both the computational effort of updates and the time between model updates, the LL setup needs 2-40x less computational effort than retraining-from-scratch setups. | 翻訳日:2023-10-24 08:21:55 公開日:2023-05-16 |
# バグかバグか?
変成関係違反の背景にある要因の解析 Bug or not Bug? Analysing the Reasons Behind Metamorphic Relation Violations ( http://arxiv.org/abs/2305.09640v1 ) ライセンス: Link先を確認 | Alejandra Duque-Torres, Dietmar Pfahl, Claus Klammer and Stefan Fischer | (参考訳) メタモルフィックテスト(MT)は、オラクルの問題を効果的に緩和できるテスト手法である。
MTは、テストケースが通過するかどうかを判断するために、メタモルフィックリレーショナル(MR)を使用する。
MRは、システムアンダーテスト(SUT)の実行時に、特定の入力変更に応じて出力がどのように変化するかを指定する。
特定のMRが少なくとも1つのテスト入力(およびその変更)に対して違反した場合、SUTに障害がある可能性は高い。
一方、特定のMRが侵害されない場合、SUTがフォールトフリーであることを保証しない。
しかしながら、mrがバグによって侵害されているか、特定の入力によって生成された特定の条件に対してmrが保持/適合していないかを決定することは、手作業であり、未調査である。
本稿では, 特定の状況下で, 特定の試験データと一致しないバグやMRから発生する障害をヒントとして, MRを精製する手法を開発した。
最初の概念実証では、アソシエーションルールマイニング(ARM)技術を用いたルールから関連する情報を導出する。
最初の概念実証では,この手法をおもちゃの例で検証し,実験から得た教訓について考察した。
我々の概念実証は、我々の手法が適用可能であること、そして回帰テストのためにテストスイートを強化するのに役立つ提案を提示できることを示します。 Metamorphic Testing (MT) is a testing technique that can effectively alleviate the oracle problem. MT uses Metamorphic Relations (MRs) to determine if a test case passes or fails. MRs specify how the outputs should vary in response to specific input changes when executing the System Under Test (SUT). If a particular MR is violated for at least one test input (and its change), there is a high probability that the SUT has a fault. On the other hand, if a particular MR is not violated, it does not guarantee that the SUT is fault free. However, deciding if the MR is being violated due to a bug or because the MR does not hold/fit for particular conditions generated by specific inputs remains a manual task and unexplored. In this paper, we develop a method for refining MRs to offer hints as to whether a violation results from a bug or arises from the MR not being matched to certain test data under specific circumstances. In our initial proof-of-concept, we derive the relevant information from rules using the Association Rule Mining (ARM) technique. In our initial proof-of-concept, we validate our method on a toy example and discuss the lessons learned from our experiments. Our proof-of-concept demonstrates that our method is applicable and that we can provide suggestions that help strengthen the test suite for regression testing purposes. | 翻訳日:2023-10-24 08:21:01 公開日:2023-05-16 |
# 自律性の保証-JPLの過去研究、学んだ教訓、今後の方向性 Assurance for Autonomy -- JPL's past research, lessons learned, and future directions ( http://arxiv.org/abs/2305.11902v1 ) ライセンス: Link先を確認 | Martin S. Feather and Alessandro Pinto | (参考訳) ロボット宇宙ミッションは、2015年のNASA Technology Roadmapsで定義されている「迅速な応答が必要なイベントに対応するために、事前に計画された命令セット(例えばコマンドシーケンス)を使用した装置、プロセス、システムの自動制御操作」という自動化に依存してきた。
自律性は「外部制御から独立して運用しながら目標を達成するシステムの能力」と定義されており、状況の変化が事前計画されるのを妨げている場合、代わりに、状況を決定し、反応を決定し、その実行を管理するための熟考プロセスに従う必要がある。
自律性は、これらのミッションが帰還できる科学的な価値を高める能力または重要な拡張として、冒険的な宇宙ミッションの概念をサポートするためにますます求められている。
しかし、もし自律性がこれらのミッションの高価な資産を管理することを許されるならば、ミッションの生涯におけるすべての当事者は、提案者から地上統制を通じて、ミッションの目的を達成するために(可能ならば)その資産を安全に維持するために自律性が果たすと高い信頼を持っていなければならない。
ミッション保証の役割は、この自信を提供する上では重要だが、宇宙飛行の数十年間にわたる保証慣行は、自律性に関する経験が比較的少ない。
この状況を改善するため、JPLのソフトウェア保証グループの研究者は、自律性の保証に特化した技術の開発に関与している。
本稿は,20年以上にわたる研究成果を要約し,オープンな課題に対処するために,さらなる作業が必要であるというビジョンを提供する。 Robotic space missions have long depended on automation, defined in the 2015 NASA Technology Roadmaps as "the automatically-controlled operation of an apparatus, process, or system using a pre-planned set of instructions (e.g., a command sequence)," to react to events when a rapid response is required. Autonomy, defined there as "the capacity of a system to achieve goals while operating independently from external control," is required when a wide variation in circumstances precludes responses being pre-planned, instead autonomy follows an on-board deliberative process to determine the situation, decide the response, and manage its execution. Autonomy is increasingly called for to support adventurous space mission concepts, as an enabling capability or as a significant enhancer of the science value that those missions can return. But if autonomy is to be allowed to control these missions' expensive assets, all parties in the lifetime of a mission, from proposers through ground control, must have high confidence that autonomy will perform as intended to keep the asset safe to (if possible) accomplish the mission objectives. The role of mission assurance is a key contributor to providing this confidence, yet assurance practices honed over decades of spaceflight have relatively little experience with autonomy. To remedy this situation, researchers in JPL's software assurance group have been involved in the development of techniques specific to the assurance of autonomy. This paper summarizes over two decades of this research, and offers a vision of where further work is needed to address open issues. | 翻訳日:2023-10-24 08:00:35 公開日:2023-05-16 |
# ニュートロソフィック集合の意思決定への応用 An Application of Neutrosophic Sets to Decision Making ( http://arxiv.org/abs/2306.01746v1 ) ライセンス: Link先を確認 | Michael Gr. Voskoglou | (参考訳) Maji et al. は2002年にソフトセットをツールとして、それらの表形式を二項行列として表すパラメトリック決定法を導入した。
しかし、普遍集合の要素のキャラクタリゼーションに使用されるパラメータの一部または全てのパラメータがファジィテクスチャである場合、それらのメソッドは必ずしも最適な意思決定ソリューションを提供しない。
この問題に対処するため、我々は以前の研究で、対応するソフトセットの表形式の二元要素を灰色の数または三角形のファジィ数で置き換えることで、Maji et al.の手法を変更した。
本研究は、普遍集合の要素の一部またはすべてに割り当てられたファジィ・適格的特徴付けの正確性に疑問を抱く意思決定者がより効率的に取り組むために、表形式の二元要素をニュートロソフィックな三重項で置き換える。
サッカークラブによる新人選手の選択に関する申請書により, ニューロソフィックな意思決定手法について解説した。 Maji et al. introduced in 2002 a method of parametric decision making using soft sets as tools and representing their tabular form as a binary matrix. In cases, however, where some or all of the parameters used for the characterization of the elements of the universal set are of fuzzy texture, their method does not give always the best decision making solution. In order to tackle this problem, we modified in earlier works the method of Maji et al. by replacing the binary elements in the tabular form of the corresponding soft set either by grey numbers or by triangular fuzzy numbers. In this work, in order to tackle more efficiently cases in which the decision maker has doubts about the correctness of the fuzzy/qualitative characterizations assigned to some or all of the elements of the universal set, we replace the binary elements of the tabular form by neutrosophic triplets. Our new, neutrosophic decision making method is illustrated by an application concerning the choice of a new player by a soccer club. | 翻訳日:2023-06-11 14:06:04 公開日:2023-05-16 |
# pTSE:確率的時系列予測のためのマルチモデルアンサンブル手法 pTSE: A Multi-model Ensemble Method for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2305.11304v1 ) ライセンス: Link先を確認 | Yunyi Zhou, Zhixuan Chu, Yijia Ruan, Ge Jin, Yuchen Huang, Sheng Li | (参考訳) 様々な確率的時系列予測モデルが生まれ、非常に優れた性能を示した。
しかし,モデルの選択は入力時系列の特性とモデルがベースとする固定分布に大きく依存する。
確率分布が異なるモデルに対して直接的に平均化できないため、現在の時系列モデルアンサンブル法は予測の堅牢性と精度を向上させるために直接適用できない。
この問題に対処するために,隠れマルコフモデル(HMM)に基づく確率予測のためのマルチモデル分布アンサンブル法であるpTSEを提案する。
pTSEは、各モデルに関する追加情報を必要とせずに、メンバーモデルからのオフザシェルフ出力のみを取る。
さらに,HMM を対象とする時系列の経験的分布が定常分布にほぼ確実に収束することを示すため,pTSE の完全な理論的解析を行う。
ベンチマーク実験は、pTSE全体構成モデルと競合アンサンブル手法の優位性を示している。 Various probabilistic time series forecasting models have sprung up and shown remarkably good performance. However, the choice of model highly relies on the characteristics of the input time series and the fixed distribution that the model is based on. Due to the fact that the probability distributions cannot be averaged over different models straightforwardly, the current time series model ensemble methods cannot be directly applied to improve the robustness and accuracy of forecasting. To address this issue, we propose pTSE, a multi-model distribution ensemble method for probabilistic forecasting based on Hidden Markov Model (HMM). pTSE only takes off-the-shelf outputs from member models without requiring further information about each model. Besides, we provide a complete theoretical analysis of pTSE to prove that the empirical distribution of time series subject to an HMM will converge to the stationary distribution almost surely. Experiments on benchmarks show the superiority of pTSE overall member models and competitive ensemble methods. | 翻訳日:2023-05-28 05:37:37 公開日:2023-05-16 |
# 1+1)-, (2+1)-および (3+1)-次元における非線形クライン・ゴルドン方程式の保存則 Conservation Laws for the Nonlinear Klein-Gordon Equation in (1+1)-, (2+1), and (3+1)-dimensions ( http://arxiv.org/abs/2305.11180v1 ) ライセンス: Link先を確認 | Muhammad Al-Zafar Khan | (参考訳) 我々はリー対称性と進行波アンサッツを用いてクライン・ゴルドン方程式のソリトン解を研究する。
空間的および時間的リー点対称性を線形に組み合わせることで、ソリトン解が自然に存在することを示し、その結果の場は複素平面内にある。
有限空間区間上で場を正規化し、その後、積分定数の1つを他方の項で指定する。
特定の非線形Klein-Gordon方程式に対する解は、正弦コサイン法によって研究され、真のソリトン波が得られる。
最後に、乗算法は (3 + 1)-次元におけるこの非線形クライン・ゴルドン方程式の保存則を構築するために用いられる。 We study soliton solutions to the Klein-Gordon equation via Lie symmetries and the travelling-wave ansatz. It is shown, by taking a linear combination of the spatial and temporal Lie point symmetries, that soliton solutions naturally exist, and the resulting field lies in the complex plane. We normalize the field over a finite spatial interval, and thereafter, specify one of the integration constants in terms of the other. Solutions to a specific type of nonlinear Klein-Gordon equation are studied via the sine-cosine method, and a real soliton wave is obtained. Lastly, the multiplier method is used to construct conservation laws for this particular nonlinear Klein-Gordon equation in (3 + 1)-dimensions. | 翻訳日:2023-05-28 05:36:36 公開日:2023-05-16 |
# 画像誘導ストーリーエンドジェネレーションに対する反復的敵攻撃 Iterative Adversarial Attack on Image-guided Story Ending Generation ( http://arxiv.org/abs/2305.13208v1 ) ライセンス: Link先を確認 | Youze Wang, Wenbo Hu, Richang Hong | (参考訳) マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
この分野では、マルチモーダルテキスト生成は、複数のモーダルからのデータ処理とテキスト出力を含む重要な側面である。
画像誘導型ストーリーエンディング生成(IgSEG)は特に重要な課題であり、完全なストーリーエンディングを伴うテキストと画像データの複雑な関係を理解することを目的としている。
残念ながら、最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
現在の敵攻撃法は主に単一モダリティデータに重点を置いており、クロスモーダル情報を用いたマルチモーダルテキスト生成タスクに対する敵攻撃を解析しない。
そこで本稿では,画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
実験の結果,提案手法は既存の単一モーダルおよび非定型マルチモーダル攻撃法よりも優れており,多モーダル機械翻訳や多モーダル質問応答など,多モーダルテキスト生成モデルの逆ロバスト性向上の可能性を示している。 Multimodal learning involves developing models that can integrate information from various sources like images and texts. In this field, multimodal text generation is a crucial aspect that involves processing data from multiple modalities and outputting text. The image-guided story ending generation (IgSEG) is a particularly significant task, targeting on an understanding of complex relationships between text and image data with a complete story text ending. Unfortunately, deep neural networks, which are the backbone of recent IgSEG models, are vulnerable to adversarial samples. Current adversarial attack methods mainly focus on single-modality data and do not analyze adversarial attacks for multimodal text generation tasks that use cross-modal information. To this end, we propose an iterative adversarial attack method (Iterative-attack) that fuses image and text modality attacks, allowing for an attack search for adversarial text and image in an more effective iterative way. Experimental results demonstrate that the proposed method outperforms existing single-modal and non-iterative multimodal attack methods, indicating the potential for improving the adversarial robustness of multimodal text generation models, such as multimodal machine translation, multimodal question answering, etc. | 翻訳日:2023-05-28 05:21:11 公開日:2023-05-16 |
# 変換器を用いたグラフベースアプローチによるOpenMP並列化の助言 Advising OpenMP Parallelization via a Graph-Based Approach with Transformers ( http://arxiv.org/abs/2305.11999v1 ) ライセンス: Link先を確認 | Tal Kadosh, Nadav Schneider, Niranjan Hasabnis, Timothy Mattson, Yuval Pinter, and Gal Oren | (参考訳) マルチコアアーキテクチャの可能性を最大限に活用するために、共有メモリ並列化スキームが常に必要である。
このニーズに対処する最も一般的な並列化APIはOpenMPである。
それでも、手動で並列コードを書くのは複雑で労力がかかる。
このように、シリアルを並列コードに変換するプロセスを自動化することを目的として、多くの決定論的ソース・トゥ・ソース(S2S)コンパイラが登場した。
しかし、最近の研究では、これらのコンパイラは多くのシナリオにおいて実用的でないことが示されている。
本研究では,AIと自然言語処理(NLP)の分野における最新の進歩と大量のオープンソースコードを組み合わせることで,自動並列化の問題に対処する。
具体的には,並列コードにおけるOpenMPのプラグマと共有メモリ属性の検出と予測を行う,OMPifyと呼ばれる新しい手法を提案する。
OMPifyはTransformerベースのモデルに基づいており、コード固有の構造を利用するソースコードのグラフベースの表現を利用している。
我々はC言語とC++言語(Open-OMP-Plus)で書かれたシリアルコードの大きなコーパス(54,000以上)の並列化と属性を予測し、ツールの評価を行った。
以上の結果から,OMPifyは,汎用および人気の高いChatGPTや,F1スコアと精度の観点からPragFormerモデルよりも優れていることを示す。
特に、OMPifyはNAS、SPEC、PolyBenchといった一般的なOpenMPベンチマークテストで90%の精度を達成する。
また,異なるモデル要素の影響を評価するため,アブレーション研究を行い,研究から得られた興味深い知見を得た。
最後に,データの強化とカリキュラム学習によるモデルの堅牢性と一般化能力の向上の可能性についても検討した。 There is an ever-present need for shared memory parallelization schemes to exploit the full potential of multi-core architectures. The most common parallelization API addressing this need today is OpenMP. Nevertheless, writing parallel code manually is complex and effort-intensive. Thus, many deterministic source-to-source (S2S) compilers have emerged, intending to automate the process of translating serial to parallel code. However, recent studies have shown that these compilers are impractical in many scenarios. In this work, we combine the latest advancements in the field of AI and natural language processing (NLP) with the vast amount of open-source code to address the problem of automatic parallelization. Specifically, we propose a novel approach, called OMPify, to detect and predict the OpenMP pragmas and shared-memory attributes in parallel code, given its serial version. OMPify is based on a Transformer-based model that leverages a graph-based representation of source code that exploits the inherent structure of code. We evaluated our tool by predicting the parallelization pragmas and attributes of a large corpus of (over 54,000) snippets of serial code written in C and C++ languages (Open-OMP-Plus). Our results demonstrate that OMPify outperforms existing approaches, the general-purposed and popular ChatGPT and targeted PragFormer models, in terms of F1 score and accuracy. Specifically, OMPify achieves up to 90% accuracy on commonly-used OpenMP benchmark tests such as NAS, SPEC, and PolyBench. Additionally, we performed an ablation study to assess the impact of different model components and present interesting insights derived from the study. Lastly, we also explored the potential of using data augmentation and curriculum learning techniques to improve the model's robustness and generalization capabilities. | 翻訳日:2023-05-28 05:20:48 公開日:2023-05-16 |
# 海洋記憶効果を用いた中国南部における冬期空中停滞指数の長期予測 Long-lead forecasts of wintertime air stagnation index in southern China using oceanic memory effects ( http://arxiv.org/abs/2305.11901v1 ) ライセンス: Link先を確認 | Chenhong Zhou, Xiaorui Zhang, Meng Gao, Shanshan Liu, Yike Guo, Jie Chen | (参考訳) 安定な気象条件は大気汚染の主要な要因の1つであり、汚染物質の生成と蓄積に好適である。
大気汚染物質の希釈能力を測定するため、大気安定指数(ASI)が重要な気象指標として導入された。
そのため、大気質管理の計画を立てるには、長期のAIS予測が不可欠である。
本研究では,海面温度(SST)から誘導される秋のNi\~0指数が,中国南部の冬期のASIと負の相関を示し,冬期予報の可能性を示した。
我々は,将来の冬期ASIを予測するLSTMモデルを開発した。
その結果,多変量入力(Past ASI, Ni\~no Indices)は単変量入力(過去のAISのみ)よりも予測性能がよいことがわかった。
このモデルは実際のAISと予測されたAISの相関係数0.778を達成し、高い一貫性を示す。 Stagnant weather condition is one of the major contributors to air pollution as it is favorable for the formation and accumulation of pollutants. To measure the atmosphere's ability to dilute air pollutants, Air Stagnation Index (ASI) has been introduced as an important meteorological index. Therefore, making long-lead ASI forecasts is vital to make plans in advance for air quality management. In this study, we found that autumn Ni\~no indices derived from sea surface temperature (SST) anomalies show a negative correlation with wintertime ASI in southern China, offering prospects for a prewinter forecast. We developed an LSTM-based model to predict the future wintertime ASI. Results demonstrated that multivariate inputs (past ASI and Ni\~no indices) achieve better forecast performance than univariate input (only past ASI). The model achieves a correlation coefficient of 0.778 between the actual and predicted ASI, exhibiting a high degree of consistency. | 翻訳日:2023-05-28 05:19:06 公開日:2023-05-16 |
# 量子状態の複雑さが多体傷に達する Quantum state complexity meets many-body scars ( http://arxiv.org/abs/2305.13322v1 ) ライセンス: Link先を確認 | Sourav Nandy, Bhaskar Mukherjee, Arpan Bhattacharyya, Aritra Banerjee | (参考訳) 多体系におけるカー固有状態(Scar eigenstates)は、熱スペクトルに埋め込まれた非熱的有限エネルギー密度固有状態の小さな部分集合を指す。
この新しい非熱的挙動は、ライドバーグ原子の連鎖によって実現された運動的に制約された局所ヒルベルト空間を持つ1次元PXPモデルをシミュレートする最近の実験で見られる。
pxpハミルトニアンの時間発展に関連する拡散複雑性を計算することにより、これらの特別な固有状態の小さな集合を特定の初期状態から開始する。
このモデルのスカー部分空間は緩やかに埋め込まれているため、スカー状態はリー代数の弱分解表現を形成する。
この近似対称性の結果として、この場合のランチョス係数の適切な集合を抽出するために、前方散乱近似(または類似の戦略)を慎重に使用する必要がある理由を実証する。
これにより、閉じたクリロフ部分空間の概念がよく定義され、したがって拡散複雑性の概念が導かれる。
拡散複雑性は ||\mathbb{z}_2\rangle$ と $|\mathbb{z}_3\rangle$ の両方から始まった近似的な再演を示し、これらの再演を裸のハミルトニアンに最適な摂動を加えることでより正確にできることを示す。
また, 真空を初期状態とし, 数体項を付加する反復過程を用いて再生を安定化できる場合についても検討した。 Scar eigenstates in a many-body system refers to a small subset of non-thermal finite energy density eigenstates embedded into an otherwise thermal spectrum. This novel non-thermal behaviour has been seen in recent experiments simulating a one-dimensional PXP model with a kinetically-constrained local Hilbert space realized by a chain of Rydberg atoms. We probe these small sets of special eigenstates starting from particular initial states by computing the spread complexity associated to time evolution of the PXP hamiltonian. Since the scar subspace in this model is embedded only loosely, the scar states form a weakly broken representation of the Lie Algebra. We demonstrate why a careful usage of the Forward Scattering Approximation (or similar strategies thereof) is required to extract an appropriate set of Lanczos coefficients in this case as the consequence of this approximate symmetry. This leads to a well defined notion of a closed Krylov subspace and consequently, that of spread complexity. We show how the spread complexity shows approximate revivals starting from both $|\mathbb{Z}_2\rangle$ and $|\mathbb{Z}_3\rangle$ states and how these revivals can be made more accurate by adding optimal perturbations to the bare Hamiltonian. We also investigate the case of the vacuum as the initial state, where revivals can be stabilized using an iterative process of adding few-body terms. | 翻訳日:2023-05-28 05:12:13 公開日:2023-05-16 |
# 対人ロボット制御のための疑わしいパブロヴィアン信号の連続学習 Continually Learned Pavlovian Signalling Without Forgetting for Human-in-the-Loop Robotic Control ( http://arxiv.org/abs/2305.14365v1 ) ライセンス: Link先を確認 | Adam S. R. Parker, Michael R. Dawson, and Patrick M. Pilarski | (参考訳) 人工肢は、日常生活に携わる人々を助ける高度なデバイスである。
高度なロボット義肢は生物学的手足に類似した動作能力を示すが、ユーザーはそれらを困難で直感的ではないと報告する。
デバイスからユーザへのより効果的なフィードバックを提供することは、関心の高まりのトピックになっている。
特に、強化学習(特にパブロフ信号と呼ばれるアプローチ)の分野からの予測学習法は、連続使用中に適応できるため、補綴物のフィードバックをより良く調整するためのアプローチとして提案されている。
これらの学習手法で特定される課題の1つは、ユーザが提供されたフィードバックでうまく行動し始めると、事前に学習した予測を忘れてしまうことだ。
本研究は,ロボットアームの制御において,マシンからユーザへのパブロフ信号に対する,オン・あるいはオフ・ポリシー・メソッドや表現選択などのアルゴリズム選択の影響に関する新たな証拠を提示する。
ロボットアームを制御する2つのシナリオを用いて、アルゴリズムの違いの2つの条件について研究した。
期待に反して、非政治的な学習は、忘れる問題に対する期待された解決策を提供しなかった。
代わりに、既存のアプローチがパブロフ信号を支援するために(そして忘れない)予測を学べるようにしたルックアヘッド状態表現の有益な性質を特定した。
この研究は、人工装具から学習した予測フィードバックを提供することの課題に対する新たな洞察をもたらし、将来の人間と機械の相互作用においてよりダイナミックなシグナル伝達の道を示す。 Artificial limbs are sophisticated devices to assist people with tasks of daily living. Despite advanced robotic prostheses demonstrating similar motion capabilities to biological limbs, users report them difficult and non-intuitive to use. Providing more effective feedback from the device to the user has therefore become a topic of increased interest. In particular, prediction learning methods from the field of reinforcement learning -- specifically, an approach termed Pavlovian signalling -- have been proposed as one approach for better modulating feedback in prostheses since they can adapt during continuous use. One challenge identified in these learning methods is that they can forget previously learned predictions when a user begins to successfully act upon delivered feedback. The present work directly addresses this challenge, contributing new evidence on the impact of algorithmic choices, such as on- or off-policy methods and representation choices, on the Pavlovian signalling from a machine to a user during their control of a robotic arm. Two conditions of algorithmic differences were studied using different scenarios of controlling a robotic arm: an automated motion system and human participant piloting. Contrary to expectations, off-policy learning did not provide the expected solution to the forgetting problem. We instead identified beneficial properties of a look-ahead state representation that made existing approaches able to learn (and not forget) predictions in support of Pavlovian signalling. This work therefore contributes new insight into the challenges of providing learned predictive feedback from a prosthetic device, and demonstrates avenues for more dynamic signalling in future human-machine interactions. | 翻訳日:2023-05-28 04:50:29 公開日:2023-05-16 |
# 脳画像合成のための生成型adversarial network : レビュー Generative Adversarial Networks for Brain Images Synthesis: A Review ( http://arxiv.org/abs/2305.15421v1 ) ライセンス: Link先を確認 | Firoozeh Shomal Zadeh, Sevda Molani, Maysam Orouskhani, Marziyeh Rezaei, Mehrzad Shafiei, Hossein Abbasi | (参考訳) 医用イメージングにおいて、画像合成とは、ある画像(シーケンス、モダリティ)を別の画像(シーケンス、モダリティ)から推定するプロセスである。
異なるモダリティを持つ画像は多様なバイオマーカーを提供し、様々な特徴を捉えているため、医学ではマルチモダリティイメージングが重要である。
マルチスクリーニングは、放射線科医が報告するのに高価で費用がかかり、時間がかかるが、画像合成手法は、人工的に欠落したモダリティを生成することができる。
ディープラーニングモデルは、高次元の特徴を自動的にキャプチャして抽出することができる。
特に、GAN(Generative Adversarial Network)は、最もポピュラーな生成型ディープラーニング手法の一つであり、畳み込みネットワークをジェネレータとして使用し、推定画像は判別器ネットワークに基づいて真または偽と判別される。
このレビューはgansによる脳画像合成を提供する。
我々は,CTからPETへの画像合成,CTからMRIへの画像合成,PETへの画像合成,およびその逆を含む最近のGANの展開を要約した。 In medical imaging, image synthesis is the estimation process of one image (sequence, modality) from another image (sequence, modality). Since images with different modalities provide diverse biomarkers and capture various features, multi-modality imaging is crucial in medicine. While multi-screening is expensive, costly, and time-consuming to report by radiologists, image synthesis methods are capable of artificially generating missing modalities. Deep learning models can automatically capture and extract the high dimensional features. Especially, generative adversarial network (GAN) as one of the most popular generative-based deep learning methods, uses convolutional networks as generators, and estimated images are discriminated as true or false based on a discriminator network. This review provides brain image synthesis via GANs. We summarized the recent developments of GANs for cross-modality brain image synthesis including CT to PET, CT to MRI, MRI to PET, and vice versa. | 翻訳日:2023-05-28 04:41:27 公開日:2023-05-16 |
# チャレンジスキームにおける分類器の比較 Comparison of classifiers in challenge scheme ( http://arxiv.org/abs/2305.10452v1 ) ライセンス: Link先を確認 | Sergio Nava-Mu\~noz and Mario Graff Guerrero and Hugo Jair Escalante | (参考訳) 近年,クラウドソーシングの手法として,科学研究における課題が注目されている。
特に、機械学習アルゴリズムの開発には課題が不可欠である。
課題の設定については、科学的問題、データセット(適切な品質、量、多様性、複雑さ)、パフォーマンスメトリクス、そして参加者の結果(ゴールド標準)を認証する方法を確立することが不可欠である。
本稿では,複数のコンペティタとユニークなデータセット(固定サイズ)の比較,提出回数の最小化,パフォーマンス評価のために選択されたメトリクスのセットなど,チャレンジスキームによって課される制約の下で,さまざまなコンペティタ(アルゴリズム)のパフォーマンスを評価する問題に対処する。
アルゴリズムは性能指標に従ってソートされる。
それでも、100分の1か1000分の1程度の競争相手間のパフォーマンスの差を観察することが一般的であり、その差が重要であるかどうかが問題となる。
本稿では,MeOffendEs@IberLEF 2021コンペティションの結果を分析し,チャレンジ主催者の意思決定を支援するために,再サンプリング技術(ブートストラップ)による推論を提案する。 In recent decades, challenges have become very popular in scientific research as these are crowdsourcing schemes. In particular, challenges are essential for developing machine learning algorithms. For the challenges settings, it is vital to establish the scientific question, the dataset (with adequate quality, quantity, diversity, and complexity), performance metrics, as well as a way to authenticate the participants' results (Gold Standard). This paper addresses the problem of evaluating the performance of different competitors (algorithms) under the restrictions imposed by the challenge scheme, such as the comparison of multiple competitors with a unique dataset (with fixed size), a minimal number of submissions and, a set of metrics chosen to assess performance. The algorithms are sorted according to the performance metric. Still, it is common to observe performance differences among competitors as small as hundredths or even thousandths, so the question is whether the differences are significant. This paper analyzes the results of the MeOffendEs@IberLEF 2021 competition and proposes to make inference through resampling techniques (bootstrap) to support Challenge organizers' decision-making. | 翻訳日:2023-05-19 18:56:33 公開日:2023-05-16 |
# 機関は人間とAIの共同設計宇宙探査にどのように影響するか?
深部生成モデルを用いた船舶設計に関する事例研究 How does agency impact human-AI collaborative design space exploration? A case study on ship design with deep generative models ( http://arxiv.org/abs/2305.10451v1 ) ライセンス: Link先を確認 | Shahroz Khan, Panagiotis Kaklis, Kosa Goucher-Lambert | (参考訳) 典型的なパラメトリックアプローチは、ベースライン設計に基づいたバリエーションを生成することによって、多様な設計の探索を制限する。
対照的に、生成モデルは、既存の設計を活用して、コンパクトで多様な生成設計空間(GDS)を作成するソリューションを提供する。
しかし、複雑なGDS、特に船体設計における現在の探査方法の有効性は未だ不明である。
そこで我々はまず, 各種船舶の52,591 個の設計に基づいて, 生成的対角ネットワークを用いて GDS を構築した。
次に、ランダム(REM)、半自動(SAEM)、自動(AEM)の3つの探索モードを構築し、新規で最適化された設計のためのGDSを探索する。
REMでは直感に基づいて手動でGDSを探索する。
saemでは、ユーザとオプティマイザーの両方が探索を進める。
オプティマイザーは様々な最適化されたデザインを探索することに焦点を当て、一方ユーザーはデザインの好みに対して探索を指示する。
aemはオプティマイザーを使用して、設計性能に基づいてグローバル最適化を探索する。
その結果,REMが最も多彩な設計が得られ,次いでSAEM,AEMが得られた。
しかし、SAEMとAEMはより優れた性能を持つ設計を生み出している。
具体的には、SAEMは新規性と性能のトレードオフが高い設計を探索するのに最も効果的である。
本研究は, 設計最適化におけるGDSの可能性を完全に活用するために, 革新的な探索アプローチの必要性を強調した。 Typical parametric approaches restrict the exploration of diverse designs by generating variations based on a baseline design. In contrast, generative models provide a solution by leveraging existing designs to create compact yet diverse generative design spaces (GDSs). However, the effectiveness of current exploration methods in complex GDSs, especially in ship hull design, remains unclear. To that end, we first construct a GDS using a generative adversarial network, trained on 52,591 designs of various ship types. Next, we constructed three modes of exploration, random (REM), semi-automated (SAEM) and automated (AEM), with varying levels of user involvement to explore GDS for novel and optimised designs. In REM, users manually explore the GDS based on intuition. In SAEM, both the users and optimiser drive the exploration. The optimiser focuses on exploring a diverse set of optimised designs, while the user directs the exploration towards their design preference. AEM uses an optimiser to search for the global optimum based on design performance. Our results revealed that REM generates the most diverse designs, followed by SAEM and AEM. However, the SAEM and AEM produce better-performing designs. Specifically, SAEM is the most effective in exploring designs with a high trade-off between novelty and performance. In conclusion, our study highlights the need for innovative exploration approaches to fully harness the potential of GDS in design optimisation. | 翻訳日:2023-05-19 18:56:13 公開日:2023-05-16 |
# 位相空間解析と畳み込みニューラルネットワークによる正常心と異常心の理解 Understanding of Normal and Abnormal Hearts by Phase Space Analysis and Convolutional Neural Networks ( http://arxiv.org/abs/2305.10450v1 ) ライセンス: Link先を確認 | Bekir Yavuz Koc, Taner Arsan, Onder Pekcan | (参考訳) 心臓病は近代的な工業化社会において主要な死亡要因の1つであり、公衆衛生システムに高い費用がかかる。
高コストのため、心臓診断を改善する分析方法の開発が不可欠である。
心臓の電気活動はまず非線形微分方程式を用いてモデル化された。
次に、決定論的ダイナミクスに由来する心筋スペクトルの変動について検討する。
正常な人間の心臓のパワースペクトルを分析し、フラクタルのような構造を持つHis-Purkinjeネットワークを提供する。
第3次導出テイラー級数を有する時系列心電図(ecg)グラフから位相空間軌跡を抽出する。
本研究では, mliiで記録したmit-bihデータベースを用いて, 44レコードに位相空間解析と畳み込みニューラルネットワーク(cnns)法を適用した。
精度を高めるために、記録の位相空間画像における最高Q-R距離間の直線を描画する。
バイナリCNN分類は、健康または不健康な心臓を決定するために用いられる。
90.90%の精度で、このモデルは心臓の状態に応じてレコードを分類できる。 Cardiac diseases are one of the leading mortality factors in modern, industrialized societies, which cause high expenses in public health systems. Due to high costs, developing analytical methods to improve cardiac diagnostics is essential. The heart's electric activity was first modeled using a set of nonlinear differential equations. Following this, variations of cardiac spectra originating from deterministic dynamics are investigated. Analyzing a normal human heart's power spectra offers His-Purkinje network, which possesses a fractal-like structure. Phase space trajectories are extracted from the time series electrocardiogram (ECG) graph with third-order derivate Taylor Series. Here in this study, phase space analysis and Convolutional Neural Networks (CNNs) method are applied to 44 records via the MIT-BIH database recorded with MLII. In order to increase accuracy, a straight line is drawn between the highest Q-R distance in the phase space images of the records. Binary CNN classification is used to determine healthy or unhealthy hearts. With a 90.90% accuracy rate, this model could classify records according to their heart status. | 翻訳日:2023-05-19 18:55:49 公開日:2023-05-16 |
# 協力が必要なのは Cooperation Is All You Need ( http://arxiv.org/abs/2305.10449v1 ) ライセンス: Link先を確認 | Ahsan Adeel, Junaid Muzaffar, Khubaib Ahmed, Mohsin Raza | (参考訳) 民主民主主義を超越して、我々は「ローカルプロセッサの民主化」、すなわち「協力者」を導入する。
ここでは,強化学習(rl)のための置換不変ニューラルネットワークと,chatgptなどのトランスフォーマーに基づく機械学習アルゴリズムにおけるそれらの能力を比較する。
トランスフォーマーは長年の「点」ニューロンの概念に基づいているが、コオペレーターは、心的生活の細胞基盤が2つの機能的に異なる点を持つ新皮質の文脈に敏感な錐体ニューロンに依存していることを示唆する最近の神経生物学的ブレークスルーに触発されている。
RL に使用するアルゴリズムは,パラメータ数が同じであっても,Transformer のアルゴリズムよりもはるかに高速に学習可能であることを示す。 Going beyond 'dendritic democracy', we introduce a 'democracy of local processors', termed Cooperator. Here we compare their capabilities when used in permutation-invariant neural networks for reinforcement learning (RL), with machine learning algorithms based on Transformers, such as ChatGPT. Transformers are based on the long-standing conception of integrate-and-fire 'point' neurons, whereas Cooperator is inspired by recent neurobiological breakthroughs suggesting that the cellular foundations of mental life depend on context-sensitive pyramidal neurons in the neocortex which have two functionally distinct points. We show that when used for RL, an algorithm based on Cooperator learns far quicker than that based on Transformer, even while having the same number of parameters. | 翻訳日:2023-05-19 18:55:36 公開日:2023-05-16 |
# 視覚文書理解のための統一モダリティマスキングを用いたシーケンスからシーケンスへの事前学習 Sequence-to-Sequence Pre-training with Unified Modality Masking for Visual Document Understanding ( http://arxiv.org/abs/2305.10448v1 ) ライセンス: Link先を確認 | Shuwei Feng, Tianyang Zhan, Zhanming Jie, Trung Quoc Luong, Xiaoran Jin | (参考訳) 本稿では、テキスト、画像、レイアウトの3つのモードにまたがる統一マスキングを事前訓練した、一般的なシーケンス間文書理解モデルGenDocを提案する。
提案モデルではエンコーダ-デコーダアーキテクチャを用いて,文書理解に一般的に使用されるエンコーダのみのモデルとは対照的に,多様な出力形式を持つ幅広いダウンストリームタスクへの適応性を向上する。
従来のエンコーダ・デコーダモデルで使用される従来のテキストインフィルディングタスクに加えて,マスクドイメージトークンの予測やマスクドレイアウトの予測といったタスクも前もって行っています。
また,モダリティ固有の命令の設計を行い,各モダリティが活用する情報を効果的に捉えるために,不連続注意と混合モダリティ・エキスパート戦略の両方を採用する。
文書理解における下流タスクの広範囲な実験による提案モデルの評価は,最先端の手法と比較して優れた,あるいは競争的な性能を実現する能力を示している。
我々はさらに、OCRの品質が不十分なシナリオにおいて、GenDocはエンコーダのみのモデルよりも堅牢であることを示す。 This paper presents GenDoc, a general sequence-to-sequence document understanding model pre-trained with unified masking across three modalities: text, image, and layout. The proposed model utilizes an encoder-decoder architecture, which allows for increased adaptability to a wide range of downstream tasks with diverse output formats, in contrast to the encoder-only models commonly employed in document understanding. In addition to the traditional text infilling task used in previous encoder-decoder models, our pre-training extends to include tasks of masked image token prediction and masked layout prediction. We also design modality-specific instruction and adopt both disentangled attention and the mixture-of-modality-experts strategy to effectively capture the information leveraged by each modality. Evaluation of the proposed model through extensive experiments on several downstream tasks in document understanding demonstrates its ability to achieve superior or competitive performance compared to state-of-the-art approaches. Our analysis further suggests that GenDoc is more robust than the encoder-only models in scenarios where the OCR quality is imperfect. | 翻訳日:2023-05-19 18:55:20 公開日:2023-05-16 |
# PCOAST:Pauliベースの量子回路最適化フレームワーク PCOAST: A Pauli-based Quantum Circuit Optimization Framework ( http://arxiv.org/abs/2305.10966v1 ) ライセンス: Link先を確認 | Jennifer Paykin, Albert T. Schmitz, Mohannad Ibrahim, Xin-Chuan Wu, A. Y. Matsuura | (参考訳) 本稿では、pauli文字列の可換特性に基づく量子回路最適化のためのフレームワークであるpcoast(pauli-based circuit optimization, analysis and synthesis toolchain)を提案する。
以前の研究は、クリフォードゲートをポーリ回転を過ぎるとユニタリ回路の最適化の機会が現れることを示した。
PCOASTはこの手法を、一般化された準備とパウリ弦でパラメータ化された測定ノードを介して、ユニタリ回路と非ユニタリ回路に適応することで拡張する。
その結果、pcoastグラフは、ユーザが回路の実行後に量子状態を保存する必要があるか、あるいは測定結果を保存するだけでよいかに基づいて、新しい最適化を可能にする。
最後に、フレームワークは、与えられたゲート集合でpcoastグラフを実装するために、高度に調整可能なgreedy合成アルゴリズムを適用する。
PCOASTはIntel Quantum SDKに渡されるコンパイラのセットとして実装されている。
本稿では,2つの主要な量子コンパイラであるQiskitとtketに対して,そのコンパイル性能を評価する。
PCOAST は Qiskit と tket がそれぞれ達成した最高の性能、29.22% と 20.58% の2量子ゲート、回路深さ 42.02% と 51.27% と比較して平均で 32.53% と 43.33% の総ゲート数を削減している。 This paper presents the Pauli-based Circuit Optimization, Analysis, and Synthesis Toolchain (PCOAST), a framework for quantum circuit optimizations based on the commutative properties of Pauli strings. Prior work has demonstrated that commuting Clifford gates past Pauli rotations can expose opportunities for optimization in unitary circuits. PCOAST extends that approach by adapting the technique to mixed unitary and non-unitary circuits via generalized preparation and measurement nodes parameterized by Pauli strings. The result is the PCOAST graph, which enables novel optimizations based on whether a user needs to preserve the quantum state after executing the circuit, or whether they only need to preserve the measurement outcomes. Finally, the framework adapts a highly tunable greedy synthesis algorithm to implement the PCOAST graph with a given gate set. PCOAST is implemented as a set of compiler passes in the Intel Quantum SDK. In this paper, we evaluate its compilation performance against two leading quantum compilers, Qiskit and tket. We find that PCOAST reduces total gate count by 32.53% and 43.33% on average, compared to to the best performance achieved by Qiskit and tket respectively, two-qubit gates by 29.22% and 20.58%, and circuit depth by 42.02% and 51.27%. | 翻訳日:2023-05-19 15:07:50 公開日:2023-05-16 |
# ChatGPTと安定拡散を用いたリッチストーリーによるコヒーレントコミックの生成 Generating coherent comic with rich story using ChatGPT and Stable Diffusion ( http://arxiv.org/abs/2305.11067v1 ) ライセンス: Link先を確認 | Ze Jin, Zorina Song | (参考訳) 過去の研究では、ニューラルネットワークを使うことで、ミュージシャンの音楽スタイルを維持しながら未完成の音楽を拡張できることを示した。
近年の大規模言語モデルや拡散モデルの発展により,アーティストの芸術スタイルを維持しつつ,面白いストーリーラインで漫画を制作することが可能になった。
本稿では,ChatGPTを用いてストーリーラインと対話を生成し,安定拡散を用いて漫画を生成する。
我々は,AI生成ストーリを評価する新しい手法を導入し,LoRAやControlNetなどを用いた安定した拡散を微調整することで,文字の忠実さとアートスタイルのSOTA性能を実現した。 Past work demonstrated that using neural networks, we can extend unfinished music pieces while maintaining the music style of the musician. With recent advancements in large language models and diffusion models, we are now capable of generating comics with an interesting storyline while maintaining the art style of the artist. In this paper, we used ChatGPT to generate storylines and dialogue and then generated the comic using stable diffusion. We introduced a novel way to evaluate AI-generated stories, and we achieved SOTA performance on character fidelity and art style by fine-tuning stable diffusion using LoRA, ControlNet, etc. | 翻訳日:2023-05-19 14:20:36 公開日:2023-05-16 |
# 安定性トレードオフによるクラスタ数の選択 $k$: 内部検証基準 Selecting the Number of Clusters $K$ with a Stability Trade-off: an Internal Validation Criterion ( http://arxiv.org/abs/2006.08530v3 ) ライセンス: Link先を確認 | Alex Mourer, Florent Forest, Mustapha Lebbah, Hanane Azzag and J\'er\^ome Lacaille | (参考訳) モデル選択は非パラメトリッククラスタリングにおいて大きな課題である。
根拠となる真実が得られない明らかな理由から、クラスタリング結果を評価する普遍的な方法はない。
普遍的な評価基準を見つけることの難しさはクラスタリングの不明確な目的の結果である。
この観点では、クラスタリングの安定性は自然およびモデルに依存しない原理として現れている。
データセットが同じ分布から繰り返しサンプリングされる場合、アルゴリズムは同様のパーティションを見つけるべきである。
しかし、安定性だけではクラスター数を決定するのに適していない。
例えば、クラスタの数が小さすぎるかどうかを検出することができない。
優れたクラスタリングは安定すべきであり、各クラスタには安定したパーティションが存在しなければならない、という新しい原則を提案します。
この原則は、クラスタ間およびクラスタ内安定性に基づく新しいクラスタリング検証基準につながり、以前の安定性ベースの方法の限界を克服する。
我々は,クラスタ数を選択するための基準の有効性を実証的に実証し,既存の手法と比較する。
コードはhttps://github.com/florentf9/skstabで入手できる。 Model selection is a major challenge in non-parametric clustering. There is no universally admitted way to evaluate clustering results for the obvious reason that no ground truth is available. The difficulty to find a universal evaluation criterion is a consequence of the ill-defined objective of clustering. In this perspective, clustering stability has emerged as a natural and model-agnostic principle: an algorithm should find stable structures in the data. If data sets are repeatedly sampled from the same underlying distribution, an algorithm should find similar partitions. However, stability alone is not well-suited to determine the number of clusters. For instance, it is unable to detect if the number of clusters is too small. We propose a new principle: a good clustering should be stable, and within each cluster, there should exist no stable partition. This principle leads to a novel clustering validation criterion based on between-cluster and within-cluster stability, overcoming limitations of previous stability-based methods. We empirically demonstrate the effectiveness of our criterion to select the number of clusters and compare it with existing methods. Code is available at https://github.com/FlorentF9/skstab. | 翻訳日:2023-05-18 21:35:47 公開日:2023-05-16 |
# 軌道測度の射影と量子限界問題 Projections of Orbital Measures and Quantum Marginal Problems ( http://arxiv.org/abs/2112.13908v2 ) ライセンス: Link先を確認 | Beno\^it Collins, Colin McSwiggen | (参考訳) 本論文では、コンパクトリー群の(co)随伴軌道の均一ランダム要素の射影について研究する。
そのような射影はランダムな行列論において広く研究されたアンサンブルを一般化し、ランダム化されたホーン問題、ランダム化されたシュール問題、軌道角過程などが挙げられる。
この一般的な設定では、確率密度の積分公式を証明し、密度の性質を定め、表現論における多重性問題とシンプレクティック幾何学文学における既知の結果との関係を議論する。
応用として、量子情報理論における限界問題に関する多くの結果を示し、制限多重性に対する積分公式も証明する。 This paper studies projections of uniform random elements of (co)adjoint orbits of compact Lie groups. Such projections generalize several widely studied ensembles in random matrix theory, including the randomized Horn's problem, the randomized Schur's problem, and the orbital corners process. In this general setting, we prove integral formulae for the probability densities, establish some properties of the densities, and discuss connections to multiplicity problems in representation theory as well as to known results in the symplectic geometry literature. As applications, we show a number of results on marginal problems in quantum information theory and also prove an integral formula for restriction multiplicities. | 翻訳日:2023-05-18 21:25:54 公開日:2023-05-16 |
# 時空間メモリネットワークを用いたマルチオブジェクト追跡とセグメンテーション Multi-Object Tracking and Segmentation with a Space-Time Memory Network ( http://arxiv.org/abs/2110.11284v2 ) ライセンス: Link先を確認 | Mehdi Miah, Guillaume-Alexandre Bilodeau and Nicolas Saunier | (参考訳) トラックレットを関連づける新しいメモリベース機構に基づく多目的追跡とセグメンテーションの手法を提案する。
提案するトラッカーであるMeNToSは、オブジェクトが長期にわたって観測できない場合、特に長期データアソシエーションの問題に対処する。
実際、最近導入されたHOTAメトリック(High Order Tracking Accuracy)は、従来のMOTA(Multiple Object Tracking Accuracy)と人間の視覚的追跡評価との整合性が高いが、最近のオブジェクト検出の改善にもかかわらず、データアソシエーションには改善が必要であることが示されている。
MeNToSでは、インスタンスセグメンテーションと光フローを用いてトラックレットを作成した後、この手法は1ショットビデオオブジェクトセグメンテーションのために開発された時空間メモリネットワークを利用して、検出シーケンス(トラックレット)と時間的ギャップの関連性を改善する。
我々は、KITTIMOTSとMOTSChallengeのトラッカーを評価し、HOTAメトリックによるデータアソシエーション戦略の利点を示す。
追加のアブレーション研究により、時空メモリネットワークを用いたアプローチは、再同定ネットワークに基づくものよりも、より良く、より堅牢な長期関連をもたらすことが示された。
プロジェクトページは \url{www.mehdimiah.com/mentos+} にある。 We propose a method for multi-object tracking and segmentation based on a novel memory-based mechanism to associate tracklets. The proposed tracker, MeNToS, addresses particularly the long-term data association problem, when objects are not observable for long time intervals. Indeed, the recently introduced HOTA metric (High Order Tracking Accuracy), which has a better alignment than the formerly established MOTA (Multiple Object Tracking Accuracy) with the human visual assessment of tracking, has shown that improvements are still needed for data association, despite the recent improvement in object detection. In MeNToS, after creating tracklets using instance segmentation and optical flow, the proposed method relies on a space-time memory network originally developed for one-shot video object segmentation to improve the association of sequence of detections (tracklets) with temporal gaps. We evaluate our tracker on KITTIMOTS and MOTSChallenge and we show the benefit of our data association strategy with the HOTA metric. Additional ablation studies demonstrate that our approach using a space-time memory network gives better and more robust long-term association than those based on a re-identification network. Our project page is at \url{www.mehdimiah.com/mentos+}. | 翻訳日:2023-05-18 21:24:41 公開日:2023-05-16 |
# 近所注意変圧器 Neighborhood Attention Transformer ( http://arxiv.org/abs/2204.07143v5 ) ライセンス: Link先を確認 | Ali Hassani, Steven Walton, Jiachen Li, Shen Li, Humphrey Shi | (参考訳) 我々は,視覚の効率良くスケーラブルなスライディングウインドアテンション機構であるnearby attention (na)を提案する。
NAはピクセルワイズ演算であり、近傍のピクセルに自己注意(SA)を局在させることで、SAの二次的な複雑さに比べて線形時間と空間の複雑さを享受する。
スライドウインドウパターンにより、NAの受容野は、余分なピクセルシフトを必要とせずに成長し、スウィントランスフォーマーのウィンドウ自己注意(WSA)とは異なり、翻訳の等価性を維持することができる。
我々はnatten (neighborhood attention extension) を開発した。効率的なc++とcudaカーネルを備えたpythonパッケージで、naはswainのwsaよりも最大40%高速で、メモリは最大25%少ない。
さらに、画像分類と下流視覚性能を向上させるNAに基づく新しい階層型トランス設計であるNeighborhood Attention Transformer(NAT)を提案する。
NAT-TinyはImageNetで83.2%、MS-COCOで51.4%、ADE20Kで48.4%、ImageNetで1.9%、COCO mAPで1.0%、ADE20K mIoUで2.6%に達している。
スライドウインドウの注意に基づくさらなる研究を支援するため、私たちはプロジェクトをオープンソース化し、チェックポイントをhttps://github.com/SHI-Labs/Neighborhood-Attention-Transformer でリリースしました。 We present Neighborhood Attention (NA), the first efficient and scalable sliding-window attention mechanism for vision. NA is a pixel-wise operation, localizing self attention (SA) to the nearest neighboring pixels, and therefore enjoys a linear time and space complexity compared to the quadratic complexity of SA. The sliding-window pattern allows NA's receptive field to grow without needing extra pixel shifts, and preserves translational equivariance, unlike Swin Transformer's Window Self Attention (WSA). We develop NATTEN (Neighborhood Attention Extension), a Python package with efficient C++ and CUDA kernels, which allows NA to run up to 40% faster than Swin's WSA while using up to 25% less memory. We further present Neighborhood Attention Transformer (NAT), a new hierarchical transformer design based on NA that boosts image classification and downstream vision performance. Experimental results on NAT are competitive; NAT-Tiny reaches 83.2% top-1 accuracy on ImageNet, 51.4% mAP on MS-COCO and 48.4% mIoU on ADE20K, which is 1.9% ImageNet accuracy, 1.0% COCO mAP, and 2.6% ADE20K mIoU improvement over a Swin model with similar size. To support more research based on sliding-window attention, we open source our project and release our checkpoints at: https://github.com/SHI-Labs/Neighborhood-Attention-Transformer . | 翻訳日:2023-05-18 21:14:16 公開日:2023-05-16 |
# 単純量子文脈性 Simplicial quantum contextuality ( http://arxiv.org/abs/2204.06648v4 ) ライセンス: Link先を確認 | Cihan Okay, Aziz Kharoof, Selman Ipek | (参考訳) 現代ホモトピー理論において重要な役割を果たす位相空間の組合せモデルである単純集合に基づく文脈性の新しい枠組みを提案する。
提案手法は, 測定シナリオを, 測度と結果の空間(集合ではなく集合)に拡張し, 単純集合でモデル化された空間上の分布である非シグナリング分布を単純分布に一般化する。
この形式主義を用いて、ベルのシナリオにおける非文脈性を特徴づけるためのファインの定理の位相的に着想を得た新しい証明を示す。
強文脈性は単純分布に好適に一般化され、量子可観測物間の代数的関係に制限された初期の位相的構造を確率分布のレベルまで拡張するコホモロジー的証人を定義することができる。
Gleasonの定理やKochen-Specker定理のような量子理論の基礎定理は、この新しい言語の中で自然に表現できる。 We introduce a new framework for contextuality based on simplicial sets, combinatorial models of topological spaces that play a prominent role in modern homotopy theory. Our approach extends measurement scenarios to consist of spaces (rather than sets) of measurements and outcomes, and thereby generalizes nonsignaling distributions to simplicial distributions, which are distributions on spaces modeled by simplicial sets. Using this formalism we present a topologically inspired new proof of Fine's theorem for characterizing noncontextuality in Bell scenarios. Strong contextuality is generalized suitably for simplicial distributions, allowing us to define cohomological witnesses that extend the earlier topological constructions restricted to algebraic relations among quantum observables to the level of probability distributions. Foundational theorems of quantum theory such as the Gleason's theorem and Kochen-Specker theorem can be expressed naturally within this new language. | 翻訳日:2023-05-18 21:13:44 公開日:2023-05-16 |
# トランスフォーマーアーキテクチャを用いた生音声の100万サンプルコンテキストを用いた言語モデル A Language Model With Million Sample Context For Raw Audio Using Transformer Architectures ( http://arxiv.org/abs/2206.08297v2 ) ライセンス: Link先を確認 | Prateek Verma | (参考訳) 音声信号の長期依存関係をモデル化することは特に難しい問題であり、たとえ小さなスケールであっても10万のサンプルの順序で収まる。
最近のトランスフォーマーの出現により、ニューラルネットワークはより長い時間スケールでの依存関係のモデリングが得意になったが、スケールするには二次的な制約に苦しんだ。
我々は,50万以上のサンプルを含む,かなり広い文脈で音響波形をモデル化できる生成的自己回帰型アーキテクチャを提案する。
私たちの仕事は、cnnフロントエンドで潜在表現を学習し、トランスフォーマーエンコーダを使ってこれらの表現に対する依存関係を学習することで、時間依存を学習するように適応しています。
改善を示すために異なる時間スケールを比較する以前の作業とは異なり、改善を示すために同じ数のパラメータ/コンテキストを持つ標準データセットを使用します。
本研究では,Wavenet,SaSHMI,Sample-RNNといった他の手法と比較して,長期構造をモデル化するための標準データセットにおける最先端性能を実現する。
この作業は、より多くのデータでスケール可能なコンテキストモデリングの改善に加えて、数十億/3のパラメータを使うことで、よりよい結果が得られることを前提に、この分野に非常にエキサイティングな方向を与えます。 Modeling long-term dependencies for audio signals is a particularly challenging problem, as even small-time scales yield on the order of a hundred thousand samples. With the recent advent of Transformers, neural architectures became good at modeling dependencies over longer time scales, but they suffered from quadratic constraints to scale them. We propose a generative auto-regressive architecture that can model audio waveforms over quite a large context, greater than 500,000 samples. Our work is adapted to learn time dependencies by learning a latent representation by a CNN front-end, and then learning dependencies over these representations using Transformer encoders, fully trained end-to-end: thereby allowing to learn representations as it deems fit for the next sample. Unlike previous works that compared different time scales to show improvement, we use a standard dataset, with the same number of parameters/context to show improvements. We achieve a state-of-the-art performance as compared to other approaches such as Wavenet, SaSHMI, and Sample-RNN on a standard dataset for modeling long-term structure. This work gives very exciting direction for the field, given improvements in context modeling that can be scaled with more data, as well as potentially better results by using billions/trillions of parameters. | 翻訳日:2023-05-18 21:05:12 公開日:2023-05-16 |
# 情報理論アクティブ知覚のための連続制御政策の学習 Learning Continuous Control Policies for Information-Theoretic Active Perception ( http://arxiv.org/abs/2209.12427v2 ) ライセンス: Link先を確認 | Pengzhi Yang and Yuhan Liu and Shumon Koga and Arash Asgharivaskasi and Nikolay Atanasov | (参考訳) 本稿では,情報理論コストを用いたランドマーク化と探索のための連続制御ポリシーの学習手法を提案する。
本研究では,センサの限られた範囲内でランドマークを検出する移動ロボットについて検討し,ランドマーク状態とセンサ観測の相互情報を最大化する制御ポリシーの学習に挑戦する。
我々は、カルマンフィルタを用いて、ランドマーク状態における部分可観測問題をマルコフ決定プロセス(mdp)へ変換し、報酬を形作るための微分可能な視野と、制御ポリシーを表す注意に基づくニューラルネットワークを用いる。
このアプローチはさらにアクティブボリュームマッピングと統合され、ランドマークのローカライゼーションに加えて探索を促進する。
この性能は、ベンチマーク手法と比較して、いくつかの模擬ランドマークローカライゼーションタスクで実証される。 This paper proposes a method for learning continuous control policies for active landmark localization and exploration using an information-theoretic cost. We consider a mobile robot detecting landmarks within a limited sensing range, and tackle the problem of learning a control policy that maximizes the mutual information between the landmark states and the sensor observations. We employ a Kalman filter to convert the partially observable problem in the landmark state to Markov decision process (MDP), a differentiable field of view to shape the reward, and an attention-based neural network to represent the control policy. The approach is further unified with active volumetric mapping to promote exploration in addition to landmark localization. The performance is demonstrated in several simulated landmark localization tasks in comparison with benchmark methods. | 翻訳日:2023-05-18 20:56:06 公開日:2023-05-16 |
# 導波路に結合した3レベル$\lambda$原子を用いた光子の周波数成分間の相対位相の検出 Detecting the relative phase between different frequency components of a photon using a three-level $\Lambda$ atom coupled to a waveguide ( http://arxiv.org/abs/2208.13136v2 ) ライセンス: Link先を確認 | Janet Zhong, Rituraj, Fatih Dinc, Shanhui Fan | (参考訳) 導波路に沿って伝播する単一光子の散乱を、導波路に結合した2つの非退化基底状態の重ね合わせにおいて、1つの3レベル$\Lambda$原子を持つ任意の重ね合わせ状態の2つの周波数で研究する。
この散乱は、光子周波数間の相対位相と原子基底状態の間の相対位相の両方に依存することが判明した。
その結果、導波管に結合した3レベル$\Lambda$原子は、光子重畳状態の2つの周波数間の相対位相を検出する光子位相フィルタとして使用できることがわかった。 We study the scattering of a single photon propagating along a waveguide in an arbitrary superposition state two frequencies with a single three-level $\Lambda$ atom in a superposition of two non-degenerate ground states where the atom is coupled to a waveguide. We find that the scattering depends on both the relative phase between the photon frequencies and the relative phase between the atomic ground states. Our results show that a three-level $\Lambda$ atom coupled to a waveguide can be used as photon phase filter that could detect the relative phase between the two frequencies of the photon superposition state. | 翻訳日:2023-05-18 20:54:47 公開日:2023-05-16 |
# 米国の政治ニュースにおける客観性低下の引用 Quotatives Indicate Decline in Objectivity in U.S. Political News ( http://arxiv.org/abs/2210.15476v2 ) ライセンス: Link先を確認 | Tiancheng Hu, Manoel Horta Ribeiro, Robert West, Andreas Spitz | (参考訳) ジャーナリストの基準によれば、直接引用は、引用者や引用者に対する読者の認識に影響を与える「アーゲード」や「インシスタンス」のような客観的な引用物である「サイード」や「トルド」のような客観的な引用元に帰属されるべきである。
本稿では,このジャーナリストの規範に固執して,イデオロギー的傾向の異なる米国メディアの政治ニュースにおける客観性の動向を研究する。
私たちはこう問いかけます
1)非目的引用の用法はどのように進化したのか。
そして
2)報道機関は、異なる政党の政治家を対象とする場合、非客観的な引用をどう使うか。
そこで我々は,引用文を抽出する係り受け解析法を開発し,引用文のWebスケールコーパスであるQuotebankに適用し,700万近い引用文を抽出し,それぞれが引用者の政党や引用文のイデオロギー的傾きに富んでいることを示す。
2013年から2020年にかけては、パルチザンの報道機関は、しばしば非客観的な引用をよく用いているが、非客観的な引用を拡大した報道機関は、最も多くが「修正された」センシティブな報道機関である(約0.6ポイント、相対的な割合は7年で20%)。
さらに、対立するイデオロギーの政治家(例えば共和党員を引用する左派)を引用する場合、メディアは非客観的な引用を頻繁に使用し、この「引用バイアス」は急激なペースで増加しており、毎年0.5ポイントまで増加しており、相対的な割合は25%である。
これらの発見は、アメリカの政治ニュースにおけるジャーナリストの客観性の全体的な低下を示唆している。 According to journalistic standards, direct quotes should be attributed to sources with objective quotatives such as "said" and "told", as nonobjective quotatives, like "argued" and "insisted" would influence the readers' perception of the quote and the quoted person. In this paper, we analyze the adherence to this journalistic norm to study trends in objectivity in political news across U.S. outlets of different ideological leanings. We ask: 1) How has the usage of nonobjective quotatives evolved? and 2) How do news outlets use nonobjective quotatives when covering politicians of different parties? To answer these questions, we developed a dependency-parsing-based method to extract quotatives and applied it to Quotebank, a web-scale corpus of attributed quotes, obtaining nearly 7 million quotes, each enriched with the quoted speaker's political party and the ideological leaning of the outlet that published the quote. We find that while partisan outlets are the ones that most often use nonobjective quotatives, between 2013 and 2020, the outlets that increased their usage of nonobjective quotatives the most were "moderate" centrist news outlets (around 0.6 percentage points, or 20% in relative percentage over 7 years). Further, we find that outlets use nonobjective quotatives more often when quoting politicians of the opposing ideology (e.g., left-leaning outlets quoting Republicans), and that this "quotative bias" is rising at a swift pace, increasing up to 0.5 percentage points, or 25% in relative percentage, per year. These findings suggest an overall decline in journalistic objectivity in U.S. political news. | 翻訳日:2023-05-18 20:46:54 公開日:2023-05-16 |
# 階層的分岐拡散モデルによるクラス条件生成 Hierarchically branched diffusion models for class-conditional generation ( http://arxiv.org/abs/2212.10777v3 ) ライセンス: Link先を確認 | Alex M. Tseng, Max Shen, Tommaso Biancalani, Gabriele Scalia | (参考訳) 拡散モデルは、クラスラベルの条件付けを含む現実的なオブジェクトを生成する際に、最先端のパフォーマンスを達成した。
しかし、現在のクラス条件拡散モデルは、クラス間の既知の関係を無視し、フラットな方法で全てのクラス上の拡散過程を暗黙的にモデル化する。
科学的領域に共通するデータを含むクラスラベルデータセットは、内部構造を持つ。
この構造を利用するために,クラス条件生成のための新しい枠組みとして階層分岐拡散モデルを提案する。
分岐拡散モデルは、データセット内の異なるクラス間の固有の関係を明示的に活用し、下位の拡散プロセスを階層的に学習する。
クラス条件拡散の最先端手法に対する分岐拡散モデルのいくつかの利点を強調した。
まず、連続的な学習環境において、新しいクラスに容易に拡張できる。
第二に、類似に基づく条件生成(すなわち変換)のようなより洗練された条件生成を可能にする。
最後に、クラス条件生成プロセスに新しい解釈性を提供する。
複数のベンチマークおよび大規模実世界の科学データセット上で分岐拡散モデルを広範囲に評価し、異なるデータモダリティ(画像、表データ、グラフ)にまたがる。
特に本研究では,ヒト細胞タイプ間の内在的な階層構造を利用した分岐拡散モデルを用いて,実世界のrna-seqデータセット上での分岐拡散モデルの利点を示す。 Diffusion models have attained state-of-the-art performance in generating realistic objects, including when conditioning generation on class labels. Current class-conditional diffusion models, however, implicitly model the diffusion process on all classes in a flat fashion, ignoring any known relationships between classes. Class-labeled datasets, including those common in scientific domains, are rife with internal structure. To take advantage of this structure, we propose hierarchically branched diffusion models as a novel framework for class-conditional generation. Branched diffusion models explicitly leverage the inherent relationships between distinct classes in the dataset to learn the underlying diffusion process in a hierarchical manner. We highlight several advantages of branched diffusion models over the current state-of-the-art methods for class-conditional diffusion. Firstly, they can be easily extended to novel classes in a continual-learning setting at scale. Secondly, they enable more sophisticated forms of conditional generation, such as analogy-based conditional generation (i.e. transmutation). Finally, they offer a novel interpretability into the class-conditional generation process. We extensively evaluate branched diffusion models on several benchmark and large real-world scientific datasets, spanning different data modalities (images, tabular data, and graphs). In particular, we showcase the advantages of branched diffusion models on a real-world single-cell RNA-seq dataset, where our branched model leverages the intrinsic hierarchical structure between human cell types. | 翻訳日:2023-05-18 20:38:00 公開日:2023-05-16 |
# フルボディ人工物体相互作用 Full-Body Articulated Human-Object Interaction ( http://arxiv.org/abs/2212.10621v2 ) ライセンス: Link先を確認 | Nan Jiang, Tengyu Liu, Zhexuan Cao, Jieming Cui, Zhiyuan zhang, Yixin Chen, He Wang, Yixin Zhu, Siyuan Huang | (参考訳) 3D HOIのきめ細かいキャプチャは、人間の活動理解を促進し、アクション認識、全体像再構成、人間の動き合成を含む下流の視覚タスクを促進する。
その重要性にもかかわらず、既存の研究は人間の身体の一部だけを使って剛体物体と相互作用し、その範囲を制限していると仮定している。
本稿では,人体全体が関節のある物体と相互作用し,部品が可動関節で接続されるという,f-AHOIの課題に対処する。
46人の参加者と81人の定性的・剛性的な物体の間の16.2時間の多目的相互作用からなる大規模な動きキャプチャーf-AHOIデータセットであるCHAIRSを提案する。
CHAIRSは、対話的なプロセス全体を通して、人間と関節のある物体の両方の3Dメッシュを提供する。
オブジェクトポーズ推定によるCHAIRSの値を示す。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を生かした最初のモデルを考案し,人体間相互作用における物体のポーズと形状の推定に挑戦する。
画像と推定された人間のポーズを与えられたモデルでは、まず物体のポーズと形状を再構築し、学習したインタラクションに従って再構築を最適化する。
両方の評価設定(例えば、オブジェクトのジオメトリ/構造に関する知識の有無)の下で、我々のモデルはベースラインを著しく上回る。
CHAIRSは、よりきめ細かいインタラクション理解に向けて、コミュニティを促進することを願っています。
データ/コードは公開します。 Fine-grained capturing of 3D HOI boosts human activity understanding and facilitates downstream visual tasks, including action recognition, holistic scene reconstruction, and human motion synthesis. Despite its significance, existing works mostly assume that humans interact with rigid objects using only a few body parts, limiting their scope. In this paper, we address the challenging problem of f-AHOI, wherein the whole human bodies interact with articulated objects, whose parts are connected by movable joints. We present CHAIRS, a large-scale motion-captured f-AHOI dataset, consisting of 16.2 hours of versatile interactions between 46 participants and 81 articulated and rigid sittable objects. CHAIRS provides 3D meshes of both humans and articulated objects during the entire interactive process, as well as realistic and physically plausible full-body interactions. We show the value of CHAIRS with object pose estimation. By learning the geometrical relationships in HOI, we devise the very first model that leverage human pose estimation to tackle the estimation of articulated object poses and shapes during whole-body interactions. Given an image and an estimated human pose, our model first reconstructs the pose and shape of the object, then optimizes the reconstruction according to a learned interaction prior. Under both evaluation settings (e.g., with or without the knowledge of objects' geometries/structures), our model significantly outperforms baselines. We hope CHAIRS will promote the community towards finer-grained interaction understanding. We will make the data/code publicly available. | 翻訳日:2023-05-18 20:37:40 公開日:2023-05-16 |
# 連続SE(3)軌道上のアクティブターゲット追跡のためのポリシー学習 Policy Learning for Active Target Tracking over Continuous SE(3) Trajectories ( http://arxiv.org/abs/2212.01498v2 ) ライセンス: Link先を確認 | Pengzhi Yang, Shumon Koga, Arash Asgharivaskasi, Nikolay Atanasov | (参考訳) 本稿では,移動ロボットを用いた動的目標追跡のための新しいモデルベースポリシー勾配アルゴリズムを提案する。
課題は,目標分布エントロピーによって測定された対象状態の不確実性を低減するセンサ計測を,移動ロボットが収集するための連続制御ポリシーを得ることである。
我々は、ロボットの$SE(3)$ poseと、入力層とアテンション層として結合対象分布の平均ベクトルと情報行列を用いてニューラルネットワーク制御ポリシーを設計し、ターゲットの変動数を処理する。
また、ネットワークパラメータに対する対象エントロピーの勾配を明示的に導出し、効率的なモデルに基づくポリシー勾配最適化を可能にした。 This paper proposes a novel model-based policy gradient algorithm for tracking dynamic targets using a mobile robot, equipped with an onboard sensor with limited field of view. The task is to obtain a continuous control policy for the mobile robot to collect sensor measurements that reduce uncertainty in the target states, measured by the target distribution entropy. We design a neural network control policy with the robot $SE(3)$ pose and the mean vector and information matrix of the joint target distribution as inputs and attention layers to handle variable numbers of targets. We also derive the gradient of the target entropy with respect to the network parameters explicitly, allowing efficient model-based policy gradient optimization. | 翻訳日:2023-05-18 20:36:53 公開日:2023-05-16 |
# NEVIS'22:30年間のコンピュータビジョン研究から得られた100のタスクのストリーム NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research ( http://arxiv.org/abs/2211.11747v2 ) ライセンス: Link先を確認 | Jorg Bornschein, Alexandre Galashov, Ross Hemsley, Amal Rannen-Triki, Yutian Chen, Arslan Chaudhry, Xu Owen He, Arthur Douillard, Massimo Caccia, Qixuang Feng, Jiajun Shen, Sylvestre-Alvise Rebuffi, Kitty Stacpoole, Diego de las Casas, Will Hawkins, Angeliki Lazaridou, Yee Whye Teh, Andrei A. Rusu, Razvan Pascanu and Marc'Aurelio Ranzato | (参考訳) 継続的学習、メタラーニング、トランスファーラーニングといった機械学習コミュニティの共通の目標は、目に見えないタスクに効率的かつ堅牢に適応するアルゴリズムとモデルを設計することである。
さらに野心的な目標は、適応をやめないモデルを構築することであり、知識を適切に移すことで、時間とともにより効率的になることです。
実際の学習アルゴリズムとモデルアーキテクチャの研究以外にも、学習プロトコルの選択、成功の基準、研究仮説の検証に必要なデータなど、そのようなモデルの構築にはいくつかのハードルがあります。
本研究では,過去30年間のコンピュータビジョン処理から一様に抽出された文書から,100以上の視覚的分類タスクからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
結果として得られたストリームは、調査コミュニティがどんな時点で有意義だと考えたかを反映しており、モデルが新しいタスクにどのように適応できるかを評価するための理想的なテストベッドとして機能する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
この多様性は、広範囲のデータセットサイズにも反映されており、4桁を超える。
全体として、nevis'22はタスクの規模と多様性のため、現在の逐次学習アプローチでは前例のない課題となっているが、単一のモダリティと教師付き学習問題に限定されているため、参入障壁は低い。
さらに,高いベースラインを含む参照実装と,精度と計算のトレードオフの観点からメソッドを比較するための評価プロトコルを提供する。 A shared goal of several machine learning communities like continual learning, meta-learning and transfer learning, is to design algorithms and models that efficiently and robustly adapt to unseen tasks. An even more ambitious goal is to build models that never stop adapting, and that become increasingly more efficient through time by suitably transferring the accrued knowledge. Beyond the study of the actual learning algorithm and model architecture, there are several hurdles towards our quest to build such models, such as the choice of learning protocol, metric of success and data needed to validate research hypotheses. In this work, we introduce the Never-Ending VIsual-classification Stream (NEVIS'22), a benchmark consisting of a stream of over 100 visual classification tasks, sorted chronologically and extracted from papers sampled uniformly from computer vision proceedings spanning the last three decades. The resulting stream reflects what the research community thought was meaningful at any point in time, and it serves as an ideal test bed to assess how well models can adapt to new tasks, and do so better and more efficiently as time goes by. Despite being limited to classification, the resulting stream has a rich diversity of tasks from OCR, to texture analysis, scene recognition, and so forth. The diversity is also reflected in the wide range of dataset sizes, spanning over four orders of magnitude. Overall, NEVIS'22 poses an unprecedented challenge for current sequential learning approaches due to the scale and diversity of tasks, yet with a low entry barrier as it is limited to a single modality and well understood supervised learning problems. Moreover, we provide a reference implementation including strong baselines and an evaluation protocol to compare methods in terms of their trade-off between accuracy and compute. | 翻訳日:2023-05-18 20:35:37 公開日:2023-05-16 |
# csiに基づく屋内定位のための簡易かつ効果的な拡張法 Simple and Effective Augmentation Methods for CSI Based Indoor Localization ( http://arxiv.org/abs/2211.10790v2 ) ライセンス: Link先を確認 | Omer Gokalp Serbetci and Ju-Hyung Lee and Daoud Burghal and Andreas F. Molisch | (参考訳) 屋内のローカライゼーションは難しい課題です。
GPSが優勢な屋外環境と比較して、堅牢でほぼ普遍的なアプローチは存在しない。
近年,機械学習(ML)が,正確な屋内局在化を実現するための最も有望なアプローチとして浮上している。
それでもその主な課題は、ニューラルネットワークのトレーニングに大規模なデータセットを必要とすることだ。
データ収集手順は費用と労力がかかり、さまざまな屋内環境の計測とラベリングプロセスが必要となる。
Data Augmentation (DA)は、MLのデータセットを拡大し、MLシステムがより堅牢になり、一般化能力が向上する一般的なフレームワークである。
本稿では,チャネル状態情報(csi)に基づく屋内位置推定のための2つの簡易かつ驚くほど効果的なdaアルゴリズムを提案する。
所与の精度要求値の測定回数は桁違いに減少する可能性があることを示す。
具体的には、室内WiFi測定データセットを用いて実験を行い、アルゴリズムの有効性を実証する。
オリジナルのデータセットのサイズの10%は、元のデータセットと同じパフォーマンスを得るのに十分です。
また,提案手法によりデータセットをさらに拡張すれば,テスト精度が3倍以上向上することを示した。 Indoor localization is a challenging task. Compared to outdoor environments where GPS is dominant, there is no robust and almost-universal approach. Recently, machine learning (ML) has emerged as the most promising approach for achieving accurate indoor localization. Nevertheless, its main challenge is requiring large datasets to train the neural networks. The data collection procedure is costly and laborious, requiring extensive measurements and labeling processes for different indoor environments. The situation can be improved by Data Augmentation (DA), a general framework to enlarge the datasets for ML, making ML systems more robust and increasing their generalization capabilities. This paper proposes two simple yet surprisingly effective DA algorithms for channel state information (CSI) based indoor localization motivated by physical considerations. We show that the number of measurements for a given accuracy requirement may be decreased by an order of magnitude. Specifically, we demonstrate the algorithm's effectiveness by experiments conducted with a measured indoor WiFi measurement dataset. As little as 10% of the original dataset size is enough to get the same performance as the original dataset. We also showed that if we further augment the dataset with the proposed techniques, test accuracy is improved more than three-fold. | 翻訳日:2023-05-18 20:35:07 公開日:2023-05-16 |
# 直接不確実性定量化 Direct Uncertainty Quantification ( http://arxiv.org/abs/2302.02420v3 ) ライセンス: Link先を確認 | Yadi Wei, Roni Khardon | (参考訳) 従来のニューラルネットワークは訓練が簡単だが、自信過剰な予測を生成する一方、ベイジアンニューラルネットワークは優れた不確実性定量化を提供するが、最適化には時間がかかる。
本稿では,ニューラルネットワークが最終層の平均と分散を直接出力する,新たな手法であるdirect uncertainty quantification (directuq)を提案する。
DirectUQは代替の変分下界として導出することができ、従って、改良された正則化器を提供する崩壊変分推論の恩恵を受けることができる。
一方、確率的でないモデルと同様に、directuqは単純なトレーニングを楽しみ、rademacherの複雑さを使ってモデルのリスク境界を提供することができる。
実験の結果,DirectUQとDirectUQのアンサンブルは,特に分布データ外において,実行時間と不確実性の定量化に関して良好なトレードオフをもたらすことがわかった。 Traditional neural networks are simple to train but they produce overconfident predictions, while Bayesian neural networks provide good uncertainty quantification but optimizing them is time consuming. This paper introduces a new approach, direct uncertainty quantification (DirectUQ), that combines their advantages where the neural network directly outputs the mean and variance of the last layer. DirectUQ can be derived as an alternative variational lower bound, and hence benefits from collapsed variational inference that provides improved regularizers. On the other hand, like non-probabilistic models, DirectUQ enjoys simple training and one can use Rademacher complexity to provide risk bounds for the model. Experiments show that DirectUQ and ensembles of DirectUQ provide a good tradeoff in terms of run time and uncertainty quantification, especially for out of distribution data. | 翻訳日:2023-05-18 20:07:16 公開日:2023-05-16 |
# 画像とビデオのキャプション評価のためのポジティブなコントラスト学習 Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation ( http://arxiv.org/abs/2303.12112v2 ) ライセンス: Link先を確認 | Sara Sarto, Manuele Barraco, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara | (参考訳) CLIPモデルは最近、視覚・言語アーキテクチャから生成されたキャプションの評価など、多種多様なクロスモーダルタスクに非常に効果的であることが証明されている。
本稿では,画像キャプションのためのコントラストベース評価尺度,すなわち正示型コントラスト学習スコア(pac-s)を提案する。
いくつかのデータセットにまたがる実験により、私たちの新しいメトリクスは、画像とビデオの両方で人間の判断と最も高い相関を達成し、CIDErやSPICEのような既存の参照ベースのメトリクスとCLIP-Scoreのような参照なしメトリクスを上回ります。
最後に,人気のあるキャプション手法を考慮した場合,提案手法のシステムレベル相関をテストし,異なるクロスモーダル特徴を用いた場合の影響を評価する。
ソースコードとトレーニングされたモデルは、https://github.com/aimagelab/pacscore.com/で公開されている。 The CLIP model has been recently proven to be very effective for a variety of cross-modal tasks, including the evaluation of captions generated from vision-and-language architectures. In this paper, we propose a new recipe for a contrastive-based evaluation metric for image captioning, namely Positive-Augmented Contrastive learning Score (PAC-S), that in a novel way unifies the learning of a contrastive visual-semantic space with the addition of generated images and text on curated data. Experiments spanning several datasets demonstrate that our new metric achieves the highest correlation with human judgments on both images and videos, outperforming existing reference-based metrics like CIDEr and SPICE and reference-free metrics like CLIP-Score. Finally, we test the system-level correlation of the proposed metric when considering popular image captioning approaches, and assess the impact of employing different cross-modal features. Our source code and trained models are publicly available at: https://github.com/aimagelab/pacscore. | 翻訳日:2023-05-18 20:00:00 公開日:2023-05-16 |
# トラッピング領域による安全なマルチエージェント学習 Safe Multi-agent Learning via Trapping Regions ( http://arxiv.org/abs/2302.13844v2 ) ライセンス: Link先を確認 | Aleksander Czechowski, Frans A. Oliehoek | (参考訳) マルチエージェント学習の主な課題の1つは、アルゴリズムの収束を確立することである。
これはほとんどの単一エージェント環境とは全く対照的であり、システムの長期的な振る舞いの不確実性を引き起こすため、実用的なアプリケーションにおけるデプロイの障壁となる。
本研究では、動的システムの定性理論から知られるトラップ領域の概念を適用し、分散学習のための共同戦略空間における安全セットを作成する。
本研究では,既知の学習ダイナミクスを持つシステムにおいて,候補集合がトラッピング領域を形成することを検証するためのバイナリ分割アルゴリズムと,学習ダイナミクスが未知なシナリオに対するヒューリスティックサンプリングアルゴリズムを提案する。
本稿では,dirac生成広告ネットワークのレギュライゼーション版,オープンソースの微視的交通シミュレータsumoの状況下で実行される4区間交通制御シナリオ,経済競争の数学的モデルに対する応用例を示す。 One of the main challenges of multi-agent learning lies in establishing convergence of the algorithms, as, in general, a collection of individual, self-serving agents is not guaranteed to converge with their joint policy, when learning concurrently. This is in stark contrast to most single-agent environments, and sets a prohibitive barrier for deployment in practical applications, as it induces uncertainty in long term behavior of the system. In this work, we apply the concept of trapping regions, known from qualitative theory of dynamical systems, to create safety sets in the joint strategy space for decentralized learning. We propose a binary partitioning algorithm for verification that candidate sets form trapping regions in systems with known learning dynamics, and a heuristic sampling algorithm for scenarios where learning dynamics are not known. We demonstrate the applications to a regularized version of Dirac Generative Adversarial Network, a four-intersection traffic control scenario run in a state of the art open-source microscopic traffic simulator SUMO, and a mathematical model of economic competition. | 翻訳日:2023-05-18 19:56:57 公開日:2023-05-16 |
# 可変量子マルチブロックADMMアルゴリズムによる生成スケジューリング Trainable Variational Quantum-Multiblock ADMM Algorithm for Generation Scheduling ( http://arxiv.org/abs/2303.16318v2 ) ライセンス: Link先を確認 | Reza Mahroo, Amin Kargarian | (参考訳) 量子コンピューティングの出現は、複雑な問題の解決方法に革命をもたらす可能性がある。
本稿では,量子コンピューティング,機械学習,分散最適化を融合して生成スケジューリングを行う2ループ量子古典解アルゴリズムを提案する。
本研究の目的は,生成スケジューリングなどの実用的な電力系統最適化問題を解決するために,量子ビット数に制限のあるノイズの多い近距離量子マシンの導入を容易にすることである。
外ループは、生成スケジューリング問題を3つのサブプロブレムに分解する乗算器(QADMM)アルゴリズムの3ブロック量子代替方向法であり、1つの2次非制約バイナリ最適化(QUBO)と2つの非QUBOを含む。
内部ループは量子コンピュータ上でQUBOを解くためのトレーニング可能な量子近似最適化アルゴリズム(T-QAOA)である。
提案したT-QAOAは、量子古典機械の相互作用を逐次情報として翻訳し、リカレントニューラルネットワークを用いて、適切なサンプリング手法を用いて量子回路の変動パラメータを推定する。
T-QAOAは量子古典解法に必要な数百の反復ではなく、数回の量子ラーナー反復でQUBO解を決定する。
外部3ブロックADMMはQUBOと非QUBOを座標し、元の問題の解を得る。
提案したQADMMが収束することが保証されている条件について論じる。
2つの数学的および3世代スケジューリングケースが研究されている。
量子シミュレータと古典コンピュータを用いた解析により,提案アルゴリズムの有効性が示された。
T-QAOAの利点について,確率勾配降下に基づく最適化を用いたQAOAと比較検討した。 The advent of quantum computing can potentially revolutionize how complex problems are solved. This paper proposes a two-loop quantum-classical solution algorithm for generation scheduling by infusing quantum computing, machine learning, and distributed optimization. The aim is to facilitate employing noisy near-term quantum machines with a limited number of qubits to solve practical power system optimization problems such as generation scheduling. The outer loop is a 3-block quantum alternative direction method of multipliers (QADMM) algorithm that decomposes the generation scheduling problem into three subproblems, including one quadratically unconstrained binary optimization (QUBO) and two non-QUBOs. The inner loop is a trainable quantum approximate optimization algorithm (T-QAOA) for solving QUBO on a quantum computer. The proposed T-QAOA translates interactions of quantum-classical machines as sequential information and uses a recurrent neural network to estimate variational parameters of the quantum circuit with a proper sampling technique. T-QAOA determines the QUBO solution in a few quantum-learner iterations instead of hundreds of iterations needed for a quantum-classical solver. The outer 3-block ADMM coordinates QUBO and non-QUBO solutions to obtain the solution to the original problem. The conditions under which the proposed QADMM is guaranteed to converge are discussed. Two mathematical and three generation scheduling cases are studied. Analyses performed on quantum simulators and classical computers show the effectiveness of the proposed algorithm. The advantages of T-QAOA are discussed and numerically compared with QAOA which uses a stochastic gradient descent-based optimizer. | 翻訳日:2023-05-18 19:48:58 公開日:2023-05-16 |
# BERT法に基づく米国最高裁判所判例の分類 Classification of US Supreme Court Cases using BERT-Based Techniques ( http://arxiv.org/abs/2304.08649v2 ) ライセンス: Link先を確認 | Shubham Vatsal, Adam Meyers, and John E. Ortega | (参考訳) 変換器(BERT)からの双方向エンコーダ表現に基づくモデルは、名前付きエンティティ認識(NER)やPOSタグ付け(part-of-speech)といった多くの自然言語処理(NLP)タスクに対して、SOTA(State of the Art)結果を生成する。
興味深い現象は、BERTベースのモデルは、ファーストパスまたはアウト・オブ・ボックスベースでの使用が困難であると考えられる米国最高裁判所のような長い文書を分類する際に発生する。
本稿では,米国最高裁判所判決や最高裁判所データベース(SCDB)のためのBERTに基づく分類手法を実験し,以前のSOTA結果と比較する。
次に、長いドキュメントのSOTAモデルと結果を比較します。
その結果,(1)15カテゴリーの広い分類課題と(2)279カテゴリーの細粒度分類課題の2つの分類課題について比較した。
その結果,これまでに報告したsomaの結果から,それぞれ8\%,28\%の改善率を示す279カテゴリで80\%,細粒度で60\%の精度が得られた。 Models based on bidirectional encoder representations from transformers (BERT) produce state of the art (SOTA) results on many natural language processing (NLP) tasks such as named entity recognition (NER), part-of-speech (POS) tagging etc. An interesting phenomenon occurs when classifying long documents such as those from the US supreme court where BERT-based models can be considered difficult to use on a first-pass or out-of-the-box basis. In this paper, we experiment with several BERT-based classification techniques for US supreme court decisions or supreme court database (SCDB) and compare them with the previous SOTA results. We then compare our results specifically with SOTA models for long documents. We compare our results for two classification tasks: (1) a broad classification task with 15 categories and (2) a fine-grained classification task with 279 categories. Our best result produces an accuracy of 80\% on the 15 broad categories and 60\% on the fine-grained 279 categories which marks an improvement of 8\% and 28\% respectively from previously reported SOTA results. | 翻訳日:2023-05-18 19:41:20 公開日:2023-05-16 |
# 光子吸収リモートセンシング顕微鏡を用いたラベルフリー組織像の自動画像化 Automated Whole Slide Imaging for Label-Free Histology using Photon Absorption Remote Sensing Microscopy ( http://arxiv.org/abs/2304.13736v2 ) ライセンス: Link先を確認 | James E.D. Tweel, Benjamin R. Ecclestone, Marian Boktor, Deepak Dinakaran, John R. Mackey, Parsin Haji Reza | (参考訳) 組織学の分野は、がんやその他の疾患の病理診断の効率を抑える古い組織処理と染色技術に大きく依存している。
現在の染色法と高度なラベリング法は、しばしば破壊的かつ相互に互換性がなく、各染色に新しい組織切片を必要とする。
これにより診断プロセスが延長され、貴重な生検サンプルが枯渇する。
本研究では,最初の透過モード光子吸収リモートセンシング顕微鏡を用いたラベルフリー組織学プラットフォームを提案する。
組織サンプルを自動でスキャンするために最適化されたシステムは、既存のデジタル病理ツールと完全に互換性のある最大40倍の倍率のスライド画像を提供する。
スキャンは、細胞内診断の詳細で高品質で高解像度の画像をキャプチャする。
イメージング後、サンプルは組織化学的、免疫組織化学的、その他の染色技術に適している。
散乱と吸収(放射能および非放射能)のコントラストは、悪性のヒト乳腺および皮膚組織の全スライド画像に示される。
臨床的に有意な特徴が強調され,1対1の標準H&E染色画像で近接対応と類似コントラストが示される。
これまで報告したPix2pix仮想染色モデルを全スライド画像に適用し、スライドラベルのないH&Eエミュレーションにおけるこのアプローチの可能性を示した。
この研究は、診断効率を向上し、貴重な組織サンプルを保存しながら適用可能な染色数を拡大すると共に、ラベルのない光学的手法を標準的な病理組織学ワークフローに統合するための重要な進歩である。 The field of histology relies heavily on antiquated tissue processing and staining techniques that limit the efficiency of pathologic diagnoses of cancer and other diseases. Current staining and advanced labeling methods are often destructive and mutually incompatible, requiring new tissue sections for each stain. This prolongs the diagnostic process and depletes valuable biopsy samples. In this study, we present an alternative label-free histology platform using the first transmission-mode Photon Absorption Remote Sensing microscope. Optimized for automated whole slide scanning of unstained tissue samples, the system provides slide images at magnifications up to 40x that are fully compatible with existing digital pathology tools. The scans capture high quality and high-resolution images with subcellular diagnostic detail. After imaging, samples remain suitable for histochemical, immunohistochemical, and other staining techniques. Scattering and absorption (radiative and non-radiative) contrasts are shown in whole slide images of malignant human breast and skin tissues samples. Clinically relevant features are highlighted, and close correspondence and analogous contrast is demonstrated with one-to-one gold standard H&E stained images. Our previously reported pix2pix virtual staining model is applied to an entire whole slide image, showcasing the potential of this approach in whole slide label-free H&E emulation. This work is a critical advance for integrating label-free optical methods into standard histopathology workflows, both enhancing diagnostic efficiency, and broadening the number of stains that can be applied while preserving valuable tissue samples. | 翻訳日:2023-05-18 19:31:40 公開日:2023-05-16 |
# PED-ANOVA:任意部分空間におけるハイパーパラメータの重要性の効率的な定量化 PED-ANOVA: Efficiently Quantifying Hyperparameter Importance in Arbitrary Subspaces ( http://arxiv.org/abs/2304.10255v3 ) ライセンス: Link先を確認 | Shuhei Watanabe, Archit Bansal, Frank Hutter | (参考訳) 近年のディープラーニングにおけるハイパーパラメータ最適化(hpo)の普及は、優れたハイパーパラメータ(hp)空間設計が強力なモデルのトレーニングに果たす役割を強調している。
逆に、優れたHP空間を設計することは、異なるHPの役割を理解することに依存する。
これはHP Importance (HPI)の研究を動機付けており、例えば、機能的ANOVA(f-ANOVA)の一般的な方法である。
しかし、オリジナルのf-アノヴァの定式化はアルゴリズム設計に最も関係のある部分空間、例えばトップパフォーマンスで定義された部分空間には適用できない。
この問題を解決するために、任意の部分空間に対するf-ANOVAの新たな定式化を導き、ピアソン発散(PED)を用いてHPIの閉形式計算を可能にするアルゴリズムを提案する。
PED-ANOVAと呼ばれるこの新しいアルゴリズムは,異なる部分空間における重要なHPの同定に成功し,計算効率も極めて高いことを示す。 The recent rise in popularity of Hyperparameter Optimization (HPO) for deep learning has highlighted the role that good hyperparameter (HP) space design can play in training strong models. In turn, designing a good HP space is critically dependent on understanding the role of different HPs. This motivates research on HP Importance (HPI), e.g., with the popular method of functional ANOVA (f-ANOVA). However, the original f-ANOVA formulation is inapplicable to the subspaces most relevant to algorithm designers, such as those defined by top performance. To overcome this issue, we derive a novel formulation of f-ANOVA for arbitrary subspaces and propose an algorithm that uses Pearson divergence (PED) to enable a closed-form calculation of HPI. We demonstrate that this new algorithm, dubbed PED-ANOVA, is able to successfully identify important HPs in different subspaces while also being extremely computationally efficient. | 翻訳日:2023-05-18 19:29:39 公開日:2023-05-16 |
# データセット蒸留に関する総合的研究:性能,プライバシ,ロバスト性,公正性 A Comprehensive Study on Dataset Distillation: Performance, Privacy, Robustness and Fairness ( http://arxiv.org/abs/2305.03355v2 ) ライセンス: Link先を確認 | Zongxiong Chen, Jiahui Geng, Derui Zhu, Herbert Woisetschlaeger, Qing Li, Sonja Schimmler, Ruben Mayer, Chunming Rong | (参考訳) データセット蒸留の目的は、元のデータセットの豊富な特徴を小さなデータセットにエンコードすることである。
ニューラルネットワークのトレーニングと関連する研究を加速する有望なアプローチである。
蒸留画像のインフォメーション性と一般化性能を改善するために異なるアプローチが提案されている。
しかしながら、セキュリティの観点からこのテクニックを包括的に分析する作業はなく、潜在的なリスクに関する体系的な理解が欠如している。
本研究では,現状のデータセット蒸留法を評価するために,広範囲にわたる実験を行った。
私たちは、プライバシーリスクがまだ残っていることを示すために、メンバーシップ推論攻撃をうまく利用しています。
我々の研究は、データセットの蒸留がモデルロバスト性に様々な影響を及ぼし、予測を行う際にクラス間のモデル不公平性を増幅することを示した。
この研究は、データセットの蒸留評価のための大規模なベンチマークフレームワークを提供する。 The aim of dataset distillation is to encode the rich features of an original dataset into a tiny dataset. It is a promising approach to accelerate neural network training and related studies. Different approaches have been proposed to improve the informativeness and generalization performance of distilled images. However, no work has comprehensively analyzed this technique from a security perspective and there is a lack of systematic understanding of potential risks. In this work, we conduct extensive experiments to evaluate current state-of-the-art dataset distillation methods. We successfully use membership inference attacks to show that privacy risks still remain. Our work also demonstrates that dataset distillation can cause varying degrees of impact on model robustness and amplify model unfairness across classes when making predictions. This work offers a large-scale benchmarking framework for dataset distillation evaluation. | 翻訳日:2023-05-18 19:20:02 公開日:2023-05-16 |
# スピン量子ビットを用いたスピンパリティ測定による量子計算 Quantum Computation by Spin Parity Measurements with Encoded Spin Qubits ( http://arxiv.org/abs/2305.09727v1 ) ライセンス: Link先を確認 | Matthew Brooks and Charles Tahan | (参考訳) 2-パウリ観測器の合同測定は、量子情報の制御と保護の両方のための強力なツールである。
簡単な測定方法に従うことで、2-Pauliパリティと1-qubit測定を用いた1-および2-qubit回転が1つのアンシラ量子ビットのみを必要としながらユニタリであることが保証される。
この測定に基づく量子計算用言語は、隣接する量子ビットからドット間のスピンパリティを測定することにより、符号化された二重量子ドット一重項スピン量子ビットに直接適用できることが示されている。
交換相互作用とともに、完全な漏れのない測定に基づくゲートセットを既知のパウリ補正まで示すことができる。
理論的に正確なスピンパリティ測定と実験的に実証された非対称スピンパリティ測定の両方が、いくつかの余分な漏れ緩和測定ステップを条件に提案された測定基準の達成に有効であることが示されている。
この新しいスピン量子ビット制御の方法は、現在のスピン量子ビットプロセッサデバイスで実行可能な測定ベースの制御のリーク抑制、低リソースオーバーヘッドの実装を提供する。 Joint measurements of two-Pauli observables are a powerful tool for both the control and protection of quantum information. By following a simple recipe for measurement choices, single- and two- qubit rotations using two-Pauli parity and single qubit measurements are guaranteed to be unitary whilst requiring only a single ancilla qubit. This language for measurement based quantum computing is shown to be directly applicable to encoded double quantum dot singlet-triplet spin qubits, by measuring spin-parity between dots from neighboring qubits. Along with exchange interaction, a complete, leakage free, measurement based gate set can be shown, up to a known Pauli correction. Both theoretically exact spin-parity measurements and experimentally demonstrated asymmetric spin-parity measurements are shown to be viable for achieving the proposed measurement based scheme, provided some extra leakage mitigating measurement steps. This new method of spin qubit control offers a leakage suppressed, low resource overhead implementation of a measurement-based control that is viable on current spin qubit processor devices. | 翻訳日:2023-05-18 19:02:23 公開日:2023-05-16 |
# 都市シーンの実用的意味画像合成に向けて Towards Pragmatic Semantic Image Synthesis for Urban Scenes ( http://arxiv.org/abs/2305.09726v1 ) ライセンス: Link先を確認 | George Eskandar, Diandian Guo, Karim Guirguis, Bin Yang | (参考訳) 大量のトレーニングと検証データの必要性は、自律運転のためのAIアルゴリズムのスケーリングにおいて大きな懸念事項である。
セマンティック画像合成(SIS)は、セマンティックレイアウトを画像に変換することでこの問題に対処し、フォトリアリスティックデータの制御可能な生成を提供する。
しかし、それらは大量のペアデータを必要とし、余分なコストがかかる。
本研究では,合成画像とラベル付きデータセットとラベルなし実画像付きデータセットを与えられた場合,入力マスクの内容と実際の画像の出現を伴って画像を生成するモデルを学習することを目的とする。
この新しいタスクは、よく知られた教師なしのsisタスクをより実用的な環境に再構築し、運転シミュレーターから安価で利用可能な合成データを活用し、都市シーンのフォトリアリスティックな画像を生成する方法を学ぶ。
これは、ラベルとイメージが同じドメインから来ているが、トレーニング中にペアリングされていないと仮定する以前の作品とは対照的である。
従来の教師なしの作業は、2つの異なるドメイン間の分散シフトを処理しないため、このタスクでは役に立たない。
これらの問題を回避すべく,我々は2つの大きな貢献を持つ新しい枠組みを提案する。
まず, この合成画像を, パッチレベルでの高次特徴の差分をペナルティ化することにより, 生成画像の内容のガイドとして活用する。
第2に、対象領域のセマンティック分布に過度に適合する1つの識別器を用いた以前の作品とは対照的に、画像全体の識別器と画像パッチ上のマルチスケール識別器を用いる。
GTA-V $\rightarrow$ Cityscapes と GTA-V $\rightarrow$ Mapillary のベンチマークでは、このタスクにおける最先端に対する提案モデルの優れた性能を示している。 The need for large amounts of training and validation data is a huge concern in scaling AI algorithms for autonomous driving. Semantic Image Synthesis (SIS), or label-to-image translation, promises to address this issue by translating semantic layouts to images, providing a controllable generation of photorealistic data. However, they require a large amount of paired data, incurring extra costs. In this work, we present a new task: given a dataset with synthetic images and labels and a dataset with unlabeled real images, our goal is to learn a model that can generate images with the content of the input mask and the appearance of real images. This new task reframes the well-known unsupervised SIS task in a more practical setting, where we leverage cheaply available synthetic data from a driving simulator to learn how to generate photorealistic images of urban scenes. This stands in contrast to previous works, which assume that labels and images come from the same domain but are unpaired during training. We find that previous unsupervised works underperform on this task, as they do not handle distribution shifts between two different domains. To bypass these problems, we propose a novel framework with two main contributions. First, we leverage the synthetic image as a guide to the content of the generated image by penalizing the difference between their high-level features on a patch level. Second, in contrast to previous works which employ one discriminator that overfits the target domain semantic distribution, we employ a discriminator for the whole image and multiscale discriminators on the image patches. Extensive comparisons on the benchmarks GTA-V $\rightarrow$ Cityscapes and GTA-V $\rightarrow$ Mapillary show the superior performance of the proposed model against state-of-the-art on this task. | 翻訳日:2023-05-18 19:02:05 公開日:2023-05-16 |
# ランダムエッジ符号化:大きなラベル付きグラフのワンショットビットバック符号化 Random Edge Coding: One-Shot Bits-Back Coding of Large Labeled Graphs ( http://arxiv.org/abs/2305.09705v1 ) ライセンス: Link先を確認 | Daniel Severo, James Townsend, Ashish Khisti, Alireza Makhzani | (参考訳) 我々はランダムエッジ符号化と呼ばれる大きなラベル付きグラフを圧縮するためのワンショット手法を提案する。
P\'olyaのUrnに基づくパラメータフリーモデルと組み合わせると、最悪の計算とメモリの複雑さは観測されたエッジの数とほぼ直線的にスケールし、スパースグラフ上で効率よく、整数演算のみを必要とする。
この手法の鍵はビットバック符号化であり、エッジリストから置き換えることなくエッジや頂点をサンプリングするために、グラフの構造を保存する方法である。
最適性は、辺と辺内の頂点の置換に不変な一連のランダムグラフモデルの下で証明される。
実験によれば、ランダムなエッジコーディングは実世界のネットワークデータセット上で競合的な圧縮性能を達成し、数百万のノードとエッジを持つグラフにスケールすることができる。 We present a one-shot method for compressing large labeled graphs called Random Edge Coding. When paired with a parameter-free model based on P\'olya's Urn, the worst-case computational and memory complexities scale quasi-linearly and linearly with the number of observed edges, making it efficient on sparse graphs, and requires only integer arithmetic. Key to our method is bits-back coding, which is used to sample edges and vertices without replacement from the edge-list in a way that preserves the structure of the graph. Optimality is proven under a class of random graph models that are invariant to permutations of the edges and of vertices within an edge. Experiments indicate Random Edge Coding can achieve competitive compression performance on real-world network datasets and scales to graphs with millions of nodes and edges. | 翻訳日:2023-05-18 19:01:36 公開日:2023-05-16 |
# 拡散変量グラフニューラルネットワークによる時空間予測のための動的因果説明 Dynamic Causal Explanation Based Diffusion-Variational Graph Neural Network for Spatio-temporal Forecasting ( http://arxiv.org/abs/2305.09703v1 ) ライセンス: Link先を確認 | Guojun Liang, Prayag Tiwari, S{\l}awomir Nowaczyk, Stefan Byttner, Fernando Alonso-Fernandez | (参考訳) グラフニューラルネットワーク(GNN)、特に動的GNNは時空間予測問題のホットスポットとして研究されている。
多くの動的グラフ構築手法が開発されているが、近隣ノード間の因果関係を調べることは比較的少ない。
したがって、結果のモデルには、動的に生成されたグラフの近傍ノード間の因果関係の強い説明性が欠如しており、その後の決定のリスクを容易に引き起こすことができる。
さらに、実世界のグラフ構造ネットワークにおいて、時系列データセットに基づく動的グラフの不確実性やノイズを考慮できるものはほとんどない。
本稿では,時空間予測のための動的拡散変動グラフニューラルネットワーク(DVGNN)を提案する。
動的グラフ構築には教師なし生成モデルが考案されている。
グラフ畳み込みネットワーク(GCN)の2つの層を適用し、エンコーダステージにおける潜伏ノード埋め込みの後方分布を算出する。
次に、拡散モデルを用いて動的リンク確率を推定し、デコーダ段階で因果グラフを適応的に再構成する。
新しい損失関数は理論的に導出され、バックプロパゲーション期間中に下限のエビデンスによって動的グラフの確率分布を推定する再パラメータ化トリックが適用される。
生成したグラフを得た後、動的GCNと時間的注意を将来の状態を予測するために適用する。
異なる領域の異なるグラフ構造の4つの実世界のデータセットで実験を行う。
その結果,提案したDVGNNモデルは最先端の手法より優れており,ロッド平均正方形誤差は高いロバスト性を示した。
また, f1-score と確率分布解析により, dvgnn が動的グラフの因果関係と不確実性をより反映することを示す。 Graph neural networks (GNNs), especially dynamic GNNs, have become a research hotspot in spatio-temporal forecasting problems. While many dynamic graph construction methods have been developed, relatively few of them explore the causal relationship between neighbour nodes. Thus, the resulting models lack strong explainability for the causal relationship between the neighbour nodes of the dynamically generated graphs, which can easily lead to a risk in subsequent decisions. Moreover, few of them consider the uncertainty and noise of dynamic graphs based on the time series datasets, which are ubiquitous in real-world graph structure networks. In this paper, we propose a novel Dynamic Diffusion-Variational Graph Neural Network (DVGNN) for spatio-temporal forecasting. For dynamic graph construction, an unsupervised generative model is devised. Two layers of graph convolutional network (GCN) are applied to calculate the posterior distribution of the latent node embeddings in the encoder stage. Then, a diffusion model is used to infer the dynamic link probability and reconstruct causal graphs in the decoder stage adaptively. The new loss function is derived theoretically, and the reparameterization trick is adopted in estimating the probability distribution of the dynamic graphs by Evidence Lower Bound during the backpropagation period. After obtaining the generated graphs, dynamic GCN and temporal attention are applied to predict future states. Experiments are conducted on four real-world datasets of different graph structures in different domains. The results demonstrate that the proposed DVGNN model outperforms state-of-the-art approaches and achieves outstanding Root Mean Squared Error result while exhibiting higher robustness. Also, by F1-score and probability distribution analysis, we demonstrate that DVGNN better reflects the causal relationship and uncertainty of dynamic graphs. | 翻訳日:2023-05-18 19:01:22 公開日:2023-05-16 |
# 適応型プロンプトチューニングによるモバイルユーザインタフェース要素検出 Mobile User Interface Element Detection Via Adaptively Prompt Tuning ( http://arxiv.org/abs/2305.09699v1 ) ライセンス: Link先を確認 | Zhangxuan Gu, Zhuoer Xu, Haoxing Chen, Jun Lan, Changhua Meng, Weiqiang Wang | (参考訳) 最近のオブジェクト検出アプローチは、画像-テキストアライメントのための事前訓練された視覚言語モデルに依存している。
しかし、モバイルユーザインタフェース(MUI)要素には、その内容や機能を記述する追加のOCR情報が含まれているため、検出に失敗するが、しばしば無視される。
本稿では,MUI-zhと呼ばれる新しいMUI要素検出データセットを開発し,OCR情報を識別するアダプティブ・プロンプト・チューニング(APT)モジュールを提案する。
APTは軽量で効果的なモジュールであり、様々なモードでカテゴリプロンプトを共同で最適化する。
各要素について、APTはその視覚的特徴とOCR記述を均一にエンコードし、凍結したカテゴリプロンプトの表現を動的に調整する。
既存のCLIPをベースとしたMUI要素検出装置におけるプラグアンドプレイAPTの有効性を評価した。
広範な実験により、2つのデータセットでかなりの改善が得られた。
データセットは \url{github.com/antmachineintelligence/mui-zh} で利用可能である。 Recent object detection approaches rely on pretrained vision-language models for image-text alignment. However, they fail to detect the Mobile User Interface (MUI) element since it contains additional OCR information, which describes its content and function but is often ignored. In this paper, we develop a new MUI element detection dataset named MUI-zh and propose an Adaptively Prompt Tuning (APT) module to take advantage of discriminating OCR information. APT is a lightweight and effective module to jointly optimize category prompts across different modalities. For every element, APT uniformly encodes its visual features and OCR descriptions to dynamically adjust the representation of frozen category prompts. We evaluate the effectiveness of our plug-and-play APT upon several existing CLIP-based detectors for both standard and open-vocabulary MUI element detection. Extensive experiments show that our method achieves considerable improvements on two datasets. The datasets is available at \url{github.com/antmachineintelligence/MUI-zh}. | 翻訳日:2023-05-18 19:00:53 公開日:2023-05-16 |
# e=mc^2$対ローレンツ共変物理学の対称性 $E=mc^2$ versus Symmetry for Lorentz Covariant Physics ( http://arxiv.org/abs/2305.09697v1 ) ライセンス: Link先を確認 | Otto C.W. Kong and Hock King Ting (Nat'l Central U, Taiwan) | (参考訳) 有名な方程式 $E=mc^2$ は、(エネルギー-)運動量 4-ベクトルの「相対論的」力学の設定における基本的にの大きさである粒子質量のバージョンである。
しかし、アインシュタイン自身が示唆したように、質量速度としての運動量の概念は正しくないかもしれない。
ハミルトニアンの定式化の観点は、電磁場の下で荷電粒子の運動の場合、実際には右、正準、運動量 4-ベクトルが進化等級を持つような設定を与える。
重要な単純な結果は、適切な評価を逃したようだ。
これに関連して、ポアンカーの対称性を「相対論的」量子力学の基本的な対称性として捉えることに対する明確な議論を示し、適切な対称性理論の定式化と共変ハミルトン力学の必要図形を、一般には粒子固有時間ではない進化パラメータで議論する。
実際、量子状態の任意の位置演算子の作用がオンシェル質量状態に反していることは明らかである。
現象学的に非常に成功した量子場理論は「相対論的」量子力学の「第二量子化」バージョンである。
我々は、対称性の図でそれとある程度の和解の方法を提示し、その意味を議論する。 The famous equation $E=mc^2$ is a version of particle mass being essentially the magnitude of the (energy-)momentum four-vector in the setting of `relativistic' dynamics, which can be seen as dictated by the Poincar\'e symmetry adopted as the relativity symmetry. However, as Einstein himself suggested, the naive notion of momentum as mass times velocity may not be right. The Hamiltonian formulation perspective gives exactly such a setting which in the case of motion of a charged particle under an electromagnetic field actually has the right, canonical, momentum four-vector with an evolving magnitude. The important simple result seems to have missed proper appreciation. In relation to that, we present clear arguments against taking the Poincar\'e symmetry as the fundamental symmetry behind `relativistic' quantum dynamics, and discuss the proper symmetry theoretical formulation and the necessary picture of the covariant Hamiltonian dynamics with an evolution parameter that is, in general, not a particle proper time. In fact, it is obvious that the action of any position operator of a quantum state violates the on-shell mass condition. The phenomenologically quite successful quantum field theories are `second quantized' versions of `relativistic' quantum mechanics. We present a way for some reconciliation of that with our symmetry picture and discuss implications. | 翻訳日:2023-05-18 19:00:38 公開日:2023-05-16 |
# 語彙予測のためのテーブル事前学習エンパワーモデル Generative Table Pre-training Empowers Models for Tabular Prediction ( http://arxiv.org/abs/2305.09696v1 ) ライセンス: Link先を確認 | Tianping Zhang, Shaowen Wang, Shuicheng Yan, Jian Li, Qian Liu | (参考訳) 近年,テーブル事前学習の話題が研究の関心を集めている。
しかし、表予測の性能を高めるためにテーブル事前学習を利用する方法は未解決の課題である。
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
現実世界の表データの大規模なコーパスを事前トレーニングした後、TapTapは高品質な合成テーブルを生成し、プライバシー保護、リソースの低さ、値の計算不足、不均衡な分類など、表データのさまざまなアプリケーションをサポートする。
12のデータセットに対する大規模な実験は、TapTapがさまざまなシナリオで合計16のベースラインを上回っていることを示している。
一方、LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
さらに、テーブル事前トレーニングの助けを借りて、TapTapが生成した合成データを使ってトレーニングされたモデルは、実験データセットの半分のオリジナルのデータセットを使用したモデルと競合し、合成表データ生成のマイルストーンとなる。
コードはhttps://github.com/ZhangTP 1996/TapTapで入手できる。 Recently, the topic of table pre-training has attracted considerable research interest. However, how to employ table pre-training to boost the performance of tabular prediction remains an open challenge. In this paper, we propose TapTap, the first attempt that leverages table pre-training to empower models for tabular prediction. After pre-training on a large corpus of real-world tabular data, TapTap can generate high-quality synthetic tables to support various applications on tabular data, including privacy protection, low resource regime, missing value imputation, and imbalanced classification. Extensive experiments on 12 datasets demonstrate that TapTap outperforms a total of 16 baselines in different scenarios. Meanwhile, it can be easily combined with various backbone models, including LightGBM, Multilayer Perceptron (MLP) and Transformer. Moreover, with the aid of table pre-training, models trained using synthetic data generated by TapTap can even compete with models using the original dataset on half of the experimental datasets, marking a milestone in the development of synthetic tabular data generation. The codes are available at https://github.com/ZhangTP1996/TapTap. | 翻訳日:2023-05-18 19:00:12 公開日:2023-05-16 |
# ソフトウェア品質テストに機械学習分析を適用する Applying Machine Learning Analysis for Software Quality Test ( http://arxiv.org/abs/2305.09695v1 ) ライセンス: Link先を確認 | Al Khan, Remudin Reshid Mekuria, Ruslan Isaev | (参考訳) ソフトウェア開発における最大のコストの1つは、メンテナンスです。
したがって、メンテナンスのトリガと、それが予測されるかどうかを理解することが重要である。
多くの研究が、作成プログラムの複雑さを評価する特定の方法が、ソフトウェア障害によるメンテナンスの可能性を確認するのに有用な予測モデルを生み出すことを実証している。
ルーチンとして、それはリリース前に実行され、モデルの設定は、しばしば特定のオブジェクト指向ソフトウェア測定を要求する。
必ずしも、ソフトウェア開発者がこれらの測定値にアクセスできるとは限らない。
本稿では,機械学習を利用可能なデータに適用し,累積ソフトウェア故障レベルを算出する。
機械学習を用いたソフトウェアの残差欠陥を予測する手法は、残差欠陥を予測するという課題の解決策として考察することができる。
ソフトウェアメトリクスと欠陥データは、静的ソースコードリポジトリから分離された。
静的コードはソフトウェアメトリクスの作成に使用され、リポジトリの報告されたバグは欠陥情報収集に使用される。
相関法を用いることで、欠陥データと無関係なメトリクスを取り除いた。
これにより、プログラミングプロセスを一時停止することなく、すべてのデータを分析できる。
大規模で高度なソフトウェアの主な問題は、すべてを手動で制御することは不可能であり、エラーのコストは非常に高くつくということです。
その結果、開発者はテスト中にエラーを見逃す可能性があるため、メンテナンスコストが上昇する。
ソフトウェアの欠陥を正確に予測する方法を見つけることが全体的な目的である。 One of the biggest expense in software development is the maintenance. Therefore, it is critical to comprehend what triggers maintenance and if it may be predicted. Numerous research have demonstrated that specific methods of assessing the complexity of created programs may produce useful prediction models to ascertain the possibility of maintenance due to software failures. As a routine it is performed prior to the release, and setting up the models frequently calls for certain, object-oriented software measurements. It is not always the case that software developers have access to these measurements. In this paper, the machine learning is applied on the available data to calculate the cumulative software failure levels. A technique to forecast a software`s residual defectiveness using machine learning can be looked into as a solution to the challenge of predicting residual flaws. Software metrics and defect data were separated out of the static source code repository. Static code is used to create software metrics, and reported bugs in the repository are used to gather defect information. By using a correlation method, metrics that had no connection to the defect data were removed. This makes it possible to analyze all the data without pausing the programming process. Large, sophisticated software`s primary issue is that it is impossible to control everything manually, and the cost of an error can be quite expensive. Developers may miss errors during testing as a consequence, which will raise maintenance costs. Finding a method to accurately forecast software defects is the overall objective. | 翻訳日:2023-05-18 18:59:51 公開日:2023-05-16 |
# バイアス計測のためのエントロピー不確かさ Entropic Uncertainty for Biased Measurements ( http://arxiv.org/abs/2305.09753v1 ) ライセンス: Link先を確認 | Walter O. Krawec | (参考訳) エントロピー不確実性関係は、特に量子暗号において強力なツールである。
彼らは典型的には、測定重複の結果、第三者の敵が測定結果を保持できる不確実性の量を拘束する。
しかし、2つの測定基準が互いに偏っている場合、標準エントロピーの不確かさ関係は常にエントロピーの最適下界を与えるとは限らない。
ここでは、ある量子状態と、2つの測定ベースがもはや相互に偏りのない場合の新たなエントロピー不確実性関係を導出する。
BB84と障害/バイアス計測装置を含む2つの異なる量子暗号プロトコルのバウンダリを評価し、標準エントロピー不確実性関係を用いた先行研究と比較して、新しいバウンダリがいくつかのシナリオで高いキーレートを生成可能であることを示す。 Entropic uncertainty relations are powerful tools, especially in quantum cryptography. They typically bound the amount of uncertainty a third-party adversary may hold on a measurement outcome as a result of the measurement overlap. However, when the two measurement bases are biased towards one another, standard entropic uncertainty relations do not always provide optimal lower bounds on the entropy. Here, we derive a new entropic uncertainty relation, for certain quantum states and for instances where the two measurement bases are no longer mutually unbiased. We evaluate our bound on two different quantum cryptographic protocols, including BB84 with faulty/biased measurement devices, and show that our new bound can produce higher key-rates under several scenarios when compared with prior work using standard entropic uncertainty relations. | 翻訳日:2023-05-18 18:53:49 公開日:2023-05-16 |
# icdar 2023 階層的テキスト検出と認識に関するコンペティション ICDAR 2023 Competition on Hierarchical Text Detection and Recognition ( http://arxiv.org/abs/2305.09750v1 ) ライセンス: Link先を確認 | Shangbang Long, Siyang Qin, Dmitry Panteleev, Alessandro Bissacco, Yasuhisa Fujii, Michalis Raptis | (参考訳) 階層的テキスト検出と認識に関するコンペティションを組織する。
このコンペティションは、テキストの検出と認識と幾何学的レイアウト分析を共同で行うディープラーニングモデルとシステムの研究を促進することを目的としている。
提案するコンペティション組織の詳細について,タスク,データセット,評価,スケジュールなどを紹介する。
大会期間中(2023年1月2日から2023年4月1日まで)、提案された2つのタスクで20以上のチームから少なくとも50の応募が行われた。
チーム数と応募数を考慮すると、hiertextコンペティションは成功したと結論づける。
本報告では、競争結果とそれらからの洞察についても紹介する。 We organize a competition on hierarchical text detection and recognition. The competition is aimed to promote research into deep learning models and systems that can jointly perform text detection and recognition and geometric layout analysis. We present details of the proposed competition organization, including tasks, datasets, evaluations, and schedule. During the competition period (from January 2nd 2023 to April 1st 2023), at least 50 submissions from more than 20 teams were made in the 2 proposed tasks. Considering the number of teams and submissions, we conclude that the HierText competition has been successfully held. In this report, we will also present the competition results and insights from them. | 翻訳日:2023-05-18 18:53:34 公開日:2023-05-16 |
# 部分ゲージ型対称性保護トポロジカル秩序状態からの対称性強化トポロジカル秩序 Symmetry-enriched topological order from partially gauging symmetry-protected topologically ordered states assisted by measurements ( http://arxiv.org/abs/2305.09747v1 ) ライセンス: Link先を確認 | Yabo Li, Hiroki Sukeno, Aswin Parayil Mana, Hendrik Poulsen Nautrup, Tzu-Chieh Wei | (参考訳) 対称性が保護された位相相は、対称性によって保護される非自明な短距離の絡み合いを示し、対称性を維持しながら自明な積状態と断続的に接続できない。
対照的に、固有位相はそれらの安定化のために通常の対称性を必要とせず、それらの基底状態は長距離の絡み合いを示す。
与えられた対称性群 $G$ に対して、$G$ で保護された 2D SPT 位相は、大域対称性 $G$ をゲージすることで、ツイスト量子二重モデル $D^{\omega}(G)$ で示される 2D 位相と双対であることが知られている。
最近、そのような一般化されたゲージ写像は、局所ユニタリ数や局所測定によって、$G$が有限可解群であるときに実装できることが判明した。
ここでは,固定点基底波関数からg$-sptを計測し,n$-step gauging 手順を適用する一般的なアプローチについて検討する。
我々は,n段階観測中に出現する中間状態の詳細な解析を行い,これらの状態の出現する対称性に富む位相秩序を計測・同定するツールを提供する。
これらの中間状態に対する一般格子の親ハミルトニアンを構築し、spt順序状態を持つねじれた量子二重の絡み合った重ね合わせを形成することを示した。
特に、それらは集合次数の大域的対称性を尊重しない有限深さの局所量子回路を通してtqdと接続できることが示されている。
いわゆる対称性分岐線演算子を導入し、spt順序状態の入力データ $g$ と $[\omega]\in h^3(g,u(1))$ を用いて、設定相の対称性分数化クラスと対称性不定化クラスを抽出するのに使用できることを示した。
本稿では, 2面体群 $d_n$ や四元数群 $q_8$ のようなアーベル的および非アーベル的例に対して,新たに出現する順序条件を準備および特徴付ける手順を示す。 Symmetry protected topological phases exhibit nontrivial short-ranged entanglement protected by symmetry and cannot be adiabatically connected to trivial product states while preserving the symmetry. In contrast, intrinsic topological phases do not need ordinary symmetry to stabilize them and their ground states exhibit long-range entanglement. It is known that for a given symmetry group $G$, the 2D SPT phase protected by $G$ is dual to the 2D topological phase exemplified by the twisted quantum double model $D^{\omega}(G)$ via gauging the global symmetry $G$. Recently it was realized that such a general gauging map can be implemented by some local unitaries and local measurements when $G$ is a finite, solvable group. Here, we review the general approach to gauging a $G$-SPT starting from a fixed-point ground-state wave function and applying a $N$-step gauging procedure. We provide an in-depth analysis of the intermediate states emerging during the N-step gauging and provide tools to measure and identify the emerging symmetry-enriched topological order of these states. We construct the generic lattice parent Hamiltonians for these intermediate states, and show that they form an entangled superposition of a twisted quantum double with an SPT ordered state. Notably, we show that they can be connected to the TQD through a finite-depth, local quantum circuit which does not respect the global symmetry of the SET order. We introduce the so-called symmetry branch line operators and show that they can be used to extract the symmetry fractionalization classes and symmetry defectification classes of the SET phases with the input data $G$ and $[\omega]\in H^3(G,U(1))$ of the pre-gauged SPT ordered state. We illustrate the procedure of preparing and characterizing the emerging SET ordered states for some Abelian and non-Abelian examples such as dihedral groups $D_n$ and the quaternion group $Q_8$. | 翻訳日:2023-05-18 18:53:24 公開日:2023-05-16 |
# 高速・フレキシブルスペクトル圧縮イメージングのための範囲ヌル空間分解法 A Range-Null Space Decomposition Approach for Fast and Flexible Spectral Compressive Imaging ( http://arxiv.org/abs/2305.09746v1 ) ライセンス: Link先を確認 | Junyu Wang, Shijie Wang, Ruijie Zhang, Zengqiang Zheng, Wenyu Liu, Xinggang Wang | (参考訳) 圧縮ハイパースペクトル画像(HSI)再構成のための新しいフレームワークであるRND-SCIを提案する。
我々のフレームワークは、再構成されたオブジェクトをレンジスペースおよびヌルスペースコンポーネントに分解し、レンジスペース部はソリューションが圧縮プロセスに適合することを保証し、ヌルスペース項は出力が満足できる性質を持つように制約する前に深いHSIを導入する。
RND-SCIは、強い解釈性を持つ設計だけでなく、様々なHSI再構成ネットワークにも容易に適用でき、計算オーバーヘッドを最小限に抑えたHSIの品質を向上させることができる。
RND-SCIは、トレーニング済みオフザシェルフモデルへの再トレーニング、微調整、プラグングにおけるHSI再構成ネットワークの性能を大幅に向上させる。
このフレームワークとSAUNetに基づいて,超高速なHSI再構成ネットワークRND-SAUNetを設計し,従来の低時間化手法に比べて優れた復元精度を維持しながら1秒あたり91フレームを実現した。
コードとモデルはhttps://github.com/hustvl/rnd-sciで入手できる。 We present RND-SCI, a novel framework for compressive hyperspectral image (HSI) reconstruction. Our framework decomposes the reconstructed object into range-space and null-space components, where the range-space part ensures the solution conforms to the compression process, and the null-space term introduces a deep HSI prior to constraining the output to have satisfactory properties. RND-SCI is not only simple in design with strong interpretability but also can be easily adapted to various HSI reconstruction networks, improving the quality of HSIs with minimal computational overhead. RND-SCI significantly boosts the performance of HSI reconstruction networks in retraining, fine-tuning or plugging into a pre-trained off-the-shelf model. Based on the framework and SAUNet, we design an extremely fast HSI reconstruction network, RND-SAUNet, which achieves an astounding 91 frames per second while maintaining superior reconstruction accuracy compared to other less time-consuming methods. Code and models are available at https://github.com/hustvl/RND-SCI. | 翻訳日:2023-05-18 18:52:45 公開日:2023-05-16 |
# 液体アルゴン検出器における低エネルギー物理のための少数ヒット機械学習分類アルゴリズムの評価 Assessment of few-hits machine learning classification algorithms for low energy physics in liquid argon detectors ( http://arxiv.org/abs/2305.09744v1 ) ライセンス: Link先を確認 | Matteo Biassoni, Andrea Giachero, Michele Grossi, Daniele Guffanti, Danilo Labranca, Roberto Moretti, Marco Rossi, Francesco Terranova, Sofia Vallecorsa | (参考訳) 低エネルギー体制下での大規模液体アルゴンTPCの物理ポテンシャルは、従来の分類アルゴリズムでは利用できない情報を数hのイベントでエンコードするため、完全に制限される。
機械学習(ML)技術は、この種の分類問題に最善を尽くす。
本稿では,従来の(決定論的)アルゴリズムに対する性能評価を行う。
畳み込みニューラルネットワーク(CNN)とトランスフォーマーエンコーダ(Transformer-Encoder)は、低エネルギー物理の最も難しい分類問題の一つとして、決定論的アルゴリズムよりも優れていることを示した。
我々はTransformer-Encoder法とCNNの利点と落とし穴について論じ、これらの手法を用いて検出パラメータを最適化し、DUNE位相II検出器("Module of Opportunity")に重点を置いている("Module of Opportunity")。 The physics potential of massive liquid argon TPCs in the low-energy regime is still to be fully reaped because few-hits events encode information that can hardly be exploited by conventional classification algorithms. Machine learning (ML) techniques give their best in these types of classification problems. In this paper, we evaluate their performance against conventional (deterministic) algorithms. We demonstrate that both Convolutional Neural Networks (CNN) and Transformer-Encoder methods outperform deterministic algorithms in one of the most challenging classification problems of low-energy physics (single- versus double-beta events). We discuss the advantages and pitfalls of Transformer-Encoder methods versus CNN and employ these methods to optimize the detector parameters, with an emphasis on the DUNE Phase II detectors ("Module of Opportunity"). | 翻訳日:2023-05-18 18:52:25 公開日:2023-05-16 |
# ML支援資源配分のための機能停止と新たな損失関数:厳密な分析フレームワーク Outage Performance and Novel Loss Function for an ML-Assisted Resource Allocation: An Exact Analytical Framework ( http://arxiv.org/abs/2305.09739v1 ) ライセンス: Link先を確認 | Nidhi Simmons, David E Simmons, Michel Daoud Yacoub | (参考訳) 機械学習(ml)は、コミュニケーションを超えて6gを可能にするための重要なツールである。
本稿では,これらのシステムでよく発生する故障確率問題にMLソリューションを適用することに焦点を当てる。
特に,MLバイナリ分類予測器が適切なリソースの取得を支援する,単一ユーザマルチリソースのgreedyアロケーション戦略を検討する。
将来のチャネル状態情報にアクセスできないため、この予測器は各リソースの将来の停止状態を予測する。
予測者が満足できると信じているリソースに遭遇すると、それをユーザに割り当てる。
重要なのは、この予測器の目標は、ユーザが不満足なリソースを避けることを保証することだ。
本研究の主な成果は,システム停止確率の正確かつ漸近的な表現を確立することである。
これにより、理論上最適で微分可能な損失関数を定式化し、予測者を訓練する。
次に、これと従来の損失関数を用いて訓練された予測器、すなわちバイナリクロスエントロピー(BCE)、平均二乗誤差(MSE)、平均絶対誤差(MAE)を比較した。
新たな損失関数を用いてトレーニングした予測器は,すべてのシナリオにおいて優れた停止確率を提供する。
我々の損失関数は、BCE、MAE、MSEの損失関数で訓練された予測器を桁違いに上回ることがある。 Machine Learning (ML) is a popular tool that will be pivotal in enabling 6G and beyond communications. This paper focuses on applying ML solutions to address outage probability issues commonly encountered in these systems. In particular, we consider a single-user multi-resource greedy allocation strategy, where an ML binary classification predictor assists in seizing an adequate resource. With no access to future channel state information, this predictor foresees each resource's likely future outage status. When the predictor encounters a resource it believes will be satisfactory, it allocates it to the user. Critically, the goal of the predictor is to ensure that a user avoids an unsatisfactory resource since this is likely to cause an outage. Our main result establishes exact and asymptotic expressions for this system's outage probability. With this, we formulate a theoretically optimal, differentiable loss function to train our predictor. We then compare predictors trained using this and traditional loss functions; namely, binary cross-entropy (BCE), mean squared error (MSE), and mean absolute error (MAE). Predictors trained using our novel loss function provide superior outage probability in all scenarios. Our loss function sometimes outperforms predictors trained with the BCE, MAE, and MSE loss functions by multiple orders of magnitude. | 翻訳日:2023-05-18 18:52:10 公開日:2023-05-16 |
# CQural: 量子連続機械学習のための新しいCNNベースのハイブリッドアーキテクチャ CQural: A Novel CNN based Hybrid Architecture for Quantum Continual Machine Learning ( http://arxiv.org/abs/2305.09738v1 ) ライセンス: Link先を確認 | Sanyam Jain | (参考訳) 機械学習モデルをインクリメンタルにトレーニングすることは重要であるだけでなく、人工知能を実現する効率的な方法でもある。
人間が連続的あるいは生涯学習を持つ能力は、以前に学んだタスクを忘れないように助ける。
しかし、現在のニューラルネットワークモデルは、継続的学習に関して壊滅的な忘れがちである。
多くの研究者がニューラルネットワークを忘れる効果を減らすためにいくつかのテクニックを考案しているが、すべてのテクニックは古典的に研究されており、機械学習モデルアーキテクチャの変更にはほとんど焦点を当てていない。
本稿では,新しい古典量子ニューラルネットを用いた連続学習における破滅的な忘れを回避できるだけでなく,どのような特徴が分類に最も重要であるかを説明する。
さらに、モデルがこれらの説明でトレーニングされている場合、より良いパフォーマンスを提供し、決定境界から遠い特定の特徴を学ぶ傾向があるとも主張しています。
最後に,ベンチマークMNISTとCIFAR-10データセットを用いた古典的および古典的量子ハイブリッドアーキテクチャの比較実験を行った。
学習を成功させた後、クラス固有の特徴の正しい証拠を記憶するという点で、ハイブリッドニューラルネットワークは古典的よりも優れていた。 Training machine learning models in an incremental fashion is not only important but also an efficient way to achieve artificial general intelligence. The ability that humans possess of continuous or lifelong learning helps them to not forget previously learned tasks. However, current neural network models are prone to catastrophic forgetting when it comes to continual learning. Many researchers have come up with several techniques in order to reduce the effect of forgetting from neural networks, however, all techniques are studied classically with a very less focus on changing the machine learning model architecture. In this research paper, we show that it is not only possible to circumvent catastrophic forgetting in continual learning with novel hybrid classical-quantum neural networks, but also explains what features are most important to learn for classification. In addition, we also claim that if the model is trained with these explanations, it tends to give better performance and learn specific features that are far from the decision boundary. Finally, we present the experimental results to show comparisons between classical and classical-quantum hybrid architectures on benchmark MNIST and CIFAR-10 datasets. After successful runs of learning procedure, we found hybrid neural network outperforms classical one in terms of remembering the right evidences of the class-specific features. | 翻訳日:2023-05-18 18:51:51 公開日:2023-05-16 |
# ADDSL: 注釈付きデンマーク手話における手話検出と手話認識 ADDSL: Hand Gesture Detection and Sign Language Recognition on Annotated Danish Sign Language ( http://arxiv.org/abs/2305.09736v1 ) ライセンス: Link先を確認 | Sanyam Jain | (参考訳) 長い間、手の動きを検出し、それらを文字や数字として認識することは難しい課題だった。
これにより、障害者のコミュニケーション障壁が形成される。
本稿では,新しいデータセットであるデンマーク手話用アノテーション付きデータセット(addsl)を提案する。
データセットのアノテーションは、オープンソースのツール labelimg を使って yolo フォーマットで作成されている。
このデータセットを使用して、1段階のオブジェクト検出器モデル(yolov5)をcsp-darknet53バックボーンとyolov3ヘッドで訓練し、文字(a-z)と数字(0-9)を認識する。
5つのモデルは350エポックで訓練され、1画像あたりの平均推定時間は9.02ms、最高のaccu-racyは以前の研究と比較して92%であった。
以上の結果から,修正モデルは同じ分野の既存の作業よりも効率的かつ正確であることが判明した。
私たちのモデルのコードリポジトリは、githubリポジトリhttps://github.com/s4nyam/pvt-addslで利用可能です。 For a long time, detecting hand gestures and recognizing them as letters or numbers has been a challenging task. This creates communication barriers for individuals with disabilities. This paper introduces a new dataset, the Annotated Dataset for Danish Sign Language (ADDSL). Annota-tions for the dataset were made using the open-source tool LabelImg in the YOLO format. Using this dataset, a one-stage ob-ject detector model (YOLOv5) was trained with the CSP-DarkNet53 backbone and YOLOv3 head to recognize letters (A-Z) and numbers (0-9) using only seven unique images per class (without augmen-tation). Five models were trained with 350 epochs, resulting in an average inference time of 9.02ms per image and a best accu-racy of 92% when compared to previous research. Our results show that modified model is efficient and more accurate than existing work in the same field. The code repository for our model is available at the GitHub repository https://github.com/s4nyam/pvt-addsl. | 翻訳日:2023-05-18 18:51:32 公開日:2023-05-16 |
# コンテキスト内学習"学習"とは何か - タスク認識とタスク学習の分離 What In-Context Learning "Learns" In-Context: Disentangling Task Recognition and Task Learning ( http://arxiv.org/abs/2305.09731v1 ) ライセンス: Link先を確認 | Jane Pan, Tianyu Gao, Howard Chen, Danqi Chen | (参考訳) 大規模言語モデル(LLM)は、いくつかの実演でタスクを解くためにコンテキスト内学習(ICL)を利用するが、そのメカニズムはまだよく理解されていない。
一部の研究は、LCMが既に事前学習から学んだ概念だけを思い出すのに対し、ICLはデモよりも暗黙の学習を行っていることを示唆している。
iclがデモを活用する2つの方法を特徴付ける。
タスク認識(TR)は、LLMがデモを通じてタスクを認識できる範囲を -- 基調ラベルなしでも -- キャプチャし、事前トレーニングを適用できるのに対して、タスク学習(TL)は、事前トレーニングで見えない新しい入力ラベルマッピングをキャプチャする能力である。
幅広い分類データセットと3つのLLMファミリー(GPT-3, LLaMA, OPT)を用いて, ICLにおけるTRとTLの役割を阻害する制御実験を設計した。
1)モデルがTRのみで非自明な性能を達成でき、TRがより大きなモデルやより多くのデモでさらに改善されないこと、(2)LLMがモデルスケールとしてTLを取得し、TLの性能はコンテキストにおけるより多くのデモで一貫して改善されることを示す。
ICLの背景にある2つの異なる力を解明し,今後のICL研究における差別を提唱した。 Large language models (LLMs) exploit in-context learning (ICL) to solve tasks with only a few demonstrations, but its mechanisms are not yet well-understood. Some works suggest that LLMs only recall already learned concepts from pre-training, while others hint that ICL performs implicit learning over demonstrations. We characterize two ways through which ICL leverages demonstrations. Task recognition (TR) captures the extent to which LLMs can recognize a task through demonstrations -- even without ground-truth labels -- and apply their pre-trained priors, whereas task learning (TL) is the ability to capture new input-label mappings unseen in pre-training. Using a wide range of classification datasets and three LLM families (GPT-3, LLaMA and OPT), we design controlled experiments to disentangle the roles of TR and TL in ICL. We show that (1) models can achieve non-trivial performance with only TR, and TR does not further improve with larger models or more demonstrations; (2) LLMs acquire TL as the model scales, and TL's performance consistently improves with more demonstrations in context. Our findings unravel two different forces behind ICL and we advocate for discriminating them in future ICL research due to their distinct nature. | 翻訳日:2023-05-18 18:51:11 公開日:2023-05-16 |
# FedHGN: 異種グラフニューラルネットワークのためのフェデレーションフレームワーク FedHGN: A Federated Framework for Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2305.09729v1 ) ライセンス: Link先を確認 | Xinyu Fu, Irwin King | (参考訳) ヘテロジニアスグラフニューラルネットワーク(hgnn)は、従来のgnnよりも型付きおよびリレーショナルグラフデータからより効果的に学習することができる。
より大きなパラメータ空間では、HGNNはより多くのトレーニングデータを必要とする可能性がある。
フェデレーショングラフ学習(FGL)により、複数のクライアントがローカルデータを共有せずにGNNを協調的にトレーニングできる。
しかし、既存のFGL法は主に均質なGNNや知識グラフの埋め込みに焦点を当てている。
フェデレーション付き異種グラフ学習では、クライアントはプライベートグラフスキーマを持つことができる。
グローバルなHGNNモデルを定義しようとする従来のFL/FGLメソッドは、スキーマのプライバシーを侵害する。
これらの課題に対処するため,HGNNのための新規かつ汎用的なFGLフレームワークであるFedHGNを提案する。
FedHGNは、スキーマに依存しない知識共有を可能にするためにスキーマウェイトデカップリングを採用し、トレーニングプロセスの安定化とHGNNのパフォーマンス向上のために係数アライメントを採用している。
より優れたプライバシー保護により、FedHGNは、様々なクライアント番号を持つ3つの広く採用されている異種グラフデータセット上で、ローカルトレーニングと従来のFLメソッドを一貫して上回る。
コードはhttps://github.com/cynricfu/fedhgnで入手できる。 Heterogeneous graph neural networks (HGNNs) can learn from typed and relational graph data more effectively than conventional GNNs. With larger parameter spaces, HGNNs may require more training data, which is often scarce in real-world applications due to privacy regulations (e.g., GDPR). Federated graph learning (FGL) enables multiple clients to train a GNN collaboratively without sharing their local data. However, existing FGL methods mainly focus on homogeneous GNNs or knowledge graph embeddings; few have considered heterogeneous graphs and HGNNs. In federated heterogeneous graph learning, clients may have private graph schemas. Conventional FL/FGL methods attempting to define a global HGNN model would violate schema privacy. To address these challenges, we propose FedHGN, a novel and general FGL framework for HGNNs. FedHGN adopts schema-weight decoupling to enable schema-agnostic knowledge sharing and employs coefficients alignment to stabilize the training process and improve HGNN performance. With better privacy preservation, FedHGN consistently outperforms local training and conventional FL methods on three widely adopted heterogeneous graph datasets with varying client numbers. The code is available at https://github.com/cynricfu/FedHGN . | 翻訳日:2023-05-18 18:50:45 公開日:2023-05-16 |
# ニューラルネットワークの低次スペクトルバイアスを克服するスケーラブルなwalsh-hadamard正則化器 A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree Spectral Bias of Neural Networks ( http://arxiv.org/abs/2305.09779v1 ) ライセンス: Link先を確認 | Ali Gorji, Andisheh Amrollahi, Andreas Krause | (参考訳) 任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしば ``simpler'' 関数に対するバイアスを示す。
この振る舞いを特徴付けるために、シンプルさの様々な概念が導入された。
ここでは、Fourier(Walsh-Hadamard)変換のレンズを通して離散的な(ゼロワン)入力を持つニューラルネットワークの場合に着目し、Fourier係数のemph{degree}を通じて単純さの概念を捉えることができる。
ニューラルネットワークが低次周波数を学習する傾向があることを実証的に示す。
より単純な機能に対するこのスペクトルバイアスが、現実のデータセットに対するニューラルネットワークの一般化を実際に‘emph{hurt}’することができるかを示す。
そこで本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
我々の正規化器はまた、低度周波数の誤識別を回避し、一般化をさらに改善する。
合成データセット上の正規化器を広範囲に評価し,その挙動を把握した。
最後に、標準ニューラルネットワークや他の関連するベースラインと比較して、4つの異なるデータセットの一般化を著しく改善した。 Despite the capacity of neural nets to learn arbitrary functions, models trained through gradient descent often exhibit a bias towards ``simpler'' functions. Various notions of simplicity have been introduced to characterize this behavior. Here, we focus on the case of neural networks with discrete (zero-one) inputs through the lens of their Fourier (Walsh-Hadamard) transforms, where the notion of simplicity can be captured through the \emph{degree} of the Fourier coefficients. We empirically show that neural networks have a tendency to learn lower-degree frequencies. We show how this spectral bias towards simpler features can in fact \emph{hurt} the neural network's generalization on real-world datasets. To remedy this we propose a new scalable functional regularization scheme that aids the neural network to learn higher degree frequencies. Our regularizer also helps avoid erroneous identification of low-degree frequencies, which further improves generalization. We extensively evaluate our regularizer on synthetic datasets to gain insights into its behavior. Finally, we show significantly improved generalization on four different datasets compared to standard neural networks and other relevant baselines. | 翻訳日:2023-05-18 18:42:45 公開日:2023-05-16 |
# BSGAN:不均衡パターン認識のための新しいオーバーサンプリング手法 BSGAN: A Novel Oversampling Technique for Imbalanced Pattern Recognitions ( http://arxiv.org/abs/2305.09777v1 ) ライセンス: Link先を確認 | Md Manjurul Ahsan, Shivakumar Raman, Zahed Siddique | (参考訳) クラス不均衡問題(CIP)は、予測のための未バイアス機械学習(ML)モデルを開発する際の潜在的な課題の1つである。
CIPは、データサンプルが2つまたは複数のクラス間で等しく分散されていない場合に発生する。
Borderline-Synthetic Minority Oversampling Techniques (SMOTE) は、マイナー(限定)サンプルをオーバーサンプリングすることで、不均衡データのバランスをとるために使用される手法の1つである。
既存のborderline-smoteの潜在的な欠点の1つは、境界点にあるデータサンプルに注目し、極端な観察により多くの注意を向けることであり、オーバーサンプリング後のより多様なデータの作成を最終的に制限することであり、これは、borderline-smoteベースのオーバーサンプリング戦略の大部分にとって、ほぼシナリオである。
その結果、オーバーサンプリング後に限界化が発生する。
これらの課題に対処するため,本稿では,境界線SMOTEとジェネレーティブ・アドバイザリアル・ネットワークのパワーを組み合わせて,ガウス分布に従うより多様なデータを生成するハイブリッド・オーバーサンプリング手法を提案する。
bsganと命名し、ecoli、ワインの品質、酵母、アワビという4つの非常に不均衡なデータセットでテストしました。
予備計算の結果,BSGAN は既存の境界線 SMOTE と GAN に基づくオーバーサンプリング技術より優れており,オーバーサンプリング効果の後に正規分布に従うより多様なデータセットを作成した。 Class imbalanced problems (CIP) are one of the potential challenges in developing unbiased Machine Learning (ML) models for predictions. CIP occurs when data samples are not equally distributed between the two or multiple classes. Borderline-Synthetic Minority Oversampling Techniques (SMOTE) is one of the approaches that has been used to balance the imbalance data by oversampling the minor (limited) samples. One of the potential drawbacks of existing Borderline-SMOTE is that it focuses on the data samples that lay at the border point and gives more attention to the extreme observations, ultimately limiting the creation of more diverse data after oversampling, and that is the almost scenario for the most of the borderline-SMOTE based oversampling strategies. As an effect, marginalization occurs after oversampling. To address these issues, in this work, we propose a hybrid oversampling technique by combining the power of borderline SMOTE and Generative Adversarial Network to generate more diverse data that follow Gaussian distributions. We named it BSGAN and tested it on four highly imbalanced datasets: Ecoli, Wine quality, Yeast, and Abalone. Our preliminary computational results reveal that BSGAN outperformed existing borderline SMOTE and GAN-based oversampling techniques and created a more diverse dataset that follows normal distribution after oversampling effect. | 翻訳日:2023-05-18 18:42:29 公開日:2023-05-16 |
# ニューラル・ソース・コード要約のための眼球運動から人間の注意をモデル化する Towards Modeling Human Attention from Eye Movements for Neural Source Code Summarization ( http://arxiv.org/abs/2305.09773v1 ) ライセンス: Link先を確認 | Aakash Bansal, Bonita Sharif, Collin McMillan | (参考訳) ソースコードの要約は、ニューラルネットワークを用いてソースコードの振る舞いを自然言語で記述するタスクである。
ほとんどの神経モデルの基本的な構成要素は注意機構である。
注意機構は、自然言語記述を生成する際に使用する特定の単語にソースコードの機能を接続することを学ぶ。
人間は他のコードよりもいくつかの機能に注意を払っています。
この人間の注意は、現在の神経モデルの能力を超える経験と高いレベルの認知を反映している。
本稿では,視線追跡実験から得られたデータを用いて,人間の注意のモデルを作成する。
このモデルは、ソースコードのどの単語がコードの要約において最も重要なのかを予測する。
次に、人間の注意力モデルを用いて、ベースラインのニューラルネットワーク要約アプローチを強化する。
他のバイオインスパイアされたニューラルモデルに合わせて拡張アプローチの予測性能が向上するのを観察した。 Neural source code summarization is the task of generating natural language descriptions of source code behavior using neural networks. A fundamental component of most neural models is an attention mechanism. The attention mechanism learns to connect features in source code to specific words to use when generating natural language descriptions. Humans also pay attention to some features in code more than others. This human attention reflects experience and high-level cognition well beyond the capability of any current neural model. In this paper, we use data from published eye-tracking experiments to create a model of this human attention. The model predicts which words in source code are the most important for code summarization. Next, we augment a baseline neural code summarization approach using our model of human attention. We observe an improvement in prediction performance of the augmented approach in line with other bio-inspired neural models. | 翻訳日:2023-05-18 18:42:03 公開日:2023-05-16 |
# ConvXAI:人間とAIの科学的記述を支援するための会話による異種AI説明の提供 ConvXAI: Delivering Heterogeneous AI Explanations via Conversations to Support Human-AI Scientific Writing ( http://arxiv.org/abs/2305.09770v1 ) ライセンス: Link先を確認 | Hua Shen, Chieh-Yang Huang, Tongshuang Wu, Ting-Hao 'Kenneth' Huang | (参考訳) 様々なAI説明法(XAI)がAIシステムを理解するために提案されているが、最先端のXAI法が人間にとって実用的に有用であるか否かは相容れない。
XAI法の有用性を高めるために,XAI法の現状クォーを用いて,多様な実世界のユーザニーズと動的ユーザニーズのギャップを明らかにする。
以前の研究では、複数のXAIメソッドを共通のXAIインターフェース(例えば、対話型またはGUIベースのXAIシステム)に統合することで、これらのギャップを緩和することを想定していたが、これらのシステムが実際にユーザのニーズを満たすように設計されるべきかどうかを調査する作業が不足している。
本研究では,複数のXAIタイプを組み込んだ会話型XAIシステムであるConvXAIについて述べる。
特に,実践的ユーザニーズ(すなわち形式的学習に基づく4つの原則)をConvXAI設計に革新的に組み込んで実用性を向上させる。
さらに、ドメイン固有言語(DSL)を設計し、本質的な会話型XAIモジュールを実装し、一般化のための会話型共通XAI APIをリリースする。
21名のユーザを対象にした2つの内的調査の結果,ConvXAIは人間の理解と文章の質の向上,生産性と文質の面での筆記プロセスの改善に有用であることが示唆された。
最後に、本研究は、有用なXAIの設計空間に関する洞察を提供し、実際に実証的な証拠を持つ人間のXAI利用パターンを明らかにし、将来の有用なXAI作業の機会を明らかにする。 While various AI explanation (XAI) methods have been proposed to interpret AI systems, whether the state-of-the-art XAI methods are practically useful for humans remains inconsistent findings. To improve the usefulness of XAI methods, a line of studies identifies the gaps between the diverse and dynamic real-world user needs with the status quo of XAI methods. Although prior studies envision mitigating these gaps by integrating multiple XAI methods into the universal XAI interfaces (e.g., conversational or GUI-based XAI systems), there is a lack of work investigating how these systems should be designed to meet practical user needs. In this study, we present ConvXAI, a conversational XAI system that incorporates multiple XAI types, and empowers users to request a variety of XAI questions via a universal XAI dialogue interface. Particularly, we innovatively embed practical user needs (i.e., four principles grounding on the formative study) into ConvXAI design to improve practical usefulness. Further, we design the domain-specific language (DSL) to implement the essential conversational XAI modules and release the core conversational universal XAI API for generalization. The findings from two within-subjects studies with 21 users show that ConvXAI is more useful for humans in perceiving the understanding and writing improvement, and improving the writing process in terms of productivity and sentence quality. Finally, this work contributes insight into the design space of useful XAI, reveals humans' XAI usage patterns with empirical evidence in practice, and identifies opportunities for future useful XAI work. | 翻訳日:2023-05-18 18:41:51 公開日:2023-05-16 |
# OpenVR: 操作のための遠隔操作 OpenVR: Teleoperation for Manipulation ( http://arxiv.org/abs/2305.09765v1 ) ライセンス: Link先を確認 | Abraham George, Alison Bartsch, Amir Barati Farimani | (参考訳) ロボティクスの分野では、品質のデモは多くのコントロールパイプラインに不可欠な部分です。
しかし、高品質なデモトラジェクトリの収集には時間を要するため、多くの場合、パフォーマンスのボトルネックとなるデモの数が増加する。
この問題に対処するために,Oculus VRヘッドセットを用いてFranka Emika Pandaロボットを遠隔操作するバーチャルリアリティ(VR)遠隔操作法を提案する。
他のVR遠隔操作手法は存在するが、私たちのコードはオープンソースであり、容易に利用可能なコンシューマハードウェア用に設計され、変更が容易で、実験的なセットアップに非依存で、簡単に使用できます。 Across the robotics field, quality demonstrations are an integral part of many control pipelines. However, collecting high-quality demonstration trajectories remains time-consuming and difficult, often resulting in the number of demonstrations being the performance bottleneck. To address this issue, we present a method of Virtual Reality (VR) Teleoperation that uses an Oculus VR headset to teleoperate a Franka Emika Panda robot. Although other VR teleoperation methods exist, our code is open source, designed for readily available consumer hardware, easy to modify, agnostic to experimental setup, and simple to use. | 翻訳日:2023-05-18 18:41:20 公開日:2023-05-16 |
# オンデバイスASRのためのアプリケーション非依存言語モデリング Application-Agnostic Language Modeling for On-Device ASR ( http://arxiv.org/abs/2305.09764v1 ) ライセンス: Link先を確認 | Markus Nu{\ss}baum-Thom, Lyan Verwimp, Youssef Oualil | (参考訳) オンデバイス自動音声認識システムは,サーバベースシステムと比較していくつかの課題に直面している。
スピード、ディスクサイズ、メモリに関しては、同じ精度を維持しながら、より厳格な制約を満たす必要がある。
仮想アシスタントや音声テキストとの通信など、複数のアプリケーションを一度に異なる分散で提供しなければなりません。
複数のアプリケーションを提供する最も単純なソリューションは、アプリケーション固有の(言語)モデルを構築することだが、これはメモリの増加につながる。
そこで我々は,単一のアプリケーションに依存しないモデルを構築するために,異なるデータおよびアーキテクチャ駆動型言語モデリング手法を検討する。
異なるデバイス上の制約間の最適なトレードオフを求める2つの新しいフィードフォワードアーキテクチャを提案する。
アプリケーション固有のソリューションと比較して,提案手法の1つは,原モデルの速度と精度を維持しつつ,ディスクサイズを半分に削減するものである。 On-device automatic speech recognition systems face several challenges compared to server-based systems. They have to meet stricter constraints in terms of speed, disk size and memory while maintaining the same accuracy. Often they have to serve several applications with different distributions at once, such as communicating with a virtual assistant and speech-to-text. The simplest solution to serve multiple applications is to build application-specific (language) models, but this leads to an increase in memory. Therefore, we explore different data- and architecture-driven language modeling approaches to build a single application-agnostic model. We propose two novel feed-forward architectures that find an optimal trade off between different on-device constraints. In comparison to the application-specific solution, one of our novel approaches reduces the disk size by half, while maintaining speed and accuracy of the original model. | 翻訳日:2023-05-18 18:41:10 公開日:2023-05-16 |
# 4096年のTokensビデオは、ゼロショットで見下ろすための会話的ストーリービデオ A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot ( http://arxiv.org/abs/2305.09758v1 ) ライセンス: Link先を確認 | Aanisha Bhattacharya, Yaman K Singla, Balaji Krishnamurthy, Rajiv Ratn Shah, Changyou Chen | (参考訳) 広告やストーリービデオなどのマルチメディアコンテンツは、創造性と複数のモダリティの豊富なブレンドを示す。
テキスト、ビジュアル、オーディオ、ストーリーテリングといった要素が組み込まれており、感情、象徴、スローガンなどを使って意味を伝える。
マルチメディア理解におけるこれまでの研究は、主に料理のような特定のアクションを持つビデオに焦点を当ててきたが、大量の注釈付きトレーニングデータセットが発掘され、現実世界のアプリケーションに十分なパフォーマンスを持つ教師付き学習モデルの開発が妨げられている。
しかし、大規模言語モデル(LLM)の台頭は、感情分類、質問応答、話題分類など、様々な自然言語処理(NLP)タスクにおいて顕著なゼロショット性能をみせた。
マルチメディア理解におけるこのパフォーマンスギャップを埋めるため,本研究では,自然言語による記述を生成するために文章化ストーリービデオを提案し,生成したストーリーに対して,オリジナルビデオとは対照的にビデオ理解タスクを実行する。
5つのビデオ理解タスクに関する広範な実験を通じて,ゼロショットであるにも関わらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られることを実証した。
さらに、ストーリー理解ベンチマークの欠如を緩和し、計算社会科学における重要な課題である説得戦略識別に関する最初のデータセットを公開する。 Multimedia content, such as advertisements and story videos, exhibit a rich blend of creativity and multiple modalities. They incorporate elements like text, visuals, audio, and storytelling techniques, employing devices like emotions, symbolism, and slogans to convey meaning. While previous research in multimedia understanding has focused mainly on videos with specific actions like cooking, there is a dearth of large annotated training datasets, hindering the development of supervised learning models with satisfactory performance for real-world applications. However, the rise of large language models (LLMs) has witnessed remarkable zero-shot performance in various natural language processing (NLP) tasks, such as emotion classification, question-answering, and topic classification. To bridge this performance gap in multimedia understanding, we propose verbalizing story videos to generate their descriptions in natural language and then performing video-understanding tasks on the generated story as opposed to the original video. Through extensive experiments on five video-understanding tasks, we demonstrate that our method, despite being zero-shot, achieves significantly better results than supervised baselines for video understanding. Further, alleviating a lack of story understanding benchmarks, we publicly release the first dataset on a crucial task in computational social science, persuasion strategy identification. | 翻訳日:2023-05-18 18:40:58 公開日:2023-05-16 |
# 相互作用クイディットシステムのためのロバスト・ハミルトン工学 Robust Hamiltonian Engineering for Interacting Qudit Systems ( http://arxiv.org/abs/2305.09757v1 ) ライセンス: Link先を確認 | Hengyun Zhou, Haoyang Gao, Nathaniel T. Leitao, Oksana Makarova, Iris Cong, Alexander M. Douglas, Leigh S. Martin, Mikhail D. Lukin | (参考訳) 我々は、強く相互作用するクディット系のロバストな動的疎結合とハミルトン工学の定式化を開発する。
具体的には,必要なロバスト性条件を取り入れつつ,quditパルスシーケンス設計を著しく単純化した幾何学的形式性を示す。
我々はこれらの手法を,スピン-1窒素空孔中心の強い相互作用,乱れたアンサンブルにおいて実験的に実証し,既存のパルス列よりもコヒーレンス時間を大幅に改善した。
さらに, 量子多体スカーなどの異種多体現象のエンジニアリングを可能にし, 量子メトロロジーに対する感性を高めた手法について述べる。
これらの結果は、動的疎結合、多体物理学、量子力学に広く応用された、全く新しい複雑なクウディト・ハミルトンのクラスを工学することができる。 We develop a formalism for the robust dynamical decoupling and Hamiltonian engineering of strongly interacting qudit systems. Specifically, we present a geometric formalism that significantly simplifies qudit pulse sequence design, while incorporating the necessary robustness conditions. We experimentally demonstrate these techniques in a strongly-interacting, disordered ensemble of spin-1 nitrogen-vacancy centers, achieving over an order of magnitude improvement in coherence time over existing pulse sequences. We further describe how our techniques enable the engineering of exotic many-body phenomena such as quantum many-body scars, and allow enhanced sensitivities for quantum metrology. These results enable the engineering of a whole new class of complex qudit Hamiltonians, with wide-reaching applications in dynamical decoupling, many-body physics and quantum metrology. | 翻訳日:2023-05-18 18:40:34 公開日:2023-05-16 |
# 患者レベルの表現学習のためのマルチレベルハイパーグラフニューラルネットワーク Clinical Note Owns its Hierarchy: Multi-Level Hypergraph Neural Networks for Patient-Level Representation Learning ( http://arxiv.org/abs/2305.09756v1 ) ライセンス: Link先を確認 | Nayeon Kim, Yinhua Piao, Sun Kim | (参考訳) 患者の状態を予測するための電子健康記録(EHR)からの知識を活用することは、適切なケアの効果的な提供に不可欠である。
患者eersの臨床記録には医療専門家からの貴重な情報が含まれているが、その難解な内容と複雑な階層のために使用されていない。
近年,ハイパーグラフに基づく文書分類手法が提案されている。
臨床ノートに既存のハイパーグラフ法を直接適用しても,(1)頻繁な中性単語と(2)不均衡な階層によって臨床意味情報を劣化させることができる患者の階層情報を十分に活用できない。
そこで,本研究では,マルチレベルハイパーグラフがノートや分類レベルハイパーエッジを通じて稀なキーワードで有用な中性単語を合成し,臨床意味情報を保持できる,分類対応マルチレベルハイパーグラフニューラルネットワークを提案する。
構築された患者ハイパーグラフは階層的なメッセージパッシング層に入力され、ノートや分類のレベルでよりバランスのとれた多段階の知識を学習する。
我々は,MIMIC-IIIデータセットを用いた広範囲な実験を行い,TM-HGNNの有効性を検証する。 Leveraging knowledge from electronic health records (EHRs) to predict a patient's condition is essential to the effective delivery of appropriate care. Clinical notes of patient EHRs contain valuable information from healthcare professionals, but have been underused due to their difficult contents and complex hierarchies. Recently, hypergraph-based methods have been proposed for document classifications. Directly adopting existing hypergraph methods on clinical notes cannot sufficiently utilize the hierarchy information of the patient, which can degrade clinical semantic information by (1) frequent neutral words and (2) hierarchies with imbalanced distribution. Thus, we propose a taxonomy-aware multi-level hypergraph neural network (TM-HGNN), where multi-level hypergraphs assemble useful neutral words with rare keywords via note and taxonomy level hyperedges to retain the clinical semantic information. The constructed patient hypergraphs are fed into hierarchical message passing layers for learning more balanced multi-level knowledge at the note and taxonomy levels. We validate the effectiveness of TM-HGNN by conducting extensive experiments with MIMIC-III dataset on benchmark in-hospital-mortality prediction. | 翻訳日:2023-05-18 18:40:19 公開日:2023-05-16 |
# 双極子原子のトリプルウェル系における絡み合いの制御 Controlling entanglement in a triple-well system of dipolar atoms ( http://arxiv.org/abs/2305.09754v1 ) ライセンス: Link先を確認 | Karin Wittmann W and Leandro H. Ymai and Bruno H. C. Barros and Jon Links and Angela Foerster | (参考訳) 拡張ボース・ハバードモデルによって記述された3次元ポテンシャルにおける超低温双極子ボソンの絡み合いと原子集団のダイナミクスについて検討した。
我々は、結合が調整され、時間進化が正確に予測できる共鳴挙動を示す可積分系を得るような十分に強い相互作用体制に焦点を当てる。
この枠組みでは, エッジウェルを外部フィールドを通して短時間傾けることによって, 制御可能なエンタングル度を持つ量子状態の生成を可能にする, 積分可能性破断ステップを含むプロトコルを提案する。
我々は,このプロトコルを異なる初期状態に対して解析し,非常に絡み合った状態と正午のような状態の生成を示す。
これらの結果は、新しい量子デバイスの提案に役立つ超低温原子系における絡み合いの制御方法に関する貴重な洞察を与える。 We study the dynamics of entanglement and atomic populations of ultracold dipolar bosons in an aligned three-well potential described by an extended Bose-Hubbard model. We focus on a sufficiently strong interacting regime where the couplings are tuned to obtain an integrable system, in which the time evolution exhibits a resonant behavior that can be exactly predicted. Within this framework, we propose a protocol that includes an integrability breaking step by tilting the edge wells for a short time through an external field, allowing the production of quantum states with a controllable degree of entanglement. We analyze this protocol for different initial states and show the formation of highly entangled states as well as NOON-like states. These results offer valuable insights into how entanglement can be controlled in ultracold atom systems that may be useful for the proposals of new quantum devices. | 翻訳日:2023-05-18 18:39:59 公開日:2023-05-16 |
# 高次元真三部絡みの源としての非線形光学 Nonlinear optics as a source of high-dimensional genuine tripartite entanglement ( http://arxiv.org/abs/2305.09809v1 ) ライセンス: Link先を確認 | James Schneeloch, Richard J. Birrittella, Christopher C. Tison, Gregory A. Howland, Michael L. Fanto, and Paul M. Alsing | (参考訳) 我々は,光子三重項の空間的およびエネルギー的自由度に存在する真の三重項の絡み合いの量を,三重項の絡み合いとして知られる資源的尺度を用いて定量化する。
ゲビット (gebits) と呼ばれる最大3量子ビットグリーンベルガー・ホルン・ザイリンガー状態 (GHZ) に対する真の三部体の絡み合いの定量化は、異なる次元の異なる三部体の絡み合い状態の比較の基礎となる。
真の三部構成の絡み合いを示すことは、各党が他の二党とは分離できないことを示すのに十分ではない(純粋な状態に限られる)ため、二重に困難である。
代わりに、2つの分離可能な状態の全ての組み合わせの混合を三部体状態を記述することから除外しなければならない。
この課題を克服するために,三成分系の統計のエントロピー的尺度を用いて,各当事者が持つ相関関係を他の2つに同時にバインドし,三成分の絡み合いに対する限界を低く設定する。
本研究では,3次自然パラメトリックダウンコンバージョン(SPDC)で発生する光子三重項に類似した相関関係を持つ三重ガウス三重項波動関数の正確な三重項絡み付けを決定することにより,この手法の有効性を推定する。
これら2つの試みの間に、空間的およびエネルギー的自由度の両方に相当量の三部体絡み合いが存在することを示し、それらを測定できる実験を提案する。 We lay down a general scheme to quantify the amount of genuine tripartite entanglement present in the spatial and energy-time degrees of freedom of entangled photon triplets using a resource-based measure known as the tripartite entanglement of formation. Quantifying genuine tripartite entanglement relative to a number of maximally entangled three-qubit Greenberger-Horne-Zeilinger (GHZ) states called gebits, the tripartite entanglement of formation serves as a basis of comparison between different tripartite entangled states of differing dimension. Demonstrating genuine tripartite entanglement is doubly challenging because it is not enough to show that each party is inseparable from the other two (which is sufficient only for pure states). Instead, one must rule out all mixtures of all combinations of biseparable states from describing the tripartite state. To meet this challenge, we use entropic measures of the statistics of tripartite systems to simultaneously bound the correlations each party has with the other two, and in so doing place a lower limit to the tripartite entanglement of formation. Even though our measure never over-estimates the entanglement present, we estimate the effectiveness of our technique by determining the exact tripartite entanglement of a triple-gaussian triphoton wavefunction with the same correlations as seen in photon triplets generated in third-order spontaneous parametric down-conversion (SPDC). Between these two efforts, we show that a substantial amount of tripartite entanglement exists in both the spatial and energy-time degrees of freedom of these systems, and propose an experiment that can measure them. | 翻訳日:2023-05-18 18:34:08 公開日:2023-05-16 |
# レーザー被覆固体の光吸収に関するフロケット理論と計算法 Floquet theory and computational method for the optical absorption of laser-dressed solids ( http://arxiv.org/abs/2305.09808v1 ) ライセンス: Link先を確認 | Vishal Tiwari, Bing Gu, and Ignacio Franco | (参考訳) 強い光-物質相互作用は、物質の物理化学的性質を操作する強力な手段となる。
本稿では,任意の強度と光子エネルギーの時間周期光によって平衡から駆動される空間周期固体の線形光吸収スペクトルの一般理論を考案する。
駆動レーザーの効果はフロケ理論を用いて正確に処理される。
この駆動系の効果的な光学特性は、摂動理論において効果を第一次に捉えた弱いレーザーを通して探索される。
非平衡光吸収の式は正則近平衡吸収理論に似ているが、フロッケブローチモードは物質の原始固有状態の役割を担っている。
光吸収におけるレーザドレッシングの効果を例示するために,コサイン型格子ポテンシャルを持つモデル固体の計算を行う。
駆動レーザの振幅の増大に伴う光吸収の劇的な変化を同定した。
スペクトルは、ダイナミックなフランツ・ケルディッシュ効果と一致するバンドエッジとバンドギャップ吸収の下のブルーシフトを示す。
また、Floquet-Bloch状態の純粋光学的終端符号として割り当てる駆動光子エネルギーの整数倍で分離された遷移のいくつかのレプリカも示している。
動的フランツ・ケルディシュ効果の他に、レーザー修飾系における非平衡力学の新規なシグネチャであるフロケ・ブロッホモードのハイブリダイゼーションにより出現する吸収スペクトルにおいて、強い低周波吸収と励起放出、およびディップの開放を著しく観察する。
この研究は、強いレーザー場を用いて固体の物理的性質を制御および特徴付けるために新しい経路を開く。 Strong light-matter interactions provide powerful means for the manipulation of the physico-chemical properties of matter. Here we develop a general theory for the linear optical absorption spectroscopy of spatially-periodic solids driven out of equilibrium by time-periodic light of arbitrary strength and photon energy. The effects of the driving laser is treated exactly using Floquet theory. The effective optical properties of this driven system are probed through a weak laser whose effects are captured to first order in perturbation theory. The resulting formula for non-equilibrium optical absorption is akin to the regular near-equilibrium absorption theory but with the Floquet-Bloch modes playing the role of pristine eigenstates of matter. To exemplify the effect of laser-dressing in the optical absorption, we perform computations of a model solid with a cosine-shaped lattice potential. We identify dramatic changes in the optical absorption upon increasing the amplitude of the driving laser. The spectrum shows a blue-shift of the band edge and below band gap absorption that agree with the dynamical Franz-Keldysh effect. It also shows several replicas of transitions separated by integer multiples of the drive photon energy that we assign as purely-optical tell-tale signatures of the Floquet-Bloch states. Beyond the dynamical Franz-Keldysh effect, strikingly we also observe intense low-frequency absorption and stimulated emissions and the opening of dips in the absorption spectrum that emerge due to the hybridization of the Floquet-Bloch modes which are novel signatures of the non-equilibrium dynamics in the laser-dressed system. This work open new paths to control and characterize the physical properties of solids using strong laser fields. | 翻訳日:2023-05-18 18:33:34 公開日:2023-05-16 |
# 変圧器のアクティブ学習におけるデータセット転送性について On Dataset Transferability in Active Learning for Transformers ( http://arxiv.org/abs/2305.09807v1 ) ライセンス: Link先を確認 | Fran Jeleni\'c, Josip Juki\'c, Nina Drobac, Jan \v{S}najder | (参考訳) アクティブラーニング(al)は、モデル学習に最も有益な例をクエリすることで、ラベリングコストを削減することを目的としている。
微調整変換器を用いた事前学習言語モデル(PLM)に対するALの有効性が示されているが、一方のモデルから他方への変換によって得られるALの利得の程度は明らかになっていない。
テキスト分類におけるアクティブなデータセットの転送可能性の問題について考察し、ALを用いて構築したデータセットと特定のPLMを併用して異なるPLMをトレーニングする場合にALゲインが持続するかどうかを検討する。
我々は、異なるplmでクエリされたインスタンスの類似性にalデータセットの転送可能性をリンクし、同じ取得シーケンスを持つalメソッドが使用するモデルに関係なく、高度に転送可能なデータセットを生成することを示す。
さらに, 取得シーケンスの類似性は, モデルの選択よりもAL法の選択に強く影響されていることを示す。 Active learning (AL) aims to reduce labeling costs by querying the examples most beneficial for model learning. While the effectiveness of AL for fine-tuning transformer-based pre-trained language models (PLMs) has been demonstrated, it is less clear to what extent the AL gains obtained with one model transfer to others. We consider the problem of transferability of actively acquired datasets in text classification and investigate whether AL gains persist when a dataset built using AL coupled with a specific PLM is used to train a different PLM. We link the AL dataset transferability to the similarity of instances queried by the different PLMs and show that AL methods with similar acquisition sequences produce highly transferable datasets regardless of the models used. Additionally, we show that the similarity of acquisition sequences is influenced more by the choice of the AL method than the choice of the model. | 翻訳日:2023-05-18 18:33:08 公開日:2023-05-16 |
# sasha: 大きな言語モデルを持つスマートホームにおける創造的目標指向推論 Sasha: creative goal-oriented reasoning in smart homes with large language models ( http://arxiv.org/abs/2305.09802v1 ) ライセンス: Link先を確認 | Evan King, Haoxiang Yu, Sangsu Lee, Christine Julien | (参考訳) すべてのスマートホームユーザインタラクションには、明示的あるいは暗黙的な目標がある。
既存のホームアシスタントは、例えば "turn on the light" のような明確な目標を容易に達成できる。
しかし、より自然なコミュニケーションでは、人間は暗黙の目標を記述する傾向がある。
例えば、特定のステップを記述するのではなく、誰かに"cozy"を作るように頼むことができます。
現在のシステムは、特定のデバイスに曖昧な意図を関連付ける必要があるため、この曖昧さに苦慮している。
我々は,大規模コーパスで訓練された汎用大規模言語モデル(LLM)の観点から,ユーザ目標を柔軟に達成するこの問題に対処する。
ユーザコマンドの暗黙的な目標を満たすために,デバイス制御や自動化ルーチン作成にLLMを使用する方法について検討する。
ユーザ中心の研究では、LCMは創造的に挑戦的な目標を達成すると同時に、有用性を低下させるギャップを明らかにすることができる。
sasha: スマートホームにおける創造的で目標指向の推論のためのシステムです。
Sasha氏は、“Make it cozy”や“help me sleep better”といったコマンドに応答して、ユーザ目標を達成する計画を実行している。
私たちは本物のスマートホームでsashaをデモします。 Every smart home user interaction has an explicit or implicit goal. Existing home assistants easily achieve explicit goals, e.g., "turn on the light". In more natural communication, however, humans tend to describe implicit goals. We can, for example, ask someone to "make it cozy" rather than describe the specific steps involved. Current systems struggle with this ambiguity since it requires them to relate vague intent to specific devices. We approach this problem of flexibly achieving user goals from the perspective of general-purpose large language models (LLMs) trained on gigantic corpora and adapted to downstream tasks with remarkable flexibility. We explore the use of LLMs for controlling devices and creating automation routines to meet the implicit goals of user commands. In a user-focused study, we find that LLMs can reason creatively to achieve challenging goals, while also revealing gaps that diminish their usefulness. We address these gaps with Sasha: a system for creative, goal-oriented reasoning in smart homes. Sasha responds to commands like "make it cozy" or "help me sleep better" by executing plans to achieve user goals, e.g., setting a mood with available devices, or devising automation routines. We demonstrate Sasha in a real smart home. | 翻訳日:2023-05-18 18:32:52 公開日:2023-05-16 |
# ミラジェス:対話システムにおける擬人化について Mirages: On Anthropomorphism in Dialogue Systems ( http://arxiv.org/abs/2305.09800v1 ) ライセンス: Link先を確認 | Gavin Abercrombie, Amanda Cercas Curry, Tanvi Dinkar, Zeerak Talat | (参考訳) 自動対話システムや会話システムは、開発者によって人為化され、ユーザによって人格化される。
擬人化の度合いは避けられないが、意識的かつ無意識なデザインの選択は、ユーザーがそれらを様々な程度にパーソナライズするように誘導することができる。
ユーザが自動化システムに人間であるかのように関連付けることで、透明性と信頼性の問題や、アウトプットへの過度な信頼によるリスクシナリオにつながる可能性がある。
その結果、自然言語処理研究者は、人格化を誘導し、そのような効果を緩和する資源を開発する要因を調査し始めている。
しかし、これらの努力は断片化されており、人類同型の多くの側面はまだ考慮されていない。
本稿では,対話システムの人為的類型化に寄与する言語要因について論じ,性役割のステレオタイプと受け入れられる言語概念の強化を論じる。
対話システムの構築に向けた今後の取り組みは,その設計,開発,リリース,説明において特に注意を払うこと,ユーザによる人格化を誘発する多くの言語的手がかりに従うことを推奨する。 Automated dialogue or conversational systems are anthropomorphised by developers and personified by users. While a degree of anthropomorphism is inevitable, conscious and unconscious design choices can guide users to personify them to varying degrees. Encouraging users to relate to automated systems as if they were human can lead to transparency and trust issues, and high risk scenarios caused by over-reliance on their outputs. As a result, natural language processing researchers have begun to investigate factors that induce personification and develop resources to mitigate such effects. However, these efforts are fragmented, and many aspects of anthropomorphism have yet to be considered. In this paper, we discuss the linguistic factors that contribute to the anthropomorphism of dialogue systems and the harms that can arise, arguing that it can reinforce stereotypes of gender roles and notions of acceptable language. We recommend that future efforts towards developing dialogue systems take particular care in their design, development, release, and description; and attend to the many linguistic cues that can elicit personification by users. | 翻訳日:2023-05-18 18:32:31 公開日:2023-05-16 |
# 言葉の仕方: 単語の選択が情報の関与と意思決定に及ぼす影響 The Ways of Words: The Impact of Word Choice on Information Engagement and Decision Making ( http://arxiv.org/abs/2305.09798v1 ) ライセンス: Link先を確認 | Nimrod Dvir, Elaine Friedman, Suraj Commuri, Fan Yang, Jennifer Romano | (参考訳) 情報エンゲージメント(英: information engagement、IE)とは、個人が認知的に、行動的に、感情的に、どのように情報と相互作用し、使用するかの程度である。
本研究は, 表現, 特に単語選択がIEと意思決定に与える影響について検討した。
2つの理論モデル、すなわちユーザエンゲージメント理論 uet と情報行動理論 ibt を合成し、知覚、参加、忍耐の3つのie次元間の影響と関係を示す理論的枠組みを開発し、仮説を作成した。
このフレームワークは、IEの寸法が単語選択がどのように影響するかを計測する大規模なユーザスタディで実証的に検証された。
この発見は、IEが情報自体の表現によって駆動され、育てられるという点において、情報を見たり、対話したり、利用したりするのに使用される情報システムによらず、他の形態のエンゲージメントと異なる証拠を提供する。
この結果は,情報表現,特に語選択が意思決定やIEに与える影響を示唆し,情報解釈とデジタル情報との相互作用に有意な影響を及ぼす可能性が示唆された。
本研究は,ieの評価・改善方法とデジタルテキストによる意思決定方法を明らかにすることで,文献に寄与する。 Little research has explored how information engagement (IE), the degree to which individuals interact with and use information in a manner that manifests cognitively, behaviorally, and affectively. This study explored the impact of phrasing, specifically word choice, on IE and decision making. Synthesizing two theoretical models, User Engagement Theory UET and Information Behavior Theory IBT, a theoretical framework illustrating the impact of and relationships among the three IE dimensions of perception, participation, and perseverance was developed and hypotheses generated. The framework was empirically validated in a large-scale user study measuring how word choice impacts the dimensions of IE. The findings provide evidence that IE differs from other forms of engagement in that it is driven and fostered by the expression of the information itself, regardless of the information system used to view, interact with, and use the information. The findings suggest that phrasing can have a significant effect on the interpretation of and interaction with digital information, indicating the importance of expression of information, in particular word choice, on decision making and IE. The research contributes to the literature by identifying methods for assessment and improvement of IE and decision making with digital text. | 翻訳日:2023-05-18 18:32:13 公開日:2023-05-16 |
# 制御リアプノフバリア関数を用いた安全ロボット制御のための強化学習 Reinforcement Learning for Safe Robot Control using Control Lyapunov Barrier Functions ( http://arxiv.org/abs/2305.09793v1 ) ライセンス: Link先を確認 | Desong Du, Shaohang Han, Naiming Qi, Haitham Bou Ammar, Jun Wang and Wei Pan | (参考訳) 強化学習(RL)は、ロボットの複雑な制御タスクを管理する際の優れた性能を示す。
しかし、物理的なロボットへの幅広い適用は、強力な安全性保証がないことによって制限されている。
この課題を克服するため,本研究では動的モデルを用いずにデータのみに基づいて安全性と到達性を分析するための制御リアプノフ障壁関数(clbf)について検討する。
また、モデルのないRLアルゴリズムであるリアプノフバリアアクター批判(LBAC)を提案し、データに基づく安全性と到達性条件の近似を満足するコントローラを探索した。
提案手法は,シミュレーションと実世界のロボット制御実験,すなわち2次元クアドロターナビゲーションタスクを用いて実証された。
実験により, 他のモデルレスRL法を超越した, 到達性と安全性に対するこのアプローチの有効性が示された。 Reinforcement learning (RL) exhibits impressive performance when managing complicated control tasks for robots. However, its wide application to physical robots is limited by the absence of strong safety guarantees. To overcome this challenge, this paper explores the control Lyapunov barrier function (CLBF) to analyze the safety and reachability solely based on data without explicitly employing a dynamic model. We also proposed the Lyapunov barrier actor-critic (LBAC), a model-free RL algorithm, to search for a controller that satisfies the data-based approximation of the safety and reachability conditions. The proposed approach is demonstrated through simulation and real-world robot control experiments, i.e., a 2D quadrotor navigation task. The experimental findings reveal this approach's effectiveness in reachability and safety, surpassing other model-free RL methods. | 翻訳日:2023-05-18 18:31:52 公開日:2023-05-16 |
# スコアベース演算子Newton法による計測輸送 A score-based operator Newton method for measure transport ( http://arxiv.org/abs/2305.09792v1 ) ライセンス: Link先を確認 | Nisha Chandramoorthy, Florian Schaefer and Youssef Marzouk | (参考訳) 確率測度の移動は、変分推論から生成的モデリングまで、統計学や機械学習における多くのコアタスクの基礎となる。
典型的な目標は、興味のある対象確率測度を、学習されたマップを通して移動可能なソース測度のプッシュフォワードとして表現することである。
本稿では,対象分布のスコアを評価する能力から,そのような輸送マップを新たに構築する。
具体的には、写像を無限次元スコアレシデント作用素の零点として特徴づけ、そのような零点を反復的に構築するニュートン型法を導出する。
偏微分方程式(PDE)に対する古典楕円正則性理論(英語版)(classical elliptic regularity theory)を導入することにより、これらの反復の収束を証明し、この構成が目標スコアの滑らか性仮定の下で、迅速に収束することを示す。
このアプローチの鍵となる要素は、非線形PDEや力学系において現れる無限次元作用素への初等ニュートン法の一般化である。
我々のニュートン構造は機能的に開発されているが、輸送地図を近似するための新しい反復アルゴリズムも提案している。 Transportation of probability measures underlies many core tasks in statistics and machine learning, from variational inference to generative modeling. A typical goal is to represent a target probability measure of interest as the push-forward of a tractable source measure through a learned map. We present a new construction of such a transport map, given the ability to evaluate the score of the target distribution. Specifically, we characterize the map as a zero of an infinite-dimensional score-residual operator and derive a Newton-type method for iteratively constructing such a zero. We prove convergence of these iterations by invoking classical elliptic regularity theory for partial differential equations (PDE) and show that this construction enjoys rapid convergence, under smoothness assumptions on the target score. A key element of our approach is a generalization of the elementary Newton method to infinite-dimensional operators, other forms of which have appeared in nonlinear PDE and in dynamical systems. Our Newton construction, while developed in a functional setting, also suggests new iterative algorithms for approximating transport maps. | 翻訳日:2023-05-18 18:31:37 公開日:2023-05-16 |
# 対照的に微調整された言語モデルから意味概念を蒸留する Distilling Semantic Concept Embeddings from Contrastively Fine-Tuned Language Models ( http://arxiv.org/abs/2305.09785v1 ) ライセンス: Link先を確認 | Na Li, Hanane Kteich, Zied Bouraoui, Steven Schockaert | (参考訳) 概念の意味を捉えるベクトルを学ぶことは、依然として根本的な課題である。
多少意外なことに、おそらくは事前学習された言語モデルは、そのような概念埋め込みの品質をわずかに改善するしかなかった。
言語モデルを使用する現在の戦略は、一般的に、コーパスにおけるその言及の文脈化された表現を平均することで概念を表現する。
これは少なくとも2つの理由から最適化される可能性がある。
まず、文脈化された単語ベクトルは、下流のタスクを阻害する異常な形状を持つ。
第二に、概念埋め込みは概念の意味的性質を捉えなければならないが、文脈化された単語ベクトルは他の要因にも影響される。
これらの問題に対処するために,2つの文が類似する性質を示すとき,対応する文脈的ベクトルも類似するべきだという観点から,2つの対比学習戦略を提案する。
一つの戦略は完全に教師なしであり、文脈化された単語埋め込みの近傍構造から文中で表現される特性を推定する。
第2の戦略は、ConceptNetからの遠方の監視信号に依存する。
実験結果から,提案したベクトルは概念のセマンティックな特性を予測する上で,既存の概念埋め込みよりもはるかに優れており,ConceptNetベースの戦略が最良であることが示された。
これらの結果は、さらにクラスタリングタスクやオントロジー完了の下流タスクで確認される。 Learning vectors that capture the meaning of concepts remains a fundamental challenge. Somewhat surprisingly, perhaps, pre-trained language models have thus far only enabled modest improvements to the quality of such concept embeddings. Current strategies for using language models typically represent a concept by averaging the contextualised representations of its mentions in some corpus. This is potentially sub-optimal for at least two reasons. First, contextualised word vectors have an unusual geometry, which hampers downstream tasks. Second, concept embeddings should capture the semantic properties of concepts, whereas contextualised word vectors are also affected by other factors. To address these issues, we propose two contrastive learning strategies, based on the view that whenever two sentences reveal similar properties, the corresponding contextualised vectors should also be similar. One strategy is fully unsupervised, estimating the properties which are expressed in a sentence from the neighbourhood structure of the contextualised word embeddings. The second strategy instead relies on a distant supervision signal from ConceptNet. Our experimental results show that the resulting vectors substantially outperform existing concept embeddings in predicting the semantic properties of concepts, with the ConceptNet-based strategy achieving the best results. These findings are furthermore confirmed in a clustering task and in the downstream task of ontology completion. | 翻訳日:2023-05-18 18:31:18 公開日:2023-05-16 |
# SpecInfer: 投機推論とトークンツリー検証による生成LDMの高速化 SpecInfer: Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification ( http://arxiv.org/abs/2305.09781v1 ) ライセンス: Link先を確認 | Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Zeyu Wang, Rae Ying Yee Wong, Zhuoming Chen, Daiyaan Arfeen, Reyna Abhyankar, Zhihao Jia | (参考訳) 生成型大規模言語モデル(LLM)の高い計算とメモリ要求は、それらを迅速かつ安価に提供することを困難にしている。
本稿では、投機推論とトークンツリー検証によるジェネレーティブLLM推論を高速化するLLMサービスシステムであるSpecInferを紹介する。
specinferの背後にある重要な洞察は、様々な集合的に調整された小さな言語モデルを組み合わせてllmの出力を共同で予測することである。
トークンツリーで表される全ての候補トークンシーケンスの正当性を、新しいツリーベースの並列復号機構を用いてLCMにより並列に検証する。
SpecInferは、インクリメンタルデコーダの代わりに LLM をトークンツリー検証器として使用し、モデル品質を確実に保ちながら、生成 LLM を提供するためのエンドツーエンドのレイテンシと計算要求を大幅に削減する。 The high computational and memory requirements of generative large language models (LLMs) make it challenging to serve them quickly and cheaply. This paper introduces SpecInfer, an LLM serving system that accelerates generative LLM inference with speculative inference and token tree verification. A key insight behind SpecInfer is to combine various collectively boost-tuned small language models to jointly predict the LLM's outputs; the predictions are organized as a token tree, whose nodes each represent a candidate token sequence. The correctness of all candidate token sequences represented by a token tree is verified by the LLM in parallel using a novel tree-based parallel decoding mechanism. SpecInfer uses an LLM as a token tree verifier instead of an incremental decoder, which significantly reduces the end-to-end latency and computational requirement for serving generative LLMs while provably preserving model quality. | 翻訳日:2023-05-18 18:30:59 公開日:2023-05-16 |
# Coagent Networks: 一般化とスケール Coagent Networks: Generalized and Scaled ( http://arxiv.org/abs/2305.09838v1 ) ライセンス: Link先を確認 | James E. Kostas, Scott M. Jordan, Yash Chandak, Georgios Theocharous, Dhawal Gupta, Martha White, Bruno Castro da Silva, Philip S. Thomas | (参考訳) coagent networks for reinforcement learning (rl) [thomas and barto, 2011]は、任意の確率的ニューラルネットワークの原則学習ルールを導出するための強力で柔軟なフレームワークを提供する。
coagentフレームワークはバックプロパゲーションベースのディープラーニング(bdl)に代わるもので、バックプロパゲーションの主な制限を克服する。
例えば、Coagent Networkはネットワークの異なる部分(異なるレートまたは異なる時間)を計算でき、バックプロパゲーションでは使用できない非微分可能なコンポーネントを組み込むことができ、アクション空間よりも高いレベル(すなわち、探索や時間的抽象化のための階層的ネットワークとして設計できる)で探索することができる。
しかし、Coagentフレームワークは単にBDLに代わるものではない。この2つのアプローチは、BDLとCoagentの学習ルールを組み合わせることで、両方のアプローチの利点を生かしたアーキテクチャを作成することができる。
この一般化は、coagentフレームワーク内でネットワークアーキテクチャ設計をより柔軟にする。
この研究は、共役ネットワークの主な欠点の1つとして、多くの共役ネットワークを持ち、バックプロパゲーションを使用しないネットワークの高分散更新について研究する。
バックプロパゲーションを使用しないポリシーネットワークを持つコージェントアルゴリズムは、高次元の状態と動作空間(MuJoCo Ant環境)を持つ挑戦的なRLドメインにスケールでき、適切な(最先端ではないが)ポリシーを学習できることを示す。
これらの貢献はコアージェントネットワークを研究する将来の研究の動機となり、より一般的な理論基盤を提供する。 Coagent networks for reinforcement learning (RL) [Thomas and Barto, 2011] provide a powerful and flexible framework for deriving principled learning rules for arbitrary stochastic neural networks. The coagent framework offers an alternative to backpropagation-based deep learning (BDL) that overcomes some of backpropagation's main limitations. For example, coagent networks can compute different parts of the network \emph{asynchronously} (at different rates or at different times), can incorporate non-differentiable components that cannot be used with backpropagation, and can explore at levels higher than their action spaces (that is, they can be designed as hierarchical networks for exploration and/or temporal abstraction). However, the coagent framework is not just an alternative to BDL; the two approaches can be blended: BDL can be combined with coagent learning rules to create architectures with the advantages of both approaches. This work generalizes the coagent theory and learning rules provided by previous works; this generalization provides more flexibility for network architecture design within the coagent framework. This work also studies one of the chief disadvantages of coagent networks: high variance updates for networks that have many coagents and do not use backpropagation. We show that a coagent algorithm with a policy network that does not use backpropagation can scale to a challenging RL domain with a high-dimensional state and action space (the MuJoCo Ant environment), learning reasonable (although not state-of-the-art) policies. These contributions motivate and provide a more general theoretical foundation for future work that studies coagent networks. | 翻訳日:2023-05-18 18:23:29 公開日:2023-05-16 |
# オフライン強化学習へのミニマリストアプローチの再検討 Revisiting the Minimalist Approach to Offline Reinforcement Learning ( http://arxiv.org/abs/2305.09836v1 ) ライセンス: Link先を確認 | Denis Tarasov, Vladislav Kurenkov, Alexander Nikulin, Sergey Kolesnikov | (参考訳) 近年、オフライン強化学習(rl)が大幅に進歩し、複雑さの度合いの異なる多数のアルゴリズムが開発された。
これらのアルゴリズムは注目すべき改善をもたらしたが、多くは中核的なアルゴリズムの進歩を超えてその有効性に影響を与える一見小さな設計選択を取り入れている。
しかし、これらの設計選択が確立されたベースラインに与える影響は未定である。
本稿では,オフラインrlにおける最近の作業のふりかえり分析を行い,td3+bc法上に構築された設計要素を統合する最小化アルゴリズムであるrebracを提案することで,このギャップを埋めることを目的とする。
我々はD4RLとV-D4RLのベンチマークを用いて51のデータセット上のReBRACの評価を行い、アンサンブルのない手法の最先端性能を実証した。
これらの設計選択の有効性をさらに説明するために、数千の実験で大規模なアブレーション研究とハイパーパラメータ感度分析を行う。 Recent years have witnessed significant advancements in offline reinforcement learning (RL), resulting in the development of numerous algorithms with varying degrees of complexity. While these algorithms have led to noteworthy improvements, many incorporate seemingly minor design choices that impact their effectiveness beyond core algorithmic advances. However, the effect of these design choices on established baselines remains understudied. In this work, we aim to bridge this gap by conducting a retrospective analysis of recent works in offline RL and propose ReBRAC, a minimalistic algorithm that integrates such design elements built on top of the TD3+BC method. We evaluate ReBRAC on 51 datasets with both proprioceptive and visual state spaces using D4RL and V-D4RL benchmarks, demonstrating its state-of-the-art performance among ensemble-free methods. To further illustrate the efficacy of these design choices, we perform a large-scale ablation study and hyperparameter sensitivity analysis on the scale of thousands of experiments. | 翻訳日:2023-05-18 18:22:43 公開日:2023-05-16 |
# 深部畳み込み網を有するCTスキャンにおける大動脈血管木の分画 Segmentation of Aortic Vessel Tree in CT Scans with Deep Fully Convolutional Networks ( http://arxiv.org/abs/2305.09833v1 ) ライセンス: Link先を確認 | Shaofeng Yuan, Feng Yang | (参考訳) 腹部CT検査における大動脈血管木(AVT)の自動分画は,大動脈瘤,解離,狭窄などの大動脈疾患の早期発見,診断,予後に重要である。
しかし,大動脈血管樹の複雑化とCT血管造影データの量により,この課題は依然として残る。
本稿では,2段階完全畳み込みネットワーク(FCN)を用いて,複数のセンターからのCTAスキャンでAVTを自動的に分割する。
具体的には、まず3D FCNとU字型ネットワークアーキテクチャを採用して、AVTをセグメント化し、トポロジーの注意を喚起し、医療画像解析パイプラインを高速化する。
そしてもう1つの3D FCNは、AVTの擬似中心線に沿ってAVTの分岐を分割するように訓練される。
2023年のaorta(seg.a.)チャレンジのmiccaiセグメンテーションでは、56例の公開データセットで報告された方法が評価された。
結果として得られるDice similarity Coefficient(DSC)は0.920、Jaccard similarity Coefficient(JSC)は0.861、Recallは0.922、Precisionは0.926である。 Automatic and accurate segmentation of aortic vessel tree (AVT) in computed tomography (CT) scans is crucial for early detection, diagnosis and prognosis of aortic diseases, such as aneurysms, dissections and stenosis. However, this task remains challenges, due to the complexity of aortic vessel tree and amount of CT angiography data. In this technical report, we use two-stage fully convolutional networks (FCNs) to automatically segment AVT in CTA scans from multiple centers. Specifically, we firstly adopt a 3D FCN with U-shape network architecture to segment AVT in order to produce topology attention and accelerate medical image analysis pipeline. And then another one 3D FCN is trained to segment branches of AVT along the pseudo-centerline of AVT. In the 2023 MICCAI Segmentation of the Aorta (SEG.A.) Challenge , the reported method was evaluated on the public dataset of 56 cases. The resulting Dice Similarity Coefficient (DSC) is 0.920, Jaccard Similarity Coefficient (JSC) is 0.861, Recall is 0.922, and Precision is 0.926 on a 5-fold random split of training and validation set. | 翻訳日:2023-05-18 18:22:29 公開日:2023-05-16 |
# セルラー車間通信サービス提供のためのエッジリソースのタスク配置とスケーリングに関する深部RLアプローチ A Deep RL Approach on Task Placement and Scaling of Edge Resources for Cellular Vehicle-to-Network Service Provisioning ( http://arxiv.org/abs/2305.09832v1 ) ライセンス: Link先を確認 | Cyril Shih-Huan Hsu, Jorge Mart\'in-P\'erez, Danny De Vleeschauwer, Koteswararao Kondepu, Luca Valcarenghi, Xi Li, Chrysa Papagianni | (参考訳) セルラーVehicle-to-Everything(C-V2X)は現在、私たちの社会のデジタルトランスフォーメーションの最前線にいます。
車両がセルラーネットワークを用いて交通環境と通信できるようにすることで,交通の便宜,道路安全・交通サービスの改善,交通流の効率化,環境への影響の低減を図る。
本稿では,C-V2N(Cellular Vehicular-to-Network)サービスを分散的に提供し,サービスタスク配置とエッジリソースのスケーリングという課題に対処する手法を提案する。
我々は共同問題を形式化し、その複雑さを証明する。
そこで我々は,2つの問題をリンクして,分散的意思決定を用いたアプローチを提案する。
(i)課題配置に対する欲望のあるアプローチ
(ii)スケーリングのためのDeep Deterministic Policy Gradient(DDPG)ベースのアプローチ。
我々は,実際のC-V2Nトラヒックデータセットを用いたシミュレーションにより,提案手法の性能をベンチマークし,スケーリングエージェントに着目した。
その結果、ddpgベースのソリューションはsoaソリューションよりも優れており、c-v2nサービスがターゲットの遅延よりもレイテンシを保ちながら、コンピューティングリソースの使用を最適化していることがわかった。
複雑度解析により,DDPGをベースとしたソリューションが,C-V2Nサービスの厳格なレイテンシ要件を満たすために,ミリ秒未満のランタイムを実現することを示す。 Cellular-Vehicle-to-Everything (C-V2X) is currently at the forefront of the digital transformation of our society. By enabling vehicles to communicate with each other and with the traffic environment using cellular networks, we redefine transportation, improving road safety and transportation services, increasing efficiency of traffic flows, and reducing environmental impact. This paper proposes a decentralized approach for provisioning Cellular Vehicular-to-Network (C-V2N) services, addressing the coupled problems of service task placement and scaling of edge resources. We formalize the joint problem and prove its complexity. We propose an approach to tackle it, linking the two problems, employing decentralized decision-making using (i) a greedy approach for task placement and (ii) a Deep Deterministic Policy Gradient (DDPG) based approach for scaling. We benchmark the performance of our approach, focusing on the scaling agent, against several State-of-the-Art (SoA) scaling approaches via simulations using a real C-V2N traffic data set. The results show that DDPG-based solutions outperform SoA solutions, keeping the latency experienced by the C-V2N service below the target delay while optimizing the use of computing resources. By conducting a complexity analysis, we prove that DDPG-based solutions achieve runtimes in the range of sub-milliseconds, meeting the strict latency requirements of C-V2N services. | 翻訳日:2023-05-18 18:22:06 公開日:2023-05-16 |
# 自己付着層のミメティック初期化 Mimetic Initialization of Self-Attention Layers ( http://arxiv.org/abs/2305.09828v1 ) ライセンス: Link先を確認 | Asher Trockman, J. Zico Kolter | (参考訳) 小さなデータセットでトランスフォーマーを訓練するのは難しいことで悪名高く、通常、大きな事前訓練されたモデルが出発点として使用される。
このような事前学習されたトランスフォーマー(特にビジョン)の重みを調べ、この相違の原因を見出そうとする。
驚くべきことに、単に自己注意層の重みを初期化して、トレーニング済みのレイヤーのように"見える"ようにすることで、バニラトランスフォーマーを高速にトレーニングし、最終的な精度を高めることができ、特にCIFAR-10やImageNetの分類のような視覚タスクでは、それぞれ5%以上と4%以上の精度が向上することがわかった。
我々の初期化スキームはクローズドな形式であり、学習自由であり、非常に単純である: クエリの積とキーの重みをほぼ同一視し、値と射影の積をほぼ負の恒等性に設定する。
これは、事前学習されたトランスフォーマーに見られるパターンを模倣しているため、このテクニックを"mimetic initialization"と呼んでいる。 It is notoriously difficult to train Transformers on small datasets; typically, large pre-trained models are instead used as the starting point. We explore the weights of such pre-trained Transformers (particularly for vision) to attempt to find reasons for this discrepancy. Surprisingly, we find that simply initializing the weights of self-attention layers so that they "look" more like their pre-trained counterparts allows us to train vanilla Transformers faster and to higher final accuracies, particularly on vision tasks such as CIFAR-10 and ImageNet classification, where we see gains in accuracy of over 5% and 4%, respectively. Our initialization scheme is closed form, learning-free, and very simple: we set the product of the query and key weights to be approximately the identity, and the product of the value and projection weights to approximately the negative identity. As this mimics the patterns we saw in pre-trained Transformers, we call the technique "mimetic initialization". | 翻訳日:2023-05-18 18:21:41 公開日:2023-05-16 |
# マシンメイドメディア:誤情報とメインストリームニュースサイトにおける機械学習記事のモビライゼーションのモニタリング Machine-Made Media: Monitoring the Mobilization of Machine-Generated Articles on Misinformation and Mainstream News Websites ( http://arxiv.org/abs/2305.09820v1 ) ライセンス: Link先を確認 | Hans W. A. Hanley, Zakir Durumeric | (参考訳) chatgptのような生成型大言語モデル(llm)の人気が高まり、ニュースサイトは記事を生成するのにそれらを利用するようになった。
しかし、これらの言語モデルは、信頼できるウェブサイト上で事実的に不正確な記事を生成できるだけでなく、不確かなニュースサイトはこれらのLPMを利用して誤情報を大量生成することができる。
この現象を理解するために、オンラインニュースメディアにおける合成記事の普及に関する最初の大規模研究の1つを提案する。
そのために、DeBERTaベースの合成ニュース検出器を訓練し、3,074件の誤報や主流ニュースサイトから1291万件以上を分類する。
2022年1月1日から2023年4月1日までの間に、主要ウェブサイトでは合成ニュース記事の相対的な数は79.4%増加し、偽情報サイトでは342%増加した。
中断時間番組を用いたChatGPTのリリースの影響を分析した結果,小規模サイトや誤報ニュースサイトにおける合成記事の増加は顕著であったが,大手ニュースサイトではそれに相当する増加は見られなかった。
最後に、ソーシャルメディアプラットフォームRedditのデータを用いて、2022年1月に比べてソーシャルメディアユーザーが合成記事とより交流したことが判明した。 With the increasing popularity of generative large language models (LLMs) like ChatGPT, an increasing number of news websites have begun utilizing them to generate articles. However, not only can these language models produce factually inaccurate articles on reputable websites but disreputable news sites can utilize these LLMs to mass produce misinformation. To begin to understand this phenomenon, we present one of the first large-scale studies of the prevalence of synthetic articles within online news media. To do this, we train a DeBERTa-based synthetic news detector and classify over 12.91 million articles from 3,074 misinformation and mainstream news websites. We find that between January 1, 2022 and April 1, 2023, the relative number of synthetic news articles increased by 79.4% on mainstream websites while increasing by 342% on misinformation sites. Analyzing the impact of the release of ChatGPT using an interrupted-time-series, we show that while its release resulted in a marked increase in synthetic articles on small sites as well as misinformation news websites, there was not a corresponding increase on large mainstream news websites. Finally, using data from the social media platform Reddit, we find that social media users interacted more with synthetic articles in March 2023 relative to January 2022. | 翻訳日:2023-05-18 18:21:20 公開日:2023-05-16 |
# 訓練不要な人物画像生成の一手法 A Method for Training-free Person Image Picture Generation ( http://arxiv.org/abs/2305.09817v1 ) ライセンス: Link先を確認 | Tianyu Chen | (参考訳) 現状の拡散モデルでは画像生成に優れた結果が得られた。
しかし、画像は単調であり、主にトレーニングセット内の人物像の分布の結果であり、一定数の個人に対して複数の画像を生成することは困難である。
この問題は、モデルのトレーニングを微調整することでのみ解決できる。
これはつまり、個々の/アニメーション文字イメージを描画する場合は、トレーニングしなければならないことを意味しており、このトレーニングのハードウェアとコストは、最も人数の多い平均ユーザのリーチを超えていることが多い。
この問題を解決するために,本稿で提案するキャラクタ画像特徴エンコーダモデルでは,キャラクタの画像を単純に提供して,生成画像中のキャラクタのイメージを期待値に一致させることで,そのプロセスを利用することができる。
また、プロセス中にプロンプトを使って様々な詳細を調整できる。
従来の画像対画像モデルとは異なり、キャラクタ画像特徴エンコーダは、モデルの構成や動きに関する情報ではなく、関連する画像特徴のみを抽出する。
さらに、キャラクタイメージ特徴エンコーダは、トレーニング後に異なるモデルに適応することができる。
提案モデルは, モデルオントロジーを変更したり, 継手モデルとして安定拡散と組み合わせて用いることなく, 安定拡散生成プロセスに簡便に組み込むことができる。 The current state-of-the-art Diffusion model has demonstrated excellent results in generating images. However, the images are monotonous and are mostly the result of the distribution of images of people in the training set, making it challenging to generate multiple images for a fixed number of individuals. This problem can often only be solved by fine-tuning the training of the model. This means that each individual/animated character image must be trained if it is to be drawn, and the hardware and cost of this training is often beyond the reach of the average user, who accounts for the largest number of people. To solve this problem, the Character Image Feature Encoder model proposed in this paper enables the user to use the process by simply providing a picture of the character to make the image of the character in the generated image match the expectation. In addition, various details can be adjusted during the process using prompts. Unlike traditional Image-to-Image models, the Character Image Feature Encoder extracts only the relevant image features, rather than information about the model's composition or movements. In addition, the Character Image Feature Encoder can be adapted to different models after training. The proposed model can be conveniently incorporated into the Stable Diffusion generation process without modifying the model's ontology or used in combination with Stable Diffusion as a joint model. | 翻訳日:2023-05-18 18:20:56 公開日:2023-05-16 |
# 自閉症者のための生成型AI支援技術への展望 Exploring outlooks towards generative AI-based assistive technologies for people with Autism ( http://arxiv.org/abs/2305.09815v1 ) ライセンス: Link先を確認 | Deepak Giri, Erin Brady | (参考訳) 過去数年間は、生成的人工知能に対する世界的な関心が著しく高まっている。
人工的に作られたビデオであるDeepfakesは、生成人工知能の応用として登場した。
フェイクニュースとポルノコンテンツは、デジタルエコシステムにおけるディープフェイクの最も一般的なマイナスのユースケースである。
ディープフェイクには、映画製作や教育などにおいて、この分野の専門家が考えた、いくつかの有利な応用がある。
しかし、障害者のディープフェイクの可能性についての研究は少ないか存在しない。
本ワークショップでは, ディープフェイクを補助技術としての可能性を探る。
我々は、Nvdiaの新しいビデオ会議機能に関するRedditの会話を調査した。
手作業によるwebスクレイピングと質的コーディングを通じて,自閉症者のテクノロジの関連性と適切性について議論する162の関連コメントが得られた。
定性的コードから特定されたテーマは、自閉症コミュニティの間でテクノロジーに対する多くの懸念を示している。
我々は、生成AIベースの補助ソリューションの開発は、人間とコンピュータの相互作用(HCI)に影響を及ぼすことを示唆し、この領域でさらに検討すべきオープンな疑問を提示する。 The last few years have significantly increased global interest in generative artificial intelligence. Deepfakes, which are synthetically created videos, emerged as an application of generative artificial intelligence. Fake news and pornographic content have been the two most prevalent negative use cases of deepfakes in the digital ecosystem. Deepfakes have some advantageous applications that experts in the subject have thought of in the areas of filmmaking, teaching, etc. Research on the potential of deepfakes among people with disabilities is, however, scarce or nonexistent. This workshop paper explores the potential of deepfakes as an assistive technology. We examined Reddit conversations regarding Nvdia's new videoconferencing feature which allows participants to maintain eye contact during online meetings. Through manual web scraping and qualitative coding, we found 162 relevant comments discussing the relevance and appropriateness of the technology for people with Autism. The themes identified from the qualitative codes indicate a number of concerns for technology among the autistic community. We suggest that developing generative AI-based assistive solutions will have ramifications for human-computer interaction (HCI), and present open questions that should be investigated further in this space. | 翻訳日:2023-05-18 18:20:35 公開日:2023-05-16 |
# シリコンナノフォトニクスにおけるチップスケール偏光-空間-運動量子SWAPゲート A chip-scale polarization-spatial-momentum quantum SWAP gate in silicon nanophotonics ( http://arxiv.org/abs/2305.09812v1 ) ライセンス: Link先を確認 | Xiang Cheng, Kai-Chi Chang, Zhenda Xie, Murat Can Sarihan, Yoo Seung Lee, Yongnan Li, XinAn Xu, Abhinav Kumar Vinod, Serdar Kocaman, Mingbin Yu, Patrick Guo-Qiang Lo, Dim-Lee Kwong, Jeffrey H. Shapiro, Franco N. C. Wong and Chee Wei Wong | (参考訳) 量子コンピューティングとネットワークの最近の進歩は、異なる量子モジュールを接続することによって、高性能な大規模量子プロセッサを実現する。
光量子システムは計算と通信の両方において利点を示し、集積量子フォトニクスはさらにスケーリングと複雑性のレベルを増大させる。
ここでは、3つのカスケードゲートを含む2層シリコンフォトニクスチップ上で、光子の偏光量子ビットと空間運動量子ビットとを決定的に交換する効率的なSWAPゲートを示す。
オンチップSWAPゲートは、シングルキュービットと2キュービットの両方の動作に対して高忠実度トモグラフィー測定によって包括的に特徴付けられる。
SWAPゲートプロセスのコヒーレンス保存は、単一光子と2光子量子干渉によって検証される。
スワップゲートのコヒーレント可逆変換は、異なる自由度を持つ異なるフォトニックサブシステム間の量子的相互接続を促進する。
また, SWAP手術における脱コヒーレンス源の解明も行なった。
シリコンプラットフォームにおける決定論的SWAPゲートは、相互接続されたモジュールシステムのための統合量子情報処理への経路を提供する。 Recent progress in quantum computing and networking enables high-performance large-scale quantum processors by connecting different quantum modules. Optical quantum systems show advantages in both computing and communications, and integrated quantum photonics further increases the level of scaling and complexity. Here we demonstrate an efficient SWAP gate that deterministically swaps a photon's polarization qubit with its spatial-momentum qubit on a nanofabricated two-level silicon-photonics chip containing three cascaded gates. The on-chip SWAP gate is comprehensively characterized by tomographic measurements with high fidelity for both single-qubit and two-qubit operation. The coherence preservation of the SWAP gate process is verified by single-photon and two-photon quantum interference. The coherent reversible conversion of our SWAP gate facilitates a quantum interconnect between different photonic subsystems with different degrees of freedom, demonstrated by distributing four Bell states between two chips. We also elucidate the source of decoherence in the SWAP operation in pursuit of near-unity fidelity. Our deterministic SWAP gate in the silicon platform provides a pathway towards integrated quantum information processing for interconnected modular systems. | 翻訳日:2023-05-18 18:20:20 公開日:2023-05-16 |
# UAV画像におけるソルガムパニクルの半監督対象検出 Semi-Supervised Object Detection for Sorghum Panicles in UAV Imagery ( http://arxiv.org/abs/2305.09810v1 ) ライセンス: Link先を確認 | Enyu Cai, Jiaqi Guo, Changye Yang, Edward J. Delp | (参考訳) パニックは、穀物の収量と植物の発達に関連する重要な特徴である。
ソルガムのパニックの検出と計数は、植物の表現型に重要な情報を提供する。
パニックに対する現在のディープラーニングに基づくオブジェクト検出手法は、大量のトレーニングデータを必要とする。
データラベリングは時間がかかり、実際のアプリケーションでは実現できません。
本稿では,半教師付き学習によるソルガムパニック検出のための訓練データ量を削減する手法を提案する。
その結果,オリジナルトレーニングデータの10\%のみを用いて,sorghum panicle検出のための教師付き手法と同等の性能が得られることがわかった。 The sorghum panicle is an important trait related to grain yield and plant development. Detecting and counting sorghum panicles can provide significant information for plant phenotyping. Current deep-learning-based object detection methods for panicles require a large amount of training data. The data labeling is time-consuming and not feasible for real application. In this paper, we present an approach to reduce the amount of training data for sorghum panicle detection via semi-supervised learning. Results show we can achieve similar performance as supervised methods for sorghum panicle detection by only using 10\% of original training data. | 翻訳日:2023-05-18 18:20:04 公開日:2023-05-16 |
# シンプルに保つ:信頼できないクライアントによるフェデレーション学習の耐障害性評価 Keep It Simple: Fault Tolerance Evaluation of Federated Learning with Unreliable Clients ( http://arxiv.org/abs/2305.09856v1 ) ライセンス: Link先を確認 | Victoria Huang, Shaleeza Sohail, Michael Mayo, Tania Lorido Botran, Mark Rodrigues, Chris Anderson, Melanie Ooi | (参考訳) 新たな人工知能(AI)アプローチとしてのフェデレーション学習(FL)は、ローカルトレーニングデータを公開せずに、複数のデバイスにわたる分散モデルトレーニングを可能にする。
FLは、アカデミックと産業の両方で人気が高まっている。
flの耐障害性を改善するための研究が提案されているが、実際のアプリケーションにおける信頼性の低いデバイス(例えば、脱落、構成ミス、データ品質の低下など)の実際の影響は十分に調査されていない。
FLフォールトトレランスをよりよく解析するために,クライアント数が少ない2つの代表的な実世界の分類問題を慎重に選択した。
直感に反して、単純なflアルゴリズムは信頼できないクライアントの存在下で驚くほどよく機能する。 Federated learning (FL), as an emerging artificial intelligence (AI) approach, enables decentralized model training across multiple devices without exposing their local training data. FL has been increasingly gaining popularity in both academia and industry. While research works have been proposed to improve the fault tolerance of FL, the real impact of unreliable devices (e.g., dropping out, misconfiguration, poor data quality) in real-world applications is not fully investigated. We carefully chose two representative, real-world classification problems with a limited numbers of clients to better analyze FL fault tolerance. Contrary to the intuition, simple FL algorithms can perform surprisingly well in the presence of unreliable clients. | 翻訳日:2023-05-18 18:13:37 公開日:2023-05-16 |
# スケーラブルな量子リピータ展開モデリング Scalable Quantum Repeater Deployment Modeling ( http://arxiv.org/abs/2305.09855v1 ) ライセンス: Link先を確認 | Tasdiqul Islam and Engin Arslan | (参考訳) 長距離量子通信は、量子ビットの忠実性を維持することが難しいため、大きな課題となる。
この問題は、量子リピータを使ってベル測定を通して絡み合う情報を送信することで解決できる。
しかし、広帯域の量子インターネットを実現する必要性にもかかわらず、量子リピータの展開コストは禁じられるため、コストと有効性のバランスをとることができる量子リピータ配置モデルを開発することが重要である。
本稿では,大規模ネットワークに展開する最小数の量子リピータを迅速に決定し,エンドホスト間のエンドツーエンド接続を実現するための新しいヒューリスティックモデルを提案する。
その結果, 線形プログラミング手法と比較して, SURFnet や ESnet などの合成実世界のネットワークに対して, 実行時間を数日から数秒に短縮し, ほぼ最適解を求めることができることがわかった。
信頼性がネットワークの鍵となるため、ヒューリスティックな手法で最大2つのリンク/ノード障害に耐えられるデプロイメントモデルを決定できることを示す。 Long-distance quantum communication presents a significant challenge as maintaining the fidelity of qubits can be difficult. This issue can be addressed through the use of quantum repeaters to transmit entanglement information through Bell measurements. However, despite its necessity to enable wide-area quantum internet, the deployment cost of quantum repeaters can be prohibitively expensive, thus it is important to develop a quantum repeater deployment model that can strike a balance between cost and effectiveness. In this work, we present novel heuristic models to quickly determine a minimum number of quantum repeaters to deploy in large-scale networks to provide end-to-end connectivity between all end hosts. The results show that, compared to the linear programming approach, the heuristic methods can find near-optimal solutions while reducing the execution time from days to seconds when evaluated against several synthetic and real-world networks such as SURFnet and ESnet. As reliability is key for any network, we also demonstrate that the heuristic method can determine deployment models that can endure up to two link/node failures. | 翻訳日:2023-05-18 18:13:25 公開日:2023-05-16 |
# MINT:スパイクニューラルネットワークのためのマルチプライヤレス整数量子化 MINT: Multiplier-less Integer Quantization for Spiking Neural Networks ( http://arxiv.org/abs/2305.09850v1 ) ライセンス: Link先を確認 | Ruokai Yin, Yuhang Li, Abhishek Moitra, Priyadarshini Panda | (参考訳) スパイキングニューラルネットワーク(SNN)における重みと膜電位の均一化手法であるMINT(Multiplier-less INTeger)量子化法を提案する。
以前のSNN量子化法とは異なり、MINTはメモリ・ハングリー膜電位を極低ビット幅(2ビット)に量子化し、メモリ全体のフットプリントを大幅に削減した。
さらに、MINT量子化は重みと膜電位の間の量子化スケールを共有し、標準均一量子化で必要とされる乗算器や浮動小数点演算ユニットを不要にする。
実験結果から,提案手法は他のsn量子化手法と一致し,メモリフットプリントとデプロイメント時のハードウェアコストを上回って精度が向上することを示した。
例えば、2ビットのmint vgg-16は、tinyimagenetの48.6%の精度(全精度ベースラインより0.28%優れている)を達成し、全精度モデルから全体のメモリフットプリントを約93.8%削減した。 We propose Multiplier-less INTeger (MINT) quantization, an efficient uniform quantization scheme for the weights and membrane potentials in spiking neural networks (SNNs). Unlike prior SNN quantization works, MINT quantizes the memory-hungry membrane potentials to extremely low bit-width (2-bit) to significantly reduce the total memory footprint. Additionally, MINT quantization shares the quantization scale between the weights and membrane potentials, eliminating the need for multipliers and floating arithmetic units, which are required by the standard uniform quantization. Experimental results demonstrate that our proposed method achieves accuracy that matches other state-of-the-art SNN quantization works while outperforming them on total memory footprint and hardware cost at deployment time. For instance, 2-bit MINT VGG-16 achieves 48.6% accuracy on TinyImageNet (0.28% better than the full-precision baseline) with approximately 93.8% reduction in total memory footprint from the full-precision model; meanwhile, our model reduces area by 93% and dynamic power by 98% compared to other SNN quantization counterparts. | 翻訳日:2023-05-18 18:13:07 公開日:2023-05-16 |
# 選択的指導: 誘導拡散の分別ステップは、すべて重要か? Selective Guidance: Are All the Denoising Steps of Guided Diffusion Important? ( http://arxiv.org/abs/2305.09847v1 ) ライセンス: Link先を確認 | Pareesa Ameneh Golnari, Zhewei Yao, Yuxiong He | (参考訳) 本研究では,安定拡散(SD)誘導推論パイプラインの最適化の影響について検討した。
本稿では,雑音計算を条件付き雑音に制限し,非条件付き雑音計算をなくし,目的の繰り返しの複雑さを50%減らし,特定の雑音処理を最適化することを提案する。
さらに、後続のSDの繰り返しは最適化に敏感でなく、提案した最適化を適用する上で理想的な候補となることを示した。
実験の結果, 最後の20%のループ繰り返しを最適化すると, 推測時間が8.2%減少し, 人間の目にはほとんど変化がないことがわかった。
さらに、前回のイテレーションの50%に最適化を拡張することで、推論時間を約20.3%短縮し、視覚的に満足な画像を生成することができることがわかった。 This study examines the impact of optimizing the Stable Diffusion (SD) guided inference pipeline. We propose optimizing certain denoising steps by limiting the noise computation to conditional noise and eliminating unconditional noise computation, thereby reducing the complexity of the target iterations by 50%. Additionally, we demonstrate that later iterations of the SD are less sensitive to optimization, making them ideal candidates for applying the suggested optimization. Our experiments show that optimizing the last 20% of the denoising loop iterations results in an 8.2% reduction in inference time with almost no perceivable changes to the human eye. Furthermore, we found that by extending the optimization to 50% of the last iterations, we can reduce inference time by approximately 20.3%, while still generating visually pleasing images. | 翻訳日:2023-05-18 18:12:45 公開日:2023-05-16 |
# CPL-NoViD:オンラインコミュニティにおけるノーム違反検出のための文脈認識型プロンプト学習 CPL-NoViD: Context-Aware Prompt-based Learning for Norm Violation Detection in Online Communities ( http://arxiv.org/abs/2305.09846v1 ) ライセンス: Link先を確認 | Zihao He, Jonathan May, Kristina Lerman | (参考訳) オンラインコミュニティにおける規範違反の検出は、オンライン議論のための健全で安全な空間を維持する上で重要である。
既存の機械学習のアプローチは、これらのコンテキスト固有のタスクの微調整モデルに固有の課題があるため、さまざまなコミュニティにわたる多様なルールや解釈に適応するのに苦労することが多い。
本稿では,様々なルールにまたがる規範違反を検出するために,プロンプトベース学習を用いる新しい手法である,規範違反検出のための文脈認識型プロンプトベース学習(cpl-novid)を提案する。
CPL-NoViDは、自然言語のプロンプトを通じてコンテキストを組み込むことでベースラインを上回り、異なるルールタイプにわたるパフォーマンスの向上を示す。
重要なことは、クロスルール型およびクロスコミュニティノルム違反検出に優れるだけでなく、数ショットの学習シナリオにも適応性を示す。
最も注目すべきは、既存のベンチマークを上回って、標準違反検出における新しい最先端の確立である。
我々の研究は、文脈に敏感な規範違反検出のための素早い学習の可能性を強調し、オンラインコミュニティモデレーターをより良いサポートするために、より適応性のある文脈認識モデルの研究の道を開く。 Detecting norm violations in online communities is critical to maintaining healthy and safe spaces for online discussions. Existing machine learning approaches often struggle to adapt to the diverse rules and interpretations across different communities due to the inherent challenges of fine-tuning models for such context-specific tasks. In this paper, we introduce Context-aware Prompt-based Learning for Norm Violation Detection (CPL-NoViD), a novel method that employs prompt-based learning to detect norm violations across various types of rules. CPL-NoViD outperforms the baseline by incorporating context through natural language prompts and demonstrates improved performance across different rule types. Significantly, it not only excels in cross-rule-type and cross-community norm violation detection but also exhibits adaptability in few-shot learning scenarios. Most notably, it establishes a new state-of-the-art in norm violation detection, surpassing existing benchmarks. Our work highlights the potential of prompt-based learning for context-sensitive norm violation detection and paves the way for future research on more adaptable, context-aware models to better support online community moderators. | 翻訳日:2023-05-18 18:12:30 公開日:2023-05-16 |
# PCOASTにおける単項および非単項量子演算のインタフェースにおける最適化 Optimization at the Interface of Unitary and Non-unitary Quantum Operations in PCOAST ( http://arxiv.org/abs/2305.09843v1 ) ライセンス: Link先を確認 | Albert T. Schmitz, Mohannad Ibrahim, Nicolas P. D. Sawaya, Gian Giacomo Guerreschi, Jennifer Paykin, Xin-Chuan Wu, A. Y. Matsuura | (参考訳) パウリをベースとした回路最適化・解析・合成ツールチェーン(PCOAST)は量子回路を最適化するためのフレームワークとして最近導入された。
量子回路をポーリベースのグラフ表現に変換し、内部表現を操作するための一連の最適化サブルーチンと、量子回路に再合成する方法を提供する。
本稿では,pcoastグラフを最適化するサブルーチンのセットに注目し,グラフのノードで表されるユニタリ演算と非ユニタリ演算を含む場合について述べる。
これには、準備ノードの有無におけるノードコストとノード番号の削減、準備の有無におけるクリフォード操作のコスト削減、クリフォード操作による測定コストの削減、測定結果の古典的な再マッピングなどが含まれる。
これらのルーチンを組み合わせることで、その効果を増幅することもできる。
本稿では,変分量子固有解法(VQE)アルゴリズムの例として,Intel Quantum SDKを用いたPCOAST最適化サブルーチンの評価を行った。
これには、相互に可換なポーリ作用素の集合の同時測定のための回路の合成が含まれる。
このような測定回路では, 2量子ゲートの最大理論的数と, 提案手法で用いる2量子ゲートの実際の数の平均比が7.91となる。 The Pauli-based Circuit Optimization, Analysis and Synthesis Toolchain (PCOAST) was recently introduced as a framework for optimizing quantum circuits. It converts a quantum circuit to a Pauli-based graph representation and provides a set of optimization subroutines to manipulate that internal representation as well as methods for re-synthesizing back to a quantum circuit. In this paper, we focus on the set of subroutines which look to optimize the PCOAST graph in cases involving unitary and non-unitary operations as represented by nodes in the graph. This includes reduction of node cost and node number in the presence of preparation nodes, reduction of cost for Clifford operations in the presence of preparations, and measurement cost reduction using Clifford operations and the classical remapping of measurement outcomes. These routines can also be combined to amplify their effectiveness. We evaluate the PCOAST optimization subroutines using the Intel Quantum SDK on examples of the Variational Quantum Eigensolver (VQE) algorithm. This includes synthesizing a circuit for the simultaneous measurement of a mutually commuting set of Pauli operators. We find for such measurement circuits the overall average ratio of the maximum theoretical number of two-qubit gates to the actual number of two-qubit gates used by our method to be 7.91. | 翻訳日:2023-05-18 18:12:08 公開日:2023-05-16 |
# 経験的補間法による深層ニューラルネットワークの次元化に関する一考察 A Note on Dimensionality Reduction in Deep Neural Networks using Empirical Interpolation Method ( http://arxiv.org/abs/2305.09842v1 ) ライセンス: Link先を確認 | Harbir Antil, Madhu Gupta, and Randy Price | (参考訳) 経験的補間法(EIM)はパラメータ化関数を効率的に近似する手法としてよく知られている。
本稿では,教師付き機械学習におけるトレーニングデータの次元を効率的に削減するために,EMMアルゴリズムを提案する。
これをDNN-EIMと呼ぶ。
データサイエンス(MNISTなど)やパラメータ化(および時間依存)偏微分方程式(PDE)の応用が検討されている。
分類の際に提案するDNNは,クラス毎に並列に訓練される。
このアプローチはシーケンシャルであり、ネットワークを再トレーニングすることなく新しいクラスを追加することができる。
PDEの場合、DNNは各EIMポイントに対応して設計される。
繰り返しますが、これらのネットワークはEIMポイントごとに並列にトレーニングできます。
いずれの場合も、並列ネットワークはトレーニング重量の10分の1以下を必要とする。
訓練時間は正確さを犠牲にすることなく大幅に向上する。 Empirical interpolation method (EIM) is a well-known technique to efficiently approximate parameterized functions. This paper proposes to use EIM algorithm to efficiently reduce the dimension of the training data within supervised machine learning. This is termed as DNN-EIM. Applications in data science (e.g., MNIST) and parameterized (and time-dependent) partial differential equations (PDEs) are considered. The proposed DNNs in case of classification are trained in parallel for each class. This approach is sequential, i.e., new classes can be added without having to retrain the network. In case of PDEs, a DNN is designed corresponding to each EIM point. Again, these networks can be trained in parallel, for each EIM point. In all cases, the parallel networks require fewer than ten times the number of training weights. Significant gains are observed in terms of training times, without sacrificing accuracy. | 翻訳日:2023-05-18 18:11:51 公開日:2023-05-16 |
# 古典的計画における探索と搾取のスケール適応的バランス Scale-Adaptive Balancing of Exploration and Exploitation in Classical Planning ( http://arxiv.org/abs/2305.09840v1 ) ライセンス: Link先を確認 | Stephen Wissow, Masataro Asai | (参考訳) ゲームツリー探索と自動計画において,探索と利用のバランスが重要な問題となっている。
しかし,MAB(Multi-Armed Bandit)の文献では,この問題は広く分析されているものの,これらの結果を適用しようとすると,計画コミュニティは限られた成功を収めている。
さらに,mab文献のより詳細な理論的理解は,モンテカルロ木探索 (mcts) / 試行ベースのヒューリスティック木探索 (thts) に基づく既存の計画アルゴリズムの改善に役立つことを示す。
特に、THTS は UCB1 MAB アルゴリズムをアドホックな方法で使用しており、UTB1 の固定有界サポート報酬分布の理論的な要件は、古典的な計画のヒューリスティックな探索では満たされない。
主な問題は、 UCB1 の報酬の異なるスケールへの適応の欠如にある。
提案するMCTS/THTSアルゴリズムであるGreedyUCT-Normal, UCB1-Normal bandit for agile classical Planningでは,報奨分散を考慮した分散処理を行うとともに,Greedy Best First Searchと既存のMCTS/THTSベースのアルゴリズム(GreedyUCT,GreedyUCT*)より優れたアルゴリズム性能(ノード拡張が少ない計画が多い)を実現した。 Balancing exploration and exploitation has been an important problem in both game tree search and automated planning. However, while the problem has been extensively analyzed within the Multi-Armed Bandit (MAB) literature, the planning community has had limited success when attempting to apply those results. We show that a more detailed theoretical understanding of MAB literature helps improve existing planning algorithms that are based on Monte Carlo Tree Search (MCTS) / Trial Based Heuristic Tree Search (THTS). In particular, THTS uses UCB1 MAB algorithms in an ad hoc manner, as UCB1's theoretical requirement of fixed bounded support reward distributions is not satisfied within heuristic search for classical planning. The core issue lies in UCB1's lack of adaptations to the different scales of the rewards. We propose GreedyUCT-Normal, a MCTS/THTS algorithm with UCB1-Normal bandit for agile classical planning, which handles distributions with different scales by taking the reward variance into consideration, and resulted in an improved algorithmic performance (more plans found with less node expansions) that outperforms Greedy Best First Search and existing MCTS/THTS-based algorithms (GreedyUCT,GreedyUCT*). | 翻訳日:2023-05-18 18:11:39 公開日:2023-05-16 |
# IoTエネルギーサービスにおけるエネルギー損失予測 Energy Loss Prediction in IoT Energy Services ( http://arxiv.org/abs/2305.10238v1 ) ライセンス: Link先を確認 | Pengwei Yang, Amani Abusafia, Abdallah Lakhdari, Athman Bouguettaya | (参考訳) クラウドソース型エネルギーサービスを共有する際のエネルギー損失を推定する新しいエネルギー損失予測(ELP)フレームワークを提案する。
ワイヤレスエネルギーサービスのクラウドソーシングは、近くのIoTデバイスのユビキタス充電を可能にする、新しくて便利なソリューションである。
したがって、効率的なエネルギーサービス構成技術の展開を成功させるためには、無線エネルギー共有損失の捕捉が不可欠である。
クラウドソーシングによるエネルギー共有環境におけるIoTデバイスのバッテリレベルを予測する新しいアテンションベースのアルゴリズムであるEaseformerを提案する。
予測されたバッテリレベルは、エネルギー損失を推定するために使用される。
提案手法の有効性と有効性を示すための一連の実験を行った。
提案手法が既存の手法を大きく上回ることを示すため,実無線エネルギーデータセットに関する広範な実験を行った。 We propose a novel Energy Loss Prediction(ELP) framework that estimates the energy loss in sharing crowdsourced energy services. Crowdsourcing wireless energy services is a novel and convenient solution to enable the ubiquitous charging of nearby IoT devices. Therefore, capturing the wireless energy sharing loss is essential for the successful deployment of efficient energy service composition techniques. We propose Easeformer, a novel attention-based algorithm to predict the battery levels of IoT devices in a crowdsourced energy sharing environment. The predicted battery levels are used to estimate the energy loss. A set of experiments were conducted to demonstrate the feasibility and effectiveness of the proposed framework. We conducted extensive experiments on real wireless energy datasets to demonstrate that our framework significantly outperforms existing methods. | 翻訳日:2023-05-18 15:28:06 公開日:2023-05-16 |
# 直交化フリー手法によるスペクトルクラスタリング Spectral Clustering via Orthogonalization-Free Methods ( http://arxiv.org/abs/2305.10356v1 ) ライセンス: Link先を確認 | Qiyuan Pang and Haizhao Yang | (参考訳) スペクトルクラスタリングの次元減少として用いられるグラフ信号フィルタは通常、高価な固有値推定を必要とする。
最適化条件でフィルタを解析し,スペクトルクラスタリングの次元化として目的関数を最適化し,直交化のない4つの手法を提案する。
提案手法では,並列計算環境ではスケーラビリティが不十分であることが知られている直交化を一切利用しない。
本手法は理論上、正規化されたラプラシアン行列の固有空間への重み付き変更である適切な特徴空間を構築する。
提案手法は, 高価な固有値推定を必要とせず, 正確な固有値を利用する理想的なグラフ信号フィルタと, クラスタリング品質において等価であると仮定した。
数値計算の結果,提案手法はクラスタリングの品質と計算コストにおいて,電力反復法やグラフ信号フィルタよりも優れていた。
ランダムな信号入力を必要とするPower Iteration法やGraph Signal Filterとは異なり,本手法はストリーミンググラフのシナリオで利用可能な初期化を利用できる。
さらに,本手法はストリーミンググラフのシナリオではLOBPCGよりも高速であり,ARPACKよりも高速であることを示す。
また,並列スペクトルクラスタリングを容易にするマルチスレッディングおよびマルチプロセッシング実装における手法のスケーラビリティを示す数値計算結果を示す。 Graph Signal Filter used as dimensionality reduction in spectral clustering usually requires expensive eigenvalue estimation. We analyze the filter in an optimization setting and propose to use four orthogonalization-free methods by optimizing objective functions as dimensionality reduction in spectral clustering. The proposed methods do not utilize any orthogonalization, which is known as not well scalable in a parallel computing environment. Our methods theoretically construct adequate feature space, which is, at most, a weighted alteration to the eigenspace of a normalized Laplacian matrix. We numerically hypothesize that the proposed methods are equivalent in clustering quality to the ideal Graph Signal Filter, which exploits the exact eigenvalue needed without expensive eigenvalue estimation. Numerical results show that the proposed methods outperform Power Iteration-based methods and Graph Signal Filter in clustering quality and computation cost. Unlike Power Iteration-based methods and Graph Signal Filter which require random signal input, our methods are able to utilize available initialization in the streaming graph scenarios. Additionally, numerical results show that our methods outperform ARPACK and are faster than LOBPCG in the streaming graph scenarios. We also present numerical results showing the scalability of our methods in multithreading and multiprocessing implementations to facilitate parallel spectral clustering. | 翻訳日:2023-05-18 14:52:09 公開日:2023-05-16 |
# 会話型推薦システムにおける大規模言語モデル活用 Leveraging Large Language Models in Conversational Recommender Systems ( http://arxiv.org/abs/2305.07961v2 ) ライセンス: Link先を確認 | Luke Friedman, Sameer Ahuja, David Allen, Zhenning Tan, Hakim Sidahmed, Changbo Long, Jun Xie, Gabriel Schubiner, Ajay Patel, Harsh Lara, Brian Chu, Zexi Chen, Manoj Tiwari | (参考訳) Conversational Recommender System (CRS)は、リアルタイムのマルチターン対話を通じてシステムと対話できるようにすることにより、ユーザに対して透明性とコントロールを向上する。
近年、Large Language Models (LLMs) は、自然に会話し、世界知識と常識推論を言語理解に取り入れ、このパラダイムの可能性を解き放つ前例のない能力を示した。
しかし、CRS内でLLMを効果的に活用することは、複雑な会話を適切に理解し、制御し、外部の情報ソースから取り出すなど、新しい技術的課題をもたらす。
これらの問題は、大きく進化した項目コーパスと、トレーニングのための会話データの欠如によって悪化する。
本稿では,LSMを用いたエンドツーエンドの大規模CRSを構築するためのロードマップを提供する。
特に,LLMを利用した統合アーキテクチャの一部として,ユーザ好みの理解,フレキシブルな対話管理,説明可能なレコメンデーションのための新しい実装を提案する。
パーソナライズを改善するために,LLMが解釈可能な自然言語ユーザプロファイルを消費し,セッションレベルのコンテキストを変調するために利用する方法について述べる。
既存のCRSが存在しない場合の会話データ制限を克服するため,制御可能なLCMベースのユーザシミュレータを構築し,合成会話を生成する手法を提案する。
概念実証として、LaMDA上に構築されたYouTubeビデオ用の大規模CRSであるRecLLMを紹介し、説明的な例による会話を通じて、その流布性と多様な機能を示す。 A Conversational Recommender System (CRS) offers increased transparency and control to users by enabling them to engage with the system through a real-time multi-turn dialogue. Recently, Large Language Models (LLMs) have exhibited an unprecedented ability to converse naturally and incorporate world knowledge and common-sense reasoning into language understanding, unlocking the potential of this paradigm. However, effectively leveraging LLMs within a CRS introduces new technical challenges, including properly understanding and controlling a complex conversation and retrieving from external sources of information. These issues are exacerbated by a large, evolving item corpus and a lack of conversational data for training. In this paper, we provide a roadmap for building an end-to-end large-scale CRS using LLMs. In particular, we propose new implementations for user preference understanding, flexible dialogue management and explainable recommendations as part of an integrated architecture powered by LLMs. For improved personalization, we describe how an LLM can consume interpretable natural language user profiles and use them to modulate session-level context. To overcome conversational data limitations in the absence of an existing production CRS, we propose techniques for building a controllable LLM-based user simulator to generate synthetic conversations. As a proof of concept we introduce RecLLM, a large-scale CRS for YouTube videos built on LaMDA, and demonstrate its fluency and diverse functionality through some illustrative example conversations. | 翻訳日:2023-05-18 11:53:38 公開日:2023-05-16 |
# 機械学習の景観を探る : 総合的な調査と分類学 Exploring the Landscape of Machine Unlearning: A Comprehensive Survey and Taxonomy ( http://arxiv.org/abs/2305.06360v3 ) ライセンス: Link先を確認 | Thanveer Shaik, Xiaohui Tao, Haoran Xie, Lin Li, Xiaofeng Zhu, and Qing Li | (参考訳) 機械学習(ML)モデルによる予測の削除や修正の必要性から、機械学習(MU)が注目を集めている。
トレーニングモデルはより効率的で正確になっていますが、未学習の情報の重要性は、プライバシやセキュリティ、公正といった分野でますます重要になっています。
本稿では,データ削除,摂動,モデル更新など,現在の最先端技術とアプローチを包括的に調査する。
また、一般的なメトリクスやデータセットも提示される。
また、攻撃の高度化、標準化、転送可能性、解釈可能性、トレーニングデータ、リソース制約など、対処すべき課題を強調している。
本稿では,muの潜在的メリットとその今後の方向性について考察する。
さらに、機械学習モデルがユーザの信頼を維持しながら変化する状況に適応できるように、研究者や実践者が未学習の技術を探求し、改善し続ける必要性を強調した。
アンラーニングの重要性はさらに強調され、人工知能(AI)をより信頼性が高く透明なものにすること、特に大量の個人データを含むさまざまな領域におけるAIの重要性が増している。 Machine unlearning (MU) is gaining increasing attention due to the need to remove or modify predictions made by machine learning (ML) models. While training models have become more efficient and accurate, the importance of unlearning previously learned information has become increasingly significant in fields such as privacy, security, and fairness. This paper presents a comprehensive survey of MU, covering current state-of-the-art techniques and approaches, including data deletion, perturbation, and model updates. In addition, commonly used metrics and datasets are also presented. The paper also highlights the challenges that need to be addressed, including attack sophistication, standardization, transferability, interpretability, training data, and resource constraints. The contributions of this paper include discussions about the potential benefits of MU and its future directions. Additionally, the paper emphasizes the need for researchers and practitioners to continue exploring and refining unlearning techniques to ensure that ML models can adapt to changing circumstances while maintaining user trust. The importance of unlearning is further highlighted in making Artificial Intelligence (AI) more trustworthy and transparent, especially with the increasing importance of AI in various domains that involve large amounts of personal user data. | 翻訳日:2023-05-18 11:52:01 公開日:2023-05-16 |
# ドメインギャップのブリッジ:基礎モデルによる自己監督型3Dシーン理解 Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with Foundation Models ( http://arxiv.org/abs/2305.08776v2 ) ライセンス: Link先を確認 | Zhimin Chen, Bing Li | (参考訳) ファンデーションモデルは、イメージセグメンテーション、オブジェクト検出、視覚言語理解などの2Dおよび言語タスクにおいて大きな進歩を遂げている。
それでも、ドメインギャップのため、3dシーン表現学習を強化する可能性はほとんどない。
本稿では,このギャップに対処する革新的な手法であるBridge3Dを提案し,基礎モデルから得られる特徴,セマンティックマスク,キャプションを用いて3Dモデルを事前学習する。
具体的には,これらのモデルから得られた意味的マスクを用いて,マスク付きオートエンコーダのマスキングと再構成プロセスをガイドする。
この戦略により、ネットワークは前景のオブジェクトに集中し、3d表現学習を強化することができる。
さらに,画像キャプション基礎モデルを用いて,シーンレベルでの3次元テキストギャップを橋渡しする。
さらに, 3次元モデルへの知識の蒸留をさらに促進するため, 基礎モデルを用いて高精度なオブジェクトレベルマスクと意味テキスト情報をオブジェクトレベルで生成する新しい手法を提案する。
提案手法は,3次元物体検出と意味セグメンテーションタスクにおいて最先端手法を特に上回っている。
例えば、ScanNetデータセットでは、我々の手法が従来の最先端手法であるPiMAEを5.3%上回る。 Foundation models have made significant strides in 2D and language tasks such as image segmentation, object detection, and visual-language understanding. Nevertheless, their potential to enhance 3D scene representation learning remains largely untapped due to the domain gap. In this paper, we propose an innovative methodology Bridge3D to address this gap, pre-training 3D models using features, semantic masks, and captions sourced from foundation models. Specifically, our approach utilizes semantic masks from these models to guide the masking and reconstruction process in the masked autoencoder. This strategy enables the network to concentrate more on foreground objects, thereby enhancing 3D representation learning. Additionally, we bridge the 3D-text gap at the scene level by harnessing image captioning foundation models. To further facilitate knowledge distillation from well-learned 2D and text representations to the 3D model, we introduce a novel method that employs foundation models to generate highly accurate object-level masks and semantic text information at the object level. Our approach notably outshines state-of-the-art methods in 3D object detection and semantic segmentation tasks. For instance, on the ScanNet dataset, our method surpasses the previous state-of-the-art method, PiMAE, by a significant margin of 5.3%. | 翻訳日:2023-05-18 11:42:02 公開日:2023-05-16 |
# Ship-D: 機械学習を用いた設計最適化のためのシップハルデータセット Ship-D: Ship Hull Dataset for Design Optimization using Machine Learning ( http://arxiv.org/abs/2305.08279v2 ) ライセンス: Link先を確認 | Noah J. Bagazinski and Faez Ahmed | (参考訳) 機械学習は最近、複雑な製品の設計サイクル時間を短縮するために大きな進歩を遂げている。
船体設計は現在、長いサイクルと小さなバッチ生産を含むが、これらの進歩の大きな恩恵を受ける可能性がある。
様々な種類の船舶の設計から学習する船舶設計のための機械学習ツールを開発することで、船舶設計におけるトレードオフを特定し最適化することができる。
しかし、現在公開されている船の設計データセットの欠如は、一般的な船の設計において機械学習を活用する可能性を制限している。
このギャップに対処するために, パラメータ化, メッシュ, 点雲, 画像表現などの設計および機能性能情報と, 異なる動作条件下での3つの流体抵抗測定値を含む, 3万個の船殻の大規模データセットを提案する。
データセットは人間の入力を可能にするように構成されており、計算方法も設計されている。
さらに,既存の船体を正確に再構成するパラメータ化機能を示すため,公開されているCADレポジトリから12種類の船体を紹介する。
遺伝的アルゴリズムのケーススタディでは, 船体断面の形状と平行中間体の長さを保ちながら, 船体の総抗力を60パーセント削減するために, 30の波動抵抗係数を予測するために代理モデルが開発された。
我々の研究は、他の研究者がデータ駆動船の設計を進めるために使用する包括的なデータセットとアプリケーションの例を提供します。 Machine learning has recently made significant strides in reducing design cycle time for complex products. Ship design, which currently involves years long cycles and small batch production, could greatly benefit from these advancements. By developing a machine learning tool for ship design that learns from the design of many different types of ships, tradeoffs in ship design could be identified and optimized. However, the lack of publicly available ship design datasets currently limits the potential for leveraging machine learning in generalized ship design. To address this gap, this paper presents a large dataset of thirty thousand ship hulls, each with design and functional performance information, including parameterization, mesh, point cloud, and image representations, as well as thirty two hydrodynamic drag measures under different operating conditions. The dataset is structured to allow human input and is also designed for computational methods. Additionally, the paper introduces a set of twelve ship hulls from publicly available CAD repositories to showcase the proposed parameterizations ability to accurately reconstruct existing hulls. A surrogate model was developed to predict the thirty two wave drag coefficients, which was then implemented in a genetic algorithm case study to reduce the total drag of a hull by sixty percent while maintaining the shape of the hulls cross section and the length of the parallel midbody. Our work provides a comprehensive dataset and application examples for other researchers to use in advancing data driven ship design. | 翻訳日:2023-05-18 11:40:39 公開日:2023-05-16 |
# 局所発振器を用いた100km繊維上の長距離連続可変量子鍵分布 Long-distance continuous-variable quantum key distribution over 100 km fiber with local local oscillator ( http://arxiv.org/abs/2305.08156v2 ) ライセンス: Link先を確認 | Adnan A.E. Hajomer, Ivan Derkach, Nitin Jain, Hou-Man Chin, Ulrik L. Andersen and Tobias Gehring | (参考訳) 量子鍵分散(QKD)は、2つのリモートパーティが物理法則に基づいて暗号化キーをセキュリティと共有することを可能にする。
連続変数(CV)QKDとコヒーレント状態とコヒーレント検出は、既存の通信ネットワークとよく統合される。
しかし、これまでのところ、長距離のcv-qkdは、ローカル発振器が送信される非常に複雑なスキームを使用してのみ実証されており、盗聴者のためのセキュリティホールを開き、潜在的な用途を制限している。
本稿では,100kmのファイバーチャネル上で局所的に発生する局所発振器を用いた長距離CV-QKD実験について報告する。
この記録破断距離は、キャリア回復のための機械学習フレームワークを介して位相ノイズによる余剰ノイズを制御し、変調分散を最適化することで達成される。
CV-QKDプロトコルの完全な実装と,有限サイズシステムにおける集団攻撃に対する鍵生成の実証を行う。
その結果,CV量子アクセスネットワークを実現する上で重要なマイルストーンを達成し,セキュアQKDの大規模展開の道を開いた。 Quantum key distribution (QKD) enables two remote parties to share encryption keys with security based on the laws of physics. Continuous variable (CV) QKD with coherent states and coherent detection integrates well with existing telecommunication networks. However, thus far, long-distance CV-QKD has only been demonstrated using a highly complex scheme where the local oscillator is transmitted, opening security loopholes for eavesdroppers and limiting its potential applications. Here, we report a long-distance CV-QKD experiment with a locally generated local oscillator over a 100 km fiber channel with a total loss of 15.4 dB. This record-breaking distance is achieved by controlling the phase-noise-induced excess noise through a machine-learning framework for carrier recovery and optimizing the modulation variance. We implement the full CV-QKD protocol and demonstrate the generation of keys secure against collective attacks in the finite-size regime. Our results mark a significant milestone for realizing CV quantum access networks with a high loss budget, and pave the way for large-scale deployment of secure QKD. | 翻訳日:2023-05-18 11:40:11 公開日:2023-05-16 |
# 最適輸送によるモデル融合 Model Fusion via Optimal Transport ( http://arxiv.org/abs/1910.05653v6 ) ライセンス: Link先を確認 | Sidak Pal Singh and Martin Jaggi | (参考訳) 異なるモデルを組み合わせることは、機械学習アプリケーションで広く使われているパラダイムである。
最も一般的なアプローチは、モデルのアンサンブルを形成し、個々の予測平均を作ることであるが、このアプローチは、メモリと計算の観点で与えられたリソース制約によって、しばしば実現不可能にされる。
ニューラルネットワークに対する階層モデル融合アルゴリズムを提案する。これは、関連するパラメータを平均化する前に、モデル間の(ソフト)アライメントニューロンへの最適な輸送を利用する。
非i.i.d.データでトレーニングされたニューラルネットワーク間の"ワンショット"な知識伝達(つまり、リトレーニングを必要とせずに)を成功させることができることを示す。
i.d.と非i.d.の両方の設定において、我々のアプローチはバニラ平均化を著しく上回り、標準畳み込みネットワーク(VGG11など)、残留ネットワーク(ResNet18など)、CIFAR10、CIFAR100、MNIST上のマルチ層パーセプトロンに対して、アンサンブルを適度な微調整で効率的に置き換える役割を担っていることを示す。
最後に、ニューラルネットワークのパラメータを異なる幅で結合する原理的な方法も提案し、そのモデル圧縮への応用について検討する。
コードは、https://github.com/sidak/otfusion.com/というリンクで入手できる。 Combining different models is a widely used paradigm in machine learning applications. While the most common approach is to form an ensemble of models and average their individual predictions, this approach is often rendered infeasible by given resource constraints in terms of memory and computation, which grow linearly with the number of models. We present a layer-wise model fusion algorithm for neural networks that utilizes optimal transport to (soft-) align neurons across the models before averaging their associated parameters. We show that this can successfully yield "one-shot" knowledge transfer (i.e, without requiring any retraining) between neural networks trained on heterogeneous non-i.i.d. data. In both i.i.d. and non-i.i.d. settings , we illustrate that our approach significantly outperforms vanilla averaging, as well as how it can serve as an efficient replacement for the ensemble with moderate fine-tuning, for standard convolutional networks (like VGG11), residual networks (like ResNet18), and multi-layer perceptrons on CIFAR10, CIFAR100, and MNIST. Finally, our approach also provides a principled way to combine the parameters of neural networks with different widths, and we explore its application for model compression. The code is available at the following link, https://github.com/sidak/otfusion. | 翻訳日:2023-05-17 20:41:42 公開日:2023-05-16 |
# スマートフォン加速度計による正常歩行のための歩行データベース Human Gait Database for Normal Walk Collected by Smartphone Accelerometer ( http://arxiv.org/abs/1905.03109v5 ) ライセンス: Link先を確認 | Amir Vajdi, Mohammad Reza Zaghian, Nazli Rafei Dehkordi, Elham Rastegari, Kian Maroofi, Saman Farahmand, Shaohua Jia, Marc Pomplun, Nurit Haspel, Akram Bayat | (参考訳) 歩行認識は、個人が直接接触することなく個人を特定するために使用できる、個人に関連付けられたユニークなバイオメトリックパターンの特徴である。
比較的多数の被験者を持つパブリックな歩行データベースは、将来の研究が歩行認証モデルを構築し検証する絶好の機会となる。
本研究の目的は、2つの異なるセッションの間に2つのエンドポイント(320メートル)の間を歩いた93人の被験者の総合的な歩行データベースを導入し、その歩行データを2つのスマートフォンで記録することである。
このデータは、十分な時間ポイントを必要とするディープラーニングベースの手法によって利用される。
年齢、性別、喫煙、毎日の運動時間、身長、体重を含むメタデータを記録する。
このデータセットは公開されています Gait recognition is the characterization of unique biometric patterns associated with each individual which can be utilized to identify a person without direct contact. A public gait database with a relatively large number of subjects can provide a great opportunity for future studies to build and validate gait authentication models. The goal of this study is to introduce a comprehensive gait database of 93 human subjects who walked between two endpoints (320 meters) during two different sessions and record their gait data using two smartphones, one attached to the right thigh and another one on the left side of the waist. This data is collected to be utilized by a deep learning-based method that requires enough time points. The metadata including age, gender, smoking, daily exercise time, height, and weight of an individual is recorded. this data set is publicly available. | 翻訳日:2023-05-17 20:41:15 公開日:2023-05-16 |
# 顔全体に書いてある:全顔の外観に基づく視線推定 It's Written All Over Your Face: Full-Face Appearance-Based Gaze Estimation ( http://arxiv.org/abs/1611.08860v4 ) ライセンス: Link先を確認 | Xucong Zhang, Yusuke Sugano, Mario Fritz, Andreas Bulling | (参考訳) 目視は人間の感情分析にとって重要な非言語的手がかりである。
近年の視線推定では、全顔領域からの情報が性能に有益であることが示された。
このアイデアをさらに推し進めるために,コンピュータビジョンにおける長年の作業とは対照的に,顔の全体像を入力とする外観ベース手法を提案する。
特徴マップに空間重みを印加した畳み込みニューラルネットワークを用いて顔画像を符号化し、異なる顔領域の情報を柔軟に抑制または拡張する。
広範な評価を通じて,本手法は2次元および3次元の視線推定において,その技術性能を大幅に上回っており,最大14.3%のmpiigaze,27.7%のeyediapの改善を達成し,人に依存しない3次元視線推定が可能となった。
さらに、この改善は様々な照明条件と視線方向で一致しており、特に最も困難な頭部ポーズに対して顕著であることを示す。 Eye gaze is an important non-verbal cue for human affect analysis. Recent gaze estimation work indicated that information from the full face region can benefit performance. Pushing this idea further, we propose an appearance-based method that, in contrast to a long-standing line of work in computer vision, only takes the full face image as input. Our method encodes the face image using a convolutional neural network with spatial weights applied on the feature maps to flexibly suppress or enhance information in different facial regions. Through extensive evaluation, we show that our full-face method significantly outperforms the state of the art for both 2D and 3D gaze estimation, achieving improvements of up to 14.3% on MPIIGaze and 27.7% on EYEDIAP for person-independent 3D gaze estimation. We further show that this improvement is consistent across different illumination conditions and gaze directions and particularly pronounced for the most challenging extreme head poses. | 翻訳日:2023-05-17 20:41:00 公開日:2023-05-16 |
# ベルの不等式に対する一般化反復式 Generalized Iterative Formula for Bell Inequalities ( http://arxiv.org/abs/2109.05521v2 ) ライセンス: Link先を確認 | Xing-Yan Fan, Zhen-Peng Xu, Jia-Le Miao, Hong-Ye Liu, Yi-Jia Liu, Wei-Min Shang, Jie Zhou, Hui-Xian Meng, Otfried G\"uhne and Jing-Ling Chen | (参考訳) ベルの不等式は非局所的相関を検出するための重要なツールであるが、多粒子系の構築は依然として複雑な問題である。
本研究は,$(n+1)$-partite bellの不等式を$n$-partite に分解することから着想を得て,非自明な$(n+1)$-partite を$n$-partite から構成するための一般化反復式を提案する。
我々の反復公式は、文学における有名なメルミン・アルデハリ・ベリンスキー・クリュシュコ(英語版)(MABK)と他の家族を特別な事例として回収する。
さらに、一般化されたグリーンベルガー=ホルン=ゼーリンガー(英語版)(Greenberger-Horne-Zeilinger)は、これらの不等式がMABK族と同じ量子違反を招き、同時に、非等式は絡み合った領域全体の非局所性を検出することができると述べる。
さらに、I3322の不等式は、まだ厳密な任意の$n$-partiteケースに一般化され、46$ \'{S}liwaの不等式は、各不等式とその同値類に反復法を適用することにより、四部密なケースに一般化される。 Bell inequalities are a vital tool to detect the nonlocal correlations, but the construction of them for multipartite systems is still a complicated problem. In this work, inspired via a decomposition of $(n+1)$-partite Bell inequalities into $n$-partite ones, we present a generalized iterative formula to construct nontrivial $(n+1)$-partite ones from the $n$-partite ones. Our iterative formulas recover the well-known Mermin-Ardehali-Belinski{\u{\i}}-Klyshko (MABK) and other families in the literature as special cases. Moreover, a family of ``dual-use'' Bell inequalities is proposed, in the sense that for the generalized Greenberger-Horne-Zeilinger states these inequalities lead to the same quantum violation as the MABK family and, at the same time, the inequalities are able to detect the non-locality in the entire entangled region. Furthermore, we present generalizations of the the I3322 inequality to any $n$-partite case which are still tight, and of the $46$ \'{S}liwa's inequalities to the four-partite tight ones, by applying our iteration method to each inequality and its equivalence class. | 翻訳日:2023-05-17 20:25:30 公開日:2023-05-16 |
# mrcpy:minimaxリスク分類のためのライブラリ MRCpy: A Library for Minimax Risk Classifiers ( http://arxiv.org/abs/2108.01952v3 ) ライセンス: Link先を確認 | Kartheek Bondugula, Ver\'onica \'Alvarez, Jos\'e I. Segovia-Mart\'in, Aritz P\'erez, Santiago Mazuelas | (参考訳) 教師付き分類のための既存のライブラリは、経験的リスク最小化に基づいて、代理損失を利用する手法を実装している。
MRCpyライブラリは,ロバストリスク最小化に基づいて,0-1-lossを利用できるMRCを実装している。
このような手法は、期待される損失に厳密な境界を与えることのできる分類方法の多様体を生み出す。
MRCpyは、MRCの異なる変種に対する統一インターフェースを提供し、人気のあるPythonライブラリの標準に従っている。
上述のライブラリはまた、L1正規化ロジスティック回帰、ゼロワン逆数、最大エントロピーマシンなどのMRCとして見られるような一般的なテクニックの実装も提供する。
さらに、MRCpyはFourier、ReLU、しきい値といった最近の機能マッピングを実装している。
このライブラリは、共同作業者やユーザを支援するオブジェクト指向アプローチで設計されている。 Existing libraries for supervised classification implement techniques that are based on empirical risk minimization and utilize surrogate losses. We present MRCpy library that implements minimax risk classifiers (MRCs) that are based on robust risk minimization and can utilize 0-1-loss. Such techniques give rise to a manifold of classification methods that can provide tight bounds on the expected loss. MRCpy provides a unified interface for different variants of MRCs and follows the standards of popular Python libraries. The presented library also provides implementation for popular techniques that can be seen as MRCs such as L1-regularized logistic regression, zero-one adversarial, and maximum entropy machines. In addition, MRCpy implements recent feature mappings such as Fourier, ReLU, and threshold features. The library is designed with an object-oriented approach that facilitates collaborators and users. | 翻訳日:2023-05-17 20:24:36 公開日:2023-05-16 |
# 重み付き対合(wIoU):画像分割のための新しい評価基準 Weighted Intersection over Union (wIoU): A New Evaluation Metric for Image Segmentation ( http://arxiv.org/abs/2107.09858v3 ) ライセンス: Link先を確認 | Yeong-Jun Cho | (参考訳) 近年,シーン内のピクセルのラベルを予測するためのセマンティックセグメンテーション法が数多く提案されている。
一般に,面積予測誤差や境界予測誤差を比較手法として測定する。
しかし、両側面を評価する直感的な評価指標は存在しない。
本研究では,意味的セグメンテーションのための重み付き分割(wIoU)と呼ばれる新しい評価尺度を提案する。
まず、境界距離マップから生成される重みマップを構築し、境界重要度係数に基づいて各画素の重み付け評価を可能にする。
提案したwIoUは,境界重要度を設定することにより,輪郭と領域の両方を評価することができる。
我々は,33シーンのデータセット上でwIoUの有効性を検証し,その柔軟性を実証した。
提案手法を用いることで,セマンティックセグメンテーションにおけるより柔軟で直感的な評価が可能となることを期待する。 In recent years, many semantic segmentation methods have been proposed to predict label of pixels in the scene. In general, we measure area prediction errors or boundary prediction errors for comparing methods. However, there is no intuitive evaluation metric that evaluates both aspects. In this work, we propose a new evaluation measure called weighted Intersection over Union (wIoU) for semantic segmentation. First, it build a weight map generated from a boundary distance map, allowing weighted evaluation for each pixel based on a boundary importance factor. The proposed wIoU can evaluate both contour and region by setting a boundary importance factor. We validated the effectiveness of wIoU on a dataset of 33 scenes and demonstrated its flexibility. Using the proposed metric, we expect more flexible and intuitive evaluation in semantic segmentation filed are possible. | 翻訳日:2023-05-17 20:24:23 公開日:2023-05-16 |
# 多体量子カオスによるランダム状態の準備とベンチマーク Preparing random states and benchmarking with many-body quantum chaos ( http://arxiv.org/abs/2103.03535v3 ) ライセンス: Link先を確認 | Joonhee Choi, Adam L. Shaw, Ivaylo S. Madjarov, Xin Xie, Ran Finkelstein, Jacob P. Covey, Jordan S. Cotler, Daniel K. Mark, Hsin-Yuan Huang, Anant Kale, Hannes Pichler, Fernando G.S.L. Brand\~ao, Soonwon Choi, Manuel Endres | (参考訳) 量子状態のランダムな生成は、理論上も実用上も現代の量子科学においてますます重要になっている。
特に、そのようなランダムに分布するが純粋な量子状態のアンサンブルは、量子回路やブラックホールにおける複雑性の理解を基礎としており、量子優位なテストで量子デバイスのベンチマークに使われてきた。
しかし、ランダムアンサンブルを作成するには、高レベルの時空間制御が必要であり、そのような研究は幅広い種類の量子系に及ばない。
本稿では,時間に依存しないハミルトニアンダイナミクスの下で自然発生するランダム状態アンサンブルの発生を予測・実験的に観測することで,この問題を解決する。
観測されたランダムアンサンブルは射影的測定から現れ、より大きな量子系のサブシステム間で構築された普遍的な相関と密接に関連しており、量子熱化に関する新たな洞察を提供する。
この発見を前提として,最大25原子のrydberg量子シミュレータに対して10^4以下の実験試料を用いた忠実度推定法を開発した。
本手法は、ハミルトンパラメータ推定、ターゲット状態生成ベンチマーク、アナログおよびデジタル量子デバイスの比較など、幅広い適用性を有する。
我々の研究は、量子力学におけるランダム性を理解するための意味を持ち、より広い文脈でこの概念の応用を可能にする。 Producing quantum states at random has become increasingly important in modern quantum science, with applications both theoretical and practical. In particular, ensembles of such randomly-distributed, but pure, quantum states underly our understanding of complexity in quantum circuits and black holes, and have been used for benchmarking quantum devices in tests of quantum advantage. However, creating random ensembles has necessitated a high degree of spatio-temporal control, placing such studies out of reach for a wide class of quantum systems. Here we solve this problem by predicting and experimentally observing the emergence of random state ensembles naturally under time-independent Hamiltonian dynamics, which we use to implement an efficient, widely applicable benchmarking protocol. The observed random ensembles emerge from projective measurements and are intimately linked to universal correlations built up between subsystems of a larger quantum system, offering new insights into quantum thermalization. Predicated on this discovery, we develop a fidelity estimation scheme, which we demonstrate for a Rydberg quantum simulator with up to 25 atoms using fewer than 10^4 experimental samples. This method has broad applicability, as we show for Hamiltonian parameter estimation, target-state generation benchmarking, and comparison of analog and digital quantum devices. Our work has implications for understanding randomness in quantum dynamics, and enables applications of this concept in a much wider context. | 翻訳日:2023-05-17 20:23:52 公開日:2023-05-16 |
# GaNDLF:医療画像におけるスケーラブルなエンドツーエンド臨床ワークフローのための一般向けディープラーニングフレームワーク GaNDLF: A Generally Nuanced Deep Learning Framework for Scalable End-to-End Clinical Workflows in Medical Imaging ( http://arxiv.org/abs/2103.01006v4 ) ライセンス: Link先を確認 | Sarthak Pati, Siddhesh P. Thakur, \.Ibrahim Ethem Hamamc{\i}, Ujjwal Baid, Bhakti Baheti, Megh Bhalerao, Orhun G\"uley, Sofia Mouchtaris, David Lang, Spyridon Thermos, Karol Gotkowski, Camila Gonz\'alez, Caleb Grenko, Alexander Getka, Brandon Edwards, Micah Sheller, Junwen Wu, Deepthi Karkada, Ravi Panchumarthy, Vinayak Ahluwalia, Chunrui Zou, Vishnu Bashyam, Yuemeng Li, Babak Haghighi, Rhea Chitalia, Shahira Abousamra, Tahsin M. Kurc, Aimilia Gastounioti, Sezgin Er, Mark Bergman, Joel H. Saltz, Yong Fan, Prashant Shah, Anirban Mukhopadhyay, Sotirios A. Tsaftaris, Bjoern Menze, Christos Davatzikos, Despina Kontos, Alexandros Karargyris, Renato Umeton, Peter Mattson, Spyridon Bakas | (参考訳) ディープラーニング(DL)は、科学コミュニティと臨床コミュニティの両方で機械学習を最適化する可能性がある。
しかし、DLアルゴリズムの開発にはさらなる専門知識が必要であり、実装の多様性が再現性、翻訳、展開を妨げる。
ここでは,コミュニティ主導のGANDLF(Generally Nuanced Deep Learning Framework)を紹介する。
GaNDLFは、DL開発、トレーニング、推論のメカニズムをより安定させ、再現可能で、解釈可能で、スケーラブルで、広範な技術的背景を必要としない。
GaNDLFは、計算精度医学における全てのDL関連タスクに対してエンドツーエンドのソリューションを提供することを目的としている。
我々は,K-foldクロスバリデーション,データ拡張,多重モダリティ,出力クラスを内蔵したGaNDLFによる放射線画像と組織像の両方の解析能力を示した。
臨床ワークフローに展開するロバストなアプリケーションフレームワークとしてGaNDLFを, 多数のユースケース, 解剖, 計算タスクで定量的に評価する。 Deep Learning (DL) has the potential to optimize machine learning in both the scientific and clinical communities. However, greater expertise is required to develop DL algorithms, and the variability of implementations hinders their reproducibility, translation, and deployment. Here we present the community-driven Generally Nuanced Deep Learning Framework (GaNDLF), with the goal of lowering these barriers. GaNDLF makes the mechanism of DL development, training, and inference more stable, reproducible, interpretable, and scalable, without requiring an extensive technical background. GaNDLF aims to provide an end-to-end solution for all DL-related tasks in computational precision medicine. We demonstrate the ability of GaNDLF to analyze both radiology and histology images, with built-in support for k-fold cross-validation, data augmentation, multiple modalities and output classes. Our quantitative performance evaluation on numerous use cases, anatomies, and computational tasks supports GaNDLF as a robust application framework for deployment in clinical workflows. | 翻訳日:2023-05-17 20:23:27 公開日:2023-05-16 |
# Open Korean Corpora: 実践レポート Open Korean Corpora: A Practical Report ( http://arxiv.org/abs/2012.15621v2 ) ライセンス: Link先を確認 | Won Ik Cho, Sangwhan Moon, Youngsook Song | (参考訳) 韓国語はしばしば研究コミュニティで低リソース言語と呼ばれる。
この主張は部分的には正しいが、リソースの入手が不十分で、キュレートされているためでもある。
この研究は韓国のコーパスのリストをキュレートしレビューし、まずは機関レベルのリソース開発について記述し、その後、さまざまなタスクに対する現在のオープンデータセットのリストを反復する。
次に、研究を促進するために、少ないリソース言語でどのようにオープンソースのデータセットの構築とリリースを行うべきかという方向性を提案する。 Korean is often referred to as a low-resource language in the research community. While this claim is partially true, it is also because the availability of resources is inadequately advertised and curated. This work curates and reviews a list of Korean corpora, first describing institution-level resource development, then further iterate through a list of current open datasets for different types of tasks. We then propose a direction on how open-source dataset construction and releases should be done for less-resourced languages to promote research. | 翻訳日:2023-05-17 20:23:09 公開日:2023-05-16 |
# 強化学習による生産計画問題のためのグラフニューラルネットワークに基づくスケジューラ Graph neural networks-based Scheduler for Production planning problems using Reinforcement Learning ( http://arxiv.org/abs/2009.03836v2 ) ライセンス: Link先を確認 | Mohammed Sharafath Abdul Hameed, Andreas Schwung | (参考訳) 求人スケジューリング問題(JSSP)では強化学習(RL)がますます採用されている。
しかし、JSSPのRLは通常、状態空間としてマシン機能のベクトル化表現を使用して行われる。
1) 機械ユニットとジョブシークエンスの関係が十分に把握されていないこと,(2) 機械/ジョブの増加に伴う状態空間の大きさの指数関数的な増加,(3) エージェントの非認識シナリオへの一般化の3つの大きな問題がある。
本稿では,強化学習を用いた生産計画問題のための新しいフレームワークであるgrab-rl,グラフニューラルネットワークベースのスケジューラを提案する。
JSSPをグラフとして表現し、グラフニューラルネットワーク(GNN)を用いて抽出した特徴を用いてRLエージェントを訓練する。
グラフはそれ自体が非ユークリッド空間にあるが、gnnを用いて抽出された特徴はユークリッド空間における現在の生成状態のリッチなエンコーディングを提供し、rlエージェントが次のジョブを選択するために使用する。
さらに、スケジューリング問題を、学習エージェントが全生産単位に割り当てられ、エージェントが全生産単位に収集されたデータから非同期に学習する分散最適化問題として検討した。
その後、GraSP-RLは30ジョブと4マシンの複雑な射出成形生産環境に適用される。
タスクは生産計画の規模を最小化することです。
GraSP-RLが計画するスケジュールは、優先ディスパッチルールアルゴリズム(FIFO)やタブサーチ(TS)や遺伝的アルゴリズム(GA)のようなメタヒューリスティックス(メタヒューリスティックス)と比較分析される。
提案したGraSP-RLは、JSSPで30のジョブを計画する訓練作業において、FIFO、TS、GAを上回っている。
さらに,オープンショップシステム (OSS) とリアクティブJSSP (RJSSP) という,FIFO よりも優れた結果が得られ,TS と GA に匹敵する結果が得られた。 Reinforcement learning (RL) is increasingly adopted in job shop scheduling problems (JSSP). But RL for JSSP is usually done using a vectorized representation of machine features as the state space. It has three major problems: (1) the relationship between the machine units and the job sequence is not fully captured, (2) exponential increase in the size of the state space with increasing machines/jobs, and (3) the generalization of the agent to unseen scenarios. We present a novel framework - GraSP-RL, GRAph neural network-based Scheduler for Production planning problems using Reinforcement Learning. It represents JSSP as a graph and trains the RL agent using features extracted using a graph neural network (GNN). While the graph is itself in the non-euclidean space, the features extracted using the GNNs provide a rich encoding of the current production state in the euclidean space, which is then used by the RL agent to select the next job. Further, we cast the scheduling problem as a decentralized optimization problem in which the learning agent is assigned to all the production units and the agent learns asynchronously from the data collected on all the production units. The GraSP-RL is then applied to a complex injection molding production environment with 30 jobs and 4 machines. The task is to minimize the makespan of the production plan. The schedule planned by GraSP-RL is then compared and analyzed with a priority dispatch rule algorithm like first-in-first-out (FIFO) and metaheuristics like tabu search (TS) and genetic algorithm (GA). The proposed GraSP-RL outperforms the FIFO, TS, and GA for the trained task of planning 30 jobs in JSSP. We further test the generalization capability of the trained agent on two different problem classes: Open shop system (OSS) and Reactive JSSP (RJSSP) where our method produces results better than FIFO and comparable results to TS and GA. | 翻訳日:2023-05-17 20:22:59 公開日:2023-05-16 |
# 量子遷移に対する断熱的寄与の尺度 A measure for adiabatic contributions to quantum transitions ( http://arxiv.org/abs/2007.10707v2 ) ライセンス: Link先を確認 | R. Pant, P. K. Verma, C. Rangi, E. Mondal, M. Bhati, V. Srinivasan, S. W\"uster | (参考訳) 任意の基底で量子遷移への断熱的寄与の尺度を構築し、力学が部分的に断熱的であるような一般的な複素ケースに対処し、同時にいくつかの固有状態と非固有状態間の遷移が重要となる。
本手法は,根底に分布する固有状態の断熱的変化によって生じる基底状態間の遷移を,いくつかの固有状態間の衝突によって生じる遷移と区別するように設計されている。
本研究では, 時間依存密度汎関数理論を用いて物質や分子シミュレーションに適用でき, 断熱の相対的重要性を定量化し, 電荷やエネルギー移動などの原子運動を定量化できることを示した。 We construct a measure for the adiabatic contribution to quantum transitions in an arbitrary basis, tackling the generic complex case where dynamics is only partially adiabatic, simultaneously populates several eigenstates and transitions between non-eigenstates are of key interest. Our measure is designed to distinguish transitions between basis states that occur due to the adiabatic change of the underlying populated eigenstates from transitions that occur due to beating between several such eigenstates. We demonstrate that the measure can be applied to material or molecular simulations using time-dependent density functional theory, allowing to quantify the relative importance of adiabaticity and thus nuclear motion, for example, in charge or energy transfer. | 翻訳日:2023-05-17 20:22:24 公開日:2023-05-16 |
# ViTパッチGANによる染色体ストレート化のロバスト化 A Robust Framework of Chromosome Straightening with ViT-Patch GAN ( http://arxiv.org/abs/2203.02901v2 ) ライセンス: Link先を確認 | Sifan Song, Jinfeng Wang, Fengrui Cheng, Qirui Cao, Yihan Zuo, Yongteng Lei, Ruomai Yang, Chunxiao Yang, Frans Coenen, Jia Meng, Kang Dang, Jionglong Su | (参考訳) 染色体は人間の遺伝情報を運ぶ。
曲率の異なる、厳密で非曲率な性質を示す。
染色体ストレートニングは, その後の核型構築, 病理診断, 細胞遺伝地図形成にとって重要なステップである。
しかし、トレーニング画像が利用できないこと、ストレート化後の染色体の詳細や形状が歪んだこと、一般化能力の低下など、堅牢な染色体のストレート化は依然として困難である。
本稿では、自己学習型モーショントランスフォーメーションジェネレータとビジョントランスフォーマーベースのパッチ(ViT-Patch)識別器で構成される新しいアーキテクチャ、ViT-Patch GANを提案する。
ジェネレータは染色体の運動表現を学習し、ストレート化を行う。
ViT-Patchディスクリミネーターの助けを借りて、ストレート化された染色体はより形状とバンドパターンの詳細を保持する。
実験の結果,提案手法はFr'echet Inception Distance (FID), Learned Perceptual Image Patch similarity (LPIPS) および下流染色体分類精度に優れた性能を示し,大規模データセット上での優れた一般化能力を示した。 Chromosomes carry the genetic information of humans. They exhibit non-rigid and non-articulated nature with varying degrees of curvature. Chromosome straightening is an important step for subsequent karyotype construction, pathological diagnosis and cytogenetic map development. However, robust chromosome straightening remains challenging, due to the unavailability of training images, distorted chromosome details and shapes after straightening, as well as poor generalization capability. In this paper, we propose a novel architecture, ViT-Patch GAN, consisting of a self-learned motion transformation generator and a Vision Transformer-based patch (ViT-Patch) discriminator. The generator learns the motion representation of chromosomes for straightening. With the help of the ViT-Patch discriminator, the straightened chromosomes retain more shape and banding pattern details. The experimental results show that the proposed method achieves better performance on Fr\'echet Inception Distance (FID), Learned Perceptual Image Patch Similarity (LPIPS) and downstream chromosome classification accuracy, and shows excellent generalization capability on a large dataset. | 翻訳日:2023-05-17 20:17:19 公開日:2023-05-16 |
# 任意の数のアクビットを持つ量子回路による最適(制御された)量子状態準備と一元合成の改善 Optimal (controlled) quantum state preparation and improved unitary synthesis by quantum circuits with any number of ancillary qubits ( http://arxiv.org/abs/2202.11302v3 ) ライセンス: Link先を確認 | Pei Yuan, Shengyu Zhang | (参考訳) 多くの量子線形代数および量子機械学習アルゴリズムの基盤として、制御された量子状態準備(cqsp)は、与えられた$n$-量子ビット状態$|\psi_i\rangle$に対して$|i\rangle |0^n\rangle \to |i\rangle |\psi_i\rangle $の変換を提供することを目的としている。
本稿では,CQSPを実装するための量子回路を構築し,任意の与えられた数に対して,深さ$O\left(n+k+\frac{2^{n+k}}{n+k+m}\right)$とサイズ$O\left(2^{n+k}\right)$を付与する。
これらの境界は変換の時間空間トレードオフと見なすことができ、任意の整数パラメータ $m,k\ge 0$ および $n\ge 1$ に対して最適である。
k=0$のとき、この問題は正準量子状態準備(QSP)問題となり、変換 $|0^n\rangle|0^m\rangle \to |\psi\rangle |0^m\rangle$ の効率的な実装を求める。
この問題には多くの研究があるが、回路の複雑さは未解決のままである。
我々の構成はこの問題を完全に解決し、深さの複雑さを$\Theta(n+2^{n}/(n+m))$に、大きさの複雑さを$\Theta(2^{n})$に固定する。
もう1つの根本的な問題はユニタリ合成であり、量子回路によって一般的なn$-qubitユニタリを実装することを要求する。
これまでの研究では、$\Omega(n+4^n/(n+m))$と$O(n2^n)$ for $m=\Omega(2^n/n)$の上限が示されていた。
本稿では、このギャップを2次的に縮小し、深さ$o\left(n2^{n/2}+\frac{n^{1/2}2^{3n/2}}{m^{1/2}}\right)$の量子回路を示す。 As a cornerstone for many quantum linear algebraic and quantum machine learning algorithms, controlled quantum state preparation (CQSP) aims to provide the transformation of $|i\rangle |0^n\rangle \to |i\rangle |\psi_i\rangle $ for all $i\in \{0,1\}^k$ for the given $n$-qubit states $|\psi_i\rangle$. In this paper, we construct a quantum circuit for implementing CQSP, with depth $O\left(n+k+\frac{2^{n+k}}{n+k+m}\right)$ and size $O\left(2^{n+k}\right)$ for any given number $m$ of ancillary qubits. These bounds, which can also be viewed as a time-space tradeoff for the transformation, are \optimal for any integer parameters $m,k\ge 0$ and $n\ge 1$. When $k=0$, the problem becomes the canonical quantum state preparation (QSP) problem with ancillary qubits, which asks for efficient implementations of the transformation $|0^n\rangle|0^m\rangle \to |\psi\rangle |0^m\rangle$. This problem has many applications with many investigations, yet its circuit complexity remains open. Our construction completely solves this problem, pinning down its depth complexity to $\Theta(n+2^{n}/(n+m))$ and its size complexity to $\Theta(2^{n})$ for any $m$. Another fundamental problem, unitary synthesis, asks to implement a general $n$-qubit unitary by a quantum circuit. Previous work shows a lower bound of $\Omega(n+4^n/(n+m))$ and an upper bound of $O(n2^n)$ for $m=\Omega(2^n/n)$ ancillary qubits. In this paper, we quadratically shrink this gap by presenting a quantum circuit of the depth of $O\left(n2^{n/2}+\frac{n^{1/2}2^{3n/2}}{m^{1/2}}\right)$. | 翻訳日:2023-05-17 20:16:59 公開日:2023-05-16 |
# ランダムオブジェクトを用いたランダムフォレスト重み局所Fr'echet回帰 Random Forest Weighted Local Fr\'echet Regression with Random Objects ( http://arxiv.org/abs/2202.04912v3 ) ライセンス: Link先を確認 | Rui Qiu, Zhou Yu, Ruoqing Zhu | (参考訳) 統計分析は計量空間の複雑なデータとますます対立している。
Petersen と M\"uller (2019) は、複素距離空間値応答とユークリッド予測子を持つ Fr'echet 回帰の一般的なパラダイムを確立した。
しかし、局所的なアプローチは非パラメトリックなカーネルの平滑化と次元の呪いに苦しむ。
この問題に対処するため、本稿では、新しいランダム森林重み付き局所Fr'echet回帰パラダイムを提案する。
このアプローチの主なメカニズムは、ランダムな森林によって生成される局所適応カーネルに依存する。
第1の方法は条件付きfr\'echet平均を解くために局所平均としてこれらの重みを用い、第2の方法は局所線形fr\'echet回帰を行い、どちらも既存のfr\'echet回帰法を大幅に改善する。
無限次u過程の理論と無限次mmn -推定子に基づき、ユークリッド応答を持つランダム林の現在の大規模サンプル理論をカバーする局所定数推定器の一貫性、収束率、漸近正規性を確立する。
数値研究により,分布関数,対称正定値行列,球面データなど,様々な種類の応答を用いた手法が優れていることが示された。
また,本提案の実用的メリットは,死亡率分布データとニューヨークタクシーデータへの適用によっても示される。 Statistical analysis is increasingly confronted with complex data from metric spaces. Petersen and M\"uller (2019) established a general paradigm of Fr\'echet regression with complex metric space valued responses and Euclidean predictors. However, the local approach therein involves nonparametric kernel smoothing and suffers from the curse of dimensionality. To address this issue, we in this paper propose a novel random forest weighted local Fr\'echet regression paradigm. The main mechanism of our approach relies on a locally adaptive kernel generated by random forests. Our first method utilizes these weights as the local average to solve the conditional Fr\'echet mean, while the second method performs local linear Fr\'echet regression, both significantly improving existing Fr\'echet regression methods. Based on the theory of infinite order U-processes and infinite order Mmn -estimator, we establish the consistency, rate of convergence, and asymptotic normality for our local constant estimator, which covers the current large sample theory of random forests with Euclidean responses as a special case. Numerical studies show the superiority of our methods with several commonly encountered types of responses such as distribution functions, symmetric positive-definite matrices, and sphere data. The practical merits of our proposals are also demonstrated through the application to human mortality distribution data and New York taxi data. | 翻訳日:2023-05-17 20:15:58 公開日:2023-05-16 |
# 1次元散乱状態のorthonormalityとスペクトルについて On the Orthonormality and Spectrum of 1D Scattering States ( http://arxiv.org/abs/2112.09108v5 ) ライセンス: Link先を確認 | Chris L. Lin | (参考訳) 散乱状態の正規化は期待値を計算するのに必要なロートステップ以上のものである。
この正規化は実際に(有用な境界状態情報とともに)散乱スペクトルの密度に関する重要な情報を含む。
多くのアプリケーションでは、この情報は波動関数自身よりも有用である。
本稿では、この散乱状態正規化と状態密度の対応が完全性関係の結果であることを示すとともに、あるポテンシャルに対する状態密度を計算する公式を提案する。
次にこれらの公式をデルタポテンシャルと正方形井戸に適用する。
応用として、デルタポテンシャル相互作用を持つ2粒子系の分配関数を計算するために状態密度を用いる。 The normalization of scattering states is more than a rote step necessary to calculate expectation values. This normalization actually contains important information regarding the density of the scattering spectrum (along with useful bound state information). For many applications, this information is more useful than the wavefunctions themselves. In this paper we show that this correspondence between scattering state normalization and the density of states is a consequence of the completeness relation, and we present formulas for calculating the density of states for certain potentials. We then apply these formulas to the delta potential and the square well. As an application, we use the density of states to calculate the partition function for a system of two particles with delta potential interaction. | 翻訳日:2023-05-17 20:15:34 公開日:2023-05-16 |
# 凸制約による最適化問題に対するDNNソリューションの実現とその直流最適潮流問題への応用 Ensuring DNN Solution Feasibility for Optimization Problems with Convex Constraints and Its Application to DC Optimal Power Flow Problems ( http://arxiv.org/abs/2112.08091v2 ) ライセンス: Link先を確認 | Tianyu Zhao, Xiang Pan, Minghua Chen, and Steven H. Low | (参考訳) ソリューションの実現性を保証することは、制約付き最適化問題を解決するためのDeep Neural Network (DNN) スキームを開発する上で重要な課題である。
本稿では,制約キャリブレーションの軽度条件を満たす上で,コンベックス制約や一般目的関数といった問題に対するDNNソリューションの実現性を保証するための「予防学習」フレームワークを提案する。
一般性を失うことなく、不平等な制約だけの問題に焦点を合わせます。
DNNトレーニングで使用される不等式制約を体系的に校正し、予測誤差を予測し、結果の解決が可能であることを保証する。
キャリブレーションサイズとDNNサイズを特徴付けることで,汎用性を確保する。
実現可能性保証を犠牲にすることなく,dnnの最適性性能を向上させるための新しいadversarial-sample aware trainingアルゴリズムを提案する。
全体として、フレームワークは2つのDNNを提供する。
十分なDNNサイズを特徴付けることによる1つは、普遍的実現性を保証する一方で、提案したトレーニングアルゴリズムのもう1つは、最適化をさらに改善し、DNNの普遍的実現性を同時に維持する。
本稿では,グリッド動作における直流最適潮流問題の解法として,DeepOPF+を開発した。
IEEEテストケースでのシミュレーション結果から、100%の実現性と一貫性のある最適性損失($0.19%)と(最大$\times$228)を、最先端の解決器と比較すると、既存の強力なDNNベースラインを上回っていることが分かる。
また,このフレームワークを非凸問題に適用し,既存のスキームに対する性能上の優位性を示す。 Ensuring solution feasibility is a key challenge in developing Deep Neural Network (DNN) schemes for solving constrained optimization problems, due to inherent DNN prediction errors. In this paper, we propose a ``preventive learning'' framework to guarantee DNN solution feasibility for problems with convex constraints and general objective functions without post-processing, upon satisfying a mild condition on constraint calibration. Without loss of generality, we focus on problems with only inequality constraints. We systematically calibrate inequality constraints used in DNN training, thereby anticipating prediction errors and ensuring the resulting solutions remain feasible. We characterize the calibration magnitudes and the DNN size sufficient for ensuring universal feasibility. We propose a new Adversarial-Sample Aware training algorithm to improve DNN's optimality performance without sacrificing feasibility guarantee. Overall, the framework provides two DNNs. The first one from characterizing the sufficient DNN size can guarantee universal feasibility while the other from the proposed training algorithm further improves optimality and maintains DNN's universal feasibility simultaneously. We apply the framework to develop DeepOPF+ for solving essential DC optimal power flow problems in grid operation. Simulation results over IEEE test cases show that it outperforms existing strong DNN baselines in ensuring 100% feasibility and attaining consistent optimality loss ($<$0.19%) and speedup (up to $\times$228) in both light-load and heavy-load regimes, as compared to a state-of-the-art solver. We also apply our framework to a non-convex problem and show its performance advantage over existing schemes. | 翻訳日:2023-05-17 20:15:26 公開日:2023-05-16 |
# 潜在変数生成モデルのためのモーメントマッチング計量 A moment-matching metric for latent variable generative models ( http://arxiv.org/abs/2111.00875v2 ) ライセンス: Link先を確認 | C\'edric Beaulac | (参考訳) 教師なし学習問題に直面した場合,適合モデルの品質を評価することは困難である。
変分オートエンコーダやガウス混合モデルのような潜在変数モデルは、しばしば確率に基づくアプローチで訓練される。
グッドハートの法則の範囲では、計量が対象となるとき、それは良い計量になるのをやめるので、これらのモデルの適合性を評価するために可能性を使うべきではない。
提案する解は、モーメントに依存するモデル比較や正規化のための新しい計量である。
この概念は、フロベニウスノルムのような行列ノルムを用いて、データモーメントとモデルモーメントの違いを研究することである。
モデルの比較と正規化にこの新しい指標をどう使うかを示す。
潜在変数モデルを評価する際に適合分布からサンプルを引き出すのが一般的であり、提案手法は計算が高速で、この代替案よりもばらつきが小さいことを示す。
本稿では,両アプリケーションの概念実証を行い,今後の課題について論じる。 It can be difficult to assess the quality of a fitted model when facing unsupervised learning problems. Latent variable models, such as variation autoencoders and Gaussian mixture models, are often trained with likelihood-based approaches. In scope of Goodhart's law, when a metric becomes a target it ceases to be a good metric and therefore we should not use likelihood to assess the quality of the fit of these models. The solution we propose is a new metric for model comparison or regularization that relies on moments. The concept is to study the difference between the data moments and the model moments using a matrix norm, such as the Frobenius norm. We show how to use this new metric for model comparison and then for regularization. It is common to draw samples from the fitted distribution when evaluating latent variable models and we show that our proposed metric is faster to compute and has a smaller variance that this alternative. We conclude this article with a proof of concept of both applications and we discuss future work. | 翻訳日:2023-05-17 20:14:53 公開日:2023-05-16 |
# 局所感情集約による暗黙的感情学習の改善 Improving Implicit Sentiment Learning via Local Sentiment Aggregation ( http://arxiv.org/abs/2110.08604v3 ) ライセンス: Link先を確認 | Heng Yang, Ke Li | (参考訳) アスペクトベース感情分類(ABSC)は、異なる側面における感情極性の潜在的依存性を明らかにする。
本研究は, この現象を更に探求し, 隣接する側面がしばしば類似した感情を示すことを示唆し, 「感情の一貫性を尊重する」概念を提唱する。
我々は、現在の研究の状況は、モデル的側面の感情コヒーレンシーの重要性を十分に理解していないと論じる。
このギャップに対処するため,我々は,きめ細かい感情コヒーレンシモデリングを容易にする局所感情集約パラダイム(lsa)を導入する。
このアプローチは、明示的な感情記述を欠いたアスペクトに対する暗黙的な感情の抽出を可能にする。
勾配降下を利用して、アスペクト感情一貫性のモデリングを導く差分重み付け感情集約ウィンドウを設計する。
実験結果から,3つの公開データセットにわたる最先端のパフォーマンスを実現し,既存のABSCモデルを大幅に向上させることで,学習感情コヒーレンシーにおけるLSAの有効性が確認された。
既存のメソッドが感情コヒーレンシ情報の可能性を活用するための準備が整ったツールとして、私たちのコードを公開しました。 Aspect-based sentiment classification (ABSC) has revealed the potential dependency of sentiment polarities among different aspects. Our study further explores this phenomenon, positing that adjacent aspects often exhibit similar sentiments, a concept we term "aspect sentiment coherency." We argue that the current research landscape has not fully appreciated the significance of modeling aspect sentiment coherency. To address this gap, we introduce a local sentiment aggregation paradigm (LSA) that facilitates fine-grained sentiment coherency modeling. This approach enables the extraction of implicit sentiments for aspects lacking explicit sentiment descriptions. Leveraging gradient descent, we design a differential-weighted sentiment aggregation window that guides the modeling of aspect sentiment coherency. Experimental results affirm the efficacy of LSA in learning sentiment coherency, as it achieves state-of-the-art performance across three public datasets, thus significantly enhancing existing ABSC models. We have made our code available, providing a ready tool for existing methods to harness the potential of sentiment coherency information. | 翻訳日:2023-05-17 20:14:36 公開日:2023-05-16 |
# 動的治療効果の高次元推論 High-dimensional Inference for Dynamic Treatment Effects ( http://arxiv.org/abs/2110.04924v4 ) ライセンス: Link先を確認 | Jelena Bradic, Weijie Ji and Yuqian Zhang | (参考訳) 動的治療効果の推定は因果推論において重要な取り組みであり、特に高次元共同創設者と向き合う場合である。
二重堅牢(DR)アプローチは、柔軟性による治療効果を推定するための有望なツールとして現れている。
しかし,予測結果のDR表現にのみ焦点をあてる従来のDRアプローチは,最適結果の達成に欠く可能性があることを示す。
本稿では,中間条件付き結果モデルに対する新しいDR表現を提案する。
提案手法は, 被曝時間および処理経路ごとに少なくとも1つのニュアサンス関数が適切にパラメトリ化されている限り, 高次元の共起者に対しても一貫性を実現する。
私たちの結果は、新しい堅牢性を保証するため、大きな前進を示しています。
これらの結果を達成するための鍵は我々の新しいDR表現であり、より弱い仮定を必要としながらより優れた推論性能を提供する。
最後に,本研究の成果をシミュレーションと実データ応用によって確認する。 Estimating dynamic treatment effects is a crucial endeavor in causal inference, particularly when confronted with high-dimensional confounders. Doubly robust (DR) approaches have emerged as promising tools for estimating treatment effects due to their flexibility. However, we showcase that the traditional DR approaches that only focus on the DR representation of the expected outcomes may fall short of delivering optimal results. In this paper, we propose a novel DR representation for intermediate conditional outcome models that leads to superior robustness guarantees. The proposed method achieves consistency even with high-dimensional confounders, as long as at least one nuisance function is appropriately parametrized for each exposure time and treatment path. Our results represent a significant step forward as they provide new robustness guarantees. The key to achieving these results is our new DR representation, which offers superior inferential performance while requiring weaker assumptions. Lastly, we confirm our findings in practice through simulations and a real data application. | 翻訳日:2023-05-17 20:14:18 公開日:2023-05-16 |
# 領域一般化のための変分アンタングルメント Variational Disentanglement for Domain Generalization ( http://arxiv.org/abs/2109.05826v3 ) ライセンス: Link先を確認 | Yufei Wang, Haoliang Li, Hao Cheng, Bihan Wen, Lap-Pui Chau, Alex C. Kot | (参考訳) ドメインの一般化は、未知の対象領域にうまく一般化できる不変モデルを学ぶことを目的としている。
本稿では、ドメイン固有の特徴とタスク固有の特徴を分離し、タスク固有の特徴を、見えないが関連するテストデータに対してより一般化できるような、効果的なフレームワークである変動分散ネットワーク(VDN)を提供することにより、ドメインの一般化の課題に取り組むことを提案する。
さらに,提案手法の理論的根拠として,課題特化特徴の分布と変分推論から導かれる不変基底真理との相違の証拠の上限を最小化するために,提案手法が等価であることを示す。
提案手法を3つのベンチマークで検証するために広範な実験を行い,定量的・質的評価結果から本手法の有効性を明らかにした。 Domain generalization aims to learn an invariant model that can generalize well to the unseen target domain. In this paper, we propose to tackle the problem of domain generalization by delivering an effective framework named Variational Disentanglement Network (VDN), which is capable of disentangling the domain-specific features and task-specific features, where the task-specific features are expected to be better generalized to unseen but related test data. We further show the rationale of our proposed method by proving that our proposed framework is equivalent to minimize the evidence upper bound of the divergence between the distribution of task-specific features and its invariant ground truth derived from variational inference. We conduct extensive experiments to verify our method on three benchmarks, and both quantitative and qualitative results illustrate the effectiveness of our method. | 翻訳日:2023-05-17 20:13:38 公開日:2023-05-16 |
# エッジアウェアweisfeiler-lehmanアルゴリズムによるgnnのエンパワーメント Empowering GNNs via Edge-Aware Weisfeiler-Lehman Algorithm ( http://arxiv.org/abs/2206.02059v2 ) ライセンス: Link先を確認 | Meng Liu, Haiyang Yu, Shuiwang Ji | (参考訳) メッセージパッシンググラフニューラルネットワーク(GNN)は1次元Weisfeiler-Lehman (1-WL)アルゴリズムによって上界表現性を持つことが知られている。
より強力なGNNを実現するために、既存の試みはアドホックな機能を必要とするか、あるいは高時間と空間の複雑さを引き起こす操作を伴う。
本稿では,メッセージパッシング方式のスケーラビリティを保った汎用かつ実証可能なGNNフレームワークを提案する。
特に,グラフ同型テストにおける1-WLの有効性について,近傍の辺を考慮しNC-1-WLを実現することを提案する。
NC-1-WLの表現性は理論上は1-WL以上、3-WL以下であることが示されている。
さらに,NC-1-WLのニューラルバージョンとしてNC-GNNフレームワークを提案する。
NC-GNNの実装はNC-1-WLと同じくらい強力である。
実験により、NC-GNNは様々なベンチマークで効率的かつ効率的に機能することが示された。 Message passing graph neural networks (GNNs) are known to have their expressiveness upper-bounded by 1-dimensional Weisfeiler-Lehman (1-WL) algorithm. To achieve more powerful GNNs, existing attempts either require ad hoc features, or involve operations that incur high time and space complexities. In this work, we propose a general and provably powerful GNN framework that preserves the scalability of the message passing scheme. In particular, we first propose to empower 1-WL for graph isomorphism test by considering edges among neighbors, giving rise to NC-1-WL. The expressiveness of NC-1-WL is shown to be strictly above 1-WL and below 3-WL theoretically. Further, we propose the NC-GNN framework as a differentiable neural version of NC-1-WL. Our simple implementation of NC-GNN is provably as powerful as NC-1-WL. Experiments demonstrate that our NC-GNN performs effectively and efficiently on various benchmarks. | 翻訳日:2023-05-17 20:05:42 公開日:2023-05-16 |
# 単一発振非線形発振器を用いた量子連想メモリ Quantum associative memory with a single driven-dissipative nonlinear oscillator ( http://arxiv.org/abs/2205.09491v2 ) ライセンス: Link先を確認 | Adri\`a Labay-Mora, Roberta Zambrini, Gian Luca Giorgi | (参考訳) 連想メモリのアルゴリズムは一般に多くの接続ユニットのネットワークに依存している。
原型的な例はホップフィールドモデルであり、量子領域への一般化は主に開量子イジングモデルに基づいている。
本稿では,位相空間の無限自由度を利用した単一駆動型量子発振器による連想メモリの実現を提案する。
このモデルでは,分散ニューロン系システムの記憶容量を大域的に向上させ,システムの記憶パターンを表現したn$コヒーレント状態間の状態識別を成功させる。
これらは、駆動強度を変更し、修正された学習規則を構成することで、連続的に調整することができる。
この連想記憶容量は、リウビリアン超作用素におけるスペクトルギャップの存在と本質的に関連しており、これは準安定相に対応するダイナミクスにおいて大きな時間スケールの分離をもたらす。 Algorithms for associative memory typically rely on a network of many connected units. The prototypical example is the Hopfield model, whose generalizations to the quantum realm are mainly based on open quantum Ising models. We propose a realization of associative memory with a single driven-dissipative quantum oscillator exploiting its infinite degrees of freedom in phase space. The model can improve the storage capacity of discrete neuron-based systems in a large regime and we prove successful state discrimination between $n$ coherent states, which represent the stored patterns of the system. These can be tuned continuously by modifying the driving strength, constituting a modified learning rule. We show that the associative-memory capacity is inherently related to the existence of a spectral gap in the Liouvillian superoperator, which results in a large timescale separation in the dynamics corresponding to a metastable phase. | 翻訳日:2023-05-17 20:04:58 公開日:2023-05-16 |
# 半監督点雲の補修における事前蒸留法 Reconstruction-Aware Prior Distillation for Semi-supervised Point Cloud Completion ( http://arxiv.org/abs/2204.09186v3 ) ライセンス: Link先を確認 | Zhaoxin Fan, Yulin He, Zhicheng Wang, Kejian Wu, Hongyan Liu and Jun He | (参考訳) 現実世界のセンサーはしばしば不完全で不規則でノイズの多い点雲を発生させ、点雲の完成がますます重要になる。
しかし、既存の補完手法のほとんどは、労働集約的なトレーニングのための大きなペアデータセットに依存している。
本稿では,組付きデータセットの必要性を低減した,新しい半教師付きポイントクラウド補完手法であるrapdを提案する。
RaPDは2段階の訓練手法を用いて, 未熟な完全点雲と不完全点雲から深層セマンティック先行を学習し, 半監督された事前蒸留プロセスを導入し, 少数のペアサンプルのみを用いて完成ネットワークを訓練する。
さらに,不完全点クラウドを用いた性能向上のために,自己教師付き補完モジュールが導入された。
複数のデータセットの実験では、RADは相同性シナリオと異性シナリオの両方において、以前の手法よりも優れていた。 Real-world sensors often produce incomplete, irregular, and noisy point clouds, making point cloud completion increasingly important. However, most existing completion methods rely on large paired datasets for training, which is labor-intensive. This paper proposes RaPD, a novel semi-supervised point cloud completion method that reduces the need for paired datasets. RaPD utilizes a two-stage training scheme, where a deep semantic prior is learned in stage 1 from unpaired complete and incomplete point clouds, and a semi-supervised prior distillation process is introduced in stage 2 to train a completion network using only a small number of paired samples. Additionally, a self-supervised completion module is introduced to improve performance using unpaired incomplete point clouds. Experiments on multiple datasets show that RaPD outperforms previous methods in both homologous and heterologous scenarios. | 翻訳日:2023-05-17 20:04:14 公開日:2023-05-16 |
# ハミルトニアン対称性試験のための量子アルゴリズム Quantum Algorithms for Testing Hamiltonian Symmetry ( http://arxiv.org/abs/2203.10017v5 ) ライセンス: Link先を確認 | Margarite L. LaBorde and Mark M. Wilde | (参考訳) ハミルトンの対称性は、関連する系の保存量と直接対応するため、量子物理学において重要な役割を果たす。
本稿では,ハミルトニアンが群に対して対称性を示すかどうかを検証できる量子アルゴリズムを提案する。
量子力学におけるハミルトン対称性の慣れ親しんだ表現は、我々のアルゴリズムの受容確率と直接一致することを示す。
既存の量子コンピュータ上で対称性テストアルゴリズムの1つを実行し、対称ケースと非対称ケースの両方を簡単に例示します。 Symmetries in a Hamiltonian play an important role in quantum physics because they correspond directly with conserved quantities of the related system. In this paper, we propose quantum algorithms capable of testing whether a Hamiltonian exhibits symmetry with respect to a group. We demonstrate that familiar expressions of Hamiltonian symmetry in quantum mechanics correspond directly with the acceptance probabilities of our algorithms. We execute one of our symmetry-testing algorithms on existing quantum computers for simple examples of both symmetric and asymmetric cases. | 翻訳日:2023-05-17 20:03:22 公開日:2023-05-16 |
# 新しい配列の単純なドイツ語コーパス A New Aligned Simple German Corpus ( http://arxiv.org/abs/2209.01106v3 ) ライセンス: Link先を確認 | Vanessa Toborek and Moritz Busch and Malte Bo{\ss}ert and Christian Bauckhage and Pascal Welke | (参考訳) ドイツ語で「leichte sprache」を意味する「leichte sprache」は、異なる集団に通じない複雑な文字言語を促進することを目的とした規制された言語である。
単純ドイツ語のための文列単言語コーパスを新たに提案する。
自動文アライメント手法を用いてアライメントした複数の文書アライメントソースを含んでいる。
文書を手動でラベル付けしたサブセットに基づいてアライメントを評価する。
文のアライメントの質は、F1スコアで測定されたように、以前の作業を上回る。
データセットはCC BY-SAで公開し、対応するコードはMITライセンスで公開します。 "Leichte Sprache", the German counterpart to Simple English, is a regulated language aiming to facilitate complex written language that would otherwise stay inaccessible to different groups of people. We present a new sentence-aligned monolingual corpus for Simple German -- German. It contains multiple document-aligned sources which we have aligned using automatic sentence-alignment methods. We evaluate our alignments based on a manually labelled subset of aligned documents. The quality of our sentence alignments, as measured by F1-score, surpasses previous work. We publish the dataset under CC BY-SA and the accompanying code under MIT license. | 翻訳日:2023-05-17 19:56:49 公開日:2023-05-16 |
# CFARnet:一定の誤報率による目標検出のためのディープラーニング CFARnet: deep learning for target detection with constant false alarm rate ( http://arxiv.org/abs/2208.02474v2 ) ライセンス: Link先を確認 | Tzvi Diskin, Yiftach Beer, Uri Okun and Ami Wiesel | (参考訳) 一定の誤報率(cfar)を有するターゲット検出の問題点について考察する。
この制約は多くの実用的応用において不可欠であり、古典的な合成仮説検定の標準要件である。
古典的なアプローチが計算コストが高く、データサンプルのみが与えられる環境では、ベイジアンと機械学習の方法論が有利である。
CFARはこれらの設定では理解されていない。
このギャップを埋めるために、CFAR制約検出器の枠組みを導入する。
理論的には、CFAR制約ベイズ最適検出器が古典的一般化可能性比検定(GLRT)と漸近的に等価であることを示す。
実際に、ニューラルネットワークを近似する深層学習フレームワークを開発した。
モデルベースターゲット検出とデータ駆動型ハイパースペクトル画像の両方の実験により、提案したCFARnetはCFARと精度の柔軟なトレードオフを可能にすることが示された。
cfar検出器付近の多くの問題において、精度の低下は少ない。 We consider the problem of target detection with a constant false alarm rate (CFAR). This constraint is crucial in many practical applications and is a standard requirement in classical composite hypothesis testing. In settings where classical approaches are computationally expensive or where only data samples are given, Bayesian and machine learning methodologies are advantageous. CFAR is less understood in these settings. To close this gap, we introduce a framework of CFAR constrained detectors. Theoretically, we prove that a CFAR constrained Bayes optimal detector is asymptotically equivalent to the classical generalized likelihood ratio test (GLRT). Practically, we develop a deep learning framework for fitting neural networks that approximate it. Experiments in both model based target detection and data-driven hyper-spectral images demonstrates that the proposed CFARnet allows a flexible tradeoff between CFAR and accuracy. In many problems near CFAR detectors can be developed with a small loss in accuracy. | 翻訳日:2023-05-17 19:56:40 公開日:2023-05-16 |
# bert4loc:位置情報のためのbert -- poiレコメンデーションシステム BERT4Loc: BERT for Location -- POI Recommender System ( http://arxiv.org/abs/2208.01375v2 ) ライセンス: Link先を確認 | Syed Raza Bashir, Shaina Raza, Vojislav Misic | (参考訳) 参照ポイント(POI)は、位置情報ベースのソーシャルメディアプラットフォームから包括的な位置情報を抽出する必要がある課題である。
効果的な位置情報ベースのレコメンデーションを提供するためには,ユーザの過去の行動や好みを分析することが重要である。
本研究では,変換器による双方向エンコーダ表現(BERT)を用いた位置認識型レコメンデーションシステムを提案する。
本モデルでは,位置情報とユーザの嗜好を組み合わせることで,シーケンス内の次のPOIを予測するモデルと比較して,より適切なレコメンデーションを提供する。
2つのベンチマークデータセットにおける実験は、bertベースのモデルが様々な最先端のシーケンシャルモデルを上回ることを示している。
さらに,追加実験により,提案モデルの有効性を検証した。 Recommending points of interest (POIs) is a challenging task that requires extracting comprehensive location data from location-based social media platforms. To provide effective location-based recommendations, it's important to analyze users' historical behavior and preferences. In this study, we present a sophisticated location-aware recommendation system that uses Bidirectional Encoder Representations from Transformers (BERT) to offer personalized location-based suggestions. Our model combines location information and user preferences to provide more relevant recommendations compared to models that predict the next POI in a sequence. Our experiments on two benchmark dataset show that our BERT-based model outperforms various state-of-the-art sequential models. Moreover, we see the effectiveness of the proposed model for quality through additional experiments. | 翻訳日:2023-05-17 19:56:26 公開日:2023-05-16 |
# ハイブリッドマッチングを用いたDETR DETRs with Hybrid Matching ( http://arxiv.org/abs/2207.13080v3 ) ライセンス: Link先を確認 | Ding Jia and Yuhui Yuan and Haodi He and Xiaopei Wu and Haojun Yu and Weihong Lin and Lei Sun and Chao Zhang and Han Hu | (参考訳) 1対1のセットマッチングは、DETRがエンドツーエンドの機能を確立するための鍵となる設計であり、オブジェクト検出は重複検出を削除するために手作りのNMS(non-maximum suppress)を必要としない。
このエンドツーエンドのシグネチャは、DETRの汎用性にとって重要であり、より広範なビジョンタスクに一般化されている。
しかし,正のサンプルとして割り当てられたクエリは少なく,一対一のセットマッチングは正のサンプルのトレーニング効果を著しく低下させる。
本稿では,従来の1対1マッチングブランチと補助的な1対多マッチングブランチを組み合わせたハイブリッドマッチング手法を提案する。
我々のハイブリッド戦略は精度を著しく向上することを示した。
推論では、元の1対1マッチングブランチのみを使用し、DETRのエンドツーエンドのメリットと同一の推論効率を維持する。
本手法はH-DETRと命名され,DeformableDETR, PETRv2, PETR, TransTrackなど,幅広い視覚的タスクにおいて多種多様なDETR手法を一貫した改善が可能であることを示す。
コードは、https://github.com/HDETRで入手できる。 One-to-one set matching is a key design for DETR to establish its end-to-end capability, so that object detection does not require a hand-crafted NMS (non-maximum suppression) to remove duplicate detections. This end-to-end signature is important for the versatility of DETR, and it has been generalized to broader vision tasks. However, we note that there are few queries assigned as positive samples and the one-to-one set matching significantly reduces the training efficacy of positive samples. We propose a simple yet effective method based on a hybrid matching scheme that combines the original one-to-one matching branch with an auxiliary one-to-many matching branch during training. Our hybrid strategy has been shown to significantly improve accuracy. In inference, only the original one-to-one match branch is used, thus maintaining the end-to-end merit and the same inference efficiency of DETR. The method is named H-DETR, and it shows that a wide range of representative DETR methods can be consistently improved across a wide range of visual tasks, including DeformableDETR, PETRv2, PETR, and TransTrack, among others. The code is available at: https://github.com/HDETR | 翻訳日:2023-05-17 19:56:12 公開日:2023-05-16 |
# ニュートン質量の量子起源とガリレオ相対性対称性 Quantum Origin of (Newtonian) Mass and Galilean Relativity Symmetry ( http://arxiv.org/abs/2207.07651v2 ) ライセンス: Link先を確認 | Otto C.W. Kong (Nat'l Central U., Taiwan) | (参考訳) ガリレイ群は「非相対論的」物理学、量子あるいは古典の基本的な対称性とみなされている。
量子論に対する全群理論的定式化アプローチは、いくつかの調整を要求する。
ここでは、より親しみやすい絵とは異なる側面を強調して、全体像のスケッチを示す。
この分析は、厳密な数学とその力学理論における物理的応用との関係をより注意深く扱い、物理学の文献で一般的に見られるものよりも数学論理のより真剣な実装を含む。
この記事は、(ニュートン)質量をカシミール不変量とする基本表現と、対称性によって定式化された質量の中心の概念を、調整された、または修正された部分よりも先に焦点をあてながら、我々の初期の提示された定式化を要約する。
もう一つの結果は、粒子間の相互作用を禁止する時間変換対称性の必要排除である。 The Galilei group has been taken as the fundamental symmetry for 'nonrelativistic' physics, quantum or classical. Our fully group theoretical formulation approach to the quantum theory asks for some adjustments. We present a sketch of the full picture here, emphasizing aspects that are different from the more familiar picture. The analysis involves a more careful treatment of the relation between the exact mathematics and its physical application in the dynamical theories, and a more serious full implementation of the mathematical logic than what is usually available in the physics literature. The article summarizes our earlier presented formulation while focusing on the part beyond, with an adjusted, or corrected, identification of the basic representations having the (Newtonian) mass as a Casimir invariant and the notion of center of mass as dictated by the symmetry. Another result is the necessary exclusion of the time translational symmetry, that otherwise bans interactions between particles. | 翻訳日:2023-05-17 19:55:52 公開日:2023-05-16 |
# マルチソースドメイン一般化のためのゲーテッドドメインユニット Gated Domain Units for Multi-source Domain Generalization ( http://arxiv.org/abs/2206.12444v2 ) ライセンス: Link先を確認 | Simon F\"oll, Alina Dubatovka, Eugen Ernst, Siu Lun Chau, Martin Maritsch, Patrik Okanovic, Gudrun Th\"ater, Joachim M. Buhmann, Felix Wortmann, Krikamol Muandet | (参考訳) 分散シフト(DS)現象は、テスト時のデータセットがトレーニング時のデータセットと異なる場合に起こり、テスト時のデータの分布に関する知識が不足しているため、実践的な環境での機械学習モデルのパフォーマンスを著しく損なう可能性がある。
この問題に対処するために、実世界の分布は異なる領域にまたがる潜在不変な初等分布(すなわちd)からなると仮定する。
この仮定は、未知の領域への知識移動を可能にする解空間の不変構造を意味する。
この特性をドメインの一般化に活用するために,各潜在初等分布の表現を学習するgated domain unit (gdus)からなるモジュール型ニューラルネットワーク層を導入する。
推論の間、新しい観察と各初等分布の表現を比較することで学習機械の重み付けアンサンブルを作成することができる。
私たちの柔軟なフレームワークは、明示的なドメイン情報が存在しないシナリオも対応しています。
画像、テキスト、グラフデータに対する大規模な実験は、トレーニング対象領域における一貫したパフォーマンス改善を示す。
これらの知見は、I.E.D仮定の実用性と領域一般化におけるGDUの有効性を裏付けるものである。 The phenomenon of distribution shift (DS) occurs when a dataset at test time differs from the dataset at training time, which can significantly impair the performance of a machine learning model in practical settings due to a lack of knowledge about the data's distribution at test time. To address this problem, we postulate that real-world distributions are composed of latent Invariant Elementary Distributions (I.E.D) across different domains. This assumption implies an invariant structure in the solution space that enables knowledge transfer to unseen domains. To exploit this property for domain generalization, we introduce a modular neural network layer consisting of Gated Domain Units (GDUs) that learn a representation for each latent elementary distribution. During inference, a weighted ensemble of learning machines can be created by comparing new observations with the representations of each elementary distribution. Our flexible framework also accommodates scenarios where explicit domain information is not present. Extensive experiments on image, text, and graph data show consistent performance improvement on out-of-training target domains. These findings support the practicality of the I.E.D assumption and the effectiveness of GDUs for domain generalisation. | 翻訳日:2023-05-17 19:54:45 公開日:2023-05-16 |
# 対話型量子古典変動アルゴリズムによる量子対称性の学習 Learning quantum symmetries with interactive quantum-classical variational algorithms ( http://arxiv.org/abs/2206.11970v2 ) ライセンス: Link先を確認 | Jonathan Z. Lu, Rodrigo A. Bravo, Kaiying Hou, Gebremedhin A. Dagnew, Susanne F. Yelin, Khadijeh Najafi | (参考訳) 状態の対称性$\vert \psi \rangle$ はユニタリ作用素であり、$\vert \psi \rangle$ は固有ベクトルである。
$\vert \psi \rangle$ がブラックボックスのオラクルによって供給される未知の状態である場合、状態の対称性は量子システムに関する重要な物理的洞察を与える。
本稿では,その状態に関する前提条件なしで,$\vert \psi \rangle$の対称性を体系的に探索する変動型ハイブリッド量子古典学習手法を開発する。
この手順は様々な対称性を同時に学習するために使用することができる。
既知の対称性の再学習を避けるため,古典的なディープニューラルネットワークを用いた対話型プロトコルを提案する。
これにより、古典ネットは反復的な発見に対して規則化され、我々のアルゴリズムは可能なすべての対称性で経験的に終了する。
提案手法は非局所的なSWAPゲートで平均的に効率よく実装でき、局所的な演算しか持たないより効率の悪いアルゴリズムも提案する。
我々は、Rydberg と Ising Hamiltonian のクラスター状態や基底状態を含む状態の代表族に対するアルゴリズムをシミュレートする。
また、数値クエリの複雑さはキュービットサイズとよく一致している。 A symmetry of a state $\vert \psi \rangle$ is a unitary operator of which $\vert \psi \rangle$ is an eigenvector. When $\vert \psi \rangle$ is an unknown state supplied by a black-box oracle, the state's symmetries provide key physical insight into the quantum system; symmetries also boost many crucial quantum learning techniques. In this paper, we develop a variational hybrid quantum-classical learning scheme to systematically probe for symmetries of $\vert \psi \rangle$ with no a priori assumptions about the state. This procedure can be used to learn various symmetries at the same time. In order to avoid re-learning already known symmetries, we introduce an interactive protocol with a classical deep neural net. The classical net thereby regularizes against repetitive findings and allows our algorithm to terminate empirically with all possible symmetries found. Our scheme can be implemented efficiently on average with non-local SWAP gates; we also give a less efficient algorithm with only local operations, which may be more appropriate for current noisy quantum devices. We simulate our algorithm on representative families of states, including cluster states and ground states of Rydberg and Ising Hamiltonians. We also find that the numerical query complexity scales well with qubit size. | 翻訳日:2023-05-17 19:54:27 公開日:2023-05-16 |
# サンプル・アンド・フォワード:ネットワークにおける偽発見率の通信効率制御 Sample-and-Forward: Communication-Efficient Control of the False Discovery Rate in Networks ( http://arxiv.org/abs/2210.02555v2 ) ライセンス: Link先を確認 | Mehrdad Pournaderi and Yu Xiang | (参考訳) この研究は、通信制約下でのネットワークにおける偽発見率(FDR)の制御に関するものである。
一般的なトポロジを持つマルチホップネットワークに対するBenjamini-Hochberg(BH)プロシージャのフレキシブルで通信効率のよいサンプル・アンド・フォワードを提案する。
提案手法は,ネットワーク内のノードが相互にp値を伝える必要が無く,グローバルfdr制御制約下で適切な統計力を実現することを実証する。
合計$m$p-値のネットワークを考えると、この手法はまず各ノードにおけるp-値の(経験的な)CDFをサンプリングし、次に隣接するノードに$\mathcal{O}(\log m)$ビットを転送する。
元のBH法と同じ仮定の下では,提案手法は証明可能な有限サンプルFDR制御と,各ノードに数個のサンプルを持つ競合的実証検出能力の両方を有する。
p値に対する混合モデル仮定の下での電力の漸近解析を提供する。 This work concerns controlling the false discovery rate (FDR) in networks under communication constraints. We present sample-and-forward, a flexible and communication-efficient version of the Benjamini-Hochberg (BH) procedure for multihop networks with general topologies. Our method evidences that the nodes in a network do not need to communicate p-values to each other to achieve a decent statistical power under the global FDR control constraint. Consider a network with a total of $m$ p-values, our method consists of first sampling the (empirical) CDF of the p-values at each node and then forwarding $\mathcal{O}(\log m)$ bits to its neighbors. Under the same assumptions as for the original BH procedure, our method has both the provable finite-sample FDR control as well as competitive empirical detection power, even with a few samples at each node. We provide an asymptotic analysis of power under a mixture model assumption on the p-values. | 翻訳日:2023-05-17 19:46:45 公開日:2023-05-16 |
# パラメータプルーニングを用いたデータセット蒸留 Dataset Distillation Using Parameter Pruning ( http://arxiv.org/abs/2209.14609v5 ) ライセンス: Link先を確認 | Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama | (参考訳) 多くの分野において、高度なモデルの獲得は大きなデータセットに依存しており、データストレージとモデルのトレーニングは高価である。
解決策として、データセットの蒸留は、元の大きなデータセットのほとんどの情報を保存する小さなデータセットを合成することができる。
近年,ネットワークパラメータのマッチングによるデータセット蒸留法がいくつかのデータセットに対して有効であることが証明されている。
しかし、ネットワークパラメータの次元は典型的には大きい。
さらに, 蒸留プロセスにおいて, 蒸留性能を劣化させるパラメータは一致しにくい。
そこで本研究では,この問題を解決するパラメータプルーニングに基づく新しいデータセット蒸留法を提案する。
提案手法は, より堅牢な蒸留データセットを合成し, 蒸留過程での難解なパラメータを抽出することにより蒸留性能を向上させる。
3つのデータセットの実験結果は,提案手法が他の最先端のデータセット蒸留法よりも優れていることを示している。 In many fields, the acquisition of advanced models depends on large datasets, making data storage and model training expensive. As a solution, dataset distillation can synthesize a small dataset that preserves most information of the original large dataset. The recently proposed dataset distillation method by matching network parameters has been proven effective for several datasets. However, the dimensions of network parameters are typically large. Furthermore, some parameters are difficult to match during the distillation process, degrading distillation performance. Based on this observation, this study proposes a novel dataset distillation method based on parameter pruning that solves the problem. The proposed method can synthesize more robust distilled datasets and improve distillation performance by pruning difficult-to-match parameters during the distillation process. Experimental results on three datasets show that the proposed method outperforms other state-of-the-art dataset distillation methods. | 翻訳日:2023-05-17 19:46:28 公開日:2023-05-16 |
# fast-fnet:効率的なフーリエ層によるトランスフォーマーエンコーダモデル加速 Fast-FNet: Accelerating Transformer Encoder Models via Efficient Fourier Layers ( http://arxiv.org/abs/2209.12816v2 ) ライセンス: Link先を確認 | Nurullah Sevim, Ege Ozan \"Ozyedek, Furkan \c{S}ahinu\c{c}, Aykut Ko\c{c} | (参考訳) トランスフォーマーベースの言語モデルは、ほぼすべての自然言語処理(NLP)タスクにおいて、大幅なパフォーマンス向上のためにアテンションメカニズムを利用する。
同様の注意構造は、他のいくつかの分野で広く研究されている。
アテンション機構はモデルの性能を著しく向上させるが、その二次複雑性は長いシーケンスの効率的な処理を妨げる。
最近の研究は、計算不効率の欠点を取り除くことに重点を置いており、トランスフォーマーベースのモデルが注意層を使わずに競争結果に到達できることを示した。
先駆的な研究により、トランスコーダアーキテクチャのアテンション層をフーリエ変換(ft)に置き換えるfnetが提案された。
FNetは、アテンション機構の計算負担を取り除き、トレーニングプロセスを加速しながら、オリジナルのトランスフォーマーエンコーダモデルに関する競争性能を達成する。
しかし、FNetモデルはFTの本質的な特性を古典的な信号処理から無視し、モデル効率をさらに高めることができる。
変換器エンコーダモデルにおいて,FTを効率的に展開するための異なる手法を提案する。
提案アーキテクチャでは,モデルパラメータの数が少なく,トレーニング時間の短縮,メモリ使用量の削減,さらなるパフォーマンス向上が図られている。
これらの改善は、一般的なベンチマークに関する広範な実験を通じて実証する。 Transformer-based language models utilize the attention mechanism for substantial performance improvements in almost all natural language processing (NLP) tasks. Similar attention structures are also extensively studied in several other areas. Although the attention mechanism enhances the model performances significantly, its quadratic complexity prevents efficient processing of long sequences. Recent works focused on eliminating the disadvantages of computational inefficiency and showed that transformer-based models can still reach competitive results without the attention layer. A pioneering study proposed the FNet, which replaces the attention layer with the Fourier Transform (FT) in the transformer encoder architecture. FNet achieves competitive performances concerning the original transformer encoder model while accelerating training process by removing the computational burden of the attention mechanism. However, the FNet model ignores essential properties of the FT from the classical signal processing that can be leveraged to increase model efficiency further. We propose different methods to deploy FT efficiently in transformer encoder models. Our proposed architectures have smaller number of model parameters, shorter training times, less memory usage, and some additional performance improvements. We demonstrate these improvements through extensive experiments on common benchmarks. | 翻訳日:2023-05-17 19:46:19 公開日:2023-05-16 |
# WeLM: 中国語の読みやすい事前学習型言語モデル WeLM: A Well-Read Pre-trained Language Model for Chinese ( http://arxiv.org/abs/2209.10372v5 ) ライセンス: Link先を確認 | Hui Su, Xiao Zhou, Houjin Yu, Xiaoyu Shen, Yuwen Chen, Zilin Zhu, Yang Yu, Jie Zhou | (参考訳) 自己教師付き学習で事前学習された大規模言語モデルは、幅広いタスクで印象的なゼロショット一般化能力を示している。
本稿では,ゼロショットや少数ショットのデモンストレーションによって,さまざまなタスクをシームレスに実行できる中国語用事前学習型言語モデルwelmを提案する。
WeLMは、幅広いトピックをカバーする高品質なコーパスを「読む」ことで、10Bパラメータで訓練されている。
WeLMには様々なドメインや言語に関する幅広い知識が備わっている。
18の単言語(中国語)タスクでは、WeLMは既存のトレーニング済みモデルと同じようなサイズで大幅に性能を上回り、最大25倍の性能を持つ。
WeLMはまた、30言語で事前訓練された既存の多言語言語モデルよりも優れた、多言語およびコードスイッチング理解において強力な能力を示している。
さらに,マルチプロンプトトレーニングによる中国語と微調整 welm の教師付きデータセット群に対して,人間によるプロンプトを収集した。
得られたモデルは、目に見えないタスクの種類を強く一般化し、ゼロショット学習において教師なしの WeLM よりも優れる。
最後に, WeLMは意思決定を自己から説明し, 調整する基本的なスキルを持っていることを実証し, 今後の研究に期待できる方向を示す。
私たちのモデルはhttps://welm.weixin.qq.com/docs/api/から適用できます。 Large Language Models pre-trained with self-supervised learning have demonstrated impressive zero-shot generalization capabilities on a wide spectrum of tasks. In this work, we present WeLM: a well-read pre-trained language model for Chinese that is able to seamlessly perform different types of tasks with zero or few-shot demonstrations. WeLM is trained with 10B parameters by "reading" a curated high-quality corpus covering a wide range of topics. We show that WeLM is equipped with broad knowledge on various domains and languages. On 18 monolingual (Chinese) tasks, WeLM can significantly outperform existing pre-trained models with similar sizes and match the performance of models up to 25 times larger. WeLM also exhibits strong capabilities in multi-lingual and code-switching understanding, outperforming existing multilingual language models pre-trained on 30 languages. Furthermore, We collected human-written prompts for a large set of supervised datasets in Chinese and fine-tuned WeLM with multi-prompted training. The resulting model can attain strong generalization on unseen types of tasks and outperform the unsupervised WeLM in zero-shot learning. Finally, we demonstrate that WeLM has basic skills at explaining and calibrating the decisions from itself, which can be promising directions for future research. Our models can be applied from https://welm.weixin.qq.com/docs/api/. | 翻訳日:2023-05-17 19:46:02 公開日:2023-05-16 |
# フォノン分解二色励起による高効率かつ識別不能な単一光子源 Highly efficient and indistinguishable single-photon sources via phonon-decoupled two-color excitation ( http://arxiv.org/abs/2209.07770v2 ) ライセンス: Link先を確認 | Luca Vannucci, Niels Gregersen | (参考訳) ほぼ均一効率と識別不能な単一光子源は、量子技術の発展に重要な役割を果たしている。
しかし、エミッタのオンデマンド励起は、ソース性能にかなりの制限を与える。
ここで,コヒーレントな2色パンピングは,エミッタとフォノン浴の間のデカップリング効果により,バルク量子ドット内の一様化に任意に近づいた集団反転を可能にすることを示す。
この方式でマイクロピラー単光子源を駆動し, キャビティモード (0.95光子/パルス) への非常に高い光子放出を現実的な構成で優れた不明瞭性 (0.975) で計算し, 単一光子源工学における励起スキームの制約を取り除く。 Single-photon sources with near-unity efficiency and indistinguishability play a major role in the development of quantum technologies. However, on-demand excitation of the emitter imposes substantial limitations to the source performance. Here, we show that coherent two-color pumping allows for population inversion arbitrarily close to unity in bulk quantum dots thanks to a decoupling effect between the emitter and its phonon bath. Driving a micropillar single-photon source with this scheme, we calculate very high photon emission into the cavity mode (0.95 photons per pulse) together with excellent indistinguishability (0.975) in a realistic configuration, thereby removing the limitations imposed by the excitation scheme on single-photon source engineering. | 翻訳日:2023-05-17 19:45:40 公開日:2023-05-16 |
# ファジィルールに基づく各種システムにおける最近の動向と応用に関する文献レビュー Literature Review of the Recent Trends and Applications in various Fuzzy Rule based systems ( http://arxiv.org/abs/2209.07175v2 ) ライセンス: Link先を確認 | Ayush K. Varshney and Vicen\c{c} Torra | (参考訳) ファジィ・ルール・ベース・システム(英: Fuzzy Rule Based System、FRBS)は、言語ファジィ変数を先行語として使用し、人間の理解可能な知識を表現するためのルールベースのシステムである。
これらはソフトコンピューティング文学の様々な応用や分野に適用されている。
しかし、FRBSは不確実性表現、多数の規則、解釈可能性損失、学習の計算時間などの多くの欠点に悩まされている。
FRBSのこれらの問題を克服するために、FRBSの多くの拡張が存在する。
本稿では,近年のファジィシステム (frbss) の動向,すなわち遺伝的ファジィシステム (gfs) ,階層的ファジィシステム (hfs) ,神経ファジィシステム (nfs) ,進化ファジィシステム (efs) ,ビッグデータ用frbss,不均衡データ用frbss,ファジィルールとしてクラスタセンタロイドを使用するfrbss および frbs の解釈可能性について概観し,文献的考察を行った。
レビューは2010-2021年。
本稿は、この分野における重要な貢献、出版統計、現在の動向についても取り上げる。
この論文は、FRBSs研究コミュニティからさらなる注目を必要とするいくつかのオープンな研究領域についても論じている。 Fuzzy rule based systems (FRBSs) is a rule-based system which uses linguistic fuzzy variables as antecedents and consequent to represent human understandable knowledge. They have been applied to various applications and areas throughout the soft computing literature. However, FRBSs suffers from many drawbacks such as uncertainty representation, high number of rules, interpretability loss, high computational time for learning etc. To overcome these issues with FRBSs, there exists many extensions of FRBSs. This paper presents an overview and literature review of recent trends on various types and prominent areas of fuzzy systems (FRBSs) namely genetic fuzzy system (GFS), hierarchical fuzzy system (HFS), neuro fuzzy system (NFS), evolving fuzzy system (eFS), FRBSs for big data, FRBSs for imbalanced data, interpretability in FRBSs and FRBSs which use cluster centroids as fuzzy rules. The review is for years 2010-2021. This paper also highlights important contributions, publication statistics and current trends in the field. The paper also addresses several open research areas which need further attention from the FRBSs research community. | 翻訳日:2023-05-17 19:45:25 公開日:2023-05-16 |
# サンプル選択下での異質な処理効果 : ソーシャルメディアの政治的分極効果への応用 Heterogeneous Treatment Effect Bounds under Sample Selection with an Application to the Effects of Social Media on Political Polarization ( http://arxiv.org/abs/2209.04329v3 ) ライセンス: Link先を確認 | Phillip Heiler | (参考訳) 一般サンプル選択モデルにおいて, 結果が観察され, 排他制限がないか否かに影響を及ぼすような不均一因果効果パラメータを推定し, 推定する手法を提案する。
この方法は、ポリシーに関連する事前処理変数の関数として条件効果境界を提供する。
特定されていない条件効果について有効な統計的推測を行うことができる。
我々は,非線形関数形式と高次元共起者に対応可能なフレキシブルデバイアス・ダブル機械学習アプローチを採用している。
推定の容易な高レベル条件、不特定性堅牢な信頼区間、均一な信頼帯域も提供される。
Facebook上での大規模フィールド実験から得られたデータを分析した結果、対人的ニュース購読による大きな非分極効果が判明した。
効果境界は非常に均一であり、中道派、保守派、若年者にとって強い分極効果を示す。 We propose a method for estimation and inference for bounds for heterogeneous causal effect parameters in general sample selection models where the treatment can affect whether an outcome is observed and no exclusion restrictions are available. The method provides conditional effect bounds as functions of policy relevant pre-treatment variables. It allows for conducting valid statistical inference on the unidentified conditional effects. We use a flexible debiased/double machine learning approach that can accommodate non-linear functional forms and high-dimensional confounders. Easily verifiable high-level conditions for estimation, misspecification robust confidence intervals, and uniform confidence bands are provided as well. Re-analyzing data from a large scale field experiment on Facebook, we find significant depolarization effects of counter-attitudinal news subscription nudges. The effect bounds are highly heterogeneous and suggest strong depolarization effects for moderates, conservatives, and younger users. | 翻訳日:2023-05-17 19:44:22 公開日:2023-05-16 |
# 任意状態のためのハイゼンベルク画像における量子情報の局所性について On Locality of Quantum Information in the Heisenberg Picture for Arbitrary States ( http://arxiv.org/abs/2209.02695v2 ) ライセンス: Link先を確認 | Otto C.W. Kong (Nat'l Central U, Taiwan, KIAS, Korea) | (参考訳) 量子力学の局所性問題は、量子物理学などに対する適切な理解の鍵となる問題である。
一般に量子非局所性(quantum nonlocality)として強調されているものは、量子情報のハイゼンベルク図(Heisenberg picture of quantum information)の概念を通じて、刺激的な検査を受けている。
DeutschとHaydenは量子ビット系の量子情報フローの設定において量子情報の局所的な記述を確立した。
観測可能な可観測値のdeutsch-hayden行列の値を若干修正したバージョンを導入することで、より基本的な観点から、最近導入された非可換値の並列概念とともに、ジェネリック複合システムの任意の任意の状態において、局所可観測性によって運ばれる量子情報のようなすべての局所性問題を明らかにする。
観測可能な値の「量子」値」としての量子情報は、すべての概念を透過的に表現する。
射影測定のための空間的局所性についても論じる。
押し付けられた疑問は、新しい実験的な思考でのみ対処できる局所的なプロセスを通じて、絡み合ったシステムに対するそのような情報が取り出すことができるかどうかである。 The locality issue of quantum mechanics is a key issue to a proper understanding of quantum physics and beyond. What has been commonly emphasized as quantum nonlocality has received an inspiring examination through the notion of Heisenberg picture of quantum information. Deutsch and Hayden established a local description of quantum information in a setting of quantum information flow in a system of qubits. With the introduction of a slightly modified version of what we call the Deutsch-Hayden matrix values of observables, together with our recently introduced parallel notion of the noncommutative values from a more fundamental perspective, we clarify all the locality issues based on such values as quantum information carried by local observables in any given arbitrary state of a generic composite system. Quantum information as the {\em `quantum' values} of observables gives a transparent conceptual picture of all the. Spatial locality for a projective measurement is also discussed. The pressing question is if and how such information for an entangled system can be retrieved through local processes which can only be addressed with new experimental thinking. | 翻訳日:2023-05-17 19:44:08 公開日:2023-05-16 |
# MLIC:学習画像圧縮のためのマルチ参照エントロピーモデル MLIC: Multi-Reference Entropy Model for Learned Image Compression ( http://arxiv.org/abs/2211.07273v3 ) ライセンス: Link先を確認 | Wei Jiang, Jiayu Yang, Yongqi Zhai, Peirong Ning, Feng Gao, Ronggang Wang | (参考訳) 近年,学習画像の圧縮性能は著しく向上している。
潜在表現の分布を推定するエントロピーモデルは、速度分散性能の向上に重要な役割を果たしている。
しかし、ほとんどのエントロピーモデルは1次元の相関のみを捉えるが、潜在表現はチャネル回り、局所空間、大域的な空間相関を含む。
この問題に対処するため、Multi-Reference Entropy Model (MEM) と高度なバージョンMEM$^+$を提案する。
これらのモデルは潜在表現に存在する異なる種類の相関を捉える。
具体的には、まず潜在表現をスライスに分割する。
現在のスライスを復号する際には、予め復号されたスライスをコンテキストとして使用し、それまでのスライスのアテンションマップを用いて、現在のスライスにおける大域的相関を予測する。
ローカルコンテキストをキャプチャするために,性能劣化を回避する2つの拡張チェッカーボードコンテキストキャプチャ技術を導入する。
MEM と MEM$^+$ に基づいて,画像圧縮モデル MLIC と MLIC$^+$ を提案する。
広範な実験評価により、mlicおよびmlic+モデルは最新性能を達成し、psnrで測定したvtm-17.0と比較して、kodakデータセットでのbdレートが8.05\%$および1.39\%$削減された。 Recently, learned image compression has achieved remarkable performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in boosting rate-distortion performance. However, most entropy models only capture correlations in one dimension, while the latent representation contain channel-wise, local spatial, and global spatial correlations. To tackle this issue, we propose the Multi-Reference Entropy Model (MEM) and the advanced version, MEM$^+$. These models capture the different types of correlations present in latent representation. Specifically, We first divide the latent representation into slices. When decoding the current slice, we use previously decoded slices as context and employ the attention map of the previously decoded slice to predict global correlations in the current slice. To capture local contexts, we introduce two enhanced checkerboard context capturing techniques that avoids performance degradation. Based on MEM and MEM$^+$, we propose image compression models MLIC and MLIC$^+$. Extensive experimental evaluations demonstrate that our MLIC and MLIC+ models achieve state-of-the-art performance, reducing BD-rate by $8.05\%$ and $11.39\%$ on the Kodak dataset compared to VTM-17.0 when measured in PSNR. | 翻訳日:2023-05-17 19:38:07 公開日:2023-05-16 |
# レッドフィールド方程式の時間依存正則化 A time-dependent regularization of the Redfield equation ( http://arxiv.org/abs/2211.04400v2 ) ライセンス: Link先を確認 | Antonio D'Abbruzzo, Vasco Cavina, Vittorio Giovannetti | (参考訳) レッドフィールド方程式の新たな正則化をコサコフスキー行列を最も近い正の半定義近傍に置き換えた。
既存のほとんどのアプローチとは異なり、この手順はコサコフスキ行列の時間依存性を保ち、完全な正の可分量子過程をもたらすことができる。
完全可解な3次元オープンシステムのダイナミクスを基準として,部分的世俗的マスター方程式や普遍的リンドブラッド方程式のような他の手法と比較して,過渡的進化において,我々のアプローチがより良く機能することを示す。
初期状態から独立に異なる正規化スキームの比較を行うため、Choi-Jamiolkowski同型に基づく新しい定量的アプローチを導入する。 We introduce a new regularization of the Redfield equation based on a replacement of the Kossakowski matrix with its closest positive semidefinite neighbor. Unlike most of the existing approaches, this procedure is capable of retaining the time dependence of the Kossakowski matrix, leading to a completely positive divisible quantum process. Using the dynamics of an exactly-solvable three-level open system as a reference, we show that our approach performs better during the transient evolution, if compared to other approaches like the partial secular master equation or the universal Lindblad equation. To make the comparison between different regularization schemes independent from the initial states, we introduce a new quantitative approach based on the Choi-Jamiolkowski isomorphism. | 翻訳日:2023-05-17 19:37:21 公開日:2023-05-16 |
# インテリジェント情報集約によるスケーラブルなマルチエージェント強化学習 Scalable Multi-Agent Reinforcement Learning through Intelligent Information Aggregation ( http://arxiv.org/abs/2211.02127v3 ) ライセンス: Link先を確認 | Siddharth Nayak, Kenneth Choi, Wenqi Ding, Sydney Dolan, Karthik Gopalakrishnan, Hamsa Balakrishnan | (参考訳) 各エージェントの局所的近傍で観測が制限された場合,マルチエージェントナビゲーションと衝突回避の問題を考える。
本稿では,マルチエージェント強化学習(MARL)のための新しいアーキテクチャであるInforMARLを提案する。
具体的には、InforMARLはアクターと批評家の両方のエージェントの局所的な近傍に関する情報をグラフニューラルネットワークを使って集約し、標準的なMARLアルゴリズムと併用することができる。
1) 学習中のインフォマレルは, 情報量が少ないにもかかわらず, ベースラインアプローチよりもサンプル効率と性能が優れており, (2) テストでは, 任意の数のエージェントや障害のある環境によく適用できることを示した。
各エージェントに所定の目標を持つものや,エージェントがまとめてすべての目標をカバーしようとするもの,という4つのタスク環境を用いて,これらの結果を説明する。
コードはhttps://github.com/nsidn98/informarl。 We consider the problem of multi-agent navigation and collision avoidance when observations are limited to the local neighborhood of each agent. We propose InforMARL, a novel architecture for multi-agent reinforcement learning (MARL) which uses local information intelligently to compute paths for all the agents in a decentralized manner. Specifically, InforMARL aggregates information about the local neighborhood of agents for both the actor and the critic using a graph neural network and can be used in conjunction with any standard MARL algorithm. We show that (1) in training, InforMARL has better sample efficiency and performance than baseline approaches, despite using less information, and (2) in testing, it scales well to environments with arbitrary numbers of agents and obstacles. We illustrate these results using four task environments, including one with predetermined goals for each agent, and one in which the agents collectively try to cover all goals. Code available at https://github.com/nsidn98/InforMARL. | 翻訳日:2023-05-17 19:37:09 公開日:2023-05-16 |
# スピンネットワークを用いた最適温度計 Optimal Thermometers with Spin Networks ( http://arxiv.org/abs/2211.01934v2 ) ライセンス: Link先を確認 | Paolo Abiuso, Paolo Andrea Erdman, Michael Ronen, Frank No\'e, G\'eraldine Haack, Mart\'i Perarnau-Llobet | (参考訳) 与えられたプローブの熱容量$\mathcal{C}$は、その他の特性の中で温度推定の最大精度を決定する基本的な量である。
逆に、$\mathcal{c}$ は、プローブの構成数の2次スケーリングによって制限され、量子温度測定において基本的な限界を与える。
この基礎を現実的なプローブ、すなわち実験的に可観測性と結び付けることは、未解決の問題である。
本研究では,スピンのネットワークを用いて最適温度計の工学的問題に取り組む。
2体の相互作用に制限を加えることで、最適構成の一般的な特性を導き出し、最適結合を見つけるために機械学習技術を活用する。
これは単純なアーキテクチャにつながり、解析的に$\mathcal{C}$の理論的極大値を近似し、短距離および長距離相互作用の最適スケーリングを維持する。
我々のモデルは、現在利用可能な量子アニーラーにエンコードでき、量子熱エンジンから断熱グローバー探索まで、ハミルトン工学を必要とする他のタスクに応用できる。 The heat capacity $\mathcal{C}$ of a given probe is a fundamental quantity that determines, among other properties, the maximum precision in temperature estimation. In turn, $\mathcal{C}$ is limited by a quadratic scaling with the number of constituents of the probe, which provides a fundamental limit in quantum thermometry. Achieving this fundamental bound with realistic probes, i.e. experimentally amenable, remains an open problem. In this work, we tackle the problem of engineering optimal thermometers by using networks of spins. Restricting ourselves to two-body interactions, we derive general properties of the optimal configurations and exploit machine-learning techniques to find the optimal couplings. This leads to simple architectures, which we show analytically to approximate the theoretical maximal value of $\mathcal{C}$ and maintain the optimal scaling for short- and long-range interactions. Our models can be encoded in currently available quantum annealers, and find application in other tasks requiring Hamiltonian engineering, ranging from quantum heat engines to adiabatic Grover's search. | 翻訳日:2023-05-17 19:36:51 公開日:2023-05-16 |
# 制御量子系における非線形歪の補償 Compensating for non-linear distortions in controlled quantum systems ( http://arxiv.org/abs/2210.07833v2 ) ライセンス: Link先を確認 | Juhi Singh, Robert Zeier, Tommaso Calarco, Felix Motzoi | (参考訳) 制御された量子システムの予測設計と最適化は、システムモデルの精度に依存する。
実験プラットフォームにおける入力フィールドの歪みはモデル精度を変化させ、最終的に予測ダイナミクスを阻害する。
これらの歪みは、強い周波数依存を持つ非線形であり、量子力学系と相互作用する場は入力信号に類似しない。
本稿では,任意の長さと大きさの非線形伝達関数に適した歪みを推定するための有効な手法を提案する。
二次推定を用いて,1つのRydberg原子系の数値的な例として,我々の手法を検証した。
提案手法から推定した伝達関数を,量子実験における高忠実度演算を可能にするオープンループ制御最適化アルゴリズムに組み込む。 Predictive design and optimization methods for controlled quantum systems depend on the accuracy of the system model. Any distortion of the input fields in an experimental platform alters the model accuracy and eventually disturbs the predicted dynamics. These distortions can be non-linear with a strong frequency dependence so that the field interacting with the microscopic quantum system has limited resemblance to the input signal. We present an effective method for estimating these distortions which is suitable for non-linear transfer functions of arbitrary lengths and magnitudes provided the available training data has enough spectral components. Using a quadratic estimation, we have successfully tested our approach for a numerical example of a single Rydberg atom system. The transfer function estimated from the presented method is incorporated into an open-loop control optimization algorithm allowing for high-fidelity operations in quantum experiments. | 翻訳日:2023-05-17 19:36:34 公開日:2023-05-16 |
# 微調整のない事前学習型言語モデルの作成 Pruning Pre-trained Language Models Without Fine-Tuning ( http://arxiv.org/abs/2210.06210v2 ) ライセンス: Link先を確認 | Ting Jiang, Deqing Wang, Fuzhen Zhuang, Ruobing Xie, Feng Xia | (参考訳) プレトレーニング言語モデル(PLM)の過度パラメータ化問題を克服するため、プルーニングは重要でない重みを直接取り除き、単純で簡単な圧縮法として広く利用されている。
従来の一階法は性能低下の少ない非常に高い空間にPLMを圧縮することに成功した。
これらの方法、例えば運動プルーニングは、残りの重量を微調整しながらPLMをプルークするために一階情報を使用する。
本研究では,1次プルーニングはplmを下流タスクに収束させるのに十分であるため,1次プルーニングには微調整が冗長であると主張する。
そこで本研究では,plmを下流タスクに適応させるために1次pruningのみを使用する静的モデルpruning(smp)を提案する。
また,SMPをさらに改善するために,新しいマスキング機能とトレーニング目標を設計する。
様々な空間レベルの実験により、SMPは1次法と0次法よりも大幅に改善された。
従来の一階法とは異なり、SMPは低空間に適用でき、ゼロ階法より優れている。
一方、SMPは微調整を必要としないため、他の手法よりもパラメータ効率が高い。 To overcome the overparameterized problem in Pre-trained Language Models (PLMs), pruning is widely used as a simple and straightforward compression method by directly removing unimportant weights. Previous first-order methods successfully compress PLMs to extremely high sparsity with little performance drop. These methods, such as movement pruning, use first-order information to prune PLMs while fine-tuning the remaining weights. In this work, we argue fine-tuning is redundant for first-order pruning, since first-order pruning is sufficient to converge PLMs to downstream tasks without fine-tuning. Under this motivation, we propose Static Model Pruning (SMP), which only uses first-order pruning to adapt PLMs to downstream tasks while achieving the target sparsity level. In addition, we also design a new masking function and training objective to further improve SMP. Extensive experiments at various sparsity levels show SMP has significant improvements over first-order and zero-order methods. Unlike previous first-order methods, SMP is also applicable to low sparsity and outperforms zero-order methods. Meanwhile, SMP is more parameter efficient than other methods due to it does not require fine-tuning. | 翻訳日:2023-05-17 19:36:23 公開日:2023-05-16 |
# データセットを組み合わせることでサンプル数を増やし、モデルフィッティングを改善する Combining datasets to increase the number of samples and improve model fitting ( http://arxiv.org/abs/2210.05165v2 ) ライセンス: Link先を確認 | Thu Nguyen, Rabindra Khadka, Nhan Phan, Anis Yazidi, P{\aa}l Halvorsen, Michael A. Riegler | (参考訳) 多くのユースケースにおいて、異なるデータセットからの情報を組み合わせることは、特にデータセットの少なくとも1つからのサンプル数が小さい場合に、機械学習モデルのパフォーマンスを改善するために興味深い。
しかし、そのような場合の潜在的な課題は、データセット間で共通の機能があるにもかかわらず、これらのデータセットの特徴が同一ではないことである。
この課題に取り組むため,我々はインプテーションに基づくコンバインドデータセット(comimp)という新しいフレームワークを提案する。
さらに,データ集合を結合する前に次元を減らすために,pca-comimpの原理成分分析(principal component analysis,pca-comimp)を用いたcomimpの変種を提案する。
これはデータセット間で共有されていない多数の機能がある場合に有効である。
さらに、我々のフレームワークは、欠落したデータ、すなわち欠落したエントリを入力し、異なるデータセットを組み合わせることで、データ前処理にも利用できる。
提案手法のパワーとその使用可能性を説明するために, 回帰, 分類, 各種データタイプ(表型データ, 時系列データ, 組み合わせるべきデータセットが欠落している場合)について実験を行った。
また,この手法をトランスファーラーニングに応用し,モデルトレーニングの改善をさらに進める方法について検討した。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上できるため,転送学習に類似していることが示唆された。
さらに、小さなデータセットを組み合わせることで、パフォーマンスをかなりのマージンで向上させ、転送学習で使用する場合、さらに改善することができる。 For many use cases, combining information from different datasets can be of interest to improve a machine learning model's performance, especially when the number of samples from at least one of the datasets is small. However, a potential challenge in such cases is that the features from these datasets are not identical, even though there are some commonly shared features among the datasets. To tackle this challenge, we propose a novel framework called Combine datasets based on Imputation (ComImp). In addition, we propose a variant of ComImp that uses Principle Component Analysis (PCA), PCA-ComImp in order to reduce dimension before combining datasets. This is useful when the datasets have a large number of features that are not shared between them. Furthermore, our framework can also be utilized for data preprocessing by imputing missing data, i.e., filling in the missing entries while combining different datasets. To illustrate the power of the proposed methods and their potential usages, we conduct experiments for various tasks: regression, classification, and for different data types: tabular data, time series data, when the datasets to be combined have missing data. We also investigate how the devised methods can be used with transfer learning to provide even further model training improvement. Our results indicate that the proposed methods are somewhat similar to transfer learning in that the merge can significantly improve the accuracy of a prediction model on smaller datasets. In addition, the methods can boost performance by a significant margin when combining small datasets together and can provide extra improvement when being used with transfer learning. | 翻訳日:2023-05-17 19:36:01 公開日:2023-05-16 |
# 強化学習のための経験的説明 Experiential Explanations for Reinforcement Learning ( http://arxiv.org/abs/2210.04723v3 ) ライセンス: Link先を確認 | Amal Alabdulkarim, Gennie Mansi, Kaely Hall, Mark O. Riedl | (参考訳) 強化学習(Reinforcement Learning, RL)システムは複雑で非解釈可能であり、非AI専門家が意思決定に介入することが難しい。
これは、部分的には将来の報酬のためにアクションが選択されるRLのシーケンシャルな性質によるものである。
しかし、RLエージェントはトレーニングの質的な特徴を捨て、アクションが選択された理由についてユーザ理解可能な情報を復元することが困難になる。
提案する文チャンキング:RLポリシーに沿う影響予測器を訓練することにより,実例説明を生成する手法を提案する。
影響予測器は、報酬源が異なる状態のエージェントにどのように影響するかを学習し、ポリシーが環境をどのように反映するかを復元するモデルである。
人間による評価研究では、経験的説明が提示された被験者は、他の標準的な説明よりも、エージェントが何をするかを正確に推測できることが判明した。
参加者はまた、経験的な説明がより理解しやすく、満足し、完成し、有用で、正確であることを発見した。
質的な分析は、最も有用な経験的説明の要素に関する洞察を提供する。 Reinforcement Learning (RL) systems can be complex and non-interpretable, making it challenging for non-AI experts to understand or intervene in their decisions. This is due, in part, to the sequential nature of RL in which actions are chosen because of future rewards. However, RL agents discard the qualitative features of their training, making it hard to recover user-understandable information for "why" an action is chosen. Proposed sentence chunking: We propose a technique Experiential Explanations to generate counterfactual explanations by training influence predictors alongside the RL policy. Influence predictors are models that learn how sources of reward affect the agent in different states, thus restoring information about how the policy reflects the environment. A human evaluation study revealed that participants presented with experiential explanations were better able to correctly guess what an agent would do than those presented with other standard types of explanations. Participants also found experiential explanations to be more understandable, satisfying, complete, useful, and accurate. The qualitative analysis provides insights into the factors of experiential explanations that find most useful. | 翻訳日:2023-05-17 19:35:33 公開日:2023-05-16 |
# aioner: ディープラーニングを用いた生体医学的エンティティ認識 AIONER: All-in-one scheme-based biomedical named entity recognition using deep learning ( http://arxiv.org/abs/2211.16944v3 ) ライセンス: Link先を確認 | Ling Luo, Chih-Hsuan Wei, Po-Ting Lai, Robert Leaman, Qingyu Chen and Zhiyong Lu | (参考訳) バイオメディカル名付きエンティティ認識(BioNER)は、自然言語テキストにおけるバイオメディカルエンティティを自動的に認識し、下流のテキストマイニングタスクや情報抽出や質問応答などのアプリケーションに必要な基盤となる。
BioNERタスクのトレーニングデータを手動でラベル付けするのはコストがかかるが、正確なアノテーションに必要なドメインの専門知識があるためである。
結果として得られたデータ不足により、現在のBioNERアプローチは過度に適合し、限定的な一般化性に悩まされ、一度に一つのエンティティタイプ(遺伝子や病気など)に対処する傾向にある。
そこで本研究では,BioNERモデルの精度と安定性を高めるために,既存のアノテートリソースから外部データを利用する新たなオールインワン(AIO)方式を提案する。
さらに,最先端のディープラーニングとAIOスキーマに基づく汎用BioNERツールであるAIONERを紹介する。
AIONERを14のBioNERベンチマークタスクで評価し、AIONERが効果的で堅牢であることを示し、マルチタスク学習などの他の最先端手法と比較した。
さらに,既存のバイオメディカルテキストを大規模に処理する手法(PubMedデータ全体)に対して,AIONERの優位性に加えて,トレーニングデータにこれまで見られないエンティティタイプを認識するための3つの独立したタスクにおけるAIONERの実用性を示す。 Biomedical named entity recognition (BioNER) seeks to automatically recognize biomedical entities in natural language text, serving as a necessary foundation for downstream text mining tasks and applications such as information extraction and question answering. Manually labeling training data for the BioNER task is costly, however, due to the significant domain expertise required for accurate annotation. The resulting data scarcity causes current BioNER approaches to be prone to overfitting, to suffer from limited generalizability, and to address a single entity type at a time (e.g., gene or disease). We therefore propose a novel all-in-one (AIO) scheme that uses external data from existing annotated resources to enhance the accuracy and stability of BioNER models. We further present AIONER, a general-purpose BioNER tool based on cutting-edge deep learning and our AIO schema. We evaluate AIONER on 14 BioNER benchmark tasks and show that AIONER is effective, robust, and compares favorably to other state-of-the-art approaches such as multi-task learning. We further demonstrate the practical utility of AIONER in three independent tasks to recognize entity types not previously seen in training data, as well as the advantages of AIONER over existing methods for processing biomedical text at a large scale (e.g., the entire PubMed data). | 翻訳日:2023-05-17 19:28:02 公開日:2023-05-16 |
# ハイブリッド光共振キャビティシステムにおけるマルチチャネル量子ノイズ抑制と位相感応変調 Multi-channel quantum noise suppression and phase-sensitive modulation in a hybrid optical resonant cavity system ( http://arxiv.org/abs/2211.14623v2 ) ライセンス: Link先を確認 | Ke Di, Shuai Tan, Liyong Wang, Anyu Cheng, Xi Wang, Yuming Sun, Junqi Guo, Yu Liu and Jiajia Du | (参考訳) ハイブリッド共振器空洞系における真空・圧縮場における連続変動の量子雑音抑制と位相感度変調について理論的に検討した。
電磁誘導透過(eit)に似た複数の暗窓が量子ノイズゆらぎ曲線で観測される。
量子ノイズの抑制と暗窓幅の制御の両方に対する励起光の効果を慎重に解析し、非線形結晶変換のための励起光の飽和点を求める。
ノイズ抑制効果は励起光パワーに強く敏感であることがわかった。
汲み上げライトパワーが6.5 Beta_thの場合には、ノイズ抑制の度合いを最大13.9 dBにすることができる。
さらに, 圧縮磁場の二次振幅において, 多チャンネル量子雑音抑圧が実現し難いギャップを十分に埋める位相感度変調方式を実証した。
我々の結果は、精密測定物理学、量子情報処理、およびシステムオンチップの量子通信における様々な応用に有意義である。 Quantum noise suppression and phase-sensitive modulation of continuously variable in vacuum and squeezed fields in a hybrid resonant cavity system are investigated theoretically. Multiple dark windows similar to electromagnetic induction transparency (EIT) are observed in quantum noise fluctuation curve. The effects of pumping light on both suppression of quantum noise and control the widths of dark windows are carefully analyzed, and the saturation point of pumping light for nonlinear crystal conversion is obtained. We find that the noise suppression effect is strongly sensitive to the pumping light power. The degree of noise suppression can be up to 13.9 dB when the pumping light power is 6.5 Beta_th. Moreover, a phase-sensitive modulation scheme is demonstrated, which well fills the gap that multi-channel quantum noise suppression is difficult to realize at the quadrature amplitude of squeezed field. Our result is meaningful for various applications in precise measurement physics, quantum information processing and quantum communications of system-on-a-chip. | 翻訳日:2023-05-17 19:26:52 公開日:2023-05-16 |
# 知識ベースニューラル常微分方程式とディープアンサンブルを用いた学習強調非線形モデル予測制御 Learning-enhanced Nonlinear Model Predictive Control using Knowledge-based Neural Ordinary Differential Equations and Deep Ensembles ( http://arxiv.org/abs/2211.13829v2 ) ライセンス: Link先を確認 | Kong Yao Chee, M. Ani Hsieh and Nikolai Matni | (参考訳) 非線形モデル予測制御(英語版) (MPC) は、状態制約と制御入力制約の両方を満たすフィードバック制御戦略を合成するために使われる柔軟で普及しているフレームワークである。
このフレームワークでは、非線形ダイナミクスモデルによって特徴付けられる一連のダイナミクス制約を課す最適化問題を各時間ステップで解く。
汎用性にもかかわらず、非線形mpcの性能はダイナミクスモデルの精度に依存することが多い。
本研究では,知識に基づくニューラル常微分方程式(KNODE)とディープアンサンブルを用いたディープラーニングツールを用いて,モデルの予測精度を向上させる。
特に、KNODEモデルのアンサンブル(KNODEアンサンブル)を学習し、真のシステム力学の正確な予測を得る。
この学習モデルは、新しい学習強化非線形MPCフレームワークに統合される。
閉ループ系の漸近安定性を保証する十分条件を提供し,これらの条件を実際に実装可能であることを示す。
KNODEアンサンブルはより正確な予測を提供し、2つのケーススタディを用いて提案した非線形MPCフレームワークの有効性と閉ループ性能を示す。 Nonlinear model predictive control (MPC) is a flexible and increasingly popular framework used to synthesize feedback control strategies that can satisfy both state and control input constraints. In this framework, an optimization problem, subjected to a set of dynamics constraints characterized by a nonlinear dynamics model, is solved at each time step. Despite its versatility, the performance of nonlinear MPC often depends on the accuracy of the dynamics model. In this work, we leverage deep learning tools, namely knowledge-based neural ordinary differential equations (KNODE) and deep ensembles, to improve the prediction accuracy of this model. In particular, we learn an ensemble of KNODE models, which we refer to as the KNODE ensemble, to obtain an accurate prediction of the true system dynamics. This learned model is then integrated into a novel learning-enhanced nonlinear MPC framework. We provide sufficient conditions that guarantees asymptotic stability of the closed-loop system and show that these conditions can be implemented in practice. We show that the KNODE ensemble provides more accurate predictions and illustrate the efficacy and closed-loop performance of the proposed nonlinear MPC framework using two case studies. | 翻訳日:2023-05-17 19:26:19 公開日:2023-05-16 |
# 量子ニューラルネットワークの表現可能性向上戦略 Expressibility-Enhancing Strategies for Quantum Neural Networks ( http://arxiv.org/abs/2211.12670v2 ) ライセンス: Link先を確認 | Yalin Liao, Junpeng Zhan | (参考訳) パラメータ化された量子回路で表現される量子ニューラルネットワーク(QNN)は、入力データを予測にマッピングする教師あり学習のパラダイムで訓練することができる。
多くの研究はQNNの表現力を理論的に分析することに重点を置いている。
しかし、ほとんどすべての文献において、QNNの表現力は単純な単変量関数のみを用いて数値的に検証される。
高い表現力を持つ最先端QNNは,単純な正弦波関数でさえも近似性能が劣ることがわかった。
このギャップを埋めるために, 正弦波対応埋め込み, 冗長測定, 後測定機能, ランダムトレーニングデータという4つのQNNの表現可能性向上戦略を提案する。
複雑な正弦波関数の学習を含む数学的解析および/または数値研究を通じて,これらの戦略の有効性を分析する。
比較実験の結果,複素多変数関数近似におけるqnnの性能を著しく向上させ,必要な量子回路深度と量子ビットを低減できることを確認した。 Quantum neural networks (QNNs), represented by parameterized quantum circuits, can be trained in the paradigm of supervised learning to map input data to predictions. Much work has focused on theoretically analyzing the expressive power of QNNs. However, in almost all literature, QNNs' expressive power is numerically validated using only simple univariate functions. We surprisingly discover that state-of-the-art QNNs with strong expressive power can have poor performance in approximating even just a simple sinusoidal function. To fill the gap, we propose four expressibility-enhancing strategies for QNNs: Sinusoidal-friendly embedding, redundant measurement, post-measurement function, and random training data. We analyze the effectiveness of these strategies via mathematical analysis and/or numerical studies including learning complex sinusoidal-based functions. Our results from comparative experiments validate that the four strategies can significantly increase the QNNs' performance in approximating complex multivariable functions and reduce the quantum circuit depth and qubits required. | 翻訳日:2023-05-17 19:25:59 公開日:2023-05-16 |
# 聴いて、デノワーズ、アクション!
拡散モデルを用いた音声駆動モーション合成 Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models ( http://arxiv.org/abs/2211.09707v2 ) ライセンス: Link先を確認 | Simon Alexanderson, Rajmund Nagy, Jonas Beskow, Gustav Eje Henter | (参考訳) 拡散モデルは非常に表現力が高く、効率的に訓練可能な確率モデルとして関心を集めている。
これらのモデルは, 動作が複雑であいまいな音声であり, 確率的記述を求めるため, ダンスや協調ジェスチレーションなど, 音声と共生する人間の運動を合成するのに最適であることを示す。
具体的には、DiffWaveアーキテクチャを3Dポーズシーケンスのモデル化に適用し、コンフォーマーを拡張畳み込みに代えてモデリング能力を向上させる。
また,文体表現の強みを調整するために,分類器のない指導法を用いて,動作スタイルの制御を示す。
ジェスチャーとダンス生成の実験により,提案手法は,表現を多かれ少なかれ発音できる独特のスタイルで,最上位の動作品質を実現することを確認した。
また,同じモデルアーキテクチャを用いて経路駆動ロコモーションを合成する。
最後に,拡散モデルの製品・オブ・エキスパート・アンサンブルを得るための指導手順を一般化し,それらがどのようにしてスタイル補間(スタイル補間)に使用されるかを示す。
ビデオ例、データ、コードについてはhttps://www.speech.kth.se/research/listen-denoise-action/を参照。 Diffusion models have experienced a surge of interest as highly expressive yet efficiently trainable probabilistic models. We show that these models are an excellent fit for synthesising human motion that co-occurs with audio, e.g., dancing and co-speech gesticulation, since motion is complex and highly ambiguous given audio, calling for a probabilistic description. Specifically, we adapt the DiffWave architecture to model 3D pose sequences, putting Conformers in place of dilated convolutions for improved modelling power. We also demonstrate control over motion style, using classifier-free guidance to adjust the strength of the stylistic expression. Experiments on gesture and dance generation confirm that the proposed method achieves top-of-the-line motion quality, with distinctive styles whose expression can be made more or less pronounced. We also synthesise path-driven locomotion using the same model architecture. Finally, we generalise the guidance procedure to obtain product-of-expert ensembles of diffusion models and demonstrate how these may be used for, e.g., style interpolation, a contribution we believe is of independent interest. See https://www.speech.kth.se/research/listen-denoise-action/ for video examples, data, and code. | 翻訳日:2023-05-17 19:25:42 公開日:2023-05-16 |
# 線形力学系におけるオフラインデータポジショニング攻撃の解析と検出可能性 Analysis and Detectability of Offline Data Poisoning Attacks on Linear Dynamical Systems ( http://arxiv.org/abs/2211.08804v5 ) ライセンス: Link先を確認 | Alessio Russo | (参考訳) 近年、データ駆動制御手法に対するデータ中毒攻撃の影響に対する関心が高まっている。
毒殺攻撃は機械学習コミュニティではよく知られていますが、これは一般的に線形力学系では持たない、クロスサンプル独立のような仮定を利用しています。
したがって、これらのシステムは、i.i.d.\設定の教師付き学習問題のために開発されたものとは異なる攻撃および検出方法を必要とする。
多くのデータ駆動制御アルゴリズムは最小二乗推定器を利用するため、統計検査のレンズを通して最小二乗推定値に毒がどのような影響を及ぼすか、また、データ中毒攻撃を検出する方法に疑問を呈する。
我々は,データに適合するモデルの集合がシステムの真のモデルを含む条件を定式化し,攻撃者に対する異なる中毒戦略を分析する。
そこで本稿では,古典的統計的テストから逃れることのできる最小二乗推定器に対するステルスデータ中毒攻撃を提案し,提案攻撃の有効性を示す。 In recent years, there has been a growing interest in the effects of data poisoning attacks on data-driven control methods. Poisoning attacks are well-known to the Machine Learning community, which, however, make use of assumptions, such as cross-sample independence, that in general do not hold for linear dynamical systems. Consequently, these systems require different attack and detection methods than those developed for supervised learning problems in the i.i.d.\ setting. Since most data-driven control algorithms make use of the least-squares estimator, we study how poisoning impacts the least-squares estimate through the lens of statistical testing, and question in what way data poisoning attacks can be detected. We establish under which conditions the set of models compatible with the data includes the true model of the system, and we analyze different poisoning strategies for the attacker. On the basis of the arguments hereby presented, we propose a stealthy data poisoning attack on the least-squares estimator that can escape classical statistical tests, and conclude by showing the efficiency of the proposed attack. | 翻訳日:2023-05-17 19:25:21 公開日:2023-05-16 |
# 地理的画像分割のためのフェアコントラスト事前学習 Fair contrastive pre-training for geographic image segmentation ( http://arxiv.org/abs/2211.08672v2 ) ライセンス: Link先を確認 | Miao Zhang, Rumi Chunara | (参考訳) 対照的な自己教師型学習は、地理画像データ(リモートまたは近距離センシング)の視覚的認識に広く用いられているが、ランドスケープの不均一性のため、モデルは空間単位間で異なる性能を示すことができる。
本研究では, 衛星画像の都市部と農村部, 下流セマンティックセマンティックセグメンテーションのストリートビュー画像の都市GDPレベルという, 選択されたセンシティブなグループ間で大きなパフォーマンスギャップを示す学習者表現について検討する。
本研究では,多レベル遅延空間デバイアスの目的である,比較学習(FairDCL)を用いた高密度表現を提案し,グループ間で異なる局所情報の相違を抑えるために,新しい高密度属性符号化手法を提案する。
下流タスクの公平性が向上し、公平なトレードオフがない場合に最先端の方法を上回る。
画像埋め込み評価とアブレーション研究はfairdclの有効性をさらに実証する。
地理的画像の公平性は、既存の最先端データや結果のない、初期段階のトピックであるので、我々の研究は、研究者に、これらのアプリケーションにおける公正度の測定を、特に精度の低下を示さない結果によって強化することを促す。
私たちのコードは、https://anonymous.4open.science/r/FairDCL-1283で利用可能です。 Contrastive self-supervised learning is widely employed in visual recognition for geographic image data (remote or proximal sensing), but because of landscape heterogeneity, models can show disparate performance across spatial units. In this work, we consider fairness risks in such contrastive pre-training; we show learnt representations present large performance gaps across selected sensitive groups: urban and rural areas for satellite images and city GDP level for street view images on downstream semantic segmentation. We propose fair dense representations with contrastive learning (FairDCL) to address the issue, a multi-level latent space de-biasing objective, using a novel dense sensitive attribute encoding technique to constrain spurious local information disparately distributes across groups. The method achieves improved downstream task fairness and outperforms state-of-the-art methods for the absence of a fairness-accuracy trade-off. Image embedding evaluation and ablation studies further demonstrate effectiveness of FairDCL. As fairness in geographic imagery is a nascent topic without existing state-of-the-art data or results, our work motivates researchers to consider fairness metrics in such applications, especially reinforced by our results showing no accuracy degradation. Our code is available at: https://anonymous.4open.science/r/FairDCL-1283 | 翻訳日:2023-05-17 19:25:04 公開日:2023-05-16 |
# 社会工学的生産スケジューリングのための強化学習を用いたメメティックアルゴリズム A Memetic Algorithm with Reinforcement Learning for Sociotechnical Production Scheduling ( http://arxiv.org/abs/2212.10936v3 ) ライセンス: Link先を確認 | Felix Grumbach, Nour Eldin Alaa Badr, Pascal Reusch and Sebastian Trojahn | (参考訳) 本稿では,drc-fjssp (drc-fjssp) を用いた二元資源制約型フレキシブルジョブショップスケジューリング問題を解くための深層強化学習(drl)手法を提案する。
近年、DRL技術の研究が盛んに行われているが、現実的で柔軟で人間中心のショップフロアは検討されていない。
サービス水準の高い中規模企業でよく見られるように、製造・発注指向の不連続製造の文脈で研究ギャップが特定できる。
この領域の実践的な産業プロジェクトから、フレキシブルマシン、ヒューマンワーカーと能力、セットアップと処理、材料到着時間、材料請求書製造(BOM)の並列タスク、シーケンス依存のセットアップ時間および(一部)自動化タスクの複雑なジョブパスを記述するための要件を認識します。
一方、DRC-FJSSPの文脈におけるメタヒューリスティックスの研究は集中的に行われている。
しかし、社会工学的な生産プロセスや組み立てプロセスに適用可能な、適度で汎用的なスケジューリング方法が欠如している。
本稿では,先述の実用要件によって誘導される拡張DRC-FJSSPを最初に定式化する。
次に,並列計算によるマルチクリータ最適化のためのハイブリッドフレームワークを提案する。
実世界のデータを用いた数値実験により,本フレームワークが効率的にかつ確実なスケジュールを生成することを確認した。
ランダムな操作の代わりにDRLを使用すると、より良い結果が得られ、従来のアプローチより優れている。 The following article presents a memetic algorithm with applying deep reinforcement learning (DRL) for solving practically oriented dual resource constrained flexible job shop scheduling problems (DRC-FJSSP). In recent years, there has been extensive research on DRL techniques, but without considering realistic, flexible and human-centered shopfloors. A research gap can be identified in the context of make-to-order oriented discontinuous manufacturing as it is often represented in medium-size companies with high service levels. From practical industry projects in this domain, we recognize requirements to depict flexible machines, human workers and capabilities, setup and processing operations, material arrival times, complex job paths with parallel tasks for bill of material (BOM) manufacturing, sequence-depended setup times and (partially) automated tasks. On the other hand, intensive research has been done on metaheuristics in the context of DRC-FJSSP. However, there is a lack of suitable and generic scheduling methods that can be holistically applied in sociotechnical production and assembly processes. In this paper, we first formulate an extended DRC-FJSSP induced by the practical requirements mentioned. Then we present our proposed hybrid framework with parallel computing for multicriteria optimization. Through numerical experiments with real-world data, we confirm that the framework generates feasible schedules efficiently and reliably. Utilizing DRL instead of random operations leads to better results and outperforms traditional approaches. | 翻訳日:2023-05-17 19:19:00 公開日:2023-05-16 |
# DimonGen: 概念関係を説明するための多様な生成コモンセンス推論 DimonGen: Diversified Generative Commonsense Reasoning for Explaining Concept Relationships ( http://arxiv.org/abs/2212.10545v2 ) ライセンス: Link先を確認 | Chenzhengyi Liu and Jie Huang and Kerui Zhu and Kevin Chen-Chuan Chang | (参考訳) 本稿では,様々な日常シナリオにおいて概念関係を記述する多様な文を生成することを目的としたDimonGenを提案する。
これをサポートするために、私たちはまず既存のCommonGenデータセットを適用することで、このタスクのためのベンチマークデータセットを作成します。
次に,目的文を生成するための2段階モデルMoREEを提案する。
モレは、与えられた概念に関連する多様な文脈文を検索するレトリバーモデルと、検索された文脈に基づいて多様な文を生成するジェネレータモデルの混合からなる。
我々は,DimonGenタスクの実験を行い,生成した文の品質と多様性の両面で,MoREEが強いベースラインを上回っていることを示す。
その結果,モレは概念間の関係を反映する多様な文を生成することができ,概念関係の包括的理解に繋がることが示された。 In this paper, we propose DimonGen, which aims to generate diverse sentences describing concept relationships in various everyday scenarios. To support this, we first create a benchmark dataset for this task by adapting the existing CommonGen dataset. We then propose a two-stage model called MoREE to generate the target sentences. MoREE consists of a mixture of retrievers model that retrieves diverse context sentences related to the given concepts, and a mixture of generators model that generates diverse sentences based on the retrieved contexts. We conduct experiments on the DimonGen task and show that MoREE outperforms strong baselines in terms of both the quality and diversity of the generated sentences. Our results demonstrate that MoREE is able to generate diverse sentences that reflect different relationships between concepts, leading to a comprehensive understanding of concept relationships. | 翻訳日:2023-05-17 19:18:36 公開日:2023-05-16 |
# CiteBench:Scientific Citation Text Generationのベンチマーク CiteBench: A benchmark for Scientific Citation Text Generation ( http://arxiv.org/abs/2212.09577v2 ) ライセンス: Link先を確認 | Martin Funkquist, Ilia Kuznetsov, Yufang Hou and Iryna Gurevych | (参考訳) 科学は、科学出版物に記録された知識体系を段階的に構築することで進歩する。
多くの分野にまたがる研究の加速は、最近の進歩を最新に保ち、成長を続ける先行研究をまとめることが難しくなっている。
この課題を対象とするため,引用テキスト生成の課題は,論文と引用用紙コンテキストのセットを与えられた正確なテキスト要約を作成することにある。
引用テキスト生成における既存の研究は、広範囲にわたるタスク定義に基づいているため、このタスクを体系的に研究することは困難である。
そこで本研究では,複数の多様なデータセットを統一し,タスク設計とドメイン間での引用テキスト生成モデルの標準化評価を可能にする,引用テキスト生成ベンチマークであるcitebenchを提案する。
新しいベンチマークを用いて、複数の強いベースラインの性能を調査し、データセット間の転送可能性を確認し、タスク定義と評価に関する新たな洞察を提供し、引用テキスト生成における今後の研究を導く。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。 Science progresses by incrementally building upon the prior body of knowledge documented in scientific publications. The acceleration of research across many fields makes it hard to stay up-to-date with the recent developments and to summarize the ever-growing body of prior work. To target this issue, the task of citation text generation aims to produce accurate textual summaries given a set of papers-to-cite and the citing paper context. Existing studies in citation text generation are based upon widely diverging task definitions, which makes it hard to study this task systematically. To address this challenge, we propose CiteBench: a benchmark for citation text generation that unifies multiple diverse datasets and enables standardized evaluation of citation text generation models across task designs and domains. Using the new benchmark, we investigate the performance of multiple strong baselines, test their transferability between the datasets, and deliver new insights into the task definition and evaluation to guide future research in citation text generation. We make the code for CiteBench publicly available at https://github.com/UKPLab/citebench. | 翻訳日:2023-05-17 19:18:22 公開日:2023-05-16 |
# ゼロショットオープンドメインQAのための自己プロンピング大言語モデル Self-Prompting Large Language Models for Zero-Shot Open-Domain QA ( http://arxiv.org/abs/2212.08635v2 ) ライセンス: Link先を確認 | Junlong Li, Zhuosheng Zhang, Hai Zhao | (参考訳) Open-Domain Question Answering (ODQA) は、特定の背景文書を明示的に提供せずにファクトイドに答えることを目的としている。
ゼロショット設定では、Retriever-Readersのようなカスタマイズされたモデルをトレーニングするデータがないため、このタスクはより難しい。
近年、gpt-3のような大規模言語モデル(llm)は、直接プロンプト方式でゼロショットodqaの能力を示しているが、これらの手法は、暗黙的に起動するだけでllmの完全な強力さをリリースするには程遠い。
本稿では,LLMのパラメータに格納されている膨大な知識と,その強力な指導理解能力を明確に活用するセルフプロンプトフレームワークを提案する。
具体的には,背景文と説明文をスクラッチから複数の擬似QAペアを生成し,その生成した要素を文脈内学習に利用する。
実験結果から,本手法は3つの広く使用されているODQAデータセットにおいて,従来のSOTA手法をはるかに上回り,Retriever-Readerモデルと同等の性能を示した。 Open-Domain Question Answering (ODQA) aims at answering factoid questions without explicitly providing specific background documents. In a zero-shot setting, this task is more challenging since no data is available to train customized models like Retriever-Readers. Recently, Large Language Models (LLMs) like GPT-3 have shown their power in zero-shot ODQA with direct prompting methods, but these methods are still far from releasing the full powerfulness of LLMs only in an implicitly invoking way. In this paper, we propose a Self-Prompting framework to explicitly utilize the massive knowledge stored in the parameters of LLMs and their strong instruction understanding abilities. Concretely, we prompt LLMs step by step to generate multiple pseudo QA pairs with background passages and explanations from scratch and then use those generated elements for in-context learning. Experimental results show our method surpasses previous SOTA methods significantly on three widely-used ODQA datasets, and even achieves comparable performance with some Retriever-Reader models fine-tuned on full training data. | 翻訳日:2023-05-17 19:18:02 公開日:2023-05-16 |
# CREPE:Vision-Language Foundationはどのようにして構成できるのか? CREPE: Can Vision-Language Foundation Models Reason Compositionally? ( http://arxiv.org/abs/2212.07796v3 ) ライセンス: Link先を確認 | Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao, Ranjay Krishna | (参考訳) 人間の視覚と自然言語の両方に共通する基本的な特徴は、その構成的性質である。
しかし、大きなビジョンと言語の事前トレーニングによるパフォーマンス向上にもかかわらず、大規模なデータセットで4つのアルゴリズムでトレーニングされた7つのアーキテクチャは、構成性に苦慮している。
そこで本研究では,認知科学文献で識別される構成性の2つの重要な側面,体系性と生産性を測定する新しい構成性評価ベンチマーク,crepeを提案する。
体系性を測定するために、crepeは370k$のイメージテキストペアと3つの異なる見当たらないスプリットを含むテストデータセットで構成されている。
3つの分割は、CC-12M、YFCC-15M、LAION-400Mという3つの一般的なトレーニングデータセットでトレーニングされたモデルをテストするように設計されている。
私たちはまた、ペアのサブセットに対して325k$、316k$、309k$の否定的なキャプションを生成します。
生産性をテストするために、CREPEには、9つの異なる複雑さを持つ17Kドルの画像テキストペアと、アトミック、スワッピング、否定翼を備えたハードネガティブキャプションが含まれている。
データセットは、Visual Genomeシーングラフとリージョン記述を再取得し、手作りテンプレートとGPT-3を適用して生成される。
体系的な場合、新しいコンポジションが検索セットを支配したとき、モデルのパフォーマンスは一貫して低下し、Recall@1は最大12\%$まで低下する。
生産性にとって、モデルの検索成功は複雑さが増すにつれて減少し、複雑度の高いランダムな機会に近づく。
これらの結果は、モデルとトレーニングデータセットのサイズにかかわらず保持される。 A fundamental characteristic common to both human vision and natural language is their compositional nature. Yet, despite the performance gains contributed by large vision and language pretraining, we find that: across 7 architectures trained with 4 algorithms on massive datasets, they struggle at compositionality. To arrive at this conclusion, we introduce a new compositionality evaluation benchmark, CREPE, which measures two important aspects of compositionality identified by cognitive science literature: systematicity and productivity. To measure systematicity, CREPE consists of a test dataset containing over $370K$ image-text pairs and three different seen-unseen splits. The three splits are designed to test models trained on three popular training datasets: CC-12M, YFCC-15M, and LAION-400M. We also generate $325K$, $316K$, and $309K$ hard negative captions for a subset of the pairs. To test productivity, CREPE contains $17K$ image-text pairs with nine different complexities plus $183K$ hard negative captions with atomic, swapping and negation foils. The datasets are generated by repurposing the Visual Genome scene graphs and region descriptions and applying handcrafted templates and GPT-3. For systematicity, we find that model performance decreases consistently when novel compositions dominate the retrieval set, with Recall@1 dropping by up to $12\%$. For productivity, models' retrieval success decays as complexity increases, frequently nearing random chance at high complexity. These results hold regardless of model and training dataset size. | 翻訳日:2023-05-17 19:17:39 公開日:2023-05-16 |
# タスク類似性に基づく木構造parzen推定器のメタラーニングによる多目的ハイパーパラメータ最適化の高速化 Speeding Up Multi-Objective Hyperparameter Optimization by Task Similarity-Based Meta-Learning for the Tree-Structured Parzen Estimator ( http://arxiv.org/abs/2212.06751v3 ) ライセンス: Link先を確認 | Shuhei Watanabe, Noor Awad, Masaki Onishi, Frank Hutter | (参考訳) ハイパーパラメータ最適化(HPO)は,ディープラーニング(DL)の性能向上のための重要なステップである。
実践者は、正確性やレイテンシなど、複数の基準の間のトレードオフに直面します。
DLの高い計算要求と効率的なHPOの需要の増大を考えると、多目的最適化(MO)の加速はますます重要になる。
HPOのメタラーニングに多大な努力を払っているにもかかわらず、既存の手法はMO木構造Parzen estimator (MO-TPE) には適用できない。
本稿では,タスク間のトップドメインの重複によって定義されるタスク類似性を用いて,TPEの取得機能をメタ学習環境に拡張する。
また,タスク類似性の限界を理論的に解析し,対処する。
実験では,表付きHPOベンチマークでMO-TPEを高速化し,最先端性能を実現する。
また, AutoML 2022 コンペティション "Multiobjective Hyperparameter Optimization for Transformers" で優勝した。 Hyperparameter optimization (HPO) is a vital step in improving performance in deep learning (DL). Practitioners are often faced with the trade-off between multiple criteria, such as accuracy and latency. Given the high computational needs of DL and the growing demand for efficient HPO, the acceleration of multi-objective (MO) optimization becomes ever more important. Despite the significant body of work on meta-learning for HPO, existing methods are inapplicable to MO tree-structured Parzen estimator (MO-TPE), a simple yet powerful MO-HPO algorithm. In this paper, we extend TPE's acquisition function to the meta-learning setting using a task similarity defined by the overlap of top domains between tasks. We also theoretically analyze and address the limitations of our task similarity. In the experiments, we demonstrate that our method speeds up MO-TPE on tabular HPO benchmarks and attains state-of-the-art performance. Our method was also validated externally by winning the AutoML 2022 competition on "Multiobjective Hyperparameter Optimization for Transformers". | 翻訳日:2023-05-17 19:16:57 公開日:2023-05-16 |
# 位置表現におけるBialynicki-BirulaとLandau-Peierls Fock空間の電磁場量子化の同型性 Isomorphism between the Bialynicki-Birula and the Landau-Peierls Fock space quantization of the electromagnetic field in position representation ( http://arxiv.org/abs/2212.05849v2 ) ライセンス: Link先を確認 | Maxime Federico and Hans Rudolf Jauslin | (参考訳) まず, 位置空間表現における電磁場の量子化について, クーロンゲージにおけるlandau-peierlsアプローチと, リーマン・シルバーシュタインベクトルに基づくbialynicki-birulaアプローチの2つの主要なアプローチを用いて概説する。
古典的ハミルトニアン構造から始まる枠組みと、正確に定義された対応原理によってボソニックフォック空間に量子モデルを構築する枠組みの両方を記述する。
2つの近似が完全同値であることを示す。
これは、フォック空間の間に同型となるユニタリ写像が存在することを示すことによって定式化される。
物理的に測定可能な全ての量はスカラー積で表現できるので、2つの量子化が全く同じ物理的性質をもたらすことを意味する。
さらに、同型は時間進化において保存されていることを示す。
等価性を示すために、ヘリシティと周波数演算子の概念を用いる。
これら2つの演算子の組み合わせは、これらの2つの量子化法を正確な方法でリンクできる定式化を提供する。
また、ハミルトニアンにおける負の固有値の存在を回避できるbialynicki-birula量子化の構成は、電子と陽電子のディラック方程式の例に類似しており、マクスウェル方程式の正準変数の別の選択を通して行うことができることを示した。 We first present a summary of the quantization of the electromagnetic field in position space representation, using two main approaches: the Landau-Peierls approach in the Coulomb gauge and the Bialynicki-Birula approach, based on the Riemann-Silberstein vector. We describe both in a framework that starts with a classical Hamiltonian structure and builds the quantum model in a bosonic Fock space by a precisely defined principle of correspondence. We show that the two approches are completly equivalent. This is formulated by showing that there is a unitary map between the Fock spaces that makes them isomorphic. Since all the physically measurable quantities can be expressed in terms of scalar products, this implies that the two quantizations lead to exactly the same physical properties. We show furthemore that the isomorphism is preserved in the time evolutions. To show the equivalence, we use the concepts of helicity and frequency operators. The combination of these two operators provides a formulation that allows one to make the link between these two methods of quantization in a precise way. We also show that the construction in the Bialynicki-Birula quantization that avoids the presence of negative eigenvalues in the Hamiltonian, in analogy with the one for the Dirac equation for electrons and positrons, can be performed through an alternative choice of the canonical variables for Maxwell's equations. | 翻訳日:2023-05-17 19:16:37 公開日:2023-05-16 |
# 部分微分方程式の深層学習法と関連するパラメータ同定問題 Deep Learning Methods for Partial Differential Equations and Related Parameter Identification Problems ( http://arxiv.org/abs/2212.03130v2 ) ライセンス: Link先を確認 | Derick Nganyu Tanyu, Jianfeng Ning, Tom Freudenberg, Nick Heilenk\"otter, Andreas Rademacher, Uwe Iben, and Peter Maass | (参考訳) 近年、数学の深層学習の概念を深く理解し、それをより堅牢にする方法を探る、深層学習のための数学の発達と、数学の問題を解くためにディープラーニングアルゴリズムが使用される数学の深層学習を目撃している。
後者は、深層学習が科学計算の問題に適用される科学的機械学習の分野を普及させた。
特に、偏微分方程式(pdes)の特定のクラスを解決するために、ますます多くのニューラルネットワークアーキテクチャが開発されている。
このような手法は、pdes固有の特性を利用して、標準的なフィードフォワードニューラルネットワークやリカレントニューラルネットワーク、畳み込みニューラルネットワークよりもpdesをうまく解決する。
これは、パラメトリックPDEが科学や工学で生じるほとんどの自然および物理的プロセスのモデル化に広く使われている数学モデリングの領域に大きな影響を与えている。
本稿では,パラメトリック研究や関連する逆問題を解くために,そのような手法と拡張について検討する。
我々は、産業応用におけるそれらの関連性を等しく示そうとしている。 Recent years have witnessed a growth in mathematics for deep learning--which seeks a deeper understanding of the concepts of deep learning with mathematics and explores how to make it more robust--and deep learning for mathematics, where deep learning algorithms are used to solve problems in mathematics. The latter has popularised the field of scientific machine learning where deep learning is applied to problems in scientific computing. Specifically, more and more neural network architectures have been developed to solve specific classes of partial differential equations (PDEs). Such methods exploit properties that are inherent to PDEs and thus solve the PDEs better than standard feed-forward neural networks, recurrent neural networks, or convolutional neural networks. This has had a great impact in the area of mathematical modeling where parametric PDEs are widely used to model most natural and physical processes arising in science and engineering. In this work, we review such methods as well as their extensions for parametric studies and for solving the related inverse problems. We equally proceed to show their relevance in some industrial applications. | 翻訳日:2023-05-17 19:16:10 公開日:2023-05-16 |
# マルチエージェント強化学習による社会的ジレンマにおけるモラル選択のモデル化 Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2301.08491v2 ) ライセンス: Link先を確認 | Elizaveta Tennant, Stephen Hailes, Mirco Musolesi | (参考訳) 現実世界における人工知能(AI)の実践的利用は、知的エージェントに道徳的選択を埋め込むことの重要性を証明している。
彼らはまた、AI上のトップダウンの倫理的制約を、あらゆる種類の道徳性に従って定義することは極めて困難であり、リスクをもたらす可能性があることも強調した。
ボトムアップ学習アプローチは、AIエージェントの倫理行動の研究と開発にもっと適しているかもしれない。
特に、興味深く洞察に富んだ出発点は、社会的ジレンマにおける道徳的報酬のセットに従って行動する強化学習(RL)エージェントの創発的行動の分析であると考えている。
本稿では,道徳理論に基づく報酬を内在的に動機づけたRLエージェントによる選択の体系的分析を行う。
我々は、一連の重要な倫理体系を単純化しつつも代表する報酬構造を設計することを目指している。
そこで、まず、結果に基づくエージェントと規範に基づくエージェントを区別する道徳的報酬関数を定義し、社会的な規範や内面的な徳に基づく道徳と、単一と混成の方法論(例えば、多目的)をそれぞれ定義する。
そこで我々は,3つの反復的ソーシャルジレンマゲーム (Prisoner's Dilemma, Volunteer's Dilemma, Stag Hunt) において,モラルエージェント間の反復的対話をモデル化して評価した。
我々は、異なるタイプの道徳が協力の出現、欠陥、搾取、およびそれに対応する社会的成果に与える影響を分析する。
最後に,これらの知見が人工・混在型AI社会におけるモラルエージェントの発達に与える影響について考察する。 Practical uses of Artificial Intelligence (AI) in the real world have demonstrated the importance of embedding moral choices into intelligent agents. They have also highlighted that defining top-down ethical constraints on AI according to any one type of morality is extremely challenging and can pose risks. A bottom-up learning approach may be more appropriate for studying and developing ethical behavior in AI agents. In particular, we believe that an interesting and insightful starting point is the analysis of emergent behavior of Reinforcement Learning (RL) agents that act according to a predefined set of moral rewards in social dilemmas. In this work, we present a systematic analysis of the choices made by intrinsically-motivated RL agents whose rewards are based on moral theories. We aim to design reward structures that are simplified yet representative of a set of key ethical systems. Therefore, we first define moral reward functions that distinguish between consequence- and norm-based agents, between morality based on societal norms or internal virtues, and between single- and mixed-virtue (e.g., multi-objective) methodologies. Then, we evaluate our approach by modeling repeated dyadic interactions between learning moral agents in three iterated social dilemma games (Prisoner's Dilemma, Volunteer's Dilemma and Stag Hunt). We analyze the impact of different types of morality on the emergence of cooperation, defection or exploitation, and the corresponding social outcomes. Finally, we discuss the implications of these findings for the development of moral agents in artificial and mixed human-AI societies. | 翻訳日:2023-05-17 19:09:06 公開日:2023-05-16 |
# Tasksource: ストリーミングNLPマルチタスク学習と評価のためのデータセット調和フレームワーク tasksource: A Dataset Harmonization Framework for Streamlined NLP Multi-Task Learning and Evaluation ( http://arxiv.org/abs/2301.05948v3 ) ライセンス: Link先を確認 | Damien Sileo | (参考訳) HuggingFace Datasets Hubは数千のデータセットをホストし、言語モデルのトレーニングと評価のエキサイティングな機会を提供する。
しかし、特定のタスクタイプのデータセットは、しばしば異なるスキーマを持ち、調和が難しい。
マルチタスクトレーニングや評価は、タスクテンプレートにデータに適合する手作業を必要とする。
いくつかのイニシアティブは、調和したデータセットをリリースするか、データセットを一貫したフォーマットに前処理するための調和コードを提供することで、独立してこの問題に取り組む。
カラム名マッピングや、カラム内の構造化データから特定のサブフィールドを抽出するなど、以前の前処理作業のパターンを特定します。
次に、アノテーションが完全に公開され、構造化されていないコードの中に隠されていないことを保証する構造化アノテーションフレームワークを提案します。
私たちは、500以上の英語タスクのためのデータセットアノテーションフレームワークとデータセットアノテーションをリリースします。
これらのアノテーションには、すべてのデータセットの入力またはラベルとして使用する列の名前などのメタデータが含まれています。
全てのタスクソースタスクでマルチタスクのテキストエンコーダを微調整し、外部評価において同等の大きさの公開テキストエンコーダを上回らせます。 The HuggingFace Datasets Hub hosts thousands of datasets, offering exciting opportunities for language model training and evaluation. However, datasets for a specific task type often have different schemas, making harmonization challenging. Multi-task training or evaluation necessitates manual work to fit data into task templates. Several initiatives independently tackle this issue by releasing harmonized datasets or providing harmonization codes to preprocess datasets into a consistent format. We identify patterns across previous preprocessing efforts, such as column name mapping and extracting specific sub-fields from structured data in a column. We then propose a structured annotation framework that ensures our annotations are fully exposed and not hidden within unstructured code. We release a dataset annotation framework and dataset annotations for more than 500 English tasks\footnote{\url{https://github.com/sileod/tasksource}}. These annotations include metadata, such as the names of columns to be used as input or labels for all datasets, which can save time for future dataset preprocessing, regardless of whether our framework is utilized. We fine-tune a multi-task text encoder on all tasksource tasks, outperforming every publicly available text encoder of comparable size in an external evaluation. | 翻訳日:2023-05-17 19:07:52 公開日:2023-05-16 |
# 小型サンプルによるCNN超高速データ強化による切換え型軽量非対称処理(SLAP)-五目強化学習への応用 Switchable Lightweight Anti-symmetric Processing (SLAP) with CNN Outspeeds Data Augmentation by Smaller Sample -- Application in Gomoku Reinforcement Learning ( http://arxiv.org/abs/2301.04746v5 ) ライセンス: Link先を確認 | Chi-Hang Suen and Eduardo Alonso (City, University of London) | (参考訳) 本稿では,データ拡張の代替としてSLAPという手法を提案し,機械学習を高速化し,サンプルサイズを削減する。
SLAPはモデルに依存しないプロトコル/関数であり、異なる変換変種を与えられた同じ出力を生成する。
SLAPは、データ拡張と比較してサンプルサイズの8分の1に過ぎず、ゴモクゲーム状態での実験において畳み込みニューラルネットワーク学習の収束速度を83%改善した。
また,AlphaGo Zero/AlphaZeroアルゴリズムをベースラインとした強化学習において,SLAPはトレーニングサンプル数を8倍に削減し,同じ評価器に対して同様の勝利率を達成したが,強化学習を高速化できるかどうかは明らかになっていない。
この利点は少なくとも対称性やある種の変換に不変な領域に適用すべきである。
将来の研究として、SLAPは、対称性に不変でない領域について、より説明可能な学習と伝達学習を支援することができる。 To replace data augmentation, this paper proposed a method called SLAP to intensify experience to speed up machine learning and reduce the sample size. SLAP is a model-independent protocol/function to produce the same output given different transformation variants. SLAP improved the convergence speed of convolutional neural network learning by 83% in the experiments with Gomoku game states, with only one eighth of the sample size compared with data augmentation. In reinforcement learning for Gomoku, using AlphaGo Zero/AlphaZero algorithm with data augmentation as baseline, SLAP reduced the number of training samples by a factor of 8 and achieved similar winning rate against the same evaluator, but it was not yet evident that it could speed up reinforcement learning. The benefits should at least apply to domains that are invariant to symmetry or certain transformations. As future work, SLAP may aid more explainable learning and transfer learning for domains that are not invariant to symmetry, as a small step towards artificial general intelligence. | 翻訳日:2023-05-17 19:07:32 公開日:2023-05-16 |
# 標準局所量子観測値に基づく量子外非局所性の検出 Detection of Beyond-Quantum Non-locality based on Standard Local Quantum Observables ( http://arxiv.org/abs/2301.04196v2 ) ライセンス: Link先を確認 | Hayato Arai, Baichu Yu, and Masahito Hayashi | (参考訳) ベル・チェシュの不等式のような量子非局所性のデバイス独立検出は量子非局所性を検出する重要な方法である。
しかし、この検出は理論上は一般確率論において量子外非局所状態が多数存在するため、標準量子論の正当化には不十分である。
1つの重要なクラスはエンタングルメント構造 (ES) であり、これは局所系が標準量子系と完全に等価であるにもかかわらず、量子外非局所状態を含む。
本稿では、任意のデバイス独立検出は、量子外非局所状態と標準量子状態とを区別できないことを示す。
そこで本研究では,局所観測値に基づくデバイス依存検出を行い,量子状態以外の非局所状態と標準量子状態とを区別する。
特に,局所系上のスピンオブザーバブルのみを観測することにより,量子域外非局所状態を2量子 ess で検出する方法を提案する。 Device independent detections of quantum non-locality like Bell-CHSH inequality are important methods to detect quantum non-locality because the whole protocol can be implemented by uncertified local observables. However, this detection is not sufficient for the justification of standard quantum theory, because there are theoretically many types of beyond-quantum non-local states in General Probabilistic Theories. One important class is Entanglement Structures (ESs), which contain beyond-quantum non-local states even though their local systems are completely equivalent to standard quantum systems. This paper shows that any device independent detection cannot distinguish beyond-quantum non-local states from standard quantum states. To overcome this problem, this paper gives a device dependent detection based on local observables to distinguish any beyond-quantum non-local state from all standard quantum states. Especially, we give a way to detect any beyond-quantum non-local state in two-qubit ESs by observing only spin observables on local systems. | 翻訳日:2023-05-17 19:07:13 公開日:2023-05-16 |
# 空洞光磁気力学系におけるマイクロ波場の高効率絡み合い High-efficiency entanglement of microwave fields in cavity opto-magnomechanical systems ( http://arxiv.org/abs/2301.02808v2 ) ライセンス: Link先を確認 | Ke Di, Shuai Tan, Liyong Wang, Anyu Cheng, Xi Wang, Yu Liu, Jiajia Du | (参考訳) デュアルオプティカル・マグノメカニクスシステムにおいて、2つのマイクロ波場の高効率絡み合いを実現する手法を示す。
マグノンモードは、磁気双極子相互作用と磁歪相互作用を介してマイクロ波共振器モードとフォノンモードとを同時に結合する。
一方、フォノンモードは放射圧を介して光学キャビティモードと結合する。
それぞれのマグノンモードと光キャビティモードは、ビームスプリッタ相互作用を活性化するために強い赤脱調駆動フィールドを採用する。
そのため、光キャビティ内に注入された2モードの圧縮光によって生じる絡み合った状態を、2つのマイクロ波キャビティに転送することができる。
入力された2モード圧縮光学フィールドがスクイーズパラメータr=1を有する場合、静止絡みE_{a_{1}a_{2}}=0.54を得る。
エンタングルメント E_{a_{1}a_{2}} は、スクイーズパラメータ r が増加するにつれて増加し、システムの柔軟なチューニング性を示す。
一方、絡み合いは、約385mKの環境温度まで持続し、このスキームの強靭性を示す。
提案手法では,マグノンを用いてマイクロ波の絡み合いを発生させる機構が新たに提案され,マイクロ波の絡み合いの度合いがより大きくなった。
この結果は、量子レーダ、量子ナビゲーション、量子テレポーテーション、量子無線忠実度(Wi-Fi)ネットワークなど、マイクロ波の強い絡み合いを必要とするアプリケーションに有用である。 We demonstrate a scheme to realize high-efficiency entanglement of two microwave fields in a dual opto-magnomechanical system. The magnon mode simultaneously couples with the microwave cavity mode and phonon mode via magnetic dipole interaction and magnetostrictive interaction, respectively. Meanwhile, the phonon mode couples with the optical cavity mode via radiation pressure. Each magnon mode and optical cavity mode adopts a strong red detuning driving field to activate the beam splitter interaction. Therefore, the entangled state generated by the injected two-mode squeezed light in optical cavities can be eventually transferred into two microwave cavities. A stationary entanglement E_{a_{1}a_{2}}=0.54 is obtained when the input two-mode squeezed optical field has a squeezing parameter r=1. The entanglement E_{a_{1}a_{2}} increases as the squeezing parameter r increases, and it shows the flexible tunability of the system. Meanwhile, the entanglement survives up to an environmental temperature about 385 mK, which shows high robustness of the scheme. The proposed scheme provides a new mechanism to generate entangled microwave fields via magnons, which enables the degree of the prepared microwave entanglement to a more massive scale. Our result is useful for applications which require high entanglement of microwave fields like quantum radar, quantum navigation, quantum teleportation, quantum wireless fidelity (Wi-Fi) network, etc. | 翻訳日:2023-05-17 19:06:55 公開日:2023-05-16 |
# フォン・ノイマン代数における漸近平衡定理 Asymptotic Equipartition Theorems in von Neumann algebras ( http://arxiv.org/abs/2212.14700v2 ) ライセンス: Link先を確認 | Omar Fawzi, Li Gao, and Mizanur Rahaman | (参考訳) 情報理論における漸近的平等性(AEP)は、独立かつ同一に分散された状態(すなわち、同じ状態)が一様状態と類似した振る舞いをすることを示す。
特に、適切な滑らか化により、このような状態に対して、min と max の相対エントロピーは漸近的に相対エントロピーと一致する。
本稿では、いくつかの同値性質を一般フォン・ノイマン環上の状態へ一般化する。
まず、フォン・ノイマン環上の i.d. 状態の滑らかな最大相対エントロピーが、量子相対エントロピーによって与えられる漸近速度を持つことを示す。
実際、AEPは状態だけでなく、適切な制限のある量子チャネルにも適用される。
さらに、i.i.d.仮定を超えて、量子チャネルのシーケンシャルなプロセスによって生成される状態に対して、滑らかなマックス相対エントロピーは適切なチャネル相対エントロピーの和によって上界することができることを示す。
我々の主な技術的貢献は、一般のフォン・ノイマン代数の文脈に量子チャネルの連鎖則を拡張し、置換子チャネルを持つチャネル相対エントロピーに対する加法的結果を与えることである。 The Asymptotic Equipartition Property (AEP) in information theory establishes that independent and identically distributed (i.i.d.) states behave in a way that is similar to uniform states. In particular, with appropriate smoothing, for such states both the min and the max relative entropy asymptotically coincide with the relative entropy. In this paper, we generalize several such equipartition properties to states on general von Neumann algebras. First, we show that the smooth max relative entropy of i.i.d. states on a von Neumann algebra has an asymptotic rate given by the quantum relative entropy. In fact, our AEP not only applies to states, but also to quantum channels with appropriate restrictions. In addition, going beyond the i.i.d. assumption, we show that for states that are produced by a sequential process of quantum channels, the smooth max relative entropy can be upper bounded by the sum of appropriate channel relative entropies. Our main technical contributions are to extend to the context of general von Neumann algebras a chain rule for quantum channels, as well as an additivity result for the channel relative entropy with a replacer channel. | 翻訳日:2023-05-17 19:06:32 公開日:2023-05-16 |
# TAToo: 視力に基づく解剖の関節追跡とスカルベース手術用ツール TAToo: Vision-based Joint Tracking of Anatomy and Tool for Skull-base Surgery ( http://arxiv.org/abs/2212.14131v2 ) ライセンス: Link先を確認 | Zhaoshuo Li, Hongchao Shu, Ruixing Liang, Anna Goodridge, Manish Sahu, Francis X. Creighton, Russell H. Taylor, Mathias Unberath | (参考訳) 目的: 手術器具の3次元運動と患者解剖の追跡は, コンピュータ支援頭蓋底手術の基本的な要件である。
推定動作は術中指導と下流スキル分析の両方に使用できる。
このような動きを外科的ビデオからのみ回収することが望ましい。
方法: Anatomy and Tool (TAToo) のトラッカーを提示する。
TATooは、患者の頭蓋骨の硬い3D動作と、立体ビデオからの外科的ドリルを共同で追跡する。
TATooは、エンドツーエンドの微分可能な形式で反復最適化プロセスを通じて動きを推定する。
堅牢なトラッキング性能のために、TATooは確率的定式化を採用し、オブジェクトレベルでの幾何学的制約を強制する。
結果: 地上の真理運動が利用可能であるシミュレーションデータと, 光学的追跡が強力なベースラインを提供する擬人化ファントムデータの両方で, TATooを検証した。
頭蓋骨とドリルのサブミリ波とミリ波間トラッキング精度をそれぞれ1{\deg}以下で報告した。
さらに,手術ナビゲーションにおけるTATooの使用方法について述べる。
結語: 当科では, 頭蓋底手術における手術器具と患者解剖の同時追跡を行った。
TATooは、マーカーを必要とせずに、手術ビデオから直接動きを予測する。
以上の結果から,TATooの性能は競合するアプローチと良好に比較できることがわかった。
将来の研究には、頭蓋底の外科的応用に必要な1mmの臨床精度目標を達成するために、深度ネットワークの微調整が含まれる。 Purpose: Tracking the 3D motion of the surgical tool and the patient anatomy is a fundamental requirement for computer-assisted skull-base surgery. The estimated motion can be used both for intra-operative guidance and for downstream skill analysis. Recovering such motion solely from surgical videos is desirable, as it is compliant with current clinical workflows and instrumentation. Methods: We present Tracker of Anatomy and Tool (TAToo). TAToo jointly tracks the rigid 3D motion of patient skull and surgical drill from stereo microscopic videos. TAToo estimates motion via an iterative optimization process in an end-to-end differentiable form. For robust tracking performance, TAToo adopts a probabilistic formulation and enforces geometric constraints on the object level. Results: We validate TAToo on both simulation data, where ground truth motion is available, as well as on anthropomorphic phantom data, where optical tracking provides a strong baseline. We report sub-millimeter and millimeter inter-frame tracking accuracy for skull and drill, respectively, with rotation errors below 1{\deg}. We further illustrate how TAToo may be used in a surgical navigation setting. Conclusion: We present TAToo, which simultaneously tracks the surgical tool and the patient anatomy in skull-base surgery. TAToo directly predicts the motion from surgical videos, without the need of any markers. Our results show that the performance of TAToo compares favorably to competing approaches. Future work will include fine-tuning of our depth network to reach a 1 mm clinical accuracy goal desired for surgical applications in the skull base. | 翻訳日:2023-05-17 19:06:10 公開日:2023-05-16 |
# 実世界における知的意思決定の実現について:基礎決定モデルの観点から On Realization of Intelligent Decision-Making in the Real World: A Foundation Decision Model Perspective ( http://arxiv.org/abs/2212.12669v2 ) ライセンス: Link先を確認 | Ying Wen, Ziyu Wan, Ming Zhou, Shufang Hou, Zhe Cao, Chenyang Le, Jingxiao Chen, Zheng Tian, Weinan Zhang, Jun Wang | (参考訳) 実世界の環境の広範にわたる不確実性と動的性質は、機械駆動型知的意思決定システム(IDM)の広範な実装に重大な課題をもたらす。
したがって、idmは新しいスキルを継続的に獲得し、幅広いアプリケーションにわたって効果的に一般化する能力を持つべきである。
タスクとアプリケーション境界を超越する人工知能(AGI)の進歩は、IMMの強化に不可欠である。
近年,コンピュータビジョン,自然言語処理,強化学習など,様々なタスクの基本モデルとしてTransformer Neural Architectureが広く研究されている。
本稿では,トランスフォーマーアーキテクチャを用いて,多種多様な意思決定タスクをシーケンスデコードタスクとして定式化し,複雑な実環境においてIMMアプリケーションを拡張するための有望なソリューションを提供することにより,FDM(Foundation Decision Model)を開発することを提案する。
本稿では,IMMの基礎決定モデルによって提供される効率性と一般化の改善について論じ,マルチエージェントゲームAI,生産スケジューリング,ロボット工学タスクにおけるその可能性を探る。
最後に,我々のfdm実装を実証する事例として,13億パラメータのdigitalbrain(db1)を提案する。テキスト生成,画像キャプション,ビデオゲームプレイ,ロボット制御,旅行セールスマン問題など870のタスクにおいて,人間レベルのパフォーマンスを実現する。
基礎決定モデルとして、DB1はより自律的で効率的な実世界のIMMアプリケーションに向けた最初のステップである。 The pervasive uncertainty and dynamic nature of real-world environments present significant challenges for the widespread implementation of machine-driven Intelligent Decision-Making (IDM) systems. Consequently, IDM should possess the ability to continuously acquire new skills and effectively generalize across a broad range of applications. The advancement of Artificial General Intelligence (AGI) that transcends task and application boundaries is critical for enhancing IDM. Recent studies have extensively investigated the Transformer neural architecture as a foundational model for various tasks, including computer vision, natural language processing, and reinforcement learning. We propose that a Foundation Decision Model (FDM) can be developed by formulating diverse decision-making tasks as sequence decoding tasks using the Transformer architecture, offering a promising solution for expanding IDM applications in complex real-world situations. In this paper, we discuss the efficiency and generalization improvements offered by a foundation decision model for IDM and explore its potential applications in multi-agent game AI, production scheduling, and robotics tasks. Lastly, we present a case study demonstrating our FDM implementation, DigitalBrain (DB1) with 1.3 billion parameters, achieving human-level performance in 870 tasks, such as text generation, image captioning, video game playing, robotic control, and traveling salesman problems. As a foundation decision model, DB1 represents an initial step toward more autonomous and efficient real-world IDM applications. | 翻訳日:2023-05-17 19:05:46 公開日:2023-05-16 |
# オンライン学習を改善するためのデモの活用 - 品質上の問題 Leveraging Demonstrations to Improve Online Learning: Quality Matters ( http://arxiv.org/abs/2302.03319v3 ) ライセンス: Link先を確認 | Botao Hao, Rahul Jain, Tor Lattimore, Benjamin Van Roy, Zheng Wen | (参考訳) オフラインデモデータがオンライン学習をいかに改善できるかを検討する。
改善を期待するのは当然ですが、問題なのは、どのように、そしてどの程度で?
改善の度合いは実演データの品質に左右されることが示されている。
ポータブルな洞察を生み出すために,多腕バンディットに適用したトンプソンサンプリング (ts) に着目し,オンライン学習アルゴリズムとモデルを開発した。
デモデータは、与えられた能力レベル、つまり導入する概念を持つ専門家によって生成される。
本稿では,ベイズの規則を通したコヒーレントな方法で実演データを活用し,事前依存ベイズ後悔境界を導出するインフォームドtsアルゴリズムを提案する。
これにより、事前トレーニングがオンラインパフォーマンスを大幅に向上させる方法と、専門家の能力レベルによって改善の度合いが向上する方法についての洞察が得られる。
また,実用的で近似的なtsアルゴリズムをベイズブートストラップを用いて開発し,実験による経験的後悔の軽減を示す。 We investigate the extent to which offline demonstration data can improve online learning. It is natural to expect some improvement, but the question is how, and by how much? We show that the degree of improvement must depend on the quality of the demonstration data. To generate portable insights, we focus on Thompson sampling (TS) applied to a multi-armed bandit as a prototypical online learning algorithm and model. The demonstration data is generated by an expert with a given competence level, a notion we introduce. We propose an informed TS algorithm that utilizes the demonstration data in a coherent way through Bayes' rule and derive a prior-dependent Bayesian regret bound. This offers insight into how pretraining can greatly improve online performance and how the degree of improvement increases with the expert's competence level. We also develop a practical, approximate informed TS algorithm through Bayesian bootstrapping and show substantial empirical regret reduction through experiments. | 翻訳日:2023-05-17 18:59:56 公開日:2023-05-16 |
# ランオフ選挙: データ攻撃に対する防御が改善 Run-Off Election: Improved Provable Defense against Data Poisoning Attacks ( http://arxiv.org/abs/2302.02300v3 ) ライセンス: Link先を確認 | Keivan Rezaei, Kiarash Banihashem, Atoosa Chegini and Soheil Feizi | (参考訳) データ中毒攻撃では、相手はトレーニングデータ中のサンプルの追加、修正、削除によってモデルの予測を変更しようとする。
近年,複数のベースモデルにまたがって過半数の投票をすることで,データ中毒に対する証明可能な防御を得るためのアンサンブルベースのアプローチが提案されている。
本研究では,アンサンブル防衛における過半数の票を考慮すれば,基本モデルのロジット層で有効利用できないため,無駄であることを示す。
第1ラウンドでは、モデルが好みのクラスに投票し、第2ラウンドでは、第1ラウンドで上位2つのクラスの間でランオフ選挙が行われる。
そこで本研究では,dpa+roeとfa+roeの防御法として,dpa(deep partition aggregation)とfa(finite aggregate)アプローチを提案する。
我々は, MNIST, CIFAR-10, GTSRBについて評価し, 認証精度を最大3%-4%向上させた。
また, ROEをDPAの強化バージョンに適用することにより, 現在の最先端技術と比較して約12%-27%の改善が得られ, データ中毒に対する信頼性の高い新たな最先端技術が確立された。
多くの場合、我々の手法は32倍の計算能力でも最先端の手法よりも優れている。 In data poisoning attacks, an adversary tries to change a model's prediction by adding, modifying, or removing samples in the training data. Recently, ensemble-based approaches for obtaining provable defenses against data poisoning have been proposed where predictions are done by taking a majority vote across multiple base models. In this work, we show that merely considering the majority vote in ensemble defenses is wasteful as it does not effectively utilize available information in the logits layers of the base models. Instead, we propose Run-Off Election (ROE), a novel aggregation method based on a two-round election across the base models: In the first round, models vote for their preferred class and then a second, Run-Off election is held between the top two classes in the first round. Based on this approach, we propose DPA+ROE and FA+ROE defense methods based on Deep Partition Aggregation (DPA) and Finite Aggregation (FA) approaches from prior work. We evaluate our methods on MNIST, CIFAR-10, and GTSRB and obtain improvements in certified accuracy by up to 3%-4%. Also, by applying ROE on a boosted version of DPA, we gain improvements around 12%-27% comparing to the current state-of-the-art, establishing a new state-of-the-art in (pointwise) certified robustness against data poisoning. In many cases, our approach outperforms the state-of-the-art, even when using 32 times less computational power. | 翻訳日:2023-05-17 18:59:17 公開日:2023-05-16 |
# 因果推論のための予測モデルの選択法 How to select predictive models for causal inference? ( http://arxiv.org/abs/2302.00370v2 ) ライセンス: Link先を確認 | Matthieu Doutreligne and Ga\"el Varoquaux | (参考訳) 予測モデル(機械学習など)は、おそらく結果をもたらすため、因果関係のタスクである介入の効果を推論するために使用される可能性がある。
健康データの複雑さの増大は、多くのモデルへのドアを開いただけでなく、モデル選択のpandoraボックスも開いた。
ここでは,古典的機械学習モデル選択が因果推論の最良の結果モデルを選択しないことを示す。
実際、因果モデルの選択は、1つの結果のみが観察されるのに対して、各個人の結果エラーを制御するべきである。
理論的には、機械学習で使用される単純なリスクは、治療されたときに因果効果を制御せず、非治療された人口が多すぎる。
より精巧なリスクは、‘nuisance’の再重み付けを使って因果エラーのプロキシを構築し、観測データ上でそれを計算します。
しかし、これらの迷惑はモデル選択にノイズをもたらすのだろうか?
r\text{-risk}$ と呼ばれるモデル選択手順、列車上のニュアサンスモデルの計算にフレキシブルな推定器を使用し、リスクを計算するためにデータの 10 % を分割する。 As predictive models -- e.g., from machine learning -- give likely outcomes, they may be used to reason on the effect of an intervention, a causal-inference task. The increasing complexity of health data has opened the door to a plethora of models, but also the Pandora box of model selection: which of these models yield the most valid causal estimates? Here we highlight that classic machine-learning model selection does not select the best outcome models for causal inference. Indeed, causal model selection should control both outcome errors for each individual, treated or not treated, whereas only one outcome is observed. Theoretically, simple risks used in machine learning do not control causal effects when treated and non-treated population differ too much. More elaborate risks build proxies of the causal error using ``nuisance'' re-weighting to compute it on the observed data. But does computing these nuisance adds noise to model selection? Drawing from an extensive empirical study, we outline a good causal model-selection procedure: using the so-called $R\text{-risk}$; using flexible estimators to compute the nuisance models on the train set; and splitting out 10\% of the data to compute risks. | 翻訳日:2023-05-17 18:58:49 公開日:2023-05-16 |
# 大型トラックの効率的な輸送電化に向けて--トラックルーティングと充電のジョイントスケジューリング Toward Efficient Transportation Electrification of Heavy-Duty Trucks: Joint Scheduling of Truck Routing and Charging ( http://arxiv.org/abs/2302.00240v3 ) ライセンス: Link先を確認 | Mikhail A. Bragin, Zuzhao Ye, Nanpeng Yu | (参考訳) 顧客への商品のタイムリーな輸送は経済活動の重要な要素である。
しかし、商品を届ける重厚なディーゼルトラックは、ロサンゼルス、ニューヨーク、サンフランシスコを含む多くの大都市圏の温室効果ガス排出に大きく貢献している。
貨物の電化を容易にするために,電気トラックの連系ルーティングと充電(JRC)スケジューリングを提案する。
関連する最適化問題の目的は、輸送、充電、重荷のコストを最小限に抑えることである。
道路セグメントの多数の組み合わせの結果、電動トラックは、可能な充電決定と充電期間の多くの組み合わせを取ることができる。
結果として生じる混合整数線形プログラミング問題(MILP)は、決定論的ケースにおいても組合せ複雑性のため、極めて困難である。
そこで, レベルベースサーロゲートラグランジアン緩和法を用いて, 問題全体の分解とコーディネートを, 複雑度の低いトラックサブプロブレムに分解する。
調整面では、各トラックのサブプロブレムは他のサブプロブレムとは独立に、充電コスト、重大さ、ラグランジアン乗算器の値に基づいて解決される。
トラックの誘導と調整の手段としての役割に加えて、乗算器はトラックによる透明で説明的な意思決定の基盤としても機能する。
実験の結果,数日間の解決の後,棚上解法CPLEXを用いて小さなインスタンスでも解決できないことがわかった。
一方,本手法では,小症例では数分以内に,大症例では30分以内に,最適に近い解が得られる。
さらに、バッテリ容量が増加するにつれて、総コストが大幅に減少し、さらに充電電力が増加するにつれて、必要なトラックの数が減少することが示されている。 The timely transportation of goods to customers is an essential component of economic activities. However, heavy-duty diesel trucks that deliver goods contribute significantly to greenhouse gas emissions within many large metropolitan areas, including Los Angeles, New York, and San Francisco. To facilitate freight electrification, this paper proposes joint routing and charging (JRC) scheduling for electric trucks. The objective of the associated optimization problem is to minimize the cost of transportation, charging, and tardiness. As a result of a large number of combinations of road segments, electric trucks can take a large number of combinations of possible charging decisions and charging duration as well. The resulting mixed-integer linear programming problem (MILP) is extremely challenging because of the combinatorial complexity even in the deterministic case. Therefore, a Level-Based Surrogate Lagrangian Relaxation method is employed to decompose and coordinate the overall problem into truck subproblems that are significantly less complex. In the coordination aspect, each truck subproblem is solved independently of other subproblems based on charging cost, tardiness, and the values of Lagrangian multipliers. In addition to serving as a means of guiding and coordinating trucks, multipliers can also serve as a basis for transparent and explanatory decision-making by trucks. Testing results demonstrate that even small instances cannot be solved using the over-the-shelf solver CPLEX after several days of solving. The new method, on the other hand, can obtain near-optimal solutions within a few minutes for small cases, and within 30 minutes for large ones. Furthermore, it has been demonstrated that as battery capacity increases, the total cost decreases significantly; moreover, as the charging power increases, the number of trucks required decreases as well. | 翻訳日:2023-05-17 18:58:26 公開日:2023-05-16 |
# 強化学習による多重流行介入の計画 Planning Multiple Epidemic Interventions with Reinforcement Learning ( http://arxiv.org/abs/2301.12802v2 ) ライセンス: Link先を確認 | Anh Mai and Nikunj Gupta and Azza Abouzied and Dennis Shasha | (参考訳) 流行と戦うには、マスク着用義務、ワクチン接種、学校または職場の閉鎖など、さまざまな介入をいつどのように適用するかを記述する計画を見つけることが必要となる。
最善の計画では、命の喪失、病気の負担、経済的コストを最小限に抑えることができる。
最適な計画を見つけることは現実的な設定における難解な計算問題である。
しかし、政策立案者は、特に連続的かつ等しく複雑な状態空間が与えられた連続的かつ複雑な行動空間に対する複数の介入を考える場合、病気や経済的コストを最小限に抑える計画を効率的に探すことができるツールの恩恵を大いに受けるだろう。
この問題をマルコフ決定過程として定式化する。
我々の定式化は、通常の微分方程式によって定義されるあらゆる疾患モデルに対する複数の連続的な介入を表現する能力においてユニークなものである。
本稿では,PPO と SAC を有効に適用して,全体的なコストを最小化する計画の探索を行う方法について述べる。
我々は,これらのアルゴリズムの学習性能を実証的に評価し,その性能を政策立案者による計画の模倣した手作りベースラインと比較する。
私たちの手法はベースラインを上回ります。
我々の研究は,政策立案者支援のための計算手法の有効性を確認した Combating an epidemic entails finding a plan that describes when and how to apply different interventions, such as mask-wearing mandates, vaccinations, school or workplace closures. An optimal plan will curb an epidemic with minimal loss of life, disease burden, and economic cost. Finding an optimal plan is an intractable computational problem in realistic settings. Policy-makers, however, would greatly benefit from tools that can efficiently search for plans that minimize disease and economic costs especially when considering multiple possible interventions over a continuous and complex action space given a continuous and equally complex state space. We formulate this problem as a Markov decision process. Our formulation is unique in its ability to represent multiple continuous interventions over any disease model defined by ordinary differential equations. We illustrate how to effectively apply state-of-the-art actor-critic reinforcement learning algorithms (PPO and SAC) to search for plans that minimize overall costs. We empirically evaluate the learning performance of these algorithms and compare their performance to hand-crafted baselines that mimic plans constructed by policy-makers. Our method outperforms baselines. Our work confirms the viability of a computational approach to support policy-makers | 翻訳日:2023-05-17 18:57:57 公開日:2023-05-16 |
# 制約付き解釈可能なクラスタリングのための最適決定木(拡張版) Optimal Decision Trees For Interpretable Clustering with Constraints (Extended Version) ( http://arxiv.org/abs/2301.12671v2 ) ライセンス: Link先を確認 | Pouya Shati, Eldan Cohen, Sheila McIlraith | (参考訳) 制約クラスタリング(Constrained clustering)は、制約として定式化された限られた量のラベル付きデータを使用し、ドメイン固有の知識を取り入れ、クラスタリングの精度を大幅に向上する半教師付きタスクである。
これまでの研究では、全ての制約を満たすことなく最適なクラスタリングを保証できる正確な最適化形式が検討されてきたが、これらのアプローチには解釈性がない。
近年、決定木は本質的に解釈可能なクラスタリングソリューションを作成するために使われてきたが、既存のアプローチではクラスタリングの制約をサポートしておらず、ソリューションの品質に関する強い理論的保証を提供していない。
本稿では,クラスタ化制約をサポートするとともに,ソリューションの品質に関する強い理論的保証を提供する,satベースの新しいクラスタリングフレームワークを提案する。
また,このようなユーザ制約の解釈可能性と満足度とのトレードオフに関する新たな知見を提示する。
私たちのフレームワークは、解釈可能で制約のあるクラスタリングのための最初のアプローチです。
実世界および合成データセットを用いた実験により、我々のアプローチは高品質で解釈可能な制約付きクラスタリングソリューションを作成できることを示した。 Constrained clustering is a semi-supervised task that employs a limited amount of labelled data, formulated as constraints, to incorporate domain-specific knowledge and to significantly improve clustering accuracy. Previous work has considered exact optimization formulations that can guarantee optimal clustering while satisfying all constraints, however these approaches lack interpretability. Recently, decision-trees have been used to produce inherently interpretable clustering solutions, however existing approaches do not support clustering constraints and do not provide strong theoretical guarantees on solution quality. In this work, we present a novel SAT-based framework for interpretable clustering that supports clustering constraints and that also provides strong theoretical guarantees on solution quality. We also present new insight into the trade-off between interpretability and satisfaction of such user-provided constraints. Our framework is the first approach for interpretable and constrained clustering. Experiments with a range of real-world and synthetic datasets demonstrate that our approach can produce high-quality and interpretable constrained clustering solutions. | 翻訳日:2023-05-17 18:57:37 公開日:2023-05-16 |
# ロバスト最適化による反事実的説明領域の探索 Finding Regions of Counterfactual Explanations via Robust Optimization ( http://arxiv.org/abs/2301.11113v2 ) ライセンス: Link先を確認 | Donato Maragno, Jannis Kurtz, Tabea E. R\"ober, Rob Goedhart, \c{S}. Ilker Birbil, Dick den Hertog | (参考訳) 反事実的説明は、バイアスの検出とデータ駆動分類モデルの説明可能性の改善において重要な役割を果たす。
反事実的説明(CE)は、モデルの決定が変化する最小の摂動データポイントである。
既存のメソッドのほとんどは1つのCEしか提供できないが、ユーザにとっては達成できないかもしれない。
本研究では,特徴がわずかに乱れた後も有効であるような頑健なCEを反復的に計算する手法を導出する。
この目的のために,提案手法はCEの全体領域を提供し,ユーザが適切なレコースを選択して望ましい結果を得ることを可能にする。
我々はロバスト最適化からのアルゴリズム的アイデアを用いて,ロジスティック回帰,決定木,ランダムフォレスト,ニューラルネットワークなど,最も一般的な機械学習手法における収束結果を証明する。
提案手法は,様々な共通データセットや分類モデルに対して,大域的に最適なロバストCEを効率的に生成できることを示す。 Counterfactual explanations play an important role in detecting bias and improving the explainability of data-driven classification models. A counterfactual explanation (CE) is a minimal perturbed data point for which the decision of the model changes. Most of the existing methods can only provide one CE, which may not be achievable for the user. In this work we derive an iterative method to calculate robust CEs, i.e. CEs that remain valid even after the features are slightly perturbed. To this end, our method provides a whole region of CEs allowing the user to choose a suitable recourse to obtain a desired outcome. We use algorithmic ideas from robust optimization and prove convergence results for the most common machine learning methods including logistic regression, decision trees, random forests, and neural networks. Our experiments show that our method can efficiently generate globally optimal robust CEs for a variety of common data sets and classification models. | 翻訳日:2023-05-17 18:57:20 公開日:2023-05-16 |
# 部分移動:ロシアメディアアウトレットとテレグラム間の多言語情報フローの追跡 Partial Mobilization: Tracking Multilingual Information Flows Amongst Russian Media Outlets and Telegram ( http://arxiv.org/abs/2301.10856v2 ) ライセンス: Link先を確認 | Hans W. A. Hanley and Zakir Durumeric | (参考訳) ロシアによるウクライナ侵攻後のロシアのオンラインメディアからの偽情報やプロパガンダを受け、ロシア・トゥデイやスプートニク・ニュースなどのロシアのメディアはヨーロッパ全土で禁止された。
視聴率を維持するために、これらのロシアのメディアの多くはtelegramのようなメッセージングサービスでコンテンツを強く宣伝し始めた。
本研究では2022年を通して16のロシアメディアが732のテレグラムチャンネルを相互に利用した方法について検討した。
基礎モデルMPNet,DP-meansクラスタリング,Hawkes Processsを活用することで,ニュースサイトとTelegramチャンネル間での物語の拡散を追跡できる。
ニュースソースは、telegramを通じて既存の物語を広めるだけでなく、メッセージングプラットフォームからの資料も発信する。
調査のサイト全体では、記事の2.3%(ura.news)から26.7%(ukraina.ru)が、テレグラムでの活動から生じたコンテンツについて議論している。
最後に、個々のトピックの拡散を追跡し、ニュースサイトとそのテレグラムチャネルがロシアのメディアエコシステム内でコンテンツを拡散する割合を測定する。 In response to disinformation and propaganda from Russian online media following the Russian invasion of Ukraine, Russian outlets including Russia Today and Sputnik News were banned throughout Europe. To maintain viewership, many of these Russian outlets began to heavily promote their content on messaging services like Telegram. In this work, we study how 16 Russian media outlets interacted with and utilized 732 Telegram channels throughout 2022. Leveraging the foundational model MPNet, DP-means clustering, and Hawkes Processes, we trace how narratives spread between news sites and Telegram channels. We show that news outlets not only propagate existing narratives through Telegram, but that they source material from the messaging platform. Across the sites in our study, between 2.3% (ura.news) and 26.7% (ukraina.ru) of articles discuss content that originated/resulted from activity on Telegram. Finally, tracking the spread of individual topics, we measure the rate at which news websites and their Telegram channels disseminate content within the Russian media ecosystem. | 翻訳日:2023-05-17 18:57:05 公開日:2023-05-16 |
# 異なるアリ種を追跡する:マルチオブジェクト追跡のための教師なしドメイン適応フレームワークとデータセット Tracking Different Ant Species: An Unsupervised Domain Adaptation Framework and a Dataset for Multi-object Tracking ( http://arxiv.org/abs/2301.10559v2 ) ライセンス: Link先を確認 | Chamath Abeysinghe, Chris Reid, Hamid Rezatofighi and Bernd Meyer | (参考訳) 個人を追跡することは集団行動を理解するために多くの実験の不可欠な部分である。
アリはこのような実験のパラダイムモデルシステムであるが、視覚の特徴と高いコロニー密度を個別に区別できないため、信頼性の高い追跡は極めて困難である。
さらに、その種の外観の幅広い多様性は、一般化されたアプローチをさらに難しくする。
本稿では,データ駆動型マルチオブジェクトトラッカーを提案する。
このアプローチは、トラッキング損失に加えて、敵対的トレーニング戦略を統合する一連のドメイン識別モジュールによって拡張された共同検出および追跡フレームワーク上に構築されている。
この新たなドメイン適応追跡フレームワークに加えて,新しいデータセットとant追跡問題のベンチマークを提案する。
データセットには57の動画シーケンスと完全な軌跡アノテーションが含まれており、異なる背景パターンで動く2つの異なるアリ種から取得された30kフレームが含まれている。
ソースドメインとターゲットドメインはそれぞれ33と24のシーケンスで構成される。
このデータセットを用いて、提案フレームワークを他のドメイン適応型および非ドメイン適応型マルチオブジェクトトラッキングベースラインと比較し、トラッキングパイプラインの複数のレベルにおけるドメイン適応の導入により、大幅な改善が得られたことを示す。
コードとデータセットはhttps://github.com/chamathabeysinghe/da-trackerで入手できる。 Tracking individuals is a vital part of many experiments conducted to understand collective behaviour. Ants are the paradigmatic model system for such experiments but their lack of individually distinguishing visual features and their high colony densities make it extremely difficult to perform reliable tracking automatically. Additionally, the wide diversity of their species' appearances makes a generalized approach even harder. In this paper, we propose a data-driven multi-object tracker that, for the first time, employs domain adaptation to achieve the required generalisation. This approach is built upon a joint-detection-and-tracking framework that is extended by a set of domain discriminator modules integrating an adversarial training strategy in addition to the tracking loss. In addition to this novel domain-adaptive tracking framework, we present a new dataset and a benchmark for the ant tracking problem. The dataset contains 57 video sequences with full trajectory annotation, including 30k frames captured from two different ant species moving on different background patterns. It comprises 33 and 24 sequences for source and target domains, respectively. We compare our proposed framework against other domain-adaptive and non-domain-adaptive multi-object tracking baselines using this dataset and show that incorporating domain adaptation at multiple levels of the tracking pipeline yields significant improvements. The code and the dataset are available at https://github.com/chamathabeysinghe/da-tracker. | 翻訳日:2023-05-17 18:56:44 公開日:2023-05-16 |
# 米国における死亡率:信頼性と予測可能か? Mortality Rates of US Counties: Are they Reliable and Predictable? ( http://arxiv.org/abs/2303.03343v3 ) ライセンス: Link先を確認 | Robert L. Obenchain and S. Stanley Young | (参考訳) 2012年の肺がん死亡率と2016年の全身循環呼吸不全死亡率、および連邦や州の情報源による「トップ10」の潜在的な原因について、郡レベルの調査を行った。
2,812郡におけるこの2つの死亡率には、ほとんど共通点がない。
したがって、予測モデルでは、いくつかの利点を持つ死亡率の1つの「比較」尺度を用いる。
新しい発見の大部分は、グラフィカルに示す単純な意味を持っている。 We examine US County-level observational data on Lung Cancer mortality rates in 2012 and overall Circulatory Respiratory mortality rates in 2016 as well as their "Top Ten" potential causes from Federal or State sources. We find that these two mortality rates for 2,812 US Counties have remarkably little in common. Thus, for predictive modeling, we use a single "compromise" measure of mortality that has several advantages. The vast majority of our new findings have simple implications that we illustrate graphically. | 翻訳日:2023-05-17 18:49:28 公開日:2023-05-16 |
# 物理的正当化周波数カットオフを用いた簡易かつ一貫した自然放射率導出 Simple and consistent spontaneous emission rate derivation with a physically justified frequency cutoff ( http://arxiv.org/abs/2303.02212v2 ) ライセンス: Link先を確認 | Wojciech G\'orecki | (参考訳) 励起原子の自然放出係数の正確な決定は極めて複雑な問題であり、様々な近似が一般的に用いられる。
最も一般的なものの一つは、2レベル原子の双極子近似を使い、続いて回転波近似(RWA)を用いることである。
しかし、周波数スペクトル全体に適用されたこのアプローチは、典型的な学生教科書では厳格に扱われない導出の発散積分の出現をもたらす。
文献から、原子の有限サイズで正当化された周波数カットオフの導入により、この問題が解決されることが知られている。
そこで本論文では,RWA内におけるWeisskopf-Wigner自然放出率(小さな補正まで)の直接的かつ数学的に一貫した再帰を可能にする,数学的に単純なカットオフを提案する。
重要なのは、このカットオフは計算を容易にする数学的トリックではなく、物理的なシステムの実際の特徴と関係しており、不整合につながる。
rwaと双極子近似を超えるより正確な分析要求。 The exact determination of the spontaneous emission coefficient for an excited atom is an extremely complex problem so various approximations are typically used. One of the most popular ones is the use of the dipole approximation of a two-level atom followed by rotating wave approximation (RWA). However, such an approach applied to the entire frequency spectrum results in the appearance of divergent integrals in the derivations, which are not treated rigorously in typical student textbooks. It is known from the literature that the introduction of cutoff for frequencies, justified by the finite size of the atom, may solve this problem. For didactic purposes, in this paper, we introduce a mathematically simple cutoff, which allows for a straightforward yet mathematically consistent rederivation of the Weisskopf-Wigner spontaneous emission rate (up to the small correction) within RWA. Importantly, this cutoff is not a mathematical trick to make calculations easier but is related to a real feature of the physical system, the neglect of which leads to inconsistency. More precise analysis demand going beyond RWA and dipole approximation. | 翻訳日:2023-05-17 18:49:21 公開日:2023-05-16 |
# BakedSDF:リアルタイムビュー合成のためのニューラルネットワークSDF BakedSDF: Meshing Neural SDFs for Real-Time View Synthesis ( http://arxiv.org/abs/2302.14859v2 ) ライセンス: Link先を確認 | Lior Yariv, Peter Hedman, Christian Reiser, Dor Verbin, Pratul P. Srinivasan, Richard Szeliski, Jonathan T. Barron, Ben Mildenhall | (参考訳) 本稿では,フォトリアリスティックなノベルビューの合成に適した大規模非拘束現実世界シーンの高品質メッシュを再構築する手法を提案する。
まず,シーン内の表面に対応する高度レベル集合を持つように設計された,ハイブリッドニューラルボリューム・サーフェス・シーン表現を最適化する。
そして、この表現を高品質な三角形メッシュに焼き込み、球面ガウスに基づく、シンプルで高速なビュー依存の外観モデルと組み合わせる。
最後に, この焼成表現を最適に最適化して, 得られた視点を最適に再現し, 高速化されたポリゴンラスタライゼーションパイプラインを利用して, 商品ハードウェア上でのリアルタイムなビュー合成を行うモデルを提案する。
提案手法は,実時間レンダリングの精度,速度,消費電力の面で,従来のシーン表現を上回り,外観編集や物理シミュレーションなどのアプリケーションを可能にする高品質メッシュを生成する。 We present a method for reconstructing high-quality meshes of large unbounded real-world scenes suitable for photorealistic novel view synthesis. We first optimize a hybrid neural volume-surface scene representation designed to have well-behaved level sets that correspond to surfaces in the scene. We then bake this representation into a high-quality triangle mesh, which we equip with a simple and fast view-dependent appearance model based on spherical Gaussians. Finally, we optimize this baked representation to best reproduce the captured viewpoints, resulting in a model that can leverage accelerated polygon rasterization pipelines for real-time view synthesis on commodity hardware. Our approach outperforms previous scene representations for real-time rendering in terms of accuracy, speed, and power consumption, and produces high quality meshes that enable applications such as appearance editing and physical simulation. | 翻訳日:2023-05-17 18:49:03 公開日:2023-05-16 |
# 製造業におけるフェデレートラーニングの応用:産業4.0と5.0ビジョンによる課題の特定と今後の方向性を探る Applications of Federated Learning in Manufacturing: Identifying the Challenges and Exploring the Future Directions with Industry 4.0 and 5.0 Visions ( http://arxiv.org/abs/2302.13514v2 ) ライセンス: Link先を確認 | Farzana Islam, Ahmed Shoyeb Raihan, Imtiaz Ahmed | (参考訳) 製造環境では、データ収集と分析は、しばしば時間がかかり、困難で、コストのかかるプロセスである。
また、優れた結果を生成するために大量のオフライントレーニングデータを必要とする高度な機械学習とデータ駆動メソッドの使用を妨げている。
大企業のリソースを共有しない小メーカーにとって、これは特に困難である。
近年,iot(internet of things, モノのインターネット)の導入により,ファクトリ全体の総合的な方法でデータをリアルタイムに収集し,高度な分析のためにクラウドに送信し,機械学習モデルを順次更新することができるようになった。
それでも小さなメーカは,iotのメリットを享受する上で,2つの障害に直面している。プライベートクラウドを運用するための十分なデータ提供や生成ができない場合と,自身の生データをパブリッククラウドと共有することをためらう場合がある。
フェデレーション学習(federated learning, fl)は,小規模産業がこれらの問題に対処し,プライバシを犠牲にすることなく相互から学ぶことを支援する,コラボレーション学習の新たな概念である。
多様な、地理的に分散した製造業者を同じ分析傘の下に集めて、勝利の状況を作り出すことができる。
しかし、複数の製造業組織におけるflの普及は依然として大きな課題である。
本研究は,製造業におけるフェデレートラーニングの適用課題と今後の方向性を,産業4.0と5.0の視点を中心に検討することを目的とする。 In manufacturing settings, data collection and analysis are often a time-consuming, challenging, and costly process. It also hinders the use of advanced machine learning and data-driven methods which require a substantial amount of offline training data to generate good results. It is particularly challenging for small manufacturers who do not share the resources of a large enterprise. Recently, with the introduction of the Internet of Things (IoT), data can be collected in an integrated manner across the factory in real-time, sent to the cloud for advanced analysis, and used to update the machine learning model sequentially. Nevertheless, small manufacturers face two obstacles in reaping the benefits of IoT: they may be unable to afford or generate enough data to operate a private cloud, and they may be hesitant to share their raw data with a public cloud. Federated learning (FL) is an emerging concept of collaborative learning that can help small-scale industries address these issues and learn from each other without sacrificing their privacy. It can bring together diverse and geographically dispersed manufacturers under the same analytics umbrella to create a win-win situation. However, the widespread adoption of FL across multiple manufacturing organizations remains a significant challenge. This study aims to review the challenges and future directions of applying federated learning in the manufacturing industry, with a specific emphasis on the perspectives of Industry 4.0 and 5.0. | 翻訳日:2023-05-17 18:48:47 公開日:2023-05-16 |
# 勾配支援と群集探索による多目的品質多様性のデータ効率向上 Improving the Data Efficiency of Multi-Objective Quality-Diversity through Gradient Assistance and Crowding Exploration ( http://arxiv.org/abs/2302.12668v2 ) ライセンス: Link先を確認 | Hannah Janmohamed, Thomas Pierrot, Antoine Cully | (参考訳) 近年,QDアルゴリズムは,局所最適解の回避と,広範かつ高性能な解を生成する能力により,最適化手法として注目を集めている。
近年,MOME(Multi-Objective MAP-Elites)は,マップエリートグリッドの各セルにParetoフロントを保持することにより,QDパラダイムを多目的設定に拡張した。
MOME は NSGA-II と SPEA2 と競合し、MOEA (Multi-Objective Evolutionary Algorithms) と競合し、様々なソリューションのレパートリーを獲得した。
しかし、MOMEは高次元探索空間で苦労する非間接的な遺伝子探索機構によって制限されている。
本研究では,多目的MAP-Elites with Policy-Gradient Assistance and Crowding-based Exploration (MOME-PGX)を提案する。
MOME-PGXは勾配に基づく最適化を使用して、より高性能なソリューションを効率的に駆動する。
また、群衆ベースのメカニズムを導入し、改良された探索戦略を作成し、パレートフロント全体の統一を促進する。
我々は,MOME-PGXを4つのロボット動作タスクで評価し,他のすべてのベースラインよりも高速に収束し,高い性能を示す。
MOME-PGXはMOMEの4.3倍から42倍のデータ効率が高く,挑戦環境におけるMOME,NSGA-II,SPEA2の性能は2倍である。 Quality-Diversity (QD) algorithms have recently gained traction as optimisation methods due to their effectiveness at escaping local optima and capability of generating wide-ranging and high-performing solutions. Recently, Multi-Objective MAP-Elites (MOME) extended the QD paradigm to the multi-objective setting by maintaining a Pareto front in each cell of a map-elites grid. MOME achieved a global performance that competed with NSGA-II and SPEA2, two well-established Multi-Objective Evolutionary Algorithms (MOEA), while also acquiring a diverse repertoire of solutions. However, MOME is limited by non-directed genetic search mechanisms which struggle in high-dimensional search spaces. In this work, we present Multi-Objective MAP-Elites with Policy-Gradient Assistance and Crowding-based Exploration (MOME-PGX): a new QD algorithm that extends MOME to improve its data efficiency and performance. MOME-PGX uses gradient-based optimisation to efficiently drive solutions towards higher performance. It also introduces crowding-based mechanisms to create an improved exploration strategy and to encourage uniformity across Pareto fronts. We evaluate MOME-PGX in four simulated robot locomotion tasks and demonstrate that it converges faster and to a higher performance than all other baselines. We show that MOME-PGX is between 4.3 and 42 times more data-efficient than MOME and doubles the performance of MOME, NSGA-II and SPEA2 in challenging environments. | 翻訳日:2023-05-17 18:48:21 公開日:2023-05-16 |
# 超強結合超伝導量子回路における仮想光子の検出 Detecting virtual photons in ultrastrongly coupled superconducting quantum circuits ( http://arxiv.org/abs/2302.10973v2 ) ライセンス: Link先を確認 | Luigi Giannelli, Elisabetta Paladino, Miroslav Grajcar, Gheorghe Sorin Paraoanu, and Giuseppe Falci | (参考訳) 光物質相互作用と基礎物理学の理解は、新興量子技術にとって不可欠である。
固体デバイスは結合強度が「超強」、すなわちサブシステムのエネルギーに匹敵する新しい体制を探求することができる。
新しいエキゾチックな現象は、その多くの共通根は、絡み合った真空が仮想光子を含むという事実である。
それらは、u(1)対称性を破る超強結合の証人である励起数の保存の欠如を象徴している。
10年以上の研究にもかかわらず、地上状態の仮想光子の検出はまだ実証を待っている。
本稿では、この長年の問題に対する解決策を提供する。
主な実験的障害に直面すると、スーパーインダクタによって実装された従来の「軽いフラクトロニウム」のような超伝導量子回路と、高効率で忠実で選択的な仮想光子を現実のものに変換するコヒーレント増幅プロトコルの設計が見つかる。
これにより、現在の量子技術で利用可能なリソースによる検出が可能になる。 Light-matter interaction, and understanding the fundamental physics behind, is essential for emerging quantum technologies. Solid-state devices may explore new regimes where coupling strengths are "ultrastrong", i.e. comparable to the energies of the subsystems. New exotic phenomena occur the common root of many of them being the fact that the entangled vacuum contains virtual photons. They herald the lack of conservation of the number of excitations which is the witness of ultrastrong coupling breaking the U(1) symmetry. Despite more than a decade of research, the detection of ground-state virtual photons still awaits demonstration. In this work, we provide a solution for this long-standing problem. Facing the main experimental obstacles, we find a design of an unconventional "light fluxonium"-like superconducting quantum circuit implemented by superinductors and a protocol of coherent amplification which yields a highly efficient, faithful and selective conversion of virtual photons into real ones. This enables their detection with resources available to present-day quantum technologies. | 翻訳日:2023-05-17 18:47:53 公開日:2023-05-16 |
# ニューラルネットワークを用いた連合学習における重み付きアグリゲーションの再検討 Revisiting Weighted Aggregation in Federated Learning with Neural Networks ( http://arxiv.org/abs/2302.10911v2 ) ライセンス: Link先を確認 | Zexi Li, Tao Lin, Xinyi Shang, Chao Wu | (参考訳) 連合学習(fl)では、局所モデルの重み付き集計を行い、大域モデルを生成し、重み付け重みを正規化し(重みの和は1である)、局所データサイズに比例する。
本稿では,重み付け集約プロセスを再検討し,flのトレーニングダイナミクスに関する新たな知見を得る。
まず,重みの総和が1より小さくなり,大域的な重み縮小効果(重み減少と類似)が生じ,一般化が改善されることが判明した。
クライアントのデータ不均一性と局所的エポックに最適な縮小係数がどう影響するかを検討する。
次に、クライアント間の相対的な集約重みを掘り下げて、クライアントの重要性を説明します。
学習のダイナミクスを研究するためにクライアントコヒーレンスを開発し,その重要な点を見出す。
臨界点に入る前に、よりコヒーレントなクライアントは一般化においてより重要な役割を果たす。
以上の知見に基づいて,FedLAWと命名された学習可能な集約重み付きフェデレート学習の効果的な方法を提案する。
広範な実験により,本手法が異なるデータセットとモデルに対して大きなマージンでグローバルモデルの一般化を改善できることが確かめられた。 In federated learning (FL), weighted aggregation of local models is conducted to generate a global model, and the aggregation weights are normalized (the sum of weights is 1) and proportional to the local data sizes. In this paper, we revisit the weighted aggregation process and gain new insights into the training dynamics of FL. First, we find that the sum of weights can be smaller than 1, causing global weight shrinking effect (analogous to weight decay) and improving generalization. We explore how the optimal shrinking factor is affected by clients' data heterogeneity and local epochs. Second, we dive into the relative aggregation weights among clients to depict the clients' importance. We develop client coherence to study the learning dynamics and find a critical point that exists. Before entering the critical point, more coherent clients play more essential roles in generalization. Based on the above insights, we propose an effective method for Federated Learning with Learnable Aggregation Weights, named as FedLAW. Extensive experiments verify that our method can improve the generalization of the global model by a large margin on different datasets and models. | 翻訳日:2023-05-17 18:47:38 公開日:2023-05-16 |
# 時系列健康データにおける欠落価値の深い計算:ベンチマークによるレビュー Deep Imputation of Missing Values in Time Series Health Data: A Review with Benchmarking ( http://arxiv.org/abs/2302.10902v2 ) ライセンス: Link先を確認 | Maksims Kazijevs and Manar D. Samad | (参考訳) 多変量時系列(MTS)データの欠落値の計算は、データ品質の確保と信頼性の高いデータ駆動予測モデルの作成に重要である。
多くの統計的アプローチとは別に、最近の研究では、mtsデータに欠けている値を引き出すための最先端のディープラーニング手法が提案されている。
しかし、これらの深い手法の評価は、1つまたは2つのデータセット、低い欠落率、完全にランダムな欠落値型に限られる。
この調査は、5つの時系列健康データセットに最先端のディープインプテーション手法をベンチマークするために、6つのデータ中心の実験を行う。
広範な分析結果から,5つのデータセットすべてにおいて,1つのインプテーションメソッドが他よりも優れていることが分かりました。
インプテーションのパフォーマンスは、データ型、個々の変数統計、値の欠落率、型に依存する。
時系列データにおいて、横断的(クロス変数)と縦方向(クロス時間)のインプテーションを共同で実行するディープラーニング手法は、従来のインプテーション法よりも統計的に優れたデータ品質をもたらす。
計算コストは高いが、特に医療情報学においてデータ品質とサンプルサイズが極めて重要である場合、ハイパフォーマンスな計算リソースが利用できるため、ディープラーニングの手法は実用的である。
本研究は,データ駆動予測モデルを最適化する計算手法の,データ中心の選択の重要性を強調した。 The imputation of missing values in multivariate time series (MTS) data is critical in ensuring data quality and producing reliable data-driven predictive models. Apart from many statistical approaches, a few recent studies have proposed state-of-the-art deep learning methods to impute missing values in MTS data. However, the evaluation of these deep methods is limited to one or two data sets, low missing rates, and completely random missing value types. This survey performs six data-centric experiments to benchmark state-of-the-art deep imputation methods on five time series health data sets. Our extensive analysis reveals that no single imputation method outperforms the others on all five data sets. The imputation performance depends on data types, individual variable statistics, missing value rates, and types. Deep learning methods that jointly perform cross-sectional (across variables) and longitudinal (across time) imputations of missing values in time series data yield statistically better data quality than traditional imputation methods. Although computationally expensive, deep learning methods are practical given the current availability of high-performance computing resources, especially when data quality and sample size are highly important in healthcare informatics. Our findings highlight the importance of data-centric selection of imputation methods to optimize data-driven predictive models. | 翻訳日:2023-05-17 18:47:19 公開日:2023-05-16 |
# 球面画像からの3次元再構成:技術・応用・展望のレビュー 3D reconstruction from spherical images: A review of techniques, applications, and prospects ( http://arxiv.org/abs/2302.04495v2 ) ライセンス: Link先を確認 | San Jiang, Yaxin Li, Duojie Weng, Kan You, Wu Chen | (参考訳) 3次元再構成は、現代のフォトグラムシステムにおいてますます重要な役割を担っている。
従来の衛星や空中リモートセンシング(RS)プラットフォームは、大規模な地形や都市の3D再構成に必要なデータソースを提供することができる。
低高度のuav(無人航空機)でも、都市キャニオンや屋内シーンなどの複雑な状況下での3d再構成は、カメラフレーム間の頻繁なトラッキング障害と高いデータ収集コストのために困難である。
近年,球面画像は1台のカメラから周囲の環境を撮影する能力から広く利用されている。
視野画像がFOV(Field of View)に制限されているのとは対照的に、球面画像は全シーンを水平および垂直のFOVでカバーし、これらの複雑なシーンにおけるカメラトラッキングとデータ取得を容易にする。
プロ用および消費者向けの球面カメラの急速な進化と広範囲な利用により、球面画像は都市・屋内シーンの3Dモデリングに大きな可能性を示している。
しかし、古典的な3dリコンストラクションパイプラインは、球面画像に直接使用することはできない。
さらに、球面画像の3d再構成のために設計されたソフトウェアパッケージも少なくない。
そこで本研究では,データ取得,特徴検出とマッチング,画像配向,高密度マッチングといった観点で,球面画像の3次元再構成技術の現状を徹底的に調査するとともに,有望な応用例を示し,今後の可能性について議論する。
本研究は今後の研究を導く手がかりとなるだろう。 3D reconstruction plays an increasingly important role in modern photogrammetric systems. Conventional satellite or aerial-based remote sensing (RS) platforms can provide the necessary data sources for the 3D reconstruction of large-scale landforms and cities. Even with low-altitude UAVs (Unmanned Aerial Vehicles), 3D reconstruction in complicated situations, such as urban canyons and indoor scenes, is challenging due to frequent tracking failures between camera frames and high data collection costs. Recently, spherical images have been extensively used due to the capability of recording surrounding environments from one camera exposure. In contrast to perspective images with limited FOV (Field of View), spherical images can cover the whole scene with full horizontal and vertical FOV and facilitate camera tracking and data acquisition in these complex scenes. With the rapid evolution and extensive use of professional and consumer-grade spherical cameras, spherical images show great potential for the 3D modeling of urban and indoor scenes. Classical 3D reconstruction pipelines, however, cannot be directly used for spherical images. Besides, there exist few software packages that are designed for the 3D reconstruction of spherical images. As a result, this research provides a thorough survey of the state-of-the-art for 3D reconstruction of spherical images in terms of data acquisition, feature detection and matching, image orientation, and dense matching as well as presenting promising applications and discussing potential prospects. We anticipate that this study offers insightful clues to direct future research. | 翻訳日:2023-05-17 18:46:56 公開日:2023-05-16 |
# 信頼共有型分散型PMDPの政策評価 Policy Evaluation in Decentralized POMDPs with Belief Sharing ( http://arxiv.org/abs/2302.04151v2 ) ライセンス: Link先を確認 | Mert Kayaalp, Fatima Ghadieh, Ali H. Sayed | (参考訳) 多くの場合、マルチエージェント強化学習は環境の状態が完全に観察可能なシナリオに焦点を当てている。
本研究は,エージェントが直接環境状態を観察しないことを前提とした協調政策評価タスクについて検討する。
その代わり、エージェントはノイズの観測や信念ベクトルへのアクセスしかできない。
マルチエージェント環境下でのグローバル後方分布の発見は一般にnpハードであることが知られている。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
信念の交換に加えて、エージェントは価値関数パラメータの見積もりを交換することで通信ネットワークを利用する。
本稿では,提案手法がネットワーク上で情報拡散を可能にすることを解析的に示し,エージェントのパラメータが集中ベースラインと有界な差を持つことを示す。
シミュレーションでは,マルチセンサ目標追跡アプリケーションについて検討する。 Most works on multi-agent reinforcement learning focus on scenarios where the state of the environment is fully observable. In this work, we consider a cooperative policy evaluation task in which agents are not assumed to observe the environment state directly. Instead, agents can only have access to noisy observations and to belief vectors. It is well-known that finding global posterior distributions under multi-agent settings is generally NP-hard. As a remedy, we propose a fully decentralized belief forming strategy that relies on individual updates and on localized interactions over a communication network. In addition to the exchange of the beliefs, agents exploit the communication network by exchanging value function parameter estimates as well. We analytically show that the proposed strategy allows information to diffuse over the network, which in turn allows the agents' parameters to have a bounded difference with a centralized baseline. A multi-sensor target tracking application is considered in the simulations. | 翻訳日:2023-05-17 18:46:31 公開日:2023-05-16 |
# 局所双曲系における局所化から一様スクランブルへの動的遷移 A dynamical transition from localized to uniform scrambling in locally hyperbolic systems ( http://arxiv.org/abs/2303.14839v2 ) ライセンス: Link先を確認 | Mathias Steinhuber, Peter Schlagheck, Juan-Diego Urbina, Klaus Richter | (参考訳) 量子相関の高速スクランブルは、短いehrenfest時間スケールでの時間外相関子(otocs)の指数的成長に反映され、古典的限界を持つ量子系における不安定なダイナミクスの主要な量子署名と見なされる。
Hummelらによる最近の2つの作品。
[1] および Xu et al による。
[2],不安定不動点付近に半古典的に局在する初期状態や完全非局在化(無限温度)により,可積分性(多体)系のスクランブルレートに有意差が認められた。
具体的には、量子 Lyapunov exponent $\lambda_{\rm q}$ OTOC の成長を定量化する量子 Lyapunov exponent $\lambda_{\rm q}=2\lambda_{\rm s}$ または $\lambda_{\rm q}=\lambda_{\rm s}$ により、双曲固定点の安定性指数 $\lambda_{\rm s}$ で与えられる。
ここで、波束は、この不動点の周りに最初に局在化され、これらの2つの領域間で異なる動的遷移を示す。
本稿では,この現象の物理像を提供する解析的半古典的アプローチを提案し,Bose-Hubbardダイマーの局所不安定なダイナミクスのパラメータ範囲全体における広範な数値シミュレーションにより,我々の研究結果を支援する。
この遷移の存在は、可積分系における不安定なセパラトリクス力学の指標であることを示す。
これにより、指数関数的なオトク成長挙動の中で、不安定な可積分(多体)ダイナミクスと、均一な成長を特徴とする真のカオスダイナミクスを区別することができる。 Fast scrambling of quantum correlations, reflected by the exponential growth of Out-of-Time-Order Correlators (OTOCs) on short pre-Ehrenfest time scales, is commonly considered as a major quantum signature of unstable dynamics in quantum systems with a classical limit. In two recent works, by Hummel et al. [1] and by Xu et al. [2], a significant difference in the scrambling rate of integrable (many-body) systems was observed, depending on the initial state being semiclassically localized around unstable fixed points or fully delocalized (infinite temperature). Specifically, the quantum Lyapunov exponent $\lambda_{\rm q}$ quantifying the OTOC growth is given, respectively, by $\lambda_{\rm q}=2\lambda_{\rm s}$ or $\lambda_{\rm q}=\lambda_{\rm s}$ in terms of the stability exponent $\lambda_{\rm s}$ of the hyperbolic fixed point. Here we show that a wave packet, initially localized around this fixed point, features a distinct dynamical transition between these two regions. We present an analytical semiclassical approach providing a physical picture of this phenomenon and support our findings by extensive numerical simulations in the whole parameter range of locally unstable dynamics of a Bose-Hubbard dimer. Our results suggest that the existence of this transition is a hallmark of unstable separatrix dynamics in integrable systems. This allows one to distinguish, within the exponential OTOC growth behavior, unstable integrable (many-body) dynamics from genuine chaotic dynamics featuring uniform growth. | 翻訳日:2023-05-17 18:41:04 公開日:2023-05-16 |
# 弱い教師付き深層学習を用いた炎症性腸疾患生検における病理組織学的検討 Interpretable histopathology-based prediction of disease relevant features in Inflammatory Bowel Disease biopsies using weakly-supervised deep learning ( http://arxiv.org/abs/2303.12095v2 ) ライセンス: Link先を確認 | Ricardo Mokhtari and Azam Hamidinekoo and Daniel Sutton and Arthur Lewis and Bastian Angermann and Ulf Gehrmann and Pal Lundin and Hibret Adissu and Junmei Cairns and Jessica Neisen and Emon Khan and Daniel Marks and Nia Khachapuridze and Talha Qaiser and Nikolay Burlutskiy | (参考訳) crohn病 (cd) と潰瘍性大腸炎 (uc) は炎症性腸疾患 (ibd) の2つのタイプである。
内視鏡的ラベルのみを用いてcdとucの組織学的特徴を同定する深層学習モデルを開発した。
3種類の内視鏡的カテゴリ予測のための2つの最先端自己教師付きモデルの微調整とエンドツーエンドトレーニングについて検討した。
(i)CD対UC(AUC=0.87)
(ii)正常対病変(AUC=0.81)
(iii)低対高病重症度スコア(AUC=0.80)
モデルが学んだことを解釈し、病理学者の支援により検証するために視覚的注意マップを作成し、モデルの予測と疾患の病理組織学的炎症的特徴との間に強い関連があることを観察した。
また, 病理組織学的検討では, 正常標本を病変として誤って予測したが, 顕微鏡的に正しかった症例もいくつか見出した。
この組織学的提示傾向は内視鏡的提示よりも深刻である傾向が文献で以前に報告されている。
並行して,Colon Nuclei Identification and Counting (CoNIC)データセットをトレーニングしたモデルを用いて,6つの細胞集団の予測と探索を行った。
生検で予測された免疫細胞に富む領域と注意マップに対する病理医のフィードバックとの相関を観察した。
最後に,CDおよびUCの重症度を示すいくつかの細胞レベルの特徴を同定した。
これらのモデルは、IBDの背後にある病理の理解を深め、臨床試験における患者の成層化戦略を形成することができる。 Crohn's Disease (CD) and Ulcerative Colitis (UC) are the two main Inflammatory Bowel Disease (IBD) types. We developed deep learning models to identify histological disease features for both CD and UC using only endoscopic labels. We explored fine-tuning and end-to-end training of two state-of-the-art self-supervised models for predicting three different endoscopic categories (i) CD vs UC (AUC=0.87), (ii) normal vs lesional (AUC=0.81), (iii) low vs high disease severity score (AUC=0.80). We produced visual attention maps to interpret what the models learned and validated them with the support of a pathologist, where we observed a strong association between the models' predictions and histopathological inflammatory features of the disease. Additionally, we identified several cases where the model incorrectly predicted normal samples as lesional but were correct on the microscopic level when reviewed by the pathologist. This tendency of histological presentation to be more severe than endoscopic presentation was previously published in the literature. In parallel, we utilised a model trained on the Colon Nuclei Identification and Counting (CoNIC) dataset to predict and explore 6 cell populations. We observed correlation between areas enriched with the predicted immune cells in biopsies and the pathologist's feedback on the attention maps. Finally, we identified several cell level features indicative of disease severity in CD and UC. These models can enhance our understanding about the pathology behind IBD and can shape our strategies for patient stratification in clinical trials. | 翻訳日:2023-05-17 18:40:02 公開日:2023-05-16 |
# 均一拡散塗装のための4Kマスクの高効率ニューラルネットワーク Efficient Neural Generation of 4K Masks for Homogeneous Diffusion Inpainting ( http://arxiv.org/abs/2303.10096v2 ) ライセンス: Link先を確認 | Karl Schrader, Pascal Peter, Niklas K\"amper, Joachim Weickert | (参考訳) 適切に選択されたデータにより、均質な拡散塗装は、スパースデータから高品質で画像を再構成することができる。
サイズ3840 x 2160の4kカラー画像は、すでにリアルタイムにペイント可能だが、画像圧縮のようなアプリケーションのために既知のデータを最適化することは、依然として困難である。
最近、このいわゆるマスク最適化問題に対する最初のニューラルアプローチは、小さな画像に対して高速で優れた品質を提供する。
マスク生成ネットワークを、神経の塗布サロゲートの助けを借りて訓練する。
しかし、これらのマスクネットワークは、トレーニングされた解像度とマスク密度のためにのみマスクを出力することができる。
これらの問題を解き、ニューロ明示的粗大な戦略により高解像度画像のマスク最適化を可能にする。
さらに, マスクネットワークのトレーニングと解釈性を向上させるために, 数値塗布解器をネットワークに直接組み込む。
これにより、4k画像のマスクを0.6秒程度で生成でき、実際に関連する密度の確率的方法の品質を上回っている。
既存の一般的なアプローチと比較して、これは最大4桁の加速度である。 With well-selected data, homogeneous diffusion inpainting can reconstruct images from sparse data with high quality. While 4K colour images of size 3840 x 2160 can already be inpainted in real time, optimising the known data for applications like image compression remains challenging: Widely used stochastic strategies can take days for a single 4K image. Recently, a first neural approach for this so-called mask optimisation problem offered high speed and good quality for small images. It trains a mask generation network with the help of a neural inpainting surrogate. However, these mask networks can only output masks for the resolution and mask density they were trained for. We solve these problems and enable mask optimisation for high-resolution images through a neuroexplicit coarse-to-fine strategy. Additionally, we improve the training and interpretability of mask networks by including a numerical inpainting solver directly into the network. This allows to generate masks for 4K images in around 0.6 seconds while exceeding the quality of stochastic methods on practically relevant densities. Compared to popular existing approaches, this is an acceleration of up to four orders of magnitude. | 翻訳日:2023-05-17 18:39:39 公開日:2023-05-16 |
# コスト対応曖昧性集合を用いた分布的ロバスト最適化 Distributionally Robust Optimization using Cost-Aware Ambiguity Sets ( http://arxiv.org/abs/2303.09408v2 ) ライセンス: Link先を確認 | Mathijs Schuurmans and Panagiotis Patrinos | (参考訳) 本稿では,DRO(Cost-Aware DRO)と呼ばれる分散ロバスト最適化のための新しいフレームワークを提案する。
CADROの鍵となる考え方は、保守性を減らすためのあいまいさの設計におけるコスト構造を利用することである。
特に、この集合は、近似解の期待コストが最も急速に増加する方向に沿って最悪のケース分布を特に制限する。
CADROは,既存のDRO法よりも極めて保守的でない解を生成すると同時に,同じ保証を提供することを実証的に示す。 We present a novel framework for distributionally robust optimization (DRO), called cost-aware DRO (CADRO). The key idea of CADRO is to exploit the cost structure in the design of the ambiguity set to reduce conservatism. Particularly, the set specifically constrains the worst-case distribution along the direction in which the expected cost of an approximate solution increases most rapidly. We prove that CADRO provides both a high-confidence upper bound and a consistent estimator of the out-of-sample expected cost, and show empirically that it produces solutions that are substantially less conservative than existing DRO methods, while providing the same guarantees. | 翻訳日:2023-05-17 18:39:24 公開日:2023-05-16 |
# 離散道路網設計問題のためのハイブリッドディープラーニング・メタヒューリスティックフレームワーク A hybrid deep-learning-metaheuristic framework for discrete road network design problems ( http://arxiv.org/abs/2303.06024v2 ) ライセンス: Link先を確認 | Bahman Madadi and Goncalo Homem de Almeida Correia | (参考訳) 本研究では,道路ネットワーク設計問題 (NDP) のための双方向アーキテクチャを用いたハイブリッドディープラーニング・メタヒューリスティックフレームワークを提案する。
我々は、ユーザ均衡(UE)トラフィック割り当て問題の解を近似するためにグラフニューラルネットワーク(GNN)を訓練し、トレーニングされたモデルによる推論を用いて、遺伝的アルゴリズム(GA)の適合関数評価を計算し、NDPの解を近似する。
2つのNDP変種と正確な解法をベンチマークとして用いた結果,提案手法は,最適結果の発見に要する時間のうち1%未満の時間で,グローバルな最適結果の5%のギャップ内で解を提供できることを示した。
我々のフレームワークはエキスパートシステム内でインフラ計画に活用でき、最良のインフラ管理の決定をインテリジェントに決定できる。
フレームワークの柔軟性を考えると、グラフ上の二段階問題としてモデル化できる他の多くの決定問題に容易に対応できる。
さらに,多くの今後の方向性を考察し,本トピックに関する簡単な研究課題を提案する。
影響力のある将来の研究を刺激する重要な観察は、GNNモデルによる遺伝的アルゴリズムの推論を用いたフィットネス機能評価時間がミリ秒のオーダーであり、これは新しいヒューリスティックスの必要性と機会を示している。
1)ニューラルネットワークが提供するノイズの多いフィットネス機能値にうまく対応でき、
2) 探索空間を効率的に(効率的にではなく)探索するために,提案した計算時間をはるかに高めることができる。
これにより、AI駆動の予測器で使用するために作られた、現代的なメタヒューリスティックなクラスの新たな道が開かれる。 This study proposes a hybrid deep-learning-metaheuristic framework with a bi-level architecture for road network design problems (NDPs). We train a graph neural network (GNN) to approximate the solution of the user equilibrium (UE) traffic assignment problem, and use inferences made by the trained model to calculate fitness function evaluations of a genetic algorithm (GA) to approximate solutions for NDPs. Using two NDP variants and an exact solver as benchmark, we show that our proposed framework can provide solutions within 5% gap of the global optimum results given less than 1% of the time required for finding the optimal results. Our framework can be utilized within an expert system for infrastructure planning to intelligently determine the best infrastructure management decisions. Given the flexibility of the framework, it can easily be adapted to many other decision problems that can be modeled as bi-level problems on graphs. Moreover, we observe many interesting future directions, thus we propose a brief research agenda for this topic. The key observation inspiring influential future research was that fitness function evaluation time using the inferences made by the GNN model for the genetic algorithm was in the order of milliseconds, which points to an opportunity and a need for novel heuristics that 1) can cope well with noisy fitness function values provided by neural networks, and 2) can use the significantly higher computation time provided to them to explore the search space effectively (rather than efficiently). This opens a new avenue for a modern class of metaheuristics that are crafted for use with AI-powered predictors. | 翻訳日:2023-05-17 18:38:47 公開日:2023-05-16 |
# SALSA PICANTE: バイナリシークレットを持つLWEに対する機械学習攻撃 SALSA PICANTE: a machine learning attack on LWE with binary secrets ( http://arxiv.org/abs/2303.04178v3 ) ライセンス: Link先を確認 | Cathy Li, Jana Sot\'akov\'a, Emily Wenger, Mohamed Malhou, Evrard Garcelon, Francois Charton, Kristin Lauter | (参考訳) learning with error (lwe) は、量子後暗号 (pqc) システムの多くを支える難しい数学問題である。
NISTによって標準化された唯一のPQC鍵交換機構(KEM)はモジュール~LWEに基づいており、現在公開されているPQホモモルフィック暗号化(HE)ライブラリはリングLWEに基づいている。
LWEベースのPQ暗号システムのセキュリティは重要であるが、特定の実装選択はそれらを弱める可能性がある。
そのような選択の1つは疎二項秘密であり、効率上の理由からPQ HEスキームに望ましい。
以前の作業であるSALSAは、小さな次元(n \le 128$)と低いハミング重量(h \le 4$)の少ないバイナリシークレットによるLWEに対する機械学習ベースの攻撃をデモした。
しかし、この攻撃は数百万の盗聴されたLWEサンプルへのアクセスを前提としており、ハミング級の重量や寸法で失敗する。
PICANTEは、LWEに対する強化された機械学習攻撃であり、より大きな次元(最大$n=350$)で秘密を回復し、より大きなハミング重み(約$n/10$、最大$n=350$)を持つ。
この劇的な改善は、新しい前処理のステップによって達成され、複数のeavesdroped LWEサンプル(4n$)からトレーニングデータを生成し、データ分布を変更してトランスフォーマートレーニングを改善することができる。
また,SALSAのシークレットリカバリ手法の改良や,トレーニングされたモデルから直接シークレットを読み取るための新しいクロスアテンションリカバリ機構を導入する。
PICANTEは、NISTが提案したLWE標準を脅かすものではないが、SALSAよりも大幅に改善され、さらに拡張可能であることを示し、スパースバイナリシークレットによるLWEに対する機械学習攻撃に関する将来の調査の必要性を強調している。 Learning with Errors (LWE) is a hard math problem underpinning many proposed post-quantum cryptographic (PQC) systems. The only PQC Key Exchange Mechanism (KEM) standardized by NIST is based on module~LWE, and current publicly available PQ Homomorphic Encryption (HE) libraries are based on ring LWE. The security of LWE-based PQ cryptosystems is critical, but certain implementation choices could weaken them. One such choice is sparse binary secrets, desirable for PQ HE schemes for efficiency reasons. Prior work, SALSA, demonstrated a machine learning-based attack on LWE with sparse binary secrets in small dimensions ($n \le 128$) and low Hamming weights ($h \le 4$). However, this attack assumes access to millions of eavesdropped LWE samples and fails at higher Hamming weights or dimensions. We present PICANTE, an enhanced machine learning attack on LWE with sparse binary secrets, which recovers secrets in much larger dimensions (up to $n=350$) and with larger Hamming weights (roughly $n/10$, and up to $h=60$ for $n=350$). We achieve this dramatic improvement via a novel preprocessing step, which allows us to generate training data from a linear number of eavesdropped LWE samples ($4n$) and changes the distribution of the data to improve transformer training. We also improve the secret recovery methods of SALSA and introduce a novel cross-attention recovery mechanism allowing us to read off the secret directly from the trained models. While PICANTE does not threaten NIST's proposed LWE standards, it demonstrates significant improvement over SALSA and could scale further, highlighting the need for future investigation into machine learning attacks on LWE with sparse binary secrets. | 翻訳日:2023-05-17 18:38:19 公開日:2023-05-16 |
# 多項式近似のための浅層および深層ニューラルネットワークの表現性 Expressivity of Shallow and Deep Neural Networks for Polynomial Approximation ( http://arxiv.org/abs/2303.03544v2 ) ライセンス: Link先を確認 | Itai Shapira | (参考訳) 本研究では,Rectified Linear Unit (ReLU) ニューラルネットワークに必要なニューロン数について検討した。
我々は、一般コンパクト領域上の積関数を近似する任意の浅層ネットワークの複雑性の指数的下界を確立する。
また、この下界は単位立方体上の正規化リプシッツ単体には適用されないことを示した。
これらの結果から, 浅部ReLUネットワークは, リプシッツパラメータのスケーリングによる関数表現時の次元性の呪いを経験し, ニューラルネットワークの表現力は全体的な複雑さよりも深度に依存することが示唆された。 This study explores the number of neurons required for a Rectified Linear Unit (ReLU) neural network to approximate multivariate monomials. We establish an exponential lower bound on the complexity of any shallow network approximating the product function over a general compact domain. We also demonstrate this lower bound doesn't apply to normalized Lipschitz monomials over the unit cube. These findings suggest that shallow ReLU networks experience the curse of dimensionality when expressing functions with a Lipschitz parameter scaling with the dimension of the input, and that the expressive power of neural networks is more dependent on their depth rather than overall complexity. | 翻訳日:2023-05-17 18:37:38 公開日:2023-05-16 |
# 頭頸部癌における生存予測のためのTumour Graph Learning Towards Tumour Graph Learning for Survival Prediction in Head & Neck Cancer Patients ( http://arxiv.org/abs/2304.08106v2 ) ライセンス: Link先を確認 | Angel Victor Juanco Muller, Joao F. C. Mota, Keith A. Goatman and Corne Hoogendoorn | (参考訳) 2020年に世界で100万人近い新規患者が診断され、頭頸部がんは致命的かつ一般的な悪性腫瘍である。
複数の部位の病変と患者間の予後の変動により、そのようながんの意思決定と治療は困難である。
したがって、自動セグメンテーションと予後推定アプローチは、各患者が最も効果的な治療を受けるのに役立つ。
本稿では、任意の視野(FoV)PETおよびCT登録スキャン上でこれらの機能を実行するためのフレームワークを提案し、チーム \texttt{VokCow} としてHECKTOR 2022チャレンジのタスク1と2に接近する。
本手法は, 局所化, セグメンテーション, 生存予測の3段階からなる。
まず、任意のFoVのスキャンを頭頸部領域にトリミングし、U字型畳み込みニューラルネットワーク(CNN)を訓練して、興味のある領域を分割する。
そして、得られた領域を用いて、別のCNNを支持ベクトル機械分類器と組み合わせて腫瘍の意味的セグメンテーションを求め、タスク1におけるDiceスコアが0.57となる。
最後に、weibullaccelerated failure time modelとdeep learning methodのアンサンブルを用いてサバイバル予測にアプローチする。
患者の健康記録データに加えて,グラフ畳み込みによる腫瘍中心の画像パッチの処理グラフが予後予測を改善できるかどうかについて検討する。
テストセットでは0.64の一致指数が達成され、このタスクのチャレンジリーダーボードでは6位となった。 With nearly one million new cases diagnosed worldwide in 2020, head \& neck cancer is a deadly and common malignity. There are challenges to decision making and treatment of such cancer, due to lesions in multiple locations and outcome variability between patients. Therefore, automated segmentation and prognosis estimation approaches can help ensure each patient gets the most effective treatment. This paper presents a framework to perform these functions on arbitrary field of view (FoV) PET and CT registered scans, thus approaching tasks 1 and 2 of the HECKTOR 2022 challenge as team \texttt{VokCow}. The method consists of three stages: localization, segmentation and survival prediction. First, the scans with arbitrary FoV are cropped to the head and neck region and a u-shaped convolutional neural network (CNN) is trained to segment the region of interest. Then, using the obtained regions, another CNN is combined with a support vector machine classifier to obtain the semantic segmentation of the tumours, which results in an aggregated Dice score of 0.57 in task 1. Finally, survival prediction is approached with an ensemble of Weibull accelerated failure times model and deep learning methods. In addition to patient health record data, we explore whether processing graphs of image patches centred at the tumours via graph convolutions can improve the prognostic predictions. A concordance index of 0.64 was achieved in the test set, ranking 6th in the challenge leaderboard for this task. | 翻訳日:2023-05-17 18:30:29 公開日:2023-05-16 |
# 経路パッチングによるモデル行動の局在化 Localizing Model Behavior with Path Patching ( http://arxiv.org/abs/2304.05969v2 ) ライセンス: Link先を確認 | Nicholas Goldowsky-Dill, Chris MacLeod, Lucas Sato, Aryaman Arora | (参考訳) ニューラルネットワークの動作をネットワークのコンポーネントのサブセットやコンポーネント間のインタラクションのサブセットにローカライズすることは、ネットワークメカニズムと可能な障害モードを分析するための自然な第一歩である。
既存の作業はしばしば質的かつアドホックであり、ローカライゼーションのクレームを評価する適切な方法に関するコンセンサスはない。
我々は,行動が経路群に局在していることを示す自然な仮説のクラスを表現し,定量的にテストする手法であるpath patchingを導入する。
本稿では,誘導ヘッドの説明を洗練し,gpt-2の挙動を特徴付け,同様の実験を効率的に行うためのフレームワークをオープンソースとして公開する。 Localizing behaviors of neural networks to a subset of the network's components or a subset of interactions between components is a natural first step towards analyzing network mechanisms and possible failure modes. Existing work is often qualitative and ad-hoc, and there is no consensus on the appropriate way to evaluate localization claims. We introduce path patching, a technique for expressing and quantitatively testing a natural class of hypotheses expressing that behaviors are localized to a set of paths. We refine an explanation of induction heads, characterize a behavior of GPT-2, and open source a framework for efficiently running similar experiments. | 翻訳日:2023-05-17 18:30:04 公開日:2023-05-16 |
# vqeを用いた励起状態の研究のためのペナルティのシーケンス Sequence of penalties method to study excited states using VQE ( http://arxiv.org/abs/2304.05262v2 ) ライセンス: Link先を確認 | Rodolfo Carobene, Stefano Barison, Andrea Giachero | (参考訳) 本稿では、より正確なエネルギー推定を導き、励起状態の研究に使用できる変分量子固有解法(VQE)の拡張を提案する。
この方法は、コスト関数におけるペナルティの増加のシーケンスの導入に基づいている。
このアプローチは回路の変更を必要としないため、追加の深度コストで適用することができる。
数値シミュレーションにより,全スピンや電荷など,所望の物理的性質を持つ変分状態を生成することができることを示した。
我々は、古典シミュレータと現在利用可能な量子デバイスの両方で性能を評価し、物理構成の異なる小さな分子系のポテンシャルエネルギー曲線を計算する。
最後に,本手法を元のVQE法と他の拡張法と比較し,エネルギー量と対象物理量の両方の正確なシミュレーションとよく一致した。 We propose an extension of the Variational Quantum Eigensolver (VQE) that leads to more accurate energy estimations and can be used to study excited states. The method is based on the introduction of a sequence of increasing penalties in the cost function. This approach does not require circuit modifications and thus can be applied with no additional depth cost. Through numerical simulations, we show that we are able to produce variational states with desired physical properties, such as total spin and charge. We assess its performance both on classical simulators and on currently available quantum devices, calculating the potential energy curves of small molecular systems in different physical configurations. Finally, we compare our method to the original VQE and to another extension, obtaining a better agreement with exact simulations for both energy and targeted physical quantities. | 翻訳日:2023-05-17 18:29:52 公開日:2023-05-16 |
# YOLOv8アルゴリズムを用いた小児関節外傷X線画像の破壊検出 Fracture Detection in Pediatric Wrist Trauma X-ray Images Using YOLOv8 Algorithm ( http://arxiv.org/abs/2304.05071v3 ) ライセンス: Link先を確認 | Rui-Yang Ju, Weiming Cai | (参考訳) 病院の救急部門では、多くの骨折が頻繁に発生し、そのほとんどが小児手首外傷骨折である。
小児外科医が手術を行う前は,骨折がどのように発生したか患者に質問し,x線像を解釈して骨折状況を分析する必要がある。
X線画像の解釈は、しばしば放射線医と外科医の技法の組み合わせを必要とする。
コンピュータビジョンの分野におけるディープラーニングの台頭に伴い、破壊検出に適用するネットワークモデルが重要な研究課題となっている。
本稿では、GRAZPEDWRI-DXデータセット上でYOLOv8(You Only Look Onceの最新バージョン)モデルをトレーニングし、データ拡張を用いてモデル性能を向上させる。
実験の結果,本モデルは最先端(sota)リアルタイムモデル性能に到達した。
具体的には、yolov8sモデルと比較して、入力画像サイズ640と1024で平均精度(map 50)が0.604から0.625から0.612、0.631に向上した。
小児手関節外傷X線画像の骨折検出に外科医が利用できるように, 手術者の骨折診断を支援し, エラー解析の可能性を低減し, 手術に有用な情報を提供するアプリケーション「YOLOv8 Appを用いたフラクチャー検出」を設計した。
実装コードはhttps://github.com/RuiyangJu/Bone_Fracture_Detection_YOLOv8で公開されています。 Hospital emergency departments frequently receive lots of bone fracture cases, with pediatric wrist trauma fracture accounting for the majority of them. Before pediatric surgeons perform surgery, they need to ask patients how the fracture occurred and analyze the fracture situation by interpreting X-ray images. The interpretation of X-ray images often requires a combination of techniques from radiologists and surgeons, which requires time-consuming specialized training. With the rise of deep learning in the field of computer vision, network models applying for fracture detection has become an important research topic. In this paper, we train YOLOv8 (the latest version of You Only Look Once) model on the GRAZPEDWRI-DX dataset, and use data augmentation to improve the model performance. The experimental results show that our model have reached the state-of-the-art (SOTA) real-time model performance. Specifically, compared to YOLOv8s models, the mean average precision (mAP 50) of our models improve from 0.604 and 0.625 to 0.612 and 0.631 at the input image size of 640 and 1024, respectively. To enable surgeons to use our model for fracture detection on pediatric wrist trauma X-ray images, we have designed the application "Fracture Detection Using YOLOv8 App" to assist surgeons in diagnosing fractures, reducing the probability of error analysis, and providing more useful information for surgery. Our implementation code is released at https://github.com/RuiyangJu/Bone_Fracture_Detection_YOLOv8. | 翻訳日:2023-05-17 18:29:39 公開日:2023-05-16 |
# 準エントロピーの単調性における等式、リーブの凹凸、安藤の凸凸 Equality cases in monotonicity of quasi-entropies, Lieb's concavity and Ando's convexity ( http://arxiv.org/abs/2304.04361v2 ) ライセンス: Link先を確認 | Fumio Hiai | (参考訳) 我々はペッツによる準エントロピーの連接凹凸性および単調特性を再検討し改善する。
次に、準エントロピーの単調性不等式(データ処理の不等式)における等式をいくつかの方法で特徴づける: $\Phi:\mathcal{B}(\mathcal{H})\to\mathcal{B}(\mathcal{K})$ を、$\Phi^*$ がシュワルツ写像であるようなトレース保存正の写像とする。
f$ が作用素単調または作用素凸函数であるとき、$[0,\infty)$ 上の等式 $s_f^k(\phi(\rho)\|\phi(\sigma))=s_f^{\phi^*(k)}(\rho\|\sigma)$ に対して、与えられた密度作用素 $\rho,\sigma$ on $\mathcal{h}$ と $k\in\mathcal{b}(\mathcal{k})$ の同値条件がいくつか提示される。
この条件は、リーブの凹凸の単調版とアンドーの凸定理の等式を含む。
写像 $\Phi$ の特殊化には、リーブの凹凸とアンドーの凸性に等しい条件がある。
同様の等式条件は、単調測度や$\chi^2$-divergencesに対しても議論される。
さらに,これらの量子情報量に対する線形保存問題についても考察する。 We revisit and improve joint concavity/convexity and monotonicity properties of quasi-entropies due to Petz in a new fashion. Then we characterize equality cases in the monotonicity inequalities (the data-processing inequalities) of quasi-entropies in several ways as follows: Let $\Phi:\mathcal{B}(\mathcal{H})\to\mathcal{B}(\mathcal{K})$ be a trace-preserving positive map such that $\Phi^*$ is a Schwarz map. When $f$ is an operator monotone or operator convex function on $[0,\infty)$, we present several equivalent conditions for the equality $S_f^K(\Phi(\rho)\|\Phi(\sigma))=S_f^{\Phi^*(K)}(\rho\|\sigma)$ to hold for given density operators $\rho,\sigma$ on $\mathcal{H}$ and $K\in\mathcal{B}(\mathcal{K})$. The conditions include equality cases in the monotonicity versions of Lieb's concavity and Ando's convexity theorems. Specializing the map $\Phi$ we have equivalent conditions for equality cases in Lieb's concavity and Ando's convexity. Similar equality conditions are discussed also for monotone metrics and $\chi^2$-divergences. We further consider some types of linear preserver problems for those quantum information quantities. | 翻訳日:2023-05-17 18:29:13 公開日:2023-05-16 |
# ロバストと生成モデルとのつながりを探る Exploring the Connection between Robust and Generative Models ( http://arxiv.org/abs/2304.04033v3 ) ライセンス: Link先を確認 | Senad Beadini and Iacopo Masi | (参考訳) 我々は,敵対的訓練(AT)で訓練された頑健な識別的分類器と,エネルギーベースモデル(EBM)の形で生成的モデリングを結びつける研究を提案する。
我々は、識別的分類器の損失を分解し、識別的モデルが入力データ密度も認識していることを示す。
一般的な仮定は、逆数点が入力データの多様体を残していることであるが、我々の研究は、驚くほど、入力空間の未ターゲットの逆数点が、識別型分類器の内部に隠された生成モデルの下では、EMMのエネルギーが低いことを発見した。
非標的攻撃は、自然データよりもさらに可能性が高く、攻撃強度が増大するにつれてその可能性が増加する。
これにより、それらを簡単に検出し、分類器を騙してデータセットに似たエネルギーを持つ、High-Energy PGDと呼ばれる新しい攻撃を作れます。 We offer a study that connects robust discriminative classifiers trained with adversarial training (AT) with generative modeling in the form of Energy-based Models (EBM). We do so by decomposing the loss of a discriminative classifier and showing that the discriminative model is also aware of the input data density. Though a common assumption is that adversarial points leave the manifold of the input data, our study finds out that, surprisingly, untargeted adversarial points in the input space are very likely under the generative model hidden inside the discriminative classifier -- have low energy in the EBM. We present two evidence: untargeted attacks are even more likely than the natural data and their likelihood increases as the attack strength increases. This allows us to easily detect them and craft a novel attack called High-Energy PGD that fools the classifier yet has energy similar to the data set. | 翻訳日:2023-05-17 18:28:35 公開日:2023-05-16 |
# ChatGPTを用いたメンタルヘルス分析の解釈に向けて Towards Interpretable Mental Health Analysis with ChatGPT ( http://arxiv.org/abs/2304.03347v2 ) ライセンス: Link先を確認 | Kailai Yang, Shaoxiong Ji, Tianlin Zhang, Qianqian Xie, Ziyan Kuang, Sophia Ananiadou | (参考訳) メンタルヘルス分析の自動化は、プレトレーニング言語モデル(plm)とインクルード感情情報を用いて、メンタルヘルスケアの効率とアクセシビリティを向上させる大きな可能性を示している。
ChatGPTのような最新の大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに劇的な能力を示す。
しかし、メンタルヘルス分析のためのChatGPTの研究は、不適切な評価、感情情報の無知、説明可能性の欠如に限界がある。
これらのギャップを埋めるために,5つの課題にまたがる11のデータセット上で,chatgptのメンタルヘルス分析と感情推論能力を総合的に評価し,様々な感情に基づく促進戦略の効果を分析した。
これらのプロンプトに基づき,それぞれの意思決定に関する説明も生成するように指示することで,精神保健分析の解釈のためのLCMをさらに探求する。
ドメインの専門家が設計したアノテーションプロトコルを用いて,chatgpt と gpt-3 が生成する説明の質を評価するための評価を行う。
注釈付きコーパスは今後の研究のためにリリースされる予定だ。
実験の結果、ChatGPTは従来のニューラルネットワークベースの手法よりも優れているが、高度なタスク固有の手法と大きな差があることがわかった。
感情的な手がかりを持つプロンプトエンジニアリングは、メンタルヘルス分析のパフォーマンス向上に有効であるが、堅牢性の欠如と不正確な推論に悩まされている。
加えて、ChatGPTは、人間のパフォーマンスに関する説明やアプローチの人間評価における全ての基準において、GPT-3を著しく上回り、説明可能な精神保健分析においてその大きな可能性を示している。 Automated mental health analysis shows great potential for enhancing the efficiency and accessibility of mental health care, with recent methods using pre-trained language models (PLMs) and incorporated emotional information. The latest large language models (LLMs), such as ChatGPT, exhibit dramatic capabilities on diverse natural language processing tasks. However, existing studies on ChatGPT for mental health analysis bear limitations in inadequate evaluations, ignorance of emotional information, and lack of explainability. To bridge these gaps, we comprehensively evaluate the mental health analysis and emotional reasoning ability of ChatGPT on 11 datasets across 5 tasks, and analyze the effects of various emotion-based prompting strategies. Based on these prompts, we further explore LLMs for interpretable mental health analysis by instructing them to also generate explanations for each of their decisions. With an annotation protocol designed by domain experts, we convey human evaluations to assess the quality of explanations generated by ChatGPT and GPT-3. The annotated corpus will be released for future research. Experimental results show that ChatGPT outperforms traditional neural network-based methods but still has a significant gap with advanced task-specific methods. Prompt engineering with emotional cues can be effective in improving performance on mental health analysis but suffers from a lack of robustness and inaccurate reasoning. In addition, ChatGPT significantly outperforms GPT-3 on all criteria in human evaluations of the explanations and approaches to human performance, showing its great potential in explainable mental health analysis. | 翻訳日:2023-05-17 18:28:16 公開日:2023-05-16 |
# 高次元超統計特徴の分類 Classification of Superstatistical Features in High Dimensions ( http://arxiv.org/abs/2304.02912v2 ) ライセンス: Link先を確認 | Urte Adomaityte, Gabriele Sicuro, Pierpaolo Vivo | (参考訳) 一般凸損失と凸正則化を前提に,高次元状態における経験的リスク最小化による2つのデータポイントと汎用セントロイドの混合学習を特徴付ける。
データポイントの各クラウドは、一般確率密度 $\varrho$ の分散を持つガウス分布のおそらく非可算な重ね合わせからサンプリングすることによって得られる。
そこで本分析では,共分散を伴わないパワーローテール分布を含む,大量のデータ分布を網羅する。
得られた推定器の一般化性能について検討し,正規化の役割と分散スケールパラメータへの分離性遷移の依存性を解析した。 We characterise the learning of a mixture of two clouds of data points with generic centroids via empirical risk minimisation in the high dimensional regime, under the assumptions of generic convex loss and convex regularisation. Each cloud of data points is obtained by sampling from a possibly uncountable superposition of Gaussian distributions, whose variance has a generic probability density $\varrho$. Our analysis covers therefore a large family of data distributions, including the case of power-law-tailed distributions with no covariance. We study the generalisation performance of the obtained estimator, we analyse the role of regularisation, and the dependence of the separability transition on the distribution scale parameters. | 翻訳日:2023-05-17 18:27:47 公開日:2023-05-16 |
# 文脈付き文埋め込みの効率的な量子化のためのハッシュランダム投影の再発見 Rediscovering Hashed Random Projections for Efficient Quantization of Contextualized Sentence Embeddings ( http://arxiv.org/abs/2304.02481v2 ) ライセンス: Link先を確認 | Ulf A. Hamster, Ji-Ung Lee, Alexander Geyken, Iryna Gurevych | (参考訳) エッジデバイスでのトレーニングと推論は、しばしば計算の制限のために効率的なセットアップを必要とする。
データ表現の事前計算とサーバへのキャッシュは、エッジデバイスの広範な計算を軽減できますが、これは2つの課題をもたらします。
まず、インスタンス数に線形にスケールするサーバに必要なストレージの量。
第二に、大量のデータをエッジデバイスに送るのに必要な帯域幅がある。
予め計算したデータ表現のメモリフットプリントを削減するために,ランダムに初期化された超平面投影を用いた単純かつ効果的な手法を提案する。
さらに98.96%まで小さくするため、結果の浮動小数点表現をバイナリベクトルに量子化する。
サイズが大幅に縮小したにもかかわらず、埋め込みは、浮動小数点の94%--99%を保持する様々な英語およびドイツ語の文分類タスクのトレーニングモデルに有効であることを示す。 Training and inference on edge devices often requires an efficient setup due to computational limitations. While pre-computing data representations and caching them on a server can mitigate extensive edge device computation, this leads to two challenges. First, the amount of storage required on the server that scales linearly with the number of instances. Second, the bandwidth required to send extensively large amounts of data to an edge device. To reduce the memory footprint of pre-computed data representations, we propose a simple, yet effective approach that uses randomly initialized hyperplane projections. To further reduce their size by up to 98.96%, we quantize the resulting floating-point representations into binary vectors. Despite the greatly reduced size, we show that the embeddings remain effective for training models across various English and German sentence classification tasks that retain 94%--99% of their floating-point. | 翻訳日:2023-05-17 18:27:35 公開日:2023-05-16 |
# Semimemes:マルチモーダルミーム分析のための半教師付き学習手法 SemiMemes: A Semi-supervised Learning Approach for Multimodal Memes Analysis ( http://arxiv.org/abs/2304.00020v2 ) ライセンス: Link先を確認 | Pham Thai Hoang Tung, Nguyen Tan Viet, Ngo Tien Anh, Phan Duy Hung | (参考訳) ソーシャルメディア上でのミームの流行は、有害コンテンツを検閲する彼らの根底にある意味を分析する必要性を生み出している。
機械学習によるミーム検閲システムは、インターネット上で利用可能な多数のラベルのないミームを活用するための、半教師付き学習ソリューションの必要性を高め、アノテーション処理を難しくする。
さらに、このアプローチは、通常、画像とテキストの両方から得られるミームの意味として、マルチモーダルデータを利用する必要がある。
本研究は,マルチメディア自動マイソジニー識別とHateful Memesデータセットの2つのデータセット上で,他のマルチモーダル半教師付き学習と教師付き学習モデルを上回る,マルチモーダル半教師付き学習手法を提案する。
効果的なマルチモーダル学習手法であるContrastive Language-Image Pre-Trainingから得られた知見に基づいて,自動エンコーダと分類タスクを組み合わせた,資源に恵まれないデータを活用する新たなトレーニング手法であるSemiMemesを紹介する。 The prevalence of memes on social media has created the need to sentiment analyze their underlying meanings for censoring harmful content. Meme censoring systems by machine learning raise the need for a semi-supervised learning solution to take advantage of the large number of unlabeled memes available on the internet and make the annotation process less challenging. Moreover, the approach needs to utilize multimodal data as memes' meanings usually come from both images and texts. This research proposes a multimodal semi-supervised learning approach that outperforms other multimodal semi-supervised learning and supervised learning state-of-the-art models on two datasets, the Multimedia Automatic Misogyny Identification and Hateful Memes dataset. Building on the insights gained from Contrastive Language-Image Pre-training, which is an effective multimodal learning technique, this research introduces SemiMemes, a novel training method that combines auto-encoder and classification task to make use of the resourceful unlabeled data. | 翻訳日:2023-05-17 18:27:21 公開日:2023-05-16 |
# 大規模言語モデルによるYAMLの情報技術タスクの自動コード生成 Automated Code generation for Information Technology Tasks in YAML through Large Language Models ( http://arxiv.org/abs/2305.02783v3 ) ライセンス: Link先を確認 | Saurabh Pujar, Luca Buratti, Xiaojie Guo, Nicolas Dupuis, Burn Lewis, Sahil Suneja, Atin Sood, Ganesh Nalawade, Matthew Jones, Alessandro Morari, Ruchir Puri | (参考訳) 大規模言語モデルの使用によるコード生成能力の最近の改善は、主に汎用プログラミング言語の恩恵を受けている。
ITオートメーションで使用されるようなドメイン固有言語は、多くのアクティブな開発者を巻き込み、現代のクラウドプラットフォームに不可欠なコンポーネントであるにもかかわらず、はるかに注目を集めている。
この作業は、ITオートメーションのための広く使われているマークアップ言語であるAnsible-YAMLの生成に焦点を当てている。
私たちは、IT自動化の生産性向上を目的とした、Ansible-YAMLコード生成ツールであるAnsible Wisdomを紹介します。
ansible wisdomはtransformerベースのモデルで、ansible-yamlを含む新しいデータセットでトレーニングによって拡張される。
また、YAMLとAnsibleの2つの新しいパフォーマンス指標を開発し、この領域の特徴を捉える。
その結果、Ansible Wisdomは、既存のアートコード生成モデルと同等かそれ以上のパフォーマンスで、自然言語プロンプトからAnsibleスクリプトを正確に生成できることがわかった。
わずかな設定で、Ansible、YAMLデータによるトレーニングの影響を評価し、Codex-Davinci-002など、さまざまなベースラインと比較します。
また、微調整後、我々のansible特定モデルは、わずかなショット設定で、はるかに大きなcodex-davinci-002のパフォーマンスを上回ることも示しています。 The recent improvement in code generation capabilities due to the use of large language models has mainly benefited general purpose programming languages. Domain specific languages, such as the ones used for IT Automation, have received far less attention, despite involving many active developers and being an essential component of modern cloud platforms. This work focuses on the generation of Ansible-YAML, a widely used markup language for IT Automation. We present Ansible Wisdom, a natural-language to Ansible-YAML code generation tool, aimed at improving IT automation productivity. Ansible Wisdom is a transformer-based model, extended by training with a new dataset containing Ansible-YAML. We also develop two novel performance metrics for YAML and Ansible to capture the specific characteristics of this domain. Results show that Ansible Wisdom can accurately generate Ansible script from natural language prompts with performance comparable or better than existing state of the art code generation models. In few-shot settings we asses the impact of training with Ansible, YAML data and compare with different baselines including Codex-Davinci-002. We also show that after finetuning, our Ansible specific model can beat the performance of a much larger Codex-Davinci-002 in few shot settings. | 翻訳日:2023-05-17 18:20:59 公開日:2023-05-16 |
# 多値量子ニューロン Multi-Valued Quantum Neurons ( http://arxiv.org/abs/2305.02018v2 ) ライセンス: Link先を確認 | M. W. AlMasri | (参考訳) 多値量子論理は、量子基底状態のバーグマン表現を用いて体系的に定式化される。
このアプローチでは、真理値は自然に単位円上に置かれるユニタリのユニークな根として表される。
したがって、多値量子ニューロンは複素数体上の多重値しきい値論理の原理に基づいている。
MVQNの訓練は、単位円に沿った運動に還元される。
多値量子ニューロンに基づく量子ニューラルネットワーク(QNN)は、複雑な重み、入力、および単位のルートで符号化された出力と、複素平面を単位円にマッピングする活性化関数で構築することができる。
このようなニューラルネットワークは、同じ数のニューロンと層を持つバイナリ入力に基づく量子ニューラルネットワークと比較して、高速収束と高機能を享受する。
光ベースのQNNの軌道角運動量(OAM)を用いて応用できる可能性がある。 The multiple-valued quantum logic is formulated in a systematic way using the Bargmann representation of quantum basis states. In this approach, the truth values are represented naturally as unique roots of unity placed on the unit circle. Consequently, multi-valued quantum neurons are based on the principles of multiple-valued threshold logic over the field of complex numbers. The training of MVQN is reduced to the movement along the unit circle. A quantum neural networks (QNNs) based on multi-valued quantum neurons can be constructed with complex weights, inputs, and outputs encoded by roots of unity and an activation function that maps the complex plane into the unit circle. Such neural networks enjoy fast convergence and higher functionalities compared with quantum neural networks based on binary input with the same number of neurons and layers. Possible practical application can be found using the orbital angular momentum (OAM) of light based QNNs. | 翻訳日:2023-05-17 18:20:39 公開日:2023-05-16 |
# 確率制約付き投影不要オンライン凸最適化 Projection-Free Online Convex Optimization with Stochastic Constraints ( http://arxiv.org/abs/2305.01333v2 ) ライセンス: Link先を確認 | Duksang Lee, Nam Ho-Nguyen, Dabeen Lee | (参考訳) 本稿では,確率制約付きオンライン凸最適化のためのプロジェクションフリーアルゴリズムを提案する。
オンライン凸最適化のために開発されたプロジェクションフリーのアルゴリズムを,長期的制約なく利用することができる。
この一般的なテンプレートを用いて、様々な設定に対するサブ線形後悔と制約違反境界を推定する。
さらに、損失関数と制約関数が滑らかな場合には、$O(\sqrt{T})$ regret および $O(T^{3/4})$ constraint violations を達成する原始双対条件勾配法を開発する。
さらに、損失関数と制約関数が確率的であり、関連するオフライン確率最適化問題に強い双対性があるような場合、この制約違反は、後悔と同じ漸近的成長を持つことができることを示す。 This paper develops projection-free algorithms for online convex optimization with stochastic constraints. We design an online primal-dual projection-free framework that can take any projection-free algorithms developed for online convex optimization with no long-term constraint. With this general template, we deduce sublinear regret and constraint violation bounds for various settings. Moreover, for the case where the loss and constraint functions are smooth, we develop a primal-dual conditional gradient method that achieves $O(\sqrt{T})$ regret and $O(T^{3/4})$ constraint violations. Furthermore, for the setting where the loss and constraint functions are stochastic and strong duality holds for the associated offline stochastic optimization problem, we prove that the constraint violation can be reduced to have the same asymptotic growth as the regret. | 翻訳日:2023-05-17 18:20:24 公開日:2023-05-16 |
# GPT-2はどのように計算しますか?
事前学習言語モデルにおける数学的能力の解釈 How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model ( http://arxiv.org/abs/2305.00586v2 ) ライセンス: Link先を確認 | Michael Hanna, Ollie Liu and Alexandre Variengien | (参考訳) 事前訓練された言語モデルは、明示的に訓練されていないタスクに驚くほど適しているが、これらの機能の実装方法はあまり理解されていない。
本稿では,事前学習された言語モデルによってしばしば得られる基本的な数学的能力について検討する。
具体的には,GPT-2の(限定的な)数学的能力を説明するために,機械的解釈可能性技術を用いる。
ケーススタディとして,「戦争は1732年から17年まで続いた」などの文を取り込む能力について検討し,有効な2桁終了年(32歳未満)を予測した。
まず、このタスクの出力を計算するGPT-2小の計算グラフの小さなサブセットである回路を同定する。
そして、各回路部品の役割を説明し、GPT-2小の最終的な多層パーセプトロンが、開始年よりも終末年の確率を高めることを示す。
最後に、回路を活性化する関連タスクを見つける。
以上の結果から,GPT-2は多種多様なコンテキストにまたがって活性化する複雑だが汎用的な機構を用いて計算を行う。 Pre-trained language models can be surprisingly adept at tasks they were not explicitly trained on, but how they implement these capabilities is poorly understood. In this paper, we investigate the basic mathematical abilities often acquired by pre-trained language models. Concretely, we use mechanistic interpretability techniques to explain the (limited) mathematical abilities of GPT-2 small. As a case study, we examine its ability to take in sentences such as "The war lasted from the year 1732 to the year 17", and predict valid two-digit end years (years > 32). We first identify a circuit, a small subset of GPT-2 small's computational graph that computes this task's output. Then, we explain the role of each circuit component, showing that GPT-2 small's final multi-layer perceptrons boost the probability of end years greater than the start year. Finally, we find related tasks that activate our circuit. Our results suggest that GPT-2 small computes greater-than using a complex but general mechanism that activates across diverse contexts. | 翻訳日:2023-05-17 18:20:08 公開日:2023-05-16 |
# 領域一般化のための適度な分布探索 Moderately Distributional Exploration for Domain Generalization ( http://arxiv.org/abs/2304.13976v2 ) ライセンス: Link先を確認 | Rui Dai, Yonggang Zhang, Zhen Fang, Bo Han, Xinmei Tian | (参考訳) ドメイン一般化(DG)は、トレーニングドメインと未知のターゲットドメイン間の分散シフトに取り組むことを目的としている。
新しいドメインの生成は最も効果的なアプローチの1つであるが、その性能向上は生成されたドメインと対象ドメインの分布差に依存する。
分布的ロバストな最適化は、不確実性集合内の領域を探索することで分布の不一致に取り組むことを約束する。
しかし、不確実性集合は圧倒的に大きくなり、DGの低信頼予測につながる。
これは、大きな不確実性セットが、トレーニングドメインと意味的に異なる要素を含むドメインを導入する可能性があるためである。
この問題に対処するために、ドメインの一般化のために$\textbf{mo}$derately $\textbf{d}$istributional $\textbf{e}$xploration (mode)を実行することを提案する。
具体的には、MODEはトレーニングドメインと同じ意味的要素を共有する不確実性$\textit{subset}$で分散探索を行う。
MODEは、未知のターゲット領域上で、証明可能な一般化性能を持つモデルを提供することができることを示す。
実験結果から,MODEは最先端のベースラインに比べて競争性能が高いことがわかった。 Domain generalization (DG) aims to tackle the distribution shift between training domains and unknown target domains. Generating new domains is one of the most effective approaches, yet its performance gain depends on the distribution discrepancy between the generated and target domains. Distributionally robust optimization is promising to tackle distribution discrepancy by exploring domains in an uncertainty set. However, the uncertainty set may be overwhelmingly large, leading to low-confidence prediction in DG. It is because a large uncertainty set could introduce domains containing semantically different factors from training domains. To address this issue, we propose to perform a $\textbf{mo}$derately $\textbf{d}$istributional $\textbf{e}$xploration (MODE) for domain generalization. Specifically, MODE performs distribution exploration in an uncertainty $\textit{subset}$ that shares the same semantic factors with the training domains. We show that MODE can endow models with provable generalization performance on unknown target domains. The experimental results show that MODE achieves competitive performance compared to state-of-the-art baselines. | 翻訳日:2023-05-17 18:19:39 公開日:2023-05-16 |
# 多様性重みによる生成モデルのモードバランス Towards Mode Balancing of Generative Models via Diversity Weights ( http://arxiv.org/abs/2304.11961v2 ) ライセンス: Link先を確認 | Sebastian Berns, Simon Colton, Christian Guckelsberger | (参考訳) 大規模なデータ駆動画像モデルは、創造的および芸術的な作業をサポートするために広く使われている。
現在支配的な分布適合パラダイムの下では、データセットは可能な限り密接に近似される基底真理として扱われる。
しかし、多くのクリエイティブアプリケーションは多様な出力を必要としており、クリエーターは与えられたデータ分布から積極的に分岐しようと努力する。
純モードカバレッジからモードバランスへのモデリング対象の調整は、より高い出力多様性の目標を満たすために必要である、と我々は主張する。
本稿では,トレーニングデータセットのモードのバランスをとることで,モデルの出力多様性を高めるトレーニング手法であるdiversity weightsを提案する。
制御された環境での最初の実験は,本手法の可能性を実証した。
我々は、より一般的に、生成機械学習における多様性、エクイティ、包摂性への我々のアプローチの関連と、特に計算的創造性について論じる。
アルゴリズムの実装はhttps://github.com/sebastianberns/diversity-weightsで利用可能です。 Large data-driven image models are extensively used to support creative and artistic work. Under the currently predominant distribution-fitting paradigm, a dataset is treated as ground truth to be approximated as closely as possible. Yet, many creative applications demand a diverse range of output, and creators often strive to actively diverge from a given data distribution. We argue that an adjustment of modelling objectives, from pure mode coverage towards mode balancing, is necessary to accommodate the goal of higher output diversity. We present diversity weights, a training scheme that increases a model's output diversity by balancing the modes in the training dataset. First experiments in a controlled setting demonstrate the potential of our method. We discuss connections of our approach to diversity, equity, and inclusion in generative machine learning more generally, and computational creativity specifically. An implementation of our algorithm is available at https://github.com/sebastianberns/diversity-weights | 翻訳日:2023-05-17 18:19:18 公開日:2023-05-16 |
# 等化オッドは等化個性オッドではない:グループと個性のための後処理 Equalised Odds is not Equal Individual Odds: Post-processing for Group and Individual Fairness ( http://arxiv.org/abs/2304.09779v2 ) ライセンス: Link先を確認 | Edward A. Small, Kacper Sokol, Daniel Manning, Flora D. Salim, Jeffrey Chan | (参考訳) グループフェアネスは保護されたサブ人口間の予測分布を等しくすることで達成される。
しかし、これらの2つの目的は、不連続確率関数を通じてスコアリングモデルが校正される場合、個人が固定確率によって決定された結果をランダムに割り当てることができる場合、互換性がない。
この手順は、異なる分類の確率を持つ同じ保護グループの2つの類似した個人を提供する可能性がある。
それぞれの保護されたサブ人口にユニークな確率を割り当てることで、あるサブ人口のメンバーが別の集団に同じ確率でプラスの結果を得るのを防ぐこともできる。
我々は、リプシッツ定数によって制約される群閾値間の連続確率関数を構築することにより、これらすべてを解消する。
我々のソリューションは、グループの公平性を確保しつつ、モデルの予測力、個々人の公平性、堅牢性を維持します。 Group fairness is achieved by equalising prediction distributions between protected sub-populations; individual fairness requires treating similar individuals alike. These two objectives, however, are incompatible when a scoring model is calibrated through discontinuous probability functions, where individuals can be randomly assigned an outcome determined by a fixed probability. This procedure may provide two similar individuals from the same protected group with classification odds that are disparately different -- a clear violation of individual fairness. Assigning unique odds to each protected sub-population may also prevent members of one sub-population from ever receiving equal chances of a positive outcome to another, which we argue is another type of unfairness called individual odds. We reconcile all this by constructing continuous probability functions between group thresholds that are constrained by their Lipschitz constant. Our solution preserves the model's predictive power, individual fairness and robustness while ensuring group fairness. | 翻訳日:2023-05-17 18:19:04 公開日:2023-05-16 |
# GeneGPT: バイオメディカル情報へのアクセスを改善するためのドメインツールによる大規模言語モデルの拡張 GeneGPT: Augmenting Large Language Models with Domain Tools for Improved Access to Biomedical Information ( http://arxiv.org/abs/2304.09667v3 ) ライセンス: Link先を確認 | Qiao Jin, Yifan Yang, Qingyu Chen, Zhiyong Lu | (参考訳) 大きな言語モデル(LLM)は様々なタスクにうまく適用されているが、幻覚を伴う課題に直面している。
データベースユーティリティなどのドメイン固有のツールでLLMを拡張することで、専門知識へのより簡単かつ正確なアクセスが容易になる。
本稿では,国立バイオテクノロジー情報センター (NCBI) の Web API を利用した LLM 教育のための新しい手法である GeneGPT を提案する。
具体的には,NCBI Web APIを用いたGeneTuringテストのインコンテキスト学習と,APIコールの検出と実行が可能なデコードアルゴリズムにより,Codexに解決を促す。
実験の結果,GeneGPTは平均スコア0.83の8つのタスクにおいて,Bing (0.44), BioMedLM (0.08), BioGPT (0.04), GPT-3 (0.16), ChatGPT (0.12)などのバイオメディカルLLMをはるかに上回っている。
さらなる分析から,(1)apiのデモンストレーションはクロスタスクの汎用性が高く,文脈内学習のためのドキュメントよりも有用である。(2)genegptは,この作業で導入された新たなデータセットであるgenehopにおいて,api呼び出しの長いチェーンに一般化し,マルチホップの質問に答えることができる。 While large language models (LLMs) have been successfully applied to various tasks, they still face challenges with hallucinations. Augmenting LLMs with domain-specific tools such as database utilities can facilitate easier and more precise access to specialized knowledge. In this paper, we present GeneGPT, a novel method for teaching LLMs to use the Web APIs of the National Center for Biotechnology Information (NCBI) for answering genomics questions. Specifically, we prompt Codex to solve the GeneTuring tests with NCBI Web APIs by in-context learning and an augmented decoding algorithm that can detect and execute API calls. Experimental results show that GeneGPT achieves state-of-the-art performance on eight tasks in the GeneTuring benchmark with an average score of 0.83, largely surpassing retrieval-augmented LLMs such as the new Bing (0.44), biomedical LLMs such as BioMedLM (0.08) and BioGPT (0.04), as well as GPT-3 (0.16) and ChatGPT (0.12). Our further analyses suggest that: (1) API demonstrations have good cross-task generalizability and are more useful than documentations for in-context learning; (2) GeneGPT can generalize to longer chains of API calls and answer multi-hop questions in GeneHop, a novel dataset introduced in this work; (3) Different types of errors are enriched in different tasks, providing valuable insights for future improvements. | 翻訳日:2023-05-17 18:18:46 公開日:2023-05-16 |
# BARA: クロスサイロ・フェデレーションラーニングにおけるオンラインリワード予算配分による効果的なインセンティブメカニズム BARA: Efficient Incentive Mechanism with Online Reward Budget Allocation in Cross-Silo Federated Learning ( http://arxiv.org/abs/2305.05221v2 ) ライセンス: Link先を確認 | Yunchao Yang, Yipeng Zhou, Miao Hu, Di Wu, Quan Z. Sheng | (参考訳) Federated Learning(FL)は、データプライバシを保護可能な、予測可能な分散機械学習フレームワークである。
特に、クロスサイロFLは、複数の通信ラウンドのモデルパラメータを交換することで、異なる組織の孤立したデータアイランドをパラメータサーバ(PS)と協調させることで、モデルトレーニングを完了することができる。
クロスサイロFLでは、データ所有者がFLトレーニングにモデルを貢献するためのインセンティブメカニズムが不可欠である。
しかし、異なるラウンドに報酬予算を割り当てる方法は必須だが、既存の作業で見落とされがちな問題である。
この問題の課題は、報酬予算配分とモデルユーティリティ改善の間の不透明なフィードバックであり、最適な報酬予算割り当てを複雑にしている。
この問題を解決するために、BARA (\underline{B}udget \underline{A}llocation for \underline{R}everse \underline{A}uction) というベイズ最適化を用いたオンライン報酬予算配分アルゴリズムを設計する。
具体的には、通信ラウンド毎に割り当てられた報酬予算を動的に最適化し、最終モデルユーティリティを最大化できるように、歴史訓練記録に基づいてflにおける報酬予算割り当てと最終モデル精度との複雑な関係をモデル化することができる。
さらに,BARAアルゴリズムを逆オークションベースのインセンティブ機構に組み込んで,その有効性を示す。
実データセット上で大規模な実験を行い、BARAが同じ報酬予算でモデルユーティリティを改善することにより、競争ベースラインを著しく上回ることを示す。 Federated learning (FL) is a prospective distributed machine learning framework that can preserve data privacy. In particular, cross-silo FL can complete model training by making isolated data islands of different organizations collaborate with a parameter server (PS) via exchanging model parameters for multiple communication rounds. In cross-silo FL, an incentive mechanism is indispensable for motivating data owners to contribute their models to FL training. However, how to allocate the reward budget among different rounds is an essential but complicated problem largely overlooked by existing works. The challenge of this problem lies in the opaque feedback between reward budget allocation and model utility improvement of FL, making the optimal reward budget allocation complicated. To address this problem, we design an online reward budget allocation algorithm using Bayesian optimization named BARA (\underline{B}udget \underline{A}llocation for \underline{R}everse \underline{A}uction). Specifically, BARA can model the complicated relationship between reward budget allocation and final model accuracy in FL based on historical training records so that the reward budget allocated to each communication round is dynamically optimized so as to maximize the final model utility. We further incorporate the BARA algorithm into reverse auction-based incentive mechanisms to illustrate its effectiveness. Extensive experiments are conducted on real datasets to demonstrate that BARA significantly outperforms competitive baselines by improving model utility with the same amount of reward budget. | 翻訳日:2023-05-17 18:11:07 公開日:2023-05-16 |
# コンクリート表面き裂セグメンテーションのためのデュアルフロー融合モデル Dual flow fusion model for concrete surface crack segmentation ( http://arxiv.org/abs/2305.05132v2 ) ライセンス: Link先を確認 | Yuwei Duan | (参考訳) 亀裂やその他の損傷の存在は、交通インフラの安全運用に重大な脅威をもたらす。
従来の手動検出と超音波検査は多くの時間と資源を消費する。
ディープラーニング技術の発展に伴い、多くのディープラーニングモデルが実用的なビジュアルセグメンテーションタスクに広く適用されている。
ディープラーニングモデルに基づく検出方法は、高い検出精度、高速な検出速度、簡単な操作の利点を有する。
しかし、ディープラーニングに基づくクラックセグメンテーションモデルは、バックグラウンドノイズに敏感であり、粗いエッジを持ち、堅牢性に欠ける。
そこで本稿では,二重ストリームの融合に基づくひび割れ分割モデルを提案する。
画像は2つの設計された処理ストリームに同時に入力され、長距離依存と局所詳細特徴を独立に抽出する。
適応予測はデュアルヘッド機構によって達成される。
一方,複雑な背景下での亀裂位置と認識を実現するために,異なる特徴層を補完する新たな相互作用融合機構が提案されている。
最後に,分割精度を向上させるためにエッジ最適化手法を提案する。
実験の結果、DeepCrack[1]公開データセット上のセグメンテーション結果のF1値は93.7%、IOU値は86.6%であることが示されている。
CRACK500[2]データセット上のセグメンテーション結果のF1値は78.1%であり、IOU値は66.0%である。 The existence of cracks and other damages pose a significant threat to the safe operation of transportation infrastructure. Traditional manual detection and ultrasound equipment testing consume a lot of time and resources. With the development of deep learning technology, many deep learning models have been widely applied to practical visual segmentation tasks. The detection method based on deep learning models has the advantages of high detection accuracy, fast detection speed, and simple operation. However, deep learning-based crack segmentation models are sensitive to background noise, have rough edges, and lack robustness. Therefore, this paper proposes a crack segmentation model based on the fusion of dual streams. The image is inputted simultaneously into two designed processing streams to independently extract long-distance dependence and local detail features. The adaptive prediction is achieved through the dual-headed mechanism. Meanwhile, a novel interaction fusion mechanism is proposed to guide the complementary of different feature layers to achieve crack location and recognition in complex backgrounds. Finally, an edge optimization method is proposed to improve the accuracy of segmentation. Experiments show that the F1 value of segmentation results on the DeepCrack[1] public dataset is 93.7% and the IOU value is 86.6%. The F1 value of segmentation results on the CRACK500[2] dataset is 78.1%, and the IOU value is 66.0%. | 翻訳日:2023-05-17 18:10:39 公開日:2023-05-16 |
# Deep LearningとDigital Twinsの活用による建物のエネルギー性能向上 Leveraging Deep Learning and Digital Twins to Improve Energy Performance of Buildings ( http://arxiv.org/abs/2305.04498v3 ) ライセンス: Link先を確認 | Zhongjun Ni (1), Chi Zhang (2), Magnus Karlsson (1), Shaofang Gong (1) ((1) Department of Science and Technology, Link\"oping University, Campus Norrk\"oping, Norrk\"oping, Sweden. (2) Department of Computer Science and Engineering, University of Gothenburg, Gothenburg, Sweden.) | (参考訳) 建物のデジタルトランスフォーメーションは大量の運用データを蓄積し、エネルギーパフォーマンスを改善するためにこれらのデータを活用するためのスマートなソリューションを求める。
本研究では,深層学習とデジタル双生児の統合によるエネルギー利用の理解を深め,エネルギー効率向上の可能性を明らかにするためのソリューションである深層エネルギー双生児(deep energy twin)を提案する。
オントロジーは、建物内の異なるシステム間でデータフォーマットの一貫性を提供するパラメトリックデジタルツインを作成するために採用された。
生成したデジタルツインと収集データに基づいて、パターンを特定し、エネルギー最適化のための洞察を提供するデータ分析を行うディープラーニング手法が使用された。
実演として,建築エネルギー予測における最先端のディープラーニングアーキテクチャの性能を比較するため,スウェーデンのノルク=オピングにある公共歴史建造物で事例研究を行った。 Digital transformation in buildings accumulates massive operational data, which calls for smart solutions to utilize these data to improve energy performance. This study has proposed a solution, namely Deep Energy Twin, for integrating deep learning and digital twins to better understand building energy use and identify the potential for improving energy efficiency. Ontology was adopted to create parametric digital twins to provide consistency of data format across different systems in a building. Based on created digital twins and collected data, deep learning methods were used for performing data analytics to identify patterns and provide insights for energy optimization. As a demonstration, a case study was conducted in a public historic building in Norrk\"oping, Sweden, to compare the performance of state-of-the-art deep learning architectures in building energy forecasting. | 翻訳日:2023-05-17 18:10:19 公開日:2023-05-16 |
# インコンテキスト学習のための統一デモンストレーションレトリバー Unified Demonstration Retriever for In-Context Learning ( http://arxiv.org/abs/2305.04320v2 ) ライセンス: Link先を確認 | Xiaonan Li, Kai Lv, Hang Yan, Tianyang Lin, Wei Zhu, Yuan Ni, Guotong Xie, Xiaoling Wang and Xipeng Qiu | (参考訳) インコンテキスト学習(in-context learning)は、言語モデルがいくつかの入出力ペア(デーモンストレーション)とテスト入力で条件付けし、直接予測を出力する新しい学習パラダイムである。
テスト入力が与えられた場合、関連するサンプルがトレーニングセットから検索され、コンテキスト内学習のための情報的デモンストレーションとして機能する。
従来の作業ではタスク固有のレトリバーを個別にトレーニングすることに重点を置いていたが、これらの手法は様々なタスクの転送とスケールが困難であり、個別に訓練されたレトリバーは大量のパラメータストレージとデプロイメントコストを発生させる。
本稿では,多様なタスクのデモを検索する単一モデルであるUnified Demonstration Retriever (\textbf{UDR})を提案する。
UDRを訓練するために,言語モデルからのフィードバックにより,様々なタスクの学習信号をリストワイドランキングの定式化に投入した。
そこで我々は,udrが様々なタスクの信号を完全に組み込むのに役立つ高品質な候補を見つけるための反復的マイニング戦略を備えたマルチタスクリストワイズランキングトレーニングフレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
さらなる分析により、異なるlmm(1.3b - 175b)、見えないデータセット、様々なデモンストレーション量などを含む様々なシナリオにおいて、各コンポーネントの有効性とudrの強力な能力が示されている。 In-context learning is a new learning paradigm where a language model conditions on a few input-output pairs (demonstrations) and a test input, and directly outputs the prediction. It has been shown highly dependent on the provided demonstrations and thus promotes the research of demonstration retrieval: given a test input, relevant examples are retrieved from the training set to serve as informative demonstrations for in-context learning. While previous works focus on training task-specific retrievers for several tasks separately, these methods are often hard to transfer and scale on various tasks, and separately trained retrievers incur a lot of parameter storage and deployment cost. In this paper, we propose Unified Demonstration Retriever (\textbf{UDR}), a single model to retrieve demonstrations for a wide range of tasks. To train UDR, we cast various tasks' training signals into a unified list-wise ranking formulation by language model's feedback. Then we propose a multi-task list-wise ranking training framework, with an iterative mining strategy to find high-quality candidates, which can help UDR fully incorporate various tasks' signals. Experiments on 30+ tasks across 13 task families and multiple data domains show that UDR significantly outperforms baselines. Further analyses show the effectiveness of each proposed component and UDR's strong ability in various scenarios including different LMs (1.3B - 175B), unseen datasets, varying demonstration quantities, etc. | 翻訳日:2023-05-17 18:09:45 公開日:2023-05-16 |
# 解釈可能な機械学習モデル開発と検証のためのPiMLツールボックス PiML Toolbox for Interpretable Machine Learning Model Development and Validation ( http://arxiv.org/abs/2305.04214v2 ) ライセンス: Link先を確認 | Agus Sudjianto, Aijun Zhang, Zebin Yang, Yu Su, Ningzhou Zeng | (参考訳) piml ($\pi$-ml, /`pai と読む。
です。
el/)は、機械学習モデルの開発とモデル診断を解釈可能なPythonツールボックスである。
データパイプライン、モデルトレーニング、モデル解釈と説明、モデル診断と比較を含む、ローコードモードとハイコードモードの両方の機械学習ワークフローで設計されている。
ツールボックスは、ローカルおよび/またはグローバルに解釈可能なモデル(GAM、GAMI-Net、XGB2)の増大するリストをサポートする。
また、モデルに依存しない説明可能性ツール(PFI、PDP、LIME、SHAPなど)や、モデルに依存しない強力な診断ツール(弱点、不確実性、堅牢性、公正性など)もサポートしている。
PiMLモデルの統合と、品質保証のための既存のMLOpsプラットフォームへのテストは、フレキシブルなハイコードAPIによって実現されている。
さらに、PiMLツールボックスには、モデル開発や銀行の検証など、包括的なユーザガイドとハンズオンの例が付属している。
このプロジェクトはhttps://github.com/SelfExplainML/PiML-Toolboxで入手できる。 PiML (read $\pi$-ML, /`pai.`em.`el/) is an integrated and open-access Python toolbox for interpretable machine learning model development and model diagnostics. It is designed with machine learning workflows in both low-code and high-code modes, including data pipeline, model training, model interpretation and explanation, and model diagnostics and comparison. The toolbox supports a growing list of interpretable models (e.g. GAM, GAMI-Net, XGB2) with inherent local and/or global interpretability. It also supports model-agnostic explainability tools (e.g. PFI, PDP, LIME, SHAP) and a powerful suite of model-agnostic diagnostics (e.g. weakness, uncertainty, robustness, fairness). Integration of PiML models and tests to existing MLOps platforms for quality assurance are enabled by flexible high-code APIs. Furthermore, PiML toolbox comes with a comprehensive user guide and hands-on examples, including the applications for model development and validation in banking. The project is available at https://github.com/SelfExplainML/PiML-Toolbox. | 翻訳日:2023-05-17 18:09:18 公開日:2023-05-16 |
# ロバストな質問応答に対する適応的緩い最適化 Adaptive loose optimization for robust question answering ( http://arxiv.org/abs/2305.03971v2 ) ライセンス: Link先を確認 | Jie Ma, Pinghui Wang, Zewei Wang, Dechen Kong, Min Hu, Ting Han, Jun Liu | (参考訳) 質問応答手法は、視覚的質問応答の事前言語や機械読解(extractive question answering)における位置バイアスなど、データバイアスを活用することでよく知られている。
非分散法は高い分散性能を得るために相当量の分散性能を犠牲にするのに対し、現在のデバイアス法は適切な分散性能を達成するために重要な分散性能を犠牲にすることが多い。
そのため、複雑に変化する現実世界の状況に対処することは困難である。
本稿では,両世界の質問応答を最大限に活用することを目的とした適応的ゆがみ最適化を用いた,単純かつ効果的な新しい損失関数を提案する。
私たちの技術的貢献は、ミニバッチトレーニングデータにおける前回と現在の最適化状態の比率に応じて、損失を適応的に低減することにあります。
この緩やかな最適化は、非バイアス法がデータのバイアスを過度に学習するのを防ぐと同時に、デバイアス法がわずかにバイアス学習を維持するのを可能にするために使用できる。
VQA v2, VQA-CP v1, VQA-CP v2, GQA-OOD, および抽出された質問応答データセットSQADを含む視覚的質問応答データセットの実験により、我々の手法は、ほとんどのケースにおいて、最先端のin-of-distriion性能をQA手法で得ることができることを示した。
ソースコードは \url{https://github.com/reml-group/ALO} で公開されている。 Question answering methods are well-known for leveraging data bias, such as the language prior in visual question answering and the position bias in machine reading comprehension (extractive question answering). Current debiasing methods often come at the cost of significant in-distribution performance to achieve favorable out-of-distribution generalizability, while non-debiasing methods sacrifice a considerable amount of out-of-distribution performance in order to obtain high in-distribution performance. Therefore, it is challenging for them to deal with the complicated changing real-world situations. In this paper, we propose a simple yet effective novel loss function with adaptive loose optimization, which seeks to make the best of both worlds for question answering. Our main technical contribution is to reduce the loss adaptively according to the ratio between the previous and current optimization state on mini-batch training data. This loose optimization can be used to prevent non-debiasing methods from overlearning data bias while enabling debiasing methods to maintain slight bias learning. Experiments on the visual question answering datasets, including VQA v2, VQA-CP v1, VQA-CP v2, GQA-OOD, and the extractive question answering dataset SQuAD demonstrate that our approach enables QA methods to obtain state-of-the-art in- and out-of-distribution performance in most cases. The source code has been released publicly in \url{https://github.com/reml-group/ALO}. | 翻訳日:2023-05-17 18:09:00 公開日:2023-05-16 |
# 時間依存性調和ポテンシャルにおける波動関数の形状の進化 Evolution of the wave-function's shape in a time-dependent harmonic potential ( http://arxiv.org/abs/2305.03847v2 ) ライセンス: Link先を確認 | Etera R. Livine | (参考訳) 量子力学に対する効果的な操作的アプローチは波束の進化に焦点を合わせ、波関数は波束の形状とそのゆらぎを記述する余分な自由度を身に着けた古典的運動を表すものとして半古典的構造に見ることができる。
これらの量子ドレッシングは独立自由度であり、波動関数のより高いモーメントで数学的に符号化される。
1+1次元の時空における時間依存ポテンシャルを持つシュロディンガー方程式に従って発展するガウス波束の有効ダイナミクスを抽出し、二次不確かさに対する運動方程式を導出する方法を考察する。
次に、時間依存調和ポテンシャルにおける一般波動関数に対する全ての高次モーメントの進化を統合する方法を示す。 An effective operational approach to quantum mechanics is to focus on the evolution of wave-packets, for which the wave-function can be seen in the semi-classical regime as representing a classical motion dressed with extra degrees of freedom describing the shape of the wave-packet and its fluctuations. These quantum dressing are independent degrees of freedom, mathematically encoded in the higher moments of the wave-function. We review how to extract the effective dynamics for Gaussian wave-packets evolving according to the Schrodinger equation with time-dependent potential in a 1+1-dimensional spacetime, and derive the equations of motion for the quadratic uncertainty. We then show how to integrate the evolution of all the higher moments for a general wave-function in a time-dependent harmonic potential. | 翻訳日:2023-05-17 18:08:27 公開日:2023-05-16 |
# レーストラック追尾型イオン量子プロセッサ A Race Track Trapped-Ion Quantum Processor ( http://arxiv.org/abs/2305.03828v2 ) ライセンス: Link先を確認 | S. A. Moses, C. H. Baldwin, M. S. Allman, R. Ancona, L. Ascarrunz, C. Barnes, J. Bartolotta, B. Bjork, P. Blanchard, M. Bohn, J. G. Bohnet, N. C. Brown, N. Q. Burdick, W. C. Burton, S. L. Campbell, J. P. Campora III, C. Carron, J. Chambers, J. W. Chan, Y. H. Chen, A. Chernoguzov, E. Chertkov, J. Colina, J. P. Curtis, R. Daniel, M. DeCross, D. Deen, C. Delaney, J. M. Dreiling, C. T. Ertsgaard, J. Esposito, B. Estey, M. Fabrikant, C. Figgatt, C. Foltz, M. Foss-Feig, D. Francois, J. P. Gaebler, T. M. Gatterman, C. N. Gilbreth, J. Giles, E. Glynn, A. Hall, A. M. Hankin, A. Hansen, D. Hayes, B. Higashi, I. M. Hoffman, B. Horning, J. J. Hout, R. Jacobs, J. Johansen, L. Jones, J. Karcz, T. Klein, P. Lauria, P. Lee, D. Liefer, C. Lytle, S. T. Lu, D. Lucchetti, A. Malm, M. Matheny, B. Mathewson, K. Mayer, D. B. Miller, M. Mills, B. Neyenhuis, L. Nugent, S. Olson, J. Parks, G. N. Price, Z. Price, M. Pugh, A. Ransford, A. P. Reed, C. Roman, M. Rowe, C. Ryan-Anderson, S. Sanders, J. Sedlacek, P. Shevchuk, P. Siegfried, T. Skripka, B. Spaun, R. T. Sprenkle, R. P. Stutz, M. Swallows, R. I. Tobey, A. Tran, T. Tran, E. Vogt, C. Volin, J. Walker, A. M. Zolot, and J. M. Pino | (参考訳) 我々は、周期的な境界条件を持つ線形トラップに基づいて、新しい量子電荷結合デバイス(QCCD)を記述し、ベンチマークする。
新しいシステムは、将来のスケーラビリティに不可欠ないくつかの技術、例えば、電極放送、多層rfルーティング、磁気光学トラップ(mot)の負荷を保ちつつ、場合によっては以前のqccdシステムのゲートフィダリティを保ちながら、うまく組み込んだ。
システムは当初32量子ビットで動作するが、将来のアップグレードによりさらに拡張される。
我々は,平均状態準備および測定誤差1.6(1)$\times 10^{-3}$,平均単一ビットゲート不完全性2.5(3)\times 10^{-5}$,平均2ビットゲート不完全性1.84(5)\times 10^{-3}$を含むプリミティブ演算の性能をベンチマークした。
量子プロセッサのシステムレベルの性能は、ミラーベンチマーク、線形クロスエントロピーベンチマーク、$\mathrm{qv}=2^{16}$の量子体積測定、およびghz状態で32量子ビットの絡み合いの作成によって評価される。
また, ハミルトンシミュレーション, qaoa, 繰り返しコードの誤り訂正, 量子ビット再利用を用いた動力学シミュレーションなど, アプリケーションベンチマークもテストした。
また、より多くのキュービットと機能の追加を目的とした新システムの今後のアップグレードについても論じる。 We describe and benchmark a new quantum charge-coupled device (QCCD) trapped-ion quantum computer based on a linear trap with periodic boundary conditions, which resembles a race track. The new system successfully incorporates several technologies crucial to future scalability, including electrode broadcasting, multi-layer RF routing, and magneto-optical trap (MOT) loading, while maintaining, and in some cases exceeding, the gate fidelities of previous QCCD systems. The system is initially operated with 32 qubits, but future upgrades will allow for more. We benchmark the performance of primitive operations, including an average state preparation and measurement error of 1.6(1)$\times 10^{-3}$, an average single-qubit gate infidelity of $2.5(3)\times 10^{-5}$, and an average two-qubit gate infidelity of $1.84(5)\times 10^{-3}$. The system-level performance of the quantum processor is assessed with mirror benchmarking, linear cross-entropy benchmarking, a quantum volume measurement of $\mathrm{QV}=2^{16}$, and the creation of 32-qubit entanglement in a GHZ state. We also tested application benchmarks including Hamiltonian simulation, QAOA, error correction on a repetition code, and dynamics simulations using qubit reuse. We also discuss future upgrades to the new system aimed at adding more qubits and capabilities. | 翻訳日:2023-05-17 18:08:12 公開日:2023-05-16 |
# FedNC:ネットワークコーディングにヒントを得たセキュアで効率的なフェデレーション学習手法 FedNC: A Secure and Efficient Federated Learning Method Inspired by Network Coding ( http://arxiv.org/abs/2305.03292v2 ) ライセンス: Link先を確認 | Yuchen Shi, Zheqi Zhu, Pingyi Fan, Khaled B. Letaief and Chenghui Peng | (参考訳) Federated Learning(FL)は有望な分散学習メカニズムであり、プライバシー侵害とシステム効率という2つの大きな課題に直面している。
本研究では,ネットワーク情報理論の観点からFLシステムを再認識し,ネットワーク符号化(NC)にインスパイアされたオリジナルのFL通信フレームワークであるFedNCを定式化する。
fedncの主な考え方は、元のパケットをランダムに線形に組み合わせて、さらに集約するためにアップロードする前にローカルモデルの情報を混合することである。
符号化方式の利点により、fencはセキュリティ、スループット、ロバスト性など、いくつかの重要な方法で従来のflの性能を改善していることを示している。
私たちの知る限りでは、これが NC がFLで導入された最初のフレームワークです。
flが実用的なネットワークフレームワークで進化を続けるにつれて、fedncに基づいてさらに多くの変種を設計できる。 Federated Learning (FL) is a promising distributed learning mechanism which still faces two major challenges, namely privacy breaches and system efficiency. In this work, we reconceptualize the FL system from the perspective of network information theory, and formulate an original FL communication framework, FedNC, which is inspired by Network Coding (NC). The main idea of FedNC is mixing the information of the local models by making random linear combinations of the original packets, before uploading for further aggregation. Due to the benefits of the coding scheme, both theoretical and experimental analysis indicate that FedNC improves the performance of traditional FL in several important ways, including security, throughput, and robustness. To the best of our knowledge, this is the first framework where NC is introduced in FL. As FL continues to evolve within practical network frameworks, more variants can be further designed based on FedNC. | 翻訳日:2023-05-17 18:07:44 公開日:2023-05-16 |
# 時空間トラヒックデータインプテーションに対する多様体正規化タッカー分解法 Manifold Regularized Tucker Decomposition Approach for Spatiotemporal Traffic Data Imputation ( http://arxiv.org/abs/2305.06563v2 ) ライセンス: Link先を確認 | Wenwu Gong, Zhejun Huang, and Lili Yang | (参考訳) データ駆動インテリジェントトランスポートシステム(ITS)では,部分的なトラフィックデータから欠落したデータを推定する時空間トラフィックデータ計算(STDI)が必然的かつ困難な課題である。
トラヒックデータの多次元的・時空間的性質から,データインプテーションの欠如をテンソル補完問題として扱う。
過去10年間のテンソル分解に基づくSTDIの研究が数多く行われている。
しかし、時空間相関とコアテンソルスパーシティをインプテーション性能を改善するためにどう使うかは、まだ解決する必要がある。
本稿では,第3/4次ハンケルテンソルを補足し,STDIのための革新的多様体正規化タッカー分解(ManiRTD)モデルを提案する。
本稿では,多方向遅延埋め込み変換を導入することにより,知覚トラヒック状態データを第3/第4テンソルとして表現する。
その後、ManiRTDはスパース正規化項を用いてタッカーコアの空間性を改善し、因子行列の多様体正規化と時間的制約項を用いて時空間相関を特徴づける。
最後に,コンバージェンス・ガランテドによる近位勾配更新規則の交互化に基づくブロック座標降下フレームワークを通じて,manirtdモデルに対処する。
実世界の時空間交通データセット(STD)を用いて数値実験を行った。
その結果,提案モデルは他の因子化手法よりも優れており,様々な欠落シナリオにおいてより正確にstdを再構成できることがわかった。 Spatiotemporal traffic data imputation (STDI), estimating the missing data from partially observed traffic data, is an inevitable and challenging task in data-driven intelligent transportation systems (ITS). Due to traffic data's multidimensional and spatiotemporal properties, we treat the missing data imputation as a tensor completion problem. Many studies have been on STDI based on tensor decomposition in the past decade. However, how to use spatiotemporal correlations and core tensor sparsity to improve the imputation performance still needs to be solved. This paper reshapes a 3rd/4th order Hankel tensor and proposes an innovative manifold regularized Tucker decomposition (ManiRTD) model for STDI. Expressly, we represent the sensory traffic state data as the 3rd/4th tensors by introducing Multiway Delay Embedding Transforms. Then, ManiRTD improves the sparsity of the Tucker core using a sparse regularization term and employs manifold regularization and temporal constraint terms of factor matrices to characterize the spatiotemporal correlations. Finally, we address the ManiRTD model through a block coordinate descent framework under alternating proximal gradient updating rules with convergence-guaranteed. Numerical experiments are conducted on real-world spatiotemporal traffic datasets (STDs). Our results demonstrate that the proposed model outperforms the other factorization approaches and reconstructs the STD more precisely under various missing scenarios. | 翻訳日:2023-05-17 18:02:16 公開日:2023-05-16 |
# ボットか人間か?
単一質問によるChatGPTインポスタの検出 Bot or Human? Detecting ChatGPT Imposters with A Single Question ( http://arxiv.org/abs/2305.06424v2 ) ライセンス: Link先を確認 | Hong Wang, Xuan Luo, Weizhi Wang, Xifeng Yan | (参考訳) ChatGPTのような大規模言語モデルは、最近、自然言語の理解と生成において印象的な能力を実証し、翻訳、エッセイの執筆、チャットなど様々なアプリケーションを可能にした。
しかし、不正やサービス拒否攻撃など、悪意のある目的で悪用される可能性があるという懸念もある。
したがって、会話にかかわる相手がボットか人間かを検出する方法を開発することが重要である。
本稿では,会話型ボットをオンラインで検出するために,単一の問合せと応答で大規模言語モデルの有効性を探索するフレームワーク flair を提案する。
具体的には、人間のユーザーとボットを効果的に区別できる単一の質問シナリオをターゲットにしている。
質問は、人間にとって簡単だがボットにとって難しいもの(カウント、置換、位置決め、ノイズフィルタリング、ASCIIアートなど)と、ロボットにとって簡単だが人間にとっては難しいもの(記憶や計算など)に分けられる。
弊社のアプローチは、これらの質問の長所をその有効性で示し、オンラインサービスプロバイダが悪質な活動から身を守るための新しい方法を提供する。
私たちはデータセットをhttps://github.com/hongwang600/FLAIRでオープンソース化しました。 Large language models like ChatGPT have recently demonstrated impressive capabilities in natural language understanding and generation, enabling various applications including translation, essay writing, and chit-chatting. However, there is a concern that they can be misused for malicious purposes, such as fraud or denial-of-service attacks. Therefore, it is crucial to develop methods for detecting whether the party involved in a conversation is a bot or a human. In this paper, we propose a framework named FLAIR, Finding Large language model Authenticity via a single Inquiry and Response, to detect conversational bots in an online manner. Specifically, we target a single question scenario that can effectively differentiate human users from bots. The questions are divided into two categories: those that are easy for humans but difficult for bots (e.g., counting, substitution, positioning, noise filtering, and ASCII art), and those that are easy for bots but difficult for humans (e.g., memorization and computation). Our approach shows different strengths of these questions in their effectiveness, providing a new way for online service providers to protect themselves against nefarious activities and ensure that they are serving real users. We open-sourced our dataset on https://github.com/hongwang600/FLAIR and welcome contributions from the community to enrich such detection datasets. | 翻訳日:2023-05-17 18:01:24 公開日:2023-05-16 |
# k-unimorph:韓国ユニバーサルモルフォロジーとその特徴スキーマ K-UniMorph: Korean Universal Morphology and its Feature Schema ( http://arxiv.org/abs/2305.06335v2 ) ライセンス: Link先を確認 | Eunkyul Leah Jo and Kyuwon Kim and Xihan Wu and KyungTae Lim and Jungyeul Park and Chulwoo Park | (参考訳) 本稿では,韓国語のための新しいユニバーサルモルフォロジーデータセットを提案する。
以前は、韓国語は数百の多種多様な世界言語の中で形態学的パラダイムの分野で過小評価されていた。
そこで本稿では,韓国語に対するこの普遍形態学パラダイムを提案する。
K-UniMorphデータセットでは、各文法的基準を言語終末について詳細に概説し、屈折形を抽出する方法を明らかにし、形態的スキーマをどのように生成するかを示す。
本データセットは,韓国語におけるSylak-Glassman et al. (2015) とSylak-Glassman (2016) による形態的特徴スキーマを採用し,Sejong morphologically analysis corpus から入力動詞を抽出した。
データ作成中,本手法ではsejongコーパスからの変換の正確性についても検討する。
さらに,韓国語の3つの単語形式(文字,音節,形態素)を用いて屈折処理を行う。
最後に,韓国の形態的パラダイムとデータセットの今後の展望について論じる。 We present in this work a new Universal Morphology dataset for Korean. Previously, the Korean language has been underrepresented in the field of morphological paradigms amongst hundreds of diverse world languages. Hence, we propose this Universal Morphological paradigms for the Korean language that preserve its distinct characteristics. For our K-UniMorph dataset, we outline each grammatical criterion in detail for the verbal endings, clarify how to extract inflected forms, and demonstrate how we generate the morphological schemata. This dataset adopts morphological feature schema from Sylak-Glassman et al. (2015) and Sylak-Glassman (2016) for the Korean language as we extract inflected verb forms from the Sejong morphologically analyzed corpus that is one of the largest annotated corpora for Korean. During the data creation, our methodology also includes investigating the correctness of the conversion from the Sejong corpus. Furthermore, we carry out the inflection task using three different Korean word forms: letters, syllables and morphemes. Finally, we discuss and describe future perspectives on Korean morphological paradigms and the dataset. | 翻訳日:2023-05-17 18:01:03 公開日:2023-05-16 |
# FedDWA: オンライン重み調整による個人化フェデレーション学習 FedDWA: Personalized Federated Learning with Online Weight Adjustment ( http://arxiv.org/abs/2305.06124v2 ) ライセンス: Link先を確認 | Jiahao Liu, Jiang Wu, Jinyu Chen, Miao Hu, Yipeng Zhou, Di Wu | (参考訳) 従来のフェデレーション学習とは異なり、パーソナライズド・フェデレーション・ラーニング(PFL)は個々のクライアントに対して独自の要求に応じてカスタマイズされたモデルをトレーニングすることができる。
メインストリームのアプローチは、異なるクライアント間の損失値やモデルパラメータによって重み付けが決定されるパーソナライズされたモデルを生成するために、重み付け集約方式の一種を採用することである。
しかし、この種の方法は、クライアントが他人のモデルをダウンロードする必要がある。
通信トラフィックを増加させるだけでなく、データプライバシーを侵害する可能性がある。
本稿では,パラメータサーバ(PS)を利用して,クライアントから収集したモデルに基づいてパーソナライズされたアグリゲーション重みを計算し,その問題に対処するため,新しいPFLアルゴリズムである \emph{FedDWA (Federated Learning with Dynamic Weight Adjustment)} を提案する。
このようにして、FedDWAは通信オーバーヘッドをはるかに少なくしてクライアント間の類似性をキャプチャできる。
具体的には、パーソナライズされたモデルとガイダンスモデルの距離を最小にすることで最適化問題としてPFL問題を定式化し、各クライアントの集約重みをカスタマイズする。
ガイダンスモデルは、個々のクライアントに対する1段階の事前適応によって得られる。
最後に,5つの実データを用いた広範囲な実験を行い,FedDWAが通信トラフィックを大幅に低減し,最先端の手法よりもはるかに高いモデル精度を実現することを示す。 Different from conventional federated learning, personalized federated learning (PFL) is able to train a customized model for each individual client according to its unique requirement. The mainstream approach is to adopt a kind of weighted aggregation method to generate personalized models, in which weights are determined by the loss value or model parameters among different clients. However, such kinds of methods require clients to download others' models. It not only sheer increases communication traffic but also potentially infringes data privacy. In this paper, we propose a new PFL algorithm called \emph{FedDWA (Federated Learning with Dynamic Weight Adjustment)} to address the above problem, which leverages the parameter server (PS) to compute personalized aggregation weights based on collected models from clients. In this way, FedDWA can capture similarities between clients with much less communication overhead. More specifically, we formulate the PFL problem as an optimization problem by minimizing the distance between personalized models and guidance models, so as to customize aggregation weights for each client. Guidance models are obtained by the local one-step ahead adaptation on individual clients. Finally, we conduct extensive experiments using five real datasets and the results demonstrate that FedDWA can significantly reduce the communication traffic and achieve much higher model accuracy than the state-of-the-art approaches. | 翻訳日:2023-05-17 18:00:28 公開日:2023-05-16 |
# 精密勾配バックプロパゲーションを用いたsnn最適化ダウンサンプリングによるトランスベーススパイクニューラルネットワークの性能向上 Enhancing the Performance of Transformer-based Spiking Neural Networks by SNN-optimized Downsampling with Precise Gradient Backpropagation ( http://arxiv.org/abs/2305.05954v2 ) ライセンス: Link先を確認 | Chenlin Zhou, Han Zhang, Zhaokun Zhou, Liutao Yu, Zhengyu Ma, Huihui Zhou, Xiaopeng Fan, Yonghong Tian | (参考訳) 近年、低消費電力、生物学的合理性、事象駆動性などにより、ディープスパイクニューラルネットワーク(SNN)が注目されている。
しかし、現在最先端の深層SNN(SpikformerやSpikeformerなど)は、不正確な勾配のバックプロパゲーションに関連する重大な課題に悩まされている。
この問題は、これらのネットワークにおけるダウンサンプリングモジュールの不適切な設計から生じ、全体のモデル性能を著しく損なう。
本稿では,SNN最適化ダウンサンプリングであるConvBN-MaxPooling-LIF(CML)を提案する。
我々はCMLが理論的観点からの勾配逆伝播の精度を効果的に克服できることを証明した。
さらに、ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS, DVS128-Gestureデータセット上でCMLを評価し、Spikeformerと比較して大幅に性能が向上したこれらのデータセットの最先端性能を示す。
例えば、私たちのモデルはImageNetで77.64$\%、CIFAR10で96.04$\%、CIFAR10-DVSで81.4$\%、ImageNetで+1.79$\%、CIFAR100で+1.16$\%である。 Deep spiking neural networks (SNNs) have drawn much attention in recent years because of their low power consumption, biological rationality and event-driven property. However, state-of-the-art deep SNNs (including Spikformer and Spikingformer) suffer from a critical challenge related to the imprecise gradient backpropagation. This problem arises from the improper design of downsampling modules in these networks, and greatly hampering the overall model performance. In this paper, we propose ConvBN-MaxPooling-LIF (CML), an SNN-optimized downsampling with precise gradient backpropagation. We prove that CML can effectively overcome the imprecision of gradient backpropagation from a theoretical perspective. In addition, we evaluate CML on ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS, DVS128-Gesture datasets, and show state-of-the-art performance on all these datasets with significantly enhanced performances compared with Spikingformer. For instance, our model achieves 77.64 $\%$ on ImageNet, 96.04 $\%$ on CIFAR10, 81.4$\%$ on CIFAR10-DVS, with + 1.79$\%$ on ImageNet, +1.16$\%$ on CIFAR100 compared with Spikingformer. | 翻訳日:2023-05-17 18:00:03 公開日:2023-05-16 |
# 階層型フレーム間ブロックマッチングによる動的ポイントクラウド圧縮の学習 Learning Dynamic Point Cloud Compression via Hierarchical Inter-frame Block Matching ( http://arxiv.org/abs/2305.05356v2 ) ライセンス: Link先を確認 | Shuting Xia, Tingyu Fan, Yiling Xu, Jenq-Neng Hwang, Zhu Li | (参考訳) 3次元ダイナミックポイントクラウド(DPC)圧縮は、その時間的コンテキストのマイニングに依存しており、DPCの空間性と非一様構造のために大きな課題に直面している。
既存の手法では十分な時間依存を捉えることが制限されている。
そこで本稿では,dpc形状を潜在空間で補償・圧縮するための階層型ブロックマッチング型予測モジュールによる学習ベースのdpc圧縮フレームワークを提案する。
具体的には,光流れの粒度を動的に選択し,正確な動き情報をカプセル化するフレキシブルな予測のための階層的運動推定・運動補償(hie-me/mc)フレームワークを提案する。
提案した予測モジュールの動作推定効率を向上させるために,幾何学的特徴相関と特徴相関に基づく電位対応点の影響を判定するKNN-attention block matching (KABM)ネットワークを設計する。
最後に, 残差と多スケール光流を, 完全分解深エントロピーモデルを用いて圧縮する。
実験の結果,MPEG仕様のOwlii Dynamic Human Dynamic Point Cloud (Owlii)データセットは,フレーム間低遅延モードにおいて,従来の最先端手法とMPEG標準V-PCC v18よりも優れた性能を示した。 3D dynamic point cloud (DPC) compression relies on mining its temporal context, which faces significant challenges due to DPC's sparsity and non-uniform structure. Existing methods are limited in capturing sufficient temporal dependencies. Therefore, this paper proposes a learning-based DPC compression framework via hierarchical block-matching-based inter-prediction module to compensate and compress the DPC geometry in latent space. Specifically, we propose a hierarchical motion estimation and motion compensation (Hie-ME/MC) framework for flexible inter-prediction, which dynamically selects the granularity of optical flow to encapsulate the motion information accurately. To improve the motion estimation efficiency of the proposed inter-prediction module, we further design a KNN-attention block matching (KABM) network that determines the impact of potential corresponding points based on the geometry and feature correlation. Finally, we compress the residual and the multi-scale optical flow with a fully-factorized deep entropy model. The experiment result on the MPEG-specified Owlii Dynamic Human Dynamic Point Cloud (Owlii) dataset shows that our framework outperforms the previous state-of-the-art methods and the MPEG standard V-PCC v18 in inter-frame low-delay mode. | 翻訳日:2023-05-17 17:59:36 公開日:2023-05-16 |
# 高品質ディープフェイクを用いた食品の深度検出 Fooling State-of-the-Art Deepfake Detection with High-Quality Deepfakes ( http://arxiv.org/abs/2305.05282v2 ) ライセンス: Link先を確認 | Arian Beckmann, Anna Hilsmann and Peter Eisert | (参考訳) セキュリティとプライバシーに対するディープフェイクの脅威が高まっているため、堅牢で信頼性の高い検出器を開発することが最も重要である。
本稿では,これらの検出器のトレーニングデータセットにおける高品質なサンプルの必要性について検討する。
したがって、複数の研究データセット上でディープフェイク検出器がうまく一般化できることが証明された。
まず,90個の高品質のディープフェイクを生成するために,高度な顔ブレンディング技術とともに,顔交換のための新しいオートエンコーダを提案する。
第2に、フェイクを最先端の検出器に供給することで、その性能が劇的に低下する。
さらに,偽物の検知器を微調整し,操作の検出に有用な手掛かりがあることを実証する。
全体として,我々はdeepfake検出器の一般化に関する知見を提供し,そのトレーニングデータセットは単なる研究データに対するトレーニングが不十分であるため,高品質なフェイクによって補完されるべきであることが示唆された。 Due to the rising threat of deepfakes to security and privacy, it is most important to develop robust and reliable detectors. In this paper, we examine the need for high-quality samples in the training datasets of such detectors. Accordingly, we show that deepfake detectors proven to generalize well on multiple research datasets still struggle in real-world scenarios with well-crafted fakes. First, we propose a novel autoencoder for face swapping alongside an advanced face blending technique, which we utilize to generate 90 high-quality deepfakes. Second, we feed those fakes to a state-of-the-art detector, causing its performance to decrease drastically. Moreover, we fine-tune the detector on our fakes and demonstrate that they contain useful clues for the detection of manipulations. Overall, our results provide insights into the generalization of deepfake detectors and suggest that their training datasets should be complemented by high-quality fakes since training on mere research data is insufficient. | 翻訳日:2023-05-17 17:59:12 公開日:2023-05-16 |
# gated summarizationモジュールを用いた値反復ネットワーク Value Iteration Networks with Gated Summarization Module ( http://arxiv.org/abs/2305.07039v2 ) ライセンス: Link先を確認 | Jinyu Cai, Jialong Li, Mingyue Zhang and Kenji Tei | (参考訳) 本稿では,VIN(Value Iteration Networks)が直面している,より大きな入力マップの処理と,繰り返しの増大による累積誤差の影響の軽減に対処する。
本稿では,(1)反復回数を減らすために,(1)適応イテレーション戦略をバリューイテレーションモジュールに導入すること,(2)反復プロセスを要約するゲーテッド要約モジュールを導入すること,の2つの主な改良点を取り入れた新しいアプローチとして,Gated Summarization Module (GS-VIN)を提案する。
アダプティブイテレーション戦略は、イテレーション時間の少ないより大きな畳み込みカーネルを使用し、ネットワークの深さを削減し、計画プロセスの精度を維持しながらトレーニング安定性を向上させる。
ゲート要約モジュールは、VIモジュール内の計画プロセス全体を時間的かつ空間的に再サンプリングすることにより、最終グローバルな計画結果のみに頼るのではなく、計画プロセス全体を強調することができる。
我々は,2次元グリッドの世界パスフィニング問題とAtari Mr. Pac-man環境について実験を行い,GS-VINが単一ステップの精度,計画成功率,および異なるマップサイズでの全体的な性能において,ベースラインよりも優れていることを示した。
さらに,viベースのモデルの大部分に適用可能な入力サイズとカーネルサイズ,およびviベースのモデルのイテレーション数との関係について分析を行い,研究者や産業展開に有用な知見を提供する。 In this paper, we address the challenges faced by Value Iteration Networks (VIN) in handling larger input maps and mitigating the impact of accumulated errors caused by increased iterations. We propose a novel approach, Value Iteration Networks with Gated Summarization Module (GS-VIN), which incorporates two main improvements: (1) employing an Adaptive Iteration Strategy in the Value Iteration module to reduce the number of iterations, and (2) introducing a Gated Summarization module to summarize the iterative process. The adaptive iteration strategy uses larger convolution kernels with fewer iteration times, reducing network depth and increasing training stability while maintaining the accuracy of the planning process. The gated summarization module enables the network to emphasize the entire planning process, rather than solely relying on the final global planning outcome, by temporally and spatially resampling the entire planning process within the VI module. We conduct experiments on 2D grid world path-finding problems and the Atari Mr. Pac-man environment, demonstrating that GS-VIN outperforms the baseline in terms of single-step accuracy, planning success rate, and overall performance across different map sizes. Additionally, we provide an analysis of the relationship between input size, kernel size, and the number of iterations in VI-based models, which is applicable to a majority of VI-based models and offers valuable insights for researchers and industrial deployment. | 翻訳日:2023-05-17 17:49:39 公開日:2023-05-16 |
# QURG: コンテキスト依存型テキスト-SQLセマンティックパーシングによる質問の書き直し QURG: Question Rewriting Guided Context-Dependent Text-to-SQL Semantic Parsing ( http://arxiv.org/abs/2305.06655v2 ) ライセンス: Link先を確認 | Linzheng Chai, Dongling Xiao, Jian Yang, Liqun Yang, Qian-Wen Zhang, Yunbo Cao, Zhoujun Li, Zhao Yan | (参考訳) コンテキスト依存のText-to-SQLは、マルチターン自然言語質問をSQLクエリに変換することを目的としている。
さまざまなメソッドがコンテキストsql解析に暗黙的にコンテキスト依存情報を活用しているが、現在の質問と質問コンテキストの間の依存関係を明示的に解決しようとする試みはほとんどない。
本稿では,モデルが適切な文脈理解を達成するための新しい質問書換え指導手法であるqurgを提案する。
具体的には、まず、質問コンテキストに基づいて現在の質問を完了し、それらを書き換え編集行列に変換するよう、質問書き換えモデルを訓練する。
さらに,質問と文脈間の書き換え関係と,自然言語と構造化スキーマ間のスキーマ結合関係を共同でモデル化する2ストリーム行列エンコーダの設計を行った。
実験結果から,QURGは2つの大規模コンテキスト依存データセットSParCとCoSQLの性能を著しく向上させることが示された。 Context-dependent Text-to-SQL aims to translate multi-turn natural language questions into SQL queries. Despite various methods have exploited context-dependence information implicitly for contextual SQL parsing, there are few attempts to explicitly address the dependencies between current question and question context. This paper presents QURG, a novel Question Rewriting Guided approach to help the models achieve adequate contextual understanding. Specifically, we first train a question rewriting model to complete the current question based on question context, and convert them into a rewriting edit matrix. We further design a two-stream matrix encoder to jointly model the rewriting relations between question and context, and the schema linking relations between natural language and structured schema. Experimental results show that QURG significantly improves the performances on two large-scale context-dependent datasets SParC and CoSQL, especially for hard and long-turn questions. | 翻訳日:2023-05-17 17:49:13 公開日:2023-05-16 |
# undercover deepfakes: ビデオ中の偽のセグメントを検出する Undercover Deepfakes: Detecting Fake Segments in Videos ( http://arxiv.org/abs/2305.06564v2 ) ライセンス: Link先を確認 | Sanjay Saha, Rashindrie Perera, Sachith Seneviratne, Tamasha Malepathirana, Sanka Rasnayaka, Deshani Geethika, Terence Sim, Saman Halgamuge | (参考訳) 近年のジェネレーティブモデルのルネッサンスは、主に拡散モデルの出現とGAN法の反復的な改善により、多くのクリエイティブな応用を可能にしている。
しかし、それぞれの進歩には誤用の可能性の高まりも伴っている。
ディープフェイク生成の分野では、これは重要な社会問題である。
特に、このような生成技術を使ってビデオのセグメントを修正できることは、ディープフェイクの新たなパラダイムを生み出します。
現在の学術文献におけるディープフェイク検出手法は評価されていない。
本稿では,フレームレベルのディープフェイク予測を行うことにより,この問題に対処できるディープフェイク検出手法を提案する。
テストを容易にするために,ビデオが実フレームシーケンスと偽フレームシーケンスの両方を持つ新しいベンチマークデータセットを作成する。
提案手法では,Vision Transformer, Scaling and Shifting Pretraining と Timeseries Transformer を用いてビデオの時間分割を行い,ディープフェイクの解釈を容易にする。
様々なディープフェイク生成手法に関する大規模な実験は、時間的セグメンテーションや古典的なビデオレベルの予測にも優れた結果を示す。
特に、私たちが導入するパラダイムは、ディープフェイクのモデレーションのための強力なツールを形成します。
実験はすべて、https://github.com/sanjaysaha1311/temporal-deepfake-segmentationで再現できる。 The recent renaissance in generative models, driven primarily by the advent of diffusion models and iterative improvement in GAN methods, has enabled many creative applications. However, each advancement is also accompanied by a rise in the potential for misuse. In the arena of deepfake generation this is a key societal issue. In particular, the ability to modify segments of videos using such generative techniques creates a new paradigm of deepfakes which are mostly real videos altered slightly to distort the truth. Current deepfake detection methods in the academic literature are not evaluated on this paradigm. In this paper, we present a deepfake detection method able to address this issue by performing both frame and video level deepfake prediction. To facilitate testing our method we create a new benchmark dataset where videos have both real and fake frame sequences. Our method utilizes the Vision Transformer, Scaling and Shifting pretraining and Timeseries Transformer to temporally segment videos to help facilitate the interpretation of possible deepfakes. Extensive experiments on a variety of deepfake generation methods show excellent results on temporal segmentation and classical video level predictions as well. In particular, the paradigm we introduce will form a powerful tool for the moderation of deepfakes, where human oversight can be better targeted to the parts of videos suspected of being deepfakes. All experiments can be reproduced at: https://github.com/sanjaysaha1311/temporal-deepfake-segmentation. | 翻訳日:2023-05-17 17:48:57 公開日:2023-05-16 |
# 畳み込みニューラルネットワークによる分類のための自動学習アルゴリズムの選択 Automatic learning algorithm selection for classification via convolutional neural networks ( http://arxiv.org/abs/2305.09101v1 ) ライセンス: Link先を確認 | Sebastian Maldonado, Carla Vairetti, Ignacio Figueroa | (参考訳) 他のタスクと同様に、機械学習モデルを構築するプロセスは、以前の経験から恩恵を受けることができる。
分類器選択のためのメタラーニングは、異なるデータセットの特性や機械学習技術の性能から知識を得て、現在のモデリングプロセスをよりよく決定する。
メタラーニングアプローチは、まず、この以前の経験を記述したメタデータを収集し、アルゴリズム選択モデルの入力として使用する。
本稿では,2進分類のための表付きデータセットの情報を用いて畳み込みネットワークを直接学習する自動学習手法を提案する。
本研究の目的は,メタ機能を特定することなく,データ固有の構造を学習することである。
シミュレーションデータセットを用いた実験により,提案手法は線形および非線形パターンの同定においてほぼ完全な性能を達成し,メタ機能に基づく従来の2段階法を上回った。
提案手法は実世界のデータセットに適用され、データの構造に基づいて考慮できる最良の分類器の提案を行う。 As in any other task, the process of building machine learning models can benefit from prior experience. Meta-learning for classifier selection gains knowledge from characteristics of different datasets and/or previous performance of machine learning techniques to make better decisions for the current modeling process. Meta-learning approaches first collect meta-data that describe this prior experience and then use it as input for an algorithm selection model. In this paper, however, we propose an automatic learning scheme in which we train convolutional networks directly with the information of tabular datasets for binary classification. The goal of this study is to learn the inherent structure of the data without identifying meta-features. Experiments with simulated datasets show that the proposed approach achieves nearly perfect performance in identifying linear and nonlinear patterns, outperforming the traditional two-step method based on meta-features. The proposed method is then applied to real-world datasets, making suggestions about the best classifiers that can be considered based on the structure of the data. | 翻訳日:2023-05-17 16:45:14 公開日:2023-05-16 |
# タスク非依存BERT圧縮における重み付き蒸留法 Weight-Inherited Distillation for Task-Agnostic BERT Compression ( http://arxiv.org/abs/2305.09098v1 ) ライセンス: Link先を確認 | Taiqiang Wu, Cheng Hou, Zhe Zhao, Shanshan Lao, Jiayi Li, Ngai Wong, Yujiu Yang | (参考訳) 知識蒸留(KD)はBERT圧縮の主要な手法である。
従来のkdベースの手法では,教師モデルの動作を模倣するために,生徒モデルのアライメント損失を余分に設計することに焦点を当てている。
これらの手法は知識を間接的に伝達する。
本稿では,教師から直接知識を伝達するWID(Weight-Inherited Distillation)を提案する。
WIDは付加的なアライメント損失を必要とせず、知識蒸留の新たな視点を示すため、体重を継承することでコンパクトな学生を訓練する。
具体的には,行コンパクタと列コンパクタをマッピングとして設計し,構造的再パラメータ化により重みを圧縮する。
GLUEとSQuADのベンチマーク実験の結果、WIDは従来のKDベースのベースラインよりも優れていた。
さらに分析した結果,widは教師モデルから注意分布のアライメント損失を伴わずに注意パターンを学習できることがわかった。 Knowledge Distillation (KD) is a predominant approach for BERT compression. Previous KD-based methods focus on designing extra alignment losses for the student model to mimic the behavior of the teacher model. These methods transfer the knowledge in an indirect way. In this paper, we propose a novel Weight-Inherited Distillation (WID), which directly transfers knowledge from the teacher. WID does not require any additional alignment loss and trains a compact student by inheriting the weights, showing a new perspective of knowledge distillation. Specifically, we design the row compactors and column compactors as mappings and then compress the weights via structural re-parameterization. Experimental results on the GLUE and SQuAD benchmarks show that WID outperforms previous state-of-the-art KD-based baselines. Further analysis indicates that WID can also learn the attention patterns from the teacher model without any alignment loss on attention distributions. | 翻訳日:2023-05-17 16:44:57 公開日:2023-05-16 |
# マルチビューmeraサブスペースクラスタリング Multi-view MERA Subspace Clustering ( http://arxiv.org/abs/2305.09095v1 ) ライセンス: Link先を確認 | Zhen Long, Ce Zhu, Jie Chen, Zihan Li, Yazhou Ren, Yipeng Liu | (参考訳) テンソルベースマルチビューサブスペースクラスタリング(MSC)は自己表現テンソルの高次相関を捉えることができる。
MSCの現在のテンソル分解は、高度に不均衡な展開行列や回転感度に悩まされ、ビュー内/イントラ情報を完全に探索することができない。
先進テンソルネットワーク,すなわち,マルチスケールエンタングルメント再正規化アンサッツ(MERA)を用いて,MERAがテンソルを1つのトップコアファクタと残りの直交/半直交要素の収縮に分解する低ランクMERAベースMSC(MERA-MSC)アルゴリズムを提案する。
直交/半直交(低ランク)因子間の多重相互作用から恩恵を受けると、低ランクの MERA は自己表現テンソル内の複素/イントラビュー情報を取得する強力な表現力を持つ。
最適化モデルを解くために、乗算器の交互方向法を採用する。
5つのマルチビューデータセットの実験結果から,mera-mscは6つの評価指標で比較したアルゴリズムに対して優れていることが示された。
さらに, アンカー学習を取り入れたMERA-MSCを拡張し, スケーラブルな低ランクMERAベースのマルチビュークラスタリング手法(sMREA-MVC)を開発した。
sMERA-MVCの有効性と効率を3つの大規模マルチビューデータセットで検証した。
私たちの知る限り、マルチビュークラスタリングのトピックにmeraを導入するのは、これが初めてです。
MERA-MSCとsMERA-MVCのコードはhttps://github.com/longzhen520/MERA-MSCで公開されている。 Tensor-based multi-view subspace clustering (MSC) can capture high-order correlation in the self-representation tensor. Current tensor decompositions for MSC suffer from highly unbalanced unfolding matrices or rotation sensitivity, failing to fully explore inter/intra-view information. Using the advanced tensor network, namely, multi-scale entanglement renormalization ansatz (MERA), we propose a low-rank MERA based MSC (MERA-MSC) algorithm, where MERA factorizes a tensor into contractions of one top core factor and the rest orthogonal/semi-orthogonal factors. Benefiting from multiple interactions among orthogonal/semi-orthogonal (low-rank) factors, the low-rank MERA has a strong representation power to capture the complex inter/intra-view information in the self-representation tensor. The alternating direction method of multipliers is adopted to solve the optimization model. Experimental results on five multi-view datasets demonstrate MERA-MSC has superiority against the compared algorithms on six evaluation metrics. Furthermore, we extend MERA-MSC by incorporating anchor learning to develop a scalable low-rank MERA based multi-view clustering method (sMREA-MVC). The effectiveness and efficiency of sMERA-MVC have been validated on three large-scale multi-view datasets. To our knowledge, this is the first work to introduce MERA to the multi-view clustering topic. The codes of MERA-MSC and sMERA-MVC are publicly available at https://github.com/longzhen520/MERA-MSC. | 翻訳日:2023-05-17 16:44:40 公開日:2023-05-16 |
# マイクロマザーライン形状のパワー拡大とシフトに及ぼすスクイージングの影響 Effects of squeezing on the power broadening and shifts of micromaser lineshapes ( http://arxiv.org/abs/2305.09094v1 ) ライセンス: Link先を確認 | L. Hern\'andez-S\'anchez, I. Ramos-Prieto, F. Soto-Eguibar, H. M. Moya-Cessa | (参考訳) acスタークシフトは、近接共鳴量子化された単一モードキャビティ場と相互作用する原子のダイナミクスに影響を与えていることはよく知られている。
本研究では,フィールドが圧縮されたコヒーレント状態にある場合,マイクロマザーラインはスクイーズパラメータに非常に敏感であることを示す。
さらに, 等振幅の圧縮コヒーレント状態の重ね合わせを考えると, 遷移線の変位はスクイーズパラメータだけでなく, その符号にも大きく依存することがわかった。 It is well known that AC Stark shifts have an impact on the dynamics of atoms interacting with a near-resonant quantized single-mode cavity field, which is relevant for single-atom micromasers. In this study, we demonstrate that when the field is in a squeezed coherent state, the micromaser lines are highly sensitive to the squeezing parameter. Furthermore, we show that when considering a superposition of squeezed coherent states with equal amplitude, the displacement of the transition lines depends significantly not only on the squeezing parameter but also on its sign. | 翻訳日:2023-05-17 16:44:13 公開日:2023-05-16 |
# ProtoVAE:unsupervised disentanglementのためのプロトタイプネットワーク ProtoVAE: Prototypical Networks for Unsupervised Disentanglement ( http://arxiv.org/abs/2305.09092v1 ) ライセンス: Link先を確認 | Vaishnavi Patil, Matthew Evanusa, Joseph JaJa | (参考訳) 生成モデリングと自己教師型学習は、近年、完全に教師なしの方法でデータから学ぶために大きな進歩を遂げています。
しかしながら、ニューラルネットワークがデータを解釈可能または説明可能な表現にエンコードするように誘導する研究領域は、まだオープンである。
教師なし乱れの問題は特に重要であり、ラベル付き例を伴わずに、データからばらつきや意味概念の異なる潜在要素を発見し、それらを構造的に無関係な潜在表現にエンコードすることを提案する。
ネットワークに付加的な制約や帰納的バイアスが与えられなければ、生成モデルはデータ分布を学習し、要因をエンコードするが、必ずしも矛盾する必要はない。
本稿では,この制約を課すために,自己スーパービジョンを用いて訓練された深層メトリック学習型ネットワークを活用した,新しい深層生成型vaeベースモデルprotovaeを提案する。
典型的ネットワークは、表現空間からデータ空間へのマッピングを制約し、表現空間の制御された変化がデータ空間の変化の要因の変化にマッピングされることを保証する。
我々のモデルは、完全に教師なしであり、要素数を含むデータセットの事前知識を必要としない。
提案モデルをベンチマークdsprites, 3dshapes, mpi3d disentanglementデータセット上で評価し, 潜在空間における質的トラバーサルと定量的異方性指標を用いて, 従来の手法に対する技術結果を示す。
さらに,本モデルの有効性を実世界のcelebaデータセット上で定量的に実証する。 Generative modeling and self-supervised learning have in recent years made great strides towards learning from data in a completely unsupervised way. There is still however an open area of investigation into guiding a neural network to encode the data into representations that are interpretable or explainable. The problem of unsupervised disentanglement is of particular importance as it proposes to discover the different latent factors of variation or semantic concepts from the data alone, without labeled examples, and encode them into structurally disjoint latent representations. Without additional constraints or inductive biases placed in the network, a generative model may learn the data distribution and encode the factors, but not necessarily in a disentangled way. Here, we introduce a novel deep generative VAE-based model, ProtoVAE, that leverages a deep metric learning Prototypical network trained using self-supervision to impose these constraints. The prototypical network constrains the mapping of the representation space to data space to ensure that controlled changes in the representation space are mapped to changes in the factors of variations in the data space. Our model is completely unsupervised and requires no a priori knowledge of the dataset, including the number of factors. We evaluate our proposed model on the benchmark dSprites, 3DShapes, and MPI3D disentanglement datasets, showing state of the art results against previous methods via qualitative traversals in the latent space, as well as quantitative disentanglement metrics. We further qualitatively demonstrate the effectiveness of our model on the real-world CelebA dataset. | 翻訳日:2023-05-17 16:44:03 公開日:2023-05-16 |
# aaai 2022 fall symposium: system-1とsystem-2が共通認知モデルで実現 AAAI 2022 Fall Symposium: System-1 and System-2 realized within the Common Model of Cognition ( http://arxiv.org/abs/2305.09091v1 ) ライセンス: Link先を確認 | Brendan Conway-Smith and Robert L. West | (参考訳) System-1とSystem-2の二重システム記述をAIにインポートしようとする試みは、その区別の明確さの欠如によって妨げられている。
我々は、システム1とシステム2を共通認知モデル内で配置することで、これや他の問題に対処する。
その結果、system-1と2の特徴的な特徴と考えられるものは、代わりに認知特性のスペクトルを形成することが示された。
Common Modelは、System-1とSystem-2に関わる計算ユニット、その基盤となるメカニズム、学習、メタ認知、感情などに関する包括的なビジョンを提供する。 Attempts to import dual-system descriptions of System-1 and System-2 into AI have been hindered by a lack of clarity over their distinction. We address this and other issues by situating System-1 and System-2 within the Common Model of Cognition. Results show that what are thought to be distinctive characteristics of System-1 and 2 instead form a spectrum of cognitive properties. The Common Model provides a comprehensive vision of the computational units involved in System-1 and System-2, their underlying mechanisms, and the implications for learning, metacognition, and emotion. | 翻訳日:2023-05-17 16:43:33 公開日:2023-05-16 |
# 畳み込みニューラルネットワークの自然へのヘッセン的視点 The Hessian perspective into the Nature of Convolutional Neural Networks ( http://arxiv.org/abs/2305.09088v1 ) ライセンス: Link先を確認 | Sidak Pal Singh, Thomas Hofmann, Bernhard Sch\"olkopf | (参考訳) 畳み込みニューラルネットワーク(CNN)は長い間研究され応用されてきたが、我々はヘッセン写像の観点から、その性質についてわずかに異なる視点を提供することを目指している。
その理由は、損失ヘッシアンがパラメータの対的な相互作用を捉え、cnnのアーキテクチャ的側面が構造や特性にどのように現れるかを調べるための自然な基盤を形成しているからである。
我々は,CNNのToeplitz表現に依存したフレームワークを開発し,それを用いてヘッセン構造,特にそのランクを明らかにする。
我々は、ヘッセン階数の経験的傾向を忠実に追従し、より一般的な設定で実際に保持する(線形活性化を伴う)厳密な上界を証明する。
全体として、我々の研究は、CNNにおいてもパラメータ数の平方根としてヘッセン階数が増加するという重要な洞察を一般化し確立している。 While Convolutional Neural Networks (CNNs) have long been investigated and applied, as well as theorized, we aim to provide a slightly different perspective into their nature -- through the perspective of their Hessian maps. The reason is that the loss Hessian captures the pairwise interaction of parameters and therefore forms a natural ground to probe how the architectural aspects of CNN get manifested in its structure and properties. We develop a framework relying on Toeplitz representation of CNNs, and then utilize it to reveal the Hessian structure and, in particular, its rank. We prove tight upper bounds (with linear activations), which closely follow the empirical trend of the Hessian rank and hold in practice in more general settings. Overall, our work generalizes and establishes the key insight that, even in CNNs, the Hessian rank grows as the square root of the number of parameters. | 翻訳日:2023-05-17 16:43:14 公開日:2023-05-16 |
# 悪意のあるWebサイト検出のためのデータ駆動アプローチのレビュー A Review of Data-driven Approaches for Malicious Website Detection ( http://arxiv.org/abs/2305.09084v1 ) ライセンス: Link先を確認 | Zeyuan Hu and Ziang Yuan | (参考訳) 悪意のあるウェブサイトの検出は、サイバーセキュリティにおいて重要な問題となっている。
そこで本研究では,悪意のあるwebサイトを検出するためのデータ駆動手法の総合的なレビューを行う。
従来のアプローチとその制限について議論し、続いてデータ駆動アプローチの概要を示す。
本稿では,データ前処理,特徴抽出,モデル構築,技術拡張など,データ駆動型アプローチの最新の研究動向について述べる。
具体的には,近年提案されているディープラーニングモデルを用いた手法を比較する。
さらに、悪意のあるWebサイト検出におけるデータ駆動手法の今後の方向性を議論するために、データ機能モデル拡張パイプラインに従う。 The detection of malicious websites has become a critical issue in cybersecurity. Therefore, this paper offers a comprehensive review of data-driven methods for detecting malicious websites. Traditional approaches and their limitations are discussed, followed by an overview of data-driven approaches. The paper establishes the data-feature-model-extension pipeline and the latest research developments of data-driven approaches, including data preprocessing, feature extraction, model construction and technology extension. Specifically, this paper compares methods using deep learning models proposed in recent years. Furthermore, the paper follows the data-feature-model-extension pipeline to discuss the challenges together with some future directions of data-driven methods in malicious website detection. | 翻訳日:2023-05-17 16:42:46 公開日:2023-05-16 |
# panelnet:パネル表現による360度室内環境の理解 PanelNet: Understanding 360 Indoor Environment via Panel Representation ( http://arxiv.org/abs/2305.09078v1 ) ライセンス: Link先を確認 | Haozheng Yu, Lu He, Bing Jian, Weiwei Feng, Shan Liu | (参考訳) 屋内360パノラマには2つの必須特性がある。
1)パノラマは連続しており、水平方向にシームレスである。
2) 重力は室内環境設計において重要な役割を担っている。
そこで,これらの特性を活かして,360度画像の新しいパネル表現を用いた室内環境理解フレームワーク panelnet を提案する。
等角射影(ERP)を,対応する3次元パネル形状を持つ連続垂直パネルとして表現する。
パノラマ歪みの負の影響を低減するため、パネルの局所的特徴と大域的特徴の両方を符号化するパネル幾何学埋め込みネットワークを組み込んだ。
室内設計における幾何学的コンテキストを捉えるために,パネル内の局所情報を集約するLocal2Global Transformerを導入する。
トレーニングオーバーヘッドの少ないモデルパフォーマンスを大幅に向上します。
提案手法は,既存の室内360度深度推定手法を上回り,室内レイアウト推定と意味セグメンテーションの課題における最先端アプローチと競合する結果を示す。 Indoor 360 panoramas have two essential properties. (1) The panoramas are continuous and seamless in the horizontal direction. (2) Gravity plays an important role in indoor environment design. By leveraging these properties, we present PanelNet, a framework that understands indoor environments using a novel panel representation of 360 images. We represent an equirectangular projection (ERP) as consecutive vertical panels with corresponding 3D panel geometry. To reduce the negative impact of panoramic distortion, we incorporate a panel geometry embedding network that encodes both the local and global geometric features of a panel. To capture the geometric context in room design, we introduce Local2Global Transformer, which aggregates local information within a panel and panel-wise global context. It greatly improves the model performance with low training overhead. Our method outperforms existing methods on indoor 360 depth estimation and shows competitive results against state-of-the-art approaches on the task of indoor layout estimation and semantic segmentation. | 翻訳日:2023-05-17 16:42:21 公開日:2023-05-16 |
# MLフェアネスに対するスキントーンアノテーションの同意と主観性 Consensus and Subjectivity of Skin Tone Annotation for ML Fairness ( http://arxiv.org/abs/2305.09073v1 ) ライセンス: Link先を確認 | Candice Schumann, Gbolahan O. Olanubi, Auriel Wright, Ellis Monk Jr., Courtney Heldreth, Susanna Ricco | (参考訳) 近年のコンピュータビジョンフェアネスの進歩は、知覚された属性信号(性別表示、肌色、年齢など)によって拡張されたデータセットと、これらのデータセットによって有効となるベンチマークに依存している。
通常、これらのタスクのラベルは人間のアノテーションに由来する。
しかし、属性信号の注釈付け、特に肌のトーンは困難で主観的な作業である。
皮膚のトーン知覚は、照明条件などの技術的な要因や、注釈者の生活体験を形作る社会的要因に影響される。
本稿では,mst(monk skin tone)スケール,プロのフォトグラファーのプール,より大規模に訓練されたクラウドソース・アノテータを用いたアノテーション実験を通じて,スキントーンアノテーションの主観性について検討する。
本研究は, 環境条件の厳しい条件下であっても, MSTスケールの専門家と一致して皮膚のトーンを確実にアノテートできることを示す。
また、異なる地理的領域のアノテータがMSTカテゴリーの異なるメンタルモデルに依存していることを示す。
これを踏まえて,肌色を公正な研究にアノテートする場合,多様なアノテータセットと画像毎に高いレプリケーションカウントを使用することを実践者に推奨する。 Recent advances in computer vision fairness have relied on datasets augmented with perceived attribute signals (e.g. gender presentation, skin tone, and age) and benchmarks enabled by these datasets. Typically labels for these tasks come from human annotators. However, annotating attribute signals, especially skin tone, is a difficult and subjective task. Perceived skin tone is affected by technical factors, like lighting conditions, and social factors that shape an annotator's lived experience. This paper examines the subjectivity of skin tone annotation through a series of annotation experiments using the Monk Skin Tone (MST) scale, a small pool of professional photographers, and a much larger pool of trained crowdsourced annotators. Our study shows that annotators can reliably annotate skin tone in a way that aligns with an expert in the MST scale, even under challenging environmental conditions. We also find evidence that annotators from different geographic regions rely on different mental models of MST categories resulting in annotations that systematically vary across regions. Given this, we advise practitioners to use a diverse set of annotators and a higher replication count for each image when annotating skin tone for fairness research. | 翻訳日:2023-05-17 16:42:01 公開日:2023-05-16 |
# 文脈で学ぶための事前学習 Pre-Training to Learn in Context ( http://arxiv.org/abs/2305.09137v1 ) ライセンス: Link先を確認 | Yuxian Gu, Li Dong, Furu Wei, Minlie Huang | (参考訳) 事前学習された言語モデルがタスク例からタスクの実行を学習するインコンテキスト学習は、NLPコミュニティで注目を集めている。
しかし、言語モデルがコンテキストで学習するように明示的に訓練されていないため、コンテキスト内学習の能力は完全には活用されない。
そこで本研究では,単純な言語モデリング目標を用いて,一般的な平文コーパスにおいて,大量の"イントラシックタスク"を事前学習することにより,言語モデルのインコンテキスト学習能力を向上させるためのフレームワークであるpicl(pre-training for in-context learning)を提案する。
PICLは、事前訓練されたモデルのタスク一般化を維持しながら、コンテキストを条件付けしてタスクを推論し実行することを奨励する。
PICLを用いて訓練された7つのテキスト分類データセットと、テキスト生成に形式化された100以上のNLPタスクを含むSuper-Natural Instrctionsベンチマークを用いて、文脈内学習性能を評価する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
コードはhttps://github.com/thu-coai/PICLで公開されている。 In-context learning, where pre-trained language models learn to perform tasks from task examples and instructions in their contexts, has attracted much attention in the NLP community. However, the ability of in-context learning is not fully exploited because language models are not explicitly trained to learn in context. To this end, we propose PICL (Pre-training for In-Context Learning), a framework to enhance the language models' in-context learning ability by pre-training the model on a large collection of "intrinsic tasks" in the general plain-text corpus using the simple language modeling objective. PICL encourages the model to infer and perform tasks by conditioning on the contexts while maintaining task generalization of pre-trained models. We evaluate the in-context learning performance of the model trained with PICL on seven widely-used text classification datasets and the Super-NaturalInstrctions benchmark, which contains 100+ NLP tasks formulated to text generation. Our experiments show that PICL is more effective and task-generalizable than a range of baselines, outperforming larger language models with nearly 4x parameters. The code is publicly available at https://github.com/thu-coai/PICL. | 翻訳日:2023-05-17 16:34:36 公開日:2023-05-16 |
# 連携型学習管理システムのためのスマートポリシー制御 Smart Policy Control for Securing Federated Learning Management System ( http://arxiv.org/abs/2305.09134v1 ) ライセンス: Link先を確認 | Aditya Pribadi Kalapaaking, Ibrahim Khalil, and Mohammed Atiquzzaman | (参考訳) スマートシティやインテリジェントヘルスケアシステム、さまざまな実世界のアプリケーションにIoT(Internet of Things)デバイスが広く採用されていることにより、大量のデータが生成されるようになり、しばしば異なる機械学習(ML)モデルを使用して分析される。
フェデレートラーニング(FL)はプライバシ保護機械学習技術として認識されており、複数のパーティが生データを交換することなくMLモデルを協調的にトレーニングしている。
しかし、現在のFLアーキテクチャでは、各FL参加者が実施する各種データ保護ポリシーにより、トレーニングプロセスの監査ができない。
さらに、現在のアーキテクチャで利用可能なグローバルモデル検証機能は存在しない。
本稿では,フェデレートラーニング(FL)管理システムを確保するためのスマートコントラクトベースのポリシー制御を提案する。
まず,スマートコントラクトベースのローカルトレーニングポリシコントロールをfl参加者側で開発し,展開する。
このポリシー管理はトレーニングプロセスを検証するために使用され、評価プロセスがすべてのfl参加者に対して同じルールに従うことを保証します。
次に、グローバルなモデル集約プロセスを管理するために、スマートコントラクトベースの集約ポリシーを施行します。
完了すると、集約されたモデルとポリシがブロックチェーンベースのストレージに格納される。
その後、全FL参加者に集約されたグローバルモデルとスマートコントラクトを配布する。
提案手法は,機械学習モデルのアクセス管理と整合性検証にスマートポリシー制御を用いる。
MNISTやCIFAR-10など,機械学習アーキテクチャやデータセットを用いて,提案したフレームワークの評価を行った。 The widespread adoption of Internet of Things (IoT) devices in smart cities, intelligent healthcare systems, and various real-world applications have resulted in the generation of vast amounts of data, often analyzed using different Machine Learning (ML) models. Federated learning (FL) has been acknowledged as a privacy-preserving machine learning technology, where multiple parties cooperatively train ML models without exchanging raw data. However, the current FL architecture does not allow for an audit of the training process due to the various data-protection policies implemented by each FL participant. Furthermore, there is no global model verifiability available in the current architecture. This paper proposes a smart contract-based policy control for securing the Federated Learning (FL) management system. First, we develop and deploy a smart contract-based local training policy control on the FL participants' side. This policy control is used to verify the training process, ensuring that the evaluation process follows the same rules for all FL participants. We then enforce a smart contract-based aggregation policy to manage the global model aggregation process. Upon completion, the aggregated model and policy are stored on blockchain-based storage. Subsequently, we distribute the aggregated global model and the smart contract to all FL participants. Our proposed method uses smart policy control to manage access and verify the integrity of machine learning models. We conducted multiple experiments with various machine learning architectures and datasets to evaluate our proposed framework, such as MNIST and CIFAR-10. | 翻訳日:2023-05-17 16:34:14 公開日:2023-05-16 |
# DualGenerator:ポイントクラウドコンプリートのための情報インタラクションベースの生成ネットワーク DualGenerator: Information Interaction-based Generative Network for Point Cloud Completion ( http://arxiv.org/abs/2305.09132v1 ) ライセンス: Link先を確認 | Pengcheng Shi, Haozhe Cheng, Xu Han, Yiyang Zhou, Jihua Zhu | (参考訳) ポイントクラウド完了は、高品質のポイントクラウドデータを得るために不完全なポイントクラウドから完全な形状を推定する。
既存の手法のほとんどは、隣接する点の空間的・意味的な情報を無視して、グローバルオブジェクトの特徴のみを考慮する。
異なる対象部品間で構造情報を適切に区別することはできず、モデルの堅牢性は貧弱である。
これらの課題に対処するために,ポイントクラウド補完のための情報インタラクションに基づく生成ネットワーク(\mathbf{DualGenerator}$)を提案する。
対向生成経路と変動生成経路を含み、互いに相互作用し、重みを共有する。
DualGeneratorは、生成パスにローカルリファインメントモジュールを導入し、部分的な入力から一般的な構造をキャプチャし、ポイントクラウドの形状の詳細を洗練する。
未知の領域での完成を促進し、異なる部分の区別をより明確にする。
さらに, dgstyleganの設計により, 世代品質がさらに向上する。
二重経路完了結果の融合解析と組み合わせたネットワークの堅牢性を促進する。
質的および定量的評価により,本手法はMVPおよびCompletion3Dデータセットよりも優れていることが示された。
ノイズ干渉やスパースサンプリングを加えても性能は著しく低下しない。 Point cloud completion estimates complete shapes from incomplete point clouds to obtain higher-quality point cloud data. Most existing methods only consider global object features, ignoring spatial and semantic information of adjacent points. They cannot distinguish structural information well between different object parts, and the robustness of models is poor. To tackle these challenges, we propose an information interaction-based generative network for point cloud completion ($\mathbf{DualGenerator}$). It contains an adversarial generation path and a variational generation path, which interact with each other and share weights. DualGenerator introduces a local refinement module in generation paths, which captures general structures from partial inputs, and then refines shape details of the point cloud. It promotes completion in the unknown region and makes a distinction between different parts more obvious. Moreover, we design DGStyleGAN to improve the generation quality further. It promotes the robustness of this network combined with fusion analysis of dual-path completion results. Qualitative and quantitative evaluations demonstrate that our method is superior on MVP and Completion3D datasets. The performance will not degrade significantly after adding noise interference or sparse sampling. | 翻訳日:2023-05-17 16:33:52 公開日:2023-05-16 |
# バイレベル最適化によるネットワーク制御のためのグラフ強化学習 Graph Reinforcement Learning for Network Control via Bi-Level Optimization ( http://arxiv.org/abs/2305.09129v1 ) ライセンス: Link先を確認 | Daniele Gammelli, James Harrison, Kaidi Yang, Marco Pavone, Filipe Rodrigues, Francisco C. Pereira | (参考訳) 動的ネットワーク上の最適化問題は、過去数十年で多くの実世界の問題を定式化するために広く研究され、広く利用されている。
しかし,(1) 従来の最適化手法は大規模ネットワークにスケールしないため,(2) 優れたヒューリスティックや近似アルゴリズムの設計には手動による試行錯誤が必要となることが多い。
本研究では,データ駆動型戦略が最適性を損なうことなく,このプロセスを自動化し,効率的なアルゴリズムを学習できると主張している。
そこで本研究では,強化学習のレンズを通してネットワーク制御の問題を提示し,幅広い問題を扱うグラフネットワークベースのフレームワークを提案する。
エッジなどの高次元グラフ要素上での動作をネーティブに計算する代わりに,(1)RLを介して所望の次状態を指定し,(2)凸プログラムを解くことにより,スケーラビリティと性能が大幅に向上する,という2段階の定式化を提案する。
さらに,システム設計者に対して望ましい機能の収集,設計判断の検証,フレームワークの実用性,スケーラビリティ,柔軟性を示す実世界の制御問題に関する実験を行った。 Optimization problems over dynamic networks have been extensively studied and widely used in the past decades to formulate numerous real-world problems. However, (1) traditional optimization-based approaches do not scale to large networks, and (2) the design of good heuristics or approximation algorithms often requires significant manual trial-and-error. In this work, we argue that data-driven strategies can automate this process and learn efficient algorithms without compromising optimality. To do so, we present network control problems through the lens of reinforcement learning and propose a graph network-based framework to handle a broad class of problems. Instead of naively computing actions over high-dimensional graph elements, e.g., edges, we propose a bi-level formulation where we (1) specify a desired next state via RL, and (2) solve a convex program to best achieve it, leading to drastically improved scalability and performance. We further highlight a collection of desirable features to system designers, investigate design decisions, and present experiments on real-world control problems showing the utility, scalability, and flexibility of our framework. | 翻訳日:2023-05-17 16:33:33 公開日:2023-05-16 |
# 伝達因果学習:知識伝達を用いた因果効果推定 Transfer Causal Learning: Causal Effect Estimation with Knowledge Transfer ( http://arxiv.org/abs/2305.09126v1 ) ライセンス: Link先を確認 | Song Wei, Ronald Moore, Hanyu Zhang, Yao Xie, Rishikesan Kamaleswaran | (参考訳) 同一共変量(または特徴)空間設定下での知識伝達の助けを借りて因果効果推定精度を向上させる新たな問題、すなわち同種移動学習(TL)について検討し、伝達因果学習(TCL)問題と呼ぶ。
TL手法を適用して平均因果効果(ACE)を推定する最近の研究は異種共変量空間の設定に重点を置いているが、アルゴリズム設計は共有およびドメイン固有の共変量空間への分解に基づいているため、TCL問題に取り組むには不十分である。
この問題に対処するため,我々は,ニュアサンスパラメータ推定のための$\ell_1$正規化tlと,結果回帰,逆確率重み付け,二重に頑健な推定子を含む下流プラグインace推定器を組み込んだ, \texttt{$\ell_1$-tcl} という汎用フレームワークを提案する。
最も重要なことは、ラッソの高次元回帰の助けを借りて、提案された \texttt{$\ell_1$-TCL} の空間的仮定の下で一般化線形モデル(GLM)の漸近的回復を保証することである。
さらに、 \texttt{$\ell_1$-tcl} の成功は、この新しい tcl 問題に適応するために、最近提案された統計文献における多くの原理的アプローチの適応を促す可能性がある。
経験的観点から見ると、 \texttt{$\ell_1$-TCL} は GLM だけでなく、最近開発された多くの非パラメトリックメソッドを組み込むことができる汎用的な学習フレームワークである。
ベンチマーク半合成と実データの両方において、glmと最近のニューラルネットワークを用いた広範囲な実験により、この経験的利点を実証し、既存のace推定のためのtl法と比較して性能が向上することを示した。 A novel problem of improving causal effect estimation accuracy with the help of knowledge transfer under the same covariate (or feature) space setting, i.e., homogeneous transfer learning (TL), is studied, referred to as the Transfer Causal Learning (TCL) problem. While most recent efforts in adapting TL techniques to estimate average causal effect (ACE) have been focused on the heterogeneous covariate space setting, those methods are inadequate for tackling the TCL problem since their algorithm designs are based on the decomposition into shared and domain-specific covariate spaces. To address this issue, we propose a generic framework called \texttt{$\ell_1$-TCL}, which incorporates $\ell_1$ regularized TL for nuisance parameter estimation and downstream plug-in ACE estimators, including outcome regression, inverse probability weighted, and doubly robust estimators. Most importantly, with the help of Lasso for high-dimensional regression, we establish non-asymptotic recovery guarantees for the generalized linear model (GLM) under the sparsity assumption for the proposed \texttt{$\ell_1$-TCL}. Moreover, the success of \texttt{$\ell_1$-TCL} could inspire the adaptations of many recently proposed principled approaches in statistics literature to be adapted to this novel TCL problem. From an empirical perspective, \texttt{$\ell_1$-TCL} is a generic learning framework that can incorporate not only GLM but also many recently developed non-parametric methods, which can enhance robustness to model mis-specification. We demonstrate this empirical benefit through extensive experiments using GLM and recent neural network based \texttt{$\ell_1$-TCL} on both benchmark semi-synthetic and real datasets, which shows improved performance compared with existing TL approaches for ACE estimation. | 翻訳日:2023-05-17 16:33:12 公開日:2023-05-16 |
# 電波干渉画像再構成のための条件付き拡散確率モデル A Conditional Denoising Diffusion Probabilistic Model for Radio Interferometric Image Reconstruction ( http://arxiv.org/abs/2305.09121v1 ) ライセンス: Link先を確認 | Ruoqi Wang, Zhuoyang Chen, Qiong Luo, Feng Wang | (参考訳) 電波天文学では、電波望遠鏡からの信号は観測された天体や源の画像に変換される。
しかし、これらの画像はダーティイメージと呼ばれ、信号のスパーシティなどの要因により、実際のソースだけでなくアーティファクトも含んでいる。
そのため、汚れた画像に対して電波干渉画像再構成を行い、アーティファクトを減らし、実際のソースを回収するクリーンな画像を作成する。
これまでの方法では、かすかなソースの復元、詳細な構造保存、アーティファクトの除去に成功している。
本稿では,可視性および画像条件付き消音拡散確率モデルvic-ddpmを提案する。
私たちの主なアイデアは、スペクトル領域のオリジナルの可視性データと空間領域の汚れた画像の両方を使用して、ddpmで画像生成プロセスをガイドすることです。
このようにして,ddpmを利用して細かなディテールを生成し,ノイズを除去し,可視性データを利用してノイズから信号を分離し,汚れた画像に空間情報を保持できる。
従来の手法と最近のディープラーニングに基づくアプローチとの比較実験を行った。
提案手法は, 成果物を低減し, 細部を保存し, ディムソースを復元することにより, 得られた画像を大幅に改善することを示す。
この進歩は、天体現象に関する電波天文学データ分析タスクをさらに促進する。 In radio astronomy, signals from radio telescopes are transformed into images of observed celestial objects, or sources. However, these images, called dirty images, contain real sources as well as artifacts due to signal sparsity and other factors. Therefore, radio interferometric image reconstruction is performed on dirty images, aiming to produce clean images in which artifacts are reduced and real sources are recovered. So far, existing methods have limited success on recovering faint sources, preserving detailed structures, and eliminating artifacts. In this paper, we present VIC-DDPM, a Visibility and Image Conditioned Denoising Diffusion Probabilistic Model. Our main idea is to use both the original visibility data in the spectral domain and dirty images in the spatial domain to guide the image generation process with DDPM. This way, we can leverage DDPM to generate fine details and eliminate noise, while utilizing visibility data to separate signals from noise and retaining spatial information in dirty images. We have conducted experiments in comparison with both traditional methods and recent deep learning based approaches. Our results show that our method significantly improves the resulting images by reducing artifacts, preserving fine details, and recovering dim sources. This advancement further facilitates radio astronomical data analysis tasks on celestial phenomena. | 翻訳日:2023-05-17 16:32:35 公開日:2023-05-16 |
# Wordle and General Guessing Games の最適戦略について On Optimal Strategies for Wordle and General Guessing Games ( http://arxiv.org/abs/2305.09111v1 ) ライセンス: Link先を確認 | Michael Cunanan and Michael Thielscher | (参考訳) 最近のWordleの人気はゲームに対する関心を復活させた。
徹底的な探索を避けつつ,ゲームを推測するための最適な戦略を見つけるための一般的な方法を開発した。
我々の主な貢献は、推測ゲームに対する戦略の最適性を証明する一般理論に向けて構築されたいくつかの定理である。
この研究は任意の推測ゲームに適用するために開発されていますが、具体的な結果を示す例としてWordleを使用します。 The recent popularity of Wordle has revived interest in guessing games. We develop a general method for finding optimal strategies for guessing games while avoiding an exhaustive search. Our main contributions are several theorems that build towards a general theory to prove the optimality of a strategy for a guessing game. This work is developed to apply to any guessing game, but we use Wordle as an example to present concrete results. | 翻訳日:2023-05-17 16:32:15 公開日:2023-05-16 |
# ビデオの価値は$n\times n$ Images?
変圧器による映像質問応答の高効率化 Is a Video worth $n\times n$ Images? A Highly Efficient Approach to Transformer-based Video Question Answering ( http://arxiv.org/abs/2305.09107v1 ) ライセンス: Link先を確認 | Chenyang Lyu, Tianbo Ji, Yvette Graham, Jennifer Foster | (参考訳) 従来のトランスフォーマーベースのビデオ質問応答 (Video QA) は、1つ以上の画像エンコーダを通してフレームを独立に符号化し、その後フレームと質問の間のインタラクションを行う。
しかし、そのようなスキーマは重大なメモリ使用を引き起こし、必然的にトレーニングと推論の速度を遅くする。
本研究では,映像フレームを$n\times n$Matrixに分解し,それを1つの画像に変換する,既存の視覚言語事前学習モデルに基づく,高効率なビデオQA手法を提案する。
これにより、元のビデオの時間構造を維持しながら、イメージエンコーダの使用を$n^{2}$から$$$に削減する。
MSRVTTとTrafficQAの実験結果から,提案手法は高速で30%のメモリ使用量で,最先端の性能をほぼ4倍に向上することが示された。
当社のアプローチをビデオQAシステムに統合することで、トレーニングと推論の大幅なスピードアップで、同等、さらに優れたパフォーマンスを実現できることが示されています。
提案手法は,予算や資源へのアクセスに制限のある者に対する計算要求を減らすことで,ビデオQA関連の研究を促進することができると考えている。
私たちのコードは研究用に公開されます。 Conventional Transformer-based Video Question Answering (VideoQA) approaches generally encode frames independently through one or more image encoders followed by interaction between frames and question. However, such schema would incur significant memory use and inevitably slow down the training and inference speed. In this work, we present a highly efficient approach for VideoQA based on existing vision-language pre-trained models where we concatenate video frames to a $n\times n$ matrix and then convert it to one image. By doing so, we reduce the use of the image encoder from $n^{2}$ to $1$ while maintaining the temporal structure of the original video. Experimental results on MSRVTT and TrafficQA show that our proposed approach achieves state-of-the-art performance with nearly $4\times$ faster speed and only 30% memory use. We show that by integrating our approach into VideoQA systems we can achieve comparable, even superior, performance with a significant speed up for training and inference. We believe the proposed approach can facilitate VideoQA-related research by reducing the computational requirements for those who have limited access to budgets and resources. Our code will be made publicly available for research use. | 翻訳日:2023-05-17 16:32:09 公開日:2023-05-16 |
# 改良されたqftベースの量子コンパレータと1アンシラ量子ビットを用いた拡張モジュラー演算 An Improved QFT-Based Quantum Comparator and Extended Modular Arithmetic Using One Ancilla Qubit ( http://arxiv.org/abs/2305.09106v1 ) ライセンス: Link先を確認 | Yewei Yuan, Chao Wang, Bei Wang, Zhao-Yun Chen, Meng-Han Dou, Yu-Chun Wu, and Guo-Ping Guo | (参考訳) 多くの量子アルゴリズムでは、量子コンパレータとモジュラー演算が基本である。
現在の研究は主に2つの量子状態間の操作に焦点を当てている。
しかし、整数分解、最適化、オプションの価格設定、リスク分析といった様々な応用は、一般に古典的な入力の1つを必要とする。
多くの補助量子ビット、特にその後の計算が関与する場合に必要となる。
本稿では,量子フーリエ変換(qft)に基づく量子古典比較器を提案する。
次に、2つの量子整数とモジュラー算術を比較するように拡張する。
提案された演算子は、1つのancilla qubitのみを必要とし、これはqubitリソースに最適である。
我々は、現在のモジュラ加算回路の制限を分析し、それをn$-qubit空間全体の任意の量子状態を処理するために開発する。
提案したアルゴリズムは、計算資源を削減し、ノイズ中間スケール量子(NISQ)コンピュータに価値を与える。 Quantum comparators and modular arithmetic are fundamental in many quantum algorithms. Current research mainly focuses on operations between two quantum states. However, various applications, such as integer factorization, optimization, option pricing, and risk analysis, commonly require one of the inputs to be classical. It requires many ancillary qubits, especially when subsequent computations are involved. In this paper, we propose a quantum-classical comparator based on the quantum Fourier transform (QFT). Then we extend it to compare two quantum integers and modular arithmetic. Proposed operators only require one ancilla qubit, which is optimal for qubit resources. We analyze limitations in the current modular addition circuit and develop it to process arbitrary quantum states in the entire $n$-qubit space. The proposed algorithms reduce computing resources and make them valuable for Noisy Intermediate-Scale Quantum (NISQ) computers. | 翻訳日:2023-05-17 16:31:51 公開日:2023-05-16 |
# ウィグナーの友人が不整合可観測物質を順次測定できるようにする Allowing Wigner's friend to sequentially measure incompatible observables ( http://arxiv.org/abs/2305.09102v1 ) ライセンス: Link先を確認 | An\'ibal Utreras-Alarc\'on, Eric G. Cavalcanti and Howard M. Wiseman | (参考訳) ウィグナーの友人の思考実験は、近年、ベルのようなシナリオにまで拡張するノーゴー定理によって、関心が再び高まっている。
これらのうちの1つは、私たちと同僚によって、量子論と一連の仮定の間に生じる矛盾を示し、ベルの定理のそれよりも弱く、我々が「ローカル・フレンドリー」と名付けた。
これらの仮定を用いることで、与えられたシナリオの集合の不等式に到達することができ、一般に、これらの不等式の一部は、同じシナリオのベルの不等式よりも違反しにくい。
上述の作業において、Wigner氏の友人シナリオの拡張の重要な特徴は、友人の測定を引き起こすユニタリな進化を逆転させるスーパーオブザーバの能力であった。
ここでは、スーパーオブザーバが友人と1つの実験インスタンスで繰り返しやりとりできる新しいシナリオを提示し、その結果を直接要求することで、そのインスタンスを終了させるか、測定結果を反転させ、新しいインスタンスを実行するように指示する。
これらのシナリオでは、局所的な友情の不等式は常にベルの不等式と同じであることを示す。 The Wigner's friend thought experiment has gained a resurgence of interest in recent years thanks to no-go theorems that extend it to Bell-like scenarios. One of these, by us and co-workers, showcased the contradiction that arises between quantum theory and a set of assumptions, weaker than those in Bell's theorem, which we named "local friendliness". Using these assumptions it is possible to arrive at a set of inequalities for a given scenario, and, in general, some of these inequalities will be harder to violate than the Bell inequalities for the same scenario. A crucial feature of the extended Wigner's friend scenario in our aforementioned work was the ability of a superobserver to reverse the unitary evolution that gives rise to their friend's measurement. Here, we present a new scenario where the superobserver can interact with the friend repeatedly in a single experimental instance, either by asking them directly for their result, thus ending that instance, or by reversing their measurement and instructing them to perform a new one. We show that, in these scenarios, the local friendliness inequalities will always be the same as Bell inequalities. | 翻訳日:2023-05-17 16:31:38 公開日:2023-05-16 |
# 自己教師付き表現に基づく音声変換のための無注釈外部データを用いた逆話者不等角化 Adversarial Speaker Disentanglement Using Unannotated External Data for Self-supervised Representation Based Voice Conversion ( http://arxiv.org/abs/2305.09167v1 ) ライセンス: Link先を確認 | Xintao Zhao, Shuai Wang, Yang Chao, Zhiyong Wu, Helen Meng, | (参考訳) 近年,音声認識合成法は音声変換 (VC) で広く普及している。
自動音声認識(ASR)モデルから抽出した言語学の特徴をうまく表現することで,VCの性能は飛躍的に向上した。
近年,大規模無注釈音声コーパスを用いて訓練された自己教師型学習(SSL)手法が,VCタスクに適したコンテンツ情報に着目した下流タスクに適用されている。
しかし、SSL表現における膨大な話者情報は、音色類似性と変換音声の品質を著しく低下させる。
この問題に対処するため,SSL表現を入力した高相似性非対1音声変換法を提案する。
合成モジュールに外部無注釈コーパスを用いた対向学習機構を組み込んだ。
音響モデルによりメル-スペクトログラムの配列が変換されたかどうか, 外部コーパスからの話者情報を含むコンテンツ埋め込みのシーケンスを識別するために, 2つの補助判別器を訓練した。
実験の結果,提案手法は訓練に大量の注釈付きコーパスが必要であり,入力として他のSSL表現を用いたVC手法の類似性向上に有効であることがわかった。 Nowadays, recognition-synthesis-based methods have been quite popular with voice conversion (VC). By introducing linguistics features with good disentangling characters extracted from an automatic speech recognition (ASR) model, the VC performance achieved considerable breakthroughs. Recently, self-supervised learning (SSL) methods trained with a large-scale unannotated speech corpus have been applied to downstream tasks focusing on the content information, which is suitable for VC tasks. However, a huge amount of speaker information in SSL representations degrades timbre similarity and the quality of converted speech significantly. To address this problem, we proposed a high-similarity any-to-one voice conversion method with the input of SSL representations. We incorporated adversarial training mechanisms in the synthesis module using external unannotated corpora. Two auxiliary discriminators were trained to distinguish whether a sequence of mel-spectrograms has been converted by the acoustic model and whether a sequence of content embeddings contains speaker information from external corpora. Experimental results show that our proposed method achieves comparable similarity and higher naturalness than the supervised method, which needs a huge amount of annotated corpora for training and is applicable to improve similarity for VC methods with other SSL representations as input. | 翻訳日:2023-05-17 16:25:53 公開日:2023-05-16 |
# SUG: 3Dポイントクラウド分類のための単一データセット統一一般化 SUG: Single-dataset Unified Generalization for 3D Point Cloud Classification ( http://arxiv.org/abs/2305.09160v1 ) ライセンス: Link先を確認 | Siyuan Huang, Bo Zhang, Botian Shi, Peng Gao, Yikang Li, Hongsheng Li | (参考訳) ドメイン一般化(dg)問題は2d画像タスクで急速に増加しているが、3dポイントクラウドデータの探索はまだ不十分であり、クラス間の不均一なモダリティ分布を持つより複雑で不確定なクロスドメイン分散に挑戦されている。
本稿では,従来の2次元DGとは違って3次元DG問題に焦点をあて,単一のソースデータセットのみを活用する単一データセット統一一般化(SUG)フレームワークを提案する。
具体的には,まず,分割したサブドメイン間の特徴アライメント処理を単一ソースデータセットから行うことにより,学習した表現をドメインに依存しない識別性に制約できるマルチグラニュアルサブドメインアライメント(MSA)手法を設計する。
次に、サンプルレベルのドメイン認識(SDA)戦略を示し、サンプルレベルのドメイン間距離に応じて異なるサブドメインからのサンプルを選択的に適応させ、負の転送を避ける。
実験により、当社のsugは、ターゲット領域の広範囲なデータにアクセスする必要のある既存の教師なしドメイン適応メソッドを上回ることさえも、対象領域の非認識の一般化能力を向上できることが示されました。
私たちのコードはhttps://github.com/siyuanhuang95/sugで入手できる。 Although Domain Generalization (DG) problem has been fast-growing in the 2D image tasks, its exploration on 3D point cloud data is still insufficient and challenged by more complex and uncertain cross-domain variances with uneven inter-class modality distribution. In this paper, different from previous 2D DG works, we focus on the 3D DG problem and propose a Single-dataset Unified Generalization (SUG) framework that only leverages a single source dataset to alleviate the unforeseen domain differences faced by a well-trained source model. Specifically, we first design a Multi-grained Sub-domain Alignment (MSA) method, which can constrain the learned representations to be domain-agnostic and discriminative, by performing a multi-grained feature alignment process between the splitted sub-domains from the single source dataset. Then, a Sample-level Domain-aware Attention (SDA) strategy is presented, which can selectively enhance easy-to-adapt samples from different sub-domains according to the sample-level inter-domain distance to avoid the negative transfer. Experiments demonstrate that our SUG can boost the generalization ability for unseen target domains, even outperforming the existing unsupervised domain adaptation methods that have to access extensive target domain data. Our code is available at https://github.com/SiyuanHuang95/SUG. | 翻訳日:2023-05-17 16:25:32 公開日:2023-05-16 |
# トレーニング可能な運動エネルギーセンシングによる人間の視覚運動処理のモデル化と適応運動統合のための自己注意ネットワーク Modelling Human Visual Motion Processing with Trainable Motion Energy Sensing and a Self-attention Network for Adaptive Motion Integration ( http://arxiv.org/abs/2305.09156v1 ) ライセンス: Link先を確認 | Zitang Sun, Yen-Ju Chen, Yung-hao Yang, Shin'ya Nishida | (参考訳) 視覚運動処理は生物が動的環境を知覚し相互作用するためには不可欠である。
認知神経科学の広範な研究にもかかわらず、人間の視覚処理と整合した自然なシーンから情報的な動きの流れを抽出できる画像計算モデルはまだ確立されていない。
一方で、ディープラーニングによって推進されるコンピュータビジョン(cv)の最近の進歩は、運動知覚に密接なタスクである光フロー推定の著しい進歩をもたらした。
本稿では,人間とcvモデルのギャップを橋渡しすることで,人間の運動知覚を画像計算可能なモデルを提案する。
具体的には,適応的動作統合と分離のために,学習可能な運動エネルギーセンシングと反復的自己アテンションネットワークを組み合わせた新しい2段階アプローチを提案する。
このモデルアーキテクチャは、生体視覚システムにおける運動知覚のコア構造であるV1-MTの計算を捉えることを目的としている。
サイリコ神経生理学では、我々のモデルの単位応答は、運動プーリングとスピードチューニングに関する哺乳類の神経記録に類似していることが明らかとなった。
提案モデルは、過去の心理物理学研究で検討された様々な刺激に対するヒトの反応を再現することもできる。
sintelベンチマークによる実験結果から,本モデルは基礎的真理よりも人間の反応を予測できるが,cvモデルは逆であることが示された。
さらなる部分相関分析により,本モデルは,地上の真理から逸脱する人間の反応を説明する上で,最先端のCVモデルよりも優れていることが示された。
本研究は人間の視覚運動処理と整合した計算アーキテクチャを提供するが、生理的対応は正確ではないかもしれない。 Visual motion processing is essential for organisms to perceive and interact with dynamic environments. Despite extensive research in cognitive neuroscience, image-computable models that can extract informative motion flow from natural scenes in a manner consistent with human visual processing have yet to be established. Meanwhile, recent advancements in computer vision (CV), propelled by deep learning, have led to significant progress in optical flow estimation, a task closely related to motion perception. Here we propose an image-computable model of human motion perception by bridging the gap between human and CV models. Specifically, we introduce a novel two-stage approach that combines trainable motion energy sensing with a recurrent self-attention network for adaptive motion integration and segregation. This model architecture aims to capture the computations in V1-MT, the core structure for motion perception in the biological visual system. In silico neurophysiology reveals that our model's unit responses are similar to mammalian neural recordings regarding motion pooling and speed tuning. The proposed model can also replicate human responses to a range of stimuli examined in past psychophysical studies. The experimental results on the Sintel benchmark demonstrate that our model predicts human responses better than the ground truth, whereas the CV models show the opposite. Further partial correlation analysis indicates our model outperforms several state-of-the-art CV models in explaining the human responses that deviate from the ground truth. Our study provides a computational architecture consistent with human visual motion processing, although the physiological correspondence may not be exact. | 翻訳日:2023-05-17 16:25:07 公開日:2023-05-16 |
# プログレッシブ翻訳:中間配列によるニューラルマシン翻訳のドメインロバスト性の向上 Progressive Translation: Improving Domain Robustness of Neural Machine Translation with Intermediate Sequences ( http://arxiv.org/abs/2305.09154v1 ) ライセンス: Link先を確認 | Chaojun Wang, Yang Liu, Wai Lam | (参考訳) 先行研究では、中間監督信号は様々な自然言語処理タスクに有用であることが示されている。
しかし、ニューラルマシン翻訳(nmt)に役立つ中間信号が存在するかどうかは明らかではない。
統計的機械翻訳の手法を引用し,「ソースライク」構造から「ターゲットライク」構造への中間系列である中間信号を提案する。
このような中間列は、ドメインに依存しない翻訳の原理を反映する帰納的バイアスを導入し、ドメイン外一般化に有害な急激な相関を減少させる。
さらに, 多変量多タスク学習により, 中間列から目標への散発的因果関係を緩和し, 被曝バイアスを解消する。
最小ベイズリスク復号アルゴリズムは、全ての置換から最適な翻訳候補を選び、さらに性能を向上させるために用いられる。
実験により,導入した中間信号はnmtの領域ロバスト性を効果的に改善し,領域外翻訳における幻覚量を低減できることを示した。
特に低リソースシナリオでは,本手法が有望であることを示す。 Previous studies show that intermediate supervision signals benefit various Natural Language Processing tasks. However, it is not clear whether there exist intermediate signals that benefit Neural Machine Translation (NMT). Borrowing techniques from Statistical Machine Translation, we propose intermediate signals which are intermediate sequences from the "source-like" structure to the "target-like" structure. Such intermediate sequences introduce an inductive bias that reflects a domain-agnostic principle of translation, which reduces spurious correlations that are harmful to out-of-domain generalisation. Furthermore, we introduce a full-permutation multi-task learning to alleviate the spurious causal relations from intermediate sequences to the target, which results from exposure bias. The Minimum Bayes Risk decoding algorithm is used to pick the best candidate translation from all permutations to further improve the performance. Experiments show that the introduced intermediate signals can effectively improve the domain robustness of NMT and reduces the amount of hallucinations on out-of-domain translation. Further analysis shows that our methods are especially promising in low-resource scenarios. | 翻訳日:2023-05-17 16:24:39 公開日:2023-05-16 |
# 確率論的星形成に基づく量子ノイズストリーム暗号のセキュリティ向上 Security Enhancement of Quantum Noise Stream Cipher Based on Probabilistic Constellation Shaping ( http://arxiv.org/abs/2305.09152v1 ) ライセンス: Link先を確認 | Sheng Liu, Shuang Wei, Wei Wang, Chao Lei, Tianhe Liu, Yajie Li, Yunbo Li, Dawei Ge, Dong Wang, Yongli Zhao, Dechao Zhang, Han Li and Jie Zhang | (参考訳) 本稿では,基本の確率的整形に基づくQNSCプリコーディング方式を提案し,インターセプトが容易な暗号ビットの確率を低減する。
実験結果から,この方式はEveの暗号文BERのセキュリティ性能を100%向上させることができることがわかった。 We propose a QNSC pre-coding scheme based on probabilistic shaping of the basis, to reduce the probability of ciphertext bits that are easier to be intercepted. Experiment results show this scheme can improve the security performance by 100% in terms of Eve's cipher text BER. | 翻訳日:2023-05-17 16:24:20 公開日:2023-05-16 |
# 言語間文埋め込みのためのデュアルアライメント事前学習 Dual-Alignment Pre-training for Cross-lingual Sentence Embedding ( http://arxiv.org/abs/2305.09148v1 ) ライセンス: Link先を確認 | Ziheng Li, Shaohan Huang, Zihan Zhang, Zhi-Hong Deng, Qiang Lou, Haizhen Huang, Jian Jiao, Furu Wei, Weiwei Deng, Qi Zhang | (参考訳) 近年の研究では、文レベルの翻訳ランキングタスクで訓練された二重エンコーダモデルが、言語間文埋め込みに有効な方法であることが示されている。
しかし,これまでに十分に検討されていない多言語シナリオでは,トークンレベルのアライメントも重要であることが示唆された。
本研究は,文レベルのアライメントとトークンレベルのアライメントを組み込んだ言語間文埋め込みのための,二重アライメント事前学習(DAP)フレームワークを提案する。
そこで本研究では,一対一の文脈化トークン表現を用いて翻訳を再構築する新しい表現型翻訳学習(rtl)タスクを提案する。
この再構成目的は、翻訳情報をトークン表現に埋め込むようモデルに促す。
翻訳言語モデリングなどの他のトークンレベルのアライメント手法と比較して、RTLは二重エンコーダアーキテクチャに適している。
3つの文レベルのクロスリンガルベンチマークに関する広範な実験は、このアプローチが文の埋め込みを大幅に改善できることを示しています。
私たちのコードはhttps://github.com/ChillingDream/DAPで公開されています。 Recent studies have shown that dual encoder models trained with the sentence-level translation ranking task are effective methods for cross-lingual sentence embedding. However, our research indicates that token-level alignment is also crucial in multilingual scenarios, which has not been fully explored previously. Based on our findings, we propose a dual-alignment pre-training (DAP) framework for cross-lingual sentence embedding that incorporates both sentence-level and token-level alignment. To achieve this, we introduce a novel representation translation learning (RTL) task, where the model learns to use one-side contextualized token representation to reconstruct its translation counterpart. This reconstruction objective encourages the model to embed translation information into the token representation. Compared to other token-level alignment methods such as translation language modeling, RTL is more suitable for dual encoder architectures and is computationally efficient. Extensive experiments on three sentence-level cross-lingual benchmarks demonstrate that our approach can significantly improve sentence embedding. Our code is available at https://github.com/ChillingDream/DAP. | 翻訳日:2023-05-17 16:24:15 公開日:2023-05-16 |
# 安全自動運転のための自己認識軌道予測 Self-Aware Trajectory Prediction for Safe Autonomous Driving ( http://arxiv.org/abs/2305.09147v1 ) ライセンス: Link先を確認 | Wenbo Shao, Jun Li, Hong Wang | (参考訳) 軌道予測は自動運転ソフトウェアスタックの重要なコンポーネントの1つである。
知的車両の運転効率と安全性を確保するためには,周辺交通参加者の将来行動の正確な予測が重要な前提条件である。
近年、人工知能に基づく軌道予測アルゴリズムが広く研究され、応用され、驚くべき結果が得られた。
しかし、複雑な人工知能モデルは不確かで説明が難しいため、現実の世界に当てはまると意図しない失敗に直面する可能性がある。
本稿では,自己認識軌道予測手法を提案する。
自己認識モジュールと2段階のトレーニングプロセスを導入することで、元の軌道予測モジュールのパフォーマンスをオンラインで推定し、システムが時間内に不十分な予測関数のシナリオに対処し、安全で信頼性の高い自動運転を実現するための条件を作成する。
総合的な実験と解析を行い,提案手法は自己認識,メモリフットプリント,リアルタイム性能の面で良好に動作し,安全な自動運転のための有望なパラダイムとして機能することを示した。 Trajectory prediction is one of the key components of the autonomous driving software stack. Accurate prediction for the future movement of surrounding traffic participants is an important prerequisite for ensuring the driving efficiency and safety of intelligent vehicles. Trajectory prediction algorithms based on artificial intelligence have been widely studied and applied in recent years and have achieved remarkable results. However, complex artificial intelligence models are uncertain and difficult to explain, so they may face unintended failures when applied in the real world. In this paper, a self-aware trajectory prediction method is proposed. By introducing a self-awareness module and a two-stage training process, the original trajectory prediction module's performance is estimated online, to facilitate the system to deal with the possible scenario of insufficient prediction function in time, and create conditions for the realization of safe and reliable autonomous driving. Comprehensive experiments and analysis are performed, and the proposed method performed well in terms of self-awareness, memory footprint, and real-time performance, showing that it may serve as a promising paradigm for safe autonomous driving. | 翻訳日:2023-05-17 16:23:59 公開日:2023-05-16 |
# 深部ReLUネットワークは驚くほどシンプルなポリトープ Deep ReLU Networks Have Surprisingly Simple Polytopes ( http://arxiv.org/abs/2305.09145v1 ) ライセンス: Link先を確認 | Feng-Lei Fan, Wei Huang, Xiangru Zhong, Lecheng Ruan, Tieyong Zeng, Huan Xiong, Fei Wang | (参考訳) ReLUネットワークはポリトープ上の一括線形関数である。
このようなポリトープの性質を解明することは、ニューラルネットワークの研究と開発に不可欠である。
今のところ、ポリトープに関する理論的または実証的な研究は、その数を数える程度にとどまっており、ポリトープの完全な特徴付けとは程遠い。
そこで本研究では, ポリトープの三角測量により得られた簡易化の回数から, ポリトープの形状について検討する。
そして,ポリトープ全体の単純さのヒストグラムを計算し解析することにより,ReLUネットワークは初期化と勾配降下の両方の下で比較的単純なポリトープを持つことがわかった。
この発見は、新しい暗黙の偏見として評価できる。
次に、非自明な組合せの導出を用いて、なぜ深さを加えることが、次元の関数でポリトープの面の平均数を束ねることで、より複雑なポリトープを生成しないのかを理論的に説明する。
その結果,ネットワークが学習する単純な関数とその空間分割特性を明らかにした。
また、ポリトープの形状を特徴付けることで、単純化の数は他の問題へのレバレッジとなり、ResNetのような一般的なショートカットネットワークのパワーを説明し、ネットワークの空間分割に対する様々な正規化戦略の影響を分析するための一般的な機能的複雑性尺度として機能する。 A ReLU network is a piecewise linear function over polytopes. Figuring out the properties of such polytopes is of fundamental importance for the research and development of neural networks. So far, either theoretical or empirical studies on polytopes only stay at the level of counting their number, which is far from a complete characterization of polytopes. To upgrade the characterization to a new level, here we propose to study the shapes of polytopes via the number of simplices obtained by triangulating the polytope. Then, by computing and analyzing the histogram of simplices across polytopes, we find that a ReLU network has relatively simple polytopes under both initialization and gradient descent, although these polytopes theoretically can be rather diverse and complicated. This finding can be appreciated as a novel implicit bias. Next, we use nontrivial combinatorial derivation to theoretically explain why adding depth does not create a more complicated polytope by bounding the average number of faces of polytopes with a function of the dimensionality. Our results concretely reveal what kind of simple functions a network learns and its space partition property. Also, by characterizing the shape of polytopes, the number of simplices be a leverage for other problems, \textit{e.g.}, serving as a generic functional complexity measure to explain the power of popular shortcut networks such as ResNet and analyzing the impact of different regularization strategies on a network's space partition. | 翻訳日:2023-05-17 16:23:40 公開日:2023-05-16 |
# 意識的か 忘れられるか?
言語モデルの知識記憶機構に潜む Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism of Language Models ( http://arxiv.org/abs/2305.09144v1 ) ライセンス: Link先を確認 | Boxi Cao, Qiaoyu Tang, Hongyu Lin, Xianpei Han, Jiawei Chen, Tianshu Wang, Le Sun | (参考訳) 記憶は世界の知識と活動のエピソードのレポジトリとして機能する最も重要な認知機能の一つである。
近年,大規模事前学習型言語モデルが注目されている。
それとは対照的に、前訓練のないバニラニューラルネットワークは、破滅的な忘れ障害に悩まされてきた。
言語モデルの記憶機構を理解するために,目的とする知識の種類,学習戦略,学習スケジュールを制御して徹底的な実験を行う。
私たちはそれを見つけました
1)バニラ言語モデルは忘れ去られている。
2)事前学習は,暗黙の言語モデルにつながる。
3)知識の関連性と多様化は記憶形成に大きく影響する。
これらの結論は、事前訓練された言語モデルの能力を理解するのに有用であり、新しい学習アルゴリズムの設計と評価に重点を置いている。 Memory is one of the most essential cognitive functions serving as a repository of world knowledge and episodes of activities. In recent years, large-scale pre-trained language models have shown remarkable memorizing ability. On the contrary, vanilla neural networks without pre-training have been long observed suffering from the catastrophic forgetting problem. To investigate such a retentive-forgetful contradiction and understand the memory mechanism of language models, we conduct thorough experiments by controlling the target knowledge types, the learning strategies and the learning schedules. We find that: 1) Vanilla language models are forgetful; 2) Pre-training leads to retentive language models; 3) Knowledge relevance and diversification significantly influence the memory formation. These conclusions are useful for understanding the abilities of pre-trained language models and shed light on designing and evaluating new learning and inference algorithms of language models. | 翻訳日:2023-05-17 16:23:12 公開日:2023-05-16 |
# 知覚画像品質評価のための深部センシング Deep Ensembling for Perceptual Image Quality Assessment ( http://arxiv.org/abs/2305.09141v1 ) ライセンス: Link先を確認 | Nisar Ahmed, H. M. Shahzad Asif, Abdul Rauf Bhatti, and Atif Khan | (参考訳) ブラインド画像の品質評価は,特に参照情報の有効性の欠如による課題である。
ディープニューラルネットワークのトレーニングには、画像の品質のために簡単には利用できない大量のトレーニングデータが必要である。
転送学習は、通常、この制限を克服するために選択され、異なるディープアーキテクチャは、特徴を異なる方法で学習するため、この目的のために使用される。
大規模な実験の後、2つのCNNアーキテクチャをサブユニットとして含むディープアーキテクチャを設計した。
さらに,自然歪みの12,000枚の画像を用いた自己収集画像データベースBIQ2021を提案する。
自己収集データベースは主観的に評価され、モデルのトレーニングと検証に使用される。
合成歪みデータベースは, データベースで使用される歪み型以上の一般化はできず, 汎用画像品質評価の理想的候補ではないことが実証された。
さらに、合成歪みを伴う1875万画像の大規模データベースを用いて、モデルを事前トレーニングし、評価のためにベンチマークデータベースで再トレーニングする。
実験は6つのベンチマークデータベース上で行われ、3つは合成歪みデータベース(LIVE, CSIQ, TID2013)、3つは自然歪みデータベース(LIVE Challenge Database, CID2013, KonIQ-10k)である。
提案手法は, パーソン相関係数0.8992, 0.8472, 0.9452, そしてスピアマン相関係数0.8863, 0.8408, 0.9421を与える。
さらに,提案手法の知覚的優越性を示すために,知覚重み付きランク相関を用いて性能を示す。
BIQ2021データベースの各種サブセットをトレーニングし,BIQ2021データベースのテストサブセットを検証することにより,提案モデルの一般化性能を検証するために,複数の実験を行った。 Blind image quality assessment is a challenging task particularly due to the unavailability of reference information. Training a deep neural network requires a large amount of training data which is not readily available for image quality. Transfer learning is usually opted to overcome this limitation and different deep architectures are used for this purpose as they learn features differently. After extensive experiments, we have designed a deep architecture containing two CNN architectures as its sub-units. Moreover, a self-collected image database BIQ2021 is proposed with 12,000 images having natural distortions. The self-collected database is subjectively scored and is used for model training and validation. It is demonstrated that synthetic distortion databases cannot provide generalization beyond the distortion types used in the database and they are not ideal candidates for general-purpose image quality assessment. Moreover, a large-scale database of 18.75 million images with synthetic distortions is used to pretrain the model and then retrain it on benchmark databases for evaluation. Experiments are conducted on six benchmark databases three of which are synthetic distortion databases (LIVE, CSIQ and TID2013) and three are natural distortion databases (LIVE Challenge Database, CID2013 and KonIQ-10 k). The proposed approach has provided a Pearson correlation coefficient of 0.8992, 0.8472 and 0.9452 subsequently and Spearman correlation coefficient of 0.8863, 0.8408 and 0.9421. Moreover, the performance is demonstrated using perceptually weighted rank correlation to indicate the perceptual superiority of the proposed approach. Multiple experiments are conducted to validate the generalization performance of the proposed model by training on different subsets of the databases and validating on the test subset of BIQ2021 database. | 翻訳日:2023-05-17 16:23:00 公開日:2023-05-16 |
# 軽量なM\"obiusスコア: 機能属性のための統一フレームワーク The Weighted M\"obius Score: A Unified Framework for Feature Attribution ( http://arxiv.org/abs/2305.09204v1 ) ライセンス: Link先を確認 | Yifan Jiang, Shane Steinert-Threlkeld | (参考訳) 特徴帰属(feature attribution)は、ブラックボックスモデルの予測の背後にある推論を説明し、各特徴が予測に与える影響を識別することを目的としている。
最近の研究は、複数の特徴間の相互作用による特徴属性を拡張した。
しかし、統一されたフレームワークの欠如は、直接的に比較できないメソッドの急増につながっている。
本稿では,パラメータ化属性フレームワークである重み付きM\"obius Scoreを紹介する。
(i)個々の特徴と特徴の相互作用の両方に対する帰属方法が多種多様であることを示す。
(ii)いくつかの新しい方法を特定する。
帰属法のベクトル空間を研究することにより,標準線形代数ツールを利用し,協調ゲーム理論や因果的調停解析など様々な分野の解釈を提供する。
我々は,これらの帰属手法を感情分析や思考連鎖プロンプトにおける特徴的相互作用に適用することにより,フレームワークの汎用性と有効性を実証する。 Feature attribution aims to explain the reasoning behind a black-box model's prediction by identifying the impact of each feature on the prediction. Recent work has extended feature attribution to interactions between multiple features. However, the lack of a unified framework has led to a proliferation of methods that are often not directly comparable. This paper introduces a parameterized attribution framework -- the Weighted M\"obius Score -- and (i) shows that many different attribution methods for both individual features and feature interactions are special cases and (ii) identifies some new methods. By studying the vector space of attribution methods, our framework utilizes standard linear algebra tools and provides interpretations in various fields, including cooperative game theory and causal mediation analysis. We empirically demonstrate the framework's versatility and effectiveness by applying these attribution methods to feature interactions in sentiment analysis and chain-of-thought prompting. | 翻訳日:2023-05-17 16:15:36 公開日:2023-05-16 |
# 学んだことを忘れられるか?
反復信条改正における国家の表現 Can we forget how we learned? Representing states in iterated belief revision} ( http://arxiv.org/abs/2305.09200v1 ) ライセンス: Link先を確認 | Paolo Liberatore | (参考訳) 反復的信念修正における国家の最も一般的な3つの表現は、明示的、レベル別、歴史別である。
第一はモデル間の連結事前順序であり、第二は同値類を表す式のリストであり、第三は前のリビジョンのシーケンスである。
後者はリビジョンのセマンティクスと履歴の書き直しに依存し、後者は許容された書き直しに依存する。
全ての機構は全ての可能な状態を表す。
辞書改訂の書き直し履歴は、任意の歴史書き直しを伴う大きさの他の考慮された表現よりも効率的である。
このような歴史の冗長性を確立することは軽微な書き直しである。
一般の場合では完備であり、角の任意の長さの2つの修正や修正の履歴にも難解であり、2つの角公式の履歴の多項式である。
マイナーな技術的結果は、ホーン公式が他のホーン公式の否定と等価かどうかを決定する多項式時間アルゴリズムである。 The three most common representations of states in iterated belief revision are compared: explicit, by levels and by history. The first is a connected preorder between models, the second is a list of formulae representing equivalence classes, the third is the sequence of the previous revisions. The latter depends on the revision semantics and on history rewriting, and the latter depends on the allowed rewritings. All mechanisms represent all possible states. A rewritten history of lexicographic revision is more efficient than the other considered representations in terms of size with arbitrary history rewritings. Establishing the redundancy of such a history is a mild rewriting. It is coNP-complete in the general case, and is hard even on histories of two revisions or revisions of arbitrary length of Horn formulae, and is polynomial on histories of two Horn formulae. A minor technical result is a polynomial-time algorithm for establishing whether a Horn formula is equivalent to the negation of another Horn formula. | 翻訳日:2023-05-17 16:15:22 公開日:2023-05-16 |
# スパース圧力センサ入力に基づく機械学習による実時間空力力予測 Machine learning enhanced real-time aerodynamic forces prediction based on sparse pressure sensor inputs ( http://arxiv.org/abs/2305.09199v1 ) ライセンス: Link先を確認 | Junming Duan, Qian Wang, Jan S. Hesthaven | (参考訳) 無人航空機(UAV)の自律航法には,空力の正確な予測が不可欠である。
本稿では,UAV表面に位置する少数の圧力センサに基づいて,データ駆動型空気力予測モデルを提案する。
このモデルは、合理的に正確な予測と、精度向上のための非線形補正を可能にする線形項に基づいている。
線形項は、一組のセンサ位置で線形圧力再構成方程式を解いて、数値シミュレーションデータから基底を抽出し、基底係数を決定する表面圧力分布の縮小基底再構成に基づいている。
センサ配置は離散的経験補間法(DEIM)を用いて最適化される。
空力力は再構成された表面圧力分布を統合することで計算される。
非線形項は、特にDEMモデルが有限性に制限されたシミュレーションデータから構築されるシナリオにおいて、基底真理とDEM予測のギャップを埋めるように訓練された人工ニューラルネットワーク(NN)である。
線形モデルは表面圧力場の主動力を既に捉えており、効率的なdeim+nn空力力予測モデルをもたらすので、正確な補正には大きなネットワークは不要である。
本モデルでは,2次元NACA0015翼の動的ストールデータと3次元ドローンの動的ストールデータの数値シミュレーションデータを用いて実験を行った。
シミュレーションが風洞実験とうまく一致しないNACA0015の場合においても,数個の圧力センサのみを用いて,機械学習強化モデルにより空気力の高速かつ正確な予測が可能であることを示す。
さらに、モデルはノイズに対して堅牢である。 Accurate prediction of aerodynamic forces in real-time is crucial for autonomous navigation of unmanned aerial vehicles (UAVs). This paper presents a data-driven aerodynamic force prediction model based on a small number of pressure sensors located on the surface of UAV. The model is built on a linear term that can make a reasonably accurate prediction and a nonlinear correction for accuracy improvement. The linear term is based on a reduced basis reconstruction of the surface pressure distribution, where the basis is extracted from numerical simulation data and the basis coefficients are determined by solving linear pressure reconstruction equations at a set of sensor locations. Sensor placement is optimized using the discrete empirical interpolation method (DEIM). Aerodynamic forces are computed by integrating the reconstructed surface pressure distribution. The nonlinear term is an artificial neural network (NN) that is trained to bridge the gap between the ground truth and the DEIM prediction, especially in the scenario where the DEIM model is constructed from simulation data with limited fidelity. A large network is not necessary for accurate correction as the linear model already captures the main dynamics of the surface pressure field, thus yielding an efficient DEIM+NN aerodynamic force prediction model. The model is tested on numerical and experimental dynamic stall data of a 2D NACA0015 airfoil, and numerical simulation data of dynamic stall of a 3D drone. Numerical results demonstrate that the machine learning enhanced model can make fast and accurate predictions of aerodynamic forces using only a few pressure sensors, even for the NACA0015 case in which the simulations do not agree well with the wind tunnel experiments. Furthermore, the model is robust to noise. | 翻訳日:2023-05-17 16:15:07 公開日:2023-05-16 |
# TwitterとMastodon間のプラットフォーム移行パターンの探索 - ユーザ行動調査 Exploring Platform Migration Patterns between Twitter and Mastodon: A User Behavior Study ( http://arxiv.org/abs/2305.09196v1 ) ライセンス: Link先を確認 | Ujun Jeong, Paras Sheth, Anique Tahir, Faisal Alatawi, H. Russell Bernard, Huan Liu | (参考訳) 最近、twitterからmastodonなどの代替プラットフォームに移行するユーザの急増は、移行パターンとは何か、さまざまなプラットフォームがユーザの行動にどう影響するか、ユーザ移行が移行プロセスにどのように収まるのか、といった疑問を提起した。
本研究では,Elon MuskがTwitterを買収した最初の10週間で,TwitterからMastodonに移行した1万人以上のユーザからデータを収集して,これらの質問を詳細に調査する。
私たちの研究は3つの主要な段階に分かれている。
まず,移動パターの抽出と解析を行うアルゴリズムを開発する。
第二に、行動分析を活用することで、TwitterとMastodonの異なるアーキテクチャを調べ、異なるプラットフォームが各プラットフォーム上でのユーザー行動をどのように形成するかを学ぶ。
最後に,特定の行動要因がユーザに与える影響を判断する。
我々は,ユーザの行動調査から得られたユーザマイグレーション,洞察,教訓について共有する。 A recent surge of users migrating from Twitter to alternative platforms, such as Mastodon, raised questions regarding what migration patterns are, how different platforms impact user behaviors, and how migrated users settle in the migration process. In this study, we elaborate how we investigate these questions by collecting data over 10,000 users who migrated from Twitter to Mastodon within the first ten weeks following Elon Musk's acquisition of Twitter. Our research is structured in three primary steps. First, we develop algorithms to extract and analyze migration patters. Second, by leveraging behavioral analysis, we examine the distinct architectures of Twitter and Mastodon to learn how different platforms shape user behaviors on each platform. Last, we determine how particular behavioral factors influence users to stay on Mastodon. We share our findings of user migration, insights, and lessons learned from the user behavior study. | 翻訳日:2023-05-17 16:14:40 公開日:2023-05-16 |
# 3次元物体追跡のための相関ピラミッドネットワーク Correlation Pyramid Network for 3D Single Object Tracking ( http://arxiv.org/abs/2305.09195v1 ) ライセンス: Link先を確認 | Mengmeng Wang, Teli Ma, Xingxing Zuo, Jiajun Lv, Yong Liu | (参考訳) 3D LiDARベースのシングルオブジェクトトラッキング(SOT)は、自動運転などの3Dアプリケーションにおいて重要な役割を果たすため、注目を集めている。
中心的な問題は、スパースと不完全な点雲からターゲット認識表現を学習する方法である。
本稿では,統一エンコーダとモーションファクターデコーダを備えた新しい相関ピラミッドネットワーク(CorpNet)を提案する。
具体的には、マルチレベル自己注意とクロスアテンションをメインブランチに導入し、テンプレートと検索領域の機能を強化し、融合と相互作用を実現する。
また,点雲のスパーシティ特性を考慮し,階層的相関特徴の統合により,エンコーダの水平相関ピラミッド構造を可能な限り多くの点を保持するように設計する。
エンコーダからの検索領域の出力特性をデコーダに直接供給することで、余分なマッチングを行わずにターゲット位置を予測することができる。
さらに, corpnet のデコーダでは, 上軸と x-y 平面の異なる動きパターンを明示的に学習するために, 運動分解型ヘッドを設計する。
一般的に使われている2つのデータセットに対する大規模な実験は、私たちのCorpNetがリアルタイムに実行しながら最先端の結果を達成することを示している。 3D LiDAR-based single object tracking (SOT) has gained increasing attention as it plays a crucial role in 3D applications such as autonomous driving. The central problem is how to learn a target-aware representation from the sparse and incomplete point clouds. In this paper, we propose a novel Correlation Pyramid Network (CorpNet) with a unified encoder and a motion-factorized decoder. Specifically, the encoder introduces multi-level self attentions and cross attentions in its main branch to enrich the template and search region features and realize their fusion and interaction, respectively. Additionally, considering the sparsity characteristics of the point clouds, we design a lateral correlation pyramid structure for the encoder to keep as many points as possible by integrating hierarchical correlated features. The output features of the search region from the encoder can be directly fed into the decoder for predicting target locations without any extra matcher. Moreover, in the decoder of CorpNet, we design a motion-factorized head to explicitly learn the different movement patterns of the up axis and the x-y plane together. Extensive experiments on two commonly-used datasets show our CorpNet achieves state-of-the-art results while running in real-time. | 翻訳日:2023-05-17 16:14:26 公開日:2023-05-16 |
# 情報抽出のための難易度学習 Easy-to-Hard Learning for Information Extraction ( http://arxiv.org/abs/2305.09193v1 ) ライセンス: Link先を確認 | Chang Gao, Wenxuan Zhang, Wai Lam, Lidong Bing | (参考訳) 情報抽出(ie)システムは、非構造化テキストから名前付きエンティティ、エンティティ間の関係、イベントなどの構造化情報を自動的に抽出することを目的としている。
既存の作業の多くは特定のIEタスクに対処するが、様々なIEタスクを1つのモデルで普遍的にモデル化することは、最近大きな成功を収めている。
その成功にもかかわらず、彼らは1段階の学習戦略、すなわち、人間の学習プロセスと矛盾する入力テキストが与えられた対象構造を抽出するために直接学習する。
本稿では,人間学習過程を模倣したieの3段階,すなわち,簡単なステージ,難しいステージ,そしてメインステージからなる統一的なハードな学習フレームワークを提案する。
学習プロセスを複数の段階に分割することで,一般のIEタスク知識の獲得と一般化能力の向上が促進される。
4つのIEタスクにわたる大規模な実験は、我々のフレームワークの有効性を示す。
17のデータセットのうち13で最新の結果を得る。
我々のコードは \url{https://github.com/DAMO-NLP-SG/IE-E2H} で入手できる。 Information extraction (IE) systems aim to automatically extract structured information, such as named entities, relations between entities, and events, from unstructured texts. While most existing work addresses a particular IE task, universally modeling various IE tasks with one model has achieved great success recently. Despite their success, they employ a one-stage learning strategy, i.e., directly learning to extract the target structure given the input text, which contradicts the human learning process. In this paper, we propose a unified easy-to-hard learning framework consisting of three stages, i.e., the easy stage, the hard stage, and the main stage, for IE by mimicking the human learning process. By breaking down the learning process into multiple stages, our framework facilitates the model to acquire general IE task knowledge and improve its generalization ability. Extensive experiments across four IE tasks demonstrate the effectiveness of our framework. We achieve new state-of-the-art results on 13 out of 17 datasets. Our code is available at \url{https://github.com/DAMO-NLP-SG/IE-E2H}. | 翻訳日:2023-05-17 16:14:07 公開日:2023-05-16 |
# アルツハイマー病に伴う機能的脳ネットワークの異常 Abnormal Functional Brain Network Connectivity Associated with Alzheimer's Disease ( http://arxiv.org/abs/2305.09186v1 ) ライセンス: Link先を確認 | Yongcheng Yao | (参考訳) 本研究の目的は、アルツハイマー病(AD)患者とfMRI(Functional Magnetic Resonance Imaging)を用いた正常な制御との機能的脳ネットワーク接続の区別を検討することである。
対象は590人,AD認知症175人,年齢415人,性別415人,健常者415人であった。
機能的脳ネットワークの接続性はROI-to-ROIおよびROI-to-Voxel接続解析を用いて測定した。
以上の結果より,AD群では正常群に比べて機能的接続性が低下していた。
これらの結果はAD病態の理解を深め,ADバイオマーカーの同定に有効であった。 The study's objective is to explore the distinctions in the functional brain network connectivity between Alzheimer's Disease (AD) patients and normal controls using Functional Magnetic Resonance Imaging (fMRI). The study included 590 individuals, with 175 having AD dementia and 415 age-, gender-, and handedness-matched normal controls. The connectivity of functional brain networks was measured using ROI-to-ROI and ROI-to-Voxel connectivity analyses. The findings reveal a general decrease in functional connectivity among the AD group in comparison to the normal control group. These results advance our comprehension of AD pathophysiology and could assist in identifying AD biomarkers. | 翻訳日:2023-05-17 16:13:51 公開日:2023-05-16 |
# マルチソース情報融合による軽量自己知識蒸留 Lightweight Self-Knowledge Distillation with Multi-source Information Fusion ( http://arxiv.org/abs/2305.09183v1 ) ライセンス: Link先を確認 | Xucong Wang, Pengchao Han, Lei Guo | (参考訳) 知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術であり、トレーニング済みの教師モデルを使用して、対象の学生モデルのトレーニングを容易にする。
しかし、適切な教師モデルの可用性は必ずしも保証されない。
この課題に対処するため、SKD(Self-Knowledge Distillation)は、教師モデル自体の構築を試みる。
既存のSKDメソッドは、モデルの中間層に補助的分類子(AC)を追加するか、同じクラス内で異なる入力データを持つ履歴モデルとモデルを使用する。
しかし、これらの手法は計算コストが高く、データの時間的特徴とクラス的特徴のみをキャプチャする。
本稿では,マルチソース情報を利用した軽量なSKDフレームワークを提案する。
具体的には,入力データのエッジ,形状,細部など,モデルによって抽出された情報の異なるレベルを考慮した逆誘導法(drg)による蒸留法を導入し,より有意義な教師を構築する。
さらに,全データに対してランク付けされたモデル出力の整合性を保証するDSR法を設計する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
その結果,提案手法のベースライン(最大2.87%)および最先端skd法(最大1.15%)に対する優位性が示され,計算効率と堅牢性が示された。
コードはhttps://github.com/xucong-parsifal/lightskdで入手できる。 Knowledge Distillation (KD) is a powerful technique for transferring knowledge between neural network models, where a pre-trained teacher model is used to facilitate the training of the target student model. However, the availability of a suitable teacher model is not always guaranteed. To address this challenge, Self-Knowledge Distillation (SKD) attempts to construct a teacher model from itself. Existing SKD methods add Auxiliary Classifiers (AC) to intermediate layers of the model or use the history models and models with different input data within the same class. However, these methods are computationally expensive and only capture time-wise and class-wise features of data. In this paper, we propose a lightweight SKD framework that utilizes multi-source information to construct a more informative teacher. Specifically, we introduce a Distillation with Reverse Guidance (DRG) method that considers different levels of information extracted by the model, including edge, shape, and detail of the input data, to construct a more informative teacher. Additionally, we design a Distillation with Shape-wise Regularization (DSR) method that ensures a consistent shape of ranked model output for all data. We validate the performance of the proposed DRG, DSR, and their combination through comprehensive experiments on various datasets and models. Our results demonstrate the superiority of the proposed methods over baselines (up to 2.87%) and state-of-the-art SKD methods (up to 1.15%), while being computationally efficient and robust. The code is available at https://github.com/xucong-parsifal/LightSKD. | 翻訳日:2023-05-17 16:13:40 公開日:2023-05-16 |
# Ortho-ODE: 敵攻撃に対するロバスト性向上とニューラルなODE Ortho-ODE: Enhancing Robustness and of Neural ODEs against Adversarial Attacks ( http://arxiv.org/abs/2305.09179v1 ) ライセンス: Link先を確認 | Vishal Purohit | (参考訳) ニューラル正規微分方程式(NODE)は、ニューラルネットワーク(NN)が特徴とする微分方程式を解くために数値解法を用いて探索し、無限深さのディープラーニングモデルの新たなパラダイムを開始する。
NODEは不規則な時系列問題に対処するために設計された。
しかし、NODEは様々なノイズや敵の攻撃に対して堅牢性を示している。
本稿では,NODEの自然的堅牢性について論じ,このような驚くべき行動の原因について考察する。
odeダイナミクスのリプシッツ定数を制御することにより,ロバスト性が大幅に向上することを示す。
我々はGrownwallの不平等からアプローチを導き出した。
さらに、縮約理論とグローゼンウォールの不等式の間に平行性を描く。
実験により、多数のデータセット(MNIST、CIFAR-10、CIFAR 100)上で強化されたロバスト性を裏付ける。
また,NODEのロバスト性に対する適応的および非適応的解法の影響についても述べる。 Neural Ordinary Differential Equations (NODEs) probed the usage of numerical solvers to solve the differential equation characterized by a Neural Network (NN), therefore initiating a new paradigm of deep learning models with infinite depth. NODEs were designed to tackle the irregular time series problem. However, NODEs have demonstrated robustness against various noises and adversarial attacks. This paper is about the natural robustness of NODEs and examines the cause behind such surprising behaviour. We show that by controlling the Lipschitz constant of the ODE dynamics the robustness can be significantly improved. We derive our approach from Grownwall's inequality. Further, we draw parallels between contractivity theory and Grownwall's inequality. Experimentally we corroborate the enhanced robustness on numerous datasets - MNIST, CIFAR-10, and CIFAR 100. We also present the impact of adaptive and non-adaptive solvers on the robustness of NODEs. | 翻訳日:2023-05-17 16:13:13 公開日:2023-05-16 |
# 出力列の離散フーリエ変換によるリカレントニューラルネットワークの帰納バイアスの実験的解析 Empirical Analysis of the Inductive Bias of Recurrent Neural Networks by Discrete Fourier Transform of Output Sequences ( http://arxiv.org/abs/2305.09178v1 ) ライセンス: Link先を確認 | Taiga Ishii, Ryo Ueda, Yusuke Miyao | (参考訳) リカレントニューラルネットワーク(RNN)のユニークな特徴は、入力シーケンスを漸進的に処理することだ。
本研究では,RNNの帰納的な一般化特性,すなわち帰納的バイアスを明らかにすることを目的として,RNNがシーケンス分類タスクの時間ステップを通して出力を切り替える頻度について検討する。
従来の研究は、数個の合成データを用いたトレーニングモデルによる帰納バイアスを分析し、モデルの一般化と候補一般化パターンを比較した。
しかし、出力シーケンス周波数を調べる場合、候補パターンの列挙は長いシーケンスでは計算が難しいため、従来の手法は直接適用できない。
そこで本研究では,モデルの出力を離散時間信号として考慮し,周波数領域解析を適用することにより,各モデルの出力シーケンス周波数を直接計算する。
実験の結果,Long Short-Term Memory (LSTM) と Gated Recurrent Unit (GRU) は低周波パターンに対して誘導バイアスを示し,Elman RNN は高周波で出力が変化するパターンを学習する傾向を示した。
また,LSTMとGRUの誘導バイアスは,層数や層の大きさによって異なることがわかった。 A unique feature of Recurrent Neural Networks (RNNs) is that it incrementally processes input sequences. In this research, we aim to uncover the inherent generalization properties, i.e., inductive bias, of RNNs with respect to how frequently RNNs switch the outputs through time steps in the sequence classification task, which we call output sequence frequency. Previous work analyzed inductive bias by training models with a few synthetic data and comparing the model's generalization with candidate generalization patterns. However, when examining the output sequence frequency, previous methods cannot be directly applied since enumerating candidate patterns is computationally difficult for longer sequences. To this end, we propose to directly calculate the output sequence frequency for each model by regarding the outputs of the model as discrete-time signals and applying frequency domain analysis. Experimental results showed that Long Short-Term Memory (LSTM) and Gated Recurrent Unit (GRU) have an inductive bias towards lower-frequency patterns, while Elman RNN tends to learn patterns in which the output changes at high frequencies. We also found that the inductive bias of LSTM and GRU varies with the number of layers and the size of hidden layers. | 翻訳日:2023-05-17 16:13:00 公開日:2023-05-16 |
# エッジクラウド収束のための強化ディープニューラルネットワークフレームワークによるプライバシ保護 Privacy-Preserving Ensemble Infused Enhanced Deep Neural Network Framework for Edge Cloud Convergence ( http://arxiv.org/abs/2305.09224v1 ) ライセンス: Link先を確認 | Veronika Stephanie, Ibrahim Khalil, Mohammad Saidur Rahman and Mohammed Atiquzzaman | (参考訳) 本稿では,医療分野におけるIoT(Internet-of-Things),エッジ(エッジ),クラウドコンバージェンス(クラウドコンバージェンス)のための,プライバシー保護のための強化ディープニューラルネットワーク(DNN)ベースの学習フレームワークを提案する。
収束では、エッジサーバはIoT生成バイオイメージの保存と、ローカルモデルトレーニングのためのDNNアルゴリズムのホスティングの両方に使用される。
クラウドはローカルモデルをセンシングするために使用される。
局所データセットを持つモデルのDNNベースのトレーニングプロセスは、上記の収束とアンサンブル学習によって改善される、低い精度に悩まされる。
アンサンブル学習は、複数の参加者がローカルモデルをアウトソースして、高い精度で一般化された最終モデルを生成することができる。
それでもEnsemble Learningは、最終モデルから機密性の高いプライベートデータを漏洩するリスクを高める。
提案するフレームワークでは,ローカルモデル生成のためのTransfer Learningを備えた差分プライバシーベースのプライバシ保護DNNを提案し,エッジサーバにおける損失を最小限に抑え,効率を高める。
提案するフレームワークの性能を評価するために,いくつかの実験を行った。 We propose a privacy-preserving ensemble infused enhanced Deep Neural Network (DNN) based learning framework in this paper for Internet-of-Things (IoT), edge, and cloud convergence in the context of healthcare. In the convergence, edge server is used for both storing IoT produced bioimage and hosting DNN algorithm for local model training. The cloud is used for ensembling local models. The DNN-based training process of a model with a local dataset suffers from low accuracy, which can be improved by the aforementioned convergence and Ensemble Learning. The ensemble learning allows multiple participants to outsource their local model for producing a generalized final model with high accuracy. Nevertheless, Ensemble Learning elevates the risk of leaking sensitive private data from the final model. The proposed framework presents a Differential Privacy-based privacy-preserving DNN with Transfer Learning for a local model generation to ensure minimal loss and higher efficiency at edge server. We conduct several experiments to evaluate the performance of our proposed framework. | 翻訳日:2023-05-17 16:07:01 公開日:2023-05-16 |
# 境界センサを用いた半弾性繊維のタッチセンシング Touch Sensing on Semi-Elastic Textiles with Border-Based Sensors ( http://arxiv.org/abs/2305.09222v1 ) ライセンス: Link先を確認 | Samuel Z\"uhlke, Andreas St\"ockl, Davic C. Schedl | (参考訳) 本研究は, 布地の境界に位置するセンサに頼る代わりに, センシング領域にセンサを追加配置する必要のない, 半弾性繊維表面を用いた新しいタッチセンシング手法を提案する。
提案手法は、弾性ジャージーファブリックと様々な機械学習モデルを含む実験を通して実証される。
特定の境界に基づくセンサ設計の性能を深く評価する。
視覚マーカーを用いることで、最も優れた視覚センサ配置は、125mm×125mmの領域で平均2乗誤差1.36mmの単一タッチポイントを予測する。
我々は、タッチを3つのインデントレベル(0,15,20mm)で82.85%の精度で分類できる繊維のみのプロトタイプを構築した。
この手法はウェアラブル技術やスマートテキスタイルに応用できる可能性が示唆され,これらの分野のさらなる探索の道筋となる。 This study presents a novel approach for touch sensing using semi-elastic textile surfaces that does not require the placement of additional sensors in the sensing area, instead relying on sensors located on the border of the textile. The proposed approach is demonstrated through experiments involving an elastic Jersey fabric and a variety of machine-learning models. The performance of one particular border-based sensor design is evaluated in depth. By using visual markers, the best-performing visual sensor arrangement predicts a single touch point with a mean squared error of 1.36 mm on an area of 125mm by 125mm. We built a textile only prototype that is able to classify touch at three indent levels (0, 15, and 20 mm) with an accuracy of 82.85%. Our results suggest that this approach has potential applications in wearable technology and smart textiles, making it a promising avenue for further exploration in these fields. | 翻訳日:2023-05-17 16:06:42 公開日:2023-05-16 |
# 多言語・言語横断要約の統一に向けて Towards Unifying Multi-Lingual and Cross-Lingual Summarization ( http://arxiv.org/abs/2305.09220v1 ) ライセンス: Link先を確認 | Jiaan Wang, Fandong Meng, Duo Zheng, Yunlong Liang, Zhixu Li, Jianfeng Qu and Jie Zhou | (参考訳) テキスト要約を多言語世界に適応させるために,従来の研究は多言語要約(MLS)と言語間要約(CLS)を提案する。
しかし、これらの2つのタスクは、両者の互換性と体系的な研究を制限する異なる定義のために、別々に研究されてきた。
本稿では,MLS と CLS をより一般的な設定,すなわち多対多の要約 (M2MS) に統合することを目的としている。
M2MS への第一歩として,M2MS が MLS や CLS よりも多言語でタスク知識を伝達できることを示す予備的研究を行った。
さらに,3段階事前学習による言語モデリング,言語横断能力,要約能力を学習するM2MSモデルであるPiscesを提案する。
実験結果から,本症例のpisceは最先端のベースライン,特にゼロショット方向のベースラインを有意に上回っており,ソース言語文書からターゲット言語要約までのトレーニングデータが存在しないことがわかった。 To adapt text summarization to the multilingual world, previous work proposes multi-lingual summarization (MLS) and cross-lingual summarization (CLS). However, these two tasks have been studied separately due to the different definitions, which limits the compatible and systematic research on both of them. In this paper, we aim to unify MLS and CLS into a more general setting, i.e., many-to-many summarization (M2MS), where a single model could process documents in any language and generate their summaries also in any language. As the first step towards M2MS, we conduct preliminary studies to show that M2MS can better transfer task knowledge across different languages than MLS and CLS. Furthermore, we propose Pisces, a pre-trained M2MS model that learns language modeling, cross-lingual ability and summarization ability via three-stage pre-training. Experimental results indicate that our Pisces significantly outperforms the state-of-the-art baselines, especially in the zero-shot directions, where there is no training data from the source-language documents to the target-language summaries. | 翻訳日:2023-05-17 16:06:27 公開日:2023-05-16 |
# ターボオートエンコーダの部品訓練 Component Training of Turbo Autoencoders ( http://arxiv.org/abs/2305.09216v1 ) ライセンス: Link先を確認 | Jannis Clausius, Marvin Geiselhart and Stephan ten Brink | (参考訳) ターボオートエンコーダアーキテクチャのコンポーネントオートエンコーダのgaussian priors(tgp)による分離トレーニングにより、より高速で一貫性のあるトレーニングと、深い展開に基づくトレーニングよりも任意のデコードイテレーションへの一般化が可能になる。
我々は,競合性能を維持しつつ,より大きなメッセージ長 (約1,000$) まで拡張可能な望ましい動作に,extrinsic information transfer (exit) チャートを通じてコンポーネントを適合させることを提案する。
私たちの知る限りでは、これはこの制度で古典的なコードに近い性能を持つ最初のオートエンコーダです。
バイナリクロスエントロピー(BCE)損失関数はコンポーネントのビットエラー率(BER)を最適化するが、EXITチャートによる設計はブロックエラー率(BLER)に集中することができる。
直列連結システムでは、コンポーネント単位のtgpアプローチは、外部バイナリインターフェースが固定された内部コンポーネント、例えば学習された内部コードやイコライザ、外部バイナリエラー訂正コードでよく知られている。
本稿では、内部および外部のオートエンコーダを持つ構造にコンポーネントトレーニングを拡張し、基礎となる通信問題に基づくエンコーダ出力のための新しい1ビット量子化戦略を提案する。
最後に、設計時間(トレーニング)と推論における学習成分のモデル複雑性について論じ、エンコーダの重みの数を99.96 %削減できることを示す。 Isolated training with Gaussian priors (TGP) of the component autoencoders of turbo-autoencoder architectures enables faster, more consistent training and better generalization to arbitrary decoding iterations than training based on deep unfolding. We propose fitting the components via extrinsic information transfer (EXIT) charts to a desired behavior which enables scaling to larger message lengths ($k \approx 1000$) while retaining competitive performance. To the best of our knowledge, this is the first autoencoder that performs close to classical codes in this regime. Although the binary cross-entropy (BCE) loss function optimizes the bit error rate (BER) of the components, the design via EXIT charts enables to focus on the block error rate (BLER). In serially concatenated systems the component-wise TGP approach is well known for inner components with a fixed outer binary interface, e.g., a learned inner code or equalizer, with an outer binary error correcting code. In this paper we extend the component training to structures with an inner and outer autoencoder, where we propose a new 1-bit quantization strategy for the encoder outputs based on the underlying communication problem. Finally, we discuss the model complexity of the learned components during design time (training) and inference and show that the number of weights in the encoder can be reduced by 99.96 %. | 翻訳日:2023-05-17 16:06:08 公開日:2023-05-16 |
# PIQI:ガウス過程回帰のアンサンブルに基づく知覚画像品質指標 PIQI: Perceptual Image Quality Index based on Ensemble of Gaussian Process Regression ( http://arxiv.org/abs/2305.09214v1 ) ライセンス: Link先を確認 | Nisar Ahmed, Hafiz Muhammad Shahzad Asif, and Hassan Khalid | (参考訳) デジタル画像には多くの冗長性が含まれているため、画像品質を損なうことなく画像サイズを小さくするために圧縮技術が適用される。
画像シーケンスを含むビデオの場合も同様に顕著になり、低スループットネットワークで高い圧縮率を達成する。
このようなシナリオにおける画像の品質評価は特に注目されている。
ほとんどのシナリオにおける主観評価は不可能であり、客観的評価が望ましい。
3つの客観的品質尺度のうち、全参照法と縮小参照法は、放送、取得、拡張といったシナリオでは実現不可能な画質を計算するために、何らかの形で原画像を必要とする。
そこで本稿では,光度と勾配の統計量を計算するデジタル画像の品質と,複数のスケールおよび色空間における平均減算されたコントラスト正規化製品を評価するために,非参照知覚画像品質指標(PIQI)を提案する。
これらの抽出された特徴は、ガウス過程回帰(GPR)の積み重ねアンサンブルに提供され、知覚的品質評価を行う。
PIQIの性能は6つのベンチマークデータベースでチェックされ、12の最先端手法と競合する結果が得られる。
この比較は, RMSE, Pearson, Spearmanの相関係数と予測された品質スコアに基づいて行われる。
csiqデータベース上でそれぞれ0.0552, 0.9802, 0.9776のスコアが得られる。
PIQIの一般化を確認するために,2つのクロスデータセット評価実験を行った。 Digital images contain a lot of redundancies, therefore, compression techniques are applied to reduce the image size without loss of reasonable image quality. Same become more prominent in the case of videos which contains image sequences and higher compression ratios are achieved in low throughput networks. Assessment of quality of images in such scenarios has become of particular interest. Subjective evaluation in most of the scenarios is infeasible so objective evaluation is preferred. Among the three objective quality measures, full-reference and reduced-reference methods require an original image in some form to calculate the image quality which is unfeasible in scenarios such as broadcasting, acquisition or enhancement. Therefore, a no-reference Perceptual Image Quality Index (PIQI) is proposed in this paper to assess the quality of digital images which calculates luminance and gradient statistics along with mean subtracted contrast normalized products in multiple scales and color spaces. These extracted features are provided to a stacked ensemble of Gaussian Process Regression (GPR) to perform the perceptual quality evaluation. The performance of the PIQI is checked on six benchmark databases and compared with twelve state-of-the-art methods and competitive results are achieved. The comparison is made based on RMSE, Pearson and Spearman correlation coefficients between ground truth and predicted quality scores. The scores of 0.0552, 0.9802 and 0.9776 are achieved respectively for these metrics on CSIQ database. Two cross-dataset evaluation experiments are performed to check the generalization of PIQI. | 翻訳日:2023-05-17 16:05:43 公開日:2023-05-16 |
# 音声・視覚音声認識のためのクロスモーダルグローバルインタラクションと局所アライメント Cross-Modal Global Interaction and Local Alignment for Audio-Visual Speech Recognition ( http://arxiv.org/abs/2305.09212v1 ) ライセンス: Link先を確認 | Yuchen Hu, Ruizhe Li, Chen Chen, Heqing Zou, Qiushi Zhu, Eng Siong Chng | (参考訳) 近年,音声のみの自動音声認識(ASR)のノイズロス性を改善することで,音声視覚音声認識(AVSR)の研究は大きな成功を収めている。
しかし、既存のAVSRのアプローチのほとんどは、音声と視覚の特徴を結合させることで融合させ、それら間の深い相関を捉えることなく、下流音声認識タスクの準最適マルチモーダル表現をもたらす。
本稿では,大域的および局所的な視点からより深い視聴覚的(a-v)相関を捉えたavsrのためのクロスモーダル・グローバル・インタラクション・ローカルアライメント(gila)手法を提案する。
具体的には,モダリティレベルでのa-v相補関係を捉え,フレームレベルでのa-v相補的一貫性をモデル化するための局所的アライメントアプローチを考案する。
このようなクロスモーダル相関の全体論的な見方は、AVSRのより優れたマルチモーダル表現を可能にする。
LRS3 と LRS2 の公開ベンチマーク実験では、GILA は教師付き学習状況よりも優れています。 Audio-visual speech recognition (AVSR) research has gained a great success recently by improving the noise-robustness of audio-only automatic speech recognition (ASR) with noise-invariant visual information. However, most existing AVSR approaches simply fuse the audio and visual features by concatenation, without explicit interactions to capture the deep correlations between them, which results in sub-optimal multimodal representations for downstream speech recognition task. In this paper, we propose a cross-modal global interaction and local alignment (GILA) approach for AVSR, which captures the deep audio-visual (A-V) correlations from both global and local perspectives. Specifically, we design a global interaction model to capture the A-V complementary relationship on modality level, as well as a local alignment approach to model the A-V temporal consistency on frame level. Such a holistic view of cross-modal correlations enable better multimodal representations for AVSR. Experiments on public benchmarks LRS3 and LRS2 show that our GILA outperforms the supervised learning state-of-the-art. | 翻訳日:2023-05-17 16:05:21 公開日:2023-05-16 |
# cb-hvtnet : 病理組織像におけるリンパ球評価のためのチャネルブーストハイブリッド視覚トランスフォーマーネットワーク CB-HVTNet: A channel-boosted hybrid vision transformer network for lymphocyte assessment in histopathological images ( http://arxiv.org/abs/2305.09211v1 ) ライセンス: Link先を確認 | Momina Liaqat Ali, Zunaira Rauf, Asifullah Khan, Anabia Sohail, Rafi Ullah, Jeonghwan Gwak | (参考訳) トランスフォーマーは、長距離依存を学習する能力のため、グローバルな視点学習のための畳み込みニューラルネットワーク(CNN)の欠点を克服している。
そのため、医学診断などの視力関連タスクに研究者の焦点が当てられている。
しかし,そのマルチヘッドアテンションモジュールは,医用画像では不十分なグローバルレベルの特徴表現のみをキャプチャする。
この問題を解決するために、トランスファーラーニングを用いてチャネルを再生し、トランスフォーマーとCNNの両方を用いてリンパ球の組織像を解析するCB HVT(Channel Boosted Hybrid Vision Transformer)を提案する。
提案するcb hvtは、チャネル生成モジュール、チャネルエクスプロイトレーションモジュール、チャネルマージモジュール、リージョンアウェアモジュール、およびリンパ球を効果的に同定するための検出およびセグメンテーションヘッドを含む5つのモジュールから構成されている。
チャネル生成モジュールは、移動学習によるチャネル増強というアイデアを用いて、異なる補助学習者から多様なチャネルを抽出する。
CB HVTでは、これらのチャネルを最初に連結し、チャネル利用モジュールの注意機構を用いてランク付けする。
次に、融合ブロックをチャネルマージモジュールに使用して、多様なブーストされたチャネルを段階的かつ体系的にマージし、ネットワークの学習表現を改善する。
CB HVTはまた、その領域認識モジュールとヘッドに提案ネットワークを使用して、重複する領域やアーティファクトであってもオブジェクトを効果的に識別する。
今回提案したCB HVTを,病理組織像におけるリンパ球評価のための2つの公開データセットで評価した。
以上の結果から,CB HVTは術式検出モデルの他の状態よりも優れており,病理医のツールとしての価値が示された。 Transformers, due to their ability to learn long range dependencies, have overcome the shortcomings of convolutional neural networks (CNNs) for global perspective learning. Therefore, they have gained the focus of researchers for several vision related tasks including medical diagnosis. However, their multi-head attention module only captures global level feature representations, which is insufficient for medical images. To address this issue, we propose a Channel Boosted Hybrid Vision Transformer (CB HVT) that uses transfer learning to generate boosted channels and employs both transformers and CNNs to analyse lymphocytes in histopathological images. The proposed CB HVT comprises five modules, including a channel generation module, channel exploitation module, channel merging module, region-aware module, and a detection and segmentation head, which work together to effectively identify lymphocytes. The channel generation module uses the idea of channel boosting through transfer learning to extract diverse channels from different auxiliary learners. In the CB HVT, these boosted channels are first concatenated and ranked using an attention mechanism in the channel exploitation module. A fusion block is then utilized in the channel merging module for a gradual and systematic merging of the diverse boosted channels to improve the network's learning representations. The CB HVT also employs a proposal network in its region aware module and a head to effectively identify objects, even in overlapping regions and with artifacts. We evaluated the proposed CB HVT on two publicly available datasets for lymphocyte assessment in histopathological images. The results show that CB HVT outperformed other state of the art detection models, and has good generalization ability, demonstrating its value as a tool for pathologists. | 翻訳日:2023-05-17 16:05:02 公開日:2023-05-16 |
# 異なる言語話者を仲介する音声対話翻訳に向けて Towards Speech Dialogue Translation Mediating Speakers of Different Languages ( http://arxiv.org/abs/2305.09210v1 ) ライセンス: Link先を確認 | Shuichiro Shimizu (1), Chenhui Chu (1), Sheng Li (2), Sadao Kurohashi (1 and 3) ((1) Kyoto University, Japan, (2) National Institute of Information and Communications Technology, Japan, (3) National Institute of Informatics, Japan) | (参考訳) 異なる言語話者を仲介する新しいタスクである音声対話翻訳を提案する。
タスク用の speechbsd データセットを構築し,ベースライン実験を行う。
さらに,この課題において,文脈を対処すべき重要な側面と捉え,文脈を利用する2つの方法,すなわち単言語文脈とバイリンガル文脈を提案する。
我々はWhisperとmBARTを用いてケースケード音声翻訳実験を行い、我々の設定においてバイリンガル文脈がより優れていることを示す。 We present a new task, speech dialogue translation mediating speakers of different languages. We construct the SpeechBSD dataset for the task and conduct baseline experiments. Furthermore, we consider context to be an important aspect that needs to be addressed in this task and propose two ways of utilizing context, namely monolingual context and bilingual context. We conduct cascaded speech translation experiments using Whisper and mBART, and show that bilingual context performs better in our settings. | 翻訳日:2023-05-17 16:04:32 公開日:2023-05-16 |
# ブロックチェーンによる医療4.0における信頼できるプライバシ保護階層化とフェデレーション学習 Trustworthy Privacy-preserving Hierarchical Ensemble and Federated Learning in Healthcare 4.0 with Blockchain ( http://arxiv.org/abs/2305.09209v1 ) ライセンス: Link先を確認 | Veronika Stephanie, Ibrahim Khalil, Mohammed Atiquzzaman and Xun Yi | (参考訳) Internet and Communication Technologies(ICT)の進歩は、産業4.0の時代に繋がった。
この変化の後、医療産業はヘルスケア4.0という用語を生み出した。
医療4.0では、早期疾患検出にIoT対応の医療画像装置を使用することで、医療従事者が医療機関のサービス品質を向上させることができる。
しかし、データプライバシの懸念から、ヘルスケア4.0は、他の業界4.0と比べて人工知能とビッグデータに遅れを取っている。
さらに、機関の多様なストレージとコンピューティング能力は、機関が同じトレーニングモデル構造を組み込むことを制限している。
本稿では、ブロックチェーンを用いたセキュアなマルチパーティ計算に基づくアンサンブル・フェデレーション・ラーニングを提案し、不均一なモデルが、ユーザのプライバシーを侵害することなく、医療機関のデータから協調的に学習できるようにする。
ブロックチェーンのプロパティは、集中型サーバを信頼せずにデータの整合性を享受すると同時に、各医療機関に監査性とバージョン管理機能を提供する。 The advancement of Internet and Communication Technologies (ICTs) has led to the era of Industry 4.0. This shift is followed by healthcare industries creating the term Healthcare 4.0. In Healthcare 4.0, the use of IoT-enabled medical imaging devices for early disease detection has enabled medical practitioners to increase healthcare institutions' quality of service. However, Healthcare 4.0 is still lagging in Artificial Intelligence and big data compared to other Industry 4.0 due to data privacy concerns. In addition, institutions' diverse storage and computing capabilities restrict institutions from incorporating the same training model structure. This paper presents a secure multi-party computation-based ensemble federated learning with blockchain that enables heterogeneous models to collaboratively learn from healthcare institutions' data without violating users' privacy. Blockchain properties also allow the party to enjoy data integrity without trust in a centralized server while also providing each healthcare institution with auditability and version control capability. | 翻訳日:2023-05-17 16:04:24 公開日:2023-05-16 |
# 構造化状態空間モデルによる実測結果予測 Counterfactual Outcome Prediction using Structured State Space Model ( http://arxiv.org/abs/2305.09207v1 ) ライセンス: Link先を確認 | Vishal Purohit | (参考訳) 縦断データにおける反事実的結果予測は、医療と社会科学の潜在的な応用によって最近注目を集めている。
本稿では,この課題に対して,一般的なシーケンスモデルである状態空間モデルの利用について検討する。
具体的には,処理効果ニューラル制御微分方程式 (te-cde) と構造化状態空間モデル (s4model) の2つのモデルの性能を比較した。
TE-CDEは時間依存共起に対処するために制御された微分方程式を用いるが、最適化問題や遅い訓練に悩まされている。
対照的に、S4Modelは長距離依存のモデリングがより効率的で、訓練も簡単です。
模擬肺腫瘍成長データセットを用いて,S4ModelがTE-CDEより1.63倍,平均2乗誤差が10倍向上し,TE-CDEより優れた結果が得られた。
さらに、S4Modelはトレーニング中に安定しており、TE-CDEよりも重量初期化に敏感ではない。
この結果から,S4ModelはTE-CDEのより効率的かつ効果的な代替手段である可能性が示唆された。 Counterfactual outcome prediction in longitudinal data has recently gained attention due to its potential applications in healthcare and social sciences. In this paper, we explore the use of the state space model, a popular sequence model, for this task. Specifically, we compare the performance of two models: Treatment Effect Neural Controlled Differential Equation (TE-CDE) and structured state space model (S4Model). While TE-CDE uses controlled differential equations to address time-dependent confounding, it suffers from optimization issues and slow training. In contrast, S4Model is more efficient at modeling long-range dependencies and easier to train. We evaluate the models on a simulated lung tumor growth dataset and find that S4Model outperforms TE-CDE with 1.63x reduction in per epoch training time and 10x better normalized mean squared error. Additionally, S4Model is more stable during training and less sensitive to weight initialization than TE-CDE. Our results suggest that the state space model may be a promising approach for counterfactual outcome prediction in longitudinal data, with S4Model offering a more efficient and effective alternative to TE-CDE. | 翻訳日:2023-05-17 16:04:09 公開日:2023-05-16 |
# xPQA:12言語にまたがる言語横断の製品質問 xPQA: Cross-Lingual Product Question Answering across 12 Languages ( http://arxiv.org/abs/2305.09249v1 ) ライセンス: Link先を確認 | Xiaoyu Shen, Akari Asai, Bill Byrne and Adri\`a de Gispert | (参考訳) PQA(Product Question Answering)システムは、eコマースアプリケーションにおいて、商品を購入する際に顧客の質問に対する応答を提供するキーとなる。
PQAに関する既存の作業は主に英語に焦点を当てているが、実際には、英語で利用可能な製品情報を活用しながら、複数の顧客言語をサポートする必要がある。
この実践的な産業課題を研究するため,9つの分野にわたる12の言語からなる大規模注釈付き言語間PQAデータセットであるxPQAを提示し,(1)候補ランク付けの結果を報告し,(1)非英語質問に回答する情報を含む最適な英語候補を選択し,(2)回答生成を行い,選択した英語候補に基づいて自然に聞こえる非英語回答を生成する。
我々は、実行時またはオフラインでの機械翻訳に関する様々なアプローチを評価し、複数言語で事前訓練されたLMを活用し、xPQAトレーニングデータを含むか除外する。
1) ドメイン内データは,PQAタスクで訓練された言語間ランク付けが不十分なため,必須である。(2) 候補ランク付けは,実行時翻訳アプローチが好まれるが,回答生成は多言語アプローチが好まれる。(3) オフラインから多言語モデルへの変換は,主にラテン語以外のスクリプトを持つ言語上でのランク付けを支援する。
それでも、英語と言語間テストセットには大きなパフォーマンスギャップが残っている。 Product Question Answering (PQA) systems are key in e-commerce applications to provide responses to customers' questions as they shop for products. While existing work on PQA focuses mainly on English, in practice there is need to support multiple customer languages while leveraging product information available in English. To study this practical industrial task, we present xPQA, a large-scale annotated cross-lingual PQA dataset in 12 languages across 9 branches, and report results in (1) candidate ranking, to select the best English candidate containing the information to answer a non-English question; and (2) answer generation, to generate a natural-sounding non-English answer based on the selected English candidate. We evaluate various approaches involving machine translation at runtime or offline, leveraging multilingual pre-trained LMs, and including or excluding xPQA training data. We find that (1) In-domain data is essential as cross-lingual rankers trained on other domains perform poorly on the PQA task; (2) Candidate ranking often prefers runtime-translation approaches while answer generation prefers multilingual approaches; (3) Translating offline to augment multilingual models helps candidate ranking mainly on languages with non-Latin scripts; and helps answer generation mainly on languages with Latin scripts. Still, there remains a significant performance gap between the English and the cross-lingual test sets. | 翻訳日:2023-05-17 15:57:18 公開日:2023-05-16 |
# Roundingが近似モデルカウントを発表 Rounding Meets Approximate Model Counting ( http://arxiv.org/abs/2305.09247v1 ) ライセンス: Link先を確認 | Jiong Yang and Kuldeep S. Meel | (参考訳) モデルカウントの問題は、#SATとしても知られ、モデルの数を計算したり、与えられたブール式$F$の割り当てを満たすことである。
モデルカウントは、幅広い応用のコンピュータ科学における基本的な問題である。
近年では、(\varepsilon, \delta)$-guarantees を提供する近似モデルカウントにハッシュベースのテクニックを使うことへの関心が高まっている。
ハッシュベースのテクニックは、$\delta$の十分な値に対して合理的なスケーラビリティを実現する一方で、そのスケーラビリティは$\delta$の小さな値に対して深刻な影響を受けており、高い信頼性の見積を必要とするアプリケーションドメインでの採用を妨げます。
この論文の主な貢献は、ハッシュベースの手法のアキレス腱に対処することである。我々は、より小さい値の$\delta$のランタイムを大幅に削減できる丸めに基づく新しいアプローチを提案します。
RoundMCと呼ばれる結果のカウンタは,現在の最先端カウンタであるApproxMCに対して,大幅なランタイムパフォーマンスの向上を実現している。
特に、1890年のインスタンスからなるベンチマークスイートに対する我々の広範な評価は、RoundMCがApproxMCよりも204以上のインスタンスを解決し、ApproxMCよりも4\times$のスピードアップを実現していることを示している。 The problem of model counting, also known as #SAT, is to compute the number of models or satisfying assignments of a given Boolean formula $F$. Model counting is a fundamental problem in computer science with a wide range of applications. In recent years, there has been a growing interest in using hashing-based techniques for approximate model counting that provide $(\varepsilon, \delta)$-guarantees: i.e., the count returned is within a $(1+\varepsilon)$-factor of the exact count with confidence at least $1-\delta$. While hashing-based techniques attain reasonable scalability for large enough values of $\delta$, their scalability is severely impacted for smaller values of $\delta$, thereby preventing their adoption in application domains that require estimates with high confidence. The primary contribution of this paper is to address the Achilles heel of hashing-based techniques: we propose a novel approach based on rounding that allows us to achieve a significant reduction in runtime for smaller values of $\delta$. The resulting counter, called RoundMC, achieves a substantial runtime performance improvement over the current state-of-the-art counter, ApproxMC. In particular, our extensive evaluation over a benchmark suite consisting of 1890 instances shows that RoundMC solves 204 more instances than ApproxMC, and achieves a $4\times$ speedup over ApproxMC. | 翻訳日:2023-05-17 15:56:48 公開日:2023-05-16 |
# 0.5%のデータが必要か - 低トレーニングデータインストラクションチューニングの予備的探索 Maybe Only 0.5% Data is Needed: A Preliminary Exploration of Low Training Data Instruction Tuning ( http://arxiv.org/abs/2305.09246v1 ) ライセンス: Link先を確認 | Hao Chen, Yiming Zhang, Qi Zhang, Hantao Yang, Xiaomeng Hu, Xuetao Ma, Yifan Yanggong, Junbo Zhao | (参考訳) 大規模言語モデル(LLM)のインストラクションチューニングは、次の命令でLLMの可能性を解き放ち、研究者から注目を集めている。
命令チューニングは、大規模言語モデル(LLM)をダウンストリームタスクに微調整のアプローチとして適応させるのに役立つが、大量のデータに対して数千万または数十億のパラメータを持つモデルのトレーニングは、計算コストが不適切な結果をもたらす。
そこで本研究では,Low Training Data Instruction Tuning (LTD Instruction Tuning,LTD Instruction Tuning) と呼ばれる,学習コストの削減とデータ効率の向上を目的として,LLM指導チューニングで使用されるデータ削減に焦点を当てた。
具体的には、LLMトレーニングで使用されるデータを削減するための予備的な調査を行い、特定のタスクのパフォーマンスの最適化、命令チューニングに必要な命令の種類数、タスク固有のモデルに必要なデータ量など、LLMトレーニングにおけるタスク特殊化に関するいくつかの観察点を特定する。
その結果、タスク固有のモデルは、元のデータセットの0.5%未満でトレーニングでき、完全なタスク関連データでトレーニングされたモデルよりも2%パフォーマンスが向上することが示唆された。 Instruction tuning for large language models (LLMs) has gained attention from researchers due to its ability to unlock the potential of LLMs in following instructions. While instruction tuning offers advantages for facilitating the adaptation of large language models (LLMs) to downstream tasks as a fine-tuning approach, training models with tens of millions or even billions of parameters on large amounts of data results in unaffordable computational costs. To address this, we focus on reducing the data used in LLM instruction tuning to decrease training costs and improve data efficiency, dubbed as Low Training Data Instruction Tuning (LTD Instruction Tuning). Specifically, this paper conducts a preliminary exploration into reducing the data used in LLM training and identifies several observations regarding task specialization for LLM training, such as the optimization of performance for a specific task, the number of instruction types required for instruction tuning, and the amount of data required for task-specific models. The results suggest that task-specific models can be trained using less than 0.5% of the original dataset, with a 2% improvement in performance over those trained on full task-related data. | 翻訳日:2023-05-17 15:56:20 公開日:2023-05-16 |
# 予測の不確実性下におけるソルティングとハイパーグラフ配向 Sorting and Hypergraph Orientation under Uncertainty with Predictions ( http://arxiv.org/abs/2305.09245v1 ) ライセンス: Link先を確認 | Thomas Erlebach, Murilo Santos de Lima, Nicole Megow, Jens Schl\"oter | (参考訳) 学習強化アルゴリズムの関心は高まっているが,不確実な入力要素の正確な値がクエリによって得られるような探索不可能な不確実性の設定においては,問題解決に必要なクエリ数を最小化することが目的である。
不確実性下でのソートとハイパーグラフの向き付けのための学習型アルゴリズムについて,不確実性値に対する信頼できない予測へのアクセスを仮定して検討した。
我々のアルゴリズムは、予測なしで最良となる最悪の保証を維持しつつ、精度の高い予測性能を保証する。
ハイパーグラフの向きについては、任意の$\gamma \geq 2$に対して、正しい予測に対して1+1/\gamma$、任意の間違った予測に対して$\gamma$の競合比を達成するアルゴリズムを与える。
ソートのためには、正確な予測に最適な解を得ると同時に、任意に間違った予測に2ドル競争的である。
これらのトレードオフが最善である。
また、異なるエラーメトリクスを検討し、このことが可能なすべてのケースにおいて、予測誤差によりアルゴリズムの性能がスムーズに低下することを示す。 Learning-augmented algorithms have been attracting increasing interest, but have only recently been considered in the setting of explorable uncertainty where precise values of uncertain input elements can be obtained by a query and the goal is to minimize the number of queries needed to solve a problem. We study learning-augmented algorithms for sorting and hypergraph orientation under uncertainty, assuming access to untrusted predictions for the uncertain values. Our algorithms provide improved performance guarantees for accurate predictions while maintaining worst-case guarantees that are best possible without predictions. For hypergraph orientation, for any $\gamma \geq 2$, we give an algorithm that achieves a competitive ratio of $1+1/\gamma$ for correct predictions and $\gamma$ for arbitrarily wrong predictions. For sorting, we achieve an optimal solution for accurate predictions while still being $2$-competitive for arbitrarily wrong predictions. These tradeoffs are the best possible. We also consider different error metrics and show that the performance of our algorithms degrades smoothly with the prediction error in all the cases where this is possible. | 翻訳日:2023-05-17 15:55:58 公開日:2023-05-16 |
# 説明不能な例がセキュリティの誤った感覚を与える: 学習可能な例で説明不能なデータをピアスする Unlearnable Examples Give a False Sense of Security: Piercing through Unexploitable Data with Learnable Examples ( http://arxiv.org/abs/2305.09241v1 ) ライセンス: Link先を確認 | Wan Jiang, Yunfeng Diao, He Wang, Jianxin Sun, Meng Wang, Richang Hong | (参考訳) 不正な搾取からデータを保護することは、プライバシーとセキュリティにとって不可欠である。
この目的のために、データに知覚不可能な摂動を加え、それらに基づいてトレーニングされたモデルが、元のクリーンな分布でそれらを正確に分類できないようにすることで、近年、説得力のある保護として \textit{unlearnable examples} (UEs) が提案されている。
残念なことに、UEが誤ったセキュリティの感覚を提供するのは、未許可のユーザが他の保護されていないデータを使って保護を取り除くのを止められないからである。
この観察により、我々は、保護を取り除いたUEであるtextit{learnable unauthorized example} (LE)を導入して、新たな脅威を正式に定義する。
このアプローチの核は UE を LE の多様体に射影する新しい精製過程である。
これは、UEとLEの画素上条件付きおよび知覚的類似性を識別する新しいジョイント条件拡散モデルによって実現される。
広範囲にわたる実験により、LEは様々なシナリオにおいて教師なしのUEと教師なしのUEの両方に対して最先端の対応性能を提供することを示した。 Safeguarding data from unauthorized exploitation is vital for privacy and security, especially in recent rampant research in security breach such as adversarial/membership attacks. To this end, \textit{unlearnable examples} (UEs) have been recently proposed as a compelling protection, by adding imperceptible perturbation to data so that models trained on them cannot classify them accurately on original clean distribution. Unfortunately, we find UEs provide a false sense of security, because they cannot stop unauthorized users from utilizing other unprotected data to remove the protection, by turning unlearnable data into learnable again. Motivated by this observation, we formally define a new threat by introducing \textit{learnable unauthorized examples} (LEs) which are UEs with their protection removed. The core of this approach is a novel purification process that projects UEs onto the manifold of LEs. This is realized by a new joint-conditional diffusion model which denoises UEs conditioned on the pixel and perceptual similarity between UEs and LEs. Extensive experiments demonstrate that LE delivers state-of-the-art countering performance against both supervised UEs and unsupervised UEs in various scenarios, which is the first generalizable countermeasure to UEs across supervised learning and unsupervised learning. | 翻訳日:2023-05-17 15:55:37 公開日:2023-05-16 |
# 非線形電子-フォノンカップリング系におけるバイポーラロンの光学的操作 Optical manipulation of bipolarons in a system with nonlinear electron-phonon coupling ( http://arxiv.org/abs/2305.09238v1 ) ライセンス: Link先を確認 | K. Kova\v{c}, D. Gole\v{z}, M. Mierzejewski, and J. Bon\v{c}a | (参考訳) 量子フォノンに非線形に結合した2つの電子の完全な量子力学的進化を解析し、双極子活性振動モードに結合する短空間均一光パルスを受ける系の動的応答をシミュレートする。
非線形電子フォノンカップリングは、電子密度の存在下でフォノン周波数を軟化または固化させる。
前者の場合、フォノン周波数の直下に調整された外部光パルスは、電子間のアトラクションを発生させ、光パルスがオフになった後も長期のバウンド状態をもたらす。
これは、メタスタブル状態を引き起こす自己トラッピング電位の動的修飾に由来する。
パルス周波数を増大させることで、魅力的な電子-電子相互作用は反発に変化する。
周波数の異なる2つのシーケンシャル光パルスは、魅力的な相互作用と反発相互作用を切り替えることができる。
パルス誘起電子の結合や反発は、弱い分散性光フォノンや弱いクーロン反発の存在下でも効率的であることが示されている。 We investigate full quantum mechanical evolution of two electrons nonlinearly coupled to quantum phonons and simulate the dynamical response of the system subject to a short spatially uniform optical pulse that couples to dipole-active vibrational modes. Nonlinear electron-phonon coupling can either soften or stiffen the phonon frequency in the presence of electron density. In the former case, an external optical pulse tuned just below the phonon frequency generates attraction between electrons and leads to a long-lived bound state even after the optical pulse is switched off. It originates from a dynamical modification of the self-trapping potential that induces a metastable state. By increasing the pulse frequency, the attractive electron-electron interaction changes to repulsive. Two sequential optical pulses with different frequencies can switch between attractive and repulsive interaction. Pulse-induced binding or repulsion of electrons is shown to be efficient also for weakly dispersive optical phonons and in the presence of weak Coulomb repulsion. | 翻訳日:2023-05-17 15:55:07 公開日:2023-05-16 |
# スペクトル回復のためのワンショットニューラルバンド選択 One-shot neural band selection for spectral recovery ( http://arxiv.org/abs/2305.09236v1 ) ライセンス: Link先を確認 | Hai-Miao Hu, Zhenbo Xu, Wenshuai Xu, You Song, YiTao Zhang, Liu Liu, Zhilin Han, Ajin Meng | (参考訳) バンド選択はスペクトル回復品質に大きな影響を与える。
この不規則な逆問題を解決するために、ほとんどのバンド選択法は手作りの先行手法を採用するか、クラスタリングやスパース正規化の制約を利用する。
これらの手法は、異なる選択周波数または異なるバンドの組み合わせに関して繰り返し訓練する計算コストのために非常に遅い。
多くの伝統的な手法は前もってシーンに依存しているため、他のシナリオには適用できない。
本稿では,スペクトル回復のための新しい一発ニューラルバンド選択(nbs)フレームワークを提案する。
離散探索空間と非微分可能な探索戦略を持つ従来の探索手法とは異なり、nbsはバンド選択過程の連続緩和に基づいており、勾配降下を用いた効率的なバンド探索を可能にする。
1ショットで任意のバンドをセレクトするための互換性を実現するために、バンドワイド相関行列を利用して、類似のバンドを徐々に抑制する。
NTIRE 2022 Spectral Restruction Challengeの大規模な評価は、NBSが4つの異なるスペクトルレトフ・エリス法を用いて検討した場合、競争ベースラインよりも一貫した性能向上を達成することを示した。
私たちのコードは公開されます。 Band selection has a great impact on the spectral recovery quality. To solve this ill-posed inverse problem, most band selection methods adopt hand-crafted priors or exploit clustering or sparse regularization constraints to find most prominent bands. These methods are either very slow due to the computational cost of repeatedly training with respect to different selection frequencies or different band combinations. Many traditional methods rely on the scene prior and thus are not applicable to other scenarios. In this paper, we present a novel one-shot Neural Band Selection (NBS) framework for spectral recovery. Unlike conventional searching approaches with a discrete search space and a non-differentiable search strategy, our NBS is based on the continuous relaxation of the band selection process, thus allowing efficient band search using gradient descent. To enable the compatibility for se- lecting any number of bands in one-shot, we further exploit the band-wise correlation matrices to progressively suppress similar adjacent bands. Extensive evaluations on the NTIRE 2022 Spectral Reconstruction Challenge demonstrate that our NBS achieves consistent performance gains over competitive baselines when examined with four different spectral recov- ery methods. Our code will be publicly available. | 翻訳日:2023-05-17 15:54:52 公開日:2023-05-16 |
# 合成データ、実際のエラー:どのようにして合成データをパブリッシュして使うか Synthetic data, real errors: how (not) to publish and use synthetic data ( http://arxiv.org/abs/2305.09235v1 ) ライセンス: Link先を確認 | Boris van Breugel, Zhaozhi Qian, Mihaela van der Schaar | (参考訳) 生成モデルによる合成データの生成は、MLコミュニティやそれ以上の関心を集めており、データセットを個々のニーズに合わせてカスタマイズできる未来を約束している。
残念なことに、合成データは通常完璧ではないため、下流のタスクで潜在的なエラーが発生する。
本研究では、生成プロセスが下流MLタスクにどのように影響するかを検討する。
ナイーブな合成データアプローチ -- 合成データが本物であるかのように使用する -- は、実データにうまく一般化しない下流モデルと分析に繋がることを示している。
合成データシステムにおけるmlの改善に向けた第一歩として、深層生成アンサンブル(dge)を紹介します。これは、生成過程モデルのパラメーターに対する後方分布を暗黙的に近似することを目的とした、深層アンサンブルに触発されたフレームワークです。
dgeは下流モデルのトレーニング、評価、不確実性定量化を改善し、平均的なナイーブアプローチを大きく上回っている。
最も大きな改善は、原データのマイノリティクラスと低密度領域において達成され、生成的不確実性が最も大きい。 Generating synthetic data through generative models is gaining interest in the ML community and beyond, promising a future where datasets can be tailored to individual needs. Unfortunately, synthetic data is usually not perfect, resulting in potential errors in downstream tasks. In this work we explore how the generative process affects the downstream ML task. We show that the naive synthetic data approach -- using synthetic data as if it is real -- leads to downstream models and analyses that do not generalize well to real data. As a first step towards better ML in the synthetic data regime, we introduce Deep Generative Ensemble (DGE) -- a framework inspired by Deep Ensembles that aims to implicitly approximate the posterior distribution over the generative process model parameters. DGE improves downstream model training, evaluation, and uncertainty quantification, vastly outperforming the naive approach on average. The largest improvements are achieved for minority classes and low-density regions of the original data, for which the generative uncertainty is largest. | 翻訳日:2023-05-17 15:54:31 公開日:2023-05-16 |
# マグノンの非エルミートカシミール効果 Non-Hermitian Casimir Effect of Magnons ( http://arxiv.org/abs/2305.09231v1 ) ライセンス: Link先を確認 | Kouki Nakata and Kei Suzuki | (参考訳) 非エルミート量子力学への関心が高まっている。
量子力学の重要な概念は量子揺らぎである。
有限サイズの系に閉じ込められた量子場の量子揺らぎはゼロ点エネルギーシフトを誘導する。
この量子現象、カシミール効果は古典的なアナログが存在しないという意味では最も顕著な量子力学の現象の1つであり、素粒子物理学から凝縮物質物理学、フォトニクスまで、エネルギースケールの階層を超えて多くの注目を集めている。
しかし、カシミール効果の非エルミート拡大とスピントロニクスへの応用はまだ十分に研究されていないが、エネルギー源の探索やエネルギー効率の高いナノデバイスの開発が主な問題である。
ここでこのギャップを埋めます。
カシミール効果のマグノニックアナログを非エルミート系に発展させることにより、この非エルミートカシミール効果がギルバート減衰定数(すなわちエネルギー散逸速度)が増加するにつれて強化されることが示される。
減衰定数が臨界値を超えると、マグノンの非エルミチアンカシミール効果は、膜厚の関数として、当接するものを含む振動挙動を示し、例外点を特徴とする。
以上の結果から,エネルギー散逸がカシミール工学の重要な要素であることが示唆された。 There has been a growing interest in non-Hermitian quantum mechanics. The key concepts of quantum mechanics are quantum fluctuations. Quantum fluctuations of quantum fields confined in a finite-size system induce the zero-point energy shift. This quantum phenomenon, the Casimir effect, is one of the most striking phenomena of quantum mechanics in the sense that there are no classical analogs and has been attracting much attention beyond the hierarchy of energy scales, ranging from elementary particle physics to condensed matter physics, together with photonics. However, the non-Hermitian extension of the Casimir effect and the application to spintronics have not yet been investigated enough, although exploring energy sources and developing energy-efficient nanodevices are its central issues. Here we fill this gap. By developing a magnonic analog of the Casimir effect into non-Hermitian systems, we show that this non-Hermitian Casimir effect of magnons is enhanced as the Gilbert damping constant (i.e., the energy dissipation rate) increases. When the damping constant exceeds a critical value, the non-Hermitian Casimir effect of magnons exhibits an oscillating behavior, including a beating one, as a function of the film thickness and is characterized by the exceptional point. Our result suggests that energy dissipation serves as a key ingredient of Casimir engineering. | 翻訳日:2023-05-17 15:54:13 公開日:2023-05-16 |
# 絡み合いから不協和へ:部分的転置に基づく視点 From entanglement to discord: a perspective based on partial transposition ( http://arxiv.org/abs/2305.09229v1 ) ライセンス: Link先を確認 | Sun Liang-Liang, Zhou Xiang, Yu Sixia | (参考訳) ここでは、当初は絡み合いを研究するために導入された部分転位が、(I)部分転位の下でのスペクトル不変量の不協和規準(discord criterion of spectrum invariant)、(II)スペクトルが部分転位の作用によって変化する場合、1つの状態が不協和を含む必要があること、(II)量子量子不協和とスペクトルの変化に基づく片方向欠陥を推定するためのアプローチなど、多くの量子不協和に関する結果をもたらすことを示す。
エンタングルメント理論と比較するため、幾何学的量子エンタングルメントと相対エントロピーのエンタングルメントも低いバウンドである。
そこで本研究では,部分的転置に基づく不一致の特定と推定を行うアプローチについて述べる。
一方,非古典的相関の2つの基本的な概念である絡み合いと不一致は,それらの相互作用と区別を普遍的な枠組みの中で表現できるように,同一の基盤に置くことができることを示した。 Here, we show that partial transposition, which is initially introduced to study entanglement, can also inspire many results on quantum discord including: (I) a discord criterion of spectrum invariant under partial transposition, stating that one state must contain discord if its spectrum is changed by the action of partial transposition, (II) an approach to estimate the geometric quantum discord and the one-way deficit based on the change of spectrum. To compare with entanglement theory, we also lower-bound the geometric quantum entanglement and the entanglement of relative entropy. Thus, on one hand, we illustrate an approach to specify and estimate discord based on partial transposition. On the other hand, we show that, entanglement and discord, two basic notions of nonclassical correlations, can be placed on the same ground such that their interplay and distinction can be illustrated in within a universal framework. | 翻訳日:2023-05-17 15:53:51 公開日:2023-05-16 |
# ノイズロバストニューラルネットワークアーキテクチャ Noise robust neural network architecture ( http://arxiv.org/abs/2305.09276v1 ) ライセンス: Link先を確認 | Xiong Yunuo, Xiong Hongwei | (参考訳) そこで我々は、トレーニングデータに人工ノイズを加えることなく、一般的なノイズ画像を認識するニューラルネットワークアーキテクチャ(Dune Neural Network)を提案する。
ネットワークの各自由パラメータを不確かさ区間として表現し,各入力要素に線形変換を適用することにより,白色雑音の入力データに対して適切な雑音頑健性が得られることを示す。
我々は、mnistデータセットに単純な砂丘ニューラルネットワークを適用し、人間の認識が難しい非常にノイズの多い入力画像であっても、データセットの補足なしでは、人間よりも優れたテストセット精度を達成できることを実証する。
また,本手法は様々な背景パターンを付加した他の例では堅牢であることがわかった。 In which we propose neural network architecture (dune neural network) for recognizing general noisy image without adding any artificial noise in the training data. By representing each free parameter of the network as an uncertainty interval, and applying a linear transformation to each input element, we show that the resulting architecture achieves decent noise robustness when faced with input data with white noise. We apply simple dune neural networks for MNIST dataset and demonstrate that even for very noisy input images which are hard for human to recognize, our approach achieved better test set accuracy than human without dataset augmentation. We also find that our method is robust for many other examples with various background patterns added. | 翻訳日:2023-05-17 15:47:28 公開日:2023-05-16 |
# オンライン連続学習における迅速な適応:私たちはそれを正しく評価していますか? Rapid Adaptation in Online Continual Learning: Are We Evaluating It Right? ( http://arxiv.org/abs/2305.09275v1 ) ライセンス: Link先を確認 | Hasan Abed Al Kader Hammoud, Ameya Prabhu, Ser-Nam Lim, Philip H.S. Torr, Adel Bibi, Bernard Ghanem | (参考訳) 我々は,オンライン連続学習(OCL)アルゴリズムの適応性を評価する一般的な手法を,オンラインの精度の指標を用いて再検討する。
しかし,予測に入力画像を使用しない空白のブラインド分類器でさえ,データストリーム内のスプリアスラベル相関を利用して非現実的な高いオンライン精度を実現することができるため,この指標は信頼性に乏しい。
本研究により,既存のOCLアルゴリズムは高いオンライン精度を達成できるが,有用な情報の保持にはあまり役に立たないことが明らかとなった。
そこで本研究では,スプリアス相関を除去した近未来の試料の精度に基づく適応度測定のための新しい指標を提案する。
計算予算の異なる大規模データセット上で,提案手法を用いて既存のOCL手法をベンチマークし,過去の情報を保持し再利用することで,よりよい一般化が達成できることを示す。
提案手法は,真に適応的なOCL手法の開発に有効であると考えられる。
我々は、https://github.com/drimpossible/EvalOCLで結果を再現するコードを提供します。 We revisit the common practice of evaluating adaptation of Online Continual Learning (OCL) algorithms through the metric of online accuracy, which measures the accuracy of the model on the immediate next few samples. However, we show that this metric is unreliable, as even vacuous blind classifiers, which do not use input images for prediction, can achieve unrealistically high online accuracy by exploiting spurious label correlations in the data stream. Our study reveals that existing OCL algorithms can also achieve high online accuracy, but perform poorly in retaining useful information, suggesting that they unintentionally learn spurious label correlations. To address this issue, we propose a novel metric for measuring adaptation based on the accuracy on the near-future samples, where spurious correlations are removed. We benchmark existing OCL approaches using our proposed metric on large-scale datasets under various computational budgets and find that better generalization can be achieved by retaining and reusing past seen information. We believe that our proposed metric can aid in the development of truly adaptive OCL methods. We provide code to reproduce our results at https://github.com/drimpossible/EvalOCL. | 翻訳日:2023-05-17 15:47:15 公開日:2023-05-16 |
# 反復ズーム・リファインメントによる正確なギガピクセル集団数 Accurate Gigapixel Crowd Counting by Iterative Zooming and Refinement ( http://arxiv.org/abs/2305.09271v1 ) ライセンス: Link先を確認 | Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis | (参考訳) ギガピクセルの解像度の増加は、群衆数に新たな課題をもたらした。
このような解像度は、現在のGPUのメモリと計算限界をはるかに超えており、利用可能なディープニューラルネットワークアーキテクチャやトレーニング手順は、そのような大規模な入力のために設計されていない。
これらの課題に対処するためにいくつかの手法が提案されているが、これらは入力画像を小さなサイズに縮小するか、あるいは群衆のカウントには適さない他のギガピクセルタスクから借用することに限定されている。
本稿では,画像の最も密度の高い領域を反復的に拡大し,より詳細な粗い密度マップを洗練するgigazoomという新しい手法を提案する。
実験により,gigazoomはギガピクセル群数に対する最先端の精度を得,次善の手法の精度を42%向上させることを示した。 The increasing prevalence of gigapixel resolutions has presented new challenges for crowd counting. Such resolutions are far beyond the memory and computation limits of current GPUs, and available deep neural network architectures and training procedures are not designed for such massive inputs. Although several methods have been proposed to address these challenges, they are either limited to downsampling the input image to a small size, or borrowing from other gigapixel tasks, which are not tailored for crowd counting. In this paper, we propose a novel method called GigaZoom, which iteratively zooms into the densest areas of the image and refines coarser density maps with finer details. Through experiments, we show that GigaZoom obtains the state-of-the-art for gigapixel crowd counting and improves the accuracy of the next best method by 42%. | 翻訳日:2023-05-17 15:46:55 公開日:2023-05-16 |
# ContrastNet:Few-Shotテキスト分類のためのコントラスト学習フレームワーク ContrastNet: A Contrastive Learning Framework for Few-Shot Text Classification ( http://arxiv.org/abs/2305.09269v1 ) ライセンス: Link先を確認 | Junfan Chen, Richong Zhang, Yongyi Mao, Jie Xu | (参考訳) 最近、メタラーニングパラダイムによって、ソースクラスから移行した知識を持つターゲットクラスを、エピソードと命名された小さなタスクセットで識別することを目的としている。
彼らの成功にもかかわらず、プロトタイプネットワークに基づくメタラーナーの構築は、類似クラス間の識別的テキスト表現の学習に不満足であり、ラベル予測中に矛盾を引き起こす可能性がある。
さらに,数例のトレーニング例によって生じる少数ショットテキスト分類におけるタスクレベルとインスタンスレベルのオーバーフィッティング問題は,十分に対処されていない。
本研究では,テキスト分類における識別表現とオーバーフィット問題の両方に対処すべく,コントラストネットと呼ばれるコントラスト学習フレームワークを提案する。
ContrastNetは、同じクラスに属する近いテキスト表現を抽出し、異なるクラスに属するテキスト表現をプッシュし、同時にタスクレベルとインスタンスレベルで教師なしのコントラスト正規化を導入してオーバーフィッティングを防ぐ。
8つの数ショットのテキスト分類データセットの実験は、ContrastNetが現在の最先端モデルより優れていることを示している。 Few-shot text classification has recently been promoted by the meta-learning paradigm which aims to identify target classes with knowledge transferred from source classes with sets of small tasks named episodes. Despite their success, existing works building their meta-learner based on Prototypical Networks are unsatisfactory in learning discriminative text representations between similar classes, which may lead to contradictions during label prediction. In addition, the tasklevel and instance-level overfitting problems in few-shot text classification caused by a few training examples are not sufficiently tackled. In this work, we propose a contrastive learning framework named ContrastNet to tackle both discriminative representation and overfitting problems in few-shot text classification. ContrastNet learns to pull closer text representations belonging to the same class and push away text representations belonging to different classes, while simultaneously introducing unsupervised contrastive regularization at both task-level and instance-level to prevent overfitting. Experiments on 8 few-shot text classification datasets show that ContrastNet outperforms the current state-of-the-art models. | 翻訳日:2023-05-17 15:46:40 公開日:2023-05-16 |
# 実環境におけるcsa(cyber security for airworthiness)の適用の課題 Challenges with the Application of Cyber Security for Airworthiness (CSA) in Real-World Contexts ( http://arxiv.org/abs/2305.09261v1 ) ライセンス: Link先を確認 | Beckett LeClair, James McLeod, Lee Ramsay, Mick Warren | (参考訳) 商用、一般、軍用航空宇宙のコンピュータ化技術への依存がますます高まる中、サイバーハザードや攻撃の可能性が高まっている。
したがって、攻撃ベクトルの多様性はかつてないほど大きい。
do 326aやed 202aのような優れた実践基準が認識され、サービス内航空機のサイバーセキュリティに関するガイドラインを提供することでこれに対処する試みがなされたが、そのような取り組みの実装作業はまだ初期段階にある。
サービス航空機に関する以前の研究から、著者らは、重要な課題の1つは、既存の設計に対する新しい規制の振り返りの適用であると判断した。
これは、時間、お金、適度に適格で経験豊富な人材資源といった軍事環境において既に供給が制限されているものに対する重要な要求をもたらす可能性がある。
著者らは以前,コンプライアンスへの効率的なアプローチ方法を,有望な結果で検討してきた。
空気領域における安全アプローチの効果的かつ効率的な実装への障壁を低くする可能性のある、より潜在的な緩和作用を決定するためには、CSAの適用に影響を与える他の重要な要因と相まって、この逆作用の課題を考慮する必要がある。
この研究は、CSAの現実世界の応用に関する相互関係の課題と、それらが克服される可能性の始まりを探求する。 The ever increasing push towards reliance upon computerised technology in commercial, general, and military aerospace brings with it an increasing amount of potential cyber hazards and attacks. Consequently, the variety of attack vectors is greater than ever. Recognized Good Practice standards such as DO 326A and ED 202A attempt to address this by providing guidelines for cyber security on in-service aircraft, though implementation work for such initiatives is still in early stages. From previous work on in service aircraft, the authors have determined that one of the key challenges is that of the retrospective application of new regulations to existing designs. This can present significant requirements for time, money, and Suitably Qualified and Experienced Personnel resource, things which are often in already limited supply in military environments. The authors have previously explored efficient ways of approaching compliance, with promising results. There is still the need to consider this retroactivity challenge in tandem with other key factors affecting the application of CSA, in order to determine any more potential mitigating actions that could lower the barrier to effective and efficient implementation of secure approaches in the air domain. This work explores the interrelated challenges surrounding real-world applications of CSA and the beginnings of how these may be overcome. | 翻訳日:2023-05-17 15:46:19 公開日:2023-05-16 |
# 瞬時及び非ゼロトンネル時間レジーム Instantaneous and non-zero tunneling time regimes ( http://arxiv.org/abs/2305.09260v1 ) ライセンス: Link先を確認 | Philip Caesar M. Flores, Dean Alvin L. Pablico, and Eric A. Galapon | (参考訳) 本研究では,TOA(量子時間)の演算子に基づく理論が,計測されたトンネル時間に関する一見矛盾する報告をどう解釈するかを示す。
これは、バリアの存在と不在において、対応するTOA演算子の期待値の差としてバリアトラバース時間を定義することで実現される。
任意の形状のポテンシャル障壁に対して、入射波束の運動量分布 $\tilde{\psi}(k)$ とバリアの形状との関係によって決定されるフルトンネル、部分トンネル、非トンネルプロセスに対応する3つのトラバーサル時間レジームが存在することを示す。
完全なトンネルプロセスは、$\tilde{\psi}(k)$ の支持がバリアの最小高さ以下であるときに起こり、瞬時にトンネル時間が発生する。
部分チューニングプロセスは、$\tilde{\psi}(k)$のサポートまたはサポートのセグメントが障壁の最小高さと最大高さの間にあるときに発生する。
この場合、粒子は障壁系全体を通して「完全に」トンネルを通らず、非ゼロの軌道時間となる。
非トンネル状態は、$\tilde{\psi}(k)$ の支持がバリアシステムの最大高さを超えているときに起こり、古典的な境界横断時間に繋がる。
異なる実時間実験で測定されたゼロと非ゼロのトンネル時間は、それぞれフルトンネルと部分トンネルのプロセスに対応している。 We demonstrate how an operator-based theory of quantum time-of-arrival (TOA) reconciles the seemingly conflicting reports on the measured tunneling times. This is done by defining the barrier traversal time as the difference of the expectation values of the corresponding TOA-operators in the presence and absence of the barrier. We show that for an arbitrarily shaped potential barrier, there exists three traversal time regimes corresponding to full-tunneling, partial-tunneling, and \non-tunneling processes, which are determined by the relation between the the support of the incident wavepacket's momentum distribution $\tilde{\psi}(k)$, and shape of the barrier. The full-tunneling process occurs when the support of $\tilde{\psi}(k)$ is below the minimum height of the barrier, resulting to an instantaneous tunneling time. The partial-tunneling process occurs when the support or a segment of the support of $\tilde{\psi}(k)$ lies between the minimum and maximum height of the barrier. For this case, the particle does not "fully" tunnel through the entire barrier system resulting to a non-zero traversal time. The non-tunneling regime occurs when the support of $\tilde{\psi}(k)$ is above the maximum height of the barrier system, leading to a classical above-barrier traversal time. We argue that the zero and non-zero tunneling times measured in different attoclock experiments correspond to the full-tunneling and partial-tunneling processes, respectively. | 翻訳日:2023-05-17 15:45:58 公開日:2023-05-16 |
# HyHTM:双曲幾何学に基づく階層的トピックモデル HyHTM: Hyperbolic Geometry based Hierarchical Topic Models ( http://arxiv.org/abs/2305.09258v1 ) ライセンス: Link先を確認 | Simra Shahid, Tanay Anand, Nikitha Srikanth, Sumit Bhatia, Balaji Krishnamurthy, Nikaash Puri | (参考訳) 階層的トピックモデル(HTM)は、文書コレクション内のトピック階層を発見するのに有用である。
しかしながら、従来のHTMは、下位のトピックが関連がなく、上位のトピックに十分特有でない階層を生成することが多い。
さらに、これらの手法は計算コストがかかる。
我々は,双曲幾何学からトピックモデルの階層構造を明示的にモデル化するために階層的情報を取り込むことにより,これらの制限に対処する双曲幾何学に基づく階層的トピックモデルであるhyhtmを提案する。
4つのベースラインによる実験結果から,HyHTMはトピック間の親子関係により深く関与できることが示された。
HyHTMは、一般的な高レベルトピックから特定の低レベルトピックまで、粒度を専門とする一貫性のあるトピック階層を生成する。
さらに、我々のモデルは大幅に高速で、最高のパフォーマンスのベースラインよりもはるかに少ないメモリフットプリントを残しており、我々のアルゴリズムのソースコードを公開している。 Hierarchical Topic Models (HTMs) are useful for discovering topic hierarchies in a collection of documents. However, traditional HTMs often produce hierarchies where lowerlevel topics are unrelated and not specific enough to their higher-level topics. Additionally, these methods can be computationally expensive. We present HyHTM - a Hyperbolic geometry based Hierarchical Topic Models - that addresses these limitations by incorporating hierarchical information from hyperbolic geometry to explicitly model hierarchies in topic models. Experimental results with four baselines show that HyHTM can better attend to parent-child relationships among topics. HyHTM produces coherent topic hierarchies that specialise in granularity from generic higher-level topics to specific lowerlevel topics. Further, our model is significantly faster and leaves a much smaller memory footprint than our best-performing baseline.We have made the source code for our algorithm publicly accessible. | 翻訳日:2023-05-17 15:45:37 公開日:2023-05-16 |
# 旅行セールスマン問題に対する新しいノードシフト符号化表現 A new node-shift encoding representation for the travelling salesman problem ( http://arxiv.org/abs/2305.09257v1 ) ライセンス: Link先を確認 | Menouar Boulif, Aghiles Gharbi | (参考訳) 本稿では,巡回セールスマン問題を解くために,表現を符号化する新しい遺伝的アルゴリズムを提案する。
提案する染色体構造の性能を評価するため, 最先端のエンコーディング表現と比較した。
そのため、TSPLIBから採取した14のベンチマークを使用する。
最後に,実験を行った結果,得られた結果を報告し,結論を導いた。 This paper presents a new genetic algorithm encoding representation to solve the travelling salesman problem. To assess the performance of the proposed chromosome structure, we compare it with state-of-the-art encoding representations. For that purpose, we use 14 benchmarks of different sizes taken from TSPLIB. Finally, after conducting the experimental study, we report the obtained results and draw our conclusion. | 翻訳日:2023-05-17 15:45:21 公開日:2023-05-16 |
# ストレージ制約のないオンライン連続学習 Online Continual Learning Without the Storage Constraint ( http://arxiv.org/abs/2305.09253v1 ) ライセンス: Link先を確認 | Ameya Prabhu, Zhipeng Cai, Puneet Dokania, Philip Torr, Vladlen Koltun, Ozan Sener | (参考訳) オンライン連続学習(OCL)の研究は、主に、エージェントの生涯を通して、固定された限られたストレージ割り当てで破滅的な忘れを緩和することに焦点を当てている。
しかし、データストレージの可用性の増大は、これらの前提に従わない幅広いアプリケーションを強調している。
これらのケースでは、主な関心事はストレージではなく計算費用の管理である。
本稿では,ストレージの制約を緩和し,固定的な経済予算を強調することで,オンライン連続学習問題を調査する。
knn分類器とuniversal pre-trained feature extractorを用いて、小さな計算予算で入ってくるデータストリーム全体をコンパクトに保存し、活用できる簡単なアルゴリズムを提供する。
私たちのアルゴリズムは、連続的な学習に魅力的な一貫性特性を提供します。
712のクラスで39mのイメージを持つcontinual localization(cloc)と、10,788のクラスで580kのイメージを持つcontinual google landmarks v2(cglm)です。
結果の再現は \url{https://github.com/drimpossible/ACM} で行います。 Online continual learning (OCL) research has primarily focused on mitigating catastrophic forgetting with fixed and limited storage allocation throughout the agent's lifetime. However, the growing affordability of data storage highlights a broad range of applications that do not adhere to these assumptions. In these cases, the primary concern lies in managing computational expenditures rather than storage. In this paper, we target such settings, investigating the online continual learning problem by relaxing storage constraints and emphasizing fixed, limited economical budget. We provide a simple algorithm that can compactly store and utilize the entirety of the incoming data stream under tiny computational budgets using a kNN classifier and universal pre-trained feature extractors. Our algorithm provides a consistency property attractive to continual learning: It will never forget past seen data. We set a new state of the art on two large-scale OCL datasets: Continual LOCalization (CLOC), which has 39M images over 712 classes, and Continual Google Landmarks V2 (CGLM), which has 580K images over 10,788 classes -- beating methods under far higher computational budgets than ours in terms of both reducing catastrophic forgetting of past data and quickly adapting to rapidly changing data streams. We provide code to reproduce our results at \url{https://github.com/drimpossible/ACM}. | 翻訳日:2023-05-17 15:45:17 公開日:2023-05-16 |
# デジタル農業の環境影響を考えるための方法論 Towards a methodology to consider the environmental impacts of digital agriculture ( http://arxiv.org/abs/2305.09250v1 ) ライセンス: Link先を確認 | Pierre La Rocca (UB, LaBRI, MANAO) | (参考訳) 農業は温暖化に影響を及ぼし、収穫は温暖化によって脅かされる。
情報通信技術(ICT)は、監視とプロセス最適化を通じて、この緊張を緩和する潜在的なレバーとみなされることが多い。
しかし、農業ICTは積極的に推進されているものの、環境への影響は見過ごされているようである。
リバウンド効果の可能性は、その純利益を賭け、農業の持続性を妨げる可能性がある。
本研究は、環境フットプリント評価手法をデジタル農業の文脈に適用することにより、農業ICTシステムの環境フットプリントと必要なインフラを考慮した方法論を定義することを目的とする。
農業の持続性、不十分性、レジリエンスに対する異なる技術経路の効果と結果を評価するため、デジタル化シナリオに基づく現在および将来のモデルを提案することが期待されている。
最終的な結果は、社会的議論や政治的決定の啓蒙に役立つかもしれない。 Agriculture affects global warming, while its yields are threatened by it. Information and communication technology (ICT) is often considered as a potential lever to mitigate this tension, through monitoring and process optimization. However, while agricultural ICT is actively promoted, its environmental impact appears to be overlooked. Possible rebound effects could put at stake its net expected benefits and hamper agriculture sustainability. By adapting environmental footprint assessment methods to digital agriculture context, this research aims at defining a methodology taking into account the environmental footprint of agricultural ICT systems and their required infrastructures. The expected contribution is to propose present and prospective models based on possible digitalization scenarios, in order to assess effects and consequences of different technological paths on agriculture sustainability, sufficiency and resilience. The final results could be useful to enlighten societal debates and political decisions. | 翻訳日:2023-05-17 15:44:54 公開日:2023-05-16 |
# OmniSafe: 安全な強化学習研究を加速するためのインフラストラクチャ OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning Research ( http://arxiv.org/abs/2305.09304v1 ) ライセンス: Link先を確認 | Jiaming Ji, Jiayi Zhou, Borong Zhang, Juntao Dai, Xuehai Pan, Ruiyang Sun, Weidong Huang, Yiran Geng, Mickel Liu, Yaodong Yang | (参考訳) 強化学習(RL)アルゴリズムによって強化されたAIシステムは、社会的進歩を触媒する大きな可能性を秘めている。
特に安全クリティカルな応用において、研究者は意図しない害やRLエージェントの安全でない行動に対する懸念を提起している。
安全強化学習(SafeRL)の哲学は、RLエージェントを無害な意図と安全な行動パターンに合わせることである。
SafeRLでは、エージェントは環境からのフィードバックを受けながら、意図しない害や安全でない行動のリスクを最小限に抑えながら、最適なポリシーを開発することを学ぶ。
しかし、SafeRLアルゴリズムの実装の複雑な性質のため、様々な領域にまたがる方法論を組み合わせることは、非常に難しい課題である。
これにより、現代の安全研究milieuには、凝集と効率のよい学習フレームワークが欠如した。
本研究では,SafeRL研究の迅速化を目的とした基礎的枠組みを提案する。
我々の包括的なフレームワークは、異なるRLドメインにまたがるアルゴリズムの配列を含み、安全要素に重点を置いています。
我々の取り組みは、SafeRL関連の研究プロセスをより合理化し、効率的にすることで、AIの安全性に関するさらなる研究を促進することです。
私たちのプロジェクトは、https://github.com/pku-alignment/omnisafeでリリースされています。 AI systems empowered by reinforcement learning (RL) algorithms harbor the immense potential to catalyze societal advancement, yet their deployment is often impeded by significant safety concerns. Particularly in safety-critical applications, researchers have raised concerns about unintended harms or unsafe behaviors of unaligned RL agents. The philosophy of safe reinforcement learning (SafeRL) is to align RL agents with harmless intentions and safe behavioral patterns. In SafeRL, agents learn to develop optimal policies by receiving feedback from the environment, while also fulfilling the requirement of minimizing the risk of unintended harm or unsafe behavior. However, due to the intricate nature of SafeRL algorithm implementation, combining methodologies across various domains presents a formidable challenge. This had led to an absence of a cohesive and efficacious learning framework within the contemporary SafeRL research milieu. In this work, we introduce a foundational framework designed to expedite SafeRL research endeavors. Our comprehensive framework encompasses an array of algorithms spanning different RL domains and places heavy emphasis on safety elements. Our efforts are to make the SafeRL-related research process more streamlined and efficient, therefore facilitating further research in AI safety. Our project is released at: https://github.com/PKU-Alignment/omnisafe. | 翻訳日:2023-05-17 15:37:01 公開日:2023-05-16 |
# Pink-Eggs Dataset V1:ディープラーニング組み込みソリューションによる侵入的種管理への一歩 Pink-Eggs Dataset V1: A Step Toward Invasive Species Management Using Deep Learning Embedded Solutions ( http://arxiv.org/abs/2305.09302v1 ) ライセンス: Link先を確認 | Di Xu, Yang Zhao, Xiang Hao, Xin Meng | (参考訳) 本稿では,Pomacea canaliculata 卵と同定されたピンクの卵を画像化した新しいデータセットについて紹介する。
このデータセットの目的は、深層学習技術を利用して、Pomacea canaliculata種の普及を分析する研究者を支援し、Pomacea canaliculataの卵に関する視覚データを必要とする他の調査的追跡を支援することである。
しかし、同じ分類群に属する他の種がアメリカ大陸の地域で類似した卵を産むことが観察されているため、問題の卵の同一性は決定的に確立されていないことは注目に値する。
したがって、これらの卵の除去に関する決定にとって重要な前提条件は、侵入性ポマセアカナリキュラタ(Pomacea canaliculata)にのみ寄与するかどうか、あるいは他の種も関与しているかどうかを確実に決定することである。
データセットはhttps://www.kaggle.com/datasets/deeshenzhen/pinkeggsで利用可能である。 We introduce a novel dataset consisting of images depicting pink eggs that have been identified as Pomacea canaliculata eggs, accompanied by corresponding bounding box annotations. The purpose of this dataset is to aid researchers in the analysis of the spread of Pomacea canaliculata species by utilizing deep learning techniques, as well as supporting other investigative pursuits that require visual data pertaining to the eggs of Pomacea canaliculata. It is worth noting, however, that the identity of the eggs in question is not definitively established, as other species within the same taxonomic family have been observed to lay similar-looking eggs in regions of the Americas. Therefore, a crucial prerequisite to any decision regarding the elimination of these eggs would be to establish with certainty whether they are exclusively attributable to invasive Pomacea canaliculata or if other species are also involved. The dataset is available at https://www.kaggle.com/datasets/deeshenzhen/pinkeggs | 翻訳日:2023-05-17 15:36:40 公開日:2023-05-16 |
# unis-mmc:unimodality-supervised multimodal contrastive learningによるマルチモーダル分類 UniS-MMC: Multimodal Classification via Unimodality-supervised Multimodal Contrastive Learning ( http://arxiv.org/abs/2305.09299v1 ) ライセンス: Link先を確認 | Heqing Zou, Meng Shen, Chen Chen, Yuchen Hu, Deepu Rajan, Eng Siong Chng | (参考訳) マルチモーダル学習(multimodal learning)は、人間を模倣し、様々な下流タスクの複数のモダリティから補完的な情報を取得することを目的としている。
しかしながら、従来の集約型マルチモーダル融合法は、モダリティ間の関係を無視し、各モダリティを等しく扱い、センサノイズを被り、マルチモーダル学習性能を低下させる。
本研究では,一助予測の弱監督下で,より信頼性の高いマルチモーダル表現を探索する新しいマルチモーダルコントラスト法を提案する。
具体的には、まずタスクに関連する一助予測と、導入した一助予測タスクから一助予測をキャプチャする。
そして、一乗予測の監督の下で、設計したマルチモーダルコントラスト法により、一乗表現をより効果的に整列する。
UPMC-Food-101 と N24News の2つの画像テキスト分類ベンチマークにおける融合特徴による実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることを示す。
詳細なアブレーション研究と分析により,提案手法の利点がさらに示された。 Multimodal learning aims to imitate human beings to acquire complementary information from multiple modalities for various downstream tasks. However, traditional aggregation-based multimodal fusion methods ignore the inter-modality relationship, treat each modality equally, suffer sensor noise, and thus reduce multimodal learning performance. In this work, we propose a novel multimodal contrastive method to explore more reliable multimodal representations under the weak supervision of unimodal predicting. Specifically, we first capture task-related unimodal representations and the unimodal predictions from the introduced unimodal predicting task. Then the unimodal representations are aligned with the more effective one by the designed multimodal contrastive method under the supervision of the unimodal predictions. Experimental results with fused features on two image-text classification benchmarks UPMC-Food-101 and N24News show that our proposed Unimodality-Supervised MultiModal Contrastive UniS-MMC learning method outperforms current state-of-the-art multimodal methods. The detailed ablation study and analysis further demonstrate the advantage of our proposed method. | 翻訳日:2023-05-17 15:36:18 公開日:2023-05-16 |
# 適応型コンピュータビジョンのための分布外検出 Out-of-Distribution Detection for Adaptive Computer Vision ( http://arxiv.org/abs/2305.09293v1 ) ライセンス: Link先を確認 | Simon Kristoffersson Lind, Rudolph Triebel, Luigi Nardi, Volker Krueger | (参考訳) コンピュータビジョンは、これまで見えなかった撮像条件に直面すると信頼性が低いことが知られている。
本稿では,カメラパラメータを正規化流型除細動検出器に適合させる手法を提案する。
この分布外検出器によるカメラパラメータの適応は, YOLOv4物体検出器のmAP, mAR, F1における平均3~4ポイントの増加をもたらすことを示す。
二次的な結果として,COCOデータセットの分布外検出のための正規化フローモデルをトレーニングすることも可能であること,また,分布外検出のためのほとんどのベンチマークよりも大きく,多種多様であることを示す。 It is well known that computer vision can be unreliable when faced with previously unseen imaging conditions. This paper proposes a method to adapt camera parameters according to a normalizing flow-based out-of-distibution detector. A small-scale study is conducted which shows that adapting camera parameters according to this out-of-distibution detector leads to an average increase of 3 to 4 percentage points in mAP, mAR and F1 performance metrics of a YOLOv4 object detector. As a secondary result, this paper also shows that it is possible to train a normalizing flow model for out-of-distribution detection on the COCO dataset, which is larger and more diverse than most benchmarks for out-of-distibution detectors. | 翻訳日:2023-05-17 15:35:58 公開日:2023-05-16 |
# 辞書に基づく時系列規則分類へのアプローチ A Dictionary-based approach to Time Series Ordinal Classification ( http://arxiv.org/abs/2305.09288v1 ) ライセンス: Link先を確認 | Rafael Ayll\'on-Gavil\'an, David Guijo-Rubio, Pedro Antonio Guti\'errez and C\'esar Herv\'as-Martinez | (参考訳) 時系列分類(TSC)は、様々な現実世界の問題に対処し、優れた結果が得られる広範囲の研究分野である。
うまく機能するアプローチのひとつに、いわゆる辞書ベースのテクニックがある。
TDE(Temporal Dictionary Ensemble)は、現在最先端の辞書ベースのTSCアプローチである。
多くのtsc問題では、時系列に関連付けられたラベルに自然な順序が現れる。
この特性はordinalityと呼ばれ、メソッドのパフォーマンスを改善するために利用することができる。
順序時系列を扱う領域は、まだ探索されていない時系列規則分類(TSOC)分野である。
本稿では,TDEアルゴリズムの順序適応(ordinal TDE,ordinal TDE)を提案する。
そこで,18個のtsoc問題を用いた包括的比較を行った。
実験により,既存の4つの名目辞書手法と比較して,順序辞書に基づく手法による改善が示された。 Time Series Classification (TSC) is an extensively researched field from which a broad range of real-world problems can be addressed obtaining excellent results. One sort of the approaches performing well are the so-called dictionary-based techniques. The Temporal Dictionary Ensemble (TDE) is the current state-of-the-art dictionary-based TSC approach. In many TSC problems we find a natural ordering in the labels associated with the time series. This characteristic is referred to as ordinality, and can be exploited to improve the methods performance. The area dealing with ordinal time series is the Time Series Ordinal Classification (TSOC) field, which is yet unexplored. In this work, we present an ordinal adaptation of the TDE algorithm, known as ordinal TDE (O-TDE). For this, a comprehensive comparison using a set of 18 TSOC problems is performed. Experiments conducted show the improvement achieved by the ordinal dictionary-based approach in comparison to four other existing nominal dictionary-based techniques. | 翻訳日:2023-05-17 15:35:44 公開日:2023-05-16 |
# 低リソース環境におけるテキストデータ拡張としてのadversarialword dilution AdversarialWord Dilution as Text Data Augmentation in Low-Resource Regime ( http://arxiv.org/abs/2305.09287v1 ) ライセンス: Link先を確認 | Junfan Chen, Richong Zhang, Zheyan Luo, Chunming Hu, Yongyi Mao | (参考訳) データ拡張はテキスト分類、特にトレーニング中に各クラスのいくつかの例が利用できる低リソースのシステムで広く利用されている。
成功にもかかわらず、有効性を高める厳しいポジティブな例としてデータ拡張の生成は未検討である。
本稿では,低リソーステキスト分類モデルを効率的に学習するために,テキストデータ拡張としてハードポジティブな例を生成できるadversarial word dilution (awd)法を提案する。
テキストデータを増大させるという考え方は、未知語埋め込みと重み付けした混合によって強陽性語の埋め込みを減らし、分類モデルにより正と認識することが困難となる。
我々はラベルの指導により,制約付きmin-max最適化プロセスを通じて,希釈重みを相反的に学習する。
3つのベンチマークデータセットに関する実証研究は、awdがより効果的なデータ拡張を生成し、最先端のテキストデータ拡張方法を上回ることを示している。
追加の分析は、awdによって生成されたデータ拡張は解釈可能であり、さらなるトレーニングなしで柔軟に新しい例に拡張できることを示している。 Data augmentation is widely used in text classification, especially in the low-resource regime where a few examples for each class are available during training. Despite the success, generating data augmentations as hard positive examples that may increase their effectiveness is under-explored. This paper proposes an Adversarial Word Dilution (AWD) method that can generate hard positive examples as text data augmentations to train the low-resource text classification model efficiently. Our idea of augmenting the text data is to dilute the embedding of strong positive words by weighted mixing with unknown-word embedding, making the augmented inputs hard to be recognized as positive by the classification model. We adversarially learn the dilution weights through a constrained min-max optimization process with the guidance of the labels. Empirical studies on three benchmark datasets show that AWD can generate more effective data augmentations and outperform the state-of-the-art text data augmentation methods. The additional analysis demonstrates that the data augmentations generated by AWD are interpretable and can flexibly extend to new examples without further training. | 翻訳日:2023-05-17 15:35:32 公開日:2023-05-16 |
# フラストレーションのない親ハミルトニアンから対角長距離オーダー:第2量子化におけるムーア・リードと関連する状態 From frustration-free parent Hamiltonians to off-diagonal long-range order: Moore-Read and related states in second quantization ( http://arxiv.org/abs/2305.09286v1 ) ライセンス: Link先を確認 | Fanmao Zhang, Matheus Schossler, Alexander Seidel, Li Chen | (参考訳) ムーア・リーディング・ファフィアン状態に対する再帰的第二量子化公式を構築する。
多項式クラスタリング特性に訴えることなく,フラストレーションのない親ハミルトニアンの存在を直接証明することにより,このような二次量子化プレゼンテーションの有用性を示す。
さらに、この定式化がムーア・リード状態の非局所順序パラメータの存在とどのように結びついているかを示し、後者がこれらの量において非対角長距離順序を示すことを示す。
また、フェミオン性アンチ・ファフィアン状態とPH-ファフィアン状態の類似した第2量子化プレゼンテーションも開発した。 We construct a recursive second-quantized formula for Moore-Read Pfaffian states. We demonstrate the utility of such second-quantized presentations by directly proving the existence of frustration-free parent Hamiltonians, without appealing to polynomial clustering properties. Furthermore, we show how this formalism is connected to the existence of a non-local order parameter for Moore-Read states and give a proof that the latter exhibit off-diagonal long-range order in these quantities. We also develop a similar second-quantized presentation for the fermionic anti- and PH-Pfaffian states. | 翻訳日:2023-05-17 15:35:11 公開日:2023-05-16 |
# フェイスアンチスプーフィングのための潜伏分布調整 Latent Distribution Adjusting for Face Anti-Spoofing ( http://arxiv.org/abs/2305.09285v1 ) ライセンス: Link先を確認 | Qinghong Sun, Zhenfei Yin, Yichao Wu, Yuanhan Zhang, Jing Shao | (参考訳) 深層学習の発展に伴い、対面反偽造(FAS)の分野は大きな進歩を目の当たりにした。
FASは通常分類問題と見なされ、各クラスはソフトマックスロスによって最適化された単一のクラスタを含むと仮定される。
実際の展開では、1つのクラスは複数のローカルクラスタを含むことができ、単一のセンタはFASデータ固有の構造をキャプチャするには不十分である。
しかし、FASの分野における大きな分布差を考慮するアプローチはほとんどない。
本研究では,複数のプロトタイプを用いて複雑なデータ分布を調整することにより,FASモデルのロバスト性を改善するために,潜在性,識別性,適応性,汎用性を備えたLDA(Latent Distribution Adjusting)という統合フレームワークを提案する。
1)潜伏。
LDAは各クラスのデータをガウス混合分布としてモデル化し、最後の完全連結層において各クラスのフレキシブルな数のセンターを取得する。
2)差別的。
クラス内コンパクト性とクラス間不一致性を高めるため,プロトタイプ学習のための分布制約を提供するためのマージンベース損失を提案する。
3)適応性。
LDAをより効率的にし、冗長パラメータを減らすために、異なる分布に応じて適切な中心数を選択することで適応型プロトタイプ選択(APS)を提案する。
4)ジェネリック。
さらに、ldaは再訓練することなく、非常に少ないトレーニングデータを利用することで、未発見の分布に適応することができる。
広範な実験によって 我々のフレームワークが
1) クラス内コンパクトかつクラス間分離性の両方を最終表現空間とする。
2) 複数の標準FASベンチマークにおける最先端手法よりも優れていた。 With the development of deep learning, the field of face anti-spoofing (FAS) has witnessed great progress. FAS is usually considered a classification problem, where each class is assumed to contain a single cluster optimized by softmax loss. In practical deployment, one class can contain several local clusters, and a single-center is insufficient to capture the inherent structure of the FAS data. However, few approaches consider large distribution discrepancies in the field of FAS. In this work, we propose a unified framework called Latent Distribution Adjusting (LDA) with properties of latent, discriminative, adaptive, generic to improve the robustness of the FAS model by adjusting complex data distribution with multiple prototypes. 1) Latent. LDA attempts to model the data of each class as a Gaussian mixture distribution, and acquire a flexible number of centers for each class in the last fully connected layer implicitly. 2) Discriminative. To enhance the intra-class compactness and inter-class discrepancy, we propose a margin-based loss for providing distribution constrains for prototype learning. 3) Adaptive. To make LDA more efficient and decrease redundant parameters, we propose Adaptive Prototype Selection (APS) by selecting the appropriate number of centers adaptively according to different distributions. 4) Generic. Furthermore, LDA can adapt to unseen distribution by utilizing very few training data without re-training. Extensive experiments demonstrate that our framework can 1) make the final representation space both intra-class compact and inter-class separable, 2) outperform the state-of-the-art methods on multiple standard FAS benchmarks. | 翻訳日:2023-05-17 15:34:59 公開日:2023-05-16 |
# 低ランク共変量近似による変量誤差fr\'echet回帰 Errors-in-variables Fr\'echet Regression with Low-rank Covariate Approximation ( http://arxiv.org/abs/2305.09282v1 ) ライセンス: Link先を確認 | Kyunghee Han and Dogyoon Song | (参考訳) fr\'echet回帰は非ユークリッド応答変数を含む回帰分析に有望なアプローチとして現れた。
しかし、その実用的適用性は、豊富でノイズのない共変量データを持つ理想的なシナリオに依存することによって妨げられている。
本稿では,共変量行列に内在する低ランク構造を活用し,これらの制約に対処する新しい推定手法を提案する。
提案手法は,大域的Fr'echet回帰と主成分回帰の概念を組み合わせて,回帰推定器の効率と精度の向上を目的とする。
低ランク構造を取り入れることで、特に高次元および誤差不変回帰設定において、より効率的なモデリングと推定が可能となる。
提案した推定器の大サンプル特性の理論的解析を行い, 偏差, 分散, および測定誤差による追加変動の包括的解析を行った。
さらに, 数値実験により, 理論的な知見を裏付ける実証的なエビデンスを与え, 提案手法の優れた性能を示す。
全体として、この研究は非ユークリッド変数の回帰分析のための有望なフレームワークを導入し、様々な分野の潜在的な応用とともに、限定的でノイズの多い共変量データに関連する課題に効果的に対処する。 Fr\'echet regression has emerged as a promising approach for regression analysis involving non-Euclidean response variables. However, its practical applicability has been hindered by its reliance on ideal scenarios with abundant and noiseless covariate data. In this paper, we present a novel estimation method that tackles these limitations by leveraging the low-rank structure inherent in the covariate matrix. Our proposed framework combines the concepts of global Fr\'echet regression and principal component regression, aiming to improve the efficiency and accuracy of the regression estimator. By incorporating the low-rank structure, our method enables more effective modeling and estimation, particularly in high-dimensional and errors-in-variables regression settings. We provide a theoretical analysis of the proposed estimator's large-sample properties, including a comprehensive rate analysis of bias, variance, and additional variations due to measurement errors. Furthermore, our numerical experiments provide empirical evidence that supports the theoretical findings, demonstrating the superior performance of our approach. Overall, this work introduces a promising framework for regression analysis of non-Euclidean variables, effectively addressing the challenges associated with limited and noisy covariate data, with potential applications in diverse fields. | 翻訳日:2023-05-17 15:34:34 公開日:2023-05-16 |
# ジム符号のレンズによるNLPのバイアスの起源について On the Origins of Bias in NLP through the Lens of the Jim Code ( http://arxiv.org/abs/2305.09281v1 ) ライセンス: Link先を確認 | Fatma Elsafoury, Gavin Abercrombie | (参考訳) 本稿では,現在の自然言語処理(NLP)モデルにおけるバイアスを,過去500年間の人種差別,性差別,ホモフォビアの起源に遡る。
我々は,批判的人種理論,ジェンダー研究,データ倫理学,デジタル人文科学研究の文献をレビューし,これらの社会科学の観点からnlpモデルにおけるバイアスの起源を要約する。
NLPパイプラインのバイアスの原因が社会問題にどのように根ざしているかを示す。
最後に、NLPのバイアスと不公平性を修正する唯一の方法は、そもそもそれらを引き起こした社会問題に対処し、NLPモデルにおけるバイアスを軽減するために社会科学や社会科学者を取り入れることである。
我々は,nlp研究コミュニティに対して,行動可能な勧告を行う。 In this paper, we trace the biases in current natural language processing (NLP) models back to their origins in racism, sexism, and homophobia over the last 500 years. We review literature from critical race theory, gender studies, data ethics, and digital humanities studies, and summarize the origins of bias in NLP models from these social science perspective. We show how the causes of the biases in the NLP pipeline are rooted in social issues. Finally, we argue that the only way to fix the bias and unfairness in NLP is by addressing the social problems that caused them in the first place and by incorporating social sciences and social scientists in efforts to mitigate bias in NLP models. We provide actionable recommendations for the NLP research community to do so. | 翻訳日:2023-05-17 15:34:14 公開日:2023-05-16 |
# BERTTM:ニューラルネットワークモデリングのための事前学習言語モデルからの文脈付き単語埋め込みの活用 BERTTM: Leveraging Contextualized Word Embeddings from Pre-trained Language Models for Neural Topic Modeling ( http://arxiv.org/abs/2305.09329v1 ) ライセンス: Link先を確認 | Zheng Fang, Yulan He and Rob Procter | (参考訳) 近年のニューラルトピックモデルの発展に伴い、トピックモデリングは自然言語理解においてますます重要な役割を担っている。
しかしながら、既存のトピックモデルのほとんどは、トレーニング入力やトレーニングターゲットとして、Backer-of-words (BoW)情報に依存している。
これにより、文書内の単語の順序情報をキャプチャする能力が制限され、語彙外問題(OOV)に悩まされる。
事前学習された言語モデルからの文脈的単語埋め込みは、単語感覚の曖昧さの能力において優位性を示し、OOV語を扱うのに有効であることを示す。
本研究では,事前学習した言語モデルBERTの文脈的単語埋め込みを組み合わせたニューラルトピックモデルを開発した。
モデルは、BoW情報を使わずに文書のトピック分布を推測することができる。
さらに、文脈化された単語埋め込みから直接文書内の各単語の話題分布を推測することができる。
いくつかのデータセットに対する実験により,本モデルは文書分類とトピックコヒーレンス指標の両方の観点から既存のトピックモデルよりも優れており,新たに到着した文書から目に見えない単語を収容できることがわかった。
また,NERデータセットを用いた実験により,高品質な単語トピック表現を生成できることを示した。 With the development of neural topic models in recent years, topic modelling is playing an increasingly important role in natural language understanding. However, most existing topic models still rely on bag-of-words (BoW) information, either as training input or training target. This limits their ability to capture word order information in documents and causes them to suffer from the out-of-vocabulary (OOV) issue, i.e. they cannot handle unobserved words in new documents. Contextualized word embeddings from pre-trained language models show superiority in the ability of word sense disambiguation and prove to be effective in dealing with OOV words. In this work, we developed a novel neural topic model combining contextualized word embeddings from the pre-trained language model BERT. The model can infer the topic distribution of a document without using any BoW information. In addition, the model can infer the topic distribution of each word in a document directly from the contextualized word embeddings. Experiments on several datasets show that our model outperforms existing topic models in terms of both document classification and topic coherence metrics and can accommodate unseen words from newly arrived documents. Experiments on the NER dataset also show that our model can produce high-quality word topic representations. | 翻訳日:2023-05-17 15:29:06 公開日:2023-05-16 |
# congruent deep learning modelを用いたiii型太陽電波バースト検出の改良 Improved Type III solar radio burst detection using congruent deep learning models ( http://arxiv.org/abs/2305.09327v1 ) ライセンス: Link先を確認 | Jeremiah Scully, Ronan Flynn, Peter Gallagher, Eoin Carley, Mark Daly | (参考訳) 太陽フレア (solar flare) は、しばしば太陽電波バースト (solar radio bursts, srbs) と結びつく太陽大気中のエネルギーイベントである。
SRBは測度からデカメトリック波長で観測され、ダイナミックスペクトルのシグネチャに基づいて5つのスペクトルクラス(タイプI-V)に分類される。
SRBの自動検出と分類は、その不均一性のため課題である。
近年では、LOFAR(Low Frequency ARray)のような先進電波望遠鏡によって生成される大きなデータ率により、SRBの準リアルタイム検出と分類が求められている。
本研究では,iii型srbの自動検出と分類を行うため,合同型深層学習モデルを実装した。
本研究は,gan(generative adversarial network)として知られる深層学習法を用いて,実観測で見られるiii型と同等のシミュレーションiii型srbを作成した。
このシミュレーションデータは、LOFARからの観測と組み合わせて、YOLOv2(You Only Look Once)として知られるオブジェクト検出モデルのトレーニングに使用されたトレーニングセットを生成する。
この合同深層学習モデルシステムを用いて,平均平均精度77.71%でIII型SRBを正確に検出できる。 Solar flares are energetic events in the solar atmosphere that are often linked with solar radio bursts (SRBs). SRBs are observed at metric to decametric wavelengths and are classified into five spectral classes (Type I--V) based on their signature in dynamic spectra. The automatic detection and classification of SRBs is a challenge due to their heterogeneous form. Near-realtime detection and classification of SRBs has become a necessity in recent years due to large data rates generated by advanced radio telescopes such as the LOw Frequency ARray (LOFAR). In this study, we implement congruent deep learning models to automatically detect and classify Type III SRBs. We generated simulated Type III SRBs, which were comparable to Type IIIs seen in real observations, using a deep learning method known as Generative Adversarial Network (GAN). This simulated data was combined with observations from LOFAR to produce a training set that was used to train an object detection model known as YOLOv2 (You Only Look Once). Using this congruent deep learning model system, we can accurately detect Type III SRBs at a mean Average Precision (mAP) value of 77.71%. | 翻訳日:2023-05-17 15:28:44 公開日:2023-05-16 |
# 開量子系における熱貯水池モデルの保存則 Conservation Laws for a Thermal Reservoir Model in Open Quantum Systems ( http://arxiv.org/abs/2305.09326v1 ) ライセンス: Link先を確認 | Muhammad Al-Zafar Khan, Mervlyn Moodley, Francesco Petruccione | (参考訳) 我々はゴリーニ-コサコフスキー-スダルシャン-リンドブラッド方程式の特定の場合に対する非ネーター的アプローチを用いて、非相対論的自由粒子を熱貯留環境下で研究するために再キャストされたリー点対称性、閉形式解および保存則を構築した。
その後、イブラギモフ法を用いて運動方程式の随伴形式に対する解として、対応するスカラー対称性を用いて保存則を構築する。
全ての保存ベクトルを得るための一般的な計算枠組みが示され、保存量三重項が完全に計算される。 We construct Lie point symmetries, a closed-form solution and conservation laws using a non-Noetherian approach for a specific case of the Gorini-Kossakowski-Sudarshan-Lindblad equation that has been recast for the study of non-relativistic free particles in a thermal reservoir environment. Conservation laws are constructed subsequently using the Ibragimov method via a solution to the adjoint form of the equation of motion via its corresponding scalaing symmetry. A general computational framework for obtaining all conserved vectors is exhibited some triplets of conserved quantities are calculated in full. | 翻訳日:2023-05-17 15:28:25 公開日:2023-05-16 |
# 圧縮非マルコフ過程の非古典性 Non-classicality of squeezed non-Markovian processes ( http://arxiv.org/abs/2305.09323v1 ) ライセンス: Link先を確認 | Mehdi Abdi and Moslem Zarei | (参考訳) オープン量子系の力学における非古典的効果を研究する。
このモデルは、非相互作用の高調波発振器の貯留体に結合された高調波発振器を含む。
異なるシステム・バス相互作用スキームと貯水池状態が考慮される。
特に, 1 量子および 2 量子の交換プロセスによって系に結合された圧縮された貯水池をスポットライトに当てる。
異なる浴特性に対する非古典性尺度と記憶効果が認められる場合の計算により,浴槽を通してシステムへ伝達される量子性を調べる。
非古典性の尺度は、数状態基底と一連のコヒーレント状態によって形成された基底の両方において射影測定のために算出される。
その結果,両ベースにおいて,各浴状態とシステムとの相互作用形態に特徴的な特徴を示すことがわかった。
これらの特徴のいくつかは、測定スキーム(数またはコヒーレント)から独立しており、浴槽とプローブシステムとの相互作用から発せられる。
これにより、特定のプローブを適切な測定で追跡することで、環境効果を指紋で識別することができる。
したがって、異なるデコヒーレンス源を区別するのに有用である。 We study nonclassical effects in the dynamics of an open quantum system. The model involves a harmonic oscillator coupled to a reservoir of non-interacting harmonic oscillators. Different system-bath interaction schemes as well as reservoir states are considered. Particularly, the squeezed reservoirs coupled to the system through single and two quanta exchange processes are put in the spotlight. We investigate the quantumness conveyed to the system through the bath by computing a nonclassicality measure for different bath properties and when the memory effects are appreciable. The measure of nonclassicality is calculated for projective measurements both in the number state basis and a basis formed by a set of coherent states. Our results show that in both bases the measure exhibits characteristic features for each bath state and the form of its interaction with the system. Some of those features are independent from the measurement scheme (number or coherent), and thus, emergent from the bath and its interaction with the probe system. This allows for fingerprinting and identifying the environmental effects by tracking a given probe with appropriate measurements. Hence, may prove useful for distinguishing different sources of decoherence. | 翻訳日:2023-05-17 15:28:08 公開日:2023-05-16 |
# グラフ埋め込みを用いた長文文書からのキーフレーズ抽出の強化 Enhancing Keyphrase Extraction from Long Scientific Documents using Graph Embeddings ( http://arxiv.org/abs/2305.09316v1 ) ライセンス: Link先を確認 | Roberto Mart\'inez-Cruz, Debanjan Mahata, Alvaro J.L\'opez-L\'opez, Jos\'e Portela | (参考訳) 本研究では,グラフニューラルネットワーク(GNN)表現を用いて,長文からのキーフレーズ抽出のための事前学習言語モデル(PLM)の文脈化表現を強化する。
グラフ埋め込みによるplmの拡張は、特に長い文書において、文書中の単語をより包括的に意味的に理解する。
エッジ予測のタスクで学習したグラフ畳み込みネットワーク(gcn)を用いて,テキストの共起グラフを構築し,その埋め込みを行う。
グラフ表現を用いた文脈的PLM埋め込みを拡張可能なグラフ拡張シーケンスタギングアーキテクチャを提案する。
ベンチマークデータセットを評価した結果,グラフ埋め込みによるPLMの強化は,長文の最先端モデルよりも優れており,全データセットにおけるF1スコアの大幅な改善が示されている。
本研究は,長文からのキーフレーズ抽出におけるPLM性能向上のための補完的手法として,GNN表現の可能性を強調した。 In this study, we investigate using graph neural network (GNN) representations to enhance contextualized representations of pre-trained language models (PLMs) for keyphrase extraction from lengthy documents. We show that augmenting a PLM with graph embeddings provides a more comprehensive semantic understanding of words in a document, particularly for long documents. We construct a co-occurrence graph of the text and embed it using a graph convolutional network (GCN) trained on the task of edge prediction. We propose a graph-enhanced sequence tagging architecture that augments contextualized PLM embeddings with graph representations. Evaluating on benchmark datasets, we demonstrate that enhancing PLMs with graph embeddings outperforms state-of-the-art models on long documents, showing significant improvements in F1 scores across all the datasets. Our study highlights the potential of GNN representations as a complementary approach to improve PLM performance for keyphrase extraction from long documents. | 翻訳日:2023-05-17 15:27:41 公開日:2023-05-16 |
# ハイブリッド・コラボレーション・パスグレード Hybrid and Collaborative Passage Reranking ( http://arxiv.org/abs/2305.09313v1 ) ライセンス: Link先を確認 | Zongmeng Zhang, Wengang Zhou, Jiaxin Shi, Houqiang Li | (参考訳) 通過検索システムでは、初期通過検索結果が不満足な場合があり、再順位方式で洗練することができる。
既存のパスリグレードのソリューションは、クエリと各パス間のインタラクションを個別に強化することに集中し、初期検索リストの上位のパス間のコンテキストを無視する。
そこで本研究では,上流レトリバーの実質的類似度測定を経路協調に活用し,疎密レトリバーの語彙的・意味的特性を組み込んだハイブリッド・コラボレーティブ・コントリビュート・リカウンド(hybrank)手法を提案する。
既製のレトリバー機能に加えて、HybRankは以前のリランクを含む任意のパスリストを拡張可能なプラグインリランカである。
広範囲な実験により、一般的な検索および再ランキング法よりも安定した性能改善が実証され、hybrankのコアコンポーネントの有効性が検証された。 In passage retrieval system, the initial passage retrieval results may be unsatisfactory, which can be refined by a reranking scheme. Existing solutions to passage reranking focus on enriching the interaction between query and each passage separately, neglecting the context among the top-ranked passages in the initial retrieval list. To tackle this problem, we propose a Hybrid and Collaborative Passage Reranking (HybRank) method, which leverages the substantial similarity measurements of upstream retrievers for passage collaboration and incorporates the lexical and semantic properties of sparse and dense retrievers for reranking. Besides, built on off-the-shelf retriever features, HybRank is a plug-in reranker capable of enhancing arbitrary passage lists including previously reranked ones. Extensive experiments demonstrate the stable improvements of performance over prevalent retrieval and reranking methods, and verify the effectiveness of the core components of HybRank. | 翻訳日:2023-05-17 15:27:05 公開日:2023-05-16 |
# ゼロショットニューラルマシン翻訳における層正規化の影響を探る Exploring the Impact of Layer Normalization for Zero-shot Neural Machine Translation ( http://arxiv.org/abs/2305.09312v1 ) ライセンス: Link先を確認 | Zhuoyuan Mao, Raj Dabre, Qianying Liu, Haiyue Song, Chenhui Chu, Sadao Kurohashi | (参考訳) 本稿ではゼロショット翻訳(ZST)における層正規化(LayerNorm)の影響について検討する。
ZSTの最近の取り組みはTransformerアーキテクチャをバックボーンとして利用することが多く、LayerNormはデフォルトのレイヤ(PreNorm)を入力している。
しかしながら、Xu et al. (2019) は、PreNormがトレーニングデータを過度に適合させるリスクを持っていることを明らかにした。
これに基づいて、PreNormは教師付き方向を過度に最適化し、ZSTの一般化性が低いと仮定する。
OPUS、IWSLT、Europarlのデータセットを54ZST方向で実験した結果、残留接続(PostNorm)後のLayerNormのトランスフォーマー設定が、最大12.3BLEUポイントのPreNormを一貫して上回ることを示した。
次に,PreNormとPostNormのオフターゲットレートと構造変化の違いを分析し,性能格差について検討する。
本研究では、ZSTのLayerNorm設定を慎重に検討する必要があることを明らかにする。 This paper studies the impact of layer normalization (LayerNorm) on zero-shot translation (ZST). Recent efforts for ZST often utilize the Transformer architecture as the backbone, with LayerNorm at the input of layers (PreNorm) set as the default. However, Xu et al. (2019) has revealed that PreNorm carries the risk of overfitting the training data. Based on this, we hypothesize that PreNorm may overfit supervised directions and thus have low generalizability for ZST. Through experiments on OPUS, IWSLT, and Europarl datasets for 54 ZST directions, we demonstrate that the original Transformer setting of LayerNorm after residual connections (PostNorm) consistently outperforms PreNorm by up to 12.3 BLEU points. We then study the performance disparities by analyzing the differences in off-target rates and structural variations between PreNorm and PostNorm. This study highlights the need for careful consideration of the LayerNorm setting for ZST. | 翻訳日:2023-05-17 15:26:28 公開日:2023-05-16 |
# 二重縦モードキャビティオメカニカルシステムに基づく多部共役状態の生成 二重縦モードキャビティオメカニカルシステムに基づく多部共役状態の生成 Generation of multipartite entangled states based on double-longitudinal-mode cavity optomechanial systemGeneration of multipartite entangled states based on double-longitudinal-mode cavity optomechanial system ( http://arxiv.org/abs/2305.09311v1 ) ライセンス: Link先を確認 | Xiaomin Liu, RongGuo Yang, Jing Zhang, and Tiancai Zhang | (参考訳) オプトメカニカルシステムは量子ネットワークの異なる音符を接続するための有望なプラットフォームであるため、そこから生じる絡み合いも非常に重要である。
本稿では,2次元モード共振器オプティメカルシステムから発生する光学的・光学的エンタングルメントのパラメータ依存性を考察し,そのようなシステムに基づく2つの四角形エンタングルメント生成手法を提案する。
さらに、2Nまたは4N粒子の絡み合い状態は、N粒子とN-1ビームスプリッター(BS)を結合することで得ることができ、これらのスキームは、絡み合いの数を増やすためにスケーラブルである。
ある種のラダーや線形構造は最終的に得られた絡み合い構造に含まれており、将来量子コンピューティングや量子ネットワークにも応用できる。 Optomechanical system is a promising platform to connect different notes of quantum networks, therefore, entanglement generated from it is also of great importance. In this paper, the parameter dependence of optomechanical and optical-optical entanglements generated from the double-longitudinal-mode cavity optomechanical system are discussed and two quadrapartite entanglement generation schemes based on such a system are proposed. Furthermore, 2N or 4N-partite entangled states can be obtained by coupling N cavities with N-1 beamsplitter(BS)s, and these schemes are scalable in increasing the partite number of entanglement. Certain ladder or linear structures are contained in the finally obtained entanglement structure, which can be applied in quantum computing or quantum networks in the future. | 翻訳日:2023-05-17 15:26:08 公開日:2023-05-16 |
# 渡辺・佐川・上田関係の無限次元系への拡張 Extension of the Watanabe-Sagawa-Ueda uncertainty relations to infinite-dimensional systems ( http://arxiv.org/abs/2305.09309v1 ) ライセンス: Link先を確認 | Ryosuke Nogami | (参考訳) 渡辺・佐川・上田は、量子推定理論とエラー・エラー・ディクタンス型の不等式に基づく有限次元系の測定により観測可能な観測値の測定誤差と観測可能な観測値の乱れを定義した。
本稿では, 渡辺-佐川-上田の不確かさ関係をfr\'echet微分を用いた無限次元系に拡張する。
古典的推定理論と量子推定理論を示し、どちらも無限次元のパラメータ空間に対して定式化されている。
導出法の改良により、結果として生じる不確実性関係の不等式は元のものよりも厳密になる。 Watanabe, Sagawa, and Ueda defined the measurement error of an observable and the disturbance to an observable by measurements for finite-dimensional systems on the basis of quantum estimation theory and derived uncertainty relation inequalities of error-error and error-disturbance types. This paper extend the Watanabe-Sagawa-Ueda uncertainty relations to infinite-dimensional systems employing the Fr\'echet derivative. We present a classical estimation theory and a quantum estimation theory, both of which are formulated for parameter spaces of infinite dimensions. An improvement in the derivation method makes the resulting uncertainty relation inequalities tighter than original ones. | 翻訳日:2023-05-17 15:25:51 公開日:2023-05-16 |
# 入力勾配蒸留によるl_{\infty}$-adversarial trainingにおける不等式現象の放出 Releasing Inequlity Phenomena in $L_{\infty}$-Adversarial Training via Input Gradient Distillation ( http://arxiv.org/abs/2305.09305v1 ) ライセンス: Link先を確認 | Junxi Chen, Junhao Dong, Xiaohua Xie | (参考訳) 敵の例が出現し, DNNにたらされた破滅的な劣化を示すことから, 多くの敵の防御法が考案され, 敵の訓練が最も効果的と考えられる。
しかし、最近の研究は、$l_{\infty}$-adversarial trainingにおける不等式現象を示し、$l_{\infty}$-adversarially trained modelは、いくつかの重要なピクセルがノイズや閉塞によって乱されるときに脆弱であることを示した。
本稿では,$l_{\infty}$-adversarial trainingにおける不等式現象を解放するために,入力勾配蒸留と呼ばれる簡便かつ効果的な方法を提案する。
実験により、モデルの対向的ロバスト性を維持する一方で、入力勾配蒸留はモデルのロバスト性を改善する。
さらに,モデルの塩分マップの等式が,騒音や咬合に対するモデルのロバスト性を向上させる理由を形式的に説明する。
Github:https://github.com/fhdnskfbeuv/Inuput-Gradient-Distillation Since adversarial examples appeared and showed the catastrophic degradation they brought to DNN, many adversarial defense methods have been devised, among which adversarial training is considered the most effective. However, a recent work showed the inequality phenomena in $l_{\infty}$-adversarial training and revealed that the $l_{\infty}$-adversarially trained model is vulnerable when a few important pixels are perturbed by i.i.d. noise or occluded. In this paper, we propose a simple yet effective method called Input Gradient Distillation to release the inequality phenomena in $l_{\infty}$-adversarial training. Experiments show that while preserving the model's adversarial robustness, Input Gradient Distillation improves the model's robustness to i.i.d. noise and occlusion. Moreover, we formally explain why the equality of the model's saliency map can improve the model's robustness to i.i.d. noise or occlusion. Github:https://github.com/fhdnskfbeuv/Inuput-Gradient-Distillation | 翻訳日:2023-05-17 15:25:37 公開日:2023-05-16 |
# ウェアラブル運動センサを用いた自動幼児運動分類のための自己指導型事前学習の評価 Evaluation of self-supervised pre-training for automatic infant movement classification using wearable movement sensors ( http://arxiv.org/abs/2305.09366v1 ) ライセンス: Link先を確認 | Einari Vaaras, Manu Airaksinen, Sampsa Vanhatalo, Okko R\"as\"anen | (参考訳) 最近開発された乳幼児ウェアラブルMAIJUは、幼児の運動能力を自動的に客観的かつスケーラブルに評価する手段を提供する。
この情報は、発達研究や、発達障害の検出や治療介入の指導など、臨床的な意思決定を支援するために使用できる。
MAIJUに基づく分析は,幼児の姿勢と運動の分類に完全に依存しており,自動分析の信頼性と堅牢性を高めるために,これらの分類の精度を高める方法を研究することが不可欠である。
そこで本研究では, 自己教師付き事前学習が, マイジュー記録解析に用いる分類器の性能をいかに向上させるかを検討した。
私たちの実験は
一 ラベルのないデータによる分類器の事前訓練は、その後の分類モデルの堅牢な精度向上に繋がる。
二 コンテキスト関連事前学習データの選択は、分類器の性能を更に向上させる。 The recently-developed infant wearable MAIJU provides a means to automatically evaluate infants' motor performance in an objective and scalable manner in out-of-hospital settings. This information could be used for developmental research and to support clinical decision-making, such as detection of developmental problems and guiding of their therapeutic interventions. MAIJU-based analyses rely fully on the classification of infant's posture and movement; it is hence essential to study ways to increase the accuracy of such classifications, aiming to increase the reliability and robustness of the automated analysis. Here, we investigated how self-supervised pre-training improves performance of the classifiers used for analyzing MAIJU recordings, and we studied whether performance of the classifier models is affected by context-selective quality-screening of pre-training data to exclude periods of little infant movement or with missing sensors. Our experiments show that i) pre-training the classifier with unlabeled data leads to a robust accuracy increase of subsequent classification models, and ii) selecting context-relevant pre-training data leads to substantial further improvements in the classifier performance. | 翻訳日:2023-05-17 15:18:31 公開日:2023-05-16 |
# GIFT:多人数会話理解のためのグラフ誘発微調整 GIFT: Graph-Induced Fine-Tuning for Multi-Party Conversation Understanding ( http://arxiv.org/abs/2305.09360v1 ) ライセンス: Link先を確認 | Jia-Chen Gu, Zhen-Hua Ling, Quan Liu, Cong Liu, Guoping Hu | (参考訳) マルチパーティ会話(MPC)で誰に何を言ったかという問題に、最近多くの研究が注目されている。
しかしながら、mpc理解の既存の手法では、通常、インターロカクタや発話を逐次情報フローに埋め込むか、mpcの固有グラフ構造の表面のみを利用する。
そこで本研究では,汎用MPC理解のためのトランスフォーマーベース事前学習言語モデル(PLM)に適応可能な,グラフ誘発微調整(GIFT)という,プラグアンドプレイで軽量な手法を提案する。
詳しくは、正規トランスフォーマーにおける発話間の完全かつ等価な接続は、mpcにおける発話のばらばらだが独特の依存を無視する。
発話間の異なる関係を区別するために、4種類のエッジがグラフ誘起信号を注意機構に統合し、もともとシーケンシャルテキストを処理するために設計されたPLMを洗練するように設計されている。
ギフトを3つのplmに実装して評価し,入力者認識,話者識別,応答選択という3つの下流タスクのパフォーマンスをテストした。
実験の結果,3つの下流タスクにおける3つのPLMと2つのベンチマークにおいて,符号化層当たり4つのパラメータしか持たない結果が得られた。 Addressing the issues of who saying what to whom in multi-party conversations (MPCs) has recently attracted a lot of research attention. However, existing methods on MPC understanding typically embed interlocutors and utterances into sequential information flows, or utilize only the superficial of inherent graph structures in MPCs. To this end, we present a plug-and-play and lightweight method named graph-induced fine-tuning (GIFT) which can adapt various Transformer-based pre-trained language models (PLMs) for universal MPC understanding. In detail, the full and equivalent connections among utterances in regular Transformer ignore the sparse but distinctive dependency of an utterance on another in MPCs. To distinguish different relationships between utterances, four types of edges are designed to integrate graph-induced signals into attention mechanisms to refine PLMs originally designed for processing sequential texts. We evaluate GIFT by implementing it into three PLMs, and test the performance on three downstream tasks including addressee recognition, speaker identification and response selection. Experimental results show that GIFT can significantly improve the performance of three PLMs on three downstream tasks and two benchmarks with only 4 additional parameters per encoding layer, achieving new state-of-the-art performance on MPC understanding. | 翻訳日:2023-05-17 15:18:12 公開日:2023-05-16 |
# ニュースからの因果知識グラフの構築と解釈 Constructing and Interpreting Causal Knowledge Graphs from News ( http://arxiv.org/abs/2305.09359v1 ) ライセンス: Link先を確認 | Fiona Anting Tan, Debdeep Paul, Sahim Yamaura, Miura Koji, See-Kiong Ng | (参考訳) 多くの仕事は、過去と現在における因果関係について学ぶためにニュースに頼り、将来についての情報的な決定と予測を行う。
インターネット上のニュースやテキストの量が増え続ける中、構造化されていないテキストから因果イベントの抽出を自動化する必要がある。
本研究では,(1)因果関係の抽出,(2)因果関係の抽出,(2)論点クラスタリングと表現の2つのステップを用いて,ニュースから因果知識グラフ(KG)を構築する手法を提案する。
我々は,リコール,正確性,解釈性を重視したグラフの構築を目指している。
抽出には、多くの初期の研究がすでにテキストから因果KGを構築しているが、多くは初歩的なパターンベースの手法を採用している。
最新のBERTベースの抽出モデルとパターンベースの抽出モデルを用いて、このギャップを埋める。
その結果,高い精度を維持しながら,高いリコールを達成できた。
クラスタリングのために、引数をクラスタ化するためにトピックモデリングアプローチを利用して、グラフの接続性を高めました。
その結果,15,686個の非連結グラフの代わりに,ユーザがより因果関係を推測できる1つの連結グラフが得られた。
最終kgは,複数のユースケースとユーザからのフィードバックによって検証された因果関係を効果的に捉え,伝達する。 Many jobs rely on news to learn about causal events in the past and present, to make informed decisions and predictions about the future. With the ever-increasing amount of news and text available on the internet, there is a need to automate the extraction of causal events from unstructured texts. In this work, we propose a methodology to construct causal knowledge graphs (KGs) from news using two steps: (1) Extraction of Causal Relations, and (2) Argument Clustering and Representation into KG. We aim to build graphs that emphasize on recall, precision and interpretability. For extraction, although many earlier works already construct causal KGs from text, most adopt rudimentary pattern-based methods. We close this gap by using the latest BERT-based extraction models alongside pattern-based ones. As a result, we achieved a high recall, while still maintaining a high precision. For clustering, we utilized a topic modelling approach to cluster our arguments, so as to increase the connectivity of our graph. As a result, instead of 15,686 disconnected subgraphs, we were able to obtain 1 connected graph that enables users to infer more causal relationships from. Our final KG effectively captures and conveys causal relationships, validated through multiple use cases and user feedback. | 翻訳日:2023-05-17 15:17:49 公開日:2023-05-16 |
# 変圧器予測誤差マップと知覚的品質トークンによるブラインド画像品質評価 Blind Image Quality Assessment via Transformer Predicted Error Map and Perceptual Quality Token ( http://arxiv.org/abs/2305.09353v1 ) ライセンス: Link先を確認 | Jinsong Shi, Pan Gao, Aljosa Smolic | (参考訳) 画像品質評価は画像処理の分野における根本的な問題であり,ほとんどのシナリオにおいて参照画像が不足しているため,非参照画像品質評価(NR-IQA)が近年注目されている。
深層学習技術の発展に伴い,データベース情報の理解に基づいて画像品質を学習する深層ニューラルネットワークを用いたnr-iqa手法が数多く開発されている。
現在、トランスフォーマーは様々な視覚タスクで顕著な進歩を遂げている。
トランスフォーマーの注意機構の特徴は人間の知覚する人工物の世界的知覚的影響に適合するため,画像品質評価タスクには適している。
本稿では,予測対象エラーマップと知覚的品質トークンを用いたトランスフォーマティブベースのnr-iqaモデルを提案する。
具体的には、まず、歪みと基準画像との客観的な差を監督として用いるトランスエンコーダとデコーダからなる1つのモデルを事前訓練して予測誤差マップを生成する。
そして,事前学習したモデルのパラメータを凍結し,視覚変換器を用いて他の分岐を設計し,予測誤差マップと特徴融合するための知覚的品質トークンを抽出する。
最後に、融合した機能は最終的な画質スコアに回帰される。
大規模な実験により,提案手法は, 画像データベースと合成画像データベースの両方において, 現状よりも優れていた。
さらに、知覚的品質トークンによって抽出された注意マップも、人間の視覚システムの特徴に適合する。 Image quality assessment is a fundamental problem in the field of image processing, and due to the lack of reference images in most practical scenarios, no-reference image quality assessment (NR-IQA), has gained increasing attention recently. With the development of deep learning technology, many deep neural network-based NR-IQA methods have been developed, which try to learn the image quality based on the understanding of database information. Currently, Transformer has achieved remarkable progress in various vision tasks. Since the characteristics of the attention mechanism in Transformer fit the global perceptual impact of artifacts perceived by a human, Transformer is thus well suited for image quality assessment tasks. In this paper, we propose a Transformer based NR-IQA model using a predicted objective error map and perceptual quality token. Specifically, we firstly generate the predicted error map by pre-training one model consisting of a Transformer encoder and decoder, in which the objective difference between the distorted and the reference images is used as supervision. Then, we freeze the parameters of the pre-trained model and design another branch using the vision Transformer to extract the perceptual quality token for feature fusion with the predicted error map. Finally, the fused features are regressed to the final image quality score. Extensive experiments have shown that our proposed method outperforms the current state-of-the-art in both authentic and synthetic image databases. Moreover, the attentional map extracted by the perceptual quality token also does conform to the characteristics of the human visual system. | 翻訳日:2023-05-17 15:17:28 公開日:2023-05-16 |
# オープンマルチエージェントシステムにおける共有クエリ理解の構築 Establishing Shared Query Understanding in an Open Multi-Agent System ( http://arxiv.org/abs/2305.09349v1 ) ライセンス: Link先を確認 | Nikolaos Kondylidis, Ilaria Tiddi and Annette ten Teije | (参考訳) 本研究では,協調を要するタスクを実行するために,2つのエージェント間の共通理解を開発する手法を提案する。
本手法は,オープンマルチエージェントシステムにおいて,エージェントが相互に何の知識も持たず,接地的相互作用によってのみ通信可能なタスク指向コミュニケーションを効率的に確立することに焦点を当てる。
この方法は、人間と機械の相互作用や、ループ内の人間を必要とするシナリオに取り組む研究者を支援することを目的としている。
そのために、このような(多種多様な)セットアップの課題と限界を指摘するとともに、高いタスクパフォーマンスがエージェント同士が正しく理解している範囲を真に反映することを保証するための制約と要件も指摘する。
さらに,協調的な問合せ応答のタスクに対して,本手法を適用可能なユースケースを示す。
我々は、確立したオントロジーアライメントベンチマークを変更することで実験を設計する。
この例では、エージェントは互いに問い合わせをしたいが、異なるデータベースを表現し、異なる知識と不完全な知識を含む独自のオントロジーで定義する。
ここでの接地相互作用は、エージェントが同様の知識を持つと予想される一般的な例からなる例の形式を持つ。
本実験は,要求された制約下でのコミュニケーションの確立を成功させ,その課題を効率的に解決するためのエージェントポリシーを比較した。 We propose a method that allows to develop shared understanding between two agents for the purpose of performing a task that requires cooperation. Our method focuses on efficiently establishing successful task-oriented communication in an open multi-agent system, where the agents do not know anything about each other and can only communicate via grounded interaction. The method aims to assist researchers that work on human-machine interaction or scenarios that require a human-in-the-loop, by defining interaction restrictions and efficiency metrics. To that end, we point out the challenges and limitations of such a (diverse) setup, while also restrictions and requirements which aim to ensure that high task performance truthfully reflects the extent to which the agents correctly understand each other. Furthermore, we demonstrate a use-case where our method can be applied for the task of cooperative query answering. We design the experiments by modifying an established ontology alignment benchmark. In this example, the agents want to query each other, while representing different databases, defined in their own ontologies that contain different and incomplete knowledge. Grounded interaction here has the form of examples that consists of common instances, for which the agents are expected to have similar knowledge. Our experiments demonstrate successful communication establishment under the required restrictions, and compare different agent policies that aim to solve the task in an efficient manner. | 翻訳日:2023-05-17 15:17:05 公開日:2023-05-16 |
# 分布シフト検出に基づくディープニューラルネットワークのワンショットオンラインテスト One-Shot Online Testing of Deep Neural Networks Based on Distribution Shift Detection ( http://arxiv.org/abs/2305.09348v1 ) ライセンス: Link先を確認 | Soyed Tuhin Ahmed, Mehdi B. Tahoori | (参考訳) ニューラルネットワーク(NN)は、データの複雑なパターンや関係を学習し、高精度に予測し、様々なタスクに役立てることができる。
しかし、NNは計算集約的かつメモリ集約的な手法であり、エッジアプリケーションでは困難である。
NNにおいて最も一般的な演算(行列ベクトル乗算)を高速化するために、不揮発性メモリ(CiM)やメムリシブクロスバーなどのハードウェアアクセラレータアーキテクチャを利用する。
電力効率、並列性、非揮発性などの利点を提供するが、製造と寿命の両面で様々な欠点やバリエーションに悩まされている。
これは故障した計算につながり、結果として、安全クリティカルなアプリケーションを含む多くのアプリケーションでは受け入れられない、ポストマッピング推論の精度が低下する。
したがって、NNハードウェアアクセラレータの適切なテストが必要である。
本稿では,1つのテストベクタでNNを高速化し,オンラインテストアプリケーションに非常に適したテスト手法として,emph{one-shot}テスト手法を提案する。
当社のアプローチは、最大201ドルのレイヤとセマンティックセグメンテーションのような課題のあるタスクを持つ、いくつかの大きなトポロジにわたって、一貫して100~%の障害カバレッジを達成できます。
それでも、既存のメソッドと比較して、フォールトカバレッジは最大で24 %、メモリオーバーヘッドは0.0123$ MB、最大で19980\times$、テストベクタの数は10000\times$と改善されている。 Neural networks (NNs) are capable of learning complex patterns and relationships in data to make predictions with high accuracy, making them useful for various tasks. However, NNs are both computation-intensive and memory-intensive methods, making them challenging for edge applications. To accelerate the most common operations (matrix-vector multiplication) in NNs, hardware accelerator architectures such as computation-in-memory (CiM) with non-volatile memristive crossbars are utilized. Although they offer benefits such as power efficiency, parallelism, and nonvolatility, they suffer from various faults and variations, both during manufacturing and lifetime operations. This can lead to faulty computations and, in turn, degradation of post-mapping inference accuracy, which is unacceptable for many applications, including safety-critical applications. Therefore, proper testing of NN hardware accelerators is required. In this paper, we propose a \emph{one-shot} testing approach that can test NNs accelerated on memristive crossbars with only one test vector, making it very suitable for online testing applications. Our approach can consistently achieve $100\%$ fault coverage across several large topologies with up to $201$ layers and challenging tasks like semantic segmentation. Nevertheless, compared to existing methods, the fault coverage is improved by up to $24\%$, the memory overhead is only $0.0123$ MB, a reduction of up to $19980\times$ and the number of test vectors is reduced by $10000\times$. | 翻訳日:2023-05-17 15:16:42 公開日:2023-05-16 |
# \(\phi^{4}\)理論における自己相互作用スカラー場に対するソリトン解と保存則 Soliton Solutions and Conservation Laws for a Self-interacting Scalar Field in \(\phi^{4}\) Theory ( http://arxiv.org/abs/2305.09338v1 ) ライセンス: Link先を確認 | Muhammad Al-Zafar Khan, Mervlyn Moodley, Francesco Petruccione | (参考訳) 拡張双曲的接点と正コサイン法による場の量子論における4階拡張ラグランジアン(\(\phi^{4}\)理論)のために生じる運動のスカラー場方程式に対するソリトン解を計算する。
前者の手法では10個の複雑なソリトン波が得られ、密度プロットを用いて3つのプロファイルをグラフィカルに表現した。
後者の場合、2つの実ソリトン解が得られ、そのうちの1つは正の場合の波動プロファイルを示す。
乗算器法を用いて, 3, 6, 10 個の保存則をそれぞれ生成する \((1 + 1)\)-, \((2 + 1)\)-, \(3 + 1)\)-次元の保存則を計算する。
最後に、粒子物理学および現象学における保存則の適用について考察する。 We calculate soliton solutions to the scalar field equation of motion that arises for the 4th-order extended Lagrangian (\(\phi^{4}\) theory) in quantum field theory using the extended hyperbolic tangent and the sine-cosine methods. Using the former technique, ten complex soliton waves are obtained; we graphically represent three of these profiles using density plots. In the latter case, two real soliton solutions are obtained, of which, we demonstrate the wave profile for the positive case. Using the multiplier method, we calculate conservation laws in \((1 + 1)\)-, \((2 + 1)\)-, and \((3 + 1)\)-dimensions producing three, six, and ten conservation laws respectively. Lastly, we reflect on the application of conservation laws in particle physics and phenomenology. | 翻訳日:2023-05-17 15:16:13 公開日:2023-05-16 |
# msprompt: 複数ステップのプロンプト学習による最小ショットイベント検出 MsPrompt: Multi-step Prompt Learning for Debiasing Few-shot Event Detection ( http://arxiv.org/abs/2305.09335v1 ) ライセンス: Link先を確認 | Siyuan Wang, Jianming Zheng, Xuejun Hu, Fei Cai, Chengyu Song, Xueshan Luo | (参考訳) イベント検出(ed)は、構造化されていないテキスト中のキートリガワードを識別し、イベントタイプを予測することを目的としている。
従来のEDモデルは、ラベル付きデータの少ない実際のアプリケーションに対応するには、あまりにもデータ不足である。
さらに、典型的なEDモデルは、EDデータセットから生じるトリガーバイアスに起因するコンテキストバイパスと無効な一般化問題に直面している。
したがって、低リソースシナリオを満たすために、真のマイナショットパラダイムに焦点を合わせます。
In particular, we propose a multi-step prompt learning model (MsPrompt) for debiasing few-shot event detection, that consists of the following three components: an under-sampling module targeting to construct a novel training set that accommodates the true few-shot setting, a multi-step prompt module equipped with a knowledge-enhanced ontology to leverage the event semantics and latent prior knowledge in the PLMs sufficiently for tackling the context-bypassing problem, and a prototypical module compensating for the weakness of classifying events with sparse data and boost the generalization performance.
ace-2005 と fewevent の2つの公開データセットでの実験では、msprompt は最先端モデルよりも優れており、特に厳格な低リソースシナリオでは、最もパフォーマンスの高いベースラインに対して重み付けされた f1-score が11.43%改善され、優れたデバイアス性能を達成している。 Event detection (ED) is aimed to identify the key trigger words in unstructured text and predict the event types accordingly. Traditional ED models are too data-hungry to accommodate real applications with scarce labeled data. Besides, typical ED models are facing the context-bypassing and disabled generalization issues caused by the trigger bias stemming from ED datasets. Therefore, we focus on the true few-shot paradigm to satisfy the low-resource scenarios. In particular, we propose a multi-step prompt learning model (MsPrompt) for debiasing few-shot event detection, that consists of the following three components: an under-sampling module targeting to construct a novel training set that accommodates the true few-shot setting, a multi-step prompt module equipped with a knowledge-enhanced ontology to leverage the event semantics and latent prior knowledge in the PLMs sufficiently for tackling the context-bypassing problem, and a prototypical module compensating for the weakness of classifying events with sparse data and boost the generalization performance. Experiments on two public datasets ACE-2005 and FewEvent show that MsPrompt can outperform the state-of-the-art models, especially in the strict low-resource scenarios reporting 11.43% improvement in terms of weighted F1-score against the best-performing baseline and achieving an outstanding debiasing performance. | 翻訳日:2023-05-17 15:15:56 公開日:2023-05-16 |
# 画像のセマンティック・インフォメーション・ディスタングルのためのプロンプトを用いたマルチモーダル視覚理解 Multi-modal Visual Understanding with Prompts for Semantic Information Disentanglement of Image ( http://arxiv.org/abs/2305.09333v1 ) ライセンス: Link先を確認 | Yuzhou Peng | (参考訳) プロンプトによる画像のマルチモーダル視覚理解は、画像の意味理解を強化するために様々な視覚的およびテキスト的手がかりを使用する。
このアプローチは、視覚と言語処理を組み合わせることで、より正確な予測と画像認識を生成する。
プロンプトベースの技術を利用することで、モデルは画像の特定の特徴に焦点を合わせ、下流タスクに有用な情報を抽出することを学ぶことができる。
さらに、画像のより堅牢な表現を提供することにより、単一のモダリティモデルを改善することができる。
全体的に、視覚情報とテキスト情報の組み合わせは、画像認識と理解の進歩に有望な研究分野である。
本稿では,多くのプロンプト設計手法を試行し,セマンティック情報抽出のための新しい手法を提案する。 Multi-modal visual understanding of images with prompts involves using various visual and textual cues to enhance the semantic understanding of images. This approach combines both vision and language processing to generate more accurate predictions and recognition of images. By utilizing prompt-based techniques, models can learn to focus on certain features of an image to extract useful information for downstream tasks. Additionally, multi-modal understanding can improve upon single modality models by providing more robust representations of images. Overall, the combination of visual and textual information is a promising area of research for advancing image recognition and understanding. In this paper we will try an amount of prompt design methods and propose a new method for better extraction of semantic information | 翻訳日:2023-05-17 15:15:33 公開日:2023-05-16 |
# レコメンダシステムにおける消費者側の公平性:方法と評価の体系的調査 Consumer-side Fairness in Recommender Systems: A Systematic Survey of Methods and Evaluation ( http://arxiv.org/abs/2305.09330v1 ) ライセンス: Link先を確認 | Bj{\o}rnar Vass{\o}y and Helge Langseth | (参考訳) ディジタル化のレベルがますます増大する現在の状況では、スケーラビリティに関する大きな課題に直面しています。
リコメンダシステムは、ユーザーがデータ量の増大をナビゲートし、逆に、マーケティング製品のプロバイダを興味のあるユーザに支援するためにも、置き換えられないものになっている。
機械学習の手法における差別に対する認識の高まりは、最近アカデミアと産業の両方が、レコメンダシステムにおいて公平性をいかに確保できるかを研究する動機付けになっている。
推薦制度では、そのような問題は職業推薦によってよく例示されており、歴史的データの偏見は、1つの性別から低い賃金、あるいはステレオタイプの普及に関する推薦制度につながる可能性がある。
特に、レコメンダシステムのユーザが経験する差別の緩和に焦点を当てた消費者側の公平性は、さまざまなタイプの差別に対処するための、数多くの多様なアプローチを見てきた。
これらの差別の性質は、多くのバリエーションがある設定と適用された公正解釈に依存する。
この調査は、レコメンダシステムにおける消費者側の公平性に関する現在の研究の体系的な概観と議論に役立っている。
そのために,高レベルの公平性解釈に基づく新しい分類法を提案し,その研究とそれらの公正性評価指標を分類する。
最後に,フィールドの今後の方向性について提案する。 In the current landscape of ever-increasing levels of digitalization, we are facing major challenges pertaining to scalability. Recommender systems have become irreplaceable both for helping users navigate the increasing amounts of data and, conversely, aiding providers in marketing products to interested users. The growing awareness of discrimination in machine learning methods has recently motivated both academia and industry to research how fairness can be ensured in recommender systems. For recommender systems, such issues are well exemplified by occupation recommendation, where biases in historical data may lead to recommender systems relating one gender to lower wages or to the propagation of stereotypes. In particular, consumer-side fairness, which focuses on mitigating discrimination experienced by users of recommender systems, has seen a vast number of diverse approaches for addressing different types of discrimination. The nature of said discrimination depends on the setting and the applied fairness interpretation, of which there are many variations. This survey serves as a systematic overview and discussion of the current research on consumer-side fairness in recommender systems. To that end, a novel taxonomy based on high-level fairness interpretation is proposed and used to categorize the research and their proposed fairness evaluation metrics. Finally, we highlight some suggestions for the future direction of the field. | 翻訳日:2023-05-17 15:15:21 公開日:2023-05-16 |
# SHAP特徴重要度とファジィ認知地図を用いたインシシットバイアスの測定 Measuring Implicit Bias Using SHAP Feature Importance and Fuzzy Cognitive Maps ( http://arxiv.org/abs/2305.09399v1 ) ライセンス: Link先を確認 | Isel Grau, Gonzalo N\'apoles, Fabian Hoistma, Lisa Koutsoviti Koumeri, Koen Vanhoof | (参考訳) 本稿では,特徴の重要度の概念と暗黙のバイアスをパターン分類の文脈で統合する。
これは3段階の方法論によって行われます。
(i)分類器を構築し、そのハイパーパラメータをチューニングすること。
(ii)暗黙のバイアスを定量化できるファジィ認知地図モデルの構築、
3)SHAPの特徴は,シミュレーションを行う際の神経概念の活性化に重要である。
公平性研究に関する実例研究を用いた結果は、我々の2つの仮説を支持する。
また, 特徴重要度法を絶対的ツールとして使用することで, 暗黙的バイアスを計測するリスクを示す。
一方,保護された特徴に対する偏見の量は,その特徴が数値的か分類的に符号化されているかによって異なる可能性がある。 In this paper, we integrate the concepts of feature importance with implicit bias in the context of pattern classification. This is done by means of a three-step methodology that involves (i) building a classifier and tuning its hyperparameters, (ii) building a Fuzzy Cognitive Map model able to quantify implicit bias, and (iii) using the SHAP feature importance to active the neural concepts when performing simulations. The results using a real case study concerning fairness research support our two-fold hypothesis. On the one hand, it is illustrated the risks of using a feature importance method as an absolute tool to measure implicit bias. On the other hand, it is concluded that the amount of bias towards protected features might differ depending on whether the features are numerically or categorically encoded. | 翻訳日:2023-05-17 15:09:08 公開日:2023-05-16 |
# expressnet: 指紋提示攻撃検出のための説明可能なスリムネットワーク EXPRESSNET: An Explainable Residual Slim Network for Fingerprint Presentation Attack Detection ( http://arxiv.org/abs/2305.09397v1 ) ライセンス: Link先を確認 | Anuj Rai, Somnath Dey, Pradeep Patidar, and Prakhar Rai | (参考訳) プレゼンテーション攻撃は、自動指紋認識システムのセキュリティを維持する上で難しい問題である。
本稿では,入力指紋サンプルの視覚的特徴を表現し,プレゼンテーションアタックを検出する新しい説明可能な残差スリムネットワークを提案する。
このネットワークのエンコーダ・デコーダはチャネルアテンションブロックと共に入力サンプルをヒートマップ表現に変換し、修正された残差畳み込みニューラルネットワーク分類器はライブ指紋とスプーフ指紋を識別する。
ヒートマップジェネレータブロックと修正されたResNet分類器のアーキテクチャ全体がエンドツーエンドで連携する。
リブデット2011、2015、2015、2017、2019のベンチマーク・ライブネス検出コンペティション・データベースにおいて、提案モデルの性能が検証され、それぞれ96.86\%、99.84\%、96.45\%、96.07\%、96.27\%の分類精度が達成された。
提案手法の性能を最先端技術と比較し,提案手法はプレゼンテーションアタック検出のベンチマークプロトコルにおいて,分類精度の観点から最先端アタック検出手法を上回っている。 Presentation attack is a challenging issue that persists in the security of automatic fingerprint recognition systems. This paper proposes a novel explainable residual slim network that detects the presentation attack by representing the visual features in the input fingerprint sample. The encoder-decoder of this network along with the channel attention block converts the input sample into its heatmap representation while the modified residual convolutional neural network classifier discriminates between live and spoof fingerprints. The entire architecture of the heatmap generator block and modified ResNet classifier works together in an end-to-end manner. The performance of the proposed model is validated on benchmark liveness detection competition databases i.e. Livdet 2011, 2013, 2015, 2017, and 2019 and the classification accuracy of 96.86\%, 99.84\%, 96.45\%, 96.07\%, 96.27\% are achieved on them, respectively. The performance of the proposed model is compared with the state-of-the-art techniques, and the proposed method outperforms state-of-the-art methods in benchmark protocols of presentation attack detection in terms of classification accuracy. | 翻訳日:2023-05-17 15:08:58 公開日:2023-05-16 |
# 孤立した3Dプリンティングとデザイン--月面ミッションを模擬した事例 3D Printing and Design in Isolation: A Case from a Simulated Lunar Mission ( http://arxiv.org/abs/2305.09394v1 ) ライセンス: Link先を確認 | Wiktor Stawski, Kinga Skorupska, Wies{\l}aw Kope\'c | (参考訳) 3Dプリンティングの歴史は何十年も続いているが、その潜在能力は十分ではない。
しかし、3dプリンティングは孤立したコミュニティに約束を守り、自給自足を目指す。
アナログ空間で行った実験では,3dプリンティングの課題と機会について検討した。
私たちの研究は、次のような障壁を明らかにした。
1)空気、温度、音等の異なる種類の汚染を気にしながら、3dプリント装置を設置・維持すること。
2)特殊ソフトウェア及び材料及び材料に関する設計スキル及び親しみ
3)コミュニティのニーズを満たすために達成できるものに対する意識。
コミュニティ内体験とノウハウが,参加型デザインによって奨励され支援された場合,コミュニティメンバのqolを向上させる3dプリントアイデアの信頼性の高い情報源であることを観察した。
3dプリントを小さなコミュニティで共同設計することは有望な研究分野であり、3dプリント技術の新たな応用をもたらす可能性がある。 Despite the decades-long history of 3D printing, it is not used to its full potential. Yet 3D printing holds promise for isolated communities, aiming for self-sufficiency. In this experiential study conducted in an analog space habitat we evaluated challenges and opportunities of using 3D printing. Our study revealed barriers such as: 1) setting up and maintaining the 3D printing equipment while minding different kinds of pollution, that is air, temperature and sound, 2) design skill and familiarity with specialized software as well as materials and 3) the awareness of what can be achieved to meet community needs. We observed that in-community experience and know-how are reliable sources of 3D print ideas, that improve quality of life of community members if they are encouraged and supported by participatory design. Co-design of 3D prints in small, specialized communities is a promising area of study, that can bring new applications of 3D print technology. | 翻訳日:2023-05-17 15:08:34 公開日:2023-05-16 |
# 非エルミートスターク多体局在 Non-Hermitian Stark Many-Body Localization ( http://arxiv.org/abs/2305.09387v1 ) ライセンス: Link先を確認 | Han-Ze Li, Xue-Jia Yu, and Jian-Xin Zhong | (参考訳) 実測対角化法(ED)を用いて,スターク勾配電位とテール曲率を印加した1次元非エルミートハードコアボソン鎖について検討した。
この非エルミート系では、多体局在(mbl)相転移と実複相遷移が発生する。
エントロピーの動的挙動のさらなる分析は、固有エネルギーの実部の動的応答があまり発音されないにもかかわらず、乱れ駆動非エルミート mbl 系と類似性を示している。
また、非エルミート強度とスターク勾配電位強度、相互作用強度とスターク勾配電位強度の位相図をマッピングし、非エルミートスタークMBL系にも中間相が存在することを発見した。
総じて,超低温原子系の実験研究と直接的関連性を有する無秩序な非エルミタン MBL 研究のための新しいプラットフォームを提供する。 By employing the method of Exact Diagonalization (ED), we examine a one-dimensional non-Hermitian hard-core boson chain imbued with a Stark gradient potential and a tail curvature. In this non-Hermitian system, we witness the occurrence of Many-Body Localization (MBL) phase transitions and real-complex transitions. Further analysis of the entanglement entropy's dynamical behavior reveals its similarity with that of disordered-driven non-Hermitian MBL systems, even though the dynamical response of the real part of the eigenenergy is less pronounced. We also map out the phase diagrams for non-Hermitian strength versus Stark gradient potential strength, and interaction strength versus Stark gradient potential strength, discovering that an intermediate phase exists in the non-Hermitian Stark MBL system as well. Overall, our findings provide a new platform for studying disordered-free non-Hermitian MBL, holding direct relevance to experimental research in ultracold atomic systems. | 翻訳日:2023-05-17 15:08:20 公開日:2023-05-16 |
# 局所SVMのLpとリスク一貫性 Lp- and Risk Consistency of Localized SVMs ( http://arxiv.org/abs/2305.09385v1 ) ライセンス: Link先を確認 | Hannes K\"ohler | (参考訳) カーネルベースの正規化リスク最小化器はサポートベクターマシン(svm)とも呼ばれ、多くの望ましい特性を持つが、大規模データセットを扱う際の超線形計算要件に苦しむことが知られている。
この問題は、代わりにローカライズされたSVMを使用することで解決できるが、入力空間の異なる領域に異なるハイパーパラメータを適用できるという利点もある。
本稿では,SVMの局所化とその一貫性について解析する。
L_p$-を継承し、非常に弱い条件下でグローバルSVMからリスク一貫性を継承し、トレーニングデータセットのサイズが大きくなるにつれて、ローカライズされたSVMの下位の領域が変更可能であることを証明した。 Kernel-based regularized risk minimizers, also called support vector machines (SVMs), are known to possess many desirable properties but suffer from their super-linear computational requirements when dealing with large data sets. This problem can be tackled by using localized SVMs instead, which also offer the additional advantage of being able to apply different hyperparameters to different regions of the input space. In this paper, localized SVMs are analyzed with regards to their consistency. It is proven that they inherit $L_p$- as well as risk consistency from global SVMs under very weak conditions and even if the regions underlying the localized SVMs are allowed to change as the size of the training data set increases. | 翻訳日:2023-05-17 15:08:01 公開日:2023-05-16 |
# レニアの新たな複雑さを捉え Capturing Emerging Complexity in Lenia ( http://arxiv.org/abs/2305.09378v1 ) ライセンス: Link先を確認 | Sanyam Jain and Aarati Shrestha | (参考訳) この研究プロジェクトは、デジタル生物の生態系をシミュレートする人工生命プラットフォームLeniaを調査する。
レニアの生態系は、移動し、消費し、成長し、再生できる単純な人工生物から成り立っている。
このプラットフォームは、様々な能力と行動を持つ多様な生物を生み出すためのスケーラブルで柔軟な環境を提供するため、人工生命と進化を研究するためのツールとして重要である。
レニアの複雑さを測定することは、まだ発見されていないレニアの行動を改善することを目的として、ルールの長期的な複雑な出現行動を測定するための指標を特定する研究の重要な側面である。
遺伝的アルゴリズムは、近辺やカーネルを遺伝子型として使用し、レニアの残りのパラメータを例えば成長関数のように固定し、個体群ごとに異なる行動を生成し、その結果生じる行動の複雑さを決定するために適合値を測定する。
まず,フレーム間のばらつきが高まるようなフィットネス機能として,時間とともに変化を利用する。
第2に,フレームの復元損失リストの変動が報われる自動エンコーダベースの適合性を用いる。
第3に、再構成フレームの画素密度のより高い変動が報われるような複合フィットネスを行う。
3つの実験はすべてpixel alive thresholdとフレームで調整されている。
最後に、500世代毎に各フィットネスの9つの実験を行った後、さらなる進化のスコープがあるような全ての実験から構成を選択し、2500世代にわたって実行します。
結果は、核の質量中心は、特定のピクセル集合と、核がガウス分布を達成しようとする境界とともに増加することを示している。 This research project investigates Lenia, an artificial life platform that simulates ecosystems of digital creatures. Lenia's ecosystem consists of simple, artificial organisms that can move, consume, grow, and reproduce. The platform is important as a tool for studying artificial life and evolution, as it provides a scalable and flexible environment for creating a diverse range of organisms with varying abilities and behaviors. Measuring complexity in Lenia is a key aspect of the study, which identifies the metrics for measuring long-term complex emerging behavior of rules, with the aim of evolving better Lenia behaviors which are yet not discovered. The Genetic Algorithm uses neighborhoods or kernels as genotype while keeping the rest of the parameters of Lenia as fixed, for example growth function, to produce different behaviors respective to the population and then measures fitness value to decide the complexity of the resulting behavior. First, we use Variation over Time as a fitness function where higher variance between the frames are rewarded. Second, we use Auto-encoder based fitness where variation of the list of reconstruction loss for the frames is rewarded. Third, we perform combined fitness where higher variation of the pixel density of reconstructed frames is rewarded. All three experiments are tweaked with pixel alive threshold and frames used. Finally, after performing nine experiments of each fitness for 500 generations, we pick configurations from all experiments such that there is a scope of further evolution, and run it for 2500 generations. Results show that the kernel's center of mass increases with a specific set of pixels and together with borders the kernel try to achieve a Gaussian distribution. | 翻訳日:2023-05-17 15:07:46 公開日:2023-05-16 |
# 重要サンプル演算子影による量子状態の推定 Estimating properties of a quantum state by importance-sampled operator shadows ( http://arxiv.org/abs/2305.09374v1 ) ライセンス: Link先を確認 | Naixu Guo, Patrick Rebentrost | (参考訳) 量子系の特性を測定することは、量子力学の基本的な問題である。
観測変数の期待値を未知の量子状態で推定する非常に単純な方法を提案する。
その考え方は、可観測物のポーリ分解の項をその重要性に比例してサンプリングすることである。
我々は,この手法を,演算子のスケッチを作成して特性を推定する手技としてシャドウと呼ぶ。
複数の局所観測値に対して、この手法のサンプル複雑性は、観測値の数が小さい場合に限り古典的なシャドウ法よりも優れている。
しかし、局所観測可能性(例えば局所ハミルトニアンのエネルギー)の線形結合に対する期待値を推定したい場合、全てのパラメータにおいてサンプルの複雑さがより良くなる。 Measuring properties of quantum systems is a fundamental problem in quantum mechanics. We provide a very simple method for estimating expectation value of observables with an unknown quantum state. The idea is to sample the terms of the Pauli decomposition of observables proportionally to their importance. We call this technique operator shadow as a shorthand for the procedure preparing a sketch of an operator to estimate properties. For multiple local observables, the sample complexity of this method is better than the classical shadow technique only when the numbers of observables are small. However, if we want to estimate expectation values for linear combination of local observables, e.g., the energy of a local Hamiltonian, the sample complexity is better on all parameters. | 翻訳日:2023-05-17 15:07:22 公開日:2023-05-16 |
# 画像美的評価のためのマルチタスク畳み込みニューラルネットワーク Multi-task convolutional neural network for image aesthetic assessment ( http://arxiv.org/abs/2305.09373v1 ) ライセンス: Link先を確認 | Derya Soydaner, Johan Wagemans | (参考訳) 画像に対する人々の美的好みが理解できないため、画像美的評価は難しい人工知能タスクである。
このタスクの根底にあるさまざまな要因はほぼ無制限ですが、審美的特性がそれらの嗜好に影響を与えることは分かっています。
本研究では,これらの属性を考慮したマルチタスク畳み込みニューラルネットワークを提案する。
提案するニューラルネットワークは、画像の全体的な美的スコアとともに属性を学習する。
このマルチタスク学習フレームワークは、共有表現を利用した効果的な一般化を可能にする。
提案手法は,画像美学ベンチマークにおいて,画像全体の美学スコアの予測において最先端の手法よりも優れていることを示す。
スパイアマンのランク相関を考慮した場合, 全体的な美的得点の観点で人間に近いパフォーマンスが得られる。
さらに,本モデルではマルチタスクを他のベンチマークに適用し,今後の研究のベースラインとして活用する。
特に本手法は,既存のマルチタスクニューラルネットに比べてパラメータを少ない値で使用しながらこの性能を実現し,計算複雑性の面ではより効率的である。 As people's aesthetic preferences for images are far from understood, image aesthetic assessment is a challenging artificial intelligence task. The range of factors underlying this task is almost unlimited, but we know that some aesthetic attributes affect those preferences. In this study, we present a multi-task convolutional neural network that takes into account these attributes. The proposed neural network jointly learns the attributes along with the overall aesthetic scores of images. This multi-task learning framework allows for effective generalization through the utilization of shared representations. Our experiments demonstrate that the proposed method outperforms the state-of-the-art approaches in predicting overall aesthetic scores for images in one benchmark of image aesthetics. We achieve near-human performance in terms of overall aesthetic scores when considering the Spearman's rank correlations. Moreover, our model pioneers the application of multi-tasking in another benchmark, serving as a new baseline for future research. Notably, our approach achieves this performance while using fewer parameters compared to existing multi-task neural networks in the literature, and consequently makes our method more efficient in terms of computational complexity. | 翻訳日:2023-05-17 15:07:11 公開日:2023-05-16 |
# 多様な環境で進化する適応型集団におけるニッチ構築のダイナミクス Dynamics of niche construction in adaptable populations evolving in diverse environments ( http://arxiv.org/abs/2305.09369v1 ) ライセンス: Link先を確認 | Eleni Nisioti and Cl\'ement Moulin-Frier | (参考訳) 自然と人工の両方の研究において、進化はしばしば自然選択の同義語と見なされる。
個人は、リセットされるか、以前の世代から大きく変化しない環境によって設定された圧力の下で進化する。
このように、ニッチ構造(NC)は、個人が環境に継承可能な変化をもたらす自然選択への相互過程を無視する。
この研究の欠如により、NCのダイナミクスは、特に現実世界ではほとんど理解されていない。
本研究では, 可塑性, 伸縮性, ニッチ構築行動を進化させる多種多様なニッチと集団からなるシミュレーション環境におけるNCについて検討する。
我々の経験的分析は、人口が大量絶滅、武器の種族、振動を経験する多くの興味深いダイナミクスを明らかにしている。
これらの行動を理解するために, NCと適応性の相互作用と, NCが集団のゲノム多様性と分散に与える影響を分析し, NCがニッチを多様化することを観察した。
本研究は, NC研究のシミュレーション環境を複雑化し, 多種多様なニッチを考慮し, その力学を理解する上で必要であり, 自然・人工両システムの今後の研究に検証可能な仮説を提示できることを示唆する。 In both natural and artificial studies, evolution is often seen as synonymous to natural selection. Individuals evolve under pressures set by environments that are either reset or do not carry over significant changes from previous generations. Thus, niche construction (NC), the reciprocal process to natural selection where individuals incur inheritable changes to their environment, is ignored. Arguably due to this lack of study, the dynamics of NC are today little understood, especially in real-world settings. In this work, we study NC in simulation environments that consist of multiple, diverse niches and populations that evolve their plasticity, evolvability and niche-constructing behaviors. Our empirical analysis reveals many interesting dynamics, with populations experiencing mass extinctions, arms races and oscillations. To understand these behaviors, we analyze the interaction between NC and adaptability and the effect of NC on the population's genomic diversity and dispersal, observing that NC diversifies niches. Our study suggests that complexifying the simulation environments studying NC, by considering multiple and diverse niches, is necessary for understanding its dynamics and can lend testable hypotheses to future studies of both natural and artificial systems. | 翻訳日:2023-05-17 15:06:55 公開日:2023-05-16 |
# 多チャンネル電気インピーダンスに基づく血行動態モニタリングにおける教師なしシーケンス・ツー・シーケンス学習による信号品質自動評価 Unsupervised sequence-to-sequence learning for automatic signal quality assessment in multi-channel electrical impedance-based hemodynamic monitoring ( http://arxiv.org/abs/2305.09368v1 ) ライセンス: Link先を確認 | Chang Min Hyun, Tae-Geun Kim, Kyounghun Lee | (参考訳) 本研究では,多チャンネル電気インピーダンスに基づく血行動態モニタリングにおいて,運動誘発心容積信号(cvs)の信頼性低下を自動的に評価する教師なしシーケンス・トゥ・シーケンス学習手法を提案する。
提案手法は,CVSの文脈変化下での動作誘発異常を実現するための明示的なメカニズムが欠如しているなど,既存の学習に基づく評価手法の欠点に対処する試みである。
長短項メモリと変分オートエンコーダ構造を利用して、エンコーダ−デコーダモデルを訓練してcvsの入力シーケンスを自己生成するだけでなく、未来を並列的に推定する。
これにより、時系列全体にわたる一般的な関係を探索するために規則化しながら、時間的CVSシーケンスに横たわる文脈的知識を捉えることができる。
トレーニングセット上の親指の2シグマ規則から決定されるカットオフ値で入力シーケンスとその神経表現間の残差に基づいて、低品質の動作影響CVSを検出する。
我々の実験観測は2つの主張を検証した。
(i)ラベル理解の学習環境においては、監督設定に対する競争レベルで評価性能が達成可能であり、
(2)CVSの時系列にわたる文脈情報は、信号振幅と形態の運動による非現実的歪みを効果的に実現するのに有利である。
また,動作誘発異常の強い候補を事前に提示することにより,人為的なアノテーションを最小化するための擬似ラベルツールとしての能力についても検討した。
実証的な証拠は、機械誘導アノテーションが手動による評価中に避けられないヒューマンエラーを軽減し、煩雑で時間のかかるプロセスを最小化できることを示している。 This study proposes an unsupervised sequence-to-sequence learning approach that automatically assesses the motion-induced reliability degradation of the cardiac volume signal (CVS) in multi-channel electrical impedance-based hemodynamic monitoring. The proposed method attempts to tackle shortcomings in existing learning-based assessment approaches, such as the requirement of manual annotation for motion influence and the lack of explicit mechanisms for realizing motion-induced abnormalities under contextual variations in CVS over time. By utilizing long-short term memory and variational auto-encoder structures, an encoder--decoder model is trained not only to self-reproduce an input sequence of the CVS but also to extrapolate the future in a parallel fashion. By doing so, the model can capture contextual knowledge lying in a temporal CVS sequence while being regularized to explore a general relationship over the entire time-series. A motion-influenced CVS of low-quality is detected, based on the residual between the input sequence and its neural representation with a cut--off value determined from the two-sigma rule of thumb over the training set. Our experimental observations validated two claims: (i) in the learning environment of label-absence, assessment performance is achievable at a competitive level to the supervised setting, and (ii) the contextual information across a time series of CVS is advantageous for effectively realizing motion-induced unrealistic distortions in signal amplitude and morphology. We also investigated the capability as a pseudo-labeling tool to minimize human-craft annotation by preemptively providing strong candidates for motion-induced anomalies. Empirical evidence has shown that machine-guided annotation can reduce inevitable human-errors during manual assessment while minimizing cumbersome and time-consuming processes. | 翻訳日:2023-05-17 15:06:34 公開日:2023-05-16 |
# すべてのreluネットワークを Unwrapping All ReLU Networks ( http://arxiv.org/abs/2305.09424v1 ) ライセンス: Link先を確認 | Mattia Jacopo Villani, Peter McBurney | (参考訳) Deep ReLU Networksは線形モデルの集合に分解することができ、それぞれが入力空間の分割の領域で定義される。
本論文はこの理論を拡張した3つの結果を示す。
まず、この線形分解をグラフニューラルネットワークとテンソル畳み込みネットワーク、および乗法相互作用を持つネットワークに拡張する。
次に,ニューラルネットワークが多変量決定木や論理理論などの解釈可能なモデルとして理解できることを示す。
最後に、このモデルが安価で正確なシェープ値を計算する方法を示す。
グラフニューラルネットワークを用いた実験により理論を検証する。 Deep ReLU Networks can be decomposed into a collection of linear models, each defined in a region of a partition of the input space. This paper provides three results extending this theory. First, we extend this linear decompositions to Graph Neural networks and tensor convolutional networks, as well as networks with multiplicative interactions. Second, we provide proofs that neural networks can be understood as interpretable models such as Multivariate Decision trees and logical theories. Finally, we show how this model leads to computing cheap and exact SHAP values. We validate the theory through experiments with on Graph Neural Networks. | 翻訳日:2023-05-17 14:58:26 公開日:2023-05-16 |
# 調和ポテンシャルに閉じ込められた回転量子滴における新しい超流動状態 Novel superfluid states in rotating quantum droplets confined in a harmonic potential ( http://arxiv.org/abs/2305.09422v1 ) ライセンス: Link先を確認 | S. Nikolaou, G. M. Kavoulakis, M. Ogren | (参考訳) 本研究では、高調波ポテンシャルに閉じ込められた2次元自己結合量子液滴の回転特性を調べ、接触相互作用と単成分原子ガスの既知の問題と比較する。
トラップ周波数の固定値に対して、原子数の代表値を選択することで、角運動量の増加に伴って最低エネルギー状態を決定する。
十分な数の原子に対して、角運動量は中心質量励起によって輸送される。
大きな値の場合、角運動量が十分に小さいとき、代わりに渦励起を観測する。
実際の原子番号によっては、1つ以上の渦が液滴に入る。
しかし、角運動量の臨界値を超えると、液滴はより多くの渦を許容せず、追加の角運動量は新しい「混合」状態の質量中心励起によって運ばれる。
最後に、励起スペクトルについても概説する。 We investigate the rotational properties of a two-dimensional self-bound quantum droplet, which is confined in a harmonic potential and compare them with the well-known problem of a single-component atomic gas, with contact interactions. For a fixed value of the trap frequency, choosing some representative values of the atom number, we determine the lowest-energy state, as the angular momentum increases. For a sufficiently small number of atoms, the angular momentum is carried via center-of-mass excitation. For larger values, when the angular momentum is sufficiently small, we observe vortex excitation, instead. Depending on the actual atom number, one, or more vortices enter the droplet. Beyond some critical value of the angular momentum, however, the droplet does not accommodate more vortices and the additional angular momentum is carried via center-of-mass excitation in a novel, "mixed" state. Finally, the excitation spectrum is also briefly discussed. | 翻訳日:2023-05-17 14:58:17 公開日:2023-05-16 |
# leaf only sam: ゼロショット自動リーフセグメンテーションのためのsegment anythingパイプライン Leaf Only SAM: A Segment Anything Pipeline for Zero-Shot Automated Leaf Segmentation ( http://arxiv.org/abs/2305.09418v1 ) ライセンス: Link先を確認 | Dominic Williams, Fraser MacFarlane, Avril Britten | (参考訳) segment anything model(sam)は新しい基盤モデルであり、バウンディングボックス、ポリゴン、ポイントといったガイドプロンプトを使用することで、ゼロショットオブジェクトのセグメンテーションメソッドとして使用できる。
あるいは、画像のすべてを分割した後、興味のあるオブジェクトを識別するために、追加のポスト処理ステップが使用できる。
本稿では,ポテト葉を分節化するための一連の処理ステップとともに,segment anythingを用いた方法であるleaf only samを提案する。
この手法の利点は、結果を生成するのにトレーニングデータを必要としないため、高品質な注釈データに制限のある植物表現型変換の分野に多くの応用があることである。
我々は,小型のジャガイモ葉データセットを微調整したMask R-CNNモデルと比較した。
評価データセットでは、Leaf Only SAM の平均リコールは 63.2 であり、平均精度は 60.3 であり、Mask R-CNN のリコールは 78.7 であり、精度は 74.7 である。
リーフのみSAMは、データ上の微調整されたMask R-CNNモデルよりもパフォーマンスが良くないが、SAMベースのモデルは、新しいデータセットの追加のトレーニングやアノテーションを必要としない。
これは、後処理のステップを追加することで、SAMをゼロショット分類器として使用する可能性があることを示している。 Segment Anything Model (SAM) is a new foundation model that can be used as a zero-shot object segmentation method with the use of either guide prompts such as bounding boxes, polygons, or points. Alternatively, additional post processing steps can be used to identify objects of interest after segmenting everything in an image. Here we present a method using segment anything together with a series of post processing steps to segment potato leaves, called Leaf Only SAM. The advantage of this proposed method is that it does not require any training data to produce its results so has many applications across the field of plant phenotyping where there is limited high quality annotated data available. We compare the performance of Leaf Only SAM to a Mask R-CNN model which has been fine-tuned on our small novel potato leaf dataset. On the evaluation dataset, Leaf Only SAM finds an average recall of 63.2 and an average precision of 60.3, compared to recall of 78.7 and precision of 74.7 for Mask R-CNN. Leaf Only SAM does not perform better than the fine-tuned Mask R-CNN model on our data, but the SAM based model does not require any extra training or annotation of our new dataset. This shows there is potential to use SAM as a zero-shot classifier with the addition of post processing steps. | 翻訳日:2023-05-17 14:58:02 公開日:2023-05-16 |
# 逐次関係抽出システムにおけるF1スコアの評価について About Evaluation of F1 Score for RECENT Relation Extraction System ( http://arxiv.org/abs/2305.09410v1 ) ライセンス: Link先を確認 | Micha{\l} Olek | (参考訳) 本論文は, 深飛龍の論文「エンティティタイプ制限の関連分類」で用いられるF1スコア評価について, 計算言語学協会の発見: ACL-IJCNLP 2021 に掲載されている。
著者らはRECENTというシステムを作成し、TACREDデータセット上で新しい最先端の結果75.2(以前の74.8)を達成し、エラーを修正して最終的な結果が65.16であると主張した。 This document contains a discussion of the F1 score evaluation used in the article 'Relation Classification with Entity Type Restriction' by Shengfei Lyu, Huanhuan Chen published on Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. The authors created a system named RECENT and claim it achieves (then) a new state-of-the-art result 75.2 (previous 74.8) on the TACRED dataset, while after correcting errors and reevaluation the final result is 65.16 | 翻訳日:2023-05-17 14:57:40 公開日:2023-05-16 |
# コンピュータビジョン製造欠陥検出におけるロバスト性向上のための新しい戦略 A Novel Strategy for Improving Robustness in Computer Vision Manufacturing Defect Detection ( http://arxiv.org/abs/2305.09407v1 ) ライセンス: Link先を確認 | Ahmad Mohamad Mezher and Andrew E. Marble | (参考訳) 高性能製造における視覚的品質検査は、コスト削減とリガーの改善により自動化の恩恵を受ける。
ディープラーニング技術は、分類やオブジェクト検出といった汎用的なコンピュータビジョンタスクの最先端技術である。
製造データは非常に反復的なデータであり、そこから学ぶべき欠陥や偏差のイメージは少ないため、ディープラーニングには大きな課題がある。
このようなデータでトレーニングされたディープラーニングモデルは、脆弱でコンテキストに敏感であり、トレーニングデータにない新たな欠陥を過小に検出することができる。
本研究では,新たな状況下で検出される可能性が高くなるよう,コンテキストから特定の欠陥を学習するための欠陥検出モデルのトレーニングを検討する。
共通欠陥型を含む多彩な画像上でトレーニングされたモデルが,新たな状況下での欠陥の抽出方法を示す。
このようなジェネリックモデルは、トレーニング用に収集されていないデータに対する新たな欠陥に対してより堅牢になり、データ収集障害を減らし、生産ラインの視覚検査を実装することができる。
さらに,製造検査タスクに典型的なテストデータのみに基づいてラベルを予測できるラベルと境界ボックスのアウトフォーム分類器を訓練したオブジェクト検出モデルを示す。
最後に,より広い条件下で働くモデルを訓練するために,一般化に影響を及ぼす要因について検討した。 Visual quality inspection in high performance manufacturing can benefit from automation, due to cost savings and improved rigor. Deep learning techniques are the current state of the art for generic computer vision tasks like classification and object detection. Manufacturing data can pose a challenge for deep learning because data is highly repetitive and there are few images of defects or deviations to learn from. Deep learning models trained with such data can be fragile and sensitive to context, and can under-detect new defects not found in the training data. In this work, we explore training defect detection models to learn specific defects out of context, so that they are more likely to be detected in new situations. We demonstrate how models trained on diverse images containing a common defect type can pick defects out in new circumstances. Such generic models could be more robust to new defects not found data collected for training, and can reduce data collection impediments to implementing visual inspection on production lines. Additionally, we demonstrate that object detection models trained to predict a label and bounding box outperform classifiers that predict a label only on held out test data typical of manufacturing inspection tasks. Finally, we studied the factors that affect generalization in order to train models that work under a wider range of conditions. | 翻訳日:2023-05-17 14:57:29 公開日:2023-05-16 |
# 量子不協和を利用した完全参照フレーム独立量子鍵分布の実現 Realizing fully reference-frame-independent quantum key distribution by exploiting quantum discord ( http://arxiv.org/abs/2305.09404v1 ) ライセンス: Link先を確認 | Rong Wang, and Chun-Mei Zhang | (参考訳) 参照フレームに依存しない量子鍵分布は、共有参照フレームなしで秘密鍵列を生成するために提案された。
しかしながら、ブロッホ球面に基づいて、以前の方法におけるセキュリティ解析は方位角のみに依存し、基準フレームは極角と方位角の両方で決定される。
本稿では, 極角と方位角の両方で特異値が独立な3つの時間3行列を提案し, 量子ディスコードを利用して, 完全参照フレーム非依存な量子鍵分布を実現する。
さらに,鍵生成ベースが校正された場合,提案手法の性能が前値に低下できることを数値的に示す。 Reference-frame-independent quantum key distribution was proposed to generate a string of secret keys without a shared reference frame. Based on the Bloch sphere, however, the security analysis in previous methods is only independent on azimuthal angle, while a reference frame is determined by both polar angle and azimuthal angle. Here, we propose a 3 \times 3 matrix whose singular values are independent on both polar angle and azimuthal angle, as well as take advantage of quantum discord, to realize a fully reference-frame-independent quantum key distribution. Furthermore, we numerically show that the performance of our method can reduce to the previous one if the key generation basis is calibrated. | 翻訳日:2023-05-17 14:57:10 公開日:2023-05-16 |
# オンライン会議を組織し、ズーム長方形から逃れる方法 How to Organise Engaging Online Conferences and Escape the Zoom Rectangle ( http://arxiv.org/abs/2305.09403v1 ) ライセンス: Link先を確認 | Jaros{\l}aw Kowalski, Kinga Skorupska, Agata Kopacz, Bartosz Muczy\'nski, Wies{\l}aw Kope\'c, Zbigniew Bohdanowicz, Gabriela G\'orska, Cezary Biele | (参考訳) オンラインの世界へ移行する学術会議の数が増えるにつれて、仮想世界が提供するユニークなマルチメディアの機会をより活用するために、新しいイベントパラダイムを探求し、開発する必要がある。
このことを念頭において,研究者との詳細なインタビューを行い,遠隔会議のswat分析を行い,実験的な会議機能を開発した。
2日間の国際科学itカンファレンスの第9回で,初日277名,第2日199名が参加した。
本稿では,これらの革新的な機能がどのように参加者のニーズを満たすかを質的,定量的なデータに基づいて述べる。
遠隔イベントと個人イベントの体験がどう違うかを示し、参加者が知識を交換し、活動に従事することを奨励する遠隔会議の開催を推奨する。 As an increasing number of academic conferences transition to the online sphere, new event paradigms must be explored and developed to better utilise the unique multimedia opportunities offered by the virtual world. With this in mind, we conducted in-depth interviews with researchers, performed a SWOT analysis of remote conferences, and developed experimental conference functionalities. We implemented these during the 9th edition of a two-day international scientific IT conference, which was attended by over 277 participants on the first day and 199 on the second. In this article, we describe how these innovative functionalities met the participants' needs based on qualitative and quantitative data. We present how the experiences of remote and in-person events differ, and offer recommendations on organising remote conferences that encourage participants to exchange knowledge and engage in activities. | 翻訳日:2023-05-17 14:56:57 公開日:2023-05-16 |
# Java 関数用 GPT-3.5 および Bard AI モデルのコード生成能力に関する予備的検討 A Preliminary Analysis on the Code Generation Capabilities of GPT-3.5 and Bard AI Models for Java Functions ( http://arxiv.org/abs/2305.09402v1 ) ライセンス: Link先を確認 | Giuseppe Destefanis, Silvia Bartolucci, Marco Ortu | (参考訳) 本稿では2つの最先端人工知能(AI)モデルであるGPT-3.5とBardのJavaコード生成機能について述べる。
プログラミングを学ぶための実践的問題を提供する人気のあるオンラインプラットフォームであるcodingbat.comから、その説明をオープンソース化しました。
両モデルによって生成されたjavaコードを、プラットフォーム自身のテストケースで検証した正確性に基づいて比較した。
その結果,両モデルの能力に明らかな差異が認められた。
GPT-3.5は、関数記述の90.6%で正しいコードを生成するのに対して、Bardは53.1%で正しいコードを生成する。
どちらのモデルも長所と短所を示したが、これらの発見は、より高度なAI支援コード生成ツールの開発と改善のための潜在的な道のりを示唆している。
この研究は、ソフトウェア開発の自動化と支援におけるAIの可能性の基盤となっているが、この可能性を完全に実現するためにはさらなる研究が必要である。 This paper evaluates the capability of two state-of-the-art artificial intelligence (AI) models, GPT-3.5 and Bard, in generating Java code given a function description. We sourced the descriptions from CodingBat.com, a popular online platform that provides practice problems to learn programming. We compared the Java code generated by both models based on correctness, verified through the platform's own test cases. The results indicate clear differences in the capabilities of the two models. GPT-3.5 demonstrated superior performance, generating correct code for approximately 90.6% of the function descriptions, whereas Bard produced correct code for 53.1% of the functions. While both models exhibited strengths and weaknesses, these findings suggest potential avenues for the development and refinement of more advanced AI-assisted code generation tools. The study underlines the potential of AI in automating and supporting aspects of software development, although further research is required to fully realize this potential. | 翻訳日:2023-05-17 14:56:43 公開日:2023-05-16 |
# 拡散データセット生成:歩行者検出のためのSim2Realギャップの閉鎖に向けて Diffusion Dataset Generation: Towards Closing the Sim2Real Gap for Pedestrian Detection ( http://arxiv.org/abs/2305.09401v1 ) ライセンス: Link先を確認 | Andrew Farley, Mohsen Zand, Michael Greenspan | (参考訳) 本研究では,シミュレーションデータセットを拡散モデルを用いて拡張し,実世界データにおける歩行者検出性能を向上させる手法を提案する。
実世界のデータ収集と注釈付けの高コストは、トレーニングデータセットを作成するためのシミュレーションプラットフォームの利用を動機付けている。
シミュレーションデータの収集と注釈は安価だが、残念ながらsim2real gapとして知られる実世界のデータの分布と必ずしも一致しない。
本稿では,歩行者検出作業において,シミュリアルなギャップを埋めるための新しい合成データ生成手法を提案する。
提案手法は拡散型アーキテクチャを用いて実世界の分布を学習し,一度学習するとデータセットを生成する。
本研究では,本生成データとシミュレーションデータとの混合により,生成データとシミュレーションデータの組み合わせによるトレーニングにより,実世界データにおける歩行者検出モデルの平均精度が27.3%向上することを示す。 We propose a method that augments a simulated dataset using diffusion models to improve the performance of pedestrian detection in real-world data. The high cost of collecting and annotating data in the real-world has motivated the use of simulation platforms to create training datasets. While simulated data is inexpensive to collect and annotate, it unfortunately does not always closely match the distribution of real-world data, which is known as the sim2real gap. In this paper we propose a novel method of synthetic data creation meant to close the sim2real gap for the challenging pedestrian detection task. Our method uses a diffusion-based architecture to learn a real-world distribution which, once trained, is used to generate datasets. We mix this generated data with simulated data as a form of augmentation and show that training on a combination of generated and simulated data increases average precision by as much as 27.3% for pedestrian detection models in real-world data, compared against training on purely simulated data. | 翻訳日:2023-05-17 14:56:28 公開日:2023-05-16 |
# 説明可能なマルチホップファクト検証のための一貫性のあるマルチグラニュラーライナリー抽出 Consistent Multi-Granular Rationale Extraction for Explainable Multi-hop Fact Verification ( http://arxiv.org/abs/2305.09400v1 ) ライセンス: Link先を確認 | Jiasheng Si, Yingjie Zhu, Deyu Zhou | (参考訳) マルチホップ事実検証におけるディープラーニングモデルの成功により、研究者は彼らの正確性の背後にある振る舞いを理解するようになった。
一つの方法は消去探索であり、正確性予測を損なうことなく、入力のサブセットを完全に取り除き、合理性を得る。
広く検討されているが、既存のアプローチは、必然的に冗長性と矛盾を説明できる単一粒状(トークンまたは文)の説明の範囲内にある。
このような問題に対処するため,本稿では,説明可能な多面的事実検証のための一貫性と忠実性を備えた多面的合理性抽出の実現可能性について検討する。
特に、事前訓練された精度予測モデルが与えられた場合、トークンレベル説明器と文レベル説明器を同時に訓練し、識別可能なマスキングにより多粒性有理性を得る。
一方, 3つの診断特性(忠実性, 一貫性, 塩分)を導入し, 訓練プロセスに適用し, 抽出された合理性が忠実性と一貫性を満足することを保証する。
3つのマルチホップ事実検証データセットの実験結果から,提案手法は最先端のベースラインよりも優れていることが示された。 The success of deep learning models on multi-hop fact verification has prompted researchers to understand the behavior behind their veracity. One possible way is erasure search: obtaining the rationale by entirely removing a subset of input without compromising the veracity prediction. Although extensively explored, existing approaches fall within the scope of the single-granular (tokens or sentences) explanation, which inevitably leads to explanation redundancy and inconsistency. To address such issues, this paper explores the viability of multi-granular rationale extraction with consistency and faithfulness for explainable multi-hop fact verification. In particular, given a pretrained veracity prediction model, both the token-level explainer and sentence-level explainer are trained simultaneously to obtain multi-granular rationales via differentiable masking. Meanwhile, three diagnostic properties (fidelity, consistency, salience) are introduced and applied to the training process, to ensure that the extracted rationales satisfy faithfulness and consistency. Experimental results on three multi-hop fact verification datasets show that the proposed approach outperforms some state-of-the-art baselines. | 翻訳日:2023-05-17 14:56:11 公開日:2023-05-16 |
# エグゼクティブが笑いと社会的承認を声高に: 探索的機械学習研究 Executive Voiced Laughter and Social Approval: An Explorative Machine Learning Study ( http://arxiv.org/abs/2305.09485v1 ) ライセンス: Link先を確認 | Niklas Mueller, Steffen Klug, Andreas Koenig, Alexander Kathan, Lukas Christ, Bjoern Schuller, Shahin Amiriparian | (参考訳) 我々は,エグゼクティブコミュニケーションにおける笑いとその社会的承認への影響について検討した。
企業における笑いやインフォメーション・アズ・インフォメーショナリーの社会的評価に関する研究を統合することで、エグゼクティブコミュニケーションにおける笑いの声が、組織に対する親和性に対するオーディエンス知覚として定義される社会的承認に肯定的に影響を及ぼすと仮定する。
笑いの効果は,共同笑い,すなわち,特定のコミュニケーション会場において,幹部と聴衆が同時に笑う場面において,特に強いと推測する。
最後に,人間認知におけるインフルエント・アズ・インフォメーションの概念とネガティビティバイアスを組み合わせることで,笑いが社会的承認に与える影響が組織的パフォーマンスに悪影響を及ぼすと仮定する。
我々は、902人のドイツ連邦議会のサッカー記者会見とメディアテナーからなるパネルデータを用いて、笑いの検出と感情分析に最先端の機械学習アプローチを適用する際に、アイデアを部分的に支持する。
本研究は,エグゼクティブコミュニケーション,戦略的リーダーシップ,社会的評価の段階において,特に笑いを極めて一連の可能性として導入するが,エグゼクティブ・インフォメータリー・インタフェースにおいて社会的潤滑剤を未熟に導入することで,研究に寄与する。
本研究は,情報メディアの評価におけるインフォメディア・ルーチンの視点よりも,社会評価の反射的マイクロプロセスに着目したものである。
方法論的な貢献も行います。 We study voiced laughter in executive communication and its effect on social approval. Integrating research on laughter, affect-as-information, and infomediaries' social evaluations of firms, we hypothesize that voiced laughter in executive communication positively affects social approval, defined as audience perceptions of affinity towards an organization. We surmise that the effect of laughter is especially strong for joint laughter, i.e., the number of instances in a given communication venue for which the focal executive and the audience laugh simultaneously. Finally, combining the notions of affect-as-information and negativity bias in human cognition, we hypothesize that the positive effect of laughter on social approval increases with bad organizational performance. We find partial support for our ideas when testing them on panel data comprising 902 German Bundesliga soccer press conferences and media tenor, applying state-of-the-art machine learning approaches for laughter detection as well as sentiment analysis. Our findings contribute to research at the nexus of executive communication, strategic leadership, and social evaluations, especially by introducing laughter as a highly consequential potential, but understudied social lubricant at the executive-infomediary interface. Our research is unique by focusing on reflexive microprocesses of social evaluations, rather than the infomediary-routines perspectives in infomediaries' evaluations. We also make methodological contributions. | 翻訳日:2023-05-17 14:50:50 公開日:2023-05-16 |
# 大規模オープンドメイン知識グラフの成長と実現 Growing and Serving Large Open-domain Knowledge Graphs ( http://arxiv.org/abs/2305.09464v1 ) ライセンス: Link先を確認 | Ihab F. Ilyas, JP Lacerda, Yunyao Li, Umar Farooq Minhas, Ali Mousavi, Jeffrey Pound, Theodoros Rekatsinas, Chiraag Sumanth | (参考訳) 大規模オープンドメイン知識グラフ(KG)の現実世界問題への応用は多くのユニークな課題を生んでいる。
本稿では,嵯峨の継続的構築と大規模知識提供のためのプラットフォームの拡張について述べる。
特に、ファクトランキング、事実検証、関連するエンティティサービス、エンティティリンクのサポートといった重要な機能を支える知識グラフの埋め込みをトレーニングするためのパイプラインについて説明する。
次に、グラフ埋め込みを含む私たちのプラットフォームをどのように活用して、構造化されていないWebドキュメントをKG内のエンティティにリンクするセマンティックアノテーションサービスを作成するかを説明します。
Webのセマンティックアノテーションは、エッジで知識グラフを効果的に拡張し、様々な検索やランキング問題に使用できるオープンドメインWebコンテンツへと拡張する。
最後に、アノテーション付きWebドキュメントを活用して、オープンドメイン知識抽出を推進します。
このターゲット抽出フレームワークは、KGの重要なカバレッジ問題を特定し、Web上でターゲットエンティティに関連するデータソースを見つけ、KGを充実させるために行方不明情報を抽出する。
最後に,個人的知識をデバイス上で構築,提供するために必要な知識プラットフォームへの適応について述べる。
これには、プライベートインクリメンタルなKG構築、デバイス間の知識同期、グローバルな知識強化が含まれる。 Applications of large open-domain knowledge graphs (KGs) to real-world problems pose many unique challenges. In this paper, we present extensions to Saga our platform for continuous construction and serving of knowledge at scale. In particular, we describe a pipeline for training knowledge graph embeddings that powers key capabilities such as fact ranking, fact verification, a related entities service, and support for entity linking. We then describe how our platform, including graph embeddings, can be leveraged to create a Semantic Annotation service that links unstructured Web documents to entities in our KG. Semantic annotation of the Web effectively expands our knowledge graph with edges to open-domain Web content which can be used in various search and ranking problems. Finally, we leverage annotated Web documents to drive Open-domain Knowledge Extraction. This targeted extraction framework identifies important coverage issues in the KG, then finds relevant data sources for target entities on the Web and extracts missing information to enrich the KG. Finally, we describe adaptations to our knowledge platform needed to construct and serve private personal knowledge on-device. This includes private incremental KG construction, cross-device knowledge sync, and global knowledge enrichment. | 翻訳日:2023-05-17 14:50:22 公開日:2023-05-16 |
# 教師学生方式とマルチスペクトログラムを用いた音響シーン分類のための低複雑深層学習フレームワーク Low-complexity deep learning frameworks for acoustic scene classification using teacher-student scheme and multiple spectrograms ( http://arxiv.org/abs/2305.09463v1 ) ライセンス: Link先を確認 | Lam Pham, Dat Ngo, Cam Le, Anahid Jalali, Alexander Schindler | (参考訳) 本稿では,音響シーン分類(ASC)のための低複雑さ深層学習システムについて述べる。
提案システムは,教師のネットワークを訓練する(Phase I)と,教師の知識を蒸留して学生のネットワークを訓練する(Phase II)の2つの段階から構成される。
第1フェーズでは、大きな足跡モデルを示す教師がトレーニングされます。
教師を訓練した後、教師の第2最終層の特徴マップである埋め込みを抽出する。
第2フェーズでは、複雑性の低いモデルを示す学生ネットワークが、教師から抽出された埋め込みを使って訓練される。
DCASE 2023 Task 1 Developmentデータセットで実施した実験は,低複雑さの要件を満たすとともに,57.4%の分類精度を達成し,DCASEベースラインを14.5%向上させた。 In this technical report, a low-complexity deep learning system for acoustic scene classification (ASC) is presented. The proposed system comprises two main phases: (Phase I) Training a teacher network; and (Phase II) training a student network using distilled knowledge from the teacher. In the first phase, the teacher, which presents a large footprint model, is trained. After training the teacher, the embeddings, which are the feature map of the second last layer of the teacher, are extracted. In the second phase, the student network, which presents a low complexity model, is trained with the embeddings extracted from the teacher. Our experiments conducted on DCASE 2023 Task 1 Development dataset have fulfilled the requirement of low-complexity and achieved the best classification accuracy of 57.4%, improving DCASE baseline by 14.5%. | 翻訳日:2023-05-17 14:50:05 公開日:2023-05-16 |
# Google Research Football Multi-Adnt シナリオに関する実証的研究 An Empirical Study on Google Research Football Multi-agent Scenarios ( http://arxiv.org/abs/2305.09458v1 ) ライセンス: Link先を確認 | Yan Song, He Jiang, Zheng Tian, Haifeng Zhang, Yingping Zhang, Jiangcheng Zhu, Zonghong Dai, Weinan Zhang, Jun Wang, | (参考訳) Google Research Football(GRF)のマルチエージェント強化学習(MARL)研究は,11v11マルチエージェントフルゲームシナリオと私たちの知る限りでは,このシナリオに関するオープンベンチマークは公開されていない。
本研究では,マルチエージェント・フットボールシナリオにおける人口ベースのmarlトレーニングパイプラインとハイパーパラメータ設定を提供することで,200万ステップ以内でボットをスクラッチから1.0に上回り,そのギャップを埋める。
実験は,各エージェントが様々なトレーニング構成において独立して独自のポリシーを最大化しようとする,最先端のマルチエージェント強化学習アルゴリズムであるippo(independent proximal policy optimization)の期待性能の基準となる。
一方,我々はトレーニングフレームワークLight-MALibをオープンソースとして公開し,MALibのコードベースを拡張した。
最後に、人口ベースのトレーニングで強力なサッカーAIを構築するためのガイダンスを提供し、ベンチマークのための様々な事前訓練されたポリシーをリリースする。
目標は、GRFで実験する人のためのヘッドスタートと、セルフプレイを通じてエージェントをさらに改善するためのシンプルな人口ベースのトレーニングフレームワークを提供することだ。
実装はhttps://github.com/Shanghai-Digital-Brain-Laboratory/DB-Footballで公開されている。 Few multi-agent reinforcement learning (MARL) research on Google Research Football (GRF) focus on the 11v11 multi-agent full-game scenario and to the best of our knowledge, no open benchmark on this scenario has been released to the public. In this work, we fill the gap by providing a population-based MARL training pipeline and hyperparameter settings on multi-agent football scenario that outperforms the bot with difficulty 1.0 from scratch within 2 million steps. Our experiments serve as a reference for the expected performance of Independent Proximal Policy Optimization (IPPO), a state-of-the-art multi-agent reinforcement learning algorithm where each agent tries to maximize its own policy independently across various training configurations. Meanwhile, we open-source our training framework Light-MALib which extends the MALib codebase by distributed and asynchronized implementation with additional analytical tools for football games. Finally, we provide guidance for building strong football AI with population-based training and release diverse pretrained policies for benchmarking. The goal is to provide the community with a head start for whoever experiment their works on GRF and a simple-to-use population-based training framework for further improving their agents through self-play. The implementation is available at https://github.com/Shanghai-Digital-Brain-Laboratory/DB-Football. | 翻訳日:2023-05-17 14:49:49 公開日:2023-05-16 |
# 相関信念を考慮した最適学習による逐次トランジットネットワーク設計アルゴリズム A sequential transit network design algorithm with optimal learning under correlated beliefs ( http://arxiv.org/abs/2305.09452v1 ) ライセンス: Link先を確認 | Gyugeun Yoon, Joseph Y. J. Chow | (参考訳) モビリティ・サービス・ルートの設計は、サービス領域内の旅行需要によく適応するために潜在的な需要情報を必要とする。
交通プランナーやオペレータは、家庭旅行調査データやモバイルデバイスの位置ログなど、さまざまなデータソースにアクセスすることができる。
しかし,新興技術を用いたモビリティシステムの実装では,ユーザ行動の不確実性が高まり,需要レベルの推定が困難になる。
そこで本研究では,逐次トランジットネットワーク設計と最適学習を組み合わせた人工知能駆動アルゴリズムを提案する。
オペレータは、設計されたルートと実際の旅行需要との矛盾からリスクを避けるために、徐々にルートシステムを拡張します。
同時に、観測された情報をアーカイブして、オペレータが現在使用している知識を更新する。
アルゴリズム内の3つの学習方針を比較する:マルチアームバンディット、知識勾配、知識勾配と相関した信念。
検証のために、新しいルートシステムは、ニューヨーク市の公用マイクロデータエリアに基づく人工ネットワークに基づいて設計されている。
地域家庭旅行調査データから事前知識を再現する。
その結果,相関関係を考慮した探索は,一般の欲望選択よりも優れた性能が得られることが示唆された。
今後の作業では、移動時間に対する需要弾力性、転送数に制限がないこと、拡張のコストなど、より複雑な問題を取り込むことができる。 Mobility service route design requires potential demand information to well accommodate travel demand within the service region. Transit planners and operators can access various data sources including household travel survey data and mobile device location logs. However, when implementing a mobility system with emerging technologies, estimating demand level becomes harder because of more uncertainties with user behaviors. Therefore, this study proposes an artificial intelligence-driven algorithm that combines sequential transit network design with optimal learning. An operator gradually expands its route system to avoid risks from inconsistency between designed routes and actual travel demand. At the same time, observed information is archived to update the knowledge that the operator currently uses. Three learning policies are compared within the algorithm: multi-armed bandit, knowledge gradient, and knowledge gradient with correlated beliefs. For validation, a new route system is designed on an artificial network based on public use microdata areas in New York City. Prior knowledge is reproduced from the regional household travel survey data. The results suggest that exploration considering correlations can achieve better performance compared to greedy choices in general. In future work, the problem may incorporate more complexities such as demand elasticity to travel time, no limitations to the number of transfers, and costs for expansion. | 翻訳日:2023-05-17 14:49:26 公開日:2023-05-16 |
# 拡散モデルを用いた半監督超音波画像分割のための多レベルグローバルコンテキスト交差一貫性モデル Multi-Level Global Context Cross Consistency Model for Semi-Supervised Ultrasound Image Segmentation with Diffusion Model ( http://arxiv.org/abs/2305.09447v1 ) ライセンス: Link先を確認 | Fenghe Tang, Jianrui Ding, Lingtao Wang, Min Xian, Chunping Ning | (参考訳) 医用画像分割はコンピュータ支援診断において重要なステップであり、畳み込みニューラルネットワークは現在では一般的なセグメンテーションネットワークである。
しかし, 局所手術の特徴は, 異なる位置, 形状, 大きさの病変のグローバルな文脈情報に焦点を合わせることが困難である。
半教師付き学習はラベル付きサンプルとラベルなしサンプルの両方から学ぶことができ、手動ラベリングの負担を軽減することができる。
しかし、医療シナリオにおいて多数のラベルのない画像を得ることは依然として困難である。
そこで本研究では,遅延拡散モデル(ldm)が生成する画像を半教師あり学習のためのラベルなし画像として利用する多レベルグローバルコンテキスト・クロスコンシスタンス(mgcc)フレームワークを提案する。
フレームワークは2つのステージから構成される。
第1段階では、ldmを使用して合成医療画像を生成し、データアノテーションのワークロードを削減し、医療データ収集に関連するプライバシ上の懸念に対処する。
第2段階では、補助デコーダの入力に、グローバルコンテキストノイズの変動レベルを追加し、デコーダ間の出力一貫性を維持して表現能力を向上させる。
オープンソース乳房超音波および民間甲状腺超音波データを用いた実験により,医療画像の確率分布と意味表現の橋渡しにおける枠組みの有効性が示された。
本稿では,確率分布知識をセグメント化ネットワークへ効果的に伝達することにより,セグメント化精度の向上を図る。
コードはhttps://github.com/fenghetan9/multi-level global-context-cross-consistencyで入手できる。 Medical image segmentation is a critical step in computer-aided diagnosis, and convolutional neural networks are popular segmentation networks nowadays. However, the inherent local operation characteristics make it difficult to focus on the global contextual information of lesions with different positions, shapes, and sizes. Semi-supervised learning can be used to learn from both labeled and unlabeled samples, alleviating the burden of manual labeling. However, obtaining a large number of unlabeled images in medical scenarios remains challenging. To address these issues, we propose a Multi-level Global Context Cross-consistency (MGCC) framework that uses images generated by a Latent Diffusion Model (LDM) as unlabeled images for semi-supervised learning. The framework involves of two stages. In the first stage, a LDM is used to generate synthetic medical images, which reduces the workload of data annotation and addresses privacy concerns associated with collecting medical data. In the second stage, varying levels of global context noise perturbation are added to the input of the auxiliary decoder, and output consistency is maintained between decoders to improve the representation ability. Experiments conducted on open-source breast ultrasound and private thyroid ultrasound datasets demonstrate the effectiveness of our framework in bridging the probability distribution and the semantic representation of the medical image. Our approach enables the effective transfer of probability distribution knowledge to the segmentation network, resulting in improved segmentation accuracy. The code is available at https://github.com/FengheTan9/Multi-Level Global-Context-Cross-Consistency. | 翻訳日:2023-05-17 14:49:07 公開日:2023-05-16 |
# 確率的距離に基づく外乱検出 Probabilistic Distance-Based Outlier Detection ( http://arxiv.org/abs/2305.09446v1 ) ライセンス: Link先を確認 | David Muhr, Michael Affenzeller, Josef K\"ung | (参考訳) 距離に基づく外れ値検出手法のスコアは解釈が難しいため、追加のコンテキストなしで通常のデータポイントと外れ値の切断しきい値を決定することは困難である。
本稿では,距離ベース外れ値の一般変換を解釈可能な確率的推定に記述する。
この変換はランキング安定であり、通常のデータポイントと外れ値のデータポイントのコントラストを増加させる。
データポイント間の距離関係を決定するには、データ内の最寄りのneighbor関係を識別する必要があるが、計算された距離のほとんどが破棄される。
距離確率分布をモデル化するために他のデータポイントへの距離を使用でき、その後、分布を用いて距離ベースのアウトリーチスコアをオフリー確率に変換する。
実験の結果,確率変換は多数の表と画像のベンチマークデータに比較して検出性能に影響を与えず,通常のサンプルと外値のコントラストが増大し,解釈可能な外値スコアが得られた。
本研究は, 広範囲な距離ベース外乱検出手法に一般化され, 既存の距離計算が用いられているため, 計算オーバーヘッドが大幅に増大しない。 The scores of distance-based outlier detection methods are difficult to interpret, making it challenging to determine a cut-off threshold between normal and outlier data points without additional context. We describe a generic transformation of distance-based outlier scores into interpretable, probabilistic estimates. The transformation is ranking-stable and increases the contrast between normal and outlier data points. Determining distance relationships between data points is necessary to identify the nearest-neighbor relationships in the data, yet, most of the computed distances are typically discarded. We show that the distances to other data points can be used to model distance probability distributions and, subsequently, use the distributions to turn distance-based outlier scores into outlier probabilities. Our experiments show that the probabilistic transformation does not impact detection performance over numerous tabular and image benchmark datasets but results in interpretable outlier scores with increased contrast between normal and outlier samples. Our work generalizes to a wide range of distance-based outlier detection methods, and because existing distance computations are used, it adds no significant computational overhead. | 翻訳日:2023-05-17 14:48:38 公開日:2023-05-16 |
# MPI-rical:データ駆動型MPI分散並列処理支援 MPI-rical: Data-Driven MPI Distributed Parallelism Assistance with Transformers ( http://arxiv.org/abs/2305.09438v1 ) ライセンス: Link先を確認 | Nadav Schneider, Tal Kadosh, Niranjan Hasabnis, Timothy Mattson, Yuval Pinter, Gal Oren | (参考訳) 共有および分散メモリシステムのためのシリアルコードのソース間自動並列化は、高性能コンピューティングにおいて難しい課題である。
シリアルコードを共有メモリ環境(通常openmpを使用する)のために並列コードに変換する多くの試みが行われたが、分散メモリ環境ではそうはならなかった。
本稿では,約25,000個のシリアルコードスニペットと対応する5万以上のコードスニペット(MPICodeCorpus)でトレーニングされたトランスフォーマベースモデルを用いて,MPI-ricalと呼ばれる新しいMPIコード生成手法を提案する。
モデルの性能を評価するために、まずシリアルコードをMPIベースの並列コード変換問題に分解し、2つのサブプロブレムに分割し、ソースコード中の与えられた位置として定義されたコード補完、その位置のためのMPI関数の予測、ソースコード内の位置とともにMPI関数の予測として定義されたコード翻訳の2つの研究目標を開発する。
MPICodeCorpusデータセットと実世界の科学的コードベンチマークでMPI-ricalを評価し、コード補完と翻訳タスクのパフォーマンスを比較した。
実験の結果、MPI-ricalはコード翻訳タスクよりもコード補完タスクの方が優れているが、後者は実世界のプログラミング支援に適しており、ツールは事前の知識に関係なくMPI関数の必要性を示唆している。
全体として、我々のアプローチは、分散メモリシステムのためのシリアルコードの並列化を自動化するための重要な一歩であり、ソフトウェア開発者や研究者にとって貴重な時間とリソースを節約できます。
この作業で使用されたソースコードと他の関連するソースは、https://github.com/Scientific-Computing-Lab-NRCN/MPI-rical.comで公開されている。 Automatic source-to-source parallelization of serial code for shared and distributed memory systems is a challenging task in high-performance computing. While many attempts were made to translate serial code into parallel code for a shared memory environment (usually using OpenMP), none has managed to do so for a distributed memory environment. In this paper, we propose a novel approach, called MPI-rical, for automated MPI code generation using a transformer-based model trained on approximately 25,000 serial code snippets and their corresponding parallelized MPI code out of more than 50,000 code snippets in our corpus (MPICodeCorpus). To evaluate the performance of the model, we first break down the serial code to MPI-based parallel code translation problem into two sub-problems and develop two research objectives: code completion defined as given a location in the source code, predict the MPI function for that location, and code translation defined as predicting an MPI function as well as its location in the source code. We evaluate MPI-rical on MPICodeCorpus dataset and on real-world scientific code benchmarks and compare its performance between the code completion and translation tasks. Our experimental results show that while MPI-rical performs better on the code completion task than the code translation task, the latter is better suited for real-world programming assistance, in which the tool suggests the need for an MPI function regardless of prior knowledge. Overall, our approach represents a significant step forward in automating the parallelization of serial code for distributed memory systems, which can save valuable time and resources for software developers and researchers. The source code used in this work, as well as other relevant sources, are available at: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rical | 翻訳日:2023-05-17 14:48:20 公開日:2023-05-16 |
# 教育用誤報ゲームの有効性 Efficacy of Educational Misinformation Games ( http://arxiv.org/abs/2305.09429v1 ) ライセンス: Link先を確認 | William Shi | (参考訳) 今日の社会では誤情報が重要な問題となり、ソーシャルメディアや伝統的なニュースソースなど様々なメディアを通じて誤情報の拡散が起きている。
誤情報の急速な拡散は、人々が真実とフィクションを区別することがますます難しくなっており、これは個人や社会全体に重大な害をもたらす可能性がある。
さらに、現在、インターネット教育に関する情報ギャップが存在しており、アメリカの多くの学校は、インターネットの危険性について、特に政治分野の誤情報に関して、学生に適切な教育を行う人材やリソースを持っていない。
誤った情報の危険性に対処するため、一部のゲーム開発者は、プレイヤーに問題を教育し、批判的な思考スキルを開発する手助けをするビデオゲームを開発した。
これらのゲームは、共有する前に情報を検証することの重要性に対する意識を高めるために使用できる。
そうすることで、誤情報の拡散を減少させ、より情報や認識の深い大衆を促進できる。
また、プレイヤーに安全で制御された環境を提供し、これらのスキルを実践し、情報を評価する能力に自信を持てる。
しかし、これらの既存のゲームは、誤報が人内の偏見をどのように効果的に利用しているかを適切に解決できないことや、高度なチャットボットやディープフェイクのような近代技術の進化によって、個人が誤報に対してさらに脆弱になったことなど、様々な欠点に悩まされることが多い。
本研究の目的は,この情報ギャップに対処する教育用誤報ゲームを作成し,その教育ツールとしての有効性を検証し,空間における過去のゲームの設計を反復することである。 Misinformation has become a significant issue in today's society, with the proliferation of false information through various mediums such as social media and traditional news sources. The rapid spread of misinformation has made it increasingly difficult for people to separate truth from fiction, and this has the potential to cause significant harm to individuals and society as a whole. In addition, there currently exists an information gap with regard to internet education, with many schools across America not having the teaching personnel nor resources to adequately educate their students about the dangers of the internet, specifically with regard to misinformation in the political sphere. To address the dangers of misinformation, some game developers have created video games that aim to educate players on the issue and help them develop critical thinking skills. These games can be used to raise awareness about the importance of verifying information before sharing it. By doing so, they can help reduce the spread of misinformation and promote a more informed and discerning public. They can also provide players with a safe and controlled environment to practice these skills and build confidence in their ability to evaluate information. However, these existing games often suffer from various shortcomings such as failing to adequately address how misinformation specifically exploits the biases within people to be effective and rarely covering how evolving modern technologies like sophisticated chatbots and deep fakes have made individuals even more vulnerable to misinformation. The purpose of this study is to create an educational misinformation game to address this information gap and investigate its efficacy as an educational tool while also iterating on the designs for previous games in the space. | 翻訳日:2023-05-17 14:47:45 公開日:2023-05-16 |
# SHM問題はいつマルチタスク学習問題なのか? When is an SHM problem a Multi-Task-Learning problem? ( http://arxiv.org/abs/2305.09425v1 ) ライセンス: Link先を確認 | Sarah Bee, Lawrence Bull, Nikolas Dervilis, Keith Worden | (参考訳) マルチタスクニューラルネットワークはタスクを同時に学習し、個々のタスクパフォーマンスを改善する。
マルチタスク学習(MTL)には3つのメカニズムがあり、構造的健康モニタリング(SHM)の文脈で研究されている。
(i)複数の業務の自然発生
(ii)出力を入力として用いること(人口ベースのscm(pbshm)の最近の研究と関連づけられること)
(iii)異なる洞察を提供する追加の損失関数。
MTLのこれらの問題設定については、それぞれ詳細と例を挙げる。 Multi-task neural networks learn tasks simultaneously to improve individual task performance. There are three mechanisms of multi-task learning (MTL) which are explored here for the context of structural health monitoring (SHM): (i) the natural occurrence of multiple tasks; (ii) using outputs as inputs (both linked to the recent research in population-based SHM (PBSHM)); and, (iii) additional loss functions to provide different insights. Each of these problem settings for MTL is detailed and an example is given. | 翻訳日:2023-05-17 14:47:18 公開日:2023-05-16 |
# ブラッグパルス列のコヒーレントエンハンスメントによる原子干渉計測 Atom interferometry with coherent enhancement of Bragg pulse sequences ( http://arxiv.org/abs/2305.09507v1 ) ライセンス: Link先を確認 | Ashley B\'eguin, Tangui Rodzinka, L\'eo Calmels, Baptiste Allard, Alexandre Gauguet | (参考訳) 本稿では,ブラッグ遷移列に基づく大運動量移動原子光学を用いた光パルス原子干渉計の実現について報告する。
超低温原子干渉計で200個の光子反動を分離する運動量を示す。
ビームスプリッタの大幅な効率向上につながる損失の破壊的干渉のメカニズムを強調した。
擬似ブラッグパルスの固有マルチポート特性による寄生干渉計の包括的研究を行う。
最後に,位相シフトの強化を実験的に検証し,干渉計の可視性損失を特徴付ける。 We report here on the realization of light-pulse atom interferometers with Large-momentum-transfer atom optics based on a sequence of Bragg transitions. We demonstrate momentum splitting up to 200 photon recoils in an ultra-cold atom interferometer. We highlight a new mechanism of destructive interference of the losses leading to a sizeable efficiency enhancement of the beam splitters. We perform a comprehensive study of parasitic interferometers due to the inherent multi-port feature of the quasi-Bragg pulses. Finally, we experimentally verify the phase shift enhancement and characterize the interferometer visibility loss. | 翻訳日:2023-05-17 14:40:25 公開日:2023-05-16 |
# 自然言語における過程の定量的記述のためのファジィ・テンポラリ・プロトフォーム Fuzzy Temporal Protoforms for the Quantitative Description of Processes in Natural Language ( http://arxiv.org/abs/2305.09506v1 ) ライセンス: Link先を確認 | Yago Fontenla-Seco, Alberto Bugar\'in-Diz and Manuel Lama | (参考訳) 本稿では,プロセスの量的および定性的な自然言語記述の自動生成の枠組みとして,ファジィな時間的プロトフォームを提案する。
このモデルは、プロセスや属性からの時間的および因果的な情報を含み、プロセス寿命の時間的特性を定量化し、イベント間の因果関係や時間的距離をリコールする。
プロセスマイニング技術とファジィセットを通常のData-to-Textアーキテクチャに統合することにより,プロセスから時間的・時間的・構造的情報を抽出し,不確実な用語を含む自然言語で記述することができる。
心臓科領域における実際のユースケースを示し、ドメインの専門家に自然言語の説明を提供するモデルの可能性を示す。 In this paper, we propose a series of fuzzy temporal protoforms in the framework of the automatic generation of quantitative and qualitative natural language descriptions of processes. The model includes temporal and causal information from processes and attributes, quantifies attributes in time during the process life-span and recalls causal relations and temporal distances between events, among other features. Through integrating process mining techniques and fuzzy sets within the usual Data-to-Text architecture, our framework is able to extract relevant quantitative temporal as well as structural information from a process and describe it in natural language involving uncertain terms. A real use-case in the cardiology domain is presented, showing the potential of our model for providing natural language explanations addressed to domain experts. | 翻訳日:2023-05-17 14:40:19 公開日:2023-05-16 |
# 畳み込みニューラルネットワークにおけるコンテンツ適応型ダウンサンプリング Content-Adaptive Downsampling in Convolutional Neural Networks ( http://arxiv.org/abs/2305.09504v1 ) ライセンス: Link先を確認 | Robin Hesse, Simone Schaub-Meyer, Stefan Roth | (参考訳) 多くの畳み込みニューラルネットワーク(cnns)は、ネットワークの受容場を増加させ、計算コストを下げるために、機能マップの漸進的なダウンサンプリングに依存している。
しかし、これは機能マップの粒度を失う価格で、画像を正確に理解したり、密集した予測タスクで詳細を復元する能力を制限する。
これに対処するために、cnnにおける最後のいくつかのダウンサンプリング操作を拡張畳み込みに置き換え、レセプティブフィールドを減少させることなく、計算コストを増加させることなく特徴マップの解像度を維持することが一般的である。
これにより、アウトプット機能の解像度に応じて、予測パフォーマンスとコストのトレードオフが可能になる。
機能マップ全体を定期的にダウンサンプリングするか、あるいはダウンサンプリングしないかによって、既存の作業は、入力画像とその後の機能マップのすべての領域を、一般的には保持されない同じくらい重要なものとして暗黙的に扱う。
提案手法は,情報領域をより高分解能で処理することで,上記の概念を一般化した適応型ダウンサンプリング方式を提案する。
様々な実験において、適応型ダウンサンプリング戦略の汎用性を示し、様々な確立されたcnnのコスト正確性トレードオフを改善することを実証的に示した。 Many convolutional neural networks (CNNs) rely on progressive downsampling of their feature maps to increase the network's receptive field and decrease computational cost. However, this comes at the price of losing granularity in the feature maps, limiting the ability to correctly understand images or recover fine detail in dense prediction tasks. To address this, common practice is to replace the last few downsampling operations in a CNN with dilated convolutions, allowing to retain the feature map resolution without reducing the receptive field, albeit increasing the computational cost. This allows to trade off predictive performance against cost, depending on the output feature resolution. By either regularly downsampling or not downsampling the entire feature map, existing work implicitly treats all regions of the input image and subsequent feature maps as equally important, which generally does not hold. We propose an adaptive downsampling scheme that generalizes the above idea by allowing to process informative regions at a higher resolution than less informative ones. In a variety of experiments, we demonstrate the versatility of our adaptive downsampling strategy and empirically show that it improves the cost-accuracy trade-off of various established CNNs. | 翻訳日:2023-05-17 14:40:06 公開日:2023-05-16 |
# alcオントロジーのための汎用モジュールの効率的な計算(拡張版) Efficient Computation of General Modules for ALC Ontologies (Extended Version) ( http://arxiv.org/abs/2305.09503v1 ) ライセンス: Link先を確認 | Hui Yang, Patrick Koopmann, Yue Ma and Nicole Bidoit | (参考訳) 本稿では,記述論理alcで定式化されたオントロジーの一般モジュールを抽出する手法を提案する。
オントロジーの加群(英: module for a ontology)は、理想的にはより小さいオントロジーである。
そのため、オントロジーの再利用やオントロジー分析のような応用がある。
古典的加群と異なり、一般加群は入力オントロジーに明示的に存在しない公理を用いて、さらなる簡潔性を実現することができる。
これまでのところ、一般的なモジュールは軽量な記述論理のためにのみ研究されている。
本稿では,より表現豊かな記述論理 alc を考える最初の作品を紹介する。
特に,新しい理論結果が支持する一様補間に基づく新しい手法が提案されている。
評価の結果, 一般加群は古典加群よりも小さく, 最先端で計算された一様補間と一様補間を比較すれば, かなり短い時間で計算できることがわかった。
さらに,本手法は,一様補間子と古典モジュールの計算に利用でき,実際に改良されている。 We present a method for extracting general modules for ontologies formulated in the description logic ALC. A module for an ontology is an ideally substantially smaller ontology that preserves all entailments for a user-specified set of terms. As such, it has applications such as ontology reuse and ontology analysis. Different from classical modules, general modules may use axioms not explicitly present in the input ontology, which allows for additional conciseness. So far, general modules have only been investigated for lightweight description logics. We present the first work that considers the more expressive description logic ALC. In particular, our contribution is a new method based on uniform interpolation supported by some new theoretical results. Our evaluation indicates that our general modules are often smaller than classical modules and uniform interpolants computed by the state-of-the-art, and compared with uniform interpolants, can be computed in a significantly shorter time. Moreover, our method can be used for, and in fact improves, the computation of uniform interpolants and classical modules. | 翻訳日:2023-05-17 14:39:44 公開日:2023-05-16 |
# 動的振幅推定とPiecewise Approximate Quantum Compilingによるエネルギーリスク解析 Energy risk analysis with Dynamic Amplitude Estimation and Piecewise Approximate Quantum Compiling ( http://arxiv.org/abs/2305.09501v1 ) ライセンス: Link先を確認 | Kumar J. B. Ghosh, Kavitha Yogaraj, Gabriele Agliardi, Piergiacomo Sabino, Marina Fern\'andez-Campoamor, Juan Bernab\'e-Moreno, Giorgio Cortiana, Omar Shehab, Corey O'Meara | (参考訳) 我々は、近似量子コンパイルアルゴリズムを、広いターゲット量子回路の処理に適する新しいcnot分解法に一般化する。
この手法と, 誤差軽減と回路コンパイルの最先端技術を組み合わせることで, 量子コンピュータ上での反復振幅推定の10量子ビット実験例を示す。
対象とするアプリケーションは、エネルギー産業における契約ポートフォリオの期待価値の導出である。
並行して,量子デバイスの動的回路能力に基づく動的振幅推定と呼ぶ量子振幅推定アルゴリズムの新たな変種を導入する。
このアルゴリズムは、量子振幅推定の典型的な実装と比較して、二進精度の順番で回路幅を減少させ、同時に、反復振幅推定と比較して量子古典的な反復数(二進精度の順)を減少させる。
量子ハードウェア上での契約ポートフォリオの期待値、VaR、CVaRの計算は、新しいアルゴリズムの原理の証明となる。 We generalize the Approximate Quantum Compiling algorithm into a new method for CNOT-depth reduction, which is apt to process wide target quantum circuits. Combining this method with state-of-the-art techniques for error mitigation and circuit compiling, we present a 10-qubit experimental demonstration of Iterative Amplitude Estimation on a quantum computer. The target application is the derivation of the Expected Value of contract portfolios in the energy industry. In parallel, we also introduce a new variant of the Quantum Amplitude Estimation algorithm which we call Dynamic Amplitude Estimation, as it is based on the dynamic circuit capability of quantum devices. The algorithm achieves a reduction in the circuit width in the order of the binary precision compared to the typical implementation of Quantum Amplitude Estimation, while simultaneously decreasing the number of quantum-classical iterations (again in the order of the binary precision) compared to the Iterative Amplitude Estimation. The calculation of the Expected Value, VaR and CVaR of contract portfolios on quantum hardware provides a proof of principle of the new algorithm. | 翻訳日:2023-05-17 14:39:25 公開日:2023-05-16 |
# 対比ラベル強調 Contrastive Label Enhancement ( http://arxiv.org/abs/2305.09500v1 ) ライセンス: Link先を確認 | Yifei Wang, Yiyang Zhou, Jihua Zhu, Xinyuan Liu, Wenbiao Yan and Zhiqiang Tian | (参考訳) ラベル分散学習(LDL)はラベル曖昧性を解決するための新しい機械学習パラダイムである。
ラベル分布を直接取得することは困難であるため、多くの研究はラベル拡張(le)と呼ばれる論理ラベルからラベル分布を回復する方法に焦点を当てている。
既存のle法は、単に論理ラベルの監督下で特徴とラベル分布のマッピング関係を構築することによってラベル分布を推定する。
彼らは通常、機能と論理ラベルが異なるビューからのインスタンスの記述であるという事実を見落としている。
そこで本研究では,特徴と論理ラベルを統一投影空間に統合し,コントラスト学習戦略により高レベル特徴を生成するコントラストラベル強調法(conle)を提案する。
このアプローチでは、同じサンプルに属する特徴と論理ラベルが近づき、異なるサンプルのラベルはプロジェクション空間において互いに遠くに投影される。
その後,ラベル属性の一貫性を考慮したよく設計されたトレーニング戦略により,得られた高レベル特徴を活用してラベル分布を得る。
LDLベンチマークデータセットの大規模な実験により,本手法の有効性と優位性を示した。 Label distribution learning (LDL) is a new machine learning paradigm for solving label ambiguity. Since it is difficult to directly obtain label distributions, many studies are focusing on how to recover label distributions from logical labels, dubbed label enhancement (LE). Existing LE methods estimate label distributions by simply building a mapping relationship between features and label distributions under the supervision of logical labels. They typically overlook the fact that both features and logical labels are descriptions of the instance from different views. Therefore, we propose a novel method called Contrastive Label Enhancement (ConLE) which integrates features and logical labels into the unified projection space to generate high-level features by contrastive learning strategy. In this approach, features and logical labels belonging to the same sample are pulled closer, while those of different samples are projected farther away from each other in the projection space. Subsequently, we leverage the obtained high-level features to gain label distributions through a welldesigned training strategy that considers the consistency of label attributes. Extensive experiments on LDL benchmark datasets demonstrate the effectiveness and superiority of our method. | 翻訳日:2023-05-17 14:39:09 公開日:2023-05-16 |
# Curious Rhythms: ウィキペディア消費の時間的規則性 Curious Rhythms: Temporal Regularities of Wikipedia Consumption ( http://arxiv.org/abs/2305.09497v1 ) ライセンス: Link先を確認 | Tiziano Piccardi, Martin Gerlach, Robert West | (参考訳) wikipediaは世界最大の百科事典としての役割を担っており、幅広い情報のニーズに応えている。
以前の研究では、ウィキペディアの利用者の情報は一日を通じて異なるとされてきたが、基礎となるダイナミクスに関する大規模で定量的な研究は、今日まで行われていない。
本稿では,英語ウィキペディアのサーバログから抽出した数十億件のタイムゾーン補正ページ要求を大規模に分析し,その状況と時間が消費情報の種類とどのように関連しているかを調査することで,このギャップを埋める。
まず,昼夜交代のグローバルパターンを取り除いた後も,個々の物品の消費習慣が強い日内規則性を維持していることを示す。
次に,消費パターンの原型的形状を特徴とし,特に夕方・夜間に好む物品と勤務時間に好まれる物品とを区別する。
最後に,wikipedia記事のアクセスリズムのトピックと文脈の相関について検討し,記事のトピック,読者の国,アクセスデバイス(モバイルとデスクトップ)が毎日の注意パターンの重要な予測要因であることを見出した。
これらの発見は、知識と学習のための最大のオープンプラットフォームであるwikipediaに焦点をあてて、人々がweb上で情報を求める方法に新たな光を当て、wikipediaが一日を通して情報のニーズを満たすリッチな知識ベースとしての役割を強調し、世界中の情報を理解し、適切な情報システムを設計することを示唆した。 Wikipedia, in its role as the world's largest encyclopedia, serves a broad range of information needs. Although previous studies have noted that Wikipedia users' information needs vary throughout the day, there is to date no large-scale, quantitative study of the underlying dynamics. The present paper fills this gap by investigating temporal regularities in daily consumption patterns in a large-scale analysis of billions of timezone-corrected page requests mined from English Wikipedia's server logs, with the goal of investigating how context and time relate to the kind of information consumed. First, we show that even after removing the global pattern of day-night alternation, the consumption habits of individual articles maintain strong diurnal regularities. Then, we characterize the prototypical shapes of consumption patterns, finding a particularly strong distinction between articles preferred during the evening/night and articles preferred during working hours. Finally, we investigate topical and contextual correlates of Wikipedia articles' access rhythms, finding that article topic, reader country, and access device (mobile vs. desktop) are all important predictors of daily attention patterns. These findings shed new light on how humans seek information on the Web by focusing on Wikipedia as one of the largest open platforms for knowledge and learning, emphasizing Wikipedia's role as a rich knowledge base that fulfills information needs spread throughout the day, with implications for understanding information seeking across the globe and for designing appropriate information systems. | 翻訳日:2023-05-17 14:38:48 公開日:2023-05-16 |
# NN系光等化器の非線形活性化関数のハードウェア化 Hardware Realization of Nonlinear Activation Functions for NN-based Optical Equalizers ( http://arxiv.org/abs/2305.09495v1 ) ライセンス: Link先を確認 | Sasipim Srivallapanondh, Pedro J. Freire, Antonio Napoli, Sergei K. Turitsyn, Jaroslaw E. Prilepsky | (参考訳) ニューラルネットワークを用いた光チャネルイコライザのハードウェア実装の複雑さを軽減するため、近似活性化関数を持つbilstmイコライザの性能は、元のモデルに近いことを実証する。 To reduce the complexity of the hardware implementation of neural network-based optical channel equalizers, we demonstrate that the performance of the biLSTM equalizer with approximated activation functions is close to that of the original model. | 翻訳日:2023-05-17 14:37:58 公開日:2023-05-16 |
# 宇宙天気研究のための太陽活動領域磁図画像データセット Solar Active Region Magnetogram Image Dataset for Studies of Space Weather ( http://arxiv.org/abs/2305.09492v1 ) ライセンス: Link先を確認 | Laura E. Boucheron, Ty Vincent, Jeremy A. Grajeda, Ellery Wuest | (参考訳) このデータセットでは、NASAのソーラー・ダイナミクス・オブザーバ(Solar Dynamics Observatory, SDO)から、磁気グラム(磁場の強さを定量化するイメージ)の包括的なコレクションを提供しています。
このデータセットは、3つのソースからのデータを組み込んで、太陽活動領域(大磁束の領域、一般的には噴火イベントの源)のsdo helioseismic and magnetic imager (hmi)磁図と対応するフレリング活性のラベルを提供する。
このデータセットは、磁気構造、時間経過に伴う進化、太陽フレアとの関係に関する画像解析や太陽物理学の研究に有用である。
このデータセットは、教師付きおよび教師なしの機械学習(古典的および深層)、バイナリとマルチクラスの分類、回帰を含む、自動的な太陽フレア予測方法を研究する研究者にとって興味深い。
このデータセットは、太陽フレア予測研究のベンチマークデータセットとして機能する、太陽活動領域の一貫した大きさの画像による、最小限の処理とユーザ設定が可能なデータセットである。 In this dataset we provide a comprehensive collection of magnetograms (images quantifying the strength of the magnetic field) from the National Aeronautics and Space Administration's (NASA's) Solar Dynamics Observatory (SDO). The dataset incorporates data from three sources and provides SDO Helioseismic and Magnetic Imager (HMI) magnetograms of solar active regions (regions of large magnetic flux, generally the source of eruptive events) as well as labels of corresponding flaring activity. This dataset will be useful for image analysis or solar physics research related to magnetic structure, its evolution over time, and its relation to solar flares. The dataset will be of interest to those researchers investigating automated solar flare prediction methods, including supervised and unsupervised machine learning (classical and deep), binary and multi-class classification, and regression. This dataset is a minimally processed, user configurable dataset of consistently sized images of solar active regions that can serve as a benchmark dataset for solar flare prediction research. | 翻訳日:2023-05-17 14:37:51 公開日:2023-05-16 |
# シンボリック音楽生成のための離散拡散確率モデル Discrete Diffusion Probabilistic Models for Symbolic Music Generation ( http://arxiv.org/abs/2305.09489v1 ) ライセンス: Link先を確認 | Matthias Plasser, Silvan Peter, Gerhard Widmer | (参考訳) Denoising Diffusion Probabilistic Models (DDPM) は、離散領域と連続領域の両方で高品質なサンプルを生成するために大きな進歩を遂げた。
しかし、離散DDPM(D3PM)はシンボリック・ミュージックの領域にはまだ適用されていない。
本研究はD3PMを用いたポリフォニックシンボリック音楽の直接生成について述べる。
本モデルは,現在の定量的評価基準により,最先端のサンプル品質を示し,ノートレベルでの柔軟なインフィル化を可能にする。
さらに、本モデルがポストホック分類器のガイダンスにアクセスできることを示し、アプリケーションの範囲を広げる。
しかし,音楽サンプルの品質の定量的評価について,統計的指標を用いて批判的な見解を提示し,完全に刺激的な非音楽サンプルでメトリクスを導出する簡単なアルゴリズムを提案する。 Denoising Diffusion Probabilistic Models (DDPMs) have made great strides in generating high-quality samples in both discrete and continuous domains. However, Discrete DDPMs (D3PMs) have yet to be applied to the domain of Symbolic Music. This work presents the direct generation of Polyphonic Symbolic Music using D3PMs. Our model exhibits state-of-the-art sample quality, according to current quantitative evaluation metrics, and allows for flexible infilling at the note level. We further show, that our models are accessible to post-hoc classifier guidance, widening the scope of possible applications. However, we also cast a critical view on quantitative evaluation of music sample quality via statistical metrics, and present a simple algorithm that can confound our metrics with completely spurious, non-musical samples. | 翻訳日:2023-05-17 14:37:20 公開日:2023-05-16 |
# 微分可能な非線形最小二乗による対応不確かさの学習 Learning Correspondence Uncertainty via Differentiable Nonlinear Least Squares ( http://arxiv.org/abs/2305.09527v1 ) ライセンス: Link先を確認 | Dominik Muhle, Lukas Koestler, Krishna Murthy Jatavallabhula, Daniel Cremers | (参考訳) 特徴対応から相対ポーズ推定を行う際の不確実性を考慮した,微分可能な非線形最小二乗フレームワークを提案する。
具体的には,確率論的正規極性制約の対称バージョンを導入し,カメラポーズ推定手法を用いて特徴位置の共分散を推定する手法を提案する。
我々は、KITTIおよびEuRoC実世界のデータセットと同様に、我々の合成に対するアプローチを評価する。
合成データセットでは,学習した共分散が真の雑音分布を正確に近似していることを確認する。
実世界実験では, 特徴抽出アルゴリズムによらず, 最先端の非確率的, 確率的アプローチを一貫して上回っていることがわかった。 We propose a differentiable nonlinear least squares framework to account for uncertainty in relative pose estimation from feature correspondences. Specifically, we introduce a symmetric version of the probabilistic normal epipolar constraint, and an approach to estimate the covariance of feature positions by differentiating through the camera pose estimation procedure. We evaluate our approach on synthetic, as well as the KITTI and EuRoC real-world datasets. On the synthetic dataset, we confirm that our learned covariances accurately approximate the true noise distribution. In real world experiments, we find that our approach consistently outperforms state-of-the-art non-probabilistic and probabilistic approaches, regardless of the feature extraction algorithm of choice. | 翻訳日:2023-05-17 14:31:54 公開日:2023-05-16 |
# SCTracker:形状と信頼性の制約のある多物体追跡 SCTracker: Multi-object tracking with shape and confidence constraints ( http://arxiv.org/abs/2305.09523v1 ) ライセンス: Link先を確認 | Huan Mao, Yulin Chen, Zongtan Li, Feng Chen, Pingping Chen | (参考訳) 検出に基づくトラッキングは、マルチオブジェクト追跡の主要な方法の1つである。
優れた検出器を使用する場合、良好な追跡結果が得られるが、重なりや低い信頼度検出に対して間違ったターゲットを関連付ける可能性がある。
この問題に対処するため,本稿では形状制約と信頼性に基づくマルチオブジェクトトラッカsctrackerを提案する。
データアソシエーション段階では、形状制約付き結合距離の交点を適用して、トラックと検出の間のコストマトリックスを算出し、類似位置と矛盾する形状の間違ったターゲットへのトラック追跡を効果的に回避し、データアソシエーションの精度を向上させる。
また、検出信頼度に基づくカルマンフィルタを用いて動作状態を更新し、検出信頼度が低い場合にトラッキング性能を向上させる。
mot 17データセットにおける実験結果は,提案手法がマルチオブジェクト追跡のトラッキング性能を効果的に向上することを示す。 Detection-based tracking is one of the main methods of multi-object tracking. It can obtain good tracking results when using excellent detectors but it may associate wrong targets when facing overlapping and low-confidence detections. To address this issue, this paper proposes a multi-object tracker based on shape constraint and confidence named SCTracker. In the data association stage, an Intersection of Union distance with shape constraints is applied to calculate the cost matrix between tracks and detections, which can effectively avoid the track tracking to the wrong target with the similar position but inconsistent shape, so as to improve the accuracy of data association. Additionally, the Kalman Filter based on the detection confidence is used to update the motion state to improve the tracking performance when the detection has low confidence. Experimental results on MOT 17 dataset show that the proposed method can effectively improve the tracking performance of multi-object tracking. | 翻訳日:2023-05-17 14:31:41 公開日:2023-05-16 |
# DLUE: ドキュメント言語理解のベンチマーク DLUE: Benchmarking Document Language Understanding ( http://arxiv.org/abs/2305.09520v1 ) ライセンス: Link先を確認 | Ruoxi Xu, Hongyu Lin, Xinyan Guan, Xianpei Han, Yingfei Sun, Le Sun | (参考訳) ドキュメントを理解することは、多くの現実世界のタスクの中心であるが、依然として難しいトピックである。
残念ながら、文書理解能力の総合的な評価方法に関する明確なコンセンサスはなく、公正な比較やフィールドの進捗測定を著しく妨げている。
文書理解研究をベンチマークするために,文書分類,文書構造解析,文書情報抽出,文書転写という4つの代表的な能力について概説する。
新しい評価フレームワークでは、さまざまな形式、ドメイン、文書ジャンルの幅広いタスクをカバーする新しいタスクスイートである \textbf{document language understanding evaluation} -- \textbf{dlue} を提案する。
また,dlue上で確立された6つのトランスフォーマーモデルを体系的に評価し,長い内容,複雑な構造,分散した知識により,文書理解はまだ解決に至らず,現在,すべてのタスクを支配するニューラルネットワークは存在せず,普遍的な文書理解アーキテクチャの要件を提起している。 Understanding documents is central to many real-world tasks but remains a challenging topic. Unfortunately, there is no well-established consensus on how to comprehensively evaluate document understanding abilities, which significantly hinders the fair comparison and measuring the progress of the field. To benchmark document understanding researches, this paper summarizes four representative abilities, i.e., document classification, document structural analysis, document information extraction, and document transcription. Under the new evaluation framework, we propose \textbf{Document Language Understanding Evaluation} -- \textbf{DLUE}, a new task suite which covers a wide-range of tasks in various forms, domains and document genres. We also systematically evaluate six well-established transformer models on DLUE, and find that due to the lengthy content, complicated underlying structure and dispersed knowledge, document understanding is still far from being solved, and currently there is no neural architecture that dominates all tasks, raising requirements for a universal document understanding architecture. | 翻訳日:2023-05-17 14:31:24 公開日:2023-05-16 |
# NISQはどこへ向かっていますか。 Where are we heading with NISQ? ( http://arxiv.org/abs/2305.09518v1 ) ライセンス: Link先を確認 | Olivier Ezratty | (参考訳) 2017年、ジョン・プレスキル(John Preskill)は、NISQ(Noisy Intermediate Scale Quantum)コンピュータを大規模なエラー修正故障耐性量子コンピュータ(FTQC)への中間ステップとして定義した。
NISQレシエーションは、従来のスーパーコンピュータよりも高速な商用価値の実際の問題を解決する可能性を持つノイズの多い量子コンピュータに対応している。
5年以上経った今、状況を見直すのがよい時期だ。
量子ハードウェアとアルゴリズム、そして最近の多くの実験的なデモで急速に進歩している一方で、NISQの当初の定義に合致したユースケースの実装は成功していない。
本稿は, NISQアルゴリズムの空間, 忠実度, 時間的資源について検討し, NISQ要求と現実, 将来の量子ハードウェア機能との矛盾点を強調した。
次に、量子ビットフィデリティの改善、様々な種類の量子エラー緩和方法、アナログ/デジタルハイブリッド化、マルチモード光子のような特定の量子ビットタイプ、および量子アンネラやアナログ量子コンピュータ(量子シミュレータやプログラム可能なハミルトンシミュレータ)など、有用なアプリケーションを提供するのに近づきつつある。
これらのさまざまなソリューションのすべての制約を考えると、nisqシステムの実用的なユースケースを期待することは可能だが、さまざまなスケーリング問題が現れる前には、非常に狭いウィンドウがある。
将来的には、nisqがftqcへの道の中間的なステップであるとは限らない、というシナリオを想定できる。
その代わり、両者は異なる要求によって異なる経路に沿って発展する可能性がある。
このことは、将来の量子コンピュータ設計において、量子ビットスケールと量子ビットフィリティの間のトレードオフについて重要な疑問を提起する。 In 2017, John Preskill defined Noisy Intermediate Scale Quantum (NISQ) computers as an intermediate step on the road to large scale error corrected fault-tolerant quantum computers (FTQC). The NISQ regime corresponds to noisy qubit quantum computers with the potential to solve actual problems of some commercial value faster than conventional supercomputers, or consuming less energy. Over five years on, it is a good time to review the situation. While rapid progress is being made with quantum hardware and algorithms, and many recent experimental demonstrations, no one has yet successfully implemented a use case matching the original definition of the NISQ regime. This paper investigates the space, fidelity and time resources of various NISQ algorithms and highlights several contradictions between NISQ requirements and actual as well as future quantum hardware capabilities. It then covers various techniques which could help like qubit fidelities improvements, various breeds of quantum error mitigation methods, analog/digital hybridization, using specific qubit types like multimode photons as well as quantum annealers and analog quantum computers (aka quantum simulators or programmable Hamiltonian simulators) which seem closer to delivering useful applications although they have their own mid to longer-term scalability challenges. Given all the constraints of these various solutions, it seems possible to expect some practical use cases for NISQ systems, but with a very narrow window before various scaling issues show up. Turning to the future, a scenario can be envisioned where NISQ will not necessarily be an intermediate step on the road to FTQC. Instead, the two may develop along different paths, due to their different requirements. This leaves open a key question on the trade-offs that may be necessary to make between qubit scale and qubit fidelities in future quantum computers designs. | 翻訳日:2023-05-17 14:31:07 公開日:2023-05-16 |
# AR拡散:テキスト生成のための自己回帰拡散モデル AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation ( http://arxiv.org/abs/2305.09515v1 ) ライセンス: Link先を確認 | Tong Wu, Zhihao Fan, Xiao Liu, Yeyun Gong, Yelong Shen, Jian Jiao, Hai-Tao Zheng, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen | (参考訳) 拡散モデルはその優れた性能のために画像生成の分野で大きな注目を集めている。
彼らの成功は、シーケンス内のすべてのトークンを同時生成することで、最近テキスト生成に拡大された。
しかし、自然言語は画像と比較してはるかに顕著な依存性を示しており、既存の言語モデルは左から右への自己回帰アプローチを用いて訓練されている。
自然言語の固有な逐次特性を考慮し,自己回帰拡散(AR-Diffusion)を導入する。
AR拡散(AR-Diffusion)は、右のトークンの生成が左の生成されたトークンに依存することを保証します。
この結果、左のトークンは右のトークンよりもデノイングステップが少ないため、より早く生成でき、その後右のトークンの生成に影響を与える。
テキスト要約、機械翻訳、常識生成を含む様々なテキスト生成タスクに関する一連の実験で、ar-diffusionは既存の拡散言語モデルよりも優れていることを明確に証明し、同等の結果を得るには100\times\sim600\times$であることを示した。
私たちのコードは公開されます。 Diffusion models have gained significant attention in the realm of image generation due to their exceptional performance. Their success has been recently expanded to text generation via generating all tokens within a sequence concurrently. However, natural language exhibits a far more pronounced sequential dependency in comparison to images, and the majority of existing language models are trained utilizing a left-to-right auto-regressive approach. To account for the inherent sequential characteristic of natural language, we introduce Auto-Regressive Diffusion (AR-Diffusion). AR-Diffusion ensures that the generation of tokens on the right depends on the generated ones on the left, a mechanism achieved through employing a dynamic number of denoising steps that vary based on token position. This results in tokens on the left undergoing fewer denoising steps than those on the right, thereby enabling them to generate earlier and subsequently influence the generation of tokens on the right. In a series of experiments on various text generation tasks including text summarization, machine translation, and common sense generation, AR-Diffusion clearly demonstrated the superiority over existing diffusion language models and that it can be $100\times\sim600\times$ faster when achieving comparable results. Our code will be publicly released. | 翻訳日:2023-05-17 14:30:36 公開日:2023-05-16 |
# light-vqa:低光度ビデオエンハンスメントのための多次元品質評価モデル Light-VQA: A Multi-Dimensional Quality Assessment Model for Low-Light Video Enhancement ( http://arxiv.org/abs/2305.09512v1 ) ライセンス: Link先を確認 | Yunlong Dong, Xiaohong Liu, Yixuan Gao, Xunchu Zhou, Tao Tan, Guangtao Zhai | (参考訳) 近年,UGC(Users Generated Content)ビデオが日常的に普及している。
しかし、写真機器や技術が限られているため、UGCビデオには様々な劣化があり、最も視覚的に好ましくない効果の1つが露出不足である。
そこで,低照度映像強調 (LLVE) などの対応する映像強調アルゴリズムが,特定の劣化に対処するために提案されている。
しかし、ビデオエンハンスメントアルゴリズムとは異なり、既存のビデオ品質アセスメント(VQA)モデルのほとんどは、包括的視点からビデオの品質を測定するために特別ではなく、一般的に構築されている。
我々の知る限り、LLVEアルゴリズムによって強化されたビデオ用に特別に設計されたVQAモデルは存在しない。
この目的のために,まず,2,060本のLLVEアルゴリズムを用いて,254本のオリジナル低照度映像を収集し,拡張する低照度映像改善品質評価(LLVE-QA)データセットを構築した。
また, LLVEに特化した品質評価モデルであるLight-VQAを提案する。
より具体的には、明るさと雑音が低照度VQAに与える影響が最も大きいため、我々は対応する特徴を手作りし、空間情報全体として深層学習に基づく意味的特徴と統合する。
時間情報に関しては,深層学習に基づく動作特徴に加えて,映像フレーム間の手作りの輝度の一貫性や,時間情報全体の結合性についても検討した。
その後、空間情報と時間情報を融合して映像の品質認識表現を得る。
LLVE-QAおよび公開データセット上での現在のステートオフ・ザ・アート(SOTA)に対して,我々のLight-VQAが最高の性能を発揮することを示す。
DatasetとCodesはhttps://github.com/wenzhouyidu/Light-VQAで見ることができる。 Recently, Users Generated Content (UGC) videos becomes ubiquitous in our daily lives. However, due to the limitations of photographic equipments and techniques, UGC videos often contain various degradations, in which one of the most visually unfavorable effects is the underexposure. Therefore, corresponding video enhancement algorithms such as Low-Light Video Enhancement (LLVE) have been proposed to deal with the specific degradation. However, different from video enhancement algorithms, almost all existing Video Quality Assessment (VQA) models are built generally rather than specifically, which measure the quality of a video from a comprehensive perspective. To the best of our knowledge, there is no VQA model specially designed for videos enhanced by LLVE algorithms. To this end, we first construct a Low-Light Video Enhancement Quality Assessment (LLVE-QA) dataset in which 254 original low-light videos are collected and then enhanced by leveraging 8 LLVE algorithms to obtain 2,060 videos in total. Moreover, we propose a quality assessment model specialized in LLVE, named Light-VQA. More concretely, since the brightness and noise have the most impact on low-light enhanced VQA, we handcraft corresponding features and integrate them with deep-learning-based semantic features as the overall spatial information. As for temporal information, in addition to deep-learning-based motion features, we also investigate the handcrafted brightness consistency among video frames, and the overall temporal information is their concatenation. Subsequently, spatial and temporal information is fused to obtain the quality-aware representation of a video. Extensive experimental results show that our Light-VQA achieves the best performance against the current State-Of-The-Art (SOTA) on LLVE-QA and public dataset. Dataset and Codes can be found at https://github.com/wenzhouyidu/Light-VQA. | 翻訳日:2023-05-17 14:30:15 公開日:2023-05-16 |
# Hasofer-Lind信頼性指数問題に対するハイブリッド進化アルゴリズムの極限挙動 Limit-behavior of a hybrid evolutionary algorithm for the Hasofer-Lind reliability index problem ( http://arxiv.org/abs/2305.09511v1 ) ライセンス: Link先を確認 | Gon\c{c}alo das Neves Carneiro (1), Carlos Concei\c{c}\~ao Ant\'onio (1) ((1) INEGI/LAETA Faculty of Engineering, University of Porto) | (参考訳) 確率論的構造力学において、ハソファー・リンド信頼指数問題(hasofer-lind reliability index problem)は、点から曲面までの最小距離を求めるパラダイム的等式制約問題である。
実用工学的な問題では、そのような曲面は暗黙的に定義され、境界値問題の解を必要とする。
近年, 遺伝的修復と領域拡大機構 (g. g.) を併用したハイブリッド型マイクロジェネティックアルゴリズム (hmga) が文献に提案されている。
das neves carneiro, c. concei\c{c}\~ao ant\'onio, "進化アルゴリズムによる暗黙の複合積層構造のグローバル最適信頼性指数" struct saf, vol.
79, pp. 54-65, 2019)。
HmGAの極限挙動について検討し,アルゴリズムの収束定理を示す。
遺伝的修復が条件的に安定なメカニズムであることが証明され,その収束モードが議論されている。
マルコフ連鎖解析に基づいて、HmGAの確率1との収束条件が与えられ、議論される。 In probabilistic structural mechanics, the Hasofer-Lind reliability index problem is a paradigmatic equality constrained problem of searching for the minimum distance from a point to a surface. In practical engineering problems, such surface is defined implicitly, requiring the solution of a boundary-value problem. Recently, it was proposed in the literature a hybrid micro-genetic algorithm (HmGA), with mixed real-binary genotype and novel deterministic operators for equality-constraint handling, namely the Genetic Repair and Region Zooming mechanisms (G. das Neves Carneiro and C. Concei\c{c}\~ao Ant\'onio, "Global optimal reliability index of implicit composite laminate structures by evolutionary algorithms", Struct Saf, vol. 79, pp. 54-65, 2019). We investigate the limit-behavior of the HmGA and present the convergence theorems for the algorithm. It is proven that Genetic Repair is a conditionally stable mechanism, and its modes of convergence are discussed. Based on a Markov chain analysis, the conditions for the convergence with probability 1 of the HmGA are given and discussed. | 翻訳日:2023-05-17 14:29:44 公開日:2023-05-16 |
# 実時間マルチオブジェクト3次元形状再構成, 6DoFポス推定, ディエンスグラフ予測 Real-time Simultaneous Multi-Object 3D Shape Reconstruction, 6DoF Pose Estimation and Dense Grasp Prediction ( http://arxiv.org/abs/2305.09510v1 ) ライセンス: Link先を確認 | Shubham Agrawal, Nikhil Chavan-Dafle, Isaac Kasahara, Selim Engin, Jinwook Huh, Volkan Isler | (参考訳) 複雑な環境で動作するロボット操作システムは、シーン内のオブジェクトの形状(位置と3d形状)に関する情報と、オブジェクトラベルなどの他の意味情報を提供する知覚システムに依存している。
この情報は、関連するオブジェクトの可能な把握を選択するために使用される。
本稿では,シーン内の全てのオブジェクトの幾何学的・意味的な情報と,それらのオブジェクトを同時に把握するための新しい手法を提案する。
提案手法の主な利点は, 逐次認識や計画手順の把握を避けるため, その速度である。
詳細な定量的解析により,本手法は,物体形状,ポーズ,把握のための最先端の専用手法と比較して,高速な推論を毎秒30フレームで実現し,競争力を発揮することを示す。 Robotic manipulation systems operating in complex environments rely on perception systems that provide information about the geometry (pose and 3D shape) of the objects in the scene along with other semantic information such as object labels. This information is then used for choosing the feasible grasps on relevant objects. In this paper, we present a novel method to provide this geometric and semantic information of all objects in the scene as well as feasible grasps on those objects simultaneously. The main advantage of our method is its speed as it avoids sequential perception and grasp planning steps. With detailed quantitative analysis, we show that our method delivers competitive performance compared to the state-of-the-art dedicated methods for object shape, pose, and grasp predictions while providing fast inference at 30 frames per second speed. | 翻訳日:2023-05-17 14:29:16 公開日:2023-05-16 |
# クロスドメインアスペクトに基づく知覚分析のための双方向生成フレームワーク Bidirectional Generative Framework for Cross-domain Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2305.09509v1 ) ライセンス: Link先を確認 | Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing | (参考訳) クロスドメインアスペクトベースの感情分析(ABSA)は、ソースドメインから知識を伝達することで、ターゲットドメイン上で様々なきめ細かい感情分析タスクを実行することを目的としている。
ラベル付きデータはソースドメインにのみ存在するため、モデルはクロスドメインABSAに取り組むためにドメインギャップを橋渡しすることが期待される。
ドメイン適応法は有効であることが証明されているが、そのほとんどは識別モデルに基づいており、異なるABSAタスクのために特別に設計する必要がある。
より汎用的なソリューションとして,多様なドメイン間ABSAタスクに対処する統合双方向生成フレームワークを提案する。
具体的には、テキストからラベルまでの方向とラベルからテキストへの方向の両方で生成モデルを訓練する。
前者は各タスクを統一形式に変換してドメインに依存しない特徴を学習し、後者はデータ拡張のためにノイズラベルから自然な文を生成し、より正確なモデルを訓練することができる。
本フレームワークの有効性と汎用性を検討するため,4つのクロスドメインABSAタスクについて広範な実験を行い,すべてのタスクについて最新の結果を示す。
我々のデータとコードは、 \url{https://github.com/DAMO-NLP-SG/BGCA}で公開されています。 Cross-domain aspect-based sentiment analysis (ABSA) aims to perform various fine-grained sentiment analysis tasks on a target domain by transferring knowledge from a source domain. Since labeled data only exists in the source domain, a model is expected to bridge the domain gap for tackling cross-domain ABSA. Though domain adaptation methods have proven to be effective, most of them are based on a discriminative model, which needs to be specifically designed for different ABSA tasks. To offer a more general solution, we propose a unified bidirectional generative framework to tackle various cross-domain ABSA tasks. Specifically, our framework trains a generative model in both text-to-label and label-to-text directions. The former transforms each task into a unified format to learn domain-agnostic features, and the latter generates natural sentences from noisy labels for data augmentation, with which a more accurate model can be trained. To investigate the effectiveness and generality of our framework, we conduct extensive experiments on four cross-domain ABSA tasks and present new state-of-the-art results on all tasks. Our data and code are publicly available at \url{https://github.com/DAMO-NLP-SG/BGCA}. | 翻訳日:2023-05-17 14:29:03 公開日:2023-05-16 |
# 確率と因果関係に関する推論の難しさ The Hardness of Reasoning about Probabilities and Causality ( http://arxiv.org/abs/2305.09508v1 ) ライセンス: Link先を確認 | Benito van der Zander and Markus Bl\"aser and Maciej Li\'skiewicz | (参考訳) 本稿では,計算複雑性の観点から,量的確率論的推論と因果関係推論を完全表現できる形式言語について検討する。
我々は、確率的および因果推論において多くのタスクを表現できる例式を満足度問題に焦点をあてる。
この研究の主な貢献は、これらの満足度問題の正確な計算複雑性を確立することである。
我々は、よく研究されたクラス $\exists$R の簡潔な変種と見なすことができる succ$\exists$R という新しい自然複雑性クラスを導入し、我々が考える問題は succ$\exists$R に対して完備であることを示す。
我々の結果は、確率的および因果推論で一般的に使用される標準言語の変種に対して、Fagin, Halpern, Megiddo (1990) と Moss\'{e}, Ibeling, Icard (2022) が証明したよりも強いアルゴリズム的制限を示唆している。 We study formal languages which are capable of fully expressing quantitative probabilistic reasoning and do-calculus reasoning for causal effects, from a computational complexity perspective. We focus on satisfiability problems whose instance formulas allow expressing many tasks in probabilistic and causal inference. The main contribution of this work is establishing the exact computational complexity of these satisfiability problems. We introduce a new natural complexity class, named succ$\exists$R, which can be viewed as a succinct variant of the well-studied class $\exists$R, and show that the problems we consider are complete for succ$\exists$R. Our results imply even stronger algorithmic limitations than were proven by Fagin, Halpern, and Megiddo (1990) and Moss\'{e}, Ibeling, and Icard (2022) for some variants of the standard languages used commonly in probabilistic and causal inference. | 翻訳日:2023-05-17 14:28:45 公開日:2023-05-16 |
# ハイブリッド注意を伴う脳波に基づく睡眠ステージング EEG-based Sleep Staging with Hybrid Attention ( http://arxiv.org/abs/2305.09543v1 ) ライセンス: Link先を確認 | Xinliang Zhou, Chenyu Liu, Jiaping Xiao and Yang Liu | (参考訳) 睡眠ステージングは睡眠品質の評価と睡眠障害の診断に重要である。
しかし、異なる睡眠段階における脳波(eeg)信号の空間的・時間的関係を捉えることは困難である。
本稿では,Hybrid Attention EEG Sleep Staging (HASS) Frameworkと呼ばれる新しいフレームワークを提案する。
具体的には、睡眠段階の異なる脳の時空間関係に基づいて、チャネル間およびチャネル内脳波セグメントに重みを適応的に割り当てる、よく設計された時空間的注意機構を提案する。
MASSとISRUCデータセットの実験結果は、HASSが典型的な睡眠ステージネットワークを大幅に改善できることを示している。
提案フレームワークは,睡眠時における脳波信号の空間的・時間的関係の把握の難しさを軽減し,臨床および研究環境における睡眠評価の精度と信頼性の向上を約束する。 Sleep staging is critical for assessing sleep quality and diagnosing sleep disorders. However, capturing both the spatial and temporal relationships within electroencephalogram (EEG) signals during different sleep stages remains challenging. In this paper, we propose a novel framework called the Hybrid Attention EEG Sleep Staging (HASS) Framework. Specifically, we propose a well-designed spatio-temporal attention mechanism to adaptively assign weights to inter-channels and intra-channel EEG segments based on the spatio-temporal relationship of the brain during different sleep stages. Experiment results on the MASS and ISRUC datasets demonstrate that HASS can significantly improve typical sleep staging networks. Our proposed framework alleviates the difficulties of capturing the spatial-temporal relationship of EEG signals during sleep staging and holds promise for improving the accuracy and reliability of sleep assessment in both clinical and research settings. | 翻訳日:2023-05-17 14:20:58 公開日:2023-05-16 |
# 悪性黒色腫の診断信頼度の向上 : 畳み込みネットワークによる病変の学習 Increasing Melanoma Diagnostic Confidence: Forcing the Convolutional Network to Learn from the Lesion ( http://arxiv.org/abs/2305.09542v1 ) ライセンス: Link先を確認 | Norsang Lama, R. Joe Stanley, Anand Nambisan, Akanksha Maurya, Jason Hagerty, William V. Stoecker | (参考訳) 畳み込みネットワークアーキテクチャで実装されたディープラーニングは、専門家の診断精度を超える可能性がある。
しかしながら、与えられたデータセットでトレーニングされた画像全体のディープラーニングは、他のデータセットに一般化することはない。
この問題は、支配者マーク、インクマーク、その他のメラノーマが情報漏洩として機能するためである。
これらの余分な特徴は、ヒートマップによって発見され、メラノーマの診断性能が低下し、あるデータセットで学習された技術が一般化しない原因となる。
EfficientNetモデルによりメラノーマ認識を改善する新しい手法を提案する。
モデルはネットワークを訓練して病変を検出し、検出された病変から特徴を学習する。
病変を囲む楕円体と拡張長方形(バウンディングボックス)で囲む楕円体を用いて,病変の一般的な楕円分節モデルを開発した。
最小限のバウンディングボックスは、病変の周囲の背景を許容するために20%拡張された。
提案手法の有効性を評価するために,isic(international skin imaging collaboration) 2020 skin lesion image datasetを用いた。
実験の結果,提案手法は受信機動作特性曲線の平均値(平均AUC)を0.9から0.922に高め,診断精度を向上した。
さらに、正しく診断されたスコアも改善され、スコアの分離が改善され、メラノーマの診断信頼性が向上する。
提案された病変中心の畳み込み技術はさらなる研究を保証している。 Deep learning implemented with convolutional network architectures can exceed specialists' diagnostic accuracy. However, whole-image deep learning trained on a given dataset may not generalize to other datasets. The problem arises because extra-lesional features - ruler marks, ink marks, and other melanoma correlates - may serve as information leaks. These extra-lesional features, discoverable by heat maps, degrade melanoma diagnostic performance and cause techniques learned on one data set to fail to generalize. We propose a novel technique to improve melanoma recognition by an EfficientNet model. The model trains the network to detect the lesion and learn features from the detected lesion. A generalizable elliptical segmentation model for lesions was developed, with an ellipse enclosing a lesion and the ellipse enclosed by an extended rectangle (bounding box). The minimal bounding box was extended by 20% to allow some background around the lesion. The publicly available International Skin Imaging Collaboration (ISIC) 2020 skin lesion image dataset was used to evaluate the effectiveness of the proposed method. Our test results show that the proposed method improved diagnostic accuracy by increasing the mean area under receiver operating characteristic curve (mean AUC) score from 0.9 to 0.922. Additionally, correctly diagnosed scores are also improved, providing better separation of scores, thereby increasing melanoma diagnostic confidence. The proposed lesion-focused convolutional technique warrants further study. | 翻訳日:2023-05-17 14:20:45 公開日:2023-05-16 |
# 単一スピンによるグラフェン-ダイヤモンド界面のセンシング軌道ハイブリダイゼーション Sensing orbital hybridization of graphene-diamond interface with a single spin ( http://arxiv.org/abs/2305.09540v1 ) ライセンス: Link先を確認 | Yucheng Hao, Zhiping Yang, Zeyu Li, Xi Kong, Wenna Tang, Tianyu Xie, Shaoyi Xu, Xiangyu Ye, Pei Yu, Pengfei Wang, Ya Wang, Zhenhua Qiao, Libo Gao, Jian-Hua Jiang, Fazhan Shi, Jiangfeng Du | (参考訳) 界面相互作用は様々な分野で重要であり、材料の電気的、磁気的、化学的性質に大きな影響を与える。
その中でも、界面軌道のハイブリッド化は、分散、相互作用、基底状態などの表面電子の性質に基本的な役割を果たす。
走査型トンネル顕微鏡などの界面における電子状態の測定は、いずれも電子の強い摂動に苦しむ電気的相互作用に基づいている。
ここでは、ダイヤモンド中の窒素空孔(NV)中心との弱い磁気相互作用に基づく界面電子の新たな実験的検出を行う。
界面電子の無視摂動により、それらの物理的性質はNVスピンコヒーレンス時間によって明らかにできる。
この系では、界面相互作用は、ダイヤモンド-グラフェン界面における電子スピンの密度とコヒーレンス時間の両方を著しく減少させる。
さらに、電子スピン共鳴スペクトルや第一原理計算とともに、界面電子軌道ハイブリダイゼーションの効果を回収することができる。
本研究は,磁性相互作用の弱い界面電子状態の顕微鏡探査への新たな道を開き,今後の材料界面の研究への新たな道筋を提供する。 Interfacial interactions are crucial in a variety of fields and can greatly affect the electric, magnetic, and chemical properties of materials. Among them, interface orbital hybridization plays a fundamental role in the properties of surface electrons such as dispersion, interaction, and ground states. Conventional measurements of electronic states at interfaces such as scanning tunneling microscopes are all based on electric interactions which, however, suffer from strong perturbation on these electrons. Here we unveil a new experimental detection of interface electrons based on the weak magnetic interactions between them and the nitrogen-vacancy (NV) center in diamond. With negligible perturbation on the interface electrons, their physical properties can be revealed by the NV spin coherence time. In our system, the interface interaction leads to significant decreases in both the density and coherence time of the electron spins at the diamond-graphene interface. Furthermore, together with electron spin resonance spectra and first-principle calculations, we can retrieve the effect of interface electron orbital hybridization. Our study opens a new pathway toward the microscopic probing of interfacial electronic states with weak magnetic interactions and provides a new avenue for future research on material interfaces. | 翻訳日:2023-05-17 14:20:22 公開日:2023-05-16 |
# キーポイント映像理解のための高次オブジェクトインタラクション学習 Learning Higher-order Object Interactions for Keypoint-based Video Understanding ( http://arxiv.org/abs/2305.09539v1 ) ライセンス: Link先を確認 | Yi Huang, Asim Kadav, Farley Lai, Deep Patel, Hans Peter Graf | (参考訳) アクション認識は、シーンアクターとオブジェクト間の複雑な相互作用を学習することで、ビデオ内のアクションを識別する必要がある重要な問題である。
しかし、現代のディープラーニングベースのネットワークは、しばしばかなりの計算を必要とし、計算コストをさらに高める様々なモダリティを用いてシーンコンテキストをキャプチャする。
AR/VRで使用されるような効率的な方法はしばしば人間のキーポイント情報のみを使用するが、精度を損なうシーンコンテキストの喪失に悩まされる。
本稿では,キーポイントデータのみを用いて追跡と行動認識を行うアクションローカライズ手法であるkeynetについて述べる。
具体的には、KeyNetはオブジェクトベースのキーポイント情報を使用してシーンのコンテキストをキャプチャする。
提案手法は,RGB情報を用いることなく,オブジェクトと人間のキーポイントからの高次相互作用をモデル化可能な構造化中間表現の構築方法を示す。
KeyNetは、人間のアクションをわずか5FPSで追跡し分類することができます。
さらに重要なことは、AVAアクションとKineeticsデータセット上のキーポイント情報を使用して、オブジェクトキーポイントをモデル化してコンテキストの損失を回復できることである。 Action recognition is an important problem that requires identifying actions in video by learning complex interactions across scene actors and objects. However, modern deep-learning based networks often require significant computation, and may capture scene context using various modalities that further increases compute costs. Efficient methods such as those used for AR/VR often only use human-keypoint information but suffer from a loss of scene context that hurts accuracy. In this paper, we describe an action-localization method, KeyNet, that uses only the keypoint data for tracking and action recognition. Specifically, KeyNet introduces the use of object based keypoint information to capture context in the scene. Our method illustrates how to build a structured intermediate representation that allows modeling higher-order interactions in the scene from object and human keypoints without using any RGB information. We find that KeyNet is able to track and classify human actions at just 5 FPS. More importantly, we demonstrate that object keypoints can be modeled to recover any loss in context from using keypoint information over AVA action and Kinetics datasets. | 翻訳日:2023-05-17 14:20:05 公開日:2023-05-16 |
# TwitterにおけるジェネレーティブAIの公的な認識: 職業と利用に基づく実証的研究 Public Perception of Generative AI on Twitter: An Empirical Study Based on Occupation and Usage ( http://arxiv.org/abs/2305.09537v1 ) ライセンス: Link先を確認 | Kunihiro Miyazaki, Taichi Murayama, Takayuki Uchiba, Jisun An, Haewoon Kwak | (参考訳) 生成的AIの出現は、あらゆる面で社会に大きな影響を与える可能性があるという大きな議論を引き起こした。
新興技術が進歩を続けるにつれ、社会への適切な統合を促進し、期待や恐れを管理することが不可欠である。
本稿は,2019年1月から2023年3月までのTwitter上での3Mポストを用いた生成AIに対するユーザの認識について検討する。
私たちは、IT関連だけでなく、様々な職種にまたがる人々が、生成AIに強い関心を示していることに気付きました。
生成AIに対する感情は概して肯定的であり、その感情はAIへの露出と肯定的に相関している。
職業の中では、イラストレーターは、主にAI構築におけるアートワークの非倫理的使用に関する懸念から、非常に否定的な感情を示す。
人々は様々な方法でChatGPTを使用し、特にChatGPTを"プレイする"カジュアルな使用法は肯定的な感情と結びつく傾向がある。
ChatGPTのリリース以降、AI全般に対する人々の関心は劇的に高まっているが、最も顕著な増加と肯定的な感情を持つトピックは暗号に関連しており、生成AIの誇大宣伝に値する特徴を示している。
これらの発見は、新しい技術の出現に関する政策立案のための貴重な教訓と、将来のAI共生の考察のための実証的な洞察を提供する。 The emergence of generative AI has sparked substantial discussions, with the potential to have profound impacts on society in all aspects. As emerging technologies continue to advance, it is imperative to facilitate their proper integration into society, managing expectations and fear. This paper investigates users' perceptions of generative AI using 3M posts on Twitter from January 2019 to March 2023, especially focusing on their occupation and usage. We find that people across various occupations, not just IT-related ones, show a strong interest in generative AI. The sentiment toward generative AI is generally positive, and remarkably, their sentiments are positively correlated with their exposure to AI. Among occupations, illustrators show exceptionally negative sentiment mainly due to concerns about the unethical usage of artworks in constructing AI. People use ChatGPT in diverse ways, and notably the casual usage in which they "play with" ChatGPT tends to associate with positive sentiments. After the release of ChatGPT, people's interest in AI in general has increased dramatically; however, the topic with the most significant increase and positive sentiment is related to crypto, indicating the hype-worthy characteristics of generative AI. These findings would offer valuable lessons for policymaking on the emergence of new technology and also empirical insights for the considerations of future human-AI symbiosis. | 翻訳日:2023-05-17 14:19:46 公開日:2023-05-16 |
# 条件付きシェープ値の推定方法と使用時期の比較検討 A Comparative Study of Methods for Estimating Conditional Shapley Values and When to Use Them ( http://arxiv.org/abs/2305.09536v1 ) ライセンス: Link先を確認 | Lars Henry Berge Olsen and Ingrid Kristine Glad and Martin Jullum and Kjersti Aas | (参考訳) shapleyの値は協調ゲーム理論に起源があるが、今日では業界や学界における複雑な機械学習モデルによる予測を説明するためのモデル非依存な説明フレームワークとして広く使われている。
Shapley値説明の異なるバージョンを計算するためのアルゴリズム的なアプローチはいくつかある。
本稿では,表データに適合する予測モデルの条件付きシェープ値に着目した。
非自明な条件予測を推定する必要があるため、正確な条件シェープ値の推定は困難である。
本稿では,新しい手法を開発し,先行提案手法を拡張し,改良および既存手法を異なるメソッドクラスに体系化し,比較・評価を行う。
メソッドクラスはモンテカルロ統合か回帰を使って条件付き期待値をモデル化する。
異なる手法クラスが条件付き期待値と条件付きシャプリー値をどのように正確に推定するかを評価するために,広範囲なシミュレーションを行った。
また,本手法をいくつかの実世界データ実験に適用し,異なるメソッドクラスやアプローチを使用する際の推奨を行う。
大まかに言えば、最も正確なShapley値説明を生成するため、データ分布をほぼ正確に指定できる場合、パラメトリック手法を使うことを推奨する。
分布が不明な場合、生成法と回帰モデルの両方が、基礎となる予測モデルと類似の形式を持つ。
回帰ベースの手法はトレーニングが遅くなることが多いが、一度訓練するとすぐにShapley値の説明が生成される。
モンテカルロをベースとした手法の逆は真であり、異なる方法が異なる状況で適している。 Shapley values originated in cooperative game theory but are extensively used today as a model-agnostic explanation framework to explain predictions made by complex machine learning models in the industry and academia. There are several algorithmic approaches for computing different versions of Shapley value explanations. Here, we focus on conditional Shapley values for predictive models fitted to tabular data. Estimating precise conditional Shapley values is difficult as they require the estimation of non-trivial conditional expectations. In this article, we develop new methods, extend earlier proposed approaches, and systematize the new refined and existing methods into different method classes for comparison and evaluation. The method classes use either Monte Carlo integration or regression to model the conditional expectations. We conduct extensive simulation studies to evaluate how precisely the different method classes estimate the conditional expectations, and thereby the conditional Shapley values, for different setups. We also apply the methods to several real-world data experiments and provide recommendations for when to use the different method classes and approaches. Roughly speaking, we recommend using parametric methods when we can specify the data distribution almost correctly, as they generally produce the most accurate Shapley value explanations. When the distribution is unknown, both generative methods and regression models with a similar form as the underlying predictive model are good and stable options. Regression-based methods are often slow to train but produce the Shapley value explanations quickly once trained. The vice versa is true for Monte Carlo-based methods, making the different methods appropriate in different practical situations. | 翻訳日:2023-05-17 14:19:23 公開日:2023-05-16 |
# 何が問題なのか、Linda?
フェアネス問題としての接続不良 What's the Problem, Linda? The Conjunction Fallacy as a Fairness Problem ( http://arxiv.org/abs/2305.09535v1 ) ライセンス: Link先を確認 | Jose Alvarez Colmenares | (参考訳) 人工知能(AI)の分野は、人間のような知性に可能な限り近い自動意思決定(ADM)システムを作ることに注力している。
この取り組みにより、AI研究者は心理学のような認知分野を探求した。
ダニエル・カーネマン(Daniel Kahneman)とアモス・トヴェルスキー(Amos Tversky)の研究は、共同誤認の研究を含む偏見のある人間の意思決定に関するものである。
合理化の失敗の下では、人間の意思決定者は基本的確率法に反し、その部分の1つよりも協力的になる可能性が高い。
リンダ問題を最も有名な問題とする一連の実験によって、残業が証明されている。
この学際的な取り組みは歓迎されているが、我々はai研究者がリンダ問題によって捉えられた結合誤認の背後にある駆動力を無視していることを恐れている。
本稿では,リンダ問題を再検討し,公平性問題として定式化する。
そこで我々は,構造的因果知覚の枠組みを通して,関心のパラメータとして知覚を導入する。
実証的意思決定例を用いて,提案する概念枠組みとそのfair admシステム開発への潜在的影響について紹介する。 The field of Artificial Intelligence (AI) is focusing on creating automated decision-making (ADM) systems that operate as close as possible to human-like intelligence. This effort has pushed AI researchers into exploring cognitive fields like psychology. The work of Daniel Kahneman and the late Amos Tversky on biased human decision-making, including the study of the conjunction fallacy, has experienced a second revival because of this. Under the conjunction fallacy a human decision-maker will go against basic probability laws and rank as more likely a conjunction over one of its parts. It has been proven overtime through a set of experiments with the Linda Problem being the most famous one. Although this interdisciplinary effort is welcomed, we fear that AI researchers ignore the driving force behind the conjunction fallacy as captured by the Linda Problem: the fact that Linda must be stereotypically described as a woman. In this paper we revisit the Linda Problem and formulate it as a fairness problem. In doing so we introduce perception as a parameter of interest through the structural causal perception framework. Using an illustrative decision-making example, we showcase the proposed conceptual framework and its potential impact for developing fair ADM systems. | 翻訳日:2023-05-17 14:18:59 公開日:2023-05-16 |
# MetaSRL++: より深いセマンティックをモデル化するための統一的なスキーム MetaSRL++: A Uniform Scheme for Modelling Deeper Semantics ( http://arxiv.org/abs/2305.09534v1 ) ライセンス: Link先を確認 | Fritz Hohl, Nianheng Wu, Martina Galetti, Remi van Trijp | (参考訳) 自然言語処理(NLP)の進歩にもかかわらず、我々の分野には共通の深い意味表現スキームがない。
結果として、意味と理解の問題は通常、より単純で近似的な方法によって回避される。
本稿では、そのようなスキームに到達するためには、共通のモデリングスキームも必要であると主張する。
そこで、共通表現スキームへのステップとして、セマンティックグラフに基づく一様で言語に依存しないモデリングスキームであるMetaSRL++と、これらのグラフで使用される概念と実体を定義する方法を紹介した。
私たちの出力は2倍です。
まず、具体的な例を通してMetaSRL++を説明します。
第2に,この分野の既存業務との関連について考察する。 Despite enormous progress in Natural Language Processing (NLP), our field is still lacking a common deep semantic representation scheme. As a result, the problem of meaning and understanding is typically sidestepped through more simple, approximative methods. This paper argues that in order to arrive at such a scheme, we also need a common modelling scheme. It therefore introduces MetaSRL++, a uniform, language- and modality-independent modelling scheme based on Semantic Graphs, as a step towards a common representation scheme; as well as a method for defining the concepts and entities that are used in these graphs. Our output is twofold. First, we illustrate MetaSRL++ through concrete examples. Secondly, we discuss how it relates to existing work in the field. | 翻訳日:2023-05-17 14:18:38 公開日:2023-05-16 |
# NightHazeFormer: 事前クエリ変換器を用いた単一夜間ヘイズ除去 NightHazeFormer: Single Nighttime Haze Removal Using Prior Query Transformer ( http://arxiv.org/abs/2305.09533v1 ) ライセンス: Link先を確認 | Yun Liu, Zhongsheng Yan, Sixiang Chen, Tian Ye, Wenqi Ren and Erkang Chen | (参考訳) 夜間の消光は、光、迷路、ぼやけ、ノイズ、色歪みなど、さまざまな有害な劣化効果があるため、困難な課題である。
しかし, 従来の研究では, 夜間の嫌悪な場面で提示される日中の画像劣化や部分的な劣化が中心であり, 修復に不満足な結果をもたらす可能性がある。
本稿では,夜間ヘイズ除去のためのエンドツーエンドトランスフォーマーフレームワークであるnighthazeformerを提案する。
提案手法は,教師付き事前学習と半教師付き微調整の2段階からなる。
事前学習段階では、トランスフォーマーデコーダに2つの強力なプリエントを導入し、非学習可能なプリエントクエリを生成し、モデルに特定の劣化を抽出するよう指示する。
微調整では,生成した擬似基底真理と実世界の夜間空想画像とをペア画像として組み合わせて合成領域に入力し,事前学習したモデルを微調整する。
この半教師付き微調整パラダイムは、実領域への一般化を改善するのに役立つ。
さらに,実世界の夜間ヘイズシナリオを包括的にシミュレートするUNREAL-NHという大規模合成データセットも提案する。
いくつかの合成および実世界のデータセットに対する大規模な実験は、現状の夜間ヘイズ除去法よりも視覚的および定量的にNightHazeFormerの優位性を示している。 Nighttime image dehazing is a challenging task due to the presence of multiple types of adverse degrading effects including glow, haze, blurry, noise, color distortion, and so on. However, most previous studies mainly focus on daytime image dehazing or partial degradations presented in nighttime hazy scenes, which may lead to unsatisfactory restoration results. In this paper, we propose an end-to-end transformer-based framework for nighttime haze removal, called NightHazeFormer. Our proposed approach consists of two stages: supervised pre-training and semi-supervised fine-tuning. During the pre-training stage, we introduce two powerful priors into the transformer decoder to generate the non-learnable prior queries, which guide the model to extract specific degradations. For the fine-tuning, we combine the generated pseudo ground truths with input real-world nighttime hazy images as paired images and feed into the synthetic domain to fine-tune the pre-trained model. This semi-supervised fine-tuning paradigm helps improve the generalization to real domain. In addition, we also propose a large-scale synthetic dataset called UNREAL-NH, to simulate the real-world nighttime haze scenarios comprehensively. Extensive experiments on several synthetic and real-world datasets demonstrate the superiority of our NightHazeFormer over state-of-the-art nighttime haze removal methods in terms of both visually and quantitatively. | 翻訳日:2023-05-17 14:18:26 公開日:2023-05-16 |
# 有限一次元多バンドフェルミ系におけるスピン電荷相関 Spin-charge correlations in finite one-dimensional multi-band Fermi systems ( http://arxiv.org/abs/2305.09529v1 ) ライセンス: Link先を確認 | J. M. Becker, G. M. Koutentakis, P. Schmelcher | (参考訳) 複数のバンドが占有される三重井に閉じ込められたスピン1/2フェルミ系のスピン電荷分離について検討する。
有限フェルミオン系は、ホールと反対スピンを持つ不純物フェルミオンにドープされている間、完全なスピン偏極に近いと仮定する。
我々の構成では、異なるバンドの粒子間の強磁性結合が伴い、中間相互作用系における強いスピン-輸送相関が発達する。
相互作用は、スピンの不純物井戸における一重項および三重項スピン配置の縮退性を持ち上げるには十分であるが、一重項状態へのホール誘起磁気励起を禁止するには十分ではない。
強いスピンホール相関にもかかわらず、このシステムはスピンチャージ分解を示し、空間とスピンの自由度を長距離に絡める。 We investigate spin-charge separation of a spin-1/2 Fermi system confined in a triple well where multiple bands are occupied. We assume that our finite fermionic system is close to fully spin polarized while being doped by a hole and an impurity fermion with opposite spin. Our setup involves ferromagnetic couplings among the particles in different bands, leading to the development of strong spin-transport correlations in an intermediate interaction regime. Interactions are then strong enough to lift the degeneracy among singlet and triplet spin configurations in the well of the spin impurity but not strong enough to prohibit hole-induced magnetic excitations to the singlet state. Despite the strong spin-hole correlations, the system exhibits spin-charge deconfinement allowing for long-range entanglement of the spatial and spin degrees of freedom. | 翻訳日:2023-05-17 14:18:03 公開日:2023-05-16 |
# UOR: トレーニング済み言語モデルに対するユニバーサルバックドア攻撃 UOR: Universal Backdoor Attacks on Pre-trained Language Models ( http://arxiv.org/abs/2305.09574v1 ) ライセンス: Link先を確認 | Wei Du, Peixuan Li, Boqun Li, Haodong Zhao, Gongshen Liu | (参考訳) 事前訓練された言語モデル(PLM)に組み込まれたバックドアは、さまざまな下流タスクに転送できるため、深刻なセキュリティ上の脅威が生じる。
しかしながら、既存の PLM に対するバックドア攻撃のほとんどは未目標であり、タスク固有のものである。
手動で事前に定義されたトリガーと出力表現を使用しており、攻撃がより効果的で一般的なものになるのを防いでいる。
本稿では,まず,plmに対するより脅迫的なバックドア攻撃を満足すべきという要件を要約するとともに,手動選択を自動最適化にすることで,先行手法のボトルネックを解消する新たなバックドア攻撃手法であるuorを提案する。
具体的には,様々なplmに対してトリガーのより均一で普遍的な出力表現を自動学習できる有毒な教師付きコントラスト学習を定義する。
さらに,異なるplmや語彙に適応可能な適切なトリガワードを選択するために,勾配探索を用いる。
実験により,本手法は手作業に比べて,様々なテキスト分類タスクに対する攻撃性能を向上できることが示された。
さらに,異なるアーキテクチャ,異なる利用パラダイム,より困難なタスクを用いたPLM上で本手法を検証し,本手法の普遍性を実証した。 Backdoors implanted in pre-trained language models (PLMs) can be transferred to various downstream tasks, which exposes a severe security threat. However, most existing backdoor attacks against PLMs are un-targeted and task-specific. Few targeted and task-agnostic methods use manually pre-defined triggers and output representations, which prevent the attacks from being more effective and general. In this paper, we first summarize the requirements that a more threatening backdoor attack against PLMs should satisfy, and then propose a new backdoor attack method called UOR, which breaks the bottleneck of the previous approach by turning manual selection into automatic optimization. Specifically, we define poisoned supervised contrastive learning which can automatically learn the more uniform and universal output representations of triggers for various PLMs. Moreover, we use gradient search to select appropriate trigger words which can be adaptive to different PLMs and vocabularies. Experiments show that our method can achieve better attack performance on various text classification tasks compared to manual methods. Further, we tested our method on PLMs with different architectures, different usage paradigms, and more difficult tasks, which demonstrated the universality of our method. | 翻訳日:2023-05-17 14:12:12 公開日:2023-05-16 |
# AI倫理のウォーキング:組織的課題と倫理起業家のリスクの個別化 Walking the Walk of AI Ethics: Organizational Challenges and the Individualization of Risk among Ethics Entrepreneurs ( http://arxiv.org/abs/2305.09573v1 ) ライセンス: Link先を確認 | Sanna J. Ali, Ang\`ele Christin, Andrew Smart, and Riitta Katila | (参考訳) 技術に対する公的な信頼の低下の中、コンピューティング倫理は中心的な段階に入り、批判者は企業倫理洗浄に関する疑問を提起している。
しかし、テクノロジー企業におけるAI倫理価値の実際の実施について調査する研究はほとんどない。
AI倫理を製品開発に統合する技術労働者の質的な分析に基づいて、労働者はポリシー、プラクティス、成果が分離された環境を経験する。
我々はAI倫理労働者を、組織内の新たな倫理関連プラクティスを制度化するために働く倫理起業家として分析する。
倫理的起業家は、仕事に対する3つの大きな障壁に直面しています。
まず、ソフトウェア製品のローンチを中心とした環境において、倫理を優先することに苦労しています。
第二に、企業の目標がメトリクスによってインセンティブを得ている状況では、倫理は定量化が難しい。
第三に、チームの頻繁な再編成は、知識にアクセスし、仕事の中心的な関係を維持するのを難しくします。
その結果、個人は倫理的な問題を引き起こすとき、特に限界化された背景から来るとき、大きな個人的リスクを負う。
これらの発見は、テクノロジー企業における制度変革の複雑なダイナミクスに光を当てた。 Amidst decline in public trust in technology, computing ethics have taken center stage, and critics have raised questions about corporate ethics washing. Yet few studies examine the actual implementation of AI ethics values in technology companies. Based on a qualitative analysis of technology workers tasked with integrating AI ethics into product development, we find that workers experience an environment where policies, practices, and outcomes are decoupled. We analyze AI ethics workers as ethics entrepreneurs who work to institutionalize new ethics-related practices within organizations. We show that ethics entrepreneurs face three major barriers to their work. First, they struggle to have ethics prioritized in an environment centered around software product launches. Second, ethics are difficult to quantify in a context where company goals are incentivized by metrics. Third, the frequent reorganization of teams makes it difficult to access knowledge and maintain relationships central to their work. Consequently, individuals take on great personal risk when raising ethics issues, especially when they come from marginalized backgrounds. These findings shed light on complex dynamics of institutional change at technology companies. | 翻訳日:2023-05-17 14:11:53 公開日:2023-05-16 |
# Ray-Patch:光電変換器の効率的なデコーダ Ray-Patch: An Efficient Decoder for Light Field Transformers ( http://arxiv.org/abs/2305.09566v1 ) ライセンス: Link先を確認 | T. B. Martins and J. Civera | (参考訳) 本稿では,暗黙の表現をターゲットビューにデコードするトランスフォーマーを効率的にクエリする新しいモデルであるRay-Patchデコーダを提案する。
我々のRay-Patchデコーディングは、計算のフットプリントを従来のモデルに比べて最大2桁まで減らし、グローバルな注目を集めることなく、特定のタスクメトリクスを維持する。
新たなデコーダのキーとなるアイデアは、ターゲット画像をパッチのセットに分割し、各パッチに対してトランスフォーマーに問い合わせて特徴ベクトルのセットを抽出し、最終的に畳み込み層を使ってターゲットイメージにデコードすることです。
提案手法の有効性,特に,ベースラインやデータセットのレンダリング速度および等比タスクメトリクスの大幅な向上について,実験により定量化した。 In this paper we propose the Ray-Patch decoder, a novel model to efficiently query transformers to decode implicit representations into target views. Our Ray-Patch decoding reduces the computational footprint up to two orders of magnitude compared to previous models, without losing global attention, and hence maintaining specific task metrics. The key idea of our novel decoder is to split the target image into a set of patches, then querying the transformer for each patch to extract a set of feature vectors, which are finally decoded into the target image using convolutional layers. Our experimental results quantify the effectiveness of our method, specifically the notable boost in rendering speed and equal specific task metrics for different baselines and datasets. | 翻訳日:2023-05-17 14:11:36 公開日:2023-05-16 |
# 置換型テストによる因果グラフの改ざん Toward Falsifying Causal Graphs Using a Permutation-Based Test ( http://arxiv.org/abs/2305.09565v1 ) ライセンス: Link先を確認 | Elias Eulig, Atalanti A. Mastakouri, Patrick Bl\"obaum, Michaela Hardt, Dominik Janzing | (参考訳) システムの変数間の因果関係を理解することは、その振る舞いを説明し制御することが最重要である。
しかし、介入なしに観測データから因果グラフを推定するには、必ずしも現実的ではない多くの強い仮定が必要である。
ドメインの専門家であっても、因果グラフを表現することは難しい。
したがって、因果グラフの良否を定量的に評価する指標は、下流タスクでそれを使用する前に有用なチェックを提供する。
既存のメトリクスは、グラフと観測データの間に絶対的な数の不整合をもたらし、ベースラインなしでは、そのような不整合がどの程度受け入れられるか、期待されているかという難しい疑問に答える。
本稿では,ノード置換によるサロゲートベースライン構築による新しい一貫性尺度を提案する。
不整合の数をサロゲートベースラインと比較することにより、DAGがランダムに適合するかどうかを推定する解釈可能な計量を導出する。
生物学やクラウドモニタリングなど,さまざまな領域のシミュレーションデータと実データの両方を評価することで,真のDAGが我々の測定値によってファルシフィケートされない一方で,仮説上のユーザによって与えられる誤ったグラフがファルシフィケートされる可能性が示唆された。 Understanding the causal relationships among the variables of a system is paramount to explain and control its behaviour. Inferring the causal graph from observational data without interventions, however, requires a lot of strong assumptions that are not always realistic. Even for domain experts it can be challenging to express the causal graph. Therefore, metrics that quantitatively assess the goodness of a causal graph provide helpful checks before using it in downstream tasks. Existing metrics provide an absolute number of inconsistencies between the graph and the observed data, and without a baseline, practitioners are left to answer the hard question of how many such inconsistencies are acceptable or expected. Here, we propose a novel consistency metric by constructing a surrogate baseline through node permutations. By comparing the number of inconsistencies with those on the surrogate baseline, we derive an interpretable metric that captures whether the DAG fits significantly better than random. Evaluating on both simulated and real data sets from various domains, including biology and cloud monitoring, we demonstrate that the true DAG is not falsified by our metric, whereas the wrong graphs given by a hypothetical user are likely to be falsified. | 翻訳日:2023-05-17 14:11:20 公開日:2023-05-16 |
# 超画素クラスタリングとテンソル補完を用いた画像再構成 Image Reconstruction using Superpixel Clustering and Tensor Completion ( http://arxiv.org/abs/2305.09564v1 ) ライセンス: Link先を確認 | Maame G. Asante-Mensah, Anh Huy Phan, Salman Ahmadi-Asl, Zaher Al Aghbari and Andrzej Cichocki | (参考訳) 本稿では,超画素分割とテンソル補完に基づくコンパクト画像表現のための画素選択法を提案する。
本手法では,重要なテクスチャやセマンティクスを捉えた複数の領域に分割し,各領域から代表画素を選択して保存する。
我々は代表画素を選択するための異なる基準を試行し、セントロイド画素が最良であることを示す。
また,選択した画素から異なる種類の画像を効果的に再構成できる2つの滑らかなテンソル補完アルゴリズムを提案する。
提案手法は,様々な欠落率の均一サンプリングよりも優れた結果が得られることを示す。 This paper presents a pixel selection method for compact image representation based on superpixel segmentation and tensor completion. Our method divides the image into several regions that capture important textures or semantics and selects a representative pixel from each region to store. We experiment with different criteria for choosing the representative pixel and find that the centroid pixel performs the best. We also propose two smooth tensor completion algorithms that can effectively reconstruct different types of images from the selected pixels. Our experiments show that our superpixel-based method achieves better results than uniform sampling for various missing ratios. | 翻訳日:2023-05-17 14:11:01 公開日:2023-05-16 |
# ユニバーサル量子コンピュータにおけるRNA二次構造予測 Predicting RNA Secondary Structure on Universal Quantum Computer ( http://arxiv.org/abs/2305.09561v1 ) ライセンス: Link先を確認 | Ji Jiang, Qipeng Yan, Ye Li, Yahui Chai, Min Lu, Ziwei Cui, Menghan Dou, Qingchun Wang, Yu-Chun Wu and Guo-Ping Guo | (参考訳) RNA構造が塩基配列からどのように折り畳み、その二次構造がどのように形成されるかを知るための最初のステップである。
従来のエネルギーベースのアルゴリズムは、特に非ネストシーケンスでは精度が低いが、学習ベースのアルゴリズムは高品質なトレーニングデータを取得する上で困難に直面している。
近年、量子アニールは二次構造の折り畳みを急速に予測し、量子コンピューティングがこの問題に対する有望な解決策であることを強調している。
しかし、普遍量子コンピューティングのためのゲートモデルアルゴリズムは利用できない。
本稿では,ゲート型量子アルゴリズムについて述べる。これは高い柔軟性を持ち,様々な物理デバイスに適用できる。
二次構造を二次ハミルトニアン状態にマッピングすると、すべての折り畳み過程は二次非制約二元最適化モデルとして記述される。
その後、量子近似最適化アルゴリズムによりモデルを解くことができる。
数値シミュレーションと実験的実現の両方で性能を実証する。
ベンチマークデータセット全体を通して、シミュレーションの結果から、我々の量子アプローチは古典的手法に匹敵する精度を示している。
非ネステッドシーケンスでは、量子アプローチは古典的なエネルギーベースの手法よりも優れている。
また, 実験結果から, 現在のノイズの多いデバイスでは頑健な手法であることが示唆された。
これはRNAの折りたたみ問題に対処するために使われる普遍量子アルゴリズムの最初の例であり、我々の研究はRNAの折りたたみ問題を解決するために普遍量子コンピュータを利用する貴重なモデルを提供する。 It is the first step for understanding how RNA structure folds from base sequences that to know how its secondary structure is formed. Traditional energy-based algorithms are short of precision, particularly for non-nested sequences, while learning-based algorithms face challenges in obtaining high-quality training data. Recently, quantum annealer has rapidly predicted the folding of the secondary structure, highlighting that quantum computing is a promising solution to this problem. However, gate model algorithms for universal quantum computing are not available. In this paper, gate-based quantum algorithms will be presented, which are highly flexible and can be applied to various physical devices. Mapped all possible secondary structure to the state of a quadratic Hamiltonian, the whole folding process is described as a quadratic unconstrained binary optimization model. Then the model can be solved through quantum approximation optimization algorithm. We demonstrate the performance with both numerical simulation and experimental realization. Throughout our benchmark dataset, simulation results suggest that our quantum approach is comparable in accuracy to classical methods. For non-nested sequences, our quantum approach outperforms classical energy-based methods. Experimental results also indicate our method is robust in current noisy devices. It is the first instance of universal quantum algorithms being employed to tackle RNA folding problems, and our work provides a valuable model for utilizing universal quantum computers in solving RNA folding problems. | 翻訳日:2023-05-17 14:10:52 公開日:2023-05-16 |
# 集約されたデータから学ぶ:キュレートされたバッグとランダムなバッグ Learning from Aggregated Data: Curated Bags versus Random Bags ( http://arxiv.org/abs/2305.09557v1 ) ライセンス: Link先を確認 | Lin Chen, Thomas Fu, Amin Karbasi, Vahab Mirrokni | (参考訳) ユーザのプライバシ保護は、大規模にデプロイされ、さまざまな集団から収集される多くの機械学習システムにとって、大きな関心事である。
この懸念に対処する1つの方法は、単一のユーザに関する情報が他のユーザと組み合わせられるように、集約された方法でデータラベルを収集し、リリースすることである。
本稿では,個々のラベルではなく,集約データラベルを用いた機械学習モデルのトレーニングの可能性を検討する。
具体的には,共通の特徴に基づいてデータポイントをグループ化するキュレーションバッグと,同じサイズのバッグにデータポイントをランダムにグループ化するランダムバッグの2つについて検討した。
計算したバッグ設定や幅広い損失関数に対して,データの集約によって生じる可能性のある性能劣化を伴わずに勾配学習を行うことができることを示す。
本手法は,個々のラベルを必要とせずに,キュレートされたバッグ内の個々のデータ例に対する損失関数の勾配の和を集約ラベルから計算できるという観測に基づく。
ランダムバッグ設定では,仮説クラスのラデマッハ複雑性に基づく一般化リスクバウンドを提供し,最小のリスクバウンドを達成するために経験的リスク最小化をどのように実現するかを示す。
実際、ランダムバッグの設定では、バウンドが示すように、バッグのサイズと達成可能なエラー率との間にトレードオフがあります。
最後に,理論的な知見を確認するために,注意深く実験研究を行う。
特に,集合学習は,モデルの精度を維持しつつ,ユーザのプライバシーを守る効果的な方法であることが示唆された。 Protecting user privacy is a major concern for many machine learning systems that are deployed at scale and collect from a diverse set of population. One way to address this concern is by collecting and releasing data labels in an aggregated manner so that the information about a single user is potentially combined with others. In this paper, we explore the possibility of training machine learning models with aggregated data labels, rather than individual labels. Specifically, we consider two natural aggregation procedures suggested by practitioners: curated bags where the data points are grouped based on common features and random bags where the data points are grouped randomly in bag of similar sizes. For the curated bag setting and for a broad range of loss functions, we show that we can perform gradient-based learning without any degradation in performance that may result from aggregating data. Our method is based on the observation that the sum of the gradients of the loss function on individual data examples in a curated bag can be computed from the aggregate label without the need for individual labels. For the random bag setting, we provide a generalization risk bound based on the Rademacher complexity of the hypothesis class and show how empirical risk minimization can be regularized to achieve the smallest risk bound. In fact, in the random bag setting, there is a trade-off between size of the bag and the achievable error rate as our bound indicates. Finally, we conduct a careful empirical study to confirm our theoretical findings. In particular, our results suggest that aggregate learning can be an effective method for preserving user privacy while maintaining model accuracy. | 翻訳日:2023-05-17 14:10:30 公開日:2023-05-16 |
# 航空領域における文変換器の適応 Adapting Sentence Transformers for the Aviation Domain ( http://arxiv.org/abs/2305.09556v1 ) ライセンス: Link先を確認 | Liya Wang, Jason Chou, Dave Rouck, Alex Tien, Diane M Baumgartner | (参考訳) 効果的な文表現の学習は多くの自然言語処理(NLP)タスクにおいて重要であり、セマンティック検索、セマンティックテキスト類似性(STS)、クラスタリングなどがある。
文埋め込み学習のために複数のトランスフォーマーモデルが開発されているが、これらのモデルは、技術用語、略語、非慣習文法のようなユニークな特徴を持つ航空のような専門領域を扱う場合に最適に機能しない。
さらにラベル付きデータセットがないため、航空分野に特化したモデルをトレーニングすることは困難である。
これらの課題に対処するため,航空分野における文変換器の適応手法を提案する。
本手法は,事前学習と微調整からなる2段階プロセスである。
事前学習中、航空用テキストデータを入力としてトランスフォーマとシーケンシャルデノージングオートエンコーダ(tsdae)を使用して初期モデルの性能を向上させる。
その後、SBERTアーキテクチャによるSentence Bidirectional Encoder Representationsの自然言語推論(NLI)データセットを用いて、モデルの微調整を行い、オーバーフィッティング問題を緩和する。
いくつかの下流課題における実験結果から, 適応文変換器は汎用トランスを著しく上回り, 航空領域のニュアンスを捕捉する手法の有効性を実証した。
本研究は,航空などの専門産業を対象とした高品質なNLPソリューション開発において,ドメイン固有適応の重要性を強調した。 Learning effective sentence representations is crucial for many Natural Language Processing (NLP) tasks, including semantic search, semantic textual similarity (STS), and clustering. While multiple transformer models have been developed for sentence embedding learning, these models may not perform optimally when dealing with specialized domains like aviation, which has unique characteristics such as technical jargon, abbreviations, and unconventional grammar. Furthermore, the absence of labeled datasets makes it difficult to train models specifically for the aviation domain. To address these challenges, we propose a novel approach for adapting sentence transformers for the aviation domain. Our method is a two-stage process consisting of pre-training followed by fine-tuning. During pre-training, we use Transformers and Sequential Denoising AutoEncoder (TSDAE) with aviation text data as input to improve the initial model performance. Subsequently, we fine-tune our models using a Natural Language Inference (NLI) dataset in the Sentence Bidirectional Encoder Representations from Transformers (SBERT) architecture to mitigate overfitting issues. Experimental results on several downstream tasks show that our adapted sentence transformers significantly outperform general-purpose transformers, demonstrating the effectiveness of our approach in capturing the nuances of the aviation domain. Overall, our work highlights the importance of domain-specific adaptation in developing high-quality NLP solutions for specialized industries like aviation. | 翻訳日:2023-05-17 14:10:04 公開日:2023-05-16 |
# PIIの寿命 -PII難燃変換器- Life of PII -- A PII Obfuscation Transformer ( http://arxiv.org/abs/2305.09550v1 ) ライセンス: Link先を確認 | Ajinkya Deshmukh, Saumya Banthia, Anantha Sharma | (参考訳) センシティブな情報を保護することは、今日の大規模言語モデル(LLM)とデータ駆動サービスにとって非常に重要です。
プライバシーを守るために使われる一般的な方法は、統計的および意味的特性を維持しながら、(機密性の高い)個人識別情報(PII)データの過剰な利用を減らすためにデータ摂動技術を使用することである。
データ摂動法は、しばしば重大な情報損失をもたらすため、使用には実用的でない。
本稿では,PIIをFaux-PIIに変換するための新しい難読化トランスフォーマフレームワークである"Life of PII"を提案する。
提案手法には,与えられた文書と対話するAPI,設定ベースのオブファスケータ,および自然言語処理タスクやLLMにおいて高いコンテキスト保存と性能を示すTransformerアーキテクチャに基づくモデルが含まれる。
我々のTransformerベースのアプローチは、元のPIIと変換されたfaux-PII表現の間のマッピングを学習する。
提案手法であるlife of piiは,従来のデータ摂動技術よりもユーティリティ保護とプライバシ保護の両面で優れていることを実証した。
本手法は,プライバシ保護とデータユーティリティ間のトレードオフの柔軟性を高めるとともに,元の情報を保存しながら,効果的にユーティリティ損失を低減できることを示す。
我々の研究は、様々な現実世界のアプリケーションでPIIを保護するソリューションを提供する。 Protecting sensitive information is crucial in today's world of Large Language Models (LLMs) and data-driven services. One common method used to preserve privacy is by using data perturbation techniques to reduce overreaching utility of (sensitive) Personal Identifiable Information (PII) data while maintaining its statistical and semantic properties. Data perturbation methods often result in significant information loss, making them impractical for use. In this paper, we propose 'Life of PII', a novel Obfuscation Transformer framework for transforming PII into faux-PII while preserving the original information, intent, and context as much as possible. Our approach includes an API to interface with the given document, a configuration-based obfuscator, and a model based on the Transformer architecture, which has shown high context preservation and performance in natural language processing tasks and LLMs. Our Transformer-based approach learns mapping between the original PII and its transformed faux-PII representation, which we call "obfuscated" data. Our experiments demonstrate that our method, called Life of PII, outperforms traditional data perturbation techniques in terms of both utility preservation and privacy protection. We show that our approach can effectively reduce utility loss while preserving the original information, offering greater flexibility in the trade-off between privacy protection and data utility. Our work provides a solution for protecting PII in various real-world applications. | 翻訳日:2023-05-17 14:09:42 公開日:2023-05-16 |
# エンティティ中心データを用いたステレオタイプの測定 Measuring Stereotypes using Entity-Centric Data ( http://arxiv.org/abs/2305.09548v1 ) ライセンス: Link先を確認 | Navid Madani, Rabiraj Bandyopadhyay, Michael Miller Yoder and Kenneth Joseph | (参考訳) ステレオタイプは、私たち自身や他の人がどのように振る舞うかを知らせます。
したがって、測定は重要である。
近年の研究では, BERT などの分布意味モデル (DSM) からの埋め込みの予測を用いて測定を行った。
しかし、DSMはステレオタイピングの対人関係に必ずしも関係しない認知的関連を捉えている。
本稿では,TwitterとWikipediaからステレオタイプを学習するための3つの新しいエンティティ中心の手法を提案し,評価する。
モデルは、複数のフレーズが同じ人に適用されているという事実を利用して訓練され、学習された関係の人中心の性質を拡大する。
これらのモデルが既存のステレオタイプ計測手法を上回っていることを示す。
1)自他に対してどのような同一性が適用されるかを予測すること、及び
2)健全な社会的次元(性別など)のステレオタイプを定量化する。
ケーススタディとして,計算社会科学における今後の課題に対するこれらのモデルの有用性を示す。 Stereotypes inform how we present ourselves and others, and in turn how we behave. They are thus important to measure. Recent work has used projections of embeddings from Distributional Semantic Models (DSMs), such as BERT, to perform these measurements. However, DSMs capture cognitive associations that are not necessarily relevant to the interpersonal nature of stereotyping. Here, we propose and evaluate three novel, entity-centric methods for learning stereotypes from Twitter and Wikipedia biographies. Models are trained by leveraging the fact that multiple phrases are applied to the same person, magnifying the person-centric nature of the learned associations. We show that these models outperform existing approaches to stereotype measurement with respect to 1) predicting which identities people apply to themselves and others, and 2) quantifying stereotypes on salient social dimensions (e.g. gender). Via a case study, we also show the utility of these models for future questions in computational social science. | 翻訳日:2023-05-17 14:09:20 公開日:2023-05-16 |
# 拡散モデルとサンプリングのための表現性 Expressiveness Remarks for Denoising Diffusion Models and Samplers ( http://arxiv.org/abs/2305.09605v1 ) ライセンス: Link先を確認 | Francisco Vargas, Teodora Reu, Anna Kerekes | (参考訳) 微分拡散モデルは、最近多くの領域で最先端の結果を得た生成モデルのクラスである。
拡散プロセスを用いてデータに段階的なノイズを付加し、データ分布をガウスに変換する。
生成モデルからのサンプルは、ガウス標本によって初期化された拡散の時間反転の近似をシミュレートして得られる。
近年,サンプリングおよび推論タスクの適応拡散モデルについて検討している。
本稿では,F\-ollmerドリフトに類似した確率的制御への既知の接続を利用して,F\-ollmerドリフトの確立したニューラルネットワーク近似結果を拡張し,拡散モデルとサンプリング器をデノナイズする。 Denoising diffusion models are a class of generative models which have recently achieved state-of-the-art results across many domains. Gradual noise is added to the data using a diffusion process, which transforms the data distribution into a Gaussian. Samples from the generative model are then obtained by simulating an approximation of the time reversal of this diffusion initialized by Gaussian samples. Recent research has explored adapting diffusion models for sampling and inference tasks. In this paper, we leverage known connections to stochastic control akin to the F\"ollmer drift to extend established neural network approximation results for the F\"ollmer drift to denoising diffusion models and samplers. | 翻訳日:2023-05-17 14:02:16 公開日:2023-05-16 |
# Urban-StyleGAN: 都市シーンの画像生成と操作の学習 Urban-StyleGAN: Learning to Generate and Manipulate Images of Urban Scenes ( http://arxiv.org/abs/2305.09602v1 ) ライセンス: Link先を確認 | George Eskandar, Youssef Farag, Tarun Yenamandra, Daniel Cremers, Karim Guirguis, Bin Yang | (参考訳) GAN(Generative Adversarial Networks)の約束は、自律運転におけるAIモデルのトレーニングと検証のための安価なフォトリアリスティックデータを提供することである。
その大きな成功にもかかわらず、複数のオブジェクトを特徴とする複雑なイメージのパフォーマンスは未検討である。
一部のフレームワークは高品質なストリートシーンを制作し、画像の内容の制御はほとんど、あるいは全く行わないが、高品質な世代を犠牲にして、よりコントロールを提供する。
両方のアプローチの共通する制限は、全体像に対するグローバル潜在符号の使用であり、独立したオブジェクト分布の学習を妨げる。
人間の顔生成における潜在空間のゆがみに関する最近の研究であるSemanticStyleGAN (SSG) に動機付け, 都市景観の生成と操作のための新しい枠組みであるUrban-StyleGANを提案する。
都市景観は人間の顔よりも複雑であるため,SSGの直接的な適用は結果の低下につながる。
よりコンパクトで不連続な潜在表現を提供するため、個々のクラスがスーパークラスにグループ化されるクラスグループ化戦略を開発する。
さらに,生成器の$\mathcal{s}$-spaceにおいて教師なし潜伏探索アルゴリズムを用い,画像コンテンツの制御において従来の$\mathcal{w}^{+}$-spaceよりも効率的であることを示す。
Cityscapes と Mapillary のデータセットから,提案手法は都市景観における従来の手法に比べて,制御可能性の向上と画質向上を実現し,品質面で汎用的な非制御可能生成モデル(StyleGAN2 など)と同等であることが示された。 A promise of Generative Adversarial Networks (GANs) is to provide cheap photorealistic data for training and validating AI models in autonomous driving. Despite their huge success, their performance on complex images featuring multiple objects is understudied. While some frameworks produce high-quality street scenes with little to no control over the image content, others offer more control at the expense of high-quality generation. A common limitation of both approaches is the use of global latent codes for the whole image, which hinders the learning of independent object distributions. Motivated by SemanticStyleGAN (SSG), a recent work on latent space disentanglement in human face generation, we propose a novel framework, Urban-StyleGAN, for urban scene generation and manipulation. We find that a straightforward application of SSG leads to poor results because urban scenes are more complex than human faces. To provide a more compact yet disentangled latent representation, we develop a class grouping strategy wherein individual classes are grouped into super-classes. Moreover, we employ an unsupervised latent exploration algorithm in the $\mathcal{S}$-space of the generator and show that it is more efficient than the conventional $\mathcal{W}^{+}$-space in controlling the image content. Results on the Cityscapes and Mapillary datasets show the proposed approach achieves significantly more controllability and improved image quality than previous approaches on urban scenes and is on par with general-purpose non-controllable generative models (like StyleGAN2) in terms of quality. | 翻訳日:2023-05-17 14:02:03 公開日:2023-05-16 |
# 極度の混雑時の動脈使用を最大化する深層強化学習 Deep Reinforcement Learning to Maximize Arterial Usage during Extreme Congestion ( http://arxiv.org/abs/2305.09600v1 ) ライセンス: Link先を確認 | Ashutosh Dutta, Milan Jain, Arif Khan, and Arun Sathanur | (参考訳) 衝突、事故、その他の道路ネットワーク上の事故は、未解決のままにしておけば、システムの大部分に影響を与えるカスケード障害を引き起こす可能性がある。
このような極端な渋滞シナリオをタイムリーに扱うことは、排出削減、生産性の向上、都市生活の質の向上に不可欠である。
本研究では,高混雑時の多車線高速道路の交通渋滞を低減するための深層強化学習(drl)手法を提案する。
本発明のエージェントは、混雑する高速道路交通に対する適応的抑止戦略を学習し、渋滞低減と交通速度改善の報奨とともに、局所的動脈網と近接する高速道路レーンを最適に活用するように訓練する。
実験装置は、米国ワシントン州ショアラインにある全長2.6マイルの4車線の高速道路延長で、2つの出口とそれに伴う動脈道路を顕微鏡的かつ連続的なマルチモーダル交通シミュレータSUMO(Simulation of Urban Mobility)上に模擬し、実際の交通データを用いてパラメータ化された交通プロファイルを使用する。
DRLをベースとした制御器は,急激な混雑時の非作用と比較して平均交通速度を21倍向上させることができる。
さらに、報酬関数の選択に関わるトレードオフ、エージェントのパフォーマンスに対する人間のコンプライアンスの影響、データ分散とスケーリングの問題に対処するために、あるエージェントから他のエージェントへの知識伝達の実現可能性についても論じる。 Collisions, crashes, and other incidents on road networks, if left unmitigated, can potentially cause cascading failures that can affect large parts of the system. Timely handling such extreme congestion scenarios is imperative to reduce emissions, enhance productivity, and improve the quality of urban living. In this work, we propose a Deep Reinforcement Learning (DRL) approach to reduce traffic congestion on multi-lane freeways during extreme congestion. The agent is trained to learn adaptive detouring strategies for congested freeway traffic such that the freeway lanes along with the local arterial network in proximity are utilized optimally, with rewards being congestion reduction and traffic speed improvement. The experimental setup is a 2.6-mile-long 4-lane freeway stretch in Shoreline, Washington, USA with two exits and associated arterial roads simulated on a microscopic and continuous multi-modal traffic simulator SUMO (Simulation of Urban MObility) while using parameterized traffic profiles generated using real-world traffic data. Our analysis indicates that DRL-based controllers can improve average traffic speed by 21\% when compared to no-action during steep congestion. The study further discusses the trade-offs involved in the choice of reward functions, the impact of human compliance on agent performance, and the feasibility of knowledge transfer from one agent to other to address data sparsity and scaling issues. | 翻訳日:2023-05-17 14:01:34 公開日:2023-05-16 |
# Denoized Structure-to-Text Augmentation によるイベント抽出の高速化 Boosting Event Extraction with Denoised Structure-to-Text Augmentation ( http://arxiv.org/abs/2305.09598v1 ) ライセンス: Link先を確認 | bo wang, Heyan Huang, Xiaochi Wei, Ge Shi, Xiao Liu, Chong Feng, Tong Zhou, Shuaiqiang Wang and Dawei Yin | (参考訳) イベント抽出は、テキストから事前定義されたイベントトリガーと引数を認識することを目的としている。
多くのNLPアプリケーションでは、大規模な合成トレーニングデータを含むことは、データの不足を緩和するための実用的で効果的なアプローチである。
しかし、イベント抽出のタスクに適用する場合、最近のデータ拡張手法は文法的誤り、構造的誤り、セマンティックドリフトといった問題を無視することが多く、不満足なパフォーマンスをもたらす。
これらの問題を解決するために, イベント抽出 DAEE において, 知識ベース構造-テキスト生成モデルを用いて追加のトレーニングデータを生成し, 深層強化学習エージェントを用いて, 生成したデータから有効サブセットを反復的に選択する。
いくつかのデータセットに対する実験結果から,提案手法はイベント抽出のための多種多様なテキスト表現を生成し,最先端技術と同等の結果が得られることが示された。 Event extraction aims to recognize pre-defined event triggers and arguments from texts, which suffer from the lack of high-quality annotations. In most NLP applications, involving a large scale of synthetic training data is a practical and effective approach to alleviate the problem of data scarcity. However, when applying to the task of event extraction, recent data augmentation methods often neglect the problem of grammatical incorrectness, structure misalignment, and semantic drifting, leading to unsatisfactory performances. In order to solve these problems, we propose a denoised structure-to-text augmentation framework for event extraction DAEE, which generates additional training data through the knowledge-based structure-to-text generation model and selects the effective subset from the generated data iteratively with a deep reinforcement learning agent. Experimental results on several datasets demonstrate that the proposed method generates more diverse text representations for event extraction and achieves comparable results with the state-of-the-art. | 翻訳日:2023-05-17 14:01:09 公開日:2023-05-16 |
# 機械学習を用いた外惑星の同定と分類 Identification and Classification of Exoplanets Using Machine Learning Techniques ( http://arxiv.org/abs/2305.09596v1 ) ライセンス: Link先を確認 | Prithivraj G and Alka Kumari | (参考訳) NASAのケプラー宇宙望遠鏡は、我々の銀河に太陽系外惑星が存在することを発見するのに役立っている。
この探索はケプラー望遠鏡が受信した信号から外惑星を識別する計算データ解析によって支持されている。
本稿では,ケプラー宇宙望遠鏡とその拡張ミッションK2のデータに対する残差ネットワークを用いた太陽系外惑星の同定について検討する。
本研究の目的は、深層学習アルゴリズムが、あるケースにおけるデータ量の少ない外惑星の存在と、別のケースにおけるより広範なデータの存在を分類するのにどのように役立つかを検討することである。
標準CNN法に加えて,低データシナリオにおける分類処理に特に有用であるSiameseアーキテクチャを提案する。
cnnアルゴリズムとresnetアルゴリズムは、3つのクラスの平均精度を68%、2つのクラスを86%達成した。
しかし、3クラスと2クラスの両方で、シームズアルゴリズムは99%の精度を達成した。 NASA's Kepler Space Telescope has been instrumental in the task of finding the presence of exoplanets in our galaxy. This search has been supported by computational data analysis to identify exoplanets from the signals received by the Kepler telescope. In this paper, we consider building upon some existing work on exoplanet identification using residual networks for the data of the Kepler space telescope and its extended mission K2. This paper aims to explore how deep learning algorithms can help in classifying the presence of exoplanets with less amount of data in one case and a more extensive variety of data in another. In addition to the standard CNN-based method, we propose a Siamese architecture that is particularly useful in addressing classification in a low-data scenario. The CNN and ResNet algorithms achieved an average accuracy of 68% for three classes and 86% for two-class classification. However, for both the three and two classes, the Siamese algorithm achieved 99% accuracy. | 翻訳日:2023-05-17 14:00:49 公開日:2023-05-16 |
# HiNoVa:RFデバイス認証を自動化する新しいオープンセット検出方法 HiNoVa: A Novel Open-Set Detection Method for Automating RF Device Authentication ( http://arxiv.org/abs/2305.09594v1 ) ライセンス: Link先を確認 | Luke Puppo, Weng-Keen Wong, Bechir Hamdaoui, Abdurrahman Elmaghbub | (参考訳) 無線ネットワークセキュリティの新機能は、無線周波数(RF)データのパターンを利用してデバイスを特定し認証するディープラーニングによって実現されている。
オープンセット検出(open-set detection)は、トレーニングセットの一部ではないデプロイメント中に、新たなデバイスから取得したサンプルを識別するディープラーニングの領域である。
オープンセット検出における過去の研究は、主に画像のような独立で同一の分散データに適用されてきた。
対照的に、RF信号データはサンプル間で非線形時間に依存する時系列を形成するため、ユニークな課題の集合を示す。
本稿では,畳み込みニューラルネットワーク(CNN)長短期記憶(LSTM)モデルにおける隠れ状態値のパターンに基づいた,新しいオープンセット検出手法を提案する。
提案手法は,LoRa,Wi-Fi,Wired-Wi-Fiのデータセット上での精度-リコール曲線の領域を大幅に改善し,無線機器の未許可ネットワークアクセスの監視と制御に有効である。 New capabilities in wireless network security have been enabled by deep learning, which leverages patterns in radio frequency (RF) data to identify and authenticate devices. Open-set detection is an area of deep learning that identifies samples captured from new devices during deployment that were not part of the training set. Past work in open-set detection has mostly been applied to independent and identically distributed data such as images. In contrast, RF signal data present a unique set of challenges as the data forms a time series with non-linear time dependencies among the samples. We introduce a novel open-set detection approach based on the patterns of the hidden state values within a Convolutional Neural Network (CNN) Long Short-Term Memory (LSTM) model. Our approach greatly improves the Area Under the Precision-Recall Curve on LoRa, Wireless-WiFi, and Wired-WiFi datasets, and hence, can be used successfully to monitor and control unauthorized network access of wireless devices. | 翻訳日:2023-05-17 14:00:33 公開日:2023-05-16 |
# 移動物体分割のための誘導型グラフニューラルネットワーク Inductive Graph Neural Networks for Moving Object Segmentation ( http://arxiv.org/abs/2305.09585v1 ) ライセンス: Link先を確認 | Wieke Prummel, Jhony H. Giraldo, Anastasia Zakharova, Thierry Bouwmans | (参考訳) 移動オブジェクトセグメンテーション(MOS)は、特に動的背景、突然の照明変更、影、カモフラージュ、移動カメラのシナリオにおいて、コンピュータビジョンにおいて難しい問題である。
グラフベースの手法は、MOSにおいて有望な結果を示しているが、それらは主に、トレーニングとテストデータ全体にアクセスして評価を行うトランスダクティブ学習に依存している。
しかし、この仮定は、システムがデプロイ中に新しいデータを扱う必要がある現実世界のアプリケーションでは現実的ではない。
本稿では,グラフニューラルネットワーク(GNN)アーキテクチャに基づく新しいグラフ帰納的移動オブジェクトセグメンテーション(GraphIMOS)アルゴリズムを提案する。
提案手法は,すでに訓練済みのモデルを用いて,新たに追加されたデータフレームを予測可能な汎用モデルを構築する。
GraphIMOSは従来のインダクティブ学習法よりも優れており、従来のトランスダクティブ技術よりも汎用性が高い。
提案アルゴリズムは,実世界のアプリケーションにグラフベースのMOSモデルをデプロイすることを可能にする。 Moving Object Segmentation (MOS) is a challenging problem in computer vision, particularly in scenarios with dynamic backgrounds, abrupt lighting changes, shadows, camouflage, and moving cameras. While graph-based methods have shown promising results in MOS, they have mainly relied on transductive learning which assumes access to the entire training and testing data for evaluation. However, this assumption is not realistic in real-world applications where the system needs to handle new data during deployment. In this paper, we propose a novel Graph Inductive Moving Object Segmentation (GraphIMOS) algorithm based on a Graph Neural Network (GNN) architecture. Our approach builds a generic model capable of performing prediction on newly added data frames using the already trained model. GraphIMOS outperforms previous inductive learning methods and is more generic than previous transductive techniques. Our proposed algorithm enables the deployment of graph-based MOS models in real-world applications. | 翻訳日:2023-05-17 14:00:18 公開日:2023-05-16 |
# 調音物体操作のための再視認性センシング Revisiting Proprioceptive Sensing for Articulated Object Manipulation ( http://arxiv.org/abs/2305.09584v1 ) ライセンス: Link先を確認 | Thomas Lips, Francis wyffels | (参考訳) 人間を助けるロボットは、キャビネットや電子レンジのような関節のある物体と対話する必要がある。
初期の研究では、接触時の関節機構を推定するためにプロピオセプティブセンシングを用いた。
しかし今日では、ほとんどのシステムは視力のみを使用し、接触中は受容情報を考慮しなくなった。
我々は,接触時の受容的情報は貴重な情報源であり,文献に使用しない明確な動機を見出さなかった。
そこで,本稿では,位置制御ロボットとパラレルグリップパーを備えたキャビネットを開くために,主観的感覚を用いたシステムを構築した。
本システムでは,グリッパーとハンドルのずれが性能に限界があることを見出し,定性評価を行う。
それでも、システムはすでにかなりうまく機能しています。
人工的なオブジェクト操作システムでは、接触中に固有情報をより多く利用するべきか、それとも、追加の複雑さに値しないのか、視覚だけで管理できるのか?
この質問に対する回答はありませんが、この問題についていくつかの議論を起こそうと考えています。
システムのコードベースとビデオはhttps://tlpss.github.io/revisiting-proprioception-for-articulated-manipulation/で見ることができる。 Robots that assist humans will need to interact with articulated objects such as cabinets or microwaves. Early work on creating systems for doing so used proprioceptive sensing to estimate joint mechanisms during contact. However, nowadays, almost all systems use only vision and no longer consider proprioceptive information during contact. We believe that proprioceptive information during contact is a valuable source of information and did not find clear motivation for not using it in the literature. Therefore, in this paper, we create a system that, starting from a given grasp, uses proprioceptive sensing to open cabinets with a position-controlled robot and a parallel gripper. We perform a qualitative evaluation of this system, where we find that slip between the gripper and handle limits the performance. Nonetheless, we find that the system already performs quite well. This poses the question: should we make more use of proprioceptive information during contact in articulated object manipulation systems, or is it not worth the added complexity, and can we manage with vision alone? We do not have an answer to this question, but we hope to spark some discussion on the matter. The codebase and videos of the system are available at https://tlpss.github.io/revisiting-proprioception-for-articulated-manipulation/. | 翻訳日:2023-05-17 14:00:04 公開日:2023-05-16 |
# プライベートな永遠予測 Private Everlasting Prediction ( http://arxiv.org/abs/2305.09579v1 ) ライセンス: Link先を確認 | Moni Naor, Kobbi Nissim, Uri Stemmer, Chao Yan | (参考訳) 個人学習者は、ラベル付きポイントのサンプルに基づいてトレーニングを行い、トレーニングセットのプライバシを保護しながら、新たにサンプリングされたポイントのラベルを予測できる仮説を生成する(Kasiviswannathan et al., FOCS 2008)。
私立学習者は、例えば1次元閾値関数(Bun et al., FOCS 2015, Alon et al., STOC 2019)の学習のように、非私立学習者よりもはるかに高いサンプル複雑さを示す必要がある。
学習の代替手段として予測を探求する。
仮説を提示する代わりに、予測者は分類クエリのストリームに答える。
以前の作業では、単一の分類クエリ(DworkとFeldman, COLT 2018)でプライベートな予測モデルを検討していました。
我々は,クエリのストリームに応答する場合,予測者が使用する仮説を時間とともに修正する必要があること,さらにクエリをこの修正に使用する必要があること,従ってクエリ自体に対して潜在的なプライバシーリスクが生じることを観察する。
トレーニングセットと(適切に選択された)クエリの両方のプライバシを考慮した,プライベートな永続予測を導入する。
次に、PACモデルにおけるプライベート永遠予測器の一般的な構成を示す。
我々の構成における初期訓練サンプルのサンプルの複雑さは、概念クラスのVC次元における二次的(ポリログ因子まで)である。
我々の構成では、有限VC次元のすべての概念クラス、特に無限大の初期訓練サンプルを持つしきい値関数の予測が可能であるが、プライベートに学習するしきい値関数のサンプル複雑性は、ドメインサイズの関数として成長し、したがって無限大では不可能であることが知られている。 A private learner is trained on a sample of labeled points and generates a hypothesis that can be used for predicting the labels of newly sampled points while protecting the privacy of the training set [Kasiviswannathan et al., FOCS 2008]. Research uncovered that private learners may need to exhibit significantly higher sample complexity than non-private learners as is the case with, e.g., learning of one-dimensional threshold functions [Bun et al., FOCS 2015, Alon et al., STOC 2019]. We explore prediction as an alternative to learning. Instead of putting forward a hypothesis, a predictor answers a stream of classification queries. Earlier work has considered a private prediction model with just a single classification query [Dwork and Feldman, COLT 2018]. We observe that when answering a stream of queries, a predictor must modify the hypothesis it uses over time, and, furthermore, that it must use the queries for this modification, hence introducing potential privacy risks with respect to the queries themselves. We introduce private everlasting prediction taking into account the privacy of both the training set and the (adaptively chosen) queries made to the predictor. We then present a generic construction of private everlasting predictors in the PAC model. The sample complexity of the initial training sample in our construction is quadratic (up to polylog factors) in the VC dimension of the concept class. Our construction allows prediction for all concept classes with finite VC dimension, and in particular threshold functions with constant size initial training sample, even when considered over infinite domains, whereas it is known that the sample complexity of privately learning threshold functions must grow as a function of the domain size and hence is impossible for infinite domains. | 翻訳日:2023-05-17 13:59:43 公開日:2023-05-16 |
# メトロポリスサンプリングによる対向分岐ランダムウォーク:補助場量子モンテカルロにおける制約解放 Interfacing branching random walks with Metropolis sampling: constraint release in auxiliary-field quantum Monte Carlo ( http://arxiv.org/abs/2305.09575v1 ) ライセンス: Link先を確認 | Zhi-Yu Xiao, Hao Shi and Shiwei Zhang | (参考訳) 本稿では,マルコフ連鎖モンテカルロサンプリングを用いたランダムウォークの分岐手法を提案し,両者間をシームレスに切り替える。
この手法は補助場量子モンテカルロ(AFQMC)の文脈で議論されるが、他のモンテカルロ計算やシミュレーションにも適用できる。
AFQMCでは、符号や位相問題を制御するための制約を実現するために、想像時間に沿って分岐ランダムウォークの定式化が必要である。
この制約は、厳密なゲージ条件から導出され、実際には、アルゴリズムの厳密性を壊すことができる試行波関数または試行密度行列で概ね実装されている。
一般化されたメトロポリスアルゴリズムを用いて、分岐ランダムウォークによって生成された想像時間経路の選択部分をサンプリングする。
このインターフェースにより、制約付きパスサンプリングから制約リリースをシームレスに追跡することができるため、システムエラーを後者から低減することができる。
また、ハミルトニアンに可換でない相関関数と可観測関数の計算を改善する方法も提供する。
本手法は, 精度の向上を定量化し, ほぼ正確な結果が得られる原子や分子で説明する。
また、ハミルトニアンの分散の計算についても検討し、AFQMCのスケーリングを変更することなく確率的に評価する便利な方法を提案する。 We present an approach to interface branching random walks with Markov chain Monte Carlo sampling, and to switch seamlessly between the two. The approach is discussed in the context of auxiliary-field quantum Monte Carlo (AFQMC) but is applicable to other Monte Carlo calculations or simulations. In AFQMC, the formulation of branching random walks along imaginary-time is needed to realize a constraint to control the sign or phase problem. The constraint is derived from an exact gauge condition, and is in practice implemented approximately with a trial wave function or trial density matrix, which can break exactness in the algorithm. We use the generalized Metropolis algorithm to sample a selected portion of the imaginary-time path after it has been produced by the branching random walk. This interfacing allows a constraint release to follow seamlessly from the constrained-path sampling, which can reduce the systematic error from the latter. It also provides a way to improve the computation of correlation functions and observables that do not commute with the Hamiltonian. We illustrate the method in atoms and molecules, where improvements in accuracy can be clearly quantified and near-exact results are obtained. We also discuss the computation of the variance of the Hamiltonian and propose a convenient way to evaluate it stochastically without changing the scaling of AFQMC. | 翻訳日:2023-05-17 13:59:12 公開日:2023-05-16 |
# 機械学習を用いた物理システムシミュレーションにおける計算課題の解決 Addressing computational challenges in physical system simulations with machine learning ( http://arxiv.org/abs/2305.09627v1 ) ライセンス: Link先を確認 | Sabber Ahamed and Md Mesbah Uddin | (参考訳) 本稿では,シミュレーションを利用して様々な物理システムやプロセスを調べる研究者を支援する機械学習ベースのデータ生成フレームワークを提案する。
高い計算コストと結果の限られたデータは、しばしばこれらのシステムやプロセスに対する洞察を得るために重大な課題を生じさせる。
まず、シミュレーション結果を予測するために、限られたシミュレーションデータセットを使用して教師付き予測モデルをトレーニングする。
その後、強化学習エージェントを訓練し、教師付きモデルを利用して正確なシミュレーションライクなデータを生成する。
このフレームワークにより、研究者はより正確なデータを生成し、高い計算シミュレーションを実行することなく結果を知ることができ、パラメータ空間をより効率的に探索し、物理システムやプロセスに対する深い洞察を得ることができる。
本研究は,地震破壊物理学と新しい材料開発に焦点をあてた2つのケーススタディに適用し,提案手法の有効性を実証する。 In this paper, we present a machine learning-based data generator framework tailored to aid researchers who utilize simulations to examine various physical systems or processes. High computational costs and the resulting limited data often pose significant challenges to gaining insights into these systems or processes. Our approach involves a two-step process: initially, we train a supervised predictive model using a limited simulated dataset to predict simulation outcomes. Subsequently, a reinforcement learning agent is trained to generate accurate, simulation-like data by leveraging the supervised model. With this framework, researchers can generate more accurate data and know the outcomes without running high computational simulations, which enables them to explore the parameter space more efficiently and gain deeper insights into physical systems or processes. We demonstrate the effectiveness of the proposed framework by applying it to two case studies, one focusing on earthquake rupture physics and the other on new material development. | 翻訳日:2023-05-17 13:53:33 公開日:2023-05-16 |
# リスクと報酬のバランス - 自動段階的なリリース戦略 Balancing Risk and Reward: An Automated Phased Release Strategy ( http://arxiv.org/abs/2305.09626v1 ) ライセンス: Link先を確認 | Yufan Li, Jialiang Mao, Iavor Bojinov | (参考訳) 段階的リリース(phased release)は、新しい製品やアップデートをa/bテストのシーケンスを通じて段階的にリリースする、テクノロジ業界における一般的な戦略である。
原則的に段階的なリリースを行うには、新しいリリースに割り当てられたユニットの割合を、悪影響のリスクと、実験の反復と学習を迅速に行う必要性とをバランスさせる方法で選択する必要がある。
本稿では,この問題を定式化し,スケジュールの各段階におけるリリース率を自動的に決定し,ランプアップ速度を最大化しながらリスクを制御する必要性のバランスをとるアルゴリズムを提案する。
私たちのフレームワークはこの課題を制約付きバッチバンディット問題としてモデル化し、事前定義された実験予算が高い確率で枯渇しないようにします。
提案アルゴリズムは,処理に割り当てられた単位の最大数が後方分布によって決定される適応ベイズ法を利用して,残りの予算を減少させる確率が低いことを保証する。
特に,確率境界を反転させることでランプサイズを解析的に解決し,希少事象モンテカルロシミュレーションを不要とした。
計算手段と結果サブセットの分散のみが必要で、非常に効率的で並列化可能である。 Phased releases are a common strategy in the technology industry for gradually releasing new products or updates through a sequence of A/B tests in which the number of treated units gradually grows until full deployment or deprecation. Performing phased releases in a principled way requires selecting the proportion of units assigned to the new release in a way that balances the risk of an adverse effect with the need to iterate and learn from the experiment rapidly. In this paper, we formalize this problem and propose an algorithm that automatically determines the release percentage at each stage in the schedule, balancing the need to control risk while maximizing ramp-up speed. Our framework models the challenge as a constrained batched bandit problem that ensures that our pre-specified experimental budget is not depleted with high probability. Our proposed algorithm leverages an adaptive Bayesian approach in which the maximal number of units assigned to the treatment is determined by the posterior distribution, ensuring that the probability of depleting the remaining budget is low. Notably, our approach analytically solves the ramp sizes by inverting probability bounds, eliminating the need for challenging rare-event Monte Carlo simulation. It only requires computing means and variances of outcome subsets, making it highly efficient and parallelizable. | 翻訳日:2023-05-17 13:53:19 公開日:2023-05-16 |
# パラメトリックモデルに対するガウス過程回帰認識を伴う条件変動オートエンコーダ Conditional variational autoencoder with Gaussian process regression recognition for parametric models ( http://arxiv.org/abs/2305.09625v1 ) ライセンス: Link先を確認 | Xuehan Zhang, Lijian Jiang | (参考訳) 本稿では,騒音観測データを用いたパラメトリックモデルのためのデータ駆動手法を提案する。
ガウス過程回帰に基づく還元順序モデリング(GPRベースのROM)は、オフライン段階で方程式を用いることなく、高速なオンライン予測を実現することができる。
しかし、PODプロジェクションは自然な線形であるため、GPRベースのROMは複雑なシステムではうまく機能しない。
条件付き変分オートエンコーダ(CVAE)は非線形ニューラルネットワークを介してこの問題に対処できるが、モデルの複雑さが増し、ハイパーパラメータのトレーニングとチューニングが困難になる。
そこで本研究では,ガウス過程回帰認識(CVAE-GPRR)を用いたCVAEの枠組みを提案する。
提案手法は,認識モデルと確率モデルから構成される。
認識モデルでは,まずpodによるデータから低次元特徴を抽出し,冗長な情報を高頻度でフィルタする。
そして、パラメータからPOD潜在変数への写像を学習するために非パラメトリックモデルGPRが使用され、ノイズの影響を軽減することもできる。
CVAE-GPRRはCVAEと同様の精度を達成できるが、パラメータは少ない。
確率モデルでは、ニューラルネットワークはデータの再構成に使用される。
POD潜在変数と入力パラメータのサンプルに加えて、物理空間全体の予測を行う入力として物理変数が追加される。
これはGPRベースのROMやCVAEでは達成できない。
さらに,CVAE-GPRRはCVAEの過適合問題を緩和する可能性が示唆された。 In this article, we present a data-driven method for parametric models with noisy observation data. Gaussian process regression based reduced order modeling (GPR-based ROM) can realize fast online predictions without using equations in the offline stage. However, GPR-based ROM does not perform well for complex systems since POD projection are naturally linear. Conditional variational autoencoder (CVAE) can address this issue via nonlinear neural networks but it has more model complexity, which poses challenges for training and tuning hyperparameters. To this end, we propose a framework of CVAE with Gaussian process regression recognition (CVAE-GPRR). The proposed method consists of a recognition model and a likelihood model. In the recognition model, we first extract low-dimensional features from data by POD to filter the redundant information with high frequency. And then a non-parametric model GPR is used to learn the map from parameters to POD latent variables, which can also alleviate the impact of noise. CVAE-GPRR can achieve the similar accuracy to CVAE but with fewer parameters. In the likelihood model, neural networks are used to reconstruct data. Besides the samples of POD latent variables and input parameters, physical variables are also added as the inputs to make predictions in the whole physical space. This can not be achieved by either GPR-based ROM or CVAE. Moreover, the numerical results show that CVAE-GPRR may alleviate the overfitting issue in CVAE. | 翻訳日:2023-05-17 13:52:57 公開日:2023-05-16 |
# aiによる調査:全国調査における意見予測のための大規模言語モデル活用 AI-Augmented Surveys: Leveraging Large Language Models for Opinion Prediction in Nationally Representative Surveys ( http://arxiv.org/abs/2305.09620v1 ) ライセンス: Link先を確認 | Junsol Kim, Byungkyu Lee | (参考訳) 大規模言語モデル(LLM)を使って調査を拡大するにはどうすればよいのか?
本稿では,全国の代表的調査によって微調整されたllmsの3つの異なる応用について検討する。
本稿では,調査質問,個人的信念,時間的文脈の神経組込みを組み込んだ新しい手法的枠組みを提案し,意見予測におけるllmのパーソナライズを行う。
1972年から2021年までの一般社会調査における68,846人の意見のバイナライズされた3,110の意見のうち、Alpaca-7bに基づく最良のモデルは、欠落データ計算(AUC = 0.87、世論予測は$\rho$ = 0.99)と回帰(AUC = 0.86、$\rho$ = 0.98)に優れています。
こうした顕著な予測能力により、同性結婚への支持の高まりなど、公衆の態度が変わったときに高い信頼感と注意を持てる傾向を満たせることができます。
しかしながら、このモデルではゼロショット予測タスク(AUC = 0.73, $\rho$ = 0.67)のパフォーマンスが制限されており、人間の反応を伴わないLLMが提示する課題を強調している。
さらに, 社会経済的地位の低さ, 人種的マイノリティ, 非党派的関係の個人においては, 最良モデルの正確性は低いが, 現代のイデオロギーに分類された意見では高いことが判明した。
LLMを意見予測に用いた場合、個人の自律性とプライバシに関する実践的制約、社会デコグラフィー表現、倫理的懸念について論じる。
本稿では,LLMを活用して,不足する回答や傾向を予測し,全国的な調査を強化するための新しいアプローチを示す。 How can we use large language models (LLMs) to augment surveys? This paper investigates three distinct applications of LLMs fine-tuned by nationally representative surveys for opinion prediction -- missing data imputation, retrodiction, and zero-shot prediction. We present a new methodological framework that incorporates neural embeddings of survey questions, individual beliefs, and temporal contexts to personalize LLMs in opinion prediction. Among 3,110 binarized opinions from 68,846 Americans in the General Social Survey from 1972 to 2021, our best models based on Alpaca-7b excels in missing data imputation (AUC = 0.87 for personal opinion prediction and $\rho$ = 0.99 for public opinion prediction) and retrodiction (AUC = 0.86, $\rho$ = 0.98). These remarkable prediction capabilities allow us to fill in missing trends with high confidence and pinpoint when public attitudes changed, such as the rising support for same-sex marriage. However, the models show limited performance in a zero-shot prediction task (AUC = 0.73, $\rho$ = 0.67), highlighting challenges presented by LLMs without human responses. Further, we find that the best models' accuracy is lower for individuals with low socioeconomic status, racial minorities, and non-partisan affiliations but higher for ideologically sorted opinions in contemporary periods. We discuss practical constraints, socio-demographic representation, and ethical concerns regarding individual autonomy and privacy when using LLMs for opinion prediction. This paper showcases a new approach for leveraging LLMs to enhance nationally representative surveys by predicting missing responses and trends. | 翻訳日:2023-05-17 13:52:38 公開日:2023-05-16 |
# 非線形政策最適化のための学習局所線形モデルのパワー The Power of Learned Locally Linear Models for Nonlinear Policy Optimization ( http://arxiv.org/abs/2305.09619v1 ) ライセンス: Link先を確認 | Daniel Pfrommer, Max Simchowitz, Tyler Westenbroek, Nikolai Matni, Stephen Tu | (参考訳) 学習に基づく制御における一般的なパイプラインは、システムダイナミクスのモデルを反復的に推定し、軌道最適化アルゴリズムを適用することである。
~$\mathtt{iLQR}$ - 学習モデル上でターゲットコストを最小限に抑える。
本稿では,一般的な非線形システムに対する簡易な戦略の厳密な分析を行う。
非線形システムダイナミクスの局所線形モデルの推定と$\mathtt{ilqr}$-likeポリシー更新を繰り返すアルゴリズムの解析を行った。
このアルゴリズムが関連する問題パラメータでサンプル複雑性多項式を達成し,局所安定化ゲインを合成することにより,問題地平線の指数依存を克服することを示す。
実験により,本アルゴリズムの性能を検証し,自然学習ベースラインと比較した。 A common pipeline in learning-based control is to iteratively estimate a model of system dynamics, and apply a trajectory optimization algorithm - e.g.~$\mathtt{iLQR}$ - on the learned model to minimize a target cost. This paper conducts a rigorous analysis of a simplified variant of this strategy for general nonlinear systems. We analyze an algorithm which iterates between estimating local linear models of nonlinear system dynamics and performing $\mathtt{iLQR}$-like policy updates. We demonstrate that this algorithm attains sample complexity polynomial in relevant problem parameters, and, by synthesizing locally stabilizing gains, overcomes exponential dependence in problem horizon. Experimental results validate the performance of our algorithm, and compare to natural deep-learning baselines. | 翻訳日:2023-05-17 13:52:04 公開日:2023-05-16 |
# 大規模言語モデルを用いた専門医レベルの質問応答 Towards Expert-Level Medical Question Answering with Large Language Models ( http://arxiv.org/abs/2305.09617v1 ) ライセンス: Link先を確認 | Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan | (参考訳) 最近の人工知能(AI)システムは、Goからタンパク質の折り畳みまで"グランドチャレンジ"においてマイルストーンに達した。
医学的知識、理性、医学的質問に答える能力は、長い間、そのような大きな課題と見なされてきた。
大規模言語モデル(llm)は医学的質問応答の大幅な進歩を触媒し、medqaデータセットで67.2%のスコアを持つusmleスタイルの質問において、med-palmは「合格」スコアを超えた最初のモデルである。
しかし、これや他の先行研究は、特にモデルの回答が臨床医の回答と比較された場合、改善の余地を示唆していた。
ここでは,これらのギャップを橋渡しするMed-PaLM 2について,基礎的LCM改善(PaLM2),医療領域の微調整,新しいアンサンブル改良アプローチを含む戦略の推進と組み合わせて紹介する。
Med-PaLM 2は、MedQAデータセットで86.5%のスコアを獲得し、Med-PaLMを19%以上改善し、新しい最先端を設定した。
また,medmcqa,pubmedqa,mmlu臨床トピックのデータセットに近づいたり,あるいは超えたりするパフォーマンスも観察した。
臨床応用に関連する複数の軸に沿った長めの質問に対する詳細な人的評価を行った。
1066の消費者医療質問の対比較ランキングにおいて、医師は臨床的有用性(p < 0.001)に関連する9つの軸のうち8つの軸で医師が生成した回答に対して、med-palm 2 の回答を好んだ。
また,LLMの制限を探索するために240の長文の「逆」質問を新たに導入したデータセットにおいて,各評価軸におけるMed-PaLM (p < 0.001) と比較して有意な改善が見られた。
これらのモデルの有効性を現実世界で検証するにはさらなる研究が必要であるが、医療質問応答における医師レベルのパフォーマンスへの急速な進歩を浮き彫りにしている。 Recent artificial intelligence (AI) systems have reached milestones in "grand challenges" ranging from Go to protein-folding. The capability to retrieve medical knowledge, reason over it, and answer medical questions comparably to physicians has long been viewed as one such grand challenge. Large language models (LLMs) have catalyzed significant progress in medical question answering; Med-PaLM was the first model to exceed a "passing" score in US Medical Licensing Examination (USMLE) style questions with a score of 67.2% on the MedQA dataset. However, this and other prior work suggested significant room for improvement, especially when models' answers were compared to clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by leveraging a combination of base LLM improvements (PaLM 2), medical domain finetuning, and prompting strategies including a novel ensemble refinement approach. Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM by over 19% and setting a new state-of-the-art. We also observed performance approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU clinical topics datasets. We performed detailed human evaluations on long-form questions along multiple axes relevant to clinical applications. In pairwise comparative ranking of 1066 consumer medical questions, physicians preferred Med-PaLM 2 answers to those produced by physicians on eight of nine axes pertaining to clinical utility (p < 0.001). We also observed significant improvements compared to Med-PaLM on every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form "adversarial" questions to probe LLM limitations. While further studies are necessary to validate the efficacy of these models in real-world settings, these results highlight rapid progress towards physician-level performance in medical question answering. | 翻訳日:2023-05-17 13:51:53 公開日:2023-05-16 |
# 大規模言語モデルは自己回帰型検索エンジンに組み込まれている Large Language Models are Built-in Autoregressive Search Engines ( http://arxiv.org/abs/2305.09612v1 ) ライセンス: Link先を確認 | Noah Ziems, Wenhao Yu, Zhihan Zhang, Meng Jiang | (参考訳) 文書検索は標準ウェブ検索エンジンの重要な段階である。
既存のデュアルエンコーダ高密度検索器は、問合せと文書を独立に表現し、それら間の浅い相互作用のみを可能にする。
この制限を克服するため、最近の自動回帰検索エンジンは、候補プール内の関連文書の識別子を直接生成することで、デュアルエンコーダアーキテクチャを置き換える。
しかし,このような自己回帰型検索エンジンの学習コストは,候補文書数の増加とともに急激に上昇している。
本稿では,大規模言語モデル (LLM) が人間の指示に従って文書検索用URLを直接生成できることを見出した。
驚いたことに、いくつかの {Query-URL} ペアをインコンテキストのデモとして提供すると、LCM は Web URL を生成することができる。
このように、llmは、質問をドキュメント識別子にマップするために明示的に訓練されていないため、組み込み検索エンジンと考えることができる。
実験により,提案手法が既存の検索手法よりも優れた検索性能を,ゼロ・少数設定の3つのオープンドメイン質問応答ベンチマークにおいて有意差で達成できることが実証された。
この研究のコードは \url{https://github.com/Ziems/llm-url} にある。 Document retrieval is a key stage of standard Web search engines. Existing dual-encoder dense retrievers obtain representations for questions and documents independently, allowing for only shallow interactions between them. To overcome this limitation, recent autoregressive search engines replace the dual-encoder architecture by directly generating identifiers for relevant documents in the candidate pool. However, the training cost of such autoregressive search engines rises sharply as the number of candidate documents increases. In this paper, we find that large language models (LLMs) can follow human instructions to directly generate URLs for document retrieval. Surprisingly, when providing a few {Query-URL} pairs as in-context demonstrations, LLMs can generate Web URLs where nearly 90\% of the corresponding documents contain correct answers to open-domain questions. In this way, LLMs can be thought of as built-in search engines, since they have not been explicitly trained to map questions to document identifiers. Experiments demonstrate that our method can consistently achieve better retrieval performance than existing retrieval approaches by a significant margin on three open-domain question answering benchmarks, under both zero and few-shot settings. The code for this work can be found at \url{https://github.com/Ziems/llm-url}. | 翻訳日:2023-05-17 13:50:54 公開日:2023-05-16 |
# エネルギーに基づく正規化フローによる意味セグメンテーションの同時的誤分類と分散検出 Concurrent Misclassification and Out-of-Distribution Detection for Semantic Segmentation via Energy-Based Normalizing Flow ( http://arxiv.org/abs/2305.09610v1 ) ライセンス: Link先を確認 | Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata | (参考訳) 最近のセマンティックセグメンテーションモデルは、トレーニングデータセットの分布に類似したテスト時間例を正確に分類する。
しかしながら、彼らの判別的クローズドセットアプローチは、分散シフトとout-of-distribution (ood)クラスを持つ実用的なデータセットでは堅牢ではない。
その結果、テスト時に信頼スコアとして使用すると、予測された確率は極めて不正確となる。
そこで本研究では,正規化フローフレームワークに依存するidm(concurrent in-distribution misclassification)とood検出のための生成モデルを提案する。
エネルギーをベースとしたインプット(FlowEneDet)を備えたフローベース検出器は,時間を要する再トレーニングを伴わずに,以前に展開されたセグメンテーションモデルを拡張することができる。
FlowEneDetはメモリフットプリントの限界増加を伴う低複雑さアーキテクチャを実現する。
FlowEneDetは、事前トレーニングされたDeepLabV3+およびSegFormerセマンティックセグメンテーションモデルに適用した場合、IDM/OOD検出におけるCityscapes、Cityscapes-C、FishyScapes、SegmentMeIfYouCanベンチマークの有望な結果を達成する。 Recent semantic segmentation models accurately classify test-time examples that are similar to a training dataset distribution. However, their discriminative closed-set approach is not robust in practical data setups with distributional shifts and out-of-distribution (OOD) classes. As a result, the predicted probabilities can be very imprecise when used as confidence scores at test time. To address this, we propose a generative model for concurrent in-distribution misclassification (IDM) and OOD detection that relies on a normalizing flow framework. The proposed flow-based detector with an energy-based inputs (FlowEneDet) can extend previously deployed segmentation models without their time-consuming retraining. Our FlowEneDet results in a low-complexity architecture with marginal increase in the memory footprint. FlowEneDet achieves promising results on Cityscapes, Cityscapes-C, FishyScapes and SegmentMeIfYouCan benchmarks in IDM/OOD detection when applied to pretrained DeepLabV3+ and SegFormer semantic segmentation models. | 翻訳日:2023-05-17 13:50:32 公開日:2023-05-16 |
# ソフトウェア工学における係争・重複検出のためのデータ強化 Data Augmentation for Conflict and Duplicate Detection in Software Engineering Sentence Pairs ( http://arxiv.org/abs/2305.09608v1 ) ライセンス: Link先を確認 | Garima Malik, Mucahit Cevik, Ay\c{s}e Ba\c{s}ar | (参考訳) 本稿では,文対分類によるソフトウェア工学タスクにおけるコンフリクトと重複検出の強化を目的としたテキストデータ拡張手法について検討する。
本研究は, シャッフル, バック翻訳, パラフレージングなどの一般的な拡張手法を適応し, ソフトウェア要件テキストに対する名詞動詞置換, ターゲット・レムマ置換, アクター・アクション置換といった新しいデータ拡張手法を提案する。
6つのソフトウェアテキストデータセット上で包括的実証分析を行い、文ペア間の競合や重複を識別する。
その結果、データ拡張技術は、すべてのソフトウェアペアテキストデータセットの性能に重大な影響を及ぼすことが示された。
一方,データセットが比較的バランスが取れている場合,拡張手法を用いることで分類性能に悪影響を及ぼす可能性がある。 This paper explores the use of text data augmentation techniques to enhance conflict and duplicate detection in software engineering tasks through sentence pair classification. The study adapts generic augmentation techniques such as shuffling, back translation, and paraphrasing and proposes new data augmentation techniques such as Noun-Verb Substitution, target-lemma replacement and Actor-Action Substitution for software requirement texts. A comprehensive empirical analysis is conducted on six software text datasets to identify conflicts and duplicates among sentence pairs. The results demonstrate that data augmentation techniques have a significant impact on the performance of all software pair text datasets. On the other hand, in cases where the datasets are relatively balanced, the use of augmentation techniques may result in a negative effect on the classification performance. | 翻訳日:2023-05-17 13:50:08 公開日:2023-05-16 |
# 生徒の学習水準に対する指導の仕方 : 知識蒸留の促進 Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation ( http://arxiv.org/abs/2305.09651v1 ) ライセンス: Link先を確認 | Yuxin Ren, Zihan Zhong, Xingjian Shi, Yi Zhu, Chun Yuan, Mu Li | (参考訳) 成績のよい教師モデルが必ずしも生徒を強くするとは限らないことがよく知られており、現在の教員養成と効果的な知識伝達の相違が強調されている。
教員養成過程の指導を強化するために,各研修試料からの蒸留の影響が学生の一般化能力に及ぼす影響を判断するために,蒸留の影響の概念を導入する。
本稿では,教師の学習プロセスに蒸留の影響を組み込むための効率的な学習手法であるlearning good teacher matters(lgtm)を提案する。
学生の一般化能力を高めるであろうサンプルの優先順位付けにより,LGTMはGLUEベンチマークの6つのテキスト分類タスクに基づいて,10の共通知識蒸留基準を上回りました。 It has been commonly observed that a teacher model with superior performance does not necessarily result in a stronger student, highlighting a discrepancy between current teacher training practices and effective knowledge transfer. In order to enhance the guidance of the teacher training process, we introduce the concept of distillation influence to determine the impact of distillation from each training sample on the student's generalization ability. In this paper, we propose Learning Good Teacher Matters (LGTM), an efficient training technique for incorporating distillation influence into the teacher's learning process. By prioritizing samples that are likely to enhance the student's generalization ability, our LGTM outperforms 10 common knowledge distillation baselines on 6 text classification tasks in the GLUE benchmark. | 翻訳日:2023-05-17 13:43:01 公開日:2023-05-16 |
# 選好ランキング付き迅速調整決定変換器 Prompt-Tuning Decision Transformer with Preference Ranking ( http://arxiv.org/abs/2305.09648v1 ) ライセンス: Link先を確認 | Shengchao Hu, Li Shen, Ya Zhang, Dacheng Tao | (参考訳) Prompt-tuningは、トレーニング済みのモデルを下流のタスクに適用したり、人間の好みに合わせるための有望な方法として登場した。
プロンプト学習はNLPで広く用いられているが、複雑な物理的意味とRLプロンプトに含まれる環境固有の情報により、RLに限定的に適用可能である。
これらの要因は、デモを模倣するために教師付き学習を必要とし、学習後に意味を失う可能性がある。
さらに、RLは情報不足を埋めるのではなく、環境モデリングや分析に基づくガイドエージェントの動作を促すため、NLPのように下流タスクのプロンプトフォーマットの調整が大幅に改善される可能性が低いため、RLへのプロンプトチューニングアプローチを直接拡張することは困難である。
そこで本研究では,環境情報取得のためのプロンプトとして軌跡セグメントを用いることで,環境情報獲得におけるrlエージェントのガイドと,より適切な情報を含む能力を高めるためにブラックボックスチューニングによるプロンプトの最適化を行い,エージェントがよりよい判断を行えるようにすることで,これらの課題に対処できるプロンプトチューニングdtアルゴリズムを提案する。
提案手法では,プロンプト軌道の要素を微調整するためにガウス分布をランダムにサンプリングし,最適化方向を求めるために選好ランキング関数を用いることにより,より有益なプロンプトを提供し,対象環境における特定の選好に向けてエージェントを誘導する。
Prompt-Tuning DT は、学習したパラメータの 0.03% しかなく、ローデータシナリオでのフルモデル微調整よりも同等またはそれ以上のパフォーマンスを実現している。
我々の研究は、RLにおける迅速な調整手法の進歩に寄与し、特定の選好タスクに対して大規模RLエージェントを最適化するための有望な方向性を提供する。 Prompt-tuning has emerged as a promising method for adapting pre-trained models to downstream tasks or aligning with human preferences. Prompt learning is widely used in NLP but has limited applicability to RL due to the complex physical meaning and environment-specific information contained within RL prompts. These factors require supervised learning to imitate the demonstrations and may result in a loss of meaning after learning. Additionally, directly extending prompt-tuning approaches to RL is challenging because RL prompts guide agent behavior based on environmental modeling and analysis, rather than filling in missing information, making it unlikely that adjustments to the prompt format for downstream tasks, as in NLP, can yield significant improvements. In this work, we propose the Prompt-Tuning DT algorithm to address these challenges by using trajectory segments as prompts to guide RL agents in acquiring environmental information and optimizing prompts via black-box tuning to enhance their ability to contain more relevant information, thereby enabling agents to make better decisions. Our approach involves randomly sampling a Gaussian distribution to fine-tune the elements of the prompt trajectory and using preference ranking function to find the optimization direction, thereby providing more informative prompts and guiding the agent towards specific preferences in the target environment. Extensive experiments show that with only 0.03% of the parameters learned, Prompt-Tuning DT achieves comparable or even better performance than full-model fine-tuning in low-data scenarios. Our work contributes to the advancement of prompt-tuning approaches in RL, providing a promising direction for optimizing large RL agents for specific preference tasks. | 翻訳日:2023-05-17 13:42:48 公開日:2023-05-16 |
# ウェーブレットに基づく教師なしラベル対画像翻訳 Wavelet-based Unsupervised Label-to-Image Translation ( http://arxiv.org/abs/2305.09647v1 ) ライセンス: Link先を確認 | George Eskandar, Mohamed Abdelsamad, Karim Armanious, Shuai Zhang, Bin Yang | (参考訳) セマンティック画像合成(Semantic Image Synthesis, SIS)は、画像から画像への変換のサブクラスである。
state-of-the-art conditional generative adversarial networks (gans)は、このタスクを達成するために膨大な量のペアデータを必要とするが、一般的な非ペア画像から画像への翻訳フレームワークは、意味コンテンツの代わりに色とコードの意味のレイアウトを学習し、外観の対応を学習するため、比較では劣る。
ハイクオリティな生成画像はセマンティクスレイアウトにセグメンテーションするべきだという仮定から始め,自己教師付きセグメンテーション損失と画像ウェーブレットベース全体の識別を用いたsis(unsupervised paradigm for sis)を提案する。
さらに,実画像の高周波分布を整合させるために,ウェーブレット領域における新しい生成器アーキテクチャを提案する。
提案手法を3つの難易度データセットでテストし,ペアモデルとペアモデルのパフォーマンスギャップを橋渡しする能力を示す。 Semantic Image Synthesis (SIS) is a subclass of image-to-image translation where a semantic layout is used to generate a photorealistic image. State-of-the-art conditional Generative Adversarial Networks (GANs) need a huge amount of paired data to accomplish this task while generic unpaired image-to-image translation frameworks underperform in comparison, because they color-code semantic layouts and learn correspondences in appearance instead of semantic content. Starting from the assumption that a high quality generated image should be segmented back to its semantic layout, we propose a new Unsupervised paradigm for SIS (USIS) that makes use of a self-supervised segmentation loss and whole image wavelet based discrimination. Furthermore, in order to match the high-frequency distribution of real images, a novel generator architecture in the wavelet domain is proposed. We test our methodology on 3 challenging datasets and demonstrate its ability to bridge the performance gap between paired and unpaired models. | 翻訳日:2023-05-17 13:42:17 公開日:2023-05-16 |
# torchosr -- Pythonでのオープンセット認識モデル評価のためのPyTorch拡張パッケージ torchosr -- a PyTorch extension package for Open Set Recognition models evaluation in Python ( http://arxiv.org/abs/2305.09646v1 ) ライセンス: Link先を確認 | Joanna Komorniczak and Pawel Ksieniewicz | (参考訳) この記事では、pytorchライブラリと互換性のあるpythonパッケージであるtorchosrパッケージを紹介する。ディープニューラルネットワークのオープンセット認識専用のツールとメソッドを提供する。
このパッケージは、オープンセット認識タスク(いくつかのクラスは未知と見なされ、テストプロセスでのみ使用される)のベースセットと派生セットを処理する関数のセットと、データセットやメソッドを扱うための追加のツールの2つの最先端のメソッドを提供する。
パッケージ提案の主な目的は、様々なオープンネスとクラス・ツー・カテゴリの割り当てを持つ多数のデリバティブ・セットで実験を行う、適切な実験評価の簡素化と促進である。
著者らは、パッケージで利用できる最先端のメソッドが、ドメイン内の関連するソリューションの正しいオープンソース実装の源になることを望んでいる。 The article presents the torchosr package - a Python package compatible with PyTorch library - offering tools and methods dedicated to Open Set Recognition in Deep Neural Networks. The package offers two state-of-the-art methods in the field, a set of functions for handling base sets and generation of derived sets for the Open Set Recognition task (where some classes are considered unknown and used only in the testing process) and additional tools to handle datasets and methods. The main goal of the package proposal is to simplify and promote the correct experimental evaluation, where experiments are carried out on a large number of derivative sets with various Openness and class-to-category assignments. The authors hope that state-of-the-art methods available in the package will become a source of a correct and open-source implementation of the relevant solutions in the domain. | 翻訳日:2023-05-17 13:41:57 公開日:2023-05-16 |
# StructGPT:構造化データを扱う大規模言語モデルのための汎用フレームワーク StructGPT: A General Framework for Large Language Model to Reason over Structured Data ( http://arxiv.org/abs/2305.09645v1 ) ライセンス: Link先を確認 | Jinhao Jiang, Kun Zhou, Zican Dong, Keming Ye, Wayne Xin Zhao and Ji-Rong Wen | (参考訳) 本稿では,構造化データに対する大規模言語モデルのゼロショット推論能力(LLM)を統一的に向上させる方法について検討する。
LLMのツール強化の研究に触発されて、構造化データに基づく質問応答タスクを解くための「emph{Iterative Reading-then-Reasoning~(IRR)}アプローチ、いわゆる「textbf{StructGPT」を開発した。
本研究では,構造化データ(\ie \emph{reading})から関連する証拠を収集する特殊関数を構築し,収集した情報(\ie \emph{reasoning})に基づいてLLMを推論タスクに集中させる。
特に,外部インタフェースの助けを借りて構造化データの推論において,llmをサポートするための<emph{invoking-linearization-generation>手順を提案する。
この手順をインターフェイスで反復することで、我々のアプローチは、所定のクエリに対するターゲットの回答に徐々にアプローチすることができる。
3種類の構造化データを用いて行った大規模な実験は,ChatGPTの性能を大幅に向上させ,全データ教師あり学習ベースラインに対して同等の性能が得られることを示す。
私たちのコードとデータは、~\url{https://github.com/RUCAIBox/StructGPT}で公開されています。 In this paper, we study how to improve the zero-shot reasoning ability of large language models~(LLMs) over structured data in a unified way. Inspired by the study on tool augmentation for LLMs, we develop an \emph{Iterative Reading-then-Reasoning~(IRR)} approach for solving question answering tasks based on structured data, called \textbf{StructGPT}. In our approach, we construct the specialized function to collect relevant evidence from structured data (\ie \emph{reading}), and let LLMs concentrate the reasoning task based on the collected information (\ie \emph{reasoning}). Specially, we propose an \emph{invoking-linearization-generation} procedure to support LLMs in reasoning on the structured data with the help of the external interfaces. By iterating this procedures with provided interfaces, our approach can gradually approach the target answer to a given query. Extensive experiments conducted on three types of structured data demonstrate the effectiveness of our approach, which can significantly boost the performance of ChatGPT and achieve comparable performance against the full-data supervised-tuning baselines. Our codes and data are publicly available at~\url{https://github.com/RUCAIBox/StructGPT}. | 翻訳日:2023-05-17 13:41:41 公開日:2023-05-16 |
# fitme: 深層フォトリアリスティックな3d morphableモデルアバター FitMe: Deep Photorealistic 3D Morphable Model Avatars ( http://arxiv.org/abs/2305.09641v1 ) ライセンス: Link先を確認 | Alexandros Lattas, Stylianos Moschoglou, Stylianos Ploumpis, Baris Gecer, Jiankang Deng, Stefanos Zafeiriou | (参考訳) 本稿では、顔の反射率モデルであるFitMeと、複数の画像から高忠実性レンダリング可能な人体アバターを取得するために使用可能なレンダリング最適化パイプラインについて紹介する。
このモデルは、拡散反射率と鏡面反射率の観点から顔の外観を捉えるマルチモーダルなスタイルベースの生成器と、pcaベースの形状モデルで構成されている。
我々は、高速で微分可能なレンダリングプロセスを採用し、最適化パイプラインで使用できると同時に、フォトリアリスティックな顔シェーディングを実現する。
提案手法は, 顔の反射率と形状を高精度に把握し, スタイルベースの潜在表現と形状モデルの表現性を利用する。
FitMeは、単一の「ワイルド」顔画像に対して、最先端の反射率取得とアイデンティティ保存を実現し、同じアイデンティティに関連する複数の制約のない顔画像を与えると、印象的なスキャンライクな結果が得られる。
最近の暗黙的なアバター再構築とは対照的に、FitMeはわずか1分で、エンドユーザアプリケーションで使用可能な、リライト可能なメッシュとテクスチャベースのアバターを生成する。 In this paper, we introduce FitMe, a facial reflectance model and a differentiable rendering optimization pipeline, that can be used to acquire high-fidelity renderable human avatars from single or multiple images. The model consists of a multi-modal style-based generator, that captures facial appearance in terms of diffuse and specular reflectance, and a PCA-based shape model. We employ a fast differentiable rendering process that can be used in an optimization pipeline, while also achieving photorealistic facial shading. Our optimization process accurately captures both the facial reflectance and shape in high-detail, by exploiting the expressivity of the style-based latent representation and of our shape model. FitMe achieves state-of-the-art reflectance acquisition and identity preservation on single "in-the-wild" facial images, while it produces impressive scan-like results, when given multiple unconstrained facial images pertaining to the same identity. In contrast with recent implicit avatar reconstructions, FitMe requires only one minute and produces relightable mesh and texture-based avatars, that can be used by end-user applications. | 翻訳日:2023-05-17 13:41:20 公開日:2023-05-16 |
# 事前計算による量子アルゴリズムの高速化 Accelerating Quantum Algorithms with Precomputation ( http://arxiv.org/abs/2305.09638v1 ) ライセンス: Link先を確認 | William J. Huggins, Jarrod R. McClean | (参考訳) 実世界のコンピューティング応用は極めて時間に敏感である。
事前の作業を行うことで、こうしたタスクを加速させることができれば、価値があるでしょう。
そこで本研究では,量子プリ計算が可能な量子アルゴリズムのコストモデルを提案する。すなわち,アルゴリズムへの入力が完全に指定される前の多項式量の「自由」計算に対して,その利用方法を提案する。
このコストモデルを実装するのに標準モデルよりも漸近的に効率的であるユニタリの2つのファミリーを分析した。
密度行列指数に基づく量子事前計算の最初の例は、ある条件下で指数的な優位性を与える。
第2の例はゲートテレポーテーションの変種を使用して、ユニタリを直接実装した場合と比較して二次的な利点を達成する。
これらの例は、量子事前計算が量子優位を求める新しいアリーナを提供する可能性を示唆している。 Real-world applications of computing can be extremely time-sensitive. It would be valuable if we could accelerate such tasks by performing some of the work ahead of time. Motivated by this, we propose a cost model for quantum algorithms that allows quantum precomputation; i.e., for a polynomial amount of "free" computation before the input to an algorithm is fully specified, and methods for taking advantage of it. We analyze two families of unitaries that are asymptotically more efficient to implement in this cost model than in the standard one. The first example of quantum precomputation, based on density matrix exponentiation, could offer an exponential advantage under certain conditions. The second example uses a variant of gate teleportation to achieve a quadratic advantage when compared with implementing the unitaries directly. These examples hint that quantum precomputation may offer a new arena in which to seek quantum advantage. | 翻訳日:2023-05-17 13:40:59 公開日:2023-05-16 |
# SoundStorm:効率的な並列オーディオ生成 SoundStorm: Efficient Parallel Audio Generation ( http://arxiv.org/abs/2305.09636v1 ) ライセンス: Link先を確認 | Zal\'an Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi | (参考訳) 本研究では,効率的な非自己回帰音声生成モデルSoundStormを提案する。
SoundStormはAudioLMのセマンティックトークンを入力として受け取り、双方向の注意と信頼に基づく並列デコーディングに依存して、ニューラルオーディオコーデックのトークンを生成する。
audiolmの自己回帰的な生成手法と比較すると、このモデルは音質が同じで、音声と音響条件の一貫性が高く、2桁の速さで音声を生成する。
SoundStormはTPU-v4で0.5秒で30秒のオーディオを生成する。
本モデルでは,話者の交替に注釈を付した書き起こしと話者の声の短いプロンプトに対して,高品質な自然な対話セグメントを合成することにより,音声生成を長い系列にスケールする能力を示す。 We present SoundStorm, a model for efficient, non-autoregressive audio generation. SoundStorm receives as input the semantic tokens of AudioLM, and relies on bidirectional attention and confidence-based parallel decoding to generate the tokens of a neural audio codec. Compared to the autoregressive generation approach of AudioLM, our model produces audio of the same quality and with higher consistency in voice and acoustic conditions, while being two orders of magnitude faster. SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. We demonstrate the ability of our model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript annotated with speaker turns and a short prompt with the speakers' voices. | 翻訳日:2023-05-17 13:40:45 公開日:2023-05-16 |
# ファイバーベース量子ネットワークにおける非対称ノード配置 Asymmetric node placement in fiber-based quantum networks ( http://arxiv.org/abs/2305.09635v1 ) ライセンス: Link先を確認 | Guus Avis, Robert Knegjens, Anders S. S{\o}rensen and Stephanie Wehner | (参考訳) 既存のインフラによって課される制限は、将来のファイバーベースの量子ネットワークのノード間でさらに間隔を縮めるのを難しくする。
本稿では,ヘラルドエンタングルメント生成に必要な中点局の配置と,チェーン内の処理ノード量子リピータの配置を別途考慮し,非対称ノード配置の負の効果について検討する。
中点駅では、1つの絡み合う試みを行うのに必要な時間、そのような試みの成功確率、そして絡み合った状態の忠実さに対する非対称性の影響を説明する。
これは、光子の不識別性に対する色分散の影響を説明することを含む。
量子リピータチェーンの場合、リピータノード間の不均一さがボトルネックの原因となるかを数値的に調べ、待ち時間と時間状態の両方をノイズ量子メモリに格納する。
一つの絡み合い試行に要する時間は、中間点の非対称性と直線的に増加するが、有意な絡み合い発生の成功確率と忠実度、繰り返し鎖の分布時間と誤り率はすべて、非対称性の量に関して第1の導関数を消滅させる。
これは、少量の非対称性に対する量子ネットワーク性能のレジリエンスを示唆している。 Restrictions imposed by existing infrastructure can make it hard to ensure an even spacing between the nodes of future fiber-based quantum networks. We here investigate the negative effects of asymmetric node placement by considering separately the placement of midpoint stations required for heralded entanglement generation, as well as of processing-node quantum repeaters in a chain. For midpoint stations, we describe the effect asymmetry has on the time required to perform one entangling attempt, the success probability of such attempts, and the fidelity of the entangled states created. This includes accounting for the effects of chromatic dispersion on photon indistinguishability. For quantum-repeater chains we numerically investigate how uneven spacing between repeater nodes leads to bottlenecks, thereby increasing both the waiting time and the time states are stored in noisy quantum memory. We find that while the time required to perform one entangling attempt may increase linearly with the midpoint's asymmetry, the success probability and fidelity of heralded entanglement generation and the distribution time and error rate for repeater chains all have vanishing first derivatives with respect to the amount of asymmetry. This suggests resilience of quantum-network performance against small amounts of asymmetry. | 翻訳日:2023-05-17 13:40:32 公開日:2023-05-16 |
# 局所的なSGDステップの削減による高速なフェデレーション学習 Faster Federated Learning with Decaying Number of Local SGD Steps ( http://arxiv.org/abs/2305.09628v1 ) ライセンス: Link先を確認 | Jed Mills, Jia Hu, Geyong Min | (参考訳) インターネット経由で接続された連合学習(fl)クライアントデバイスでは、プライベートデータを中央サーバや他のクライアントと共有することなく、機械学習モデルを協調的にトレーニングする。
seminal federated averaging (fedavg)アルゴリズムは、クライアント上でローカルトレーニングのラウンドを実行し、モデル平均化を実行することによって、単一のグローバルモデルをトレーニングする。
FedAvgは、各ラウンドでSGD(Stochastic Gradient Descent)のより多くのステップを実行することで、トレーニングのコミュニケーション効率を向上させることができる。
しかし,実世界のFLにおけるクライアントデータは多種多様であり,SGDの1ラウンドあたりのクライアントに対して,K > 1$のステップでSGDのモデル収束を遅くし,最終性能を損なうことが広く示されている。
本研究は, FLモデルの最終性能を, 固定された$K$に比べて, 壁面時間と総計算コストを低減しつつ, 共に向上させることができる, トレーニングが進むにつれて, 劣化する$K$を提案する。
我々は,強い凸目標に対して,k$の崩壊を伴うfedavgの収束を解析し,収束特性に関する新たな知見を与え,理論的に動機づけられた3つの崩壊スケジュールをk$で導出する。
次に,4つのベンチマークFLデータセット(FEMNIST, CIFAR100, Sentiment140, Shakespeare)の徹底的な実験を行い,実世界の収束時間,計算コスト,一般化性能の観点から,我々のアプローチの現実的なメリットを示す。 In Federated Learning (FL) client devices connected over the internet collaboratively train a machine learning model without sharing their private data with a central server or with other clients. The seminal Federated Averaging (FedAvg) algorithm trains a single global model by performing rounds of local training on clients followed by model averaging. FedAvg can improve the communication-efficiency of training by performing more steps of Stochastic Gradient Descent (SGD) on clients in each round. However, client data in real-world FL is highly heterogeneous, which has been extensively shown to slow model convergence and harm final performance when $K > 1$ steps of SGD are performed on clients per round. In this work we propose decaying $K$ as training progresses, which can jointly improve the final performance of the FL model whilst reducing the wall-clock time and the total computational cost of training compared to using a fixed $K$. We analyse the convergence of FedAvg with decaying $K$ for strongly-convex objectives, providing novel insights into the convergence properties, and derive three theoretically-motivated decay schedules for $K$. We then perform thorough experiments on four benchmark FL datasets (FEMNIST, CIFAR100, Sentiment140, Shakespeare) to show the real-world benefit of our approaches in terms of real-world convergence time, computational cost, and generalisation performance. | 翻訳日:2023-05-17 13:40:09 公開日:2023-05-16 |
# マルチオルガンセグメンテーションにおける3週間の腹部ct量の検討 Annotating 8,000 Abdominal CT Volumes for Multi-Organ Segmentation in Three Weeks ( http://arxiv.org/abs/2305.09666v1 ) ライセンス: Link先を確認 | Chongyu Qu, Tiezheng Zhang, Hualin Qiao, Jie Liu, Yucheng Tang, Alan Yuille, Zongwei Zhou | (参考訳) 医用画像、特に臓器分割のアノテーションは、手間と時間を要する。
例えば、腹部臓器のアノテートには、アノテーターの専門知識と臓器の大きさ、可視性、複雑さに基づいて、CT体積あたり30~60分を見積もる必要がある。
したがって、マルチ組織セグメンテーションのための公開データセットは、しばしばデータサイズと臓器の多様性に制限される。
本稿では,臓器セグメント化のためのアノテーション処理を迅速かつ効率的に行う手法を提案する。
我々は, 脾臓, 肝臓, 腎臓, 胃, 胆嚢, 膵臓, 大動脈, IVC を8,448 CT 巻に注釈し, 320万スライスとほぼ一致する, 最大規模の多臓器データセットを作成した。
従来のアノテーション手法では、このタスクを完了するのに1,600週間(または約30.8年)を要した。
対照的に、アノテーションメソッドは、同様の、あるいはより優れたアノテーション品質を維持しながら、3週間(8時間の作業日、週5日)でこのタスクを完了しました。
この成果は,(1)複数の事前学習されたセグメンテーションモデルを用いたラベルバイアス低減,(2)モデル予測における効果的な誤り検出,(3)最もサルエントな誤りを訂正するための注釈者への注意誘導,の3つの特徴に起因している。
さらに,AIアルゴリズムやアノテータによる一般的なエラーの分類を要約する。
これにより、AIとアノテーションの両方の継続的な改善が可能になり、幅広い医療画像タスクのために大規模なデータセットを作成するのに必要なアノテーションコストを大幅に削減できる。 Annotating medical images, particularly for organ segmentation, is laborious and time-consuming. For example, annotating an abdominal organ requires an estimated rate of 30-60 minutes per CT volume based on the expertise of an annotator and the size, visibility, and complexity of the organ. Therefore, publicly available datasets for multi-organ segmentation are often limited in data size and organ diversity. This paper proposes a systematic and efficient method to expedite the annotation process for organ segmentation. We have created the largest multi-organ dataset (by far) with the spleen, liver, kidneys, stomach, gallbladder, pancreas, aorta, and IVC annotated in 8,448 CT volumes, equating to 3.2 million slices. The conventional annotation methods would take an experienced annotator up to 1,600 weeks (or roughly 30.8 years) to complete this task. In contrast, our annotation method has accomplished this task in three weeks (based on an 8-hour workday, five days a week) while maintaining a similar or even better annotation quality. This achievement is attributed to three unique properties of our method: (1) label bias reduction using multiple pre-trained segmentation models, (2) effective error detection in the model predictions, and (3) attention guidance for annotators to make corrections on the most salient errors. Furthermore, we summarize the taxonomy of common errors made by AI algorithms and annotators. This allows for continuous refinement of both AI and annotations and significantly reduces the annotation costs required to create large-scale datasets for a wider variety of medical imaging tasks. | 翻訳日:2023-05-17 13:34:52 公開日:2023-05-16 |
# 単一画像からの3次元物体の相互作用の理解 Understanding 3D Object Interaction from a Single Image ( http://arxiv.org/abs/2305.09664v1 ) ライセンス: Link先を確認 | Shengyi Qian, David F. Fouhey | (参考訳) 人間は単一のイメージを、対話を許す複数の潜在的なオブジェクトとして容易に理解することができる。
私たちはこのスキルを使って世界との対話を計画し、対話に携わることなく新しいオブジェクトを理解することを加速します。
本稿では,知的エージェントが3Dシーンをよりよく探索したり,物体を操作したりできるように,同様の能力で機械を支援したい。
提案手法は3次元位置, 物理的特性, 物価を予測するトランスフォーマーモデルである。
このモデルを活用するために、インターネットビデオ、エゴセントリックビデオ、屋内画像などのデータセットを収集し、アプローチをトレーニングし、検証する。
我々のモデルは、我々のデータに強い性能をもたらし、ロボットデータによく当てはまる。 Humans can easily understand a single image as depicting multiple potential objects permitting interaction. We use this skill to plan our interactions with the world and accelerate understanding new objects without engaging in interaction. In this paper, we would like to endow machines with the similar ability, so that intelligent agents can better explore the 3D scene or manipulate objects. Our approach is a transformer-based model that predicts the 3D location, physical properties and affordance of objects. To power this model, we collect a dataset with Internet videos, egocentric videos and indoor images to train and validate our approach. Our model yields strong performance on our data, and generalizes well to robotics data. | 翻訳日:2023-05-17 13:34:22 公開日:2023-05-16 |
# Sachdev-Ye-Kitaevモデルにおける通過可能なワームホールの6次法 Sixfold way of traversable wormholes in the Sachdev-Ye-Kitaev model ( http://arxiv.org/abs/2305.09663v1 ) ライセンス: Link先を確認 | Antonio M. Garc\'ia-Garc\'ia, Lucas S\'a, Jacobus J. M. Verbaarschot, and Can Yin | (参考訳) 赤外線限界では、2次元(2次元)の反ド・ジッター時空(ads$_2$)が弱い二重トレース変形と2-site $(q>2)$-body sachdev-ye-kitaev (syk)モデルによって引き起こされる。
この関係を利用して,n$,$q$,および$r$に依存した可逆ワームホールの対称性分類を,q>2r$で提案し,正確な対角化手法を用いたレベル統計解析により確認する。
興味深いことに、時間反転状態は新しい状態にはならないため、A、AI、BDI、CI、C、Dの6つの普遍性クラスしか発生しない。 In the infrared limit, a nearly anti-de Sitter spacetime in two dimensions (AdS$_2$) perturbed by a weak double trace deformation and a two-site $(q>2)$-body Sachdev-Ye-Kitaev (SYK) model with $N$ Majoranas and a weak $2r$-body intersite coupling share the same near-conformal dynamics described by a traversable wormhole. We exploit this relation to propose a symmetry classification of traversable wormholes depending on $N$, $q$, and $r$, with $q>2r$, and confirm it by a level statistics analysis using exact diagonalization techniques. Intriguingly, a time-reversed state never results in a new state, so only six universality classes occur: A, AI, BDI, CI, C, and D. | 翻訳日:2023-05-17 13:34:11 公開日:2023-05-16 |
# make-an-animation:大規模テキスト条件付き3次元モーション生成 Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation ( http://arxiv.org/abs/2305.09662v1 ) ライセンス: Link先を確認 | Samaneh Azadi, Akbar Shah, Thomas Hayes, Devi Parikh, Sonal Gupta | (参考訳) テキスト誘導された人間のモーション生成は、アニメーションとロボット工学にまたがる影響のある応用のために、大きな関心を集めている。
近年, 拡散モデルの運動生成への応用により, 生成運動の品質が向上している。
しかし、既存のアプローチは比較的小規模なモーションキャプチャーデータに依存しているため、より多種多様なインザワイルドプロンプトの性能は低下する。
本稿では,より多様なポーズを学習し,大規模な画像テキストデータセットからプロンプトを誘導するテキスト条件付き人間動作生成モデルであるMake-An-Animationを紹介する。
Make-An-Animationは2つのステージで訓練される。
まず、画像テキストデータセットから抽出した(テキスト、静的な擬似目的)ペアの大規模データセットをトレーニングする。
第二に、モーションキャプチャーデータを微調整し、時間次元をモデル化するためのレイヤーを追加します。
モーション生成のための従来の拡散モデルとは異なり、Make-An-Animationは最近のテキスト・ビデオ生成モデルに似たU-Netアーキテクチャを使用する。
人間の動作リアリズムの評価と入力テキストとのアライメントは,本モデルがテキスト・トゥ・モーション生成における最先端の性能に達することを示す。 Text-guided human motion generation has drawn significant interest because of its impactful applications spanning animation and robotics. Recently, application of diffusion models for motion generation has enabled improvements in the quality of generated motions. However, existing approaches are limited by their reliance on relatively small-scale motion capture data, leading to poor performance on more diverse, in-the-wild prompts. In this paper, we introduce Make-An-Animation, a text-conditioned human motion generation model which learns more diverse poses and prompts from large-scale image-text datasets, enabling significant improvement in performance over prior works. Make-An-Animation is trained in two stages. First, we train on a curated large-scale dataset of (text, static pseudo-pose) pairs extracted from image-text datasets. Second, we fine-tune on motion capture data, adding additional layers to model the temporal dimension. Unlike prior diffusion models for motion generation, Make-An-Animation uses a U-Net architecture similar to recent text-to-video generation models. Human evaluation of motion realism and alignment with input text shows that our model reaches state-of-the-art performance on text-to-motion generation. | 翻訳日:2023-05-17 13:33:50 公開日:2023-05-16 |
# 転写学習モデルを用いた骨肉腫腫瘍検出 Osteosarcoma Tumor Detection using Transfer Learning Models ( http://arxiv.org/abs/2305.09660v1 ) ライセンス: Link先を確認 | Raisa Fairooz Meem, Khandaker Tabin Hasan | (参考訳) 臨床画像解析の分野は,計算複雑性の低下や精度の向上などにより,転送学習モデルを適用しつつある。
これらは事前トレーニングされたモデルで、スクラッチからトレーニングする必要がなく、大規模なデータセットの必要性がなくなる。
転写学習モデルは、主に脳、乳房、肺の画像の解析に使用されるが、骨髄細胞検出や骨がん検出などの他の分野も、特にこれらのタスクに利用可能な大規模なデータセットが不足していることから、転写学習モデルを使用することの恩恵を受けることができる。
本稿では,骨肉腫腫瘍検出のための転写学習モデルの性能について検討する。
骨肉腫(osteosarcoma)は、骨の長い骨の細胞に見られる骨がんの一種である。
データセットは4つのカテゴリ(生存可能腫瘍、生存可能腫瘍、非腫瘍、生存可能非生存可能腫瘍)に分けられたh&e染色画像で構成されている。
どちらのデータセットも、80~20の比率で列車とテストセットにランダムに分割された。
80%がトレーニングに、20%がテストに使われた。
比較には4モデルが検討されている: efficientnetb7、inceptionresnetv2、nasnetlarge、resnet50。
これらのモデルはすべてimagenetで事前トレーニングされている。
その結果、InceptionResNetV2が93.29%、NasNetLargeが90.91%、ResNet50が89.83%、EfficientNetB7が62.77%だった。
また、4モデルの中で最も高い精度(0.8658)とリコール(0.8658)を持っていた。 The field of clinical image analysis has been applying transfer learning models increasingly due to their less computational complexity, better accuracy etc. These are pre-trained models that don't require to be trained from scratch which eliminates the necessity of large datasets. Transfer learning models are mostly used for the analysis of brain, breast, or lung images but other sectors such as bone marrow cell detection or bone cancer detection can also benefit from using transfer learning models, especially considering the lack of available large datasets for these tasks. This paper studies the performance of several transfer learning models for osteosarcoma tumour detection. Osteosarcoma is a type of bone cancer mostly found in the cells of the long bones of the body. The dataset consists of H&E stained images divided into 4 categories- Viable Tumor, Non-viable Tumor, Non-Tumor and Viable Non-viable. Both datasets were randomly divided into train and test sets following an 80-20 ratio. 80% was used for training and 20\% for test. 4 models are considered for comparison- EfficientNetB7, InceptionResNetV2, NasNetLarge and ResNet50. All these models are pre-trained on ImageNet. According to the result, InceptionResNetV2 achieved the highest accuracy (93.29%), followed by NasNetLarge (90.91%), ResNet50 (89.83%) and EfficientNetB7 (62.77%). It also had the highest precision (0.8658) and recall (0.8658) values among the 4 models. | 翻訳日:2023-05-17 13:33:30 公開日:2023-05-16 |
# double pessimismは分散的ロバストなオフライン強化学習に有効である:ジェネリックアルゴリズムとロバスト部分カバレッジ Double Pessimism is Provably Efficient for Distributionally Robust Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage ( http://arxiv.org/abs/2305.09659v1 ) ライセンス: Link先を確認 | Jose Blanchet, Miao Lu, Tong Zhang, Han Zhong | (参考訳) 本研究では, 分散ロバストなオフライン強化学習(ロバストなオフラインRL)について検討し, 摂動環境において良好に動作可能なオフラインデータセットから, 最適ロバストなポリシを求める。
我々は、ロバストなオフラインRLのための汎用アルゴリズムフレームワーク \underline{D}oubly \underline{P}essimistic \underline{M}odel-based \underline{P}olicy \underline{O}ptimization ($\texttt{P}^2\texttt{MPO}$)を提案する。
emph{double pessimism}原理は、引き起こされる分布シフトを克服するために重要である
一 行動方針と対象政策の家族とのミスマッチ
二 名目モデルの摂動
モデル推定サブルーチンにおける一定の精度の仮定の下では、$\texttt{p}^2\texttt{mpo}$ は \emph{robust partial coverage data} で確実に効率的であることが示されている。
具体的な例として,表計算式Robust Markov Decision Process (RMDP),ファクタードRMDP,RMDPなどのモデル推定サブルーチンをカーネルおよび神経関数近似で調整することにより,$\texttt{P}^2\texttt{MPO}$が$\tilde{\mathcal{O}}(n^{-1/2})$収束率で,$n$がオフラインデータセットのトラジェクトリ数であることを示す。
特に、これらのモデルは表の場合を除いて最初に同定され、この論文で証明できる。
まず,ロバストなオフラインRLのための一般学習原理(二重悲観主義)を提案し,一般関数近似の文脈で有効であることを示す。 We study distributionally robust offline reinforcement learning (robust offline RL), which seeks to find an optimal robust policy purely from an offline dataset that can perform well in perturbed environments. We propose a generic algorithm framework \underline{D}oubly \underline{P}essimistic \underline{M}odel-based \underline{P}olicy \underline{O}ptimization ($\texttt{P}^2\texttt{MPO}$) for robust offline RL, which features a novel combination of a flexible model estimation subroutine and a doubly pessimistic policy optimization step. The \emph{double pessimism} principle is crucial to overcome the distributional shift incurred by i) the mismatch between behavior policy and the family of target policies; and ii) the perturbation of the nominal model. Under certain accuracy assumptions on the model estimation subroutine, we show that $\texttt{P}^2\texttt{MPO}$ is provably efficient with \emph{robust partial coverage data}, which means that the offline dataset has good coverage of the distributions induced by the optimal robust policy and perturbed models around the nominal model. By tailoring specific model estimation subroutines for concrete examples including tabular Robust Markov Decision Process (RMDP), factored RMDP, and RMDP with kernel and neural function approximations, we show that $\texttt{P}^2\texttt{MPO}$ enjoys a $\tilde{\mathcal{O}}(n^{-1/2})$ convergence rate, where $n$ is the number of trajectories in the offline dataset. Notably, these models, except for the tabular case, are first identified and proven tractable by this paper. To the best of our knowledge, we first propose a general learning principle -- double pessimism -- for robust offline RL and show that it is provably efficient in the context of general function approximations. | 翻訳日:2023-05-17 13:33:05 公開日:2023-05-16 |
# 宣言型プロンプトを用いた満足度支援言語モデル Satisfiability-Aided Language Models Using Declarative Prompting ( http://arxiv.org/abs/2305.09656v1 ) ライセンス: Link先を確認 | Xi Ye, Qiaochu Chen, Isil Dillig, Greg Durrett | (参考訳) これまでの研究は、大規模言語モデル(LLM)におけるチェーン・オブ・シークレットとプログラム表現を組み合わせることで、効果的で透明な推論を実現してきた。
このようなアプローチは前方推論のみを必要とするタスク(例:単純算術)ではうまく機能するが、より洗練された計画と探索を必要とするタスクの制約にはあまり効果がない。
本稿では,LLMの推論能力を向上させるための言語モデリング手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明を利用して最終解を導出する。
このアプローチには2つの大きな利点がある。
宣言的仕様は推論ステップよりも問題記述に近いため、llmはそれをより正確に解析することができる。
さらに、自動定理証明器に実際の推論タスクをオフロードすることにより、解析された仕様に対する回答の正しさを保証し、推論プロセスにおける計画誤差を回避することができる。
我々はSATLMを6つの異なるデータセット上で評価し、命令パラダイム(PROGLM)でプログラム支援されたLMより一貫して優れていることを示す。
特にSATLMは、GSMの挑戦的なサブセットでPROGLMを23%上回り、SATLMはLSAT上の新しいSoTAも達成し、フルトレーニングセットでトレーニングされた以前のモデルを上回っている。 Prior work has combined chain-of-thought prompting in large language models (LLMs) with programmatic representations to perform effective and transparent reasoning. While such an approach works very well for tasks that only require forward reasoning (e.g., straightforward arithmetic), it is less effective for constraint solving tasks that require more sophisticated planning and search. In this paper, we propose a new satisfiability-aided language modeling approach for improving the reasoning capabilities of LLMs. We use an LLM to generate a declarative task specification rather than an imperative program and leverage an off-the-shelf automated theorem prover to derive the final answer. This approach has two key advantages. The declarative specification is closer to the problem description than the reasoning steps are, so the LLM can parse it more accurately. Furthermore, by offloading the actual reasoning task to an automated theorem prover, our approach can guarantee the correctness of the answer with respect to the parsed specification and avoid planning errors in the reasoning process. We evaluate SATLM on 6 different datasets and show that it consistently outperforms program-aided LMs in an imperative paradigm (PROGLM). In particular, SATLM outperforms PROGLM by 23% on a challenging subset of GSM; SATLM also achieves a new SoTA on LSAT, surpassing previous models that are trained on the full training set. | 翻訳日:2023-05-17 13:32:13 公開日:2023-05-16 |
# RAMario: Reptile Algorithmに対する実験的アプローチ -- マリオのための強化学習 RAMario: Experimental Approach to Reptile Algorithm -- Reinforcement Learning for Mario ( http://arxiv.org/abs/2305.09655v1 ) ライセンス: Link先を確認 | Sanyam Jain | (参考訳) 本研究では,Reptileアルゴリズムを用いて強化学習を行い,ニューラルネットワークを用いてスーパーマリオブラザーズをプレイする実験手法を提案する。
我々はSuper Mario Bros GymライブラリとTensorFlowをPythonで使用してReptileアルゴリズムを実装し、単一の畳み込み層、フラット層、および高密度層を備えたニューラルネットワークモデルを作成する。
我々はオプティマイザを定義し、Reptileクラスを使用してReptileメタ学習アルゴリズムのインスタンスを作成する。
複数のタスクやエピソードを使ってモデルをトレーニングし、ニューラルネットワークモデルの現在の重みを使ってアクションを選択し、環境下でアクションを取り、Reptileアルゴリズムを使ってモデルの重みを更新する。
各エピソードの総報酬を印刷することにより,アルゴリズムの性能を評価する。
さらに,ReptileアルゴリズムとPPO (Proximal Policy Optimization) とDQN (Deep Q-Network) の2つの一般的な強化学習アルゴリズムを比較し,同じスーパーマリオブラザースタスクに適用した。
その結果,このアルゴリズムは,他の2つのアルゴリズム,特にエージェントが1mのトレーニングで実行する動きと距離の点で同等あるいはそれ以上のパフォーマンスを持つ,ゲームaiにおける少数ショット学習に有望なアプローチを提供することがわかった。
その結果,ゲーム環境におけるワールド1-2の最大距離は1732 (PPO), ~1840 (DQN), ~2300 (RAMario) であった。
完全なコードはhttps://github.com/s4nyam/RAMarioで入手できる。 This research paper presents an experimental approach to using the Reptile algorithm for reinforcement learning to train a neural network to play Super Mario Bros. We implement the Reptile algorithm using the Super Mario Bros Gym library and TensorFlow in Python, creating a neural network model with a single convolutional layer, a flatten layer, and a dense layer. We define the optimizer and use the Reptile class to create an instance of the Reptile meta-learning algorithm. We train the model using multiple tasks and episodes, choosing actions using the current weights of the neural network model, taking those actions in the environment, and updating the model weights using the Reptile algorithm. We evaluate the performance of the algorithm by printing the total reward for each episode. In addition, we compare the performance of the Reptile algorithm approach to two other popular reinforcement learning algorithms, Proximal Policy Optimization (PPO) and Deep Q-Network (DQN), applied to the same Super Mario Bros task. Our results demonstrate that the Reptile algorithm provides a promising approach to few-shot learning in video game AI, with comparable or even better performance than the other two algorithms, particularly in terms of moves vs distance that agent performs for 1M episodes of training. The results shows that best total distance for world 1-2 in the game environment were ~1732 (PPO), ~1840 (DQN) and ~2300 (RAMario). Full code is available at https://github.com/s4nyam/RAMario. | 翻訳日:2023-05-17 13:31:49 公開日:2023-05-16 |
# 収縮量子固有解法を用いた多体励起状態 Many-Body Excited States with a Contracted Quantum Eigensolver ( http://arxiv.org/abs/2305.09653v1 ) ライセンス: Link先を確認 | Scott E. Smart, Davis M. Welakuh, Prineha Narang | (参考訳) 地上および励起状態の計算は、短期量子コンピューティング応用のエキサイティングな展望であり、実行可能な方向を評価するためには、正確かつ効率的なアルゴリズムが必要である。
我々は、収縮量子固有解法(ES-CQE)に基づく励起状態アプローチを開発し、サブスペースに投影されたシュルフ「o」ディンガー方程式の縮退に対する解を反復的に求め、システムに関する事前情報を必要としない。
我々は、この方程式の反エルミート的部分に焦点を当て、2体のユニタリアンサッツを導いた。
本研究では,モデル四角形${\rm h}_4$ system における対称性,初期状態,制約,全体的な性能について検討する。
es-cqeは、強い電子相関と弱い電子相関の領域をカバーするとともに、2体のユニタリアンサッツの挑戦的な例を解明しながら、ほとんどの状態においてほぼ実効に近い精度を達成する。 Calculating ground and excited states is an exciting prospect for near-term quantum computing applications, and accurate and efficient algorithms are needed to assess viable directions. We develop an excited state approach based on the contracted quantum eigensolver (ES-CQE), which iteratively attempts to find a solution to a contraction of the Schr{\"o}dinger equation projected onto a subspace, and does not require a priori information on the system. We focus on the anti-Hermitian portion of the equation, leading to a two-body unitary ansatz. We investigate the role of symmetries, initial states, constraints, and overall performance within the context of the model rectangular ${\rm H}_4$ system. We show the ES-CQE achieves near-exact accuracy across the majority of states, covering regions of strong and weak electron correlation, while also elucidating challenging instances for two-body unitary ansatz. | 翻訳日:2023-05-17 13:31:22 公開日:2023-05-16 |
# あなたの意味を理解する解釈:音声翻訳によるエンドツーエンドの音声言語理解 The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation ( http://arxiv.org/abs/2305.09652v1 ) ライセンス: Link先を確認 | Mutian He, Philip N. Garner | (参考訳) SLU(End-to-end Speech Language Understanding)は、特に多言語の場合において、現在テキストや音声に事前訓練された言語モデルが使われている場合でも、いまだ解明されていない。
機械翻訳は、入力発話の高レベル意味論と、低レベル音響フレームで動作する音声モデルに望ましい異なる言語間の関連を捉えることができるため、テキストの強力な事前学習目標として確立されている。
特に言語間SLUの課題によって動機付けられ,一言語間および言語間の両方のシナリオにおいて,音声翻訳(ST)がエンドツーエンドSLUの音声モデルを事前学習するための良い方法であることを示す。
STを導入することで、SLURP、MINDS-14、NMSQAベンチマークを用いた音声質問応答だけでなく、モノリンガルおよび多言語意図分類に基づく現在のベースラインよりも高い性能が得られる。
提案手法の有効性を検証するため,音声から音声への抽象的な要約と,英語からフランス語への低リソースあるいはゼロショットの転送を行うために,合成および実音源からの新しいベンチマークデータセットを2つリリースした。
さらに,事前学習課題からの知識保存の価値を示し,それに対する連続学習正規化子に基づく事前学習音声モデルにおけるベイズ伝達学習について検討する。 End-to-end spoken language understanding (SLU) remains elusive even with current large pretrained language models on text and speech, especially in multilingual cases. Machine translation has been established as a powerful pretraining objective on text as it enables the model to capture high-level semantics of the input utterance and associations between different languages, which is desired for speech models that work on lower-level acoustic frames. Motivated particularly by the task of cross-lingual SLU, we demonstrate that the task of speech translation (ST) is a good means of pretraining speech models for end-to-end SLU on both monolingual and cross-lingual scenarios. By introducing ST, our models give higher performance over current baselines on monolingual and multilingual intent classification as well as spoken question answering using SLURP, MINDS-14, and NMSQA benchmarks. To verify the effectiveness of our methods, we also release two new benchmark datasets from both synthetic and real sources, for the tasks of abstractive summarization from speech and low-resource or zero-shot transfer from English to French. We further show the value of preserving knowledge from the pretraining task, and explore Bayesian transfer learning on pretrained speech models based on continual learning regularizers for that. | 翻訳日:2023-05-17 13:31:03 公開日:2023-05-16 |
# 高精度・高速量子計算のための変分命令セットを用いた量子コンパイル Quantum compiling with a variational instruction set for accurate and fast quantum computing ( http://arxiv.org/abs/2203.15574v5 ) ライセンス: Link先を確認 | Ying Lu, Peng-Fei Zhou, Shao-Ming Fei, Shi-Ju Ran | (参考訳) 量子命令セット(qis)は、量子ハードウェアの量子ビットを制御することで物理的に実現可能な量子ゲートとして定義される。
適切に定義されたqisでゲートの積に量子回路をコンパイルすることは量子コンピューティングの基本的なステップである。
本稿では、量子コンピューティングの高速かつ高精度なマルチキュービットゲートを柔軟に設計した量子変分命令セット(QuVIS)を提案する。
QuVISにおけるゲートを実現するためのキュービットの制御は、微細な時間最適化アルゴリズムを用いて変動的に達成される。
複数の量子ビットと量子フーリエ変換のスワップを実現する際に、誤差蓄積と時間コストの両方の大幅な削減が実証され、量子マイクロインストラクションセット(qumis、1量子ビット回転と制御なしゲートを含む複数の1量子ビットゲートで形成される)のような標準qisによるコンパイルと比較される。
量子ハードウェアにおける同じ要件により、QuVISの時間コストはQuMISの時間の半分以下に削減される。
同時に、コンパイル回路の深さが小さくなるにつれて、エラーを代数的に抑制する。
高い柔軟性と効率性を持つ一般的なコンパイルアプローチとして、量子ビットは異なる量子回路で定義でき、異なる相互作用を持つ量子ハードウェアに適応することができる。 The quantum instruction set (QIS) is defined as the quantum gates that are physically realizable by controlling the qubits in quantum hardware. Compiling quantum circuits into the product of the gates in a properly defined QIS is a fundamental step in quantum computing. We here propose the quantum variational instruction set (QuVIS) formed by flexibly designed multi-qubit gates for higher speed and accuracy of quantum computing. The controlling of qubits for realizing the gates in a QuVIS is variationally achieved using the fine-grained time optimization algorithm. Significant reductions in both the error accumulation and time cost are demonstrated in realizing the swaps of multiple qubits and quantum Fourier transformations, compared with the compiling by a standard QIS such as the quantum microinstruction set (QuMIS, formed by several one- and two-qubit gates including one-qubit rotations and controlled-NOT gates). With the same requirement on quantum hardware, the time cost for QuVIS is reduced to less than one half of that for QuMIS. Simultaneously, the error is suppressed algebraically as the depth of the compiled circuit is reduced. As a general compiling approach with high flexibility and efficiency, QuVIS can be defined for different quantum circuits and be adapted to the quantum hardware with different interactions. | 翻訳日:2023-05-17 11:10:33 公開日:2023-05-16 |
# 暗号通貨の評価 - 説明可能なAIアプローチ Cryptocurrency Valuation: An Explainable AI Approach ( http://arxiv.org/abs/2201.12893v5 ) ライセンス: Link先を確認 | Yulin Liu and Luyao Zhang | (参考訳) 現在、暗号通貨資産の基礎に関する説得力のあるプロキシは存在しない。
本稿では、独自のブロックチェーン会計手法を用いて、新しい市場間投資比率(PU比)を提案する。
その後、Bitcoinの履歴データによって、さまざまな基本的な市場比をプロキシし、短期的なbitcoinリターンの予測力はほとんどない。
しかし、pu比率は、他の方法よりも長期bitcoinリターンを効果的に予測する。
さらに,機械学習を用いてPU比の説明可能性を検証する。
最後に、PU比によって推奨される自動取引戦略を提示する。
第1に、私たちの市場と資金の比率は、古典的な金融理論と、アドホックではなくBitcoin会計のユニークなUTXOモデルに基づくものであり、第2に、この比率の買い得と売り上げ高の影響を実証する実証的証拠であり、最後に、将来の研究において例外となるPython Package Indexを介して、オープンソースソフトウェアとしてトレーディングアルゴリズムを配布する。 Currently, there are no convincing proxies for the fundamentals of cryptocurrency assets. We propose a new market-to-fundamental ratio, the price-to-utility (PU) ratio, utilizing unique blockchain accounting methods. We then proxy various existing fundamental-to-market ratios by Bitcoin historical data and find they have little predictive power for short-term bitcoin returns. However, PU ratio effectively predicts long-term bitcoin returns than alternative methods. Furthermore, we verify the explainability of PU ratio using machine learning. Finally, we present an automated trading strategy advised by the PU ratio that outperforms the conventional buy-and-hold and market-timing strategies. Our research contributes to explainable AI in finance from three facets: First, our market-to-fundamental ratio is based on classic monetary theory and the unique UTXO model of Bitcoin accounting rather than ad hoc; Second, the empirical evidence testifies the buy-low and sell-high implications of the ratio; Finally, we distribute the trading algorithms as open-source software via Python Package Index for future research, which is exceptional in finance research. | 翻訳日:2023-05-17 11:10:10 公開日:2023-05-16 |
# Text2Cohort: 自然言語コホート発見によるNCIイメージングデータ共有の民主化 Text2Cohort: Democratizing the NCI Imaging Data Commons with Natural Language Cohort Discovery ( http://arxiv.org/abs/2305.07637v2 ) ライセンス: Link先を確認 | Pranav Kulkarni, Adway Kanhere, Paul H. Yi, Vishwa S. Parekh | (参考訳) imaging data commons (idc) はクラウドベースのデータベースで、がん画像データへのオープンアクセスを提供し、医療画像研究におけるコラボレーションを促進することを目的としている。
しかし、idcデータベースにコホートの発見と画像データへのアクセスを問い合わせることは、その複雑な性質から研究者にとって重要な学習曲線となる。
idcでユーザフレンドリーで直感的な自然言語コホート発見を容易にする,大規模言語モデル(llm)ベースのツールキットであるtext2cohortを開発した。
text2cohortsは、ユーザ入力をプロンプトエンジニアリングと自動修正を使用してidcデータベースクエリに変換し、クエリの応答をユーザに返す。
自動修正は、解釈と修正のためにエラーをモデルに返してクエリ内のエラーを解決する。
情報抽出からコホート発見まで,50の自然言語入力に対するtext2cohortの評価を行った。
結果のクエリと出力は、2人のコンピュータ科学者によって検証され、Text2Cohortの精度とF1スコアが測定された。
Text2Cohortは88%の精度でクエリとそのレスポンスを生成し、F1スコアは0.94である。
しかし、構文とセマンティックエラーのため、6/50 (12%) のユーザ入力に対するクエリ生成に失敗した。
結果から,Text2Cohortは正しい応答でクエリを生成することに成功したが,データスキーマの理解が不十分なため,時折失敗したことが示唆された。
これらの欠点にもかかわらず、Text2Cohortは、研究者がIDCにホストされたデータを使って、より直感的でユーザフレンドリな方法で自然言語を使用して高いレベルの精度でコホートを発見し、キュレートするためのLLMの有用性を実証している。 The Imaging Data Commons (IDC) is a cloud-based database that provides researchers with open access to cancer imaging data, with the goal of facilitating collaboration in medical imaging research. However, querying the IDC database for cohort discovery and access to imaging data has a significant learning curve for researchers due to its complex nature. We developed Text2Cohort, a large language model (LLM) based toolkit to facilitate user-friendly and intuitive natural language cohort discovery in the IDC. Text2Cohorts translates user input into IDC database queries using prompt engineering and autocorrection and returns the query's response to the user. Autocorrection resolves errors in queries by passing the errors back to the model for interpretation and correction. We evaluate Text2Cohort on 50 natural language user inputs ranging from information extraction to cohort discovery. The resulting queries and outputs were verified by two computer scientists to measure Text2Cohort's accuracy and F1 score. Text2Cohort successfully generated queries and their responses with an 88% accuracy and F1 score of 0.94. However, it failed to generate queries for 6/50 (12%) user inputs due to syntax and semantic errors. Our results indicate that Text2Cohort succeeded at generating queries with correct responses, but occasionally failed due to a lack of understanding of the data schema. Despite these shortcomings, Text2Cohort demonstrates the utility of LLMs to enable researchers to discover and curate cohorts using data hosted on IDC with high levels of accuracy using natural language in a more intuitive and user-friendly way. | 翻訳日:2023-05-17 11:01:38 公開日:2023-05-16 |
# HFLIC:強化された変換による人間フレンドリーな学習画像圧縮 HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform ( http://arxiv.org/abs/2305.07519v3 ) ライセンス: Link先を確認 | Peirong Ning, Wei Jiang, Ronggang Wang | (参考訳) 近年,低ビットレートでも細部を細部まで保持し,レート分散知覚圧縮を優先する学習画像圧縮技術が急速に進歩している。
しかし、現在の学習に基づく画像圧縮手法は、しばしば人間にやさしい圧縮を犠牲にし、長い復号時間を必要とする。
本稿では、既存の画像圧縮モデルのバックボーンネットワークとロス関数の強化を提案し、人間の知覚と効率の改善に焦点をあてる。
提案手法は,復号時間が少なく,人間に優しい圧縮を提供するとともに,最先端の学習画像圧縮手法や古典的手法と比較して,競合する主観的な結果が得られる。
経験的評価により,提案手法の有効性を実証し,25%以上のビットレートを同じ主観的品質で節約できることを示した。 In recent years, there has been rapid development in learned image compression techniques that prioritize ratedistortion-perceptual compression, preserving fine details even at lower bit-rates. However, current learning-based image compression methods often sacrifice human-friendly compression and require long decoding times. In this paper, we propose enhancements to the backbone network and loss function of existing image compression model, focusing on improving human perception and efficiency. Our proposed approach achieves competitive subjective results compared to state-of-the-art end-to-end learned image compression methods and classic methods, while requiring less decoding time and offering human-friendly compression. Through empirical evaluation, we demonstrate the effectiveness of our proposed method in achieving outstanding performance, with more than 25% bit-rate saving at the same subjective quality. | 翻訳日:2023-05-17 11:01:10 公開日:2023-05-16 |
# ベル状態の絡み合いに基づく半量子プライベート比較の可能性 A Feasible Semi-quantum Private Comparison Based on Entanglement Swapping of Bell States ( http://arxiv.org/abs/2305.07467v2 ) ライセンス: Link先を確認 | Chong-Qiang Ye, Jian Li, Xiu-Bo Chen, Yanyan Hou | (参考訳) SQPC(Semi-quantum private comparison)は、量子能力に制限のある2人の古典的ユーザに対して、秘密情報の比較を可能にする。
しかし、従来提案されていたSQPCプロトコルにおける量子力学の重要な性質として、絡み合い交換は無視されることが多い。
本稿では,ベル状態の絡み換えに基づくSQPCプロトコルを提案する。このプロトコルでは,2人の古典的ユーザが,プライベートデータのセキュリティを確保するために,半量子鍵配布プロトコルの追加実装を必要としない。
セキュリティ分析は、我々のプロトコルが外部攻撃と内部攻撃の両方に耐性があることを示しています。
提案プロトコルの有効性と妥当性を検証するため,IBM Qiskitを用いて対応する量子回路の設計とシミュレーションを行う。
最後に,提案プロトコルを従来と類似した手法で比較検討する。
その結果,このプロトコルは絡み合いスワップを用いた場合でも高い量子ビット効率を維持していることがわかった。
提案手法は,半量子暗号分野における絡み合い交換の潜在的な応用を実証するものである。 Semi-quantum private comparison (SQPC) enables two classical users with limited quantum capabilities to compare confidential information using a semi-honest third party (TP) with full quantum power. However, entanglement swapping, as an important property of quantum mechanics in previously proposed SQPC protocols is usually neglected. In this paper, we propose a feasible SQPC protocol based on the entanglement swapping of Bell states, where two classical users do not require additional implementation of the semi-quantum key distribution protocol to ensure the security of their private data. Security analysis shows that our protocol is resilient to both external and internal attacks. To verify the feasibility and correctness of the proposed SQPC protocol, we design and simulate the corresponding quantum circuits using IBM Qiskit. Finally, we compare and discuss the proposed protocol with previous similar work. The results reveal that our protocol maintains high qubit efficiency, even when entanglement swapping is employed. Consequently, our proposed approach showcases the potential applications of entanglement swapping in the field of semi-quantum cryptography. | 翻訳日:2023-05-17 11:00:52 公開日:2023-05-16 |
# 対角情報を用いた連続視覚言語表現学習 Continual Vision-Language Representation Learning with Off-Diagonal Information ( http://arxiv.org/abs/2305.07437v3 ) ライセンス: Link先を確認 | Zixuan Ni and Longhui Wei and Siliang Tang and Yueting Zhuang and Qi Tian | (参考訳) 本稿では,ストリーミングデータによるCLIPモデルの継続的なトレーニングの実現可能性について論じる。
次に, 連続更新クリップモデルにおける表現ベクトルの方向変化を追跡することにより, 空間変動を, モーダル内回転とモーダル間偏差に区分できる空間性障害 (sd) として探索し, 要約する。
さらに, モーダル内回転とモーダル間偏差が, 経験的・理論的に相互モーダル検索タスクにおけるCLIPの性能低下につながることを示す。
空間的障害を緩和するため,単純な連続学習フレームワーク Mod-X: \textbf{M}aintain \textbf{o}ff-\textbf{d}iagonal information-matri\textbf{X} を提案する。
異なるスケールとスコープを持つ一般的なデータセットに対する実験 (ref{method}, \ref{experiments}, appendix \ref{appendix_to_experiments}) は,本手法の有効性を示すものである。 This paper discusses the feasibility of continuously training the CLIP model through streaming data. Then, by tracking the directional changes of the representation vectors in the continuously updated CLIP model, we explore and summarize these spatial variations as Spatial Disorder (SD), which can be divided into Intra-modal Rotation and Inter-modal Deviation. Moreover, we demonstrate how intra-modal rotation and inter-modal deviation lead to a performance decline for CLIP on cross-modal retrieval tasks in both empirically and theoretically. To alleviate the spatial disorder, we propose a simple yet effective continual learning framework Mod-X: \textbf{M}aintain \textbf{o}ff-\textbf{d}iagonal information-matri\textbf{X}. The experiments (in Section \ref{method}, \ref{experiments} and Appendix \ref{Appendix_to_experiments}) on commonly used datasets with different scales and scopes have illustrated the effectiveness of our method. | 翻訳日:2023-05-17 11:00:35 公開日:2023-05-16 |
# lmsの基盤--言語モデルによるフィギュラティブ言語解釈における具体化の効果の検討 LMs stand their Ground: Investigating the Effect of Embodiment in Figurative Language Interpretation by Language Models ( http://arxiv.org/abs/2305.03445v3 ) ライセンス: Link先を確認 | Philipp Wicke | (参考訳) 表現言語は、その解釈は、従来の順序や意味から逸脱するような言葉の使用に基づいているため、言語モデルの課題である。
しかし、人間がメタファー、シミュレート、イディオムを理解し解釈することは容易にできる。
言語は具体化の代名詞であり、比喩が従来的かつ語彙化された場合、体のないシステムが具体化概念を理解するのが容易になる。
しかし, 言語モデルに関する具体的言語解釈の文脈において, 具体化と具体性や獲得年齢といった特徴との関係は研究されていない。
そこで本研究では,比喩文の動作がより具体化されている場合に,より大きな言語モデルが比喩文の解釈にいかに優れているかを示す。
この分析は、他の特徴(単語の長さや具体性など)と多行性を規定し、より大きな言語モデルが具体的言語理解を促進する程度まで具体的概念を概念化するという最初の証拠を提供する。 Figurative language is a challenge for language models since its interpretation is based on the use of words in a way that deviates from their conventional order and meaning. Yet, humans can easily understand and interpret metaphors, similes or idioms as they can be derived from embodied metaphors. Language is a proxy for embodiment and if a metaphor is conventional and lexicalised, it becomes easier for a system without a body to make sense of embodied concepts. Yet, the intricate relation between embodiment and features such as concreteness or age of acquisition has not been studied in the context of figurative language interpretation concerning language models. Hence, the presented study shows how larger language models perform better at interpreting metaphoric sentences when the action of the metaphorical sentence is more embodied. The analysis rules out multicollinearity with other features (e.g. word length or concreteness) and provides initial evidence that larger language models conceptualise embodied concepts to a degree that facilitates figurative language understanding. | 翻訳日:2023-05-17 10:59:47 公開日:2023-05-16 |
# 不確実性推定法とその医用画像への応用 A Review of Uncertainty Estimation and its Application in Medical Imaging ( http://arxiv.org/abs/2302.08119v3 ) ライセンス: Link先を確認 | Ke Zou and Zhihao Chen and Xuedong Yuan and Xiaojing Shen and Meng Wang and Huazhu Fu | (参考訳) 病気の早期スクリーニングのための医療におけるAIシステムの利用は、非常に臨床的に重要である。
深層学習は医療画像において大きな可能性を秘めているが、AIシステムの信頼性と信頼性は、患者の安全が危ぶまれている実際の臨床現場への展開を制限する。
不確実性推定は、深部モデルの予測とともに信頼性評価を生成する上で重要な役割を果たす。
これは特に医療画像において重要であり、モデルの予測の不確実性が関心領域の特定や臨床医への追加情報の提供に利用できる。
本稿では,機械学習における様々な不確実性について概観し,アレエータ的不確実性や認識的不確実性について述べる。
医療画像でどのように推定できるかについても検討する。
さらに, 医用画像に不確実性推定を組み込んだ深層学習モデルの最近の進歩を概観する。
最後に,医用画像の深層学習における不確実性推定の課題と今後の方向性について論じる。
このレビューがコミュニティにさらなる関心を喚起し、医学画像における不確実性推定モデルの適用に関する最新の参照を研究者に提供することを期待している。 The use of AI systems in healthcare for the early screening of diseases is of great clinical importance. Deep learning has shown great promise in medical imaging, but the reliability and trustworthiness of AI systems limit their deployment in real clinical scenes, where patient safety is at stake. Uncertainty estimation plays a pivotal role in producing a confidence evaluation along with the prediction of the deep model. This is particularly important in medical imaging, where the uncertainty in the model's predictions can be used to identify areas of concern or to provide additional information to the clinician. In this paper, we review the various types of uncertainty in deep learning, including aleatoric uncertainty and epistemic uncertainty. We further discuss how they can be estimated in medical imaging. More importantly, we review recent advances in deep learning models that incorporate uncertainty estimation in medical imaging. Finally, we discuss the challenges and future directions in uncertainty estimation in deep learning for medical imaging. We hope this review will ignite further interest in the community and provide researchers with an up-to-date reference regarding applications of uncertainty estimation models in medical imaging. | 翻訳日:2023-05-17 10:59:29 公開日:2023-05-16 |
# PVGRU:擬似変動機構による多変量および関連対話応答の生成 PVGRU: Generating Diverse and Relevant Dialogue Responses via Pseudo-Variational Mechanism ( http://arxiv.org/abs/2212.09086v4 ) ライセンス: Link先を確認 | Yongkang Liu and Shi Feng and Daling Wang and Yifei Zhang and Hinrich Sch\"utze | (参考訳) 生成型チャットボットにおけるマルチターン対話の応答生成について検討する。
既存のRNN(Recurrent Neural Networks)に基づく生成モデルは、通常、シーケンスを要約するために最後の隠れ状態を使用するため、異なる対話で観察される微妙な変動を捉えることができず、合成において類似した対話の違いを区別できない。
本稿では,GRUに再帰的な要約変数を導入することで,後続知識のない擬似分散Gated Recurrent Unit (PVGRU) を提案する。
PVGRUは、考案された分布の一貫性と再構成目的によって最適化された変数を要約することで、微妙な意味的変動を認識することができる。
さらに,PVGRUに基づく擬似変数階層対話(PVHD)モデルを構築した。
実験の結果,PVGRUは2つのベンチマークデータセットにおける応答の多様性と関連性を大きく改善できることが示された。 We investigate response generation for multi-turn dialogue in generative-based chatbots. Existing generative models based on RNNs (Recurrent Neural Networks) usually employ the last hidden state to summarize the sequences, which makes models unable to capture the subtle variability observed in different dialogues and cannot distinguish the differences between dialogues that are similar in composition. In this paper, we propose a Pseudo-Variational Gated Recurrent Unit (PVGRU) component without posterior knowledge through introducing a recurrent summarizing variable into the GRU, which can aggregate the accumulated distribution variations of subsequences. PVGRU can perceive the subtle semantic variability through summarizing variables that are optimized by the devised distribution consistency and reconstruction objectives. In addition, we build a Pseudo-Variational Hierarchical Dialogue (PVHD) model based on PVGRU. Experimental results demonstrate that PVGRU can broadly improve the diversity and relevance of responses on two benchmark datasets. | 翻訳日:2023-05-17 10:59:12 公開日:2023-05-16 |
# マクロスピン系における単一マグノンの量子制御 Quantum control of a single magnon in a macroscopic spin system ( http://arxiv.org/abs/2211.06644v3 ) ライセンス: Link先を確認 | Da Xu, Xu-Ke Gu, He-Kang Li, Yuan-Chao Weng, Yi-Pu Wang, Jie Li, H. Wang, Shi-Yao Zhu, J. Q. You | (参考訳) 古典的でない量子状態は、古典的なものとは異なる量子系の重要な特徴である。
しかし、マクロスピン系における量子状態の生成とコヒーレント制御は依然として顕著な課題である。
ここでは、マイクロ波空洞を介して超伝導量子ビットに結合した1~mmメートルのイットリウム-鉄-ガーネット球体における単一マグノンの量子制御を実験的に実証する。
Autler-Townes効果を介して量子ビット周波数 {\it in situ} をチューニングすることにより、単一マグノンと真空の重畳状態を含む古典的でない量子状態を生成するために、この単一のマグノンを操作する。
さらに,Wignerトモグラフィーによる非古典的状態の決定論的生成を確認した。
我々の実験は、マクロスピン系における非古典的量子状態の決定論的生成を初めて報告し、量子工学におけるその有望な応用を探求する方法を提供する。 Non-classical quantum states are the pivotal features of a quantum system that differs from its classical counterpart. However, the generation and coherent control of quantum states in a macroscopic spin system remain an outstanding challenge. Here we experimentally demonstrate the quantum control of a single magnon in a macroscopic spin system (i.e., 1~mm-diameter yttrium-iron-garnet sphere) coupled to a superconducting qubit via a microwave cavity. By tuning the qubit frequency {\it in situ} via the Autler-Townes effect, we manipulate this single magnon to generate its non-classical quantum states, including the single-magnon state and the superposition state of a single magnon and vacuum. Moreover, we confirm the deterministic generation of these non-classical states by Wigner tomography. Our experiment offers the first reported deterministic generation of the non-classical quantum states in a macroscopic spin system and paves a way to explore its promising applications in quantum engineering. | 翻訳日:2023-05-17 10:58:55 公開日:2023-05-16 |
# 事前学習された言語モデルがゼロショット学習に役立つ理由 What Makes Pre-trained Language Models Better Zero-shot Learners? ( http://arxiv.org/abs/2209.15206v3 ) ライセンス: Link先を確認 | Jinghui Lu, Dongsheng Zhu, Weidong Han, Rui Zhao, Brian Mac Namee, Fei Tan | (参考訳) ゼロショットシナリオにおけるプロンプト学習の現在の方法は、後続の最も優れたプロンプトテンプレートを選択するのに十分な人間の注釈付きデータを持つ開発セットに広く依存している。
実用性のある実世界のゼロショットシナリオでは、ラベル付きデータは利用できないため、これは理想的ではない。
そこで本研究では,ゼロショットテキスト分類における合理的なプロンプトテンプレートのスクリーニング手法であるperplexity selection (perplection)を提案する。
我々は,プロンプトテンプレートの有効性を測定するために,言語不一致を活用できると仮定し,プロンプトテンプレートの性能を事前に予測できる部分的パープレキシティに基づくスキームを開発する。
実験により,本手法は実写的なゼロショット設定で予測性能が向上し,ラベル付きサンプルは不要であることが判明した。 Current methods for prompt learning in zeroshot scenarios widely rely on a development set with sufficient human-annotated data to select the best-performing prompt template a posteriori. This is not ideal because in a realworld zero-shot scenario of practical relevance, no labelled data is available. Thus, we propose a simple yet effective method for screening reasonable prompt templates in zero-shot text classification: Perplexity Selection (Perplection). We hypothesize that language discrepancy can be used to measure the efficacy of prompt templates, and thereby develop a substantiated perplexity-based scheme allowing for forecasting the performance of prompt templates in advance. Experiments show that our method leads to improved prediction performance in a realistic zero-shot setting, eliminating the need for any labelled examples. | 翻訳日:2023-05-17 10:58:38 公開日:2023-05-16 |
# プライバシー判断の自動化 -- 線を引く場所は? Automating privacy decisions -- where to draw the line? ( http://arxiv.org/abs/2305.08747v2 ) ライセンス: Link先を確認 | Victor Morel and Simone Fischer-H\"ubner | (参考訳) ユーザは、Webやモバイル、IoT環境で起こりうる個人情報を管理するためのプライバシ決定に圧倒されることが多い。
これらの決定は、プライバシ権限やプライバシ優先の設定の決定、同意要求への対応の決定、あるいは個人データの‘reject’処理に介入するなど、さまざまな形態を取ることができ、それぞれが異なる法的影響を持つことができる。
あらゆるケースとあらゆる種類の意思決定において、学者や業界は、ユーザビリティを高めるために、さまざまなレベルでプライバシー決定のプロセスをより良く自動化するためのツールを提案してきた。
本稿では,プライバシ決定の自動化によって生じる主な課題の概要と,既存かつ想定されている作業の分類と,プライバシ決定の自動化に取り組む提案について述べる。 Users are often overwhelmed by privacy decisions to manage their personal data, which can happen on the web, in mobile, and in IoT environments. These decisions can take various forms -- such as decisions for setting privacy permissions or privacy preferences, decisions responding to consent requests, or to intervene and ``reject'' processing of one's personal data --, and each can have different legal impacts. In all cases and for all types of decisions, scholars and industry have been proposing tools to better automate the process of privacy decisions at different levels, in order to enhance usability. We provide in this paper an overview of the main challenges raised by the automation of privacy decisions, together with a classification scheme of the existing and envisioned work and proposals addressing automation of privacy decisions. | 翻訳日:2023-05-17 10:51:03 公開日:2023-05-16 |
# 野生視覚ナビゲーションのための高速トラバーサビリティ推定 Fast Traversability Estimation for Wild Visual Navigation ( http://arxiv.org/abs/2305.08510v2 ) ライセンス: Link先を確認 | Jonas Frey and Matias Mattamala and Nived Chebrolu and Cesar Cadena and Maurice Fallon and Marco Hutter | (参考訳) 森林や草原などの自然環境は、高い草や小枝、茂みからの障害物を誤認識しているため、ロボットの航行には困難である。
本研究では,視覚のみを用いたトラバーサビリティ推定のためのオンライン自己教師型学習システムWild Visual Navigation (WVN)を提案する。
このシステムは、現場での短い人間のデモから継続的に適応することができる。
自己監督型ビジュアルトランスフォーマーモデルの高次元機能を活用し、ロボット上でリアルタイムで実行される監視生成のためのオンラインスキームを利用する。
森林,公園,草原における挑戦的環境における実験およびアブレーション実験により,本手法の利点を実証する。
我々のシステムは、移動可能な地形セグメンテーションを5分未満のフィールドトレーニング時間でブートストラップすることができ、ロボットは複雑な屋外の地形をナビゲートすることができる。
実験は四足歩行ロボットANYmalで行われましたが、提案したアプローチはどんな地上ロボットにも一般化できます。 Natural environments such as forests and grasslands are challenging for robotic navigation because of the false perception of rigid obstacles from high grass, twigs, or bushes. In this work, we propose Wild Visual Navigation (WVN), an online self-supervised learning system for traversability estimation which uses only vision. The system is able to continuously adapt from a short human demonstration in the field. It leverages high-dimensional features from self-supervised visual transformer models, with an online scheme for supervision generation that runs in real-time on the robot. We demonstrate the advantages of our approach with experiments and ablation studies in challenging environments in forests, parks, and grasslands. Our system is able to bootstrap the traversable terrain segmentation in less than 5 min of in-field training time, enabling the robot to navigate in complex outdoor terrains - negotiating obstacles in high grass as well as a 1.4 km footpath following. While our experiments were executed with a quadruped robot, ANYmal, the approach presented can generalize to any ground robot. | 翻訳日:2023-05-17 10:50:44 公開日:2023-05-16 |
# 抽象的多文書要約のための階層的符号化復号法 A Hierarchical Encoding-Decoding Scheme for Abstractive Multi-document Summarization ( http://arxiv.org/abs/2305.08503v2 ) ライセンス: Link先を確認 | Chenhui Shen, Liying Cheng, Yang You, Lidong Bing | (参考訳) 事前学習言語モデル(PLM)は、抽象的な単一文書要約(SDS)において素晴らしい成果を上げている。
しかし、そのような利点は、文書間の相互作用がより複雑であるmuti-document summarization(mds)に簡単には拡張できない。
以前の作業では、MDSのための新しいアーキテクチャや新しい事前学習対象を設計するか、複雑なドキュメントの相互作用を考慮せずにPLMをMDSに適用する。
前者は以前の事前訓練をフルに利用せず、複数のドメインにまたがってうまく一般化できないが、後者はmdsタスク特有の複雑な関係に完全には従えない。
本稿では,エンコーダとデコーダの両方に階層構造を適用し,MDSタスクのマルチドキュメントインタラクションを容易にするために,PLMをよりよく活用することを目的とする。
私たちは、幅広いドメインにわたる10のmdsデータセットで設計をテストします。
大規模な実験により,提案手法はこれらのデータセットに対して一貫した改善を達成でき,過去の最高のモデルよりも優れており,MDS事前学習またはより大きなモデルパラメータを付加したモデルと比較して,優れた,あるいは競争的な結果を得ることができることが示された。 Pre-trained language models (PLMs) have accomplished impressive achievements in abstractive single-document summarization (SDS). However, such benefits may not be readily extended to muti-document summarization (MDS), where the interactions among documents are more complex. Previous works either design new architectures or new pre-training objectives for MDS, or apply PLMs to MDS without considering the complex document interactions. While the former does not make full use of previous pre-training efforts and may not generalize well across multiple domains, the latter cannot fully attend to the intricate relationships unique to MDS tasks. In this paper, we enforce hierarchy on both the encoder and decoder and seek to make better use of a PLM to facilitate multi-document interactions for the MDS task. We test our design on 10 MDS datasets across a wide range of domains. Extensive experiments show that our proposed method can achieve consistent improvements on all these datasets, outperforming the previous best models, and even achieving better or competitive results as compared to some models with additional MDS pre-training or larger model parameters. | 翻訳日:2023-05-17 10:50:29 公開日:2023-05-16 |
# 遺伝的ランダムニューラルネットワークの力学平均場理論入門 Introduction to dynamical mean-field theory of generic random neural networks ( http://arxiv.org/abs/2305.08459v2 ) ライセンス: Link先を確認 | Wenxuan Zou and Haiping Huang | (参考訳) 動的平均場理論(英: dynamical mean-field theory)は、ニューラルネットワークの典型的な振る舞いを分析するために用いられる強力な物理ツールである。
しかし、初心者がこのツールの本質と基礎となる物理学にアクセスすることは容易ではない。
本稿では,ニューロンが相関シナプスによってランダムに完全に接続されるような,遺伝的ランダムニューラルネットワークの特定の例において,この手法の教育学的導入について述べる。
また、このツールの適用に関する過去および最近の重要な研究についても概説する。
さらに、物理的に透明で代替的な方法、すなわち動的空洞法も、全く同じ結果を得るために導入されている。
積分微分平均場方程式の解法に関する数値的な実装についても詳述し、揺らぎ散逸定理を探求する図解である。 Dynamical mean-field theory is a powerful physics tool used to analyze the typical behavior of neural networks, where neurons can be recurrently connected, or multiple layers of neurons can be stacked. However, it is not easy for beginners to access the essence of this tool and the underlying physics. Here, we give a pedagogical introduction of this method in a particular example of generic random neural networks, where neurons are randomly and fully connected by correlated synapses and therefore the network exhibits rich emergent collective dynamics. We also review related past and recent important works applying this tool. In addition, a physically transparent and alternative method, namely the dynamical cavity method, is also introduced to derive exactly the same results. The numerical implementation of solving the integro-differential mean-field equations is also detailed, with an illustration of exploring the fluctuation dissipation theorem. | 翻訳日:2023-05-17 10:50:09 公開日:2023-05-16 |
# アルツハイマー病に伴う機能的脳ネットワークの位相的特性の変化 Altered Topological Properties of Functional Brain Network Associated with Alzheimer's Disease ( http://arxiv.org/abs/2305.08159v2 ) ライセンス: Link先を確認 | Yongcheng Yao | (参考訳) 機能的磁気共鳴イメージング(fMRI)は、神経変性疾患に関連する機能的異常を含む人間の脳活動を研究するために一般的に用いられる。
本研究は,アルツハイマー病(AD)患者と正常コントロール者における機能的脳ネットワークのトポロジー特性の違いについて検討することを目的とする。
対象者は,AD認知症175名,年齢415名,性別415名,手腕マッチング群590名であった。
脳ネットワークのトポロジ的特性をグラフ理論に基づく分析により定量化した。
その結果,adグループ内のネットワーク統合と分離が異常であった。
これらの知見は、機能的脳ネットワーク構造の観点からAD病態の理解を深め、ADバイオマーカーの同定に役立つ可能性がある。
この研究の検証に役立つ追加データはhttps://github.com/YongchengYAO/AD-FunctionalBrainNetwork.comで公開されている。 Functional Magnetic Resonance Imaging (fMRI) is commonly utilized to study human brain activity, including abnormal functional properties related to neurodegenerative diseases. This study aims to investigate the differences in the topological properties of functional brain networks between individuals with Alzheimer's Disease (AD) and normal controls. A total of 590 subjects, consisting of 175 with AD dementia and 415 age-, gender-, and handedness-matched controls, were included. The topological properties of the brain network were quantified using graph-theory-based analyses. The results indicate abnormal network integration and segregation in the AD group. These findings enhance our understanding of AD pathophysiology from a functional brain network structure perspective and may aid in identifying AD biomarkers. Supplementary data to aid in the validation of this research are available at https://github.com/YongchengYAO/AD-FunctionalBrainNetwork. | 翻訳日:2023-05-17 10:49:53 公開日:2023-05-16 |
# 超現実性を持つ知識グラフの構造とダイナミクス The Structure and Dynamics of Knowledge Graphs, with Superficiality ( http://arxiv.org/abs/2305.08116v2 ) ライセンス: Link先を確認 | Lo\"ick Lhote, B\'eatrice Markhoff, Arnaud Soulet | (参考訳) 大規模な知識グラフは、学界や機関から企業、クラウドソーシングに至るまで、さまざまなプロジェクトから収集された人間の知識を組み合わせる。
このようなグラフの中では、2つのノード間の関係は2つの実体を含む基本的な事実を表している。
関係のセマンティクスの多様性は知識グラフの豊かさを構成しており、特異なトポロジーが出現し、時には外観が混乱することがある。
しかし、この複雑な特徴は、事実が独立して生成される関係の重複を制御する超現実性の概念を導入することで、単純な方法でモデル化することができる。
現実性はまた、誤解された実体の割合を決定することによって、知識のグローバルな分布のバランスを規制する。
これは知識グラフの構造とダイナミクスに関する最初のモデルである。
これは、正式な知識獲得と組織に関する理解を深めます。 Large knowledge graphs combine human knowledge garnered from projects ranging from academia and institutions to enterprises and crowdsourcing. Within such graphs, each relationship between two nodes represents a basic fact involving these two entities. The diversity of the semantics of relationships constitutes the richness of knowledge graphs, leading to the emergence of singular topologies, sometimes chaotic in appearance. However, this complex characteristic can be modeled in a simple way by introducing the concept of superficiality, which controls the overlap between relationships whose facts are generated independently. Superficiality also regulates the balance of the global distribution of knowledge by determining the proportion of misdescribed entities. This is the first model for the structure and dynamics of knowledge graphs. It leads to a better understanding of formal knowledge acquisition and organization. | 翻訳日:2023-05-17 10:49:37 公開日:2023-05-16 |
# GSB:限られたトレーニングサンプルを用いたビジョントランスのためのグループ重ね合わせ二元化 GSB: Group Superposition Binarization for Vision Transformer with Limited Training Samples ( http://arxiv.org/abs/2305.07931v2 ) ライセンス: Link先を確認 | Tian Gao, Cheng-Zhong Xu, Le Zhang, Hui Kong | (参考訳) 大量のパラメータの影響を受け、ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィット問題に悩まされる。
さらに、ViTは通常、リソース制限されたデバイスへのデプロイメントを制限する重いコンピューティングリソースを必要とする。
モデル圧縮法の一種として、モデル双対化は上記の問題を解決する良い選択である可能性がある。
完全な倍数化法と比較すると、複雑なテンソル乗算を単純なビット単位の2進演算に置き換え、全倍数モデルのパラメータとアクティベーションを1ビットのみで表現し、モデルサイズと計算複雑性の問題をそれぞれ解決する。
本稿では,バイナリViTモデルの精度の低下は,アテンションモジュールと値ベクトルの情報損失が主な原因であることを示す。
そこで本研究では,これらの問題に対処するため,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
さらに,二元化モデルの性能をさらに向上させるために,二元化過程における勾配計算手順を調査し,gsbのより適切な勾配計算式を導出し,勾配ミスマッチの影響を低減した。
次に, モデル2値化による性能劣化を緩和するために, 知識蒸留技術を導入する。
限られたトレーニングサンプル数を持つ3つのデータセットの実験では、提案したGSBモデルがバイナリ量子化スキームの最先端性能を実現し、いくつかの指標でその完全精度を上回ることが示されている。 Affected by the massive amount of parameters, ViT usually suffers from serious overfitting problems with a relatively limited number of training samples. In addition, ViT generally demands heavy computing resources, which limit its deployment on resource-constrained devices. As a type of model-compression method,model binarization is potentially a good choice to solve the above problems. Compared with the full-precision one, the model with the binarization method replaces complex tensor multiplication with simple bit-wise binary operations and represents full-precision model parameters and activations with only 1-bit ones, which potentially solves the problem of model size and computational complexity, respectively. In this paper, we find that the decline of the accuracy of the binary ViT model is mainly due to the information loss of the Attention module and the Value vector. Therefore, we propose a novel model binarization technique, called Group Superposition Binarization (GSB), to deal with these issues. Furthermore, in order to further improve the performance of the binarization model, we have investigated the gradient calculation procedure in the binarization process and derived more proper gradient calculation equations for GSB to reduce the influence of gradient mismatch. Then, the knowledge distillation technique is introduced to alleviate the performance degradation caused by model binarization. Experiments on three datasets with limited numbers of training samples demonstrate that the proposed GSB model achieves state-of-the-art performance among the binary quantization schemes and exceeds its full-precision counterpart on some indicators. | 翻訳日:2023-05-17 10:49:27 公開日:2023-05-16 |
# PanFlowNet: パンシャーピングのためのフローベースのディープネットワーク PanFlowNet: A Flow-Based Deep Network for Pan-sharpening ( http://arxiv.org/abs/2305.07774v2 ) ライセンス: Link先を確認 | Gang Yang, Xiangyong Cao, Wenzhe Xiao, Man Zhou, Aiping Liu, Xun chen, and Deyu Meng | (参考訳) パンシャーピングは、低分解能マルチスペクトル(LRMS)画像のスペクトル情報と高分解能パンクロマティック(PAN)画像のテクスチャ詳細を統合することで、高分解能マルチスペクトル(HRMS)画像を生成することを目的としている。
これは本質的には、様々なHRMS画像をLRMS画像に分解できる超解像(SR)タスクの誤った性質を継承する。
しかし、既存のディープラーニングに基づく手法では、決定論的マッピングを用いてLRMS画像とPAN画像から1つのHRMS画像のみを復元し、HRMS画像の多様性を無視している。
本稿では,この問題を軽減するために,決定論的マッピングを学習する代わりに,LRMS画像とPAN画像の条件分布を直接学習するフローベースパン共有ネットワーク(PanFlowNet)を提案する。
具体的には、この未知条件分布を可逆ネットワークによって与えられたガウス分布に変換し、条件分布を明示的に定義することができる。
そこで我々は,CACB(Invertible Conditional Affine Coupling Block)を設計し,一連のCACBを積み重ねてPanFlowNetのアーキテクチャを構築する。
最後に、PanFlowNetはトレーニングセットが与えられた条件分布のログ類似度を最大化してトレーニングされ、さまざまなHRMSイメージの予測に使用できる。
実験により,提案したPanFlowNetは,LRMS画像とPAN画像から様々なHRMS画像を生成することができることを確認した。
さらに,異なる種類の衛星データを用いた実験結果から,パンフローネットが視覚的および定量的に他の最先端手法と比較して優れていることを示した。 Pan-sharpening aims to generate a high-resolution multispectral (HRMS) image by integrating the spectral information of a low-resolution multispectral (LRMS) image with the texture details of a high-resolution panchromatic (PAN) image. It essentially inherits the ill-posed nature of the super-resolution (SR) task that diverse HRMS images can degrade into an LRMS image. However, existing deep learning-based methods recover only one HRMS image from the LRMS image and PAN image using a deterministic mapping, thus ignoring the diversity of the HRMS image. In this paper, to alleviate this ill-posed issue, we propose a flow-based pan-sharpening network (PanFlowNet) to directly learn the conditional distribution of HRMS image given LRMS image and PAN image instead of learning a deterministic mapping. Specifically, we first transform this unknown conditional distribution into a given Gaussian distribution by an invertible network, and the conditional distribution can thus be explicitly defined. Then, we design an invertible Conditional Affine Coupling Block (CACB) and further build the architecture of PanFlowNet by stacking a series of CACBs. Finally, the PanFlowNet is trained by maximizing the log-likelihood of the conditional distribution given a training set and can then be used to predict diverse HRMS images. The experimental results verify that the proposed PanFlowNet can generate various HRMS images given an LRMS image and a PAN image. Additionally, the experimental results on different kinds of satellite datasets also demonstrate the superiority of our PanFlowNet compared with other state-of-the-art methods both visually and quantitatively. | 翻訳日:2023-05-17 10:49:01 公開日:2023-05-16 |
# 非コンパクト検出器-フィールド相互作用における因果性とシグナル伝達 Causality and signalling in non-compact detector-field interactions ( http://arxiv.org/abs/2305.07756v2 ) ライセンス: Link先を確認 | Jos\'e de Ram\'on, Maria Papageorgiou and Eduardo Mart\'in-Mart\'inez | (参考訳) 本稿では, 量子場理論や相対論的量子情報プロトコルにおける非コンパクトに支持された場-検出器相互作用を考慮した場合, 粒子検出器モデルに現れる「表面的」スーパールミナリングとレトロカウエーションの問題を解析する。
この目的のために,量子フィッシャー情報の摂動レジームへの適応バージョンに基づく信号推定器を定義する。
これにより、検出器の内部ダイナミクス(例えば、検出器エネルギーレベルの間のギャップ)が、粒子検出器が互いに通信する能力にどのように影響するかを研究できる。
さらに、一般に、空間と時間の無限尾を持つ検出器であっても、仮にテールが指数関数的に崩壊しても、信号が無視できる効果的な光錐を定義することができる。
これは相対論的量子情報のプロトコルにおける非コンパクト(しかし指数関数的に崩壊する)検出器スミアリングの使用を支持する具体的な証拠を提供する。 In this paper we analyze the problem of "apparent" superluminal signalling and retrocausation that can appear for particle detector models when considering non-compactly supported field-detector interactions in quantum field theory in curved spacetimes and in relativistic quantum information protocols. For this purpose, we define a signalling estimator based on an adapted version of the quantum Fisher information to perturbative regimes. This allows us to study how the internal dynamics of the detectors (for example the gap between the detector energy levels) have an impact on the ability of a particle detectors to communicate with one another. Moreover, we show that, very generally, even for detectors with infinite tails in space and time, if the tails decay exponentially, one can define an effective lightcone, outside of which signalling is negligible. This provides concrete evidence supporting the use of non-compact (but exponentially decaying) detector smearings in protocols of relativistic quantum information. | 翻訳日:2023-05-17 10:48:33 公開日:2023-05-16 |
# 検証可能性の探索:AIが修正した意思決定における補足的性能の低い説明 In Search of Verifiability: Explanations Rarely Enable Complementary Performance in AI-Advised Decision Making ( http://arxiv.org/abs/2305.07722v2 ) ライセンス: Link先を確認 | Raymond Fok, Daniel S. Weld | (参考訳) AIが推奨する意思決定に関する現在の文献 - 人間の意思決定を助言する説明可能なAIシステムを含む - は、一連の不決定かつ不確定な結果を提示している。
そこで本研究では,ai説明の失敗頻度を,適切な信頼度と相補的な意思決定性能に反映させる単純な理論を提案する。
説明は、人間の意思決定者がAIの予測の正しさを検証できる範囲でのみ有用である、と我々は主張する。
以前の研究では、多くの意思決定コンテキストにおいて、AIの説明はそのような検証を促進するものではない。
さらに、ほとんどの文脈は、説明方法にかかわらず、基本的に検証を許さない。
結論として,より効果的に説明可能なai-advised decision makingとヒューマン-aiコラボレーションのアプローチについて論じた。 The current literature on AI-advised decision making -- involving explainable AI systems advising human decision makers -- presents a series of inconclusive and confounding results. To synthesize these findings, we propose a simple theory that elucidates the frequent failure of AI explanations to engender appropriate reliance and complementary decision making performance. We argue explanations are only useful to the extent that they allow a human decision maker to verify the correctness of an AI's prediction, in contrast to other desiderata, e.g., interpretability or spelling out the AI's reasoning process. Prior studies find in many decision making contexts AI explanations do not facilitate such verification. Moreover, most contexts fundamentally do not allow verification, regardless of explanation method. We conclude with a discussion of potential approaches for more effective explainable AI-advised decision making and human-AI collaboration. | 翻訳日:2023-05-17 10:48:21 公開日:2023-05-16 |