このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230508となっている論文です。

PDF登録状況(公開日: 20230508)

TitleAuthorsAbstract論文公表日・翻訳日
# CCTEST: コード補完システムのテストと修復

CCTEST: Testing and Repairing Code Completion Systems ( http://arxiv.org/abs/2208.08289v3 )

ライセンス: Link先を確認
Zongjie Li, Chaozheng Wang, Zhibo Liu, Haoxuan Wang, Dong Chen, Shuai Wang, Cuiyun Gao(参考訳) ソフトウェア開発領域で非常に価値のあるトピックであるコード補完は、近年の大規模言語モデル(llm)の進歩によって、ますます普及している。 現在まで、GitHub CopilotやGPTといったLLMベースのコード補完フレームワークは、大量の構造化されていないテキストとオープンソースのコードでディープラーニングを使用して訓練されている。 毎日のプログラミングタスクの要となるコンポーネントと基礎として、コード補完は、実世界のソフトウェアシステム構築におけるプロフェッショナルの効率を大きく向上させた。 この繁栄する市場とは対照的に、コード補完システムは不審な結果を出力することが多く、これまでコード補完システムのための自動テストおよび拡張フレームワークは使用できなかった。 本研究は,ブラックボックス設定でコード補完システムをテストし,修復するフレームワークであるCCTESTを提案する。 CCTESTは、プログラム構造関連突然変異(PSC)と呼ばれる一連の新しい突然変異戦略を備え、変異コード補完入力を生成する。 そして、完了したすべてのコードケースから、おそらく誤ったケースを表す一貫性のない出力を検出する。 さらにcctestは、コード補完システムの最終的な出力として、すべての出力ケースの"平均"外観を主に反映する出力を選択することで、コード補完出力を修復する。 我々は8つのLLMベースのコード補完システムから誤ったケースを発生させることができる33,540個の入力(正の86%)を検出した。 修復により,BLEUスコアとLevenshteinの類似性について,コード補完システムの精度が40%から67%向上していることが明らかとなった。

Code completion, a highly valuable topic in the software development domain, has been increasingly promoted for use by recent advances in large language models (LLMs). To date, visible LLM-based code completion frameworks such as GitHub Copilot and GPT are trained using deep learning over vast quantities of unstructured text and open source code. As the paramount component and the cornerstone in daily programming tasks, code completion has largely boosted professionals' efficiency in building real-world software systems. In contrast to this flourishing market, we find that code completion systems often output suspicious results, and to date, an automated testing and enhancement framework for code completion systems is not available. This research proposes CCTEST, a framework to test and repair code completion systems in blackbox settings. CCTEST features a set of novel mutation strategies, namely program structure-correlated (PSC) mutations, to generate mutated code completion inputs. Then, it detects inconsistent outputs, representing possibly erroneous cases, from all the completed code cases. Moreover, CCTEST repairs the code completion outputs by selecting the output that mostly reflects the "average" appearance of all output cases, as the final output of the code completion systems. We detected a total of 33,540 inputs (with a true positive rate of 86%) that can trigger erroneous cases from eight popular LLM-based code completion systems. With repairing, we show that the accuracy of code completion systems is notably increased by 40% and 67% with respect to BLEU score and Levenshtein edit similarity.
翻訳日:2023-10-24 15:05:15 公開日:2023-05-08
# FlaPy: 大規模なPythonテストのマイニング

FlaPy: Mining Flaky Python Tests at Scale ( http://arxiv.org/abs/2305.04793v1 )

ライセンス: Link先を確認
Martin Gruber, Gordon Fraser(参考訳) 不安定なテストはソフトウェア開発を妨げ、それに対する緩和の研究と提案は、ソフトウェア工学研究の重要な焦点となっている。 テストフレキネスの健全な調査を行うためには、大きく、多様性があり、偏りのないテストデータセットを持つことが不可欠である。 このようなデータセットを構築する一般的な方法は、選択したプロジェクトのテストスイートを複数回再実行し、異なる結果を生み出すテストをチェックすることだ。 このテクニックを1つのプロジェクトで使用するのは簡単ですが、大規模で多様なプロジェクトに適用すると、(1)テスト実行の分離、(2)複数のビルドメカニズムのサポート、(3)大規模なデータセット上で実行可能な実行時間の実現、(4)テスト結果の分析と提示といった、いくつかの実装上の課題が発生します。 このフレームワークは、テストスイートを再実行することによって、pythonプロジェクトの所定の、あるいは自動的にサンプルされたセットで、脆弱なテストをマイニングする。 FlaPyはコンテナ化と新しい実行環境を使用してテスト実行を分離し、実際のCI条件をシミュレートし、正確な結果を得る。 複数の依存関係のインストール戦略をサポートすることで、研究プロジェクト間の多様性を促進する。 FlaPyはSLURMを使ってテスト実行の並列化をサポートしており、数千のプロジェクトをスキャンしてテストフレキネスをテストすることができる。 最後に、flapyはテスト結果を分析し、どのテストが不安定であるかを判断し、結果を簡潔な表に示す。 FlaPyのデモビデオはhttps://youtu.be/ejy-be-FvDYで公開されている。

Flaky tests obstruct software development, and studying and proposing mitigations against them has therefore become an important focus of software engineering research. To conduct sound investigations on test flakiness, it is crucial to have large, diverse, and unbiased datasets of flaky tests. A common method to build such datasets is by rerunning the test suites of selected projects multiple times and checking for tests that produce different outcomes. While using this technique on a single project is mostly straightforward, applying it to a large and diverse set of projects raises several implementation challenges such as (1) isolating the test executions, (2) supporting multiple build mechanisms, (3) achieving feasible run times on large datasets, and (4) analyzing and presenting the test outcomes. To address these challenges we introduce FlaPy, a framework for researchers to mine flaky tests in a given or automatically sampled set of Python projects by rerunning their test suites. FlaPy isolates the test executions using containerization and fresh execution environments to simulate real-world CI conditions and to achieve accurate results. By supporting multiple dependency installation strategies, it promotes diversity among the studied projects. FlaPy supports parallelizing the test executions using SLURM, making it feasible to scan thousands of projects for test flakiness. Finally, FlaPy analyzes the test outcomes to determine which tests are flaky and depicts the results in a concise table. A demo video of FlaPy is available at https://youtu.be/ejy-be-FvDY
翻訳日:2023-10-24 11:55:05 公開日:2023-05-08
# ChatUniTest: ChatGPTベースの自動ユニットテスト生成ツール

ChatUniTest: a ChatGPT-based automated unit test generation tool ( http://arxiv.org/abs/2305.04764v1 )

ライセンス: Link先を確認
Zhuokui Xie, Yinghao Chen, Chen Zhi, Shuiguang Deng, Jianwei Yin(参考訳) 単体テストは重要で、しばしば退屈で時間がかかるタスクです。 開発者の負担を軽減するため、自動ユニットテスト生成技術が開発されている。 evosuiteやrandopといったプログラム分析ベースのツールのような既存の自動ユニットテスト生成ツールは、プログラム理解が欠如しており、可読性が低く、アサーションが限られている。 AthenaTestやA3Testのような言語モデルベースのツールは、正しいユニットテストの生成に制限がある。 本稿では,チャットgptベースの自動ユニットテスト生成ツールであるchatunitestについて紹介する。 chatunitestはプロジェクトを解析し、必須情報を抽出し、事前定義された最大プロンプトトークン制限内のfocalメソッドとその依存関係を含む適応焦点コンテキストを作成することでテストを生成する。 コンテキストはプロンプトに組み込まれ、その後ChatGPTに送信される。 ChatGPTのレスポンスが受信されると、ChatUniTestはレスポンスから生のテストを抽出する。 その後、テストを検証するとともに、構文的および単純なコンパイルエラーを修正するためにルールベースの修正を採用し、続いてChatGPTベースの修正によって、困難なエラーに対処する。 厳密な評価は、ChatUniTestが分岐とラインカバレッジでEvoSuiteを上回り、フォーカスメソッドカバレッジでAthenaTestとA3Testを上回り、モックオブジェクトとリフレクションを利用してアサーションを効果的に生成し、テスト目的を達成することを示しています。

Unit testing is a crucial, yet often tedious and time-consuming task. To relieve developers from this burden, automated unit test generation techniques are developed. Existing automated unit test generation tools, such as program-analysis-based tools like EvoSuite and Randoop, lack program comprehension, resulting in unit tests with poor readability and limited assertions. Language-model-based tools, such as AthenaTest and A3Test, have limitations in the generation of correct unit tests. In this paper, we introduce ChatUniTest, a ChatGPT-based automated unit test generation tool developed under the Generation-Validation-Repair framework. ChatUniTest generates tests by parsing the project, extracting essential information, and creating an adaptive focal context that includes the focal method and its dependencies within the pre-defined maximum prompt token limit. The context is incorporated into a prompt and subsequently submitted to ChatGPT. Once ChatGPT's response is received, ChatUniTest proceeds to extract the raw test from the response. It then validates the test and employs rule-based repair to fix syntactic and simple compile errors, followed by ChatGPT-based repair to address challenging errors. Our rigorous evaluation demonstrates that ChatUniTest outperforms EvoSuite in branch and line coverage, surpasses AthenaTest and A3Test in focal method coverage, and effectively generates assertions while utilizing mock objects and reflection to achieve test objectives.
翻訳日:2023-10-24 11:54:13 公開日:2023-05-08
# スペクトルに基づくフォールトローカライズを用いたデバッグフラックテスト

Debugging Flaky Tests using Spectrum-based Fault Localization ( http://arxiv.org/abs/2305.04735v1 )

ライセンス: Link先を確認
Martin Gruber, Gordon Fraser(参考訳) 非決定的な振る舞い(すなわち、フレキな)テストは、信頼と無駄な計算と人的資源を破壊するために回帰テストを妨げる。 テストスイートのフラキネスを根絶することは重要な目標であるが、フラキネスの原因を理解するために開発者をサポートするには、自動デバッグツールが必要である。 定期的なデバッグをサポートする自動化アプローチの一般的な例として、スペクトルベースの障害ローカライゼーション(SFL)がある。 コード中のフレキネスの可能性のあるソースを見つけるためにSFLを適用することもできるが、残念ながら、このフレキネスはSFLを不正確かつ非決定論的にする。 本稿では,従来のカバレッジベースsflの拡張であるsffl(spectrum-based flaky fault localization)について紹介する。 安定度とフレキ度を区別することにより、SFFLはフレキネスの源をより正確に見つけ、局在自体を決定論的に維持することができる。 48のオープンソースPythonプロジェクトから採取された101の不安定なテストの評価では、SFFLが有効であることが示されている。 平均して、彼らはフォールトの位置をプロジェクトのコードベースの3.5%まで絞り込むことができ、これは従来のSFL(DStar)よりも18.7%良い。 しかし、sfflの有効性はフラキネスの根本原因に依存する: 非順序依存のフラキテストの原因は、順序依存の障害よりもずっと正確に配置できる。

Non-deterministically behaving (i.e., flaky) tests hamper regression testing as they destroy trust and waste computational and human resources. Eradicating flakiness in test suites is therefore an important goal, but automated debugging tools are needed to support developers when trying to understand the causes of flakiness. A popular example for an automated approach to support regular debugging is spectrum-based fault localization (SFL), a technique that identifies software components that are most likely the causes of failures. While it is possible to also apply SFL for locating likely sources of flakiness in code, unfortunately the flakiness makes SFL both imprecise and non-deterministic. In this paper we introduce SFFL (Spectrum-based Flaky Fault Localization), an extension of traditional coverage-based SFL that exploits our observation that 80% of flaky tests exhibit varying coverage behavior between different runs. By distinguishing between stable and flaky coverage, SFFL is able to locate the sources of flakiness more precisely and keeps the localization itself deterministic. An evaluation on 101 flaky tests taken from 48 open-source Python projects demonstrates that SFFL is effective: Of five prominent SFL formulas, DStar, Ochiai, and Op2 yield the best overall performance. On average, they are able to narrow down the fault's location to 3.5 % of the project's code base, which is 18.7 % better than traditional SFL (for DStar). SFFL's effectiveness, however, depends on the root causes of flakiness: The source of non-order-dependent flaky tests can be located far more precisely than order-dependent faults.
翻訳日:2023-10-24 11:53:45 公開日:2023-05-08
# PBL:パーソナルブロックチェーンレジャーの作成と保守のためのシステム

PBL: System for Creating and Maintaining Personal Blockchain Ledgers ( http://arxiv.org/abs/2305.04723v1 )

ライセンス: Link先を確認
Collin Connors, Dilip Sarkar(参考訳) ブロックチェーン技術は近年大きく成長しているが、ブロックチェーンアプリケーションの多様性は限られている。 ブロックチェーンは、アペンダオン、イミュータブル、タンパーエビデント、タンパー耐性、フォールトトレラントなど、アプリケーションに多くの望ましい機能を提供するが、これらの機能を利用する多くのアプリケーションは、現在のブロックチェーンを組み込むことはできない。 この作業は、これらの懸念に対処する個人的なブロックチェーン台帳の作成とメンテナンスのための、新しいアーキテクチャを提供する。 当社のシステムは独立したモジュールサービスを利用して,個人がデータをパーソナルブロックチェーン台帳に安全に保存することを可能にする。 複数のユーザのすべてのトランザクションを格納する従来のブロックチェーンとは異なり、当社の新たなパーソナルブロックチェーンは、技術的な専門知識を必要とせずに個人がプライバシを維持するように設計されています。 厳密な数学的手法を用いて,本システムは付録のみ,不変,改ざん性,改ざん性のある台帳を生成することを証明した。 当社のシステムは、従来のブロックチェーン開発プラットフォームが取り組まないユースケースに対応しています。 当社のシステムは新たなブロックチェーンパラダイムを作成し、より多くの個人やアプリケーションがブロックチェーンテクノロジをニーズに活用できるようにします。

Blockchain technology has experienced substantial growth in recent years, yet the diversity of blockchain applications has been limited. Blockchain provides many desirable features for applications, including being append-only, immutable, tamper-evident, tamper-resistant, and fault-tolerant; however, many applications that would benefit from these features cannot incorporate current blockchains. This work presents a novel architecture for creating and maintaining personal blockchain ledgers that address these concerns. Our system utilizes independent modular services, enabling individuals to securely store their data in a personal blockchain ledger. Unlike traditional blockchain, which stores all transactions of multiple users, our novel personal blockchains are designed to allow individuals to maintain their privacy without requiring extensive technical expertise. Using rigorous mathematical methods, we prove that our system produces append-only, immutable, tamper-evident, tamper-resistant ledgers. Our system addresses use cases not addressed by traditional blockchain development platforms. Our system creates a new blockchain paradigm, enabling more individuals and applications to leverage blockchain technology for their needs.
翻訳日:2023-10-24 11:53:15 公開日:2023-05-08
# BLAFS:Bloat Awareファイルシステム

BLAFS: A Bloat Aware File System ( http://arxiv.org/abs/2305.04641v1 )

ライセンス: Link先を確認
Huaifeng Zhang, Mohannad Alhanahnah, Ahmed Ali-Eldin(参考訳) 長年にわたってハードウェア性能は指数関数的に改善されてきたが、ソフトウェア性能は遅れている。 パフォーマンスギャップはソフトウェア非効率によって引き起こされ、その多くがソフトウェア肥大によって引き起こされる。 ソフトウェアの肥大化は、ソフトウェアにおける機能や依存関係の増大によって起こる。 Bloatはオペレーティングシステムからアプリケーションまで,ソフトウェアのすべてのレイヤに存在するため,コンピュータリソースの浪費が発生します。 この問題は、アプリケーションの数が増えるにつれて、クラウドとエッジの両方で悪化する。 ソフトウェアを膨らませる部分を取り除くために,複数のツールが文献に提案されている。 しかし、これらのツールは削除されたソフトウェアに安全性の保証を提供していない。 本稿では,コンテナ用のBLoat-Aware-fileシステムであるBLAFSを紹介する。 BLAFSは、クラウドおよびエッジシステムのデブロ安全性を保証する。 BLAFSはOverlayファイルシステム上に実装されており、コンテナ間でファイルシステム層を共有することができる。 BLAFSを2つの最先端デブロツール(CimplifierとDockerslim)と、エッジシステム(StarlightとeStargz)用の2つの最先端遅延ローディングコンテナスナップショットと比較する。 実世界のコンテナを評価したところ、BLAFSはコンテナのサイズを元のサイズの97%まで削減し、他のデブロッキングツールが失敗してもコンテナの安全性を維持します。 また,BLAFSの性能をエッジ設定で評価する。 コンテナのプロビジョニング時間を最大90%削減し、遅延ローディングスナップシュータに同等の帯域幅の削減を提供すると同時に、脆弱性の97%を除去し、エッジのスペースを最大97%削減することができる。

While there has been exponential improvements in hardware performance over the years, software performance has lagged behind. The performance-gap is caused by software inefficiencies, many of which are caused by software bloat. Software bloat occurs due to the ever increasing, mostly unused, features and dependencies in a software. Bloat exists in all layers of software, from the operating system, to the application, resulting in computing resource wastage. The problem is exacerbated in both cloud and edge setting as the number of applications running increase. To remove software bloat, multiple debloating tools have been proposed in the literature. However, these tools do not provide safety guarantees on the debloated software, with some files needed during run-time removed. In this paper, We introduce BLAFS, a BLoat-Aware-file system for containers. BLAFS guarantees debloating safety for both cloud and edge systems. BLAFS is implemented on top of the Overlay file-system, allowing for file-system layer sharing across the containers. We compare BLAFS to two state-of-the-art debloating tools (Cimplifier and Dockerslim), and two state-of-the-art lazy-loading container snap-shotters for edge systems (Starlight and eStargz). Our evaluation of real-world containers shows BLAFS reduces container sizes by up to 97% of the original size, while maintaining the safety of the containers when other debloating tools fail. We also evaluate BLAFS's performance in edge settings. It can reduce the container provisioning time by up to 90% providing comparable bandwidth reductions to lazy-loading snap-shotters, while removing 97% of the vulnerabilities, and up to 97% less space on the edge.
翻訳日:2023-10-24 11:52:53 公開日:2023-05-08
# 確率的ハード負サンプリングによるコード検索のための検索とランサーフレームワーク

Retriever and Ranker Framework with Probabilistic Hard Negative Sampling for Code Search ( http://arxiv.org/abs/2305.04508v1 )

ライセンス: Link先を確認
Hande Dong, Jiayi Lin, Yichong Leng, Jiawei Chen, Yutao Xie(参考訳) 事前訓練言語モデル(PLM)は、コード検索タスクの最先端パラダイムとして登場した。 このパラダイムは、マスク付き言語モデリングなどの検索関連タスクに対する事前学習と、検索関連タスクに焦点を当てた微調整段階を含む。 典型的な微調整方法は、二重エンコーダアーキテクチャを用いて、クエリとコードのセマンティック埋め込みを個別にエンコードし、埋め込みに基づいてそれらの類似性を計算することである。 しかし、典型的なデュアルエンコーダアーキテクチャは、クエリとコードの間のトークンレベルの相互作用をモデル化するのに不足している。 本稿では,クエリとコードのセマンティックマッチングを協調的に符号化するコード検索のためのクロスエンコーダアーキテクチャを導入することにより,この制限に対処する新しい手法を提案する。 さらに,デュアルエンコーダとクロスエンコーダをカスケードし,評価の効率とオンラインサービスを促進するrecreatr-ranker(rr)フレームワークについても紹介する。 さらに,クロスエンコーダのハードネガティブコードの識別能力を向上させるための確率論的ハードネガティブサンプリング手法を提案し,カスケードRRフレームワークをさらに強化する。 3つのコードPLMを用いた4つのデータセット実験により,提案手法の優位性を実証した。

Pretrained Language Models (PLMs) have emerged as the state-of-the-art paradigm for code search tasks. The paradigm involves pretraining the model on search-irrelevant tasks such as masked language modeling, followed by the finetuning stage, which focuses on the search-relevant task. The typical finetuning method is to employ a dual-encoder architecture to encode semantic embeddings of query and code separately, and then calculate their similarity based on the embeddings. However, the typical dual-encoder architecture falls short in modeling token-level interactions between query and code, which limits the model's capabilities. In this paper, we propose a novel approach to address this limitation, introducing a cross-encoder architecture for code search that jointly encodes the semantic matching of query and code. We further introduce a Retriever-Ranker (RR) framework that cascades the dual-encoder and cross-encoder to promote the efficiency of evaluation and online serving. Moreover, we present a probabilistic hard negative sampling method to improve the cross-encoder's ability to distinguish hard negative codes, which further enhances the cascade RR framework. Experiments on four datasets using three code PLMs demonstrate the superiority of our proposed method.
翻訳日:2023-10-24 11:52:25 公開日:2023-05-08
# ChatGPTの効果と応用 : 文献レビューの体系的レビュー

The impact and applications of ChatGPT: a systematic review of literature reviews ( http://arxiv.org/abs/2305.18086v1 )

ライセンス: Link先を確認
Irene S. Gabashvili(参考訳) 会話型人工知能(AI)技術であるChatGPTは、最も広く使われている自然言語処理ツールの1つである。 様々な産業や分野にまたがる応用を実証する何千もの論文が出版され、ChatGPTは研究コミュニティに大きな関心を呼んだ。 一次データのレビューも現れ始めている。 複数のレビューや研究から得られた証拠の概要は、さらなる洞察を与え、冗長性を最小化し、さらなる研究が必要な領域を特定することができる。 目的: レビューの体系的レビューと初等文献の書誌分析を行い,chatgptの応用に関する既存レビューと文献の評価と,その異なる分野への潜在的影響について考察すること。 メソッド:PubMed、EuropePMC、Dimensions AI、medRxiv、bioRxiv、arXiv、Google Scholarは2022年から2023年までChatGPT関連の出版物を検索した。 ChatGPTの適用に関する二次データを含む研究を考察した。 また,prismaガイドラインを用いてバイアスアセンシングのリスクと報告を行った。 結果:2000以上のオリジナル記事のプールから,レビューに関連する可能性のある305件のユニークな記録を同定した。 マルチステップスクリーニングプロセスの後、ChatGPTに特化した9つのレビューと、ChatGPTに関する議論を含むより広範なAIトピックに関する2つのレビューからなる11のレビューが選択された。 また,一次データの文献分析も行った。 結論: AIはさまざまな産業に革命をもたらす可能性があるが、既存の懸念に対処し、責任ある使用を確実にするためには、さらなる学際研究、統合のカスタマイズ、倫理的革新が必要である。 プロトコル登録: prospero registration no. CRD42023417336, DOI 10.17605/OSF.IO/87U6Q

The conversational artificial-intelligence (AI) technology ChatGPT has become one of the most widely used natural language processing tools. With thousands of published papers demonstrating its applications across various industries and fields, ChatGPT has sparked significant interest in the research community. Reviews of primary data have also begun to emerge. An overview of the available evidence from multiple reviews and studies could provide further insights, minimize redundancy, and identify areas where further research is needed. Objective: To evaluate the existing reviews and literature related to ChatGPT's applications and its potential impact on different fields by conducting a systematic review of reviews and bibliometric analysis of primary literature. Methods: PubMed, EuropePMC, Dimensions AI, medRxiv, bioRxiv, arXiv, and Google Scholar were searched for ChatGPT-related publications from 2022 to 4/30/2023. Studies including secondary data related to the application of ChatGPT were considered. Reporting and risk of bias assesment was performed using PRISMA guidelines. Results: A total of 305 unique records with potential relevance to the review were identified from a pool of over 2,000 original articles. After multi-step screening process, 11 reviews were selected, consisting of 9 reviews specifically focused on ChatGPT and 2 reviews on broader AI topics that also included discussions on ChatGPT. We also conducted bibliometric analysis of primary data. Conclusions: While AI has the potential to revolutionize various industries, further interdisciplinary research, customized integrations, and ethical innovation are necessary to address existing concerns and ensure its responsible use. Protocol Registration: PROSPERO registration no. CRD42023417336, DOI 10.17605/OSF.IO/87U6Q.
翻訳日:2023-06-04 11:48:31 公開日:2023-05-08
# KineticNet: 軌道自由密度汎関数理論のための伝達可能な運動エネルギー関数の深層学習

KineticNet: Deep learning a transferable kinetic energy functional for orbital-free density functional theory ( http://arxiv.org/abs/2305.13316v1 )

ライセンス: Link先を確認
Roman Remme, Tobias Kaczun, Maximilian Scheurer, Andreas Dreuw, Fred A. Hamprecht(参考訳) 軌道自由密度汎関数理論(OF-DFT)は、最小コストで基底状態分子特性を計算することを約束する。 しかし、電子密度のみの関数として運動エネルギーを計算できないため、これは抑制されている。 ここでは、より高価なコーン・シャム密度汎関数理論によって提供される基底真理から運動エネルギー汎関数を学習する。 モデルに十分な表現性と空間的コンテキストを付与し、メモリフットプリントをGPU上の計算能力に制限する、トレーニングデータの十分な広範な分布を作成して、初期推定が貧弱な場合でも反復的な密度最適化を可能にする、という2つの課題に直面している。 そこで我々は,分子二次格子上の量予測に適応した点畳み込みに基づく等価なディープニューラルネットワークアーキテクチャであるkineticnetを提案する。 核カスプ近傍で十分な空間分解能を有する畳み込みフィルタ、複数の結合長にわたって情報を伝達する原子中心のスパースだが表現力のあるアーキテクチャ、およびランダムな外部電位による摂動面の基底状態密度を見つけ、様々なトレーニングデータを生成する新しい戦略を含む。 KineticNetは、入力密度と微小分子のジオメトリにわたる学習された機能の化学的精度を初めて達成した。 2つの電子系に対して、化学的精度でOF-DFT密度を最適化する。

Orbital-free density functional theory (OF-DFT) holds the promise to compute ground state molecular properties at minimal cost. However, it has been held back by our inability to compute the kinetic energy as a functional of the electron density only. We here set out to learn the kinetic energy functional from ground truth provided by the more expensive Kohn-Sham density functional theory. Such learning is confronted with two key challenges: Giving the model sufficient expressivity and spatial context while limiting the memory footprint to afford computations on a GPU; and creating a sufficiently broad distribution of training data to enable iterative density optimization even when starting from a poor initial guess. In response, we introduce KineticNet, an equivariant deep neural network architecture based on point convolutions adapted to the prediction of quantities on molecular quadrature grids. Important contributions include convolution filters with sufficient spatial resolution in the vicinity of the nuclear cusp, an atom-centric sparse but expressive architecture that relays information across multiple bond lengths; and a new strategy to generate varied training data by finding ground state densities in the face of perturbations by a random external potential. KineticNet achieves, for the first time, chemical accuracy of the learned functionals across input densities and geometries of tiny molecules. For two electron systems, we additionally demonstrate OF-DFT density optimization with chemical accuracy.
翻訳日:2023-05-28 05:11:20 公開日:2023-05-08
# Shall androidsのジェノサイドの夢? 大量残虐行為を記念するAIの未来をどう変えるか

Shall androids dream of genocides? How generative AI can change the future of memorialization of mass atrocities ( http://arxiv.org/abs/2305.14358v1 )

ライセンス: Link先を確認
Mykola Makhortykh, Eve M. Zucker, David J. Simon, Daniel Bultmann, Roberto Ulloa(参考訳) 戦争犯罪やジェノサイドなどの大量残虐行為の追悼は過去の苦しみの記憶を助長し、加害者に抵抗した者を称え、歴史的事実の歪曲を防ぐのに役立つ。 デジタル技術は、大量残虐行為を思い出すためにトップダウンやクリエイティブなアプローチを少なくすることで、メモリアル化の慣行を変えてきた。 同時に、否定主義や歪曲の拡散を促進し、過去の犯罪を正当化し、犠牲者の尊厳を攻撃しようとすることもある。 テキスト的および視覚的なコンテンツを生成するai(generative forms of artificial intelligence)の出現は、さらにメモリアル化の分野に革命をもたらす可能性がある。 aiはトレーニングデータのパターンを特定し、大量残虐行為の表現と解釈のための新しい物語を作成することができる。 例えば、大量残虐行為に関するトレーニングデータの曖昧さは、AIが残虐行為に関連する質問をどう解釈するかを歪めているだろうか? 大量残虐行為に関する人間とAIによるコンテンツを区別できることは、どの程度重要か? AIによるコンテンツは、残虐行為に関する虚偽情報を促進するために使用できるか? 本稿では,集団残虐行為を記念するために生成AIを使用する機会とリスクを検討することによって,これらの問題と他の問題に対処する。 また、より倫理的で持続可能な方向に向けて、これらの技術の使用を操縦するための記念練習におけるAI統合の推奨についても論じている。

The memorialization of mass atrocities such as war crimes and genocides facilitates the remembrance of past suffering, honors those who resisted the perpetrators, and helps prevent the distortion of historical facts. Digital technologies have transformed memorialization practices by enabling less top-down and more creative approaches to remember mass atrocities. At the same time, they may also facilitate the spread of denialism and distortion, attempt to justify past crimes and attack the dignity of victims. The emergence of generative forms of artificial intelligence (AI), which produce textual and visual content, has the potential to revolutionize the field of memorialization even further. AI can identify patterns in training data to create new narratives for representing and interpreting mass atrocities - and do so in a fraction of the time it takes for humans. The use of generative AI in this context raises numerous questions: For example, can the paucity of training data on mass atrocities distort how AI interprets some atrocity-related inquiries? How important is the ability to differentiate between human- and AI-made content concerning mass atrocities? Can AI-made content be used to promote false information concerning atrocities? This article addresses these and other questions by examining the opportunities and risks associated with using generative AIs for memorializing mass atrocities. It also discusses recommendations for AIs integration in memorialization practices to steer the use of these technologies toward a more ethical and sustainable direction.
翻訳日:2023-05-28 05:01:28 公開日:2023-05-08
# 分布認識公平性テスト生成

Distribution-aware Fairness Test Generation ( http://arxiv.org/abs/2305.13935v1 )

ライセンス: Link先を確認
Sai Sathiesh Rajan, Ezekiel Soremekun, Yves Le Traon, Sudipta Chattopadhyay(参考訳) 本研究は,画像認識ソフトウェアにおけるグループフェアネスの検証方法について述べる。 画像分類器におけるクラスレベルのフェアネス違反を,アウト・オブ・ディストリビューション(OOD)テストとセマンティック保存画像の相乗的組み合わせにより体系的に公開する分布認識フェアネステスト手法(DistroFair)を提案する。 DistroFairは、画像の集合内のオブジェクトの分布(例えば、番号/向き)を自動的に学習する。 次に、オブジェクトの削除、オブジェクト挿入、オブジェクト回転という3つのセマンティック保存されたイメージ変異を使用して、画像内のオブジェクトを体系的にOODに変形する。 2つの有名なデータセット(CityScapesとMS-COCO)と3つの主要な商用画像認識ソフトウェア(Amazon Rekognition、Google Cloud Vision、Azure Computer Vision)を使用してDistroFairを評価する。 その結果、DistroFairが生成した画像の約21%は、基底真理または変成オラクルを用いてクラスレベルのフェアネス違反を明らかにしている。 DistroFairは2つのベースライン、すなわち2つのベースラインよりも2.3倍有効である。 (a)分布(ID)内でのみ画像を生成することに焦点を当てたアプローチ (b)原画像データセットのみを用いた公平性解析。 さらに、DistroFairは効率的で、平均して1時間に460枚の画像を生成する。 最後に,DistroFair が生成した実画像 30 と実画像 30 を用いて,81 人の被験者によるユーザスタディによるアプローチの意味的妥当性を評価する。 その結果、DistroFairが生成した画像は現実世界の画像の80%がリアルであることが判明した。

This work addresses how to validate group fairness in image recognition software. We propose a distribution-aware fairness testing approach (called DistroFair) that systematically exposes class-level fairness violations in image classifiers via a synergistic combination of out-of-distribution (OOD) testing and semantic-preserving image mutation. DistroFair automatically learns the distribution (e.g., number/orientation) of objects in a set of images. Then it systematically mutates objects in the images to become OOD using three semantic-preserving image mutations -- object deletion, object insertion and object rotation. We evaluate DistroFair using two well-known datasets (CityScapes and MS-COCO) and three major, commercial image recognition software (namely, Amazon Rekognition, Google Cloud Vision and Azure Computer Vision). Results show that about 21% of images generated by DistroFair reveal class-level fairness violations using either ground truth or metamorphic oracles. DistroFair is up to 2.3x more effective than two main baselines, i.e., (a) an approach which focuses on generating images only within the distribution (ID) and (b) fairness analysis using only the original image dataset. We further observed that DistroFair is efficient, it generates 460 images per hour, on average. Finally, we evaluate the semantic validity of our approach via a user study with 81 participants, using 30 real images and 30 corresponding mutated images generated by DistroFair. We found that images generated by DistroFair are 80% as realistic as real-world images.
翻訳日:2023-05-28 04:59:37 公開日:2023-05-08
# mmwaveネットワークにおける深層学習と超解像誘導ビームと電力割り当て

Deep Learning and Image Super-Resolution-Guided Beam and Power Allocation for mmWave Networks ( http://arxiv.org/abs/2305.13929v1 )

ライセンス: Link先を確認
Yuwen Cao, Tomoaki Ohtsuki, Setareh Maghsudi, and Tony Q. S. Quek(参考訳) 本稿では,基地局(BS)における高速ビームフォーミングを容易にするマルチユーザミリ波(mmWave)ネットワークのための,ディープラーニング(DL)誘導ハイブリッドビームと電力配分手法を開発する。 以下の課題が我々の研究を動機づけた。 一 利用者及び車両の移動性及びmWaveネットワークにおける冗長ビーム選択により、効率を低下させる。 (二)BSのビームフォーミング寸法が大きいため、最先端のDL法により予測されるビームフォーミング重量は、チャネル分布に適さないことが多い。 (iii)同一位置のユーザデバイスがビーム衝突を起こし、システム性能が低下する可能性がある。 上記の課題に対処するために,スーパーレゾリューション技術と教師付き学習の相乗効果を活用し,低オーバヘッドビームと電力割り当てを実現する。 まず,ビーム品質予測手法を提案する。 ディープラーニングに基づいて、高解像度と低解像度のビームイメージ(エネルギー)の関係を探求する。 その後,利用可能な時間系列低解像度画像の一部のみを用いて高精度ビームとパワーアロケーションを実現するdlベースのアロケーション手法を開発した。 提案手法の有効性を理論的および数値的に検証した。

In this paper, we develop a deep learning (DL)-guided hybrid beam and power allocation approach for multiuser millimeter-wave (mmWave) networks, which facilitates swift beamforming at the base station (BS). The following persisting challenges motivated our research: (i) User and vehicular mobility, as well as redundant beam-reselections in mmWave networks, degrade the efficiency; (ii) Due to the large beamforming dimension at the BS, the beamforming weights predicted by the cutting-edge DL-based methods often do not suit the channel distributions; (iii) Co-located user devices may cause a severe beam conflict, thus deteriorating system performance. To address the aforementioned challenges, we exploit the synergy of supervised learning and super-resolution technology to enable low-overhead beam- and power allocation. In the first step, we propose a method for beam-quality prediction. It is based on deep learning and explores the relationship between high- and low-resolution beam images (energy). Afterward, we develop a DL-based allocation approach, which enables high-accuracy beam and power allocation with only a portion of the available time-sequential low-resolution images. Theoretical and numerical results verify the effectiveness of our proposed
翻訳日:2023-05-28 04:58:43 公開日:2023-05-08
# ChatGPT: ビジョンと課題

ChatGPT: Vision and Challenges ( http://arxiv.org/abs/2305.15323v1 )

ライセンス: Link先を確認
Sukhpal Singh Gill and Rupinder Kaur(参考訳) 人工知能(ai)と機械学習は近年、科学的探究の性質を変えてきた。 これらのうち、仮想アシスタントの開発はここ数年で大幅に加速し、ChatGPTは著名なAI言語モデルとなった。 本研究では,ChatGPTの基礎,ビジョン,研究課題について検討する。 この記事では、その背景にある技術とそのポピュラーな応用の背景と開発について調査します。 さらに,ChatGPTやIoT(Internet of Things)を通じてすべてをまとめることのメリットについても論じる。 さらに,chatgptの今後について,エネルギー効率,サイバーセキュリティ,追加技術(ロボット工学とコンピュータビジョン)への適用性の向上,ヒューマン・aiコミュニケーションの強化,技術ギャップの橋渡しなど,様々な研究・開発の可能性を検討した。 最後に、ChatGPTの重要な倫理と現状について論じる。

Artificial intelligence (AI) and machine learning have changed the nature of scientific inquiry in recent years. Of these, the development of virtual assistants has accelerated greatly in the past few years, with ChatGPT becoming a prominent AI language model. In this study, we examine the foundations, vision, research challenges of ChatGPT. This article investigates into the background and development of the technology behind it, as well as its popular applications. Moreover, we discuss the advantages of bringing everything together through ChatGPT and Internet of Things (IoT). Further, we speculate on the future of ChatGPT by considering various possibilities for study and development, such as energy-efficiency, cybersecurity, enhancing its applicability to additional technologies (Robotics and Computer Vision), strengthening human-AI communications, and bridging the technological gap. Finally, we discuss the important ethics and current trends of ChatGPT.
翻訳日:2023-05-28 04:39:14 公開日:2023-05-08
# イミテーション対イノベーション(Imitation vs Innovation): 大きな言語と言語とビジョンのモデルで、どんな子供ができるでしょうか?

Imitation versus Innovation: What children can do that large language and language-and-vision models cannot (yet)? ( http://arxiv.org/abs/2305.07666v1 )

ライセンス: Link先を確認
Eunice Yiu, Eliza Kosoy and Alison Gopnik(参考訳) 大規模言語モデルと言語とビジョンモデルに関する多くの議論は、これらのモデルがインテリジェントエージェントであるかどうかに焦点を当てている。 我々は別の視点を提示する。 これらの人工知能モデルは、現代世界での文化伝達を促進する文化技術であり、効率的な模倣エンジンであると主張する。 AIモデルは、新しいツールを設計し、新しい因果構造を発見する能力を評価し、その反応を人間の子供と対比することで、模倣と革新について私たちに何を伝えるかを探る。 私たちの研究は、特定の表現と能力、そしてどの種類の知識やスキルが特定の学習技術やデータから引き出せるかを決定するための第一歩として役立ちます。 批判的に言えば、子どもができることを達成するには、機械は大規模言語や画像以上のものが必要になるかもしれない。

Much discussion about large language models and language-and-vision models has focused on whether these models are intelligent agents. We present an alternative perspective. We argue that these artificial intelligence models are cultural technologies that enhance cultural transmission in the modern world, and are efficient imitation engines. We explore what AI models can tell us about imitation and innovation by evaluating their capacity to design new tools and discover novel causal structures, and contrast their responses with those of human children. Our work serves as a first step in determining which particular representations and competences, as well as which kinds of knowledge or skill, can be derived from particular learning techniques and data. Critically, our findings suggest that machines may need more than large scale language and images to achieve what a child can do.
翻訳日:2023-05-21 11:15:16 公開日:2023-05-08
# 情緒コンピューティングに関する包括的調査 : 課題,トレンド,応用,今後の方向性

A Comprehensive Survey on Affective Computing; Challenges, Trends, Applications, and Future Directions ( http://arxiv.org/abs/2305.07665v1 )

ライセンス: Link先を確認
Sitara Afzal, Haseeb Ali Khan, Imran Ullah Khan, Md. Jalil Piran, Jong Weon Lee(参考訳) 名前が示すように、感情コンピューティングは人間の感情、感情、感情を認識することを目的としている。 言語、社会学、心理学、コンピュータ科学、生理学など、感情コンピューティングを研究する幅広い分野がある。 しかしながら、機械学習(ML)と混合現実(XR)がどのように相互作用するかを決定する研究はこれまで行われていない。 本稿では,感情コンピューティングの重要性と,その概念,概念,方法,成果について論じる。 mlとxrのアプローチを用いて,感情コンピューティングにおける最近の手法を調査し,議論する。 我々は現在の情緒的なデータ資源とともに最先端のアプローチを調査した。 さらに,情緒コンピューティングが大きな影響を与える様々な応用について考察し,その意義と実用的妥当性の理解を深める上で役立っている。

As the name suggests, affective computing aims to recognize human emotions, sentiments, and feelings. There is a wide range of fields that study affective computing, including languages, sociology, psychology, computer science, and physiology. However, no research has ever been done to determine how machine learning (ML) and mixed reality (XR) interact together. This paper discusses the significance of affective computing, as well as its ideas, conceptions, methods, and outcomes. By using approaches of ML and XR, we survey and discuss recent methodologies in affective computing. We survey the state-of-the-art approaches along with current affective data resources. Further, we discuss various applications where affective computing has a significant impact, which will aid future scholars in gaining a better understanding of its significance and practical relevance.
翻訳日:2023-05-21 11:15:01 公開日:2023-05-08
# 説明可能なAI研究における不正なサンプルサイズと一般化:より包括的なユーザ研究の原則

Unjustified Sample Sizes and Generalizations in Explainable AI Research: Principles for More Inclusive User Studies ( http://arxiv.org/abs/2305.09477v1 )

ライセンス: Link先を確認
Uwe Peters, Mary Carman(参考訳) 多くの倫理的枠組みは、説明可能な人工知能(AI)システムを必要とする。 説明可能なai(xai)モデルは、ユーザー研究の適性について頻繁にテストされる。 異なる人が異なる説明ニーズを持つ可能性があるため、ユーザ研究の参加者サンプルが、一般化を可能にするためにターゲット人口を表すのに十分な大きさであることは重要である。 しかし、xaiの研究者がどの程度サンプルサイズを反映し、正当化するか、あるいは広範囲にわたる一般化を避けるかは定かではない。 2012年から2022年にかけて発行されたXAIユーザスタディ(N = 220)を分析した。 ほとんどの研究はサンプルサイズについて根拠を示さなかった。 さらに、ほとんどの論文は対象とする個体群以上の結論を一般化しており、定量研究における広範な結論がより大きな標本と相関しているという証拠は存在しなかった。 これらの方法論的問題は、倫理的枠組みに求められる説明可能性を実装するかどうかの評価を妨げる可能性がある。 より包括的なXAIユーザ研究の原則を概説する。

Many ethical frameworks require artificial intelligence (AI) systems to be explainable. Explainable AI (XAI) models are frequently tested for their adequacy in user studies. Since different people may have different explanatory needs, it is important that participant samples in user studies are large enough to represent the target population to enable generalizations. However, it is unclear to what extent XAI researchers reflect on and justify their sample sizes or avoid broad generalizations across people. We analyzed XAI user studies (N = 220) published between 2012 and 2022. Most studies did not offer rationales for their sample sizes. Moreover, most papers generalized their conclusions beyond their target population, and there was no evidence that broader conclusions in quantitative studies were correlated with larger samples. These methodological problems can impede evaluations of whether XAI systems implement the explainability called for in ethical frameworks. We outline principles for more inclusive XAI user studies.
翻訳日:2023-05-21 11:04:48 公開日:2023-05-08
# 2段階ディープラーニングモデルによる脆弱性検出

Vulnerability Detection Using Two-Stage Deep Learning Models ( http://arxiv.org/abs/2305.09673v1 )

ライセンス: Link先を確認
Mohamed Mjd Alhafi and Mohammad Hammade and Khloud Al Jallad(参考訳) アプリケーションセキュリティは、多くの攻撃がソフトウェアの脆弱性に依存するため、現代的なソフトウェアを開発する上で不可欠な部分です。 技術的進歩により、世界中で攻撃が増えている。 企業は、データ漏洩を防ぐために、ソフトウェアの開発、テスト、デプロイのあらゆる段階にセキュリティを含めなければならない。 ソフトウェア脆弱性を検出する方法は、静的アプリケーションセキュリティテスト(SAST)や動的アプリケーションセキュリティテスト(DAST)など、非AIベースのいくつかの方法がある。 しかし、これらのアプローチはかなりの偽陽性と偽陰性率を持つ。 一方、研究者はBERTやBLSTMといったディープラーニングモデルを用いたAIベースの脆弱性検出システムの開発に興味を持っている。 本稿では,c/c++ソースコードにおける脆弱性検出のための2つのディープラーニングモデルを提案し,第1段階はcnnであり,ソースコードに脆弱性(バイナリ分類モデル)が含まれているかどうかを検知し,第2段階はcnn-ltsmであり,この脆弱性を50種類の脆弱性(マルチクラス分類モデル)に分類する。 SySeVRデータセットで実験が行われた。 その結果,第1段では99%,第2段では98%の精度を示した。

Application security is an essential part of developing modern software, as lots of attacks depend on vulnerabilities in software. The number of attacks is increasing globally due to technological advancements. Companies must include security in every stage of developing, testing, and deploying their software in order to prevent data breaches. There are several methods to detect software vulnerability Non-AI-based such as Static Application Security Testing (SAST) and Dynamic Application Security Testing (DAST). However, these approaches have substantial false-positive and false-negative rates. On the other side, researchers have been interested in developing an AI-based vulnerability detection system employing deep learning models like BERT, BLSTM, etc. In this paper, we proposed a two-stage solution, two deep learning models were proposed for vulnerability detection in C/C++ source codes, the first stage is CNN which detects if the source code contains any vulnerability (binary classification model) and the second stage is CNN-LTSM that classifies this vulnerability into a class of 50 different types of vulnerabilities (multiclass classification model). Experiments were done on SySeVR dataset. Results show an accuracy of 99% for the first and 98% for the second stage.
翻訳日:2023-05-21 10:55:12 公開日:2023-05-08
# アクセス可能な指示追従エージェント

Accessible Instruction-Following Agent ( http://arxiv.org/abs/2305.06358v1 )

ライセンス: Link先を確認
Kairui Zhou(参考訳) 人間は視覚信号と環境からの指示に基づいて協調してタスクを完成させることができる。 このようなロボットの訓練は、特に命令の理解と複雑な環境のために難しい。 従来の命令追従エージェントは英語中心のコーパスに偏りがあり、複数の言語や低リソース言語を使用するユーザに適用することは不可能である。 それでも、命令追従エージェントは、ユーザが環境を観察できると仮定したモードで事前訓練され、アクセシビリティが制限される。 本研究では,コーパスリソースの少ない非英語言語に対して,命令追従エージェントの成功を一般化し,その難解性とアクセシビリティの向上を図っている。 UVLN(Universal Vision-Language Navigation)は、言語間視覚言語ナビゲーションのための新しい機械翻訳教育用拡張フレームワークであり、最新の大言語モデル(GPT3)と画像キャプションモデル(BLIP)を組み合わせた新しい構成である。 まず,機械翻訳により多言語視覚言語ナビゲーションデータセットを収集する。 次に、標準VLNトレーニング目標を言語間エンコーダを介して多言語設定に拡張する。 異なる言語間のアライメントは、言語命令、視覚観察、行動決定シーケンスの入力を符号化するクロスモーダルトランスフォーマーを介して共有視覚とアクションコンテキストを介してキャプチャされる。 難易度を向上させるために,エージェントをユーザに対して状況と現状を通知する大型言語モデルに接続し,アクション決定についても説明します。 Room Across Room Dataset上での実験は、我々のアプローチの有効性を証明する。 また,定性的な結果から,命令追従エージェントの魅力とアクセシビリティが示された。

Humans can collaborate and complete tasks based on visual signals and instruction from the environment. Training such a robot is difficult especially due to the understanding of the instruction and the complicated environment. Previous instruction-following agents are biased to English-centric corpus, making it unrealizable to be applied to users that use multiple languages or even low-resource languages. Nevertheless, the instruction-following agents are pre-trained in a mode that assumes the user can observe the environment, which limits its accessibility. In this work, we're trying to generalize the success of instruction-following agents to non-English languages with little corpus resources, and improve its intractability and accessibility. We introduce UVLN (Universal Vision-Language Navigation), a novel machine-translation instructional augmented framework for cross-lingual vision-language navigation, with a novel composition of state-of-the-art large language model (GPT3) with the image caption model (BLIP). We first collect a multilanguage vision-language navigation dataset via machine translation. Then we extend the standard VLN training objectives to a multilingual setting via a cross-lingual language encoder. The alignment between different languages is captured through a shared vision and action context via a cross-modal transformer, which encodes the inputs of language instruction, visual observation, and action decision sequences. To improve the intractability, we connect our agent with the large language model that informs the situation and current state to the user and also explains the action decisions. Experiments over Room Across Room Dataset prove the effectiveness of our approach. And the qualitative results show the promising intractability and accessibility of our instruction-following agent.
翻訳日:2023-05-12 17:13:57 公開日:2023-05-08
# SWDPM: 社会福祉を最適化したデータ価格設定機構

SWDPM: A Social Welfare-Optimized Data Pricing Mechanism ( http://arxiv.org/abs/2305.06357v1 )

ライセンス: Link先を確認
Yi Yu, Shengyue Yao, Juanjuan Li, Fei-Yue Wang, Yilun Lin(参考訳) データトレーディングは、ユーザーが所有するデータに関連するプライバシー上の懸念とデータの無限の再現性によって妨げられている。 従来のデータ価格モデルは、均一な価格やサブスクリプションベースのモデルに依存していた。 しかし、プライバシ保護コンピューティング技術の発展により、市場は徐々に開示された情報を使ってプライバシーと完全な取引を保護できるようになった。 本研究では,マッチングに基づくマルコフ決定プロセス(mdp)を用いて,情報公開を段階的に行う多ラウンドデータ取引のモデル化を行い,社会福祉最適化データ価格設定機構(swdpm)を導入し,最適な価格設定戦略を提案する。 私たちの知る限りでは、これは段階的な情報開示を伴うマルチラウンドデータトレーディングをモデル化した最初の研究です。 数値実験により、swdpmは取引実現率の最大54\%、取引効率の43\%、取引フェアネスの25\%で社会福祉を3倍に増やすことが示され、取引業者間の需要のマッチングと価格交渉の強化が図られた。

Data trading has been hindered by privacy concerns associated with user-owned data and the infinite reproducibility of data, making it challenging for data owners to retain exclusive rights over their data once it has been disclosed. Traditional data pricing models relied on uniform pricing or subscription-based models. However, with the development of Privacy-Preserving Computing techniques, the market can now protect the privacy and complete transactions using progressively disclosed information, which creates a technical foundation for generating greater social welfare through data usage. In this study, we propose a novel approach to modeling multi-round data trading with progressively disclosed information using a matchmaking-based Markov Decision Process (MDP) and introduce a Social Welfare-optimized Data Pricing Mechanism (SWDPM) to find optimal pricing strategies. To the best of our knowledge, this is the first study to model multi-round data trading with progressively disclosed information. Numerical experiments demonstrate that the SWDPM can increase social welfare 3 times by up to 54\% in trading feasibility, 43\% in trading efficiency, and 25\% in trading fairness by encouraging better matching of demand and price negotiation among traders.
翻訳日:2023-05-12 17:13:29 公開日:2023-05-08
# マルチエージェント強化学習における情報設計

Information Design in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2305.06807v1 )

ライセンス: Link先を確認
Yue Lin, Wenhao Li, Hongyuan Zha, Baoxiang Wang(参考訳) 強化学習(RL)は、人間と動物が環境とどのように相互作用するかを模倣する。 この設定は、実際のタスクでは、環境内の他のエージェントが独自の目標を持ち、エゴエージェントに適応して振る舞うため、やや理想化されている。 これらの環境で繁栄するためには、エージェントは他のエージェントに影響を与える必要がある。 計算経済学の研究は、有形財(機械設計)と情報(情報設計)の2つの方法で他者に直接影響を与える方法を蒸留する。 本研究は,rlエージェント群の情報設計問題を調査する。 主な課題は2つある。 1つは、エージェントの軌跡の遷移に直ちに影響を及ぼす情報であり、追加の非定常性をもたらす。 もう1つは、情報は無視できるため、送信側は受信側が尊重する情報を提供しなければならない。 我々はマルコフシグナリングゲームを定式化し、これらの課題に対処するシグナリング勾配の概念と拡張された服従制約を開発する。 我々のアルゴリズムは様々な混合モチベーションタスクにおいて効率的であり、計算経済学のさらなる洞察を提供する。 私たちのコードはhttps://github.com/YueLin301/InformationDesignMARLで利用可能です。

Reinforcement learning (RL) mimics how humans and animals interact with the environment. The setting is somewhat idealized because, in actual tasks, other agents in the environment have their own goals and behave adaptively to the ego agent. To thrive in those environments, the agent needs to influence other agents so their actions become more helpful and less harmful. Research in computational economics distills two ways to influence others directly: by providing tangible goods (mechanism design) and by providing information (information design). This work investigates information design problems for a group of RL agents. The main challenges are two-fold. One is the information provided will immediately affect the transition of the agent trajectories, which introduces additional non-stationarity. The other is the information can be ignored, so the sender must provide information that the receivers are willing to respect. We formulate the Markov signaling game, and develop the notions of signaling gradient and the extended obedience constraints that address these challenges. Our algorithm is efficient on various mixed-motive tasks and provides further insights into computational economics. Our code is available at https://github.com/YueLin301/InformationDesignMARL.
翻訳日:2023-05-12 14:41:31 公開日:2023-05-08
# 重み付きサンプリングによるリスク制限型財務監査

Risk-limiting Financial Audits via Weighted Sampling without Replacement ( http://arxiv.org/abs/2305.06884v1 )

ライセンス: Link先を確認
Shubhanshu Shekhar, Ziyu Xu, Zachary C. Lipton, Pierre J. Liang, Aaditya Ramdas(参考訳) リスクリミット金融監査(RLFA)の概念を導入し、N$取引が与えられた場合、その目標は、不当な金融分率~(m^*$)の合計を、信頼度1-\delta$で、所定の精度$\epsilon$に見積もることである。 我々は、(ランダム化)重み付けサンプリング方式に基づいて、置換せずに引き出されたサンプルに基づいて、重み付け平均の未知値に対して新しい信頼シーケンス(CS)を構築する。 重み付けという概念を用いて,まず任意のサンプリング戦略のためのCSを構築するためのフレームワークを開発する。 次に,各項目に関連付けられた未知の値の側面情報を組み込むことで,CSの品質を向上させる手法を開発した。 側情報が十分に予測可能な場合には,直接サンプリングを行うことができることを示す。 事前の精度が不明な場合に対して,制御変数によるサイド情報を組み込む手法を提案する。 重要なことに、我々の構築は適応的であり、もしサイド情報が未知の誤り量の高い予測値であるなら、それを組み込むことの利点は重要である。 提案手法は, 選挙監査に既に適用されている重みが等しければ, 特別の場合の最先端の限界を回復する。 より重み付けされたケースは、AIによる財務監査のより困難な問題を解決します。

We introduce the notion of a risk-limiting financial auditing (RLFA): given $N$ transactions, the goal is to estimate the total misstated monetary fraction~($m^*$) to a given accuracy $\epsilon$, with confidence $1-\delta$. We do this by constructing new confidence sequences (CSs) for the weighted average of $N$ unknown values, based on samples drawn without replacement according to a (randomized) weighted sampling scheme. Using the idea of importance weighting to construct test martingales, we first develop a framework to construct CSs for arbitrary sampling strategies. Next, we develop methods to improve the quality of CSs by incorporating side information about the unknown values associated with each item. We show that when the side information is sufficiently predictive, it can directly drive the sampling. Addressing the case where the accuracy is unknown a priori, we introduce a method that incorporates side information via control variates. Crucially, our construction is adaptive: if the side information is highly predictive of the unknown misstated amounts, then the benefits of incorporating it are significant; but if the side information is uncorrelated, our methods learn to ignore it. Our methods recover state-of-the-art bounds for the special case when the weights are equal, which has already found applications in election auditing. The harder weighted case solves our more challenging problem of AI-assisted financial auditing.
翻訳日:2023-05-12 14:23:42 公開日:2023-05-08
# B^0\to J/\psi \, K^{\star}(892)^0$崩壊におけるベルの不等式

Bell inequality is violated in $B^0\to J/\psi \, K^{\star}(892)^0$ decays ( http://arxiv.org/abs/2305.04982v1 )

ライセンス: Link先を確認
M. Fabbrichesi, R. Floreanini, E. Gabrielli, and L. Marzola(参考訳) ベルの不等式違反は量子力学の目印の一つであり、局所決定論的な代替記述を除外するために用いられる。 我々は、最終ベクトル中間子の分極間の絡み合いとそれに伴うベルの不等式を計算するために、崩壊$B^0\to J/\psi \, K^{*}(892)^0$のヘリシティ振幅に関するLHCb共同で公表されたデータ解析を利用する。 この違反は36$\sigma$の意義を持つことが判明し、衝突器の設定や強い相互作用の存在下での高エネルギーでの量子力学のこの区別的な特徴を確固たるものにしている。 ベルの不等式は、B$中間子からベクトル中間子への他の崩壊にも違反するが、より重要性は低い。

The violation of the Bell inequality is one of the hallmarks of quantum mechanics and can be used to rule out local deterministic alternative descriptions. We utilize the data analysis published by the LHCb collaboration on the helicity amplitudes for the decay $B^0\to J/\psi \, K^{*}(892)^0$ to compute the entanglement among the polarizations of the final vector mesons and the violation of Bell inequality that it entails. We find that the violation has a significance of 36$\sigma$ -- thereby firmly establishing this distinguishing feature of quantum mechanics at high energies in a collider setting and in the presence of strong and weak interactions. The Bell inequality is also violated in other decays of the $B$ mesons into vector mesons, but with lesser significance.
翻訳日:2023-05-11 16:00:53 公開日:2023-05-08
# グラフ畳み込みリカレントネットワークによる危険運転行動の高精度検出による道路安全向上

Enhancing Road Safety through Accurate Detection of Hazardous Driving Behaviors with Graph Convolutional Recurrent Networks ( http://arxiv.org/abs/2305.05670v1 )

ライセンス: Link先を確認
Pooyan Khosravinia, Thinagaran Perumal, Javad Zarrin(参考訳) 自動車事故は世界中で重大な公共の安全問題であり、その大半は運転の知識の不足、規制の遵守の欠如、運転習慣の悪さが原因である。 道路安全を改善するため,安全かつ安全でない運転行動を特定するために,運転行動検出システム(DBD)がいくつかの研究で提案されている。 これらの研究の多くは、コントローラエリアネットワーク(CAN)バスから得られたセンサデータを利用してモデルを構築している。 しかし、一般公開されているセンサーを使用することで検出モデルの精度が低下し、ベンダー固有のセンサーをデータセットに組み込むことで精度が向上することが知られている。 既存のアプローチの限界に対処するため,公共センサを用いたDBDモデルの精度と実用性を向上するグラフ畳み込み長短期記憶ネットワーク(GConvLSTM)に基づく信頼性DBDシステムを提案する。 さらに,非公開センサを組み込んでモデルの有効性を評価する。 提案モデルでは,公用センサでは97.5\%,非公用センサでは平均98.1\%の精度を達成し,両者の整合性と精度を示した。 ローカルドライバの動作解析を可能にするために,ネットワークエッジのraspberry piにdbdシステムをデプロイし,毎日の運転状況報告やセンサデータ,予測結果に監視ダッシュボードを通じてアクセス可能とした。 さらに、ダッシュボードは、危険運転状況のドライバーに警告するボイス警告を発行する。 以上の結果から,提案システムは,道路の安全性向上や事故発生回数の低減に潜在的に応用できるため,危険かつ安全でない運転動作を効果的に検出できることが示された。

Car accidents remain a significant public safety issue worldwide, with the majority of them attributed to driver errors stemming from inadequate driving knowledge, non-compliance with regulations, and poor driving habits. To improve road safety, Driving Behavior Detection (DBD) systems have been proposed in several studies to identify safe and unsafe driving behavior. Many of these studies have utilized sensor data obtained from the Controller Area Network (CAN) bus to construct their models. However, the use of publicly available sensors is known to reduce the accuracy of detection models, while incorporating vendor-specific sensors into the dataset increases accuracy. To address the limitations of existing approaches, we present a reliable DBD system based on Graph Convolutional Long Short-Term Memory Networks (GConvLSTM) that enhances the precision and practicality of DBD models using public sensors. Additionally, we incorporate non-public sensors to evaluate the model's effectiveness. Our proposed model achieved a high accuracy of 97.5\% for public sensors and an average accuracy of 98.1\% for non-public sensors, indicating its consistency and accuracy in both settings. To enable local driver behavior analysis, we deployed our DBD system on a Raspberry Pi at the network edge, with drivers able to access daily driving condition reports, sensor data, and prediction results through a monitoring dashboard. Furthermore, the dashboard issues voice warnings to alert drivers of hazardous driving conditions. Our findings demonstrate that the proposed system can effectively detect hazardous and unsafe driving behavior, with potential applications in improving road safety and reducing the number of accidents caused by driver errors.
翻訳日:2023-05-11 15:41:17 公開日:2023-05-08
# 大規模言語モデルを用いた代数誤り分類

Algebra Error Classification with Large Language Models ( http://arxiv.org/abs/2305.06163v1 )

ライセンス: Link先を確認
Hunter McNichols, Mengxue Zhang, Andrew Lan(参考訳) 学生がオープンエンド数学の質問に答える際の自動フィードバックは、大規模に学習結果を改善する上で大きな可能性を秘めている。 自動フィードバックシステムの重要な部分は、学生のエラーを特定し、適切に定義されたフィードバックをデプロイできるエラー分類コンポーネントである。 既存のエラー分類手法の多くはルールベースの手法を用いており、一般化する能力は限られている。 既存のデータ駆動手法はこれらの制限を回避するが、特に学生応答の数学的表現を構文木に解析する必要がある。 生徒の反応は常に構文的に有効であり、木に変換できないため、この要件自体は制限である。 本稿では,事前学習した大規模言語モデルを用いた誤り分類のための柔軟な手法を提案する。 本手法は,代数的誤り分類において既存の手法を上回ることができ,より大規模な学生応答を分類できることを実証する。 また,本手法による共通分類誤差を分析し,誤りの自動分類の限界について考察する。

Automated feedback as students answer open-ended math questions has significant potential in improving learning outcomes at large scale. A key part of automated feedback systems is an error classification component, which identifies student errors and enables appropriate, predefined feedback to be deployed. Most existing approaches to error classification use a rule-based method, which has limited capacity to generalize. Existing data-driven methods avoid these limitations but specifically require mathematical expressions in student responses to be parsed into syntax trees. This requirement is itself a limitation, since student responses are not always syntactically valid and cannot be converted into trees. In this work, we introduce a flexible method for error classification using pre-trained large language models. We demonstrate that our method can outperform existing methods in algebra error classification, and is able to classify a larger set of student responses. Additionally, we analyze common classification errors made by our method and discuss limitations of automated error classification.
翻訳日:2023-05-11 12:54:15 公開日:2023-05-08
# 量子熱力学エントロピーに基づく機械学習の活用

Leveraging Machine Learning to Gain Insights on Quantum Thermodynamic Entropy ( http://arxiv.org/abs/2305.06177v1 )

ライセンス: Link先を確認
Srinivasa Rao. P(参考訳) 本論文では,szilard の古典的単一粒子エンジンに触発された単一量子粒子を作動流体とする量子エンジンの熱力学的解析について述べる。 我々の設計は、古典的なカオスSzilard Mapをモデルとし、測定、熱エネルギー抽出、メモリリセットの熱力学サイクルを含む。 我々の焦点は、粒子の観測と制御にかかわる熱力学的コストの調査と、量子的および古典的限界におけるこれらのコストの比較である。 本研究は,情報処理による熱力学的散逸に対するlindauerの原理から生じる熱力学的トレードオフを,量子的・古典的双方で明らかにすることを目的としている。 機械学習を用いて,szilardエンジンに基づく熱力学の第二法則に従って,エネルギー解析を行い,量子エンジンをシミュレートできることを実証する。 しかし、量子エンジンは従来のものとは大きく異なるメカニズムで動作しており、パーティションを挿入するコストは量子の実装において重要な役割を果たす。

We present a thermodynamic analysis of a quantum engine that uses a single quantum particle as its working fluid, inspired by Szilard's classical single-particle engine. Our design is modeled after the classically-chaotic Szilard Map and involves a thermodynamic cycle of measurement, thermal-energy extraction, and memory reset. Our focus is on investigating the thermodynamic costs associated with observing and controlling the particle and comparing these costs in the quantum and classical limits. Through our study, we aim to shed light on the thermodynamic trade-offs that arise from Lindauer's Principle for information-processing-induced thermodynamic dissipation in both the quantum and classical regimes. Using machine learning methods, we demonstrate that energy analysis can be performed and the quantum engine can be simulated according to the Szilard engine based Second Law of Thermodynamics in its working condition. However, we note that the quantum engine operates using significantly different mechanisms than its classical counterpart, where the cost of inserting partitions plays a critical role in the quantum implementation.
翻訳日:2023-05-11 12:43:12 公開日:2023-05-08
# ComputeGPT:数値問題に対する計算チャットモデル

ComputeGPT: A computational chat model for numerical problems ( http://arxiv.org/abs/2305.06223v1 )

ライセンス: Link先を確認
Ryan Hardesty Lewis, Junfeng Jiao(参考訳) 言語モデルは数値問題では正確ではない。 彼らのアーキテクチャは、確率論的次の単語以上のことは許さない。 本稿では、オンデマンドコードを実行して計算問題に答えられるチャットモデルを作成する方法であるcomputegptについて紹介する。 ComputeGPTは、各質問を関連コードに変換し、コードを実行し、チャットの一部として計算された回答を返す。 このアプローチとローカルブラウザベースのPython解釈と微調整されたプロンプトを組み合わせることで,数値問題に対する最先端の効率を実現し,実行対象のコードに対して適切なフロントエンドと安全な環境を提供する。

Language models are not accurate in numerical problems. Their architecture does not allow for anything less than a probabilistic next word. This paper introduces ComputeGPT: an approach of creating a chat model able to answer computational problems through running on-demand code. ComputeGPT converts each question to relevant code, runs the code, and returns the computed answer as part of the chat. We combine this approach with a local browser-based Python interpretation and fine-tuned prompts in order to achieve state-of-the-art efficiency on numerical problems and provide a suitable front-end and safe environment for the code to be executed in.
翻訳日:2023-05-11 12:33:53 公開日:2023-05-08
# 会話レコメンデーションを改善するマルチタスクエンドツーエンドトレーニング

Multi-Task End-to-End Training Improves Conversational Recommendation ( http://arxiv.org/abs/2305.06218v1 )

ライセンス: Link先を確認
Naveen Ram, Dima Kuzmin, Ellie Ka In Chio, Moustafa Farid Alzantot, Santiago Ontanon, Ambarish Jash, and Judith Yue Li(参考訳) 本稿では,対話で表現されたユーザの明示的な嗜好に基づくレコメンデーションを提供することを目的とした,会話レコメンデーションタスクにおけるマルチタスクエンド・ツー・エンドトランスフォーマーモデルの性能解析を行う。 この領域では、対話管理とエンティティレコメンデーションタスクを個別のコンポーネントで処理する複雑なマルチコンポーネントアプローチが採用されていたが、T5テキスト・テキスト・トランスフォーマーモデルに基づく統一トランスフォーマーモデルが、関連する項目の推薦と会話の対話の生成の両方において競合的に実行可能であることを示す。 我々は,マルチタスク学習環境では,会話型映画のレコメンデーションデータセット上でモデルを微調整し,映画レンズからのトレーニングタスク(映画属性の予測や入力映画に基づく関連映画の予測など)を作成する。 一連のプローブ研究を用いて、追加タスクにおける学習知識が会話設定に伝達され、各タスクが関連するプローブスコアの9%~52%の増加につながることを示した。

In this paper, we analyze the performance of a multitask end-to-end transformer model on the task of conversational recommendations, which aim to provide recommendations based on a user's explicit preferences expressed in dialogue. While previous works in this area adopt complex multi-component approaches where the dialogue management and entity recommendation tasks are handled by separate components, we show that a unified transformer model, based on the T5 text-to-text transformer model, can perform competitively in both recommending relevant items and generating conversation dialogue. We fine-tune our model on the ReDIAL conversational movie recommendation dataset, and create additional training tasks derived from MovieLens (such as the prediction of movie attributes and related movies based on an input movie), in a multitask learning setting. Using a series of probe studies, we demonstrate that the learned knowledge in the additional tasks is transferred to the conversational setting, where each task leads to a 9%-52% increase in its related probe score.
翻訳日:2023-05-11 12:32:58 公開日:2023-05-08
# 一方向古典的および量子的通信複雑性に関する考察

On relating one-way classical and quantum communication complexities ( http://arxiv.org/abs/2107.11623v4 )

ライセンス: Link先を確認
Naresh Goud Boddu, Rahul Jain and Han-Hsuan Lin(参考訳) コミュニケーションの複雑さは、関数入力が複数のパーティに分散されたときに関数を計算するのに必要な通信量である。 最も単純な形式では、Alice と Bob は関数 $f(x,y)$ を計算し、Alice は$x$ を、Bob は$y$ を与えられ、Alice から Bob へのメッセージは 1 つしか許されない。 量子情報における基本的な問題は、一方通行の量子と古典的通信の複雑さの関係である。つまり、アリスがビット文字列ではなく量子状態を送信する場合、メッセージの長さはどのくらい短くなるのか? この質問に対して、下記の結果で若干の進展がある。 f: \mathcal{x} \times \mathcal{y} \rightarrow \mathcal{z} \cup \{\bot\}$ を部分関数とし、$\mu$ は$f^{-1}(\mathcal{z})$ に含まれるサポートを持つ分布とする。 d=|\mathcal{z}|$ と書く。 $\mathsf{R}^{1,\mu}_\epsilon(f)$を$f$の古典的一方向通信複雑性、$\mathsf{Q}^{1,\mu}_\epsilon(f)$を$f$の量子一方向通信複雑性、$\mathsf{Q}^{1,\mu, *}_\epsilon(f)$を$fのエンタングルメント支援量子一方向通信複雑性、それぞれが$\epsilon$の分布誤差(平均誤差は$\mu$)を持つ。 1)$\mu$ が積分布であれば、$\eta > 0$ と $0 \leq \epsilon \leq 1-1/d$ であるなら、$$\mathsf{R}^{1,\mu}_{2\epsilon -d\epsilon^2/(d-1)+ \eta}(f) \leq 2\mathsf{Q}^{1,\mu, *}_{\epsilon}(f) + O(\log\log (1/\eta))\enspace である。 $$ 2 if $\mu$ is a non-product distribution and $\mathcal{Z}=\{ 0,1\}$, $\forall \epsilon, \eta > 0$ {\displaystyle $\epsilon/\eta + \eta < 0.5$, $$\mathsf{R}^{1,\mu}_{3\eta}(f) = O(\mathsf{Q}^{1,\mu}_{{\epsilon}}(f) \cdot \mathsf{CS}(f)/\eta^3)\enspace,$$} ここで \[\mathsf{CS}(f) = \max_{y} \min_{z\in \vert{0,\in \vert{0,\end{x~x\y}=\vert \vert{z} \vert \vert{z} となる。 \]

Communication complexity is the amount of communication needed to compute a function when the function inputs are distributed over multiple parties. In its simplest form, one-way communication complexity, Alice and Bob compute a function $f(x,y)$, where $x$ is given to Alice and $y$ is given to Bob, and only one message from Alice to Bob is allowed. A fundamental question in quantum information is the relationship between one-way quantum and classical communication complexities, i.e., how much shorter the message can be if Alice is sending a quantum state instead of bit strings? We make some progress towards this question with the following results. Let $f: \mathcal{X} \times \mathcal{Y} \rightarrow \mathcal{Z} \cup \{\bot\}$ be a partial function and $\mu$ be a distribution with support contained in $f^{-1}(\mathcal{Z})$. Denote $d=|\mathcal{Z}|$. Let $\mathsf{R}^{1,\mu}_\epsilon(f)$ be the classical one-way communication complexity of $f$; $\mathsf{Q}^{1,\mu}_\epsilon(f)$ be the quantum one-way communication complexity of $f$ and $\mathsf{Q}^{1,\mu, *}_\epsilon(f)$ be the entanglement-assisted quantum one-way communication complexity of $f$, each with distributional error (average error over $\mu$) at most $\epsilon$. We show: 1) If $\mu$ is a product distribution, $\eta > 0$ and $0 \leq \epsilon \leq 1-1/d$, then, $$\mathsf{R}^{1,\mu}_{2\epsilon -d\epsilon^2/(d-1)+ \eta}(f) \leq 2\mathsf{Q}^{1,\mu, *}_{\epsilon}(f) + O(\log\log (1/\eta))\enspace.$$ 2)If $\mu$ is a non-product distribution and $\mathcal{Z}=\{ 0,1\}$, then $\forall \epsilon, \eta > 0$ such that $\epsilon/\eta + \eta < 0.5$, $$\mathsf{R}^{1,\mu}_{3\eta}(f) = O(\mathsf{Q}^{1,\mu}_{{\epsilon}}(f) \cdot \mathsf{CS}(f)/\eta^3)\enspace,$$ where \[\mathsf{CS}(f) = \max_{y} \min_{z\in\{0,1\}} \vert \{x~|~f(x,y)=z\} \vert \enspace.\]
翻訳日:2023-05-10 20:58:34 公開日:2023-05-08
# 予算制約付き動的大佐ブロットゲームにおけるオンライン学習

Online Learning in Budget-Constrained Dynamic Colonel Blotto Games ( http://arxiv.org/abs/2103.12833v4 )

ライセンス: Link先を確認
Vincent Leon, S. Rasoul Etesami(参考訳) 本稿では,Blotto大佐のゲーム(CBG)を用いて,限られた資源の戦略的割り当てを動的に検討し,オンライン学習手法を用いて問題を解析する。 このモデルでは、プレイヤーの1人は有限時間地平線上に配置する限られた兵力を持つ学習者であり、もう1人のプレイヤーは敵である。 各ラウンドで、学習者は敵と一発のブロット大佐の試合を行い、過去の観測に基づいて戦場における部隊の配置を戦略的に決定する。 敵は、学習者に未知の固定分布からランダムにその割当動作を選択する。 学習者の目的はその後悔を最小限に抑えることであり、これは最高の混合戦略の累積報酬と、予算制約に違反することなく学習アルゴリズムに従うことによって実現された累積報酬との違いである。 動的CBGの学習は、knapsacksと組み合わせたバンドイットとバンドイットの枠組みの下で解析される。 まず、予算制約付き動的CBGを有向グラフ上の経路計画問題に変換する。 そこで我々は,経路計画問題に対する特別な組合せ帯域幅アルゴリズムと,予算制約に対処するknapsackアルゴリズムを組み合わせた効率的なアルゴリズムを考案した。 理論的解析により、学習者の後悔は時間軸のサブ線形項と他のパラメータの多項式によって境界づけられていることが示された。 最後に,様々なシナリオのシミュレーションを行うことで理論的結果を正当化する。

In this paper, we study the strategic allocation of limited resources using a Colonel Blotto game (CBG) under a dynamic setting and analyze the problem using an online learning approach. In this model, one of the players is a learner who has limited troops to allocate over a finite time horizon, and the other player is an adversary. In each round, the learner plays a one-shot Colonel Blotto game with the adversary and strategically determines the allocation of troops among battlefields based on past observations. The adversary chooses its allocation action randomly from some fixed distribution that is unknown to the learner. The learner's objective is to minimize its regret, which is the difference between the cumulative reward of the best mixed strategy and the realized cumulative reward by following a learning algorithm while not violating the budget constraint. The learning in dynamic CBG is analyzed under the framework of combinatorial bandits and bandits with knapsacks. We first convert the budget-constrained dynamic CBG to a path planning problem on a directed graph. We then devise an efficient algorithm that combines a special combinatorial bandit algorithm for path planning problem and a bandits with knapsack algorithm to cope with the budget constraint. The theoretical analysis shows that the learner's regret is bounded by a term sublinear in time horizon and polynomial in other parameters. Finally, we justify our theoretical results by carrying out simulations for various scenarios.
翻訳日:2023-05-10 20:56:51 公開日:2023-05-08
# フェルミオン-量子ビット符号化を用いた線形光学系の量子回路シミュレーション

Quantum circuit simulation of linear optics using fermion to qubit encoding ( http://arxiv.org/abs/2209.00207v3 )

ライセンス: Link先を確認
Seungbeom Chin and Jaehee Kim and Joonsuk Huh(参考訳) 本研究では,ボソンの線形散乱過程に対するディジタル量子シミュレーションプロトコルを提案する。 本プロトコルは、boson-fermion対応関係とfermionとqubitエンコーディングプロトコルを組み合わせたものである。 概念実証として,香港・ウー・マンデルディップを生成する量子回路の設計を行った。 これらの回路はIBM QuantumとIonQクラウドサービスを用いて古典的および量子シミュレーションによって検証された。

This work proposes a digital quantum simulation protocol for the linear scattering process of bosons, which provides a simple extension to partially distinguishable boson cases. Our protocol is achieved by combining the boson-fermion correspondence relation and fermion to qubit encoding protocols. As a proof of concept, we designed quantum circuits for generating the Hong-Ou-Mandel dip by varying particle distinguishability. The circuits were verified with the classical and quantum simulations using the IBM Quantum and IonQ cloud services.
翻訳日:2023-05-10 20:48:42 公開日:2023-05-08
# ワニエ・スタークポテンシャルにおける運動の局所積分と多体局所化の安定性

Local integrals of motion and the stability of many-body localisation in Wannier-Stark potentials ( http://arxiv.org/abs/2208.14432v4 )

ライセンス: Link先を確認
C. Bertoni, J. Eisert, A. Kshetrimayum, A. Nietner and S. J. Thomson(参考訳) ある空間次元における乱れた系の多体局在は典型的には、距離で指数関数的に崩壊し、互いに弱い相互作用しかしないと考えられる、多数の(準)局所運動積分(LIOM)の存在によって理解される。 対照的に、ローカライゼーションを示す無障害系の運動積分の形式についてはほとんど知られていない。 ここでは,線形に増大するポテンシャルの場合に焦点をあてて,障害のない局所化系のリムムを明示的に計算する。 相互作用が存在しない状態では、LIOMsは指数関数よりも早く崩壊するが、相互作用の付加は短い距離で緩やかに崩壊する台地を形成することにつながる。 本研究では, 線形斜面の局所化特性について検討し, 有意な有限次元依存が存在することを見出し, 弱調和ポテンシャルを付加すると典型的な多体局所化現象は生じないことを示す。 対照的に、障害の付加は質的に異なる効果を持ち、LOOMSの特性を劇的に変化させる。

Many-body localisation in disordered systems in one spatial dimension is typically understood in terms of the existence of an extensive number of (quasi)-local integrals of motion (LIOMs) which are thought to decay exponentially with distance and interact only weakly with one another. By contrast, little is known about the form of the integrals of motion in disorder-free systems which exhibit localisation. Here, we explicitly compute the LIOMs for disorder-free localised systems, focusing on the case of a linearly increasing potential. We show that while in the absence of interactions, the LIOMs decay faster than exponentially, the addition of interactions leads to the formation of a slow-decaying plateau at short distances. We study how the localisation properties of the LIOMs depend on the linear slope, finding that there is a significant finite-size dependence, and present evidence that adding a weak harmonic potential does not result in typical many-body localisation phenomenology. By contrast, the addition of disorder has a qualitatively different effect, dramatically modifying the properties of the LIOMS.
翻訳日:2023-05-10 20:48:33 公開日:2023-05-08
# 線形および非線形光学応答に対する非エルミートハミルトニアン:プレキシトンに対するモデル

Non-Hermitian Hamiltonians for Linear and Nonlinear Optical Response: a Model for Plexcitons ( http://arxiv.org/abs/2206.13265v2 )

ライセンス: Link先を確認
Daniel Finkelstein-Shapiro, Pierre-Adrien Mante, Sinan Balci, Donatas Zigmantas and T\~onu Pullerits(参考訳) ポラリトンでは、物質の性質はキャビティ内の光モードと分子遷移を混合することによって変化する。 結果として生じるハイブリッド光マター状態はエネルギー準位シフトを示し、多くの分子単位にわたって非局在化され、励起状態のエネルギー場が異なるため、励起子ダイナミクスが変化する。 以前は、非エルミートハミルトニアンは表面プラズモンと結合する分子の励起状態(すなわちプレクシトン)を記述するために導かれており、これらの作用素は線形および3次光学応答の記述に成功している。 本稿では、フェシュバッハ作用素を用いて非線形分光の応答関数形式論において、非エルミートハミルトニアンを厳格に導出し、これらを複素シトン分光シグネチャの探索に応用する。 特に, プラズモンおよび分子成分の遷移エネルギーを整合させるために生じる異常点以下の光応答を解析し, 両側ファインマン図を用いてそれらの分解を考察した。 我々は、線形分光における干渉とラビ分裂の明確な区別と、例外を横断する非線形信号のラインシェイプの対称性の質的変化を見出した。 この変化はハミルトニアンの固有値の対称性の1つに対応する。 本研究は,電子系におけるサブレベルの光学応答をシミュレーションするためのアプローチを示し,非エルミートハミルトニアンスペクトルの異なる状態を調べるための非線形分光の新しい応用を開拓する。

In polaritons, the properties of matter are modified by mixing the molecular transitions with light modes inside a cavity. Resultant hybrid light-matter states exhibit energy level shifts, are delocalized over many molecular units and have a different excited-state potential energy landscape which leads to modified exciton dynamics. Previously, non-Hermitian Hamiltonians have been derived to describe the excited states of molecules coupled to surface plasmons (i.e. plexcitons), and these operators have been successfully used in the description of linear and third order optical response. In this article, we rigorously derive non-Hermitian Hamiltonians in the response function formalism of nonlinear spectroscopy by means of Feshbach operators, and apply them to explore spectroscopic signatures of plexcitons. In particular we analyze the optical response below and above the exceptional point that arises for matching transition energies for plasmon and molecular components, and study their decomposition using double-sided Feynman diagrams. We find a clear distinction between interference and Rabi splitting in linear spectroscopy, and a qualitative change in the symmetry of the lineshape of the nonlinear signal when crossing the exceptional. This change corresponds to one in the symmetry of the eigenvalues of the Hamiltonian. Our work presents an approach for simulating the optical response of sublevels within an electronic system, and opens new applications of nonlinear spectroscopy to examine the different regimes of the spectrum of non-Hermitian Hamiltonians.
翻訳日:2023-05-10 20:46:53 公開日:2023-05-08
# ゲート可変超電導半導体パラメトリック増幅器

Gate-tunable, superconductor-semiconductor parametric amplifier ( http://arxiv.org/abs/2206.05746v3 )

ライセンス: Link先を確認
D. Phan, P. Falthansl-Scheinecker, U. Mishra, W.M. Strickland, D. Langone, J. Shabani, A.P. Higginbotham(参考訳) 我々はジョセフソン電界効果トランジスタ(JoFET)を有効成分とするパラメトリック増幅器を開発した。 装置の共振周波数は2GHzの範囲で電界効果を調整できる。 JoFET増幅器は、20dBの利得、4MHzの即時帯域、固定共振周波数で操作した場合の1dB圧縮点-125.5dBmを有する。

We have built a parametric amplifier with a Josephson field effect transistor (JoFET) as the active element. The device's resonant frequency is field-effect tunable over a range of 2 GHz. The JoFET amplifier has 20 dB of gain, 4 MHz of instantaneous bandwidth, and a 1 dB compression point of -125.5 dBm when operated at a fixed resonance frequency.
翻訳日:2023-05-10 20:45:59 公開日:2023-05-08
# 滑らかな計量調整スキュー情報レート

Smooth Metric Adjusted Skew Information Rates ( http://arxiv.org/abs/2211.12522v3 )

ライセンス: Link先を確認
Koji Yamaguchi and Hiroyasu Tajima(参考訳) 量子フィッシャー情報から誘導される計量調整スキュー情報は、非対称性の資源理論においてよく知られた資源測度である。 しかし、漸近性不連続性があるため、漸近性は有効な非対称性モノトンではない。 ここではスムース化技術を用いた新しい非対称性測度を導入し,スムースな計量調整スキュー情報と呼ぶ。 我々は、その漸近 sup- および inf-rate が非対称性の資源理論において有効な漸近測度であることを証明した。 さらに、滑らかな計量調整スキュー情報レートは、コヒーレンスコストに対する下限と、蒸留可能なコヒーレンスに対する上限を与えることが証明される。

Metric adjusted skew information, induced from quantum Fisher information, is a well-known family of resource measures in the resource theory of asymmetry. However, its asymptotic rates are not valid asymmetry monotone since it has an asymptotic discontinuity. We here introduce a new class of asymmetry measures with the smoothing technique, which we term smooth metric adjusted skew information. We prove that its asymptotic sup- and inf-rates are valid asymptotic measures in the resource theory of asymmetry. Furthermore, it is proven that the smooth metric adjusted skew information rates provide a lower bound for the coherence cost and an upper bound for the distillable coherence.
翻訳日:2023-05-10 20:40:10 公開日:2023-05-08
# ScionFL: 効率的でロバストなセキュアな量子化集約

ScionFL: Efficient and Robust Secure Quantized Aggregation ( http://arxiv.org/abs/2210.07376v2 )

ライセンス: Link先を確認
Yaniv Ben-Itzhak, Helen M\"ollering, Benny Pinkas, Thomas Schneider, Ajith Suresh, Oleksandr Tkachenko, Shay Vargaftik, Christian Weinert, Hossein Yalame, Avishay Yanai(参考訳) セキュアアグリゲータは、中央アグリゲータに関連するプライバシー上の懸念を軽減するために、連合学習(federated learning:fl)で一般的に使用される。 残念ながら、既存のほとんどのセキュアアグリゲーションスキームは、2つの重要な直交研究方向を無視している。 (i)クライアントサーバ間の通信を著しく削減し、 (ii)悪意のあるクライアントの影響を緩和する。 しかし、これらの追加プロパティは、数千または数百万の(モバイル)参加者によるクロスデバイスflを促進するために不可欠である。 本稿では,量子化インプット上で効率よく動作し,悪意のあるクライアントに対してロバスト性を提供するFLの最初のセキュアアグリゲーションフレームワークであるScionFLを導入することにより,両研究の方向性を統一する。 我々のフレームワークは,マルチパーティ計算(MPC)技術を活用し,ランダム化アダマール変換やカシンの表現などを含む複数の線形(1ビット)量子化スキームをサポートする。 我々の理論結果は広範な評価によって支持されている。 クライアントのオーバヘッドやサーバ側の中程度のオーバヘッドをプレーンテキストでの量子化更新の転送や処理に比較して,標準的なflベンチマークで同等の精度が得られることを示す。 さらに,最先端の中毒攻撃に対するフレームワークの堅牢性を示す。

Secure aggregation is commonly used in federated learning (FL) to alleviate privacy concerns related to the central aggregator seeing all parameter updates in the clear. Unfortunately, most existing secure aggregation schemes ignore two critical orthogonal research directions that aim to (i) significantly reduce client-server communication and (ii) mitigate the impact of malicious clients. However, both of these additional properties are essential to facilitate cross-device FL with thousands or even millions of (mobile) participants. In this paper, we unite both research directions by introducing ScionFL, the first secure aggregation framework for FL that operates efficiently on quantized inputs and simultaneously provides robustness against malicious clients. Our framework leverages (novel) multi-party computation (MPC) techniques and supports multiple linear (1-bit) quantization schemes, including ones that utilize the randomized Hadamard transform and Kashin's representation. Our theoretical results are supported by extensive evaluations. We show that with no overhead for clients and moderate overhead on the server side compared to transferring and processing quantized updates in plaintext, we obtain comparable accuracy for standard FL benchmarks. Additionally, we demonstrate the robustness of our framework against state-of-the-art poisoning attacks.
翻訳日:2023-05-10 20:38:26 公開日:2023-05-08
# ローレンツ違反によって修正された量子環の熱力学

Thermodynamics of a quantum ring modified by Lorentz violation ( http://arxiv.org/abs/2209.11744v2 )

ライセンス: Link先を確認
A. A. Ara\'ujo Filho, H. Hassanabadi, J. A. A. S. Reis, L. Lisboa-Santos(参考訳) 本研究では, 1次元量子環の熱力学特性におけるローレンツ違反項の結果について検討する。 特に利害関係の成果を得るためにはアンサンブル理論を用いる。 熱力学的関数とスピン電流は温度の関数として計算される。 我々はローレンツ対称性の破れを引き起こすパラメータ$\xi$が低温状態において重要な役割を果たすことを観測する。 最後に、系の構成によって、電子は時計回りと反時計回りの2つの異なる方向に回転することができる。

In this work, we investigate the consequences of Lorentz-violating terms in the thermodynamic properties of a 1-dimensional quantum ring. Particularly, we use the ensemble theory to obtain our results of interest. The thermodynamic functions as well as the spin currents are calculated as a function of the temperature. We observe that parameter $\xi$, which triggers the Lorentz symmetry breaking, plays a major role in low temperature regime. Finally, depending on the configuration of the system, electrons can rotate in two different directions: clockwise and counterclockwise.
翻訳日:2023-05-10 20:37:15 公開日:2023-05-08
# 化学空間上の仮説駆動型能動学習による分子の構造-親和関係の発見

Discovery of structure-property relations for molecules via hypothesis-driven active learning over the chemical space ( http://arxiv.org/abs/2301.02665v2 )

ライセンス: Link先を確認
Ayana Ghosh, Sergei V. Kalinin and Maxim A. Ziatdinov(参考訳) 薬物標的、生体分子系、触媒、光電気、有機エレクトロニクス、電池の分子候補の発見は、望まれる機能性をターゲットとした化学空間の迅速な探索が可能な機械学習アルゴリズムの開発を必要とする。 本稿では,仮説学習に基づく化学空間上のアクティブラーニングのための新しいアプローチを提案する。 我々は、データの小さな部分集合に基づいて、興味の構造と機能の間の可能な関係に関する仮説を構築し、それをガウス過程の(確率的な)平均関数として導入する。 このアプローチはSISSOやアクティブラーニングといったシンボリック回帰手法の要素をひとつのフレームワークに統合する。 このフレームワークを構築する主な目的は、より堅牢な予測性能に向けてアクティブな学習環境における物理法則を近似することであり、機械学習におけるホールドアウトセットに対する従来の評価は分散効果を考慮せず、目に見えない化学空間の完全な失敗に繋がる可能性がある。 ここでは、qm9データセットについて実証するが、分子科学と固体材料科学の両方の分野のデータセットに広く適用することができる。

Discovery of the molecular candidates for applications in drug targets, biomolecular systems, catalysts, photovoltaics, organic electronics, and batteries, necessitates development of machine learning algorithms capable of rapid exploration of the chemical spaces targeting the desired functionalities. Here we introduce a novel approach for the active learning over the chemical spaces based on hypothesis learning. We construct the hypotheses on the possible relationships between structures and functionalities of interest based on a small subset of data and introduce them as (probabilistic) mean functions for the Gaussian process. This approach combines the elements from the symbolic regression methods such as SISSO and active learning into a single framework. The primary focus of constructing this framework is to approximate physical laws in an active learning regime toward a more robust predictive performance, as traditional evaluation on hold-out sets in machine learning doesn't account for out-of-distribution effects and may lead to a complete failure on unseen chemical space. Here, we demonstrate it for the QM9 dataset, but it can be applied more broadly to datasets from both domains of molecular and solid-state materials sciences.
翻訳日:2023-05-10 20:27:41 公開日:2023-05-08
# オートエンコーダによるicu臨床コード予測

Autoencoder-based prediction of ICU clinical codes ( http://arxiv.org/abs/2305.04992v1 )

ライセンス: Link先を確認
Tsvetan R. Yordanov, Ameen Abu-Hanna, Anita CJ Ravelli, Iacopo Vagliano(参考訳) エレクトロニック・ヘルス・レコード(EHR)における診断コードの利用は、患者のケアと再支払いの目的に不可欠である。 しかし、これらをEHRに入力するのは面倒であり、いくつかの臨床コードは見過ごされる可能性がある。 本研究は, 臨床検査の完全リストから, 完全予測におけるML法の性能について検討し, その他の臨床患者データを含む予測値について検討した。 提案手法はMIMIC-IIIデータセットを用いて,臨床コードを補完するタスクを推薦問題として用いた。 項目共起と特異値分解(SVD)という,多種多様なオートエンコーダアプローチと2つの強いベースラインを考察した。 入力は 1) 記録の既知の臨床基準 2) コードプラス変数。 共起基のap-proachはSVD (F1=0.24, MAP=0.18) よりも若干優れていた(F1 score=0.26, Mean Average Precision [MAP]=0.19)。 しかし、逆オートエンコーダはコードプラス変数(f1=0.32, map=0.25)を使用する場合に最高の性能を達成した。 対人オートエンコーダはF1で最善を尽くし,MAPでバニラに等しく,自己エンコーダをデノナイズした。 不完全なコードリストに加えて臨床変数を使用することで、モデルの予測性能が向上する。

Availability of diagnostic codes in Electronic Health Records (EHRs) is crucial for patient care as well as reimbursement purposes. However, entering them in the EHR is tedious, and some clinical codes may be overlooked. Given an in-complete list of clinical codes, we investigate the performance of ML methods on predicting the complete ones, and assess the added predictive value of including other clinical patient data in this task. We used the MIMIC-III dataset and frame the task of completing the clinical codes as a recommendation problem. We con-sider various autoencoder approaches plus two strong baselines; item co-occurrence and Singular Value Decomposition (SVD). Inputs are 1) a record's known clinical codes, 2) the codes plus variables. The co-occurrence-based ap-proach performed slightly better (F1 score=0.26, Mean Average Precision [MAP]=0.19) than the SVD (F1=0.24, MAP=0.18). However, the adversarial autoencoder achieved the best performance when using the codes plus variables (F1=0.32, MAP=0.25). Adversarial autoencoders performed best in terms of F1 and were equal to vanilla and denoising autoencoders in term of MAP. Using clinical variables in addition to the incomplete codes list, improves the predictive performance of the models.
翻訳日:2023-05-10 20:10:59 公開日:2023-05-08
# 高次対称性と固有熱化仮説

Higher-Form Symmetry and Eigenstate Thermalization Hypothesis ( http://arxiv.org/abs/2305.04984v1 )

ライセンス: Link先を確認
Osamu Fukushima, Ryusuke Hamazaki(参考訳) 我々は、高次対称性の存在が孤立量子系における熱化のダイナミクスにどのように影響するかを解明する。 合理的な仮定の下では、多くの非自明な $(d-p)$-次元可観測系に対して、$(d+1)$-次元量子場理論における$p$-形式対称性が固有状態熱化仮説の崩壊につながることを解析的に示す。 高次形式(すなわち$p\geq 1$)対称性の場合、これは非局所であるがシステムサイズ全体よりもはるかに小さい可観測物に対する熱化がないことを意味する。 この議論を (2+1) 次元 $\mathbb{Z}_2$ 格子ゲージ理論に対して数値的に示す。 プラケット作用素のような局所観測可能量は熱化するが、非局所観測可能磁気双極子は代わりに$\mathbb{Z}_2$ 1-形式対称性を考慮に入れた一般化されたギブスアンサンブルに緩和する。

We elucidate how the presence of higher-form symmetries affects the dynamics of thermalization in isolated quantum systems. Under reasonable assumptions, we analytically show that a $p$-form symmetry in a $(d+1)$-dimensional quantum field theory leads to the breakdown of the eigenstate thermalization hypothesis for many nontrivial $(d-p)$-dimensional observables. For higher-form (i.e., $p\geq 1$) symmetry, this indicates the absence of thermalization for observables that are non-local but much smaller than the whole system size. We numerically demonstrate this argument for the (2+1)-dimensional $\mathbb{Z}_2$ lattice gauge theory. While local observables such as the plaquette operator thermalize, the non-local observable exciting a magnetic dipole instead relaxes to the generalized Gibbs ensemble that takes account of the $\mathbb{Z}_2$ 1-form symmetry.
翻訳日:2023-05-10 20:10:34 公開日:2023-05-08
# FloquetスピンチェーンにおけるFermiのGolden Ruleを超えるほとんど強いモードの減衰速度

Decay rates of almost strong modes in Floquet spin chains beyond Fermi's Golden Rule ( http://arxiv.org/abs/2305.04980v1 )

ライセンス: Link先を確認
Hsiu-Chung Yeh, Achim Rosch, Aditi Mitra(参考訳) 弱可積分フロッケスピン鎖におけるほぼ強い零モードと$\pi$モードの安定性とダイナミクスについて検討した。 このようなモードは、トポロジカル超伝導体の端で局所化されたマヨラナモードと見なすこともできる。 積分可能性破壊相互作用の強さにおける摂動理論$j_z$を用いてこれらのモードの減衰率を推定し、正確な対角化から得られた減衰率と比較する。 摂動理論の構造とモードの寿命は準エネルギーモジュロの保存によって制御されるが、ここでは$t$はフロッケ系の周期である。 最小の4 n-1$準粒子の準エネルギーがゼロ(または$\pi$モードで$\pi/t$)になると、寿命は1/j_z^{2 n}$に比例する。 これにより、単粒子フロッケバンドの幅によって寿命が敏感に制御される。 崩壊速度が$J_z$で二次的な状態の場合、積分可能モデルの無限温度自己相関関数の観点から崩壊速度の解析式が導出され、正確な対角化とよく一致することが示されている。

The stability and dynamics of almost strong zero and $\pi$ modes in weakly non-integrable Floquet spin chains are investigated. Such modes can also be viewed as localized Majorana modes at the edge of a topological superconductor. Perturbation theory in the strength of integrability-breaking interaction $J_z$ is employed to estimate the decay rates of these modes, and compared to decay rates obtained from exact diagonalization. The structure of the perturbation theory and thus the lifetime of the modes is governed by the conservation of quasi-energy modulo $2 \pi/T$, where $T$ is the period of the Floquet system. If the quasi-energies of minimally $4 n-1$ quasi-particles adds up to zero (or $\pi/T$ for a $\pi$ mode), the lifetime is proportional to $1/J_z^{2 n}$. Thus the lifetime is sensitively controlled by the width of the single-particle Floquet bands. For regimes where the decay rates are quadratic in $J_z$, an analytic expression for the decay rate in terms of an infinite temperature autocorrelation function of the integrable model is derived, and shown to agree well with exact diagonalization.
翻訳日:2023-05-10 20:10:18 公開日:2023-05-08
# 信用リスク管理のためのuq:深い証拠回帰アプローチ

UQ for Credit Risk Management: A deep evidence regression approach ( http://arxiv.org/abs/2305.04967v1 )

ライセンス: Link先を確認
Ashish Dhiman(参考訳) 機械学習は、さまざまな信用リスクアプリケーションにその方法を見つけた。 信用リスクの本質的な性質から,予測リスク指標の不確実性を定量化することが不可欠であり,信用リスク設定に不確実性を考慮したディープラーニングモデルを適用することは非常に有用である。 本研究では,スケーラブルな uq-aware 深層学習手法であるdeep evidence regression の適用について検討し,既定値による損失予測に適用した。 我々は,weibullプロセスによって生成された対象変数の学習に深部証拠回帰法を拡張し,関連する学習フレームワークを提供することにより,文献に寄与する。 シミュレーションデータと実世界のデータの両方に対する我々のアプローチの応用を実証する。

Machine Learning has invariantly found its way into various Credit Risk applications. Due to the intrinsic nature of Credit Risk, quantifying the uncertainty of the predicted risk metrics is essential, and applying uncertainty-aware deep learning models to credit risk settings can be very helpful. In this work, we have explored the application of a scalable UQ-aware deep learning technique, Deep Evidence Regression and applied it to predicting Loss Given Default. We contribute to the literature by extending the Deep Evidence Regression methodology to learning target variables generated by a Weibull process and provide the relevant learning framework. We demonstrate the application of our approach to both simulated and real-world data.
翻訳日:2023-05-10 20:09:56 公開日:2023-05-08
# 非線形およびパラメトリックPDEのためのカーネル/GP法の誤差解析

Error Analysis of Kernel/GP Methods for Nonlinear and Parametric PDEs ( http://arxiv.org/abs/2305.04962v1 )

ライセンス: Link先を確認
Pau Batlle, Yifan Chen, Bamdad Hosseini, Houman Owhadi, Andrew M Stuart(参考訳) ガウス過程とカーネルベースの手法を用いた非線形、あるいはパラメトリックなPDEの解に対する事前ソボレフ空間誤差推定を導入する。 第一の仮定は、(1) 核の再生核ヒルベルト空間を十分な正則性を持つソボレフ空間に連続的に埋め込み、(2) 微分作用素の安定性と対応するソボレフ空間の間のPDEの解写像である。 この証明は、カーネル補間子のソボレフ標準誤差推定(英語版)を中心に記述され、解のノルム特性の最小化に依存する。 誤差推定は、PDEの解空間が十分に滑らかであれば、次元差収束率を示す。 これらの点を高次元非線形楕円型pdesとパラメトリック型pdesに適用して説明する。 近年の機械学習手法では,高次元PDEの解法における次元の呪いを破ることが提案されているが,解析では,解の正則性と次元の呪いの存在との間にはトレードオフがあることが示唆されている。 したがって,この結果は解が十分正則である場合の呪いが欠如していることの理解と一致している。

We introduce a priori Sobolev-space error estimates for the solution of nonlinear, and possibly parametric, PDEs using Gaussian process and kernel based methods. The primary assumptions are: (1) a continuous embedding of the reproducing kernel Hilbert space of the kernel into a Sobolev space of sufficient regularity; and (2) the stability of the differential operator and the solution map of the PDE between corresponding Sobolev spaces. The proof is articulated around Sobolev norm error estimates for kernel interpolants and relies on the minimizing norm property of the solution. The error estimates demonstrate dimension-benign convergence rates if the solution space of the PDE is smooth enough. We illustrate these points with applications to high-dimensional nonlinear elliptic PDEs and parametric PDEs. Although some recent machine learning methods have been presented as breaking the curse of dimensionality in solving high-dimensional PDEs, our analysis suggests a more nuanced picture: there is a trade-off between the regularity of the solution and the presence of the curse of dimensionality. Therefore, our results are in line with the understanding that the curse is absent when the solution is regular enough.
翻訳日:2023-05-10 20:09:43 公開日:2023-05-08
# 相関電子における情報スクランブルの速度論:衝撃波からFKPPダイナミクスへの障害駆動遷移

Kinetics of information scrambling in correlated electrons: disorder-driven transition from shock-wave to FKPP dynamics ( http://arxiv.org/abs/2305.04958v1 )

ライセンス: Link先を確認
Camille Aron, \'Eric Brunet, Aditi Mitra(参考訳) クエンチド障害は、量子情報のスクランブルを遅くする。 超伝導相近傍のd$-dimensional strong-correlated metalにおいて、不純物散乱速度が増加するにつれて、スクランブルダイナミクスに従ってスクランブルの運動論的理論を定式化する。 この枠組みの中で、バタフライ速度 $v$ が光円錐速度 $v_{\rm lc } = v_{\rm f}/\sqrt{d}$ ここで $v_{\rm f}$ はフェルミ速度であることを示す。 我々は,後期に特徴付けられる情報の拡散と最大速度$v_{\rm lc}$で伝播する不連続な衝撃波,フィッシャー級やコルモゴロフ=ペトロフスキー=ピスクノフ級に属する滑らかな走行波と,比較的遅い速度で伝播する緩やかな進行波との間に生じる,小さいが有限な障害強度で生じる障害駆動力学遷移を解析的に同定した。 拡散状態において、$v^2/\lambda_{\rm FKPP} \sim D_{\rm el}$ ここで、$\lambda_{\rm FKPP}$は非弾性散乱速度で設定されたリャプノフ指数、$D_{\rm el}$は弾性拡散定数である。

Quenched disorder slows down the scrambling of quantum information. We formulate a kinetic theory of scrambling in a $d$-dimensional strongly-correlated metal in the vicinity of a superconducting phase, following the scrambling dynamics as the impurity scattering rate is increased. Within this framework, we rigorously show that the butterfly velocity $v$ is bounded by the light cone velocity $v_{\rm lc } = v_{\rm F}/\sqrt{d}$ where $v_{\rm F}$ is the Fermi velocity. We analytically identify a disorder-driven dynamical transition occurring at small but finite disorder strength between a spreading of information characterized at late times by a discontinuous shock wave propagating at the maximum velocity $v_{\rm lc}$, and a smooth traveling wave belonging to the Fisher or Kolmogorov-Petrovsky-Piskunov (FKPP) class and propagating at a slower, if not considerably slower, velocity. In the diffusive regime, we establish the relation $v^2/\lambda_{\rm FKPP} \sim D_{\rm el}$ where $\lambda_{\rm FKPP}$ is the Lyapunov exponent set by the inelastic scattering rate and $D_{\rm el}$ is the elastic diffusion constant.
翻訳日:2023-05-10 20:09:22 公開日:2023-05-08
# 線形クロスエントロピーベンチマークにおける急激な位相遷移

A sharp phase transition in linear cross-entropy benchmarking ( http://arxiv.org/abs/2305.04954v1 )

ライセンス: Link先を確認
Brayden Ware, Abhinav Deshpande, Dominik Hangleiter, Pradeep Niroula, Bill Fefferman, Alexey V. Gorshkov, Michael J. Gullans(参考訳) 量子ランダム回路サンプリングによる量子計算優位性の実証と量子プロセッサのベンチマークは、線形クロスエントロピーベンチマーク(XEB)の評価に基づいている。 XEB理論における重要な問題は、量子状態の準備の忠実度を近似するかどうかである。 以前の研究によると、xebは、qudit$\varepsilon$が$n$quditsのシステムに対して$\varepsilon n \ll 1$を満たすような方法での忠実度を総称的に近似し、この近似が大きなノイズ率で崩壊することを示した。 ここで、忠実性プロキシとしてのxebの分解は、2つの量子ビットゲートの回路アーキテクチャと特性、特にその絡み合う力に依存する臨界値である\varepsilon n$の鋭い相転移として起こることを示す。 ランダム量子回路アーキテクチャにおける統計力学モデルへの平均2コピー量のマッピングを用いて位相遷移の研究を行った。 本稿では, 統計力学モデルの伝達行列のスペクトル特性から位相遷移挙動を説明し, 最大のノイズロバスト性を示す2ビットゲートセットを同定する。

Demonstrations of quantum computational advantage and benchmarks of quantum processors via quantum random circuit sampling are based on evaluating the linear cross-entropy benchmark (XEB). A key question in the theory of XEB is whether it approximates the fidelity of the quantum state preparation. Previous works have shown that the XEB generically approximates the fidelity in a regime where the noise rate per qudit $\varepsilon$ satisfies $\varepsilon N \ll 1$ for a system of $N$ qudits and that this approximation breaks down at large noise rates. Here, we show that the breakdown of XEB as a fidelity proxy occurs as a sharp phase transition at a critical value of $\varepsilon N$ that depends on the circuit architecture and properties of the two-qubit gates, including in particular their entangling power. We study the phase transition using a mapping of average two-copy quantities to statistical mechanics models in random quantum circuit architectures with full or one-dimensional connectivity. We explain the phase transition behavior in terms of spectral properties of the transfer matrix of the statistical mechanics model and identify two-qubit gate sets that exhibit the largest noise robustness.
翻訳日:2023-05-10 20:08:59 公開日:2023-05-08
# 幾何学的量子ディスコード信号非分解

Geometric Quantum Discord Signals Non-Factorization ( http://arxiv.org/abs/2305.04952v1 )

ライセンス: Link先を確認
Souvik Banerjee, Pablo Basteiro, Rathindra Nath Das, Moritz Dorband(参考訳) 本稿では,与えられた量子システムの因子分解特性の指標として,幾何量子ディスコード(gqd)の情報理論量を提案する。 特に,AdS/CFT対応に照らして既知の幾何双対を持つ状態として,一般純状態と熱場二重状態の両方に対して,非消滅不協和関数が分解されないことを示す。 この分析により、アインシュタイン・ローゼン橋の最適純粋古典近似として熱混合二重状態の新たな解釈を与える。 我々は、GQDの非消滅とワームホールマイクロステートの存在を結びつける。

We propose the information-theoretic quantity of geometric quantum discord (GQD) as an indicator of the factorization properties of a given quantum system. In particular, we show how non-vanishing discord implies that the corresponding partition function does not factorize, both for generic pure states and the thermofield double state as a state with a known geometric dual in light of the AdS/CFT correspondence. Via this analysis, we give a novel interpretation to the thermomixed double state as the best purely classical approximation of the Einstein-Rosen bridge. We connect the non-vanishing of GQD with the existence of wormhole microstates.
翻訳日:2023-05-10 20:08:32 公開日:2023-05-08
# 高絡み合い状態のシーケンシャルジェネレータとしてのプッシュダウンオートマトン

Push-down automata as sequential generators of highly entangled states ( http://arxiv.org/abs/2305.04951v1 )

ライセンス: Link先を確認
Sarang Gopalakrishnan(参考訳) 量子チャネルと逐次生成状態の双対性を利用して、相転移を受ける非常に絡み合った状態の族を構築する。 これらの強い絡み合った状態は、オープン量子系から放射された放射を収集することで順次生成することができる。 双対的な観点では、オープンシステムは量子状態生成機械と見なされる。 このような機械の非自明なクラスは量子プッシュダウンオートマトンであり、スピン-2モツキンスピン鎖の基底状態を含む高い絡み合った状態を生成するために、断熱進化よりもパラメトリックに高速に使用できる。 効率的な逐次生成が可能なモツキン状態の一般化を構築する。

We exploit the duality between quantum channels and sequentially generated states to construct families of highly entangled states that undergo phase transitions. These highly entangled states can be sequentially generated by collecting the emitted radiation from an open quantum system. In the dual perspective, the open system is regarded as a quantum-state-generating machine. A nontrivial class of such machines are quantum push-down automata, which can be used to create highly entangled states including the ground state of the spin-2 Motzkin spin chain parametrically faster than adiabatic evolution. We construct generalizations of the Motzkin state that can be efficiently sequentially generated.
翻訳日:2023-05-10 20:08:23 公開日:2023-05-08
# 超細胞からの非アベリア双曲バンド理論

Non-Abelian hyperbolic band theory from supercells ( http://arxiv.org/abs/2305.04945v1 )

ライセンス: Link先を確認
Patrick M. Lenggenhager, Joseph Maciejko, Tom\'a\v{s} Bzdu\v{s}ek(参考訳) 周期格子上の密結合モデルは、そのエネルギースペクトルと波動関数の効率的な記述を提供するブロッホバンド理論を用いて一般的に研究されている。 運動量ベクトルによって特徴づけられるアーベルブロッホ状態の他に、双曲格子のバンド理論は、解析的な処理にほとんどアクセスできない非アーベルブロッホ状態を含む。 ここでは、双曲格子にスーパーセルとゾーンフォールディングのよく知られた固体物理学的な概念を一般化することにより、非可換ブロッホ状態を体系的に構成する。 複数の小さなセルの対称凝集体として再帰的に構築されたスーパーセルの配列にアーベル双曲的バンド理論を適用することで、いくつかの初等およびトポロジカルなタイト結合モデルの状態密度を数値計算し、ギャップレスモデルとガッピングモデルの両方において、スーパーセルサイズの増大を伴う高速収束を観測する。 双曲格子の完全なバンド理論的特徴化に向けた第一歩としてスーパーセル法を提案し,熱力学限界を効率的に近似する方法を提案する。 我々は,ハイパーボリック量子物質の研究を促進するために,アルゴリズムをソフトウェアパッケージで公開する。

Tight-binding models on periodic lattices are commonly studied using Bloch band theory, which provides an efficient description of their energy spectra and wave functions. Besides Abelian Bloch states characterized by a momentum vector, the band theory of hyperbolic lattices involves non-Abelian Bloch states that have so far remained largely inaccessible to analytical treatments. Here, we systematically construct non-Abelian Bloch states by generalizing to hyperbolic lattices the familiar solid-state-physics notions of supercells and zone folding. By applying Abelian hyperbolic band theory to sequences of supercells, constructed recursively as symmetric aggregates of multiple smaller cells, we numerically compute the density of states of several elementary and topological tight-binding models and observe rapid convergence with increasing supercell size, for both gapless and gapped models. We propose our supercell method as a first step towards a complete band-theoretic characterization of hyperbolic lattices and an efficient means of approximating the thermodynamic limit. We make our algorithms publicly available in a software package to facilitate future studies of hyperbolic quantum matter.
翻訳日:2023-05-10 20:08:11 公開日:2023-05-08
# 一般グラフ上の自己反発ランダムウォーク --非線形マルコフ連鎖による最小サンプリング変動の実現

Self-Repellent Random Walks on General Graphs -- Achieving Minimal Sampling Variance via Nonlinear Markov Chains ( http://arxiv.org/abs/2305.05097v1 )

ライセンス: Link先を確認
Vishwaraj Doshi, Jie Hu and Do Young Eun(参考訳) 一般非向グラフのような離散状態空間上のランダムウォークを考えると、ランダムウォーカーはマルコフ連鎖モンテカルロ (mcmc) 手順の形でサンプリングと近傍探索を通じてネットワークトポロジー上の対象量を近似するように設計されている。 目的とする確率分布に対応するマルコフ連鎖が与えられた場合、過去に頻繁に訪れたノードに遷移する可能性が低く、滅多に訪れないノードに遷移する可能性が低い自己反発ランダムウォーク(SRRW)を設計する。 正の実 {\alpha} でパラメータ化された SRRW のクラスに対して、過程の経験的分布は、基礎となるマルコフ連鎖核の標的(定常的)分布にほぼ確実に収束することを示す。 すると、中心極限定理を提供し、生成する漸近共分散行列の正確な形を導出し、より強い忌避性を持つsrrw( larger {\alpha})が常により小さい漸近共分散(英語版)(loewner order of co-variance matrice)となることを示すことができる。 特に、SRRW駆動のMCMCアルゴリズムでは、漸近サンプリング分散の減少はO(1/{\alpha})の次数であり、最終的には0となる。 最後に, 理論結果に補完する数値シミュレーションを行い, srrwのバージョンと時間とともに増加する {\alpha} を実験的に実験し, より大きな {\alpha} による漸近的分散の利点と, より小さな {\alpha} を持つsrrwのより高速な混合特性を経験的に観測した。

We consider random walks on discrete state spaces, such as general undirected graphs, where the random walkers are designed to approximate a target quantity over the network topology via sampling and neighborhood exploration in the form of Markov chain Monte Carlo (MCMC) procedures. Given any Markov chain corresponding to a target probability distribution, we design a self-repellent random walk (SRRW) which is less likely to transition to nodes that were highly visited in the past, and more likely to transition to seldom visited nodes. For a class of SRRWs parameterized by a positive real {\alpha}, we prove that the empirical distribution of the process converges almost surely to the the target (stationary) distribution of the underlying Markov chain kernel. We then provide a central limit theorem and derive the exact form of the arising asymptotic co-variance matrix, which allows us to show that the SRRW with a stronger repellence (larger {\alpha}) always achieves a smaller asymptotic covariance, in the sense of Loewner ordering of co-variance matrices. Especially for SRRW-driven MCMC algorithms, we show that the decrease in the asymptotic sampling variance is of the order O(1/{\alpha}), eventually going down to zero. Finally, we provide numerical simulations complimentary to our theoretical results, also empirically testing a version of SRRW with {\alpha} increasing in time to combine the benefits of smaller asymptotic variance due to large {\alpha}, with empirically observed faster mixing properties of SRRW with smaller {\alpha}.
翻訳日:2023-05-10 20:02:17 公開日:2023-05-08
# 3gpp 5g-advancedにおける人工知能

Artificial Intelligence in 3GPP 5G-Advanced: A Survey ( http://arxiv.org/abs/2305.05092v1 )

ライセンス: Link先を確認
Xingqin Lin(参考訳) 世界中の産業は人工知能(AI)によって変革されている。 テレコムにおけるAIの普及を広く達成するためには、標準化が業界調整に不可欠である。 第3世代のパートナーシッププロジェクト(3GPP) Release 18は、5G-Advancedの最初のリリースである。 本稿では,5G-AdvancedにおけるAIに関する3GPP開発における技術の現状を概観し,AIに関する3GPPリリース-18のさまざまなアクティビティを有機的に紹介するとともに,設計面の詳細を説明し,標準化に影響を及ぼすさまざまな設計根拠を共有する。

Industries worldwide are being transformed by artificial intelligence (AI), and the telecom industry is no different. Standardization is critical for industry alignment to achieve widespread adoption of AI in telecom. The 3rd generation partnership project (3GPP) Release 18 is the first release of 5G-Advanced, which includes a diverse set of study and work items dedicated to AI. This article provides a holistic overview of the state of the art in the 3GPP work on AI in 5G-Advanced, by presenting the various 3GPP Release-18 activities on AI as an organic whole, explaining in detail the design aspects, and sharing various design rationales influencing standardization.
翻訳日:2023-05-10 20:01:40 公開日:2023-05-08
# Performative Federated Learning: モデル依存型および異種分布シフトの解法

Performative Federated Learning: A Solution to Model-Dependent and Heterogeneous Distribution Shifts ( http://arxiv.org/abs/2305.05090v1 )

ライセンス: Link先を確認
Kun Jin, Tongxin Yin, Zhongzhu Chen, Zeyu Sun, Xueru Zhang, Yang Liu, Mingyan Liu(参考訳) 我々は、複数のクライアントとサーバからなる連合学習(fl)システムについて検討し、クライアントは分散データから共通の決定モデルを協調的に学習することを目指している。 クライアントのデータが静的であると仮定する従来のFLフレームワークとは異なり、クライアントのデータ分散がデプロイされた決定モデルによって再生成されるシナリオを考察する。 本研究では,このモデル依存型データ分散シフトを形式化するために,実演予測における分布シフトマッピングの考え方を活用し,実演的フェデレーション学習フレームワークを提案する。 まず,一意な実効的安定解が存在するための必要十分条件を導入し,その解と実効的最適解の距離を特徴付ける。 次に、実演型FedAvgアルゴリズムを提案し、全参加方式と部分参加方式の両方でO(1/T)の速度で、実演型安定解に収束することを示す。 特に,新しい証明手法を用いて,クライアントの不均一性が収束に与える影響を示す。 解析結果を検証し,実世界の応用に関する貴重な知見を提供する。

We consider a federated learning (FL) system consisting of multiple clients and a server, where the clients aim to collaboratively learn a common decision model from their distributed data. Unlike the conventional FL framework that assumes the client's data is static, we consider scenarios where the clients' data distributions may be reshaped by the deployed decision model. In this work, we leverage the idea of distribution shift mappings in performative prediction to formalize this model-dependent data distribution shift and propose a performative federated learning framework. We first introduce necessary and sufficient conditions for the existence of a unique performative stable solution and characterize its distance to the performative optimal solution. Then we propose the performative FedAvg algorithm and show that it converges to the performative stable solution at a rate of O(1/T) under both full and partial participation schemes. In particular, we use novel proof techniques and show how the clients' heterogeneity influences the convergence. Numerical results validate our analysis and provide valuable insights into real-world applications.
翻訳日:2023-05-10 20:01:26 公開日:2023-05-08
# 注意に基づく神経負荷予測の統一的枠組み

A Unifying Framework of Attention-based Neural Load Forecasting ( http://arxiv.org/abs/2305.05082v1 )

ライセンス: Link先を確認
Jing Xiong and Yu Zhang(参考訳) 電力グリッドの信頼性と効率的な計画と運用には,正確な負荷予測が重要である。 本稿では,時間的特徴重み付け,階層的時間的注意,特徴強化誤り訂正を含む,負荷予測のための統一的なディープラーニングフレームワークを提案する。 我々のフレームワークは、優れた一般化機能を備えたモジュラーデザインを採用しています。 まず、特徴重み付け機構は、入力特徴に時間重みを割り当てる。 次に,負荷予測器として階層的注意を伴う再帰エンコーダデコーダ構造を開発した。 階層的な注目は、同じ日の選択を可能にし、各時点における歴史的情報の重要性を再評価する。 第3に,エラーを探索し,隠れた情報を学習し,モデルの予測性能をさらに向上させるエラー訂正モジュールを開発した。 実験の結果,提案手法は2つの公開データセットとパフォーマンス指標の既存手法を上回っており,機能重み付け機構とエラー訂正モジュールが性能向上に不可欠であることが判明した。 このフレームワークは、電力負荷予測問題に対する効果的なソリューションを提供し、他の多くの予測タスクにさらに適応することができる。

Accurate load forecasting is critical for reliable and efficient planning and operation of electric power grids. In this paper, we propose a unifying deep learning framework for load forecasting, which includes time-varying feature weighting, hierarchical temporal attention, and feature-reinforced error correction. Our framework adopts a modular design with good generalization capability. First, the feature-weighting mechanism assigns input features with temporal weights. Second, a recurrent encoder-decoder structure with hierarchical attention is developed as a load predictor. The hierarchical attention enables a similar day selection, which re-evaluates the importance of historical information at each time step. Third, we develop an error correction module that explores the errors and learned feature hidden information to further improve the model's forecasting performance. Experimental results demonstrate that our proposed framework outperforms existing methods on two public datasets and performance metrics, with the feature weighting mechanism and error correction module being critical to achieving superior performance. Our framework provides an effective solution to the electric load forecasting problem, which can be further adapted to many other forecasting tasks.
翻訳日:2023-05-10 20:01:11 公開日:2023-05-08
# SECRETS:シンセティック・インターベンションを用いた臨床ランダム化試験

SECRETS: Subject-Efficient Clinical Randomized Controlled Trials using Synthetic Intervention ( http://arxiv.org/abs/2305.05078v1 )

ライセンス: Link先を確認
Sayeri Lala (1) and Niraj K. Jha (1) ((1) Department of Electrical and Computer Engineering, Princeton University)(参考訳) ランダム化コントロールトライアル(RCT)は、医療介入の平均治療効果(ATE)を推定するための金の標準であるが、100~1000人の被験者を必要とするため、高価で実装が難しい。 クロスオーバー試験は、個人ごとの治療効果を測定することでサンプルサイズの要求を減らすことができるが、効果が急速に拡散する慢性的な条件や介入にのみ適用できる。 もうひとつのアプローチは、RCTから収集したデータを、先進的な研究やそれ以前のRCTの外部データに置き換えたり、拡張したりすることです。 我々は,その強みを生かしながら,その実用上の限界を克服するために,クロスオーバートライアルをシミュレートする。 本稿では, 合成介入(synthe-of-the-the-the-art counterfactual Estimation)アルゴリズムを用いて, 外部データを用いることなく, 患者の個別治療効果(ITE)を初めて推定する新しいフレームワークSECRETSを提案する。 また、新しい仮説テスト戦略を使用して、この治療が推定されたITTに基づいて臨床的に重要なATEを持つかどうかを判断する。 以上の結果から,SECRETSは実世界の3つの臨床RTT(Phase-3 臨床試験)において,平均21.5%,標準偏差15.8%,$-$\boldsymbol{6}$-$\boldsymbol{54\%}$(平均21.5%,標準偏差15.8%)で,RATのパワーを向上できることが示唆された。

The randomized controlled trial (RCT) is the gold standard for estimating the average treatment effect (ATE) of a medical intervention but requires 100s-1000s of subjects, making it expensive and difficult to implement. While a cross-over trial can reduce sample size requirements by measuring the treatment effect per individual, it is only applicable to chronic conditions and interventions whose effects dissipate rapidly. Another approach is to replace or augment data collected from an RCT with external data from prospective studies or prior RCTs, but it is vulnerable to confounders in the external or augmented data. We propose to simulate the cross-over trial to overcome its practical limitations while exploiting its strengths. We propose a novel framework, SECRETS, which, for the first time, estimates the individual treatment effect (ITE) per patient in the RCT study without using any external data by leveraging a state-of-the-art counterfactual estimation algorithm, called synthetic intervention. It also uses a new hypothesis testing strategy to determine whether the treatment has a clinically significant ATE based on the estimated ITEs. We show that SECRETS can improve the power of an RCT while maintaining comparable significance levels; in particular, on three real-world clinical RCTs (Phase-3 trials), SECRETS increases power over the baseline method by $\boldsymbol{6}$-$\boldsymbol{54\%}$ (average: 21.5%, standard deviation: 15.8%).
翻訳日:2023-05-10 20:00:55 公開日:2023-05-08
# 変動深部拡散による大気乱流補正

Atmospheric Turbulence Correction via Variational Deep Diffusion ( http://arxiv.org/abs/2305.05077v1 )

ライセンス: Link先を確認
Xijun Wang, Santiago L\'opez-Tapia, Aggelos K. Katsaggelos(参考訳) 大気乱流補正(AT)は、幾何学的歪みと空間的に変化するぼやけという2つの歪みからなるため、困難な復元作業である。 拡散モデルは、フォトリアリスティックな画像合成などの素晴らしい成果を示している。 本稿では, at補正問題を解くために, 変分推論の枠組みに基づく新しい深部条件拡散モデルを提案する。 このフレームワークを使用して,入力および劣化プロセスから潜在先行情報を学習することにより,パフォーマンスを向上させる。 学習した情報を用いて拡散モデルをさらに条件付けする。 実験はデータセットで総合的な合成で行われる。 提案手法は,定量的かつ質的な結果が得られることを示す。

Atmospheric Turbulence (AT) correction is a challenging restoration task as it consists of two distortions: geometric distortion and spatially variant blur. Diffusion models have shown impressive accomplishments in photo-realistic image synthesis and beyond. In this paper, we propose a novel deep conditional diffusion model under a variational inference framework to solve the AT correction problem. We use this framework to improve performance by learning latent prior information from the input and degradation processes. We use the learned information to further condition the diffusion model. Experiments are conducted in a comprehensive synthetic AT dataset. We show that the proposed framework achieves good quantitative and qualitative results.
翻訳日:2023-05-10 20:00:19 公開日:2023-05-08
# 生成的検索を伴うレコメンダシステム

Recommender Systems with Generative Retrieval ( http://arxiv.org/abs/2305.05065v1 )

ライセンス: Link先を確認
Shashank Rajput, Nikhil Mehta, Anima Singh, Raghunandan H. Keshavan, Trung Vu, Lukasz Heldt, Lichan Hong, Yi Tay, Vinh Q. Tran, Jonah Samost, Maciej Kula, Ed H. Chi, Maheswaran Sathiamoorthy(参考訳) クエリと候補を同じ空間に埋め込むためにデュアルエンコーダモデルをトレーニングし、クエリの埋め込みを与えられた上位候補を選択するためにANN(Approximate Nearest Neighbor)検索を行う。 本稿では,対象候補の識別子を1つのフェーズで自動復号化する生成的検索モデルを提案する。 これを実現するために、各項目にランダムに生成された原子IDを割り当てる代わりに、セマンティックIDを生成する。 我々はこれらのコードワードを生成するためにRQ-VAEと呼ばれる階層的手法を用いる。 すべての項目に対するセマンティックIDが得られたら、Transformerベースのシーケンス・ツー・シーケンスモデルを使用して、次の項目のセマンティックIDを予測する。 このモデルは,次の項目を直接自己回帰的に識別するコードワードのタプルを予測するため,生成的検索モデルとみなすことができる。 この新しいパラダイムでトレーニングしたリコメンデータシステムは、Amazonデータセット上の現在のSOTAモデルによって達成された結果を改善することを示す。 さらに,階層型セマンティックIDと組み合わされたシーケンス・ツー・シーケンス・モデルにより,より一般化し,冷間開始項目の検索を改善した。

Modern recommender systems leverage large-scale retrieval models consisting of two stages: training a dual-encoder model to embed queries and candidates in the same space, followed by an Approximate Nearest Neighbor (ANN) search to select top candidates given a query's embedding. In this paper, we propose a new single-stage paradigm: a generative retrieval model which autoregressively decodes the identifiers for the target candidates in one phase. To do this, instead of assigning randomly generated atomic IDs to each item, we generate Semantic IDs: a semantically meaningful tuple of codewords for each item that serves as its unique identifier. We use a hierarchical method called RQ-VAE to generate these codewords. Once we have the Semantic IDs for all the items, a Transformer based sequence-to-sequence model is trained to predict the Semantic ID of the next item. Since this model predicts the tuple of codewords identifying the next item directly in an autoregressive manner, it can be considered a generative retrieval model. We show that our recommender system trained in this new paradigm improves the results achieved by current SOTA models on the Amazon dataset. Moreover, we demonstrate that the sequence-to-sequence model coupled with hierarchical Semantic IDs offers better generalization and hence improves retrieval of cold-start items for recommendations.
翻訳日:2023-05-10 20:00:11 公開日:2023-05-08
# グラフuネットによる領域独立後処理:電気インピーダンストモグラフィイメージングへの応用

Domain independent post-processing with graph U-nets: Applications to Electrical Impedance Tomographic Imaging ( http://arxiv.org/abs/2305.05020v1 )

ライセンス: Link先を確認
William Herzberg, Andreas Hauptmann, and Sarah J. Hamilton(参考訳) 境界計測から断層画像の再構成には, 対象領域に対する柔軟性が必要である。 例えば、系方程式が偏微分方程式によってモデル化されている場合、再構成は通常有限要素(FE)メッシュ上で行われ、柔軟な測地が可能である。 したがって、得られた再構成の処理は、FEメッシュ上でも理想的に行う必要がある。 この目的のために、長方形のピクセルドメインやボクセルドメインに限られる非常に成功したU-Netアーキテクチャを、FEメッシュ上で柔軟に動作する等価なものに拡張する。 これを実現するために、FEメッシュをグラフに変換し、古典的な地区ベースの最大プールを模倣したグラフ上に新しいクラスタプーリングとアンプールでグラフU-Netを定式化する。 電気インピーダンストモグラフィ(eit)測定からの再構成を改善するためのグラフu-netの有効性と柔軟性を実証する。 シミュレーションデータおよび測定測度と測定機器の異なる3つの測定装置から,その性能を評価する。 このようなネットワークは、単純な2次元シミュレーショントレーニングセットでトレーニングでき、3次元デバイスからの計測やその後の3次元再構成を含む、非常に異なる領域に一般化できることを示す。

Reconstruction of tomographic images from boundary measurements requires flexibility with respect to target domains. For instance, when the system equations are modeled by partial differential equations the reconstruction is usually done on finite element (FE) meshes, allowing for flexible geometries. Thus, any processing of the obtained reconstructions should be ideally done on the FE mesh as well. For this purpose, we extend the hugely successful U-Net architecture that is limited to rectangular pixel or voxel domains to an equivalent that works flexibly on FE meshes. To achieve this, the FE mesh is converted into a graph and we formulate a graph U-Net with a new cluster pooling and unpooling on the graph that mimics the classic neighborhood based max-pooling. We demonstrate effectiveness and flexibility of the graph U-Net for improving reconstructions from electrical impedance tomographic (EIT) measurements, a nonlinear and highly ill-posed inverse problem. The performance is evaluated for simulated data and from three measurement devices with different measurement geometries and instrumentations. We successfully show that such networks can be trained with a simple two-dimensional simulated training set and generalize to very different domains, including measurements from a three-dimensional device and subsequent 3D reconstructions.
翻訳日:2023-05-10 19:59:47 公開日:2023-05-08
# Gland Layoutによる大腸癌組織像の合成

Synthesis of Annotated Colorectal Cancer Tissue Images from Gland Layout ( http://arxiv.org/abs/2305.05006v1 )

ライセンス: Link先を確認
Srijay Deshpande, Fayyaz Minhas, Nasir Rajpoot(参考訳) 注釈付き組織画像の注釈付きペアを生成することは、計算組織病理学において難しい課題である。 このような合成画像とそのアノテーションは、計算病理学領域におけるアルゴリズムの訓練と評価に有用である。 そこで本研究では,実際の大腸癌組織像と対応する組織成分マスクを入力腺レイアウトから生成するインタラクティブな枠組みを提案する。 本フレームワークは, ストローマ, ゴブレット細胞, 腺腔などの形態学的特徴を保存した, リアルな定性的組織像を生成する能力を示す。 腺の出現は、腺の数、位置、サイズなどの入力によって制御できることを示した。 また, 腺分節アルゴリズムを用いて, 生成したアノテートペアの品質を検証した。

Generating annotated pairs of realistic tissue images along with their annotations is a challenging task in computational histopathology. Such synthetic images and their annotations can be useful in training and evaluation of algorithms in the domain of computational pathology. To address this, we present an interactive framework to generate pairs of realistic colorectal cancer histology images with corresponding tissue component masks from the input gland layout. The framework shows the ability to generate realistic qualitative tissue images preserving morphological characteristics including stroma, goblet cells and glandular lumen. We show the appearance of glands can be controlled by user inputs such as number of glands, their locations and sizes. We also validate the quality of generated annotated pair with help of the gland segmentation algorithm.
翻訳日:2023-05-10 19:59:27 公開日:2023-05-08
# 振動ポラリトン化学の微視的理論

Microscopic Theory of Vibrational Polariton Chemistry ( http://arxiv.org/abs/2305.05005v1 )

ライセンス: Link先を確認
Wenxiang Ying, Michael A.D. Taylor, and Pengfei Huo(参考訳) 振動強い結合(VSC)修飾反応速度定数を説明するための顕微鏡理論を提案する。 解析理論は、キャビティモードが基底状態から集合的明るい状態および/または暗い状態への遷移を促進するという力学的予想に基づいている。 この理論は、通常の入射角度での観測共鳴効果と集団効果を説明し、実験的に検証可能ないくつかの予測を行う。 この理論は、vsc修飾反応の多体、非局所、巨視的量子力学的性質を強調する。

We present a microscopic theory to explain the vibrational strong coupling (VSC) modified reaction rate constant. The analytic theory is based on a mechanistic conjecture that cavity modes promote the transition from the ground state to the collective bright state and/or dark state. The theory explains the observed resonance effect at the normal incident angle and the collective effect and makes several predictions that are experimentally verifiable. This theory highlights the many-body, non-local, macroscopic quantum mechanical nature of the VSC-modified reactions.
翻訳日:2023-05-10 19:59:15 公開日:2023-05-08
# 機械学習を用いた並行バグのモデル化

Modelling Concurrency Bugs Using Machine Learning ( http://arxiv.org/abs/2305.05531v1 )

ライセンス: Link先を確認
Teodor Rares Begu(参考訳) 近年、人工知能は大きな注目を集めており、機械学習はさまざまな分野にまたがって、より多くのアプリケーションを見始めている。 私たちにとって興味深い機械学習アプリケーションのひとつは、特に並列プログラムのコンテキストにおいて、ソフトウェアの安全性とセキュリティに関するものです。 並行性バグを自動的に検出できるという問題は、複雑さの層が加わったことで、並列プログラムが障害に陥りやすいため、プログラマに長い間興味をそそられた。 このような自動検出ツールの開発は、デバッグ中の時間を節約し、予期しないバグの数を減らし、プログラマに多大な利益をもたらす。 機械学習は、ツールの正確性とプログラミング言語の柔軟性の両方の観点から、現在のアプローチに対するさらなるアドバンテージを提供することによって、この目標を達成することができると考えています。 しかし、機械学習アプローチに特有の多くの課題(十分に大きなデータセットを正しくラベル付けし、最適なモデルタイプやアーキテクチャを見つけるなど)があるため、そのようなツールを別々に開発する各問題にアプローチする必要があります。 したがって、このプロジェクトの焦点は、一般的な機械学習アプローチと最近の機械学習アプローチを比較することである。 我々は,実生活(同時)プログラムをシミュレートする範囲で生成する合成データセットという形で,並列プログラムのラベル付きデータセットの調達の複雑さを抽象化する。 さまざまな機械学習モデル型の基本的な限界に関する仮説を定式化し、合成データセットで広範なテストを実行して検証します。 機械学習を用いたプログラムをモデル化する際の様々なモデルタイプの利点とデメリット、および他の関連分野(NLPなど)についてより深い知見が得られることを期待している。

Artificial Intelligence has gained a lot of traction in the recent years, with machine learning notably starting to see more applications across a varied range of fields. One specific machine learning application that is of interest to us is that of software safety and security, especially in the context of parallel programs. The issue of being able to detect concurrency bugs automatically has intrigued programmers for a long time, as the added layer of complexity makes concurrent programs more prone to failure. The development of such automatic detection tools provides considerable benefits to programmers in terms of saving time while debugging, as well as reducing the number of unexpected bugs. We believe machine learning may help achieve this goal by providing additional advantages over current approaches, in terms of both overall tool accuracy as well as programming language flexibility. However, due to the presence of numerous challenges specific to the machine learning approach (correctly labelling a sufficiently large dataset, finding the best model types/architectures and so forth), we have to approach each issue of developing such a tool separately. Therefore, the focus of this project is on comparing both common and recent machine learning approaches. We abstract away the complexity of procuring a labelled dataset of concurrent programs under the form of a synthetic dataset that we define and generate with the scope of simulating real-life (concurrent) programs. We formulate hypotheses about fundamental limits of various machine learning model types which we then validate by running extensive tests on our synthetic dataset. We hope that our findings provide more insight in the advantages and disadvantages of various model types when modelling programs using machine learning, as well as any other related field (e.g. NLP).
翻訳日:2023-05-10 19:24:10 公開日:2023-05-08
# 証明ブロック問題に対する効率的なフィードバックと部分信用格付け

Efficient Feedback and Partial Credit Grading for Proof Blocks Problems ( http://arxiv.org/abs/2204.04196v3 )

ライセンス: Link先を確認
Seth Poulsen, Shubhang Kulkarni, Geoffrey Herman, and Matthew West(参考訳) Proof Blocksは、学生がスクラッチから証明を書く代わりに線をドラッグ&ドロップすることで数学的証明を書くことができるソフトウェアツールである。 Proof Blocksは、学生に部分クレジットを割り当て、ソリューションの品質フィードバックを提供する。 これは、あらかじめ定義されたソリューションのセットへの学生の提出から編集距離を計算することによって行われる。 本研究では,検索空間全体にわたって徹底的に列挙するベースライン手順を大幅に上回る編集距離問題に対するアルゴリズムを提案する。 我々のアルゴリズムは最小頂点被覆問題への還元に依存する。 提案アルゴリズムは,複数コースから提出した数千の学生を対象にベンチマークを行い,ベースラインアルゴリズムが難解であり,提案アルゴリズムが教室の展開に不可欠であることを示した。 我々の新しいアルゴリズムは、他の多くの領域において、解空間をDAGとしてモデル化できるが、コードの記述にはパーソンズ問題に限らない問題、ネットワークプロトコルにおけるパケット順序の理解、物理問題に対する解決手順のスケッチを支援するために使われている。 このアルゴリズムは、複数の学習管理システムに統合され、毎年何千人もの学生にサービスを提供する。

Proof Blocks is a software tool that allows students to practice writing mathematical proofs by dragging and dropping lines instead of writing proofs from scratch. Proof Blocks offers the capability of assigning partial credit and providing solution quality feedback to students. This is done by computing the edit distance from a student's submission to some predefined set of solutions. In this work, we propose an algorithm for the edit distance problem that significantly outperforms the baseline procedure of exhaustively enumerating over the entire search space. Our algorithm relies on a reduction to the minimum vertex cover problem. We benchmark our algorithm on thousands of student submissions from multiple courses, showing that the baseline algorithm is intractable, and that our proposed algorithm is critical to enable classroom deployment. Our new algorithm has also been used for problems in many other domains where the solution space can be modeled as a DAG, including but not limited to Parsons Problems for writing code, helping students understand packet ordering in networking protocols, and helping students sketch solution steps for physics problems. Integrated into multiple learning management systems, the algorithm serves thousands of students each year.
翻訳日:2023-05-10 16:55:47 公開日:2023-05-08
# 超音波音速再構成のための深層学習:訓練データの多様性が安定性とロバスト性に及ぼす影響

Deep Learning for Ultrasound Speed-of-Sound Reconstruction: Impacts of Training Data Diversity on Stability and Robustness ( http://arxiv.org/abs/2202.01208v2 )

ライセンス: Link先を確認
Farnaz Khun Jush, Markus Biele, Peter M. Dueppenbecker, Andreas Maier(参考訳) 超音波bモードイメージングは質的なアプローチであり、診断品質はオペレータのトレーニングと経験に強く依存する。 定量的なアプローチは、組織特性に関する情報を提供することができるため、組織中の音速などの様々な組織タイプを識別するために、特に乳房イメージングにおいて、組織悪性のバイオマーカーとして使用できる。 最近の研究では、シミュレーションデータに基づいて完全に訓練されたディープニューラルネットワークを用いた音速再構成の可能性を示した。 しかし、シミュレーションデータと測定データの間の領域シフトが続いているため、実際のセットアップにおけるこれらのモデルの安定性と性能はまだ議論中である。 データ生成のトレーニングにおいて、組織構造は、実際の組織の複雑さを反映しない単純な幾何学的構造としてモデル化された。 本研究では,結合合成画像に基づくデータ生成訓練のための新しいシミュレーション設定を提案する。 提案手法と簡易な幾何モデルを組み合わせることで,既存のネットワークアーキテクチャの安定性と堅牢性に対するトレーニングデータの多様性の影響を検討した。 実験では, エコー生成性, 散乱器数, ノイズ量, 形状など, 異なるシミュレーションパラメータに対するネットワークの感度について検討した。 その結果,共同データで学習したネットワークは,実測ファントムデータと同様にドメイン外シミュレーションデータでより安定であることが判明した。

Ultrasound b-mode imaging is a qualitative approach and diagnostic quality strongly depends on operators' training and experience. Quantitative approaches can provide information about tissue properties; therefore, can be used for identifying various tissue types, e.g., speed-of-sound in the tissue can be used as a biomarker for tissue malignancy, especially in breast imaging. Recent studies showed the possibility of speed-of-sound reconstruction using deep neural networks that are fully trained on simulated data. However, because of the ever-present domain shift between simulated and measured data, the stability and performance of these models in real setups are still under debate. In prior works, for training data generation, tissue structures were modeled as simplified geometrical structures which does not reflect the complexity of the real tissues. In this study, we proposed a new simulation setup for training data generation based on Tomosynthesis images. We combined our approach with the simplified geometrical model and investigated the impacts of training data diversity on the stability and robustness of an existing network architecture. We studied the sensitivity of the trained network to different simulation parameters, e.g., echogenicity, number of scatterers, noise, and geometry. We showed that the network trained with the joint set of data is more stable on out-of-domain simulated data as well as measured phantom data.
翻訳日:2023-05-10 16:53:39 公開日:2023-05-08
# 友人モデル置換によるフェデレーション学習におけるクライアントドロップアウト対策

Combating Client Dropout in Federated Learning via Friend Model Substitution ( http://arxiv.org/abs/2205.13222v3 )

ライセンス: Link先を確認
Heqiang Wang, Jie Xu(参考訳) Federated Learning(FL)は、データプライバシと通信効率のメリットで知られる、新たな分散機械学習フレームワークである。 多くの場合、クライアントの完全参加は制約のあるリソースのため実現不可能であるため、クライアントのサブセットを積極的に選択/サンプルし、全参加ケースに近い学習性能を達成するための部分参加flアルゴリズムが研究されている。 本稿では、FLアルゴリズムの決定ではなく、外部イベント、すなわちクライアントドロップアウトの結果である部分的参加が、はるかに理解されていない受動的部分的参加シナリオについて検討する。 私たちは、クライアントが代替(おそらく不正確な)ローカルモデルのアップデートを提出できるより大きなfl問題の特別なケースとして、クライアントのドロップアウトでflをキャストしました。 コンバージェンス解析に基づいて,クライアントの友人(つまりデータ分布が類似しているクライアント)をオンザフライで発見し,友人のローカル更新をドロップアウトクライアントの代用として利用する新しいアルゴリズムFL-FDMSを開発し,置換誤差を低減し,コンバージェンス性能を向上させる。 複雑性低減機構はFL-FDMSにも組み込まれ、理論上は健全で実用的にも有用である。 MNISTとCIFAR-10の実験により、FL-FDMSのFLにおけるクライアントドロップアウト処理における優れた性能が確認された。

Federated learning (FL) is a new distributed machine learning framework known for its benefits on data privacy and communication efficiency. Since full client participation in many cases is infeasible due to constrained resources, partial participation FL algorithms have been investigated that proactively select/sample a subset of clients, aiming to achieve learning performance close to the full participation case. This paper studies a passive partial client participation scenario that is much less well understood, where partial participation is a result of external events, namely client dropout, rather than a decision of the FL algorithm. We cast FL with client dropout as a special case of a larger class of FL problems where clients can submit substitute (possibly inaccurate) local model updates. Based on our convergence analysis, we develop a new algorithm FL-FDMS that discovers friends of clients (i.e., clients whose data distributions are similar) on-the-fly and uses friends' local updates as substitutes for the dropout clients, thereby reducing the substitution error and improving the convergence performance. A complexity reduction mechanism is also incorporated into FL-FDMS, making it both theoretically sound and practically useful. Experiments on MNIST and CIFAR-10 confirmed the superior performance of FL-FDMS in handling client dropout in FL.
翻訳日:2023-05-10 16:45:05 公開日:2023-05-08
# FedAdapter: 現代的なNLPのための効果的なフェデレーション学習

FedAdapter: Efficient Federated Learning for Modern NLP ( http://arxiv.org/abs/2205.10162v2 )

ライセンス: Link先を確認
Dongqi Cai, Yaozong Wu, Shangguang Wang, Felix Xiaozhu Lin, Mengwei Xu(参考訳) トランスフォーマーベースの事前学習モデルは、優れた性能と汎用性のためにNLPに革命をもたらした。 下流タスクのための微調整済みモデルはしばしばプライベートデータを必要とし、フェデレート学習はデファクト・アプローチ(FedNLP)である。 しかし,FedNLPはモデルサイズが大きく,ネットワーク/計算コストが高いため,極めて遅いことが判明した。 実用的なfednlpを目指して、様々なモデル層に挿入された小さなボトルネックモジュールである、主要なビルディングブロックアダプタを識別する。 重要な課題は、トレーニング速度と効率が非常に敏感なアダプタの深さと幅を適切に設定することである。 最適な選択は、下流のNLPタスク、望ましいモデルの精度、モバイルリソースによって異なる。 アダプタ構成を自動化するために,FedNLPを2つの新しい設計で拡張するフレームワークであるFedAdapterを提案する。 まず、FedAdapterはトレーニングセッションを通じてアダプタ構成を段階的にアップグレードする。原則は、モデルの上位層でより少ないアダプタをトレーニングするだけで、浅い知識を素早く学習し、より深いアダプタを組み込むことで、より深い知識を徐々に学習することである。 第二に、FedAdapterは参加者デバイスをトライアルグループに割り当てることで、将来のアダプタ構成を継続的にプロファイルする。 広範な実験により、feedadapterは、fedadapterのモデル収束遅延を、バニラfednlpと比較して最大155.5$\times$、強力なベースラインよりも48$\times$高速で数時間以内に削減できることが示されている。

Transformer-based pre-trained models have revolutionized NLP for superior performance and generality. Fine-tuning pre-trained models for downstream tasks often requires private data, for which federated learning is the de-facto approach (i.e., FedNLP). However, our measurements show that FedNLP is prohibitively slow due to the large model sizes and the resultant high network/computation cost. Towards practical FedNLP, we identify as the key building blocks adapters, small bottleneck modules inserted at a variety of model layers. A key challenge is to properly configure the depth and width of adapters, to which the training speed and efficiency is highly sensitive. No silver-bullet configuration exists: the optimal choice varies across downstream NLP tasks, desired model accuracy, and mobile resources. To automate adapter configuration, we propose FedAdapter, a framework that enhances the existing FedNLP with two novel designs. First, FedAdapter progressively upgrades the adapter configuration throughout a training session; the principle is to quickly learn shallow knowledge by only training fewer and smaller adapters at the model's top layers, and incrementally learn deep knowledge by incorporating deeper and larger adapters. Second, FedAdapter continuously profiles future adapter configurations by allocating participant devices to trial groups. Extensive experiments show that FedAdapter can reduce FedNLP's model convergence delay to no more than several hours, which is up to 155.5$\times$ faster compared to vanilla FedNLP and 48$\times$ faster compared to strong baselines.
翻訳日:2023-05-10 16:44:21 公開日:2023-05-08
# ファウショット言語モデルファインチューニングのためのコールドスタートデータ選択:プロンプトに基づく不確実性伝播アプローチ

Cold-Start Data Selection for Few-shot Language Model Fine-tuning: A Prompt-Based Uncertainty Propagation Approach ( http://arxiv.org/abs/2209.06995v2 )

ライセンス: Link先を確認
Yue Yu, Rongzhi Zhang, Ran Xu, Jieyu Zhang, Jiaming Shen, Chao Zhang(参考訳) 大規模言語モデルは驚くべき数ショットのパフォーマンスを示しているが、パフォーマンスは数ショットインスタンスの選択に敏感である。 PATRONは,コールドスタートシナリオ下での訓練済み言語モデルの微調整のためのデータ選択に対して,即時不確実性を推定する新しい手法である。 提案手法では,(1)データポイントの重要度を推定するためのプロンプトベース不確実性伝播手法,(2)アノテーションのクエリ時にサンプルの多様性を促進するためのパーティショニング-then-rewrite(ptr)戦略を設計する。 6つのテキスト分類データセットの実験では、PATRONは最も強いコールドスタートデータ選択ベースラインを最大6.9%上回っている。 さらに、128のラベルだけで、PATRONは、それぞれバニラ微調整とプロンプトベースの学習に基づいて、完全な教師付きパフォーマンスの91.0%と92.1%を達成する。 PATRONの実装は \url{https://github.com/yueyu1030/Patron} で利用可能です。

Large Language Models have demonstrated remarkable few-shot performance, but the performance can be sensitive to the selection of few-shot instances. We propose PATRON, a new method that uses prompt-based uncertainty estimation for data selection for pre-trained language model fine-tuning under cold-start scenarios, i.e., no initial labeled data are available. In PATRON, we design (1) a prompt-based uncertainty propagation approach to estimate the importance of data points and (2) a partition-then-rewrite (PTR) strategy to promote sample diversity when querying for annotations. Experiments on six text classification datasets show that PATRON outperforms the strongest cold-start data selection baselines by up to 6.9%. Besides, with 128 labels only, PATRON achieves 91.0% and 92.1% of the fully supervised performance based on vanilla fine-tuning and prompt-based learning respectively. Our implementation of PATRON is available at \url{https://github.com/yueyu1030/Patron}.
翻訳日:2023-05-10 16:36:05 公開日:2023-05-08
# 非整合励起原子配列における多励起サブラジアント状態の動的集団

Dynamic population of multiexcitation subradiant states in incoherently excited atomic arrays ( http://arxiv.org/abs/2209.00034v2 )

ライセンス: Link先を確認
Oriol Rubies-Bigorda, Stefan Ostermann, Susanne F. Yelin(参考訳) 多重励起準ラジアント状態の決定論的生成は困難であることが証明される。 ここでは、原子アンサンブルの非一貫性駆動に基づいて、双極子-双極子結合量子エミッタの有限サイズの順序配列において、それらの過渡的生成に有効な経路を示す。 特に、原子の半分が最初に励起されると、長寿命の亜ラジカル状態への最大結合が達成されることを示す。 発光光の動的蛍光スペクトルを計算することにより、結果状態の性質を特徴づける。 最後に, 十分に高密度な原子配列の崩壊過程におけるコヒーレント相互作用の役割を明らかにする。

The deterministic generation of multiexcitation subradiant states proves to be challenging. Here, we present a viable path towards their transient generation in finite-sized ordered arrays of dipole-dipole coupled quantum emitters, based on incoherent driving of the atomic ensemble. In particular, we show that a maximal coupling to long-lived subradiant states is achieved if only half of the atoms are initially excited. We characterize the nature of the resulting states by calculating the dynamic fluorescence spectrum of the emitted light. Finally, we elucidate the role of coherent interactions during the decay process of sufficiently dense atomic arrays, which result in a coherently driven radiation burst that leads to a subsequent reduction of the chances to prepare multiexcitation subradiant states.
翻訳日:2023-05-10 16:34:30 公開日:2023-05-08
# ReLMによる大規模言語モデルの検証

Validating Large Language Models with ReLM ( http://arxiv.org/abs/2211.15458v2 )

ライセンス: Link先を確認
Michael Kuchnik, Virginia Smith, George Amvrosiadis(参考訳) 大規模言語モデル(llm)は自然に発音されるテキストを生成する能力が評価されているが、データの記憶やバイアス、不適切な言語といったllmの悪影響に関する懸念が高まっている。 残念ながら、LSMの複雑さと生成能力は、そのような懸念を検証(修正)することを困難にしている。 本研究では,標準正規表現を用いたLLMの検証・クエリシステムであるReLMを紹介する。 ReLMは言語モデルの評価を多岐にわたって形式化し、複雑な評価ルールを単純な正規表現クエリに短縮する。 以上の結果から,ReLMのシステム効率は最大15倍に向上し,データ効率は2.5倍に向上し,最先端のアドホッククエリと比較して統計的,即時的なカバレッジが向上した。 ReLMはLLM検証の重要な問題に対して、競争力と一般的なベースラインを提供する。

Although large language models (LLMs) have been touted for their ability to generate natural-sounding text, there are growing concerns around possible negative effects of LLMs such as data memorization, bias, and inappropriate language. Unfortunately, the complexity and generation capacities of LLMs make validating (and correcting) such concerns difficult. In this work, we introduce ReLM, a system for validating and querying LLMs using standard regular expressions. ReLM formalizes and enables a broad range of language model evaluations, reducing complex evaluation rules to simple regular expression queries. Our results exploring queries surrounding memorization, gender bias, toxicity, and language understanding show that ReLM achieves up to 15x higher system efficiency, 2.5x data efficiency, and increased statistical and prompt-tuning coverage compared to state-of-the-art ad-hoc queries. ReLM offers a competitive and general baseline for the increasingly important problem of LLM validation.
翻訳日:2023-05-10 16:16:40 公開日:2023-05-08
# I$^2$-GNNを用いたグラフニューラルネットワークのサイクルカウントパワー向上

Boosting the Cycle Counting Power of Graph Neural Networks with I$^2$-GNNs ( http://arxiv.org/abs/2210.13978v3 )

ライセンス: Link先を確認
Yinan Huang, Xingang Peng, Jianzhu Ma, Muhan Zhang(参考訳) メッセージパッシングニューラルネットワーク(英: Message Passing Neural Networks、MPNN)は、グラフニューラルネットワーク(GNN)の一種。 MPNNの限られた表現力は、証明可能な強力なGNNアーキテクチャの研究を刺激する。 しかし、あるモデルを知ることは、あるモデルが表現できる機能やできない機能についての洞察をほとんど与えない。 これらのモデルが、生物学、化学、社会ネットワーク分析の応用に不可欠な、特定のグラフ部分構造を数えるといった特定の関数を近似できるかどうかはまだ不明である。 そこで本研究では,各ノードのルート付きサブグラフを抽出し,ルートノードにユニークな識別子を割り当て,ルートノードの表現をそのルート付きサブグラフ内にエンコードする,GNNモデルの最近の人気クラスであるSubgraph MPNNのカウント能力について検討する。 具体的には、サブグラフmpnnがノードレベルで4サイクル以上を数えることができないことを証明し、ノード表現が4原子以上の環系のような周囲の部分構造を正しくエンコードできないことを示唆する。 この制限を克服するため、各サブグラフ内のルートノードとその隣人に異なる識別子を割り当てることで、サブグラフMPNNを拡張するためのI$^2$-GNNを提案する。 I$^2$-GNNsの識別力は、サブグラフMPNNよりも強く、3WLテストより部分的に強いことが示されている。 さらに重要なことは、I$^2$-GNNは3, 4, 5, 6サイクル全てを数えることができ、有機化学におけるベンゼン環のような一般的なサブ構造をカバーし、線形複雑性を維持している。 我々の知る限りでは、理論的な保証とともに6サイクルを数えられる最初の線形時間GNNモデルである。 サイクルカウントタスクにおけるカウント能力を検証するとともに,分子予測ベンチマークにおける競合性能を示す。

Message Passing Neural Networks (MPNNs) are a widely used class of Graph Neural Networks (GNNs). The limited representational power of MPNNs inspires the study of provably powerful GNN architectures. However, knowing one model is more powerful than another gives little insight about what functions they can or cannot express. It is still unclear whether these models are able to approximate specific functions such as counting certain graph substructures, which is essential for applications in biology, chemistry and social network analysis. Motivated by this, we propose to study the counting power of Subgraph MPNNs, a recent and popular class of powerful GNN models that extract rooted subgraphs for each node, assign the root node a unique identifier and encode the root node's representation within its rooted subgraph. Specifically, we prove that Subgraph MPNNs fail to count more-than-4-cycles at node level, implying that node representations cannot correctly encode the surrounding substructures like ring systems with more than four atoms. To overcome this limitation, we propose I$^2$-GNNs to extend Subgraph MPNNs by assigning different identifiers for the root node and its neighbors in each subgraph. I$^2$-GNNs' discriminative power is shown to be strictly stronger than Subgraph MPNNs and partially stronger than the 3-WL test. More importantly, I$^2$-GNNs are proven capable of counting all 3, 4, 5 and 6-cycles, covering common substructures like benzene rings in organic chemistry, while still keeping linear complexity. To the best of our knowledge, it is the first linear-time GNN model that can count 6-cycles with theoretical guarantees. We validate its counting power in cycle counting tasks and demonstrate its competitive performance in molecular prediction benchmarks.
翻訳日:2023-05-10 16:14:47 公開日:2023-05-08
# 仮に説明であっても,セミファクチュアルXAIの事前作業, Desiderata & Benchmarks

Even if Explanations: Prior Work, Desiderata & Benchmarks for Semi-Factual XAI ( http://arxiv.org/abs/2301.11970v2 )

ライセンス: Link先を確認
Saugat Aryal and Mark T Keane(参考訳) 最近、eXplainable AI (XAI)研究は、AIシステム決定に対するポストホックな正当化として、反ファクト的な説明に焦点を当てている(例えば、顧客がローンを拒否した場合、短い期間でローンを請求した場合、承認された)。 カウンターファクトリーは、AIシステムの入力機能の変更が出力決定をどう変えるかを説明する。 しかし、AIにはあまり注目されていない反事実的半事実のサブタイプが存在する(認知科学はそれらを広く研究している)。 本稿は、これらの文献を調査し、この地域の歴史的・最近のブレークスルーを要約する。 半実のXAIのためのキーデシダータを定義し、将来的なアルゴリズム開発のための確固たる基盤を提供するために、(新奇な方法とともに)履歴アルゴリズムのベンチマークテストを行う。

Recently, eXplainable AI (XAI) research has focused on counterfactual explanations as post-hoc justifications for AI-system decisions (e.g. a customer refused a loan might be told: If you asked for a loan with a shorter term, it would have been approved). Counterfactuals explain what changes to the input-features of an AI system change the output-decision. However, there is a sub-type of counterfactual, semi-factuals, that have received less attention in AI (though the Cognitive Sciences have studied them extensively). This paper surveys these literatures to summarise historical and recent breakthroughs in this area. It defines key desiderata for semi-factual XAI and reports benchmark tests of historical algorithms (along with a novel, naieve method) to provide a solid basis for future algorithmic developments.
翻訳日:2023-05-10 16:08:20 公開日:2023-05-08
# 最適化アルゴリズムの記号的発見

Symbolic Discovery of Optimization Algorithms ( http://arxiv.org/abs/2302.06675v4 )

ライセンス: Link先を確認
Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang, Yao Liu, Hieu Pham, Xuanyi Dong, Thang Luong, Cho-Jui Hsieh, Yifeng Lu, Quoc V. Le(参考訳) 本稿では,プログラム探索としてアルゴリズム探索を定式化し,ディープニューラルネットワーク学習のための最適化アルゴリズムを探索する手法を提案する。 我々は効率的な探索技術を利用して無限にスパースなプログラム空間を探索する。 プロキシとターゲットタスク間の大きな一般化ギャップを埋めるため,プログラム選択と単純化戦略も導入する。 この手法は、単純かつ効果的な最適化アルゴリズムである$\textbf{lion}$ (\textit{evo$\textbf{l}$ved s$\textbf{i}$gn m$\textbf{o}$me$\textbf{n}$tum}$) を発見する。 運動量だけを追跡するため、Adamよりもメモリ効率が高い。 適応オプティマイザと異なり、その更新は符号演算によって計算された各パラメータに対して同じ大きさである。 lionとadamやadafactorといった広く使われているオプティマイザを比較して,さまざまなタスクでさまざまなモデルをトレーニングします。 画像分類では、LionはImageNetでViTの精度を最大2%向上させ、JFTでトレーニング済みの計算の最大5倍節約する。 視覚言語比較学習では、imagenetで88.3%$\textit{zero-shot}$と91.1%$\textit{fine-tuning}$をそれぞれ2%と0.1%の精度で達成した。 拡散モデルにおいて、ライオンはより良いfidスコアを達成し、トレーニング計算を最大2.3倍削減することでアダムを上回る。 自動回帰、マスク付き言語モデリング、微調整では、LionはAdamと同じような、あるいは優れたパフォーマンスを示している。 Lionの分析では、トレーニングバッチサイズによってパフォーマンスが向上することが明らかになった。 また、符号関数によって生成された更新のノルムが大きいため、Adamよりも学習速度が小さい。 さらに,ライオンの限界を検証し,その改善が統計的に重要でない場合のシナリオを特定する。 LionはGoogle検索広告CTRモデルのようなプロダクションシステムにもうまくデプロイされている。

We present a method to formulate algorithm discovery as program search, and apply it to discover optimization algorithms for deep neural network training. We leverage efficient search techniques to explore an infinite and sparse program space. To bridge the large generalization gap between proxy and target tasks, we also introduce program selection and simplification strategies. Our method discovers a simple and effective optimization algorithm, $\textbf{Lion}$ ($\textit{Evo$\textbf{L}$ved S$\textbf{i}$gn M$\textbf{o}$me$\textbf{n}$tum}$). It is more memory-efficient than Adam as it only keeps track of the momentum. Different from adaptive optimizers, its update has the same magnitude for each parameter calculated through the sign operation. We compare Lion with widely used optimizers, such as Adam and Adafactor, for training a variety of models on different tasks. On image classification, Lion boosts the accuracy of ViT by up to 2% on ImageNet and saves up to 5x the pre-training compute on JFT. On vision-language contrastive learning, we achieve 88.3% $\textit{zero-shot}$ and 91.1% $\textit{fine-tuning}$ accuracy on ImageNet, surpassing the previous best results by 2% and 0.1%, respectively. On diffusion models, Lion outperforms Adam by achieving a better FID score and reducing the training compute by up to 2.3x. For autoregressive, masked language modeling, and fine-tuning, Lion exhibits a similar or better performance compared to Adam. Our analysis of Lion reveals that its performance gain grows with the training batch size. It also requires a smaller learning rate than Adam due to the larger norm of the update produced by the sign function. Additionally, we examine the limitations of Lion and identify scenarios where its improvements are small or not statistically significant. Lion is also successfully deployed in production systems such as Google search ads CTR model.
翻訳日:2023-05-10 15:57:44 公開日:2023-05-08
# PED-ANOVA:任意部分空間におけるハイパーパラメータの重要性の効率的な定量化

PED-ANOVA: Efficiently Quantifying Hyperparameter Importance in Arbitrary Subspaces ( http://arxiv.org/abs/2304.10255v2 )

ライセンス: Link先を確認
Shuhei Watanabe, Archit Bansal, Frank Hutter(参考訳) 近年のディープラーニングにおけるハイパーパラメータ最適化(hpo)の普及は、優れたハイパーパラメータ(hp)空間設計が強力なモデルのトレーニングに果たす役割を強調している。 逆に、優れたHP空間を設計することは、異なるHPの役割を理解することに依存する。 これはHP Importance (HPI)の研究を動機付けており、例えば、機能的ANOVA(f-ANOVA)の一般的な方法である。 しかし、オリジナルのf-アノヴァの定式化はアルゴリズム設計に最も関係のある部分空間、例えばトップパフォーマンスで定義された部分空間には適用できない。 この問題を解決するために、任意の部分空間に対するf-ANOVAの新たな定式化を導き、ピアソン発散(PED)を用いてHPIの閉形式計算を可能にするアルゴリズムを提案する。 PED-ANOVAと呼ばれるこの新しいアルゴリズムは,異なる部分空間における重要なHPの同定に成功し,計算効率も極めて高いことを示す。

The recent rise in popularity of Hyperparameter Optimization (HPO) for deep learning has highlighted the role that good hyperparameter (HP) space design can play in training strong models. In turn, designing a good HP space is critically dependent on understanding the role of different HPs. This motivates research on HP Importance (HPI), e.g., with the popular method of functional ANOVA (f-ANOVA). However, the original f-ANOVA formulation is inapplicable to the subspaces most relevant to algorithm designers, such as those defined by top performance. To overcome this issue, we derive a novel formulation of f-ANOVA for arbitrary subspaces and propose an algorithm that uses Pearson divergence (PED) to enable a closed-form calculation of HPI. We demonstrate that this new algorithm, dubbed PED-ANOVA, is able to successfully identify important HPs in different subspaces while also being extremely computationally efficient.
翻訳日:2023-05-10 15:38:22 公開日:2023-05-08
# ファジィバイナリを用いた校正誤差推定

Calibration Error Estimation Using Fuzzy Binning ( http://arxiv.org/abs/2305.00543v2 )

ライセンス: Link先を確認
Geetanjali Bihani and Julia Taylor Rayz(参考訳) ニューラルネットワークベースの決定は自信過剰になりがちで、その生の帰結確率は真の決定確率と一致しない。 ニューラルネットワークの校正は、より信頼性の高いディープラーニングフレームワークへの重要なステップである。 キャリブレーションエラーの先行指標は、主にクリスプビンメンバーシップに基づく尺度を用いる。 これはモデル確率のゆがみを悪化させ、キャリブレーションエラーの不完全なイメージを描写する。 本研究では,ファジィバイナリ化手法を用いてキャリブレーション誤差を計算するファジィキャリブレーション誤差メトリック(fce)を提案する。 このアプローチは、確率歪の影響を緩和し、校正誤差を計測しながらより厳密な推定を提供する。 測定基準を、異なるデータ人口とクラスメンバーシップのECEと比較する。 以上の結果から,FCEはキャリブレーション誤差推定の精度向上,特にマルチクラス設定において,モデルの信頼性スコアがキャリブレーション誤差推定に与える影響を緩和する。 コードと補足資料は、https://github.com/bihani-g/fceで入手できる。

Neural network-based decisions tend to be overconfident, where their raw outcome probabilities do not align with the true decision probabilities. Calibration of neural networks is an essential step towards more reliable deep learning frameworks. Prior metrics of calibration error primarily utilize crisp bin membership-based measures. This exacerbates skew in model probabilities and portrays an incomplete picture of calibration error. In this work, we propose a Fuzzy Calibration Error metric (FCE) that utilizes a fuzzy binning approach to calculate calibration error. This approach alleviates the impact of probability skew and provides a tighter estimate while measuring calibration error. We compare our metric with ECE across different data populations and class memberships. Our results show that FCE offers better calibration error estimation, especially in multi-class settings, alleviating the effects of skew in model confidence scores on calibration error estimation. We make our code and supplementary materials available at: https://github.com/bihani-g/fce
翻訳日:2023-05-10 15:31:31 公開日:2023-05-08
# FIREBALL:構造化されたゲーム状態情報を備えたダンジョンとドラゴンの実際のプレイデータセット

FIREBALL: A Dataset of Dungeons and Dragons Actual-Play with Structured Game State Information ( http://arxiv.org/abs/2305.01528v2 )

ライセンス: Link先を確認
Andrew Zhu and Karmanya Aggarwal and Alexander Feng and Lara J. Martin and Chris Callison-Burch(参考訳) Dungeons & Dragons(ダンジョンズ&ドラゴンズ、D&D)は、プレイヤー間の複雑な自然言語インタラクションと隠れ状態情報を備えたテーブルトップロールプレイングゲームである。 近年の研究では、状態情報にアクセス可能な大規模言語モデル(LLM)が、ダイアログ履歴のみを使用するLLMよりも高品質なゲームターンを生成できることが示されている。 しかし、前作ではヒューリスティックに作成され、真の金の標準的なゲーム状態ではなかったゲーム状態情報を使用していた。 fireballは,実際のd&dゲームプレイから,真のゲーム状態情報とともに25,000近いユニークなセッションを含む,大規模なデータセットです。 Avraeボットは、人々がD&Dをオンラインでプレイし、言語、ゲームコマンド、そして基礎となるゲーム状態情報をキャプチャするのを助けるために開発された。 本稿では,avrae状態情報を用いて,自動計測と品質判断の両方を改善し,自然言語生成(nlg)を改善できることを実証する。 さらに,LLMは,特に微調整後に実行可能なAvraeコマンドを生成することができることを示す。

Dungeons & Dragons (D&D) is a tabletop roleplaying game with complex natural language interactions between players and hidden state information. Recent work has shown that large language models (LLMs) that have access to state information can generate higher quality game turns than LLMs that use dialog history alone. However, previous work used game state information that was heuristically created and was not a true gold standard game state. We present FIREBALL, a large dataset containing nearly 25,000 unique sessions from real D&D gameplay on Discord with true game state info. We recorded game play sessions of players who used the Avrae bot, which was developed to aid people in playing D&D online, capturing language, game commands and underlying game state information. We demonstrate that FIREBALL can improve natural language generation (NLG) by using Avrae state information, improving both automated metrics and human judgments of quality. Additionally, we show that LLMs can generate executable Avrae commands, particularly after finetuning.
翻訳日:2023-05-10 15:20:44 公開日:2023-05-08
# 概要と詳細:構文的にガイドされた粗いコード生成

Outline, Then Details: Syntactically Guided Coarse-To-Fine Code Generation ( http://arxiv.org/abs/2305.00909v2 )

ライセンス: Link先を確認
Wenqing Zheng, S P Sharan, Ajay Kumar Jaiswal, Kevin Wang, Yihan Xi, Dejia Xu, Zhangyang Wang(参考訳) 複雑なアルゴリズムでは、人間のプログラマによる実装は通常、粗い制御フローの概要から始まり、反復的な拡張が続き、最終的に階層内の注意深く生成された構文構造と変数が生成される。 しかし、最先端の大規模言語モデルは「アウトライン・then-detail」という構造化思考過程を反映する中間的なウォームアップを伴わず、単一のパスでコードを生成する。 近年のchain-of-thought プロンプトの成功に触発されて,python コードを段階的に生成するプログラム合成言語モデル chaincoder を提案する。 まず、ソースコードを抽象構文木解析によりレイアウトフレームコンポーネントとアクセサリコンポーネントに分解し、階層表現を構築する。 次に、予測対象をマルチパス対象に再構成し、各パスがサブシーケンスを生成し、階層構造に連結する。 最後に、自然言語記述と構文的に整合したI/Oデータサンプルを共同符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。 大規模な評価では、ChainCoderは最先端技術よりも優れており、我々の進歩的な生成が推論手順を緩和し、言語モデルに高品質なソリューションを生成することを実証している。 私たちのコードは、https://github.com/VITA-Group/ChainCoder.comで利用可能です。

For a complicated algorithm, its implementation by a human programmer usually starts with outlining a rough control flow followed by iterative enrichments, eventually yielding carefully generated syntactic structures and variables in a hierarchy. However, state-of-the-art large language models generate codes in a single pass, without intermediate warm-ups to reflect the structured thought process of "outline-then-detail". Inspired by the recent success of chain-of-thought prompting, we propose ChainCoder, a program synthesis language model that generates Python code progressively, i.e. from coarse to fine in multiple passes. We first decompose source code into layout frame components and accessory components via abstract syntax tree parsing to construct a hierarchical representation. We then reform our prediction target into a multi-pass objective, each pass generates a subsequence, which is concatenated in the hierarchy. Finally, a tailored transformer architecture is leveraged to jointly encode the natural language descriptions and syntactically aligned I/O data samples. Extensive evaluations show that ChainCoder outperforms state-of-the-arts, demonstrating that our progressive generation eases the reasoning procedure and guides the language model to generate higher-quality solutions. Our codes are available at: https://github.com/VITA-Group/ChainCoder.
翻訳日:2023-05-10 15:19:37 公開日:2023-05-08
# Diffusion Explainer: テキスト間安定拡散のための視覚的説明

Diffusion Explainer: Visual Explanation for Text-to-image Stable Diffusion ( http://arxiv.org/abs/2305.03509v2 )

ライセンス: Link先を確認
Seongmin Lee, Benjamin Hoover, Hendrik Strobelt, Zijie J. Wang, ShengYun Peng, Austin Wright, Kevin Li, Haekyu Park, Haoyang Yang, Duen Horng Chau(参考訳) 拡散に基づく生成モデルによる説得力のある画像の作成能力は、世界的な注目を集めている。 しかし、それらの複雑な内部構造や操作は、非専門家が理解しにくいことが多い。 私たちはDiffusion Explainerを紹介します。Diffusionは、テキストプロンプトを画像に変換する方法を説明する最初のインタラクティブな可視化ツールです。 Diffusion Explainerは、Stable Diffusionの複雑なコンポーネントの視覚的概要を根底にある操作の詳細な説明と密に統合し、ユーザはアニメーションとインタラクティブな要素を通じて、複数のレベルの抽象化を流動的に移行することができる。 2つの関連するテキストプロンプトによって導かれる画像表現の進化を時間ステップで比較することで、プロンプトが画像生成に与える影響を見つけることができる。 diffusion explanationerは、インストールや特別なハードウェアを必要とせずに、ユーザのwebブラウザでローカルに動作し、現代のai技術への教育アクセスを広げる。 私たちのオープンソースツールは、https://poloclub.github.io/diffusion-explainer/で利用可能です。 ビデオデモはhttps://youtu.be/zg4gxdiwddsで見ることができる。

Diffusion-based generative models' impressive ability to create convincing images has captured global attention. However, their complex internal structures and operations often make them difficult for non-experts to understand. We present Diffusion Explainer, the first interactive visualization tool that explains how Stable Diffusion transforms text prompts into images. Diffusion Explainer tightly integrates a visual overview of Stable Diffusion's complex components with detailed explanations of their underlying operations, enabling users to fluidly transition between multiple levels of abstraction through animations and interactive elements. By comparing the evolutions of image representations guided by two related text prompts over refinement timesteps, users can discover the impact of prompts on image generation. Diffusion Explainer runs locally in users' web browsers without the need for installation or specialized hardware, broadening the public's education access to modern AI techniques. Our open-sourced tool is available at: https://poloclub.github.io/diffusion-explainer/. A video demo is available at https://youtu.be/Zg4gxdIWDds.
翻訳日:2023-05-10 15:10:27 公開日:2023-05-08
# NerfAcc: 効率的なサンプリングがNeRFを加速

NerfAcc: Efficient Sampling Accelerates NeRFs ( http://arxiv.org/abs/2305.04966v1 )

ライセンス: Link先を確認
Ruilong Li, Hang Gao, Matthew Tancik, Angjoo Kanazawa(参考訳) ボリュームレンダリングに必要な大量のサンプルのため、ニューラルレイディアンスフィールドの最適化とレンダリングは計算コストがかかる。 最近の研究には、彼らのメソッドを加速するための代替サンプリングアプローチが含まれているが、それらはしばしば作業の焦点ではない。 本稿では,複数のサンプリング手法を検討・比較し,改良されたサンプリングは送信推定器の統一的概念の下でNeRFの変種に適用可能であることを示す。 今後の実験を容易にするため,NeRF関連手法に高度なサンプリング手法を組み込むための柔軟なAPIを提供するPythonツールボックスであるNerfAccを開発した。 既存のコードベースに最小限の変更を加えることで、最近のNeRFメソッドのトレーニング時間を1.5倍から20倍に短縮できることを示し、その柔軟性を示す。 さらに、Instant-NGPのような高度にカスタマイズされたNeRFは、NerfAccを使用してネイティブのPyTorchで実装できる。

Optimizing and rendering Neural Radiance Fields is computationally expensive due to the vast number of samples required by volume rendering. Recent works have included alternative sampling approaches to help accelerate their methods, however, they are often not the focus of the work. In this paper, we investigate and compare multiple sampling approaches and demonstrate that improved sampling is generally applicable across NeRF variants under an unified concept of transmittance estimator. To facilitate future experiments, we develop NerfAcc, a Python toolbox that provides flexible APIs for incorporating advanced sampling methods into NeRF related methods. We demonstrate its flexibility by showing that it can reduce the training time of several recent NeRF methods by 1.5x to 20x with minimal modifications to the existing codebase. Additionally, highly customized NeRFs, such as Instant-NGP, can be implemented in native PyTorch using NerfAcc.
翻訳日:2023-05-10 14:53:44 公開日:2023-05-08
# リレーショナルプールからサブグラフGNNへ:より表現力のあるグラフニューラルネットワークのためのユニバーサルフレームワーク

From Relational Pooling to Subgraph GNNs: A Universal Framework for More Expressive Graph Neural Networks ( http://arxiv.org/abs/2305.04963v1 )

ライセンス: Link先を確認
Cai Zhou, Xiyuan Wang, Muhan Zhang(参考訳) リレーショナルプーリング(relation pooling)は、より表現豊かで置換不変なグラフニューラルネットワークを構築するためのフレームワークである。 しかし、RP の表現率の正確な拡張と、Weisfeiler Lehman 階層との関係についての理解は限られている。 RPから、メッセージパッシングニューラルネットワークの表現力を改善するために、ノードにラベルを明示的に割り当てることを提案する。 その後、この手法は高次元WLに拡張され、新しい$k,l$-WLアルゴリズムとなり、$k$-WLよりも一般的なフレームワークとなる。 理論的には、$k,l$-WL の表現率を$k$ および $l$ に対して解析し、多数のサブグラフ GNN で統一する。 複雑度低減法はまた、強力で実用的な$k,l$-GNNインスタンスを構築するために体系的に議論されている。 我々は,本手法が普遍的互換であり,任意のベースgnnモデルの表現性を向上させることができることを理論的および実験的に証明する。 当社の$k,l$-gnnは多くの合成および実世界のデータセットで優れたパフォーマンスを達成しています。

Relational pooling is a framework for building more expressive and permutation-invariant graph neural networks. However, there is limited understanding of the exact enhancement in the expressivity of RP and its connection with the Weisfeiler Lehman hierarchy. Starting from RP, we propose to explicitly assign labels to nodes as additional features to improve expressive power of message passing neural networks. The method is then extended to higher dimensional WL, leading to a novel $k,l$-WL algorithm, a more general framework than $k$-WL. Theoretically, we analyze the expressivity of $k,l$-WL with respect to $k$ and $l$ and unifies it with a great number of subgraph GNNs. Complexity reduction methods are also systematically discussed to build powerful and practical $k,l$-GNN instances. We theoretically and experimentally prove that our method is universally compatible and capable of improving the expressivity of any base GNN model. Our $k,l$-GNNs achieve superior performance on many synthetic and real-world datasets, which verifies the effectiveness of our framework.
翻訳日:2023-05-10 14:53:28 公開日:2023-05-08
# 自然言語クエリによる共同モーメント検索とハイライト検出

Joint Moment Retrieval and Highlight Detection Via Natural Language Queries ( http://arxiv.org/abs/2305.04961v1 )

ライセンス: Link先を確認
Richard Luo, Austin Peng, Heidi Yap and Koby Beard(参考訳) ビデオ要約は、インターネットで利用可能な膨大なビデオコンテンツのため、コンピュータビジョンの分野でますます重要なタスクになっている。 本研究では,マルチモーダルトランスフォーマーを用いた自然言語問合せに基づく映像要約とハイライト検出のための新しい手法を提案する。 このアプローチでは、ビジュアルとオーディオの両方のヒントを使用して、ユーザの自然言語クエリをマッチさせて、ビデオから最も重要で興味深いモーメントを検索する。 提案手法では、視覚変換器(ViT)で使用される複数の手法を用いて、トランスフォーマライクなエンコーダデコーダモデルを作成する。 提案手法の柔軟性を示すために,YouTube Highlights や TVSum などの複数のデータセットに対するアプローチを評価した。

Video summarization has become an increasingly important task in the field of computer vision due to the vast amount of video content available on the internet. In this project, we propose a new method for natural language query based joint video summarization and highlight detection using multi-modal transformers. This approach will use both visual and audio cues to match a user's natural language query to retrieve the most relevant and interesting moments from a video. Our approach employs multiple recent techniques used in Vision Transformers (ViTs) to create a transformer-like encoder-decoder model. We evaluated our approach on multiple datasets such as YouTube Highlights and TVSum to demonstrate the flexibility of our proposed method.
翻訳日:2023-05-10 14:53:08 公開日:2023-05-08
# 量子誤差緩和古典影

Quantum Error Mitigated Classical Shadows ( http://arxiv.org/abs/2305.04956v1 )

ライセンス: Link先を確認
Hamza Jnane, Jonathan Steinberg, Zhenyu Cai, H. Chau Nguyen, B\'alint Koczor(参考訳) 古典的な影は量子状態$\rho$の多くの性質を非常に少ない測定で学べる。 しかし、短期的および早期のフォールトトレラント量子コンピュータはノイズの多い量子状態$\rho$しか準備できないため、理想的でノイズのない状態$\rho_{id}$の性質を効率的に学習することは非常に難しい。 本研究では,単一期待値の誤差を緩和するために開発された確率的エラーキャンセラ (pec) やゼロノイズ補間 (zne) や対称性検証 (sv) などの誤差緩和手法を検討し,従来の影における誤差の緩和を一般化する。 PECシャドウは理想量子状態$\rho_{id}$の偏りのない推定器であり、$\rho_{id}$の多くの線形特性を同時に予測するサンプル複雑性は、誤差緩和によるサンプルオーバーヘッドである乗算係数にアプローチする従来のシャドウのものと同一である。 シャドーの効率的な後処理のため、このオーバーヘッドはキュービットの数に直接依存せず、ノイズゲートの数とともに指数関数的に増加する。 本研究で導入された幅広いツールセットは,短期的および早期のフォールトトレラント量子コンピュータの活用に寄与する可能性がある。

Classical shadows enable us to learn many properties of a quantum state $\rho$ with very few measurements. However, near-term and early fault-tolerant quantum computers will only be able to prepare noisy quantum states $\rho$ and it is thus a considerable challenge to efficiently learn properties of an ideal, noise free state $\rho_{id}$. We consider error mitigation techniques, such as Probabilistic Error Cancellation (PEC), Zero Noise Extrapolation (ZNE) and Symmetry Verification (SV) which have been developed for mitigating errors in single expected value measurements and generalise them for mitigating errors in classical shadows. We find that PEC is the most natural candidate and thus develop a thorough theoretical framework for PEC shadows with the following rigorous theoretical guarantees: PEC shadows are an unbiased estimator for the ideal quantum state $\rho_{id}$; the sample complexity for simultaneously predicting many linear properties of $\rho_{id}$ is identical to that of the conventional shadows approach up to a multiplicative factor which is the sample overhead due to error mitigation. Due to efficient post-processing of shadows, this overhead does not depend directly on the number of qubits but rather grows exponentially with the number of noisy gates. The broad set of tools introduced in this work may be instrumental in exploiting near-term and early fault-tolerant quantum computers: We demonstrate in detailed numerical simulations a range of practical applications of quantum computers that will significantly benefit from our techniques.
翻訳日:2023-05-10 14:52:56 公開日:2023-05-08
# ゲートレベルでのプリコンパイルを用いた量子回路のコンパイル時間を短縮する

Reducing the Compilation Time of Quantum Circuits Using Pre-Compilation on the Gate Level ( http://arxiv.org/abs/2305.04941v1 )

ライセンス: Link先を確認
Nils Quetschlich, Lukas Burgholzer, Robert Wille(参考訳) 量子コンピューティングアプリケーションを実装するためには、問題インスタンスを量子回路にエンコードし、特定のプラットフォーム向けにコンパイルする必要がある。 長いコンパイルプロセスは、このワークフローにおける重要なボトルネックであり、特に、同じだが異なる構造で繰り返し発生する問題(それぞれがこれまで新しいコンパイル実行を必要としている)に対してである。 本稿では,繰り返し発生する問題のコンパイルに要する時間を最小限に抑えるとともに,解の質を極力保ちつつ,このボトルネックを克服することを目的としている。 問題クラスと対応する量子アルゴリズムから始めると、代表的な問題インスタンスをその問題クラスの汎用量子回路にエンコードするために予測符号化スキームが適用される。 実問題インスタンスが知られると、以前に構築された回路は(ほぼ)コンパイル不要で調整されるだけで済みます。 MaxCut問題に対するQAOAと衛星ミッション計画問題に関するケーススタディの実験的評価により,提案手法は,同等のコンパイル回路品質を維持しながら,Qiskitのコンパイル方式と比較して,数桁のコンパイル時間を著しく短縮することを示した。

In order to implement a quantum computing application, problem instances must be encoded into a quantum circuit and then compiled for a specific platform. The lengthy compilation process is a key bottleneck in this workflow, especially for problems that arise repeatedly with a similar yet distinct structure (each of which requires a new compilation run thus far). In this paper, we aim to overcome this bottleneck by proposing a comprehensive pre-compilation technique that tries to minimize the time spent for compiling recurring problems while preserving the solution quality as much as possible. The following concepts underpin the proposed approach: Beginning with a problem class and a corresponding quantum algorithm, a predictive encoding scheme is applied to encode a representative problem instance into a general-purpose quantum circuit for that problem class. Once the real problem instance is known, the previously constructed circuit only needs to be adjusted-with (nearly) no compilation necessary. Experimental evaluations on QAOA for the MaxCut problem as well as a case study involving a satellite mission planning problem show that the proposed approach significantly reduces the compilation time by several orders of magnitude compared to Qiskit's compilation schemes while maintaining comparable compiled circuit quality.
翻訳日:2023-05-10 14:52:28 公開日:2023-05-08
# EarlyBIRDがバグに対処:より効率的なコード分類のためのエンコーダモデルの早期レイヤの爆発について

The EarlyBIRD Catches the Bug: On Exploiting Early Layers of Encoder Models for More Efficient Code Classification ( http://arxiv.org/abs/2305.04940v1 )

ライセンス: Link先を確認
Anastasiia Grishina and Max Hort and Leon Moonen(参考訳) 最新の自然言語処理(NLP)技術は、脆弱性検出や型推論といったソフトウェア工学のタスクに有用であることが示されている。 しかし、深層NLPモデルのトレーニングにはかなりの計算資源が必要である。 本稿では,これらのモデルにおける資源と利用可能な情報の最適利用を目的とした手法について検討する。 我々は,事前学習したトランスフォーマーモデルの初期層からコードの複合表現を構築するための汎用的手法であるearlybirdを提案する。 CodeBERTモデルにおけるこのアプローチの有効性を,合成表現を生成する12の戦略の性能と,最後のエンコーダ層のみを用いた標準手法の比較により実証的に検討した。 4つのデータセットに対する評価の結果,早期層の組み合わせにより欠陥検出性能が向上し,複数クラス分類が向上した。 より具体的には、CodeBERTの12層中3層と微調整の3.3倍のスピードアップでDevignの検出精度が平均+2向上する。 これらの結果から,早期のレイヤは同じリソースを用いてより良い結果を得ることができ,微調整や推論の際のリソース使用量を削減できることがわかった。

The use of modern Natural Language Processing (NLP) techniques has shown to be beneficial for software engineering tasks, such as vulnerability detection and type inference. However, training deep NLP models requires significant computational resources. This paper explores techniques that aim at achieving the best usage of resources and available information in these models. We propose a generic approach, EarlyBIRD, to build composite representations of code from the early layers of a pre-trained transformer model. We empirically investigate the viability of this approach on the CodeBERT model by comparing the performance of 12 strategies for creating composite representations with the standard practice of only using the last encoder layer. Our evaluation on four datasets shows that several early layer combinations yield better performance on defect detection, and some combinations improve multi-class classification. More specifically, we obtain a +2 average improvement of detection accuracy on Devign with only 3 out of 12 layers of CodeBERT and a 3.3x speed-up of fine-tuning. These findings show that early layers can be used to obtain better results using the same resources, as well as to reduce resource usage during fine-tuning and inference.
翻訳日:2023-05-10 14:52:10 公開日:2023-05-08
# 開2ビット系におけるマルコフフィードバックによる絡み合い生成

Entanglement generation through Markovian feed-back in open two-qubit systems ( http://arxiv.org/abs/2305.05008v1 )

ライセンス: Link先を確認
Fabio Benatti, Francesca Gebbia, Stefano Pisoni(参考訳) 散逸ダイナミクスを減らしたアプリオリではなく、フィルタやマルコフフィードバックの対象とする開2量子ビット系における絡み合いの発生と長期持続性について論じる。 特に私たちは分析的に 1) 後者の操作が短時間に絡み合いを発生させる環境能力を高めることができるか否か 2) 生成したエンタグルメントが長期体制で存続するか否か。 特に対称なゴリーニ・コサコフスキー・スダルシャン・リンドブラッド(GKSL)の場合、二量子還元力学の定常状態の凸集合を完全に制御することができ、したがって初期2量子状態の漸近挙動が完全に制御可能であることを示す。 次に、適切なフィードバック操作のクラスが考慮されたダイナミクスに与える影響について検討する。

We discuss the generation and the long-time persistence of entanglement in open two-qubit systems whose reduced dissipative dynamics is not apriori engineered but is instead subjected to filtering and Markovian feedback. In particular, we analytically study 1.) whether the latter operations may enhance the environment capability of generating entanglement at short times and 2.) whether the generated entaglement survives in the long-time regime. We show that, in the case of particularly symmetric Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) it is possible to fully control the convex set of stationary states of the two-qubit reduced dynamics, therefore the asymptotic behaviour of any initial two-qubit state. We then study the impact of a suitable class of feed-back operations on the considered dynamics.
翻訳日:2023-05-10 14:44:02 公開日:2023-05-08
# 利用可能なプライバシー・セキュリティ研究の地理的多様性に関する調査研究

A Survey on the Geographic Diversity of Usable Privacy and Security Research ( http://arxiv.org/abs/2305.05004v1 )

ライセンス: Link先を確認
Ayako A. Hasegawa, Daisuke Inoue, Mitsuaki Akiyama(参考訳) ヒューマン・コンピュータ・インタラクション(HCI)、心理学、行動科学などのヒューマンファクター分野において、被験者のサンプルはWEIRD、すなわち、主に西洋、教育、工業化、リッチ、民主社会から来ていると懸念されている。 このWEIRDスキューは、研究結果の一般化可能性に影響し、多様な参加者の理解と文化的差異を妨げる可能性がある。 利用可能なプライバシーとセキュリティ(ups)分野は、hciのようなヒューマンファクタ分野の研究から多くの研究方法論を継承している。 ups論文の参加者サンプルが奇妙である程度と、欧米の参加者を募集する各ユーザ研究における方法論や研究トピックの特徴を理解するため、文献レビューを行った。 UPS の WEIRD に対するスキューは HCI のスキューよりも大きいことがわかった。 研究手法と採用手法における地理的および言語的障壁は、研究者がローカルにユーザー研究を行う原因となる可能性がある。 さらに、多くの論文は参加者の人口統計を報告しなかったため、報告された研究の複製を妨げる可能性があり、再現性が低かった。 本稿では,複製研究の促進,再現性の向上,研究と採用手法の課題への対処,研究者の多様化,非WEIRD人口に対する研究の促進など,地理的多様性を改善するための提案を行う。

In human factor fields such as human-computer interaction (HCI), psychology, and behavioral sciences, researchers have been concerned that participant samples are skewed toward WEIRD, i.e., participants mostly come from Western, Educated, Industrialized, Rich, and Democratic societies. This WEIRD skew may affect the generalizability of study results and hinder understanding of diverse participant populations and their cultural differences. The usable privacy and security (UPS) field has inherited many research methodologies from research on human factor fields such as HCI. We conducted a literature review to understand the extent to which participant samples in UPS papers were WEIRD and the characteristics of the methodologies and research topics in each user study recruiting Western or non-Western participants. We found that the skew toward WEIRD in UPS is greater than that in HCI. Geographic and linguistic barriers in the study methods and recruitment methods may cause researchers to conduct a user study locally. In addition, many papers did not report participant demographics, which could hinder the replication of the reported studies, leading to low reproducibility. We provide the following suggestions to improve geographic diversity: facilitate replication studies, improve reproducibility, address issues of study and recruiting methods, diversify researchers, and facilitate research on the topics for non-WEIRD populations.
翻訳日:2023-05-10 14:43:45 公開日:2023-05-08
# 大規模言語モデルにおける関係抽出の再検討

Revisiting Relation Extraction in the era of Large Language Models ( http://arxiv.org/abs/2305.05003v1 )

ライセンス: Link先を確認
Somin Wadhwa and Silvio Amir and Byron C. Wallace(参考訳) 関係抽出(RE)は、テキストからエンティティ間の意味的関係を推測するコアNLPタスクである。 標準教師付きRE技術は、エンティティスパンを構成するトークンをタグ付けし、それらの関係を予測するためのトレーニングモジュールを提供する。 最近の研究は、この問題を「emph{sequence-to-sequence}」タスクとして扱い、入力に条件付けされたターゲット文字列としてエンティティ間の関係を線形化する。 ここでは、従来の作業よりも大きい言語モデル(GPT-3とFlan-T5)を用いて、標準的なREタスクの性能を様々なレベルの監督下で評価し、このアプローチの限界を推し進める。 我々は、正確なマッチングに頼る代わりに、人間による評価を行うことにより、REに対する生成的アプローチを評価することに固有の問題に対処する。 改良された評価では,(1) GPT-3 を用いたショットプロンプトは SOTA に近い性能,すなわち,既存の完全教師付きモデルとほぼ同等である。(2) Flan-T5 は,ショットセットではあまり機能しないが,チェーン・オブ・ソート(CoT) スタイルの説明(GPT-3 で生成)でそれを監視・微調整することで SOTA の結果が得られる。 このモデルをreタスクの新しいベースラインとしてリリースします。

Relation extraction (RE) is the core NLP task of inferring semantic relationships between entities from text. Standard supervised RE techniques entail training modules to tag tokens comprising entity spans and then predict the relationship between them. Recent work has instead treated the problem as a \emph{sequence-to-sequence} task, linearizing relations between entities as target strings to be generated conditioned on the input. Here we push the limits of this approach, using larger language models (GPT-3 and Flan-T5 large) than considered in prior work and evaluating their performance on standard RE tasks under varying levels of supervision. We address issues inherent to evaluating generative approaches to RE by doing human evaluations, in lieu of relying on exact matching. Under this refined evaluation, we find that: (1) Few-shot prompting with GPT-3 achieves near SOTA performance, i.e., roughly equivalent to existing fully supervised models; (2) Flan-T5 is not as capable in the few-shot setting, but supervising and fine-tuning it with Chain-of-Thought (CoT) style explanations (generated via GPT-3) yields SOTA results. We release this model as a new baseline for RE tasks.
翻訳日:2023-05-10 14:43:23 公開日:2023-05-08
# GersteinLab at MEDIQA-Chat 2023: ファインチューニングとインコンテキスト学習による博士論文の要約

GersteinLab at MEDIQA-Chat 2023: Clinical Note Summarization from Doctor-Patient Conversations through Fine-tuning and In-context Learning ( http://arxiv.org/abs/2305.05001v1 )

ライセンス: Link先を確認
Xiangru Tang, Andrew Tran, Jeffrey Tan, Mark Gerstein(参考訳) 本稿では、サブタスクAとサブタスクBの両方を含むMEDIQA-2023ダイアログ2ノート共有タスクへの貢献について述べる。 (a)事前訓練された対話要約モデルとGPT-3の微調整 (b)大規模言語モデル GPT-4 を用いた少数ショットインコンテキスト学習(ICL)。 どちらの方法も rouge-1 f1, bertscore f1 (deberta-xlarge-mnli), bleurt でそれぞれ 0.4011, 0.7058, 0.5421 の点数で優れた結果を得た。 さらに、RoBERTaとSciBERTに基づく分類モデルを用いて、関連するセクションヘッダーを予測する。 私たちのチームは全チームの中で4位にランクインし、各チームは提出の一部として3ランを提出することができます。 ICL GPT-4で生成されたメモは、他のすべてのベースラインよりも優れていることを示すために、専門家アノテーションも利用しています。 私たちの提出のコードは利用可能です。

This paper presents our contribution to the MEDIQA-2023 Dialogue2Note shared task, encompassing both subtask A and subtask B. We approach the task as a dialogue summarization problem and implement two distinct pipelines: (a) a fine-tuning of a pre-trained dialogue summarization model and GPT-3, and (b) few-shot in-context learning (ICL) using a large language model, GPT-4. Both methods achieve excellent results in terms of ROUGE-1 F1, BERTScore F1 (deberta-xlarge-mnli), and BLEURT, with scores of 0.4011, 0.7058, and 0.5421, respectively. Additionally, we predict the associated section headers using RoBERTa and SciBERT based classification models. Our team ranked fourth among all teams, while each team is allowed to submit three runs as part of their submission. We also utilize expert annotations to demonstrate that the notes generated through the ICL GPT-4 are better than all other baselines. The code for our submission is available.
翻訳日:2023-05-10 14:42:56 公開日:2023-05-08
# LUCAS写真を用いた深層学習による作物の識別

Crop identification using deep learning on LUCAS crop cover photos ( http://arxiv.org/abs/2305.04994v1 )

ライセンス: Link先を確認
Momchil Yordanov, Raphael d'Andrimont, Laura Martinez-Sanchez, Guido Lemoine, Dominique Fasbender, Marijn van der Velde(参考訳) 地上画像の深層学習による作物分類は、様々な利害関係者にタイムリーで正確な作物情報を提供することができる。 専用地上画像取得訓練は、データ不足領域のデータ収集、収集タイミングの制御の改善、または研究領域が衛星による監視に小さい場合に役立つ。 大量のデータを集めるには自動ラベリングが不可欠である。 そのようなデータ収集の1つはEUの土地利用カバーエリアフレームサーベイ(LUCAS)であり、特に最近公開されたLUCASカバー写真データベースである。 本研究の目的は,EUの12大作物を対象に,LUCASのサブセットを選択して公開し,分類タスクにおけるMobile-netの最適構成をデプロイし,ベンチマークし,特定し,結果の後処理にエントロピーベースのメトリクスを使用する可能性を示し,最終的に実用的かつ政策的な文脈でモデルの応用と限界を示すことである。 特に、地理的タグ付き写真上で自動的に作物を識別するの有用性は、euの共通農業政策の文脈で示されている。 この研究は、12階級の熟成作物の169,460枚の画像のデータセットを作成し、そのうち15,876点が、異物や好ましくない条件のないクリーンサンプルとして手動で選択された。 最高のパフォーマンスモデルは、8,642枚の不均衡なテストデータセットで0.75のマクロF1(M-F1)を達成した。 等価参照確率(Equivalence Reference Probability)という情報理論のメトリクスを使用することで、6%の増加を実現した。 これらの画像撮影の最も好ましくない条件は、すべての作物のクラスで、季節の早すぎるか遅すぎることが判明した。 提案手法は,12種類のヨーロッパ作物をラベル付けするための0.817のM-F1を達成するために,画像の外部で最小の補助データを使用する可能性を示す。

Crop classification via deep learning on ground imagery can deliver timely and accurate crop-specific information to various stakeholders. Dedicated ground-based image acquisition exercises can help to collect data in data scarce regions, improve control on timing of collection, or when study areas are to small to monitor via satellite. Automatic labelling is essential when collecting large volumes of data. One such data collection is the EU's Land Use Cover Area frame Survey (LUCAS), and in particular, the recently published LUCAS Cover photos database. The aim of this paper is to select and publish a subset of LUCAS Cover photos for 12 mature major crops across the EU, to deploy, benchmark, and identify the best configuration of Mobile-net for the classification task, to showcase the possibility of using entropy-based metrics for post-processing of results, and finally to show the applications and limitations of the model in a practical and policy relevant context. In particular, the usefulness of automatically identifying crops on geo-tagged photos is illustrated in the context of the EU's Common Agricultural Policy. The work has produced a dataset of 169,460 images of mature crops for the 12 classes, out of which 15,876 were manually selected as representing a clean sample without any foreign objects or unfavorable conditions. The best performing model achieved a Macro F1 (M-F1) of 0.75 on an imbalanced test dataset of 8,642 photos. Using metrics from information theory, namely - the Equivalence Reference Probability, resulted in achieving an increase of 6%. The most unfavorable conditions for taking such images, across all crop classes, were found to be too early or late in the season. The proposed methodology shows the possibility for using minimal auxiliary data, outside the images themselves, in order to achieve a M-F1 of 0.817 for labelling between 12 major European crops.
翻訳日:2023-05-10 14:42:36 公開日:2023-05-08
# 説明に基づく微調整でモデルがより堅牢になる

Explanation-based Finetuning Makes Models More Robust to Spurious Cues ( http://arxiv.org/abs/2305.04990v1 )

ライセンス: Link先を確認
Josh Magnus Ludan, Yixuan Meng, Tai Nguyen, Saurabh Shah, Qing Lyu, Marianna Apidianaki, Chris Callison-Burch(参考訳) 大規模言語モデル(llm)は非常に強力であり、時としてそのタスクとは無関係なラベルと特徴の間の相関を学習し、分散データの一般化が不十分になる。 本稿では,LLMの素早い相関性への依存を軽減するために,説明に基づく微調整を提案する。 モデルが入力に対してのみ応答を予測する標準的な微調整とは異なり、我々はモデルにその応答をサポートする自由文説明を付加するように微調整する。 提案手法を評価するため, 異なる種類の刺激的手がかりを含む人工的に構築したトレーニングセット上でモデルを微調整し, テストセット上でテストする。 標準的な微調整と比較して,ComVE (+1.2), CREAK (+9.1), e-SNLI (+15.4), SBIC (+6.5) の4つの分類課題にまたがる精度低下の点から, モデルが驚くほど堅牢になる。 さらに,本手法はモデルが生成する説明と同等に機能し,人間が記述した説明を伴わずにより多くのデータセットに適用できることを示す。

Large Language Models (LLMs) are so powerful that they sometimes learn correlations between labels and features that are irrelevant to the task, leading to poor generalization on out-of-distribution data. We propose explanation-based finetuning as a novel and general approach to mitigate LLMs' reliance on spurious correlations. Unlike standard finetuning where the model only predicts the answer given the input, we finetune the model to additionally generate a free-text explanation supporting its answer. To evaluate our method, we finetune the model on artificially constructed training sets containing different types of spurious cues, and test it on a test set without these cues. Compared to standard finetuning, our method makes models remarkably more robust against spurious cues in terms of accuracy drop across four classification tasks: ComVE (+1.2), CREAK (+9.1), e-SNLI (+15.4), and SBIC (+6.5). Moreover, our method works equally well with explanations generated by the model, implying its applicability to more datasets without human-written explanations.
翻訳日:2023-05-10 14:42:03 公開日:2023-05-08
# ユーザ信頼のための知識グラフによる言語モデルのセマンティック評価

Knowledge Graph Guided Semantic Evaluation of Language Models For User Trust ( http://arxiv.org/abs/2305.04989v1 )

ライセンス: Link先を確認
Kaushik Roy, Tarun Garg, Vedant Palit, Yuxin Zi, Vignesh Narayanan, Amit Sheth(参考訳) 自然言語処理における基本的な質問は、言語モデルが捉えている言語構造とセマンティクスである。 知識グラフのようなグラフ形式は、言語のセマンティクスと構造を明示的に表現するため、簡単に評価できる。 本研究では, 明示的なナレッジグラフ構造を用いて, 自己着脱トランスフォーマーに符号化された意味論を評価する。 本稿では,ナレッジグラフからグラフパスシーケンスを提供し,自己着脱変圧器モデルの出力からそれを再現・再構成しようとする場合の再構成誤差を測定するための新しい指標を提案する。 言語モデルの不透明さは、信頼と説明可能な決定結果の社会的問題に大きく影響している。 以上より,言語モデルは確率的制御過程のモデルであることが示唆された。 しかし、オブジェクトや概念レベルの意味や意味を知識グラフに記述されたような学習された確率的パターンには記述しない。 さらに,言語モデルによる概念理解の堅牢な評価を可能にするため,汎用言語理解評価(GLUE)ベンチマーク上に構築された拡張言語理解ベンチマークを構築し,公開する。 これは、強い意味感覚のない確率的パターンとして、アプリケーションレベルのユーザ信頼が、高信頼のアプリケーションでは信頼できない、という重要な意味を持っている。

A fundamental question in natural language processing is - what kind of language structure and semantics is the language model capturing? Graph formats such as knowledge graphs are easy to evaluate as they explicitly express language semantics and structure. This study evaluates the semantics encoded in the self-attention transformers by leveraging explicit knowledge graph structures. We propose novel metrics to measure the reconstruction error when providing graph path sequences from a knowledge graph and trying to reproduce/reconstruct the same from the outputs of the self-attention transformer models. The opacity of language models has an immense bearing on societal issues of trust and explainable decision outcomes. Our findings suggest that language models are models of stochastic control processes for plausible language pattern generation. However, they do not ascribe object and concept-level meaning and semantics to the learned stochastic patterns such as those described in knowledge graphs. Furthermore, to enable robust evaluation of concept understanding by language models, we construct and make public an augmented language understanding benchmark built on the General Language Understanding Evaluation (GLUE) benchmark. This has significant application-level user trust implications as stochastic patterns without a strong sense of meaning cannot be trusted in high-stakes applications.
翻訳日:2023-05-10 14:41:38 公開日:2023-05-08
# FedHB:階層型ベイズ連邦学習

FedHB: Hierarchical Bayesian Federated Learning ( http://arxiv.org/abs/2305.04979v1 )

ライセンス: Link先を確認
Minyoung Kim, Timothy Hospedales(参考訳) そこで本モデルは,階層ベイズモデルを用いて,クライアントの局所データの生成過程を合理的に記述する,新しい階層ベイズ学習手法を提案する。 興味深いことに、我々のベイズモデルにおける変分推論は、ブロック座標降下ソリューションがクライアント上で分離可能な分散アルゴリズムとなり、彼ら自身のプライベートデータを全く明かさないため、flと完全互換となる最適化問題に繋がる。 また,ブロックコーディネートアルゴリズムには,Fed-AvgやFed-Proxなどのよく知られたFLアルゴリズムを特別なケースとしてサブセットする特別な形式があることを強調した。 新規なモデリングと導出の導入に加えて、我々のブロック座標FLアルゴリズムは、正規(集中)SGDと同じレートのO(1/\sqrt{t})$で目的の(局所)最適値に収束することを示す収束解析や、未確認データに対する我々のモデルのテスト誤差がトレーニングデータサイズの増加とともに消滅することを保証し、漸近的に最適であることを示す一般化誤差解析も提供する。

We propose a novel hierarchical Bayesian approach to Federated Learning (FL), where our model reasonably describes the generative process of clients' local data via hierarchical Bayesian modeling: constituting random variables of local models for clients that are governed by a higher-level global variate. Interestingly, the variational inference in our Bayesian model leads to an optimisation problem whose block-coordinate descent solution becomes a distributed algorithm that is separable over clients and allows them not to reveal their own private data at all, thus fully compatible with FL. We also highlight that our block-coordinate algorithm has particular forms that subsume the well-known FL algorithms including Fed-Avg and Fed-Prox as special cases. Beyond introducing novel modeling and derivations, we also offer convergence analysis showing that our block-coordinate FL algorithm converges to an (local) optimum of the objective at the rate of $O(1/\sqrt{t})$, the same rate as regular (centralised) SGD, as well as the generalisation error analysis where we prove that the test error of our model on unseen data is guaranteed to vanish as we increase the training data size, thus asymptotically optimal.
翻訳日:2023-05-10 14:41:21 公開日:2023-05-08
# Neurocomparatives:Neuro-Symbolic Distillation of Comparison Knowledge

NeuroComparatives: Neuro-Symbolic Distillation of Comparative Knowledge ( http://arxiv.org/abs/2305.04978v1 )

ライセンス: Link先を確認
Phillip Howard, Junlin Wang, Vasudev Lal, Gadi Singer, Yejin Choi, Swabha Swayamdipta(参考訳) 比較知識(例えば、鋼鉄はスチロフォアムよりも強く重く)は我々の世界知識の重要な要素であるが、以前の文献では未熟である。 本稿では,GPT-3のような超大規模言語モデルの能力が劇的に向上し,知識を知識ベースに抽出する取り組みに拍車をかけた,比較知識獲得の課題について考察する。 しかし、そのようなモデルの推論apiへのアクセスは限られており、知識獲得の範囲と多様性が制限されている。 gpt-2のようなよりアクセスしやすいが、より小さく、より弱いモデルを使って比較知識を得ることができるか、つまり、結果として得られる品質は、彼らの大規模モデルと同等か? 我々は,語彙制約付き復号を用いた比較知識蒸留のための新しいフレームワークであるneuro superlativesを紹介し,生成した知識の厳密なフィルタリングを行う。 我々のフレームワークは、日常のオブジェクト間の比較知識を取得し、その結果、既存のリソースより10倍大きく、30%多様である1.74万以上のエンティティペアのコーパスを8.7Mのコーパスで比較する。 さらに、人間による評価では、NuroComparativesは100倍の小さなモデルを使用しても、GPT-3を含む既存のリソース(最大32%の改善)を上回っている。 本研究は, 限られた推論アクセスを持つ超大規模言語モデルに頼って, より小型モデルの神経象徴的操作を, コスト効率のよい代替手段とするものである。

Comparative knowledge (e.g., steel is stronger and heavier than styrofoam) is an essential component of our world knowledge, yet understudied in prior literature. In this paper, we study the task of comparative knowledge acquisition, motivated by the dramatic improvements in the capabilities of extreme-scale language models like GPT-3, which have fueled efforts towards harvesting their knowledge into knowledge bases. However, access to inference API for such models is limited, thereby restricting the scope and the diversity of the knowledge acquisition. We thus ask a seemingly implausible question: whether more accessible, yet considerably smaller and weaker models such as GPT-2, can be utilized to acquire comparative knowledge, such that the resulting quality is on par with their large-scale counterparts? We introduce NeuroComparatives, a novel framework for comparative knowledge distillation using lexically-constrained decoding, followed by stringent filtering of generated knowledge. Our framework acquires comparative knowledge between everyday objects and results in a corpus of 8.7M comparisons over 1.74M entity pairs - 10X larger and 30% more diverse than existing resources. Moreover, human evaluations show that NeuroComparatives outperform existing resources (up to 32% absolute improvement), even including GPT-3, despite using a 100X smaller model. Our results motivate neuro-symbolic manipulation of smaller models as a cost-effective alternative to the currently dominant practice of relying on extreme-scale language models with limited inference access.
翻訳日:2023-05-10 14:40:58 公開日:2023-05-08
# LABO:バイレベル最適化による最適ラベル正規化学習に向けて

LABO: Towards Learning Optimal Label Regularization via Bi-level Optimization ( http://arxiv.org/abs/2305.04971v1 )

ライセンス: Link先を確認
Peng Lu, Ahmad Rashid, Ivan Kobyzev, Mehdi Rezagholizadeh, Philippe Langlais(参考訳) ニューラルネットワークの一般化性能とトレーニング効率を向上させるためには,正規化技術が不可欠である。 多くのディープラーニングアルゴリズムは、より速く収束し一般化するために、重みの減衰、ドロップアウト、バッチ/レイヤー正規化に依存する。 Label Smoothing (LS) は、様々な教師付き分類タスクに適用できる、単純で汎用的で効率的な正規化である。 しかし、通常のLSは、トレーニングインスタンスに関係なく、各非ターゲットクラスが等しく可能性が高いと仮定する。 本研究では,従来のLSを含むラベル正規化を用いた学習フレームワークを提案するが,インスタンス固有の変種をモデル化することもできる。 この定式化に基づいて,Bi-level Optimization (LABO) 問題を考案し,効率的なLAbel正規化学習法を提案する。 内部ループの決定論的かつ解釈可能な解を、トレーニングされたモデルのパラメータや出力を保存することなく、最適なラベル平滑化として導出する。 最後に,我々のラボは,従来のラベル正規化よりも,7つの機械翻訳と3つの画像分類タスクを含む様々な分野において,一貫して改善をもたらすことを実証する。

Regularization techniques are crucial to improving the generalization performance and training efficiency of deep neural networks. Many deep learning algorithms rely on weight decay, dropout, batch/layer normalization to converge faster and generalize. Label Smoothing (LS) is another simple, versatile and efficient regularization which can be applied to various supervised classification tasks. Conventional LS, however, regardless of the training instance assumes that each non-target class is equally likely. In this work, we present a general framework for training with label regularization, which includes conventional LS but can also model instance-specific variants. Based on this formulation, we propose an efficient way of learning LAbel regularization by devising a Bi-level Optimization (LABO) problem. We derive a deterministic and interpretable solution of the inner loop as the optimal label smoothing without the need to store the parameters or the output of a trained model. Finally, we conduct extensive experiments and demonstrate our LABO consistently yields improvement over conventional label regularization on various fields, including seven machine translation and three image classification tasks across various
翻訳日:2023-05-10 14:40:29 公開日:2023-05-08
# 複合破壊力学とディジタル画像相関を用いたアスファルトコンクリートのき裂検出

Crack Detection of Asphalt Concrete Using Combined Fracture Mechanics and Digital Image Correlation ( http://arxiv.org/abs/2305.05057v1 )

ライセンス: Link先を確認
Zehui Zhu, Imad L. Al-Qadi(参考訳) ひび割れはアスファルトコンクリート(AC)舗装の一般的な故障モードである。 多くの試験がACの破壊挙動を特徴づけるために開発された。 試験中のき裂の正確な検出は交流破壊挙動を記述するのに不可欠である。 本稿では,2次元ディジタル画像相関 (DIC) を用いた交流検体の表面き裂検出フレームワークを提案する。 この分野での以前の研究における2つの重大な欠点に対処した。 まず, 大規模変形と不連続性によるデコリレーション問題を解決するために, マルチシードインクリメンタル信頼性誘導型DICを提案した。 本手法は合成変形画像を用いて検証した。 正しく実装された解析は、変形した画像に顕著な不連続性(ラック)がある場合でも、450\%までのひずみを正確に測定することができる。 第2に, 変位場に基づくき裂検出のためのロバスト手法を開発した。 提案手法は臨界き裂先端開口変位($\delta_c$)を用いて亀裂発生を定義する。 提案手法は, 十分に発達した破壊力学理論に依存する。 提案しきい値$\delta_c$は物理的意味を持ち、DIC測定から容易に決定できる。 この手法は拡張有限要素モデルを用いて検証した。 このフレームワークは2つの交流混合体上でイリノイ可視性指数試験を行い, ひび割れ伝播速度を測定した。 計算されたレートは、ひび割れポテンシャルに基づいて混合物を区別することができる。 提案手法は,交流き裂現象の特性評価,破壊特性の評価,アスファルト混合試験プロトコルの評価,理論モデルの開発に応用できる。

Cracking is a common failure mode in asphalt concrete (AC) pavements. Many tests have been developed to characterize the fracture behavior of AC. Accurate crack detection during testing is crucial to describe AC fracture behavior. This paper proposed a framework to detect surface cracks in AC specimens using two-dimensional digital image correlation (DIC). Two significant drawbacks in previous research in this field were addressed. First, a multi-seed incremental reliability-guided DIC was proposed to solve the decorrelation issue due to large deformation and discontinuities. The method was validated using synthetic deformed images. A correctly implemented analysis could accurately measure strains up to 450\%, even with significant discontinuities (cracks) present in the deformed image. Second, a robust method was developed to detect cracks based on displacement fields. The proposed method uses critical crack tip opening displacement ($\delta_c$) to define the onset of cleavage fracture. The proposed method relies on well-developed fracture mechanics theory. The proposed threshold $\delta_c$ has a physical meaning and can be easily determined from DIC measurement. The method was validated using an extended finite element model. The framework was implemented to measure the crack propagation rate while conducting the Illinois-flexibility index test on two AC mixes. The calculated rates could distinguish mixes based on their cracking potential. The proposed framework could be applied to characterize AC cracking phenomenon, evaluate its fracture properties, assess asphalt mixture testing protocols, and develop theoretical models.
翻訳日:2023-05-10 14:35:18 公開日:2023-05-08
# 夢は想像以上に「予測可能」

Dreams Are More "Predictable'' Than You Think ( http://arxiv.org/abs/2305.05054v1 )

ライセンス: Link先を確認
Lorenzo Bertolini(参考訳) 一貫した証拠は、ドリームレポートが意味的内容に関して他の種類のテキスト転写物と大きく異なることを示唆している。 さらに、夢レポートはむしろ「普遍的な」テキストの文字列を構成するという夢/眠気研究コミュニティへの広く信じられているようである。 これは、自然言語処理(NLP)ツールを使用して夢のレポートを自動的に分析するアプローチの増加において、注目すべき問題であるかもしれない。 本研究では,現在最先端(SotA)の大規模言語モデル(LLM)を採用して,ウィキペディアなど,他の人工文字列からドリームレポートが逸脱するかどうかについて検討する。 結果は、dreambankがwikipediaから逸脱していないことを示している。 さらに、平均して、シングルドリームレポートはwikipediaの記事よりもかなり予測可能である。 予備的な証拠は、単語数、性別、視覚障害が、モデルにどれだけ予測可能なかを著しく形成できることを示唆している。

A consistent body of evidence suggests that dream reports significantly vary from other types of textual transcripts with respect to semantic content. Furthermore, it appears to be a widespread belief in the dream/sleep research community that dream reports constitute rather ``unique'' strings of text. This might be a notable issue for the growing amount of approaches using natural language processing (NLP) tools to automatically analyse dream reports, as they largely rely on neural models trained on non-dream corpora scraped from the web. In this work, I will adopt state-of-the-art (SotA) large language models (LLMs), to study if and how dream reports deviate from other human-generated text strings, such as Wikipedia. Results show that, taken as a whole, DreamBank does not deviate from Wikipedia. Moreover, on average, single dream reports are significantly more predictable than Wikipedia articles. Preliminary evidence suggests that word count, gender, and visual impairment can significantly shape how predictable a dream report can appear to the model.
翻訳日:2023-05-10 14:34:42 公開日:2023-05-08
# analogical -- 大規模言語モデルのための長文のアナロジーの新しいベンチマーク

ANALOGICAL -- A New Benchmark for Analogy of Long Text for Large Language Models ( http://arxiv.org/abs/2305.05050v1 )

ライセンス: Link先を確認
Thilini Wijesiriwardene, Ruwan Wickramarachchi, Bimal G. Gajera, Shreeyash Mukul Gowaikar, Chandan Gupta, Aman Chadha, Aishwarya Naresh Reganti, Amit Sheth, Amitava Das(参考訳) 過去10年間で、単語レベルの類推という形で、Word2vecのような単語埋め込み手法の品質を評価するための本質的な尺度として重要な役割を果たしてきた。 しかし、現代の大規模言語モデル(LLM)は、GLUEやSuperGLUEのようなベンチマークに基づく外部尺度に基づいて主に評価されており、LLMが長いテキスト間の類似性を引き出すことができるかどうかについてはいくつかの研究がある。 本稿では,6段階の複雑さを持つ長文のアナロジーの分類において,LLMを内在的に評価する新しいベンチマークであるANALOGICALを提案する。 (i)単語 (ii)単語対文 (三)統語論、 (4)否定 (v)以下 (vi)メタファー。 13のデータセットと3つの異なる距離尺度を用いて、意味ベクトル空間における類似のペアを特定するための8つのllmの能力を評価する(例えば、"i can speak two languages"は"i am bilingual"に近く、"i like chocolate"と"i don not like chocolate"は直交する)。 我々の評価では,類推分類法を上昇させる際,llm が類推を識別することがますます困難になっていることがわかった。

Over the past decade, analogies, in the form of word-level analogies, have played a significant role as an intrinsic measure of evaluating the quality of word embedding methods such as word2vec. Modern large language models (LLMs), however, are primarily evaluated on extrinsic measures based on benchmarks such as GLUE and SuperGLUE, and there are only a few investigations on whether LLMs can draw analogies between long texts. In this paper, we present ANALOGICAL, a new benchmark to intrinsically evaluate LLMs across a taxonomy of analogies of long text with six levels of complexity -- (i) word, (ii) word vs. sentence, (iii) syntactic, (iv) negation, (v) entailment, and (vi) metaphor. Using thirteen datasets and three different distance measures, we evaluate the abilities of eight LLMs in identifying analogical pairs in the semantic vector space (e.g., "I can speak two languages" should be closer to "I am bilingual" while "I like chocolate" and "I do not like chocolate" should be orthogonal). Our evaluation finds that it is increasingly challenging for LLMs to identify analogies when going up the analogy taxonomy.
翻訳日:2023-05-10 14:34:13 公開日:2023-05-08
# 色中心量子におけるフォノン誘起デコヒーレンス

Phonon-Induced Decoherence in Color-Center Qubits ( http://arxiv.org/abs/2305.05049v1 )

ライセンス: Link先を確認
Prajit Dhara, Saikat Guha(参考訳) ダイヤモンド中の窒素やシリコン空孔のような固体欠陥の電子スピン状態は、量子通信や計算において主要な量子メモリ候補である。 スピンフォノンカップリング(デコヒーレンスの主要な寄与である)の特定の温度での開量子系モデリングにより、電子スピン量子ビットの密度作用素の時間ダイナミクスが導かれる。 実験で測定したデコヒーレンス率をコラボレートするためにこのモデルを用いる。 さらに、フォトニックベル状態測定により得られたスピンスピンエンタングル状態における蒸留性エンタングルメントの時間的崩壊を導出する。 私たちのモデルの拡張は、例えば、望ましくない超微粒子結合を隣の核スピン環境に含むように、望ましい特性を持つ人工原子量子ビットを工学するための厳密な予測モデルへと道を開くでしょう。

Electron spin states of solid-state defects such as Nitrogen- and Silicon-vacancy {\em color centers} in diamond are a leading quantum-memory candidate for quantum communications and computing. Via open-quantum-systems modeling of spin-phonon coupling -- the major contributor of decoherence -- at a given temperature, we derive the time dynamics of the density operator of an electron-spin qubit. We use our model to corroborate experimentally-measured decoherence rates. We further derive the temporal decay of distillable entanglement in spin-spin entangled states heralded via photonic Bell-state measurements. Extensions of our model to include other decoherence mechanisms, e.g., undesired hyperfine couplings to the neighboring nuclear-spin environment, will pave the way to a rigorous predictive model for engineering artificial-atom qubits with desirable properties.
翻訳日:2023-05-10 14:33:34 公開日:2023-05-08
# 大規模言語モデルの知識蒸留によるWebコンテンツフィルタリング

Web Content Filtering through knowledge distillation of Large Language Models ( http://arxiv.org/abs/2305.05027v1 )

ライセンス: Link先を確認
Tam\'as V\"or\"os, Sean Paul Bergeron, Konstantin Berlin(参考訳) 本稿では,Large Language Models(LLMs)の能力を活用して,Webコンテンツフィルタリングの主な目的である,リスクの高いWebサイトへのアクセスの制限,安全で専門的な作業環境の育成といった,URL分類の最先端のアプローチを紹介する。 提案手法では, LLMを用いて正確な分類を行い, 既存の知識蒸留技術を用いて, Webコンテンツフィルタリングに適したより小型で専門的な学生モデルを作成する。 蒸留の結果,大手セキュリティベンダが収集した顧客テレメトリデータから抽出したwebサイトの分類精度が9~%向上した学生モデルが,urlに基づく30の異なるコンテンツカテゴリに分類され,現在の最先端アプローチを上回った。 我々の学生モデルは、教師のLLMのパフォーマンスを175倍のパラメータで一致させ、大量のURLをインラインでスキャンするためにモデルを使用できるようにし、現在の最先端のアプローチよりも手動でラベル付けされたトレーニングデータを3桁も少なくする。 特定のユースケースによっては、我々のアプローチによって生成された出力を直接返却するか、WebサイトイメージやHTMLを含むよりリソース集約的な操作のためのプリフィルタとして使用できる。

We introduce a state-of-the-art approach for URL categorization that leverages the power of Large Language Models (LLMs) to address the primary objectives of web content filtering: safeguarding organizations from legal and ethical risks, limiting access to high-risk or suspicious websites, and fostering a secure and professional work environment. Our method utilizes LLMs to generate accurate classifications and then employs established knowledge distillation techniques to create smaller, more specialized student models tailored for web content filtering. Distillation results in a student model with a 9\% accuracy rate improvement in classifying websites, sourced from customer telemetry data collected by a large security vendor, into 30 distinct content categories based on their URLs, surpassing the current state-of-the-art approach. Our student model matches the performance of the teacher LLM with 175 times less parameters, allowing the model to be used for in-line scanning of large volumes of URLs, and requires 3 orders of magnitude less manually labeled training data than the current state-of-the-art approach. Depending on the specific use case, the output generated by our approach can either be directly returned or employed as a pre-filter for more resource-intensive operations involving website images or HTML.
翻訳日:2023-05-10 14:33:18 公開日:2023-05-08
# 3次元シーン理解のためのマスク形状予測による自己教師付き事前学習

Self-supervised Pre-training with Masked Shape Prediction for 3D Scene Understanding ( http://arxiv.org/abs/2305.05026v1 )

ライセンス: Link先を確認
Li Jiang, Zetong Yang, Shaoshuai Shi, Vladislav Golyanik, Dengxin Dai, Bernt Schiele(参考訳) マスク信号モデリングは、言語と2d画像の自己教師あり事前学習を大幅に進歩させた。 しかし、3Dシーンの理解においては、まだ完全には研究されていない。 そこで本稿では,3次元シーンでマスキング信号モデリングを行う新しいフレームワークであるMasked Shape Prediction (MSP)を紹介する。 MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。 明示的な形状コンテキストと暗黙の深層形状特徴からなるコンテキストエンハンス形状ターゲットを提案し,形状予測における文脈手がかりの活用を容易にする。 一方、MSPの事前学習アーキテクチャは、点座標からのマスク状形状の漏れを軽減するために慎重に設計されている。 屋内および屋外の両方のデータセットにおける複数の3D理解タスクの実験は、下流のパフォーマンスを継続的に向上させる良い特徴表現の学習におけるMSPの有効性を示す。

Masked signal modeling has greatly advanced self-supervised pre-training for language and 2D images. However, it is still not fully explored in 3D scene understanding. Thus, this paper introduces Masked Shape Prediction (MSP), a new framework to conduct masked signal modeling in 3D scenes. MSP uses the essential 3D semantic cue, i.e., geometric shape, as the prediction target for masked points. The context-enhanced shape target consisting of explicit shape context and implicit deep shape feature is proposed to facilitate exploiting contextual cues in shape prediction. Meanwhile, the pre-training architecture in MSP is carefully designed to alleviate the masked shape leakage from point coordinates. Experiments on multiple 3D understanding tasks on both indoor and outdoor datasets demonstrate the effectiveness of MSP in learning good feature representations to consistently boost downstream performance.
翻訳日:2023-05-10 14:32:55 公開日:2023-05-08
# 低分解能条件を用いた領域非依存画像から画像への変換

Domain Agnostic Image-to-image Translation using Low-Resolution Conditioning ( http://arxiv.org/abs/2305.05023v1 )

ライセンス: Link先を確認
Mohamed Abid, Arman Afrasiyabi, Ihsen Hedhli, Jean-Fran\c{c}ois Lalonde and Christian Gagn\'e(参考訳) 一般的には、画像から画像への変換(i2i)は、翻訳に使われる画像がコンテンツ(例えばポーズ)を共有するが、独自のドメイン固有の情報(例えばスタイル)を持つと仮定して、ドメイン間のマッピングを学習することを目的としている。 ターゲット画像に条件付きで、そのような手法は対象のスタイルを抽出し、ソース画像の内容と組み合わせ、ドメイン間の一貫性を維持する。 提案では,従来の考え方から離れて,対象領域が極めて低解像度 (lr) なイメージで表現されるシナリオを検討し,ドメインが関連づけられたきめ細かな問題に対して,ドメインに依存しない i2i メソッドを提案する。 より具体的には、我々のドメインに依存しないアプローチは、ソース画像からの視覚特徴とLRターゲット画像の低周波情報(例えば、ポーズ、色)を組み合わせた画像を生成することを目的としている。 そこで本研究では,生成モデルのトレーニングに頼って,関連するソース画像の固有情報を共有し,ダウンスケール時のLRターゲット画像と正しく一致した画像を生成する手法を提案する。 本手法をceleba-hqおよびafhqデータセット上で検証し,視覚品質の改善を示す。 定性的,定量的な結果から,ドメイン内画像翻訳を扱う場合,StarGAN v2のような最先端の手法と比較して,現実的なサンプルを生成することがわかった。 アブレーション研究では,色の変化に対して頑健であり,分布外画像にも適用可能であること,最終結果に対する手動制御が可能であることも明らかにした。

Generally, image-to-image translation (i2i) methods aim at learning mappings across domains with the assumption that the images used for translation share content (e.g., pose) but have their own domain-specific information (a.k.a. style). Conditioned on a target image, such methods extract the target style and combine it with the source image content, keeping coherence between the domains. In our proposal, we depart from this traditional view and instead consider the scenario where the target domain is represented by a very low-resolution (LR) image, proposing a domain-agnostic i2i method for fine-grained problems, where the domains are related. More specifically, our domain-agnostic approach aims at generating an image that combines visual features from the source image with low-frequency information (e.g. pose, color) of the LR target image. To do so, we present a novel approach that relies on training the generative model to produce images that both share distinctive information of the associated source image and correctly match the LR target image when downscaled. We validate our method on the CelebA-HQ and AFHQ datasets by demonstrating improvements in terms of visual quality. Qualitative and quantitative results show that when dealing with intra-domain image translation, our method generates realistic samples compared to state-of-the-art methods such as StarGAN v2. Ablation studies also reveal that our method is robust to changes in color, it can be applied to out-of-distribution images, and it allows for manual control over the final results.
翻訳日:2023-05-10 14:32:42 公開日:2023-05-08
# 量子コンピューティングのための駆動量子システムの忠実性とエネルギー

Fidelity and energetics of driven quantum systems for quantum computing ( http://arxiv.org/abs/2305.05019v1 )

ライセンス: Link先を確認
Sagar Silva Pratapsi, Lorenzo Buffoni, Stefano Gherardini(参考訳) 量子コンピュータは、レーザー、マイクロ波、伝導線などの外部の駆動フィールドで動作し、マルチビットレジスタ上で論理演算を実行し、システムを純粋な状態にしておく。 しかし、ドライブと論理系は、ドライブの自由度を追跡した後、量子誤差補正なしでは出力状態の純度が達成されないように関連付けられるかもしれない。 本研究では, 対象量子演算を行う駆動量子論理系に付随する忠実度について, 上下境界を与えることにより, この問題に対処する。 これらの境界は、量子計算を行うために必要なエネルギーに影響を与え、量子力学の原理によって課される最小計算時間の存在に関する量子速度極限論と関連付けられる。 これらの境界をJaynes-Cummingsモデルに適用し、量子計算に必要な最小エネルギー量に関する既知の文献を拡張する結果を与える。

Quantum computers are operated by external driving fields, such as lasers, microwaves or conduction lines, that execute logical operations on multi-qubit registers, leaving the system in a pure state. However, the drive and the logical system might become correlated in such a way that, after tracing out the degrees of freedom of the drive, the purity of the output state will never be achieved without quantum error correction. In this study, we address this issue by providing upper and lower bounds on the fidelity associated with a driven quantum logical system performing a target quantum operation. These bounds have implications on the energy required to perform quantum computation and can be thus related to quantum speed limit arguments about the existence of a minimal computation time imposed by quantum mechanics principles. We apply these bounds to the Jaynes-Cummings model, so as to provide results that extend the already-known literature about the minimum amount of energy required for quantum computation.
翻訳日:2023-05-10 14:32:15 公開日:2023-05-08
# 高次Annealed Langevin拡散を用いた線形逆問題の解法

Solving Linear Inverse Problems using Higher-Order Annealed Langevin Diffusion ( http://arxiv.org/abs/2305.05014v1 )

ライセンス: Link先を確認
Nicolas Zilberstein, Ashutosh Sabharwal, Santiago Segarra(参考訳) 我々は高次ランゲヴィン拡散に基づく線形逆問題に対する解を提案する。 より正確には、未知の変数の後続分布から確実にサンプリングできる事前条件付き二階および三階ランゲヴィン力学を提案し、その計算効率は、その第一条件と両方の力学の非条件バージョンよりも高い。 さらに, 事前条件付きダイナミクスはどちらも well-defined であり, 非条件付きの場合と同じ一意な不変分布を持つことを証明した。 また,アルゴリズムの収束をさらに加速し,未知変数が離散的な場合に対応するという2つの利点を持つアニーリング手順も取り入れた。 2つの異なるタスク(MIMOシンボル検出とチャネル推定)における数値実験は,本手法の汎用性を示し,計算複雑性を同等あるいは低めながら,競合するアプローチ(学習ベースを含む)と比較して高い性能を示した。

We propose a solution for linear inverse problems based on higher-order Langevin diffusion. More precisely, we propose pre-conditioned second-order and third-order Langevin dynamics that provably sample from the posterior distribution of our unknown variables of interest while being computationally more efficient than their first-order counterpart and the non-conditioned versions of both dynamics. Moreover, we prove that both pre-conditioned dynamics are well-defined and have the same unique invariant distributions as the non-conditioned cases. We also incorporate an annealing procedure that has the double benefit of further accelerating the convergence of the algorithm and allowing us to accommodate the case where the unknown variables are discrete. Numerical experiments in two different tasks (MIMO symbol detection and channel estimation) showcase the generality of our method and illustrate the high performance achieved relative to competing approaches (including learning-based ones) while having comparable or lower computational complexity.
翻訳日:2023-05-10 14:32:00 公開日:2023-05-08
# 教師を犠牲にしない:知識蒸留における摂動損失の利用

Do Not Blindly Imitate the Teacher: Using Perturbed Loss for Knowledge Distillation ( http://arxiv.org/abs/2305.05010v1 )

ライセンス: Link先を確認
Rongzhi Zhang, Jiaming Shen, Tianqi Liu, Jialu Liu, Michael Bendersky, Marc Najork, Chao Zhang(参考訳) 知識蒸留は、大きな教師モデルから小さな学生モデルに知識を伝達する一般的な技術である。 典型的には、教師の出力分布と出力分布のKL分散を最小化することにより、教師を模倣することを学ぶ。 本研究は,教師の出力分布と基底真理ラベル分布との間には不一致があるため,学習目標が最適ではないと主張する。 したがって、信頼できない教師の出力分布を盲目的に模倣させると、成績が低下する。 そこで本研究では,まずバニラKLに基づく蒸留損失関数をマクロリン級数で表現し,次に先行項を摂動することで,新しい知識蒸留対象PTLosを提案する。 この混乱した損失は、元の教師を暗黙的に、真実の分布に近い分布を持つ代理教師に変換する。 この「分配密接性」と学生モデルの一般化可能性との理論的関係を確立することにより,ptlossの摂動係数を原理的に選択することができる。 5つのデータセットに対する大規模な実験により、PTLossは様々なスケールの教師の蒸留効率を大幅に改善できることが示された。

Knowledge distillation is a popular technique to transfer knowledge from large teacher models to a small student model. Typically, the student learns to imitate the teacher by minimizing the KL divergence of its output distribution with the teacher's output distribution. In this work, we argue that such a learning objective is sub-optimal because there exists a discrepancy between the teacher's output distribution and the ground truth label distribution. Therefore, forcing the student to blindly imitate the unreliable teacher output distribution leads to inferior performance. To this end, we propose a novel knowledge distillation objective PTLoss by first representing the vanilla KL-based distillation loss function via a Maclaurin series and then perturbing the leading-order terms in this series. This perturbed loss implicitly transforms the original teacher into a proxy teacher with a distribution closer to the ground truth distribution. We establish the theoretical connection between this "distribution closeness" and the student model generalizability, which enables us to select the PTLoss's perturbation coefficients in a principled way. Extensive experiments on five datasets demonstrate PTLoss can significantly improve the distillation effectiveness for teachers of various scales.
翻訳日:2023-05-10 14:31:42 公開日:2023-05-08
# テキストリージョンの削除はCLIPトレーニング効率とロバスト性を改善する

Less is More: Removing Text-regions Improves CLIP Training Efficiency and Robustness ( http://arxiv.org/abs/2305.05095v1 )

ライセンス: Link先を確認
Liangliang Cao, Bowen Zhang, Chen Chen, Yinfei Yang, Xianzhi Du, Wencong Zhang, Zhiyun Lu, Yantao Zheng(参考訳) CLIP(Contrastive Language- Image Pre-training)モデルとそのバリエーションは多くのアプリケーションにおいて事実上のバックボーンになっている。 しかし、数億のイメージテキストペアからCLIPモデルをトレーニングするのは、極めて高価である。 さらに、従来のCLIPモデルは、画像に埋め込まれたテキスト領域の視覚的意味と意味を区別しない。 これは、埋め込み領域のテキストが画像の視覚的外観と一致しない場合、非破壊性につながる可能性がある。 本稿では,CLIPトレーニングの効率性と堅牢性を改善するための2つの効果的なアプローチについて論じる。(1)同じ数の最適化ステップを維持しながらトレーニングデータセットを増強し,(2)画像中のテキスト領域を含むサンプルをフィルタリングする。 これにより、ImageNetやCoCoといった公開ベンチマークの分類と検索精度が大幅に向上する。 テキスト領域による画像のフィルタリングも、タイポグラフィー攻撃からモデルを保護する。 これを検証するために、ImageNet with Adversarial Text Regions (ImageNet-Attr) という新しいデータセットを構築した。 フィルタベースのCLIPモデルでは,トップ1の精度が68.78\%であり,その精度が50%以下であった従来モデルよりも優れていた。

The CLIP (Contrastive Language-Image Pre-training) model and its variants are becoming the de facto backbone in many applications. However, training a CLIP model from hundreds of millions of image-text pairs can be prohibitively expensive. Furthermore, the conventional CLIP model doesn't differentiate between the visual semantics and meaning of text regions embedded in images. This can lead to non-robustness when the text in the embedded region doesn't match the image's visual appearance. In this paper, we discuss two effective approaches to improve the efficiency and robustness of CLIP training: (1) augmenting the training dataset while maintaining the same number of optimization steps, and (2) filtering out samples that contain text regions in the image. By doing so, we significantly improve the classification and retrieval accuracy on public benchmarks like ImageNet and CoCo. Filtering out images with text regions also protects the model from typographic attacks. To verify this, we build a new dataset named ImageNet with Adversarial Text Regions (ImageNet-Attr). Our filter-based CLIP model demonstrates a top-1 accuracy of 68.78\%, outperforming previous models whose accuracy was all below 50\%.
翻訳日:2023-05-10 14:24:47 公開日:2023-05-08
# 大規模テキストコレクションにおける潜在テーマ発見のための対話型概念学習

Interactive Concept Learning for Uncovering Latent Themes in Large Text Collections ( http://arxiv.org/abs/2305.05094v1 )

ライセンス: Link先を確認
Maria Leonor Pacheco, Tunazzina Islam, Lyle Ungar, Ming Yin, Dan Goldwasser(参考訳) 様々な分野の専門家は、しばしば大きなテキストコレクションを理解することに興味を持っている。 伝統的に、この課題はトピックモデルのような教師なしのテクニックや手動のテーマ発見プロセスによってアプローチされる。 本稿では、単に単語の分布に留まらないテーマの定義を拡張し、ドメインの専門家が関連すると考えられる一般的な概念を含める。 次に,様々な抽象化レベルで専門家のフィードバックを受け取り,エンコードする対話型フレームワークを提案する。 私たちのフレームワークは、自動化と手動コーディングのバランスを取り、専門家が研究のコントロールを維持しながら、必要な手動作業を減らすことができます。

Experts across diverse disciplines are often interested in making sense of large text collections. Traditionally, this challenge is approached either by noisy unsupervised techniques such as topic models, or by following a manual theme discovery process. In this paper, we expand the definition of a theme to account for more than just a word distribution, and include generalized concepts deemed relevant by domain experts. Then, we propose an interactive framework that receives and encodes expert feedback at different levels of abstraction. Our framework strikes a balance between automation and manual coding, allowing experts to maintain control of their study while reducing the manual effort required.
翻訳日:2023-05-10 14:24:27 公開日:2023-05-08
# 対話型テキストゲームのための知識強化エージェント

Knowledge-enhanced Agents for Interactive Text Games ( http://arxiv.org/abs/2305.05091v1 )

ライセンス: Link先を確認
Prateek Chhikara, Jiarui Zhang, Filip Ilievski, Jonathan Francis and Kaixin Ma(参考訳) 自然言語によるコミュニケーションは知能の重要な側面であり、様々なレベルの監督の下で世界の概念を学習し推論するために計算モデルが必要である。 質問回答や手続き的テキスト理解など,完全に教師された非対話的なタスクには大きな進歩があったが,コミュニティの多くは,コヒーレンスや文脈認識,環境から効果的に学習する能力といった,既存のアプローチの限界を明らかにするセミマルコフテキストベースゲームなど,様々な逐次的対話的なタスクに移行している。 本稿では,テキストベースゲームにおけるエージェントの機能的グラウンド化を改善するためのフレームワークを提案する。 具体的には、学習に基づくエージェントに注入するドメイン知識の2つの形態について考察する。 我々のフレームワークは、3つの代表的なモデルクラスをサポートしている: `pure' reinforcement learning (RL)エージェント、知識グラフで強化されたRLエージェント、言語モデルを備えたエージェント。 さらに、上記のドメイン知識型およびエージェントアーキテクチャに対する複数のインジェクション戦略を考案し、知識グラフによるインジェクションや既存の入力エンコーディング戦略の強化を行う。 我々は,ScienceWorldのテキストベースのゲーム環境において,科学関連指導追従課題における各種モデル構成の性能を説明するために,すべての実験を行った。 本研究は,対話型コンテキストのための効果的な自然言語処理システムの開発に関する重要な知見を提供する。

Communication via natural language is a crucial aspect of intelligence, and it requires computational models to learn and reason about world concepts, with varying levels of supervision. While there has been significant progress made on fully-supervised non-interactive tasks, such as question-answering and procedural text understanding, much of the community has turned to various sequential interactive tasks, as in semi-Markov text-based games, which have revealed limitations of existing approaches in terms of coherence, contextual awareness, and their ability to learn effectively from the environment. In this paper, we propose a framework for enabling improved functional grounding of agents in text-based games. Specifically, we consider two forms of domain knowledge that we inject into learning-based agents: memory of previous correct actions and affordances of relevant objects in the environment. Our framework supports three representative model classes: `pure' reinforcement learning (RL) agents, RL agents enhanced with knowledge graphs, and agents equipped with language models. Furthermore, we devise multiple injection strategies for the above domain knowledge types and agent architectures, including injection via knowledge graphs and augmentation of the existing input encoding strategies. We perform all experiments on the ScienceWorld text-based game environment, to illustrate the performance of various model configurations in challenging science-related instruction-following tasks. Our findings provide crucial insights on the development of effective natural language processing systems for interactive contexts.
翻訳日:2023-05-10 14:24:16 公開日:2023-05-08
# 還元性双曲型タンジェントネットワークの機能等価性と経路接続性

Functional Equivalence and Path Connectivity of Reducible Hyperbolic Tangent Networks ( http://arxiv.org/abs/2305.05089v1 )

ライセンス: Link先を確認
Matthew Farrugia-Roberts (The University of Melbourne)(参考訳) ニューラルネットワークの学習過程を理解するには、学習が行われるパラメータ空間の構造を明確にする必要がある。 ニューラルネットワークパラメータの関数同値クラスは、同じ入力出力関数を実装するパラメータの集合である。 多くのアーキテクチャにおいて、ほとんどのパラメータは単純で文書化された関数同値類を持つ。 しかし、ネットワークのユニット間の冗長性によって引き起こされるより機能的な同値クラスを持つ、還元可能なパラメータの少数派も存在する。 本稿では,単層双曲型タンジェントアーキテクチャに対して,単位冗長性と可逆関数同値クラスをアルゴリズム的に特徴付ける。 このような関数同値類は分割線形経路連結集合であり、冗長単位の大多数を持つパラメータに対して、その集合は最大7つの線形セグメントの直径を持つことを示す。

Understanding the learning process of artificial neural networks requires clarifying the structure of the parameter space within which learning takes place. A neural network parameter's functional equivalence class is the set of parameters implementing the same input--output function. For many architectures, almost all parameters have a simple and well-documented functional equivalence class. However, there is also a vanishing minority of reducible parameters, with richer functional equivalence classes caused by redundancies among the network's units. In this paper, we give an algorithmic characterisation of unit redundancies and reducible functional equivalence classes for a single-hidden-layer hyperbolic tangent architecture. We show that such functional equivalence classes are piecewise-linear path-connected sets, and that for parameters with a majority of redundant units, the sets have a diameter of at most 7 linear segments.
翻訳日:2023-05-10 14:23:51 公開日:2023-05-08
# 健康保険請求の経時的変化に関する大規模研究

Large-Scale Study of Temporal Shift in Health Insurance Claims ( http://arxiv.org/abs/2305.05087v1 )

ライセンス: Link先を確認
Christina X Ji, Ahmed M Alaa, David Sontag(参考訳) 臨床結果を予測する機械学習モデルは歴史的データを用いて開発されている。 しかし、たとえこれらのモデルが近い将来デプロイされるとしても、データセットの時間的シフトは理想的なパフォーマンスに満たない可能性がある。 この現象を捉えるために,歴史的モデルがもはやその結果を予測するのに最適でない場合,特定の時点において予測される結果が非定常であるようなタスクを考える。 本研究では,集団レベルでの時間的シフトを検証するためのアルゴリズムを構築した。 次に,大規模なタスク群における時間変化の振り返りスキャンを行うためのメタアルゴリズムを構築した。 我々のアルゴリズムは、医療の時間的シフトを私たちの知識にまとめて評価することを可能にする。 我々は、2015年から2020年にかけて、医療保険請求データセットに基づいて242の医療結果を評価し、1,010のタスクを作成します。 タスクの9.7%は人口レベルでの時間的シフトを示し、93.0%は人口移動の影響を受けている。 臨床的意義を理解するためにケーススタディを掘り下げる。 我々の分析は、医療における時間的シフトの広範性を強調している。

Most machine learning models for predicting clinical outcomes are developed using historical data. Yet, even if these models are deployed in the near future, dataset shift over time may result in less than ideal performance. To capture this phenomenon, we consider a task--that is, an outcome to be predicted at a particular time point--to be non-stationary if a historical model is no longer optimal for predicting that outcome. We build an algorithm to test for temporal shift either at the population level or within a discovered sub-population. Then, we construct a meta-algorithm to perform a retrospective scan for temporal shift on a large collection of tasks. Our algorithms enable us to perform the first comprehensive evaluation of temporal shift in healthcare to our knowledge. We create 1,010 tasks by evaluating 242 healthcare outcomes for temporal shift from 2015 to 2020 on a health insurance claims dataset. 9.7% of the tasks show temporal shifts at the population level, and 93.0% have some sub-population affected by shifts. We dive into case studies to understand the clinical implications. Our analysis highlights the widespread prevalence of temporal shifts in healthcare.
翻訳日:2023-05-10 14:23:41 公開日:2023-05-08
# ビッグデータ時代の地球移動 : 機械学習における最適輸送の展望

Earth Movers in The Big Data Era: A Review of Optimal Transport in Machine Learning ( http://arxiv.org/abs/2305.05080v1 )

ライセンス: Link先を確認
Abdelwahed Khamis, Russell Tsuchida, Mohamed Tarek, Vivien Rolland, Lars Petersson(参考訳) 最適輸送(OT)は18世紀に初めて登場した数学の枠組みであり、多くの理論的および応用された問題に答える多くの方法を生み出している。 この10年は、この古典的な最適化問題の機械学習への顕著な貢献を目撃している。 本稿では、最適輸送が機械学習でどのように使われているかについて、有償の最適輸送の問題に焦点をあてる。 本研究は,トピックの性質と文脈によって許容されるアクセス可能なプレゼンテーションを確保しつつ,最適なトランスポートの総合的な調査を行う。 まず、最適な輸送背景を説明し、異なるフレーバー(数学的定式化)、特性、注目すべき応用を紹介する。 次に、大規模・高次元データの現在の要求に対応するために最適な輸送をスケールする方法に関する根本的な問題に対処する。 本研究は, OTのスケーリングにおける文献的手法の体系的解析を行い, 統一分類学にその知見を提示する。 オープンな課題を提示し、今後の研究方向性について議論する。 関連するOT研究論文のライブリポジトリはhttps://github.com/abdelwahed/OT_for_big_data.gitで維持されている。

Optimal Transport (OT) is a mathematical framework that first emerged in the eighteenth century and has led to a plethora of methods for answering many theoretical and applied questions. The last decade is a witness of the remarkable contributions of this classical optimization problem to machine learning. This paper is about where and how optimal transport is used in machine learning with a focus on the question of salable optimal transport. We provide a comprehensive survey of optimal transport while ensuring an accessible presentation as permitted by the nature of the topic and the context. First, we explain optimal transport background and introduce different flavors (i.e. mathematical formulations), properties, and notable applications. We then address the fundamental question of how to scale optimal transport to cope with the current demands of big and high dimensional data. We conduct a systematic analysis of the methods used in the literature for scaling OT and present the findings in a unified taxonomy. We conclude with presenting some open challenges and discussing potential future research directions. A live repository of related OT research papers is maintained in https://github.com/abdelwahed/OT_for_big_data.git.
翻訳日:2023-05-10 14:23:24 公開日:2023-05-08
# オーサシップ属性の確立によるNLPの新規性検出・調整のための統一評価フレームワーク

A Unified Evaluation Framework for Novelty Detection and Accommodation in NLP with an Instantiation in Authorship Attribution ( http://arxiv.org/abs/2305.05079v1 )

ライセンス: Link先を確認
Neeraj Varshney, Himanshu Gupta, Eric Robertson, Bing Liu, Chitta Baral(参考訳) 最先端の自然言語処理モデルは、評価セットのラベルが訓練時に認識される「クローズドワールド」設定で顕著な性能を発揮することが示されている。 しかし、現実世界の設定では、既知のクラスに属さない'novel'インスタンスがしばしば観察される。 これにより、新規性に対処する能力が重要となる。 そこで,本研究では,この重要分野の「新規化」の体系的な研究を開始するために,パイプライン化された新規性「検出」と「宿泊」タスクにおいて,システムの性能を評価するマルチステージタスク「NoveltyTask」を紹介する。 本稿では,NovetyTaskの数学的定式化と,テキストの正しい著者を特定することに関連する著者帰属タスクのインスタンス化を行う。 我々はamazon reviewsコーパスを使用して、novelltytaskのために大規模なデータセット(200人の著者/ラベルにまたがる250万のインスタンス)をコンパイルします。 包括的実験を行い,タスクのベースライン手法を探究する。 提案手法は,タスクを困難にし,改善の余地を十分に残していることを示す。 最後に、我々の研究は、ロバストなシステムを開発するための重要なステップである、ノベルティを扱うこの未熟な領域の研究を促進すると確信しています。

State-of-the-art natural language processing models have been shown to achieve remarkable performance in 'closed-world' settings where all the labels in the evaluation set are known at training time. However, in real-world settings, 'novel' instances that do not belong to any known class are often observed. This renders the ability to deal with novelties crucial. To initiate a systematic research in this important area of 'dealing with novelties', we introduce 'NoveltyTask', a multi-stage task to evaluate a system's performance on pipelined novelty 'detection' and 'accommodation' tasks. We provide mathematical formulation of NoveltyTask and instantiate it with the authorship attribution task that pertains to identifying the correct author of a given text. We use Amazon reviews corpus and compile a large dataset (consisting of 250k instances across 200 authors/labels) for NoveltyTask. We conduct comprehensive experiments and explore several baseline methods for the task. Our results show that the methods achieve considerably low performance making the task challenging and leaving sufficient room for improvement. Finally, we believe our work will encourage research in this underexplored area of dealing with novelties, an important step en route to developing robust systems.
翻訳日:2023-05-10 14:23:07 公開日:2023-05-08
# エッジコンピューティングを用いたプライバシー保護型分散カメラネットワークを用いた屋内位置推定とマルチパーソントラッキング

Indoor Localization and Multi-person Tracking Using Privacy Preserving Distributed Camera Network with Edge Computing ( http://arxiv.org/abs/2305.05062v1 )

ライセンス: Link先を確認
Hyeokhyen Kwon, Chaitra Hedge, Yashar Kiarashi, Venkata Siva Krishna Madala, Ratan Singh, ArjunSinh Nakum, Robert Tweedy, Leandro Miletto Tonetto, Craig M. Zimring, Gari D. Clifford(参考訳) 構築された環境における個人のローカライゼーションは、研究トピックの増大である。 空間内の人々の位置、顔の向き(または視線方向)、軌道の推定には、群衆管理、セキュリティ、医療など多くの用途がある。 本稿では,マルチパーソナライズのためのオープンソース,低コスト,スケーラブル,プライバシ保護型エッジコンピューティングフレームワーク,すなわち,屋内空間における複数人の位置,方向,軌跡を推定する。 私たちのコンピューティングフレームワークは,38個のテンソル処理ユニット(tpu)対応エッジコンピューティングカメラシステムから成り,室内治療空間の天井に配置されている。 エッジコンピューティングシステムは、セキュアでプライベートなネットワークを介してオンプレミスのフォグサーバに接続する。 複数の人物検出アルゴリズムとポーズ推定モデルがエッジTPU上でリアルタイムに実行され、下流の計算に生画像の代わりに使用される特徴を収集する。 これにより、空間内の個人のプライバシが確保され、データ転送/ストレージが削減され、スケーラビリティが向上する。 室内空間における複数の人物の位置と対向方向を同時に決定するために,カルマンフィルタを用いた多人数追跡法と最先端の身体配向推定法を実装した。 約18,000平方フィート (18,000平方フィート) の研究では, 平均位置推定誤差が1.41m, 複数物体追跡精度が62%, 絶対絶対体方向誤差が29{\deg} となり, 室内環境における集団行動の理解に十分であった。 さらに,カメラ設置の各種要素をトラッキング精度で解析することにより,提案システムの実装の実践的ガイダンスを提供する。

Localization of individuals in a built environment is a growing research topic. Estimating the positions, face orientation (or gaze direction) and trajectories of people through space has many uses, such as in crowd management, security, and healthcare. In this work, we present an open-source, low-cost, scalable and privacy-preserving edge computing framework for multi-person localization, i.e. estimating the positions, orientations, and trajectories of multiple people in an indoor space. Our computing framework consists of 38 Tensor Processing Unit (TPU)-enabled edge computing camera systems placed in the ceiling of the indoor therapeutic space. The edge compute systems are connected to an on-premise fog server through a secure and private network. A multi-person detection algorithm and a pose estimation model run on the edge TPU in real-time to collect features which are used, instead of raw images, for downstream computations. This ensures the privacy of individuals in the space, reduces data transmission/storage and improves scalability. We implemented a Kalman filter-based multi-person tracking method and a state-of-the-art body orientation estimation method to determine the positions and facing orientations of multiple people simultaneously in the indoor space. For our study site with size of 18,000 square feet, our system demonstrated an average localization error of 1.41 meters, a multiple-object tracking accuracy score of 62%, and a mean absolute body orientation error of 29{\deg}, which is sufficient for understanding group activity behaviors in indoor environments. Additionally, our study provides practical guidance for deploying the proposed system by analyzing various elements of the camera installation with respect to tracking accuracy.
翻訳日:2023-05-10 14:22:47 公開日:2023-05-08
# 生成事前学習型変圧器のコヒーレント波動ダイナミクスと言語生成

Coherent Wave Dynamics and Language Generation of a Generative Pre-trained Transformer ( http://arxiv.org/abs/2305.05061v1 )

ライセンス: Link先を確認
Tao Hong(参考訳) ジェネラティブ事前学習トランスフォーマー(gpt)のような大規模言語モデル(llm)は、様々な言語タスクで大きな成功を収めているが、その創発的な能力は、対処すべき多くの疑問、懸念、課題を提起している。 モデルの内部機構をよりよく理解するために,隠れた状態とチャネル波のダイナミクスを小さなgptで解析し,チャネル間相関と個々の自己相関の観点からの波動パターンのコヒーレンスに着目した。 以上より,ウェーブダイナミクスは,言語生成における文脈認識可塑性や表現性とともに,一貫性と繰り返し可能な発振モードを提供することが示唆された。 ウェーブパターン、コヒーレンス、クラスタリングを分析することによって、隠れた状態チャネルの機能を特定し、解釈するための体系的な方法を提供し、高レベルの言語パターン形成を理解し、制御する方法を提供します。 さらに,様々なモデルの学習レベルにわたる文列生成における綴り誤りのポアソン統計を調べ,相転移様過程を観察する。 コヒーレンスが高まるにつれ、正しい単語と間違った単語の生成との間には競争がある。 しかし、モデルが適切に訓練され、重要なコヒーレンスが出現すると、コヒーレントプロセスはスペルエラーを効果的に抑制し、欠陥のカスケード増幅を防ぐのに十分強くなる。 正しい綴りの分布はポアソニアンからサブポアソニアンへ移行するが、ミススペルの分布は反対の傾向を示す。 量子物理学からの概念と技法を活用することで、我々は小さなGPTの力学に関する新しい洞察を得る。 このアプローチは、より複雑なコヒーレントな言語パターンを示す、より大きな言語モデルに拡張でき、創発的な能力を解釈し、より専門的なモデルを開発する機会を開くことができる。

Large Language Models (LLMs), such as the Generative Pretrained Transformer (GPT), have achieved tremendous success in various language tasks, but their emergent abilities have also raised many questions, concerns, and challenges that need to be addressed. To gain a better understanding of the models' inner mechanisms, we analyze the hidden state and channel wave dynamics in a small GPT, focusing on the coherence of wave patterns in terms of cross-channel correlation and individual auto-correlation. Our findings suggest that wave dynamics offer consistent and repeatable intrinsic oscillation modes, along with context-aware plasticity and expressiveness in language generation. By analyzing wave patterns, coherence, and clustering, we provide a systematic way to identify and interpret the functionality of the hidden state channels, paving the way to understand and control higher-level language pattern formation. In addition, we investigate the Poisson statistics of spelling errors in text sequence generation across various levels of model training and observe a phase-transition-like process. As coherence builds up, there is a competition between the generation of correct and misspelled words. However, once the model is adequately trained and significant coherence has emerged, the coherent process becomes strong enough to effectively suppress spelling errors, preventing the cascade amplification of defects. The distribution of correct spellings transitions from Poissonian to Sub-Poissonian, while the distribution of misspellings shows the opposite trend. By leveraging concepts and techniques from quantum physics, we gain novel insights into the dynamics of the small GPT. This approach can be extended to larger language models that exhibit more complex coherent language patterns, opening up opportunities to interpret their emergent capabilities and develop more specialized models.
翻訳日:2023-05-10 14:22:21 公開日:2023-05-08
# ゲノム材料設計:PHAse Dynamicsの計算

Genomic Materials Design: CALculation of PHAse Dynamics ( http://arxiv.org/abs/2305.05060v1 )

ライセンス: Link先を確認
G. B Olson and Z. K. Liu(参考訳) 基本相レベルデータベースのCALPHADシステムは、現在Material Genomeとして知られているが、すでに国家材料ゲノムイニシアチブの加速目標を満たしている計算材料設計と資格の成熟した技術を実現している。 QuesTek Innovationsによって最初に商業化されたこの手法は、新しい材料組成とプロセス仕様の効率的なゲノムレベルのパラメトリック設計と、製造変動の多分野シミュレーションに基づく予測を組み合わせ、効率的な不確実性管理を統合する。 キマッド設計センターで実証された最近のプロジェクトは、特に添加物製造の新しい技術のために設計された新しい合金を含んでいる。 CALPHADベースのMaterial Genome技術の成功により、現在の大学の研究はより正確なCALPHADデータベースを安価に拡張するための新しい手法を強調している。 アメリカの頂点企業によるこれらの新機能の急速な採用により、材料設計と開発サイクルは2年以内に圧縮され、新しい「材料並行性」が、前例のない製造革新のレベルをサポートする新しいレベルの並行エンジニアリングに統合された。

The CALPHAD system of fundamental phase-level databases, now known as the Materials Genome, has enabled a mature technology of computational materials design and qualification that has already met the acceleration goals of the national Materials Genome Initiative. As first commercialized by QuesTek Innovations, the methodology combines efficient genomic-level parametric design of new material composition and process specifications with multidisciplinary simulation-based forecasting of manufacturing variation, integrating efficient uncertainty management. Recent projects demonstrated under the multi-institutional CHiMaD Design Center notably include novel alloys designed specifically for the new technology of additive manufacturing. With the proven success of the CALPHAD-based Materials Genome technology, current university research emphasizes new methodologies for affordable accelerated expansion of more accurate CALPHAD databases. Rapid adoption of these new capabilities by US apex corporations has compressed the materials design and development cycle to under 2 years, enabling a new "materials concurrency" integrated into a new level of concurrent engineering supporting an unprecedented level of manufacturing innovation.
翻訳日:2023-05-10 14:21:50 公開日:2023-05-08
# 事前学習言語モデルによるコード実行

Code Execution with Pre-trained Language Models ( http://arxiv.org/abs/2305.05383v1 )

ライセンス: Link先を確認
Chenxiao Liu, Shuai Lu, Weizhu Chen, Daxin Jiang, Alexey Svyatkovskiy, Shengyu Fu, Neel Sundaresan and Nan Duan(参考訳) コード実行は、コードの正確な振る舞いを反映したプログラミング言語セマンティクスの基本的な側面である。 しかし、コードインテリジェンスの事前訓練されたモデルのほとんどは実行トレースを無視し、ソースコードと構文構造のみに依存している。 本稿では,事前学習モデルがコード実行をどのように理解し実行できるかを検討する。 変異に基づくデータ拡張手法を開発し,大規模で現実的なPythonデータセットとコード実行タスクを作成し,Codexなどの既存モデルに挑戦する。 次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。 コード実行に関するCodeExecutorを評価し、その有望なパフォーマンスと制限を示す。 また,コードからコードへのゼロショット検索やテキストからコードへの生成といった,コードインテリジェンスタスクに対する潜在的なメリットを実証する。 コード実行のための事前学習されたモデルの学習と一般化能力に関する洞察を提供する。

Code execution is a fundamental aspect of programming language semantics that reflects the exact behavior of the code. However, most pre-trained models for code intelligence ignore the execution trace and only rely on source code and syntactic structures. In this paper, we investigate how well pre-trained models can understand and perform code execution. We develop a mutation-based data augmentation technique to create a large-scale and realistic Python dataset and task for code execution, which challenges existing models such as Codex. We then present CodeExecutor, a Transformer model that leverages code execution pre-training and curriculum learning to enhance its semantic comprehension. We evaluate CodeExecutor on code execution and show its promising performance and limitations. We also demonstrate its potential benefits for code intelligence tasks such as zero-shot code-to-code search and text-to-code generation. Our analysis provides insights into the learning and generalization abilities of pre-trained models for code execution.
翻訳日:2023-05-10 12:59:30 公開日:2023-05-08
# プライバシー保護型対向顔特徴

Privacy-preserving Adversarial Facial Features ( http://arxiv.org/abs/2305.05391v1 )

ライセンス: Link先を確認
Zhibo Wang, He Wang, Shuaifan Jin, Wenwen Zhang, Jiahui Hu, Yan Wang, Peng Sun, Wei Yuan, Kaixin Liu, Kui Ren(参考訳) 顔認識サービスプロバイダは、画像からコンパクトで識別可能な顔特徴(表現)を抽出し、顔特徴をリアルタイム認識のために保存することで、顔のプライバシーを保護する。 しかし、そのような特徴は復元ネットワークを構築することで元の顔の外観を復元するためにも活用できる。 いくつかのプライバシー保護手法が提案されているが、顔のプライバシー保護の強化は精度の低下を犠牲にしている。 本稿では,敵対的特徴から顔画像へのマッピングを妨害し,再建攻撃を防ぎ,プライバシ保護機能を生成するための,敵対的特徴に基づく顔プライバシー保護(AdvFace)アプローチを提案する。 この目的のために,攻撃者の行動をシミュレートし,顔特徴から画像へのマッピング機能をキャプチャし,逆向きの潜在ノイズを生成してマッピングを妨害するシャドーモデルを設計する。 元の特徴よりも反対的な特徴は、漏洩した特徴が顔情報を公開するのを防ぐために、サーバのデータベースに格納される。 さらに、AdvFaceは顔認識ネットワークの変更を必要とせず、デプロイされた顔認識システムにおけるプライバシー向上プラグインとして実装できる。 広範な実験結果から,advfaceは,顔認識精度を維持しつつレコンストラクション攻撃に対する防御において,最先端のプライバシー保護手法に勝ることが示された。

Face recognition service providers protect face privacy by extracting compact and discriminative facial features (representations) from images, and storing the facial features for real-time recognition. However, such features can still be exploited to recover the appearance of the original face by building a reconstruction network. Although several privacy-preserving methods have been proposed, the enhancement of face privacy protection is at the expense of accuracy degradation. In this paper, we propose an adversarial features-based face privacy protection (AdvFace) approach to generate privacy-preserving adversarial features, which can disrupt the mapping from adversarial features to facial images to defend against reconstruction attacks. To this end, we design a shadow model which simulates the attackers' behavior to capture the mapping function from facial features to images and generate adversarial latent noise to disrupt the mapping. The adversarial features rather than the original features are stored in the server's database to prevent leaked features from exposing facial information. Moreover, the AdvFace requires no changes to the face recognition network and can be implemented as a privacy-enhancing plugin in deployed face recognition systems. Extensive experimental results demonstrate that AdvFace outperforms the state-of-the-art face privacy-preserving methods in defending against reconstruction attacks while maintaining face recognition accuracy.
翻訳日:2023-05-10 12:47:58 公開日:2023-05-08
# 時系列データのための勾配に基づく説明可能なAI手法の探索:ストロークリハビリテーション運動の評価を事例として

Exploring a Gradient-based Explainable AI Technique for Time-Series Data: A Case Study of Assessing Stroke Rehabilitation Exercises ( http://arxiv.org/abs/2305.05525v1 )

ライセンス: Link先を確認
Min Hun Lee, Yi Jing Choy(参考訳) 説明可能な人工知能(AI)技術は、AIと機械学習(ML)モデルがさまざまなアプリケーションで何らかの結果をもたらす理由に関する洞察を提供するために、ますます研究されている。 しかし、特に医療の文脈において、時系列データに関する説明可能なAIテクニックの探索は限られている。 本稿では,弱教師付きモデルと勾配に基づく説明可能なai手法(塩分マップ)を用いたしきい値に基づく手法について述べるとともに,時系列データの高度フレームを識別する可能性について検討する。 補償動作が観察されるか否かのラベルと3つの上肢運動を行った15名によるデータセットを用いて,フィードフォワードニューラルネットワークモデルを構築し,モデル結果に対する各入力の勾配を利用して補償動作を含む健全なフレームを同定した。 フレームレベルのアノテーションを用いた評価では,0.96,F2スコア0.91。 我々の結果は、時系列データに対する勾配に基づく説明可能なAI技術(例えば、サリエンシマップ)の可能性を示し、例えば、セラピストがモデルトレーニングのためのフレームレベルのラベリングへの取り組みのレビューと削減にフォーカスすべきビデオのフレームを強調した。

Explainable artificial intelligence (AI) techniques are increasingly being explored to provide insights into why AI and machine learning (ML) models provide a certain outcome in various applications. However, there has been limited exploration of explainable AI techniques on time-series data, especially in the healthcare context. In this paper, we describe a threshold-based method that utilizes a weakly supervised model and a gradient-based explainable AI technique (i.e. saliency map) and explore its feasibility to identify salient frames of time-series data. Using the dataset from 15 post-stroke survivors performing three upper-limb exercises and labels on whether a compensatory motion is observed or not, we implemented a feed-forward neural network model and utilized gradients of each input on model outcomes to identify salient frames that involve compensatory motions. According to the evaluation using frame-level annotations, our approach achieved a recall of 0.96 and an F2-score of 0.91. Our results demonstrated the potential of a gradient-based explainable AI technique (e.g. saliency map) for time-series data, such as highlighting the frames of a video that therapists should focus on reviewing and reducing the efforts on frame-level labeling for model training.
翻訳日:2023-05-10 12:20:44 公開日:2023-05-08
# プラズモン振動とド・ブロイの物質波不安定性

Plasmon Oscillations and de Broglie's Matter Waves Instabilities ( http://arxiv.org/abs/2002.04690v4 )

ライセンス: Link先を確認
M. Akbari-Moghanjoughi(参考訳) 本研究では,電子ビーム輸送における物質波不安定性の影響について検討する。 特にSchr\"{o}dinger-Poisson系の解のクラスは、一定の速度で電子ビーム輸送をモデル化するために用いられる。 このような電子ビームは、二重波動粒子特性を持つプラズモン励起をもたらす結合駆動擬力系溶液によって説明される。 基本的な量子力学的デブロイの関係は、粒子のようなプラズモン励起枝と電子ビームのドリフトとの共鳴相互作用に起因する。 さらに、このモデルで様々なビームプラズモン不安定性を研究する一般化された二重長スケールドブロイ波動粒子関係を得る。 量子電荷スクリーニングと物質-波の形成と不安定性に対する化学ポテンシャルの影響を詳述し、アハロノフ・ボーム効果を現在の量子力学モデルで再検討する。 現在の研究は、量子力学における物質波の起源をさらに照らし、新しい波動粒子相互作用の明確な理解に繋がるかもしれない。

In this research we study the effect of matter-wave instability on electron beam transport with arbitrary degree of degeneracy. Particular class of solutions of the Schr\"{o}dinger-Poisson system is used to model the electron-beam transport at constant speed. It is shown that such electron-beam is described by a coupled driven pseudoforce system solution of which leads to plasmon excitations with dual wave-particle character. The fundamental quantum mechanical de Broglie relation is found to be due to the resonant interaction of particle-like plasmon excitation branch with the electron beam drift. We further obtain a generalized double lengthscale de Broglie wave-particle relation through which various beam-plasmon instability is studied in this model. The quantum charge screening and the chemical potential effects on the matter-wave formation and instabilities are discussed in detail and the well-known Aharonov-Bohm effect is revisited in current quantum hydrodynamic model. Current research may further illuminate the origin of matter-wave in quantum mechanics and lead to clear understanding of novel wave-particle interactions.
翻訳日:2023-05-10 02:28:19 公開日:2023-05-08
# グラフスパーシフィケーション、カット近似、ラプラシアン解のための量子スピードアップ

Quantum Speedup for Graph Sparsification, Cut Approximation and Laplacian Solving ( http://arxiv.org/abs/1911.07306v4 )

ライセンス: Link先を確認
Simon Apers and Ronald de Wolf(参考訳) グラフスパーシフィケーションは、カット問題の近似アルゴリズムからグラフラプラシアンにおける線形系の解法まで、多くのアルゴリズムの基礎となっている。 最も強い形では、"spectral sparsification"(スペクトルスパーシフィケーション)は、グラフのカットとスペクトル構造をほぼ保存しながら、ノード数において辺の数をニアリニアに減少させる。 本研究では、スペクトルスペーシフィケーションのための多項式量子スピードアップとその多くの応用を実証する。 特に、$n$ノードと$m$エッジを持つ重み付きグラフを与えられた量子アルゴリズムは、サブ線形時間$\tilde{O}(\sqrt{mn}/\epsilon)$における$\epsilon$-spectral sparsifierの古典的な記述を出力する。 これは最適古典複雑性 $\tilde{O}(m)$ と対照的である。 また、我々の量子アルゴリズムはポリログ因子に最適であることを示す。 このアルゴリズムは、スパーシフィケーション、グラフスパンナー、最短経路の量子アルゴリズム、および$k$-wise独立ランダム文字列の効率的な構成に関する既存の結果に基づいて構築されている。 このアルゴリズムはラプラシアン系を解き、ミンカットやスパルセストカットのようなカット問題の範囲を近似する量子スピードアップを意味する。

Graph sparsification underlies a large number of algorithms, ranging from approximation algorithms for cut problems to solvers for linear systems in the graph Laplacian. In its strongest form, "spectral sparsification" reduces the number of edges to near-linear in the number of nodes, while approximately preserving the cut and spectral structure of the graph. In this work we demonstrate a polynomial quantum speedup for spectral sparsification and many of its applications. In particular, we give a quantum algorithm that, given a weighted graph with $n$ nodes and $m$ edges, outputs a classical description of an $\epsilon$-spectral sparsifier in sublinear time $\tilde{O}(\sqrt{mn}/\epsilon)$. This contrasts with the optimal classical complexity $\tilde{O}(m)$. We also prove that our quantum algorithm is optimal up to polylog-factors. The algorithm builds on a string of existing results on sparsification, graph spanners, quantum algorithms for shortest paths, and efficient constructions for $k$-wise independent random strings. Our algorithm implies a quantum speedup for solving Laplacian systems and for approximating a range of cut problems such as min cut and sparsest cut.
翻訳日:2023-05-10 02:28:02 公開日:2023-05-08
# リアルタイム対話型ロボットを用いた児童書推薦のためのパーソナライズドレコメンデーションシステム

Personalized Recommender System for Children's Book Recommendation with A Realtime Interactive Robot ( http://arxiv.org/abs/1710.00310v3 )

ライセンス: Link先を確認
Yun Liu, Tianmeng Gao, Baolin Song, Chengwei Huang(参考訳) 本稿では,児童ロボットの対話環境における書籍推薦システムについて検討する。 まず,効率を向上させる逆フィルタリング機構を用いた新しいテキスト検索アルゴリズムを提案する。 次に,ベイズネットワークに基づくユーザの関心度予測手法と新しいフィードバック機構を提案する。 子どものファジィ言語入力によると、提案手法は予測された興味を与える。 第3に、ユーザの意図の理解を深めるために、単語ベクトル化に基づくドメイン固有同義語結合を提案する。 実験の結果,提案システムの性能が向上し,計算資源の少ない組み込みデバイス上で動作可能であることがわかった。

In this paper we study the personalized book recommender system in a child-robot interactive environment. Firstly, we propose a novel text search algorithm using an inverse filtering mechanism that improves the efficiency. Secondly, we propose a user interest prediction method based on the Bayesian network and a novel feedback mechanism. According to children's fuzzy language input, the proposed method gives the predicted interests. Thirdly, the domain specific synonym association is proposed based on word vectorization, in order to improve the understanding of user intention. Experimental results show that the proposed recommender system has an improved performance and it can operate on embedded consumer devices with limited computational resources.
翻訳日:2023-05-10 02:27:18 公開日:2023-05-08
# 制御ガウス過程力学モデルとロボット布操作への応用

Controlled Gaussian Process Dynamical Models with Application to Robotic Cloth Manipulation ( http://arxiv.org/abs/2103.06615v5 )

ライセンス: Link先を確認
Fabio Amadio, Juan Antonio Delgado-Guerrero, Adri\`a Colom\'e and Carme Torras(参考訳) ここ数年、ロボット操作において大きな進歩を遂げてきたが、それでも布などの非剛体物体の扱いは未解決の問題である。 非剛性物体との物理的相互作用は不確かで、モデル化が複雑である。 これにより、サンプルデータから有用な情報を抽出することで、モデリング性能が大幅に向上する。 しかしながら、そのようなモデルのトレーニングは、状態表現の高次元性のために難しい課題である。 本稿では,高次元非線形力学を低次元多様体に埋め込んで学習するための制御ガウス過程力学モデル(CGPDM)を提案する。 CGPDMは低次元の潜伏空間で構成され、外部制御変数が動作可能な関連するダイナミクスと観測空間へのマッピングを備える。 両写像のパラメータはガウス過程(gp)の事前条件を考慮して辺限化される。 したがって、CGPDMは、高次元の状態空間をより小さな次元の潜在空間に射影し、トレーニングデータからシステムのダイナミクスを学ぶことができる。 CGPDMのモデリング能力は、シミュレーションと実シナリオの両方でテストされており、幅広い動きを一般化し、これまで目に見えなかった一連の制御動作によって得られる布の動きを確実に予測できることを示した。

Over the last years, significant advances have been made in robotic manipulation, but still, the handling of non-rigid objects, such as cloth garments, is an open problem. Physical interaction with non-rigid objects is uncertain and complex to model. Thus, extracting useful information from sample data can considerably improve modeling performance. However, the training of such models is a challenging task due to the high-dimensionality of the state representation. In this paper, we propose Controlled Gaussian Process Dynamical Model (CGPDM) for learning high-dimensional, nonlinear dynamics by embedding it in a low-dimensional manifold. A CGPDM is constituted by a low-dimensional latent space, with an associated dynamics where external control variables can act and a mapping to the observation space. The parameters of both maps are marginalized out by considering Gaussian Process (GP) priors. Hence, a CGPDM projects a high-dimensional state space into a smaller dimension latent space, in which it is feasible to learn the system dynamics from training data. The modeling capacity of CGPDM has been tested in both a simulated and a real scenario, where it proved to be capable of generalizing over a wide range of movements and confidently predicting the cloth motions obtained by previously unseen sequences of control actions.
翻訳日:2023-05-10 01:42:09 公開日:2023-05-08
# 完全畳み込みネットワークへのスーパーピクセルセグメンテーションの暗黙的統合

Implicit Integration of Superpixel Segmentation into Fully Convolutional Networks ( http://arxiv.org/abs/2103.03435v2 )

ライセンス: Link先を確認
Teppei Suzuki(参考訳) スーパーピクセルは画像データの複雑さを減らすのに有用な表現である。 しかし、スーパーピクセルと畳み込みニューラルネットワーク(CNN)をエンドツーエンドで組み合わせるためには、スーパーピクセルを生成するための余分なモデルとグラフ畳み込みのような特別な操作が必要である。 本稿では,スーパーピクセル方式をCNNに暗黙的に統合する手法を提案する。 提案手法は,ダウンサンプリング層で画素を階層的にグループ化し,スーパーピクセルを生成する。 提案手法は,フィードフォワードパスにスーパーピクセルを使用せず,バイリニアアップサンプリングではなく,消失した解像度を復元するために使用するため,フィードフォワードパスを変更することなく既存の多くのアーキテクチャに接続することができる。 その結果,モデルにダウンサンプリング層が存在する場合でも,オブジェクト境界などの詳細な情報をスーパーピクセル形式で保存する。 提案手法は,セマンティックセグメンテーション,スーパーピクセルセグメンテーション,モノクル深度推定などのタスクで評価し,現代のアーキテクチャを高速化し,それらのタスクにおける予測精度を向上させる。

Superpixels are a useful representation to reduce the complexity of image data. However, to combine superpixels with convolutional neural networks (CNNs) in an end-to-end fashion, one requires extra models to generate superpixels and special operations such as graph convolution. In this paper, we propose a way to implicitly integrate a superpixel scheme into CNNs, which makes it easy to use superpixels with CNNs in an end-to-end fashion. Our proposed method hierarchically groups pixels at downsampling layers and generates superpixels. Our method can be plugged into many existing architectures without a change in their feed-forward path because our method does not use superpixels in the feed-forward path but use them to recover the lost resolution instead of bilinear upsampling. As a result, our method preserves detailed information such as object boundaries in the form of superpixels even when the model contains downsampling layers. We evaluate our method on several tasks such as semantic segmentation, superpixel segmentation, and monocular depth estimation, and confirm that it speeds up modern architectures and/or improves their prediction accuracy in these tasks.
翻訳日:2023-05-10 01:41:42 公開日:2023-05-08
# マルチストリームプラズマにおける量子干渉と位相混合

Quantum Interference and Phase Mixing in Multistream Plasmas ( http://arxiv.org/abs/2102.05880v2 )

ライセンス: Link先を確認
M. Akbari-Moghanjoughi(参考訳) 本稿では, 種々の電子ビーム-プラズモン相互作用効果を研究するために, 運動補正Schr\"{o}dinger-Poissonモデルを用いて擬力系を求める。 非相互作用ストリームモデルは、量子電子ビーム干渉と電子流体のアハロノフ・ボーム効果を調べるために用いられる。 このモデルは、軌道準粒子速度、加速、およびストリーミングパワーを調べるために、2ストリームの量子流体モデルにさらに拡張される。 2流モデルにおける量子相の混合は、ドップラーシフトによる2流プラズマ不安定の原因として知られるドップラー電子デブロリー波数による準粒子伝導帯の重なりによるものであることが示されている。 しかし、この場合、相混合はストリームマージや後方散乱のような新しい現象を引き起こす。 モデルの有効性を示すために、異なるビーム、イオン、格子パラメトリック配置における電子線-フォノンおよび電子線-格子相互作用を調べるために用いられる。 ビームの電流密度は、異なる対称および非対称運動量密度配置のための空間安定で減衰する準粒子軌道で研究される。 これらの基本モデルは量子相混合と量子レベルでの散乱の理解を深め、複雑な量子プラズマにおける電磁電子ビーム-プラズモン相互作用を研究するのに役立てることができる。

In this paper the kinetic corrected Schr\"{o}dinger-Poisson model is used to obtain the pseudoforce system in order to study variety of streaming electron beam-plasmon interaction effects. The noninteracting stream model is used to investigate the quantum electron beam interference and electron fluid Aharonov-Bohm effects. The model is further extended to interacting two-stream quantum fluid model in order to investigate the orbital quasiparticle velocity, acceleration and streaming power. It is shown that quantum phase mixing in the two-stream model is due to quasiparticle conduction band overlap caused by the Doppler shift in streaming electron de Broglie wavenumbers, a phenomenon which is also known to be a cause for two-stream plasma instability. However, in this case the phase mixing leads to some novel phenomena like stream merging and backscattering. To show the effectiveness of model, it is used to investigate the electron beam-phonon and electron beam-lattice interactions in different beam, ion and lattice parametric configurations. Current density of beam is studied in spatially stable and damping quasiparticle orbital for different symmetric and asymmetric momentum-density arrangements. These basic models may be helpful in better understanding of quantum phase mixing and scattering at quantum level and can be elaborated to study electromagnetic electron beam-plasmon interactions in complex quantum plasmas.
翻訳日:2023-05-10 01:41:22 公開日:2023-05-08
# 分布学習による重み付き処理効果推定

Weighting-Based Treatment Effect Estimation via Distribution Learning ( http://arxiv.org/abs/2012.13805v4 )

ライセンス: Link先を確認
Dongcheng Zhang, Kunpeng Zhang(参考訳) 既存の治療効果推定の重み付け法は、しばしば確率スコアや共変量バランスの考え方に基づいて構築される。 彼らは通常、線形性や特定の機能形式のような偏りのない推定を得るために、治療の割り当てや結果モデルに強い仮定を課す。 本稿では,分散学習に基づく重み付け手法を開発し,この問題を緩和することを目的とする。 まず, 治療課題を条件とした共変量の真の分布を学習し, 治療群における共変量の密度と対照群の濃度の比を, 治療効果の推定の重みとして活用する。 具体的には,変数の変化による可逆変換を通じて,処理群と制御群の両方における共変量の分布を近似する。 本手法の優越性,堅牢性,一般化性を示すため,合成データと実データを用いて広範な実験を行った。 実験結果から, 平均処理効果を観測データで推定する手法は, 最先端の重み付けのみベンチマーク法よりも優れており, 重み付けと先進的な結果モデリング法を併用した2重み付け推定法において, その優位性を維持していることがわかった。

Existing weighting methods for treatment effect estimation are often built upon the idea of propensity scores or covariate balance. They usually impose strong assumptions on treatment assignment or outcome model to obtain unbiased estimation, such as linearity or specific functional forms, which easily leads to the major drawback of model mis-specification. In this paper, we aim to alleviate these issues by developing a distribution learning-based weighting method. We first learn the true underlying distribution of covariates conditioned on treatment assignment, then leverage the ratio of covariates' density in the treatment group to that of the control group as the weight for estimating treatment effects. Specifically, we propose to approximate the distribution of covariates in both treatment and control groups through invertible transformations via change of variables. To demonstrate the superiority, robustness, and generalizability of our method, we conduct extensive experiments using synthetic and real data. From the experiment results, we find that our method for estimating average treatment effect on treated (ATT) with observational data outperforms several cutting-edge weighting-only benchmarking methods, and it maintains its advantage under a doubly-robust estimation framework that combines weighting with some advanced outcome modeling methods.
翻訳日:2023-05-10 01:41:00 公開日:2023-05-08
# 稀かつ不確定な診断を伴う自殺リスクの生存モデル

Survival Modeling of Suicide Risk with Rare and Uncertain Diagnoses ( http://arxiv.org/abs/2009.02597v2 )

ライセンス: Link先を確認
Wenjie Wang, Chongliang Luo, Robert H. Aseltine, Fei Wang, Jun Yan, Kun Chen(参考訳) 行動医療の改善を通じて自殺予防の必要性が高まる中, 自殺未遂により退院した患者に対して, その後の自殺未遂のリスクを調査するために, 医療クレームデータを用いた。 自殺リスクの高い患者のリスク行動を理解することは「ゼロ自殺」の目標に向けた重要なステップである。 医学的主張からの自殺未遂の特定は、ほぼ20%の「検査された」自殺未遂が、負傷の外部原因を示す診断コードから特定されるという、非常に不確実性を含んでいる。 したがって、これらの未決定事象のうちどれが実際の自殺未遂の可能性が高く、厳しい検閲を伴う生存分析においてそれらを適切に活用するかを知ることは大きな関心事である。 このような相互関連問題に対処するため,不確実な事象と潜伏する治療率で生存回帰を行うために,正規化を伴う統合的コックス治療モデルを開発した。 コネチカット州の医療クレームデータを用いて,若年者および若年者の自殺関連入院後の自殺未遂リスクを調査するために,提案手法を適用した。 より興味深いことに,本手法は,次の試みの感受性やタイミングを評価する上で最も有用であるリスク要因を識別する。 不確かな試みの予測状態がさらに調査され、自殺の事象の特定に関する新たな洞察がもたらされた。

Motivated by the pressing need for suicide prevention through improving behavioral healthcare, we use medical claims data to study the risk of subsequent suicide attempts for patients who were hospitalized due to suicide attempts and later discharged. Understanding the risk behaviors of such patients at elevated suicide risk is an important step toward the goal of "Zero Suicide." An immediate and unconventional challenge is that the identification of suicide attempts from medical claims contains substantial uncertainty: almost 20% of "suspected" suicide attempts are identified from diagnosis codes indicating external causes of injury and poisoning with undermined intent. It is thus of great interest to learn which of these undetermined events are more likely actual suicide attempts and how to properly utilize them in survival analysis with severe censoring. To tackle these interrelated problems, we develop an integrative Cox cure model with regularization to perform survival regression with uncertain events and a latent cure fraction. We apply the proposed approach to study the risk of subsequent suicide attempts after suicide-related hospitalization for the adolescent and young adult population, using medical claims data from Connecticut. The identified risk factors are highly interpretable; more intriguingly, our method distinguishes the risk factors that are most helpful in assessing either susceptibility or timing of subsequent attempts. The predicted statuses of the uncertain attempts are further investigated, leading to several new insights on suicide event identification.
翻訳日:2023-05-10 01:40:10 公開日:2023-05-08
# MSN:軌道予測のためのマルチスタイルネットワーク

MSN: Multi-Style Network for Trajectory Prediction ( http://arxiv.org/abs/2107.00932v5 )

ライセンス: Link先を確認
Conghao Wong, Beihao Xia, Qinmu Peng, Wei Yuan and Xinge You(参考訳) トラジェクトリ予測は,映像のコンテキストとともに,エージェントの将来の位置を予測することを目的としている。 トラッキング、検出、ロボットナビゲーション、自動運転車など、多くの自律型プラットフォームで強く求められている。 エージェントの内部的性格要因、近隣との対話的行動、周辺環境の影響にかかわらず、エージェントの今後の計画に影響を及ぼす。 しかし、多くの従来の手法はエージェントの行動を同じ戦略や特徴分布でモデル化し予測し、十分なスタイルの違いで予測することは困難である。 本稿では,2つのサブネットワークを用いたスタイル提案とスタイライゼーション予測を利用したマルチスタイルネットワーク (msn) を提案する。 提案するネットワークには一連のスタイルチャネルがあり,それぞれのチャネルはユニークで特定の動作スタイルに縛られている。 我々は,行動分類の基盤としてエージェントのエンドポイント計画とそのインタラクションコンテキストを用い,これらのチャネルを通じて多様な行動スタイルを適応的に学習する。 そこで, 対象エージェントはそれぞれの分類されたスタイルに応じて, 将来の振る舞いを計画し, 異なるスタイルのチャネルを用いて, 異なるスタイルの違いを並列に予測する。 実験により,提案したMSNは2つの広く使用されているデータセットに対して,現在の最先端手法よりも10%高い性能を示し,質的に優れたマルチスタイル特性を示す。

Trajectory prediction aims to forecast agents' possible future locations considering their observations along with the video context. It is strongly needed by many autonomous platforms like tracking, detection, robot navigation, and self-driving cars. Whether it is agents' internal personality factors, interactive behaviors with the neighborhood, or the influence of surroundings, they all impact agents' future planning. However, many previous methods model and predict agents' behaviors with the same strategy or feature distribution, making them challenging to make predictions with sufficient style differences. This paper proposes the Multi-Style Network (MSN), which utilizes style proposal and stylized prediction using two sub-networks, to provide multi-style predictions in a novel categorical way adaptively. The proposed network contains a series of style channels, and each channel is bound to a unique and specific behavior style. We use agents' end-point plannings and their interaction context as the basis for the behavior classification, so as to adaptively learn multiple diverse behavior styles through these channels. Then, we assume that the target agents may plan their future behaviors according to each of these categorized styles, thus utilizing different style channels to make predictions with significant style differences in parallel. Experiments show that the proposed MSN outperforms current state-of-the-art methods up to 10% quantitatively on two widely used datasets, and presents better multi-style characteristics qualitatively.
翻訳日:2023-05-10 01:32:23 公開日:2023-05-08
# ニューラルビデオレンダリングによるロバストポーズ転送の動的詳細化

Robust Pose Transfer with Dynamic Details using Neural Video Rendering ( http://arxiv.org/abs/2106.14132v3 )

ライセンス: Link先を確認
Yang-tian Sun, Hao-zhi Huang, Xuan Wang, Yu-kun Lai, Wei Liu, Lin Gao(参考訳) 人間の動画のポーズ転送は、ソースの人物の行動を模倣したターゲット人物の忠実度の高いビデオを生成することを目的としている。 いくつかの研究は、深い潜伏特徴を持つ画像翻訳や、明示的な3D特徴を持つニューラルレンダリングを通じて大きな進歩を遂げている。 しかし、両者とも、現実的な結果を生み出すために大量のトレーニングデータに依存しており、トレーニングフレームの不足により、よりアクセスしやすいインターネットビデオではパフォーマンスが低下する。 本稿では,短時間の単分子ビデオから,動的詳細をトレーニングしても保存できることを実証する。 全体として,画像翻訳に基づくダイナミックディテール生成ネットワーク(d2g-net)と組み合わされたニューラルビデオレンダリングフレームワークを提案する。 具体的には、新しいテクスチャ表現を示し、静的およびポーズ変化の外観特性の両方を符号化し、画像空間にマッピングし、ニューラルネットワークレンダリング段階で詳細に富んだフレームとして描画する。 さらに,本手法が生み出す高品質なダイナミックディテールにより,より目に見えるディテール・フレッカリングを抑えるため,トレーニング段階での簡潔な時間的損失も導入する。 2kから4kのフレームしか持たない短いビデオでも、我々のニューラル・ヒューマン・ビデオ・レンダラーはより明瞭なダイナミックディテールとより堅牢なパフォーマンスを実現することができることを実証した。

Pose transfer of human videos aims to generate a high fidelity video of a target person imitating actions of a source person. A few studies have made great progress either through image translation with deep latent features or neural rendering with explicit 3D features. However, both of them rely on large amounts of training data to generate realistic results, and the performance degrades on more accessible internet videos due to insufficient training frames. In this paper, we demonstrate that the dynamic details can be preserved even trained from short monocular videos. Overall, we propose a neural video rendering framework coupled with an image-translation-based dynamic details generation network (D2G-Net), which fully utilizes both the stability of explicit 3D features and the capacity of learning components. To be specific, a novel texture representation is presented to encode both the static and pose-varying appearance characteristics, which is then mapped to the image space and rendered as a detail-rich frame in the neural rendering stage. Moreover, we introduce a concise temporal loss in the training stage to suppress the detail flickering that is made more visible due to high-quality dynamic details generated by our method. Through extensive comparisons, we demonstrate that our neural human video renderer is capable of achieving both clearer dynamic details and more robust performance even on accessible short videos with only 2k - 4k frames.
翻訳日:2023-05-10 01:31:59 公開日:2023-05-08
# パラメトリズド量子回路の符号化依存一般化境界

Encoding-dependent generalization bounds for parametrized quantum circuits ( http://arxiv.org/abs/2106.03880v3 )

ライセンス: Link先を確認
Matthias C. Caro, Elies Gil-Fuster, Johannes Jakob Meyer, Jens Eisert, Ryan Sweke(参考訳) 最近の多くの研究が、ハイブリッド量子古典最適化の枠組みの中で、機械学習モデルとしてパラメタライズド量子回路(PQC)の可能性を探究し始めている。 特に、一般化境界の観点から、そのようなモデルのサンプル外性能に関する理論的保証が現れている。 しかしながら、これらの一般化は古典的な入力データをPQCにエンコードする方法に明示的に依存しない。 データエンコーディングの戦略に明示的に依存するPQCモデルに対して一般化境界を導出する。 これらは、トレーニング済みのpqcベースのモデルの未取得データに対するパフォーマンスに限界がある。 さらに, モデル選択のための数学的厳密な枠組みである構造リスク最小化により, 最適なデータエンコーディング戦略の選択を容易にする。 統計的学習理論から得られる2つの複雑性尺度であるラデマシェ複雑性と計量エントロピーによって測定されるpqcモデルの複雑性を境界として一般化境界を求める。 これを実現するために、三角関数によるPQCベースのモデルの表現に頼る。 一般化バウンダリは、PQCモデルに対するよく考えられたデータエンコーディング戦略の重要性を強調する。

A large body of recent work has begun to explore the potential of parametrized quantum circuits (PQCs) as machine learning models, within the framework of hybrid quantum-classical optimization. In particular, theoretical guarantees on the out-of-sample performance of such models, in terms of generalization bounds, have emerged. However, none of these generalization bounds depend explicitly on how the classical input data is encoded into the PQC. We derive generalization bounds for PQC-based models that depend explicitly on the strategy used for data-encoding. These imply bounds on the performance of trained PQC-based models on unseen data. Moreover, our results facilitate the selection of optimal data-encoding strategies via structural risk minimization, a mathematically rigorous framework for model selection. We obtain our generalization bounds by bounding the complexity of PQC-based models as measured by the Rademacher complexity and the metric entropy, two complexity measures from statistical learning theory. To achieve this, we rely on a representation of PQC-based models via trigonometric functions. Our generalization bounds emphasize the importance of well-considered data-encoding strategies for PQC-based models.
翻訳日:2023-05-10 01:31:35 公開日:2023-05-08
# クーロンポテンシャルを有限単位摂動理論に組み込む

Incorporating the Coulomb potential into a finite, unitary perturbation theory ( http://arxiv.org/abs/2105.04362v2 )

ライセンス: Link先を確認
Scott E. Hoffmann(参考訳) 我々は、クーロン相互作用を含む相互作用を扱うために摂動理論を構築し、核物理学でしばしば発生する物理問題を記述する。 クーロン部は摂動的に処理されず、正確な解が用いられる。 この方法はホフマン (2021 J. Math. Phys. 62 032105) で示された結果の拡張である。 位置空間における波動関数の完全な形ではなく、位相シフトを直接計算するように設計されている。 摂動における位相の2次へのシフトを計算できる式を提案する。 位相シフトの結果, 短距離ポテンシャルでは第2次への位相シフトは, 正確な解と比較され, 結合強度の3次誤差が認められた。 ヘリウム4上の陽子の核散乱の単純な近似として、クーロンポテンシャルと球面井戸を含む別のモデルが、この理論をテストするために構築された。 ホフマン (2017 J. Phy. B: At. Mol. Opt. Phys 50 215302) の波束散乱形式は、至る所で有限の結果を与えることが知られている。 物理的に許容できる結果と正しい等級の断面積を見出した。

We have constructed a perturbation theory to treat interactions that can include the Coulomb interaction, describing a physical problem that is often encountered in nuclear physics. The Coulomb part is not treated perturbatively; the exact solutions are employed. The method is an extension of the results presented in Hoffmann (2021 J. Math. Phys. 62 032105). It is designed to calculate phase shifts directly rather than the full form of the wavefunctions in position space. We present formulas that allow calculation of the phase shifts to second order in the perturbation. The phase shift results to second order, for a short-range potential, were compared with the exact solution, where we found an error of third order in the coupling strength. A different model, meant as a simple approximation of nuclear scattering of a proton on Helium-4 and including a Coulomb potential and a spherical well, was constructed to test the theory. The wavepacket scattering formalism of Hoffmann (2017 J. Phy. B: At. Mol. Opt. Phys 50 215302), known to give everywhere finite results, was employed. We found physically acceptable results and a cross section of the correct order of magnitude.
翻訳日:2023-05-10 01:31:10 公開日:2023-05-08
# 言語モデリングのための大きく多様なアラビア語コーパス

A Large and Diverse Arabic Corpus for Language Modeling ( http://arxiv.org/abs/2201.09227v3 )

ライセンス: Link先を確認
Abbas Raza Ali, Muhammad Ajmal Siddiqui, Rema Algunaibet and Hasan Raza Ali(参考訳) 言語モデル (LM) は自然言語処理 (NLP) モデリングにおいて大きなパラダイムシフトをもたらし、そこでは大きな事前学習されたLMがほとんどのNLPタスクに不可欠なものとなった。 LMは、監督なしで言語の有用性と関連する表現を見つけるのに十分な知能を持っている。 おそらくこれらのモデルは、従来の手法と比較して非常に高い精度で典型的なNLPタスクを微調整するために使用される。 逆に、これらのモデルのトレーニングには言語をうまく表現する巨大なコーパスが必要である。 英語のLMは、大規模な英語コーパスが利用できるため、他の言語よりもパフォーマンスがよい。 この研究は、大きなアラビア人コーパスの設計と開発について詳述している。 大規模言語モデルのクロスドメイン知識と下流一般化能力の向上を目的とした、500GB以上のアラビアクリーンテキストで構成されている。 さらに、このコーパスは、大きなアラビア語lmの訓練に利用される。 LMの有効性を評価するために、多くの典型的なNLPタスクを微調整する。 タスクは多言語BERT(mBERT)で微調整されたタスクと比較して4.5から8.5%に大幅に向上した。 私の知る限りでは、これは現在収集されたアラビア最大のクリーンで多様なコーパスです。

Language models (LMs) have introduced a major paradigm shift in Natural Language Processing (NLP) modeling where large pre-trained LMs became integral to most of the NLP tasks. The LMs are intelligent enough to find useful and relevant representations of the language without any supervision. Perhaps, these models are used to fine-tune typical NLP tasks with significantly high accuracy as compared to the traditional approaches. Conversely, the training of these models requires a massively large corpus that is a good representation of the language. English LMs generally perform better than their other language counterparts, due to the availability of massive English corpora. This work elaborates on the design and development of a large Arabic corpus. It consists of over 500 GB of Arabic cleaned text targeted at improving cross-domain knowledge and downstream generalization capability of large-scale language models. Moreover, the corpus is utilized in the training of a large Arabic LM. In order to evaluate the effectiveness of the LM, a number of typical NLP tasks are fine-tuned. The tasks demonstrate a significant boost from 4.5 to 8.5% when compared to tasks fine-tuned on multi-lingual BERT (mBERT). To the best of my knowledge, this is currently the largest clean and diverse Arabic corpus ever collected.
翻訳日:2023-05-10 01:22:13 公開日:2023-05-08
# 未知離散時間線形システムの学習安全フィルタ

Learning Safety Filters for Unknown Discrete-Time Linear Systems ( http://arxiv.org/abs/2111.00631v2 )

ライセンス: Link先を確認
Farhad Farokhi, Alex S. Leong, Mohammad Zamani, Iman Shames(参考訳) 未知モデルを持つ離散時間線形時不変系に対して,共分散のガウス雑音を受ける学習型安全フィルタを開発した。 安全性は状態に対するポリトピック制約と制御入力によって特徴づけられる。 実験的に学習されたモデルとプロセスノイズの共分散と信頼境界は、高い確率で安全性を確保するために名目制御動作を最小限に修正する堅牢な最適化問題を構築するために使用される。 最適化問題は、元の安全制約の厳格化に依存する。 信頼できるモデルを構築するための情報が少ないため、当初より締め付けの規模は大きくなるが、より多くのデータが利用可能になると時間とともに縮小する。

A learning-based safety filter is developed for discrete-time linear time-invariant systems with unknown models subject to Gaussian noises with unknown covariance. Safety is characterized using polytopic constraints on the states and control inputs. The empirically learned model and process noise covariance with their confidence bounds are used to construct a robust optimization problem for minimally modifying nominal control actions to ensure safety with high probability. The optimization problem relies on tightening the original safety constraints. The magnitude of the tightening is larger at the beginning since there is little information to construct reliable models, but shrinks with time as more data becomes available.
翻訳日:2023-05-10 01:20:51 公開日:2023-05-08
# 再生粒子トンプソンサンプリング

Regenerative Particle Thompson Sampling ( http://arxiv.org/abs/2203.08082v2 )

ライセンス: Link先を確認
Zeyu Zhou, Bruce Hajek, Nakjung Choi, Anwar Walid(参考訳) 本稿では, 再生粒子トンプソンサンプリング (RPTS) を提案する。 トンプソンサンプリングそのものは確率的バンディット問題を解決するベイズ的ヒューリスティックであるが、連続した後続分布を維持するという難しさのために実際に実装することは困難である。 粒子トンプソンサンプリング(英: particle thompson sampling、pts)は、連続分布を重み付き静粒子の集合で支持される離散分布に置き換えることで得られるトンプソンサンプリングの近似である。 PTSでは、いくつかの適合粒子を除く全ての重みが0に収束する。 RPTSは、崩壊する不適合粒子を除去し、不適合粒子の近傍で新しい粒子を再生する、というヒューリスティックに基づいている。 実証的な証拠は、RPTSからRPTSへの均一な改善と、5Gネットワークスライシングへの応用を含む一連の代表的な帯域幅問題に対するRPTSの柔軟性と有効性を示している。

This paper proposes regenerative particle Thompson sampling (RPTS), a flexible variation of Thompson sampling. Thompson sampling itself is a Bayesian heuristic for solving stochastic bandit problems, but it is hard to implement in practice due to the intractability of maintaining a continuous posterior distribution. Particle Thompson sampling (PTS) is an approximation of Thompson sampling obtained by simply replacing the continuous distribution by a discrete distribution supported at a set of weighted static particles. We observe that in PTS, the weights of all but a few fit particles converge to zero. RPTS is based on the heuristic: delete the decaying unfit particles and regenerate new particles in the vicinity of fit surviving particles. Empirical evidence shows uniform improvement from PTS to RPTS and flexibility and efficacy of RPTS across a set of representative bandit problems, including an application to 5G network slicing.
翻訳日:2023-05-10 01:14:36 公開日:2023-05-08
# Blind2Unblind:視覚的な盲点で自己監督された画像

Blind2Unblind: Self-Supervised Image Denoising with Visible Blind Spots ( http://arxiv.org/abs/2203.06967v3 )

ライセンス: Link先を確認
Zejin Wang, Jiazheng Liu, Guoqing Li, Hua Han(参考訳) 大規模な実雑音とクリーンなペアは高価で入手が難しい。 一方で、合成データで訓練された教師付きデノイザーは、実際には不十分である。 単一ノイズ画像からのみ学習する自己教師型デノイザは、データ収集問題を解決する。 しかし、特に盲点駆動の自己教師型復調法は、入力やネットワーク設計において大きな情報損失を被る。 貴重な情報がないことにより、デノナイジング性能の上限が劇的に低下する。 本稿では,ブラインドスポット駆動型復調法における情報損失を克服する,Blind2Unblindというシンプルな手法を提案する。 まず,グローバル認識を可能にし,トレーニングを高速化するグローバルウェアマスクマッパーを提案する。 マスクマッパーは、識別されたボリューム上の盲点のすべてのピクセルをサンプリングし、それらを同じチャネルにマップすることで、損失関数を一度にすべての盲点を最適化する。 第2に,目隠しネットワークを訓練し,盲点を視認する再視認性損失を提案する。 デノイザは、情報を失ったり、アイデンティティマッピングに閉じ込められたりすることなく、生のノイズ画像から直接学習することができる。 また,再可視損失の収束を理論的に解析する。 総合的および実世界のデータセットに関する広範な実験は、これまでの研究よりも優れた性能を示している。 コードはhttps://github.com/demonsjin/blind2unblindで入手できる。

Real noisy-clean pairs on a large scale are costly and difficult to obtain. Meanwhile, supervised denoisers trained on synthetic data perform poorly in practice. Self-supervised denoisers, which learn only from single noisy images, solve the data collection problem. However, self-supervised denoising methods, especially blindspot-driven ones, suffer sizable information loss during input or network design. The absence of valuable information dramatically reduces the upper bound of denoising performance. In this paper, we propose a simple yet efficient approach called Blind2Unblind to overcome the information loss in blindspot-driven denoising methods. First, we introduce a global-aware mask mapper that enables global perception and accelerates training. The mask mapper samples all pixels at blind spots on denoised volumes and maps them to the same channel, allowing the loss function to optimize all blind spots at once. Second, we propose a re-visible loss to train the denoising network and make blind spots visible. The denoiser can learn directly from raw noise images without losing information or being trapped in identity mapping. We also theoretically analyze the convergence of the re-visible loss. Extensive experiments on synthetic and real-world datasets demonstrate the superior performance of our approach compared to previous work. Code is available at https://github.com/demonsjin/Blind2Unblind.
翻訳日:2023-05-10 01:14:19 公開日:2023-05-08
# インジェクティブ正規化流れに対する非線形等尺多様体学習

Nonlinear Isometric Manifold Learning for Injective Normalizing Flows ( http://arxiv.org/abs/2203.03934v2 )

ライセンス: Link先を確認
Eike Cramer, Felix Rauh, Alexander Mitsos, Ra\'ul Tempone, Manuel Dahmen(参考訳) 正規化流を用いて多様体データをモデル化するために, 等尺オートエンコーダを用い, 確率分布を歪めない明示的な逆解析による埋め込みを設計する。 イソメトリーを用いることで、多様体学習と密度推定を分離し、両方の部分のトレーニングを高精度に行うことができる。 このように、モデル選択とチューニングは既存のインジェクティブ正規化フローと比較して単純化される。 ほぼ)平坦多様体上のデータセットに適用すると、結合アプローチは高品質なデータを生成する。

To model manifold data using normalizing flows, we employ isometric autoencoders to design embeddings with explicit inverses that do not distort the probability distribution. Using isometries separates manifold learning and density estimation and enables training of both parts to high accuracy. Thus, model selection and tuning are simplified compared to existing injective normalizing flows. Applied to data sets on (approximately) flat manifolds, the combined approach generates high-quality data.
翻訳日:2023-05-10 01:13:40 公開日:2023-05-08
# 微分可能超幾何分布を用いた学習グループの重要性

Learning Group Importance using the Differentiable Hypergeometric Distribution ( http://arxiv.org/abs/2203.01629v5 )

ライセンス: Link先を確認
Thomas M. Sutter, Laura Manduchi, Alain Ryser, Julia E. Vogt(参考訳) 要素の集合を事前の未知サイズの部分集合に分割することは、多くのアプリケーションにおいて必須である。 これらのサブセットサイズは、クラスタリングアプリケーションにおけるクラスタサイズや、弱い教師付き学習における共有および独立生成潜在因子の数など、明示的に学習されることは滅多にない。 部分集合サイズの正しい組み合わせに対する確率分布は、勾配に基づく最適化を禁止するハード制約のため微分不可能である。 本研究では,微分可能超幾何分布を提案する。 超幾何分布はその相対的重要性に基づいて異なる群の大きさの確率をモデル化する。 評価可能な勾配を導入し,グループ間の重要性を学習し,弱い教師付き学習とクラスタリングの2つの典型的なアプリケーションにおいて,サブセットのサイズを明示的に学習する利点を強調する。 どちらのアプリケーションでも、未知のサイズをモデル化するサブオプティカルヒューリスティックに依存する従来のアプローチよりも優れています。

Partitioning a set of elements into subsets of a priori unknown sizes is essential in many applications. These subset sizes are rarely explicitly learned - be it the cluster sizes in clustering applications or the number of shared versus independent generative latent factors in weakly-supervised learning. Probability distributions over correct combinations of subset sizes are non-differentiable due to hard constraints, which prohibit gradient-based optimization. In this work, we propose the differentiable hypergeometric distribution. The hypergeometric distribution models the probability of different group sizes based on their relative importance. We introduce reparameterizable gradients to learn the importance between groups and highlight the advantage of explicitly learning the size of subsets in two typical applications: weakly-supervised learning and clustering. In both applications, we outperform previous approaches, which rely on suboptimal heuristics to model the unknown size of groups.
翻訳日:2023-05-10 01:13:33 公開日:2023-05-08
# 生涯学習のためのニューラルネットワークの深層化

Increasing Depth of Neural Networks for Life-long Learning ( http://arxiv.org/abs/2202.10821v2 )

ライセンス: Link先を確認
J\k{e}drzej Kozal, Micha{\l} Wo\'zniak(参考訳) 目的:ニューラルネットワークの深さ増加に基づく連続学習手法を提案する。 この研究は、ニューラルネットワークの深さを延ばすことが、生涯にわたる学習環境で有益かどうかを探求する。 方法: 既存のレイヤの上に新しいレイヤを追加することで, 知識の転送と事前学習した表現の適応を可能にする手法を提案する。 学習可能なパラメータを持つ新しいノードを追加するために、ネットワーク内の最適な場所を選択するために、最も類似したタスクを決定する方法を採用します。 このアプローチでは、各ノードが特定のタスク専用のニューラルネットワークパラメータのセットであるツリーライクなモデルを作成することができる。 プログレッシブニューラルネットワークの概念は提案手法に刺激を与える。 したがって、ネットワーク構造の動的変化の恩恵を受ける。 しかし、プログレッシブニューラルネットワークは学習プロセス中にネットワーク構造全体に対して大量のメモリを割り当てる。 提案手法は,ネットワークの一部のみを新しいタスクに追加し,事前訓練した重みのサブセットを活用することで,これを緩和する。 同時に、メモリバッファを必要とせずに、設計によって保証されていることを忘れないように、PNNの利点を保ちます。 結果: Split CIFAR と Split Tiny ImageNet の実験から,提案アルゴリズムは他の連続学習手法と同等であることがわかった。 ひとつのコンピュータビジョンデータセットを別のタスクとするより困難なセットアップでは、私たちのメソッドはエクスペリエンス・リプレイよりも優れています。 結論:一般的なコンピュータビジョンアーキテクチャと互換性があり、独自のネットワーク構造を必要としない。 データ分散の変化への適応は、アーキテクチャを拡張して行われるので、リハーサルバッファを利用する必要はない。 このため,データプライバシを考慮すべきセンシティブなアプリケーションでは,この手法が利用可能である。

Purpose: We propose a novel method for continual learning based on the increasing depth of neural networks. This work explores whether extending neural network depth may be beneficial in a life-long learning setting. Methods: We propose a novel approach based on adding new layers on top of existing ones to enable the forward transfer of knowledge and adapting previously learned representations. We employ a method of determining the most similar tasks for selecting the best location in our network to add new nodes with trainable parameters. This approach allows for creating a tree-like model, where each node is a set of neural network parameters dedicated to a specific task. The Progressive Neural Network concept inspires the proposed method. Therefore, it benefits from dynamic changes in network structure. However, Progressive Neural Network allocates a lot of memory for the whole network structure during the learning process. The proposed method alleviates this by adding only part of a network for a new task and utilizing a subset of previously trained weights. At the same time, we may retain the benefit of PNN, such as no forgetting guaranteed by design, without needing a memory buffer. Results: Experiments on Split CIFAR and Split Tiny ImageNet show that the proposed algorithm is on par with other continual learning methods. In a more challenging setup with a single computer vision dataset as a separate task, our method outperforms Experience Replay. Conclusion: It is compatible with commonly used computer vision architectures and does not require a custom network structure. As an adaptation to changing data distribution is made by expanding the architecture, there is no need to utilize a rehearsal buffer. For this reason, our method could be used for sensitive applications where data privacy must be considered.
翻訳日:2023-05-10 01:13:17 公開日:2023-05-08
# 信頼度の高いディープグラフ学習の最近の進歩 : 遺伝的ノイズ, 分布シフト, 対向攻撃

Recent Advances in Reliable Deep Graph Learning: Inherent Noise, Distribution Shift, and Adversarial Attack ( http://arxiv.org/abs/2202.07114v2 )

ライセンス: Link先を確認
Jintang Li, Bingzhe Wu, Chengbin Hou, Guoji Fu, Yatao Bian, Liang Chen, Junzhou Huang, Zibin Zheng(参考訳) ディープグラフ学習(dgl)は、金融や電子商取引から薬物や高度な物質発見まで、ビジネス分野と科学分野の両方で著しく進歩した。 進歩にもかかわらず、DGLを現実世界のアプリケーションに適用することは、固有のノイズ、分散シフト、敵攻撃など、一連の信頼性上の脅威に直面している。 本調査は,上記の脅威に対するdglアルゴリズムの信頼性向上に向けた最近の進歩を総合的に検討することを目的とする。 敵対的攻撃や防衛に重点を置く先行調査とは対照的に,本調査は,dglの信頼性に関連する側面,すなわち固有ノイズと分布シフトを対象とする。 さらに、上記の側面間の関係を議論し、今後の研究で検討すべき重要な課題をいくつか取り上げる。

Deep graph learning (DGL) has achieved remarkable progress in both business and scientific areas ranging from finance and e-commerce to drug and advanced material discovery. Despite the progress, applying DGL to real-world applications faces a series of reliability threats including inherent noise, distribution shift, and adversarial attacks. This survey aims to provide a comprehensive review of recent advances for improving the reliability of DGL algorithms against the above threats. In contrast to prior related surveys which mainly focus on adversarial attacks and defense, our survey covers more reliability-related aspects of DGL, i.e., inherent noise and distribution shift. Additionally, we discuss the relationships among above aspects and highlight some important issues to be explored in future research.
翻訳日:2023-05-10 01:12:52 公開日:2023-05-08
# 機能の再利用:検索と特徴量アライメントの統合

Reuse your features: unifying retrieval and feature-metric alignment ( http://arxiv.org/abs/2204.06292v2 )

ライセンス: Link先を確認
Javier Morlana and J.M.M. Montiel(参考訳) 画像検索,候補再ランク付け,初期ポーズ推定,カメラポーズ補正など,視覚的ローカライゼーションのすべてのステップを統合するためのコンパクトパイプラインを提案する。 私たちの重要な前提は、個々のタスクで使用される深い機能は共通の特性を共有しているので、パイプラインのすべての手順でそれらを再利用すべきである、ということです。 我々のDRAN(Deep Retrieval and image Alignment Network)は、効率的な画像検索のためのグローバルな記述子を抽出し、中間階層的特徴を用いて検索リストを再ランクし、初期ポーズ推定を生成する。 DRANは視覚的ローカライゼーションの3段階の機能を生成できる最初のシングルネットワークである。 DRANは、公開ベンチマークにおける挑戦的な条件下での堅牢性と精度の面での競争性能を達成し、他の統一されたアプローチよりも優れ、複数のネットワークを使用するものよりも計算コストとメモリコストが低い。 コードとモデルはhttps://github.com/jmorlana/DRAN.comで公開される。

We propose a compact pipeline to unify all the steps of Visual Localization: image retrieval, candidate re-ranking and initial pose estimation, and camera pose refinement. Our key assumption is that the deep features used for these individual tasks share common characteristics, so we should reuse them in all the procedures of the pipeline. Our DRAN (Deep Retrieval and image Alignment Network) is able to extract global descriptors for efficient image retrieval, use intermediate hierarchical features to re-rank the retrieval list and produce an initial pose guess, which is finally refined by means of a feature-metric optimization based on learned deep multi-scale dense features. DRAN is the first single network able to produce the features for the three steps of visual localization. DRAN achieves competitive performance in terms of robustness and accuracy under challenging conditions in public benchmarks, outperforming other unified approaches and consuming lower computational and memory cost than its counterparts using multiple networks. Code and models will be publicly available at https://github.com/jmorlana/DRAN.
翻訳日:2023-05-10 01:03:17 公開日:2023-05-08
# SImProv:ロバストコンテンツ属性のためのスケーラブルな画像プロファイナンスフレームワーク

SImProv: Scalable Image Provenance Framework for Robust Content Attribution ( http://arxiv.org/abs/2206.14245v2 )

ライセンス: Link先を確認
Alexander Black, Tu Bui, Simon Jenni, Zhifei Zhang, Viswanathan Swaminanthan, John Collomosse(参考訳) SImProv - クエリイメージをオリジナルの信頼できるデータベースにマッチさせ、クエリの操作の可能性を特定する、スケーラブルな画像証明フレームワーク。 SImProvは3つのステージから構成される: トップkの最も類似した画像を検索するスケーラブルな検索ステージ、候補の中からオリジナルを識別する再分類とほぼ重複した検出ステージ、そして最後に、元のものと異なるように操作された可能性のあるクエリ内の領域をローカライズする操作検出と可視化ステージ。 SImProvは、ノイズや圧縮劣化によるアーティファクトや、画像パディングやワープ、サイズや形状の変化など、オンライン再配布時に一般的に発生する画像変換の良し悪しに対して堅牢である。 アウトオブプレース変換に対する堅牢性は、コンパレータアーキテクチャ内の微分可能なワーピングモジュールのエンドツーエンドトレーニングによって達成される。 1億画像のデータセット上で効果的な検索および操作検出を行う。

We present SImProv - a scalable image provenance framework to match a query image back to a trusted database of originals and identify possible manipulations on the query. SImProv consists of three stages: a scalable search stage for retrieving top-k most similar images; a re-ranking and near-duplicated detection stage for identifying the original among the candidates; and finally a manipulation detection and visualization stage for localizing regions within the query that may have been manipulated to differ from the original. SImProv is robust to benign image transformations that commonly occur during online redistribution, such as artifacts due to noise and recompression degradation, as well as out-of-place transformations due to image padding, warping, and changes in size and shape. Robustness towards out-of-place transformations is achieved via the end-to-end training of a differentiable warping module within the comparator architecture. We demonstrate effective retrieval and manipulation detection over a dataset of 100 million images.
翻訳日:2023-05-10 00:56:36 公開日:2023-05-08
# 隠蔽逆数を用いたイオン量子プロセッサにおけるコヒーレントエラーの特性と緩和

Characterizing and mitigating coherent errors in a trapped ion quantum processor using hidden inverses ( http://arxiv.org/abs/2205.14225v2 )

ライセンス: Link先を確認
Swarnadeep Majumder, Christopher G. Yale, Titus D. Morris, Daniel S. Lobser, Ashlyn D. Burch, Matthew N. H. Chow, Melissa C. Revelle, Susan M. Clark, and Raphael C. Pooser(参考訳) 量子コンピューティングテストベッドは、量子ビットの小さな集合に対して高忠実な量子制御を示し、正確な繰り返し可能な演算の実行と測定を可能にする。 現在、これらのノイズの多い中間スケールデバイスはデコヒーレンスの前に十分な数のシーケンシャル演算をサポートし、短期的アルゴリズムを(量子化学の化学精度のような)近距離精度で実行することができる。 これらのアルゴリズムの結果は不完全であるが、これらの不完全性は量子コンピュータのテストベッド開発をブートストラップするのに役立つ。 これらのアルゴリズムの過去数年間の実証は、アルゴリズムの実行中や後処理で測定および校正できる量子プロセッサ内のいくつかの支配的なノイズ源によってアルゴリズムの性能が不完全になるという考えと相まって、計算結果を改善するためにノイズ緩和が用いられるようになった。 逆に、ノイズ緩和と組み合わせたベンチマークアルゴリズムは、体系的あるいは純粋にランダムに、ノイズの性質を診断するのに役立つ。 本稿では,コヒーレントノイズ緩和手法を捕捉イオン試験ベッドのキャラクタリゼーションツールとして用いる方法について概説する。 本研究では,ノイズモデルに基づく雑音源決定のために雑音データのモデルフィッティングを行い,ノイズモデル推定のための有用なデータを提供する。 さらに,低レベルノイズモデルの詳細と近時アルゴリズムの応用特化性能を結びつけるため,様々なノイズ源の下で,誤差低減手法を併用した変分アルゴリズムの損失景観を実験的に構築する。 このタイプの接続により、アプリケーション対応のハードウェアコードサインが可能となり、量子化学のような特定のアプリケーションで最も重要なノイズ源は、その後のハードウェア世代で改善の焦点となる。

Quantum computing testbeds exhibit high-fidelity quantum control over small collections of qubits, enabling performance of precise, repeatable operations followed by measurements. Currently, these noisy intermediate-scale devices can support a sufficient number of sequential operations prior to decoherence such that near term algorithms can be performed with proximate accuracy (like chemical accuracy for quantum chemistry). While the results of these algorithms are imperfect, these imperfections can help bootstrap quantum computer testbed development. Demonstrations of these algorithms over the past few years, coupled with the idea that imperfect algorithm performance can be caused by several dominant noise sources in the quantum processor, which can be measured and calibrated during algorithm execution or in post-processing, has led to the use of noise mitigation to improve computational results. Conversely, benchmark algorithms coupled with noise mitigation can help diagnose the nature of noise, whether systematic or purely random. Here, we outline the use of coherent noise mitigation techniques as a characterization tool in trapped-ion testbeds. We perform model-fitting of the noisy data to determine the noise source based on realistic noise models and demonstrate that systematic noise amplification coupled with error mitigation schemes provides useful data for noise model deduction. Further, in order to connect lower level noise model details with application specific performance of near term algorithms, we experimentally construct the loss landscape of a variational algorithm under various injected noise sources coupled with error mitigation techniques. This type of connection enables application-aware hardware codesign, in which the most important noise sources in specific applications, like quantum chemistry, become foci of improvement in subsequent hardware generations.
翻訳日:2023-05-10 00:55:03 公開日:2023-05-08
# 量子ノイズ効果回路群による量子エラー低減

Quantum Error Mitigation via Quantum-Noise-Effect Circuit Groups ( http://arxiv.org/abs/2205.13907v4 )

ライセンス: Link先を確認
Yusuke Hama and Hirofumi Nishi(参考訳) 短期量子コンピュータは中規模量子デバイスとして構築されており、NISQデバイスという量子ノイズ効果に対して脆弱である。 従来の量子エラー訂正符号はそのようなデバイスでは実装されておらず、これらのマシンで精度良く量子計算を行うためには、量子計算エラーを緩和するための代替手法を開発する必要がある。 本研究では,ゲート操作中の環境との結合,すなわちデコヒーレンスによって発生する量子計算誤差に対する量子誤差緩和(qem)スキームを提案する。 まず1つの量子ビット状態における量子ノイズ効果を推定し、量子ノイズ効果回路群(quantum-noise-effect circuit group)として表現する。 次に、量子量子回路で得られた量子ノイズ効果回路群から生成した期待値を量子アルゴリズムに差し引いてQEM計算を行う。 その結果、量子ノイズ効果は減少し、量子ノイズ効果回路群と、量子アルゴリズムの深さとレジスタビットの数の積に対して多項式を拡大する基本量子回路の個数を介して、理想的な期待値が得られる。 QEM方式の有効性を数値的に示すため、4種類の量子アルゴリズムに対して振幅減衰効果の下で量子ビットのノイズ量子シミュレーションを行う。 我々のQEMスキームは量子計算操作(量子ゲートと測定)のみで構成されており、任意の種類の量子デバイスで行うことができる。 さらに、他の多くの種類の量子ノイズ効果の誤差軽減や、長い深さの量子アルゴリズムのノイズの多い量子計算にも適用することができる。

Near-term quantum computers have been built as intermediate-scale quantum devices and are fragile against quantum noise effects, namely, NISQ devices. Traditional quantum-error-correcting codes are not implemented on such devices and to perform quantum computation in good accuracy with these machines we need to develop alternative approaches for mitigating quantum computational errors. In this work, we propose quantum error mitigation (QEM) scheme for quantum computational errors which occur due to couplings with environments during gate operations, i.e., decoherence. To establish our QEM scheme, first we estimate the quantum noise effects on single-qubit states and represent them as groups of quantum circuits, namely, quantum-noise-effect circuit groups. Then our QEM scheme is conducted by subtracting expectation values generated by the quantum-noise-effect circuit groups from that obtained by the quantum circuits for the quantum algorithms under consideration. As a result, the quantum noise effects are reduced, and we obtain approximately the ideal expectation values via the quantum-noise-effect circuit groups and the numbers of elementary quantum circuits composing them scale polynomial with respect to the products of the depths of quantum algorithms and the numbers of register bits. To numerically demonstrate the validity of our QEM scheme, we run noisy quantum simulations of qubits under the amplitude damping effects for four types of quantum algorithms. Our QEM scheme is solely composed of quantum-computational operations (quantum gates and measurements), and thus, it can be conducted by any type of quantum device. In addition, it can be applied to error mitigation for many other types of quantum noise effects as well as noisy quantum computing of long-depth quantum algorithms.
翻訳日:2023-05-10 00:54:33 公開日:2023-05-08
# 小型量子プロセッサ用連続パラメータ量子ゲートのサンプル効率検証

Sample-efficient verification of continuously-parameterized quantum gates for small quantum processors ( http://arxiv.org/abs/2205.13074v3 )

ライセンス: Link先を確認
Ryan Shaffer, Hang Ren, Emiliia Dyrenkova, Christopher G. Yale, Daniel S. Lobser, Ashlyn D. Burch, Matthew N. H. Chow, Melissa C. Revelle, Susan M. Clark, Hartmut H\"affner(参考訳) ほとんどの短期量子情報処理装置は、量子誤り訂正と関連する論理量子ゲートセットを実装することができない。 その代わり、量子回路はデバイスの物理的ネイティブゲートセットを使って直接実装される。 これらのネイティブゲートはしばしばパラメータ化(例えば回転角)を持ち、一連の操作を連続的に行うことができる。 パラメータの許容範囲を越えたゲートの正しい操作の検証は、これらのデバイスの信頼性に対する信頼を得るために重要である。 本研究では, 最大10量子ビットの小型量子プロセッサに対して, 連続パラメータ化量子ゲートのサンプル効率検証を行う手法を実証する。 この手順では、デバイスのネイティブゲートセットから選択したランダムにパラメータ化されたゲート層のランダムシーケンスを生成し、そのシーケンスに近似的な逆を確率的にコンパイルすることで、デバイス上の全シーケンスの実行が初期状態に近い状態になるようにする。 その結果,この手法による忠実度推定は,クロスエントロピーベンチマークによる忠実度推定よりもばらつきが低いことがわかった。 これにより、所望の精度で忠実度損失を推定する場合、サンプル効率に実験的に関連のある利点が得られる。 本稿では,sandia qscout のトラップイオン量子プロセッサと ibm q の超伝導量子プロセッサ上で連続的にパラメータ化された量子ゲートセットを用いて,この手法を実験的に実現し,数値的にも実験的にもサンプル効率の利点を実証する。

Most near-term quantum information processing devices will not be capable of implementing quantum error correction and the associated logical quantum gate set. Instead, quantum circuits will be implemented directly using the physical native gate set of the device. These native gates often have a parameterization (e.g., rotation angles) which provide the ability to perform a continuous range of operations. Verification of the correct operation of these gates across the allowable range of parameters is important for gaining confidence in the reliability of these devices. In this work, we demonstrate a procedure for sample-efficient verification of continuously-parameterized quantum gates for small quantum processors of up to approximately 10 qubits. This procedure involves generating random sequences of randomly-parameterized layers of gates chosen from the native gate set of the device, and then stochastically compiling an approximate inverse to this sequence such that executing the full sequence on the device should leave the system near its initial state. We show that fidelity estimates made via this technique have a lower variance than fidelity estimates made via cross-entropy benchmarking. This provides an experimentally-relevant advantage in sample efficiency when estimating the fidelity loss to some desired precision. We describe the experimental realization of this technique using continuously-parameterized quantum gate sets on a trapped-ion quantum processor from Sandia QSCOUT and a superconducting quantum processor from IBM Q, and we demonstrate the sample efficiency advantage of this technique both numerically and experimentally.
翻訳日:2023-05-10 00:53:54 公開日:2023-05-08
# 公平とは何か? FairMLの哲学的考察と意義

What Is Fairness? Philosophical Considerations and Implications For FairML ( http://arxiv.org/abs/2205.09622v3 )

ライセンス: Link先を確認
Ludwig Bothmann, Kristina Peters, Bernd Bischl(参考訳) フェアネスを意識したML(fairML)における文献の増大は、機械学習(ML)に関連する不公平さを自動意思決定(ADM)において軽減することを目的としており、MLモデルの公平性を測定するメトリクスを定義し、訓練されたMLモデルがこれらの尺度で低い値を達成することを保証する方法を提案する。 しかし、公正とは何かという根本的な概念は、何世紀にもわたる哲学的議論とMLコミュニティにおけるこの概念の最近の採用の間にかなりのギャップを残しているため、ほとんど議論されない。 本研究では,公正性という一貫した概念を定式化し,哲学的考察をADMシステムにおけるMLモデルのトレーニングと評価のための形式的枠組みに変換することにより,このギャップを埋めようとしている。 フェアネス問題は保護属性の存在なしに既に発生しており、フェアネスと予測性能は不整合性ではなく、前者を達成するためには後者が必要であることを指摘した。 さらに,保護属性の存在下での公平性を評価する上で,なぜ因果的考察が必要なのかを論じる。 本稿では,fairmlの議論に対する言語的明快さを高め,実用的応用のための汎用アルゴリズムを提案する。

A growing body of literature in fairness-aware ML (fairML) aspires to mitigate machine learning (ML)-related unfairness in automated decision making (ADM) by defining metrics that measure fairness of an ML model and by proposing methods that ensure that trained ML models achieve low values in those measures. However, the underlying concept of fairness, i.e., the question of what fairness is, is rarely discussed, leaving a considerable gap between centuries of philosophical discussion and recent adoption of the concept in the ML community. In this work, we try to bridge this gap by formalizing a consistent concept of fairness and by translating the philosophical considerations into a formal framework for the training and evaluation of ML models in ADM systems. We derive that fairness problems can already arise without the presence of protected attributes, pointing out that fairness and predictive performance are not irreconcilable counterparts, but rather that the latter is necessary to achieve the former. Moreover, we argue why and how causal considerations are necessary when assessing fairness in the presence of protected attributes. We achieve greater linguistic clarity for the discussion of fairML and propose general algorithms for practical applications.
翻訳日:2023-05-10 00:53:15 公開日:2023-05-08
# 可変WORLD合成器を用いたニューラルヴォコーダとエンドツーエンド音声スタイル変換への応用

Differentiable WORLD Synthesizer-based Neural Vocoder With Application To End-To-End Audio Style Transfer ( http://arxiv.org/abs/2208.07282v5 )

ライセンス: Link先を確認
Shahan Nercessian(参考訳) 本稿では,WORLDシンセサイザを提案し,音声変換(歌唱)やDDSP音色変換タスクなどのエンドツーエンドの音声変換タスクに使用することを示す。 したがって、ベースライン微分型シンセサイザーはモデルパラメータを持たないが、十分な合成品質が得られる。 ベースライン出力にさらなる処理を施した軽量のブラックボックス・ポストネットを付加することにより、ベースラインシンセサイザーを拡張できる。 別の微分可能なアプローチでは、より狭いスタイル転送アプリケーションに対して自然性を改善することができるソース励起スペクトルを直接抽出することを考える。 提案手法の音響特性パラメタライゼーションは,ピッチと音節情報を独立にモデル化できるように自然に切り離すという利点がある。 さらに、これらの音響特徴をモノフォニック音源から推定する堅牢な手段が存在するため、パラメータ損失項をエンドツーエンドの目的関数に追加することができ、収束および/または更なる安定化(逆)訓練を支援することができる。

In this paper, we propose a differentiable WORLD synthesizer and demonstrate its use in end-to-end audio style transfer tasks such as (singing) voice conversion and the DDSP timbre transfer task. Accordingly, our baseline differentiable synthesizer has no model parameters, yet it yields adequate synthesis quality. We can extend the baseline synthesizer by appending lightweight black-box postnets which apply further processing to the baseline output in order to improve fidelity. An alternative differentiable approach considers extraction of the source excitation spectrum directly, which can improve naturalness albeit for a narrower class of style transfer applications. The acoustic feature parameterization used by our approaches has the added benefit that it naturally disentangles pitch and timbral information so that they can be modeled separately. Moreover, as there exists a robust means of estimating these acoustic features from monophonic audio sources, it allows for parameter loss terms to be added to an end-to-end objective function, which can help convergence and/or further stabilize (adversarial) training.
翻訳日:2023-05-10 00:46:37 公開日:2023-05-08
# 膝に肺疾患はあり得ない:胸部x線分類の医学的例を用いた分布内投票による分布外検出

A knee cannot have lung disease: out-of-distribution detection with in-distribution voting using the medical example of chest X-ray classification ( http://arxiv.org/abs/2208.01077v2 )

ライセンス: Link先を確認
Alessandro Wollek, Theresa Willem, Michael Ingrisch, Bastian Sabel and Tobias Lasser(参考訳) OODラジオグラフィーが既存の胸部X線分類モデルに与える影響を調査し、OODデータに対するロバスト性を高める。 胸部X線分類モデルであるCheXnetを用いて胸部X線14データセットをトレーニングし, IRMA, Bone Age, muraの3つの公開ラジオグラフィーデータセットとImageNetデータセットを用いて, OODデータに対するロバスト性を検証した。 複数ラベル分類のためのOODデータを検出するために,IDV(In-distriion voting)を提案する。 OOD検出性能は、受信機動作特性曲線(AUC)解析に基づいてデータセット間で測定され、MahalanobisによるOOD検出、MaxLogit、MaxEnergyおよび自己監督型OOD検出(SS OOD)と比較される。 追加のOOD検出がなければ、胸部X線分類器はOOD画像を捨てることができず、AUCは0.5であった。 ID (chest X-ray 14) と OOD データ (IRMA と ImageNet) に基づいてトレーニングした IDV アプローチは,3つのデータセットに対して平均0.999 OOD AUC を達成し,OOD 検出手法を全て上回った。 マハラノビスによるOOD検出は平均0.982のOOD検出AUCを達成した。 IDVは数千枚のImageNet画像だけで訓練され、AUC 0.913はMaxLogit (0.726)、MaxEnergy (0.724)、SS OOD (0.476)よりも高い。 OOD検出法は,Mahalanobisを用いたOOD検出法と提案したIDV法を除いて,すべてラジオグラフィーデータセットとよく一致しなかった。 IDデータのみをトレーニングすることで,OOD画像をIDとして誤分類し,偽陽性率を増大させた。 IDVは、意図したユースケースやテストセットで発生しないデータをトレーニングしても、追加の推論オーバーヘッドなしに、モデルのID分類性能を大幅に改善した。

To investigate the impact of OOD radiographs on existing chest X-ray classification models and to increase their robustness against OOD data. The study employed the commonly used chest X-ray classification model, CheXnet, trained on the chest X-ray 14 data set, and tested its robustness against OOD data using three public radiography data sets: IRMA, Bone Age, and MURA, and the ImageNet data set. To detect OOD data for multi-label classification, we proposed in-distribution voting (IDV). The OOD detection performance is measured across data sets using the area under the receiver operating characteristic curve (AUC) analysis and compared with Mahalanobis-based OOD detection, MaxLogit, MaxEnergy and self-supervised OOD detection (SS OOD). Without additional OOD detection, the chest X-ray classifier failed to discard any OOD images, with an AUC of 0.5. The proposed IDV approach trained on ID (chest X-ray 14) and OOD data (IRMA and ImageNet) achieved, on average, 0.999 OOD AUC across the three data sets, surpassing all other OOD detection methods. Mahalanobis-based OOD detection achieved an average OOD detection AUC of 0.982. IDV trained solely with a few thousand ImageNet images had an AUC 0.913, which was higher than MaxLogit (0.726), MaxEnergy (0.724), and SS OOD (0.476). The performance of all tested OOD detection methods did not translate well to radiography data sets, except Mahalanobis-based OOD detection and the proposed IDV method. Training solely on ID data led to incorrect classification of OOD images as ID, resulting in increased false positive rates. IDV substantially improved the model's ID classification performance, even when trained with data that will not occur in the intended use case or test set, without additional inference overhead.
翻訳日:2023-05-10 00:45:58 公開日:2023-05-08
# コンフォーマンスメトリックを用いたプロセスモデルにおける動的ドリフト検出

Gradual Drift Detection in Process Models Using Conformance Metrics ( http://arxiv.org/abs/2207.11007v2 )

ライセンス: Link先を確認
Victor Gallego-Fontenla, Juan C. Vidal, Manuel Lama(参考訳) 計画的あるいは予期せぬ変更は、実際のプロセスの実行中によくあることです。 これらの変化を検出するためには、そのようなプロセスを実行する組織のパフォーマンスを最適化する必要がある。 最先端に存在しているアルゴリズムのほとんどは、突然の変化を検出し、他のタイプの変更を残している。 本稿では,段階的ドリフトの自動検出に焦点をあてる。これは特別なタイプの変化であり,2つのモデルの場合が一定期間に重複する。 提案するアルゴリズムは,変更の自動検出を行うための適合性チェックメトリックに依存し,これらの変更を突然あるいは段階的に完全に自動分類する。 このアプローチは、さまざまな変更分布を持つ120のログからなる合成データセットで検証され、主要な最先端アルゴリズムよりも検出と分類精度、遅延と変更領域の重なりにおいて、よりよい結果を得た。

Changes, planned or unexpected, are common during the execution of real-life processes. Detecting these changes is a must for optimizing the performance of organizations running such processes. Most of the algorithms present in the state-of-the-art focus on the detection of sudden changes, leaving aside other types of changes. In this paper, we will focus on the automatic detection of gradual drifts, a special type of change, in which the cases of two models overlap during a period of time. The proposed algorithm relies on conformance checking metrics to carry out the automatic detection of the changes, performing also a fully automatic classification of these changes into sudden or gradual. The approach has been validated with a synthetic dataset consisting of 120 logs with different distributions of changes, getting better results in terms of detection and classification accuracy, delay and change region overlapping than the main state-of-the-art algorithms.
翻訳日:2023-05-10 00:45:00 公開日:2023-05-08
# モノリシックAlGaAsチップにおける広帯域バイフォトン生成と偏光分割

Broadband biphoton generation and polarization splitting in a monolithic AlGaAs chip ( http://arxiv.org/abs/2208.14108v2 )

ライセンス: Link先を確認
F\'elicien Appas, Othmane Meskine, Aristide Lema\^itre, Jos\'e Palomo, Florent Baboux, Maria I. Amanti, Sara Ducci(参考訳) 単一チップ上で様々な高度な機能を組み合わせる能力は、古典的および量子フォトニクスベースの技術において重要な問題である。 量子情報プロトコルにおいて最も使用されるリソースの1つである直交偏光対のオンチップ生成とハンドリングは、スケーラブルな量子フォトニクス回路の開発における中心的な課題である。 本稿では,広帯域直交偏光子対の生成と偏光分離を含むモノリシックalgaasチップを示し,その85%は60nm帯域で決定論的に分離する。 チップ出力における2光子干渉の品質は、同じ帯域幅で75.5パーセントの可視性を示すホン・ウー・マンデル実験によって評価される。 これらの結果は、高次非線形性、電気光学効果、直接バンドギャップを組み合わせたプラットフォームにおいて、室温およびテレコム波長で得られ、我々のアプローチの有効性を確認し、量子情報処理のためにブロードバンド方式で作業する小型で扱いやすいフォトニックデバイスに向けた重要なステップを示す。

The ability to combine various advanced functionalities on a single chip is a key issue for both classical and quantum photonic-based technologies. On-chip generation and handling of orthogonally polarized photon pairs, one of the most used resource in quantum information protocols, is a central challenge for the development of scalable quantum photonics circuits; in particular, the management of spectrally broadband biphoton states, an asset attracting a growing attention for its capability to convey large-scale quantum information in a single spatial mode, is missing. Here, we demonstrate a monolithic AlGaAs chip including the generation of broadband orthogonally polarized photon pairs and their polarization splitting; 85% of the pairs are deterministically separated by the chip over a 60 nm bandwidth. The quality of the two-photon interference at the chip output is assessed via a Hong-Ou-Mandel experiment displaying a visibility of 75.5 % over the same bandwidth. These results, obtained at room temperature and telecom wavelength, in a platform combining high second-order nonlinearity, electro-optic effect and direct bandgap, confirm the validity of our approach and represent a significant step towards miniaturized and easy-to-handle photonic devices working in the broadband regime for quantum information processing.
翻訳日:2023-05-10 00:37:23 公開日:2023-05-08
# FS-BAN:ドメイン一般化Few-Shot分類のための新興ネットワーク

FS-BAN: Born-Again Networks for Domain Generalization Few-Shot Classification ( http://arxiv.org/abs/2208.10930v4 )

ライセンス: Link先を確認
Yunqing Zhao and Ngai-Man Cheung(参考訳) 従来のFew-shot Classification (FSC) は、ラベル付きデータに制限された新しいクラスからサンプルを認識することを目的としている。 近年,unseenドメインからの新規クラスサンプルを認識すべく,ドメイン一般化fsc(dg-fsc)が提案されている。 DG-FSCは、ベースクラス(トレーニングで使用される)と新しいクラス(評価で使用される)のドメインシフトによって、多くのモデルにかなりの課題をもたらす。 本研究ではDG-FSCに取り組むために2つの新しい貢献を行う。 最初の貢献は、Ban-Again Network (BAN) エピソードトレーニングを提案し、DG-FSCの有効性を包括的に調査することである。 知識蒸留の特定の形態として、BANはクローズドセット設定による従来の教師付き分類における一般化の改善が示されている。 この一般化により、我々はDG-FSCにおけるBANの研究を動機付け、BANがDG-FSCにおけるドメインシフトに対処することを約束していることを示す。 2つ目の(大きな)貢献は、dg-fscの新しい禁止アプローチであるマイノリティ・ショット・バン(fs-ban)を提案することである。 提案するfs-banには,相互正則化,教師の不一致,メタ制御温度という,新しいマルチタスク学習目標が含まれている。 これらの手法の異なる設計選択を解析する。 6つのデータセットと3つのベースラインモデルに対して,包括的定量的・質的分析および評価を行う。 その結果,提案するFS-BANはベースラインモデルの一般化性能を一貫して向上し,DG-FSCの最先端精度を実現することが示唆された。 プロジェクトページ:https://yunqing-me.github.io/Born-Again-FS/

Conventional Few-shot classification (FSC) aims to recognize samples from novel classes given limited labeled data. Recently, domain generalization FSC (DG-FSC) has been proposed with the goal to recognize novel class samples from unseen domains. DG-FSC poses considerable challenges to many models due to the domain shift between base classes (used in training) and novel classes (encountered in evaluation). In this work, we make two novel contributions to tackle DG-FSC. Our first contribution is to propose Born-Again Network (BAN) episodic training and comprehensively investigate its effectiveness for DG-FSC. As a specific form of knowledge distillation, BAN has been shown to achieve improved generalization in conventional supervised classification with a closed-set setup. This improved generalization motivates us to study BAN for DG-FSC, and we show that BAN is promising to address the domain shift encountered in DG-FSC. Building on the encouraging findings, our second (major) contribution is to propose Few-Shot BAN (FS-BAN), a novel BAN approach for DG-FSC. Our proposed FS-BAN includes novel multi-task learning objectives: Mutual Regularization, Mismatched Teacher, and Meta-Control Temperature, each of these is specifically designed to overcome central and unique challenges in DG-FSC, namely overfitting and domain discrepancy. We analyze different design choices of these techniques. We conduct comprehensive quantitative and qualitative analysis and evaluation over six datasets and three baseline models. The results suggest that our proposed FS-BAN consistently improves the generalization performance of baseline models and achieves state-of-the-art accuracy for DG-FSC. Project Page: https://yunqing-me.github.io/Born-Again-FS/.
翻訳日:2023-05-10 00:36:13 公開日:2023-05-08
# Music-to-Text Synathesia: 音楽録音から記述テキストを生成する

Music-to-Text Synaesthesia: Generating Descriptive Text from Music Recordings ( http://arxiv.org/abs/2210.00434v2 )

ライセンス: Link先を確認
Zhihuan Kuang, Shi Zong, Jianbing Zhang, Jiajun Chen, Hongfu Liu(参考訳) 本稿では,音楽とテキストの共感覚という新しい研究課題について考察する。 music-to-text synaesthesiaは、音楽録音を予め定義されたカテゴリに分類する古典的な音楽タグ問題とは異なり、同じ感情を持つ音楽録音から記述テキストを生成することを目的としている。 既存の音楽関連データセットは、音楽記録に関する意味記述を含まないため、1,955組のクラシック音楽記録とテキスト記述を含む新しいデータセットを収集する。 そこで我々は,音楽録音の内容を記述可能な文を生成するための計算モデルを構築した。 非判別的クラシック音楽に取り組むため、より多くのサンプルをグループ参照とみなし、異なるサンプル間の相対トポロジーを保存するグループトポロジー保存損失を設計する。 5つのヒューリスティックまたは事前学習した競争法とその変種に対する提案モデルの有効性を定量的に定量的に検証した。

In this paper, we consider a novel research problem: music-to-text synaesthesia. Different from the classical music tagging problem that classifies a music recording into pre-defined categories, music-to-text synaesthesia aims to generate descriptive texts from music recordings with the same sentiment for further understanding. As existing music-related datasets do not contain the semantic descriptions on music recordings, we collect a new dataset that contains 1,955 aligned pairs of classical music recordings and text descriptions. Based on this, we build a computational model to generate sentences that can describe the content of the music recording. To tackle the highly non-discriminative classical music, we design a group topology-preservation loss, which considers more samples as a group reference and preserves the relative topology among different samples. Extensive experimental results qualitatively and quantitatively demonstrate the effectiveness of our proposed model over five heuristics or pre-trained competitive methods and their variants on our collected dataset.
翻訳日:2023-05-10 00:27:31 公開日:2023-05-08
# 医用画像分割におけるディープラーニングのトリックの理解:挑戦と今後の方向性

Understanding the Tricks of Deep Learning in Medical Image Segmentation: Challenges and Future Directions ( http://arxiv.org/abs/2209.10307v2 )

ライセンス: Link先を確認
Dong Zhang, Yi Lin, Hao Chen, Zhuotao Tian, Xin Yang, Jinhui Tang, Kwang Ting Cheng(参考訳) 近年,コンピュータビジョンのためのディープラーニング技術の急速な発展により,医用画像セグメンテーション(MedISeg)の性能が大幅に向上した。 しかし、様々なモデルの多様な実装戦略は、非常に複雑なmedisegシステムを生み出し、不公平な結果比較の潜在的な問題を引き起こした。 本稿では,異なるモデル実装フェーズ(事前学習モデル,データ前処理,データ拡張,モデル実装,モデル推論,結果後処理など)に対する一連のMedISegトリックを収集し,一貫性のあるベースライン上でこれらのトリックの有効性を実験的に検討する。 代表的な2次元および3次元医用画像データセットの広範な実験結果から,これらのトリックの効果を明らかにした。 さらに、調査したトリックに基づいて、各コンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリもオープンソース化しました。 このマイルストーンは、最先端のMedISegアプローチに関する包括的で補完的な調査を完了しただけでなく、小さなデータセット、クラス不均衡学習、マルチモダリティ学習、ドメイン適応など、医療画像処理の課題に対処するための実践的なガイドも提供しています。 コードとトレーニングの重みは、https://github.com/hust-linyi/seg_trickでリリースされている。

Over the past few years, the rapid development of deep learning technologies for computer vision has significantly improved the performance of medical image segmentation (MedISeg). However, the diverse implementation strategies of various models have led to an extremely complex MedISeg system, resulting in a potential problem of unfair result comparisons. In this paper, we collect a series of MedISeg tricks for different model implementation phases (i.e., pre-training model, data pre-processing, data augmentation, model implementation, model inference, and result post-processing), and experimentally explore the effectiveness of these tricks on consistent baselines. With the extensive experimental results on both the representative 2D and 3D medical image datasets, we explicitly clarify the effect of these tricks. Moreover, based on the surveyed tricks, we also open-sourced a strong MedISeg repository, where each component has the advantage of plug-and-play. We believe that this milestone work not only completes a comprehensive and complementary survey of the state-of-the-art MedISeg approaches, but also offers a practical guide for addressing the future medical image processing challenges including but not limited to small dataset, class imbalance learning, multi-modality learning, and domain adaptation. The code and training weights have been released at: https://github.com/hust-linyi/seg_trick.
翻訳日:2023-05-10 00:26:48 公開日:2023-05-08
# 物理インフォームドニューラルネットワーク(PINN)における故障モードの調査と緩和

Investigating and Mitigating Failure Modes in Physics-informed Neural Networks (PINNs) ( http://arxiv.org/abs/2209.09988v3 )

ライセンス: Link先を確認
Shamsulhaq Basir(参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN)を用いた偏微分方程式(PDE)の解法について検討する。 PINNは、目的関数の正規化用語として物理学を用いる。 しかしながら、このアプローチの欠点は、手動のハイパーパラメータチューニングの要件であり、検証データやソリューションの事前知識がない場合に実用的でない。 物理存在下での損失景観と逆伝播勾配の調査により、既存の方法では、航行が困難である非凸損失景観が生じることが明らかとなった。 以上の結果から,高次PDEは逆伝播勾配を汚染し,収束を阻害することが明らかとなった。 これらの課題に対処するために,高階微分作用素の計算をバイパスし,逆伝播勾配の汚染を緩和する新しい手法を提案する。 その結果,探索空間の次元を小さくし,非滑らかな解を用いてPDEを学習できるようにする。 また,本手法はドメインの複雑な領域に注目する機構も提供する。 さらに,ラグランジュ乗算法に基づいて,適応型および独立型の学習率を適応型サブグラディエント法にインスパイアしたモデル予測に等式制約を課す2つの非拘束型定式法を提案する。 我々は,この手法を線形および非線形pdesの解法に適用する。

This paper explores the difficulties in solving partial differential equations (PDEs) using physics-informed neural networks (PINNs). PINNs use physics as a regularization term in the objective function. However, a drawback of this approach is the requirement for manual hyperparameter tuning, making it impractical in the absence of validation data or prior knowledge of the solution. Our investigations of the loss landscapes and backpropagated gradients in the presence of physics reveal that existing methods produce non-convex loss landscapes that are hard to navigate. Our findings demonstrate that high-order PDEs contaminate backpropagated gradients and hinder convergence. To address these challenges, we introduce a novel method that bypasses the calculation of high-order derivative operators and mitigates the contamination of backpropagated gradients. Consequently, we reduce the dimension of the search space and make learning PDEs with non-smooth solutions feasible. Our method also provides a mechanism to focus on complex regions of the domain. Besides, we present a dual unconstrained formulation based on Lagrange multiplier method to enforce equality constraints on the model's prediction, with adaptive and independent learning rates inspired by adaptive subgradient methods. We apply our approach to solve various linear and non-linear PDEs.
翻訳日:2023-05-10 00:26:21 公開日:2023-05-08
# リアル・ツー・シム:学習型無意味カルマンフィルタを用いたスパースデータを用いたロボットシステムの残差予測

Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse Data using a Learning-based Unscented Kalman Filter ( http://arxiv.org/abs/2209.03210v3 )

ライセンス: Link先を確認
Alexander Schperberg, Yusuke Tanaka, Feng Xu, Marcel Menner, Dennis Hong(参考訳) 実ロボットに近い高精度な動的あるいはシミュレータモデルを実現することで、モデルベースの制御(例えば、モデル予測制御や線形量子レギュレータ)、モデルベースの軌道計画(例えば軌道最適化)、強化学習法に必要な学習時間を削減することができる。 そこで本研究の目的は,動的および/またはシミュレータモデルと実ロボットとの残差を学習することである。 これはニューラルネットワークを使用して実現され、ニューラルネットワークのパラメータはUnscented Kalman Filter(UKF)の定式化によって更新される。 この手法を用いて,実際の操作から直接学習することにより,シミュレーションや動的モデルを改善するために必要となる,少ないデータ量で残差エラーをモデル化する。 ロボットハードウェア(マニピュレータアームや車輪付きロボットなど)における本手法を実証し、学習した残差誤差により、動的モデルとシミュレーションと実際のハードウェアとの現実のギャップをさらに縮めることができることを示す。

Achieving highly accurate dynamic or simulator models that are close to the real robot can facilitate model-based controls (e.g., model predictive control or linear-quadradic regulators), model-based trajectory planning (e.g., trajectory optimization), and decrease the amount of learning time necessary for reinforcement learning methods. Thus, the objective of this work is to learn the residual errors between a dynamic and/or simulator model and the real robot. This is achieved using a neural network, where the parameters of a neural network are updated through an Unscented Kalman Filter (UKF) formulation. Using this method, we model these residual errors with only small amounts of data -- a necessity as we improve the simulator/dynamic model by learning directly from real-world operation. We demonstrate our method on robotic hardware (e.g., manipulator arm, and a wheeled robot), and show that with the learned residual errors, we can further close the reality gap between dynamic models, simulations, and actual hardware.
翻訳日:2023-05-10 00:24:31 公開日:2023-05-08
# 強磁性体$p$-spinモデルの分岐型量子アニール反応のための非定常触媒

Nonstoquastic catalyst for bifurcation-based quantum annealing of ferromagnetic $p$-spin model ( http://arxiv.org/abs/2209.01737v2 )

ライセンス: Link先を確認
Yuki Susa, Takashi Imoto, Yuichiro Matsuzaki(参考訳) 非古典的触媒の導入は、横磁場による量子アニールを改善する有望な方法である。 本稿では,スピン-1演算子によって記述された分岐型量子アニールのための非定常触媒を提案し,基底状態探索の効率を向上する。 非接触触媒の効果を調べるために、量子アニールの1次相転移による基底状態の発見が困難である強磁性$p$-spinモデルについて検討する。 半古典的解析により, 提案する非定常触媒を適切な振幅で導入することにより, 問題となる一階相転移を解消できることが示された。 また、ハミルトニアンを対角化することで有限サイズ系の最小エネルギーギャップを数値的に計算する。 元々のハミルトニアンの系サイズの増加に伴いエネルギーギャップは指数関数的に減少するが、ハミルトニアンと非確率触媒の系サイズに対して多項式的に減少する。 この結果から,提案触媒は分岐型量子アニールの性能向上に寄与する可能性が示唆された。

Introducing a nonstoquastic catalyst is a promising avenue to improve quantum annealing with the transverse field. In the present paper, we propose a nonstoquastic catalyst for bifurcation-based quantum annealing described by the spin-1 operators to improve the efficiency of a ground-state search. To investigate the effect of the nonstoquastic catalyst, we study the ferromagnetic $p$-spin model, which has difficulty with finding the ground state due to the first-order phase transition for quantum annealing. A semiclassical analysis shows that the problematic first-order phase transition can be eliminated by introducing the proposed nonstoquastic catalyst with the appropriate amplitude. We also numerically calculate the minimum energy gap for a finite-size system by diagonalizing the Hamiltonian. We find that while the energy gap decreases exponentially with increasing system size for the original Hamiltonian, it decreases polynomially against the system size for the Hamiltonian with the nonstoquastic catalyst. This result implies that the proposed nonstoquastic catalyst has the potential to improve the performance of bifurcation-based quantum annealing.
翻訳日:2023-05-10 00:24:11 公開日:2023-05-08
# 機械生成テキスト:脅威モデルと検出方法の総合的な調査

Machine Generated Text: A Comprehensive Survey of Threat Models and Detection Methods ( http://arxiv.org/abs/2210.07321v4 )

ライセンス: Link先を確認
Evan Crothers, Nathalie Japkowicz, Herna Viktor(参考訳) 機械生成テキストは、人間の著作テキストと区別することがますます困難になっている。 強力なオープンソースモデルは無償で利用可能であり、生成モデルへのアクセスを民主化するユーザフレンドリーなツールが急増している。 この調査の第1版から間もなくリリースされたChatGPTは,これらの傾向を象徴している。 最先端の自然言語生成(NLG)システムの大きなポテンシャルは、乱用のための多くの道によって誘惑されている。 機械生成テキストの検出は、NLGモデルの悪用を減らすための重要な対策であり、重要な技術的課題と多くのオープンな問題がある。 両方を含む調査を行います。 1)現代のnlgシステムによる脅威モデルの広範囲な分析、および 2) 機械が生成したテキスト検出手法の最も完全なレビュー。 この調査は、マシンが生成したテキストをサイバーセキュリティと社会的コンテキスト内に配置し、最も重要な脅威モデルに対処する将来の作業のための強力なガイダンスを提供し、公正性、堅牢性、説明責任を通じて、検出システム自体が信頼性を実証する。

Machine generated text is increasingly difficult to distinguish from human authored text. Powerful open-source models are freely available, and user-friendly tools that democratize access to generative models are proliferating. ChatGPT, which was released shortly after the first edition of this survey, epitomizes these trends. The great potential of state-of-the-art natural language generation (NLG) systems is tempered by the multitude of avenues for abuse. Detection of machine generated text is a key countermeasure for reducing abuse of NLG models, with significant technical challenges and numerous open problems. We provide a survey that includes both 1) an extensive analysis of threat models posed by contemporary NLG systems, and 2) the most complete review of machine generated text detection methods to date. This survey places machine generated text within its cybersecurity and social context, and provides strong guidance for future work addressing the most critical threat models, and ensuring detection systems themselves demonstrate trustworthiness through fairness, robustness, and accountability.
翻訳日:2023-05-10 00:16:49 公開日:2023-05-08
# コヒーレント原子間空間重ね合わせを用いた微小重力測定

Minute-scale gravimetry using a coherent atomic spatial superposition ( http://arxiv.org/abs/2210.07289v2 )

ライセンス: Link先を確認
Cristian D. Panda, Matt Tao, James Egelhoff, Miguel Ceja, Victoria Xu, Holger M\"uller(参考訳) 量子力学や量子情報処理では、非古典的なコヒーレント状態は環境との不要な相互作用がデコヒーレンスを引き起こす前に操作されなければならない。 原子干渉法では、非古典状態は空間的重ね合わせであり、各原子は位相コヒーレント部分波束の集合として複数の位置で共存する。 これらの状態は基礎物理学と慣性センシングにおいて正確な測定を可能にする。 しかし、原子干渉計は通常原子泉を使用し、尋問時間はおよそ3秒(10mの噴水)に制限される。 本稿では、原子アンサンブルの集団的欠落に起因するコヒーレンスに対する理論的および実験的限界を分析し、70秒間にわたって維持される空間重ね合わせ状態を持つ原子干渉法を実現する。 これらのコヒーレンスの利得は重力測定、第5の力の探索、あるいは重力の非古典的な性質の基本的なプローブを可能にする。

In quantum metrology and quantum information processing, a coherent nonclassical state must be manipulated before unwanted interactions with the environment lead to decoherence. In atom interferometry, the nonclassical state is a spatial superposition, where each atom coexists in multiple locations as a collection of phase-coherent partial wavepackets. These states enable precise measurements in fundamental physics and inertial sensing. However, atom interferometers usually use atomic fountains, where the available interrogation time is limited to ~3 seconds (for 10 m fountains). Here, we analyze the theoretical and experimental limits to the coherence arising from collective dephasing of the atomic ensemble and realize atom interferometry with a spatial superposition state that is maintained for as long as 70 seconds. These gains in coherence may enable gravimetry measurements, searches for fifth forces, or fundamental probes into the non-classical nature of gravity.
翻訳日:2023-05-10 00:16:33 公開日:2023-05-08
# 同義語置換攻撃は本当に同義語置換攻撃なのか?

Are Synonym Substitution Attacks Really Synonym Substitution Attacks? ( http://arxiv.org/abs/2210.02844v3 )

ライセンス: Link先を確認
Cheng-Han Chiang and Hung-yi Lee(参考訳) 本稿では,同義語置換攻撃は本当に同義語置換攻撃(ssas)なのか? そこで本研究では,SSAが文中の単語をどう置き換えるかを検証し,現在のSSAが無効な対数サンプルを生成する未解決の障害が存在することを示す。 広く使われている4つの単語置換法は、文法的でない、あるいは原文の意味を保たない、多数の無効な置換語を生成する。 次に,無効な単語置換の検出に用いる意味的制約と文法的制約が,無効な単語置換の検出に極めて不十分であることを示す。

In this paper, we explore the following question: Are synonym substitution attacks really synonym substitution attacks (SSAs)? We approach this question by examining how SSAs replace words in the original sentence and show that there are still unresolved obstacles that make current SSAs generate invalid adversarial samples. We reveal that four widely used word substitution methods generate a large fraction of invalid substitution words that are ungrammatical or do not preserve the original sentence's semantics. Next, we show that the semantic and grammatical constraints used in SSAs for detecting invalid word replacements are highly insufficient in detecting invalid adversarial samples.
翻訳日:2023-05-10 00:15:29 公開日:2023-05-08
# CACTO: 軌道最適化による連続的アクター批判 - グローバルな最適性を目指して

CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards global optimality ( http://arxiv.org/abs/2211.06625v3 )

ライセンス: Link先を確認
Gianluigi Grandesso, Elisa Alboni, Gastone P. Rosati Papini, Patrick M. Wensing and Andrea Del Prete(参考訳) 本稿では、軌道最適化(TO)と強化学習(RL)を1つのフレームワークで組み合わせた動的システムの連続制御のための新しいアルゴリズムを提案する。 このアルゴリズムの背後にあるモチベーションは、非凸コスト関数を最小化するために連続非線形系に適用する場合のTOとRLの主な2つの制限である。 具体的には、検索が"良い"最小値の近くに初期化されていない場合、ローカルな最小値で立ち往生する可能性がある。 一方、連続状態と制御空間を扱う場合、RLトレーニングプロセスは過度に長く、探索戦略に強く依存する可能性がある。 そこで本アルゴリズムは,TO-guided RL ポリシサーチにより,TO の初期推定プロバイダとして使用すると,軌道最適化プロセスが局所最適値に収束しにくくなる「よい」制御ポリシを学習する。 本手法は,6次元状態の自動車モデルや3次元平面マニピュレータなど,異なる動的システムによる非凸障害物回避を特徴とする到達問題に対して検証を行った。 以上の結果から,CACTOの局所最小化能力はDDPG(Deep Deterministic Policy Gradient)やPPO(Proximal Policy Optimization)のRLアルゴリズムよりも高い計算効率が得られた。

This paper presents a novel algorithm for the continuous control of dynamical systems that combines Trajectory Optimization (TO) and Reinforcement Learning (RL) in a single framework. The motivations behind this algorithm are the two main limitations of TO and RL when applied to continuous nonlinear systems to minimize a non-convex cost function. Specifically, TO can get stuck in poor local minima when the search is not initialized close to a "good" minimum. On the other hand, when dealing with continuous state and control spaces, the RL training process may be excessively long and strongly dependent on the exploration strategy. Thus, our algorithm learns a "good" control policy via TO-guided RL policy search that, when used as initial guess provider for TO, makes the trajectory optimization process less prone to converge to poor local optima. Our method is validated on several reaching problems featuring non-convex obstacle avoidance with different dynamical systems, including a car model with 6D state, and a 3-joint planar manipulator. Our results show the great capabilities of CACTO in escaping local minima, while being more computationally efficient than the Deep Deterministic Policy Gradient (DDPG) and Proximal Policy Optimization (PPO) RL algorithms.
翻訳日:2023-05-10 00:08:08 公開日:2023-05-08
# windowshap:shapley値に基づく時系列分類説明のための効率的なフレームワーク

WindowSHAP: An Efficient Framework for Explaining Time-series Classifiers based on Shapley Values ( http://arxiv.org/abs/2211.06507v2 )

ライセンス: Link先を確認
Amin Nayebi, Sindhu Tipirneni, Chandan K Reddy, Brandon Foreman, Vignesh Subbian(参考訳) ブラックボックス機械学習アルゴリズムの意思決定方法の解凍と理解は、研究者やエンドユーザにとって永続的な課題だった。 時系列予測モデルの説明は、予測モデルの振る舞いを理解するために、高い利害を持つ臨床応用に有用である。 しかし、そのようなモデルを説明する既存のアプローチは、特徴が時間変化成分を持たないデータにしばしば特有である。 本稿では,Shapley値を用いた時系列分類器のモデルに依存しないフレームワークであるWindowSHAPを紹介する。 我々は,長期時系列データに対するshapley値計算の計算複雑性を軽減し,説明の質を向上させることを目的としている。 WindowSHAPは、シーケンスをタイムウィンドウに分割することに基づいている。 この枠組みでは,固定,スライディング,動的windowshapの3つの異なるアルゴリズムを,摂動とシーケンス解析のメトリクスを用いてベースラインアプローチ,kernelshap,timehapに対して評価する。 本手法を臨床専門領域(外傷性脳損傷-tbi)と幅広い臨床領域(クリティカルケア医療)の時系列データに適用した。 実験の結果,2つの定量的指標に基づいて,臨床時系列分類器の説明に優れ,計算の複雑さを低減できることがわかった。 120の時間ステップ(時間)を持つ時系列データに対して、隣接する10の時間ポイントをマージすることで、KernelSHAPと比較してWindowSHAPのCPU時間を80%削減できることを示す。 また、我々のDynamic WindowSHAPアルゴリズムは、より重要な時間ステップに焦点を当て、より理解しやすい説明を提供する。 その結果、windowshapは時系列データのshapley値の計算を加速するだけでなく、より理解しやすい説明をより高い品質で提供する。

Unpacking and comprehending how black-box machine learning algorithms make decisions has been a persistent challenge for researchers and end-users. Explaining time-series predictive models is useful for clinical applications with high stakes to understand the behavior of prediction models. However, existing approaches to explain such models are frequently unique to data where the features do not have a time-varying component. In this paper, we introduce WindowSHAP, a model-agnostic framework for explaining time-series classifiers using Shapley values. We intend for WindowSHAP to mitigate the computational complexity of calculating Shapley values for long time-series data as well as improve the quality of explanations. WindowSHAP is based on partitioning a sequence into time windows. Under this framework, we present three distinct algorithms of Stationary, Sliding and Dynamic WindowSHAP, each evaluated against baseline approaches, KernelSHAP and TimeSHAP, using perturbation and sequence analyses metrics. We applied our framework to clinical time-series data from both a specialized clinical domain (Traumatic Brain Injury - TBI) as well as a broad clinical domain (critical care medicine). The experimental results demonstrate that, based on the two quantitative metrics, our framework is superior at explaining clinical time-series classifiers, while also reducing the complexity of computations. We show that for time-series data with 120 time steps (hours), merging 10 adjacent time points can reduce the CPU time of WindowSHAP by 80% compared to KernelSHAP. We also show that our Dynamic WindowSHAP algorithm focuses more on the most important time steps and provides more understandable explanations. As a result, WindowSHAP not only accelerates the calculation of Shapley values for time-series data, but also delivers more understandable explanations with higher quality.
翻訳日:2023-05-10 00:07:43 公開日:2023-05-08
# 量子回路を用いた二元分類における雑音の諸相

Some aspects of noise in binary classification with quantum circuits ( http://arxiv.org/abs/2211.06492v2 )

ライセンス: Link先を確認
Yonghoon Lee and Doga Murat Kurkcuoglu and Gabriel Nathan Perdue(参考訳) 量子回路を用いた二項分類の性能に及ぼす実量子ハードウェアにインスパイアされた制約単一量子ビット雑音モデルと量子トレーニングデータの破損の影響を正式に研究する。 ノイズモデルによる仮定では、量子ビットの測定は、絡み合いが存在する場合でも、その量子ビット上のノイズによってのみ影響を受けることが分かっています。 さらに、トレーニング用量子データセットを用いてバイナリ分類器を適合させると、データ内のノイズが正規化器として機能し、機械学習問題のある場合のノイズによる潜在的なメリットを示唆することを示す。

We formally study the effects of a restricted single-qubit noise model inspired by real quantum hardware, and corruption in quantum training data, on the performance of binary classification using quantum circuits. We find that, under the assumptions made in our noise model, that the measurement of a qubit is affected only by the noises on that qubit even in the presence of entanglement. Furthermore, when fitting a binary classifier using a quantum dataset for training, we show that noise in the data can work as a regularizer, implying potential benefits from the noise in certain cases for machine learning problems.
翻訳日:2023-05-10 00:07:11 公開日:2023-05-08
# 事前学習した言語モデルの校正について

A Close Look into the Calibration of Pre-trained Language Models ( http://arxiv.org/abs/2211.00151v3 )

ライセンス: Link先を確認
Yangyi Chen, Lifan Yuan, Ganqu Cui, Zhiyuan Liu, Heng Ji(参考訳) 事前学習された言語モデル(plm)は、予測の不確実性を信頼できる見積もることに失敗する可能性がある。 この問題を詳しく検討し,(1)plmはトレーニングプロセスで校正されることを学んでいるか? 2)既存の校正方法はどの程度効果的か? まず,訓練におけるplmsのキャリブレーション性能の動的変化を調べるために,細粒度制御実験を行う。 データセットの難易度、利用可能なトレーニングサンプル、トレーニングステップ、チューニング可能なパラメータの数、モデルスケール、事前トレーニングを含む6つの要因を制御変数として検討する。 キャリブレーション性能は6つの要因で一貫した変化を観察する。 PLMは、予測が正しいかどうかに関わらず、信頼性の持続的な増加によって証明される訓練で校正されることを学ばない。 私たちの発見は2つの確立した結論と多少矛盾している点を強調します。 (a)より大型のPLMは校正される。 b)事前訓練はモデルの校正を改善する。 次に,既存のキャリブレーション手法が過信問題を緩和する効果について検討する。 理解不能なキャリブレーション手法(ラベルの平滑化など)に加えて、私たちは最近提案された2つの学習可能な方法を適用して拡張します。 実験の結果,学習可能な手法は誤り予測に対するplmsの信頼を著しく低下させることがわかった。 コードは \url{https://github.com/lifan-yuan/plmcalibration} で入手できる。

Pre-trained language models (PLMs) may fail in giving reliable estimates of their predictive uncertainty. We take a close look into this problem, aiming to answer two questions: (1) Do PLMs learn to become calibrated in the training process? (2) How effective are existing calibration methods? For the first question, we conduct fine-grained control experiments to study the dynamic change in PLMs' calibration performance in training. We consider six factors as control variables, including dataset difficulty, available training samples, training steps, the number of tunable parameters, model scale, and pretraining. We observe a consistent change in calibration performance across six factors. We find that PLMs don't learn to become calibrated in training, evidenced by the continual increase in confidence, no matter whether the predictions are correct or not. We highlight that our finding somewhat contradicts two established conclusions: (a) Larger PLMs are more calibrated; (b) Pretraining improves model calibration. Next, we study the effectiveness of existing calibration methods in mitigating the overconfidence issue. Besides unlearnable calibration methods (e.g., label smoothing), we adapt and extend two recently proposed learnable methods that directly collect data to train models to have reasonable confidence estimations. Experimental results show that learnable methods significantly reduce PLMs' confidence in wrong predictions. The code is available at \url{https://github.com/lifan-yuan/PLMCalibration}.
翻訳日:2023-05-10 00:05:56 公開日:2023-05-08
# 複数の量子リリースのための学習強化プライベートアルゴリズム

Learning-Augmented Private Algorithms for Multiple Quantile Release ( http://arxiv.org/abs/2210.11222v2 )

ライセンス: Link先を確認
Mikhail Khodak, Kareem Amin, Travis Dick, Sergei Vassilvitskii(参考訳) 機密データにディファレンシャルプライバシを適用する場合、他の機密データ、公開データ、人間のプライバシといった外部情報を使用して、パフォーマンスを改善することがよくあります。 従来は時間複雑性や競争比の改善に主に用いられてきた、学習によるアルゴリズム(あるいは予測を伴うアルゴリズム)フレームワークを、そのような外部情報を活用し、有用性を向上させるプライバシ保護方法を設計および分析する強力な方法として利用することを提案する。 このアイデアは、予測品質の自然な尺度でスケールするエラー保証を導出すると同時に、最先端の予測非依存の保証を回復する、多重量子化リリースの重要なタスクに基づいてインスタンス化される。 我々の分析は、データに関する最小限の仮定、ロバスト性を追加する自然な方法、および他の(潜在的に敏感な)データから予測を学習する2つの新しい「メタ」アルゴリズムに対する有用なサロゲート損失の提供など、いくつかの利点を享受している。 結論として,1つ以上のインスタンスにわたる学習予測が,プライバシを維持しながら大きなエラー低減につながることを実証する課題に関する実験を行った。

When applying differential privacy to sensitive data, we can often improve performance using external information such as other sensitive data, public data, or human priors. We propose to use the learning-augmented algorithms (or algorithms with predictions) framework -- previously applied largely to improve time complexity or competitive ratios -- as a powerful way of designing and analyzing privacy-preserving methods that can take advantage of such external information to improve utility. This idea is instantiated on the important task of multiple quantile release, for which we derive error guarantees that scale with a natural measure of prediction quality while (almost) recovering state-of-the-art prediction-independent guarantees. Our analysis enjoys several advantages, including minimal assumptions about the data, a natural way of adding robustness, and the provision of useful surrogate losses for two novel ``meta" algorithms that learn predictions from other (potentially sensitive) data. We conclude with experiments on challenging tasks demonstrating that learning predictions across one or more instances can lead to large error reductions while preserving privacy.
翻訳日:2023-05-10 00:05:11 公開日:2023-05-08
# 自己監督型顔表情表現のためのポスディスタングル・コントラスト学習

Pose-disentangled Contrastive Learning for Self-supervised Facial Representation ( http://arxiv.org/abs/2211.13490v2 )

ライセンス: Link先を確認
Yuanyuan Liu, Wenbin Wang, Yibing Zhan, Shaoze Feng, Kejun Liu, Zhe Chen(参考訳) 近年,大規模なアノテートデータセットに大きく依存することなく顔の理解を行う能力によって,自己監督型顔表現が注目を集めている。 しかし、分析的には、現在のコントラストベース自己教師学習(SSL)は、顔表現の学習に不満足に機能している。 より具体的には、既存のコントラスト学習(CL)は、顔のポーズの詳細を表現できないポーズ不変の特徴を学習し、学習性能を損なう傾向にある。 上記のCLの制限を克服するために,汎用的な自己監督型顔表情表現のための新しいPose-disentangled Contrastive Learning (PCL)法を提案する。 提案するpclは,まずポーズ関連特徴と顔認識特徴を区別し,個々のサブネットワーク内でポーズ関連および他のポーズ関連顔情報を実行し,相互に影響を与えない,繊細に設計された直交規則を備えたポーズ関連デコーダ(pdd)を考案した。 さらに,同一画像のデータ増補に基づいてポーズ関連情報を学習するポーズ関連コントラスト学習方式を導入し,様々な下流タスクに対してより効果的な顔認識表現を実現する。 提案手法では,ie,表情認識,顔認識,au検出,頭部ポーズ推定の4つの課題に対して線形評価を行った。 実験の結果,本手法は最先端のSSL手法よりも優れていた。 コードはhttps://github.com/DreamMr/PCL}{https://github.com/DreamMr/PCLで入手できる。

Self-supervised facial representation has recently attracted increasing attention due to its ability to perform face understanding without relying on large-scale annotated datasets heavily. However, analytically, current contrastive-based self-supervised learning (SSL) still performs unsatisfactorily for learning facial representation. More specifically, existing contrastive learning (CL) tends to learn pose-invariant features that cannot depict the pose details of faces, compromising the learning performance. To conquer the above limitation of CL, we propose a novel Pose-disentangled Contrastive Learning (PCL) method for general self-supervised facial representation. Our PCL first devises a pose-disentangled decoder (PDD) with a delicately designed orthogonalizing regulation, which disentangles the pose-related features from the face-aware features; therefore, pose-related and other pose-unrelated facial information could be performed in individual subnetworks and do not affect each other's training. Furthermore, we introduce a pose-related contrastive learning scheme that learns pose-related information based on data augmentation of the same image, which would deliver more effective face-aware representation for various downstream tasks. We conducted linear evaluation on four challenging downstream facial understanding tasks, ie, facial expression recognition, face recognition, AU detection and head pose estimation. Experimental results demonstrate that our method significantly outperforms state-of-the-art SSL methods. Code is available at https://github.com/DreamMr/PCL}{https://github.com/DreamMr/PCL
翻訳日:2023-05-10 00:00:05 公開日:2023-05-08
# 多次元経路依存オプションのためのディープシグナチャアルゴリズム

Deep Signature Algorithm for Multi-dimensional Path-Dependent Options ( http://arxiv.org/abs/2211.11691v2 )

ライセンス: Link先を確認
Erhan Bayraktar, Qi Feng, and Zhaoyu Zhang(参考訳) 本研究では,経路依存オプションに対する深いシグネチャアルゴリズムについて検討する。 我々は[Hur\e-Pham-Warin]の後方スキームを拡張する。 相反スキームにシグネチャ層を加えることにより、経路に依存したfbsdに対するリフレクションを持つ状態依存fbsdに対する計算数学 89, no. 324 (2020)]。 当社のアルゴリズムはヨーロッパとアメリカの両タイプのオプション価格問題に適用される一方、支払い関数は基礎となるフォワードストックプロセスの全パスに依存します。 本稿では, 数値アルゴリズムの収束解析を, シグネチャのトランケーション順序とニューラルネットワーク近似誤差に明示的に依存して証明する。 このアルゴリズムの数値的な例は、ブラックスコールズモデルの下でのアメラシアンオプション、経路依存的な幾何学的平均ペイオフ関数を持つアメリカンオプション、シリャエフの最適停止問題である。

In this work, we study the deep signature algorithms for path-dependent options. We extend the backward scheme in [Hur\'e-Pham-Warin. Mathematics of Computation 89, no. 324 (2020)] for state-dependent FBSDEs with reflections to path-dependent FBSDEs with reflections, by adding the signature layer to the backward scheme. Our algorithm applies to both European and American type option pricing problems while the payoff function depends on the whole paths of the underlying forward stock process. We prove the convergence analysis of our numerical algorithm with explicit dependence on the truncation order of the signature and the neural network approximation errors. Numerical examples for the algorithm are provided including: Amerasian option under the Black-Scholes model, American option with a path-dependent geometric mean payoff function, and the Shiryaev's optimal stopping problem.
翻訳日:2023-05-09 23:58:12 公開日:2023-05-08
# Recommenderシステムにおける言語モデリングのPivotalの役割:タスク特化学習とタスク非依存表現学習の強化

Pivotal Role of Language Modeling in Recommender Systems: Enriching Task-specific and Task-agnostic Representation Learning ( http://arxiv.org/abs/2212.03760v4 )

ライセンス: Link先を確認
Kyuyong Shin, Hanock Kwak, Wonjae Kim, Jisu Jeong, Seungjae Jung, Kyung-Min Kim, Jung-Woo Ha, Sang-Woo Lee(参考訳) 近年,様々なアプリケーションのユーザ行動データを活用する統合ユーザモデリングフレームワークが提案されている。 それらの多くは、ユーザの振る舞いシーケンスをプレーンテキストとして利用することで、一般性を失うことなく、任意のドメインやシステム内のリッチな情報を表現することができる。 ユーザ履歴コーパスのための言語モデリングは、レコメンダシステムを改善するのに役立つか? その汎用性は、多くのドメインで広く研究されてきたが、レコメンデーションシステムへの応用は、まだ未検討のままである。 タスク固有のユーザ履歴に直接適用される言語モデリングは,様々なレコメンデーションタスクにおいて優れた結果が得られることを示す。 また、追加のタスクに依存しないユーザ履歴を利用することで、大きなパフォーマンス上のメリットが得られます。 さらに,本手法は,未確認領域やサービスにおいても,幅広い実世界のレコメンデータシステムに対して,有望な伝達学習能力を提供できることを示す。

Recent studies have proposed unified user modeling frameworks that leverage user behavior data from various applications. Many of them benefit from utilizing users' behavior sequences as plain texts, representing rich information in any domain or system without losing generality. Hence, a question arises: Can language modeling for user history corpus help improve recommender systems? While its versatile usability has been widely investigated in many domains, its applications to recommender systems still remain underexplored. We show that language modeling applied directly to task-specific user histories achieves excellent results on diverse recommendation tasks. Also, leveraging additional task-agnostic user histories delivers significant performance benefits. We further demonstrate that our approach can provide promising transfer learning capabilities for a broad spectrum of real-world recommender systems, even on unseen domains and services.
翻訳日:2023-05-09 23:47:29 公開日:2023-05-08
# GPT-3は精神病を引き起こすか? 心理学的観点からの大規模言語モデルの評価

Does GPT-3 Demonstrate Psychopathy? Evaluating Large Language Models from a Psychological Perspective ( http://arxiv.org/abs/2212.10529v2 )

ライセンス: Link先を確認
Xingxuan Li, Yutong Li, Shafiq Joty, Linlin Liu, Fei Huang, Lin Qiu, Lidong Bing(参考訳) 本研究では,大規模言語モデル (LLM) が心理的に安全かどうかを検討した。 心理学的観点からLSMを体系的に評価するために、偏見のないプロンプトを設計した。 まず,短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて3種類のLCMを試験した。 いずれのモデルもsd-3では人間の平均よりもスコアが高く、比較的暗いパーソナリティパターンを示唆している。 InstructGPTとFLAN-T5は、安全性の指標で微調整されているにもかかわらず、暗黙の暗黒な性格パターンを示しており、どちらのモデルもマキアベリア主義やSD-3の自己監督型GPT-3よりも高く評価されている。 そこで, GPT-3 シリーズの LLM について, トレーニングデータによる微調整の影響を調べるために, ウェルビーイングテストを用いて検討した。 GPT-3, InstructGPTの順調な上昇が観察された。 これらの結果から,BFIからの肯定的な回答が得られたFLAN-T5命令が心理的観点から効果的に改善できることが示唆された。 本研究は,LSMの安全性をさらに評価・改善するために,より体系的で総合的な心理的指標の適用を推奨する。

In this work, we determined whether large language models (LLMs) are psychologically safe. We designed unbiased prompts to systematically evaluate LLMs from a psychological perspective. First, we tested three different LLMs by using two personality tests: Short Dark Triad (SD-3) and Big Five Inventory (BFI). All models scored higher than the human average on SD-3, suggesting a relatively darker personality pattern. Despite being instruction fine-tuned with safety metrics to reduce toxicity, InstructGPT and FLAN-T5 still showed implicit dark personality patterns; both models scored higher than self-supervised GPT-3 on the Machiavellianism and narcissism traits on SD-3. Then, we evaluated the LLMs in the GPT-3 series by using well-being tests to study the impact of fine-tuning with more training data. We observed a continuous increase in the well-being scores of GPT-3 and InstructGPT. Following these observations, we showed that instruction fine-tuning FLAN-T5 with positive answers from BFI could effectively improve the model from a psychological perspective. On the basis of the findings, we recommended the application of more systematic and comprehensive psychological metrics to further evaluate and improve the safety of LLMs.
翻訳日:2023-05-09 23:40:22 公開日:2023-05-08
# コード事前学習モデルは、コード構文とセマンティックスを学ぶのに強力か?

Are Code Pre-trained Models Powerful to Learn Code Syntax and Semantics? ( http://arxiv.org/abs/2212.10017v2 )

ライセンス: Link先を確認
Wei Ma, Mengjie Zhao, Xiaofei Xie, Qiang Hu, Shangqing Liu, Jie Zhang, Wenhan Wang, Yang Liu(参考訳) 事前訓練されたコードモデルの解析も、プログラムの構文を効果的に学習できることを明らかにしている。 しかし、これらの研究はコード構文の分析に限られており、その距離に基づくアプローチは高次元の呪いのため正確ではない。 さらに、これらのモデルの学習プログラム意味論の研究はほとんど議論されない。 本稿では、これらのモデルによって学習されたコード機能をさらに理解するため、2つのよく知られたコード事前訓練モデル(CodeBERTとGraphCodeBERT)をターゲットにし、構文解析と意味解析のための一連の探索タスクを考案する。 具体的には、学習プログラムの構文を理解するためにASTを操作するための2つの探索タスク(構文ペアノード予測とトークンタグ付け予測)を設計する。 一方、構築された制御フローグラフ(CFG)、データ依存グラフ(DDG)、制御依存グラフ(CDG)の2つのタスク(セマンティック関係予測とセマンティック予測(inGraph))を学習プログラムの意味解析のために設計する。 また,これらの事前学習モデルがどのようなプログラム意味をよく理解できるかを理解するために,頭や層によって学習される注意重みの統計的分析を行う。 プログラムの構文と意味論に関する広範な分析を通じて、以下の知見を得た。 1) CodeBERT と GraphCodeBERT はプログラム構文をうまく学習することができる。 2) CodeBERT と GraphCodeBERT はプログラムセマンティクスを異なる範囲で学習することができる。 GraphCodeBERTは、プログラム制御フローとデータ依存情報を学習する際のCodeBERTよりも優れているが、制御依存情報を学習する際のCodeBERTと同様の機能を持つ。 3) CodeBERT と GraphCodeBERT はプログラムセマンティクスを最終層でキャプチャできるが,プログラムセマンティクスの学習において,異なるアテンションヘッドとレイヤが異なる役割を担っている。

Analysis of pre-trained code models also has revealed that they can effectively learn program syntax. However, these works are limited in analyzing code syntax and their distance-based approaches are not accurate due to the curse of high dimensionality. Furthermore, the study of the learnt program semantics of these models is rarely discussed. To further understand the code features learnt by these models, in this paper, we target two well-known representative code pre-trained models (i.e., CodeBERT and GraphCodeBERT) and devise a set of probing tasks for the syntax and semantics analysis. Specifically, on one hand, we design two probing tasks (i.e., syntax pair node prediction and token tagging prediction) to manipulate AST for the understanding of learnt program syntax. On the other hand, we design two tasks (i.e., semantic relationship prediction and semantic propagation prediction(inGraph) ) on the constructed control flow graph (CFG), data dependency graph (DDG) and control dependency graph (CDG) for the learnt program semantic analysis. In addition, to understand which kind of program semantics these pre-trained models can comprehend well, we conduct the statistical analysis for attention weights learnt by different heads and layers. Through extensive analysis in terms of program syntax and semantics, we have the following findings: 1) Both CodeBERT and GraphCodeBERT can learn the program syntax well. 2) Both CodeBERT and GraphCodeBERT can learn program semantics to different extents. GraphCodeBERT is superior to CodeBERT in learning program control flow and data dependency information but has a similar capability to CodeBERT in learning control dependency information. 3) Both CodeBERT and GraphCodeBERT can capture program semantics in the final layer of representation, but different attention heads and layers exhibit different roles in learning program semantics.
翻訳日:2023-05-09 23:39:59 公開日:2023-05-08
# 機械学習システムは肥大化し、脆弱です

Machine Learning Systems are Bloated and Vulnerable ( http://arxiv.org/abs/2212.09437v2 )

ライセンス: Link先を確認
Huaifeng Zhang, Fahmi Abdulqadir Ahmed, Dyako Fatih, Akayou Kitessa, Mohannad Alhanahnah, Philipp Leitner, Ahmed Ali-Eldin(参考訳) 今日のソフトウェアは、ほとんどのユーザが使用していないコードと機能の両方で肥大化している。 この肥大化は、オペレーティングシステムからソフトウェアバックエンド、フロントエンド、Webページに至るまで、ソフトウェアスタック全体に広まっています。 本稿では,機械学習コンテナの肥大の分析と定量化に注目する。 我々は機械学習コンテナの肥大化を分析するフレームワークであるMMLBを開発し、コンテナとパッケージレベルに存在する肥大化の量を測定する。 当社のツールはbloatのソースを定量化し,コンテナ脆弱性に対するbloatの影響を評価する脆弱性解析ツールと統合する。 tensorflow、pytorch、nvidiaの15の機械学習コンテナの実験を通じて、肥大化が重要な問題であることを示し、場合によってはコンテナサイズの最大80%を占めている。 その結果,bloatはコンテナのプロビジョニング時間を最大370%増加させ,脆弱性を最大99%悪化させることがわかった。

Today's software is bloated with both code and features that are not used by most users. This bloat is prevalent across the entire software stack, from the operating system, all the way to software backends, frontends, and web-pages. In this paper, we focus on analyzing and quantifying bloat in machine learning containers. We develop MMLB, a framework to analyze bloat in machine learning containers, measuring the amount of bloat that exists on the container and package levels. Our tool quantifies the sources of bloat and integrates with vulnerability analysis tools to evaluate the impact of bloat on container vulnerabilities. Through experimentation with 15 machine learning containers from Tensorflow, Pytorch, and NVIDIA, we show that bloat is a significant issue, accounting for up to 80% of the container size in some cases. Our results demonstrate that bloat significantly increases the container provisioning time by up to 370% and exacerbates vulnerabilities by up to 99%.
翻訳日:2023-05-09 23:39:17 公開日:2023-05-08
# 大規模言語モデルとNL2Code:調査

Large Language Models Meet NL2Code: A Survey ( http://arxiv.org/abs/2212.09420v2 )

ライセンス: Link先を確認
Daoguang Zan, Bei Chen, Fengji Zhang, Dianjie Lu, Bingchao Wu, Bei Guan, Yongji Wang, Jian-Guang Lou(参考訳) 自然言語記述(NL2Code)からコードを生成するタスクは、コードインテリジェンスにおいて、強く重要な課題であると考えられている。 事前トレーニング技術の急速な開発により、コードに対する大規模な言語モデルの増加が提案され、NL2Codeの進歩が引き起こされている。 本稿では,この分野におけるさらなる研究と応用を容易にするために,既存の27の大規模言語モデル(nl2code)の包括的調査を行い,ベンチマークとメトリクスのレビューを行う。 humanevalベンチマークで既存のモデルをすべて直感的に比較します。 詳細な観察と分析を通じて、NL2Codeの大規模言語モデルの成功に寄与する主要な要因は、"大きなサイズ、プレミアムデータ、エキスパートチューニング"であると結論付けている。 さらに,モデルと人間とのギャップに関する課題と機会について論じる。 また、クラウドソーシングによる最新の進捗を追跡するウェブサイト https://nl2code.github.io も作成しています。 我々の知る限りでは、これはNL2Codeの大規模言語モデルに関する最初の調査であり、この分野の継続的な発展に寄与すると信じている。

The task of generating code from a natural language description, or NL2Code, is considered a pressing and significant challenge in code intelligence. Thanks to the rapid development of pre-training techniques, surging large language models are being proposed for code, sparking the advances in NL2Code. To facilitate further research and applications in this field, in this paper, we present a comprehensive survey of 27 existing large language models for NL2Code, and also review benchmarks and metrics. We provide an intuitive comparison of all existing models on the HumanEval benchmark. Through in-depth observation and analysis, we provide some insights and conclude that the key factors contributing to the success of large language models for NL2Code are "Large Size, Premium Data, Expert Tuning". In addition, we discuss challenges and opportunities regarding the gap between models and humans. We also create a website https://nl2code.github.io to track the latest progress through crowd-sourcing. To the best of our knowledge, this is the first survey of large language models for NL2Code, and we believe it will contribute to the ongoing development of the field.
翻訳日:2023-05-09 23:39:02 公開日:2023-05-08
# 超低温反発フェルミ気体におけるp波相互作用の役割に関する量子モンテカルロ研究

Quantum Monte Carlo study of the role of p-wave interactions in ultracold repulsive Fermi gases ( http://arxiv.org/abs/2212.09150v2 )

ライセンス: Link先を確認
Gianluca Bertaina, Marco G. Tarallo, Sebastiano Pilati(参考訳) 単成分超低温原子フェルミガスは、通常非相互作用多フェルミモデルを用いて記述される。 しかし、最近の実験では、同一のフェルミオン原子間の$p$-wave相互作用が重要である。 本稿では, 短距離反発相互作用を持つ単一成分フェルミガスの基底状態特性を解析するために, 変動および固定ノード拡散モンテカルロシミュレーションを用いる。 ゼロ温度状態方程式を定式化し、p$-wave 散乱体積と $p$-wave 有効範囲によって果たす役割を解明する。 最近導出された2次摂動結果との比較は、幅広い相互作用強度において良好な一致を示した。 また,準粒子有効質量を計算し,p$-wave散乱体積における線形寄与の摂動予測を確認した。 最後に,2成分非偏極フェルミガスと種間および種内ハードスフィア相互作用の基底状態エネルギーを算出し,最近導出された4次展開と,$p$波寄与を含む顕著な一致を見出した。

Single-component ultracold atomic Fermi gases are usually described using noninteracting many-fermion models. However, recent experiments reached a regime where $p$-wave interactions among identical fermionic atoms are important. In this paper, we employ variational and fixed-node diffusion Monte Carlo simulations to investigate the ground-state properties of single-component Fermi gases with short-range repulsive interactions. We determine the zero-temperature equation of state, and elucidate the roles played by the $p$-wave scattering volume and the $p$-wave effective range. A comparison against recently derived second-order perturbative results shows good agreement in a broad range of interaction strength. We also compute the quasiparticle effective mass, and we confirm the perturbative prediction of a linear contribution in the $p$-wave scattering volume, while we find significant deviations from the beyond-mean-field perturbative result, already for moderate interaction strengths. Finally, we determine ground-state energies for two-component unpolarized Fermi gases with both interspecies and intraspecies hard-sphere interactions, finding remarkable agreement with a recently derived fourth-order expansion that includes $p$-wave contributions.
翻訳日:2023-05-09 23:38:45 公開日:2023-05-08
# 個々の古典的あるいは量子計算のコストに縛られる一般化ズレックの一般化

Generalized Zurek's bound on the cost of an individual classical or quantum computation ( http://arxiv.org/abs/2301.06838v2 )

ライセンス: Link先を確認
Artemy Kolchinsky(参考訳) 個々の計算の最小熱力学的コストを考えると、1つの入力$x$が1つの出力$y$にマッピングされる。 以前の研究で、ズレックは、このコストは$K(x\vert y)$、条件付きコルモゴロフ複雑性$x$$$$y$($x$または$y$に依存しない加法定数まで)によって与えられると提案した。 しかし、この結果は非公式な議論から導出され、決定論的計算にのみ適用され、(加法定数を介して)プロトコルの選択に任意に依存する。 ここでは確率的熱力学を用いて、厳密なハミルトン公式からzurekの束縛の一般化バージョンを導出する。 私たちの境界は、ノイズや決定論に関わらず、すべての量子プロセスや古典プロセスに適用され、プロトコルへの依存を明示的に捉えます。 k(x\vert y)$ は、熱、ノイズ、プロトコルの複雑さの組み合わせで払わなければならない x$ から y$ へのマッピングの最小コストであり、これら3つのリソース間のトレードオフを意味する。 この結果は、第2法則と物理教会チューリング論との関係を示唆する「algorithmic fluctuation theorem」の一種である。

We consider the minimal thermodynamic cost of an individual computation, where a single input $x$ is mapped into a single output $y$. In prior work, Zurek proposed that this cost was given by $K(x\vert y)$, the conditional Kolmogorov complexity of $x$ given $y$ (up to an additive constant which does not depend on $x$ or $y$). However, this result was derived from an informal argument, applied only to deterministic computations, and had an arbitrary dependence on the choice of protocol (via the additive constant). Here we use stochastic thermodynamics to derive a generalized version of Zurek's bound from a rigorous Hamiltonian formulation. Our bound applies to all quantum and classical processes, whether noisy or deterministic, and it explicitly captures the dependence on the protocol. We show that $K(x\vert y)$ is a minimal cost of mapping $x$ to $y$ that must be paid using some combination of heat, noise, and protocol complexity, implying a tradeoff between these three resources. Our result is a kind of ``algorithmic fluctuation theorem'' with implications for the relationship between the Second Law and the Physical Church-Turing thesis.
翻訳日:2023-05-09 23:30:10 公開日:2023-05-08
# スライスワッサースタイン点雲再構成のための自己注意補正分布投影最適化

Self-Attention Amortized Distributional Projection Optimization for Sliced Wasserstein Point-Cloud Reconstruction ( http://arxiv.org/abs/2301.04791v2 )

ライセンス: Link先を確認
Khai Nguyen and Dang Nguyen and Nhat Ho(参考訳) マックススライスワッサースタイン距離 (max sliced wasserstein distance) は、スライスワッサースタイン距離 (sw) の判別的射影の少ない解として広く知られている。 様々な確率測度の独立対を持つアプリケーションでは、不定形射影最適化を用いて、2つの入力測度に与えられた「最大」射影方向を複数回投影する代わりに予測する。 効率的であるにもかかわらず、Max-SWとその償却バージョンは、投影された勾配上昇と償却ギャップの準最適性のために計量性を保証することができない。 そこで我々は,Max-SWを分布スライスしたワッサーシュタイン距離に置き換え,von Mises-Fisher (vMF) 投影分布 (v-DSW) に置き換えることを提案する。 v-DSW は任意の非退化 vMF 分布を持つ計量であるため、その償却版は、償却を行う際の計量性を保証することができる。 さらに、現在の償却モデルは置換不変で対称ではない。 この問題に対処するため,自己注意型アーキテクチャに基づくアモールト化モデルを設計する。 特に,効率的な自己アテンションアーキテクチャを採用し,サポート数で計算を線形にする。 この2つの改良により,自己アテンションによる分布射影最適化を導出し,ポイントクラウド再構築および下流アプリケーションにおけるその魅力的な性能を示す。

Max sliced Wasserstein (Max-SW) distance has been widely known as a solution for less discriminative projections of sliced Wasserstein (SW) distance. In applications that have various independent pairs of probability measures, amortized projection optimization is utilized to predict the ``max" projecting directions given two input measures instead of using projected gradient ascent multiple times. Despite being efficient, Max-SW and its amortized version cannot guarantee metricity property due to the sub-optimality of the projected gradient ascent and the amortization gap. Therefore, we propose to replace Max-SW with distributional sliced Wasserstein distance with von Mises-Fisher (vMF) projecting distribution (v-DSW). Since v-DSW is a metric with any non-degenerate vMF distribution, its amortized version can guarantee the metricity when performing amortization. Furthermore, current amortized models are not permutation invariant and symmetric. To address the issue, we design amortized models based on self-attention architecture. In particular, we adopt efficient self-attention architectures to make the computation linear in the number of supports. With the two improvements, we derive self-attention amortized distributional projection optimization and show its appealing performance in point-cloud reconstruction and its downstream applications.
翻訳日:2023-05-09 23:29:32 公開日:2023-05-08
# 医用画像におけるコミュニティ駆動型放射線AIの展開の現状

Current State of Community-Driven Radiological AI Deployment in Medical Imaging ( http://arxiv.org/abs/2212.14177v2 )

ライセンス: Link先を確認
Vikash Gupta, Barbaros Selnur Erdal, Carolina Ramirez, Ralf Floca, Laurence Jackson, Brad Genereaux, Sidney Bryson, Christopher P Bridge, Jens Kleesiek, Felix Nensa, Rickmer Braren, Khaled Younis, Tobias Penzkofer, Andreas Michael Bucher, Ming Melvin Qin, Gigon Bae, Hyeonhoon Lee, M. Jorge Cardoso, Sebastien Ourselin, Eric Kerfoot, Rahul Choudhury, Richard D. White, Tessa Cook, David Bericat, Matthew Lungren, Risto Haukioja, Haris Shuaib(参考訳) 人工知能(AI)は日常的な日常的な課題を解決するのに一般的になっている。 医療画像データ量と複雑さの指数関数的な増加により、放射線医の作業量は着実に増加している。 この増加に対応するために必要となる画像検査数と専門家放射線科医の読者数との間にはギャップが拡大し続け、放射線科医がこれらの試験を快適に解釈できる効率を向上させるaiベースのツールの需要が高まると予測する。 aiは画像生成、処理、解釈の効率を向上させることが示されており、世界中の研究所で様々なaiモデルが開発されている。 しかし、AI研究と成功したAI翻訳の相違を反映した相違点である、定期的な臨床利用への道を見出すものはほとんどない。 医療機関におけるaiデプロイメントの標準を構築し、その実施を容易にするためのツールやインフラストラクチャを開発するオープンソースのコミュニティであるmonai consortiumを設立しました。 本報告は,MonAIコンソーシアムの業界専門家と臨床医のグループによる,週ごとの議論と問題解決経験について述べる。 実験室におけるAIモデル開発とその後の臨床展開の障壁を特定し,その解決策を提案する。 本報告は,医療機関における画像aiモデルの開発から臨床実施までのプロセスに関するガイダンスを提供する。 臨床放射線学ワークフローにおける様々なAI統合ポイントについて論じる。 また、Radiology AIのユースケースの分類も提示する。 本報告では,医療とaiの利害関係者(ai研究者,放射線技師,画像情報学者,規制当局)に対して,学際的な課題と可能な解決策について教育することを目的とする。

Artificial Intelligence (AI) has become commonplace to solve routine everyday tasks. Because of the exponential growth in medical imaging data volume and complexity, the workload on radiologists is steadily increasing. We project that the gap between the number of imaging exams and the number of expert radiologist readers required to cover this increase will continue to expand, consequently introducing a demand for AI-based tools that improve the efficiency with which radiologists can comfortably interpret these exams. AI has been shown to improve efficiency in medical-image generation, processing, and interpretation, and a variety of such AI models have been developed across research labs worldwide. However, very few of these, if any, find their way into routine clinical use, a discrepancy that reflects the divide between AI research and successful AI translation. To address the barrier to clinical deployment, we have formed MONAI Consortium, an open-source community which is building standards for AI deployment in healthcare institutions, and developing tools and infrastructure to facilitate their implementation. This report represents several years of weekly discussions and hands-on problem solving experience by groups of industry experts and clinicians in the MONAI Consortium. We identify barriers between AI-model development in research labs and subsequent clinical deployment and propose solutions. Our report provides guidance on processes which take an imaging AI model from development to clinical implementation in a healthcare institution. We discuss various AI integration points in a clinical Radiology workflow. We also present a taxonomy of Radiology AI use-cases. Through this report, we intend to educate the stakeholders in healthcare and AI (AI researchers, radiologists, imaging informaticists, and regulators) about cross-disciplinary challenges and possible solutions.
翻訳日:2023-05-09 23:28:13 公開日:2023-05-08
# 画像からテキストへのプロンプト:凍結型大言語モデルによるゼロショットVQA

From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models ( http://arxiv.org/abs/2212.10846v3 )

ライセンス: Link先を確認
Jiaxian Guo, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Boyang Li, Dacheng Tao, Steven C.H. Hoi(参考訳) 大規模言語モデル(llm)は、新しい言語タスクに対する優れたゼロショット一般化を示している。 しかしながら、ゼロショット視覚質問応答(VQA)におけるLLMの有効利用は、主にLLMとVQAのタスク間のモダリティの切断とタスクの切断のため、依然として困難である。 視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟で計算コストが高い。 この問題に対処するために,上述したモダリティとタスクの切断をブリッジ可能なプロンプトを提供するプラグイン・アンド・プレイモジュールである \emph{Img2Prompt} を提案する。 このようなプロンプトを提供するために,LLM非依存モデルを用いて,画像の内容や自己構築型質問応答ペアを記述可能なプロンプトを提供することにより,ゼロショットVQAタスクの実行を効果的に導くことができる。 Img2Promptは以下の利点を提供する: 1) VQAを実行するために様々なLLMで柔軟に動作する。 2) エンドツーエンドのトレーニングを必要とせずに、ゼロショットVQAタスクにLLMをデプロイするコストを大幅に削減する。 3) エンドツーエンドトレーニングに依存するメソッドと同等あるいは優れたパフォーマンスを実現する。 例えば、Flamingo \cite{Deepmind:Flamingo2022} を VQAv2 上で 5.6 % 上回る。 挑戦的なA-OKVQAデータセットでは、我々の手法は、数ショットの手法よりも最大20%優れています。

Large language models (LLMs) have demonstrated excellent zero-shot generalization to new language tasks. However, effective utilization of LLMs for zero-shot visual question-answering (VQA) remains challenging, primarily due to the modality disconnection and task disconnection between LLM and VQA task. End-to-end training on vision and language data may bridge the disconnections, but is inflexible and computationally expensive. To address this issue, we propose \emph{Img2Prompt}, a plug-and-play module that provides the prompts that can bridge the aforementioned modality and task disconnections, so that LLMs can perform zero-shot VQA tasks without end-to-end training. In order to provide such prompts, we further employ LLM-agnostic models to provide prompts that can describe image content and self-constructed question-answer pairs, which can effectively guide LLM to perform zero-shot VQA tasks. Img2Prompt offers the following benefits: 1) It can flexibly work with various LLMs to perform VQA. 2)~Without the needing of end-to-end training, it significantly reduces the cost of deploying LLM for zero-shot VQA tasks. 3) It achieves comparable or better performance than methods relying on end-to-end training. For example, we outperform Flamingo \cite{Deepmind:Flamingo2022} by 5.6\% on VQAv2. On the challenging A-OKVQA dataset, our method even outperforms few-shot methods by as much as 20\%.
翻訳日:2023-05-09 23:27:12 公開日:2023-05-08
# デュアルパッチノルム

Dual PatchNorm ( http://arxiv.org/abs/2302.01327v3 )

ライセンス: Link先を確認
Manoj Kumar, Mostafa Dehghani, Neil Houlsby(参考訳) 本稿では,2つのレイヤ正規化レイヤ(LayerNorm)をVision Transformersのパッチ埋め込みレイヤの前後に提案する。 我々は、Transformerブロック自体における代替LayerNorm配置戦略の徹底的な探索の結果、Dual PatchNormが優れていることを示す。 我々の実験では、この自明な修正を取り入れることで、よく調整された視覚変換器よりも精度が向上し、決して傷つけないことが多い。

We propose Dual PatchNorm: two Layer Normalization layers (LayerNorms), before and after the patch embedding layer in Vision Transformers. We demonstrate that Dual PatchNorm outperforms the result of exhaustive search for alternative LayerNorm placement strategies in the Transformer block itself. In our experiments, incorporating this trivial modification, often leads to improved accuracy over well-tuned Vision Transformers and never hurts.
翻訳日:2023-05-09 23:21:14 公開日:2023-05-08
# ロバストなオンラインアクティブラーニング

Robust online active learning ( http://arxiv.org/abs/2302.00422v3 )

ライセンス: Link先を確認
Davide Cacciarelli, Murat Kulahci, John S{\o}lve Tyssedal(参考訳) 多くの産業アプリケーションでは、人間の専門家の介入や高価なテスト機器の使用を必要とするため、ラベル付き観測を得ることは容易ではない。 このような状況下では、モデルに合わせる際に最も有用なデータポイントを提案する上で、アクティブな学習は極めて有益である。 モデル開発に必要な観測回数を減らすことで、トレーニングに必要な計算負担とラベリングに関連する運用コストが軽減される。 特にオンラインアクティブラーニングは、データポイントに対するラベルの取得に関する決定が極めて短い時間枠内で行われなければならない、大量生産プロセスにおいて有用である。 しかし,近年のオンラインアクティブラーニング戦略の展開にも拘わらず,アウトレーヤの存在下でのこれらの手法の行動は十分に検討されていない。 本研究では,汚染データストリームにおけるオンラインアクティブ線形回帰の性能について検討する。 我々の研究は、現在利用可能なクエリ戦略が外れやすいことを示し、トレーニングセットに含めると、最終的にモデルの予測性能が低下することを示している。 この問題に対処するため,条件付きD-最適アルゴリズムの探索領域を限定し,ロバストな推定器を用いた解を提案する。 我々の手法は、入力空間の見えない領域を探索することと、外れ値から保護することのバランスをとる。 数値シミュレーションにより,提案手法は,アウトレーヤの存在下でのオンライン能動学習の性能向上に有効であることを示す。

In many industrial applications, obtaining labeled observations is not straightforward as it often requires the intervention of human experts or the use of expensive testing equipment. In these circumstances, active learning can be highly beneficial in suggesting the most informative data points to be used when fitting a model. Reducing the number of observations needed for model development alleviates both the computational burden required for training and the operational expenses related to labeling. Online active learning, in particular, is useful in high-volume production processes where the decision about the acquisition of the label for a data point needs to be taken within an extremely short time frame. However, despite the recent efforts to develop online active learning strategies, the behavior of these methods in the presence of outliers has not been thoroughly examined. In this work, we investigate the performance of online active linear regression in contaminated data streams. Our study shows that the currently available query strategies are prone to sample outliers, whose inclusion in the training set eventually degrades the predictive performance of the models. To address this issue, we propose a solution that bounds the search area of a conditional D-optimal algorithm and uses a robust estimator. Our approach strikes a balance between exploring unseen regions of the input space and protecting against outliers. Through numerical simulations, we show that the proposed method is effective in improving the performance of online active learning in the presence of outliers, thus expanding the potential applications of this powerful tool.
翻訳日:2023-05-09 23:20:33 公開日:2023-05-08
# 多周波フィルム強調学習のための大規模フィルムスタイルデータセット

A Large-scale Film Style Dataset for Learning Multi-frequency Driven Film Enhancement ( http://arxiv.org/abs/2301.08880v2 )

ライセンス: Link先を確認
Zinuo Li, Xuhang Chen, Shuqiang Wang, Chi-Man Pun(参考訳) 古典的なイメージスタイルであるフィルムは、写真産業全体にとって文化的に重要なものである。 しかし、フィルム写真は時間がかかり高価であり、より効率的なフィルム写真の収集方法が必要である。 これまで画像強調の分野で現れた多くのデータセットは、フィルム固有のものではない。 フィルムベースの画像スタイリング研究を容易にするため,大規模かつ高品質なフィルムスタイルデータセットであるFilmSetを構築した。 我々のデータセットには3つの異なるフィルムタイプと5000以上の高解像度画像が含まれている。 フィルムセット画像の特徴に触発されて,ラプラシアンピラミッドに基づく新たな枠組みである filmnet を提案する。 実験の結果,我々のモデルの性能は最先端技術よりも優れていることがわかった。 コードとデータのリンクは \url{https://github.com/CXH-Research/FilmNet} である。

Film, a classic image style, is culturally significant to the whole photographic industry since it marks the birth of photography. However, film photography is time-consuming and expensive, necessitating a more efficient method for collecting film-style photographs. Numerous datasets that have emerged in the field of image enhancement so far are not film-specific. In order to facilitate film-based image stylization research, we construct FilmSet, a large-scale and high-quality film style dataset. Our dataset includes three different film types and more than 5000 in-the-wild high resolution images. Inspired by the features of FilmSet images, we propose a novel framework called FilmNet based on Laplacian Pyramid for stylizing images across frequency bands and achieving film style outcomes. Experiments reveal that the performance of our model is superior than state-of-the-art techniques. The link of code and data is \url{https://github.com/CXH-Research/FilmNet}.
翻訳日:2023-05-09 23:18:28 公開日:2023-05-08
# 数ミリ秒のコヒーレンス時間を持つ超伝導量子メモリ

A superconducting quantum memory with tens of milliseconds coherence time ( http://arxiv.org/abs/2302.06442v2 )

ライセンス: Link先を確認
Ofir Milul, Barkay Guttel, Uri Goldblatt, Sergey Hazanov, Lalit M. Joshi, Daniel Chausovsky, Nitzan Kahn, Engin \c{C}ifty\"urek, Fabien Lafont, and Serge Rosenblum(参考訳) 量子情報を長期間保存することは、低い誤差で量子アルゴリズムを実行する上で必須である。 現在、超伝導量子メモリは数ミリ秒のコヒーレンス時間を持ち、この性能を超えることは大きな課題である。 本研究では,34msのコヒーレンス時間を有する新しい超伝導キャビティで符号化された量子ビットについて報告する。 我々は、この長寿命の量子メモリを用いて、1024光子という記録的な大きさのシュリンガー猫状態を保存し、空洞のボゾン量子誤差補正の可能性を示している。

Storing quantum information for an extended period of time is essential for running quantum algorithms with low errors. Currently, superconducting quantum memories have coherence times of a few milliseconds, and surpassing this performance has remained an outstanding challenge. In this work, we report a qubit encoded in a novel superconducting cavity with a coherence time of 34 ms, an improvement of over an order of magnitude compared to previous demonstrations. We use this long-lived quantum memory to store a Schr\"odinger cat state with a record size of 1024 photons, indicating the cavity's potential for bosonic quantum error correction.
翻訳日:2023-05-09 23:11:25 公開日:2023-05-08
# ミラーゲームのための完璧な戦略のキャラクタリゼーション

A Characterization of Perfect Strategies for Mirror Games ( http://arxiv.org/abs/2302.04557v2 )

ライセンス: Link先を確認
Sizhuo Yan, Jianting Yang, Tianshi Yu, Lihong Zhi(参考訳) 我々はミラーゲームとユニバーサルゲーム代数を関連付け、*表現を用いて量子可換作用素戦略を記述する。 ミラーゲームが完全可換操作戦略を持つか否かの代数的特徴付けを提供する。 この新しいキャラクタリゼーションでは、paulsenらによって導入されたより小さな代数を同期ゲームや、cimpric、helton、collaboratorsによって開発された非可換なnullstellensatzに使用する。 ミラーゲームが完全可換作用素戦略を持たないことを証明するために、非可換Gr\に基づくアルゴリズムと半定値プログラミングが与えられる。

We associate mirror games with the universal game algebra and use the *-representation to describe quantum commuting operator strategies. We provide an algebraic characterization of whether or not a mirror game has perfect commuting operator strategies. This new characterization uses a smaller algebra introduced by Paulsen and others for synchronous games and the noncommutative Nullstellensatz developed by Cimpric, Helton and collaborators. An algorithm based on noncommutative Gr\"obner basis computation and semidefinite programming is given for certifying that a given mirror game has no perfect commuting operator strategies.
翻訳日:2023-05-09 23:10:33 公開日:2023-05-08
# ChatGPTとその他の大規模生成AIモデルの制御

Regulating ChatGPT and other Large Generative AI Models ( http://arxiv.org/abs/2302.02337v7 )

ライセンス: Link先を確認
Philipp Hacker, Andreas Engel, Marco Mauer(参考訳) ChatGPT、GPT-4、あるいはStable Diffusionのような大規模な生成AIモデル(LGAIM)は、私たちのコミュニケーションの方法、図示、作成を急速に変えています。 しかし、EUなどでは、AI規制は主にLGAIMではなく、従来のAIモデルに焦点を当てている。 本稿では、信頼に値するAI規制に関する現在の議論の中で、これらの新しい生成モデルについて検討し、その能力にどのように適合するかを問う。 技術基盤を整備した後は、(1)直接規制、(2)データ保護、(3)コンテンツモデレーション、(4)政策提案の4段階に進む。 これは、LGAIMの開発者、デプロイ者、プロフェッショナルおよび非プロフェッショナルのユーザ、およびLGAIMのアウトプットを区別することで、LGAIM設定でAIバリューチェーンをキャプチャする新しい用語を提案する。 我々は、これらの異なるアクターに対する規制業務をバリューチェーンに沿って調整し、LGAIMが社会全体の利益のために信頼でき、デプロイされることを保証するための戦略を提案する。 ai法やその他の直接規制の規則は、事前訓練されたモデルの特異性に合致しなければならない。 論文では、LGAIM(すべてのLGAIMの最小基準、リスクの高いユースケースのリスクの高い義務、AIバリューチェーンに沿ったコラボレーション)に関する3つの義務について論じている。 一般的に、規制は、訓練済みのモデル自体ではなく、具体的な高リスクアプリケーションに焦点を当てるべきであり、含めるべきである。 一 透明性に関する義務及び義務 (ii)リスク管理。 非差別規定 しかし、(iii)LGAIM開発者には適用できる。 最後に (4) DSA コンテンツモデレーションルールの中核は LGAIM をカバーするように拡張されるべきである。 これには通知とアクションのメカニズム、信頼できるフラグガーが含まれる。 あらゆる分野において、規制当局や議員はチャットgptなどのダイナミクスを追跡するために迅速に行動する必要がある。

Large generative AI models (LGAIMs), such as ChatGPT, GPT-4 or Stable Diffusion, are rapidly transforming the way we communicate, illustrate, and create. However, AI regulation, in the EU and beyond, has primarily focused on conventional AI models, not LGAIMs. This paper will situate these new generative models in the current debate on trustworthy AI regulation, and ask how the law can be tailored to their capabilities. After laying technical foundations, the legal part of the paper proceeds in four steps, covering (1) direct regulation, (2) data protection, (3) content moderation, and (4) policy proposals. It suggests a novel terminology to capture the AI value chain in LGAIM settings by differentiating between LGAIM developers, deployers, professional and non-professional users, as well as recipients of LGAIM output. We tailor regulatory duties to these different actors along the value chain and suggest strategies to ensure that LGAIMs are trustworthy and deployed for the benefit of society at large. Rules in the AI Act and other direct regulation must match the specificities of pre-trained models. The paper argues for three layers of obligations concerning LGAIMs (minimum standards for all LGAIMs; high-risk obligations for high-risk use cases; collaborations along the AI value chain). In general, regulation should focus on concrete high-risk applications, and not the pre-trained model itself, and should include (i) obligations regarding transparency and (ii) risk management. Non-discrimination provisions (iii) may, however, apply to LGAIM developers. Lastly, (iv) the core of the DSA content moderation rules should be expanded to cover LGAIMs. This includes notice and action mechanisms, and trusted flaggers. In all areas, regulators and lawmakers need to act fast to keep track with the dynamics of ChatGPT et al.
翻訳日:2023-05-09 23:09:36 公開日:2023-05-08
# 量子効果:量子Piのレシピ

The Quantum Effect: A Recipe for QuantumPi ( http://arxiv.org/abs/2302.01885v3 )

ライセンス: Link先を確認
Jacques Carette, Chris Heunen, Robin Kaarsgaard, Amr Sabry(参考訳) 自由カテゴリー構成は、古典構造の相補性方程式に結びついた可逆的古典モデルの2つのコピーの組み合わせとして量子コンピューティングを特徴づける。 このレシピは、rig groupoidsの内部言語であるpiの2つのコピーから計算に普遍的な量子プログラミング言語を効果的に構築する。 構造はヒューズの矢で成っている。 したがって、可逆古典計算を量子計算に変換する計算効果が存在するかどうかという疑問は正に答える:量子効果。 測定は、上面にさらなる効果を階層化することで追加することができる。 我々の構成はまた、古典的推論と相補性に関する推論の組み合わせによって(測定の有無に関わらず)量子プログラムに関するいくつかの推論を可能にする。

Free categorical constructions characterise quantum computing as the combination of two copies of a reversible classical model, glued by the complementarity equations of classical structures. This recipe effectively constructs a computationally universal quantum programming language from two copies of Pi, the internal language of rig groupoids. The construction consists of Hughes' arrows. Thus answer positively the question whether a computational effect exists that turns reversible classical computation into quantum computation: the quantum effect. Measurements can be added by layering a further effect on top. Our construction also enables some reasoning about quantum programs (with or without measurement) through a combination of classical reasoning and reasoning about complementarity.
翻訳日:2023-05-09 23:08:23 公開日:2023-05-08
# styleadv: クロスドメイン・マイナショット学習のためのメタスタイルの敵意学習

StyleAdv: Meta Style Adversarial Training for Cross-Domain Few-Shot Learning ( http://arxiv.org/abs/2302.09309v2 )

ライセンス: Link先を確認
Yuqian Fu, Yu Xie, Yanwei Fu, Yu-Gang Jiang(参考訳) Cross-Domain Few-Shot Learning (CD-FSL)は、最近登場したタスクであり、異なるドメインにわたる数ショットの学習に取り組む。 ソースデータセットで学んだ事前知識を新しいターゲットデータセットに転送することを目的としている。 CD-FSLタスクは、異なるデータセット間の大きなドメインギャップによって特に困難である。 批判的に言えば、このようなドメインギャップは実際には視覚的なスタイルの変化によるもので、Wave-SANは、ソースデータのスタイル分布を分散させることによってこの問題を軽減することを実証的に示します。 しかし、Wave-SANは単純に2つの画像のスタイルを交換する。 このようなバニラ操作により、生成されたスタイル ``real'' と ``easy'' は、まだソーススタイルの最初のセットに収まる。 そこで,CD-FSLでは,新しいモデルに依存しないメタスタイル逆行訓練(StyleAdv)法と,新しいスタイル逆行攻撃法が提案されている。 特に,本手法は,モデル学習のための「仮想」と「ハード」の両逆スタイルを合成する。 これは、署名されたスタイル勾配でオリジナルのスタイルを乱すことによって達成される。 継続的にスタイルを攻撃し、これらの困難な敵対的スタイルを認識することによって、我々のモデルは徐々にビジュアルスタイルに強固になり、新しいターゲットデータセットの一般化能力を高めます。 典型的なCNNベースのバックボーンの他に、大規模な事前学習型視覚変換器にもStyleAdv法を用いた。 8種類のターゲットデータセットを対象とした広範囲な実験を行い,本手法の有効性を示した。 ResNetでもViTでも、CD-FSLの新たな最先端を実現する。 コードはhttps://github.com/lovelyqian/StyleAdv-CDFSLで入手できる。

Cross-Domain Few-Shot Learning (CD-FSL) is a recently emerging task that tackles few-shot learning across different domains. It aims at transferring prior knowledge learned on the source dataset to novel target datasets. The CD-FSL task is especially challenged by the huge domain gap between different datasets. Critically, such a domain gap actually comes from the changes of visual styles, and wave-SAN empirically shows that spanning the style distribution of the source data helps alleviate this issue. However, wave-SAN simply swaps styles of two images. Such a vanilla operation makes the generated styles ``real'' and ``easy'', which still fall into the original set of the source styles. Thus, inspired by vanilla adversarial learning, a novel model-agnostic meta Style Adversarial training (StyleAdv) method together with a novel style adversarial attack method is proposed for CD-FSL. Particularly, our style attack method synthesizes both ``virtual'' and ``hard'' adversarial styles for model training. This is achieved by perturbing the original style with the signed style gradients. By continually attacking styles and forcing the model to recognize these challenging adversarial styles, our model is gradually robust to the visual styles, thus boosting the generalization ability for novel target datasets. Besides the typical CNN-based backbone, we also employ our StyleAdv method on large-scale pretrained vision transformer. Extensive experiments conducted on eight various target datasets show the effectiveness of our method. Whether built upon ResNet or ViT, we achieve the new state of the art for CD-FSL. Code is available at https://github.com/lovelyqian/StyleAdv-CDFSL.
翻訳日:2023-05-09 23:02:43 公開日:2023-05-08
# ニューラルネットワークを満たすテンソルネットワーク:調査と今後の展望

Tensor Networks Meet Neural Networks: A Survey and Future Perspectives ( http://arxiv.org/abs/2302.09019v2 )

ライセンス: Link先を確認
Maolin Wang, Yu Pan, Zenglin Xu, Xiangli Yang, Guangxi Li, Andrzej Cichocki(参考訳) テンソルネットワーク(TN)とニューラルネットワーク(NN)は2つの基本的なデータモデリングアプローチである。 TNは指数数次元を多項式複雑性に変換することによって、大規模テンソルの次元性の呪いを解決するために導入された。 その結果、量子物理学や機械学習の分野に大きな注目を集めた。 一方、nnはコンピュータビジョン、自然言語処理、ロボティクス研究など、様々なアプリケーションで例外的な性能を示している。 興味深いことに、これらの2種類のネットワークは異なる観測結果から生まれたものであるが、本質的にはTNとNNの両方の基礎となる共通多線形構造を通してリンクされており、TNとNNの組み合わせに関するかなりの数の知的発達を動機付けている。 本稿では、これらの組み合わせをテンソルニューラルネットワーク(TNN)と呼び、ネットワーク圧縮、情報融合、量子回路シミュレーションの3つの主要な側面でTNNを紹介する。 さらに、TNNの改善方法、TNNの実装のための柔軟なツールボックス、将来的な方向性を強調しつつTNN開発を文書化する方法について検討する。 私たちの知る限りでは、NN、TN、量子回路間の接続を橋渡しする、初めての総合的な調査である。 我々は、url{https://github.com/tnbar/awesome-tensorial-neural-networks}でtnnのキュレーションリストを提供する。

Tensor networks (TNs) and neural networks (NNs) are two fundamental data modeling approaches. TNs were introduced to solve the curse of dimensionality in large-scale tensors by converting an exponential number of dimensions to polynomial complexity. As a result, they have attracted significant attention in the fields of quantum physics and machine learning. Meanwhile, NNs have displayed exceptional performance in various applications, e.g., computer vision, natural language processing, and robotics research. Interestingly, although these two types of networks originate from different observations, they are inherently linked through the common multilinearity structure underlying both TNs and NNs, thereby motivating a significant number of intellectual developments regarding combinations of TNs and NNs. In this paper, we refer to these combinations as tensorial neural networks (TNNs), and present an introduction to TNNs in three primary aspects: network compression, information fusion, and quantum circuit simulation. Furthermore, this survey also explores methods for improving TNNs, examines flexible toolboxes for implementing TNNs, and documents TNN development while highlighting potential future directions. To the best of our knowledge, this is the first comprehensive survey that bridges the connections among NNs, TNs, and quantum circuits. We provide a curated list of TNNs at \url{https://github.com/tnbar/awesome-tensorial-neural-networks}.
翻訳日:2023-05-09 23:01:55 公開日:2023-05-08
# 概略ベイズ最適擬似ラベル選択

Approximately Bayes-Optimal Pseudo Label Selection ( http://arxiv.org/abs/2302.08883v3 )

ライセンス: Link先を確認
Julian Rodemann, Jann Goschenhofer, Emilio Dorigatti, Thomas Nagler, Thomas Augustin(参考訳) 自己学習による半教師付き学習は擬似ラベル選択(pls)に大きく依存する。 選択はしばしばラベル付きデータに適合する初期モデルに依存する。 したがって、初期オーバーフィッティングは、しばしば確認バイアスと呼ばれる過信だが誤った予測を持つインスタンスを選択することで最終モデルに伝播する可能性がある。 本稿では,この問題の緩和を目的としたBPLSについて述べる。 その核となるのは、ラベルのインスタンスを選択するための基準である:擬似サンプルの後方予測の解析的近似である。 この選択基準を疑似サンプルの後方予測のベイズ最適性を証明することによって導出する。 さらに、評価基準を解析的に近似することで計算ハードルを克服する。 その限界確率との関係により、ラプラスの方法とガウス積分に基づく近似を導き出すことができる。 シミュレーションおよび実世界のデータに基づいて,パラメトリック一般化線形および非パラメトリック一般化加法モデルに対してBPLSを実験的に評価する。 高次元データに直面すると、BPLSは従来のPLS法よりも優れている。

Semi-supervised learning by self-training heavily relies on pseudo-label selection (PLS). The selection often depends on the initial model fit on labeled data. Early overfitting might thus be propagated to the final model by selecting instances with overconfident but erroneous predictions, often referred to as confirmation bias. This paper introduces BPLS, a Bayesian framework for PLS that aims to mitigate this issue. At its core lies a criterion for selecting instances to label: an analytical approximation of the posterior predictive of pseudo-samples. We derive this selection criterion by proving Bayes optimality of the posterior predictive of pseudo-samples. We further overcome computational hurdles by approximating the criterion analytically. Its relation to the marginal likelihood allows us to come up with an approximation based on Laplace's method and the Gaussian integral. We empirically assess BPLS for parametric generalized linear and non-parametric generalized additive models on simulated and real-world data. When faced with high-dimensional data prone to overfitting, BPLS outperforms traditional PLS methods.
翻訳日:2023-05-09 23:00:59 公開日:2023-05-08
# mdpose:混合密度モデルによるリアルタイム多人数ポーズ推定

MDPose: Real-Time Multi-Person Pose Estimation via Mixture Density Model ( http://arxiv.org/abs/2302.08751v2 )

ライセンス: Link先を確認
Seunghyeon Seo, Jaeyoung Yoo, Jihye Hwang, Nojun Kwak(参考訳) 多人数のポーズ推定における大きな課題の1つは、インスタンス認識キーポイント推定である。 従来の手法では、既製の検知器、ヒューリスティックな後グループ化プロセス、明示的なインスタンス識別プロセスを利用してこの問題に対処しており、実用上重要な要素である推論速度のさらなる改善を妨げている。 統計学的観点から見ると、これらの追加プロセスは、人間のキーポイントの高次元の関節分布の学習をバイパスするために必要であり、これはもう一つの大きな課題である閉塞シナリオにとって重要な要素である。 本研究では,mdposeと呼ばれる混合密度モデルを用いて,人間のキーポイントの結合分布をモデル化し,一段階のインスタンス認識ポーズ推定の新たな枠組みを提案する。 MDPoseは、8つの畳み込み層からなるインスタンス認識キーポイントヘッドと混合密度モデルを用いて、人間のキーポイント座標の分布を推定する。 基底真理キーポイントの負のログライク度を最小化することで訓練される。 また,単純かつ効果的なトレーニング戦略であるランダム・キーポイント・グルーピング(rkg)を提案する。 高度に隠蔽された人物の画像からなるOCHumanデータセットでは,人間のキーポイントの高次元関節分布の学習に成功して最先端の性能を実現する。 さらに,提案したより単純な単一ステージパイプラインにより,MS COCO, 広く使用されている人間のキーポイントデータセットに対して, 競合精度で推論速度が大幅に向上したことを示す。

One of the major challenges in multi-person pose estimation is instance-aware keypoint estimation. Previous methods address this problem by leveraging an off-the-shelf detector, heuristic post-grouping process or explicit instance identification process, hindering further improvements in the inference speed which is an important factor for practical applications. From the statistical point of view, those additional processes for identifying instances are necessary to bypass learning the high-dimensional joint distribution of human keypoints, which is a critical factor for another major challenge, the occlusion scenario. In this work, we propose a novel framework of single-stage instance-aware pose estimation by modeling the joint distribution of human keypoints with a mixture density model, termed as MDPose. Our MDPose estimates the distribution of human keypoints' coordinates using a mixture density model with an instance-aware keypoint head consisting simply of 8 convolutional layers. It is trained by minimizing the negative log-likelihood of the ground truth keypoints. Also, we propose a simple yet effective training strategy, Random Keypoint Grouping (RKG), which significantly alleviates the underflow problem leading to successful learning of relations between keypoints. On OCHuman dataset, which consists of images with highly occluded people, our MDPose achieves state-of-the-art performance by successfully learning the high-dimensional joint distribution of human keypoints. Furthermore, our MDPose shows significant improvement in inference speed with a competitive accuracy on MS COCO, a widely-used human keypoint dataset, thanks to the proposed much simpler single-stage pipeline.
翻訳日:2023-05-09 23:00:47 公開日:2023-05-08
# 2次元熱状態の等尺テンソルネットワーク表現

Isometric tensor network representations of two-dimensional thermal states ( http://arxiv.org/abs/2302.07905v2 )

ライセンス: Link先を確認
Wilhelm Kadow, Frank Pollmann, Michael Knap(参考訳) テンソルネットワークは、低次元複素多体系を記述するのに有用なツールである。 2次元の有限温度シミュレーションにこれらの手法を用いる効率的なアルゴリズムを見つけることは継続的な課題である。 ここでは、最近導入された等尺テンソルネットワーク状態のクラスを使用し、量子コンピュータ上のユニタリゲートで直接実現することができる。 横磁場イジングモデルの熱状態を効率的に表現するために, 精製アンサッツを用いる。 無限温度から始まる想像時間進化を行うことで、この手法は有限温度の状態を表現するために計算の複雑さが低い別の方法を提供することがわかった。

Tensor networks provide a useful tool to describe low-dimensional complex many-body systems. Finding efficient algorithms to use these methods for finite-temperature simulations in two dimensions is a continuing challenge. Here, we use the class of recently introduced isometric tensor network states, which can also be directly realized with unitary gates on a quantum computer. We utilize a purification ansatz to efficiently represent thermal states of the transverse field Ising model. By performing an imaginary-time evolution starting from infinite temperature, we find that this approach offers a different way with low computational complexity to represent states at finite temperatures.
翻訳日:2023-05-09 22:59:54 公開日:2023-05-08
# オントロジー推定のための言語モデル解析

Language Model Analysis for Ontology Subsumption Inference ( http://arxiv.org/abs/2302.06761v3 )

ライセンス: Link先を確認
Yuan He, Jiaoyan Chen, Ernesto Jim\'enez-Ruiz, Hang Dong, Ian Horrocks(参考訳) 近年,知識ベース (KB) として機能する言語モデル (LM) の検討が盛んに行われている。 しかし、既存の研究は単純で三重のリレーショナルKBに焦点を当てているが、OWLオントロジーのようなより洗練された論理ベースの概念化されたKBを省略している。 LMのオントロジーに関する知識を調べるために,原子と複雑な概念の両方を含むオントロジーの仮定に基づく探索タスクとデータセットのセットであるOntoLAMAを提案する。 我々は,異なる領域やスケールのオントロジーに関する広範な実験を行い,本研究の結果は,従来の自然言語推論 (NLI) よりも,仮定推論 (SI) の背景知識が比較的少ないが,少数のサンプルが与えられた場合に,SIを著しく改善できることを示した。 コードとデータセットをオープンソースにします。

Investigating whether pre-trained language models (LMs) can function as knowledge bases (KBs) has raised wide research interests recently. However, existing works focus on simple, triple-based, relational KBs, but omit more sophisticated, logic-based, conceptualised KBs such as OWL ontologies. To investigate an LM's knowledge of ontologies, we propose OntoLAMA, a set of inference-based probing tasks and datasets from ontology subsumption axioms involving both atomic and complex concepts. We conduct extensive experiments on ontologies of different domains and scales, and our results demonstrate that LMs encode relatively less background knowledge of Subsumption Inference (SI) than traditional Natural Language Inference (NLI) but can improve on SI significantly when a small number of samples are given. We will open-source our code and datasets.
翻訳日:2023-05-09 22:59:43 公開日:2023-05-08
# 深層完全畳み込みデータ記述を用いた一級損傷検出法

One-class Damage Detector Using Deeper Fully-Convolutional Data Descriptions for Civil Application ( http://arxiv.org/abs/2303.01732v3 )

ライセンス: Link先を確認
Takato Yasuno, Masahiro Okano, Junichiro Fujii(参考訳) インフラストラクチャマネージャは、インフラストラクチャのライフサイクル中にユーザの満足度を確保するために、高い基準を維持しなければならない。 監視カメラと視覚検査は異常な特徴の検出と劣化発生の診断の自動化に進歩をもたらした。 しかし、被害データの収集は通常、時間がかかるため、繰り返し検査が必要となる。 one-class damage detectionアプローチは、通常のイメージをモデルパラメータの最適化に使用できるという利点がある。 さらに、ヒートマップの視覚的評価により、局所的な異常な特徴を理解することができる。 筆者らは,ロバスト特性と局所的損傷説明可能性に利用される損傷ビジョンアプリケーションに注目した。 まず,ベースラインモデルとして完全畳み込みデータ記述(FCDD)を再現した一級損傷検出を自動化する汎用アプリケーションを提案する。 土木工学におけるコンクリートの損傷と鋼の腐食に関する実験的研究を, 正確かつ説明可能な結果を得た。 さらに,より堅牢なアプリケーションを開発するために,様々な機器を用いて収集した自然災害データセットを用いて,複雑でノイズの多い背景を含む別の屋外ドメインに適用した。 さらに,損傷検出の性能向上と災害データセットのアブレーション研究を実施するために,他の強力なバックボーンに着目したFCDDのより深い解を提案する。 その結果, 深部FCDDは, ハリケーン, 台風, 地震, および4回の災害による自然災害被害を示すデータセットにおいて, ベースラインFCDDよりも優れていたことが示唆された。

Infrastructure managers must maintain high standards to ensure user satisfaction during the lifecycle of infrastructures. Surveillance cameras and visual inspections have enabled progress in automating the detection of anomalous features and assessing the occurrence of deterioration. However, collecting damage data is typically time consuming and requires repeated inspections. The one-class damage detection approach has an advantage in that normal images can be used to optimize model parameters. Additionally, visual evaluation of heatmaps enables us to understand localized anomalous features. The authors highlight damage vision applications utilized in the robust property and localized damage explainability. First, we propose a civil-purpose application for automating one-class damage detection reproducing a fully convolutional data description (FCDD) as a baseline model. We have obtained accurate and explainable results demonstrating experimental studies on concrete damage and steel corrosion in civil engineering. Additionally, to develop a more robust application, we applied our method to another outdoor domain that contains complex and noisy backgrounds using natural disaster datasets collected using various devices. Furthermore, we propose a valuable solution of deeper FCDDs focusing on other powerful backbones to improve the performance of damage detection and implement ablation studies on disaster datasets. The key results indicate that the deeper FCDDs outperformed the baseline FCDD on datasets representing natural disaster damage caused by hurricanes, typhoons, earthquakes, and four-event disasters.
翻訳日:2023-05-09 22:51:59 公開日:2023-05-08
# 深部活動推論の分解

Deconstructing deep active inference ( http://arxiv.org/abs/2303.01618v2 )

ライセンス: Link先を確認
Th\'eophile Champion and Marek Grze\'s and Lisa Bonheme and Howard Bowman(参考訳) アクティブ推論(英: Active Inference)とは、神経科学、ロボット工学、機械学習に応用できる知覚、学習、意思決定の理論である。 近年,モンテカルロ木探索とディープラーニングを用いて,このフレームワークのスケールアップが試みられている。 このアクティビティの目標は、より複雑なタスクを、深いアクティブ推論を使って解決することである。 まず,既存の文献を概観し,より積極的な推論エージェントを構築した。 2つのエージェントに対して,期待自由エネルギーの5つの定義と3つの異なるアクション選択戦略を実験した。 我々の実験によると、dsprites環境を解決できるモデルは報酬を最大化するものである。 最後に,カーネルアライメントを用いた種々のエージェントの層によって学習された表現の類似性を比較する。 重要なことに、報酬を最大化するエージェントと、期待自由エネルギーを最小化するエージェントは、批判ネットワークの最終層(学習目的の違いを反映する)と、遷移およびエンコーダネットワークの分散層を除いて、非常に類似した表現を学習する。 報酬最大化剤は期待される自由エネルギーを最小化する剤よりもはるかに確実であることがわかった。 これは、期待される自由エネルギーを最小限に抑えるエージェントが常にアクションを分解し、他のアクションに十分なデータを集めることができないためである。 対照的に、報酬を最大化するエージェントは、左右のアクションを選択し続け、そのタスクをうまく解決できるようにする。 これら2つのエージェントの唯一の違いは、トランジッションとエンコーダネットワークの出力を可能な限り近づけることを目的とした認識値である。 これにより、期待自由エネルギーを最小化するエージェントは、単一のアクションを選択(ダウン)し、このアクションを選択する際に将来を予測する専門家となる。 これにより、遷移の出力とエンコーダネットワークの間のKLのばらつきが小さくなる。

Active inference is a theory of perception, learning and decision making, which can be applied to neuroscience, robotics, and machine learning. Recently, reasearch has been taking place to scale up this framework using Monte-Carlo tree search and deep learning. The goal of this activity is to solve more complicated tasks using deep active inference. First, we review the existing literature, then, we progresively build a deep active inference agent. For two agents, we have experimented with five definitions of the expected free energy and three different action selection strategies. According to our experiments, the models able to solve the dSprites environment are the ones that maximise rewards. Finally, we compare the similarity of the representation learned by the layers of various agents using centered kernel alignment. Importantly, the agent maximising reward and the agent minimising expected free energy learn very similar representations except for the last layer of the critic network (reflecting the difference in learning objective), and the variance layers of the transition and encoder networks. We found that the reward maximising agent is a lot more certain than the agent minimising expected free energy. This is because the agent minimising expected free energy always picks the action down, and does not gather enough data for the other actions. In contrast, the agent maximising reward, keeps on selecting the actions left and right, enabling it to successfully solve the task. The only difference between those two agents is the epistemic value, which aims to make the outputs of the transition and encoder networks as close as possible. Thus, the agent minimising expected free energy picks a single action (down), and becomes an expert at predicting the future when selecting this action. This makes the KL divergence between the output of the transition and encoder networks small.
翻訳日:2023-05-09 22:51:36 公開日:2023-05-08
# 遅延チョイス量子消去器における非局所現実性のコヒーレンス解釈

A coherence interpretation of nonlocal realism in the delayed-choice quantum eraser ( http://arxiv.org/abs/2302.13474v3 )

ライセンス: Link先を確認
B. S. Ham(参考訳) ウィーラーが提唱した遅延選択思考実験は、過去数十年間、単一光子の波動-粒子双対性について実証されてきた。 スカリーとドルルによって提案された遅延チョイス量子消光器は、干渉計系における一対の絡み合った光子と同様に、単一の光子の因果効果関係に違反するため、集中的に研究されている。 ここでは、Physで観測された空間状分離光子の非局所現実性についてコヒーレンス解釈を行う。 Rev. Lett. 84, 1 (2000). その結果、観測された非局所フリンジのコヒーレンス解は偶然検出による選択的な測定から決定的に導かれ、結果として生成した積-基底重ね合わせは非局所フリンジの他の量子ミステリーの起源となる。 このため、絡み合った光子間の固定的な和位相関係は前提条件であり、従来の粒子の性質に基づく量子力学では説明できない。

The delayed-choice thought experiment proposed by Wheeler has been demonstrated over the last several decades for the wave-particle duality of a single photon. The delayed-choice quantum eraser proposed by Scully and Druhl has also been intensively studied for the violation of the cause-effect relation of a single photon as well as a pair of entangled photons in an interferometric system. Here, a coherence interpretation is conducted for the nonlocal realism of the space-like separated photons observed in Phys. Rev. Lett. 84, 1 (2000). As a result, coherence solutions of the observed nonlocal fringes are deterministically derived from coincidence detection-caused selective measurements, where the resulting product-basis superposition becomes the origin of the otherwise quantum mystery of the nonlocal fringes. For this, a fixed sum-phase relation between entangled photons is a prerequisite, which cannot be explained by conventional particle nature-based quantum mechanics.
翻訳日:2023-05-09 22:50:42 公開日:2023-05-08
# PaGE-Link:不均一リンク予測のためのパスベースグラフニューラルネットワークの提案

PaGE-Link: Path-based Graph Neural Network Explanation for Heterogeneous Link Prediction ( http://arxiv.org/abs/2302.12465v3 )

ライセンス: Link先を確認
Shichang Zhang, Jiani Zhang, Xiang Song, Soji Adeshina, Da Zheng, Christos Faloutsos, Yizhou Sun(参考訳) 透明性と説明責任は、ブラックボックス機械学習(ML)モデルの主要な関心事となっている。 モデル行動の適切な説明はモデルの透明性を高め、研究者がより説明可能なモデルを開発するのに役立つ。 グラフニューラルネットワーク(gnn)は最近、従来の方法よりも多くのグラフml問題において優れたパフォーマンスを示している。 しかし、GNNによるリンク予測(LP)の説明は文献に欠けている。 LPは必須のGNNタスクであり、Web上のレコメンデーションやスポンサード検索のようなWebアプリケーションに対応する。 ノード/グラフレベルのタスクにのみ対処する既存のGNN説明法を前提として、接続解釈可能性のある説明を生成し、モデルのスケーラビリティを享受し、グラフの不均一性を扱うパスベースGNN説明法(PaGE-Link)を提案する。 定性的には、ページリンクはノードペアをつなぐ経路として説明を生成でき、2つのノード間の接続を自然にキャプチャし、容易に人間の解釈可能な説明に転送することができる。 PaGE-Linkが生成した説明は、引用グラフとユーザアイコングラフのレコメンデーションを9~35%改善し、人間の評価において78.79%の回答で改善された。

Transparency and accountability have become major concerns for black-box machine learning (ML) models. Proper explanations for the model behavior increase model transparency and help researchers develop more accountable models. Graph neural networks (GNN) have recently shown superior performance in many graph ML problems than traditional methods, and explaining them has attracted increased interest. However, GNN explanation for link prediction (LP) is lacking in the literature. LP is an essential GNN task and corresponds to web applications like recommendation and sponsored search on web. Given existing GNN explanation methods only address node/graph-level tasks, we propose Path-based GNN Explanation for heterogeneous Link prediction (PaGE-Link) that generates explanations with connection interpretability, enjoys model scalability, and handles graph heterogeneity. Qualitatively, PaGE-Link can generate explanations as paths connecting a node pair, which naturally captures connections between the two nodes and easily transfer to human-interpretable explanations. Quantitatively, explanations generated by PaGE-Link improve AUC for recommendation on citation and user-item graphs by 9 - 35% and are chosen as better by 78.79% of responses in human evaluation.
翻訳日:2023-05-09 22:50:23 公開日:2023-05-08
# 有向非巡回グラフ公理を用いた重み付き一階数モデル

Weighted First Order Model Counting with Directed Acyclic Graph Axioms ( http://arxiv.org/abs/2302.09830v2 )

ライセンス: Link先を確認
Sagar Malhotra and Luciano Serafini(参考訳) 統計的関係学習(SRL)は、一階述語論理(FOL)と確率理論を統合し、関係データの学習と推論を行う。 多くのSRLモデルの確率的推論と学習は、重み付き一階モデルカウント(WFOMC)に還元できる。 しかし、WFOMCは難解であることが知られている("\mathrm{\#P_1-}$ complete")。 したがって、多項式時間 WFOMC を許容する論理的断片は重要な関心事である。 このような断片はドメインリフトと呼ばれる。 最近の一連の作品では、folの2変数の断片が、数量化子($\mathrm{c^2}$)をドメインリフト可能に拡張されている。 しかし、実世界のデータの多くの特性は$\mathrm{c^2}$でモデル化できない。 実際、実世界のデータの多くのユビキタスな性質は、FOLでは耐え難い。 非巡回性は, 引用ネットワーク, 系図データ, 時間データ e.t.c. に見られるような性質の1つである。 ここでは,DAG(Directed Acyclic Graph)の公理を持つフラグメント$\mathrm{C^2}$,すなわち,言語内の述語がDAGを表すために公理化され,ドメインリフト可能であることを示す。 DAG公理で拡張された$\mathrm{C^2}$式に対するWFOMCの包含排除原理に基づく方法を提案する。

Statistical Relational Learning (SRL) integrates First-Order Logic (FOL) and probability theory for learning and inference over relational data. Probabilistic inference and learning in many SRL models can be reduced to Weighted First Order Model Counting (WFOMC). However, WFOMC is known to be intractable ($\mathrm{\#P_1-}$ complete). Hence, logical fragments that admit polynomial time WFOMC are of significant interest. Such fragments are called domain liftable. Recent line of works have shown the two-variable fragment of FOL, extended with counting quantifiers ($\mathrm{C^2}$) to be domain-liftable. However, many properties of real-world data can not be modelled in $\mathrm{C^2}$. In fact many ubiquitous properties of real-world data are inexressible in FOL. Acyclicity is one such property, found in citation networks, genealogy data, temporal data e.t.c. In this paper we aim to address this problem by investigating the domain liftability of directed acyclicity constraints. We show that the fragment $\mathrm{C^2}$ with a Directed Acyclic Graph (DAG) axiom, i.e., a predicate in the language is axiomatized to represent a DAG, is domain-liftable. We present a method based on principle of inclusion-exclusion for WFOMC of $\mathrm{C^2}$ formulas extended with DAG axioms.
翻訳日:2023-05-09 22:49:50 公開日:2023-05-08
# SILOP:オブジェクト周辺をベースとした画像ラベルを用いたセマンティックセグメンテーション自動化フレームワーク

SILOP: An Automated Framework for Semantic Segmentation Using Image Labels Based on Object Perimeters ( http://arxiv.org/abs/2303.07892v3 )

ライセンス: Link先を確認
Erik Ostrowski and Bharath Srinivas Prabakaran and Muhammad Shafique(参考訳) 画像レベルラベルのみを使用して高品質な意味セグメンテーション予測を実現することで、新しいレベルの現実世界の適用性が実現される。 最先端のネットワークは信頼性の高い予測を提供するが、これらの結果を実現するための手作りのピクセルワイドアノテーションの量は、現実の多くのアプリケーションでは実現不可能である。 そのため、クラスアクティベーションマップ~\cite{CAM} (CAMs)のような分類器ベースのネットワークをベースとして、いくつかの研究がすでにこのボトルネックをターゲットにしている。 CAMのファジィ境界の弱点と不完全な予測に対処するために、最先端のアプローチは、分類器の損失に規則を追加することや、その後にピクセル類似性に基づく改善を使用することにのみ依存する。 本稿では,サリエンシ向上のためにオブジェクト周辺計を用いた追加モジュールを導入するフレームワークを提案する。 オブジェクトと背景を分離する行として、オブジェクト周辺情報を定義します。 我々の新しいPerimeterFitモジュールは、ピクセル類似性に基づくネットワークを使用する前に、CAM予測を事前に再定義する。 このようにして、我々のPerimeterFitは、偽陰率を同時に改善しながら、CAM予測の品質を向上させる。 我々は,最先端の非教師付きセマンティックセグメンテーションネットワークとエッジ検出手法を幅広く検討し,よりシャープな周辺空間で物体の位置を予測できるようにした。 perimeterfitモジュールを使わずにフレームワークを1.5%改善しました。 画像レベルのセマンティクスセグメンテーションのための既存の最先端フレームワークをsilopが強化することを示すために,徹底的な分析を行う。 フレームワークはオープンソースで、https://github.com/ErikOstrowski/SILOP.comでオンラインでアクセス可能である。

Achieving high-quality semantic segmentation predictions using only image-level labels enables a new level of real-world applicability. Although state-of-the-art networks deliver reliable predictions, the amount of handcrafted pixel-wise annotations to enable these results are not feasible in many real-world applications. Hence, several works have already targeted this bottleneck, using classifier-based networks like Class Activation Maps~\cite{CAM} (CAMs) as a base. Addressing CAM's weaknesses of fuzzy borders and incomplete predictions, state-of-the-art approaches rely only on adding regulations to the classifier loss or using pixel-similarity-based refinement after the fact. We propose a framework that introduces an additional module using object perimeters for improved saliency. We define object perimeter information as the line separating the object and background. Our new PerimeterFit module will be applied to pre-refine the CAM predictions before using the pixel-similarity-based network. In this way, our PerimeterFit increases the quality of the CAM prediction while simultaneously improving the false negative rate. We investigated a wide range of state-of-the-art unsupervised semantic segmentation networks and edge detection techniques to create useful perimeter maps, which enable our framework to predict object locations with sharper perimeters. We achieved up to 1.5% improvement over frameworks without our PerimeterFit module. We conduct an exhaustive analysis to illustrate that SILOP enhances existing state-of-the-art frameworks for image-level-based semantic segmentation. The framework is open-source and accessible online at https://github.com/ErikOstrowski/SILOP.
翻訳日:2023-05-09 21:06:37 公開日:2023-05-08
# BERTモデルを用いたツイートの位置推定

Geolocation Predicting of Tweets Using BERT-Based Models ( http://arxiv.org/abs/2303.07865v2 )

ライセンス: Link先を確認
Kateryna Lutsai and Christoph H. Lampert(参考訳) 本研究の目的は、ツイート/ユーザ位置情報予測タスクの解決と、テキストビッグデータのジオタグ化のための柔軟な方法論を提供することである。 提案手法はニューラルネットワークを用いて自然言語処理(NLP)を行い,その位置を座標対(経度,緯度)と2次元ガウス混合モデル(GMM)として推定する。 提案モデルの範囲は、トレーニング済みの双方向エンコーダ表現(BERT)をベースモデルとして、Twitterデータセット上で微調整されている。 パフォーマンスメトリクスは、世界中のレベルで30km未満の中央値エラーを示し、ツイートの内容とメタデータコンテキストのテキスト特徴に基づいてトレーニングされ評価されたモデルに対する米国レベルのデータセットでは15km未満である。 ソースコードとデータはhttps://github.com/k4tel/geo-twitter.gitで入手できます。

This research is aimed to solve the tweet/user geolocation prediction task and provide a flexible methodology for the geotagging of textual big data. The suggested approach implements neural networks for natural language processing (NLP) to estimate the location as coordinate pairs (longitude, latitude) and two-dimensional Gaussian Mixture Models (GMMs). The scope of proposed models has been finetuned on a Twitter dataset using pretrained Bidirectional Encoder Representations from Transformers (BERT) as base models. Performance metrics show a median error of fewer than 30 km on a worldwide-level, and fewer than 15 km on the US-level datasets for the models trained and evaluated on text features of tweets' content and metadata context. Our source code and data are available at https://github.com/K4TEL/geo-twitter.git
翻訳日:2023-05-09 21:06:06 公開日:2023-05-08
# アシラ量子測定による多体系の進化

Evolution of many-body systems under ancilla quantum measurements ( http://arxiv.org/abs/2303.07081v2 )

ライセンス: Link先を確認
Elmer V. H. Doggen, Yuval Gefen, Igor V. Gornyi, Alexander D. Mirlin, Dmitry G. Polyakov(参考訳) 測定誘起相転移は、実験と理論の両方の観点から、激しい電流研究の対象である。 我々は,多体格子系を,射影測定を行う自由度(追加の2つの部位を用いて実装)に結合させることにより,量子測定を実装するという概念を探求する。 一次元鎖内の相互作用するハードコアボソンの動的相関に対する繰り返し測定(「ストロボスコープ」)の効果を解析した。 このプロトコルの重要な特徴は、検出アンシラが各測定工程後に再起動されないことである。 これにより、測定された相関系による累積影響の記憶を維持する。 はじめに,アシラを1つの格子サイトと結合するモデルを考える。 この設定により、アシラ系相互作用によって変調された自由度のラビ振動を通じてシステムに関する情報を得ることができる。 量子軌道の統計は、測定が強くなったときに生じる「量子-ゼノバルブ効果」を示し、低エンタングルメントと高エンタングルメントの間に鋭い分岐がある。 数値シミュレーションを2つのアンシラの場合に適用し,その後,全部位の計測に拡張する。 この現実的な測定装置により、より抽象的なモデルで以前観察されたように、遠絡測定による遷移の証拠が見つかる。 力学は絡み合いエントロピーの広い分布を特徴とする。

Measurement-induced phase transitions are the subject of intense current research, both from an experimental and a theoretical perspective. We explore the concept of implementing quantum measurements by coupling a many-body lattice system to an ancillary degree of freedom (implemented using two additional sites), on which projective measurements are performed. We analyze the effect of repeated (``stroboscopic'') measurements on the dynamical correlations of interacting hard-core bosons in a one-dimensional chain. An important distinctive ingredient of the protocol is the fact that the detector ancillas are not re-initialized after each measurement step. The detector thus maintains memory of the accumulated influence by the measured correlated system. Initially, we consider a model in which the ancilla is coupled to a single lattice site. This setup allows obtaining information about the system through Rabi oscillations in the ancillary degrees of freedom, modulated by the ancilla-system interaction. The statistics of quantum trajectories exhibits a ``quantum-Zeno-valve effect'' that occurs when the measurement becomes strong, with sharp branching between low and high entanglement. We proceed by extending numerical simulations to the case of two ancillas and, then, to measurements on all sites. With this realistic measurement apparatus, we find evidence of a disentangling-entangling measurement-induced transition as was previously observed in more abstract models. The dynamics features a broad distribution of the entanglement entropy.
翻訳日:2023-05-09 21:05:52 公開日:2023-05-08
# EXO-200におけるシンチレーション信号シミュレーションのための生成逆ネットワーク

Generative Adversarial Networks for Scintillation Signal Simulation in EXO-200 ( http://arxiv.org/abs/2303.06311v2 )

ライセンス: Link先を確認
S. Li, I. Ostrovskiy, Z. Li, L. Yang, S. Al Kharusi, G. Anton, I. Badhrees, P.S. Barbeau, D. Beck, V. Belov, T. Bhatta, M. Breidenbach, T. Brunner, G.F. Cao, W.R. Cen, C. Chambers, B. Cleveland, M. Coon, A. Craycraft, T. Daniels, L. Darroch, S.J. Daugherty, J. Davis, S. Delaquis, A. Der Mesrobian-Kabakian, R. DeVoe, J. Dilling, A. Dolgolenko, M.J. Dolinski, J. Echevers, W. Fairbank Jr., D. Fairbank, J. Farine, S. Feyzbakhsh, P. Fierlinger, Y.S. Fu, D. Fudenberg, P. Gautam, R. Gornea, G. Gratta, C. Hall, E.V. Hansen, J. Hoessl, P. Hufschmidt, M. Hughes, A. Iverson, A. Jamil, C. Jessiman, M.J. Jewell, A. Johnson, A. Karelin, L.J. Kaufman, T. Koffas, R. Kr\"ucken, A. Kuchenkov, K.S. Kumar, Y. Lan, A. Larson, B.G. Lenardo, D.S. Leonard, G.S. Li, C. Licciardi, Y.H. Lin, R. MacLellan, T. McElroy, T. Michel, B. Mong, D.C. Moore, K. Murray, O. Njoya, O. Nusair, A. Odian, A. Perna, A. Piepke, A. Pocar, F. Reti\`ere, A.L. Robinson, P.C. Rowson, J. Runge, S. Schmidt, D. Sinclair, K. Skarpaas, A.K. Soma, V. Stekhanov, M. Tarka, S. Thibado, J. Todd, T. Tolba, T.I. Totev, R. Tsang(参考訳) シミュレーションまたは実際のイベントのサンプルでトレーニングされた生成的逆ネットワークは、計算コストを低減した大規模なシミュレーションデータセットを生成する方法として提案されている。 本研究は,EXO-200実験における時間投影チャンバーからの光検出器信号のシミュレーションを行うための新しい手法である。 この手法はWasserstein Generative Adversarial Networkに基づいており、与えられたオブジェクトの集合に対する集団分布の暗黙的な非パラメトリック推定を可能にするディープラーニング技術である。 本ネットワークは生シンチレーション波形を入力として実校正データに基づいて学習する。 従来のシミュレーション手法よりも桁違いに高速に高品質なシミュレーション波形を生成でき、さらに、トレーニングサンプルから一般化し、データの健全な高次特徴を識別できることが判明した。 特に、ネットワークは検出器内のシンチレーション光応答の位置依存性を正しく導き、死んだ光検出器チャネルを正しく認識する。 ネットワーク出力はEXO-200分析フレームワークに統合され、標準的なEXO-200再構成ルーチンがシミュレーション波形を処理して実波形に匹敵するエネルギー分布を生成することを示す。 最後に、残りの相違点と、アプローチをさらに改善する潜在的な方法を強調します。

Generative Adversarial Networks trained on samples of simulated or actual events have been proposed as a way of generating large simulated datasets at a reduced computational cost. In this work, a novel approach to perform the simulation of photodetector signals from the time projection chamber of the EXO-200 experiment is demonstrated. The method is based on a Wasserstein Generative Adversarial Network - a deep learning technique allowing for implicit non-parametric estimation of the population distribution for a given set of objects. Our network is trained on real calibration data using raw scintillation waveforms as input. We find that it is able to produce high-quality simulated waveforms an order of magnitude faster than the traditional simulation approach and, importantly, generalize from the training sample and discern salient high-level features of the data. In particular, the network correctly deduces position dependency of scintillation light response in the detector and correctly recognizes dead photodetector channels. The network output is then integrated into the EXO-200 analysis framework to show that the standard EXO-200 reconstruction routine processes the simulated waveforms to produce energy distributions comparable to that of real waveforms. Finally, the remaining discrepancies and potential ways to improve the approach further are highlighted.
翻訳日:2023-05-09 21:05:05 公開日:2023-05-08
# フェデレーション決定のための融合戦略について

On the Fusion Strategies for Federated Decision Making ( http://arxiv.org/abs/2303.06109v2 )

ライセンス: Link先を確認
Mert Kayaalp, Yunus Inan, Visa Koivunen, Emre Telatar, Ali H. Sayed(参考訳) 我々は,エージェント群が協力して,そのプライベートデータを中央プロセッサ等と共有することなく自然状態の推測を行うフェデレーション意思決定における情報集約の問題を考える。 エージェントが個々の観察をベイズ規則による意見(すなわちソフト判断)に取り入れる非ベイズ的社会学習戦略を分析し、中央処理装置はこれらの意見を算術的または幾何学的平均化によって集約する。 先行研究を基礎として,2つのプーリング戦略が漸近的正規性特徴付け(例えば,誤差確率の近似表現の導出に利用できる)をもたらすことを立証した。 理論的な結果とシミュレーションを検証し,両戦略を比較した。

We consider the problem of information aggregation in federated decision making, where a group of agents collaborate to infer the underlying state of nature without sharing their private data with the central processor or each other. We analyze the non-Bayesian social learning strategy in which agents incorporate their individual observations into their opinions (i.e., soft-decisions) with Bayes rule, and the central processor aggregates these opinions by arithmetic or geometric averaging. Building on our previous work, we establish that both pooling strategies result in asymptotic normality characterization of the system, which, for instance, can be utilized to derive approximate expressions for the error probability. We verify the theoretical findings with simulations and compare both strategies.
翻訳日:2023-05-09 21:04:45 公開日:2023-05-08
# 進化的多目的アルゴリズムにおける自己適応変異に向けて

Towards Self-adaptive Mutation in Evolutionary Multi-Objective Algorithms ( http://arxiv.org/abs/2303.04611v2 )

ライセンス: Link先を確認
Furong Ye and Frank Neumann and Jacob de Nobel and Aneta Neumann and Thomas B\"ack(参考訳) パラメータ制御は進化アルゴリズムの収束過程を加速させることに成功した。 経験的および理論的研究は、単目的最適化のためのアルゴリズムの振舞いに光を当てているが、自己適応が多目的進化アルゴリズムにどのように影響するかはほとんど分かっていない。 本研究は,(1)一MinMax,LOTZ,COCZ,(2)自己適応変異をもつGSEMOの新しいバージョンなど,古典的問題に対するGSEMO(Global Simple Evolutionary Multi-objective Algorithm)変異の広範な実験的解析に貢献する。 GSEMOにおける自己適応を実現するため、単目的最適化から3つの自己適応突然変異手法を探索し、ハイパーボリュームや逆世代距離といった様々なパフォーマンス指標を用いて適応を導く。 実験により,単一目的の最適化とハイパーボリュームに基づく突然変異率の適応がgsemoの収束を早めることを示した。 さらに,単一目的に対する最適化を考慮し,各解の突然変異率を個別に調整する自己適応突然変異gsemoを提案する。 以上の結果から,提案手法はGSEMOよりも静的突然変異率が高いことが示された。 この研究はMOEAの総合的なベンチマーク研究を提供し、既存の理論的ランタイム分析を補完する。 提案するアルゴリズムは,moeaの設計に関する興味深い課題を解決する。

Parameter control has succeeded in accelerating the convergence process of evolutionary algorithms. While empirical and theoretical studies have shed light on the behavior of algorithms for single-objective optimization, little is known about how self-adaptation influences multi-objective evolutionary algorithms. In this work, we contribute (1) extensive experimental analysis of the Global Simple Evolutionary Multi-objective Algorithm (GSEMO) variants on classic problems, such as OneMinMax, LOTZ, COCZ, and (2) a novel version of GSEMO with self-adaptive mutation. To enable self-adaptation in GSEMO, we explore three self-adaptive mutation techniques from single-objective optimization and use various performance metrics, such as hypervolume and inverted generational distance, to guide the adaptation. Our experiments show that adapting the mutation rate based on single-objective optimization and hypervolume can speed up the convergence of GSEMO. Moreover, we propose a GSEMO with self-adaptive mutation, which considers optimizing for single objectives and adjusts the mutation rate for each solution individually. Our results demonstrate that the proposed method outperforms the GSEMO with static mutation rates across all the tested problems. This work provides a comprehensive benchmarking study for MOEAs and complements existing theoretical runtime analysis. Our proposed algorithm addresses interesting issues for designing MOEAs for future practical applications.
翻訳日:2023-05-09 21:04:14 公開日:2023-05-08
# SemEval-2023 Task 10: 説明可能なオンライン性差別の検出

SemEval-2023 Task 10: Explainable Detection of Online Sexism ( http://arxiv.org/abs/2303.04222v2 )

ライセンス: Link先を確認
Hannah Rose Kirk, Wenjie Yin, Bertie Vidgen, Paul R\"ottger(参考訳) オンライン性差別は広く、有害な現象である。 自動ツールは、性差別を大規模に検出するのに役立つ。 しかし、バイナリー検出は性差別的コンテンツの多様性を無視しており、なぜ性差別的なのかを明確に説明できない。 この問題に対処するために、オンライン性差別の説明可能な検出(EDOS)についてSemEval Task 10を紹介する。 主な貢献は3つあります 一 説明可能性を支援するために性差別の粒状ベクトルを含む性差別コンテンツの新規階層分類法 二 細粒度ラベル付きソーシャルメディアコメント二万件の新しいデータセット及びモデル適応のためのより大きな未ラベルデータセット 三 ベースラインモデル及び我々のタスクへの参加者の提出方法、結果及びエラーの分析。

Online sexism is a widespread and harmful phenomenon. Automated tools can assist the detection of sexism at scale. Binary detection, however, disregards the diversity of sexist content, and fails to provide clear explanations for why something is sexist. To address this issue, we introduce SemEval Task 10 on the Explainable Detection of Online Sexism (EDOS). We make three main contributions: i) a novel hierarchical taxonomy of sexist content, which includes granular vectors of sexism to aid explainability; ii) a new dataset of 20,000 social media comments with fine-grained labels, along with larger unlabelled datasets for model adaptation; and iii) baseline models as well as an analysis of the methods, results and errors for participant submissions to our task.
翻訳日:2023-05-09 21:03:49 公開日:2023-05-08
# 量子および半量子通信プロトコルの強化

Boosted quantum and semi-quantum communication protocols ( http://arxiv.org/abs/2303.13958v2 )

ライセンス: Link先を確認
Rajni Bala, Sooryansh Asthana, V. Ravishankar(参考訳) 準備・測定方式に基づくセキュアな量子通信プロトコルは、相互に偏りのないベースを用いる。 これらのプロトコルでは、異なる参加者が異なるベースで測定する多くの実行が、単に無駄になる。 本稿では,鍵生成規則の適切な設計により,そのような実行回数を減らすことができることを示す。 これにより、キー生成速度(KGR)が大幅に増加する。 本稿では,高次元量子システムで符号化された有効な量子ビットを用いて,量子および半量子鍵分散プロトコルを提案する。 いずれも資源としての絡み合った状態の準備を要求せず、比較的大量の情報を転送することができる。 そのため、我々の提案は実験的に追求する価値があると信じている。

Secure quantum communication protocols based on a prepare-and-measure scheme employ mutually unbiased bases. In these protocols, many runs, in which different participants measure in different bases, simply go wasted. In this paper, we show that it is possible to reduce the number of such runs by a suitable design of the key generation rule. This results in a significant increase in the key generation rate (KGR). We illustrate this advantage by proposing quantum and semi-quantum key distribution protocols by employing effective qubits encoded in higher dimensional quantum systems. None of them demands the preparation of entangled states as resources and a relatively large amount of information can be transferred. For this reason, we believe that our proposals are worth pursuing experimentally.
翻訳日:2023-05-09 20:56:55 公開日:2023-05-08
# 等角基底ベクトル

Equiangular Basis Vectors ( http://arxiv.org/abs/2303.11637v2 )

ライセンス: Link先を確認
Yang Shen and Xuhao Sun and Xiu-Shen Wei(参考訳) 分類タスクのための等角基底ベクトル(EBV)を提案する。 ディープニューラルネットワークでは、モデルは通常、異なる分類タスクを処理するためにsoftmaxを備えたkウェイ完全接続層で終わる。 これらの手法の学習目的は、学習した特徴表現をサンプルのラベル空間にマッピングするものとして要約することができる。 メトリック学習のアプローチでは、主な目的は、トレーニングデータポイントを元の空間から、類似点が近く、類似点がより離れている新しい空間にマップする変換関数を学ぶことである。 従来の手法と異なり、ebvは正規化ベクトル埋め込みを「事前定義された分類器」として生成し、互いに等しい状態であるだけでなく、可能な限り直交することも要求します。 学習中のカテゴリebv間の入力の埋め込みの球面距離を最小化することにより、推論中にカテゴリebvを最小距離で識別することで予測を得ることができる。 ImageNet-1Kデータセットおよび他のダウンストリームタスクに関する様々な実験により、我々の手法は一般的な完全連結型分類器よりも優れており、古典的な計量学習法に比べて大きな計算量を導入しないことが示された。 EBVは2022年のDIGIX Global AI Challengeで優勝し、私たちのコードはhttps://github.com/NJUST-VIPGroup/Equiangular-Basis-Vectorsで公開されている。

We propose Equiangular Basis Vectors (EBVs) for classification tasks. In deep neural networks, models usually end with a k-way fully connected layer with softmax to handle different classification tasks. The learning objective of these methods can be summarized as mapping the learned feature representations to the samples' label space. While in metric learning approaches, the main objective is to learn a transformation function that maps training data points from the original space to a new space where similar points are closer while dissimilar points become farther apart. Different from previous methods, our EBVs generate normalized vector embeddings as "predefined classifiers" which are required to not only be with the equal status between each other, but also be as orthogonal as possible. By minimizing the spherical distance of the embedding of an input between its categorical EBV in training, the predictions can be obtained by identifying the categorical EBV with the smallest distance during inference. Various experiments on the ImageNet-1K dataset and other downstream tasks demonstrate that our method outperforms the general fully connected classifier while it does not introduce huge additional computation compared with classical metric learning methods. Our EBVs won the first place in the 2022 DIGIX Global AI Challenge, and our code is open-source and available at https://github.com/NJUST-VIPGroup/Equiangular-Basis-Vectors.
翻訳日:2023-05-09 20:56:29 公開日:2023-05-08
# 量子メロジ、臨界および古典的ブラキストロン問題

Quantum metrology, criticality, and classical brachistochrone problem ( http://arxiv.org/abs/2303.10655v2 )

ライセンス: Link先を確認
Rui Zhang, Zhucheng Zhang, Lei Shao, Yuyu Zhang, and Xiaoguang Wang(参考訳) 量子力学と臨界の間には常に曖昧な関係がある。 Su(1,1) リー代数が支配するハミルトニアンとのユニタリパラメトリゼーション過程において、この関係を明らかにする。 このタイプのハミルトニアンに基づいて、位相遷移点に近い量子ラビモデルにおける結合強度の量子Cram\'{e}r-Rao境界について検討する。 ユニタリパラメトリゼーション過程におけるジェネレータ $\mathcal{H}$ は、$x-y$平面上の拡張ブラキストロン問題と$z$方向の時間の線形関数として扱うことができることを示す。 さらに、量子フィッシャー情報の値は、系が相転移点に近接しているときの進化時間の6番目のパワーに比例することがわかった。

There has always been an ambiguous connection between quantum metrology and criticality. We clarify this relationship in a unitary parametrization process with a Hamiltonian governed by su(1,1) Lie algebra. Based on this type of Hamiltonian, we investigate the quantum Cram\'{e}r-Rao bound of the coupling strength in the quantum Rabi model close to the phase transition point. We show that the generator $\mathcal{H}$ in the unitary parametrization process can be treated as an extended brachistochrone problem on the $x-y$ plane and a linear function of time in the $z$ direction. In addition, we find that the value of quantum Fisher information is proportional to the sixth power of the evolution time when the system is close to the phase transition point.
翻訳日:2023-05-09 20:56:00 公開日:2023-05-08
# SmartBERT: BERT推論の高速化のための動的初期出力メカニズムの促進

SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for Accelerating BERT Inference ( http://arxiv.org/abs/2303.09266v2 )

ライセンス: Link先を確認
Boren Hu, Yun Zhu, Jiacheng Li, Siliang Tang(参考訳) 動的早期終了はbertのような事前学習された言語モデルの推論速度を改善することが証明されている。 しかし、全てのサンプルは、早期に出る前に連続する全ての層を通り、より複雑なサンプルは、通常より多くの層を通り抜けなければならない。 本稿では,スイッチングゲートと出口演算子をBERTの各層に追加する,新しい動的早期退避と,BERT推論の層スキップを組み合わせたSmartBERTを提案する。 SmartBERTはいくつかのレイヤを適応的にスキップし、終了するかどうかを適応的に選択できる。 さらに,クロスレイヤのコントラスト学習を提案し,それをトレーニングフェーズに組み込むことで,早期退避に有用な中間層と分類器を増強する。 トレーニングフェーズと推論フェーズ間のスキップゲートの一貫性を維持するために,トレーニングフェーズにおけるハードウェイト機構を提案する。 GLUEベンチマークの8つの分類データセットについて実験を行った。 実験の結果, SmartBERT は BERT と比較して最小限の精度で2~3倍の計算量削減を実現し, 提案手法は効率と精度の両方で従来の手法より優れていた。 さらに、RTEやWNLIのような複雑なデータセットでは、エントロピーに基づく早期退避はほとんど機能せず、スキップ機構は計算の削減に不可欠であることを示す。

Dynamic early exiting has been proven to improve the inference speed of the pre-trained language model like BERT. However, all samples must go through all consecutive layers before early exiting and more complex samples usually go through more layers, which still exists redundant computation. In this paper, we propose a novel dynamic early exiting combined with layer skipping for BERT inference named SmartBERT, which adds a skipping gate and an exiting operator into each layer of BERT. SmartBERT can adaptively skip some layers and adaptively choose whether to exit. Besides, we propose cross-layer contrastive learning and combine it into our training phases to boost the intermediate layers and classifiers which would be beneficial for early exiting. To keep the consistent usage of skipping gates between training and inference phases, we propose a hard weight mechanism during training phase. We conduct experiments on eight classification datasets of the GLUE benchmark. Experimental results show that SmartBERT achieves 2-3x computation reduction with minimal accuracy drops compared with BERT and our method outperforms previous methods in both efficiency and accuracy. Moreover, in some complex datasets like RTE and WNLI, we prove that the early exiting based on entropy hardly works, and the skipping mechanism is essential for reducing computation.
翻訳日:2023-05-09 20:55:21 公開日:2023-05-08
# selfcheckgpt: 生成大言語モデルのためのゼロリソースブラックボックス幻覚検出

SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models ( http://arxiv.org/abs/2303.08896v2 )

ライセンス: Link先を確認
Potsawee Manakul, Adian Liusie, Mark J. F. Gales(参考訳) GPT-3のようなジェネレーティブ・大型言語モデル(LLM)は、様々なユーザー・プロンプトに対して非常に流動的な応答を生成することができる。 しかし、LSMは事実を幻覚させ、その成果に対する信頼を損なう可能性のある非事実的声明を作成することが知られている。 既存のファクトチェックアプローチでは、出力確率分布(ChatGPTのようなシステムでは利用できない)にアクセスするか、独立した複雑なモジュールを介してインターフェースされる外部データベースを必要とする。 本稿では,外部データベースを使わずに,ブラックボックスモデルのファクトチェックを行うシンプルなサンプリングベースアプローチである"selfcheckgpt"を提案する。 SelfCheckGPT は LLM が与えられた概念の知識を持つならば、サンプル応答は類似し、一貫した事実を含む可能性が高いという単純な考え方を利用する。 しかし、幻覚的な事実の場合、確率的にサンプリングされた反応は互いに発散し、矛盾しがちである。 本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成し,生成したパスの事実を手動で注釈付けする手法を提案する。 私たちはSelfCheckGPTが可能であることを実証します。 一 非事実文及び事実文の検出 ii) 事実性の観点からの序列 提案手法をいくつかのベースラインと比較し,文の幻覚検出において,grey-box法に匹敵する以上のauc-prスコアを有することを示す。

Generative Large Language Models (LLMs) such as GPT-3 are capable of generating highly fluent responses to a wide variety of user prompts. However, LLMs are known to hallucinate facts and make non-factual statements which can undermine trust in their output. Existing fact-checking approaches either require access to the output probability distribution (which may not be available for systems such as ChatGPT) or external databases that are interfaced via separate, often complex, modules. In this work, we propose "SelfCheckGPT", a simple sampling-based approach that can be used to fact-check black-box models in a zero-resource fashion, i.e. without an external database. SelfCheckGPT leverages the simple idea that if a LLM has knowledge of a given concept, sampled responses are likely to be similar and contain consistent facts. However, for hallucinated facts, stochastically sampled responses are likely to diverge and contradict one another. We investigate this approach by using GPT-3 to generate passages about individuals from the WikiBio dataset, and manually annotate the factuality of the generated passages. We demonstrate that SelfCheckGPT can: i) detect non-factual and factual sentences; and ii) rank passages in terms of factuality. We compare our approach to several baselines and show that in sentence hallucination detection, our approach has AUC-PR scores comparable to or better than grey-box methods, while SelfCheckGPT is best at passage factuality assessment.
翻訳日:2023-05-09 20:54:58 公開日:2023-05-08
# ビデオにおける人文推定のための相互情報に基づく時間差分学習

Mutual Information-Based Temporal Difference Learning for Human Pose Estimation in Video ( http://arxiv.org/abs/2303.08475v2 )

ライセンス: Link先を確認
Runyang Feng, Yixing Gao, Xueqing Ma, Tze Ho Elden Tse, Hyung Jin Chang(参考訳) 多フレーム人間のポーズ推定には時間モデリングが不可欠である。 既存のほとんどの手法では、光学的流れや変形可能な畳み込みを用いてフルスペクトル運動場を予測し、近くの人や背景など多くの無関係な手がかりを生じる可能性がある。 特に複雑な時空間相互作用において、意味のある動きの前兆を発掘するためのさらなる努力がなければ、その結果は最適以下である。 一方,時間差は,ポーズ推定に有用であるが十分に活用されていない代表的動作情報を符号化する能力を有する。 本稿では,フレーム間の時間的差異を利用して動的文脈をモデル化し,相互情報を客観的に係合し,有用な動き情報の絡み合いを容易にする,新しい多フレーム人格推定フレームワークを提案する。 具体的には,多段階特徴差分列に基づくインクリメンタルなカスケード学習を行う多段階時間差分エンコーダを設計し,情報的動作表現を導出する。 さらに,実動特徴の有益・無音成分を明示的に定義し,それらの相互情報を最小化することにより,識別的タスク関連動作信号を把握できる相互情報の観点から表現不等角化モジュールを提案する。 これにより、ベンチマークデータセットHiEve上のCrowd Pose Estimation in Complex Events Challengeの1位にランクインし、3つのベンチマークであるPoseTrack2017、PoseTrack2018、PoseTrack21で最先端のパフォーマンスを達成することができます。

Temporal modeling is crucial for multi-frame human pose estimation. Most existing methods directly employ optical flow or deformable convolution to predict full-spectrum motion fields, which might incur numerous irrelevant cues, such as a nearby person or background. Without further efforts to excavate meaningful motion priors, their results are suboptimal, especially in complicated spatiotemporal interactions. On the other hand, the temporal difference has the ability to encode representative motion information which can potentially be valuable for pose estimation but has not been fully exploited. In this paper, we present a novel multi-frame human pose estimation framework, which employs temporal differences across frames to model dynamic contexts and engages mutual information objectively to facilitate useful motion information disentanglement. To be specific, we design a multi-stage Temporal Difference Encoder that performs incremental cascaded learning conditioned on multi-stage feature difference sequences to derive informative motion representation. We further propose a Representation Disentanglement module from the mutual information perspective, which can grasp discriminative task-relevant motion signals by explicitly defining useful and noisy constituents of the raw motion features and minimizing their mutual information. These place us to rank No.1 in the Crowd Pose Estimation in Complex Events Challenge on benchmark dataset HiEve, and achieve state-of-the-art performance on three benchmarks PoseTrack2017, PoseTrack2018, and PoseTrack21.
翻訳日:2023-05-09 20:54:29 公開日:2023-05-08
# LLM-Adapters:大規模言語モデルのパラメータ効率の良い微調整のためのアダプタファミリー

LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2304.01933v2 )

ライセンス: Link先を確認
Zhiqiang Hu, Yihuai Lan, Lei Wang, Wanyu Xu, Ee-Peng Lim, Roy Ka-Wei Lee, Lidong Bing, Xing Xu, Soujanya Poria(参考訳) GPT-3やChatGPTのような大規模言語モデル(LLM)の成功は、タスク固有のデータ(例えばChatDoctor)や命令データ(例えばAlpaca)を使って、細調整されたオープンアクセス LLM によって作成される多くのコスト効率の良い代替品の開発につながった。 様々な微調整手法の中で、アダプタベースのパラメータ効率細調整(PEFT)は間違いなく最も魅力的なトピックの1つである。 LLMのPEFT手法のさらなる研究を可能にするために,様々なアダプタをLCMに統合し,異なるタスクに対してこれらのアダプタベースのPEFT方式を実行できるLLM-Adaptersを提案する。 このフレームワークには、LLaMA、BLOOM、OPT、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、LoRAといった広く使われているアダプタが含まれている。 このフレームワークは研究に親しみやすく、効率的で、モジュール化され、拡張可能であり、新しいアダプタの統合と、より大規模なLCMによる評価を可能にする。 さらに,LLMs-Adaptersにおけるアダプタの有効性を評価するために,6つの数学推論データセットを用いて実験を行った。 以上の結果から,小型のLLM (7B) におけるアダプタベースPEFTの使用は,訓練可能なパラメータがほとんどなく,単純な算数推論データセット上でのゼロショット推論において,強力なLLM (175B) よりも優れた性能が得られることが示された。 全体として、下流タスクで大規模LLMを微調整するための有望なフレームワークを提供する。 提案するLLM-Adaptersは、アダプタベースのPEFT研究を進め、研究パイプラインの展開を促進し、現実のシステムに実用的な応用を可能にする。

The success of large language models (LLMs), like GPT-3 and ChatGPT, has led to the development of numerous cost-effective and accessible alternatives that are created by fine-tuning open-access LLMs with task-specific data (e.g., ChatDoctor) or instruction data (e.g., Alpaca). Among the various fine-tuning methods, adapter-based parameter-efficient fine-tuning (PEFT) is undoubtedly one of the most attractive topics, as it only requires fine-tuning a few external parameters instead of the entire LLMs while achieving comparable or even better performance. To enable further research on PEFT methods of LLMs, this paper presents LLM-Adapters, an easy-to-use framework that integrates various adapters into LLMs and can execute these adapter-based PEFT methods of LLMs for different tasks. The framework includes state-of-the-art open-access LLMs such as LLaMA, BLOOM, OPT, and GPT-J, as well as widely used adapters such as Series adapter, Parallel adapter, and LoRA. The framework is designed to be research-friendly, efficient, modular, and extendable, allowing the integration of new adapters and the evaluation of them with new and larger-scale LLMs. Furthermore, to evaluate the effectiveness of adapters in LLMs-Adapters, we conduct experiments on six math reasoning datasets. The results demonstrate that using adapter-based PEFT in smaller-scale LLMs (7B) with few extra trainable parameters yields comparable, and in some cases superior, performance to that of powerful LLMs (175B) in zero-shot inference on simple math reasoning datasets. Overall, we provide a promising framework for fine-tuning large LLMs on downstream tasks. We believe the proposed LLMs-Adapters will advance adapter-based PEFT research, facilitate the deployment of research pipelines, and enable practical applications to real-world systems.
翻訳日:2023-05-09 20:47:42 公開日:2023-05-08
# 量子機械学習による弱雑音量子状態の複雑性解析

Complexity analysis of weakly noisy quantum states via quantum machine learning ( http://arxiv.org/abs/2303.17813v3 )

ライセンス: Link先を確認
Yusen Wu, Bujiao Wu, Yanqi Song, Xiao Yuan, Jingbo B. Wang(参考訳) フォールトトレラントな動作が可能な量子コンピュータは、古典的な計算モデルよりも証明可能な利点をもたらすことが期待されている。 しかし、ノイズの多い中間スケールの量子時代に量子的優位性が存在するかどうかという問題は根本的で難しい問題である。 この挑戦の根源は、ノイズの多い量子状態のパワーを探索し定量化することの難しさにある。 本研究では,ノイズ状態を生成するのに必要な最短の量子回路のサイズと定義した弱雑音状態の複雑性に着目した。 この複雑さを解析するために、まず回路深度、ノイズモデル、純度と一般的な関係を確立する。 この必要条件に基づいて,構造化量子ニューラルネットワークの固有接続特性を利用した量子機械学習(QML)アルゴリズムを提案する。 提案したQMLアルゴリズムは,観測結果から弱雑音状態の複雑性を効率的に予測し,ノイズ量子計算のパワーを特徴付けるためのパラダイムシフトを示す。

Quantum computers capable of fault-tolerant operation are expected to provide provable advantages over classical computational models. However, the question of whether quantum advantages exist in the noisy intermediate-scale quantum era remains a fundamental and challenging problem. The root of this challenge lies in the difficulty of exploring and quantifying the power of noisy quantum states. In this work, we focus on the complexity of weakly noisy states, which we define as the size of the shortest quantum circuit required to prepare the noisy state. To analyze this complexity, we first establish a general relationship between circuit depth, noise model, and purity. Based on this necessary condition, we propose a quantum machine learning (QML) algorithm that exploits the intrinsic-connection property of structured quantum neural networks. The proposed QML algorithm enables efficiently predicting the complexity of weakly noisy states from measurement results, representing a paradigm shift in our ability to characterize the power of noisy quantum computation.
翻訳日:2023-05-09 20:46:42 公開日:2023-05-08
# SVD-DIP : DIPによるCT再建におけるオーバーフィッティングの克服

SVD-DIP: Overcoming the Overfitting Problem in DIP-based CT Reconstruction ( http://arxiv.org/abs/2303.15748v2 )

ライセンス: Link先を確認
Marco Nittscher, Michael Lameter, Riccardo Barbano, Johannes Leuschner, Bangti Jin, Peter Maass(参考訳) deep image prior(dip)は、画像再構成のためのよく確立された教師なしのディープラーニング手法である。 ディップは、早期停止でなければノイズに過度に適合し、あるいは正規化された目的によって最適化される。 我々は、学習を特異値の適応に制限する新しい戦略を採用することにより、事前訓練されたDIPの規則化された微調整を構築する。 提案するsvd-dipは,事前学習パラメータが特異値分解によって分解されるアドホック畳み込み層を用いる。 このときの DIP の最適化は、左特異ベクトルと右特異ベクトルを固定しながら、特異値の微調整のみからなる。 ロータス根の実測値$\mu$ctデータと2つの医療データセット(lodopabとmayo)について,提案手法を徹底的に検証した。 オーバーフィットを克服することにより,ディップ最適化の安定性が大幅に向上した。

The deep image prior (DIP) is a well-established unsupervised deep learning method for image reconstruction; yet it is far from being flawless. The DIP overfits to noise if not early stopped, or optimized via a regularized objective. We build on the regularized fine-tuning of a pretrained DIP, by adopting a novel strategy that restricts the learning to the adaptation of singular values. The proposed SVD-DIP uses ad hoc convolutional layers whose pretrained parameters are decomposed via the singular value decomposition. Optimizing the DIP then solely consists in the fine-tuning of the singular values, while keeping the left and right singular vectors fixed. We thoroughly validate the proposed method on real-measured $\mu$CT data of a lotus root as well as two medical datasets (LoDoPaB and Mayo). We report significantly improved stability of the DIP optimization, by overcoming the overfitting to noise.
翻訳日:2023-05-09 20:45:59 公開日:2023-05-08
# 幾何学的変換感性アーキテクチャを用いた非対象中心画像からの自己教師付き学習

Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture ( http://arxiv.org/abs/2304.08014v3 )

ライセンス: Link先を確認
Taeho Kim, Jong-Min Lee(参考訳) ほとんどの不変性に基づく自己教師付き手法は、幾何学的変換から不変表現を事前学習、学習するために単一のオブジェクト中心の画像(例えばimagenetイメージ)に依存する。 しかし、画像がオブジェクト中心でない場合、画像のセマンティクスは切り欠きによって著しく変化する可能性がある。 さらに、モデルが幾何学的変換に敏感になるにつれて、位置情報を捉えるのに苦労する可能性がある。 そこで我々は,4次元回転,ランダム作物,マルチクロップに着目し,幾何学的変換に敏感な特徴を学習するために設計された幾何学的変換センシティブアーキテクチャを提案する。 本手法は,教師の特徴マップのプーリングと回転,回転予測を通じて,これらの変換に敏感な目標を用いて,学生に感性を持たせることを促す。 さらに、マルチクロップに敏感にトレーニングすることで、ローカルとグローバルの対応が促進されるため、モデルは長期的な依存関係をキャプチャすることができる。 画像のビュー間の対応を強制するのではなく,類似した特徴のパッチ間の対応を促進するためにパッチ対応損失を利用する。 このアプローチにより、長期的な依存関係をより適切な方法で捉えることができます。 提案手法は,非対象中心の画像を事前学習データとして用いる場合,幾何学的変換非感性表現を学習する他の方法と比較して,性能向上を示す。 画像分類、意味セグメンテーション、検出、インスタンスセグメンテーションを含むタスクのdinoベースラインを4.9$top-1 acc$、3.3$miou$、3.4$ap^b$、2.7$ap^m$で越えた。 コードおよび事前訓練されたモデルは、https://github.com/bok3948/GTSAで公開されている。

Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning invariant representations from geometric transformations. However, when images are not object-centric, the semantics of the image can be significantly altered due to cropping. Furthermore, as the model becomes insensitive to geometric transformations, it may struggle to capture location information. For this reason, we propose a Geometric Transformation Sensitive Architecture designed to learn features that are sensitive to geometric transformations, specifically focusing on four-fold rotation, random crop, and multi-crop. Our method encourages the student to be sensitive by using targets that are sensitive to those transforms via pooling and rotating of the teacher feature map and predicting rotation. Additionally, as training insensitively to multi-crop encourages local-to-global correspondence, the model can capture long-term dependencies. We use patch correspondence loss to encourage correspondence between patches with similar features, instead of enforcing correspondence between views of the image. This approach allows us to capture long-term dependencies in a more appropriate way. Our approach demonstrates improved performance when using non-object-centric images as pretraining data compared to other methods that learn geometric transformation-insensitive representations. We surpass the DINO baseline in tasks including image classification, semantic segmentation, detection, and instance segmentation with improvements of 4.9 $Top-1 Acc$, 3.3 $mIoU$, 3.4 $AP^b$, and 2.7 $AP^m$. Code and pretrained models are publicly available at: https://github.com/bok3948/GTSA
翻訳日:2023-05-09 20:39:04 公開日:2023-05-08
# BRECデータセットを用いたGNN表現性向上に向けて

Towards Better Evaluation of GNN Expressiveness with BREC Dataset ( http://arxiv.org/abs/2304.07702v2 )

ライセンス: Link先を確認
Yanbo Wang, Muhan Zhang(参考訳) グラフニューラルネットワーク(GNN)の理論表現性の研究は急速に進展し,その表現性を高めるために多くの手法が提案されている。 しかしながら、ほとんどのメソッドは、$k$-次元Weisfeiler-Lehman(k$-WL)テスト階層に厳密に従う数を除いて、一様表現性尺度を持たない。 それらの理論解析は、しばしば非同型グラフの特定の族を区別することに限定され、その表現性を定量的に比較することが困難となる。 理論的解析とは対照的に、表現性を測定する別の方法は、1-WL非識別グラフを含む特定のデータセット上でのモデル性能を評価することである。 しかし、この目的のために特別に設計された以前のデータセットは、難易度(1-WLを超えるモデルは100%近い精度)、粒度(モデルは100%正しいかランダムに近い確率で推測される)、スケール(各データセットで本質的に異なるグラフのみ)の問題に直面している。 これらの制約に対処するため、我々は4つの主要なカテゴリ(Basic, Regular, Extension, CFI)から慎重に選択された400組の非同型グラフを含む新しい表現性データセット、$\textbf{BREC}$を提案する。 これらのグラフはより難易度が高く(最大4-WLは区別できない)、より細かい粒度(1-WLと3-WLのモデルを比較することができる)、より大きなスケール(400対)を持つ。 さらに、BRECデータセット上で、高い-1-WL表現率を持つ16のモデルを合成試験した。 我々の実験は、これらの1-WL GNNモデルを超える最先端の表現性を初めて徹底的に比較した。 我々は、このデータセットが将来のGNNの表現性をテストするためのベンチマークになることを期待している。 データセットと評価コードは、https://github.com/GraphPKU/BREC.comで公開されています。

Research on the theoretical expressiveness of Graph Neural Networks (GNNs) has developed rapidly, and many methods have been proposed to enhance the expressiveness. However, most methods do not have a uniform expressiveness measure except for a few that strictly follow the $k$-dimensional Weisfeiler-Lehman ($k$-WL) test hierarchy. Their theoretical analyses are often limited to distinguishing certain families of non-isomorphic graphs, leading to difficulties in quantitatively comparing their expressiveness. In contrast to theoretical analysis, another way to measure expressiveness is by evaluating model performance on certain datasets containing 1-WL-indistinguishable graphs. Previous datasets specifically designed for this purpose, however, face problems with difficulty (any model surpassing 1-WL has nearly 100% accuracy), granularity (models tend to be either 100% correct or near random guess), and scale (only a few essentially different graphs in each dataset). To address these limitations, we propose a new expressiveness dataset, $\textbf{BREC}$, which includes 400 pairs of non-isomorphic graphs carefully selected from four primary categories (Basic, Regular, Extension, and CFI). These graphs have higher difficulty (up to 4-WL-indistinguishable), finer granularity (able to compare models between 1-WL and 3-WL), and a larger scale (400 pairs). Further, we synthetically test 16 models with higher-than-1-WL expressiveness on our BREC dataset. Our experiment gives the first thorough comparison of the expressiveness of those state-of-the-art beyond-1-WL GNN models. We expect this dataset to serve as a benchmark for testing the expressiveness of future GNNs. Our dataset and evaluation code are released at: https://github.com/GraphPKU/BREC.
翻訳日:2023-05-09 20:38:35 公開日:2023-05-08
# マルチデータ因果探索を用いた機械学習アプリケーションのためのロバスト特徴の選択

Selecting Robust Features for Machine Learning Applications using Multidata Causal Discovery ( http://arxiv.org/abs/2304.05294v4 )

ライセンス: Link先を確認
Saranya Ganesh S., Tom Beucler, Frederick Iat-Hin Tam, Milton S. Gomez, Jakob Runge, and Andreas Gerhardus(参考訳) 信頼性と解釈可能な機械学習(ML)モデルを作成するには、ロバストな機能選択が不可欠だ。 ドメイン知識が限られ、基礎となる相互作用が不明な場合に統計的予測モデルを設計する場合、最適な特徴セットを選択することはしばしば困難である。 この問題を軽減するために,時系列データセットのアンサンブルを同時に処理し,1組の因果ドライバを生成するマルチデータ(m)因果特徴選択手法を導入する。 このアプローチでは、Tigramite Pythonパッケージに実装されているPC1またはPCMCIの因果発見アルゴリズムを使用する。 これらのアルゴリズムは条件付き独立テストを利用して因果グラフの一部を推論する。 我々の因果的特徴選択手法は、ターゲットを予測するMLモデル(多重線形回帰、ランダムフォレスト)への入力として、残りの因果的特徴を渡す前に因果的特徴リンクをフィルタリングする。 我々は,西太平洋熱帯サイクロン (TC) の統計的強度予測に我々の枠組みを適用し,ドライバの正確な選択と次元削減(時間ラグ,垂直レベル,面積拡大)が困難な場合が多い。 条件付き独立テストでより厳密な重要性のしきい値を使用することは、スプリアス因果関係を排除するのに役立つ。 機能の少ないM-PC1は、M-PCMCI、非因果ML、その他の特徴選択方法(ラベル付き相関、ランダム)よりも優れており、eXplainable Artificial Intelligenceに基づく機能選択よりも若干優れています。 因果的特徴の選択から得られた最適な因果的ドライバは、基礎的関係の理解を深め、tc強化の新たな潜在的なドライバを提案するのに役立つ。

Robust feature selection is vital for creating reliable and interpretable Machine Learning (ML) models. When designing statistical prediction models in cases where domain knowledge is limited and underlying interactions are unknown, choosing the optimal set of features is often difficult. To mitigate this issue, we introduce a Multidata (M) causal feature selection approach that simultaneously processes an ensemble of time series datasets and produces a single set of causal drivers. This approach uses the causal discovery algorithms PC1 or PCMCI that are implemented in the Tigramite Python package. These algorithms utilize conditional independence tests to infer parts of the causal graph. Our causal feature selection approach filters out causally-spurious links before passing the remaining causal features as inputs to ML models (Multiple linear regression, Random Forest) that predict the targets. We apply our framework to the statistical intensity prediction of Western Pacific Tropical Cyclones (TC), for which it is often difficult to accurately choose drivers and their dimensionality reduction (time lags, vertical levels, and area-averaging). Using more stringent significance thresholds in the conditional independence tests helps eliminate spurious causal relationships, thus helping the ML model generalize better to unseen TC cases. M-PC1 with a reduced number of features outperforms M-PCMCI, non-causal ML, and other feature selection methods (lagged correlation, random), even slightly outperforming feature selection based on eXplainable Artificial Intelligence. The optimal causal drivers obtained from our causal feature selection help improve our understanding of underlying relationships and suggest new potential drivers of TC intensification.
翻訳日:2023-05-09 20:37:34 公開日:2023-05-08
# 前進と後退の2つのステップ - ディープラーニングによる時系列予測再考

Two Steps Forward and One Behind: Rethinking Time Series Forecasting with Deep Learning ( http://arxiv.org/abs/2304.04553v3 )

ライセンス: Link先を確認
Riccardo Ughi, Eugenio Lomurno and Matteo Matteucci(参考訳) Transformerは、人工知能ニューラルネットワークの世界に革命をもたらした、高度に成功したディープラーニングモデルである。 このモデルは注意機構に基づいており、入力データに存在する様々なパターン間の複雑な意味関係を捉えることができる。 これらの特性から, 連続数列の領域への自然適応性を仮定して, 近年, 時系列予測問題に応用されている。 文学で評価された結果にもかかわらず、このアプローチの堅牢性と有効性に疑問を呈する著作もある。 本稿では, 時系列予測の領域に適用した変圧器モデルの有効性をさらに検証し, その限界を実証し, 性能が向上し, 複雑化が著しく少ない代替モデルを提案する。 特に,トランスフォーマーに基づく予測モデルの簡略化が,常に改善につながることを実証的に示し,その成果を実証する。 また,長時間連続予測におけるアート全体の状態と競合するアテンション機構のない浅いモデルを提案し,超長窓上での時系列を正確に予測する能力を示す。 方法論学的観点からは,提案モデルの有効性を検証するために,単純なベースラインを常に使用する必要があることを示し,最後に,最近の研究経路と,必要とされない傾向や誇大広告に追従する機会を振り返って,論文をまとめる。

The Transformer is a highly successful deep learning model that has revolutionised the world of artificial neural networks, first in natural language processing and later in computer vision. This model is based on the attention mechanism and is able to capture complex semantic relationships between a variety of patterns present in the input data. Precisely because of these characteristics, the Transformer has recently been exploited for time series forecasting problems, assuming a natural adaptability to the domain of continuous numerical series. Despite the acclaimed results in the literature, some works have raised doubts about the robustness and effectiveness of this approach. In this paper, we further investigate the effectiveness of Transformer-based models applied to the domain of time series forecasting, demonstrate their limitations, and propose a set of alternative models that are better performing and significantly less complex. In particular, we empirically show how simplifying Transformer-based forecasting models almost always leads to an improvement, reaching state of the art performance. We also propose shallow models without the attention mechanism, which compete with the overall state of the art in long time series forecasting, and demonstrate their ability to accurately predict time series over extremely long windows. From a methodological perspective, we show how it is always necessary to use a simple baseline to verify the effectiveness of proposed models, and finally, we conclude the paper with a reflection on recent research paths and the opportunity to follow trends and hypes even where it may not be necessary.
翻訳日:2023-05-09 20:36:37 公開日:2023-05-08
# 圧縮的注意マッチングによるユニバーサルドメイン適応

Universal Domain Adaptation via Compressive Attention Matching ( http://arxiv.org/abs/2304.11862v2 )

ライセンス: Link先を確認
Didi Zhu, Yincuan Li, Junkun Yuan, Zexi Li, Yunfeng Shao, Kun Kuang and Chao Wu(参考訳) ユニバーサルドメイン適応(UniDA)は、ラベルセットに関する事前の知識なしで、ソースドメインからターゲットドメインに知識を転送することを目的としている。 課題は、ターゲットサンプルが共通のカテゴリに属するかどうかを決定する方法にある。 主流の手法はサンプルの特徴に基づいて判断を行うが、これは画像内の最も重要な局所オブジェクトを無視しながらグローバル情報を過度に強調し、精度が制限される。 この問題を解決するために,視覚変換器の自己注意機構を利用して重要な対象情報を捕捉するユニバーサルアテンションマッチング(UniAM)フレームワークを提案する。 提案フレームワークは,注目度を圧縮的に表現することでコア情報を探究する,新しい圧縮的注意マッチング(CAM)手法を提案する。 さらに、CAMはサンプルの共通性を決定するために残留測定を組み込んでいる。 この測定を利用して、UniAMはドメインワイドおよびカテゴリワイド共通特徴調整(CFA)とターゲットクラス分離(TCS)を達成する。 特に、UniAMは視覚変換器の注意を利用して分類タスクを実行する最初の方法である。 広範な実験により、uniamは様々なベンチマークデータセットで現在の最先端のメソッドよりも優れています。

Universal domain adaptation (UniDA) aims to transfer knowledge from the source domain to the target domain without any prior knowledge about the label set. The challenge lies in how to determine whether the target samples belong to common categories. The mainstream methods make judgments based on the sample features, which overemphasizes global information while ignoring the most crucial local objects in the image, resulting in limited accuracy. To address this issue, we propose a Universal Attention Matching (UniAM) framework by exploiting the self-attention mechanism in vision transformer to capture the crucial object information. The proposed framework introduces a novel Compressive Attention Matching (CAM) approach to explore the core information by compressively representing attentions. Furthermore, CAM incorporates a residual-based measurement to determine the sample commonness. By utilizing the measurement, UniAM achieves domain-wise and category-wise Common Feature Alignment (CFA) and Target Class Separation (TCS). Notably, UniAM is the first method utilizing the attention in vision transformer directly to perform classification tasks. Extensive experiments show that UniAM outperforms the current state-of-the-art methods on various benchmark datasets.
翻訳日:2023-05-09 20:30:20 公開日:2023-05-08
# 未知操作条件下での深層学習に基づく生命予測のための物理制御型データ生成

Controlled physics-informed data generation for deep learning-based remaining useful life prediction under unseen operation conditions ( http://arxiv.org/abs/2304.11702v2 )

ライセンス: Link先を確認
Jiawei Xiong, Olga Fink, Jian Zhou, Yizhong Ma(参考訳) 代表的なTTF(Time-to-failure)トラジェクトリの限られた可用性は、ディープラーニング(DL)ベースのアプローチによる、実用上の有用寿命(RUL)予測の維持や、その適用を妨げている。 物理的に妥当な合成データを生成することは、この課題に取り組むための有望な方法だ。 本研究では,制御された物理インフォームドデータ生成手法と深層学習に基づく予測モデルを組み合わせた新しいハイブリッドフレームワークを提案する。 提案手法では, 物理的に解釈可能で多様な合成劣化軌跡を生成するために, 新しい制御物理インフォームド生成逆数ネットワーク (CPI-GAN) を開発した。 5つの基本的な物理制約がジェネレータの制御可能な設定として提案されている。 物理インフォームド損失関数を正規化項として設計することにより、合成データに記録されたシステム状態の変化傾向が、基礎となる物理法則と一致していることを保証する。 そして、生成した合成データをDLベースの予測モデルの入力として使用し、RUL推定値を得る。 提案手法は,TTFトラジェクトリの限られた有効性を想定したターボファンエンジンのプログノスティックデータセットである,新しい商用モジュール型エアロ推進システムシミュレーション (N-CMAPSS) に基づいて評価される。 実験により, 本フレームワークは, 劣化傾向に整合した合成TTFトラジェクトリを生成することができることを示した。 生成された軌道はRUL予測の精度を大幅に向上させる。

Limited availability of representative time-to-failure (TTF) trajectories either limits the performance of deep learning (DL)-based approaches on remaining useful life (RUL) prediction in practice or even precludes their application. Generating synthetic data that is physically plausible is a promising way to tackle this challenge. In this study, a novel hybrid framework combining the controlled physics-informed data generation approach with a deep learning-based prediction model for prognostics is proposed. In the proposed framework, a new controlled physics-informed generative adversarial network (CPI-GAN) is developed to generate synthetic degradation trajectories that are physically interpretable and diverse. Five basic physics constraints are proposed as the controllable settings in the generator. A physics-informed loss function with penalty is designed as the regularization term, which ensures that the changing trend of system health state recorded in the synthetic data is consistent with the underlying physical laws. Then, the generated synthetic data is used as input of the DL-based prediction model to obtain the RUL estimations. The proposed framework is evaluated based on new Commercial Modular Aero-Propulsion System Simulation (N-CMAPSS), a turbofan engine prognostics dataset where a limited avail-ability of TTF trajectories is assumed. The experimental results demonstrate that the proposed framework is able to generate synthetic TTF trajectories that are consistent with underlying degradation trends. The generated trajectories enable to significantly improve the accuracy of RUL predictions.
翻訳日:2023-05-09 20:29:59 公開日:2023-05-08
# 消滅のデコヒーレンスというパズルの扉を閉じる

Closing the Door on the Puzzle of Decoherence of Annihilation Quanta ( http://arxiv.org/abs/2304.11362v3 )

ライセンス: Link先を確認
Siddharth Parashari, Damir Bosnar, Ivica Fri\v{s}\v{c}i\'c, Zdenka Kuncic, Mihael Makek(参考訳) パラポジトロニウム消滅では、ポジトロントモグラフィを用いた医療画像における信号対バックグラウンドを改善する可能性から、新興ガンマ量子の偏光相関の探索が注目されている。 消滅量子は絡み合った状態であると予測され、直交分極を持ち、この性質を利用して背景に寄与する2つの非相関ガンマ光子と区別することができる。 先行コンプトン散乱による脱コヒーレンス過程後の脱コヒーレンス量子の偏極相関に関する最近の実験的研究は、脱コヒーレンス後の相関の強さに関してかなり異なる結論を示し、そのパズリングの性質を示した。 本研究は,単層ガンマ線偏光計を用いた角距離$0^\circ-50^\circ$におけるコンプトン散乱による脱コヒーレンス後の消滅量子の偏光相関を初めて行う。 さらに,30^\circ$でのコンプトン散乱後の偏光相関を,アクティブおよびパッシブ散乱素子と比較した。 その結果、偏光変調係数で表される相関は、直接光子で測定された相関値と比較して小さな散乱角(0^\circ-30^\circ$)では有意な差は見られず、50^\circ$散乱角では低い変調が観測された。

In para-positronium annihilation, exploration of the polarization correlations of the emerging gamma quanta has gained interest, since it offers a possibility to improve signal-to-background in medical imaging using positron emission tomography. The annihilation quanta, which are predicted to be in an entangled state, have orthogonal polarizations and this property may be exploited to discriminate them from two uncorrelated gamma photons contributing to the background. Recent experimental studies of polarization correlations of the annihilation quanta after a decoherence process induced by a prior Compton scattering of one of them, had rather different conclusions regarding the strength of the correlation after the decoherence, showing its puzzling nature. In the present work, we perform for the first time, a study of the polarization correlations of annihilation quanta after decoherence via Compton scattering in the angular range $0^\circ-50^\circ$ using single-layer gamma ray polarimeters. In addition, we compare the measured polarization correlations after Compton scattering at $30^\circ$ with an active and a passive scatterer element. The results indicate that the correlation, expressed in terms of the polarimetric modulation factor, shows no significant difference at small scattering angles ($0^\circ-30^\circ$) compared to the correlation measured for direct photons, while lower modulation was observed for $50^\circ$ scattering angle.
翻訳日:2023-05-09 20:29:31 公開日:2023-05-08
# 多言語対応訓練と側方抑制を用いたルーマニア語多語表現検出

Romanian Multiword Expression Detection Using Multilingual Adversarial Training and Lateral Inhibition ( http://arxiv.org/abs/2304.11350v2 )

ライセンス: Link先を確認
Andrei-Marius Avram, Verginica Barbu Mititelu and Dumitru-Clementin Cercel(参考訳) マルチワード表現は、大規模かつ言語的に健全な自然言語処理技術を開発する上で重要な要素である。 本稿では、PARSEME v1.2共有タスク用にリリースされたコーパス上でのルーマニア語マルチワード式の自動識別の改善について述べる。 本手法は,最近導入された側方抑制層と逆行訓練に基づく多言語視点を想定し,多言語モデルの性能を高める。 これら2つの手法の助けを借り, PARSEME 1.2 版の主要な課題である, 未知のマルチワード表現を約2.7%改善する。 また,この競技の参加者が獲得したルーマニア語の結果よりも優れた結果が得られるため,この結果がSOTA性能であると考えられる。

Multiword expressions are a key ingredient for developing large-scale and linguistically sound natural language processing technology. This paper describes our improvements in automatically identifying Romanian multiword expressions on the corpus released for the PARSEME v1.2 shared task. Our approach assumes a multilingual perspective based on the recently introduced lateral inhibition layer and adversarial training to boost the performance of the employed multilingual language models. With the help of these two methods, we improve the F1-score of XLM-RoBERTa by approximately 2.7% on unseen multiword expressions, the main task of the PARSEME 1.2 edition. In addition, our results can be considered SOTA performance, as they outperform the previous results on Romanian obtained by the participants in this competition.
翻訳日:2023-05-09 20:29:06 公開日:2023-05-08
# ダイナミックな$N$- Photon束放出

Dynamical $N$-photon bundle emission ( http://arxiv.org/abs/2304.11298v2 )

ライセンス: Link先を確認
Fen Zou, Yong Li, Jie-Qiao Liao(参考訳) 工学的多光子資源は、量子計測、量子リソグラフィ、生物センシングにおいて重要である。 ここでは,n$強相関光子の動的放出の概念を提案する。 これは2つのガウスパルス列によって駆動される回路量子電磁力学系で実現される。 基礎となる物理的メカニズムは、ターゲットの多光子状態の効率的かつ選択的な準備を可能にする刺激されたラマン断熱通路に依存する。 光子崩壊の助けを借りて、非常に純粋なn$-photonバンドルの放出がこの系で起こる。 特に、ダイナミックな$N$- Photon束の放出は、連続するパルス間の時間間隔を制御し、要求に応じてトリガーできる$N$- Photonガンとして振る舞うように調整することができる。 我々の研究は、量子情報処理や量子気象学に広く応用できる多光子源デバイスを実現するための道を開く。

Engineering multiphoton resources is of importance in quantum metrology, quantum lithography, and biological sensing. Here we propose a concept of dynamical emission of $N$ strongly-correlated photons. This is realized in a circuit quantum electrodynamical system driven by two Gaussian-pulse sequences. The underlying physical mechanism relies on the stimulated Raman adiabatic passage that allows efficient and selective preparation of target multiphoton states. Assisted by the photon decay, a highly pure $N$-photon bundle emission takes place in this system. In particular, the dynamical $N$-photon bundle emission can be tuned by controlling the time interval between consecutive pulses so that the device behaves as an $N$-photon gun, which can be triggered on demand. Our work opens up a route to achieve multiphoton source devices, which have wide potential applications in quantum information processing and quantum metrology.
翻訳日:2023-05-09 20:28:51 公開日:2023-05-08
# ATMキャッシュリサイクルプロセスの多目的ロジスティックス最適化

Multiobjective Logistics Optimization for Automated ATM Cash Replenishment Process ( http://arxiv.org/abs/2304.13671v3 )

ライセンス: Link先を確認
Bui Tien Thanh, Dinh Van Tuan, Tuan Anh Chi, Nguyen Van Dai, Nguyen Tai Quang Dinh, and Nguyen Thu Thuy(参考訳) デジタルトランスフォーメーションの時代、銀行業務のあらゆる側面にデジタル技術を統合することで、プロセスの自動化、コスト効率、サービスレベルの改善が向上します。 ATMキャッシュのロジスティクスは、運用コストと消費者満足度に影響を与える重要なタスクであるが、それを強化する努力はほとんどなかった。 特にベトナムでは、ATMが全国で2万台以上あるため、この問題を解決できる研究と技術ソリューションは依然として乏しい。 本稿では,ATMキャッシュ補充のための車両ルーティング問題を一般化し,数学的モデルを提案し,様々な状況を評価するためのツールを提供した。 シミュレーションデータセットで評価すると,ATMキャッシュの運用コストを削減することで,提案手法とモデルが有効であることがわかった。

In the digital transformation era, integrating digital technology into every aspect of banking operations improves process automation, cost efficiency, and service level improvement. Although logistics for ATM cash is a crucial task that impacts operating costs and consumer satisfaction, there has been little effort to enhance it. Specifically, in Vietnam, with a market of more than 20,000 ATMs nationally, research and technological solutions that can resolve this issue remain scarce. In this paper, we generalized the vehicle routing problem for ATM cash replenishment, suggested a mathematical model and then offered a tool to evaluate various situations. When being evaluated on the simulated dataset, our proposed model and method produced encouraging results with the benefits of cutting ATM cash operating costs.
翻訳日:2023-05-09 20:19:43 公開日:2023-05-08
# 関連から生成へ:教師なしクロスモーダルマッピングによるテキストのみのキャプション

From Association to Generation: Text-only Captioning by Unsupervised Cross-modal Mapping ( http://arxiv.org/abs/2304.13273v3 )

ライセンス: Link先を確認
Junyang Wang and Ming Yan and Yi Zhang and Jitao Sang(参考訳) CLIPとALIGNに代表されるVLPM(Vision-Language Pre-Training Model)の開発により、CLIPのゼロショット機能による画像分類や画像テキスト検索といった連想に基づく視覚タスクにおいて、微調整なしで大きなブレークスルーが達成されている。 しかし、CLIPは世代ベースのタスクには適用が難しい。 これはデコーダアーキテクチャと生成のための事前トレーニングタスクが欠如しているためである。 以前の研究は、追加の言語モデルを通じてCLIPの生成能力を生み出したが、異なるモダリティのCLIP表現と、このギャップのオフセットをモデル化できないCLIPのモダリティギャップは、モダリティ間の転送を失敗する。 この問題を解決するために,画像や映像を言語モダリティにマッピングし,言語モダリティからキャプションを生成する。 本稿では,K-nearest-neighbor Cross-modality Mapping (Knight)を提案する。 テキストのみの教師なしのトレーニングにより、Knightは画像キャプションとビデオキャプションのためのゼロショットメソッドでステート・オブ・ザ・アートのパフォーマンスを達成する。 私たちのコードはhttps://github.com/junyangwang0410/knightで利用可能です。

With the development of Vision-Language Pre-training Models (VLPMs) represented by CLIP and ALIGN, significant breakthroughs have been achieved for association-based visual tasks such as image classification and image-text retrieval by the zero-shot capability of CLIP without fine-tuning. However, CLIP is hard to apply to generation-based tasks. This is due to the lack of decoder architecture and pre-training tasks for generation. Although previous works have created generation capacity for CLIP through additional language models, a modality gap between the CLIP representations of different modalities and the inability of CLIP to model the offset of this gap, which fails the concept to transfer across modalities. To solve the problem, we try to map images/videos to the language modality and generate captions from the language modality. In this paper, we propose the K-nearest-neighbor Cross-modality Mapping (Knight), a zero-shot method from association to generation. With text-only unsupervised training, Knight achieves State-of-the-Art performance in zero-shot methods for image captioning and video captioning. Our code is available at https://github.com/junyangwang0410/Knight.
翻訳日:2023-05-09 20:19:05 公開日:2023-05-08
# 交互局所列挙(TnALE):低評価によるテンソルネットワーク構造探索の解法

Alternating Local Enumeration (TnALE): Solving Tensor Network Structure Search with Fewer Evaluations ( http://arxiv.org/abs/2304.12875v2 )

ライセンス: Link先を確認
Chao Li, Junhua Zeng, Chunmei Li, Cesar Caiafa, Qibin Zhao(参考訳) テンソルネットワーク(TN)は機械学習の強力なフレームワークであるが、TN構造探索(TN-SS)として知られる優れたTNモデルを選択することは困難で計算集約的なタスクである。 TNLS~\cite{li2022permutation} の最近のアプローチは、このタスクに対して有望な結果を示したが、その計算効率はまだ不満足であり、目的関数の評価が多すぎる。 本稿では,TNLSと比較して,各構造関連変数を局所列挙によって交互に更新するアルゴリズムであるTnALEを提案する。 TNLS と TnALE の降下ステップを理論的に検討し、両アルゴリズムが各近傍で目的の十分な減算が \emph{reached} であれば、定数まで線形収束を達成できることを証明した。 また、TNLS と TnALE の評価効率も比較し、TNLS では \emph{reaching} に対して $\Omega(2^N)$ 評価が要求されるのに対し、理想的には $O(N^2R)$ 評価は TnALE では十分であり、$N$ はテンソル次数を表し、$R$ は近隣の 'emph{``low-rankness'' を反映する。 実験の結果、TnALEは最先端のアルゴリズムよりもはるかに少ない評価で、実用的に優れたTNランクと置換を見出すことができた。

Tensor network (TN) is a powerful framework in machine learning, but selecting a good TN model, known as TN structure search (TN-SS), is a challenging and computationally intensive task. The recent approach TNLS~\cite{li2022permutation} showed promising results for this task, however, its computational efficiency is still unaffordable, requiring too many evaluations of the objective function. We propose TnALE, a new algorithm that updates each structure-related variable alternately by local enumeration, \emph{greatly} reducing the number of evaluations compared to TNLS. We theoretically investigate the descent steps for TNLS and TnALE, proving that both algorithms can achieve linear convergence up to a constant if a sufficient reduction of the objective is \emph{reached} in each neighborhood. We also compare the evaluation efficiency of TNLS and TnALE, revealing that $\Omega(2^N)$ evaluations are typically required in TNLS for \emph{reaching} the objective reduction in the neighborhood, while ideally $O(N^2R)$ evaluations are sufficient in TnALE, where $N$ denotes the tensor order and $R$ reflects the \emph{``low-rankness''} of the neighborhood. Experimental results verify that TnALE can find practically good TN-ranks and permutations with vastly fewer evaluations than the state-of-the-art algorithms.
翻訳日:2023-05-09 20:18:40 公開日:2023-05-08
# GlyphDiffusion:画像生成としてのテキスト生成

GlyphDiffusion: Text Generation as Image Generation ( http://arxiv.org/abs/2304.12519v2 )

ライセンス: Link先を確認
Junyi Li, Wayne Xin Zhao, Jian-Yun Nie, Ji-Rong Wen(参考訳) 拡散モデルはテキスト生成の新しい生成パラダイムとなっている。 本稿では,テキストの個別な分類的性質を考慮し,テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。 私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。 このように、条件付きテキスト生成をグリフ画像生成タスクとしてキャストすることができ、離散的なテキストに連続拡散モデルを適用するのは自然である。 特に,入力テキストに条件付けされた高忠実度グリフ画像を生成するために,カスケードされたアーキテクチャ(ベースおよび超解像拡散モデル)を利用する。 さらに,生成されたグリフ画像から視覚言語コンテンツを最終的なテキストに変換するために,テキスト接地モジュールを設計した。 4つの条件付きテキスト生成タスクと2種類のメトリクス(ie品質と多様性)の実験において、glyphdiffusionは、事前学習された言語モデルを含む複数のベースラインと同等あるいはそれ以上の結果を得ることができる。 また,最近の拡散モデルと比較して大きな改善がみられた。

Diffusion models have become a new generative paradigm for text generation. Considering the discrete categorical nature of text, in this paper, we propose GlyphDiffusion, a novel diffusion approach for text generation via text-guided image generation. Our key idea is to render the target text as a glyph image containing visual language content. In this way, conditional text generation can be cast as a glyph image generation task, and it is then natural to apply continuous diffusion models to discrete texts. Specially, we utilize a cascaded architecture (ie a base and a super-resolution diffusion model) to generate high-fidelity glyph images, conditioned on the input text. Furthermore, we design a text grounding module to transform and refine the visual language content from generated glyph images into the final texts. In experiments over four conditional text generation tasks and two classes of metrics (ie quality and diversity), GlyphDiffusion can achieve comparable or even better results than several baselines, including pretrained language models. Our model also makes significant improvements compared to the recent diffusion model.
翻訳日:2023-05-09 20:18:08 公開日:2023-05-08
# ブラックホール内部の非等尺符号 : 基礎と有効動力学から

Non-isometric codes for the black hole interior from fundamental and effective dynamics ( http://arxiv.org/abs/2304.12345v2 )

ライセンス: Link先を確認
Oliver DeWolfe and Kenneth Higginbotham(参考訳) 基礎力学と有効力学の両方を含むブラックホール内部を符号化するための新しいホログラフマップを導入する。 このホログラフィックマップは、ブラックホールの外に自由度を引き出すのに間に合うように、内部の効果的な半古典的な重力記述の状態を進化させ、基本記述に間に合わせることによって構築される。 この ``backwards-forwards'' 写像は akers, engelhardt, harlow, penington, vardhan によって導入された型の後選択写像と等価であり、自明な実効的相互作用の場合、それらの相互作用が非自明であるときに適切な一般化を提供する。 この写像は時間発展に関して同値であり、ブラックホールの外側の任意の相互作用とは無関係である。 この構成は、ブラックホールの進化のユニタリティを正確に保ち、超ポリノミカルな計算複雑性を許さない方法で、インボーダーとの相互作用を含む。

We introduce a new holographic map for encoding black hole interiors by including both fundamental and effective dynamics. This holographic map is constructed by evolving a state in the effective, semiclassical gravity description of the interior backwards in time to pull the degrees of freedom outside the black hole, before evolving forwards in time in the fundamental description. We show this ``backwards-forwards'' map is equivalent to a post-selection map of the type introduced by Akers, Engelhardt, Harlow, Penington, and Vardhan, and in the case of trivial effective interactions reduces to their model, while providing a suitable generalization when those interactions are nontrivial. We show the map is equivariant with respect to time evolution, and independent of any interactions outside the black hole. This construction includes interactions with an infaller in a way that preserves the unitarity of black hole evolution exactly and does not allow for superpolynomial computational complexity.
翻訳日:2023-05-09 20:17:49 公開日:2023-05-08
# 古典計画としての量子回路の最適レイアウト合成

Optimal Layout Synthesis for Quantum Circuits as Classical Planning ( http://arxiv.org/abs/2304.12014v2 )

ライセンス: Link先を確認
Irfansha Shaik and Jaco van de Pol(参考訳) レイアウト合成において、量子回路の論理量子ビットは、与えられた量子ハードウェアプラットフォームの物理量子ビットにマッピングされ、物理量子ビットの接続性を考慮する。 これは、操作が遠いキュービットに適用される前にSWAPゲートを挿入することを含む。 SWAPゲートの数の最小化は、量子回路を実行する際のエラー率を直接緩和する。 近年,スワップ挿入を最小化する手法がいくつか提案されている。 提案した正確なアプローチは、少数の量子ビットにしかスケールできない。 スワップ挿入が最適であることを証明することは、近似最適写像を生成するよりもはるかに難しい。 本稿では,古典的計画問題として最適レイアウト合成のための2つの符号化を提案する。 最適な古典的プランナーを用いて標準ベンチマークの最適レイアウトを合成する。 その結果,これまでの先行アプローチと比較して,アプローチのスケーラビリティが示された。 9量子ビットの回路を14量子ビットのプラットフォームに最適にマッピングできるが、正確な方法では処理できなかった。

In Layout Synthesis, the logical qubits of a quantum circuit are mapped to the physical qubits of a given quantum hardware platform, taking into account the connectivity of physical qubits. This involves inserting SWAP gates before an operation is applied on distant qubits. Optimal Layout Synthesis is crucial for practical Quantum Computing on current error-prone hardware: Minimizing the number of SWAP gates directly mitigates the error rates when running quantum circuits. In recent years, several approaches have been proposed for minimizing the required SWAP insertions. The proposed exact approaches can only scale to a small number of qubits. Proving that a number of swap insertions is optimal is much harder than producing near optimal mappings. In this paper, we provide two encodings for Optimal Layout Synthesis as a classical planning problem. We use optimal classical planners to synthesize the optimal layout for a standard set of benchmarks. Our results show the scalability of our approach compared to previous leading approaches. We can optimally map circuits with 9 qubits onto a 14 qubit platform, which could not be handled before by exact methods.
翻訳日:2023-05-09 20:17:03 公開日:2023-05-08
# 制約付き多目的フェデレーション学習におけるプライバシ、ユーティリティ、効率の最適化

Optimizing Privacy, Utility and Efficiency in Constrained Multi-Objective Federated Learning ( http://arxiv.org/abs/2305.00312v3 )

ライセンス: Link先を確認
Yan Kang, Hanlin Gu, Xingxing Tang, Yuanqin He, Yuzhu Zhang, Jinnan He, Yuxing Han, Lixin Fan, Qiang Yang(参考訳) 従来、連合学習は単一の目的、通常はユーティリティを最適化することを目的としていた。 しかし、連合学習システムが信頼できるためには、モデル性能の最大化、プライバシのリークとトレーニングコストの最小化、悪意のある攻撃に対する堅牢性など、複数の目標を同時に満たす必要がある。 複数の競合する目的を同時に最適化することを目的とした多目的最適化(MOO)は、信頼できるフェデレートラーニング(TFL)の最適化問題を解決するのに非常に適している。 本稿では,制約付き多目的フェデレーション学習(CMOFL)の問題を定式化し,MOOとTFLを統一する。 この定式化の下では、既存のMOOアルゴリズムをTFLに簡単に適用することができる。 汎用性,効率性,公平性,堅牢性を重視した既存のcmoflとは違って,tflシステムの3つの主な目的であるユーティリティ損失とトレーニングコストとともに,プライバシリークの最適化を検討する。 NSGA-II と PSL に基づく 2 つの改良された CMOFL アルゴリズムを開発し,Pareto 最適解を効果的かつ効率的に検出し,その収束に関する理論的解析を行った。 我々は、ランダム化、BatchCrypt(同型暗号化の効率的なバージョン)、スパシフィケーションの3つのプライバシ保護メカニズムに対して、プライバシー漏洩、ユーティリティ損失、トレーニングコストの具体的な測定を設計する。 3つの保護機構のそれぞれで実験を行い,提案手法の有効性を実証した。

Conventionally, federated learning aims to optimize a single objective, typically the utility. However, for a federated learning system to be trustworthy, it needs to simultaneously satisfy multiple/many objectives, such as maximizing model performance, minimizing privacy leakage and training cost, and being robust to malicious attacks. Multi-Objective Optimization (MOO) aiming to optimize multiple conflicting objectives at the same time is quite suitable for solving the optimization problem of Trustworthy Federated Learning (TFL). In this paper, we unify MOO and TFL by formulating the problem of constrained multi-objective federated learning (CMOFL). Under this formulation, existing MOO algorithms can be adapted to TFL straightforwardly. Different from existing CMOFL works focusing on utility, efficiency, fairness, and robustness, we consider optimizing privacy leakage along with utility loss and training cost, the three primary objectives of a TFL system. We develop two improved CMOFL algorithms based on NSGA-II and PSL, respectively, for effectively and efficiently finding Pareto optimal solutions, and we provide theoretical analysis on their convergence. We design specific measurements of privacy leakage, utility loss, and training cost for three privacy protection mechanisms: Randomization, BatchCrypt (An efficient version of homomorphic encryption), and Sparsification. Empirical experiments conducted under each of the three protection mechanisms demonstrate the effectiveness of our proposed algorithms.
翻訳日:2023-05-09 20:12:28 公開日:2023-05-08
# アバター:ターゲットドメインに対する敵対的自己監督型ドメイン適応ネットワーク

AVATAR: Adversarial self-superVised domain Adaptation network for TARget domain ( http://arxiv.org/abs/2305.00082v2 )

ライセンス: Link先を確認
Jun Kataoka and Hyunsoo Yoon(参考訳) 本稿では,未ラベルな対象領域データを予測するための教師なし領域適応(UDA)手法を提案する。 主流UDAモデルは、ラベル付きソースドメインデータを利用することで、両方のドメインから学習し、ターゲット識別を改善することを目的としている。 しかし、ソースドメインとターゲットドメインの相違が大きい場合や、ターゲットドメインが外れ値を含む場合、パフォーマンスの向上が制限される可能性がある。 本稿では,この問題に対処するために,AVATAR(Adversarial Self-superVised Domain Adaptation Network for the TARget domain)アルゴリズムを提案する。 ドメインの差を同時に減らし、ドメインの敵対的学習、自己教師付き学習、および対象ドメインに対するサンプル選択戦略を通じて差別を強化することで、最先端のUDAモデルより優れている。 提案手法は,3つのUDAベンチマークにおける最先端手法を著しく上回り,複雑なUDAタスクに対処するためのアプローチの有効性を示す。

This paper presents an unsupervised domain adaptation (UDA) method for predicting unlabeled target domain data, specific to complex UDA tasks where the domain gap is significant. Mainstream UDA models aim to learn from both domains and improve target discrimination by utilizing labeled source domain data. However, the performance boost may be limited when the discrepancy between the source and target domains is large or the target domain contains outliers. To explicitly address this issue, we propose the Adversarial self-superVised domain Adaptation network for the TARget domain (AVATAR) algorithm. It outperforms state-of-the-art UDA models by concurrently reducing domain discrepancy while enhancing discrimination through domain adversarial learning, self-supervised learning, and sample selection strategy for the target domain, all guided by deep clustering. Our proposed model significantly outperforms state-of-the-art methods on three UDA benchmarks, and extensive ablation studies and experiments demonstrate the effectiveness of our approach for addressing complex UDA tasks.
翻訳日:2023-05-09 20:10:10 公開日:2023-05-08
# 因果推論と大規模言語モデル: 因果関係の新しいフロンティアを開く

Causal Reasoning and Large Language Models: Opening a New Frontier for Causality ( http://arxiv.org/abs/2305.00050v2 )

ライセンス: Link先を確認
Emre K{\i}c{\i}man and Robert Ness and Amit Sharma and Chenhao Tan(参考訳) 大規模言語モデル(LLM)の因果的能力は、医学、科学、法学、政策といった社会的に影響力のある領域におけるLLMの使用に重要な意味を持つ重要な議論である。 我々は,LLMとその因果関係の理解を深め,異なるタイプの因果推論タスクの区別や,構造と測定の妥当性の絡み合った脅威を考慮する。 LLMに基づく手法は、複数の因果ベンチマーク上で新しい最先端の精度を確立する。 GPT-3.5と4に基づくアルゴリズムは、ペアワイズ因果発見タスク(97%、13ポイントゲイン)、反ファクト因果推論タスク(92%、20ポイントゲイン)、実際の因果性(86%の正確性)において、既存のアルゴリズムよりも優れている。 同時に、LLMは予測不可能な障害モードを示し、その堅牢性を理解するためのいくつかのテクニックを提供する。 重要なことは、LLMはこれらの因果的タスクを、LLMをベースとしないアプローチとは異なる知識や手法のソースに依存しながら実行する。 具体的には、LLMは、収集された知識を使用して因果グラフを生成したり、自然言語から背景因果コンテキストを識別したりといった、人間に限定された能力をもたらす。 我々は、従来の因果的手法とともに、人間のドメイン知識のプロキシとして、また、因果的手法の普及に最も大きな障害である因果的分析を構築する際の人的労力を減らすために、LSMを使用することを想定している。 また、既存の因果的手法は、特に高いシナリオにおいて、LSMが推論を形式化し、検証し、伝達するための有望なツールであると考えている。 因果的メカニズムに関する常識やドメイン知識を捉え、自然言語と形式的手法間の翻訳を支援することで、LLMは因果性の研究、実践、導入を促進するための新たなフロンティアを開拓する。

The causal capabilities of large language models (LLMs) is a matter of significant debate, with critical implications for the use of LLMs in societally impactful domains such as medicine, science, law, and policy. We further our understanding of LLMs and their causal implications, considering the distinctions between different types of causal reasoning tasks, as well as the entangled threats of construct and measurement validity. LLM-based methods establish new state-of-the-art accuracies on multiple causal benchmarks. Algorithms based on GPT-3.5 and 4 outperform existing algorithms on a pairwise causal discovery task (97%, 13 points gain), counterfactual reasoning task (92%, 20 points gain), and actual causality (86% accuracy in determining necessary and sufficient causes in vignettes). At the same time, LLMs exhibit unpredictable failure modes and we provide some techniques to interpret their robustness. Crucially, LLMs perform these causal tasks while relying on sources of knowledge and methods distinct from and complementary to non-LLM based approaches. Specifically, LLMs bring capabilities so far understood to be restricted to humans, such as using collected knowledge to generate causal graphs or identifying background causal context from natural language. We envision LLMs to be used alongside existing causal methods, as a proxy for human domain knowledge and to reduce human effort in setting up a causal analysis, one of the biggest impediments to the widespread adoption of causal methods. We also see existing causal methods as promising tools for LLMs to formalize, validate, and communicate their reasoning especially in high-stakes scenarios. In capturing common sense and domain knowledge about causal mechanisms and supporting translation between natural language and formal methods, LLMs open new frontiers for advancing the research, practice, and adoption of causality.
翻訳日:2023-05-09 20:09:25 公開日:2023-05-08
# AQ-GT:音声合成のための一時配向型量子化GRU変換器

AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech Gesture Synthesis ( http://arxiv.org/abs/2305.01241v2 )

ライセンス: Link先を確認
Hendric Vo{\ss} and Stefan Kopp(参考訳) 現実的かつ文脈的に関連のある共同スパイクジェスチャの生成は、マルチモーダルな人工エージェントの作成においてますます重要になっている課題である。 従来の手法では、共同音声のジェスチャー表現と生成された動作の直接的な対応を学習することに集中していた。 本稿では,量子化パイプラインを用いた生成型逆ネットワークを用いた部分的ジェスチャシーケンスの事前学習手法を提案する。 結果として得られたコードブックベクトルは、我々のフレームワークの入出力の両方として機能し、ジェスチャの生成と再構成の基礎を形成します。 空間表現を直接ベクトル表現にマッピングするのではなく、潜在空間表現のマッピングを学習することにより、人間の動きや振る舞いを忠実に再現する高度に現実的で表現力のあるジェスチャーの生成を促進すると同時に、生成プロセスにおけるアーティファクトを同時に回避する。 提案手法は,人間の行動の既存のデータセットと同様に,協調ジェスチャ生成のための確立された手法と比較することで評価する。 私たちはまた、この結果を評価するためにアブレーション研究も行います。 以上の結果から,我々のアプローチは,芸術の現況を明確なマージンで上回っており,人間の身振りと部分的に区別できないことが示された。 データパイプラインとジェネレーションフレームワークを一般公開しています。

The generation of realistic and contextually relevant co-speech gestures is a challenging yet increasingly important task in the creation of multimodal artificial agents. Prior methods focused on learning a direct correspondence between co-speech gesture representations and produced motions, which created seemingly natural but often unconvincing gestures during human assessment. We present an approach to pre-train partial gesture sequences using a generative adversarial network with a quantization pipeline. The resulting codebook vectors serve as both input and output in our framework, forming the basis for the generation and reconstruction of gestures. By learning the mapping of a latent space representation as opposed to directly mapping it to a vector representation, this framework facilitates the generation of highly realistic and expressive gestures that closely replicate human movement and behavior, while simultaneously avoiding artifacts in the generation process. We evaluate our approach by comparing it with established methods for generating co-speech gestures as well as with existing datasets of human behavior. We also perform an ablation study to assess our findings. The results show that our approach outperforms the current state of the art by a clear margin and is partially indistinguishable from human gesturing. We make our data pipeline and the generation framework publicly available.
翻訳日:2023-05-09 20:00:39 公開日:2023-05-08
# バンディットフィードバックによる実効予測:再パラメータ化による学習

Performative Prediction with Bandit Feedback: Learning through Reparameterization ( http://arxiv.org/abs/2305.01094v2 )

ライセンス: Link先を確認
Yatong Chen, Wei Tang, Chien-Ju Ho, Yang Liu(参考訳) perdomo et al. (2020) によって導入されたパフォーマンス予測は、モデルの展開に応じてデータ分布自体が変化する社会予測を研究するためのフレームワークである。 この設定における精度の最適化に関する既存の作業は、実行リスクがデプロイされたモデル上で凸である、モデルからデータ分布へのマッピングが事前にモデルデザイナに知られている、という2つの仮定に簡単に違反する。 本稿では,これらの仮定を必要としない従順な性能予測問題の研究を開始する。 この課題に対処するために,1レベルが分布マップの計算を目的とし,もう1レベルが誘導データ分布の関数として実行予測目標を再パラメータ化する2レベルゼロ次最適化アルゴリズムを開発した。 軽度条件下では、この再パラメータ化により、非凸目標を凸目標に変換し、証明可能な後悔保証を達成することができる。 特に,実演サンプル総数においてsublinearであり,モデルパラメータの次元における多項式のみである後悔境界を与える。

Performative prediction, as introduced by Perdomo et al. (2020), is a framework for studying social prediction in which the data distribution itself changes in response to the deployment of a model. Existing work on optimizing accuracy in this setting hinges on two assumptions that are easily violated in practice: that the performative risk is convex over the deployed model, and that the mapping from the model to the data distribution is known to the model designer in advance. In this paper, we initiate the study of tractable performative prediction problems that do not require these assumptions. To tackle this more challenging setting, we develop a two-level zeroth-order optimization algorithm, where one level aims to compute the distribution map, and the other level reparameterizes the performative prediction objective as a function of the induced data distribution. Under mild conditions, this reparameterization allows us to transform the non-convex objective into a convex one and achieve provable regret guarantees. In particular, we provide a regret bound that is sublinear in the total number of performative samples taken and only polynomial in the dimension of the model parameter.
翻訳日:2023-05-09 19:59:57 公開日:2023-05-08
# アタック-SAM: 敵の例によるセグメンテーションモデルへの攻撃

Attack-SAM: Towards Attacking Segment Anything Model With Adversarial Examples ( http://arxiv.org/abs/2305.00866v2 )

ライセンス: Link先を確認
Chenshuang Zhang, Chaoning Zhang, Taegoo Kang, Donghun Kim, Sung-Ho Bae, In So Kweon(参考訳) Segment Anything Model (SAM) は、様々なダウンストリームタスクにおけるゼロショートなパフォーマンスのため、近年大きな注目を集めている。 コンピュータビジョン(CV)領域は自然言語処理(NLP)領域に従えば、タスク固有のビジョンモデルから基礎モデルへの道を歩むことができる。 しかし、深い視覚モデルは敵の例に弱いと広く認識されており、それはモデルを騙して知覚できない摂動で間違った予測をする。 このような攻撃に対する脆弱性は、セキュリティに敏感なアプリケーションにディープモデルを適用する際に深刻な懸念を引き起こす。 したがって,視基盤モデルSAMが敵攻撃によっても騙されるかどうかを知ることは重要である。 我々の知る限りでは、私たちの研究はSAMを敵の例で攻撃する方法を包括的に調査する最初のものである。 マスク除去を目的とした基本攻撃目標セットを用いて,完全なホワイトボックス設定と転送ベースブラックボックス設定におけるSAMの対角的堅牢性を検討した。 マスク除去の基本的な目的を超えて、敵の攻撃によって任意のマスクを生成できることを更に調査し、発見する。

Segment Anything Model (SAM) has attracted significant attention recently, due to its impressive performance on various downstream tasks in a zero-short manner. Computer vision (CV) area might follow the natural language processing (NLP) area to embark on a path from task-specific vision models toward foundation models. However, deep vision models are widely recognized as vulnerable to adversarial examples, which fool the model to make wrong predictions with imperceptible perturbation. Such vulnerability to adversarial attacks causes serious concerns when applying deep models to security-sensitive applications. Therefore, it is critical to know whether the vision foundation model SAM can also be fooled by adversarial attacks. To the best of our knowledge, our work is the first of its kind to conduct a comprehensive investigation on how to attack SAM with adversarial examples. With the basic attack goal set to mask removal, we investigate the adversarial robustness of SAM in the full white-box setting and transfer-based black-box settings. Beyond the basic goal of mask removal, we further investigate and find that it is possible to generate any desired mask by the adversarial attack.
翻訳日:2023-05-09 19:59:04 公開日:2023-05-08
# マルチスケールトランスフォーマーを用いた多生理信号からの感情認識ネットワーク

Multi-scale Transformer-based Network for Emotion Recognition from Multi Physiological Signals ( http://arxiv.org/abs/2305.00769v2 )

ライセンス: Link先を確認
Tu Vu and Van Thong Huynh and Soo-Hyung Kim(参考訳) 本稿では,現代のセンサと機械学習技術を用いて,これらの信号から抽出される膨大な情報によって,研究コミュニティで広く注目を集めている生理的データから感情認識を行うための,効率的なマルチスケールトランスフォーマー手法を提案する。 我々のアプローチは、内部信号と人間の感情の関係を確立するために、データのスケーリングと組み合わせたマルチモーダル手法を適用することである。 さらに、トランスフォーマおよびガウス変換技術を用いて信号符号化の有効性と全体的な性能を向上させる。 我々のモデルは、epicコンペティションのケースデータセットで、rmseスコア1.45でまともな結果を得る。

This paper presents an efficient Multi-scale Transformer-based approach for the task of Emotion recognition from Physiological data, which has gained widespread attention in the research community due to the vast amount of information that can be extracted from these signals using modern sensors and machine learning techniques. Our approach involves applying a Multi-modal technique combined with scaling data to establish the relationship between internal body signals and human emotions. Additionally, we utilize Transformer and Gaussian Transformation techniques to improve signal encoding effectiveness and overall performance. Our model achieves decent results on the CASE dataset of the EPiC competition, with an RMSE score of 1.45.
翻訳日:2023-05-09 19:58:45 公開日:2023-05-08
# ローエンドハードウェア上での言語モデルの利用

Using Language Models on Low-end Hardware ( http://arxiv.org/abs/2305.02350v2 )

ライセンス: Link先を確認
Fabian Ziegner, Janos Borst, Andreas Niekler, Martin Potthast(参考訳) 本稿では,ローエンドハードウェア上でテキスト分類ネットワークをトレーニングするための固定言語モデルの有効性を評価する。 言語モデルとcnnアーキテクチャを組み合わせることで、トピック、感情、ジャンルの単一ラベルとマルチラベルの分類をカバーする8つのデータセットを含む包括的なベンチマークをまとめます。 言語モデルを微調整しない場合、より高速なトレーニングでは競争効率が得られ、微調整に比べてメモリの4分の1しか必要としないというシナリオが存在する、と結論付けている。

This paper evaluates the viability of using fixed language models for training text classification networks on low-end hardware. We combine language models with a CNN architecture and put together a comprehensive benchmark with 8 datasets covering single-label and multi-label classification of topic, sentiment, and genre. Our observations are distilled into a list of trade-offs, concluding that there are scenarios, where not fine-tuning a language model yields competitive effectiveness at faster training, requiring only a quarter of the memory compared to fine-tuning.
翻訳日:2023-05-09 19:51:07 公開日:2023-05-08
# 説明可能な人工知能手法に関する解説:SHAPとLIME

Commentary on explainable artificial intelligence methods: SHAP and LIME ( http://arxiv.org/abs/2305.02012v2 )

ライセンス: Link先を確認
Ahmed Salih, Zahra Raisi-Estabragh, Ilaria Boscolo Galazzo, Petia Radeva, Steffen E. Petersen, Gloria Menegaz, Karim Lekadir(参考訳) eXplainable AI(XAI)メソッドは、機械学習モデルのブラックボックスを、より消化しやすい形式に変換するために登場した。 これらの方法は、機械学習モデルをより透明にし、エンドユーザの信頼をアウトプットに高めることを目的として、モデルがどのように機能するかを伝えるのに役立つ。 SHAP(SHapley Additive ExPlanations)とLIME(Local Interpretable Model Agnostic Explanation)は、特に表データで広く使われているXAI手法である。 本稿では,これら2つの手法の説明可能性メトリクスの生成方法について論じ,その弱点と強みを浮き彫りにして,それらの出力を解釈するためのフレームワークを提案する。

eXplainable artificial intelligence (XAI) methods have emerged to convert the black box of machine learning models into a more digestible form. These methods help to communicate how the model works with the aim of making machine learning models more transparent and increasing the trust of end-users into their output. SHapley Additive exPlanations (SHAP) and Local Interpretable Model Agnostic Explanation (LIME) are two widely used XAI methods particularly with tabular data. In this commentary piece, we discuss the way the explainability metrics of these two methods are generated and propose a framework for interpretation of their outputs, highlighting their weaknesses and strengths.
翻訳日:2023-05-09 19:50:01 公開日:2023-05-08
# 心エコー法による容積指標の抽出--臨床応用のための深層学習法とは?

Extraction of volumetric indices from echocardiography: which deep learning solution for clinical use? ( http://arxiv.org/abs/2305.01997v2 )

ライセンス: Link先を確認
Hang Jung Ling, Nathan Painchaud, Pierre-Yves Courand, Pierre-Marc Jodoin, Damien Garcia, Olivier Bernard(参考訳) 深層学習に基づく手法は、専門家によって注釈付けされた複数のオープンアクセスデータセット(CAMUSは最大のパブリックデータベースの1つである)の公開を利用して、心エコー画像の自動解析を先導している。 しかし、これらのモデルは未解決の問題から、いまだに臨床医からは信頼できないと見なされている。 一 予測の時間的整合性及び 二 データセットをまたいで一般化する能力。 本稿では,医用/心電図画像のセグメンテーションにおける現在最高の手法と,時間的整合性およびデータセット横断性に着目した総合的な比較法を提案する。 CARDINALという新しいプライベートデータセットを導入し,全心循環に基準セグメンテーションを施した2-chamberと4-chamberの2-chamber配列を解析した。 提案した3D nnU-Netは,2D法と繰り返しセグメンテーション法よりも優れていることを示す。 また,カージナルでトレーニングされた最善のモデルは,微調整を行わずにcamus上でテストした場合も,従来手法との競争力が保たれていることも報告した。 実験の結果、十分なトレーニングデータがあれば、3D nnU-Netは最終的に日常的な臨床機器の基準を満たす最初の自動化ツールになる可能性が示唆された。

Deep learning-based methods have spearheaded the automatic analysis of echocardiographic images, taking advantage of the publication of multiple open access datasets annotated by experts (CAMUS being one of the largest public databases). However, these models are still considered unreliable by clinicians due to unresolved issues concerning i) the temporal consistency of their predictions, and ii) their ability to generalize across datasets. In this context, we propose a comprehensive comparison between the current best performing methods in medical/echocardiographic image segmentation, with a particular focus on temporal consistency and cross-dataset aspects. We introduce a new private dataset, named CARDINAL, of apical two-chamber and apical four-chamber sequences, with reference segmentation over the full cardiac cycle. We show that the proposed 3D nnU-Net outperforms alternative 2D and recurrent segmentation methods. We also report that the best models trained on CARDINAL, when tested on CAMUS without any fine-tuning, still manage to perform competitively with respect to prior methods. Overall, the experimental results suggest that with sufficient training data, 3D nnU-Net could become the first automated tool to finally meet the standards of an everyday clinical device.
翻訳日:2023-05-09 19:49:49 公開日:2023-05-08
# 法律領域における実践的応用の解錠:法文のゼロショット意味アノテーションのためのGPTの評価

Unlocking Practical Applications in Legal Domain: Evaluation of GPT for Zero-Shot Semantic Annotation of Legal Texts ( http://arxiv.org/abs/2305.04417v1 )

ライセンス: Link先を確認
Jaromir Savelka(参考訳) 各種の法律文書から得られた短いテキストスニペット(1文から数文)のセマンティックアノテーションを実行するための,最先端の生成事前学習トランスフォーマ(GPT)モデルの有効性を評価した。 法律分野におけるこの新興技術の潜在的利用(文書起草、要約など)に関する議論は激化しているが、ゼロショット学習環境における法文の文レベル意味論におけるこれらの大きな言語モデル(LLM)の能力について厳密な分析は行われていない。 しかし、この種の用途は、多くの実用的応用(契約審査など)と研究機会(実証法的研究など)を解き放つ可能性がある。 私たちはこの研究でギャップを埋める。 意味型の簡潔な定義に基づいて,短いテキストスニペット(10~50)の小さなバッチを意味的に注釈できるかどうかを検討した。 その結果, GPTモデルは, 各種文書のゼロショット設定において, 驚くほど良好に機能することが判明した(裁判所の意見を含む作業ではF1=.73, 契約では.86, 法令及び規則では.54)。 これらの知見は法学者や弁護士にも活用でき、法的テキストの意味的アノテーションを含む幅広いワークフローにLLMを統合する決定を導くことができる。

We evaluated the capability of a state-of-the-art generative pre-trained transformer (GPT) model to perform semantic annotation of short text snippets (one to few sentences) coming from legal documents of various types. Discussions of potential uses (e.g., document drafting, summarization) of this emerging technology in legal domain have intensified, but to date there has not been a rigorous analysis of these large language models' (LLM) capacity in sentence-level semantic annotation of legal texts in zero-shot learning settings. Yet, this particular type of use could unlock many practical applications (e.g., in contract review) and research opportunities (e.g., in empirical legal studies). We fill the gap with this study. We examined if and how successfully the model can semantically annotate small batches of short text snippets (10-50) based exclusively on concise definitions of the semantic types. We found that the GPT model performs surprisingly well in zero-shot settings on diverse types of documents (F1=.73 on a task involving court opinions, .86 for contracts, and .54 for statutes and regulations). These findings can be leveraged by legal scholars and practicing lawyers alike to guide their decisions in integrating LLMs in wide range of workflows involving semantic annotation of legal texts.
翻訳日:2023-05-09 16:05:26 公開日:2023-05-08
# パラメタライズドスキルとプライオリティを用いた自律走行のための効率的な強化学習

Efficient Reinforcement Learning for Autonomous Driving with Parameterized Skills and Priors ( http://arxiv.org/abs/2305.04412v1 )

ライセンス: Link先を確認
Letian Wang, Jie Liu, Hao Shao, Wenshuo Wang, Ruobing Chen, Yu Liu, Steven L. Waslander(参考訳) 自動運転車が公道に配備されると、無数の多様な運転状況に遭遇する。 手動で設計した多くの運転方針は、現実世界へのスケールが難しい。 幸運にも、強化学習は多くのタスクで自動試行とエラーによって大きな成功を収めている。 しかし、対話的な密集交通における自律運転に関しては、RLエージェントは適切なパフォーマンスを学ばず、大量のデータを必要とする。 我々の洞察は 人間が運転を学べば 1)低レベルな制御空間ではなく、高レベルなスキル空間を判断する。 2)スクラッチから学ぶのではなく、専門家の事前知識を活用する。 そこで本研究では,自律運転のための効率的な強化学習アルゴリズムASAP-RLを提案する。 まず、様々な複雑な運転シナリオや状況をカバーするのに十分な多様な動作スキルをパラメータ化した。 専門的なデモンストレーションを制御空間からスキル空間に変換するために,スキルパラメータ逆回復法を提案する。 専門家の準最適性や初期の性能劣化を回避しつつ、専門家の事前知識を活用するため、単純だが効果的な二重初期化手法を提案する。 提案手法は,単純かつスパースな報酬を与えられた対話型高密度走行タスクで検証する。 実験結果から,本手法は,従来の手法と比較して学習効率が向上し,運転性能が向上する可能性が示唆された。 さらなる研究を促進するために、コードはオープンソースである。

When autonomous vehicles are deployed on public roads, they will encounter countless and diverse driving situations. Many manually designed driving policies are difficult to scale to the real world. Fortunately, reinforcement learning has shown great success in many tasks by automatic trial and error. However, when it comes to autonomous driving in interactive dense traffic, RL agents either fail to learn reasonable performance or necessitate a large amount of data. Our insight is that when humans learn to drive, they will 1) make decisions over the high-level skill space instead of the low-level control space and 2) leverage expert prior knowledge rather than learning from scratch. Inspired by this, we propose ASAP-RL, an efficient reinforcement learning algorithm for autonomous driving that simultaneously leverages motion skills and expert priors. We first parameterized motion skills, which are diverse enough to cover various complex driving scenarios and situations. A skill parameter inverse recovery method is proposed to convert expert demonstrations from control space to skill space. A simple but effective double initialization technique is proposed to leverage expert priors while bypassing the issue of expert suboptimality and early performance degradation. We validate our proposed method on interactive dense-traffic driving tasks given simple and sparse rewards. Experimental results show that our method can lead to higher learning efficiency and better driving performance relative to previous methods that exploit skills and priors differently. Code is open-sourced to facilitate further research.
翻訳日:2023-05-09 16:05:03 公開日:2023-05-08
# A-ePA*SE: 緩やかな評価のためのエッジベース並列A*

A-ePA*SE: Anytime Edge-Based Parallel A* for Slow Evaluations ( http://arxiv.org/abs/2305.04408v1 )

ライセンス: Link先を確認
Hanlan Yang, Shohin Mukherjee, Maxim Likhachev(参考訳) 任意の時間探索アルゴリズムは、限られた時間予算で解が要求される問題計画に有用である。 anytimeアルゴリズムは、最初に実現可能なソリューションを迅速に提供し、予算が満了するまでそれを改善しようとする。 一方、並列探索アルゴリズムは、現代のプロセッサのマルチスレッディング機能を利用して検索を高速化している。 そのようなアルゴリズムの1つであるePA*SE(Edge-based Parallel A* for Slow Evaluations)は、エッジ評価を並列化してより高速な計画を実現する。 本研究では、ePA*SEに任意のプロパティをもたらす拡張を提案し、その結果、A-ePA*SEとなる。 我々はA-ePA*SEを実験的に評価し、他の検索方法よりもはるかに効率的であることを示す。 a-epa*seのオープンソースコードは、ベースラインとともに、ここで入手できる。 https://github.com/shohinm/parallel_search。

Anytime search algorithms are useful for planning problems where a solution is desired under a limited time budget. Anytime algorithms first aim to provide a feasible solution quickly and then attempt to improve it until the time budget expires. On the other hand, parallel search algorithms utilize the multithreading capability of modern processors to speed up the search. One such algorithm, ePA*SE (Edge-Based Parallel A* for Slow Evaluations), parallelizes edge evaluations to achieve faster planning and is especially useful in domains with expensive-to-compute edges. In this work, we propose an extension that brings the anytime property to ePA*SE, resulting in A-ePA*SE. We evaluate A-ePA*SE experimentally and show that it is significantly more efficient than other anytime search methods. The open-source code for A-ePA*SE, along with the baselines, is available here: https://github.com/shohinm/parallel_search
翻訳日:2023-05-09 16:04:44 公開日:2023-05-08
# TaLU: ニューラルネットワークの強化にTanhとrectified Linear Unitを組み合わせたハイブリッド活性化関数

TaLU: A Hybrid Activation Function Combining Tanh and Rectified Linear Unit to Enhance Neural Networks ( http://arxiv.org/abs/2305.04402v1 )

ライセンス: Link先を確認
Md. Mehedi Hasan, Md. Ali Hossain, Azmain. Yakin Srizon, Abu Sayeed(参考訳) 分類におけるディープラーニングモデルの適用は、ターゲットオブジェクトの正確な検出において重要な役割を果たす。 しかし、その精度は、隠蔽・出力層における活性化関数に影響される。 本稿では,tanh と rectified linear units (relu) の組み合わせである talu と呼ばれる活性化関数を用いて予測精度を向上させる。 reluアクティベーション関数は、計算効率、実装の容易さ、直感的な性質など、多くのディープラーニング研究者によって使用されている。 しかし、それは衰退する勾配問題に悩まされている。 例えば、入力が負の場合、その勾配がゼロであるため、出力は常にゼロとなる。 多くの研究者がこの問題を解決するために異なるアプローチを用いた。 最も有名なものは、LeakyReLU、Softplus、Softsign、Elu、ThresholdedReLUなどである。 本研究では,TanhとReLUを組み合わせた活性化機能であるTaLUを開発した。 提案したアクティベーション関数を用いた深層学習モデルをMNISTとCIFAR-10でテストし、ReLUと他の研究したアクティベーション関数の精度(バッチ正規化と合理的な学習率の場合の0\%から6\%まで)で上回った。

The application of the deep learning model in classification plays an important role in the accurate detection of the target objects. However, the accuracy is affected by the activation function in the hidden and output layer. In this paper, an activation function called TaLU, which is a combination of Tanh and Rectified Linear Units (ReLU), is used to improve the prediction. ReLU activation function is used by many deep learning researchers for its computational efficiency, ease of implementation, intuitive nature, etc. However, it suffers from a dying gradient problem. For instance, when the input is negative, its output is always zero because its gradient is zero. A number of researchers used different approaches to solve this issue. Some of the most notable are LeakyReLU, Softplus, Softsign, Elu, ThresholdedReLU, etc. This research developed TaLU, a modified activation function combining Tanh and ReLU, which mitigates the dying gradient problem of ReLU. The deep learning model with the proposed activation function was tested on MNIST and CIFAR-10, and it outperforms ReLU and some other studied activation functions in terms of accuracy(from 0\% upto 6\% in most cases, when used with Batch Normalization and a reasonable learning rate).
翻訳日:2023-05-09 16:04:27 公開日:2023-05-08
# 医用画像のショット・ラーニング : 方法論と形式的数学的枠組みの比較分析

Few Shot Learning for Medical Imaging: A Comparative Analysis of Methodologies and Formal Mathematical Framework ( http://arxiv.org/abs/2305.04401v1 )

ライセンス: Link先を確認
Jannatul Nayem, Sayed Sahriar Hasan, Noshin Amina, Bristy Das, Md Shahin Ali, Md Manjurul Ahsan, Shivakumar Raman(参考訳) ディープラーニングは多くの機械学習タスクの配置に関する高次の文脈となり、構造化されていないデータから特徴を抽出するブレークスルーの隆起を示している。 医療画像処理分野では、この隆盛が進んでいるが、医療分野における深層学習の容易な適用方法において、問題に依存したトレーニングデータの不足が大きな問題となっている。 限定されたデータソースを解くために、研究者は ``few shot learning" と呼ばれる少ないデータで機械学習問題を解決するモデルを開発した。 分類とセグメンテーション手法を用いて、小さなデータセットから特徴を抽出することにより、データ制限を解くホットラーニングアルゴリズムはほとんどない。 医療分野では、いくつかの機密疾患に関して利用可能なデータセットがしばしば不足している。 それゆえ、このデータ不足セクターのリムジンを得られるショット学習はほとんどない。 本章では、いくつかの学習ショットの背景と基本的な概要を述べる。 このことから、数発学習の分類も記述されている。 医用画像解析における方法論的アプローチを時間とともに比較した。 医用画像に関する少数ショット学習の実践の進歩を概説する。 医療画像分野におけるこの領域の今後の展望についてさらに述べる。

Deep learning becomes an elevated context regarding disposing of many machine learning tasks and has shown a breakthrough upliftment to extract features from unstructured data. Though this flourishing context is developing in the medical image processing sector, scarcity of problem-dependent training data has become a larger issue in the way of easy application of deep learning in the medical sector. To unravel the confined data source, researchers have developed a model that can solve machine learning problems with fewer data called ``Few shot learning". Few hot learning algorithms determine to solve the data limitation problems by extracting the characteristics from a small dataset through classification and segmentation methods. In the medical sector, there is frequently a shortage of available datasets in respect of some confidential diseases. Therefore, Few shot learning gets the limelight in this data scarcity sector. In this chapter, the background and basic overview of a few shots of learning is represented. Henceforth, the classification of few-shot learning is described also. Even the paper shows a comparison of methodological approaches that are applied in medical image analysis over time. The current advancement in the implementation of few-shot learning concerning medical imaging is illustrated. The future scope of this domain in the medical imaging sector is further described.
翻訳日:2023-05-09 16:04:04 公開日:2023-05-08
# 大きな言語モデルは、人間に似た決定ヒューリスティックを示すか? GPT-3.5を用いた一症例

Do Large Language Models Show Decision Heuristics Similar to Humans? A Case Study Using GPT-3.5 ( http://arxiv.org/abs/2305.04400v1 )

ライセンス: Link先を確認
Gaurav Suri, Lily R. Slater, Ali Ziaee, Morgan Nguyen(参考訳) 大規模言語モデル(英: large language model、llm)は、膨大な量の自然言語データに基づいて訓練された人工知能システムである。 GPT-3.5は、ChatGPTと呼ばれる会話エージェントをサポートするLLMの例である。 本研究では,ChatGPTがヒューリスティックス,バイアス,その他の決定効果を示すかどうかを判定するために,一連の新しいプロンプトを用いた。 また、同じプロンプトをヒトでもテストしました。 Across four studies, we found that ChatGPT was influenced by random anchors in making estimates (Anchoring Heuristic, Study 1); it judged the likelihood of two events occurring together to be higher than the likelihood of either event occurring alone, and it was erroneously influenced by salient anecdotal information (Representativeness and Availability Heuristic, Study 2); it found an item to be more efficacious when its features were presented positively rather than negatively - even though both presentations contained identical information (Framing Effect, Study 3); and it valued an owned item more than a newly found item even though the two items were identical (Endowment Effect, Study 4). それぞれの研究で、人間の被験者も同様の効果を示した。 ヒトのヒューリスティックと関連する意思決定効果は、損失回避や労力削減といった認知的および感情的なプロセスによって引き起こされると考えられている。 これらのプロセスが欠如しているLLMは、そのような効果も示しているという事実は、言語がこれらの効果を人体で生成する役割を担っている可能性を考慮させる。

A Large Language Model (LLM) is an artificial intelligence system that has been trained on vast amounts of natural language data, enabling it to generate human-like responses to written or spoken language input. GPT-3.5 is an example of an LLM that supports a conversational agent called ChatGPT. In this work, we used a series of novel prompts to determine whether ChatGPT shows heuristics, biases, and other decision effects. We also tested the same prompts on human participants. Across four studies, we found that ChatGPT was influenced by random anchors in making estimates (Anchoring Heuristic, Study 1); it judged the likelihood of two events occurring together to be higher than the likelihood of either event occurring alone, and it was erroneously influenced by salient anecdotal information (Representativeness and Availability Heuristic, Study 2); it found an item to be more efficacious when its features were presented positively rather than negatively - even though both presentations contained identical information (Framing Effect, Study 3); and it valued an owned item more than a newly found item even though the two items were identical (Endowment Effect, Study 4). In each study, human participants showed similar effects. Heuristics and related decision effects in humans are thought to be driven by cognitive and affective processes such as loss aversion and effort reduction. The fact that an LLM - which lacks these processes - also shows such effects invites consideration of the possibility that language may play a role in generating these effects in humans.
翻訳日:2023-05-09 16:03:47 公開日:2023-05-08
# SegGPTがコ・サリエンシ・シーンを発表

SegGPT Meets Co-Saliency Scene ( http://arxiv.org/abs/2305.04396v1 )

ライセンス: Link先を確認
Yi Liu, Shoukun Xu, Dingwen Zhang, Jungong Han(参考訳) 画像群間で共存している有向物体を検出するための共塩物検出ターゲット。 近年,SegGPTと呼ばれる,コンテキスト内の全てのセグメンテーションに関する一般化モデルが注目されている。 セグメンテーションのブレークスルーを考えると、コサレントな物体検出のタスクへの貢献を調査するのを待つことはほとんどできない。 本報告では,seggptを共塩物体検出に有効化するフレームワークを最初に設計する。 次のステップでは、3つの利用可能なデータセット上での協調オブジェクト検出問題に対するseggptの性能評価を行う。 我々は、コ・サリエンシ・シーンが、コ・サリエンシ・イメージのグループ内のコンテキストの相違により、SegGPTに挑戦することを示す。

Co-salient object detection targets at detecting co-existed salient objects among a group of images. Recently, a generalist model for segmenting everything in context, called SegGPT, is gaining public attention. In view of its breakthrough for segmentation, we can hardly wait to probe into its contribution to the task of co-salient object detection. In this report, we first design a framework to enable SegGPT for the problem of co-salient object detection. Proceed to the next step, we evaluate the performance of SegGPT on the problem of co-salient object detection on three available datasets. We achieve a finding that co-saliency scenes challenges SegGPT due to context discrepancy within a group of co-saliency images.
翻訳日:2023-05-09 16:03:24 公開日:2023-05-08
# 局所ヒストグラム等化に基づく画像差強調特徴を用いた逆例検出

Adversarial Examples Detection with Enhanced Image Difference Features based on Local Histogram Equalization ( http://arxiv.org/abs/2305.04436v1 )

ライセンス: Link先を確認
Zhaoxia Yin and Shaowei Zhu and Hang Su and Jianteng Peng and Wanli Lyu and Bin Luo(参考訳) 近年、ディープニューラルネットワーク(DNN)は多くの分野で大きな進歩を遂げている。 しかし、研究では、DNNは敵の例に弱いことが示されており、もし完全なモデルパラメータがアクセスできないとしても、知覚不能な摂動はDNNを著しく誤解させる可能性がある。 特徴圧縮や勾配マスキングなど,様々な防御手法が提案されている。 しかし、多くの研究により、以前の方法が特定の攻撃に対して検出または防御を生じさせることが証明されており、これは最新の未知の攻撃方法に対して効果のない方法である。 敵の摂動の可視性は、敵の例攻撃に対する評価指標の1つであり、また、敵の例と通常の例における高周波情報の局所的相関の差が、両者を区別する有効な特徴として利用できることを意味する。 そこで本研究では,実例と正規例の特徴的差異を効果的に抽出・増幅できる,高周波情報強化戦略に基づく逆例検出フレームワークを提案する。 実験の結果、機能拡張モジュールは、このフレームワークの下で、既存の検出モデルと結合できることがわかった。 検出器の性能を改善し、既存の検出モデルを変更することなく配置コストを削減する。

Deep Neural Networks (DNNs) have recently made significant progress in many fields. However, studies have shown that DNNs are vulnerable to adversarial examples, where imperceptible perturbations can greatly mislead DNNs even if the full underlying model parameters are not accessible. Various defense methods have been proposed, such as feature compression and gradient masking. However, numerous studies have proven that previous methods create detection or defense against certain attacks, which renders the method ineffective in the face of the latest unknown attack methods. The invisibility of adversarial perturbations is one of the evaluation indicators for adversarial example attacks, which also means that the difference in the local correlation of high-frequency information in adversarial examples and normal examples can be used as an effective feature to distinguish the two. Therefore, we propose an adversarial example detection framework based on a high-frequency information enhancement strategy, which can effectively extract and amplify the feature differences between adversarial examples and normal examples. Experimental results show that the feature augmentation module can be combined with existing detection models in a modular way under this framework. Improve the detector's performance and reduce the deployment cost without modifying the existing detection model.
翻訳日:2023-05-09 15:56:44 公開日:2023-05-08
# エンタングルメント支援マルチパーティ計算の通信複雑性

Communication complexity of entanglement assisted multi-party computation ( http://arxiv.org/abs/2305.04435v1 )

ライセンス: Link先を確認
Ruoyu Meng, Aditya Ramamoorthy(参考訳) プレイヤー2, \dots, n$はプレイヤー1に適切な情報を伝達する必要があるので、適切な約束の'一般化'された'内部積関数を計算できる。 プロトコルの通信複雑性は、通信が必要なビットの総数である。 n$ が素数で選択された関数の場合、量子プロトコル(複雑性 $(n-1) \log n$ ビット)と古典的なプロトコル(複雑性 $(n-1)^2 (\log n^2$) ビット)を示す。 量子プロトコルでは、プレイヤーは絡み合った量子ビットにアクセスするが、通信は古典的である。 さらに,古典的通信複雑性の下位境界を決定する整数線形プログラミングの定式化を提案する。 これは、量子プロトコルが古典的プロトコルよりも厳密に優れていることを示す。

We consider a quantum and classical version multi-party function computation problem with $n$ players, where players $2, \dots, n$ need to communicate appropriate information to player 1, so that a ``generalized'' inner product function with an appropriate promise can be calculated. The communication complexity of a protocol is the total number of bits that need to be communicated. When $n$ is prime and for our chosen function, we exhibit a quantum protocol (with complexity $(n-1) \log n$ bits) and a classical protocol (with complexity $(n-1)^2 (\log n^2$) bits). In the quantum protocol, the players have access to entangled qudits but the communication is still classical. Furthermore, we present an integer linear programming formulation for determining a lower bound on the classical communication complexity. This demonstrates that our quantum protocol is strictly better than classical protocols.
翻訳日:2023-05-09 15:56:10 公開日:2023-05-08
# 等式とボックス制約を伴う最適化問題のクラスに対する高速化アルゴリズム

Accelerated Algorithms for a Class of Optimization Problems with Equality and Box Constraints ( http://arxiv.org/abs/2305.04433v1 )

ライセンス: Link先を確認
Anjali Parashar, Priyank Srivastava, Anuradha M. Annaswamy(参考訳) 等式と不等式制約を伴う凸最適化は、大規模システムにおけるいくつかの最適化および制御問題においてユビキタス問題である。 近年、損失関数の収束を加速させることに多くの関心が寄せられている。 近年,制約が存在しない場合の収束を加速するために,高次チューナーのクラスが提案されている。 本稿では,等式制約の存在を満足できる新しい高階調律器を提案する。 ボックス制約を満たすために、凸性を活用して制約を常に実現可能にする高次チューナーに時間変化ゲインを導入する。 理論的導出を支持する数値的な例が提供される。

Convex optimization with equality and inequality constraints is a ubiquitous problem in several optimization and control problems in large-scale systems. Recently there has been a lot of interest in establishing accelerated convergence of the loss function. A class of high-order tuners was recently proposed in an effort to lead to accelerated convergence for the case when no constraints are present. In this paper, we propose a new high-order tuner that can accommodate the presence of equality constraints. In order to accommodate the underlying box constraints, time-varying gains are introduced in the high-order tuner which leverage convexity and ensure anytime feasibility of the constraints. Numerical examples are provided to support the theoretical derivations.
翻訳日:2023-05-09 15:55:31 公開日:2023-05-08
# 冗長観測による目標指向環境推定

Goal-oriented inference of environment from redundant observations ( http://arxiv.org/abs/2305.04432v1 )

ライセンス: Link先を確認
Kazuki Takahashi, Tomoki Fukai, Yutaka Sakai, Takashi Takekawa(参考訳) エージェントは、報酬の最大化などの行動目標を達成するために意思決定行動の整理を学習し、この最適化にしばしば強化学習が使用される。 最適な行動戦略を学ぶことは、学習に必要なイベントが部分的に観測可能であり、部分観測可能なマルコフ決定プロセス(pomdp)と呼ばれる不確実性の下で難しい。 しかし、現実の環境はまた、配達と最適な行動戦略に無関係な多くのイベントを与える。 無関係な状態を含む観測全体の遷移規則を推論しようとする従来のPOMDPの手法は、そのような環境では効果がない。 本稿では,報酬関係の「中核状態」間の状態遷移規則を冗長な観測から効率的に学習する目的指向強化学習法を提案する。 少数の初期コア状態から始めて、このモデルがベルマン方程式と一致する最適挙動戦略を達成するまで、段階的に遷移ダイアグラムに新しいコア状態を追加する。 提案手法は従来のPMDP法よりも優れていることを示す。 我々は、コア状態のみを含むモデルが説明可能性が高いことを強調する。 さらに,提案手法は,メモリ消費を抑え,学習速度を向上させるため,オンライン学習に適合する。

The agent learns to organize decision behavior to achieve a behavioral goal, such as reward maximization, and reinforcement learning is often used for this optimization. Learning an optimal behavioral strategy is difficult under the uncertainty that events necessary for learning are only partially observable, called as Partially Observable Markov Decision Process (POMDP). However, the real-world environment also gives many events irrelevant to reward delivery and an optimal behavioral strategy. The conventional methods in POMDP, which attempt to infer transition rules among the entire observations, including irrelevant states, are ineffective in such an environment. Supposing Redundantly Observable Markov Decision Process (ROMDP), here we propose a method for goal-oriented reinforcement learning to efficiently learn state transition rules among reward-related "core states'' from redundant observations. Starting with a small number of initial core states, our model gradually adds new core states to the transition diagram until it achieves an optimal behavioral strategy consistent with the Bellman equation. We demonstrate that the resultant inference model outperforms the conventional method for POMDP. We emphasize that our model only containing the core states has high explainability. Furthermore, the proposed method suits online learning as it suppresses memory consumption and improves learning speed.
翻訳日:2023-05-09 15:55:12 公開日:2023-05-08
# ヘイズを突破する:高速フーリエ畳み込みとConvNeXtに基づく高度非均一脱ハージング法

Breaking Through the Haze: An Advanced Non-Homogeneous Dehazing Method based on Fast Fourier Convolution and ConvNeXt ( http://arxiv.org/abs/2305.04430v1 )

ライセンス: Link先を確認
Han Zhou, Wei Dong, Yangyi Liu and Jun Chen(参考訳) ヘイズは通常、コントラスト、色シフト、構造的歪みの少ない劣化画像に繋がる。 深層学習に基づくモデルの多くは、均一なヘイズを除去する際、例外的な性能を示すが、非均一なデハジングの課題に対処できないことが多い。 この状況には2つの要因がある。 第一に,高密度ヘイズが複雑かつ均一に分布するため,特に重いヘイズのある地域では,高忠実度で構造的・彩色的特徴の回復が困難である。 第2に,不均質なデハジングのための既存の小規模データセットは,畳み込みニューラルネットワーク(cnn)に基づくモデルにより,ヘイズ画像と対応するヘイズフリー画像間の特徴マッピングの信頼性の高い学習を支援するには不十分である。 これら2つの課題に対処するため、2次元離散ウェーブレット変換(DWT)、高速フーリエ畳み込み(FFC)残差ブロック、事前訓練されたConvNeXtモデルを活用する2つの分岐ネットワークを提案する。 具体的には、DWT-FFC周波数分岐において、DWTを利用してより高周波な特徴を捉える。 さらに,FFC残差ブロックによって提供される大きな受容場を利用して,グローバルな文脈情報を効果的に探索し,知覚品質の高い画像を生成することができる。 以前の知識ブランチでは、Res2Netとは対照的に、ImageNetが事前訓練したConvNeXtが採用されている。 これによってモデルはさらに補足的な情報を学び、より強固な一般化能力を得ることができます。 提案法の有効性と有効性を広範囲な実験とアブレーション実験により実証した。 コードはhttps://github.com/zhouh115/DWT-FFCで公開されている。

Haze usually leads to deteriorated images with low contrast, color shift and structural distortion. We observe that many deep learning based models exhibit exceptional performance on removing homogeneous haze, but they usually fail to address the challenge of non-homogeneous dehazing. Two main factors account for this situation. Firstly, due to the intricate and non uniform distribution of dense haze, the recovery of structural and chromatic features with high fidelity is challenging, particularly in regions with heavy haze. Secondly, the existing small scale datasets for non-homogeneous dehazing are inadequate to support reliable learning of feature mappings between hazy images and their corresponding haze-free counterparts by convolutional neural network (CNN)-based models. To tackle these two challenges, we propose a novel two branch network that leverages 2D discrete wavelete transform (DWT), fast Fourier convolution (FFC) residual block and a pretrained ConvNeXt model. Specifically, in the DWT-FFC frequency branch, our model exploits DWT to capture more high-frequency features. Moreover, by taking advantage of the large receptive field provided by FFC residual blocks, our model is able to effectively explore global contextual information and produce images with better perceptual quality. In the prior knowledge branch, an ImageNet pretrained ConvNeXt as opposed to Res2Net is adopted. This enables our model to learn more supplementary information and acquire a stronger generalization ability. The feasibility and effectiveness of the proposed method is demonstrated via extensive experiments and ablation studies. The code is available at https://github.com/zhouh115/DWT-FFC.
翻訳日:2023-05-09 15:54:53 公開日:2023-05-08
# ステップバイステップ命令によるクロスタスク一般化の改善

Improving Cross-Task Generalization with Step-by-Step Instructions ( http://arxiv.org/abs/2305.04429v1 )

ライセンス: Link先を確認
Yang Wu, Yanyan Zhao, Zhongyang Li, Bing Qin, Kai Xiong(参考訳) インストラクションチューニングは、言語モデルのクロスタスク一般化を改善することができる。 しかし、命令が一般的であり、中間ステップが欠如しているため、言語モデルが命令に従うターゲットタスクを完了することは依然として困難である。 この問題に対処するため,我々は,言語モデルがタスクを分解するのを助けるためのステップバイステップ命令を組み込むことを提案し,目的とするタスクを完了するための詳細かつ具体的な手順を提供する。 ステップバイステップ命令は、chatgptを促すことによって自動的に得られ、さらに元の命令と組み合わせて言語モデルをチューニングする。 SUP-NATINSTの広範な実験により、高品質なステップバイステップ命令が、異なるモデルサイズにわたるクロスタスク一般化を改善することが示されている。 さらに、さらなる分析は、改善のためのステップバイステップ命令のステップ順の重要性を示している。 今後の研究を容易にするため、ステップバイステップの指示と人的品質評価結果をリリースする。

Instruction tuning has been shown to be able to improve cross-task generalization of language models. However, it is still challenging for language models to complete the target tasks following the instructions, as the instructions are general and lack intermediate steps. To address this problem, we propose to incorporate the step-by-step instructions to help language models to decompose the tasks, which can provide the detailed and specific procedures for completing the target tasks. The step-by-step instructions are obtained automatically by prompting ChatGPT, which are further combined with the original instructions to tune language models. The extensive experiments on SUP-NATINST show that the high-quality step-by-step instructions can improve cross-task generalization across different model sizes. Moreover, the further analysis indicates the importance of the order of steps of the step-by-step instruction for the improvement. To facilitate future research, we release the step-by-step instructions and their human quality evaluation results.
翻訳日:2023-05-09 15:54:27 公開日:2023-05-08
# グロタンディーク定数の上界、量子相関行列およびCCP関数

Upper bounds for Grothendieck constants, quantum correlation matrices and CCP functions ( http://arxiv.org/abs/2305.04428v1 )

ライセンス: Link先を確認
Frank Oertel(参考訳) 有名なグロタンディーク不等式 (1953年以降未解決) における実および複素グロタンディーク定数 $k_g^\mathbb{f}$ の未知の正確な値の探索の枠組みの中で、$\mathbb{f}$ は実体または複素体を表すので、最小の上界に集中する。 この目的のために我々は、実ケースにおけるクリヴィン函数や複素ケースにおけるハージェープ関数のようなアダマール積を用いて、相関行列と相関行列をエントリー的に対応付ける関数の上に構築された基本的枠組みを確立する。 By making use of multivariate real and complex Gaussian analysis, higher transcendental functions, integration over spheres and combinatorics of the inversion of Maclaurin series, we provide an approach by which we also recover all famous upper bounds of Grothendieck himself ($K_G^\mathbb{R} \leq \sinh(\pi/2) \approx 2.301$), Krivine ($K_G^\mathbb{R} \leq \frac{\pi}{2 \ln(1 + \sqrt{2})} \approx 1,782$) and Haagerup ($K_G^\mathbb{C} \leq 1.405$, numerically approximated); each of them as a special case. そうすることで、実および複素のケースを可能な限り統一し、ウォルシュ・ハダマード変換('量子ゲート')や多変量ガウス・コプラ(量子論と量子情報理論の基盤を念頭に置いて)などいくつかの具体的な例に結果を応用することを目指している。 さらに、これまで最強推定の証明の短縮と単純化、すなわち$K_G^\mathbb{R} < \frac{\pi}{2 \ln(1 + \sqrt{2})}$である。 我々は,アルゴリズムスキームの形で重要な結果を要約し,関連するオープン問題と今後の研究課題について考察する。

Within the framework of the search for the still unknown exact value of the real and complex Grothendieck constant $K_G^\mathbb{F}$ in the famous Grothendieck inequality (unsolved since 1953), where $\mathbb{F}$ denotes either the real or the complex field, we concentrate our search on their smallest upper bound. To this end, we establish a basic framework, built on functions which map correlation matrices to correlation matrices entrywise by means of the Hadamard product, such as the Krivine function in the real case or the Haagerup function in the complex case. By making use of multivariate real and complex Gaussian analysis, higher transcendental functions, integration over spheres and combinatorics of the inversion of Maclaurin series, we provide an approach by which we also recover all famous upper bounds of Grothendieck himself ($K_G^\mathbb{R} \leq \sinh(\pi/2) \approx 2.301$), Krivine ($K_G^\mathbb{R} \leq \frac{\pi}{2 \ln(1 + \sqrt{2})} \approx 1,782$) and Haagerup ($K_G^\mathbb{C} \leq 1.405$, numerically approximated); each of them as a special case. In doing so, we aim to unify the real and complex case as much as possible and apply our results to several concrete examples, including the Walsh-Hadamard transform (''quantum gate'') and the multivariate Gaussian copula - with foundations of quantum theory and quantum information theory in mind. Moreover, we offer a shortening and a simplification of the proof of the strongest estimation until now; namely that $K_G^\mathbb{R} < \frac{\pi}{2 \ln(1 + \sqrt{2})}$. We summarise our key results in form of an algorithmic scheme and shed light on related open problems and topics for future research.
翻訳日:2023-05-09 15:54:12 公開日:2023-05-08
# 精密顔深度生成とrgb-d相補的特徴学習による2次元顔認識の改善

Improving 2D face recognition via fine-level facial depth generation and RGB-D complementary feature learning ( http://arxiv.org/abs/2305.04426v1 )

ライセンス: Link先を確認
Wenhao Hu(参考訳) 複雑な場面における顔の認識は、ポーズ変形、照明、部分閉塞などの摂動から生じる深刻な課題に悩まされる。 深度推定を利用してRGBに対応する深度を求め、顔認識の精度を向上させる方法もある。 しかし、それらが生み出す深度は画像のぼやけに悩まされ、その後のRGB-D顔認識タスクにノイズが生じる。 さらに,既存のRGB-D顔認識手法では,補完的な特徴を完全に抽出することはできない。 本稿では,細粒度顔深度生成ネットワークと改良されたマルチモーダル相補的特徴学習ネットワークを提案する。 Lock3DFaceデータセットとIIIT-Dデータセットの大規模な実験により、提案したFFDGNetとI MCFLNetは、最先端の性能を達成しつつ、RGB-D顔認識の精度を向上させることができる。

Face recognition in complex scenes suffers severe challenges coming from perturbations such as pose deformation, ill illumination, partial occlusion. Some methods utilize depth estimation to obtain depth corresponding to RGB to improve the accuracy of face recognition. However, the depth generated by them suffer from image blur, which introduces noise in subsequent RGB-D face recognition tasks. In addition, existing RGB-D face recognition methods are unable to fully extract complementary features. In this paper, we propose a fine-grained facial depth generation network and an improved multimodal complementary feature learning network. Extensive experiments on the Lock3DFace dataset and the IIIT-D dataset show that the proposed FFDGNet and I MCFLNet can improve the accuracy of RGB-D face recognition while achieving the state-of-the-art performance.
翻訳日:2023-05-09 15:53:39 公開日:2023-05-08
# 変分量子固有解法のためのモジュラークラスタ回路

Modular Cluster Circuits for the Variational Quantum Eigensolver ( http://arxiv.org/abs/2305.04425v1 )

ライセンス: Link先を確認
Seyed Ehsan Ghasempouri and Gerhard W. Dueck and Stijn De Baerdemacker(参考訳) 変分量子固有ソルバ(vqe)アルゴリズムは、ノイズの多い中間スケール量子(nisq)デバイス上で分子の量子化学的性質を計算する一般的な方法となった。 VQEは、変動波動関数が量子デバイス上の量子回路として実装されるハイブリッド量子古典的アルゴリズムであり、一方、回路の最適化は古典的なコンピュータ上で行われる。 回路内のnisqデバイスからのノイズの蓄積を避けるため、いわゆる回路の量子深さを最小に保ち、シーケンシャルに動作する必要がある最小数の量子ゲートとして定義することが望ましい。 本研究では,従来提案していた化学精度を損なうことなく,深層量子回路の設計を可能にするモジュール型2量子ビットクラスタ回路を提案する。 また、クラスタ回路の簡素化により、クラスタ回路に原子価結合化学解釈を割り当てることができる。 設計はh2、(h2)2、lih分子、および有限サイズの横磁場イジングモデルで試験され、後者は共鳴原子価結合図における回路構築に関するさらなる洞察を提供する。

The variational quantum eigensolver (VQE) algorithm recently became a popular method to compute quantum chemical properties of molecules on noisy intermediate scale quantum (NISQ) devices. The VQE is a hybrid quantum-classical algorithm in which the variational wavefunction is implemented as a quantum circuit on the quantum device, whereas the optimization of the circuit happens on a classical computer. In order to avoid noise accumulation from the NISQ device in the circuit, it is adament to keep the so-called quantum depth of the circuit at a minimum, defined as the minimum number of quantum gates that need to be operated sequentially. In the present work, we introduce a modular 2-qubit cluster circuit that allows for the design of a shallow-depth quantum circuit compared to previously proposed architectures without loss of chemical accuracy. Moreover, by virtue of the simplicity of the cluster circuit, it is possible to assign a valence bond chemical interpretation to the cluster circuit. The design was tested on the H2, (H2)2 and LiH molecules, as well as the finite-size transverse-field Ising model, as the latter provides additional insights in the construction of the circuit in a resonating valence bond picture.
翻訳日:2023-05-09 15:53:23 公開日:2023-05-08
# マンモグラフィをスクリーニングする人工知能モデルの性能ギャップ --公正かつ解釈可能なモデルに向けて-

Performance Gaps of Artificial Intelligence Models Screening Mammography -- Towards Fair and Interpretable Models ( http://arxiv.org/abs/2305.04422v1 )

ライセンス: Link先を確認
Linglin Zhang, Beatrice Brown-Mulry, Vineela Nalla, InChan Hwang, Judy Wawira Gichoya, Aimilia Gastounioti, Imon Banerjee, Laleh Seyyed-Kalantari, MinJae Woo, Hari Trivedi(参考訳) 目的:マンモグラム検診における異常分類の失敗リスクの増加に伴う人口動態と画像の特徴を解析すること。 材料と方法: この振り返り研究は、2013年から2020年にかけてエモリー大学医療センターで撮影された115,931人のマンモグラムを含むEMBED(Emory BrEast Imaging Dataset)のデータを使用した。 臨床および画像データには、乳房画像報告・データシステム(BI-RADS)の評価、異常に対する関心座標の領域、画像の特徴、病理学的結果、および患者の人口統計が含まれる。 異常組織のパッチとランダムに選択された正常組織のパッチをスクリーニングマンモグラムと区別するために,複数のディープラーニングモデルを開発した。 年齢,人種,病理学的結果,画像的特徴によって定義されるサブグループ内でのモデル性能を評価し,誤分類の原因を評価する。 結果: テストセットサイズ5,810(パッチ13,390枚)では, 正常組織と異常組織を分類するResNet152V2モデルが92.6%(95% CI = 92.0-93.2%), 受信機操作特性曲線0.975(95% CI = 0.972-0.978)の精度を得た。 画像の誤分類に関連する画像の特徴としては、高次組織密度(リスク比 [RR]=1.649; p=.010, BI-RADS 密度 C と RR=2.026; p=.003, BI-RADS 密度 D)、構造歪み(RR=1.026; p<.001)がある。 結語: 異常分類のための深層学習モデルは, マンモグラフィーのスクリーニングにおいて良好に機能するが, モデル性能が悪化する特定の画像特徴を示す。 これは、様々なサブグループによる乳房異常分類を体系的に評価する最初の研究であり、偏りのあるモデルパフォーマンスを経験する可能性のある人口サブグループのより優れた開発者とエンドユーザである。

Purpose: To analyze the demographic and imaging characteristics associated with increased risk of failure for abnormality classification in screening mammograms. Materials and Methods: This retrospective study used data from the Emory BrEast Imaging Dataset (EMBED) which includes mammograms from 115,931 patients imaged at Emory University Healthcare between 2013 to 2020. Clinical and imaging data includes Breast Imaging Reporting and Data System (BI-RADS) assessment, region of interest coordinates for abnormalities, imaging features, pathologic outcomes, and patient demographics. Multiple deep learning models were developed to distinguish between patches of abnormal tissue and randomly selected patches of normal tissue from the screening mammograms. We assessed model performance overall and within subgroups defined by age, race, pathologic outcome, and imaging characteristics to evaluate reasons for misclassifications. Results: On a test set size of 5,810 studies (13,390 patches), a ResNet152V2 model trained to classify normal versus abnormal tissue patches achieved an accuracy of 92.6% (95% CI = 92.0-93.2%), and area under the receiver operative characteristics curve 0.975 (95% CI = 0.972-0.978). Imaging characteristics associated with higher misclassifications of images include higher tissue densities (risk ratio [RR]=1.649; p=.010, BI-RADS density C and RR=2.026; p=.003, BI-RADS density D), and presence of architectural distortion (RR=1.026; p<.001). Conclusion: Even though deep learning models for abnormality classification can perform well in screening mammography, we demonstrate certain imaging features that result in worse model performance. This is the first such work to systematically evaluate breast abnormality classification by various subgroups and better-informed developers and end-users of population subgroups which are likely to experience biased model performance.
翻訳日:2023-05-09 15:53:05 公開日:2023-05-08
# 拡散モデルによる実世界の雑音除去

Real-World Denoising via Diffusion Model ( http://arxiv.org/abs/2305.04457v1 )

ライセンス: Link先を確認
Cheng Yang and Lijing Liang and Zhixun Su(参考訳) 自然環境下で撮影されたノイズの多い画像からクリーンな画像を復元することを目的としている。 近年、拡散モデルは画像生成の分野で非常に有望な結果をもたらし、前世代のモデルよりも優れている。 しかし、付加ノイズの適切な位置の制御が難しいため、画像表示の分野では広く使われていない。 拡散モデルにインスパイアされた本論文では,実世界の画像復調に使用できる新しい一般化拡散モデルを提案する。 線形補間による拡散過程を導入し,その中間ノイズ像を元のクリーン画像と対応する実世界のノイズ像から補間することにより,この拡散モデルが付加雑音のレベルを処理できるようにする。 特に,この拡散モデルに対して2つのサンプリングアルゴリズムを導入する。 第1は拡散過程に従って定義された単純なサンプリング手順であり、第2は第1の課題を目標とし、多くの改善を行う。 実験の結果,提案手法は単純なCNNUnetを用いて,Transformerアーキテクチャと比較した結果が得られた。 実世界の分別ベンチマークにおける定量的・質的評価は,提案手法が最先端手法とほぼ同等の性能を発揮することを示した。

Real-world image denoising is an extremely important image processing problem, which aims to recover clean images from noisy images captured in natural environments. In recent years, diffusion models have achieved very promising results in the field of image generation, outperforming previous generation models. However, it has not been widely used in the field of image denoising because it is difficult to control the appropriate position of the added noise. Inspired by diffusion models, this paper proposes a novel general denoising diffusion model that can be used for real-world image denoising. We introduce a diffusion process with linear interpolation, and the intermediate noisy image is interpolated from the original clean image and the corresponding real-world noisy image, so that this diffusion model can handle the level of added noise. In particular, we also introduce two sampling algorithms for this diffusion model. The first one is a simple sampling procedure defined according to the diffusion process, and the second one targets the problem of the first one and makes a number of improvements. Our experimental results show that our proposed method with a simple CNNs Unet achieves comparable results compared to the Transformer architecture. Both quantitative and qualitative evaluations on real-world denoising benchmarks show that the proposed general diffusion model performs almost as well as against the state-of-the-art methods.
翻訳日:2023-05-09 15:47:02 公開日:2023-05-08
# 量子交互演算子アンザッツ(QAOA)は、徐々に変化するユニタリを持つ低深さを超える

Quantum Alternating Operator Ansatz (QAOA) beyond low depth with gradually changing unitaries ( http://arxiv.org/abs/2305.04455v1 )

ライセンス: Link先を確認
Vladimir Kremenetski, Anuj Apte, Tad Hogg, Stuart Hadfield, and Norm M. Tubman(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm and its generalization to Quantum Alternating Operator Ansatz, QAOA)は、組合せ最適化や計算化学といった問題に量子コンピュータを適用するための有望なアプローチである。 本稿では,段階的に変化するユニタリの設定において,浅い深さを超えたqaoa回路の挙動を規定するメカニズムについて検討する。 先行研究で主に考慮される連続時間断熱定理から得られた洞察を補って一般化する離散断熱定理を用いる。 今回の分析では,最近導入されたqaoaパフォーマンス図で顕著に表される一般的な特性について解説する。 連続スケジュール(例えば線形ランプ)から派生したパラメータシーケンスでは、これらのダイアグラムは異なるパラメータサイズと回路深度でアルゴリズムの性能をキャプチャする。 驚くべきことに、それらは異なるパフォーマンスメトリクスとアプリケーションドメインで質的に類似している。 分析では,パラメータサイズに基づいて変化するコストの固有状態とミキサーQAOAハミルトニアンの接続や,性能を犠牲にすることなく回路深さを減少させる可能性など,予期せぬ結果も説明できる。

The Quantum Approximate Optimization Algorithm and its generalization to Quantum Alternating Operator Ansatz (QAOA) is a promising approach for applying quantum computers to challenging problems such as combinatorial optimization and computational chemistry. In this paper, we study the underlying mechanisms governing the behavior of QAOA circuits beyond shallow depth in the practically relevant setting of gradually varying unitaries. We use the discrete adiabatic theorem, which complements and generalizes the insights obtained from the continuous-time adiabatic theorem primarily considered in prior work. Our analysis explains some general properties that are conspicuously depicted in the recently introduced QAOA performance diagrams. For parameter sequences derived from continuous schedules (e.g. linear ramps), these diagrams capture the algorithm's performance over different parameter sizes and circuit depths. Surprisingly, they have been observed to be qualitatively similar across different performance metrics and application domains. Our analysis explains this behavior as well as entails some unexpected results, such as connections between the eigenstates of the cost and mixer QAOA Hamiltonians changing based on parameter size and the possibility of reducing circuit depth without sacrificing performance.
翻訳日:2023-05-09 15:46:42 公開日:2023-05-08
# fashiontex:テキストとテクスチャでコントロール可能な仮想トライオン

FashionTex: Controllable Virtual Try-on with Text and Texture ( http://arxiv.org/abs/2305.04451v1 )

ライセンス: Link先を確認
Anran Lin, Nanxuan Zhao, Shuliang Ning, Yuda Qiu, Baoyuan Wang, Xiaoguang Han(参考訳) 仮想試着は、オンライン布ショッピングのユーザエクスペリエンスを高めるための有望な方法として、研究の注目を集めている。 既存の手法は印象的な結果を生み出すことができるが、ユーザーは、しばしば存在しないファッション服を含むよく設計された参照画像を提供する必要がある。 フルボディポートレートにおけるユーザフレンドリなファッションカスタマイズを支援するために,テキストとテクスチャの利点を組み合わせたマルチモード対話型セッティングを提案する。 注意深く設計されたファッション編集モジュールとロス関数により、fashiontexフレームワークは、ペアワイズトレーニングデータをアノテートすることなく、布型とローカルテクスチャパターンをセマンティックに制御することができる。 さらに、入力ポートレートの同一性を維持するためのID回復モジュールを導入する。 大規模実験により,提案パイプラインの有効性が実証された。

Virtual try-on attracts increasing research attention as a promising way for enhancing the user experience for online cloth shopping. Though existing methods can generate impressive results, users need to provide a well-designed reference image containing the target fashion clothes that often do not exist. To support user-friendly fashion customization in full-body portraits, we propose a multi-modal interactive setting by combining the advantages of both text and texture for multi-level fashion manipulation. With the carefully designed fashion editing module and loss functions, FashionTex framework can semantically control cloth types and local texture patterns without annotated pairwise training data. We further introduce an ID recovery module to maintain the identity of input portrait. Extensive experiments have demonstrated the effectiveness of our proposed pipeline.
翻訳日:2023-05-09 15:46:19 公開日:2023-05-08
# DeformerNet:3次元変形可能な物体のバイマニピュレーション学習

DeformerNet: Learning Bimanual Manipulation of 3D Deformable Objects ( http://arxiv.org/abs/2305.04449v1 )

ライセンス: Link先を確認
Bao Thach, Brian Y. Cho, Tucker Hermans, Alan Kuntz(参考訳) ホームケアから倉庫のフルフィルメント、外科支援まで幅広い分野の応用には、ロボットが3d変形可能な物体の形を確実に操作する必要がある。 弾性のある3次元変形可能な物体の解析モデルは、物体の形状を決定する際に存在する無限の自由度を記述するために多くのパラメータを必要とする。 従来の3D形状制御の試みは、オブジェクト形状を表現するために手作りの特徴に依存しており、オブジェクト固有の制御モデルの訓練が必要である。 我々は,操作対象の部分視点点クラウドと目標形状の点クラウドを用いて,オブジェクト形状の低次元表現を学習する新しいdeformernetニューラルネットワークアーキテクチャを用いて,これらの問題を克服した。 この形状埋め込みにより、ロボットは所望のロボットエンドエフェクタ動作を計算するビジュアルサーボコントローラを学習し、対象の形状に向かって物体を反復的に変形させることができる。 DeformerNetがトレーニング中に見えない物体の形状や材料硬さを確実に一般化する物理ロボットのシミュレーションと実演を行った。 DeformerNetを使って、このロボットは3つの手術的なサブタスクをうまく達成する。リトラクション(組織をその下にある部位へアクセスするために移動させる)、組織包み(大動脈ステントの配置のような手順におけるサブタスク)、そして2つの管状組織(肛門のサブタスク)を接続する。

Applications in fields ranging from home care to warehouse fulfillment to surgical assistance require robots to reliably manipulate the shape of 3D deformable objects. Analytic models of elastic, 3D deformable objects require numerous parameters to describe the potentially infinite degrees of freedom present in determining the object's shape. Previous attempts at performing 3D shape control rely on hand-crafted features to represent the object shape and require training of object-specific control models. We overcome these issues through the use of our novel DeformerNet neural network architecture, which operates on a partial-view point cloud of the manipulated object and a point cloud of the goal shape to learn a low-dimensional representation of the object shape. This shape embedding enables the robot to learn a visual servo controller that computes the desired robot end-effector action to iteratively deform the object toward the target shape. We demonstrate both in simulation and on a physical robot that DeformerNet reliably generalizes to object shapes and material stiffness not seen during training. Crucially, using DeformerNet, the robot successfully accomplishes three surgical sub-tasks: retraction (moving tissue aside to access a site underneath it), tissue wrapping (a sub-task in procedures like aortic stent placements), and connecting two tubular pieces of tissue (a sub-task in anastomosis).
翻訳日:2023-05-09 15:46:06 公開日:2023-05-08
# 中国有毒言語における微粒度検出の促進 : 階層分類、資源、ベンチマーク

Facilitating Fine-grained Detection of Chinese Toxic Language: Hierarchical Taxonomy, Resources, and Benchmarks ( http://arxiv.org/abs/2305.04446v1 )

ライセンス: Link先を確認
Junyu Lu, Bo Xu, Xiaokun Zhang, Changrong Min, Liang Yang, Hongfei Lin(参考訳) 有害なオンライン投稿の普及が社会に打撃を与えつつある。 しかし、中国語で有毒な言語を検出する研究は大幅に遅れている。 既存のデータセットには、毒性のあるタイプや表現の細かいアノテーションがなく、間接毒性のあるサンプルを無視する。 また,ポストの毒性を検出するには語彙知識の導入が不可欠であり,研究者にとって課題となっている。 本稿では,中国における有害言語の検出を容易にする。 まず,有毒なタイプや表現を分析するための階層分類法である monitor toxic frame を構築した。 そして、直接および間接的な有毒なサンプルを含む詳細なデータセットToxiCNを示す。 また,暗黙の誇張を含む侮辱的語彙を構築し,有害な言語を検出するために語彙的特徴を取り入れたTKE(Toxic Knowledge Enhancement)をベンチマークとして提案する。 実験段階では,TKEの有効性を実証する。 その後, 系統的な定量的, 質的な分析を行った。

The widespread dissemination of toxic online posts is increasingly damaging to society. However, research on detecting toxic language in Chinese has lagged significantly. Existing datasets lack fine-grained annotation of toxic types and expressions, and ignore the samples with indirect toxicity. In addition, it is crucial to introduce lexical knowledge to detect the toxicity of posts, which has been a challenge for researchers. In this paper, we facilitate the fine-grained detection of Chinese toxic language. First, we built Monitor Toxic Frame, a hierarchical taxonomy to analyze toxic types and expressions. Then, a fine-grained dataset ToxiCN is presented, including both direct and indirect toxic samples. We also build an insult lexicon containing implicit profanity and propose Toxic Knowledge Enhancement (TKE) as a benchmark, incorporating the lexical feature to detect toxic language. In the experimental stage, we demonstrate the effectiveness of TKE. After that, a systematic quantitative and qualitative analysis of the findings is given.
翻訳日:2023-05-09 15:45:41 公開日:2023-05-08
# 重み付き因果DAGの新しいメトリクスと探索アルゴリズム

New metrics and search algorithms for weighted causal DAGs ( http://arxiv.org/abs/2305.04445v1 )

ライセンス: Link先を確認
Davin Choo, Kirankumar Shiragur(参考訳) データから因果関係を復元することは重要な問題である。 観測データを用いると、通常はマルコフ同値クラスまで因果グラフを復元するだけで、完全な回復には追加の仮定や介入データが必要である。 本研究では,ノード依存的介入コストによる適応的介入による因果グラフ発見について検討する。 この設定では、検証数に対する頂点数において線形よりも漸近的に良い近似を保証するアルゴリズムが存在しないことを示し、適応探索アルゴリズムのためのよく確立されたベンチマークである。 このネガティブな結果に触発され、検索アルゴリズムの最悪の介入コストをキャプチャする新しいベンチマークを定義する。 さらに,本ベンチマークでは,原子,境界サイズ介入,一般化コスト目標といった,様々な条件下での対数近似を実現する適応探索アルゴリズムを提案する。

Recovering causal relationships from data is an important problem. Using observational data, one can typically only recover causal graphs up to a Markov equivalence class and additional assumptions or interventional data are needed for complete recovery. In this work, under some standard assumptions, we study causal graph discovery via adaptive interventions with node-dependent interventional costs. For this setting, we show that no algorithm can achieve an approximation guarantee that is asymptotically better than linear in the number of vertices with respect to the verification number; a well-established benchmark for adaptive search algorithms. Motivated by this negative result, we define a new benchmark that captures the worst-case interventional cost for any search algorithm. Furthermore, with respect to this new benchmark, we provide adaptive search algorithms that achieve logarithmic approximations under various settings: atomic, bounded size interventions and generalized cost objectives.
翻訳日:2023-05-09 15:45:27 公開日:2023-05-08
# イテレーティブリファインメントによる人間の動作予測の精度向上に向けて

Towards Accurate Human Motion Prediction via Iterative Refinement ( http://arxiv.org/abs/2305.04443v1 )

ライセンス: Link先を確認
Jiarui Sun, Girish Chowdhary(参考訳) 人間の動き予測は、過去の人間の動き軌跡が与えられた後続のポーズシーケンスを予測することを目的としている。 そこで本研究では,人体の運動構造と運動の時間的平滑性を考慮した人間の運動予測フレームワークであるfreqmrnを提案する。 具体的には、freqmrnは、過度に長い動き入力による不正確な動き予測を避けるために、モーションアテンションモジュールを使用して、まず固定サイズの動き履歴サマリーを生成する。 そこでFreqMRNは,空間的時間的認識,速度的認識,大域的平滑性認識の損失によって,動きの表現をポーズ空間と周波数空間の間で前後に変換する動き改善モジュールを提案する。 我々は,Human3.6M,AMASS,3DPWなどの標準ベンチマークデータセット上でFreqMRNを評価する。 実験結果から,FreqMRNは短期および長期の予測において,従来手法よりも優れた強靭性を示した。

Human motion prediction aims to forecast an upcoming pose sequence given a past human motion trajectory. To address the problem, in this work we propose FreqMRN, a human motion prediction framework that takes into account both the kinematic structure of the human body and the temporal smoothness nature of motion. Specifically, FreqMRN first generates a fixed-size motion history summary using a motion attention module, which helps avoid inaccurate motion predictions due to excessively long motion inputs. Then, supervised by the proposed spatial-temporal-aware, velocity-aware and global-smoothness-aware losses, FreqMRN iteratively refines the predicted motion though the proposed motion refinement module, which converts motion representations back and forth between pose space and frequency space. We evaluate FreqMRN on several standard benchmark datasets, including Human3.6M, AMASS and 3DPW. Experimental results demonstrate that FreqMRN outperforms previous methods by large margins for both short-term and long-term predictions, while demonstrating superior robustness.
翻訳日:2023-05-09 15:45:15 公開日:2023-05-08
# 拡散モデルを用いたテキスト駆動画像編集のためのプロンプトチューニングインバージョン

Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion Models ( http://arxiv.org/abs/2305.04441v1 )

ライセンス: Link先を確認
Wenkai Dong, Song Xue, Xiaoyue Duan, Shumin Han(参考訳) 近年の大規模言語画像モデル(テキスト誘導拡散モデルなど)では、様々な領域でフォトリアリスティックな画像を生成する画像生成能力が大幅に向上している。 この成功に基づいて、現在の画像編集法は、直感的で汎用的な画像修正を実現するためにテキストを使用する。 拡散モデルを用いて実際の画像を編集するには、まず、編集された画像を対象のテキストプロンプトでサンプリングするノイズのある潜伏状態に変換する必要がある。 しかし、ほとんどの手法では、ユーザーフレンドリさ(例えば、追加のマスクや入力画像の正確な記述が必要)、より大きな領域への一般化、入力画像への高忠実さの1つが欠落している。 本稿では,テキスト駆動画像編集のための高精度かつ迅速な変換手法であるPrompt Tuning Inversionを設計する。 具体的には,再構成段階と編集段階からなる編集手法を提案する。 第1段階では,入力画像の情報をPrompt Tuning Inversion経由で学習可能な条件埋め込みに符号化する。 第2段階では,対象埋め込みと第1段で得られた最適化画像とを線形補間することにより条件埋め込みを計算した編集画像のサンプルに分類器フリーガイダンスを適用する。 この手法は, 編集性と入力画像に対する忠実度を両立させるものである。 例えば、ターゲットテキストプロンプトのみのガイダンスの下で、元の形状と背景を維持しながら、特定のオブジェクトの色を変更することができる。 ImageNetの大規模な実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを示した。

Recently large-scale language-image models (e.g., text-guided diffusion models) have considerably improved the image generation capabilities to generate photorealistic images in various domains. Based on this success, current image editing methods use texts to achieve intuitive and versatile modification of images. To edit a real image using diffusion models, one must first invert the image to a noisy latent from which an edited image is sampled with a target text prompt. However, most methods lack one of the following: user-friendliness (e.g., additional masks or precise descriptions of the input image are required), generalization to larger domains, or high fidelity to the input image. In this paper, we design an accurate and quick inversion technique, Prompt Tuning Inversion, for text-driven image editing. Specifically, our proposed editing method consists of a reconstruction stage and an editing stage. In the first stage, we encode the information of the input image into a learnable conditional embedding via Prompt Tuning Inversion. In the second stage, we apply classifier-free guidance to sample the edited image, where the conditional embedding is calculated by linearly interpolating between the target embedding and the optimized one obtained in the first stage. This technique ensures a superior trade-off between editability and high fidelity to the input image of our method. For example, we can change the color of a specific object while preserving its original shape and background under the guidance of only a target text prompt. Extensive experiments on ImageNet demonstrate the superior editing performance of our method compared to the state-of-the-art baselines.
翻訳日:2023-05-09 15:44:54 公開日:2023-05-08
# Vision Transformer Off-the-Shelf:Few-Shot Class-Agnostic Countingのサプライスベースライン

Vision Transformer Off-the-Shelf: A Surprising Baseline for Few-Shot Class-Agnostic Counting ( http://arxiv.org/abs/2305.04440v1 )

ライセンス: Link先を確認
Zhicheng Wang, Liwen Xiao, Zhiguo Cao, Hao Lu(参考訳) CAC(Class-Agnostic counting)は、クエリ画像から興味のあるオブジェクトを数えることを目的としている。 このタスクは、クエリイメージとexemplarsの特徴を(未)共有特徴抽出子でそれぞれ抽出し、それらの特徴の類似性を一致させることで、extract-\textit{then}-matchパラダイムへと導かれる。 本研究では,CACを抽出-\textit{and}-match方式で単純化できることを示す。特に,特徴抽出と類似性マッチングを自己注意内で同時に実行する事前学習型・平易な視覚変換器(ViT)を用いる。 このような単純化の理論的根拠を,自己着脱視点から明らかにし,クエリトークンとexemplarトークンが入力として結合された場合にのみ実現可能であることを指摘する。 CACViTと呼ばれる結果のモデルは、CACパイプラインを単純化し、クエリイメージと例間の特徴空間を統一する。 さらに,CACViTは自然に自己注意内の背景情報を符号化し,背景障害を軽減する。 さらに,ViTの小型化と正規化によるスケールの損失とマグニチュード情報の順序を補うために,スケールとマグニチュードの埋め込みに有効な2つの戦略を提案する。 FSC147とCARPKデータセットの大規模な実験により、CACViTはCACの精度と一般化の両方において最先端のCACアプローチ(23.60%のエラー低減)を著しく上回り、CACViTはCACの簡潔で強力なベースラインを提供することを示している。 コードは利用可能だ。

Class-agnostic counting (CAC) aims to count objects of interest from a query image given few exemplars. This task is typically addressed by extracting the features of query image and exemplars respectively with (un)shared feature extractors and by matching their feature similarity, leading to an extract-\textit{then}-match paradigm. In this work, we show that CAC can be simplified in an extract-\textit{and}-match manner, particularly using a pretrained and plain vision transformer (ViT) where feature extraction and similarity matching are executed simultaneously within the self-attention. We reveal the rationale of such simplification from a decoupled view of the self-attention and point out that the simplification is only made possible if the query and exemplar tokens are concatenated as input. The resulting model, termed CACViT, simplifies the CAC pipeline and unifies the feature spaces between the query image and exemplars. In addition, we find CACViT naturally encodes background information within self-attention, which helps reduce background disturbance. Further, to compensate the loss of the scale and the order-of-magnitude information due to resizing and normalization in ViT, we present two effective strategies for scale and magnitude embedding. Extensive experiments on the FSC147 and the CARPK datasets show that CACViT significantly outperforms state-of-the-art CAC approaches in both effectiveness (23.60% error reduction) and generalization, which suggests CACViT provides a concise and strong baseline for CAC. Code will be available.
翻訳日:2023-05-09 15:44:30 公開日:2023-05-08
# ゼロ温度における2自由度シュウィンガーモデルの位相図

Phase Diagram of the Two-Flavor Schwinger Model at Zero Temperature ( http://arxiv.org/abs/2305.04437v1 )

ライセンス: Link先を確認
Ross Dempsey, Igor R. Klebanov, Silviu S. Pufu, Benjamin T. S{\o}gaard, and Bernardo Zan(参考訳) そこで, 2-フレーバーシュウィンガーモデルの位相構造を, $\theta$-angle と $m_1$ と $m_2$ の2つの質量の関数として検討した。 特に、$\theta=\pi$:$SU(2)$-不変直線 $m_1 = m_2 = m$ において、$m$ が電荷 $g$ よりもはるかに小さい状態において、理論は BKT 型の対数的 RG フローを経る。 その結果、この方法では非摂動的に小さい質量ギャップ $\sim e^{a g^2/m^2}$ が存在する。 su(2)$-不変直線は、電荷共役対称性が自発的に破られ、その境界が数値的に決定される位相図の領域内にある。 離散キラル対称性によって決定される質量シフト $m_\text{lat} = m-g^2 a/4$ を含むハミルトニアン格子ゲージの定式化を用いて数値計算を行った。

We examine the phase structure of the two-flavor Schwinger model as a function of the $\theta$-angle and the two masses, $m_1$ and $m_2$. In particular, we find interesting effects at $\theta=\pi$: along the $SU(2)$-invariant line $m_1 = m_2 = m$, in the regime where $m$ is much smaller than the charge $g$, the theory undergoes logarithmic RG flow of BKT type. As a result, in this regime there is a non-perturbatively small mass gap $\sim e^{- A g^2/m^2}$. The $SU(2)$-invariant line lies within a region of the phase diagram where charge conjugation symmetry is spontaneously broken and whose boundaries we determine numerically. Our numerical results are obtained using the Hamiltonian lattice gauge formulation that includes the mass shift $m_\text{lat} = m- g^2 a/4$ dictated by the discrete chiral symmetry.
翻訳日:2023-05-09 15:43:55 公開日:2023-05-08
# AlignSTS: クロスモーダルアライメントによる音声対歌変換

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment ( http://arxiv.org/abs/2305.04476v1 )

ライセンス: Link先を確認
Ruiqi Li, Rongjie Huang, Lichao Zhang, Jinglin Liu, Zhou Zhao(参考訳) 音声認識(sts)音声変換タスクは、音声録音に対応する歌唱サンプルを生成することを目的としており、ターゲット(音声)ピッチ輪郭とソース(音声)コンテンツとのアライメントは、テキストのない状況では学習が困難である。 本稿では,音節や内容などの発話の相違を異なるモーダル性として捉えた,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。 人間がメロディの歌詞を歌うメカニズムに触発されたAlignSTS: 1)新規なリズム適応器を採用して、目標リズム表現を予測し、そのリズム表現が単純で効果的な方法で計算され、離散空間に量子化される、内容とピッチの間のモダリティギャップを橋渡しする。 2) 予測リズム表現を用いて, クロスアテンションに基づいてコンテンツを再調整し, 再合成のためのクロスモーダル融合を行う。 大規模な実験では、AlignSTSは客観的な指標と主観的な指標の両方で優れたパフォーマンスを達成している。 オーディオサンプルはhttps://alignsts.github.ioで入手できる。

The speech-to-singing (STS) voice conversion task aims to generate singing samples corresponding to speech recordings while facing a major challenge: the alignment between the target (singing) pitch contour and the source (speech) content is difficult to learn in a text-free situation. This paper proposes AlignSTS, an STS model based on explicit cross-modal alignment, which views speech variance such as pitch and content as different modalities. Inspired by the mechanism of how humans will sing the lyrics to the melody, AlignSTS: 1) adopts a novel rhythm adaptor to predict the target rhythm representation to bridge the modality gap between content and pitch, where the rhythm representation is computed in a simple yet effective way and is quantized into a discrete space; and 2) uses the predicted rhythm representation to re-align the content based on cross-attention and conducts a cross-modal fusion for re-synthesize. Extensive experiments show that AlignSTS achieves superior performance in terms of both objective and subjective metrics. Audio samples are available at https://alignsts.github.io.
翻訳日:2023-05-09 15:36:32 公開日:2023-05-08
# 知識追跡と強化学習に基づく適応学習経路ナビゲーション

Adaptive Learning Path Navigation Based on Knowledge Tracing and Reinforcement Learning ( http://arxiv.org/abs/2305.04475v1 )

ライセンス: Link先を確認
Jyun-Yi Chen, Saeed Saeedvand and I-Wei Lai(参考訳) 本稿では,適応学習パス作成のためのスケーラブルな手法であるadaptive learning path navigation (alpn)システムを提案する。 ALPNシステムは、学生の知識状態を評価するために注意に基づく知識追跡(AKT)モデルと、PPO(Proximal Policy Optimization)を用いた意思決定モデルを用いて、カスタマイズされた学習教材を提案する。 提案システムは,学習目的,時間制約,知識背景といったパーソナライズパラメータを考慮し,学生のニーズを満たす。 ALPNシステムは、リコメンデーションと知識状態更新の反復的なプロセスを通じて、高度に適応的な学習パスを生成する。 実験の結果,提案システムの優れた性能が明らかとなり,E-ラーニングシステムの今後の発展に関する優れた知見が得られた。

This paper introduces the Adaptive Learning Path Navigation (ALPN) system, a scalable approach for creating adaptive learning paths within E-learning systems. The ALPN system employs an attention-based Knowledge Tracing (AKT) model to evaluate students' knowledge states and a decision-making model using Proximal Policy Optimization (PPO) to suggest customized learning materials. The proposed system accommodates students' needs by considering personalization parameters such as learning objectives, time constraints, and knowledge backgrounds. Through an iterative process of recommendation and knowledge state updating, the ALPN system produces highly adaptive learning paths. Experimental results reveal the outstanding performance of the proposed system, providing good insights into the future development of E-learning systems.
翻訳日:2023-05-09 15:36:11 公開日:2023-05-08
# 相互類似性制御を用いたコントラスト学習によるビジョンラナウジュ事前学習

Vision Lanauge Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation ( http://arxiv.org/abs/2305.04474v1 )

ライセンス: Link先を確認
Chaoya Jiang, Wei Ye, Haiyang Xu, Miang yan, Shikun Zhang, Jie Zhang, Fei Huang(参考訳) vision language pretraining(vlp)におけるクロスモーダルコントラスト学習は、(部分的な)偽陰性の問題に直面している。 本稿では,相互情報(MI)最適化の観点からこの問題を考察する。 対照的な学習で使用されるInfoNCE損失は、アンカーと正のMIの低い境界を最大化するが、理論上は、ノイズが一般的に存在する場合にも、負のMIが重要であることを証明している。 最適化のためのより一般的な下界形式によって導かれ、段階的に改良されたクロスモーダルな類似性によって制御される対照的な学習戦略を提案し、画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。 提案手法は,下流の4つのクロスモーダルタスクと,(部分的な)偽陰性サンプルの有益かつ有害な効果を,理論的指導下で体系的にバランスをとる。

Cross-modal contrastive learning in vision language pretraining (VLP) faces the challenge of (partial) false negatives. In this paper, we study this problem from the perspective of Mutual Information (MI) optimization. It is common sense that InfoNCE loss used in contrastive learning will maximize the lower bound of MI between anchors and their positives, while we theoretically prove that MI involving negatives also matters when noises commonly exist. Guided by a more general lower bound form for optimization, we propose a contrastive learning strategy regulated by progressively refined cross-modal similarity, to more accurately optimize MI between an image/text anchor and its negative texts/images instead of improperly minimizing it. Our method performs competitively on four downstream cross-modal tasks and systematically balances the beneficial and harmful effects of (partial) false negative samples under theoretical guidance.
翻訳日:2023-05-09 15:35:58 公開日:2023-05-08
# パノプティカル・ワイルドシーンにおける映像オブジェクトのセグメンテーション

Video Object Segmentation in Panoptic Wild Scenes ( http://arxiv.org/abs/2305.04470v1 )

ライセンス: Link先を確認
Yuanyou Xu, Zongxin Yang, Yi Yang(参考訳) 本稿では,半教師付き映像オブジェクトセグメンテーション(vos)をパンオプティカル・ワイルドシーンに導入し,大規模ベンチマークとベースライン手法を提案する。 疎いアノテーションを持つVOSの以前のベンチマークでは、現実のシナリオで可能なすべてのオブジェクトを処理する必要があるモデルをトレーニングしたり評価したりするのに十分ではありません。 我々の新しいベンチマーク(VIPOSeg)は、徹底的なオブジェクトアノテーションを含み、様々な現実世界のオブジェクトカテゴリを網羅的に評価するために、物/物/物のサブセットと見えないクラスのサブセットに慎重に分割する。 本研究では,複数スケールのピラミッドアーキテクチャとオブジェクトを関連付けるために,panoptic identificationを用いたpanoptic object association with transformers(paot)という強力なベースライン手法を提案する。 実験の結果, VIPOSeg は VOS モデルの性能を高めるだけでなく, 総合的に評価できることがわかった。 我々のPAOTはVIPOSegおよび以前のVOSベンチマークで高い効率でSOTA性能を達成する一方、従来のVOSの手法では、パン光学シーンを扱う際にパフォーマンスと効率を改善する必要がある。 PAOTはVOT2022チャレンジでも1位となった。 私たちのデータセットはhttps://github.com/yoxu515/viposeg-benchmarkで利用可能です。

In this paper, we introduce semi-supervised video object segmentation (VOS) to panoptic wild scenes and present a large-scale benchmark as well as a baseline method for it. Previous benchmarks for VOS with sparse annotations are not sufficient to train or evaluate a model that needs to process all possible objects in real-world scenarios. Our new benchmark (VIPOSeg) contains exhaustive object annotations and covers various real-world object categories which are carefully divided into subsets of thing/stuff and seen/unseen classes for comprehensive evaluation. Considering the challenges in panoptic VOS, we propose a strong baseline method named panoptic object association with transformers (PAOT), which uses panoptic identification to associate objects with a pyramid architecture on multiple scales. Experimental results show that VIPOSeg can not only boost the performance of VOS models by panoptic training but also evaluate them comprehensively in panoptic scenes. Previous methods for classic VOS still need to improve in performance and efficiency when dealing with panoptic scenes, while our PAOT achieves SOTA performance with good efficiency on VIPOSeg and previous VOS benchmarks. PAOT also ranks 1st in the VOT2022 challenge. Our dataset is available at https://github.com/yoxu515/VIPOSeg-Benchmark.
翻訳日:2023-05-09 15:35:40 公開日:2023-05-08
# AnomalyBERT:データ劣化方式を用いた時系列異常検出用自己監督変換器

AnomalyBERT: Self-Supervised Transformer for Time Series Anomaly Detection using Data Degradation Scheme ( http://arxiv.org/abs/2305.04468v1 )

ライセンス: Link先を確認
Yungi Jeong, Eunseok Yang, Jung Hyun Ryu, Imseong Park, Myungjoo Kang(参考訳) 実環境における機械的欠陥は観測値に影響し、センサ値やネットワークデータなどの多変量時系列における異常を引き起こす。 このようなデータの異常を認識するためには,変数間の時間的文脈と相互関係を理解することが重要である。 時系列の異常検出タスク,特にラベルなしデータの異常検出は困難な問題であり,自己教師型モデルトレーニングに適切なデータ劣化手法を適用することで対処している。 そこで本研究では,4種類の合成異常値を定義し,入力データの一部を合成異常値に置き換える分解手法を提案する。 自己認識機構に着想を得て,時間的文脈を認識し,非自然なシーケンスを高い効率で検出するトランスフォーマーベースのアーキテクチャを設計する。 本モデルは,多変量データポイントを相対的な位置バイアスを持つ時間表現に変換し,それらの表現から異常スコアを得る。 本手法は,複雑な時系列に含まれる異常を検知する能力を示し,実世界の5つのベンチマークにおいて従来の最先端手法を上回った。 私たちのコードはhttps://github.com/Jhryu30/AnomalyBERT.comで利用可能です。

Mechanical defects in real situations affect observation values and cause abnormalities in multivariate time series, such as sensor values or network data. To perceive abnormalities in such data, it is crucial to understand the temporal context and interrelation between variables simultaneously. The anomaly detection task for time series, especially for unlabeled data, has been a challenging problem, and we address it by applying a suitable data degradation scheme to self-supervised model training. We define four types of synthetic outliers and propose the degradation scheme in which a portion of input data is replaced with one of the synthetic outliers. Inspired by the self-attention mechanism, we design a Transformer-based architecture to recognize the temporal context and detect unnatural sequences with high efficiency. Our model converts multivariate data points into temporal representations with relative position bias and yields anomaly scores from these representations. Our method, AnomalyBERT, shows a great capability of detecting anomalies contained in complex time series and surpasses previous state-of-the-art methods on five real-world benchmarks. Our code is available at https://github.com/Jhryu30/AnomalyBERT.
翻訳日:2023-05-09 15:35:16 公開日:2023-05-08
# 生成フローネットワークを用いた一般化ユニバーサルドメイン適応

Generalized Universal Domain Adaptation with Generative Flow Networks ( http://arxiv.org/abs/2305.04466v1 )

ライセンス: Link先を確認
Didi Zhu, Yinchuan Li, Yunfeng Shao, Jianye Hao, Fei Wu, Kun Kuang, Jun Xiao, Chao Wu(参考訳) 我々は,unsupervised domain adaptation (unsupervised domain adaptation, 一般化ユニバーサルドメイン適応 (guda) という新しい問題を導入し,未知のカテゴリを含むすべての対象ラベルの正確な予測を実現する。 GUDAはラベル分布シフトベースとラベル空間ミスマッチベースの変種の間のギャップを埋め、基本的にそれらを統一された問題として分類し、すべての変種を徹底的に解決するための包括的なフレームワークへと導く。 GUDAの重要な課題は、ターゲットラベル分布を推定しながら、新規なターゲットカテゴリの開発と識別である。 この問題に対処するために,生成フローネットワークの強力な探索能力を利用し,報酬関数に比例する確率の多様なサンプルを選択するgflowdaと呼ばれるアクティブドメイン適応アルゴリズムを提案する。 探索能力を高め,対象ラベルの分布を効果的に把握するために,状態と報酬を調整し,親探索と状態遷移のための効率的なソリューションを導入する。 我々はまた、GUANとGFlowNetの協調最適化を含む、Generalized Universal Adversarial Network (GUAN)と呼ばれるGUDAのトレーニングパラダイムを提案する。 理論的分析は、探索の重要性を強調し、ベンチマークデータセットに関する広範な実験は、GFlowDAの優位性を実証している。

We introduce a new problem in unsupervised domain adaptation, termed as Generalized Universal Domain Adaptation (GUDA), which aims to achieve precise prediction of all target labels including unknown categories. GUDA bridges the gap between label distribution shift-based and label space mismatch-based variants, essentially categorizing them as a unified problem, guiding to a comprehensive framework for thoroughly solving all the variants. The key challenge of GUDA is developing and identifying novel target categories while estimating the target label distribution. To address this problem, we take advantage of the powerful exploration capability of generative flow networks and propose an active domain adaptation algorithm named GFlowDA, which selects diverse samples with probabilities proportional to a reward function. To enhance the exploration capability and effectively perceive the target label distribution, we tailor the states and rewards, and introduce an efficient solution for parent exploration and state transition. We also propose a training paradigm for GUDA called Generalized Universal Adversarial Network (GUAN), which involves collaborative optimization between GUAN and GFlowNet. Theoretical analysis highlights the importance of exploration, and extensive experiments on benchmark datasets demonstrate the superiority of GFlowDA.
翻訳日:2023-05-09 15:34:56 公開日:2023-05-08
# 拡散モデルによるテキスト生成の性能向上は可能か? トレーニングと推論のギャップを埋める!

Can Diffusion Model Achieve Better Performance in Text Generation? Bridging the Gap between Training and Inference! ( http://arxiv.org/abs/2305.04465v1 )

ライセンス: Link先を確認
Zecheng Tang, Pinzheng Wang, Keyan Zhou, Juntao Li, Ziqiang Cao, Min Zhang(参考訳) 拡散モデルは、離散テキストを連続空間にマッピングすることで、テキスト生成タスクにうまく適応している。 しかしながら、推論の間に前方プロセスがないため、トレーニングと推論の間には無視できないギャップがある。 したがって、前処理によって計算されるノイズではなく、予め生成された逆ノイズに基づいてのみ予測される。 さらに、推論を高速化する上で広く用いられるダウンサンプリング戦略は、トレーニングと推論の間に拡散軌跡のミスマッチを引き起こす。 上記の2つのトレーニング・カンファレンスの相違を理解し,緩和するために,予備的な研究を開始する。 本研究では,上記のギャップを橋渡しする簡易かつ効果的な手法である距離ペナルティ法と適応減衰サンプリング法を提案する。 提案手法は,より優れた性能で100\times \rightarrow 200\times$ Speedupを実現できる。

Diffusion models have been successfully adapted to text generation tasks by mapping the discrete text into the continuous space. However, there exist nonnegligible gaps between training and inference, owing to the absence of the forward process during inference. Thus, the model only predicts based on the previously generated reverse noise rather than the noise computed by the forward process. Besides, the widely-used downsampling strategy in speeding up the inference will cause the mismatch of diffusion trajectories between training and inference. To understand and mitigate the above two types of training-inference discrepancies, we launch a thorough preliminary study. Based on our observations, we propose two simple yet effective methods to bridge the gaps mentioned above, named Distance Penalty and Adaptive Decay Sampling. Extensive experiments on \textbf{6} generation tasks confirm the superiority of our methods, which can achieve $100\times \rightarrow 200\times$ speedup with better performance.
翻訳日:2023-05-09 15:34:34 公開日:2023-05-08
# QD検索による創造的発見

Creative Discovery using QD Search ( http://arxiv.org/abs/2305.04462v1 )

ライセンス: Link先を確認
Jon McCormack, Camilo Cruz Gambardella, Stephen James Krol(参考訳) 創造的デザインにおいて、成果の質を決定する上で美学が重要な役割を果たす場合、しばしば「ベスト」デザインではなく、複数の価値のある可能性が存在する。 この課題は計算生成システムの使用において複雑であり、潜在的な結果の数が圧倒的に多い。 本稿では,進化的最適化とaiに基づく画像分類を組み合わせることで,複雑なデザイン空間を創造的に探索する手法を提案する。 プロセスは、ランダムにジェノタイプ空間をサンプリングし、生成した表現型を解空間の縮小表現にマッピングし、その視覚特性に基づいてそれらを評価することから始まる。 その結果、ソリューション空間にまたがるさまざまな結果のエリートグループができあがります。 その後、エリートはサンプリングと単純な突然変異によって徐々に更新される。 抽象図面を生成する生成システム上で,本手法を検証した。 その結果,従来のオプティマイズ中心の進化アプローチと比較して,美的価値が高く,視覚的多様性が高い表現型の集団を効果的に進化させることができることが示された。

In creative design, where aesthetics play a crucial role in determining the quality of outcomes, there are often multiple worthwhile possibilities, rather than a single ``best'' design. This challenge is compounded in the use of computational generative systems, where the sheer number of potential outcomes can be overwhelming. This paper introduces a method that combines evolutionary optimisation with AI-based image classification to perform quality-diversity search, allowing for the creative exploration of complex design spaces. The process begins by randomly sampling the genotype space, followed by mapping the generated phenotypes to a reduced representation of the solution space, as well as evaluating them based on their visual characteristics. This results in an elite group of diverse outcomes that span the solution space. The elite is then progressively updated via sampling and simple mutation. We tested our method on a generative system that produces abstract drawings. The results demonstrate that the system can effectively evolve populations of phenotypes with high aesthetic value and greater visual diversity compared to traditional optimisation-focused evolutionary approaches.
翻訳日:2023-05-09 15:34:20 公開日:2023-05-08
# 制御可能な3次元形状生成のための局所的注意SDF拡散

Locally Attentional SDF Diffusion for Controllable 3D Shape Generation ( http://arxiv.org/abs/2305.04461v1 )

ライセンス: Link先を確認
Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum(参考訳) 最近の3次元生成ニューラルネットワークの急速な進化は3次元形状の生成を大幅に改善するが、通常のユーザが3次元形状を作成し、生成した形状の局所的な形状を制御するのに便利ではない。 これらの課題に対処するため,我々は2次元スケッチ画像入力を用いて3次元形状をモデル化する拡散型SDF拡散フレームワークを提案する。 本手法は二段階拡散モデルに基づいている。 第1段階は占有拡散と呼ばれ、形状を近似するために低分解能占有場を生成することを目的としている。 SDF拡散と呼ばれる第2段階は、第1段階によって決定された占有ボクセル内の高分解能符号距離場を合成し、微細な幾何を抽出する。 このモデルには,3次元ボクセル特徴学習のガイドとして2次元画像パッチ機能を活用し,局所制御性とモデル一般化性を大幅に向上させる,画像条件付き形状生成のための新しいビューアウェアローカルアテンション機構が組み込まれている。 スケッチコンディショニングおよびカテゴリコンディショニングによる3次元形状生成タスクの広範な実験を通じて,本手法が有望かつ多様な3次元形状を提供するとともに,既存の作業よりも制御性と一般化性に優れることを示す。 私たちのコードとトレーニングされたモデルはhttps://zhengxinyang.github.io/projects/las-diffusion.htmlで利用可能です。

Although the recent rapid evolution of 3D generative neural networks greatly improves 3D shape generation, it is still not convenient for ordinary users to create 3D shapes and control the local geometry of generated shapes. To address these challenges, we propose a diffusion-based 3D generation framework -- locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch image input. Our method is built on a two-stage diffusion model. The first stage, named occupancy-diffusion, aims to generate a low-resolution occupancy field to approximate the shape shell. The second stage, named SDF-diffusion, synthesizes a high-resolution signed distance field within the occupied voxels determined by the first stage to extract fine geometry. Our model is empowered by a novel view-aware local attention mechanism for image-conditioned shape generation, which takes advantage of 2D image patch features to guide 3D voxel feature learning, greatly improving local controllability and model generalizability. Through extensive experiments in sketch-conditioned and category-conditioned 3D shape generation tasks, we validate and demonstrate the ability of our method to provide plausible and diverse 3D shapes, as well as its superior controllability and generalizability over existing work. Our code and trained models are available at https://zhengxinyang.github.io/projects/LAS-Diffusion.html
翻訳日:2023-05-09 15:34:00 公開日:2023-05-08
# 形態理解のための言語独立型ニューロシンボリックセマンティックパーシング

Language Independent Neuro-Symbolic Semantic Parsing for Form Understanding ( http://arxiv.org/abs/2305.04460v1 )

ライセンス: Link先を確認
Bhanu Prakash Voutharoja and Lizhen Qu and Fatemeh Shiri(参考訳) フォーム理解に関する最近の研究は、主にマルチモーダルトランスフォーマーや大規模事前学習言語モデルを用いている。 これらのモデルは事前学習に十分なデータを必要とする。 対照的に、人間が通常、使用する言語を理解していなくても、レイアウトを見るだけで、フォームからキーと値のペアを識別できる。 レイアウト情報だけでフォーム理解がいかに役立つかを調べるための先行研究は行われていない。 そこで本稿では,言語に依存しないグラフニューラルネットワークモデルである LAGNN と呼ばれる,スキャンされた形式のエンティティ関係グラフ解析手法を提案する。 モデルでは,形式を単語関係グラフに解析することで,エンティティと関係を共同で識別し,推論の時間的複雑さを低減する。 このグラフは決定論的規則によって完全連結な実体関係グラフへと変換される。 我々のモデルは、レイアウト情報から境界ボックス間の相対的な間隔を考慮し、言語間の転送を容易にする。 lagnnの性能をさらに向上し、エンティティ関係グラフと単語関係グラフの同型を実現するために、整数線形プログラミング(ilp)に基づく推論を用いる。 コードはhttps://github.com/Bhanu068/LAGNNで公開されている。

Recent works on form understanding mostly employ multimodal transformers or large-scale pre-trained language models. These models need ample data for pre-training. In contrast, humans can usually identify key-value pairings from a form only by looking at layouts, even if they don't comprehend the language used. No prior research has been conducted to investigate how helpful layout information alone is for form understanding. Hence, we propose a unique entity-relation graph parsing method for scanned forms called LAGNN, a language-independent Graph Neural Network model. Our model parses a form into a word-relation graph in order to identify entities and relations jointly and reduce the time complexity of inference. This graph is then transformed by deterministic rules into a fully connected entity-relation graph. Our model simply takes into account relative spacing between bounding boxes from layout information to facilitate easy transfer across languages. To further improve the performance of LAGNN, and achieve isomorphism between entity-relation graphs and word-relation graphs, we use integer linear programming (ILP) based inference. Code is publicly available at https://github.com/Bhanu068/LAGNN
翻訳日:2023-05-09 15:33:36 公開日:2023-05-08
# sega: グラフコントラスト学習のための構造エントロピー誘導アンカービュー

SEGA: Structural Entropy Guided Anchor View for Graph Contrastive Learning ( http://arxiv.org/abs/2305.04501v1 )

ライセンス: Link先を確認
Junran Wu, Xueyuan Chen, Bowen Shi, Shangzhe Li, Ke Xu(参考訳) 対照的な学習において、 ``view'' の選択は、その表現がモデルのパフォーマンスを捉え、影響する情報を制御する。 しかし、主要なグラフの対比学習手法は、一般にランダムな腐敗や学習によってビューを生成し、本質的な情報を失うことや意味情報の改変につながる可能性がある。 コントラスト学習のための入力グラフの必須情報を維持するアンカービューはほとんど研究されていない。 本稿では,グラフ情報ボトルネックの理論に基づいて,このアンカービューの定義を導出する。 さらに,構造エントロピーに導かれ,グラフコントラスト学習のためのアンカービューである \textbf{sega} を実装した。 我々は,教師なし,半教師なし,転送学習の下でのグラフ分類に関する様々なベンチマークにおいて,提案手法のアンカービューを広範囲に検証し,最先端手法と比較して有意な性能向上を達成した。

In contrastive learning, the choice of ``view'' controls the information that the representation captures and influences the performance of the model. However, leading graph contrastive learning methods generally produce views via random corruption or learning, which could lead to the loss of essential information and alteration of semantic information. An anchor view that maintains the essential information of input graphs for contrastive learning has been hardly investigated. In this paper, based on the theory of graph information bottleneck, we deduce the definition of this anchor view; put differently, \textit{the anchor view with essential information of input graph is supposed to have the minimal structural uncertainty}. Furthermore, guided by structural entropy, we implement the anchor view, termed \textbf{SEGA}, for graph contrastive learning. We extensively validate the proposed anchor view on various benchmarks regarding graph classification under unsupervised, semi-supervised, and transfer learning and achieve significant performance boosts compared to the state-of-the-art methods.
翻訳日:2023-05-09 15:27:36 公開日:2023-05-08
# we多元主義に基づく幸福政策評価手法

Well-being policy evaluation methodology based on WE pluralism ( http://arxiv.org/abs/2305.04500v1 )

ライセンス: Link先を確認
Takeshi Kato(参考訳) 多様な人口の幸福に寄与する政策の評価と選択のための方法論は明確化が必要である。 本研究は、客観的指標と幸福に関する政策のギャップを埋めるため、客観的指標に基づく構成的多元論から主観的文脈を強調する概念的多元論へ移行し、対象対象多元論から個人集団多元論からwe多元論へと発展し、政策複数に基づく共同事実検索を組み合わせる新しい政策評価手法を提案する。 まず, 多様な利害関係者に関する政策を評価するために, 個々の主観的対象性から個々の主観性, グループ間主観性へと発展し, 次いでi-ファミリー・コミュニティ・コミュニティ・ネーションの段階化において, 狭義のwe多元主義へと移行する。 さらに、いくつかの機能的幸福形態を参照して、狭義のweに対する幸福の依存を定式化する。 最後に、政策自体が複数の社会的、生態的、経済的な価値を持っていることを考慮し、狭義のweのそれぞれの政策セットを定義し、両者のマッピングを検討して評価ベースを提供する。 さらに、狭い範囲のWEコンセンサスにウェルビーイングと共同事実フィニングを組み合わせることで、政策評価法を定式化する。 ファクト・バリュー・コンバインド・パラメーター・システム、コンバインド・ポリシー・メイキング・アプローチ、コンバインド・インパクト・アセスメントを実装例として明らかにした。 本稿では,多元主義に基づく哲学的理論と政策を橋渡しし,主観的文脈とコンセンサス構築に基づく新しい政策評価方法を提案することで,幸福な社会の実現に寄与する。

Methodologies for evaluating and selecting policies that contribute to the well-being of diverse populations need clarification. To bridge the gap between objective indicators and policies related to well-being, this study shifts from constitutive pluralism based on objective indicators to conceptual pluralism that emphasizes subjective context, develops from subject-object pluralism through individual-group pluralism to WE pluralism, and presents a new policy evaluation method that combines joint fact-finding based on policy plurality. First, to evaluate policies involving diverse stakeholders, I develop from individual subjectivity-objectivity to individual subjectivity and group intersubjectivity, and then move to a narrow-wide WE pluralism in the gradation of I-family-community-municipality-nation-world. Additionally, by referring to some functional forms of well-being, I formulate the dependence of well-being on narrow-wide WE. Finally, given that policies themselves have a plurality of social, ecological, and economic values, I define a set of policies for each of the narrow-wide WE and consider a mapping between the two to provide an evaluation basis. Furthermore, by combining well-being and joint fact-finding on the narrow-wide WE consensus, the policy evaluation method is formulated. The fact-value combined parameter system, combined policy-making approach, and combined impact evaluation are disclosed as examples of implementation. This paper contributes to the realization of a well-being society by bridging philosophical theory and policies based on WE pluralism and presenting a new method of policy evaluation based on subjective context and consensus building.
翻訳日:2023-05-09 15:27:18 公開日:2023-05-08
# グラフ畳み込みネットワークを用いた建物足跡抽出

Building Footprint Extraction with Graph Convolutional Network ( http://arxiv.org/abs/2305.04499v1 )

ライセンス: Link先を確認
Yilei Shi, Qinyu Li, Xiaoxiang Zhu(参考訳) 建物の足跡情報は都市モデルの3次元再構築に不可欠な要素である。 衛星画像から建物フットプリントの自動生成は、建物の形状が複雑になるため、大きな課題となる。 深層畳み込みニューラルネットワーク(dcnn)の最近の開発により、正確なピクセルレベルのラベリングタスクが可能になった。 中心となる問題は、境界の正確な定義である。 ディープアーキテクチャは一般的に、プログレッシブなダウンサンプリングのため、正確な境界を持つきめ細かいセグメンテーションを生成できない。 本研究では,グラフ畳み込みネットワーク (GCN) をフットプリント抽出タスクの構築に用い,この問題を克服するためのエンドツーエンドフレームワークを提案する。 提案手法は最先端の手法より優れている。

Building footprint information is an essential ingredient for 3-D reconstruction of urban models. The automatic generation of building footprints from satellite images presents a considerable challenge due to the complexity of building shapes. Recent developments in deep convolutional neural networks (DCNNs) have enabled accurate pixel-level labeling tasks. One central issue remains, which is the precise delineation of boundaries. Deep architectures generally fail to produce fine-grained segmentation with accurate boundaries due to progressive downsampling. In this work, we have proposed a end-to-end framework to overcome this issue, which uses the graph convolutional network (GCN) for building footprint extraction task. Our proposed framework outperforms state-of-the-art methods.
翻訳日:2023-05-09 15:26:43 公開日:2023-05-08
# Deep LearningとDigital Twinsの活用による建物のエネルギー性能向上

Leveraging Deep Learning and Digital Twins to Improve Energy Performance of Buildings ( http://arxiv.org/abs/2305.04498v1 )

ライセンス: Link先を確認
Zhongjun Ni, Chi Zhang, Magnus Karlsson and Shaofang Gong(参考訳) 建物のデジタルトランスフォーメーションは大量の運用データを蓄積し、エネルギーパフォーマンスを改善するためにこれらのデータを活用するためのスマートなソリューションを求める。 本研究では,深層学習とデジタル双生児の統合によるエネルギー利用の理解を深め,エネルギー効率向上の可能性を明らかにするためのソリューションである深層エネルギー双生児(deep energy twin)を提案する。 オントロジーは、建物内の異なるシステム間でデータフォーマットの一貫性を提供するパラメトリックデジタルツインを作成するために採用された。 生成したデジタルツインと収集データに基づいて、パターンを特定し、エネルギー最適化のための洞察を提供するデータ分析を行うディープラーニング手法が使用された。 実演として,建築エネルギー予測における最先端のディープラーニングアーキテクチャの性能を比較するため,スウェーデンのノルク=オピングにある公共歴史建造物で事例研究を行った。

Digital transformation in buildings accumulates massive operational data, which calls for smart solutions to utilize these data to improve energy performance. This study has proposed a solution, namely Deep Energy Twin, for integrating deep learning and digital twins to better understand building energy use and identify the potential for improving energy efficiency. Ontology was adopted to create parametric digital twins to provide consistency of data format across different systems in a building. Based on created digital twins and collected data, deep learning methods were used for performing data analytics to identify patterns and provide insights for energy optimization. As a demonstration, a case study was conducted in a public historic building in Norrk\"oping, Sweden, to compare the performance of state-of-the-art deep learning architectures in building energy forecasting.
翻訳日:2023-05-09 15:26:33 公開日:2023-05-08
# IIITD-20K:テキスト画像ReID用デンスキャプション

IIITD-20K: Dense captioning for Text-Image ReID ( http://arxiv.org/abs/2305.04497v1 )

ライセンス: Link先を確認
A V Subramanyam, Niranjan Sundararajan, Vibhu Dubey, Brejesh Lall(参考訳) text-to-image (t2i) reidは近年多くの注目を集めている。 CUHK-PEDES、RSTPReid、ICFG-PEDESはT2I ReID法を評価するための3つのベンチマークである。 RSTPReid と ICFG-PEDES はMSMT17 のアイデンティティから構成されるが、個人数が少ないため、多様性は限られている。 一方、CUHK-PEDESは13,003のアイデンティティから構成されるが、平均的なテキスト記述は比較的短い。 さらに、これらのデータセットは、限られたカメラ数で制限された環境でキャプチャされる。 アイデンティティをさらに多様化させ,密度の高いキャプションを提供するために,IIITD-20Kという新しいデータセットを提案する。 IIITD-20Kは野生で捕獲された20,000のユニークなIDで構成され、テキストから画像へのReIDのための豊富なデータセットを提供する。 記述に最低26語を割り当てると、各画像は密にキャプションされる。 さらに,データセット上で学習した安定拡散モデルとblipモデルを用いて,画像および細粒度キャプションを合成的に生成する。 我々は、最先端のテキスト・画像ReIDモデルとビジョン言語事前学習モデルを用いた精巧な実験を行い、データセットの包括的解析を行う。 我々の実験は、合成されたデータが同じデータセットとクロスデータセット設定の両方で大幅なパフォーマンス改善をもたらすことも明らかにした。 私たちのデータセットはhttps://bit.ly/3pka3rjで利用可能です。

Text-to-Image (T2I) ReID has attracted a lot of attention in the recent past. CUHK-PEDES, RSTPReid and ICFG-PEDES are the three available benchmarks to evaluate T2I ReID methods. RSTPReid and ICFG-PEDES comprise of identities from MSMT17 but due to limited number of unique persons, the diversity is limited. On the other hand, CUHK-PEDES comprises of 13,003 identities but has relatively shorter text description on average. Further, these datasets are captured in a restricted environment with limited number of cameras. In order to further diversify the identities and provide dense captions, we propose a novel dataset called IIITD-20K. IIITD-20K comprises of 20,000 unique identities captured in the wild and provides a rich dataset for text-to-image ReID. With a minimum of 26 words for a description, each image is densely captioned. We further synthetically generate images and fine-grained captions using Stable-diffusion and BLIP models trained on our dataset. We perform elaborate experiments using state-of-art text-to-image ReID models and vision-language pre-trained models and present a comprehensive analysis of the dataset. Our experiments also reveal that synthetically generated data leads to a substantial performance improvement in both same dataset as well as cross dataset settings. Our dataset is available at https://bit.ly/3pkA3Rj.
翻訳日:2023-05-09 15:26:19 公開日:2023-05-08
# seq2seqモデルのトークンレベルフィッティング問題

Token-level Fitting Issues of Seq2seq Models ( http://arxiv.org/abs/2305.04493v1 )

ライセンス: Link先を確認
Guangsheng Bao, Zhiyang Teng, Yue Zhang(参考訳) sequence-to-sequence(seq2seq)モデルは、自然言語処理、コンピュータビジョン、その他のディープラーニングタスクに広く使われている。 早期停止でトレーニングされたSeq2seqモデルはトークンレベルでの問題に悩まされていることがわかった。 特に、語彙のいくつかのトークンが過剰適合を示す一方で、トレーニングが停止された場合に不適合なトークンもある。 実験により、この現象は、微調整された大きな事前訓練モデルであっても、異なるモデルで広まることが示された。 トークンレベルの適合性に影響を与える3つの主要な要因を明らかにする。 さらに,言語やモデルサイズ,ドメイン,データスケール,事前トレーニングといった外部要因もトークンの適合性に影響を与える可能性がある。

Sequence-to-sequence (seq2seq) models have been widely used for natural language processing, computer vision, and other deep learning tasks. We find that seq2seq models trained with early-stopping suffer from issues at the token level. In particular, while some tokens in the vocabulary demonstrate overfitting, others underfit when training is stopped. Experiments show that the phenomena are pervasive in different models, even in fine-tuned large pretrained-models. We identify three major factors that influence token-level fitting, which include token frequency, parts-of-speech, and prediction discrepancy. Further, we find that external factors such as language, model size, domain, data scale, and pretraining can also influence the fitting of tokens.
翻訳日:2023-05-09 15:25:56 公開日:2023-05-08
# MGR:マルチジェネレータに基づく合理化

MGR: Multi-generator based Rationalization ( http://arxiv.org/abs/2305.04492v1 )

ライセンス: Link先を確認
Wei Liu, Haozhao Wang, Jun Wang, Ruixuan Li, Xinyang Li, Yuankai Zhang, Yang Qiu(参考訳) 合理化は、ジェネレータと予測器を用いて、ジェネレータが入力テキストの人間の知性の部分集合を次の予測器に選択する自己説明型NLPモデルを構築することである。 しかし、合理化には2つの重要な課題、すなわち、スプリアス相関とデジェネレーションがあり、予測器は、未熟な訓練済みジェネレータによって選択されたスプリアスまたは無意味なピースを過剰に適合させ、ジェネレータを劣化させる。 2つの課題に対処するために多くの研究が提案されているが、通常は個別に設計されており、どちらも考慮していない。 本稿では,この2つの問題を同時に解くために,MGRというシンプルな手法を提案する。 MGRの鍵となる考え方は、実際の部品の発生安定性を改善し、より有意義な部品を予測者に届けるように複数の発電機を採用することである。 実験により,MGRは最先端手法と比較してF1スコアを最大20.9%改善することがわかった。 コードはhttps://github.com/jugechengzi/Rationalization-MGRで公開されている。

Rationalization is to employ a generator and a predictor to construct a self-explaining NLP model in which the generator selects a subset of human-intelligible pieces of the input text to the following predictor. However, rationalization suffers from two key challenges, i.e., spurious correlation and degeneration, where the predictor overfits the spurious or meaningless pieces solely selected by the not-yet well-trained generator and in turn deteriorates the generator. Although many studies have been proposed to address the two challenges, they are usually designed separately and do not take both of them into account. In this paper, we propose a simple yet effective method named MGR to simultaneously solve the two problems. The key idea of MGR is to employ multiple generators such that the occurrence stability of real pieces is improved and more meaningful pieces are delivered to the predictor. Empirically, we show that MGR improves the F1 score by up to 20.9% as compared to state-of-the-art methods. Codes are available at https://github.com/jugechengzi/Rationalization-MGR .
翻訳日:2023-05-09 15:25:44 公開日:2023-05-08
# 完全相関型マルチレベル振幅減衰チャネルの情報容量解析

Information capacity analysis of fully correlated multi-level amplitude damping channels ( http://arxiv.org/abs/2305.04481v1 )

ライセンス: Link先を確認
Rajiuddin Sk and Prasanta K. Panigrahi(参考訳) 量子シャノン理論の主な目的は量子チャネルの容量を評価することである。 近年、マルチレベル振幅減衰チャネルを導入し、チャネルの対応する量子容量を次元d=3の量子系(S. Chessa, V. Giovannetti, Commun. Phys. 4,22 (2021))で解析している。 本稿では,チャネルの逐次的適用の相関を考慮し,次元d=3のマルチレベル振幅減衰チャネルの情報容量について検討した。 単発の古典的容量と3レベルシステムに対する異なるクラスの写像に付随する量子容量を導出する。 さらに、エンタングルメント支援シナリオにおける量子および古典的容量を計算する。

The primary objective of quantum Shannon theory is to evaluate the capacity of quantum channels, which is a challenging task in many instances. Recently, Multi-level Amplitude Damping channel has been introduced, and the corresponding quantum capacity of the channel has been analyzed for a quantum system of dimension d=3 [S. Chessa, V. Giovannetti, Commun. Phys. 4,22 (2021)]. In this paper, we have investigated the information capacity of Multi-level Amplitude Damping Channel for dimension d=3 in presence of correlation between successive applications of the channel. We derive the single-shot classical capacities and quantum capacities associated with a different class of maps for the three-level system. Additionally, we compute the quantum and classical capacities in entanglement-assisted scenarios.
翻訳日:2023-05-09 15:25:25 公開日:2023-05-08
# 干渉確率分布の公理化

Axiomatization of Interventional Probability Distributions ( http://arxiv.org/abs/2305.04479v1 )

ライセンス: Link先を確認
Kayvan Sadeghi and Terry Soo(参考訳) 因果介入は因果推論に不可欠な道具である。 構造因果モデルの場合、do-calculusの規則の下で公理化される。 確率分布の族を異なる種類の介入分布とする単純な公理化を提供する。 我々の公理化は、単純で明確な因果関係の理論をもたらし、いくつかの利点がある:構造因果関係のモデルによって課されるようなモデリング仮定を利用する必要はない;単一の変数への介入にのみ依存する; 潜伏変数と因果関係のほとんどのケースを含む; さらに、根底にある真の因果関係のグラフの存在を前提としない; 実際、因果関係グラフは我々の理論の副産物である。 我々の公理化の下では、介在分布は定義された因果グラフに対するマルコフ分布であり、観測された合同確率分布は得られた因果グラフに対するマルコフ分布であり、これらの結果は構造因果モデルの場合と一致し、その結果、既存の因果推論の理論が適用される。 また, 自然構造因果モデルの大きなクラスが, この理論を満たしていることを示す。

Causal intervention is an essential tool in causal inference. It is axiomatized under the rules of do-calculus in the case of structure causal models. We provide simple axiomatizations for families of probability distributions to be different types of interventional distributions. Our axiomatizations neatly lead to a simple and clear theory of causality that has several advantages: it does not need to make use of any modeling assumptions such as those imposed by structural causal models; it only relies on interventions on single variables; it includes most cases with latent variables and causal cycles; and more importantly, it does not assume the existence of an underlying true causal graph--in fact, a causal graph is a by-product of our theory. We show that, under our axiomatizations, the intervened distributions are Markovian to the defined intervened causal graphs, and an observed joint probability distribution is Markovian to the obtained causal graph; these results are consistent with the case of structural causal models, and as a result, the existing theory of causal inference applies. We also show that a large class of natural structural causal models satisfy the theory presented here.
翻訳日:2023-05-09 15:25:12 公開日:2023-05-08
# 教師なしスキル発見のための行動コントラスト学習

Behavior Contrastive Learning for Unsupervised Skill Discovery ( http://arxiv.org/abs/2305.04477v1 )

ライセンス: Link先を確認
Rushuai Yang, Chenjia Bai, Hongyi Guo, Siyuan Li, Bin Zhao, Zhen Wang, Peng Liu, Xuelong Li(参考訳) 強化学習では、教師なしのスキル発見は、外因的な報酬なしに多様なスキルを学ぶことを目的としている。 従来の手法は、国家とスキル間の相互情報(MI)を最大化することでスキルを発見する。 しかし、そのようなMIの目的は単純で静的なスキルを学ぶ傾向があり、探索を妨げる可能性がある。 本稿では,エージェントが同一スキルに対して類似した行動や異なるスキルに対する多様な行動を生み出すための,行動間の対比学習による教師なしスキル発見手法を提案する。 軽微な仮定では、我々の目的は同じスキルに基づいて異なる行動間でMIを最大化し、これは以前のMI目標の上限として機能する。 一方,本手法は状態エントロピーを暗黙的に増加させ,より良好な状態カバレッジを得る。 本手法は,迷路や連続制御タスクの課題に対して評価する。 その結果,本手法は多種多様かつ遠縁なスキルを生み出すとともに,最先端の手法と比較して下流タスクの競争性能も向上することがわかった。

In reinforcement learning, unsupervised skill discovery aims to learn diverse skills without extrinsic rewards. Previous methods discover skills by maximizing the mutual information (MI) between states and skills. However, such an MI objective tends to learn simple and static skills and may hinder exploration. In this paper, we propose a novel unsupervised skill discovery method through contrastive learning among behaviors, which makes the agent produce similar behaviors for the same skill and diverse behaviors for different skills. Under mild assumptions, our objective maximizes the MI between different behaviors based on the same skill, which serves as an upper bound of the previous MI objective. Meanwhile, our method implicitly increases the state entropy to obtain better state coverage. We evaluate our method on challenging mazes and continuous control tasks. The results show that our method generates diverse and far-reaching skills, and also obtains competitive performance in downstream tasks compared to the state-of-the-art methods.
翻訳日:2023-05-09 15:24:52 公開日:2023-05-08
# イベント中心質問応答のための後正則化を伴うイベント知識の導入

Event Knowledge Incorporation with Posterior Regularization for Event-Centric Question Answering ( http://arxiv.org/abs/2305.04522v1 )

ライセンス: Link先を確認
Junru Lu, Gabriele Pergola, Lin Gui, Yulan He(参考訳) 本稿では、イベントトリガアノテーションから抽出したイベント知識を後続正則化により組み込むことにより、イベント中心QAのための主流質問応答(QA)モデルのイベント推論能力を向上させるための簡易かつ効果的な戦略を提案する。 特に、QAデータセットのイベントトリガアノテーションに基づいてイベント関連知識制約を定義し、その後、後続の応答出力確率をQA設定で使用されるバックボーン事前学習言語モデルから調整する。 抽出QAと生成QAの2つの異なる後方正規化戦略を別々に検討した。 抽出QAについて、文レベル事象知識制約は、文が解答イベントを含むか否かを評価し、後に解答スパン抽出確率を変更するために使用される。 生成QAについては、バックボーン言語モデルから生成されたトークンと応答イベントを比較して、応答生成確率を本質的に間接的に調整する報奨項やペナルティ項を導入することにより、トークンレベルのイベント知識制約を定義する。 イベント中心の2つのQAデータセットであるTORQUEとESTERについて実験を行った。 提案手法は,既存の学習済み言語モデルにイベント知識を効果的に注入し,応答評価において既存のQAモデルと比較して高い性能が得られることを示す。 コードとモデルは、https://github.com/LuJunru/EventQAviaPR.comで参照できる。

We propose a simple yet effective strategy to incorporate event knowledge extracted from event trigger annotations via posterior regularization to improve the event reasoning capability of mainstream question-answering (QA) models for event-centric QA. In particular, we define event-related knowledge constraints based on the event trigger annotations in the QA datasets, and subsequently use them to regularize the posterior answer output probabilities from the backbone pre-trained language models used in the QA setting. We explore two different posterior regularization strategies for extractive and generative QA separately. For extractive QA, the sentence-level event knowledge constraint is defined by assessing if a sentence contains an answer event or not, which is later used to modify the answer span extraction probability. For generative QA, the token-level event knowledge constraint is defined by comparing the generated token from the backbone language model with the answer event in order to introduce a reward or penalty term, which essentially adjusts the answer generative probability indirectly. We conduct experiments on two event-centric QA datasets, TORQUE and ESTER. The results show that our proposed approach can effectively inject event knowledge into existing pre-trained language models and achieves strong performance compared to existing QA models in answer evaluation. Code and models can be found: https://github.com/LuJunru/EventQAviaPR.
翻訳日:2023-05-09 15:17:42 公開日:2023-05-08
# 人工ゼネラル・リコメンダー(AGR)の火花 : ChatGPTによる早期実験

Sparks of Artificial General Recommender (AGR): Early Experiments with ChatGPT ( http://arxiv.org/abs/2305.04518v1 )

ライセンス: Link先を確認
Guo Lin and Yongfeng Zhang(参考訳) 本研究では,近年のLarge Language Models (LLMs) の発展にともなう,AGR(Artificial General Recommender)の開発の可能性を検討する。 AGRは会話性と普遍性の両方からなり、自然対話に携わり、様々な領域にわたってレコメンデーションを生成する。 我々は、AGRが従うべき基本原則を10つ提案し、それぞれに対応するテストプロトコルを提案する。 我々は,高度なLCMであるChatGPTが,モデルとのレコメンデーション指向の対話に係わるとともに,その振る舞いを観察することで,提案した原則に従うことができるかどうかを評価する。 以上の結果から,ChatGPTがAGRとして機能する可能性が示唆された。

This study investigates the feasibility of developing an Artificial General Recommender (AGR), facilitated by recent advancements in Large Language Models (LLMs). An AGR comprises both conversationality and universality to engage in natural dialogues and generate recommendations across various domains. We propose ten fundamental principles that an AGR should adhere to, each with its corresponding testing protocols. We proceed to assess whether ChatGPT, a sophisticated LLM, can comply with the proposed principles by engaging in recommendation-oriented dialogues with the model while observing its behavior. Our findings demonstrate the potential for ChatGPT to serve as an AGR, though several limitations and areas for improvement are identified.
翻訳日:2023-05-09 15:17:21 公開日:2023-05-08
# DiffBFR: ブラインド顔復元に向けたブートストラップ拡散モデル

DiffBFR: Bootstrapping Diffusion Model Towards Blind Face Restoration ( http://arxiv.org/abs/2305.04517v1 )

ライセンス: Link先を確認
Xinmin Qiu, Congying Han, ZiCheng Zhang, Bonan Li, Tiande Guo, Xuecheng Nie(参考訳) ブラインドフェイス修復(bfr)は挑戦的に重要である。 以前の作業では、品質と効率のバランスのため、ganベースのフレームワークを利用してこの問題に取り組むことを好む。 しかし、これらの手法は長期分布に対する安定性の低下と適応性に悩まされ、ソースのアイデンティティを同時に保持できず、詳細を復元することができない。 本稿では,トレーニング崩壊の回避とロングテール分布の生成という面において,ganよりも優れていることを考慮し,bfrに拡散確率モデル(dpm)を導入することを提案する。 DiffBFRは2段階の設計を用いて、まず低画質の画像から識別情報を復元し、実際の顔の分布に応じてテクスチャの詳細を強化する。 この設計は2つの重要なコンポーネントで実装されている。 1) 結果の顔の詳細を保存するためのアイデンティティ復元モジュール(IRM) 逆過程の条件として,LQ画像を用いた純ガウス的ランダム分布からノイズを除去する代わりに,部分雑音を付加したLQ画像から始まる新しい切り出しサンプリング手法を提案する。 理論的には、この変化はDPMの限界の低い証拠を縮小し、さらにオリジナルの詳細を復元する。 理論的証明により、入力サイズが異なる2つのカスケード条件DPMを導入し、このサンプリング効果を強化し、直接発生する高解像度画像のトレーニング困難を軽減する。 2)画像のテクスチャを磨くためのテクスチャ強化モジュール(TEM)。 ここでは、LQフリーモデルである無条件DPMを導入し、修復を現実的に見せるように強制する。 理論上は、純粋なHQ画像に基づいて訓練されたこの非条件DPMが、IRMから出力される推論画像の画素レベルの正しい分布を正当化するのに役立つことを証明した。 分節時間ステップの切り抜きサンプリングを用いて、アイデンティティ情報を保持しながら画素レベルのテクスチャを研磨する。

Blind face restoration (BFR) is important while challenging. Prior works prefer to exploit GAN-based frameworks to tackle this task due to the balance of quality and efficiency. However, these methods suffer from poor stability and adaptability to long-tail distribution, failing to simultaneously retain source identity and restore detail. We propose DiffBFR to introduce Diffusion Probabilistic Model (DPM) for BFR to tackle the above problem, given its superiority over GAN in aspects of avoiding training collapse and generating long-tail distribution. DiffBFR utilizes a two-step design, that first restores identity information from low-quality images and then enhances texture details according to the distribution of real faces. This design is implemented with two key components: 1) Identity Restoration Module (IRM) for preserving the face details in results. Instead of denoising from pure Gaussian random distribution with LQ images as the condition during the reverse process, we propose a novel truncated sampling method which starts from LQ images with part noise added. We theoretically prove that this change shrinks the evidence lower bound of DPM and then restores more original details. With theoretical proof, two cascade conditional DPMs with different input sizes are introduced to strengthen this sampling effect and reduce training difficulty in the high-resolution image generated directly. 2) Texture Enhancement Module (TEM) for polishing the texture of the image. Here an unconditional DPM, a LQ-free model, is introduced to further force the restorations to appear realistic. We theoretically proved that this unconditional DPM trained on pure HQ images contributes to justifying the correct distribution of inference images output from IRM in pixel-level space. Truncated sampling with fractional time step is utilized to polish pixel-level textures while preserving identity information.
翻訳日:2023-05-09 15:17:06 公開日:2023-05-08
# サリエンス感度損失を用いたロバスト信号検出:計算フレームワークと評価

Robust Traffic Light Detection Using Salience-Sensitive Loss: Computational Framework and Evaluations ( http://arxiv.org/abs/2305.04516v1 )

ライセンス: Link先を確認
Ross Greer, Akshay Gopalkrishnan, Jacob Landgren, Lulua Rakla, Anish Gopalan, Mohan Trivedi(参考訳) 安全な自動運転システムを確保するための最も重要な課題の1つは、道路交通信号機を正確に検出し、運転者の行動にどう影響するかを正確に決定することである。 様々な実世界の運転状況において、シーンはドライバーと様々なレベルの関連性を持つ多数の信号機を持っているため、運転者に関連する信号の識別と検出と運転者の行動に影響を及ぼすことは重要な安全課題である。 本稿では,この課題に焦点を絞った交通信号検出モデルを提案する。 次に、このサリエンス特性を用いて、注釈付きサリエンス特性を持つ米国最初のトラフィックライトデータセットであるLAVA Salient Lights Datasetを構築します。 次に,Salience-Sensitive Focal Lossを用いたDeformable DETRオブジェクト検出トランスフォーマモデルをトレーニングし,この損失関数でトレーニングしたモデルがトレーニングされていないモデルよりも強いリコールを持つことを示す。

One of the most important tasks for ensuring safe autonomous driving systems is accurately detecting road traffic lights and accurately determining how they impact the driver's actions. In various real-world driving situations, a scene may have numerous traffic lights with varying levels of relevance to the driver, and thus, distinguishing and detecting the lights that are relevant to the driver and influence the driver's actions is a critical safety task. This paper proposes a traffic light detection model which focuses on this task by first defining salient lights as the lights that affect the driver's future decisions. We then use this salience property to construct the LAVA Salient Lights Dataset, the first US traffic light dataset with an annotated salience property. Subsequently, we train a Deformable DETR object detection transformer model using Salience-Sensitive Focal Loss to emphasize stronger performance on salient traffic lights, showing that a model trained with this loss function has stronger recall than one trained without.
翻訳日:2023-05-09 15:16:36 公開日:2023-05-08
# モノのインターネットのためのブロックチェーン型連合学習:包括的調査

Blockchained Federated Learning for Internet of Things: A Comprehensive Survey ( http://arxiv.org/abs/2305.04513v1 )

ライセンス: Link先を確認
Yanna Jiang, Baihe Ma, Xu Wang, Ping Yu, Guangsheng Yu, Zhe Wang, Wei Ni, Ren Ping Liu(参考訳) ビッグデータに基づくインテリジェント産業とスマートサービスの需要は、現代の世界のデジタル化と知性の増加とともに急速に増加している。 この調査は、Blockchained Federated Learning(BlockFL)を包括的にレビューし、BlockchainとFederated Learningの両方のメリットを結合して、需要に対してセキュアで効率的なソリューションを提供する。 セキュリティとプライバシ、信頼性、信頼性、効率、データの異質性を重視した、Personal IoT(PIoT)、Industrial IoT(IIoT)、Internet of Vehicles(IoV)、Internet of Health Things(IoHT)の4つのアプリケーションシナリオにおける既存のBlockFLモデルを比較した。 分析の結果,分散化と透明性によってblockflは分散モデルのトレーニングにおいて安全かつ効果的なソリューションとなり,オーバーヘッドと互換性は依然として研究が必要であることがわかった。 また、各ドメインのユニークな課題は、プライバシ、リソース制約、データの不均一性など、共通の課題に加えて、iovにおける動的環境の適応や、iohtにおけるアイデンティティとパーミッション管理の要求の高さといった、ユニークな課題を示している。 さらに、BlockFLのメリットを享受できる既存の技術について検討し、研究者や実践者がさまざまなIoTアプリケーションシナリオにおけるBlockFLの選択と開発に関する決定を下す手助けをする。

The demand for intelligent industries and smart services based on big data is rising rapidly with the increasing digitization and intelligence of the modern world. This survey comprehensively reviews Blockchained Federated Learning (BlockFL) that joins the benefits of both Blockchain and Federated Learning to provide a secure and efficient solution for the demand. We compare the existing BlockFL models in four Internet-of-Things (IoT) application scenarios: Personal IoT (PIoT), Industrial IoT (IIoT), Internet of Vehicles (IoV), and Internet of Health Things (IoHT), with a focus on security and privacy, trust and reliability, efficiency, and data heterogeneity. Our analysis shows that the features of decentralization and transparency make BlockFL a secure and effective solution for distributed model training, while the overhead and compatibility still need further study. It also reveals the unique challenges of each domain presents unique challenges, e.g., the requirement of accommodating dynamic environments in IoV and the high demands of identity and permission management in IoHT, in addition to some common challenges identified, such as privacy, resource constraints, and data heterogeneity. Furthermore, we examine the existing technologies that can benefit BlockFL, thereby helping researchers and practitioners to make informed decisions about the selection and development of BlockFL for various IoT application scenarios.
翻訳日:2023-05-09 15:16:16 公開日:2023-05-08
# FedZKP: ゼロ知識証明によるフェデレーションモデルオーナシップ検証

FedZKP: Federated Model Ownership Verification with Zero-knowledge Proof ( http://arxiv.org/abs/2305.04507v1 )

ライセンス: Link先を確認
Wenyuan Yang, Yuguo Yin, Gongxi Zhu, Hanlin Gu, Lixin Fan, Xiaochun Cao, Qiang Yang(参考訳) フェデレートラーニング(Federated Learning, FL)は、複数のパーティが互いにプライベートデータを共有することなく、協調的にフェデレーションモデルの学習を可能にする。 このようなフェデレーションモデルの盗用や誤用から保護することの必要性から,FedZKP というゼロ知識証明を用いた証明可能なモデル所有検証手法を提案する動機がある。 認証情報を開示しないFedZKPスキームは、様々な既存および潜在的攻撃を打ち負かすことが保証されている。 理論的分析と実証的研究は、攻撃者が提案されたFedZKPに侵入する確率が無視可能であるという意味で、FedZKPの安全性を実証している。 さらに,本手法の信頼性とロバスト性についても広範な実験結果が得られた。

Federated learning (FL) allows multiple parties to cooperatively learn a federated model without sharing private data with each other. The need of protecting such federated models from being plagiarized or misused, therefore, motivates us to propose a provable secure model ownership verification scheme using zero-knowledge proof, named FedZKP. It is shown that the FedZKP scheme without disclosing credentials is guaranteed to defeat a variety of existing and potential attacks. Both theoretical analysis and empirical studies demonstrate the security of FedZKP in the sense that the probability for attackers to breach the proposed FedZKP is negligible. Moreover, extensive experimental results confirm the fidelity and robustness of our scheme.
翻訳日:2023-05-09 15:15:48 公開日:2023-05-08
# 安全諮問のための歩行者行動地図:CHAMPフレームワークと実世界データ分析

Pedestrian Behavior Maps for Safety Advisories: CHAMP Framework and Real-World Data Analysis ( http://arxiv.org/abs/2305.04506v1 )

ライセンス: Link先を確認
Ross Greer, Samveed Desai, Lulua Rakla, Akshay Gopalkrishnan, Afnan Alofi, Mohan Trivedi(参考訳) 歩行者との衝突を防ぐことは車両にとって重要である。 歩行者衝突防止の現在の方法は、歩行者が車両の進路に入ると警告をトリガーしブレーキをかけることのできる自動緊急ブレーキ(AEB)システムと視覚的歩行者検出器の統合に焦点を当てている。 残念なことに、歩行者検出に基づくシステムは、夜間や歩行者が閉じ込められている特定の状況で妨げられる可能性がある。 本システムでは,オンライン地図を用いた歩行者検出集約システムを用いて,複数回の通行後に共通歩行者位置を学習する。 カリフォルニア州ラ・ジョラ(La Jolla)の注意深い収集と注釈付きデータセットを用いて、暗い照明や歩行者の閉塞といった課題にもかかわらず、車両が歩行者に近づいているときに歩行者ゾーンを学習し、助言通知を生成するシステムの能力を示す。 正確な勧告数、誤った助言数、欠落した助言数を用いて、精度と再現性能の指標を定義し、我々のシステムを評価し、さらなるデータ収集による将来の肯定的な効果について議論する。 私たちは、https://github.com/s7desai/ped-mappingでコードを公開し、 https://youtu.be/dxeCrS_GpkwでCHAMPシステムのデモビデオを公開しました。

It is critical for vehicles to prevent any collisions with pedestrians. Current methods for pedestrian collision prevention focus on integrating visual pedestrian detectors with Automatic Emergency Braking (AEB) systems which can trigger warnings and apply brakes as a pedestrian enters a vehicle's path. Unfortunately, pedestrian-detection-based systems can be hindered in certain situations such as night-time or when pedestrians are occluded. Our system addresses such issues using an online, map-based pedestrian detection aggregation system where common pedestrian locations are learned after repeated passes of locations. Using a carefully collected and annotated dataset in La Jolla, CA, we demonstrate the system's ability to learn pedestrian zones and generate advisory notices when a vehicle is approaching a pedestrian despite challenges like dark lighting or pedestrian occlusion. Using the number of correct advisories, false advisories, and missed advisories to define precision and recall performance metrics, we evaluate our system and discuss future positive effects with further data collection. We have made our code available at https://github.com/s7desai/ped-mapping, and a video demonstration of the CHAMP system at https://youtu.be/dxeCrS_Gpkw.
翻訳日:2023-05-09 15:15:33 公開日:2023-05-08
# 文書レベル機械翻訳のためのターゲット側拡張

Target-Side Augmentation for Document-Level Machine Translation ( http://arxiv.org/abs/2305.04505v1 )

ライセンス: Link先を確認
Guangsheng Bao, Zhiyang Teng, Yue Zhang(参考訳) ドキュメントレベルの機械翻訳は、長い入力長と少量のトレーニングデータによってデータのスパーシティの課題に直面し、スプリアスパターンを学習するリスクを増大させる。 この課題に対処するために,データ拡張(DA)モデルを導入し,各ソース文書に対して潜在的に多くの翻訳を生成するターゲット側拡張手法を提案する。 これらの広い範囲の翻訳を学習することにより、MTモデルはスムーズな分布を学習し、データ間隔のリスクを低減することができる。 後続分布を推定するDAモデルはMT性能を大幅に改善し,NewsとEuroparlのベンチマークで2.30 s-BLEUを上回り,新しい最先端のベンチマークを実現した。 私たちのコードは \url{https://github.com/baoguangsheng/target-side-augmentation} で利用可能です。

Document-level machine translation faces the challenge of data sparsity due to its long input length and a small amount of training data, increasing the risk of learning spurious patterns. To address this challenge, we propose a target-side augmentation method, introducing a data augmentation (DA) model to generate many potential translations for each source document. Learning on these wider range translations, an MT model can learn a smoothed distribution, thereby reducing the risk of data sparsity. We demonstrate that the DA model, which estimates the posterior distribution, largely improves the MT performance, outperforming the previous best system by 2.30 s-BLEU on News and achieving new state-of-the-art on News and Europarl benchmarks. Our code is available at \url{https://github.com/baoguangsheng/target-side-augmentation}.
翻訳日:2023-05-09 15:15:11 公開日:2023-05-08
# データ符号化, アンザッツ表現性, 絡み合いがHQNNの訓練性に及ぼす影響

The Unified Effect of Data Encoding, Ansatz Expressibility and Entanglement on the Trainability of HQNNs ( http://arxiv.org/abs/2305.04504v1 )

ライセンス: Link先を確認
Muhammad Kashif and Saif Al-Kuwari(参考訳) 本稿では,量子ニューラルネットワーク (QNN) におけるバレンプラトー問題に寄与するいくつかの要因の複合効果を研究する枠組みを提案し,量子機械学習 (QML) において重要な課題である。 これらの要因には、データのエンコーディング、キュービットの絡み合い、アンサッツ表現性が含まれる。 実世界の文脈におけるこの結合効果を調べるために,マルチクラス分類のためのハイブリッド量子ニューラルネットワーク(HQNN)に着目した。 提案フレームワークは,これらの要因がHQNNのトレーニング環境に与える影響を分析することを目的としている。 以上の結果から,hqnnsにおける不毛高原問題はアンサッツの表現可能性とデータエンコーディングのタイプに依存することが明らかとなった。 さらに, 不毛高原問題においても, 絡み合いが役割を担っていることを観察した。 分類タスクにおける様々な評価指標を用いたhqnnの性能評価を行うことにより,様々な制約シナリオを推奨し,qnnの実践的成功のためのフレームワークの重要性を強調する。

In this paper, we propose a framework to study the combined effect of several factors that contribute to the barren plateau problem in quantum neural networks (QNNs), which is a critical challenge in quantum machine learning (QML). These factors include data encoding, qubit entanglement, and ansatz expressibility. To investigate this joint effect in a real-world context, we focus on hybrid quantum neural networks (HQNNs) for multi-class classification. Our proposed framework aims to analyze the impact of these factors on the training landscape of HQNNs. Our findings show that the barren plateau problem in HQNNs is dependent on the expressibility of the underlying ansatz and the type of data encoding. Furthermore, we observe that entanglement also plays a role in the barren plateau problem. By evaluating the performance of HQNNs with various evaluation metrics for classification tasks, we provide recommendations for different constraint scenarios, highlighting the significance of our framework for the practical success of QNNs.
翻訳日:2023-05-09 15:14:56 公開日:2023-05-08
# MO-DEHB:多目的最適化のための進化的ハイパーバンド

MO-DEHB: Evolutionary-based Hyperband for Multi-Objective Optimization ( http://arxiv.org/abs/2305.04502v1 )

ライセンス: Link先を確認
Noor Awad, Ayushi Sharma and Frank Hutter(参考訳) ハイパーパラメータ最適化(HPO)は機械学習(ML)モデルのチューニングを自動化する強力な技術である。 しかし、多くの実世界のアプリケーションでは、精度は考慮すべき複数の性能基準の1つである。 これらの目的を複雑で多様な検索空間で同時に最適化することは、依然として困難な課題である。 本稿では,最近の進化的ハイパーバンド法であるdehbを拡張した,効率的で柔軟なマルチ目的(mo)オプティマイザであるmo-dehbを提案する。 我々は,hso,neural architecture search (nas),nasとhsoの統合など,多様で挑戦的なmo問題からなる15のベンチマークスイートを用いて,mo-dehbの性能を検証する。 最先端のMOオプティマイザに対する比較研究は、MO-DEHBが15ベンチマークで明らかに最高のパフォーマンスを実現していることを示している。

Hyperparameter optimization (HPO) is a powerful technique for automating the tuning of machine learning (ML) models. However, in many real-world applications, accuracy is only one of multiple performance criteria that must be considered. Optimizing these objectives simultaneously on a complex and diverse search space remains a challenging task. In this paper, we propose MO-DEHB, an effective and flexible multi-objective (MO) optimizer that extends the recent evolutionary Hyperband method DEHB. We validate the performance of MO-DEHB using a comprehensive suite of 15 benchmarks consisting of diverse and challenging MO problems, including HPO, neural architecture search (NAS), and joint NAS and HPO, with objectives including accuracy, latency and algorithmic fairness. A comparative study against state-of-the-art MO optimizers demonstrates that MO-DEHB clearly achieves the best performance across our 15 benchmarks.
翻訳日:2023-05-09 15:14:41 公開日:2023-05-08
# 視覚音声認識のためのマルチテンポラルリップオーディオメモリ

Multi-Temporal Lip-Audio Memory for Visual Speech Recognition ( http://arxiv.org/abs/2305.04542v1 )

ライセンス: Link先を確認
Jeong Hun Yeo, Minsu Kim, Yong Man Ro(参考訳) 視覚音声認識(VSR)は、唇の動きから文や単語を予測するタスクである。 視覚情報を補うために音声信号を使用する作品も最近紹介されている。 しかし、既存の手法では、音素レベル特徴や自動音声認識(asr)ネットワークのソフトラベルなどの限られた情報のみを使用する。 本稿では,唇運動の情報不足を補うために,音声信号を最大限に活用するマルチタイムリップオーディオメモリ(mtlam)を提案する。 提案手法は主に2つの部分からなる。 1) MTLAMは, 短時間および長期の音声信号から発生する多時間音声特徴を保存し, MTLAMは, 推測フェーズにおける視覚特徴から格納された多時間音声特徴をロードするための視覚音声マッピングを記憶する。 2) 隣接単語の文脈を捉えるマルチモーダルな音声特徴を生成するために, 音声時間モデルを設計する。 さらに、効果的な視覚音声マッピングを構築するために、音声時間モデルでは、視覚的特徴と時間的整合した音声特徴を生成することができる。 広範な実験を通じて,2つの公開vsrデータセットにおけるmtlamの有効性を検証する。

Visual Speech Recognition (VSR) is a task to predict a sentence or word from lip movements. Some works have been recently presented which use audio signals to supplement visual information. However, existing methods utilize only limited information such as phoneme-level features and soft labels of Automatic Speech Recognition (ASR) networks. In this paper, we present a Multi-Temporal Lip-Audio Memory (MTLAM) that makes the best use of audio signals to complement insufficient information of lip movements. The proposed method is mainly composed of two parts: 1) MTLAM saves multi-temporal audio features produced from short- and long-term audio signals, and the MTLAM memorizes a visual-to-audio mapping to load stored multi-temporal audio features from visual features at the inference phase. 2) We design an audio temporal model to produce multi-temporal audio features capturing the context of neighboring words. In addition, to construct effective visual-to-audio mapping, the audio temporal models can generate audio features time-aligned with visual features. Through extensive experiments, we validate the effectiveness of the MTLAM achieving state-of-the-art performances on two public VSR datasets.
翻訳日:2023-05-09 15:09:21 公開日:2023-05-08
# マルチマスタートモサーによる高品質大規模3次元都市マッピング

High Quality Large-Scale 3-D Urban Mapping with Multi-Master TomoSAR ( http://arxiv.org/abs/2305.04541v1 )

ライセンス: Link先を確認
Yilei Shi, Richard Bamler, Yuanyuan Wang, Xiao Xiang Zhu(参考訳) マルチベースライン干渉型合成開口レーダ (insar) 技術は, 市街地の3次元情報検索に有効な手法である。 妥当な再構築を得るためには、大きなスタックのインターフェログラムを使う必要がある。 したがって,TanDEM-Xデータを用いた大規模3次元都市マッピングでは,都市ごとの平均的な取得数が少ないことが一般的である。 本研究では,SARトモグラフィの非局所フィルタリングをSARトモグラフィインバージョンに統合した,超小型スタックで動作する新しいSARトモグラフィ処理フレームワークを提案する。 このアルゴリズムの適用性は、ドイツのミュンヘン市全域に5つのバイスタティック・インターフェログラムを持つTandDEM-Xマルチベースラインスタックを用いて実証されている。 この結果と空中LiDARデータとの体系的比較により,3階建の相対的高さ精度は2m以内であり,TandEM-X生DEMよりも優れていた。 提案アルゴリズムの有望な性能は,高品質な3次元都市マッピングへの第一歩となった。

Multi-baseline interferometric synthetic aperture radar (InSAR) techniques are effective approaches for retrieving the 3-D information of urban areas. In order to obtain a plausible reconstruction, it is necessary to use large-stack interferograms. Hence, these methods are commonly not appropriate for large-scale 3-D urban mapping using TanDEM-X data where only a few acquisitions are available in average for each city. This work proposes a new SAR tomographic processing framework to work with those extremely small stacks, which integrates the non-local filtering into SAR tomography inversion. The applicability of the algorithm is demonstrated using a TanDEM-X multi-baseline stack with 5 bistatic interferograms over the whole city of Munich, Germany. Systematic comparison of our result with airborne LiDAR data shows that the relative height accuracy of two third buildings is within two meters, which outperforms the TanDEM-X raw DEM. The promising performance of the proposed algorithm paved the first step towards high quality large-scale 3-D urban mapping.
翻訳日:2023-05-09 15:09:02 公開日:2023-05-08
# Q&Aラベル学習

Q&A Label Learning ( http://arxiv.org/abs/2305.04539v1 )

ライセンス: Link先を確認
Kota Kawamoto and Masato Uchida(参考訳) 教師付き機械学習では、インスタンスにラベルを割り当てることが不可欠である。 そこで,本論文では,割り当てられるインスタンスのラベルについて質問する質問生成器と,その質問に回答し,対応するラベルをインスタンスに割り当てるアノテータを備える,Q&Aラベリング(Q&A labeling)という新しいアノテーション手法を提案する。 質問と回答の仕方が異なる2つの異なるq&aラベリング手順に従って割り当てられたラベルの生成モデルを提案した。 両手法とも, 導出モデルは従来の研究と部分的に一致していることを示した。 この研究とこれまでの研究の主な違いは、ラベル生成モデルが仮定されたのではなく、特定のアノテーションメソッドであるq&aラベルの定義に基づいて導出されたという事実である。 また、与えられたq&aラベルを用いて、通常の教師付き機械学習の分類リスクを評価するための損失関数を導出し、分類誤差の上限を評価した。 その結果,Q&Aラベルを用いた学習における統計的一貫性が示唆された。

Assigning labels to instances is crucial for supervised machine learning. In this paper, we proposed a novel annotation method called Q&A labeling, which involves a question generator that asks questions about the labels of the instances to be assigned, and an annotator who answers the questions and assigns the corresponding labels to the instances. We derived a generative model of labels assigned according to two different Q&A labeling procedures that differ in the way questions are asked and answered. We showed that, in both procedures, the derived model is partially consistent with that assumed in previous studies. The main distinction of this study from previous studies lies in the fact that the label generative model was not assumed, but rather derived based on the definition of a specific annotation method, Q&A labeling. We also derived a loss function to evaluate the classification risk of ordinary supervised machine learning using instances assigned Q&A labels and evaluated the upper bound of the classification error. The results indicate statistical consistency in learning with Q&A labels.
翻訳日:2023-05-09 15:08:47 公開日:2023-05-08
# LMPT:ロングテールマルチラベル視覚認識のためのクラス別埋め込み損失を用いたプロンプトチューニング

LMPT: Prompt Tuning with Class-Specific Embedding Loss for Long-tailed Multi-Label Visual Recognition ( http://arxiv.org/abs/2305.04536v1 )

ライセンス: Link先を確認
Peng Xia, Di Xu, Lie Ju, Ming Hu, Jun Chen, Zongyuan Ge(参考訳) ラベル共起と不均衡なデータ分布のため,Long-tailed Multi-label visual recognition (LTML) タスクは極めて困難なタスクである。 本研究は,クラス固有の埋め込み損失(LMPT)を迅速にチューニングし,テキストと画像のモダリティデータを組み合わせてカテゴリ間の意味的特徴の相互作用を捉え,頭と尾の両方のパフォーマンスを同期的に改善するLTML統合フレームワークを提案する。 特に、lmptは、クラス認識のソフトマージンを持つ埋め込み損失関数を導入し、クラス固有のコンテキストを、特に頭と尾のクラス間の意味的関係を確立するのに役立つテキスト記述(captions)の恩恵を受けて学習する。 さらに、クラス不均衡を考慮した分類損失関数として分布バランス損失を採用し、ヘッドクラスを損なうことなくテールクラスの性能をさらに向上させる。 VOC-LTとCOCO-LTのデータセットを用いて大規模な実験を行い、提案手法が従来の最先端手法やLTMLのゼロショットCLIPを大きく上回ることを示した。 我々のコードは \url{https://github.com/richard-peng-xia/LMPT} で完全に利用可能です。

Long-tailed multi-label visual recognition (LTML) task is a highly challenging task due to the label co-occurrence and imbalanced data distribution. In this work, we propose a unified framework for LTML, namely prompt tuning with class-specific embedding loss (LMPT), capturing the semantic feature interactions between categories by combining text and image modality data and improving the performance synchronously on both head and tail classes. Specifically, LMPT introduces the embedding loss function with class-aware soft margin and re-weighting to learn class-specific contexts with the benefit of textual descriptions (captions), which could help establish semantic relationships between classes, especially between the head and tail classes. Furthermore, taking into account the class imbalance, the distribution-balanced loss is adopted as the classification loss function to further improve the performance on the tail classes without compromising head classes. Extensive experiments are conducted on VOC-LT and COCO-LT datasets, which demonstrates that the proposed method significantly surpasses the previous state-of-the-art methods and zero-shot CLIP in LTML. Our codes are fully available at \url{https://github.com/richard-peng-xia/LMPT}.
翻訳日:2023-05-09 15:08:29 公開日:2023-05-08
# FSA-YOLOv5に基づくスマートホームデバイス検出アルゴリズム

Smart Home Device Detection Algorithm Based on FSA-YOLOv5 ( http://arxiv.org/abs/2305.04534v1 )

ライセンス: Link先を確認
Jiafeng Zhang and Xuejing Pu(参考訳) スマートホームデバイス検出は人間とコンピュータの相互作用の重要な側面である。 しかし,室内環境におけるターゲット検出は環境光と背景雑音の干渉により困難である。 本稿では,従来の畳み込みニューラルネットワークの制約に対処するために,トランスフォーマを導入することで長距離依存性を学習する,fsa-yolov5と呼ばれる新しいモデルを提案する。 さらに,空間次元情報とチャネル次元情報を統合し,文脈情報を学習する新しいアテンションモジュール,フルセパレーションアテンションモジュールを提案する。 小型デバイス検出を改善するため,屋内スマートホームデバイス検出タスクの予測ヘッドを含む。 また、既存のデータサンプルを補完するsussd(southeast university indoor smart speaker dataset)もリリースしています。 我々はSUSSDの一連の実験を通じて,本手法が他の手法よりも優れており,FSA-YOLOv5の有効性が示された。

Smart home device detection is a critical aspect of human-computer interaction. However, detecting targets in indoor environments can be challenging due to interference from ambient light and background noise. In this paper, we present a new model called FSA-YOLOv5, which addresses the limitations of traditional convolutional neural networks by introducing the Transformer to learn long-range dependencies. Additionally, we propose a new attention module, the full-separation attention module, which integrates spatial and channel dimensional information to learn contextual information. To improve tiny device detection, we include a prediction head for the indoor smart home device detection task. We also release the Southeast University Indoor Smart Speaker Dataset (SUSSD) to supplement existing data samples. Through a series of experiments on SUSSD, we demonstrate that our method outperforms other methods, highlighting the effectiveness of FSA-YOLOv5.
翻訳日:2023-05-09 15:08:07 公開日:2023-05-08
# 長いオープンドメイン会話のためのチャットボットモジュールとしてのプロンプトLDM

Prompted LLMs as Chatbot Modules for Long Open-domain Conversation ( http://arxiv.org/abs/2305.04533v1 )

ライセンス: Link先を確認
Gibbeum Lee, Volker Hartmann, Jongho Park, Dimitris Papailiopoulos, Kangwook Lee(参考訳) 本稿では,mpc (modular inspired chatbot) を提案する。これは,微調整を必要とせず,高品質な会話エージェントを作成するための新しいアプローチである。 本手法は,事前学習された大規模言語モデル(LLM)を,ショットプロンプト,チェーン・オブ・シークレット(CoT),外部メモリなどの技術を用いて,長期的一貫性と柔軟性のための個別モジュールとして利用する。 人間の評価結果から、MPCはオープンドメイン会話における微調整されたチャットボットモデルと同等であり、一貫性とエンゲージメントのあるチャットボットを作成するための効果的なソリューションであることが示された。

In this paper, we propose MPC (Modular Prompted Chatbot), a new approach for creating high-quality conversational agents without the need for fine-tuning. Our method utilizes pre-trained large language models (LLMs) as individual modules for long-term consistency and flexibility, by using techniques such as few-shot prompting, chain-of-thought (CoT), and external memory. Our human evaluation results show that MPC is on par with fine-tuned chatbot models in open-domain conversations, making it an effective solution for creating consistent and engaging chatbots.
翻訳日:2023-05-09 15:07:51 公開日:2023-05-08
# 人工知能技術の最新動向:スコーピングレビュー

Latest Trends in Artificial Intelligence Technology: A Scoping Review ( http://arxiv.org/abs/2305.04532v1 )

ライセンス: Link先を確認
Teemu Niskanen, Tuomo Sipola, Olli V\"a\"an\"anen(参考訳) 人工知能は複数の領域においてよりユビキタスである。 スマートフォン、ソーシャルメディアプラットフォーム、検索エンジン、自動運転車は、人工知能技術を使ってパフォーマンスを向上させるアプリケーションの一例にすぎない。 本研究では、PRISMAフレームワークに続く最先端の人工知能技術のスコーピングレビューを行う。 目標は、人工知能技術研究のさまざまな分野で使われている最も先進的な技術を見つけることであった。 人工知能と機械学習の分野から認識された3つのジャーナル、journal of artificial intelligence research、journal of machine learning research、machine learningが使われ、2022年に出版された記事が観察された。 技術は同等のソリューションに対してテストされなければならず、一般的に承認されるか、あるいは適切に正当化されたデータセットは適用中に使用されなければならない。 技術開発の最も重要な部分の1つは、複数のソースから収集されたデータの処理と活用の方法であった。 データは高度に非構造化され、技術ソリューションは、人間による最小限の手動作業でデータを利用できるべきである。 このレビューの結果、ラベル付きデータセットの作成は非常に困難であり、教師なしまたは半教師なしの学習技術を利用したソリューションはますます研究されている。 学習アルゴリズムは効率的に更新でき、予測は解釈可能であるべきである。 現実の応用において人工知能技術を用いることで、安全と説明可能な予測は、大量導入が起こる前に考慮する必要がある。

Artificial intelligence is more ubiquitous in multiple domains. Smartphones, social media platforms, search engines, and autonomous vehicles are just a few examples of applications that utilize artificial intelligence technologies to enhance their performance. This study carries out a scoping review of the current state-of-the-art artificial intelligence technologies following the PRISMA framework. The goal was to find the most advanced technologies used in different domains of artificial intelligence technology research. Three recognized journals were used from artificial intelligence and machine learning domain: Journal of Artificial Intelligence Research, Journal of Machine Learning Research, and Machine Learning, and articles published in 2022 were observed. Certain qualifications were laid for the technological solutions: the technology must be tested against comparable solutions, commonly approved or otherwise well justified datasets must be used while applying, and results must show improvements against comparable solutions. One of the most important parts of the technology development appeared to be how to process and exploit the data gathered from multiple sources. The data can be highly unstructured and the technological solution should be able to utilize the data with minimum manual work from humans. The results of this review indicate that creating labeled datasets is very laborious, and solutions exploiting unsupervised or semi-supervised learning technologies are more and more researched. The learning algorithms should be able to be updated efficiently, and predictions should be interpretable. Using artificial intelligence technologies in real-world applications, safety and explainable predictions are mandatory to consider before mass adoption can occur.
翻訳日:2023-05-09 15:07:32 公開日:2023-05-08
# 文章と視覚手がかりの条件付き推論のためのマルチモーダルコンテキスト推論手法

A Multi-Modal Context Reasoning Approach for Conditional Inference on Joint Textual and Visual Clues ( http://arxiv.org/abs/2305.04530v1 )

ライセンス: Link先を確認
Yunxin Li, Baotian Hu, Xinyu Chen, Yuxin Ding, Lin Ma, and Min Zhang(参考訳) 共同文と視覚的手がかりに関する条件推論は、テキストの手がかりが事前の置換や外部知識を提供するマルチモーダル推論タスクであり、視覚内容と相補的であり、正しい選択肢を導出するのに重要なものである。 事前学習された視覚言語モデル(VLM)を用いた従来の手法は印象的な性能を発揮するが、特にテキスト・モーダル情報において、マルチモーダルな文脈推論能力の欠如が示されている。 この問題に対処するため,ModCRというマルチモーダルコンテキスト推論手法を提案する。 クロスモーダルセマンティクスアライメントによる推論を行うvlmsと比較して、与えられたテキストの抽象的意味と客観的な画像情報を事前コンテキスト情報として捉え、それらを言語モデルに組み込んでコンテキスト推論を行う。 自然言語処理で使われる最近の視覚支援言語モデルとは異なり、modcrは事前学習された言語モデルに画像とテキストの学習可能なアライメントプレフィックスを導入することにより、言語と視覚の間の多視点意味的アライメント情報を取り込んでいる。 これにより、言語モデルは、ジョイントテキストと視覚的手がかりに関するマルチモーダル推論シナリオに適している。 2つの対応するデータセットについて広範な実験を行い,実験結果から,従来の強力なベースラインと比較して有意に性能が向上した(pmrテストセットでは4.8%向上)。 コードリンク: \url{https://github.com/YunxinLi/Multimodal-Context-Reasoning}

Conditional inference on joint textual and visual clues is a multi-modal reasoning task that textual clues provide prior permutation or external knowledge, which are complementary with visual content and pivotal to deducing the correct option. Previous methods utilizing pretrained vision-language models (VLMs) have achieved impressive performances, yet they show a lack of multimodal context reasoning capability, especially for text-modal information. To address this issue, we propose a Multi-modal Context Reasoning approach, named ModCR. Compared to VLMs performing reasoning via cross modal semantic alignment, it regards the given textual abstract semantic and objective image information as the pre-context information and embeds them into the language model to perform context reasoning. Different from recent vision-aided language models used in natural language processing, ModCR incorporates the multi-view semantic alignment information between language and vision by introducing the learnable alignment prefix between image and text in the pretrained language model. This makes the language model well-suitable for such multi-modal reasoning scenario on joint textual and visual clues. We conduct extensive experiments on two corresponding data sets and experimental results show significantly improved performance (exact gain by 4.8% on PMR test set) compared to previous strong baselines. Code Link: \url{https://github.com/YunxinLi/Multimodal-Context-Reasoning}.
翻訳日:2023-05-09 15:06:52 公開日:2023-05-08
# snt: 高速圧縮フレンドリなプリトレーニングのためのシャープネス最小ネットワークトランスフォーメーション

SNT: Sharpness-Minimizing Network Transformation for Fast Compression-friendly Pretraining ( http://arxiv.org/abs/2305.04526v1 )

ライセンス: Link先を確認
Jung Hwan Heo, Seyedarmin Azizi, Arash Fayyazi, Mahdi Nazemi, Massoud Pedram(参考訳) モデル圧縮は視覚モデルの効率を最適化するためのデファクトアプローチとなっている。 近年,大規模プレトレーニングのコストが高いため,ほとんどの圧縮作業の焦点は後トレーニングのシナリオに移行している。 これにより、スクラッチから圧縮可能なモデルを構築する必要が生じ、トレーニング後に効果的に圧縮できる。 本研究では、プレトレーニング中に適用されたシャープネス最小化ネットワーク変換(SNT)手法を提案する。 我々は,この手法をよく知られたシャープネス最小化オプティマイザと比較し,その有効性を検証する。 我々の知る限り、SNTはアーキテクチャ変換を用いて圧縮フレンドリーなネットワークを生成する最初の事前学習手法である。 SNTは様々な圧縮タスクやネットワークバックボーンにまたがって一般化され,ADAMベースラインに対して一貫した改善が得られ,重量刈りの精度が最大2%向上し,量子化の精度が5.4%向上した。 私たちの結果を再現するコードは公開されます。

Model compression has become the de-facto approach for optimizing the efficiency of vision models. Recently, the focus of most compression efforts has shifted to post-training scenarios due to the very high cost of large-scale pretraining. This has created the need to build compressible models from scratch, which can effectively be compressed after training. In this work, we present a sharpness-minimizing network transformation (SNT) method applied during pretraining that can create models with desirable compressibility and generalizability features. We compare our approach to a well-known sharpness-minimizing optimizer to validate its efficacy in creating a flat loss landscape. To the best of our knowledge, SNT is the first pretraining method that uses an architectural transformation to generate compression-friendly networks. We find that SNT generalizes across different compression tasks and network backbones, delivering consistent improvements over the ADAM baseline with up to 2% accuracy improvement on weight pruning and 5.4% accuracy improvement on quantization. Code to reproduce our results will be made publicly available.
翻訳日:2023-05-09 15:06:22 公開日:2023-05-08
# 画像テキストマッチングガイド付き辞書を用いたシーンテキスト認識

Scene Text Recognition with Image-Text Matching-guided Dictionary ( http://arxiv.org/abs/2305.04524v1 )

ライセンス: Link先を確認
Jiajun Wei, Hongjian Zhan, Xiao Tu, Yue Lu, and Umapada Pal(参考訳) シーンテキスト認識手法において、辞書を用いることで、視覚的予測と地上真実とのずれを効率よく修正することができる。 しかし、視覚特徴に対する辞書の独立性は、正確な視覚予測を不正確な修正に導く可能性がある。 本稿では,明示的な辞書言語モデルの欠点を回避するために,シーン画像テキストマッチング(sitm)ネットワークを活用した新しい辞書言語モデルを提案する。 1) 視覚的特徴の独立性 2)候補者等における騒がしい選択 SITMネットワークは、画像テキストコントラスト学習(ITC)を用いて、画像と対応するテキストを推論段階の候補間でマッチングすることでこれを達成している。 ITCは視覚言語学習において、ポジティブな画像テキストペアを特徴空間に近づけるために広く使われている。 ITCにインスパイアされたSITMネットワークは、すべての候補の視覚的特徴とテキスト的特徴を組み合わせて、特徴空間における最小距離の候補を特定する。 本手法は6つの主要なベンチマークにおいて,通常の手法よりも優れた結果(93.8\%精度)が得られる。 さらに,この手法をABINetと統合し,いくつかのベンチマークで新たな最先端結果を確立する。

Employing a dictionary can efficiently rectify the deviation between the visual prediction and the ground truth in scene text recognition methods. However, the independence of the dictionary on the visual features may lead to incorrect rectification of accurate visual predictions. In this paper, we propose a new dictionary language model leveraging the Scene Image-Text Matching(SITM) network, which avoids the drawbacks of the explicit dictionary language model: 1) the independence of the visual features; 2) noisy choice in candidates etc. The SITM network accomplishes this by using Image-Text Contrastive (ITC) Learning to match an image with its corresponding text among candidates in the inference stage. ITC is widely used in vision-language learning to pull the positive image-text pair closer in feature space. Inspired by ITC, the SITM network combines the visual features and the text features of all candidates to identify the candidate with the minimum distance in the feature space. Our lexicon method achieves better results(93.8\% accuracy) than the ordinary method results(92.1\% accuracy) on six mainstream benchmarks. Additionally, we integrate our method with ABINet and establish new state-of-the-art results on several benchmarks.
翻訳日:2023-05-09 15:06:02 公開日:2023-05-08
# taps: 認定と敵意のトレーニングをつなぐ

TAPS: Connecting Certified and Adversarial Training ( http://arxiv.org/abs/2305.04574v1 )

ライセンス: Link先を確認
Yuhao Mao, Mark Niklas M\"uller, Marc Fischer, Martin Vechev(参考訳) 強靭なニューラルネットワークの訓練は、依然として難しい問題だ。 一方、敵の訓練は最悪の損失の過度な近似を最適化し、認定の正規化が不十分になる一方、音響認定訓練手法は緩やかな過剰近似を最適化し、過度な正規化と(標準)精度の低下をもたらす。 本研究は,ippとpgdの訓練を組み合わせることで,精度は高いが必ずしも高くないが,最悪の場合の損失近似を生じさせ,過正規化を低減し,認定と標準的誤認を増大させる,(不健全な)認定トレーニング手法であるtapsを提案する。 例えば、TinyImageNetで、半径$\ell_\infty$-perturbationsと半径$\epsilon=1/255$の認証精度が22\%に達した。

Training certifiably robust neural networks remains a notoriously hard problem. On one side, adversarial training optimizes under-approximations of the worst-case loss, which leads to insufficient regularization for certification, while on the other, sound certified training methods optimize loose over-approximations, leading to over-regularization and poor (standard) accuracy. In this work we propose TAPS, an (unsound) certified training method that combines IBP and PGD training to yield precise, although not necessarily sound, worst-case loss approximations, reducing over-regularization and increasing certified and standard accuracies. Empirically, TAPS achieves a new state-of-the-art in many settings, e.g., reaching a certified accuracy of $22\%$ on TinyImageNet for $\ell_\infty$-perturbations with radius $\epsilon=1/255$.
翻訳日:2023-05-09 14:59:06 公開日:2023-05-08
# hifi: パラメータ効率の高いモデル適応のための高情報注意ヘッド

HiFi: High-Information Attention Heads Hold for Parameter-Efficient Model Adaptation ( http://arxiv.org/abs/2305.04573v1 )

ライセンス: Link先を確認
Anchun Gui and Han Xiao(参考訳) ダウンストリームタスクにおける大規模事前学習言語モデル(plm)の利点を十分に活用するため、plmのパラメータ全体を微調整するユビキタス適応パラダイムとなった。 しかし、このパラダイムは、PLMの大規模なパラメーターのため、データスカースおよびリソース制限シナリオの微調整に非効率な更新とリソース過剰の問題を提起する。 そこで本稿では,これらの課題を緩和するため,パラメータ効率の良い微調整法hifiを提案する。 注目度の高い頭部を探索するために,頭部の有効性を分析するための新しい枠組みを開発した。 具体的には、まず、情報豊かさと相関性の2つの視点から頭部間の関係をグラフにモデル化し、次にPageRankアルゴリズムを適用して各頭部の相対的重要性を決定する。 GLUEベンチマークの大規模な実験により,提案手法の有効性を実証し,HiFiが先行ベースライン上での最先端性能を得ることを示す。

To fully leverage the advantages of large-scale pre-trained language models (PLMs) on downstream tasks, it has become a ubiquitous adaptation paradigm to fine-tune the entire parameters of PLMs. However, this paradigm poses issues of inefficient updating and resource over-consuming for fine-tuning in data-scarce and resource-limited scenarios, because of the large scale of parameters in PLMs. To alleviate these concerns, in this paper, we propose a parameter-efficient fine-tuning method HiFi, that is, only the highly informative and strongly correlated attention heads for the specific task are fine-tuned. To search for those significant attention heads, we develop a novel framework to analyze the effectiveness of heads. Specifically, we first model the relationship between heads into a graph from two perspectives of information richness and correlation, and then apply PageRank algorithm to determine the relative importance of each head. Extensive experiments on the GLUE benchmark demonstrate the effectiveness of our method, and show that HiFi obtains state-of-the-art performance over the prior baselines.
翻訳日:2023-05-09 14:58:46 公開日:2023-05-08
# 自然言語処理に自然を置く

Putting Natural in Natural Language Processing ( http://arxiv.org/abs/2305.04572v1 )

ライセンス: Link先を確認
Grzegorz Chrupa{\l}a(参考訳) 言語は第一に話し、第二に書かれる。 しかし、テキストは非常に便利で効率的な言語表現であり、近代文明はそれをユビキタスにしている。 したがって、NLPの分野は、音声言語よりも文章の処理に重点を置いてきた。 一方、音声言語に関する作業は、音声をテキストに書き込むことに不注意な、ほぼ独立した音声処理コミュニティ内でサイロ化されている。 近年の深層学習の進歩は,音声処理と主流NLPの手法に顕著な収束をもたらしている。 おそらく、この2つの分野を統一し、人間のコミュニケーションの第一の手段として音声言語を真剣に取り始めるための時期は熟しているだろう。 真に自然言語処理は、他の言語科学とのより良い統合につながる可能性があり、よりデータ効率が高く、より人間らしく、テキストのモダリティを超えてコミュニケーションできるシステムにつながる可能性がある。

Human language is firstly spoken and only secondarily written. Text, however, is a very convenient and efficient representation of language, and modern civilization has made it ubiquitous. Thus the field of NLP has overwhelmingly focused on processing written rather than spoken language. Work on spoken language, on the other hand, has been siloed off within the largely separate speech processing community which has been inordinately preoccupied with transcribing speech into text. Recent advances in deep learning have led to a fortuitous convergence in methods between speech processing and mainstream NLP. Arguably, the time is ripe for a unification of these two fields, and for starting to take spoken language seriously as the primary mode of human communication. Truly natural language processing could lead to better integration with the rest of language science and could lead to systems which are more data-efficient and more human-like, and which can communicate beyond the textual modality.
翻訳日:2023-05-09 14:58:26 公開日:2023-05-08
# 大学カリキュラムのための多元教育知識グラフの構築と融合

Multi-source Education Knowledge Graph Construction and Fusion for College Curricula ( http://arxiv.org/abs/2305.04567v1 )

ライセンス: Link先を確認
Zeju Li, Linya Cheng, Chunhong Zhang, Xinning Zhu, Hui Zhao(参考訳) 教育分野は人工知能(AI)の急速な進歩により大きな変革を遂げている。 さまざまなAI技術の中で、自然言語処理(NLP)を用いた知識グラフ(KG)が、多面的情報を統合するための強力な可視化ツールとして登場した。 大学教育の文脈では、多くの専門科目と複雑な学習資源が利用可能であることは、しばしば学生の学習結果に劣る。 本稿では,電子情報の主要分野に合わせた知識抽出,視覚kg構築,グラフ融合のための自動化フレームワークを提案する。 さらに,コース間の相関度と関係,ホットナレッジの概念のランク付け,およびコースの交点の探索についてデータ解析を行った。 我々の目標は、学生の学習効率を高め、AIによって実現される新しい教育パラダイムを探求することである。 提案フレームワークは,様々な概念やコース間の関係を包括的に理解することで,学習分野の複雑さをよりよく理解し,理解することを可能にすることが期待されている。

The field of education has undergone a significant transformation due to the rapid advancements in Artificial Intelligence (AI). Among the various AI technologies, Knowledge Graphs (KGs) using Natural Language Processing (NLP) have emerged as powerful visualization tools for integrating multifaceted information. In the context of university education, the availability of numerous specialized courses and complicated learning resources often leads to inferior learning outcomes for students. In this paper, we propose an automated framework for knowledge extraction, visual KG construction, and graph fusion, tailored for the major of Electronic Information. Furthermore, we perform data analysis to investigate the correlation degree and relationship between courses, rank hot knowledge concepts, and explore the intersection of courses. Our objective is to enhance the learning efficiency of students and to explore new educational paradigms enabled by AI. The proposed framework is expected to enable students to better understand and appreciate the intricacies of their field of study by providing them with a comprehensive understanding of the relationships between the various concepts and courses.
翻訳日:2023-05-09 14:58:11 公開日:2023-05-08
# 比較前倒しによる放射線被ばく発生の促進

Boosting Radiology Report Generation by Infusing Comparison Prior ( http://arxiv.org/abs/2305.04561v1 )

ライセンス: Link先を確認
Sanghwan Kim, Farhad Nooralahzadeh, Morteza Rohanian, Koji Fujimoto, Mizuho Nishio, Ryo Sakamoto, Fabio Rinaldi, and Michael Krauthammer(参考訳) 現在のトランスモデルでは胸部X線画像から放射線学レポートを生成することに成功した。 それにもかかわらず、主要な問題のひとつは、モデルが事前知識を欠いていることであり、しばしば、合成レポートにおいて存在しない事前試験への誤った参照につながる。 これは主に放射線科医と世代モデルの間の知識のギャップが原因で、放射線科医は患者の事前情報を認識して医療報告を書き、一方、モデルは特定の時間にx線画像を受信するのみである。 この問題に対処するため,IU X線とMIMIC-CXRデータセットの放射線学レポートからラベルを用いた先行情報を抽出する手法を提案する。 この比較は最先端のトランスフォーマーベースモデルに組み込まれており、よりリアルで包括的なレポートを生成することができる。 提案手法はIU X線とMIMIC-CXRのデータセットで検証し,従来の最先端モデルよりも,自動評価と人的評価の両方で優れていることを確認した。 さらに,従来のモデルと異なり,既存の事前試験に虚偽の参照を含まない報告を生成する。 本手法は,医療報告生成における放射線技師と世代モデルとのギャップを埋める上で有望な方向を提供する。

Current transformer-based models achieved great success in generating radiology reports from chest X-ray images. Nonetheless, one of the major issues is the model's lack of prior knowledge, which frequently leads to false references to non-existent prior exams in synthetic reports. This is mainly due to the knowledge gap between radiologists and the generation models: radiologists are aware of the prior information of patients to write a medical report, while models only receive X-ray images at a specific time. To address this issue, we propose a novel approach that employs a labeler to extract comparison prior information from radiology reports in the IU X-ray and MIMIC-CXR datasets. This comparison prior is then incorporated into state-of-the-art transformer-based models, allowing them to generate more realistic and comprehensive reports. We test our method on the IU X-ray and MIMIC-CXR datasets and find that it outperforms previous state-of-the-art models in terms of both automatic and human evaluation metrics. In addition, unlike previous models, our model generates reports that do not contain false references to non-existent prior exams. Our approach provides a promising direction for bridging the gap between radiologists and generation models in medical report generation.
翻訳日:2023-05-09 14:57:57 公開日:2023-05-08
# 行列多様体上のニューラルネットワークの構築:ジャイロビクター空間アプローチ

Building Neural Networks on Matrix Manifolds: A Gyrovector Space Approach ( http://arxiv.org/abs/2305.04560v1 )

ライセンス: Link先を確認
Xuan Son Nguyen, Shuo Yang(参考訳) 対称正定値(spd)行列やグラスマン多様体のような行列多様体は、多くの応用において現れる。 近年、双曲幾何学研究の強力な枠組みであるジャイロ群とジャイロベクトル空間の理論を適用することで、行列多様体上のユークリッドニューラルネットワークの原理的一般化を構築しようとする研究もある。 しかし、ジャイロビクター空間(例えば内積やジャイロ角形)の多くの概念が欠けているため、これらの作品によって提供される技法や数学的道具は双曲幾何学を研究するために開発されたものと比べてまだ限られている。 本稿では、SPDおよびグラスマン多様体のジャイロベクトル空間におけるいくつかの概念を一般化し、これらの多様体上にニューラルネットワークを構築するための新しいモデルと層を提案する。 本稿では,人間の行動認識と知識グラフ補完という2つの応用にアプローチの有効性を示す。

Matrix manifolds, such as manifolds of Symmetric Positive Definite (SPD) matrices and Grassmann manifolds, appear in many applications. Recently, by applying the theory of gyrogroups and gyrovector spaces that is a powerful framework for studying hyperbolic geometry, some works have attempted to build principled generalizations of Euclidean neural networks on matrix manifolds. However, due to the lack of many concepts in gyrovector spaces for the considered manifolds, e.g., the inner product and gyroangles, techniques and mathematical tools provided by these works are still limited compared to those developed for studying hyperbolic geometry. In this paper, we generalize some notions in gyrovector spaces for SPD and Grassmann manifolds, and propose new models and layers for building neural networks on these manifolds. We show the effectiveness of our approach in two applications, i.e., human action recognition and knowledge graph completion.
翻訳日:2023-05-09 14:57:36 公開日:2023-05-08
# 文脈化言語表現の敵意学習に向けて

Toward Adversarial Training on Contextualized Language Representation ( http://arxiv.org/abs/2305.04557v1 )

ライセンス: Link先を確認
Hongqiu Wu, Yongxiang Liu, Hanwen Shi, Hai Zhao, Min Zhang(参考訳) 先行学習言語モデル(PLM)上での最近のテキスト領域における敵対的トレーニング(AT)の成功談に加えて、実証的研究は、ATが持つ不整合的な利益、例えばコモンセンス推論、エンティティ認識などのタスクについて示す。 本稿では,plmエンコーダによって出力される文脈化言語表現の観点から検討する。 リーン攻撃の電流を見つけ、デコーダ部分を騙すがエンコーダに小さな影響を与えるような、最適でない逆向きの例を生成する。 しかし、ATが利益を得るためには、後者を効果的に外す必要がある。 この観察に基づいて,エンコーダの文脈化表現を逸脱するために攻撃を明示的に最適化した,単純かつ効果的な \textit{contextualized representation-adversarial training} (creat)を提案する。 これは、モデル全体を騙すことができる敵例のグローバルな最適化を可能にする。 また、Creatは敵のサンプルを最適化し、ハイパーパラメータに敏感さを和らげるために、より良い方向性をもたらす。 ATと比較すると、Creatは幅広いタスクで一貫したパフォーマンス向上を実現しており、エンコーダ部のみを下流タスクに保持する言語事前学習に有効であることが証明されている。 例えば、AdvGLUE (59.1 $ \rightarrow $ 61.1), HellaSWAG (93.0 $ \rightarrow $ 94.9), ANLI (68.1 $ \rightarrow $ 69.3) などです。

Beyond the success story of adversarial training (AT) in the recent text domain on top of pre-trained language models (PLMs), our empirical study showcases the inconsistent gains from AT on some tasks, e.g. commonsense reasoning, named entity recognition. This paper investigates AT from the perspective of the contextualized language representation outputted by PLM encoders. We find the current AT attacks lean to generate sub-optimal adversarial examples that can fool the decoder part but have a minor effect on the encoder. However, we find it necessary to effectively deviate the latter one to allow AT to gain. Based on the observation, we propose simple yet effective \textit{Contextualized representation-Adversarial Training} (CreAT), in which the attack is explicitly optimized to deviate the contextualized representation of the encoder. It allows a global optimization of adversarial examples that can fool the entire model. We also find CreAT gives rise to a better direction to optimize the adversarial examples, to let them less sensitive to hyperparameters. Compared to AT, CreAT produces consistent performance gains on a wider range of tasks and is proven to be more effective for language pre-training where only the encoder part is kept for downstream tasks. We achieve the new state-of-the-art performances on a series of challenging benchmarks, e.g. AdvGLUE (59.1 $ \rightarrow $ 61.1), HellaSWAG (93.0 $ \rightarrow $ 94.9), ANLI (68.1 $ \rightarrow $ 69.3).
翻訳日:2023-05-09 14:57:18 公開日:2023-05-08
# 木構造を統一した非自己回帰問題解法

Non-Autoregressive Math Word Problem Solver with Unified Tree Structure ( http://arxiv.org/abs/2305.04556v1 )

ライセンス: Link先を確認
Yi Bin, Mengqun Han, Wenhao Shi, Lei Wang, Yang Yang, Heng Tao Shen(参考訳) 既存のMWPソルバは、与えられた問題記述から解表現をデコードするためにシーケンスまたはバイナリツリーを使用している。 しかし、このような構造は、数学的操作によって導出される同一の変種、例えば $(a_1+a_2)*a_3$ と $a_1*a_3+a_2*a_3$ は、同じ問題に対して異なる式列と木を定式化している。 1)同一入力問題に対する異なる出力解により,モデルを入力空間と出力空間のマッピング関数の学習が困難になる。 2) 上記の例の誤りを示す解表現の評価が困難である。 これらの問題に対処するために、まず、要素が置換可能で、全ての表現変種と同一である表現を表現する統一ツリー構造を導入する。 そこで本研究では,mwp-nasと呼ばれる非自己回帰型解法を提案する。 第2の課題として,評価の変種を扱うために,統一木に適合し,表現の部分的精度を評価するパスベースメトリクスを設計することを提案する。 Math23KとMAWPSで大規模な実験を行い、提案したMWP-NASの有効性を実証した。 コードとチェックポイントは https://github.com/mengqunhan/MWP-NAS.com

Existing MWP solvers employ sequence or binary tree to present the solution expression and decode it from given problem description. However, such structures fail to handle the identical variants derived via mathematical manipulation, e.g., $(a_1+a_2)*a_3$ and $a_1*a_3+a_2*a_3$ are for the same problem but formulating different expression sequences and trees, which would raise two issues in MWP solving: 1) different output solutions for the same input problem, making the model hard to learn the mapping function between input and output spaces, and 2) difficulty of evaluating solution expression that indicates wrong between the above examples. To address these issues, we first introduce a unified tree structure to present expression, where the elements are permutable and identical for all the expression variants. We then propose a novel non-autoregressive solver, dubbed MWP-NAS, to parse the problem and reason the solution expression based on the unified tree. For the second issue, to handle the variants in evaluation, we propose to match the unified tree and design a path-based metric to evaluate the partial accuracy of expression. Extensive experiments have been conducted on Math23K and MAWPS, and the results demonstrate the effectiveness of the proposed MWP-NAS. The codes and checkpoints are available at: https://github.com/mengqunhan/MWP-NAS
翻訳日:2023-05-09 14:56:45 公開日:2023-05-08
# 1 + (\lambda, \lambda))$の遺伝的アルゴリズムがノイズを克服するのを助ける

Larger Offspring Populations Help the $(1 + (\lambda, \lambda))$ Genetic Algorithm to Overcome the Noise ( http://arxiv.org/abs/2305.04553v1 )

ライセンス: Link先を確認
Alexandra Ivanova, Denis Antipov, Benjamin Doerr(参考訳) 進化的アルゴリズムは、適応性の評価において雑音に対して頑健であることが知られている。 特に、大きな子孫の個体数は、しばしば強い頑丈さをもたらす。 我々は、$(1+(\lambda,\lambda)の遺伝的アルゴリズムがどんなにノイズに強いかを分析する。 このアルゴリズムは、より大きな子孫の集団サイズで動作するが、中間選択ステップと、修復機構としてのクロスオーバーの非標準的な使用により、単純な$(1+\lambda)$進化アルゴリズムよりも頑丈ではない。 いくつかの古典的ベンチマーク問題に対する実験的解析は、この困難は生じないことを示している。 驚いたことに、多くの状況において、このアルゴリズムは$(1+\lambda)$~EAよりもノイズに強い。

Evolutionary algorithms are known to be robust to noise in the evaluation of the fitness. In particular, larger offspring population sizes often lead to strong robustness. We analyze to what extent the $(1+(\lambda,\lambda))$ genetic algorithm is robust to noise. This algorithm also works with larger offspring population sizes, but an intermediate selection step and a non-standard use of crossover as repair mechanism could render this algorithm less robust than, e.g., the simple $(1+\lambda)$ evolutionary algorithm. Our experimental analysis on several classic benchmark problems shows that this difficulty does not arise. Surprisingly, in many situations this algorithm is even more robust to noise than the $(1+\lambda)$~EA.
翻訳日:2023-05-09 14:56:19 公開日:2023-05-08
# スカペルとしての拡散理論--バックドアやバイアスによる事前学習言語モデルにおけるポゾン次元の検出と浄化

Diffusion Theory as a Scalpel: Detecting and Purifying Poisonous Dimensions in Pre-trained Language Models Caused by Backdoor or Bias ( http://arxiv.org/abs/2305.04547v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Deli Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun(参考訳) 事前訓練された言語モデル(PLM)は、微調整プロセス中に疑わしい攻撃者が注入したバックドアやバイアスによって有毒である可能性がある。 潜在的に有毒なPLMを精製する主な課題は、正確に有毒な寸法を見つけることである。 そこで本研究では, 拡散理論を用いて微調整の動的過程を解明し, 潜在的に有毒な寸法を求めるファインパーフィング手法を提案する。 パラメータドリフトと異なる次元のヘッシアンの関係により、異常なダイナミクスを持つ有毒な次元を検出し、事前訓練された重みをきれいにするためにそれらを再設定し、小さなクリーンデータセットで精製された重みを微調整することができる。 我々の知識を最大限に活用するために、我々は安全・防衛目的の拡散理論によって導かれる力学を初めて研究する。 実験結果から, 少量のクリーンデータセットにおいても, 微細精製の有効性が検証された。

Pre-trained Language Models (PLMs) may be poisonous with backdoors or bias injected by the suspicious attacker during the fine-tuning process. A core challenge of purifying potentially poisonous PLMs is precisely finding poisonous dimensions. To settle this issue, we propose the Fine-purifying approach, which utilizes the diffusion theory to study the dynamic process of fine-tuning for finding potentially poisonous dimensions. According to the relationship between parameter drifts and Hessians of different dimensions, we can detect poisonous dimensions with abnormal dynamics, purify them by resetting them to clean pre-trained weights, and then fine-tune the purified weights on a small clean dataset. To the best of our knowledge, we are the first to study the dynamics guided by the diffusion theory for safety or defense purposes. Experimental results validate the effectiveness of Fine-purifying even with a small clean dataset.
翻訳日:2023-05-09 14:56:06 公開日:2023-05-08
# スマートフォン用カメラモジュールの自動テスト用ピック・アンド・プレースロボットの信頼性向上のための視覚システムの開発

Development of a Vision System to Enhance the Reliability of the Pick-and-Place Robot for Autonomous Testing of Camera Module used in Smartphones ( http://arxiv.org/abs/2305.04605v1 )

ライセンス: Link先を確認
Hoang-Anh Phan, Duy Nam Bui, Tuan Nguyen Dinh, Bao-Anh Hoang, An Nguyen Ngoc, Dong Tran Huu Quoc, Ha Tran Thi Thuy, Tung Thanh Bui and Van Nguyen Thi Thanh(参考訳) ピック・アンド・プレイス・ロボットは現代の工業生産でよく使われている。 光学部品、電気部品、コネクタを含むスマートフォンで使用されるカメラモジュールのような複雑なデバイスや部品では、配置操作は必ずしも正確ではなく、機械的な動作中にテスト中の装置に損傷を与え、電気機能検査に良好な接触をさせる可能性がある。 本稿では,カメラモジュールの自律的テストメモリのためのピック・アンド・プレイス・ロボットの信頼性を高めるため,ハードウェアとアルゴリズムを含む効果的な視覚システムを提案する。 カメラとraspberry piに基づく限られたハードウェアと、ヒストグラム情報に基づく簡易画像処理アルゴリズムを用いて、視覚システムは、給餌トレイにおけるカメラモジュールの存在とテストソケットにおけるカメラモジュールの配置精度を確認することができる。 これにより、システムは柔軟性を高め、テスト中のデバイスにダメージを与えるのを避けることができる。 このシステムは、約2000台のカメラモジュールを安定した光条件でテストして実験的に定量化された。 実験の結果、システムは99.92%以上の精度を達成した。 そのシンプルさと有効性により、提案したビジョンシステムは、産業におけるピック・アンド・プレイスシステムにおいて有用なソリューションとみなすことができる。

Pick-and-place robots are commonly used in modern industrial manufacturing. For complex devices/parts like camera modules used in smartphones, which contain optical parts, electrical components and interfacing connectors, the placement operation may not absolutely accurate, which may cause damage in the device under test during the mechanical movement to make good contact for electrical functions inspection. In this paper, we proposed an effective vision system including hardware and algorithm to enhance the reliability of the pick-and-place robot for autonomous testing memory of camera modules. With limited hardware based on camera and raspberry PI and using simplify image processing algorithm based on histogram information, the vision system can confirm the presence of the camera modules in feeding tray and the placement accuracy of the camera module in test socket. Through that, the system can work with more flexibility and avoid damaging the device under test. The system was experimentally quantified through testing approximately 2000 camera modules in a stable light condition. Experimental results demonstrate that the system achieves accuracy of more than 99.92%. With its simplicity and effectiveness, the proposed vision system can be considered as a useful solution for using in pick-and-place systems in industry.
翻訳日:2023-05-09 14:50:07 公開日:2023-05-08
# プライバシー保護の表現は十分ではない -- カメラポッドからシーンコンテンツを復元する

Privacy-Preserving Representations are not Enough -- Recovering Scene Content from Camera Poses ( http://arxiv.org/abs/2305.04603v1 )

ライセンス: Link先を確認
Kunal Chelani and Torsten Sattler and Fredrik Kahl and Zuzana Kukelova(参考訳) 視覚的ローカライゼーションは、与えられた画像が撮影され、複数の3Dコンピュータビジョンアプリケーションの中心となるカメラポーズを推定するタスクである。 AR/VR/MRデバイスやクラウドベースのアプリケーションの人気が急速に高まり、プライバシーの問題がローカライゼーションプロセスの非常に重要な側面になりつつある。 既存のプライバシー保護ローカライゼーションの取り組みは、クラウドベースのサービスにアクセス可能な攻撃者に対して防御することを目的としている。 本稿では,ローカライズサービスを単に検索するだけで,攻撃者がアクセスせずにシーンの詳細を知ることができることを示す。 この攻撃は、現代のビジュアルローカライズアルゴリズムが外観や幾何学のバリエーションにロバストであるという観測に基づいている。 これは一般的には望ましい性質であるが、シーンに存在するものと十分に類似したオブジェクトをローカライズするアルゴリズムにも繋がる。 これにより、攻撃者は、インターネットから取得した、十分に大きなオブジェクトのイメージのセットでサーバーに問い合わせることができ、それらのいくつかはローカライズされる。 攻撃者は、サービスによって返されたカメラポーズ(そのようなサービスによって返される最小限の情報)から、オブジェクトの配置について学ぶことができる。 本稿では,この攻撃の概念実証版を開発し,その実用性を示す。 この攻撃は使用するローカライズアルゴリズムには何の要件も与えず、プライバシ保存表現にも適用される。 そのため、プライバシー保護表現のみに関する現在の作業は不十分である。

Visual localization is the task of estimating the camera pose from which a given image was taken and is central to several 3D computer vision applications. With the rapid growth in the popularity of AR/VR/MR devices and cloud-based applications, privacy issues are becoming a very important aspect of the localization process. Existing work on privacy-preserving localization aims to defend against an attacker who has access to a cloud-based service. In this paper, we show that an attacker can learn about details of a scene without any access by simply querying a localization service. The attack is based on the observation that modern visual localization algorithms are robust to variations in appearance and geometry. While this is in general a desired property, it also leads to algorithms localizing objects that are similar enough to those present in a scene. An attacker can thus query a server with a large enough set of images of objects, \eg, obtained from the Internet, and some of them will be localized. The attacker can thus learn about object placements from the camera poses returned by the service (which is the minimal information returned by such a service). In this paper, we develop a proof-of-concept version of this attack and demonstrate its practical feasibility. The attack does not place any requirements on the localization algorithm used, and thus also applies to privacy-preserving representations. Current work on privacy-preserving representations alone is thus insufficient.
翻訳日:2023-05-09 14:49:46 公開日:2023-05-08
# 確率的想像時間進化法の計算コスト解析

Analyzing computational cost of probabilistic imaginary-time evolution method ( http://arxiv.org/abs/2305.04600v1 )

ライセンス: Link先を確認
Hirofumi Nishi, Koki Hamada, Yusuke Nishiya, Taichi Kosugi, Yu-ichiro Matsushita(参考訳) 基底状態の準備は量子計算において重要なタスクである。 確率的想像時間進化法(PITE)は、単一のアンシラ量子ビットと前方および後方制御されたリアルタイム進化演算子からなるハミルトニアンの基底状態を作成するための有望な候補である。 本稿では,仮想時間ステップサイズの線形および指数的スケジューリングのためのPITE法の計算コストを解析する。 まず, 状態間の密接性として定義される誤差を, 直交時間と近似時間発展演算子により解析的に考察する。 最適な虚時間ステップサイズと虚時間の変化速度についても考察した。 その後, 一次元ハイゼンベルク鎖の数値シミュレーションを用いて解析的検討を行った。 その結果,時間変化の遅い指数的スケジューリングが計算コストの削減に好適であると結論付けた。

Ground-state preparation is an important task in quantum computation. The probabilistic imaginary-time evolution (PITE) method is a promising candidate for preparing the ground state of the Hamiltonian, which comprises a single ancilla qubit and forward- and backward-controlled real-time evolution operators. Here, we analyze the computational costs of the PITE method for both linear and exponential scheduling of the imaginary-time step size. First, we analytically discuss an error defined as the closeness between the states acted on by exact and approximate imaginary-time evolution operators. The optimal imaginary-time step size and speed of change of imaginary time were also discussed. Subsequently, the analytical discussion was verified using numerical simulations for a one-dimensional Heisenberg chain. As a result, we conclude that exponential scheduling with slow changes is preferable for reducing the computational costs.
翻訳日:2023-05-09 14:49:20 公開日:2023-05-08
# Cone: 教師なしのコントラストオピニオン抽出

Cone: Unsupervised Contrastive Opinion Extraction ( http://arxiv.org/abs/2305.04599v1 )

ライセンス: Link先を確認
Runcong Zhao, Lin Gui, Yulan He(参考訳) 対照的な意見抽出は、共通の側面やトピックに対する肯定的かつ否定的な視点として整理された構造化された要約またはキーポイントを抽出することを目的としている。 教師なしキーポイント抽出のためのほとんどの最近の作品は、テキストで表現された意見の人気に基づく文のクラスタリングや意見要約に基づいている。 しかしながら、これらの手法は、一貫性のない文、矛盾する視点、冗長なアスペクトを含むアスペクトクラスタを生成する傾向がある。 このような問題に対処するために,コントラスト学習と反復的側面・感性クラスタリングの洗練を組み合わせ,擬似的側面と感情ラベルに基づいて,非教師付き比較オピニオN抽出モデル(Cone)を提案する。 対照的な意見を抽出できるだけでなく、アスペクトとその関連する感情分布の相対的な人気を定量化することもできる。 このモデルは、ホテルレビューデータセットと新型コロナウイルスに関するTwitterデータセットの両方で評価されている。 その結果、ラベルの監督やアスペクト指定のシードワードを使用しないにもかかわらず、コンはコントラスト的な意見抽出において多くの競争的ベースラインを上回ります。 Coneの結果は、オンラインで製品やサービスのより良いレコメンデーションを提供するために利用できる。

Contrastive opinion extraction aims to extract a structured summary or key points organised as positive and negative viewpoints towards a common aspect or topic. Most recent works for unsupervised key point extraction is largely built on sentence clustering or opinion summarisation based on the popularity of opinions expressed in text. However, these methods tend to generate aspect clusters with incoherent sentences, conflicting viewpoints, redundant aspects. To address these problems, we propose a novel unsupervised Contrastive OpinioN Extraction model, called Cone, which learns disentangled latent aspect and sentiment representations based on pseudo aspect and sentiment labels by combining contrastive learning with iterative aspect/sentiment clustering refinement. Apart from being able to extract contrastive opinions, it is also able to quantify the relative popularity of aspects and their associated sentiment distributions. The model has been evaluated on both a hotel review dataset and a Twitter dataset about COVID vaccines. The results show that despite using no label supervision or aspect-denoted seed words, Cone outperforms a number of competitive baselines on contrastive opinion extraction. The results of Cone can be used to offer a better recommendation of products and services online.
翻訳日:2023-05-09 14:49:06 公開日:2023-05-08
# Py/$\gamma-$IrMn$_{3}$における非伝統的なスピン軌道トルクの界面起源

Interfacial origin of unconventional spin-orbit torque in Py/$\gamma-$IrMn$_{3}$ ( http://arxiv.org/abs/2305.04596v1 )

ライセンス: Link先を確認
Akash Kumar, Pankhuri Gupta, Niru Chowdhury, Kacho Imtiyaz Ali Khan, Utkarsh Shashank, Surbhi Gupta, Yasuhiro Fukuma, Sujeet Chaudhary, Pranaba Kishor Muduli(参考訳) Py(Ni$_{81}$Fe$_{19}$)と非コリニア反強磁性量子材料$\gamma-$IrMn$_{3}$のヘテロ構造において、角度分解されたスピントルク強磁性共鳴測定を行う。 構造的特徴から、$\gamma-$IrMn$_{3}$は自然界において多結晶であることが分かる。 室温では158〜oeの大きな交換バイアスがpy/$\gamma-$irmn$_{3}$であり、py/cu/$\gamma-$irmn$_{3}$は交換バイアスを示さなかった。 交換バイアスと積み重ね順序にかかわらず、$\gamma-$irmn$_{3}$がpyと直接接触する場合、平面外反ダンピングトルクは極めて非従来的である。 面外スピン軌道トルク効率の大きさは面内スピン軌道トルク効率の2倍であることがわかった。 通常のスピン軌道トルクは、Py と $\gamma-$IrMn$_{3}$ の間にCuスペーサを導入すると消滅し、この系における非伝統的なスピン軌道トルクが界面から生じることを示す。 これらの結果は界面工学による反強磁性スピントロンデバイスの実現に重要である。

Angle-resolved spin-torque ferromagnetic resonance measurements are carried out in heterostructures consisting of Py (Ni$_{81}$Fe$_{19}$) and a noncollinear antiferromagnetic quantum material $\gamma-$IrMn$_{3}$. The structural characterization reveals that $\gamma-$IrMn$_{3}$ is polycrystalline in nature. A large exchange bias of 158~Oe is found in Py/$\gamma-$IrMn$_{3}$ at room temperature, while $\gamma-$IrMn$_{3}$/Py and Py/Cu/$\gamma-$IrMn$_{3}$ exhibited no exchange bias. Regardless of the exchange bias and stacking sequence, we observe a substantial unconventional out-of-plane anti-damping torque when $\gamma-$IrMn$_{3}$ is in direct contact with Py. The magnitude of the out-of-plane spin-orbit torque efficiency is found to be twice as large as the in-plane spin-orbit torque efficiency. The unconventional spin-orbit torque vanishes when a Cu spacer is introduced between Py and $\gamma-$IrMn$_{3}$, indicating that the unconventional spin-orbit torque in this system originates at the interface. These findings are important for realizing efficient antiferromagnet-based spintronic devices via interfacial engineering.
翻訳日:2023-05-09 14:48:46 公開日:2023-05-08
# First-Choice Maximality:元アンティーとポストフェアネス

First-Choice Maximality Meets Ex-ante and Ex-post Fairness ( http://arxiv.org/abs/2305.04589v1 )

ライセンス: Link先を確認
Xiaoxi Guo, Sujoy Sikdar, Lirong Xia, Yongzhi Cao and Hanpin Wang(参考訳) 順序の選好が与えられたエージェント群に複数の不可分なアイテムが割り当てられる割当問題に対して,我々は,最初のチョイス極大性 (fcm) を満たすランダム化機構,すなわち,最初の選択を割り当てたエージェントの数を最大化するパレート効率 (pe) を設計した。 当社のメカニズムは、元アンテと前ポストフェアネスの保証も提供します。 一般化されたボストンのメカニズムは、元アンティー・アンビーフリーで、元アンティー・アンビーフリーで1つの項目まで(EF1)。 一般化された確率的ボストン機構もex-post ef1であり、フェアネスではなくex-ante効率を満たす。 また,前ポストPE,EF1,FCMを同時に満足する防御機構が存在しないことも明らかにした。 そこで我々は,課題問題に対する効率性と,前者および前者の公正性保証の両面を同時に提供するフロンティアを拡大する。

For the assignment problem where multiple indivisible items are allocated to a group of agents given their ordinal preferences, we design randomized mechanisms that satisfy first-choice maximality (FCM), i.e., maximizing the number of agents assigned their first choices, together with Pareto efficiency (PE). Our mechanisms also provide guarantees of ex-ante and ex-post fairness. The generalized eager Boston mechanism is ex-ante envy-free, and ex-post envy-free up to one item (EF1). The generalized probabilistic Boston mechanism is also ex-post EF1, and satisfies ex-ante efficiency instead of fairness. We also show that no strategyproof mechanism satisfies ex-post PE, EF1, and FCM simultaneously. In doing so, we expand the frontiers of simultaneously providing efficiency and both ex-ante and ex-post fairness guarantees for the assignment problem.
翻訳日:2023-05-09 14:48:18 公開日:2023-05-08
# MultiTACRED:TAC関係抽出データセットの多言語版

MultiTACRED: A Multilingual Version of the TAC Relation Extraction Dataset ( http://arxiv.org/abs/2305.04582v1 )

ライセンス: Link先を確認
Leonhard Hennig, Philippe Thomas, Sebastian M\"oller(参考訳) 関係抽出(RE)は、多言語設定への拡張が、TACRED(Zhang et al., 2017)のような大規模な英語データセットに匹敵するリソースの不足によって妨げられている情報抽出の基本的なタスクである。 このギャップに対処するため、MultiTACREDデータセットを導入し、機械翻訳のTACREDインスタンスによって作成され、エンティティアノテーションを自動的に投影する9つの言語ファミリーから、12のタイプ型的に多様な言語をカバーした。 翻訳とアノテーションのプロジェクションの品質を分析し、エラーカテゴリを特定し、共通の伝達学習シナリオにおける単言語および多言語言語モデルの微調整を実験的に評価する。 分析によれば、機械翻訳はreインスタンスを転送するための有効な戦略であり、ネイティブ話者は翻訳インスタンスの84%以上を言語学的および意味論的に許容できると判断している。 対象言語の多くにおいて、モノリンガルREモデルの性能は英語オリジナルに匹敵するものであり、英語とターゲット言語データの組み合わせで訓練された多言語モデルは、モノリンガルモデルよりも優れている。 しかし, MTシステムや, 代名詞ドロップ, 複合化, インフレクションなどの言語的特徴により, データセットの品質やREモデルの性能が低下しているため, 様々な翻訳やアノテーションの予測誤差も観察できる。

Relation extraction (RE) is a fundamental task in information extraction, whose extension to multilingual settings has been hindered by the lack of supervised resources comparable in size to large English datasets such as TACRED (Zhang et al., 2017). To address this gap, we introduce the MultiTACRED dataset, covering 12 typologically diverse languages from 9 language families, which is created by machine-translating TACRED instances and automatically projecting their entity annotations. We analyze translation and annotation projection quality, identify error categories, and experimentally evaluate fine-tuned pretrained mono- and multilingual language models in common transfer learning scenarios. Our analyses show that machine translation is a viable strategy to transfer RE instances, with native speakers judging more than 84% of the translated instances to be linguistically and semantically acceptable. We find monolingual RE model performance to be comparable to the English original for many of the target languages, and that multilingual models trained on a combination of English and target language data can outperform their monolingual counterparts. However, we also observe a variety of translation and annotation projection errors, both due to the MT systems and linguistic features of the target languages, such as pronoun-dropping, compounding and inflection, that degrade dataset quality and RE model performance.
翻訳日:2023-05-09 14:48:00 公開日:2023-05-08
# DCRグラフによるスマートコントラクト設計のキャプチャ

Capturing Smart Contract Design with DCR Graphs ( http://arxiv.org/abs/2305.04581v1 )

ライセンス: Link先を確認
Mojtaba Eshghie, Wolfgang Ahrendt, Cyrille Artho, Thomas Troels Hildebrandt, Gerardo Schneider(参考訳) smart contractsはブロックチェーン資産を管理する。 スマートコントラクトはビジネスプロセスを具体化するが、そのプラットフォームはプロセスアウェアではない。 solidityのような主流のスマートコントラクトプログラミング言語は、役割、アクション依存性、時間といった明確な概念を持っていません。 代わりに、これらの概念はプログラムコードで実装される。 これにより、スマートコントラクトの設計と分析が非常に難しくなります。 DCRグラフは,これらの特徴を明示的にかつ視覚的に捉えるため,スマートコントラクトに適した形式化ツールである,と我々は主張する。 この表現性を利用して、スマートコントラクトアプリケーションにおける多くの一般的な高レベルデザインパターンが、この方法で自然にモデル化可能であることを示す。 これらのパターンを適用することで、DCRグラフは明確で理解しやすい仕様を提供することで、正確で信頼性の高いスマートコントラクトの開発と分析を容易にする。

Smart contracts manage blockchain assets. While smart contracts embody business processes, their platforms are not process-aware. Mainstream smart contract programming languages such as Solidity do not have explicit notions of roles, action dependencies, and time. Instead, these concepts are implemented in program code. This makes it very hard to design and analyze smart contracts. We argue that DCR graphs are a suitable formalization tool for smart contracts because they explicitly and visually capture these features. We utilize this expressiveness to show that many common high-level design patterns in smart-contract applications can be naturally modeled this way. Applying these patterns shows that DCR graphs facilitate the development and analysis of correct and reliable smart contracts by providing a clear and easy-to-understand specification.
翻訳日:2023-05-09 14:47:34 公開日:2023-05-08
# 超伝導回路を用いた弱測定システムにおける適応量子トモグラフィ

Adaptive Quantum Tomography in a Weak Measurement System with Superconducting Circuits ( http://arxiv.org/abs/2305.04579v1 )

ライセンス: Link先を確認
Hyeok Hwang, JaeKyung Choi, and Eunseong Kim(参考訳) 適応トモグラフィーは量子系の高速な状態トモグラフィー処理を実現するために広く研究されている。 量子情報プロセスにおけるほぼ純粋な状態の不完全性は一般にO(1/sqrt(N))としてスケールし、混合状態に対するO(1/N)の不完全性スケーリングと比較して多くの統計的アンサンブルを必要とする。 1つの前報は、状態トモグラフィーが射影測定を用いるフォトニック量子ビット系で測定基準を最適化し、O(1/N)の不忠実スケーリングを得た。 しかし、この劇的な改善は、2つの量子状態が完全な測定精度で区別できない弱値ベースの測定システムでは適用できない。 本稿では, 弱測定系において, 高速適応量子状態トモグラフィと最小不確かさを実現するための新しい最適測定基準を提案する。 我々は,適応型量子状態トモグラフィプロトコルは,o(1/sqrt(n))スケーリングを変更せずに,シミュレーションにより約33.74%の必要な測定回数を削減することを期待する。 実験により超伝導回路系において14.81%の測定数が減少することがわかった。

Adaptive tomography has been widely investigated to achieve faster state tomography processing of quantum systems. Infidelity of the nearly pure states in a quantum information process generally scales as O(1/sqrt(N) ), which requires a large number of statistical ensembles in comparison to the infidelity scaling of O(1/N) for mixed states. One previous report optimized the measurement basis in a photonic qubit system, whose state tomography uses projective measurements, to obtain an infidelity scaling of O(1/N). However, this dramatic improvement cannot be applied to weak-value-based measurement systems in which two quantum states cannot be distinguished with perfect measurement fidelity. We introduce in this work a new optimal measurement basis to achieve fast adaptive quantum state tomography and a minimum magnitude of infidelity in a weak measurement system. We expect that the adaptive quantum state tomography protocol can lead to a reduction in the number of required measurements of approximately 33.74% via simulation without changing the O(1/sqrt(N)) scaling. Experimentally, we find a 14.81% measurement number reduction in a superconducting circuit system.
翻訳日:2023-05-09 14:47:24 公開日:2023-05-08
# 基礎科学から技術開発へ:2つの道の場合

From basic science to technological development: the case for two avenues ( http://arxiv.org/abs/2305.04578v1 )

ライセンス: Link先を確認
Matteo Carlesso and Mauro Paternostro(参考訳) 現実の量子技術に基礎研究の翻訳を求める中で、これまで部分的に探求された2つの道は活発に追求されるべきであると主張する。 第一に、基本的な量子レベルでのエネルギー学の研究は、よりエネルギー効率の良い量子デバイス世代の設計の約束を果たす。 2つ目の経路は、量子情報処理のためのより強力なフレームワークとして、データサイエンス技術とツールによる量子力学のより構造的なハイブリッド化を意味する。

We argue that, in the quest for the translation of fundamental research into actual quantum technologies, two avenues that have - so far - only partly explored should be pursued vigorously. On first entails that the study of energetics at the fundamental quantum level holds the promises for the design of a generation of more energy-efficient quantum devices. On second route to pursue implies a more structural hybridisation of quantum dynamics with data science techniques and tools, for a more powerful framework for quantum information processing.
翻訳日:2023-05-09 14:47:05 公開日:2023-05-08
# 被覆による因果グラフのよい介入の学習

Learning Good Interventions in Causal Graphs via Covering ( http://arxiv.org/abs/2305.04638v1 )

ライセンス: Link先を確認
Ayush Sawarni, Rahul Madhavan, Gaurav Sinha, and Siddharth Barman(参考訳) 本研究では,ある因果グラフ上のA$の(おそらく非原子的な)介入から,最適に近い介入を特定するための因果バンディット問題を考察する。 ここで、${a}$ の最適介入は、グラフ内の指定された報奨変数の期待値を最大化するものであり、我々は、至近の最適性を定量化するために、simple regret の標準的な概念を用いる。 ベルヌーイ確率変数とn$頂点の因果グラフを考えると、先行研究は単純な後悔に対して$\widetilde{o} (n/\sqrt{t})$という最悪のケース保証を達成した。 現在の研究は、介入をカバーするというアイデア(必ずしも${A}$に含まれない)を利用し、$\widetilde{O}(\sqrt{N/T})$の単純な後悔の保証を確立する。 特に、以前の作業とは対照的に、単純な後悔は問題インスタンスの明示的なパラメータにのみ依存します。 また、事前の作業を超えて、観測されていない変数を持つ因果グラフに対する単純な後悔の保証も達成します。 さらに,この設定におけるベースラインの改善を示す実験を行った。

We study the causal bandit problem that entails identifying a near-optimal intervention from a specified set $A$ of (possibly non-atomic) interventions over a given causal graph. Here, an optimal intervention in ${A}$ is one that maximizes the expected value for a designated reward variable in the graph, and we use the standard notion of simple regret to quantify near optimality. Considering Bernoulli random variables and for causal graphs on $N$ vertices with constant in-degree, prior work has achieved a worst case guarantee of $\widetilde{O} (N/\sqrt{T})$ for simple regret. The current work utilizes the idea of covering interventions (which are not necessarily contained within ${A}$) and establishes a simple regret guarantee of $\widetilde{O}(\sqrt{N/T})$. Notably, and in contrast to prior work, our simple regret bound depends only on explicit parameters of the problem instance. We also go beyond prior work and achieve a simple regret guarantee for causal graphs with unobserved variables. Further, we perform experiments to show improvements over baselines in this setting.
翻訳日:2023-05-09 14:40:18 公開日:2023-05-08
# 分類器分解による連続関係抽出の強化

Enhancing Continual Relation Extraction via Classifier Decomposition ( http://arxiv.org/abs/2305.04636v1 )

ライセンス: Link先を確認
Heming Xia, Peiyi Wang, Tianyu Liu, Binghuai Lin, Yunbo Cao, Zhifang Sui(参考訳) 連続関係抽出(cre)モデルは、ストリーミングデータ内の古い関係を壊滅的に忘れずに、新たな関係の開拓を目標としている。 以前のCRE研究で改善が示されたが、モデルが新しい関係の表現を最初に学習したときにのみバニラ戦略が採用されている。 本研究では,このバニラ戦略を訓練した後の典型的なバイアスとして,分類バイアスと表現バイアスの2つが存在することを指摘した。 これらのバイアスを緩和するために,最終ffn層を従来の知識を維持し,このトレーニング段階でより堅牢な表現を学ぶようモデルに促すため,従来のffn層を分割した,単純かつ効果的な分類器分解フレームワークを提案する。 2つの標準ベンチマークによる実験結果から,提案するフレームワークは最先端のCREモデルより一貫して優れており,CREモデルに対する第1のトレーニングステージの重要性が過小評価されている可能性が示唆された。 私たちのコードはhttps://github.com/hemingkx/cdecで利用可能です。

Continual relation extraction (CRE) models aim at handling emerging new relations while avoiding catastrophically forgetting old ones in the streaming data. Though improvements have been shown by previous CRE studies, most of them only adopt a vanilla strategy when models first learn representations of new relations. In this work, we point out that there exist two typical biases after training of this vanilla strategy: classifier bias and representation bias, which causes the previous knowledge that the model learned to be shaded. To alleviate those biases, we propose a simple yet effective classifier decomposition framework that splits the last FFN layer into separated previous and current classifiers, so as to maintain previous knowledge and encourage the model to learn more robust representations at this training stage. Experimental results on two standard benchmarks show that our proposed framework consistently outperforms the state-of-the-art CRE models, which indicates that the importance of the first training stage to CRE models may be underestimated. Our code is available at https://github.com/hemingkx/CDec.
翻訳日:2023-05-09 14:39:58 公開日:2023-05-08
# 計算量的または難解な確率をもつ空間過程のニューラルラバース曲面

Neural Likelihood Surfaces for Spatial Processes with Computationally Intensive or Intractable Likelihoods ( http://arxiv.org/abs/2305.04634v1 )

ライセンス: Link先を確認
Julia Walchessen, Amanda Lenzi, Mikael Kuusela(参考訳) 空間統計学において、不確実性定量化の信頼できる手段と組み合わされた高速で正確なパラメータ推定は、空間過程を実世界データに適合させる場合、可能性関数の評価や難解性が遅いため難しい課題となる。 本研究では,畳み込みニューラルネットワーク(convolutional neural network,cnns)を用いて,空間過程の確率関数を学習する手法を提案する。 特別に設計された分類タスクを通じて、ニューラルネットワークは、正確な可能性が明確に利用できない状況でも、暗黙的に可能性関数を学習します。 分類タスクでトレーニングをすると、ニューラルネットワークはプラッツスケーリングを使用して校正され、ニューラルチャンス表面の精度が向上する。 本手法を実証するために,2つの異なる空間的過程について, 推定値の最大値推定値と近似値の信頼領域を, 大規模データセットに対して計算集約的な確率関数を持つガウス過程と, 難解な確率関数を持つブラウン・レズニック過程とで等価な値と比較した。 また, ニューラル準曲面を, ガウス過程とブラウン・レズニック過程の正確な近似準曲面と比較した。 提案手法は,標準手法が望ましくない,あるいは不正確である状況において,信頼性の高い不確実性定量化法を用いて高速かつ正確なパラメータ推定を行う。

In spatial statistics, fast and accurate parameter estimation coupled with a reliable means of uncertainty quantification can be a challenging task when fitting a spatial process to real-world data because the likelihood function might be slow to evaluate or intractable. In this work, we propose using convolutional neural networks (CNNs) to learn the likelihood function of a spatial process. Through a specifically designed classification task, our neural network implicitly learns the likelihood function, even in situations where the exact likelihood is not explicitly available. Once trained on the classification task, our neural network is calibrated using Platt scaling which improves the accuracy of the neural likelihood surfaces. To demonstrate our approach, we compare maximum likelihood estimates and approximate confidence regions constructed from the neural likelihood surface with the equivalent for exact or approximate likelihood for two different spatial processes: a Gaussian Process, which has a computationally intensive likelihood function for large datasets, and a Brown-Resnick Process, which has an intractable likelihood function. We also compare the neural likelihood surfaces to the exact and approximate likelihood surfaces for the Gaussian Process and Brown-Resnick Process, respectively. We conclude that our method provides fast and accurate parameter estimation with a reliable method of uncertainty quantification in situations where standard methods are either undesirably slow or inaccurate.
翻訳日:2023-05-09 14:39:40 公開日:2023-05-08
# 計算言語学におけるxai--スロベニア議会における政治的傾向の理解

XAI in Computational Linguistics: Understanding Political Leanings in the Slovenian Parliament ( http://arxiv.org/abs/2305.04631v1 )

ライセンス: Link先を確認
Bojan Evkoski and Senja Pollak(参考訳) 本研究は、議会の書き起こしを通じて政治的傾きを予測する機械学習モデルの開発と説明可能性について述べる。 我々は、スロベニア議会と、2014年から2020年にかけての欧州移民危機に関する熱烈な議論に集中している。 従来の機械学習モデルとトランスフォーマー言語モデルの両方を開発し、移民の話題に関する発言に基づいて議会議員の左派右派を予測した。 どちらのモデルも大きな予測成功を示しているため、私たちは引き続き彼らの決定を説明します。 説明可能性手法を用いて, 政治的傾向の予測に最も強い影響を及ぼすキーワードやフレーズを抽出し, 左派議員は人や団結といった概念を用いて難民について語り, 右派議員は国籍などの概念を用いて, 不法移民に注目する。 この研究は、予測の背後にある推論を理解することは、aiエンジニアがモデルを改善するのに役立つだけでなく、学際研究における質的分析ステップのツールとしても有用である。

The work covers the development and explainability of machine learning models for predicting political leanings through parliamentary transcriptions. We concentrate on the Slovenian parliament and the heated debate on the European migrant crisis, with transcriptions from 2014 to 2020. We develop both classical machine learning and transformer language models to predict the left- or right-leaning of parliamentarians based on their given speeches on the topic of migrants. With both types of models showing great predictive success, we continue with explaining their decisions. Using explainability techniques, we identify keywords and phrases that have the strongest influence in predicting political leanings on the topic, with left-leaning parliamentarians using concepts such as people and unity and speak about refugees, and right-leaning parliamentarians using concepts such as nationality and focus more on illegal migrants. This research is an example that understanding the reasoning behind predictions can not just be beneficial for AI engineers to improve their models, but it can also be helpful as a tool in the qualitative analysis steps in interdisciplinary research.
翻訳日:2023-05-09 14:39:14 公開日:2023-05-08
# 無線ネットワークにおける空力計算によるフェデレーション学習

Federated Learning in Wireless Networks via Over-the-Air Computations ( http://arxiv.org/abs/2305.04630v1 )

ライセンス: Link先を確認
Halil Yigit Oksuz, Fabio Molinari, Henning Sprekeler, J\"org Raisch(参考訳) マルチエージェントシステムでは、エージェントが使用したローカルデータを交換することなく、推定モデルパラメータを交換することで、データからモデルを協調的に学習することができる。 この戦略は、しばしば連合学習と呼ばれ、主に2つの理由で採用される。 (i)潜在的に大きなデータセットを共有することを避けて資源効率を向上させること。 (ii)現地の代理人のデータのプライバシーを保障する。 オーバー・ザ・エア・コンピュテーション(Over-the-Air Computation)と呼ばれる5Gを超える通信戦略を採用することで、効率をさらに向上させることができる。 この戦略は無線チャネルの干渉特性を利用する。 標準的な通信方式は、異なるエージェントからの信号の異なる時間や周波数スロットでの送信を可能にすることで干渉を防ぐ。 この場合、受信信号は、未知の重み(フェーディングチャネル係数)を持つ送信信号の重み付け和である。 フィールドにおける美術論文の現況は、これらの未知の係数を再構築することを目的としている。 これとは対照的に、複雑な符号化復号方式によりチャネル係数の再構成を必要としない。 これにより効率性とプライバシーが向上する。

In a multi-agent system, agents can cooperatively learn a model from data by exchanging their estimated model parameters, without the need to exchange the locally available data used by the agents. This strategy, often called federated learning, is mainly employed for two reasons: (i) improving resource-efficiency by avoiding to share potentially large datasets and (ii) guaranteeing privacy of local agents' data. Efficiency can be further increased by adopting a beyond-5G communication strategy that goes under the name of Over-the-Air Computation. This strategy exploits the interference property of the wireless channel. Standard communication schemes prevent interference by enabling transmissions of signals from different agents at distinct time or frequency slots, which is not required with Over-the-Air Computation, thus saving resources. In this case, the received signal is a weighted sum of transmitted signals, with unknown weights (fading channel coefficients). State of the art papers in the field aim at reconstructing those unknown coefficients. In contrast, the approach presented here does not require reconstructing channel coefficients by complex encoding-decoding schemes. This improves both efficiency and privacy.
翻訳日:2023-05-09 14:38:55 公開日:2023-05-08
# 目標駆動ワンショット非教師なしドメイン適応

Target-driven One-Shot Unsupervised Domain Adaptation ( http://arxiv.org/abs/2305.04628v1 )

ライセンス: Link先を確認
Julio Ivan Davila Carrazco, Suvarna Kishorkumar Kadam, Pietro Morerio, Alessio Del Bue, Vittorio Murino(参考訳) 本稿では,1つの未ラベルのターゲットサンプルのみで対象ドメインに適応することを目的とした,ワンショット非教師付きドメイン適応(OSUDA)の課題に対する新しい枠組みを提案する。 大規模ラベル付きソースと未ラベルのターゲットデータに依存する既存のアプローチとは異なり、ターゲット駆動型ワンショットUDA(TOS-UDA)アプローチでは、ターゲットサンプルのスタイルによってガイドされる学習可能な拡張戦略を用いて、ソース分布とターゲット分布を整合させる。 本手法は,拡張モジュール,スタイルアライメントモジュール,分類器の3つのモジュールから構成される。 既存の方法とは異なり、我々の拡張モジュールはソースサンプルの強い変換を可能にし、利用可能な単一のターゲットサンプルのスタイルは知覚的類似性を保証することによって拡張を導くために利用される。 さらに,拡張とスタイルアライメントを統合し,追加データセットで個別に事前トレーニングする必要をなくした。 提案手法は,DigitsおよびDomainNetベンチマークにおいて,既存のOS-UDAメソッドよりも優れ,かつ同等に動作する。

In this paper, we introduce a novel framework for the challenging problem of One-Shot Unsupervised Domain Adaptation (OSUDA), which aims to adapt to a target domain with only a single unlabeled target sample. Unlike existing approaches that rely on large labeled source and unlabeled target data, our Target-driven One-Shot UDA (TOS-UDA) approach employs a learnable augmentation strategy guided by the target sample's style to align the source distribution with the target distribution. Our method consists of three modules: an augmentation module, a style alignment module, and a classifier. Unlike existing methods, our augmentation module allows for strong transformations of the source samples, and the style of the single target sample available is exploited to guide the augmentation by ensuring perceptual similarity. Furthermore, our approach integrates augmentation with style alignment, eliminating the need for separate pre-training on additional datasets. Our method outperforms or performs comparably to existing OS-UDA methods on the Digits and DomainNet benchmarks.
翻訳日:2023-05-09 14:38:37 公開日:2023-05-08
# 署名カーネル

The Signature Kernel ( http://arxiv.org/abs/2305.04625v1 )

ライセンス: Link先を確認
Darrick Lee, Harald Oberhauser(参考訳) シグネチャカーネルは、シーケンシャルデータに対する正定値カーネルである。 確率解析から理論的保証を継承し、効率的な計算アルゴリズムを持ち、強い経験的性能を示す。 近日発売予定のSpringerハンドブックの簡単な調査論文で,シグネチャカーネルの基本的紹介を行い,これらの理論的および計算的性質を強調した。

The signature kernel is a positive definite kernel for sequential data. It inherits theoretical guarantees from stochastic analysis, has efficient algorithms for computation, and shows strong empirical performance. In this short survey paper for a forthcoming Springer handbook, we give an elementary introduction to the signature kernel and highlight these theoretical and computational properties.
翻訳日:2023-05-09 14:38:17 公開日:2023-05-08
# 逐次推薦のためのグラフマスク自動エンコーダ

Graph Masked Autoencoder for Sequential Recommendation ( http://arxiv.org/abs/2305.04619v1 )

ライセンス: Link先を確認
Yaowen Ye, Lianghao Xia, Chao Huang(参考訳) 一部の強力なニューラルネットワークアーキテクチャ(Transformer、Graph Neural Networksなど)は、高次アイテム依存モデリングによる逐次レコメンデーションのパフォーマンス向上を実現しているが、ラベル不足のシナリオでは表現能力の低下に悩まされる可能性がある。 ラベル不足の問題に対処するため、コントラスト学習(cl)は、自己スーパービジョンのためのコントラストを埋め込むことによってデータ拡張を行う最近の手法で多くの注目を集めている。 しかし、その対比的視点生成戦略の手作り性から、既存のclエンハンスドモデル 一 多様なレコメンデーション業務において一貫した性能を得られないこと。 ii) ユーザの行動データノイズに免疫しない場合がある。 そこで本稿では,グローバルアイテムのトランザクショナル情報を適応的に動的に蒸留して自己教師型拡張を行う,シンプルなグラフマスキングオートエンコーダを提案する。 上述した、高品質な埋め込み型コントラストビューの構築に大きく依存する問題を自然に避けている。 代わりに、アダプティブデータ再構成パラダイムは、シーケンシャルレコメンデーションにおける情報拡張のために、長距離アイテム依存モデリングと統合するように設計されている。 大規模な実験により,本手法は最先端のベースラインモデルを大幅に上回り,データノイズや疎性に対するより正確な表現を学習できることが示されている。 実装済みのモデルコードはhttps://github.com/hkuds/gmrecで利用可能です。

While some powerful neural network architectures (e.g., Transformer, Graph Neural Networks) have achieved improved performance in sequential recommendation with high-order item dependency modeling, they may suffer from poor representation capability in label scarcity scenarios. To address the issue of insufficient labels, Contrastive Learning (CL) has attracted much attention in recent methods to perform data augmentation through embedding contrasting for self-supervision. However, due to the hand-crafted property of their contrastive view generation strategies, existing CL-enhanced models i) can hardly yield consistent performance on diverse sequential recommendation tasks; ii) may not be immune to user behavior data noise. In light of this, we propose a simple yet effective graph masked autoencoder that adaptively and dynamically distills global item transitional information for self-supervised augmentation. It naturally avoids the above issue of heavy reliance on constructing high-quality embedding contrastive views. Instead, an adaptive data reconstruction paradigm is designed to be integrated with the long-range item dependency modeling, for informative augmentation in sequential recommendation. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art baseline models and can learn more accurate representations against data noise and sparsity. Our implemented model code is available at https://github.com/HKUDS/GMRec.
翻訳日:2023-05-09 14:38:10 公開日:2023-05-08
# LSTMとコスト感性学習に基づく民間航空過度のリアルタイム警告

A LSTM and Cost-Sensitive Learning-Based Real-Time Warning for Civil Aviation Over-limit ( http://arxiv.org/abs/2305.04618v1 )

ライセンス: Link先を確認
Yiming Bian(参考訳) 旅客機飛行における過度な制限の問題は、安全リスクの懸念から民間航空に注目が集まっている。 この問題に対処するには,リアルタイム自動警告システムが不可欠である。 本研究では,QARデータ監視に基づいて,民間航空の過限界に対するリアルタイム警報モデルを提案する。 まず,スピアマンランク相関係数を用いて,広帯域QARデータセットから高相関特性を抽出した。 飛行制限が不均衡なサンプルのバイナリ分類問題を引き起こすため、LSTMモデルにコスト感受性学習を組み込む。 最後に、格子探索手法を用いて、LSTMモデルの時間ステップ長、LSTMセル数、学習率を最適化する。 モデルは実際のデータセットでトレーニングされ、そのパフォーマンスは検証セットで評価されます。 実験の結果,提案モデルではF1スコアが0.991,精度が0.978であり,民間航空の過度なリアルタイム警告の有効性が示された。

The issue of over-limit during passenger aircraft flights has drawn increasing attention in civil aviation due to its potential safety risks. To address this issue, real-time automated warning systems are essential. In this study, a real-time warning model for civil aviation over-limit is proposed based on QAR data monitoring. Firstly, highly correlated attributes to over-limit are extracted from a vast QAR dataset using the Spearman rank correlation coefficient. Because flight over-limit poses a binary classification problem with unbalanced samples, this paper incorporates cost-sensitive learning in the LSTM model. Finally, the time step length, number of LSTM cells, and learning rate in the LSTM model are optimized using a grid search approach. The model is trained on a real dataset, and its performance is evaluated on a validation set. The experimental results show that the proposed model achieves an F1 score of 0.991 and an accuracy of 0.978, indicating its effectiveness in real-time warning of civil aviation over-limit.
翻訳日:2023-05-09 14:37:46 公開日:2023-05-08
# SwinDocSegmenter: ドキュメントインスタンスセグメンテーションのためのエンドツーエンドのUnified Domain Adaptive Transformer

SwinDocSegmenter: An End-to-End Unified Domain Adaptive Transformer for Document Instance Segmentation ( http://arxiv.org/abs/2305.04609v1 )

ライセンス: Link先を確認
Ayan Banerjee, Sanket Biswas, Josep Llad\'os, Umapada Pal(参考訳) 文書のインスタンスレベルのセグメンテーションは、画像の各ピクセルにクラス認識およびインスタンス認識ラベルを割り当てることである。 ドキュメント解析において、理解のための重要なステップです。 本稿では,文書画像の複雑なレイアウトのエンドツーエンドのインスタンスセグメンテーションのための統一型トランスフォーマーエンコーダ・デコーダアーキテクチャを提案する。 この方法は、デコーダのアンカー初期化のための混合クエリ選択によるコントラストトレーニングに適応する。 その後、得られたクエリ埋め込みとセマンティック推論のためのピクセル埋め込みマップ(エンコーダから来る)の間のドット積を実行する。 PubLayNet, PRIMA, Historical Japanese (HJ) や TableBank といった競合ベンチマークの大規模な実験により,SwinL のバックボーンを用いたモデルでは,10億のパラメータで,従来の最先端手法よりも,平均精度の \textbf{93.72}, \textbf{54.39}, \textbf{84.65} と \textbf{98.04} のセグメンテーション性能が向上することが示された。 コードは以下で公開されている。 \href{https://github.com/ayanban011/SwinDocSegmenter}{github.com/ayanban011/SwinDocSegmenter}

Instance-level segmentation of documents consists in assigning a class-aware and instance-aware label to each pixel of the image. It is a key step in document parsing for their understanding. In this paper, we present a unified transformer encoder-decoder architecture for en-to-end instance segmentation of complex layouts in document images. The method adapts a contrastive training with a mixed query selection for anchor initialization in the decoder. Later on, it performs a dot product between the obtained query embeddings and the pixel embedding map (coming from the encoder) for semantic reasoning. Extensive experimentation on competitive benchmarks like PubLayNet, PRIMA, Historical Japanese (HJ), and TableBank demonstrate that our model with SwinL backbone achieves better segmentation performance than the existing state-of-the-art approaches with the average precision of \textbf{93.72}, \textbf{54.39}, \textbf{84.65} and \textbf{98.04} respectively under one billion parameters. The code is made publicly available at: \href{https://github.com/ayanban011/SwinDocSegmenter}{github.com/ayanban011/SwinDocSegmenter}
翻訳日:2023-05-09 14:37:31 公開日:2023-05-08
# 絡み合ったコヒーレント状態とベル-CHSH不等式違反

Entangled coherent states and violations of Bell-CHSH inequalities ( http://arxiv.org/abs/2305.04674v1 )

ライセンス: Link先を確認
Philipe De Fabritiis, Fillipe M. Guedes, Giovani Peruzzo, Silvio P. Sorella(参考訳) 絡み合ったコヒーレント状態の3つのクラスがベル-CHSH不等式の研究に使用される。 無限次元ヒルベルト空間における擬スピン作用素を用いることにより、不等式への4つの双調作用素 $(a,a',b,b')$ が構成される。 各コヒーレント状態のクラスについて、コリレータ $\langle \psi \vert a b + a' b + a b' - a' b' \vert \psi \rangle$ を計算し、ベル=チェシュの不等式違反につながるパラメータの集合を分析し、特にツィレルソンの束縛の飽和に寄与する。

Three classes of entangled coherent states are employed to study the Bell-CHSH inequality. By using pseudospin operators in infinite dimensional Hilbert spaces, four dichotomic operators $(A,A',B,B')$ entering the inequality are constructed. For each class of coherent states, we compute the correlator $\langle \psi \vert A B + A' B + A B' - A' B' \vert \psi \rangle$, analyzing the set of parameters that leads to a Bell-CHSH inequality violation and, particularly, to the saturation of Tsirelson's bound.
翻訳日:2023-05-09 14:31:04 公開日:2023-05-08
# PreCog: トレーニング済み言語モデルにおける記憶とパフォーマンスの関係を探る

PreCog: Exploring the Relation between Memorization and Performance in Pre-trained Language Models ( http://arxiv.org/abs/2305.04673v1 )

ライセンス: Link先を確認
Leonardo Ranaldi, Elena Sofia Ruzzetti and Fabio Massimo Zanzotto(参考訳) BERTのような事前訓練された言語モデルは、おそらく一般的な学習例を記憶する能力を持つ印象的なマシンである。 ここでは,下流タスクにおけるbertの記憶と性能の相互作用の分析に少なからず焦点を絞った貢献を述べる。 事前学習から記憶を評価するための指標であるPreCogを提案し,その相関関係をBERTの性能と解析する。 実験の結果,高度に記憶された例はより分類されやすく,記憶がBERTの成功の鍵となることが示唆された。

Pre-trained Language Models such as BERT are impressive machines with the ability to memorize, possibly generalized learning examples. We present here a small, focused contribution to the analysis of the interplay between memorization and performance of BERT in downstream tasks. We propose PreCog, a measure for evaluating memorization from pre-training, and we analyze its correlation with the BERT's performance. Our experiments show that highly memorized examples are better classified, suggesting memorization is an essential key to success for BERT.
翻訳日:2023-05-09 14:30:48 公開日:2023-05-08
# 音声データセットと倫理的意思決定のための拡張データシート

Augmented Datasheets for Speech Datasets and Ethical Decision-Making ( http://arxiv.org/abs/2305.04672v1 )

ライセンス: Link先を確認
Orestis Papakyriakopoulos, Anna Seo Gyeong Choi, Jerone Andrews, Rebecca Bourke, William Thong, Dora Zhao, Alice Xiang, Allison Koenecke(参考訳) 音声データセットは、音声言語技術(SLT)の訓練に不可欠であるが、基礎となる訓練データの多様性の欠如は、特に言語、アクセント、方言、多様性、および音声障害の次元と、社会経済的・人口統計学的特徴による音声特徴の交叉性に深刻な制限をもたらす可能性がある。 さらに、そのようなデータ収集の倫理に関して、基礎となるトレーニングデータ(一般的には大規模なwebクローリングや一般公開された音声に基づいて構築されている)に対する監視の欠如がしばしばある。 このような音声データコンポーネントの標準化を奨励するために、音声データセット用の拡張データシートを導入し、「データセット用データシート」に加えて使用することができる。 次に、機械学習、言語学、健康といった領域で使われる音声データの詳細な文献レビューに基づいて、拡張データシートにおける各質問の重要性を例示する。 最後に、私たちは、データセットの作成者から研究者まで、実践者に対して、拡張データシートを使用して、音声データセットの範囲、プロパティ、制限をより明確に定義するように促します。 倫理的データセットの作成は、すべてに適合するプロセスではありませんが、データセットの作成者は、拡張データシートを使用して、関連するSLTアプリケーションとデータソースの社会的コンテキストを反射的に考慮し、より包括的なSLT製品を下流に育むことができます。

Speech datasets are crucial for training Speech Language Technologies (SLT); however, the lack of diversity of the underlying training data can lead to serious limitations in building equitable and robust SLT products, especially along dimensions of language, accent, dialect, variety, and speech impairment - and the intersectionality of speech features with socioeconomic and demographic features. Furthermore, there is often a lack of oversight on the underlying training data - commonly built on massive web-crawling and/or publicly available speech - with regard to the ethics of such data collection. To encourage standardized documentation of such speech data components, we introduce an augmented datasheet for speech datasets, which can be used in addition to "Datasheets for Datasets". We then exemplify the importance of each question in our augmented datasheet based on in-depth literature reviews of speech data used in domains such as machine learning, linguistics, and health. Finally, we encourage practitioners - ranging from dataset creators to researchers - to use our augmented datasheet to better define the scope, properties, and limits of speech datasets, while also encouraging consideration of data-subject protection and user community empowerment. Ethical dataset creation is not a one-size-fits-all process, but dataset creators can use our augmented datasheet to reflexively consider the social context of related SLT applications and data sources in order to foster more inclusive SLT products downstream.
翻訳日:2023-05-09 14:30:40 公開日:2023-05-08
# 動的システムの故障診断のためのrnn系残差の数値積分解析

Analysis of Numerical Integration in RNN-Based Residuals for Fault Diagnosis of Dynamic Systems ( http://arxiv.org/abs/2305.04670v1 )

ライセンス: Link先を確認
Arman Mohammadi, Theodor Westny, Daniel Jung, Mattias Krysander(参考訳) データ駆動モデリングと機械学習は、動的システムの振る舞いをモデル化するために広く使われている。 1つの応用は、モデル予測と測定データを比較して故障診断用残差を生成する技術システムの残差評価である。 リカレントニューラルネットワークモデルは複雑な非線形力学系をモデル化できることが示されているが、それらは固定ステップの離散時間シミュレーションに限定されている。 しかし、ニューラル常微分方程式を用いたモデリングにより、特定の時間における状態変数の評価、モデルのトレーニング時の計算勾配、標準数値解法を用いて時系列データの基盤となるダイナミクスを明示的にモデル化することができる。 本研究では,神経常微分方程式残差の訓練および評価における性能に及ぼす解法選択の影響について検討した。 本論文は,重度トラックの後処理システムのケーススタディを含み,これらの手法が故障診断性能を向上させる可能性を強調した。

Data-driven modeling and machine learning are widely used to model the behavior of dynamic systems. One application is the residual evaluation of technical systems where model predictions are compared with measurement data to create residuals for fault diagnosis applications. While recurrent neural network models have been shown capable of modeling complex non-linear dynamic systems, they are limited to fixed steps discrete-time simulation. Modeling using neural ordinary differential equations, however, make it possible to evaluate the state variables at specific times, compute gradients when training the model and use standard numerical solvers to explicitly model the underlying dynamic of the time-series data. Here, the effect of solver selection on the performance of neural ordinary differential equation residuals during training and evaluation is investigated. The paper includes a case study of a heavy-duty truck's after-treatment system to highlight the potential of these techniques for improving fault diagnosis performance.
翻訳日:2023-05-09 14:30:14 公開日:2023-05-08
# riesz networks: 単一のフォワードパスにおけるスケール不変ニューラルネットワーク

Riesz networks: scale invariant neural networks in a single forward pass ( http://arxiv.org/abs/2305.04665v1 )

ライセンス: Link先を確認
Tin Barisin, Katja Schladitz and Claudia Redenbach(参考訳) アルゴリズムのスケール不変性は、その大きさと独立してオブジェクトを扱う能力を指す。 ニューラルネットワークの場合、スケール不変性は通常、データ拡張によって達成される。 しかし、トレーニングセットがカバーする範囲から遠く離れたスケールで提示すると、ニューラルネットワークは一般化しない可能性がある。 本稿では,新しいスケール不変ニューラルネットワークであるriesz networkを紹介する。 空間情報を組み合わせるための標準的な2dあるいは3d畳み込みの代わりに、リースネットワークはスケール同変演算であるリース変換に基づいている。 その結果、このネットワークは自然に1つの前方通過において見つからないスケールや任意のスケールに一般化される。 適用例として,コンクリートのトモグラフィー画像におけるひび割れの検出とセグメンテーションについて考察する。 この文脈で「スケール」とは、同じ試料内でも強く異なるひび割れの厚さを指す。 スケール不変性を証明するために、リースネットワークは1つの固定クラック幅で訓練される。 次に, 広範囲のひび割れ幅を特徴とする, シミュレーション画像と実断層画像のセグメンテーション性能を検証する。 MNIST Large Scaleデータセットで追加実験を行う。

Scale invariance of an algorithm refers to its ability to treat objects equally independently of their size. For neural networks, scale invariance is typically achieved by data augmentation. However, when presented with a scale far outside the range covered by the training set, neural networks may fail to generalize. Here, we introduce the Riesz network, a novel scale invariant neural network. Instead of standard 2d or 3d convolutions for combining spatial information, the Riesz network is based on the Riesz transform which is a scale equivariant operation. As a consequence, this network naturally generalizes to unseen or even arbitrary scales in a single forward pass. As an application example, we consider detecting and segmenting cracks in tomographic images of concrete. In this context, 'scale' refers to the crack thickness which may vary strongly even within the same sample. To prove its scale invariance, the Riesz network is trained on one fixed crack width. We then validate its performance in segmenting simulated and real tomographic images featuring a wide range of crack widths. An additional experiment is carried out on the MNIST Large Scale data set.
翻訳日:2023-05-09 14:30:01 公開日:2023-05-08
# csgcl: コミュニティ強化型グラフコントラスト学習

CSGCL: Community-Strength-Enhanced Graph Contrastive Learning ( http://arxiv.org/abs/2305.04658v1 )

ライセンス: Link先を確認
Han Chen, Ziwen Zhao, Yuhua Li, Yixiong Zou, Ruixuan Li, Rui Zhang(参考訳) グラフコントラスト学習(GCL)は,グラフ表現を自己指導的に学習する有効な方法であり,近年急速に成長している。 しかし、基礎となるコミュニティセマンティクスは、これまでのほとんどのGCLメソッドではよく研究されていない。 GCLのコミュニティを活用しようとする研究は、グラフに同じ影響を与え、余分な表現エラーをもたらすと考えている。 この問題に取り組むために,コミュニティ間の影響力の差を測定するために,「コミュニティの強さ」を定義する。 本研究では,学習過程を通じてコミュニティの強みを維持するために,CSGCL(Community-Strength-enhanced Graph Contrastive Learning)フレームワークを提案する。 まず,ノード属性とエッジの摂動がコミュニティの強さによって誘導される2つの新しいグラフ拡張法,communial attribute voting(cav)とcommunial edge drop(ced)を提案する。 次に,コミュニティの強みを利用して,コントラスト目標を段階的に微調整する動的「チームアップ」学習手法を提案する。 我々は,ノード分類,ノードクラスタリング,リンク予測という3つの下流タスクに関する広範な実験結果を報告する。 CSGCLは他のGCL法と比較して最先端の性能を達成し、コミュニティの強さがグラフ表現に有効性と一般化をもたらすことを検証した。 私たちのコードはhttps://github.com/HanChen-HUST/CSGCLで公開されています。

Graph Contrastive Learning (GCL) is an effective way to learn generalized graph representations in a self-supervised manner, and has grown rapidly in recent years. However, the underlying community semantics has not been well explored by most previous GCL methods. Research that attempts to leverage communities in GCL regards them as having the same influence on the graph, leading to extra representation errors. To tackle this issue, we define ''community strength'' to measure the difference of influence among communities. Under this premise, we propose a Community-Strength-enhanced Graph Contrastive Learning (CSGCL) framework to preserve community strength throughout the learning process. Firstly, we present two novel graph augmentation methods, Communal Attribute Voting (CAV) and Communal Edge Dropping (CED), where the perturbations of node attributes and edges are guided by community strength. Secondly, we propose a dynamic ''Team-up'' contrastive learning scheme, where community strength is used to progressively fine-tune the contrastive objective. We report extensive experiment results on three downstream tasks: node classification, node clustering, and link prediction. CSGCL achieves state-of-the-art performance compared with other GCL methods, validating that community strength brings effectiveness and generality to graph representations. Our code is available at https://github.com/HanChen-HUST/CSGCL.
翻訳日:2023-05-09 14:29:44 公開日:2023-05-08
# ゼロショット画像翻訳のためのリッチプロンプト付き拡散モデルの再生学習

ReGeneration Learning of Diffusion Models with Rich Prompts for Zero-Shot Image Translation ( http://arxiv.org/abs/2305.04651v1 )

ライセンス: Link先を確認
Yupei Lin and Sen Zhang and Xiaojun Yang and Xiao Wang and Yukai Shi(参考訳) 大規模テキスト対画像モデルは、多様で高精細な画像を合成する素晴らしい能力を示している。 しかし、これらのモデルはいくつかの制限によってしばしば破られる。 まず、ユーザーは所望の画像修正について、正確かつ文脈的に関連した説明を提供する必要がある。 第二に、現在のモデルは、編集プロセス中にオリジナルの画像コンテンツに大きな変更を課すことができる。 本稿では,画像から画像への拡散モデル(ReDiffuser)を用いた画像生成学習について検討する。 画像編集中の形状の一貫性を確保するため,再生学習に基づく相互注意誘導を提案する。 この新しいアプローチは、画像の本来の形状を保ちながら、ターゲット領域の特徴を拡張できる。 また,画像のオリジナル形状を効率的に保存し,編集過程における形状保存の質と一貫性を向上させる協調更新戦略を提案する。 提案手法は,既存のトレーニング済みテキスト画像拡散モデルを活用する。 広汎な実験により,提案手法は実画像編集と合成画像編集の両方において,既存の作業よりも優れていた。

Large-scale text-to-image models have demonstrated amazing ability to synthesize diverse and high-fidelity images. However, these models are often violated by several limitations. Firstly, they require the user to provide precise and contextually relevant descriptions for the desired image modifications. Secondly, current models can impose significant changes to the original image content during the editing process. In this paper, we explore ReGeneration learning in an image-to-image Diffusion model (ReDiffuser), that preserves the content of the original image without human prompting and the requisite editing direction is automatically discovered within the text embedding space. To ensure consistent preservation of the shape during image editing, we propose cross-attention guidance based on regeneration learning. This novel approach allows for enhanced expression of the target domain features while preserving the original shape of the image. In addition, we introduce a cooperative update strategy, which allows for efficient preservation of the original shape of an image, thereby improving the quality and consistency of shape preservation throughout the editing process. Our proposed method leverages an existing pre-trained text-image diffusion model without any additional training. Extensive experiments show that the proposed method outperforms existing work in both real and synthetic image editing.
翻訳日:2023-05-09 14:29:19 公開日:2023-05-08
# 1次元フェルミ・ハバードモデルの量子シミュレーションを$\mathrm{Z}_2$格子ゲージ理論として

Quantum simulation of the 1D Fermi-Hubbard model as a $\mathrm{Z}_2$ lattice-gauge theory ( http://arxiv.org/abs/2305.04648v1 )

ライセンス: Link先を確認
Uliana E. Khodaeva, Dmitry L. Kovrizhin, and Johannes Knolle(参考訳) フェルミ・ハバードモデル(Fermi-Hubbard model)は、強相関量子多体系の物理学における中心的なパラダイムの1つである。 本稿では,現在のNISQ量子コンピュータの実装に適した1次元Fermi-Hubbardモデルの,$\mathrm{Z}_2$ grid gauge theory (LGT)表現に基づく量子回路アルゴリズムを提案する。 LGTの記述の中には、ハミルトニアンと通勤する多くの局所保存量が存在する。 本稿では,これらの保存法則を用いて効率的な誤り軽減手法を提案する。 後者は、ノイズ量子シミュレータのための状態のポスト選択に基づいている。 LGTの説明はJordan-Wigner (JW) ベースのアプローチに比べて深い量子回路を必要とするが、我々の誤り訂正プロトコルはノイズの多い量子シミュレータの標準 JW 実装よりも高い結果をもたらす。

The Fermi-Hubbard model is one of the central paradigms in the physics of strongly-correlated quantum many-body systems. Here we propose a quantum circuit algorithm based on the $\mathrm{Z}_2$ lattice gauge theory (LGT) representation of the one-dimensional Fermi-Hubbard model, which is suitable for implementation on current NISQ quantum computers. Within the LGT description there is an extensive number of local conserved quantities commuting with the Hamiltonian. We show how these conservation laws can be used to implement an efficient error-mitigation scheme. The latter is based on a post-selection of states for noisy quantum simulators. While the LGT description requires a deeper quantum-circuit compared to a Jordan-Wigner (JW) based approach, remarkably, we find that our error-correction protocol leads to results being on-par or even better than a standard JW implementation on noisy quantum simulators.
翻訳日:2023-05-09 14:29:02 公開日:2023-05-08
# 流れのカーテン流--最大確率推定による観測されていない領域の構築

CURTAINs Flows For Flows: Constructing Unobserved Regions with Maximum Likelihood Estimation ( http://arxiv.org/abs/2305.04646v1 )

ライセンス: Link先を確認
Debajyoti Sengupta, Samuel Klein, John Andrew Raine, Tobias Golling(参考訳) 生成モデルを用いた背景データテンプレート構築のためのモデル独立技術は、lhcにおける新しい物理プロセスの探索に非常に有用である。 最適輸送損失ではなく,最大推定値を用いて2つの側バンド領域間の条件正規化フローをトレーニングすることにより,CURTAINs法に大きな改善を加えた。 新しいトレーニング目標は、変換されたデータの堅牢性と忠実性を改善し、より高速で、訓練しやすくする。 我々は,lhcオリンピック異常検出データセットを用いて,これまでの手法と現在の技術との比較を行い,従来のカーテン法に比べて感度が大幅に向上することを示した。 さらに、CURTAINF4Fは、他の完全なデータ駆動アプローチよりも多くの信号領域をカバーするために、計算資源をかなり少なくする。 効率的な構成を使用する場合、性能が大幅に低下することなく、10の信号領域で1桁以上のモデルを同時に訓練することができる。

Model independent techniques for constructing background data templates using generative models have shown great promise for use in searches for new physics processes at the LHC. We introduce a major improvement to the CURTAINs method by training the conditional normalizing flow between two side-band regions using maximum likelihood estimation instead of an optimal transport loss. The new training objective improves the robustness and fidelity of the transformed data and is much faster and easier to train. We compare the performance against the previous approach and the current state of the art using the LHC Olympics anomaly detection dataset, where we see a significant improvement in sensitivity over the original CURTAINs method. Furthermore, CURTAINsF4F requires substantially less computational resources to cover a large number of signal regions than other fully data driven approaches. When using an efficient configuration, an order of magnitude more models can be trained in the same time required for ten signal regions, without a significant drop in performance.
翻訳日:2023-05-09 14:28:46 公開日:2023-05-08
# 動的位相図探索のための制御パラメータとしての緩和時間

Relaxation time as a control parameter for exploring dynamical phase diagrams ( http://arxiv.org/abs/2305.04643v1 )

ライセンス: Link先を確認
\'Angel L. Corps, Pedro P\'erez-Fern\'andez, Armando Rela\~no(参考訳) 制御パラメータとして緩和時間に依存するダブルクエンチプロトコルを用いて,完全な動的位相図を探索する。 このプロトコルは、2つの固定クエンチと、量子状態が最終クエンチの後に置かれる位相を決定する中間緩和時間とからなる。 アンハーモニック・リプキン-メシュコフ-グリックモデルに適用する。 このモデルは、スペクトルを3つの異なる位相に分割する2つの励起状態量子相遷移を示す。 その結果,本プロトコルはいくつかの動的相転移を誘導する。 これら全てを、モデルの3つのフェーズ全てを特徴付ける動きの定数の観点から特徴づける。

We explore a full dynamical phase diagram by means of a double quench protocol that depends on a relaxation time as the only control parameter. The protocol comprises two fixed quenches and an intermediate relaxation time that determines the phase in which the quantum state is placed after the final quench. We apply it to an anharmonic Lipkin-Meshkov-Glick model. This model displays two excited-state quantum phase transitions which split the spectrum into three different phases: two of them are symmetry-breaking phases, and one is a disordered phase. As a consequence, our protocol induces several kind of dynamical phase transitions. We characterize all of them in terms of the constants of motion characterizing all three phases of the model.
翻訳日:2023-05-09 14:28:30 公開日:2023-05-08
# ElasticHash: Elasticsearchによるディープハッシュによるセマンティックイメージ類似検索

ElasticHash: Semantic Image Similarity Search by Deep Hashing with Elasticsearch ( http://arxiv.org/abs/2305.04710v1 )

ライセンス: Link先を確認
Nikolaus Korfhage, Markus M\"uhling, Bernd Freisleben(参考訳) 本稿では,高品質で効率的で大規模なセマンティック画像類似検索のための新しいアプローチであるElasticHashを提案する。 自然画像における精細画像類似度探索のためのハッシュ符号を学習するディープハッシュモデルと、elasticsearch(es)を用いたバイナリハッシュ符号を効率的に探索する2段階法に基づいている。 最初の段階では、隣接するハッシュコードのマルチインデックスハッシュとES項検索を用いて、短いハッシュコードに基づく粗い検索を行う。 第2段階では、長いハッシュコードのハミング距離を計算することで結果のリストを再ランク付けする。 OpenImagesデータセットの約690万のデータベース画像に対して,12万以上のクエリ画像に対して,textit{ElasticHash}の検索性能を評価する。 その結果,提案手法は質の高い検索結果と低検索レイテンシを実現することがわかった。

We present ElasticHash, a novel approach for high-quality, efficient, and large-scale semantic image similarity search. It is based on a deep hashing model to learn hash codes for fine-grained image similarity search in natural images and a two-stage method for efficiently searching binary hash codes using Elasticsearch (ES). In the first stage, a coarse search based on short hash codes is performed using multi-index hashing and ES terms lookup of neighboring hash codes. In the second stage, the list of results is re-ranked by computing the Hamming distance on long hash codes. We evaluate the retrieval performance of \textit{ElasticHash} for more than 120,000 query images on about 6.9 million database images of the OpenImages data set. The results show that our approach achieves high-quality retrieval results and low search latencies.
翻訳日:2023-05-09 14:20:45 公開日:2023-05-08
# 量子信号処理によるロバストoracle量子状態作成

Robust oracle quantum-state preparation via quantum signal processing ( http://arxiv.org/abs/2305.04705v1 )

ライセンス: Link先を確認
Lorenzo Laneve(参考訳) Oracleの量子状態準備は、状態 $|\psi_c\rangle \propto \sum_x c(x) |x\rangle$ を(量子)オラクルとして与えられる振幅 $c(x)$ の量子状態準備の変種である。 この変種は、量子状態が短く単純な古典的記述を持つ場合に特に有用である。 量子信号処理(QSP)と量子特異値変換(QSVT)という最近の手法を用いて,量子ビットの多項式数とオラクル呼び出しを用いて,$|\psi_c\rangle$を構成する新しいアルゴリズムを構築する。 多くの状態に対して、これは深さと幅の両方において、キュービット数の多項式であるアルゴリズムに変換される。

Oracle quantum state preparation is a variant of quantum state preparation where we want to construct a state $|\psi_c\rangle \propto \sum_x c(x) |x\rangle$ with the amplitudes $c(x)$ given as a (quantum) oracle. This variant is particularly useful when the quantum state has a short and simple classical description. We use recent techniques, namely quantum signal processing (QSP) and quantum singular value transform (QSVT), to construct a new algorithm that uses a polynomial number of qubits and oracle calls to construct $|\psi_c\rangle$. For a large class of states, this translates to an algorithm that is polynomial in the number of qubits, both in depth and width.
翻訳日:2023-05-09 14:20:31 公開日:2023-05-08
# ランダム化ベンチマークにおけるオペレーショナルマルコビアン化

Operational Markovianization in Randomized Benchmarking ( http://arxiv.org/abs/2305.04704v1 )

ライセンス: Link先を確認
Pedro Figueroa-Romero, Miha Papi\v{c}, Adrian Auer, Min-Hsiu Hsieh, Kavan Modi, In\'es de Vega(参考訳) 最適で信頼性の高い量子デバイスを得るための重要なタスクは、その全体的なパフォーマンスを定量化することである。 量子ゲートの平均忠実度(英: average fidelity of quantum gates)は、ランダム化ベンチマーク(rb)によって効率的に推定できるメリットの比である。 しかし、ゲート忠実性の概念自体は、ノイズが予測可能、時間的、あるいはいわゆるマルコフ的方法で振る舞うという決定的な仮定に依存している。 我々は,動的デカップリング (DD) やランダムコンパイル (RC) などのエラー抑制技術がRBを動作的にマルコビアン化することを示す。 i) 高速ddは非マルコフ rb を指数的減衰と長い時間補正に還元する。 二 通常、RCは平均に影響を与えないが、 iii) rb出力のばらつきは常に抑制される。 これらの効果を量子ノイズモデルを用いて数値的に示す。 その結果、単純で効率的な誤り抑制手法は、非マルコフノイズを同時に低減し、標準的かつ信頼性の高いゲート品質推定を可能にすることが示され、これは完全に機能する量子デバイスへの道のりにおいて基本的に重要な課題である。

A crucial task to obtain optimal and reliable quantum devices is to quantify their overall performance. The average fidelity of quantum gates is a particular figure of merit that can be estimated efficiently by Randomized Benchmarking (RB). However, the concept of gate-fidelity itself relies on the crucial assumption that noise behaves in a predictable, time-local, or so-called Markovian manner, whose breakdown can naturally become the leading source of errors as quantum devices scale in size and depth. We analytically show that error suppression techniques such as Dynamical Decoupling (DD) and Randomized Compiling (RC) can operationally Markovianize RB: i) fast DD reduces non-Markovian RB to an exponential decay plus longer-time corrections, while on the other hand, ii) RC generally does not affect the average, but iii) it always suppresses the variance of such RB outputs. We demonstrate these effects numerically with a qubit noise model. Our results show that simple and efficient error suppression methods can simultaneously tame non-Markovian noise and allow for standard and reliable gate quality estimation, a fundamentally important task in the path toward fully functional quantum devices.
翻訳日:2023-05-09 14:20:13 公開日:2023-05-08
# 微分的にプライベートな注意計算

Differentially Private Attention Computation ( http://arxiv.org/abs/2305.04701v1 )

ライセンス: Link先を確認
Yeqi Gao, Zhao Song, Xin Yang(参考訳) 大規模言語モデル(llm)は、自然言語処理、コンテンツ生成、研究方法論など、日常生活の多くの側面に大きな影響を与えてきた。 しかしながら、大規模な言語モデルの推論結果に関する重要な問題のひとつは、セキュリティとプライバシである。 多くのシナリオにおいて、LLMが生成した結果は、多くの機密情報や著作権情報を漏洩させる可能性がある。 最近の美しい画期的な研究(Vyas, Kakade, Barak 2023)は、理論的な観点からLLMのこのようなプライバシー問題に焦点を当てている。 注意行列の計算がllms計算における主要なタスクの1つであることはよく知られている。 したがって、注意行列の計算をプライベートに保証する方法は、重要な研究の方向性である。 これまでの研究(alman and song 2023, brand, song and zhou 2023)では,プライバシの懸念を考慮せずに,迅速な注意の計算を可能にするための厳密な結果が提案されている。 理論計算機科学大学院教科書におけるプライバシーを量化する自然な数学的定式化の一つは微分プライバシーである。 この研究で[Vyas, Kakade, Barak 2023] に着想を得て、注意行列を微分的にプライベートに近似する方法を示す証明可能な結果を与える。 技術の観点からは, 差動プライバシの分野で [alabi, kothari, tankala, venkat, zhang 2022] による先駆的な研究に回答する。

Large language models (LLMs) have had a profound impact on numerous aspects of daily life including natural language processing, content generation, research methodologies and so on. However, one crucial issue concerning the inference results of large language models is security and privacy. In many scenarios, the results generated by LLMs could possibly leak many confidential or copyright information. A recent beautiful and breakthrough work [Vyas, Kakade and Barak 2023] focus on such privacy issue of the LLMs from theoretical perspective. It is well-known that computing the attention matrix is one of the major task during the LLMs computation. Thus, how to give a provable privately guarantees of computing the attention matrix is an important research direction. Previous work [Alman and Song 2023, Brand, Song and Zhou 2023] have proposed provable tight result for fast computation of attention without considering privacy concerns. One natural mathematical formulation to quantity the privacy in theoretical computer science graduate school textbook is differential privacy. Inspired by [Vyas, Kakade and Barak 2023], in this work, we provide a provable result for showing how to differentially private approximate the attention matrix. From technique perspective, our result replies on a pioneering work in the area of differential privacy by [Alabi, Kothari, Tankala, Venkat and Zhang 2022].
翻訳日:2023-05-09 14:19:51 公開日:2023-05-08
# 動的フェアネス特性のランタイムモニタリング

Runtime Monitoring of Dynamic Fairness Properties ( http://arxiv.org/abs/2305.04699v1 )

ライセンス: Link先を確認
Thomas A. Henzinger, Mahyar Karimi, Konstantin Kueffner, Kaushik Mallik(参考訳) 静的意思決定タスクで公平なマシン学習システムは、長期にわたる社会的影響に偏っている可能性がある。 これは、システムが人間と対話し、フィードバックパターンが現れ、システムの古いバイアスを強化し、新しいバイアスを生み出すときに起こりうる。 既存の作業では,スマートシステム設計による長期的バイアスの識別と軽減が試みられているが,リアルタイムにフェアネスをモニタリングする手法を導入する。 私たちのゴールは、システムによって生成されるイベントの長いシーケンスを継続的に監視し、各イベントに対して、システムが現在の時点でどの程度公正であるかの判断を出力するモニターを構築し、デプロイすることにあります。 モニタリングの利点は2つある。 第一に、不公平さは、システムと環境に関する部分的な知識や、人間の行動の予測不能のようなシステムと環境の不確実性や動的変化のために、設計時において、不公平な振る舞いを優先的に排除しないため、実行時に評価される。 第二に、モニターは監視システムの構築方法にとらわれない設計であるため、信頼できるサードパーティのフェアネスウォッチドッグとしての使用に適している。 それらは計算量的に軽量な統計推定器として機能し、その正当性証明はシステムの基盤となる力学に関する仮定をモデル化する確率過程の厳密な解析に依存する。 理論的・実験的にも,(1)銀行の信用政策が人口間で不公平な信用スコア分布を生み出した場合,(2)資源割当業者の割当政策が不公平な割当を行った場合,監視者がどのように警告するかを示す。 実験の結果,モニターのオーバーヘッドが非常に低いことがわかった。 ランタイムモニタリングは、フェアネスツールボックスに重要かつ数学的に厳格な新たな追加であると考えています。

A machine-learned system that is fair in static decision-making tasks may have biased societal impacts in the long-run. This may happen when the system interacts with humans and feedback patterns emerge, reinforcing old biases in the system and creating new biases. While existing works try to identify and mitigate long-run biases through smart system design, we introduce techniques for monitoring fairness in real time. Our goal is to build and deploy a monitor that will continuously observe a long sequence of events generated by the system in the wild, and will output, with each event, a verdict on how fair the system is at the current point in time. The advantages of monitoring are two-fold. Firstly, fairness is evaluated at run-time, which is important because unfair behaviors may not be eliminated a priori, at design-time, due to partial knowledge about the system and the environment, as well as uncertainties and dynamic changes in the system and the environment, such as the unpredictability of human behavior. Secondly, monitors are by design oblivious to how the monitored system is constructed, which makes them suitable to be used as trusted third-party fairness watchdogs. They function as computationally lightweight statistical estimators, and their correctness proofs rely on the rigorous analysis of the stochastic process that models the assumptions about the underlying dynamics of the system. We show, both in theory and experiments, how monitors can warn us (1) if a bank's credit policy over time has created an unfair distribution of credit scores among the population, and (2) if a resource allocator's allocation policy over time has made unfair allocations. Our experiments demonstrate that the monitors introduce very low overhead. We believe that runtime monitoring is an important and mathematically rigorous new addition to the fairness toolbox.
翻訳日:2023-05-09 14:19:27 公開日:2023-05-08
# 予測計画:今後の課題の予測コストの推定による長期計画の改善

Anticipatory Planning: Improving Long-Lived Planning by Estimating Expected Cost of Future Tasks ( http://arxiv.org/abs/2305.04692v1 )

ライセンス: Link先を確認
Roshan Dhakal, Md Ridwan Hossain Talukder and Gregory J. Stein(参考訳) 家庭環境におけるサービスロボットは,高レベルのタスクを一度に一列に並べて考える。 既存のタスクプランナーの多くは、次に何をすべきかの知識を欠いているため、各タスクを別々に解決する。 すべてのタスクを完了させる全体的なコストを削減するため、ロボットは将来のタスクにそのアクションが与える影響を予測しなければならない。 そこで我々は,予測計画を提案する。グラフニューラルネットワークから予測される将来のコストを推定し,モデルに基づくタスク計画を強化するアプローチである。 我々のアプローチは、長期計画シナリオにおける準備と組織化を奨励し、全体的なコストを削減する行動に向けてロボットを導く。 提案手法をブロックワールド環境上で評価し,予測計画のない計画に比べて全体の計画コストを5%削減することを示す。 また,事前に環境を整備する機会(予測計画の特別な場合)が与えられた場合,プランナーは全体のコストを11%向上させる。

We consider a service robot in a household environment given a sequence of high-level tasks one at a time. Most existing task planners, lacking knowledge of what they may be asked to do next, solve each task in isolation and so may unwittingly introduce side effects that make subsequent tasks more costly. In order to reduce the overall cost of completing all tasks, we consider that the robot must anticipate the impact its actions could have on future tasks. Thus, we propose anticipatory planning: an approach in which estimates of the expected future cost, from a graph neural network, augment model-based task planning. Our approach guides the robot towards behaviors that encourage preparation and organization, reducing overall costs in long-lived planning scenarios. We evaluate our method on blockworld environments and show that our approach reduces the overall planning costs by 5% as compared to planning without anticipatory planning. Additionally, if given an opportunity to prepare the environment in advance (a special case of anticipatory planning), our planner improves overall cost by 11%.
翻訳日:2023-05-09 14:18:56 公開日:2023-05-08
# 事前学習型3次元点雲の自己教師型学習

Self-supervised Learning for Pre-Training 3D Point Clouds: A Survey ( http://arxiv.org/abs/2305.04691v1 )

ライセンス: Link先を確認
Ben Fei, Weidong Yang, Liwen Liu, Tianyue Luo, Rui Zhang, Yixuan Li, and Ying He(参考訳) ポイントクラウドデータは、そのコンパクトな形状と複雑な3D構造を表現する柔軟性のために、広範囲に研究されている。 複雑な3dジオメトリを正確に捉えて表現するポイントクラウドデータの能力は、コンピュータビジョン、ロボティクス、自律運転など、幅広いアプリケーションにとって理想的な選択であり、それらはいずれも、基盤となる空間構造を理解する必要がある。 大規模ポイントクラウドへの注釈付けに伴う課題を考えると,近年,自己教師ありポイントクラウド表現学習が注目されている。 このアプローチの目的は、ラベルのないデータから汎用的で有用なポイントクラウド表現を学び、広範な手動アノテーションの必要性を回避することである。 本稿では,DNNを用いた自己教師付きポイントクラウド表現学習に関する総合的な調査を行う。 まず,最近の研究におけるモチベーションと一般的な傾向について述べる。 次に、よく使われるデータセットと評価指標を紹介します。 続いて,これらの手法に基づいて,自己教師ありポイントクラウド表現学習手法の広範な探索を行った。 最後に、トレーニング済みの3Dポイントクラウドのための自己教師型学習における今後の研究の課題と潜在的な問題について、私たちの考えを共有します。

Point cloud data has been extensively studied due to its compact form and flexibility in representing complex 3D structures. The ability of point cloud data to accurately capture and represent intricate 3D geometry makes it an ideal choice for a wide range of applications, including computer vision, robotics, and autonomous driving, all of which require an understanding of the underlying spatial structures. Given the challenges associated with annotating large-scale point clouds, self-supervised point cloud representation learning has attracted increasing attention in recent years. This approach aims to learn generic and useful point cloud representations from unlabeled data, circumventing the need for extensive manual annotations. In this paper, we present a comprehensive survey of self-supervised point cloud representation learning using DNNs. We begin by presenting the motivation and general trends in recent research. We then briefly introduce the commonly used datasets and evaluation metrics. Following that, we delve into an extensive exploration of self-supervised point cloud representation learning methods based on these techniques. Finally, we share our thoughts on some of the challenges and potential issues that future research in self-supervised learning for pre-training 3D point clouds may encounter.
翻訳日:2023-05-09 14:18:37 公開日:2023-05-08
# ASDL: PyTorchのグラディエントプレコンディショニングのための統一インターフェース

ASDL: A Unified Interface for Gradient Preconditioning in PyTorch ( http://arxiv.org/abs/2305.04684v1 )

ライセンス: Link先を確認
Kazuki Osawa, Satoki Ishikawa, Rio Yokota, Shigang Li, and Torsten Hoefler(参考訳) グラディエントプレコンディショニングは、勾配に基づく学習アルゴリズムの改良と拡張のために、2次情報をグラディエントに統合する重要な手法である。 ディープラーニング、確率性、非凸性、高次元性は、実装の複雑さや不整合性、実現可能性など、幅広い勾配事前条件法をもたらす。 本稿では,PyTorchの拡張ライブラリであるAutomatic Second-order Differentiation Library (ASDL)を提案する。 ASDLは、様々な勾配事前条件法の研究と構造比較を可能にする。

Gradient preconditioning is a key technique to integrate the second-order information into gradients for improving and extending gradient-based learning algorithms. In deep learning, stochasticity, nonconvexity, and high dimensionality lead to a wide variety of gradient preconditioning methods, with implementation complexity and inconsistent performance and feasibility. We propose the Automatic Second-order Differentiation Library (ASDL), an extension library for PyTorch, which offers various implementations and a plug-and-play unified interface for gradient preconditioning. ASDL enables the study and structured comparison of a range of gradient preconditioning methods.
翻訳日:2023-05-09 14:18:21 公開日:2023-05-08
# 大規模言語モデルを用いた知識グラフ構築の強化

Enhancing Knowledge Graph Construction Using Large Language Models ( http://arxiv.org/abs/2305.04676v1 )

ライセンス: Link先を確認
Milena Trajanoska (1), Riste Stojanov (2), Dimitar Trajanov (3) ((1) Faculty of Computer Science and Engineering - Ss. Cyril and Methodius University - Skopje Macedonia)(参考訳) 大規模言語モデル(LLM)開発の増加傾向は、様々なアプリケーションのモデルが一貫して出現し、大きな注目を集めている。 しかし、大規模言語モデルとセマンティック技術を組み合わせた推論と推論は依然として難しい課題である。 本稿では,ChatGPTのような基礎LPMの現在の進歩を,REBELのような特定の事前学習モデルと比較し,結合実体と関係抽出について述べる。 このアプローチを評価するために,サステナビリティ関連テキストを用いたいくつかの実験を行った。 生テキストから知識グラフの自動作成のためのパイプラインを作成し,高度なLCMモデルを用いることで,非構造化テキストからこれらのグラフを作成するプロセスの精度が向上することを示す。 さらに,基礎LPMモデルを用いた自動オントロジー生成の可能性について検討し,より関連性が高く正確な知識グラフを得た。

The growing trend of Large Language Models (LLM) development has attracted significant attention, with models for various applications emerging consistently. However, the combined application of Large Language Models with semantic technologies for reasoning and inference is still a challenging task. This paper analyzes how the current advances in foundational LLM, like ChatGPT, can be compared with the specialized pretrained models, like REBEL, for joint entity and relation extraction. To evaluate this approach, we conducted several experiments using sustainability-related text as our use case. We created pipelines for the automatic creation of Knowledge Graphs from raw texts, and our findings indicate that using advanced LLM models can improve the accuracy of the process of creating these graphs from unstructured text. Furthermore, we explored the potential of automatic ontology creation using foundation LLM models, which resulted in even more relevant and accurate knowledge graphs.
翻訳日:2023-05-09 14:18:08 公開日:2023-05-08
# 製品ユニットネットワークによる核質量予測

Predicting nuclear masses with product-unit networks ( http://arxiv.org/abs/2305.04675v1 )

ライセンス: Link先を確認
Babette Dellen, Uwe Jaekel, Paulo S.A. Freitas, and John W. Clark(参考訳) 核質量の正確な推定と核景観の実験的探究領域を超えての予測は、核特性の基本的な起源の理解と核科学の多くの応用に不可欠であり、特に星核合成のr$-processの定量化において重要である。 ニューラルネットワークは、核質量の予測にいくつかの成功をおさめてきたが、外挿タスクへの応用には欠点があることが知られている。 本研究では,入力データから入力の乗算結合を学習するための,通常のニューロンのような処理ユニットを複雑な値の積単位に置き換える,新しいタイプのニューラルネットワークの提案と探索を行う。 この一般化ネットワークモデルは、原子質量評価から引き出された補間データと補間データの両方でテストされる。 その性能はいくつかのニューラルネットワークアーキテクチャと比較され、核質量予測に適合する。 また, 予測誤差の低い領域を識別するために, 複雑な値のネットワークに対する予測不確実性尺度が提案されている。

Accurate estimation of nuclear masses and their prediction beyond the experimentally explored domains of the nuclear landscape are crucial to an understanding of the fundamental origin of nuclear properties and to many applications of nuclear science, most notably in quantifying the $r$-process of stellar nucleosynthesis. Neural networks have been applied with some success to the prediction of nuclear masses, but they are known to have shortcomings in application to extrapolation tasks. In this work, we propose and explore a novel type of neural network for mass prediction in which the usual neuron-like processing units are replaced by complex-valued product units that permit multiplicative couplings of inputs to be learned from the input data. This generalized network model is tested on both interpolation and extrapolation data sets drawn from the Atomic Mass Evaluation. Its performance is compared with that of several neural-network architectures, substantiating its suitability for nuclear mass prediction. Additionally, a prediction-uncertainty measure for such complex-valued networks is proposed that serves to identify regions of expected low prediction error.
翻訳日:2023-05-09 14:17:54 公開日:2023-05-08
# ランダム化平滑化のための雑音提示訓練の理解

Understanding Noise-Augmented Training for Randomized Smoothing ( http://arxiv.org/abs/2305.04746v1 )

ライセンス: Link先を確認
Ambar Pal and Jeremias Sulam(参考訳) ランダム化平滑化(randomized smoothing)は、分類器について最小限の仮定をしながら、敵の攻撃に対して証明可能な堅牢性を保証する技術である。 この手法は、複数のノイズ摂動入力に対してベース分類器の過半数を採決してスムーズな分類器を得る方法に依存しており、深い複雑なニューラルネットワークモデルを認証するツールとして選択されている。 それでも、そのようなスムーズな分類器の非自明な性能は、ノイズ増強データ、すなわちスムーズな入力分布でトレーニングされているベースモデルに大きく依存する。 実際には広く採用されているが、この騒がしいベース分類器のトレーニングがロバストな平滑化分類器のリスクに正確にどのように影響するかは定かではない。 本研究では、これらのトレードオフを二項分類設定で理論的に解析し、これらの共通観測が普遍的でないことを証明した。 また,より強固な分布仮定を行なわずに,騒音緩和訓練を受けた予測者から便益を期待できないことを示し,その恩恵が得られた分布をさらに特徴付ける。 本分析は,ランダム化平滑化の実用的展開に直接影響するものであり,cifar-10とmnistの実験や合成データセットを用いてそのいくつかを解説する。

Randomized smoothing is a technique for providing provable robustness guarantees against adversarial attacks while making minimal assumptions about a classifier. This method relies on taking a majority vote of any base classifier over multiple noise-perturbed inputs to obtain a smoothed classifier, and it remains the tool of choice to certify deep and complex neural network models. Nonetheless, non-trivial performance of such smoothed classifier crucially depends on the base model being trained on noise-augmented data, i.e., on a smoothed input distribution. While widely adopted in practice, it is still unclear how this noisy training of the base classifier precisely affects the risk of the robust smoothed classifier, leading to heuristics and tricks that are poorly understood. In this work we analyze these trade-offs theoretically in a binary classification setting, proving that these common observations are not universal. We show that, without making stronger distributional assumptions, no benefit can be expected from predictors trained with noise-augmentation, and we further characterize distributions where such benefit is obtained. Our analysis has direct implications to the practical deployment of randomized smoothing, and we illustrate some of these via experiments on CIFAR-10 and MNIST, as well as on synthetic datasets.
翻訳日:2023-05-09 14:12:20 公開日:2023-05-08
# ポートライトの可制御光拡散

Controllable Light Diffusion for Portraits ( http://arxiv.org/abs/2305.04745v1 )

ライセンス: Link先を確認
David Futschik, Kelvin Ritland, James Vecore, Sean Fanello, Sergio Orts-Escolano, Brian Curless, Daniel S\'ykora, Rohit Pandey(参考訳) 光の拡散は、肖像画の照明を改善する新しい方法であり、シーン全体の照明を保ちながら、厳しい影と特異なハイライトを柔らかくする。 プロの写真家のディフューザーとスクリムにインスパイアされたこの手法は、1枚のポートレート写真のみの照明を柔らかくする。 これまでのポートレートリライティングのアプローチでは、照明環境全体を変更したり、影をなくしたり、影を完全に消したりすることに重点を置いていた。 対照的に、我々は光拡散量を制御し、それを現場の肖像画に適用できる学習ベース手法を提案する。 さらに, 被検者の顔の形状に合わせて, 地表面散乱効果を有する可塑性外部影を合成的に生成する手法を設計した。 最後に,アルベド推定,幾何推定,セマンティクスセグメンテーションといった高レベル視覚アプリケーションのロバスト性を高める手法を提案する。

We introduce light diffusion, a novel method to improve lighting in portraits, softening harsh shadows and specular highlights while preserving overall scene illumination. Inspired by professional photographers' diffusers and scrims, our method softens lighting given only a single portrait photo. Previous portrait relighting approaches focus on changing the entire lighting environment, removing shadows (ignoring strong specular highlights), or removing shading entirely. In contrast, we propose a learning based method that allows us to control the amount of light diffusion and apply it on in-the-wild portraits. Additionally, we design a method to synthetically generate plausible external shadows with sub-surface scattering effects while conforming to the shape of the subject's face. Finally, we show how our approach can increase the robustness of higher level vision applications, such as albedo estimation, geometry estimation and semantic segmentation.
翻訳日:2023-05-09 14:11:55 公開日:2023-05-08
# SkillQG: 読みやすさ評価のための質問生成学習

SkillQG: Learning to Generate Question for Reading Comprehension Assessment ( http://arxiv.org/abs/2305.04737v1 )

ライセンス: Link先を確認
Xiaoqiang Wang, Bang Liu, Siliang Tang, Lingfei Wu(参考訳) 以下に示すのは$\textbf{$\texttt{SkillQG}$}$: 機械読解モデルの評価と改善のための制御可能な理解型を持つ質問生成フレームワークである。 既存の質問生成システムは質問を$\textit{literal}$情報(質問語や回答型など)で広く区別し、与えられたコンテキストに対して意味論的に関連する質問を生成する。 しかし、質問の性質である「\textit{comprehension}$」、すなわち異なる質問によって具現化された異なる理解能力を考えることは滅多にない。 比較として、$\texttt{skillqg}$は、その上に構築された質問応答モデルの能力に対して、きめ細かい評価と改善を調整できます。 具体的には、まず階層的なスキルベースのスキーマに基づいて理解型質問をフレーム化し、次にスキル条件付き質問生成器として$\texttt{SkillQG}$を定式化する。 さらに、生成の制御性を向上させるために、事前学習した言語モデルを反復的に促して構築した、質問焦点とスキル特有の知識による入力テキストを増強する。 実験の結果、$\texttt{SkillQG}$は、下流の質問応答タスクにおいて、期待できるパフォーマンス向上を示しながら、品質、妥当性、スキル制御性においてベースラインを上回ります。

We present $\textbf{$\texttt{SkillQG}$}$: a question generation framework with controllable comprehension types for assessing and improving machine reading comprehension models. Existing question generation systems widely differentiate questions by $\textit{literal}$ information such as question words and answer types to generate semantically relevant questions for a given context. However, they rarely consider the $\textit{comprehension}$ nature of questions, i.e. the different comprehension capabilities embodied by different questions. In comparison, our $\texttt{SkillQG}$ is able to tailor a fine-grained assessment and improvement to the capabilities of question answering models built on it. Specifically, we first frame the comprehension type of questions based on a hierarchical skill-based schema, then formulate $\texttt{SkillQG}$ as a skill-conditioned question generator. Furthermore, to improve the controllability of generation, we augment the input text with question focus and skill-specific knowledge, which are constructed by iteratively prompting the pre-trained language models. Empirical results demonstrate that $\texttt{SkillQG}$ outperforms baselines in terms of quality, relevance, and skill-controllability while showing a promising performance boost in downstream question answering task.
翻訳日:2023-05-09 14:11:37 公開日:2023-05-08
# DEFENDER: デモを用いたDTWによるエピソードフィルタによるRL安全性向上

DEFENDER: DTW-Based Episode Filtering Using Demonstrations for Enhancing RL Safety ( http://arxiv.org/abs/2305.04727v1 )

ライセンス: Link先を確認
Andr\'e Correia and Lu\'is Alexandre(参考訳) 強化学習エージェントを現実世界に配置するのは、試行錯誤による学習に関わるリスクのために難しい場合がある。 本稿では,学習中のRLエージェントの安全性を向上させるために,安全で安全性の低いデモセットを活用するタスク非依存手法を提案する。 この方法は、エージェントの現在の軌道と各ステップの2つのデモを比較し、安全でないデモに似ていれば軌道をフィルタリングする。 異なるフィルタリング戦略についてアブレーション研究を行い,実演回数が性能に及ぼす影響について検討した。 我々の手法は任意のスタンドアロンRLアルゴリズムと互換性があり、任意のタスクに適用できる。 提案手法はOpenAI GymのMujocoベンチマークと2つの最先端RLアルゴリズムから評価する。 以上の結果から,本手法はエージェントの衝突速度を著しく低減し,ほとんどの場合,スタンドアローンエージェントの性能が向上することが示された。

Deploying reinforcement learning agents in the real world can be challenging due to the risks associated with learning through trial and error. We propose a task-agnostic method that leverages small sets of safe and unsafe demonstrations to improve the safety of RL agents during learning. The method compares the current trajectory of the agent with both sets of demonstrations at every step, and filters the trajectory if it resembles the unsafe demonstrations. We perform ablation studies on different filtering strategies and investigate the impact of the number of demonstrations on performance. Our method is compatible with any stand-alone RL algorithm and can be applied to any task. We evaluate our method on three tasks from OpenAI Gym's Mujoco benchmark and two state-of-the-art RL algorithms. The results demonstrate that our method significantly reduces the crash rate of the agent while converging to, and in most cases even improving, the performance of the stand-alone agent.
翻訳日:2023-05-09 14:11:12 公開日:2023-05-08
# 機能抽出処理の強化による糖尿病網膜症早期曝露の戦略

Strategy for Rapid Diabetic Retinopathy Exposure Based on Enhanced Feature Extraction Processing ( http://arxiv.org/abs/2305.04724v1 )

ライセンス: Link先を確認
V. Banupriya and S. Anusuya(参考訳) 現代の世界では、糖尿病によって引き起こされる最も深刻な眼感染症の1つは糖尿病網膜症と呼ばれ、網膜の損傷を招き、視覚障害を引き起こす。 糖尿病網膜症は早期診断に有効である。 ヒトの網膜底画像は、網膜の病変をスクリーニングするために使用される。 しかし, 早期にDRを検出することは, 症状の少ないため困難である。 さらに、DR補助薬による血管異常に関連する疾患の発生は、その病態の診断に寄与する。 それでも、手動で病変を特定するのに必要な資源は高い。 同様に、畳み込みニューラルネットワークのトレーニングはより時間がかかる。 本研究は,既存のcnnモデルよりも精度の高い時間的dr識別のための拡張深層学習モデルの開発により,糖尿病網膜症診断を改善することを目的としている。 提案モデルでは,早期に網膜画像から様々な病変を検出する。 まず、網膜基底像から特徴を抽出し、EDLMに分類する。 次元低減にはEDLMを用いる。 さらに,確率勾配降下最適化器を用いて分類と特徴抽出を最適化する。 EDLMの有効性は、3459枚の網膜画像を持つKAG GLEデータセットで評価され、VGG16、VGG19、RESNET18、RESNET34、RESNET50と比較される。

In the modern world, one of the most severe eye infections brought on by diabetes is known as diabetic retinopathy, which will result in retinal damage, and, thus, lead to blindness. Diabetic retinopathy can be well treated with early diagnosis. Retinal fundus images of humans are used to screen for lesions in the retina. However, detecting DR in the early stages is challenging due to the minimal symptoms. Furthermore, the occurrence of diseases linked to vascular anomalies brought on by DR aids in diagnosing the condition. Nevertheless, the resources required for manually identifying the lesions are high. Similarly, training for Convolutional Neural Networks is more time-consuming. This proposed research aims to improve diabetic retinopathy diagnosis by developing an enhanced deep learning model for timely DR identification that is potentially more accurate than existing CNN-based models. The proposed model will detect various lesions from retinal images in the early stages. First, characteristics are retrieved from the retinal fundus picture and put into the EDLM for classification. For dimensionality reduction, EDLM is used. Additionally, the classification and feature extraction processes are optimized using the stochastic gradient descent optimizer. The EDLM effectiveness is assessed on the KAG GLE dataset with 3459 retinal images, and results are compared over VGG16, VGG19, RESNET18, RESNET34, and RESNET50.
翻訳日:2023-05-09 14:10:57 公開日:2023-05-08
# 有効受容場を用いた視覚変換器のガウス注意バイアスの理解

Understanding Gaussian Attention Bias of Vision Transformers Using Effective Receptive Fields ( http://arxiv.org/abs/2305.04722v1 )

ライセンス: Link先を確認
Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Sang Woo Kim(参考訳) 分割されたパッチのシーケンスとしてイメージをモデル化するvision transformers(vits)は、さまざまなビジョンタスクで注目すべきパフォーマンスを示している。 分割パッチは画像構造を排除し、パッチの順序を反映するため、ViTは位置埋め込みと呼ばれる明示的なコンポーネントを使用する。 しかし,位置埋め込みは vit の順序認識を単純に保証するものではない。 この主張を支持するために、有効な受容場を用いて、ViTの実際の挙動を分析する。 トレーニング中、ViTは特定のパターンとしてトレーニングされた位置埋め込みからパッチ順序を理解することを実証する。 この観察に基づいて,トレーニング開始から対応するパターンを持つように位置埋め込みを導くガウス的注意バイアスを明示的に追加することを提案する。 画像分類,オブジェクト検出,セマンティックセグメンテーション実験において,ガウスの注意バイアスがViTの性能に及ぼす影響を評価した。 その結果,提案手法は画像の理解を容易にするだけでなく,ImageNet,COCO 2017,ADE20Kなど,さまざまなデータセットのパフォーマンス向上も図っている。

Vision transformers (ViTs) that model an image as a sequence of partitioned patches have shown notable performance in diverse vision tasks. Because partitioning patches eliminates the image structure, to reflect the order of patches, ViTs utilize an explicit component called positional embedding. However, we claim that the use of positional embedding does not simply guarantee the order-awareness of ViT. To support this claim, we analyze the actual behavior of ViTs using an effective receptive field. We demonstrate that during training, ViT acquires an understanding of patch order from the positional embedding that is trained to be a specific pattern. Based on this observation, we propose explicitly adding a Gaussian attention bias that guides the positional embedding to have the corresponding pattern from the beginning of training. We evaluated the influence of Gaussian attention bias on the performance of ViTs in several image classification, object detection, and semantic segmentation experiments. The results showed that proposed method not only facilitates ViTs to understand images but also boosts their performance on various datasets, including ImageNet, COCO 2017, and ADE20K.
翻訳日:2023-05-09 14:10:37 公開日:2023-05-08
# Density: 密度推定を用いたオープンドメイン対話評価指標

DEnsity: Open-domain Dialogue Evaluation Metric using Density Estimation ( http://arxiv.org/abs/2305.04720v1 )

ライセンス: Link先を確認
ChaeHun Park, Seungil Lee, Daniel Rim, and Jaegul Choo(参考訳) 近年のオープンドメイン対話システムの発展にもかかわらず、信頼性の高い評価基準の構築は依然として困難な問題である。 近年の研究では、正しい応答を識別するために訓練された分類モデルに基づく学習可能なメトリクスが提案されている。 しかし、神経分類器は、見当たらない分布から例を過度に自信を持って予測することが知られている。 本稿では,神経分類器から導出される特徴空間の密度推定を利用して応答を評価する密度を提案する。 我々の測定基準は、人間の会話の分布にどれだけ反応が現れるかを測定する。 さらに、Dernityの性能を向上させるために、コントラスト学習を利用して特徴空間をさらに圧縮する。 複数の応答評価データセットの実験により、Dnsityは既存の指標よりも人間の評価と相関していることが示された。 私たちのコードはhttps://github.com/ddehun/densityで利用可能です。

Despite the recent advances in open-domain dialogue systems, building a reliable evaluation metric is still a challenging problem. Recent studies proposed learnable metrics based on classification models trained to distinguish the correct response. However, neural classifiers are known to make overly confident predictions for examples from unseen distributions. We propose DEnsity, which evaluates a response by utilizing density estimation on the feature space derived from a neural classifier. Our metric measures how likely a response would appear in the distribution of human conversations. Moreover, to improve the performance of DEnsity, we utilize contrastive learning to further compress the feature space. Experiments on multiple response evaluation datasets show that DEnsity correlates better with human evaluations than the existing metrics. Our code is available at https://github.com/ddehun/DEnsity.
翻訳日:2023-05-09 14:10:18 公開日:2023-05-08
# 書画による中国風の風景画を創出する学習

Learning to Generate Poetic Chinese Landscape Painting with Calligraphy ( http://arxiv.org/abs/2305.04719v1 )

ライセンス: Link先を確認
Shaozu Yuan, Aijun Dai, Zhiling Yan, Ruixue Liu, Meng Chen, Baoyang Chen, Zhijie Qiu, Xiaodong He(参考訳) 本稿では,書道による漢文風景画を創出する新システム(Polaca)を提案する。 以前の1対1の絵画生成と異なり、ポーラカは古典詩を入力とし、対応する書道で芸術的な風景画イメージを出力する。 ランドスケープ絵画作品全体を完成させるための3つのモジュールを備えており、第1はランドスケープ絵画画像を生成するテキスト・ツー・イメージ・モジュール、第2はスタイリスティックな書画画像を生成するイメージ・ツー・イメージ・モジュール、第3はイメージ・フュージョン・モジュールである。

In this paper, we present a novel system (denoted as Polaca) to generate poetic Chinese landscape painting with calligraphy. Unlike previous single image-to-image painting generation, Polaca takes the classic poetry as input and outputs the artistic landscape painting image with the corresponding calligraphy. It is equipped with three different modules to complete the whole piece of landscape painting artwork: the first one is a text-to-image module to generate landscape painting image, the second one is an image-to-image module to generate stylistic calligraphy image, and the third one is an image fusion module to fuse the two images into a whole piece of aesthetic artwork.
翻訳日:2023-05-09 14:10:05 公開日:2023-05-08
# 画像の脅威:ロボットマニピュレーションにおける深い政策学習のためのベイジアンシーン

The Treachery of Images: Bayesian Scene Keypoints for Deep Policy Learning in Robotic Manipulation ( http://arxiv.org/abs/2305.04718v1 )

ライセンス: Link先を確認
Jan Ole von Hartz, Eugenio Chisari, Tim Welschehold, Wolfram Burgard, Joschka Boedecker, Abhinav Valada(参考訳) ロボット操作のための政策学習では、サンプル効率が最も重要である。 したがって、カメラ観察からよりコンパクトな表現を学習し抽出することは有望な道のりである。 しかし、現在の手法はシーンの完全な可観測性やスケールの不変性に悩まされることが多い。 多くのタスクや設定において、この仮定は、シーン内のオブジェクトがしばしばカメラの視野の外に隠されたり、横たわったりするため、その位置に関してカメラの観察が曖昧である。 この問題に対処するために,baksという,スケール不変なキーポイントを追跡するベイズ的手法を提案する。 本手法は画像内固有のあいまいさを解消し,対称オブジェクトとオクルード・オブ・ビューオブジェクトのキーポイント追跡を可能にする。 本手法は,手首カメラ観測から多目的ロボット操作の課題を学習し,他の表現学習技術と比較して,ポリシー学習の利点を示す。 さらに, 障害物, 閉塞, ノイズ深度測定などの乱れに対する顕著な頑健さと, シミュレーションと実世界のロボット実験の両方において目に見えない物体への一般化を示す。

In policy learning for robotic manipulation, sample efficiency is of paramount importance. Thus, learning and extracting more compact representations from camera observations is a promising avenue. However, current methods often assume full observability of the scene and struggle with scale invariance. In many tasks and settings, this assumption does not hold as objects in the scene are often occluded or lie outside the field of view of the camera, rendering the camera observation ambiguous with regard to their location. To tackle this problem, we present BASK, a Bayesian approach to tracking scale-invariant keypoints over time. Our approach successfully resolves inherent ambiguities in images, enabling keypoint tracking on symmetrical objects and occluded and out-of-view objects. We employ our method to learn challenging multi-object robot manipulation tasks from wrist camera observations and demonstrate superior utility for policy learning compared to other representation learning techniques. Furthermore, we show outstanding robustness towards disturbances such as clutter, occlusions, and noisy depth measurements, as well as generalization to unseen objects both in simulation and real-world robotic experiments.
翻訳日:2023-05-09 14:09:50 公開日:2023-05-08
# 次元化による高次元平滑エントロピー推定

High-Dimensional Smoothed Entropy Estimation via Dimensionality Reduction ( http://arxiv.org/abs/2305.04712v1 )

ライセンス: Link先を確認
Kristjan Greenewald, Brian Kingsbury, Yuancheng Yu(参考訳) ガウス畳み込みの下での微分エントロピー推定における指数的サンプル複雑性を克服する問題について検討する。 具体的には、差分エントロピー$h(X+Z)$ via $n$と同一分布の$X$を推定し、$X$と$Z$は独立な$D$-次元確率変数であり、有界な第二モーメントを持つ$X$と$Z\sim\mathcal{N}(0,\sigma^2I_D)$である。 絶対誤差損失の下では、上記の問題はパラメトリック推定レートが$\frac{c^D}{\sqrt{n}}$であり、これはデータ次元が$D$で、しばしばアプリケーションにとって問題となる。 エントロピー推定の前に、主成分分析(PCA)を通して低次元空間に$X$を投影することで、この指数関数的なサンプル複雑性を克服し、PCAの未説明分散が消えるにつれて漸近誤差オーバーヘッドが消滅することを示す。 これは、dnnにおける相互情報(mi)の推定に使用できるディープニューラルネットワーク(dnn)の隠れ層出力を含む、高次元空間に埋め込まれた本質的に低次元構造に対する最適化に近い性能を意味する。 ガウスおよびスパイラルデータに対するPCAアプローチの有効性を検証する数値結果を提供する。 また,提案手法をニューラルネットワーク層(c.f.情報ボトルネック)における情報フロー解析に適用し,雑音完全接続ネットワークと雑音畳み込みニューラルネットワーク(cnn)によるmnist分類における相互情報計測を行った。

We study the problem of overcoming exponential sample complexity in differential entropy estimation under Gaussian convolutions. Specifically, we consider the estimation of the differential entropy $h(X+Z)$ via $n$ independently and identically distributed samples of $X$, where $X$ and $Z$ are independent $D$-dimensional random variables with $X$ subgaussian with bounded second moment and $Z\sim\mathcal{N}(0,\sigma^2I_D)$. Under the absolute-error loss, the above problem has a parametric estimation rate of $\frac{c^D}{\sqrt{n}}$, which is exponential in data dimension $D$ and often problematic for applications. We overcome this exponential sample complexity by projecting $X$ to a low-dimensional space via principal component analysis (PCA) before the entropy estimation, and show that the asymptotic error overhead vanishes as the unexplained variance of the PCA vanishes. This implies near-optimal performance for inherently low-dimensional structures embedded in high-dimensional spaces, including hidden-layer outputs of deep neural networks (DNN), which can be used to estimate mutual information (MI) in DNNs. We provide numerical results verifying the performance of our PCA approach on Gaussian and spiral data. We also apply our method to analysis of information flow through neural network layers (c.f. information bottleneck), with results measuring mutual information in a noisy fully connected network and a noisy convolutional neural network (CNN) for MNIST classification.
翻訳日:2023-05-09 14:09:29 公開日:2023-05-08
# 16$\mu$g Schr\"odinger cat状態による重力関連デコヒーレンスの提案

Probing gravity-related decoherence with a 16 $\mu$g Schr\"odinger cat state ( http://arxiv.org/abs/2305.04780v1 )

ライセンス: Link先を確認
Matteo Fadel(参考訳) Schr\"odinger 方程式は任意のスケールで重ね合わせの原理の妥当性を予測するが、私たちの日常生活において猫が「死」と「生き」の重ね合わせをしている経験はない。 基本レベルでの量子論の修正は、臨界質量より上の波動関数の客観的な崩壊の原因となり、重ね合わせ原理を分解し、マクロスケールでの古典的振る舞いを回復する。 1つの可能性として、これらの修正はディオシ・ペンローズ波動関数崩壊モデルによって記述された重力と関係している。 本研究では、16マイクログラムの有効質量を有するメカニカル共振器のschr\"odinger cat状態のデコヒーレンスを実験的に測定した。

The Schr\"odinger equation predicts the validity of the superposition principle at any scale, yet we do not experience cats being in a superposition of "dead" and "alive" in our everyday lives. Modifications to quantum theory at the fundamental level may be responsible for the objective collapse of the wave function above a critical mass, thereby breaking down the superposition principle and restoring classical behavior at the macroscopic scale. One possibility is that these modifications are related to gravity, as described by the Di\'osi-Penrose wavefunction collapse model. Here, we investigate this model using experimental measurements on the decoherence of a Schr\"odinger cat state of a mechanical resonator with an effective mass of 16 micrograms.
翻訳日:2023-05-09 14:02:02 公開日:2023-05-08
# 長距離双極子-双極子相互作用によるシステム次元の低減

Reducing system dimensionality with long-range collective dipole-dipole interactions ( http://arxiv.org/abs/2305.04777v1 )

ライセンス: Link先を確認
Ashwin K. Boddeti, Yi Wang, Xitlali G. Juarez, Alexandra Boltasseva, Teri W. Odom, Vladimir Shalaev, Hadiseh Alaeian, and Zubin Jacob(参考訳) 次元は長距離双極子-双極子相互作用(ddis)において重要な役割を果たす。 共振ナノフォトニック構造は、人口減衰ダイナミクスによって明らかになった相互作用するエミッタのアンサンブルの見かけの次元を変化させる。 長い距離のDDIを持つ共鳴ナノフォトニック構造における相互作用する量子エミッタの密接なアンサンブルの測定では、エミッタが3Dで分散されているにもかかわらず、有効次元が$\bar{d} = 2.20 (12)$に減少することを示した。 これは、見かけの次元が$\bar{d} = 3.00$である同次環境とは対照的である。 我々の研究は、相互作用するエミッタのアンサンブルで次元を操作するための有望な道を示す。

Dimensionality plays a crucial role in long-range dipole-dipole interactions (DDIs). We demonstrate that a resonant nanophotonic structure modifies the apparent dimensionality in an interacting ensemble of emitters, as revealed by population decay dynamics. Our measurements on a dense ensemble of interacting quantum emitters in a resonant nanophotonic structure with long-range DDIs reveal an effective dimensionality reduction to $\bar{d} = 2.20 (12)$, despite the emitters being distributed in 3D. This contrasts the homogeneous environment, where the apparent dimension is $\bar{d} = 3.00$. Our work presents a promising avenue to manipulate dimensionality in an ensemble of interacting emitters.
翻訳日:2023-05-09 14:01:47 公開日:2023-05-08
# BiRT:視覚変換器のバイオインスパイアされたリプレイ

BiRT: Bio-inspired Replay in Vision Transformers for Continual Learning ( http://arxiv.org/abs/2305.04769v1 )

ライセンス: Link先を確認
Kishaan Jeeveswaran, Prashant Bhat, Bahram Zonooz, Elahe Arani(参考訳) 深層ニューラルネットワークが一連のタスクを継続的に学習し、適応する能力は、これまで学んだタスクを壊滅的に忘れてしまうため、依然として困難である。 一方、人間は、破滅的な忘れることなく、生涯にわたってタスク間で知識を取得し、同化し、伝達する素晴らしい能力を持っています。 脳の汎用性は、補完的な学習システムを通じて抽象的な経験のリハーサルに起因する。 しかし、視覚変換器における表現リハーサルは多様性に欠けており、結果として過度に適合し、結果として生画像リハーサルに比べて性能が著しく低下する。 そこで,視覚変換器を用いた表現リハーサルに基づく連続学習手法であるBiRTを提案する。 具体的には、視覚変換器の様々な段階で構成ノイズを導入し、作業モデルの指数移動平均に対する予測において一貫性を強制する。 本手法は,生画像とバニラ表現のリハーサルに対して,複数のclベンチマークで一貫した性能向上を実現するとともに,自然および敵対的腐敗に対するメモリ効率と堅牢性を提供する。

The ability of deep neural networks to continually learn and adapt to a sequence of tasks has remained challenging due to catastrophic forgetting of previously learned tasks. Humans, on the other hand, have a remarkable ability to acquire, assimilate, and transfer knowledge across tasks throughout their lifetime without catastrophic forgetting. The versatility of the brain can be attributed to the rehearsal of abstract experiences through a complementary learning system. However, representation rehearsal in vision transformers lacks diversity, resulting in overfitting and consequently, performance drops significantly compared to raw image rehearsal. Therefore, we propose BiRT, a novel representation rehearsal-based continual learning approach using vision transformers. Specifically, we introduce constructive noises at various stages of the vision transformer and enforce consistency in predictions with respect to an exponential moving average of the working model. Our method provides consistent performance gain over raw image and vanilla representation rehearsal on several challenging CL benchmarks, while being memory efficient and robust to natural and adversarial corruptions.
翻訳日:2023-05-09 14:01:08 公開日:2023-05-08
# OSTA:マルチチャネル画像のセマンティックセグメンテーションのためのワンショットタスク適応チャネル選択

OSTA: One-shot Task-adaptive Channel Selection for Semantic Segmentation of Multichannel Images ( http://arxiv.org/abs/2305.04766v1 )

ライセンス: Link先を確認
Yuanzhi Cai, Jagannath Aryal, Yuan Fang, Hong Huang, Lei Fan(参考訳) マルチチャネル画像のセマンティクスセグメンテーションは、多くのアプリケーションにとって基本的なタスクである。 元のマルチチャネル画像から適切なチャネルの組み合わせを選択することで、セマンティックセグメンテーションの精度が向上し、データストレージ、処理、将来の取得コストが削減される。 既存のチャネル選択法は通常、適切な選択手順を使用して望ましいチャネルの組み合わせを決定し、その組み合わせを使用してセマンティックセグメンテーションネットワークを訓練する。 本研究では,スーパーネットからプルーニング(pruning)という概念を初めて利用し,チャネルの組み合わせの選択とセマンティックセグメンテーションネットワークのトレーニングを統合する。 この概念に基づいて,マルチチャネル画像のセマンティックセグメンテーションのために,ワンショットタスク適応(OSTA)チャネル選択法を提案する。 OSTAには、スーパーネットトレーニングステージ、プルーニングステージ、微調整ステージの3つのステージがある。 6つの実験群(L7Irish3C,L7Irish2C,L8Biome3C,L8Biome2C,RIT-18,Semantic3D)の結果,OSTAの有効性と有効性を示した。 OSTAは全試験で62.49%(mIoU)、75.40%(mIoU)、68.38%(mIoU)、87.63%(mIoU)、66.53%(mA)、70.86%(mIoU)の最高セグメンテーション精度を達成した。 さらに61.54%(mIoU)、74.91%(mIoU)、67.94%(mIoU)、87.32%(mIoU)、65.32%(mA)、70.27%(mIoU)を超えた。 これら全ては予測可能かつ比較的効率的な時間枠内で達成でき、セグメンテーションネットワークをトレーニングするために必要な101.71%から298.1%の時間である。 加えて、いくつかの分野で価値のある興味深い発見があった。

Semantic segmentation of multichannel images is a fundamental task for many applications. Selecting an appropriate channel combination from the original multichannel image can improve the accuracy of semantic segmentation and reduce the cost of data storage, processing and future acquisition. Existing channel selection methods typically use a reasonable selection procedure to determine a desirable channel combination, and then train a semantic segmentation network using that combination. In this study, the concept of pruning from a supernet is used for the first time to integrate the selection of channel combination and the training of a semantic segmentation network. Based on this concept, a One-Shot Task-Adaptive (OSTA) channel selection method is proposed for the semantic segmentation of multichannel images. OSTA has three stages, namely the supernet training stage, the pruning stage and the fine-tuning stage. The outcomes of six groups of experiments (L7Irish3C, L7Irish2C, L8Biome3C, L8Biome2C, RIT-18 and Semantic3D) demonstrated the effectiveness and efficiency of OSTA. OSTA achieved the highest segmentation accuracies in all tests (62.49% (mIoU), 75.40% (mIoU), 68.38% (mIoU), 87.63% (mIoU), 66.53% (mA) and 70.86% (mIoU), respectively). It even exceeded the highest accuracies of exhaustive tests (61.54% (mIoU), 74.91% (mIoU), 67.94% (mIoU), 87.32% (mIoU), 65.32% (mA) and 70.27% (mIoU), respectively), where all possible channel combinations were tested. All of this can be accomplished within a predictable and relatively efficient timeframe, ranging from 101.71% to 298.1% times the time required to train the segmentation network alone. In addition, there were interesting findings that were deemed valuable for several fields.
翻訳日:2023-05-09 14:00:48 公開日:2023-05-08
# Loopy Belief Propagationによる大規模・効率的なテクスチャマッピングアルゴリズム

Large-scale and Efficient Texture Mapping Algorithm via Loopy Belief Propagation ( http://arxiv.org/abs/2305.04763v1 )

ライセンス: Link先を確認
Xiao ling, Rongjun Qin(参考訳) 3dモデリングの基本的なタスクであるテクスチャマッピングは、一貫した照明の下で獲得された航空資産に対して十分に確立されているが、様々なビューと照明の下でイメージを持つ大規模データセットにスケールする場合、依然として課題である。 良好なパフォーマンスのテクスチャマッピングアルゴリズムは、これらのビューからビューを効率的に選択し、ヒューズし、メッシュモデルにマップすると同時に、モデル全体にわたって一貫したラジオメトリーを達成できなければなりません。 既存のアプローチでは、画像の数を1つのビューに制限するか、グローバルな推論を単純化して局所的な色の一貫性を達成している。 本稿では, 顔ごとのテクスチャの複数のビューを同時に利用し, グローバルなカラー一貫性を実現するための, 新規で効率的なテクスチャマッピングフレームワークを提案する。 提案手法は,多視点テクスチャの融合とブレンドを可能にするため,効率良くグローバルレベルの確率的推論を行うためにループ型信念伝達アルゴリズムを利用する。 非パラメトリックなテクスチャ融合アルゴリズムは、非線形照明の違いに対するロバスト性の改善により、典型的なパラメトリック後色補正法に対して別の利点をもたらす。 3種類のデータセット(衛星データセット、無人航空機データセット、近距離データセット)の実験では、提案手法がすべてのシナリオにおいて視覚的に快適でテクスチャ的に一貫した結果をもたらしており、特に衛星由来のモデルのような大規模データセットでは、技術手法の状況と比較して、実行時間が少なくなるという利点がある。

Texture mapping as a fundamental task in 3D modeling has been well established for well-acquired aerial assets under consistent illumination, yet it remains a challenge when it is scaled to large datasets with images under varying views and illuminations. A well-performed texture mapping algorithm must be able to efficiently select views, fuse and map textures from these views to mesh models, at the same time, achieve consistent radiometry over the entire model. Existing approaches achieve efficiency either by limiting the number of images to one view per face, or simplifying global inferences to only achieve local color consistency. In this paper, we break this tie by proposing a novel and efficient texture mapping framework that allows the use of multiple views of texture per face, at the same time to achieve global color consistency. The proposed method leverages a loopy belief propagation algorithm to perform an efficient and global-level probabilistic inferences to rank candidate views per face, which enables face-level multi-view texture fusion and blending. The texture fusion algorithm, being non-parametric, brings another advantage over typical parametric post color correction methods, due to its improved robustness to non-linear illumination differences. The experiments on three different types of datasets (i.e. satellite dataset, unmanned-aerial vehicle dataset and close-range dataset) show that the proposed method has produced visually pleasant and texturally consistent results in all scenarios, with an added advantage of consuming less running time as compared to the state of the art methods, especially for large-scale dataset such as satellite-derived models.
翻訳日:2023-05-09 14:00:07 公開日:2023-05-08
# パラメトリック知識誘導による拡張型大規模言語モデル

Augmented Large Language Models with Parametric Knowledge Guiding ( http://arxiv.org/abs/2305.04757v1 )

ライセンス: Link先を確認
Ziyang Luo, Can Xu, Pu Zhao, Xiubo Geng, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang(参考訳) 大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えている。 しかし、それらのパフォーマンスは、ドメイン固有の知識や語彙に限られているため、長い尾やドメイン固有のタスクに最適である。 さらに、API経由でのみアクセス可能なほとんどのSOTA (State-of-the-art) LLMの透明性の欠如は、カスタムデータによるさらなる微調整を妨げる。 さらに、データのプライバシも大きな懸念事項です。 これらの課題に対処するために,LLMのパラメータを変更することなく,実行時に関連する知識にアクセスするための知識誘導モジュールを備えたPKG(Parametric Knowledge Guiding)フレームワークを提案する。 私たちのPKGはオープンソースの"ホワイトボックス"の小さな言語モデルに基づいており、LCMが必要とする知識をオフラインで保存できます。 我々のPKGフレームワークは、現実的、表形式的、医療的、マルチモーダルな知識を必要とする、長い尾とドメイン固有の下流タスクにおける「ブラックボックス」LLMの性能を向上させることができることを示す。

Large Language Models (LLMs) have significantly advanced natural language processing (NLP) with their impressive language understanding and generation capabilities. However, their performance may be suboptimal for long-tail or domain-specific tasks due to limited exposure to domain-specific knowledge and vocabulary. Additionally, the lack of transparency of most state-of-the-art (SOTA) LLMs, which can only be accessed via APIs, impedes further fine-tuning with custom data. Moreover, data privacy is a significant concern. To address these challenges, we propose the novel Parametric Knowledge Guiding (PKG) framework, which equips LLMs with a knowledge-guiding module to access relevant knowledge at runtime without altering the LLMs' parameters. Our PKG is based on open-source "white-box" small language models, allowing offline storage of any knowledge that LLMs require. We demonstrate that our PKG framework can enhance the performance of "black-box" LLMs on a range of long-tail and domain-specific downstream tasks requiring factual, tabular, medical, and multimodal knowledge.
翻訳日:2023-05-09 13:59:35 公開日:2023-05-08
# AUCは異常検出器の実用比較に最適か?

Is AUC the best measure for practical comparison of anomaly detectors? ( http://arxiv.org/abs/2305.04754v1 )

ライセンス: Link先を確認
V\'it \v{S}kv\'ara, Tom\'a\v{s} Pevn\'y, V\'aclav \v{S}m\'idl(参考訳) 受信機動作特性(AUC)に基づく領域は、異常検知器の比較のための標準尺度である。 その利点は、自然な順序付けが可能で閾値に依存しないスカラー番号を提供することで、選択を延期することができる。 本研究では,AUCが異常検出の指標として優れているのか,あるいは実際には成り立たない仮定に頼っているため,誤った快適感を与えるのかを疑問視する。 本研究は, 偽陽性率の低いAUCの精度の変動が, 実践者のニーズと相関していることを示すとともに, 異常サンプルの代表的な例がある場合にのみ, 異常検出器を比較することができることを示した。 多くの場合、純粋な異常検出ではなく、アクティブまたは少人数の学習を行うことを示唆する。

The area under receiver operating characteristics (AUC) is the standard measure for comparison of anomaly detectors. Its advantage is in providing a scalar number that allows a natural ordering and is independent on a threshold, which allows to postpone the choice. In this work, we question whether AUC is a good metric for anomaly detection, or if it gives a false sense of comfort, due to relying on assumptions which are unlikely to hold in practice. Our investigation shows that variations of AUC emphasizing accuracy at low false positive rate seem to be better correlated with the needs of practitioners, but also that we can compare anomaly detectors only in the case when we have representative examples of anomalous samples. This last result is disturbing, as it suggests that in many cases, we should do active or few-show learning instead of pure anomaly detection.
翻訳日:2023-05-09 13:59:19 公開日:2023-05-08
# sense, imagine, act:マルチモーダル知覚は、ヘッド・ツー・ヘッド自動運転のためのモデルベース強化学習を改善する

Sense, Imagine, Act: Multimodal Perception Improves Model-Based Reinforcement Learning for Head-to-Head Autonomous Racing ( http://arxiv.org/abs/2305.04750v1 )

ライセンス: Link先を確認
Elena Shrestha, Chetan Reddy, Hanxi Wan, Yulun Zhuang, and Ram Vasudevan(参考訳) モデルベース強化学習(MBRL)技術は近年,高次元観測による実世界の自律レースに有望な結果をもたらした。 ドリーマーのようなmbrlエージェントは、世界モデルを構築し、潜在的な想像力によって計画を立てることで、長いホリゾンタスクを解決します。 このアプローチでは、システムダイナミクスのモデルを明示的に学習し、複数の時間ステップにわたる継続的制御のための最適なポリシーを学ぶ。 その結果、世界モデルが不正確な場合、MBRLエージェントは準最適ポリシーに収束する。 本稿では,F1TENTH Gymから収集した自家中心型LiDARとRGBカメラの観測を併用した自己教師型センサ融合手法を提案する。 MBRLエージェントのゼロショット性能は、目に見えないトラックや動的障害物に対して実験的に評価される。 本稿では,マルチモーダル知覚が,追加のトレーニングデータを必要とすることなく,世界モデルのロバスト性を向上させることを示す。 結果、マルチモーダルのDreamerエージェントは衝突を安全に回避し、ゼロショットのヘッド・ツー・ヘッド・オートレースでテストされた他のベースラインと比較して最も多くのレースに勝利した。

Model-based reinforcement learning (MBRL) techniques have recently yielded promising results for real-world autonomous racing using high-dimensional observations. MBRL agents, such as Dreamer, solve long-horizon tasks by building a world model and planning actions by latent imagination. This approach involves explicitly learning a model of the system dynamics and using it to learn the optimal policy for continuous control over multiple timesteps. As a result, MBRL agents may converge to sub-optimal policies if the world model is inaccurate. To improve state estimation for autonomous racing, this paper proposes a self-supervised sensor fusion technique that combines egocentric LiDAR and RGB camera observations collected from the F1TENTH Gym. The zero-shot performance of MBRL agents is empirically evaluated on unseen tracks and against a dynamic obstacle. This paper illustrates that multimodal perception improves robustness of the world model without requiring additional training data. The resulting multimodal Dreamer agent safely avoided collisions and won the most races compared to other tested baselines in zero-shot head-to-head autonomous racing.
翻訳日:2023-05-09 13:59:04 公開日:2023-05-08
# シーケンスモデリングのためのtoeplitzニューラルネットワーク

Toeplitz Neural Network for Sequence Modeling ( http://arxiv.org/abs/2305.04749v1 )

ライセンス: Link先を確認
Zhen Qin, Xiaodong Han, Weixuan Sun, Bowen He, Dong Li, Dongxu Li, Yuchao Dai, Lingpeng Kong, Yiran Zhong(参考訳) シーケンスモデリングは自然言語処理やコンピュータビジョンにおいて重要な応用である。 近年,変換器をベースとしたモデルでは,一対のトークン関係を捕捉し,位置情報を注入する位置埋め込みに注意を要し,様々なシーケンスモデリングタスクに強い性能を示している。 優れた性能を示す一方で、トランスモデルは、主に注意の2次空間時間複雑さのために、長い入力シーケンスにスケールする非効率である。 この非効率を克服するために,toeplitz行列をエンコードした相対的な配列をモデル化し,toeplitz行列-ベクトル生成トリックを用いてシーケンスモデリングの時間的複雑さを削減し,線形にログする。 パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案し、提案したToeplitzニューラルネットワークが様々なシーケンス長に対応できるようにする。 さらに,512個のトークン列をトレーニングしても,最大14Kトークンまでの入力シーケンス長を一貫した性能で推定することができる。 自己回帰的および双方向の言語モデリング、画像モデリング、そして挑戦的な長距離アリーナベンチマークに関する広範囲な実験により、この手法は、多くの下流タスクにおける競合より優れた性能を達成できながら、はるかに高速であることが示された。 コードはhttps://github.com/opennlplab/tnnで入手できる。

Sequence modeling has important applications in natural language processing and computer vision. Recently, the transformer-based models have shown strong performance on various sequence modeling tasks, which rely on attention to capture pairwise token relations, and position embedding to inject positional information. While showing good performance, the transformer models are inefficient to scale to long input sequences, mainly due to the quadratic space-time complexity of attention. To overcome this inefficiency, we propose to model sequences with a relative position encoded Toeplitz matrix and use a Toeplitz matrix-vector production trick to reduce the space-time complexity of the sequence modeling to log linear. A lightweight sub-network called relative position encoder is proposed to generate relative position coefficients with a fixed budget of parameters, enabling the proposed Toeplitz neural network to deal with varying sequence lengths. In addition, despite being trained on 512-token sequences, our model can extrapolate input sequence length up to 14K tokens in inference with consistent performance. Extensive experiments on autoregressive and bidirectional language modeling, image modeling, and the challenging Long-Range Arena benchmark show that our method achieves better performance than its competitors in most downstream tasks while being significantly faster. The code is available at https://github.com/OpenNLPLab/Tnn.
翻訳日:2023-05-09 13:58:41 公開日:2023-05-08
# 量子回路による任意のポーリ指数関数の分解アルゴリズム

Decomposition Algorithm of an Arbitrary Pauli Exponential through a Quantum Circuit ( http://arxiv.org/abs/2305.04807v1 )

ライセンス: Link先を確認
Maximilian Balthasar Mansky, Victor Ramos Puigvert, Santiago Londo\~no Castillo, Claudia Linnhoff-Popien(参考訳) 一般化されたパウリ行列の指数関数を分解する階段アルゴリズムを考察し、より効率的な量子回路を提供する2つの代替再帰的手法を提案する。 逆階段アルゴリズムとして定義された第1のアルゴリズムは, 1量子ゲート数における標準階段アルゴリズムと比較して効率が良く, n/2 の多項式改善が期待できる。 第2のアルゴリズムでは、フェミオンSWAP量子ゲートとそれらを一般化する体系的な方法を導入する。 このようなフェルミイオンゲートは、多くの量子回路において、特にcnotゲートの量子ゲートの数を単純化する。 階段のアルゴリズムでは、フェルミオン量子ゲートは多数の量子ビットに対しておよそn/2のCNOTゲート数を減少させる。 最後に、フェルミイオンゲートと非フェルミイオンゲートの確率結果の差を考察し、一般に干渉により、回路の結果を変えることなく非フェルミイオンゲートを介してフェルミイオンゲートを置換できないことを示した。

We review the staircase algorithm to decompose the exponential of a generalized Pauli matrix and we propose two alternative recursive methods which offer more efficient quantum circuits. The first algorithm we propose, defined as the inverted staircase algorithm, is more efficient in comparison to the standard staircase algorithm in the number of one-qubit gates, giving a polynomial improvement of n/2. For our second algorithm, we introduce fermionic SWAP quantum gates and a systematic way of generalizing these. Such fermionic gates offer a simplification of the number of quantum gates, in particular of CNOT gates, in most quantum circuits. Regarding the staircase algorithm, fermionic quantum gates reduce the number of CNOT gates in roughly n/2 for a large number of qubits. In the end, we discuss the difference between the probability outcomes of fermionic and non-fermionic gates and show that, in general, due to interference, one cannot substitute fermionic gates through non-fermionic gates without altering the outcome of the circuit.
翻訳日:2023-05-09 13:53:34 公開日:2023-05-08
# Mlinear: 時系列予測の線形モデルを再考する

Mlinear: Rethink the Linear Model for Time-series Forecasting ( http://arxiv.org/abs/2305.04800v1 )

ライセンス: Link先を確認
Jianing Chen, Chuhao Chen, Xiangxu Meng(参考訳) 近年, 時系列予測研究において, 予測モデルの設計にのみ焦点をあてるのではなく, 時系列データの本質的特性の分析に焦点が当てられ, その傾向を追及し, 線形モデルに基づく効率的な時系列予測モデルを提案するために, 先行研究を慎重に検討している。 このモデルは,(1)単チャネルデータとマルチチャネルデータによる統合による共同予測,(2)従来のmse損失とmae損失を代替して高い予測精度を達成する新たな損失関数の使用,の2つの重要なコアコンポーネントから構成されている。

Recently, significant advancements have been made in time-series forecasting research, with an increasing focus on analyzing the inherent characteristics of time-series data, rather than solely focusing on designing forecasting models.In this paper, we follow this trend and carefully examine previous work to propose an efficient time series forecasting model based on linear models. The model consists of two important core components: (1) the integration of different semantics brought by single-channel and multi-channel data for joint forecasting; (2) the use of a novel loss function that replaces the traditional MSE loss and MAE loss to achieve higher forecasting accuracy.On widely-used benchmark time series datasets, our model not only outperforms the current SOTA, but is also 10 $\times$ speedup and has fewer parameters than the latest SOTA model.
翻訳日:2023-05-09 13:53:19 公開日:2023-05-08
# Global Update Tracking: 異種データのための分散学習アルゴリズム

Global Update Tracking: A Decentralized Learning Algorithm for Heterogeneous Data ( http://arxiv.org/abs/2305.04792v1 )

ライセンス: Link先を確認
Sai Aparna Aketi, Abolfazl Hashemi, Kaushik Roy(参考訳) 分散学習は、中央サーバを必要とせずに、異なる場所で生成された大規模分散データセット上でディープラーニングモデルのトレーニングを可能にする。 しかし、現実的なシナリオでは、これらのデバイス間でのデータ分散は大きく異なり、モデルの性能が低下する。 本稿では,デバイス間のデータ分散の変化の影響を受けにくい分散学習アルゴリズムの設計に焦点をあてる。 本稿では,分散学習における異種データの影響を軽減することを目的とした,新たな追跡ベース手法であるグローバル更新追跡(gut)を提案する。 提案手法は,様々なコンピュータビジョンデータセット (cifar-10, cifar-100, fashion mnist, imagenette) ,モデルアーキテクチャ,ネットワークトポロジ上で徹底的に実験を行い,その効果を示す。 提案手法は,既存の手法と比較して,テスト精度が1~6ドル向上することで,異種データを用いた分散学習の最先端性能を実現することを示す。

Decentralized learning enables the training of deep learning models over large distributed datasets generated at different locations, without the need for a central server. However, in practical scenarios, the data distribution across these devices can be significantly different, leading to a degradation in model performance. In this paper, we focus on designing a decentralized learning algorithm that is less susceptible to variations in data distribution across devices. We propose Global Update Tracking (GUT), a novel tracking-based method that aims to mitigate the impact of heterogeneous data in decentralized learning without introducing any communication overhead. We demonstrate the effectiveness of the proposed technique through an exhaustive set of experiments on various Computer Vision datasets (CIFAR-10, CIFAR-100, Fashion MNIST, and ImageNette), model architectures, and network topologies. Our experiments show that the proposed method achieves state-of-the-art performance for decentralized learning on heterogeneous data via a $1-6\%$ improvement in test accuracy compared to other existing techniques.
翻訳日:2023-05-09 13:51:20 公開日:2023-05-08
# マルチモーダルGPT:人との対話のためのビジョンと言語モデル

MultiModal-GPT: A Vision and Language Model for Dialogue with Humans ( http://arxiv.org/abs/2305.04790v1 )

ライセンス: Link先を確認
Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, Kai Chen(参考訳) 本稿では,マルチモーダルgptというビジョンと言語モデルを提案する。 マルチモーダルGPTは、詳細なキャプションの作成、興味のあるオブジェクトの数を数え、ユーザからの一般的な質問に答えるなど、人間からのさまざまな指示に従うことができる。 MultiModal-GPTはOpenFlamingoからパラメータ効率よく微調整され、言語モデルのクロスアテンション部分と自己アテンション部分にローランクアダプタ(LoRA)が追加された。 まず,マルチモダリティ・インストラクション・チューニングのための視覚と言語データを用いたインストラクションテンプレートを構築し,モデルが人間の指示を理解し従わせるようにした。 学習データの品質は対話のパフォーマンスに不可欠であり、短い回答を含むデータが少ないと、モデルがどんな指示にもすぐに反応する可能性がある。 マルチモーダルGPTの人間とチャットする能力をさらに強化するために,言語のみの指示追従データを用いて,マルチモーダルGPTを共同で訓練する。 emph{same} 命令テンプレートによる言語のみおよび視覚言語命令の併用訓練は,対話性能を効果的に向上させる。 様々なデモでは、マルチモーダルGPTと人間との連続的な対話能力を示している。 コードとデモはhttps://github.com/open-mmlab/multimodal-gpt

We present a vision and language model named MultiModal-GPT to conduct multi-round dialogue with humans. MultiModal-GPT can follow various instructions from humans, such as generating a detailed caption, counting the number of interested objects, and answering general questions from users. MultiModal-GPT is parameter-efficiently fine-tuned from OpenFlamingo, with Low-rank Adapter (LoRA) added both in the cross-attention part and the self-attention part of the language model. We first construct instruction templates with vision and language data for multi-modality instruction tuning to make the model understand and follow human instructions. We find the quality of training data is vital for the dialogue performance, where few data containing short answers can lead the model to respond shortly to any instructions. To further enhance the ability to chat with humans of the MultiModal-GPT, we utilize language-only instruction-following data to train the MultiModal-GPT jointly. The joint training of language-only and visual-language instructions with the \emph{same} instruction template effectively improves dialogue performance. Various demos show the ability of continuous dialogue of MultiModal-GPT with humans. Code and demo are at https://github.com/open-mmlab/Multimodal-GPT
翻訳日:2023-05-09 13:51:04 公開日:2023-05-08
# AvatarReX:リアルタイム圧縮フルボディアバター

AvatarReX: Real-time Expressive Full-body Avatars ( http://arxiv.org/abs/2305.04789v1 )

ライセンス: Link先を確認
Zerong Zheng, Xiaochen Zhao, Hongwen Zhang, Boning Liu, Yebin Liu(参考訳) ビデオデータからNeRFに基づくフルボディアバターを学習するための新しい手法であるAvatarReXを提案する。 学習アバターは、身体、手、顔の表現的制御を提供するだけでなく、リアルタイムのアニメーションやレンダリングもサポートする。 そこで,本研究では,パラメトリックメッシュテンプレートに先行する構造を,表現の柔軟性を損なうことなく適切に活用するように,身体,手,顔が別々にモデル化される構成的アバター表現を提案する。 さらに,各部分の幾何学的特徴と外観について考察する。 これらの技術設計により,リアルタイムフレームレートで実行し,高品質なフリービュー画像を合成できる専用遅延レンダリングパイプラインを提案する。 幾何と外観の絡み合わせにより、ネットワークトレーニングのためのボリュームレンダリングとサーフェスレンダリングを組み合わせた2パスのトレーニング戦略を設計できる。 このようにして、ネットワークに幾何学的推定に基づいてシャープな外観の詳細を学習させるためにパッチレベルの監視を適用することができる。 提案手法により, リアルタイムレンダリング機能を備えた表現力のあるフルボディアバターの自動構築が可能となり, 身体の動きや表情を動的に表現できる。

We present AvatarReX, a new method for learning NeRF-based full-body avatars from video data. The learnt avatar not only provides expressive control of the body, hands and the face together, but also supports real-time animation and rendering. To this end, we propose a compositional avatar representation, where the body, hands and the face are separately modeled in a way that the structural prior from parametric mesh templates is properly utilized without compromising representation flexibility. Furthermore, we disentangle the geometry and appearance for each part. With these technical designs, we propose a dedicated deferred rendering pipeline, which can be executed in real-time framerate to synthesize high-quality free-view images. The disentanglement of geometry and appearance also allows us to design a two-pass training strategy that combines volume rendering and surface rendering for network training. In this way, patch-level supervision can be applied to force the network to learn sharp appearance details on the basis of geometry estimation. Overall, our method enables automatic construction of expressive full-body avatars with real-time rendering capability, and can generate photo-realistic images with dynamic details for novel body motions and facial expressions.
翻訳日:2023-05-09 13:50:41 公開日:2023-05-08
# 折り畳みスペクトルvqe : 分子励起状態の量子計算法

Folded Spectrum VQE : A quantum computing method for the calculation of molecular excited states ( http://arxiv.org/abs/2305.04783v1 )

ライセンス: Link先を確認
Lila Cadi Tazi and Alex J.W. Thom(参考訳) 最近の量子コンピューティングの発展は、量子コンピュータの計算能力の増大によって電子構造問題を自然にエンコードし、解くことができるため、量子化学の潜在的な新しい経路をもたらす。 化学のための理論的に正確な量子アルゴリズム(例えば量子位相推定)が提案されているが、現在のノイズの多い中間スケール量子デバイス(nisq)の能力の制限は、より需要の少ないハイブリッドアルゴリズムの開発を動機付けた。 この文脈では、小分子の基底状態エネルギーを計算する効果的な方法として、変分量子固有解法(VQE)アルゴリズムがうまく導入された。 本研究は分子励起状態の計算のためのVQEアルゴリズムの拡張としてFolded Spectrum (FS)法について検討する。 選択された目標エネルギーの周りの励起状態を直接計算し、基底状態の計算と同じアンザッツを使用することができる。 量子モンテカルロ文献の分散に基づく手法にインスパイアされたFS法はエネルギーの分散を最小限に抑え、計算コストのかかる2乗ハミルトン式を必要とする。 我々は、同時に評価できる交換するパウリ弦の集合を識別し、パウリ群化手順を用いることにより、この潜在的に貧弱なスケーリングを緩和する。 これにより計算コストが大幅に削減される。 FS-VQE法を小分子 (H$_2$,LiH) に適用し, 理想的な量子シミュレータ上での化学的精度で全ての電子励起状態を得る。

The recent developments of quantum computing present potential novel pathways for quantum chemistry, as the increased computational power of quantum computers could be harnessed to naturally encode and solve electronic structure problems. Theoretically exact quantum algorithms for chemistry have been proposed (e.g. Quantum Phase Estimation) but the limited capabilities of current noisy intermediate scale quantum devices (NISQ) motivated the development of less demanding hybrid algorithms. In this context, the Variational Quantum Eigensolver (VQE) algorithm was successfully introduced as an effective method to compute the ground state energy of small molecules. The current study investigates the Folded Spectrum (FS) method as an extension to the VQE algorithm for the computation of molecular excited states. It provides the possibility of directly computing excited states around a selected target energy, using the same ansatz as for the ground state calculation. Inspired by the variance-based methods from the Quantum Monte Carlo literature, the FS method minimizes the energy variance, thus requiring a computationally expensive squared Hamiltonian. We alleviate this potentially poor scaling by employing a Pauli grouping procedure, identifying sets of commuting Pauli strings that can be evaluated simultaneously. This allows for a significant reduction of the computational cost. We apply the FS-VQE method to small molecules (H$_2$,LiH), obtaining all electronic excited states with chemical accuracy on ideal quantum simulators.
翻訳日:2023-05-09 13:50:21 公開日:2023-05-08
# HistAlign: 履歴の調整による言語生成におけるコンテキスト依存性の改善

HistAlign: Improving Context Dependency in Language Generation by Aligning with History ( http://arxiv.org/abs/2305.04782v1 )

ライセンス: Link先を確認
David Wan, Shiyue Zhang, Mohit Bansal(参考訳) 言語モデル(LM)は、その弱いコンテキスト依存性を強調する幻覚や一貫性のない出力を生成することができる。 近年のメモリでLMを増強するCache-LMは、コンテキスト依存性を高め、多様な言語生成タスクで顕著なパフォーマンスを示した。 しかし,トレーニング中であっても,現在のキャッシュ-LMのキャッシュ成分から生じる性能向上は,現在の隠蔽状態とメモリに格納されているメモリとのミスアライメントにより,最適以下であることが判明した。 本研究では,モデルが履歴から有用な信号を受信するように,キャッシュアライメントの整合性を確保するための新しいトレーニング手法HistAlignを提案する。 我々はまず、メモリが正しい予測に不可欠である単純で総合的なタスクの概念を証明し、HistAlignのキャッシュコンポーネントがより整合し、全体的なパフォーマンスを改善することを示す。 次に, 高速継続, 抽象要約, データ・ツー・テキストなど, 多様な下流言語生成タスクにおけるヒスタリグを評価する。 HistAlignは、オープンエンドおよび条件付き生成設定におけるテキストコヒーレンスと忠実性をそれぞれ改善することを示した。 HistAlignはさまざまなモデルファミリにまたがって一般化可能であり、多様なシナリオにおけるLMのコンテキスト依存性を改善する上での強みを示している。 私たちのコードはhttps://github.com/meetdavidwan/histalignで公開されています。

Language models (LMs) can generate hallucinations and incoherent outputs, which highlights their weak context dependency. Cache-LMs, which augment LMs with a memory of recent history, can increase context dependency and have shown remarkable performance in diverse language generation tasks. However, we find that even with training, the performance gain stemming from the cache component of current cache-LMs is suboptimal due to the misalignment between the current hidden states and those stored in the memory. In this work, we present HistAlign, a new training approach to ensure good cache alignment such that the model receives useful signals from the history. We first prove our concept on a simple and synthetic task where the memory is essential for correct predictions, and we show that the cache component of HistAlign is better aligned and improves overall performance. Next, we evaluate HistAlign on diverse downstream language generation tasks, including prompt continuation, abstractive summarization, and data-to-text. We demonstrate that HistAlign improves text coherence and faithfulness in open-ended and conditional generation settings respectively. HistAlign is also generalizable across different model families, showcasing its strength in improving context dependency of LMs in diverse scenarios. Our code is publicly available at https://github.com/meetdavidwan/histalign
翻訳日:2023-05-09 13:49:56 公開日:2023-05-08
# トピックモデルのための強化学習

Reinforcement Learning for Topic Models ( http://arxiv.org/abs/2305.04843v1 )

ライセンス: Link先を確認
Jeremy Costello and Marek Z. Reformat(参考訳) 我々は,prodldaの変分オートエンコーダを連続的行動空間強化学習方針に置き換え,トピックモデリングに強化学習手法を適用する。 我々は,ポリシー勾配アルゴリズムを補強してシステムを訓練する。 さらに、ニューラルネットワークアーキテクチャの近代化、elbo損失の重み付け、コンテキスト埋め込みの使用、各トレーニングステップのトピックの多様性と一貫性の計算による学習プロセス監視など、いくつかの変更を導入しました。 実験は11のデータセットで行われる。 我々の教師なしモデルは、他の教師なしモデルよりも優れており、教師なしラベリングを用いたほとんどのモデルと同等以上の性能を発揮する。 我々のモデルは教師付きラベリングとコントラスト学習を用いたモデルによって、あるデータセット上で優れています。 また,prodldaに対する変更による性能改善の実証的証拠を提供するため,アブレーション研究を行い,強化学習用製剤が性能向上をもたらすことを見出した。

We apply reinforcement learning techniques to topic modeling by replacing the variational autoencoder in ProdLDA with a continuous action space reinforcement learning policy. We train the system with a policy gradient algorithm REINFORCE. Additionally, we introduced several modifications: modernize the neural network architecture, weight the ELBO loss, use contextual embeddings, and monitor the learning process via computing topic diversity and coherence for each training step. Experiments are performed on 11 data sets. Our unsupervised model outperforms all other unsupervised models and performs on par with or better than most models using supervised labeling. Our model is outperformed on certain data sets by a model using supervised labeling and contrastive learning. We have also conducted an ablation study to provide empirical evidence of performance improvements from changes we made to ProdLDA and found that the reinforcement learning formulation boosts performance.
翻訳日:2023-05-09 13:42:55 公開日:2023-05-08
# スケーラブル最適マージン分配機

Scalable Optimal Margin Distribution Machine ( http://arxiv.org/abs/2305.04837v1 )

ライセンス: Link先を確認
Yilin Wang, Nan Cao, Teng Zhang, Xuanhua Shi and Hai Jin(参考訳) 最適マージン分布マシン(optimize margin distribution machine、odm)は、新しいマージン理論に根ざした新しく提案された統計学習フレームワークである。 それにもかかわらず、他のカーネルメソッドと同様に計算時間とメモリの両方に関するユビキタスなスケーラビリティの問題に悩まされている。 本稿では,従来のODMトレーニング手法に比べて10倍近い高速化を実現するスケーラブルなODMを提案する。 非線形カーネルに対しては,各パーティションで訓練されたローカルODMを,グローバルカーネルに高速に収束させる分散対応パーティション法を提案する。 線形カーネルを適用すると、通信効率のよいSVRG法を拡張してトレーニングをさらに加速する。 大規模な実証研究により,提案手法は計算効率が高く,一般化をほとんど悪化させることはなかった。

Optimal margin Distribution Machine (ODM) is a newly proposed statistical learning framework rooting in the novel margin theory, which demonstrates better generalization performance than the traditional large margin based counterparts. Nonetheless, it suffers from the ubiquitous scalability problem regarding both computation time and memory as other kernel methods. This paper proposes a scalable ODM, which can achieve nearly ten times speedup compared to the original ODM training method. For nonlinear kernels, we propose a novel distribution-aware partition method to make the local ODM trained on each partition be close and converge fast to the global one. When linear kernel is applied, we extend a communication efficient SVRG method to accelerate the training further. Extensive empirical studies validate that our proposed method is highly computational efficient and almost never worsen the generalization.
翻訳日:2023-05-09 13:42:41 公開日:2023-05-08
# インコンテキストの例は構成の一般化にどのように影響するか?

How Do In-Context Examples Affect Compositional Generalization? ( http://arxiv.org/abs/2305.04835v1 )

ライセンス: Link先を確認
Shengnan An, Zeqi Lin, Qiang Fu, Bei Chen, Nanning Zheng, Jian-Guang Lou and Dongmei Zhang(参考訳) 構成的一般化 - 目に見えないプリミティブの組み合わせを理解することは、人間の知性に不可欠な推論能力である。 AIコミュニティは、主に、多くのトレーニングサンプルでニューラルネットワークを微調整することによって、この能力を研究する。 本稿では,コンテクスト内構成一般化のためのテストスイートCoFeを提案する。 その結果, 合成汎化性能は, 文脈内サンプルの選択によって容易に影響を受けることが判明し, 構成的一般化のための良質な文脈内サンプルを作成する上で, 重要な要因は何かという研究課題が提起された。 類似性,多様性,複雑性の3つの要因について検討した。 我々の系統実験は、文脈内サンプルは、テストケースと構造的に似ており、互いに異なっており、個別に単純であることを示す。 さらに、2つの強い制限が観察される: 架空の単語に対する文脈内合成一般化は、一般的に使われるものよりもはるかに弱い; バックボーンモデルが大きなコーパス上で事前訓練されているにもかかわらず、文脈内例が要求される言語構造をカバーすることが依然として重要である。 我々の分析が文脈内学習パラダイムの理解と活用を促進することを願っている。

Compositional generalization--understanding unseen combinations of seen primitives--is an essential reasoning capability in human intelligence. The AI community mainly studies this capability by fine-tuning neural networks on lots of training samples, while it is still unclear whether and how in-context learning--the prevailing few-shot paradigm based on large language models--exhibits compositional generalization. In this paper, we present CoFe, a test suite to investigate in-context compositional generalization. We find that the compositional generalization performance can be easily affected by the selection of in-context examples, thus raising the research question what the key factors are to make good in-context examples for compositional generalization. We study three potential factors: similarity, diversity and complexity. Our systematic experiments indicate that in-context examples should be structurally similar to the test case, diverse from each other, and individually simple. Furthermore, two strong limitations are observed: in-context compositional generalization on fictional words is much weaker than that on commonly used ones; it is still critical that the in-context examples should cover required linguistic structures, even though the backbone model has been pre-trained on large corpus. We hope our analysis would facilitate the understanding and utilization of in-context learning paradigm.
翻訳日:2023-05-09 13:42:26 公開日:2023-05-08
# ビデオにおける抽象要約のための要約と視覚表現の学習

Learning Summary-Worthy Visual Representation for Abstractive Summarization in Video ( http://arxiv.org/abs/2305.04824v1 )

ライセンス: Link先を確認
Zenan Xu, Xiaojun Meng, Yasheng Wang, Qinliang Su, Zexuan Qiu, Xin Jiang, Qun Liu(参考訳) ビデオのマルチモーダル要約(multimodal abstractive summarization for videos,mas)は、ビデオコンテンツとその書き起こしといったマルチモーダルなリソースに従って、ビデオのハイライトを記述するための簡潔なテキスト要約を生成する必要がある。 高品質なテキストコンテンツ(要約など)の生成において,大規模な生成事前学習言語モデル(GPLM)の成功に触発されて,近年のMAS手法では,汎用的な視覚特徴抽出器によってしばしば得られる視覚情報と合わせて,GPLMをこのタスクに適応させることが提案されている。 しかし、一般的に抽出された視覚機能は、モデル性能を妨げる要約に値する視覚情報を見逃す可能性がある。 本稿では,抽象的要約を容易にする要約価値のある視覚的表現を学ぶための新しい手法を提案する。 本手法は, クロスモーダル転写データと擬似要約から抽出した知識の両方から要約価値のある情報を利用する。 3つの公開マルチモーダルデータセットに対する大規模な実験により、我々の手法は競合するすべてのベースラインより優れていることが示された。 さらに,サマリに価値のある視覚情報を活用することで,小規模データセットやトレーニングデータに制限のあるデータセットにおいても大きな改善が期待できる。

Multimodal abstractive summarization for videos (MAS) requires generating a concise textual summary to describe the highlights of a video according to multimodal resources, in our case, the video content and its transcript. Inspired by the success of the large-scale generative pre-trained language model (GPLM) in generating high-quality textual content (e.g., summary), recent MAS methods have proposed to adapt the GPLM to this task by equipping it with the visual information, which is often obtained through a general-purpose visual feature extractor. However, the generally extracted visual features may overlook some summary-worthy visual information, which impedes model performance. In this work, we propose a novel approach to learning the summary-worthy visual representation that facilitates abstractive summarization. Our method exploits the summary-worthy information from both the cross-modal transcript data and the knowledge that distills from the pseudo summary. Extensive experiments on three public multimodal datasets show that our method outperforms all competing baselines. Furthermore, with the advantages of summary-worthy visual information, our model can have a significant improvement on small datasets or even datasets with limited training data.
翻訳日:2023-05-09 13:41:21 公開日:2023-05-08
# マルチエージェント強化学習におけるグローバル最適性を実現する局所最適化

Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2305.04819v1 )

ライセンス: Link先を確認
Yulai Zhao, Zhuoran Yang, Zhaoran Wang, Jason D. Lee(参考訳) 関数近似を用いた政策最適化手法は多エージェント強化学習において広く用いられている。 しかし、そのようなアルゴリズムを統計的保証付きで設計する方法はいまだ解明されていない。 マルチエージェントポリシー最適化のランドスケープを特徴付けるマルチエージェントのパフォーマンス差補間を利用して、局所化されたアクション値関数が各ローカルポリシーの理想的な降下方向として機能することを発見した。 そこで本研究では,各エージェントの局所ポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。 マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。 我々は,このアルゴリズムをオフ・ポリシー・セッティングに拡張し,政策評価に悲観主義を導入する。 我々の知る限り、これはマルコフゲームにおける最初の証明可能な収束多重エージェントPPOアルゴリズムである。

Policy optimization methods with function approximation are widely used in multi-agent reinforcement learning. However, it remains elusive how to design such algorithms with statistical guarantees. Leveraging a multi-agent performance difference lemma that characterizes the landscape of multi-agent policy optimization, we find that the localized action value function serves as an ideal descent direction for each local policy. Motivated by the observation, we present a multi-agent PPO algorithm in which the local policy of each agent is updated similarly to vanilla PPO. We prove that with standard regularity conditions on the Markov game and problem-dependent quantities, our algorithm converges to the globally optimal policy at a sublinear rate. We extend our algorithm to the off-policy setting and introduce pessimism to policy evaluation, which aligns with experiments. To our knowledge, this is the first provably convergent multi-agent PPO algorithm in cooperative Markov games.
翻訳日:2023-05-09 13:41:00 公開日:2023-05-08
# 一般相対論における可観測物の不完全性理論

Incompleteness Theorems for Observables in General Relativity ( http://arxiv.org/abs/2305.04818v1 )

ライセンス: Link先を確認
Aristotelis Panagiotopoulos, George Sparling, Marios Christodoulou(参考訳) 一般相対性理論における完全な観測可能性の探求は長年の未解決問題であった。 記述集合論の手法を用いて、完全な可観測性がボレル定義可能でないことを示す。 実際、それはツェルメロ・フレンケル(zermelo-fraenkel)と従属選択公理(dependent choice axioms)と一致しており、完全な可観測性は存在しない。 簡単に言うと、可観測性の問題とは、Delian の問題が 'straightedge and compass' であったことを分析することである。 我々の結果は、真空溶液への解の空間を制限した後でも正しいままである。 言い換えれば、問題は一般相対性理論における局所的な自由度の存在に遡ることができる。

The quest for complete observables in general relativity has been a longstanding open problem. We employ methods from descriptive set theory to show that no complete observable is Borel definable. In fact, we show that it is consistent with the Zermelo-Fraenkel and Dependent Choice axioms that no complete observable exists whatsoever. In a nutshell, this implies that the Problem of Observables is to`analysis' what the Delian Problem was to `straightedge and compass'. Our results remain true even after restricting the space of solutions to vacuum solutions. In other words, the issue can be traced to the presence of local degrees of freedom in general relativity.
翻訳日:2023-05-09 13:40:46 公開日:2023-05-08
# インクの一滴が100万の思考を生み出すかもしれない: 大規模言語モデルにおける誤情報の拡散

A Drop of Ink may Make a Million Think: The Spread of False Information in Large Language Models ( http://arxiv.org/abs/2305.04812v1 )

ライセンス: Link先を確認
Ning Bian, Peilin Liu, Xianpei Han, Hongyu Lin, Yaojie Lu, Ben He, Le Sun(参考訳) chatgpt のような大規模言語モデル (llm) は、人工知能において注目を集め、社会やビジネスや科学といった様々な産業に大きな影響を与えている。 しかし、インターネットやテキストコーパスに虚偽情報が存在することは、llmの信頼性と安全性に重大なリスクをもたらし、偽情報がllmにどのように影響し拡散するかを理解する緊急の必要性を強調する。 本稿では, LLMにおいて偽情報が拡散し, 関連する応答にどう影響するかを, ソースオーソリティ, インジェクションパラダイム, 情報関連性の影響について, 一連の実験により検討する。 具体的には、4つの権威レベルの情報ソース(twitter、webブログ、ニュースレポート、研究論文)、2つの共通知識注入パラダイム(インコンテキストインジェクションと学習ベースのインジェクション)、3つの情報関連度(直接、間接、周辺)を比較した。 実験の結果,(1)誤情報は,意味拡散過程を通じてllm内の関連記憶を拡散・汚染する,すなわち,誤情報は直接的影響を超えた世界的な有害な影響を持つことが示された。 2)現在のLLMは、権限バイアスの影響を受けやすい、すなわち、LLMは、ニュースや研究論文のような信頼できるスタイルで提示された偽情報に従う傾向にあり、情報のより深くより広範な汚染を引き起こす。 3) 現在のLCMは, 学習ベースインジェクションよりも, 文脈内インジェクションによる偽情報に敏感であり, 全てのトレーニングデータが信頼でき, 正確であっても, LLMの信頼性と安全性を著しく損なう。 以上の知見は、虚偽情報のグローバルな影響に対処するための新たな虚偽情報防御アルゴリズムの必要性と、表面的パターンではなく、内部的人間的価値に従う新たなアライメントアルゴリズムの必要性を浮き彫りにしている。

Large language models (LLMs) like ChatGPT have gained increasing prominence in artificial intelligence, making a profound impact on society and various industries like business and science. However, the presence of false information on the internet and in text corpus poses a significant risk to the reliability and safety of LLMs, underscoring the urgent need to understand the mechanisms of how false information impacts and spreads in LLMs. In this paper, we investigate how false information spreads in LLMs and affects related responses by conducting a series of experiments on the effects of source authority, injection paradigm, and information relevance. Specifically, we compare four authority levels of information sources (Twitter, web blogs, news reports, and research papers), two common knowledge injection paradigms (in-context injection and learning-based injection), and three degrees of information relevance (direct, indirect, and peripheral). The experimental results show that (1) False information will spread and contaminate related memories in LLMs via a semantic diffusion process, i.e., false information has global detrimental effects beyond its direct impact. (2) Current LLMs are susceptible to authority bias, i.e., LLMs are more likely to follow false information presented in a trustworthy style like news or research papers, which usually causes deeper and wider pollution of information. (3) Current LLMs are more sensitive to false information through in-context injection than through learning-based injection, which severely challenges the reliability and safety of LLMs even if all training data are trusty and correct. The above findings raise the need for new false information defense algorithms to address the global impact of false information, and new alignment algorithms to unbiasedly lead LLMs to follow internal human values rather than superficial patterns.
翻訳日:2023-05-09 13:40:33 公開日:2023-05-08
# CAT:Commonsense Reasoningのためのコンテキスト化概念化と検証フレームワーク

CAT: A Contextualized Conceptualization and Instantiation Framework for Commonsense Reasoning ( http://arxiv.org/abs/2305.04808v1 )

ライセンス: Link先を確認
Weiqi Wang, Tianqing Fang, Baixuan Xu, Chun Yi Louis Bo, Yangqiu Song, Lei Chen(参考訳) 人間のような状況予測能力を持つ機械をエンドウイングすることを目的としたコモンセンス推論は、一般化するのが極めて困難である。 歌」についてほとんど知識がないものの、「歌」についてほとんど知識がない人に対しては、「歌」を「楽しませる」という既存の知識から「楽しませる」と推測し、その出来事を「楽しませる出来事」として概念化して「楽しませる」ことができる。 このプロセスは概念的帰納的帰納的推論(conceptual induction and deduction)と呼ばれ、コモンセンスモデリングを強化するためのラベル付きデータと方法論の両方を欠いている。 このような研究のギャップを埋めるために,cat(contextualized conceptization and instantiation)という,イベント概念化とインスタンス化を統合した半教師付き学習フレームワークを提案する。 広範な実験により,2つの概念化タスクにおいて最先端のパフォーマンスを達成し,得られた抽象コモンセンス知識により,コモンセンス推論モデルを大幅に改善できることを示した。 私たちのコード、データ、微調整されたモデルはhttps://github.com/HKUST-KnowComp/CAT.comで公開されています。

Commonsense reasoning, aiming at endowing machines with a human-like ability to make situational presumptions, is extremely challenging to generalize. For someone who barely knows about "meditation," while is knowledgeable about "singing," he can still infer that "meditation makes people relaxed" from the existing knowledge that "singing makes people relaxed" by first conceptualizing "singing" as a "relaxing event" and then instantiating that event to "meditation." This process, known as conceptual induction and deduction, is fundamental to commonsense reasoning while lacking both labeled data and methodologies to enhance commonsense modeling. To fill such a research gap, we propose CAT (Contextualized ConceptuAlization and InsTantiation), a semi-supervised learning framework that integrates event conceptualization and instantiation to conceptualize commonsense knowledge bases at scale. Extensive experiments show that our framework achieves state-of-the-art performances on two conceptualization tasks, and the acquired abstract commonsense knowledge can significantly improve commonsense inference modeling. Our code, data, and fine-tuned models are publicly available at https://github.com/HKUST-KnowComp/CAT.
翻訳日:2023-05-09 13:40:00 公開日:2023-05-08
# 自由電子干渉計におけるコヒーレント増幅超高速イメージング

Coherently amplified ultrafast imaging in a free-electron interferometer ( http://arxiv.org/abs/2305.04877v1 )

ライセンス: Link先を確認
Tomer Bucher, Harel Nahari, Hanan Herzig Sheinfux, Ron Ruimy, Arthur Niedermayr, Raphael Dahan, Qinghui Yan, Yuval Adiv, Michael Yannai, Jialin Chen, Yaniv Kurman, Sang Tae Park, Daniel J. Masiel, Eli Janzen, James H. Edgar, Fabrizio Carbone, Guy Bartal, Shai Tsesses, Frank H.L. Koppens, Giovanni Maria Vanacore, and Ido Kaminer(参考訳) 空間分解能と時間分解能を同時に持つ材料の低エネルギー非平衡ダイナミクスへのアクセスは、近年の電子顕微鏡における大胆なフロンティアとなっている。 主な課題の1つは、振幅と位相情報を分離しながら非常に弱い信号を取り出す能力である。 本稿では,光誘起電子変調を用いて光近接場の電子イメージングにおけるコヒーレント増幅効果を示すアルゴリズムに基づく顕微鏡法を提案する。 六方晶窒化ホウ素膜から作製したマイクロドラム中の時間,空間,位相を同時に測定し,その2次元偏光子波束の時空間変動を可視化した。 位相分解測定により、ポラリトン波面上の渦反渦特異点と、定常波の振幅プロファイルを模倣する走行波の興味深い現象が明らかになった。 実験では,従来の電子近接場イメージングに比べて20倍の近接場信号のコヒーレント増幅を行い,~w/cm2のピーク場強度(電界振幅数kv/m)を解消した。 その結果, 生体試料と量子材料の時空間電子顕微鏡化への道を開くことができた。

Accessing the low-energy non-equilibrium dynamics of materials with simultaneous spatial and temporal resolutions has been a bold frontier of electron microscopy in recent years. One of the main challenges is the ability to retrieve extremely weak signals while simultaneously disentangling amplitude and phase information. Here, we present an algorithm-based microscopy approach that uses light-induced electron modulation to demonstrate the coherent amplification effect in electron imaging of optical near-fields. We provide a simultaneous time-, space-, and phase-resolved measurement in a micro-drum made from a hexagonal boron nitride membrane, visualizing the sub-cycle spatio-temporal dynamics of 2D polariton wavepackets therein. The phase-resolved measurement reveals vortex-anti-vortex singularities on the polariton wavefronts, together with an intriguing phenomenon of a traveling wave mimicking the amplitude profile of a standing wave. Our experiments show a 20-fold coherent amplification of the near-field signal compared to conventional electron near-field imaging, resolving peak field intensities of ~W/cm2 (field amplitude of few kV/m). As a result, our work opens a path toward spatio-temporal electron microscopy of biological specimens and quantum materials - exciting yet sensitive samples, which are currently difficult to investigate.
翻訳日:2023-05-09 13:33:34 公開日:2023-05-08
# 時系列予測のための新しい特徴表現を用いた説明可能な並列RCNN

Explainable Parallel RCNN with Novel Feature Representation for Time Series Forecasting ( http://arxiv.org/abs/2305.04876v1 )

ライセンス: Link先を確認
Jimeng Shi, Rukmangadh Myana, Vitalii Stebliankin, Azam Shirali and Giri Narasimhan(参考訳) データサイエンスにおける正確な時系列予測は根本的な課題である。 天気や人間の介入といった外部の共変量に影響されることが多く、多くの応用において合理的な精度で予測できる。 我々はそれらを予測された未来の共変量と呼ぶ。 しかし、自己回帰モデルを用いて時系列を反復的に予測しようとする既存の手法は、指数関数的なエラー蓄積をもたらす。 他の戦略では、エンコーダとデコーダの過去と未来は、それぞれ、履歴と将来のデータを別々に扱うことで制限される。 これらの制限に対処するために、過去のデータと将来の共変数を融合させ、それらの相互作用を考慮できるように、新しい特徴表現戦略 -- シフト -- が提案されている。 時系列の複雑なダイナミクスを抽出するために,RNNとCNNを組み合わせた並列ディープラーニングフレームワークを開発した。 また、スキップ接続技術を用いてモデルの性能を向上させる。 3つのデータセットに関する広範な実験により,本手法の有効性が明らかになった。 最後に,grad-camアルゴリズムを用いてモデル解釈可能性を示す。

Accurate time series forecasting is a fundamental challenge in data science. It is often affected by external covariates such as weather or human intervention, which in many applications, may be predicted with reasonable accuracy. We refer to them as predicted future covariates. However, existing methods that attempt to predict time series in an iterative manner with autoregressive models end up with exponential error accumulations. Other strategies hat consider the past and future in the encoder and decoder respectively limit themselves by dealing with the historical and future data separately. To address these limitations, a novel feature representation strategy -- shifting -- is proposed to fuse the past data and future covariates such that their interactions can be considered. To extract complex dynamics in time series, we develop a parallel deep learning framework composed of RNN and CNN, both of which are used hierarchically. We also utilize the skip connection technique to improve the model's performance. Extensive experiments on three datasets reveal the effectiveness of our method. Finally, we demonstrate the model interpretability using the Grad-CAM algorithm.
翻訳日:2023-05-09 13:33:13 公開日:2023-05-08
# ガウス過程のデコンボリューション

Gaussian process deconvolution ( http://arxiv.org/abs/2305.04871v1 )

ライセンス: Link先を確認
Felipe Tobar, Arnaud Robert, Jorge F. Silva(参考訳) 畳み込みプロセス $y = x\star h + \eta$, ここで$\eta$ は加算ノイズであり、$y$ の観測は$y$ に関して欠落部分があり、フィルタ $h$ は未知であるかもしれない。 我々は、x$が連続時間信号であるときに、この課題に対処するための新しい戦略を提案する: ソース$x$に先立ってガウス過程(GP)を採用し、閉形式ベイズ非パラメトリックデコンボリューションを可能にする。 まず、モデルが適切に定義された条件を確立するために、直接モデルを解析する。 そして、私たちが研究する逆問題に目を向けます。 一 ベイジアンデコンボリューションが実現可能ないくつかの必要条件 ii) データからフィルタ$h$を学習するか,あるいはブラインドデコンボリューション事件について近似するか。 提案手法であるガウス過程デコンボリューション(gpdc)は、概念的に他のデコンボリューション手法と比較され、例示的例や実世界のデータセットを用いている。

Let us consider the deconvolution problem, that is, to recover a latent source $x(\cdot)$ from the observations $\y = [y_1,\ldots,y_N]$ of a convolution process $y = x\star h + \eta$, where $\eta$ is an additive noise, the observations in $\y$ might have missing parts with respect to $y$, and the filter $h$ could be unknown. We propose a novel strategy to address this task when $x$ is a continuous-time signal: we adopt a Gaussian process (GP) prior on the source $x$, which allows for closed-form Bayesian nonparametric deconvolution. We first analyse the direct model to establish the conditions under which the model is well defined. Then, we turn to the inverse problem, where we study i) some necessary conditions under which Bayesian deconvolution is feasible, and ii) to which extent the filter $h$ can be learnt from data or approximated for the blind deconvolution case. The proposed approach, termed Gaussian process deconvolution (GPDC) is compared to other deconvolution methods conceptually, via illustrative examples, and using real-world datasets.
翻訳日:2023-05-09 13:32:58 公開日:2023-05-08
# SignBERT+:手話理解のための手動モデル対応自己教師型事前学習

SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign Language Understanding ( http://arxiv.org/abs/2305.04868v1 )

ライセンス: Link先を確認
Hezhen Hu, Weichao Zhao, Wengang Zhou, Houqiang Li(参考訳) 手の動きは手話の表現において重要な役割を担っている。 現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にあり,解釈可能性に限界がある。 本稿では,モデル認識ハンドを組み込んだ,自己学習型SignBERT+フレームワークを提案する。 我々のフレームワークでは、手の位置は視覚トークンと見なされ、これは市販の検出器から派生している。 各視覚トークンにはジェスチャー状態と時空間位置エンコーディングが組み込まれている。 現在の手話データ資源を最大限活用するために,まず自己教師付き学習を行い,統計をモデル化する。 この目的のために我々は,一般的な故障検出事例を模倣するマルチレベルマスキングモデリング戦略(ジョイント,フレーム,クリップ)を設計した。 これらのマスク付きモデリング戦略と連動して、シーケンス上の階層的コンテキストをよりよく捉えるために、モデル認識ハンドを組み込む。 事前学習後、下流タスクの簡易かつ効果的な予測ヘッドを慎重に設計する。 提案手法の有効性を検証するために,slr (s isolated and continuous sign language recognition) とslt (sign language translation) の3つの主要なsluタスクについて広範な実験を行った。 実験の結果,本手法の有効性が示され,新たな最先端性能が得られた。

Hand gesture serves as a crucial role during the expression of sign language. Current deep learning based methods for sign language understanding (SLU) are prone to over-fitting due to insufficient sign data resource and suffer limited interpretability. In this paper, we propose the first self-supervised pre-trainable SignBERT+ framework with model-aware hand prior incorporated. In our framework, the hand pose is regarded as a visual token, which is derived from an off-the-shelf detector. Each visual token is embedded with gesture state and spatial-temporal position encoding. To take full advantage of current sign data resource, we first perform self-supervised learning to model its statistics. To this end, we design multi-level masked modeling strategies (joint, frame and clip) to mimic common failure detection cases. Jointly with these masked modeling strategies, we incorporate model-aware hand prior to better capture hierarchical context over the sequence. After the pre-training, we carefully design simple yet effective prediction heads for downstream tasks. To validate the effectiveness of our framework, we perform extensive experiments on three main SLU tasks, involving isolated and continuous sign language recognition (SLR), and sign language translation (SLT). Experimental results demonstrate the effectiveness of our method, achieving new state-of-the-art performance with a notable gain.
翻訳日:2023-05-09 13:32:33 公開日:2023-05-08
# ランダムパディングによる位置埋め込みのイライラし易い改善

A Frustratingly Easy Improvement for Position Embeddings via Random Padding ( http://arxiv.org/abs/2305.04859v1 )

ライセンス: Link先を確認
Mingxu Tao and Yansong Feng and Dongyan Zhao(参考訳) テキストシーケンス内のトークン間の位置関係を符号化する位置埋め込みは、Transformerベースの事前学習言語モデルにおける局所的コンテキスト特徴のモデル化に多大な貢献をする。 しかしながら、抽出質問応答では、さまざまなコンテキスト長のインスタンスでトレーニングされた位置埋め込みは、期待したほどうまく機能しない可能性がある。 後部位置の埋め込みは前部位置の埋め込みよりも少ない時間で更新されるため、後部位置を適切に訓練することができない。 本稿では,既存の事前学習済み言語モデルのアーキテクチャを変更することなく,単純かつ効果的な戦略であるランダムパディングを提案する。 微調整時に入力シーケンスのトークン順序を調整し、各位置埋め込みの更新時間のバランスをとる。 実験により、ランダムパディングは、特にモデルが短い文脈で訓練されているが、長い文脈で評価されている場合に、答えが後位置にあるインスタンスのモデル性能を著しく改善できることが示されている。 私たちのコードとデータは将来の研究のためにリリースされます。

Position embeddings, encoding the positional relationships among tokens in text sequences, make great contributions to modeling local context features in Transformer-based pre-trained language models. However, in Extractive Question Answering, position embeddings trained with instances of varied context lengths may not perform well as we expect. Since the embeddings of rear positions are updated fewer times than the front position embeddings, the rear ones may not be properly trained. In this paper, we propose a simple but effective strategy, Random Padding, without any modifications to architectures of existing pre-trained language models. We adjust the token order of input sequences when fine-tuning, to balance the number of updating times of every position embedding. Experiments show that Random Padding can significantly improve model performance on the instances whose answers are located at rear positions, especially when models are trained on short contexts but evaluated on long contexts. Our code and data will be released for future research.
翻訳日:2023-05-09 13:31:40 公開日:2023-05-08
# 要約の現状

The Current State of Summarization ( http://arxiv.org/abs/2305.04853v1 )

ライセンス: Link先を確認
Fabian Retkowski(参考訳) テキスト情報の爆発的増加に伴い、要約システムはますます重要になっている。 本研究は,抽象的テキスト要約における技術の現状を簡潔に示すことを目的とする。 そこで,本研究では,プリトレーニングエンコーダ・デコーダモデルと大規模自己回帰型言語モデルへのパラダイムシフトについて概説する。 さらに,要約システム評価の課題や,ゼロショット要約のための命令調整モデルの可能性についても検討する。 最後に,現在商用アプリケーションに統合されている要約システムの概要を紹介する。

With the explosive growth of textual information, summarization systems have become increasingly important. This work aims at indicating the current state of the art in abstractive text summarization concisely. As part of this, we outline the current paradigm shifts towards pre-trained encoder-decoder models and large autoregressive language models. Additionally, we delve further into the challenges of evaluating summarization systems and the potential of instruction-tuned models for zero-shot summarization. Finally, we provide a brief overview of how summarization systems are currently being integrated into commercial applications.
翻訳日:2023-05-09 13:31:25 公開日:2023-05-08
# CaloClouds: 高速な幾何学非依存な高グラニュラーカロリメータシミュレーション

CaloClouds: Fast Geometry-Independent Highly-Granular Calorimeter Simulation ( http://arxiv.org/abs/2305.04847v1 )

ライセンス: Link先を確認
Erik Buhmann, Sascha Diefenbacher, Engin Eren, Frank Gaede, Gregor Kasieczka, Anatolii Korol, William Korcari, Katja Kr\"uger, Peter McKeown(参考訳) 高粒度検出器における粒子のシャワーのシミュレーションは、粒子物理学への機械学習の適用における重要なフロンティアである。 生成機械学習モデルによって高い精度とスピードを達成することで、従来のシミュレーションを強化し、主要なコンピューティング制約を緩和することができる。 この研究は、固定格子構造に頼らずに3d空間の検出器にエネルギーが堆積した数千の宇宙点の点雲を初めて直接生成することで、このタスクにおける大きなブレークスルーを達成している。 これは2つの重要なイノベーションによって実現される。 一 生成モデルにおける最近の改良を活用して 拡散モデルを用いて ii) 初期より高分解能のポイント雲は、いわゆるgeant4ステップで、その後、所望の6,000のスペースポイントにダウンサンプリングされる。 本研究は,国際大検出器(ILD)の電磁熱量計における光子シャワーシミュレーションの具体例を用いて,本手法の性能を実証し,物理的に関連する分布の総合的モデリングを行う。

Simulating showers of particles in highly-granular detectors is a key frontier in the application of machine learning to particle physics. Achieving high accuracy and speed with generative machine learning models would enable them to augment traditional simulations and alleviate a major computing constraint. This work achieves a major breakthrough in this task by, for the first time, directly generating a point cloud of a few thousand space points with energy depositions in the detector in 3D space without relying on a fixed-grid structure. This is made possible by two key innovations: i) using recent improvements in generative modeling we apply a diffusion model to generate ii) an initial even higher-resolution point cloud of up to 40,000 so-called Geant4 steps which is subsequently down-sampled to the desired number of up to 6,000 space points. We showcase the performance of this approach using the specific example of simulating photon showers in the planned electromagnetic calorimeter of the International Large Detector (ILD) and achieve overall good modeling of physically relevant distributions.
翻訳日:2023-05-09 13:31:17 公開日:2023-05-08
# 超解像のための圧縮映像品質評価:ベンチマークと品質基準

Compressed Video Quality Assessment for Super-Resolution: a Benchmark and a Quality Metric ( http://arxiv.org/abs/2305.04844v1 )

ライセンス: Link先を確認
Evgeney Bogatyrev, Ivan Molodetskikh and Dmitriy Vatolin(参考訳) 高速圧縮ビデオにSRの容量を解析するための超解像(SR)ベンチマークを開発した。 H.264, H.265, H.266, AV1, AVS3の5つの圧縮標準に基づくビデオコーデックを用いた。 ベンチマークを用いて17の最先端srモデルを評価し,シーンコンテキストの保存能力と圧縮アーティファクトに対する感受性を評価した。 SRモデルの正確な評価を得るために,クラウドソースによる出力の比較を行った。 ベンチマークはhttps://videoprocessing.ai/benchmarks/super- resolution for-video-compression.htmlで公開されている。 また,ベンチマーク結果を分析し,現在の客観的指標に基づく客観的品質評価尺度を開発した。 圧縮ビデオアップスケーリングにおける主観的スコアとスピアマンの相関から,我々の測定値が他よりも優れていた。 https://github.com/EvgeneyBogatyrev/super- resolution-metricで公開されている。

We developed a super-resolution (SR) benchmark to analyze SR's capacity to upscale compressed videos. Our dataset employed video codecs based on five compression standards: H.264, H.265, H.266, AV1, and AVS3. We assessed 17 state-ofthe-art SR models using our benchmark and evaluated their ability to preserve scene context and their susceptibility to compression artifacts. To get an accurate perceptual ranking of SR models, we conducted a crowd-sourced side-by-side comparison of their outputs. The benchmark is publicly available at https://videoprocessing.ai/benchmarks/super-resolutionfor-video-compression.html. We also analyzed benchmark results and developed an objective-quality-assessment metric based on the current bestperforming objective metrics. Our metric outperforms others, according to Spearman correlation with subjective scores for compressed video upscaling. It is publicly available at https://github.com/EvgeneyBogatyrev/super-resolution-metric.
翻訳日:2023-05-09 13:30:59 公開日:2023-05-08
# RelPose++:スパースビューから6Dポスを復元する

RelPose++: Recovering 6D Poses from Sparse-view Observations ( http://arxiv.org/abs/2305.04926v1 )

ライセンス: Link先を確認
Amy Lin, Jason Y. Zhang, Deva Ramanan, Shubham Tulsiani(参考訳) スパースビュー画像集合(2-8画像)から6Dカメラのポーズを推定する作業に対処する。 このタスクは、ほぼすべての現代の(神経)再構成アルゴリズムにとって重要な前処理段階であるが、特に視覚対称性とテクスチャのない表面を持つオブジェクトでは、見劣りがあるため、依然として困難である。 我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。 まず、注意トランスフォーマー層を使用して複数の画像を共同で処理する。オブジェクトの追加ビューは、任意のイメージペアにおける曖昧な対称性(例えば、第3のビューに現れるマグカップのハンドルなど)を解決する可能性があるためである。 第2に,回転推定のあいまいさを変換予測から分離する適切な座標系を定義することにより,カメラ翻訳を報告するネットワークを補強する。 最終システムは,目視対象と目視対象の両方において,先行技術による6次元ポーズ予測を大幅に改善し,対象物のポーズ推定と3次元再構成を可能にした。

We address the task of estimating 6D camera poses from sparse-view image sets (2-8 images). This task is a vital pre-processing stage for nearly all contemporary (neural) reconstruction algorithms but remains challenging given sparse views, especially for objects with visual symmetries and texture-less surfaces. We build on the recent RelPose framework which learns a network that infers distributions over relative rotations over image pairs. We extend this approach in two key ways; first, we use attentional transformer layers to process multiple images jointly, since additional views of an object may resolve ambiguous symmetries in any given image pair (such as the handle of a mug that becomes visible in a third view). Second, we augment this network to also report camera translations by defining an appropriate coordinate system that decouples the ambiguity in rotation estimation from translation prediction. Our final system results in large improvements in 6D pose prediction over prior art on both seen and unseen object categories and also enables pose estimation and 3D reconstruction for in-the-wild objects.
翻訳日:2023-05-09 13:23:47 公開日:2023-05-08
# PillarNeXt: LiDARポイントクラウドにおける3Dオブジェクト検出のためのネットワーク設計の再考

PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR Point Clouds ( http://arxiv.org/abs/2305.04925v1 )

ライセンス: Link先を確認
Jinyu Li, Chenxu Luo, Xiaodong Yang(参考訳) lidarベースの3dオブジェクト検出研究は主に、細粒度の幾何学的モデリングのための専用の局所的ポイントアグリゲータの設計に焦点を当てている。 本稿では,計算資源の割り当ての観点から,局所的な点集合体を再考する。 最も単純な柱ベースのモデルは、精度とレイテンシの両方を考慮して驚くほどよく機能します。 さらに,受容野の拡大などの2次元物体検出の成功による最小適応が,性能を著しく向上させることを示した。 広範な実験によって、アーキテクチャとトレーニングの観点から現代的な設計の柱ベースのネットワークが、人気のベンチマークであるwaymo open datasetとnuscenesで最先端のパフォーマンスをレンダリングしていることが分かりました。 本研究は,3次元物体検出のための高精度な形状モデリングが不可欠である,という一般的な直観に挑戦する。

In order to deal with the sparse and unstructured raw point clouds, LiDAR based 3D object detection research mostly focuses on designing dedicated local point aggregators for fine-grained geometrical modeling. In this paper, we revisit the local point aggregators from the perspective of allocating computational resources. We find that the simplest pillar based models perform surprisingly well considering both accuracy and latency. Additionally, we show that minimal adaptions from the success of 2D object detection, such as enlarging receptive field, significantly boost the performance. Extensive experiments reveal that our pillar based networks with modernized designs in terms of architecture and training render the state-of-the-art performance on the two popular benchmarks: Waymo Open Dataset and nuScenes. Our results challenge the common intuition that the detailed geometry modeling is essential to achieve high performance for 3D object detection.
翻訳日:2023-05-09 13:23:26 公開日:2023-05-08
# ai生成画像の芸術性評価のための学習

Learning to Evaluate the Artness of AI-generated Images ( http://arxiv.org/abs/2305.04923v1 )

ライセンス: Link先を確認
Junyu Chen, Jie An, Hanjia Lyu, Jiebo Luo(参考訳) AI生成画像の精度を評価することは、画像生成の領域における課題であり続けている。 既存のメトリックのほとんどは、インスタンスレベルおよび参照フリーのアートネス評価を行うために使用できません。 本論文は,アーティストによる絵画(あるいは逆に写真)に画像が類似する程度を評価するための尺度であるArtScoreを提示し,アートネス評価に新たなアプローチを提案する。 まず、写真とアートワークの生成のために事前訓練されたモデルをブレンドし、一連の混合モデルを作成します。 その後、これらの混合モデルを用いて、擬似アノテーションによる様々な芸術性を示す画像を生成する。 各フォトリアリスティック画像は対応する芸術的画像と、写実的画像から芸術的画像までの一連の補間画像を有する。 このデータセットは、任意の画像の量子化芸術性レベルを推定するために学習するニューラルネットワークのトレーニングに使用される。 広範な実験により、artscoreが予測した芸術性レベルは、グラム損失やartfidのような既存の評価基準よりも人間の芸術評価と密接に一致していることが明らかとなった。

Assessing the artness of AI-generated images continues to be a challenge within the realm of image generation. Most existing metrics cannot be used to perform instance-level and reference-free artness evaluation. This paper presents ArtScore, a metric designed to evaluate the degree to which an image resembles authentic artworks by artists (or conversely photographs), thereby offering a novel approach to artness assessment. We first blend pre-trained models for photo and artwork generation, resulting in a series of mixed models. Subsequently, we utilize these mixed models to generate images exhibiting varying degrees of artness with pseudo-annotations. Each photorealistic image has a corresponding artistic counterpart and a series of interpolated images that range from realistic to artistic. This dataset is then employed to train a neural network that learns to estimate quantized artness levels of arbitrary images. Extensive experiments reveal that the artness levels predicted by ArtScore align more closely with human artistic evaluation than existing evaluation metrics, such as Gram loss and ArtFID.
翻訳日:2023-05-09 13:23:11 公開日:2023-05-08
# フェルミ・ポーラロン間の相互作用と不純物量子統計の役割

Mediated interactions between Fermi polarons and the role of impurity quantum statistics ( http://arxiv.org/abs/2305.04915v1 )

ライセンス: Link先を確認
Cosetta Baroni, Bo Huang, Isabella Fritsche, Erich Dobler, Gregor Anich, Emil Kirilov, Rudolf Grimm, Miguel A. Bastarrachea-Magnani, Pietro Massignan and Georg Bruun(参考訳) 準粒子の概念は複雑な多体系の挙動を理解するのに必須である。 準粒子、ポーラロンの原型的な例は、周囲の媒体と強く相互作用する不純物である。 フェルミ海に作られたフェルミポラロンは、この概念をパラダイム的に実現している。 本質的に重要な性質として、準粒子は媒質の変調によって互いに相互作用する。 超低温原子を用いた量子シミュレーション実験は、個々のポーラロンの理解を大幅に向上させたが、それらの相互作用の検出はこれらの系ではいまだに解明されていない。 ここでは、Li原子のフェルミ海に埋め込まれたK不純物からなるフェルミポーラロン間の相互作用の曖昧な観察を報告する。 以上の結果から, フェルミ液体理論は, 相互作用によるポーラロンエネルギーの移動, 不純物濃度の線形化, 不純物量子統計による符号反転の2つの顕著な予測が得られた。 不純物と媒質の間の弱い中間的相互作用に対して、フェルミ液理論の静的(ゼロモーメントとエネルギー)予測と優れた一致を見出す。 より強い不純物-ナトリウム相互作用では、負のエネルギーで観測された挙動は、遅延や分子形成を含むより洗練された多体処理によって説明できることを示す。

The notion of quasi-particles is essential for understanding the behaviour of complex many-body systems. A prototypical example of a quasi-particle, a polaron, is an impurity strongly interacting with a surrounding medium. Fermi polarons, created in a Fermi sea, provide a paradigmatic realization of this concept. As an inherent and important property such quasi-particles interact with each other via modulation of the medium. While quantum simulation experiments with ultracold atoms have significantly improved our understanding of individual polarons, the detection of their interactions has remained elusive in these systems. Here, we report the unambiguous observation of mediated interactions between Fermi polarons consisting of K impurities embedded in a Fermi sea of Li atoms. Our results confirm two landmark predictions of Landau's Fermi-liquid theory: the shift of the polaron energy due to mediated interactions, linear in the concentration of impurities, and its sign inversion with impurity quantum statistics. For weak to moderate interactions between the impurities and the medium, we find excellent agreement with the static (zero-momentum and energy) predictions of Fermi-liquid theory. For stronger impurity-medium interactions, we show that the observed behaviour at negative energies can be explained by a more refined many-body treatment including retardation and molecule formation
翻訳日:2023-05-09 13:22:52 公開日:2023-05-08
# ユーザレベルプライベート凸最適化について

On User-Level Private Convex Optimization ( http://arxiv.org/abs/2305.04912v1 )

ライセンス: Link先を確認
Badih Ghazi and Pritish Kamath and Ravi Kumar and Raghu Meka and Pasin Manurangsi and Chiyuan Zhang(参考訳) ユーザレベルの差分プライバシー保証を備えた確率凸最適化(SCO)のための新しいメカニズムを提案する。 この機構の収束速度は Levy et al. (2021), Narayanan et al. (2022) の以前の研究と似ているが、2つの重要な改善がある。 我々のメカニズムは損失に対する滑らかさの仮定を必要としない。 さらに,ユーザレベルのプライバシに必要な最小ユーザ数が次元に依存しず,必要な過大エラーに対する対数依存性のみを持つ,最初のケースでもある。 新しいメカニズムの根底にある考え方は、強い凸損失のオプティマイザは局所的削除感度が低いことを示し、局所的削除感度が低い関数に対する出力摂動法は独立な関心を持つ可能性があることを示すことである。

We introduce a new mechanism for stochastic convex optimization (SCO) with user-level differential privacy guarantees. The convergence rates of this mechanism are similar to those in the prior work of Levy et al. (2021); Narayanan et al. (2022), but with two important improvements. Our mechanism does not require any smoothness assumptions on the loss. Furthermore, our bounds are also the first where the minimum number of users needed for user-level privacy has no dependence on the dimension and only a logarithmic dependence on the desired excess error. The main idea underlying the new mechanism is to show that the optimizers of strongly convex losses have low local deletion sensitivity, along with an output perturbation method for functions with low local deletion sensitivity, which could be of independent interest.
翻訳日:2023-05-09 13:22:34 公開日:2023-05-08
# 量子位相推定の厳密な境界と関連する問題

Tight Bounds for Quantum Phase Estimation and Related Problems ( http://arxiv.org/abs/2305.04908v1 )

ライセンス: Link先を確認
Nikhil S. Mande, Ronald de Wolf(参考訳) Kitaev [arXiv'95] による位相推定は、量子コンピューティングにおける最も基本的なサブルーチンの1つである。 基本的なシナリオでは、単位の$U$と未知の固有値$e^{i\theta}$を持つ固有状態$\lvert \psi \rangle$ of$U$へのブラックボックスアクセスが与えられ、そのタスクは、高い確率で$\pm\delta$内の固有位相$\theta$を推定する。 アルゴリズムのコストは、$U$と$U^{-1}$のアプリケーションの数になります。 我々は、任意の固有状態が与えられなくなった場合の位相推定のいくつかのバリエーションのコストを厳密に特徴付けるが、最大固有位相を u$ と見積もることが必要であり、少なくともトップ固有空間との重複を約束する状態(またはそれらの状態を作成するユニタリ)の形でのアドバイスによって支援される。 パラメータのすべての範囲に対してアルゴリズムと(対数係数まで)下限のマッチングを与える。 アドバイスステート(またはアドバイス準備ユニタリ)の少数のコピーは、アドバイスが全くないよりは、はるかに良いものではないことを示す。 また、多くのアドバイス(アドバイス準備ユニタリの応用)を持つことは、コストを大幅に削減するものではなく、u$の固有ベイシスに関する知識もないことも示しています。 結果として、ユニタリ再帰時間問題(unitary repeat time problem)の複雑さの限界が低くなり、 she と yuen~[itcs'23] の上限を満たし、解き明かされた質問の1つを解き明かすことができる。 最後に、精度$\delta$と誤差確率$\epsilon$を持つ位相推定アルゴリズムは、簡単な上限値と一致する$\omega\left(\frac{1}{\delta}\log\frac{1}{\epsilon}\right)$であることを示す。 これは、量子コンピューティング(例えば、検索)における他のいくつかのシナリオとは対照的であり、エラーの引き込みは$O(\sqrt{\log(1/\epsilon)})$のみである。 我々の下界法は三角多項式を持つ多項式法の変種を用いる。

Phase estimation, due to Kitaev [arXiv'95], is one of the most fundamental subroutines in quantum computing. In the basic scenario, one is given black-box access to a unitary $U$, and an eigenstate $\lvert \psi \rangle$ of $U$ with unknown eigenvalue $e^{i\theta}$, and the task is to estimate the eigenphase $\theta$ within $\pm\delta$, with high probability. The cost of an algorithm for us will be the number of applications of $U$ and $U^{-1}$. We tightly characterize the cost of several variants of phase estimation where we are no longer given an arbitrary eigenstate, but are required to estimate the maximum eigenphase of $U$, aided by advice in the form of states (or a unitary preparing those states) which are promised to have at least a certain overlap $\gamma$ with the top eigenspace. We give algorithms and matching lower bounds (up to logarithmic factors) for all ranges of parameters. We show that a small number of copies of the advice state (or of an advice-preparing unitary) are not significantly better than having no advice at all. We also show that having lots of advice (applications of the advice-preparing unitary) does not significantly reduce cost, and neither does knowledge of the eigenbasis of $U$. As an immediate consequence we obtain a lower bound on the complexity of the Unitary recurrence time problem, matching an upper bound of She and Yuen~[ITCS'23] and resolving one of their open questions. Lastly, we show that a phase-estimation algorithm with precision $\delta$ and error probability $\epsilon$ has cost $\Omega\left(\frac{1}{\delta}\log\frac{1}{\epsilon}\right)$, matching an easy upper bound. This contrasts with some other scenarios in quantum computing (e.g., search) where error-reduction costs only a factor $O(\sqrt{\log(1/\epsilon)})$. Our lower bound technique uses a variant of the polynomial method with trigonometric polynomials.
翻訳日:2023-05-09 13:22:18 公開日:2023-05-08
# 患者は病気の症状について何と言うのか? 患者自己報告の自動ラベル付けのためのHuman-in-the-Loop CurationによるDeep Multilabelテキスト分類

What Do Patients Say About Their Disease Symptoms? Deep Multilabel Text Classification With Human-in-the-Loop Curation for Automatic Labeling of Patient Self Reports of Problems ( http://arxiv.org/abs/2305.04905v1 )

ライセンス: Link先を確認
Lakshmi Arbatti, Abhishek Hosamath, Vikram Ramanarayanan and Ira Shoulson(参考訳) アメリカ食品医薬品局(FDA)は、臨床および研究環境で患者が報告した問題に対する重要性を増している。 本稿では,パーキンソン病(PwPs)の患者からの170,141件の自己申告回答("verbatims"と呼ばれる)から,パーキンソン病(Parkinson's Disease)にどのような影響があるのか,そしてそれが日常機能に与える影響について質問する。 このような言葉を複数の臨床症状カテゴリに分類することは重要な問題であり、専門家のキュレーション、多ラベルテキスト分類(MLTC)アプローチ、大量のラベル付きトレーニングデータを必要とする。 さらに、このような大規模なデータセットのヒューマンアノテーションは退屈で高価です。 本稿では,臨床専門家とpwpsを含む9人のキュレーターが注釈を付け,2,341(170,141)の動詞を用いたベースラインデータセットを構築した。 NLP技術とグラフデータベースに基づく専門語句クエリーシステムを用いてルールベースの言語辞書を作成し、機械注釈付きデータセットを生成する残りのコホートにアノテーションを拡張し、最終的に両方のデータセットに対してKeras-TensorflowベースのMLTCモデルを構築する。 機械注釈付きモデルは、ホールドアウトテストセットにおいて65の症状カテゴリに対して95%のF1スコアでベースラインモデルを大幅に上回る。

The USA Food and Drug Administration has accorded increasing importance to patient-reported problems in clinical and research settings. In this paper, we explore one of the largest online datasets comprising 170,141 open-ended self-reported responses (called "verbatims") from patients with Parkinson's (PwPs) to questions about what bothers them about their Parkinson's Disease and how it affects their daily functioning, also known as the Parkinson's Disease Patient Report of Problems. Classifying such verbatims into multiple clinically relevant symptom categories is an important problem and requires multiple steps - expert curation, a multi-label text classification (MLTC) approach and large amounts of labelled training data. Further, human annotation of such large datasets is tedious and expensive. We present a novel solution to this problem where we build a baseline dataset using 2,341 (of the 170,141) verbatims annotated by nine curators including clinical experts and PwPs. We develop a rules based linguistic-dictionary using NLP techniques and graph database-based expert phrase-query system to scale the annotation to the remaining cohort generating the machine annotated dataset, and finally build a Keras-Tensorflow based MLTC model for both datasets. The machine annotated model significantly outperforms the baseline model with a F1-score of 95% across 65 symptom categories on a held-out test set.
翻訳日:2023-05-09 13:21:36 公開日:2023-05-08
# 原子空洞源からの偏光単一光子のバースト

Bursts of polarised single photons from atom-cavity sources ( http://arxiv.org/abs/2305.04899v1 )

ライセンス: Link先を確認
Jan Ole Ernst, Juan-Rafael Alvarez, Thomas D. Barrett and Axel Kuhn(参考訳) フォトニック量子ビットは量子ネットワークやボーソンサンプリング、測定ベースの量子コンピューティングなど、高度な量子テクノロ・ゲーズの発展において重要な役割を果たしている。 識別不能な単一光子の決定論的生成のための有望な枠組みは、高精細な光学キャビティの単一モードに結合された原子エミッタである。 偏光制御は、特に偏光が量子ビットの状態を定義する場合に重要な基礎となる。 本稿では、一般化原子エミッタを光学キャビティに結合し、量子化軸の特定の選択を利用した偏光単一光子のバースト生成法を提案する。 2つの再準備法に関連して、シミュレーションは10光子バーストが1kHzで1つの87Rb原子が芸術光学キャビティの状態に閉じ込められていることを予測した。 これは原子キャビティ源を用いた新しいn-光子実験の道を開く。

Photonic qubits play an instrumental role in the development of advanced quantum technolo- gies, including quantum networking, boson sampling and measurement based quantum computing. A promising framework for the deterministic production of indistinguishable single photons is an atomic emitter coupled to a single mode of a high finesse optical cavity. Polarisation control is an important cornerstone, particularly when the polarisation defines the state of a quantum bit. Here, we propose a scheme for producing bursts of polarised single photons by coupling a generalised atomic emitter to an optical cavity, exploiting a particular choice of quantisation axis. In connection with two re-preparation methods, simulations predict 10-photon bursts coincidence count rates on the order of 1 kHz with single 87Rb atoms trapped in a state of the art optical cavity. This paves the way for novel n-photon experiments with atom-cavity sources.
翻訳日:2023-05-09 13:21:08 公開日:2023-05-08
# 多様なマルチモーダル制御を備えたインタラクティブな画像記述

Caption Anything: Interactive Image Description with Diverse Multimodal Controls ( http://arxiv.org/abs/2305.02677v2 )

ライセンス: Link先を確認
Teng Wang, Jinrui Zhang, Junjie Fei, Hao Zheng, Yunlong Tang, Zhe Li, Mingqi Gao, Shanshan Zhao(参考訳) 制御可能な画像キャプション(英: Controllable image Casting)は、人間の目的に従って自然言語で画像を記述することを目的とした、新たなマルチモーダルトピックである。 最先端の手法は、アノテーション付き入力制御と出力キャプションで訓練される。 しかし、このような注釈付きマルチモーダルデータの不足は、対話型AIシステムのユーザビリティとスケーラビリティを大幅に制限する。 ユニモーダル命令追跡基盤モデルを活用することは、幅広いデータソースの恩恵を受ける有望な代替手段である。 本稿では,幅広いマルチモデル制御をサポートする基盤モデル拡張画像キャプションフレームワークであるCaption AnyThing(CAT)について述べる。 1) 点,箱,軌跡を含む視覚制御 2)感情,長さ,言語,事実性などの言語制御。 Segment Anything Model(SAM)とChatGPTによって、視覚と言語プロンプトをモジュール化されたフレームワークに統合し、異なるコントロール間の柔軟な組み合わせを可能にします。 広範なケーススタディは,視覚言語アプリケーションにおける効果的なユーザインタラクションモデリングに光を当てながら,このフレームワークのユーザ意図アライメント機能を実証する。 私たちのコードはhttps://github.com/ttengwang/Caption-Anything.comで公開されています。

Controllable image captioning is an emerging multimodal topic that aims to describe the image with natural language following human purpose, $\textit{e.g.}$, looking at the specified regions or telling in a particular text style. State-of-the-art methods are trained on annotated pairs of input controls and output captions. However, the scarcity of such well-annotated multimodal data largely limits their usability and scalability for interactive AI systems. Leveraging unimodal instruction-following foundation models is a promising alternative that benefits from broader sources of data. In this paper, we present Caption AnyThing (CAT), a foundation model augmented image captioning framework supporting a wide range of multimodel controls: 1) visual controls, including points, boxes, and trajectories; 2) language controls, such as sentiment, length, language, and factuality. Powered by Segment Anything Model (SAM) and ChatGPT, we unify the visual and language prompts into a modularized framework, enabling the flexible combination between different controls. Extensive case studies demonstrate the user intention alignment capabilities of our framework, shedding light on effective user interaction modeling in vision-language applications. Our code is publicly available at https://github.com/ttengwang/Caption-Anything.
翻訳日:2023-05-09 11:20:44 公開日:2023-05-08
# 言語モデルのプロンプトによる推論:調査

Reasoning with Language Model Prompting: A Survey ( http://arxiv.org/abs/2212.09597v3 )

ライセンス: Link先を確認
Shuofei Qiao, Yixin Ou, Ningyu Zhang, Xiang Chen, Yunzhi Yao, Shumin Deng, Chuanqi Tan, Fei Huang, Huajun Chen(参考訳) 推論は複雑な問題解決に不可欠な能力であり、医療診断や交渉など、さまざまな現実世界のアプリケーションに対するバックエンドサポートを提供することができる。 本稿では,言語モデルによる推論に関する最先端の研究を包括的に調査する。 比較や要約による研究成果を紹介し,初心者を支援するための体系的な資源を提供する。 また,このような推論能力が出現する潜在的な理由を議論し,今後の研究の方向性を強調する。 リソースはhttps://github.com/zjunlp/Prompt4ReasoningPapers(定期的に更新)で入手できる。

Reasoning, as an essential ability for complex problem-solving, can provide back-end support for various real-world applications, such as medical diagnosis, negotiation, etc. This paper provides a comprehensive survey of cutting-edge research on reasoning with language model prompting. We introduce research works with comparisons and summaries and provide systematic resources to help beginners. We also discuss the potential reasons for emerging such reasoning abilities and highlight future research directions. Resources are available at https://github.com/zjunlp/Prompt4ReasoningPapers (updated periodically).
翻訳日:2023-05-09 11:19:36 公開日:2023-05-08
# ニューラルネットワークの事前近似について

On Preimage Approximation for Neural Networks ( http://arxiv.org/abs/2305.03686v2 )

ライセンス: Link先を確認
Xiyue Zhang, Benjie Wang, Marta Kwiatkowska(参考訳) ニューラルネットワークの検証は主に局所ロバスト性に着目している。 しかし、与えられたプロパティが入力ドメイン全体に対してグローバルに保持されているかどうかを知ることが重要であり、その場合、そのプロパティのどの割合が真かを知ることが重要である。 正確な前画像生成は、そのような(定量的な)グローバルロバストネス検証を支援するニューラルネットワークの等価表現を構築することができるが、スケールでは難解である。 本研究では,線形緩和に基づくニューラルネットワークの前像の記号下近似を生成するための効率的かつ実用的な時空アルゴリズムを提案する。 我々のアルゴリズムは、入力領域をサブリージョンに分割することでボリューム近似誤差を反復的に最小化する。 さらに,リラクゼーションのパラメータを分割・最適化する領域を優先するために,ボリュームに対するサンプリングおよび微分可能な近似を適用し,より高速に改善し,よりコンパクトな近似を行う。 評価の結果,前画像生成が難解なニューラルネットワークコントローラに対して,精度の高い手法やスケールよりもかなり高速に前画像近似を生成することができた。 また,本手法の定量的グローバル検証への応用を実証する。

Neural network verification mainly focuses on local robustness properties. However, often it is important to know whether a given property holds globally for the whole input domain, and if not then for what proportion of the input the property is true. While exact preimage generation can construct an equivalent representation of neural networks that can aid such (quantitative) global robustness verification, it is intractable at scale. In this work, we propose an efficient and practical anytime algorithm for generating symbolic under-approximations of the preimage of neural networks based on linear relaxation. Our algorithm iteratively minimizes the volume approximation error by partitioning the input region into subregions, where the neural network relaxation bounds become tighter. We further employ sampling and differentiable approximations to the volume in order to prioritize regions to split and optimize the parameters of the relaxation, leading to faster improvement and more compact under-approximations. Evaluation results demonstrate that our approach is able to generate preimage approximations significantly faster than exact methods and scales to neural network controllers for which exact preimage generation is intractable. We also demonstrate an application of our approach to quantitative global verification.
翻訳日:2023-05-09 11:12:46 公開日:2023-05-08
# 対話生成に対するホワイトボックス多目的攻撃

White-Box Multi-Objective Adversarial Attack on Dialogue Generation ( http://arxiv.org/abs/2305.03655v2 )

ライセンス: Link先を確認
Yufei Li, Zexin Li, Yingfan Gao, Cong Liu(参考訳) 事前訓練されたトランスフォーマーは、最先端の対話生成(DG)システムで人気がある。 しかし、このような言語モデルは、テキスト分類などの伝統的なタスクで研究されている様々な敵のサンプルに弱いため、DGシステムの堅牢性に対して我々の好奇心が刺激される。 DGモデルを攻撃する主な課題の1つは、変化のないチャット履歴も意思決定のために考慮されているため、現在の文の摂動は応答精度を低下させることができないことである。 bleuやrougeといったパフォーマンスメトリクスの落とし穴を追究する代わりに、より長い世代のアウトプットを強制するために逆さまのサンプルを作成することは、攻撃効果をもたらすことを観察します。 そこで本研究では,DGSlowと呼ばれるマルチオブジェクト攻撃手法を提案する。 具体的には、DGSlowは、勾配に基づく多目的最適化器を通じて、生成精度と長さの2つの目標をバランスさせ、適応的な探索機構を適用して、少数の修正しか行わない敵のサンプルを反復的に作成する。 4つのベンチマークデータセットに関する総合的な実験は、DGSlowが従来の精度ベースの手法よりも高い成功率で最先端のDGモデルを著しく劣化させることを示した。 また,本文は,他のモデルに対する攻撃にも強い伝達性を示す。

Pre-trained transformers are popular in state-of-the-art dialogue generation (DG) systems. Such language models are, however, vulnerable to various adversarial samples as studied in traditional tasks such as text classification, which inspires our curiosity about their robustness in DG systems. One main challenge of attacking DG models is that perturbations on the current sentence can hardly degrade the response accuracy because the unchanged chat histories are also considered for decision-making. Instead of merely pursuing pitfalls of performance metrics such as BLEU, ROUGE, we observe that crafting adversarial samples to force longer generation outputs benefits attack effectiveness -- the generated responses are typically irrelevant, lengthy, and repetitive. To this end, we propose a white-box multi-objective attack method called DGSlow. Specifically, DGSlow balances two objectives -- generation accuracy and length, via a gradient-based multi-objective optimizer and applies an adaptive searching mechanism to iteratively craft adversarial samples with only a few modifications. Comprehensive experiments on four benchmark datasets demonstrate that DGSlow could significantly degrade state-of-the-art DG models with a higher success rate than traditional accuracy-based methods. Besides, our crafted sentences also exhibit strong transferability in attacking other models.
翻訳日:2023-05-09 11:12:28 公開日:2023-05-08
# rgb-d意味セグメンテーションに基づく服の把持と展開

Clothes Grasping and Unfolding Based on RGB-D Semantic Segmentation ( http://arxiv.org/abs/2305.03259v2 )

ライセンス: Link先を確認
Xingyu Zhu, Xin Wang, Jonathan Freer, Hyung Jin Chang, Yixing Gao(参考訳) 服の把持と展開は、ロボット支援ドレッシングの核となるステップである。 既存の作品の多くは、服の奥行き画像を利用して深層学習に基づくモデルを訓練し、適切な把持点を認識する。 これらの手法はしばしば物理エンジンを用いて深度画像の合成を行い、実際のラベル付きデータ収集のコストを削減する。 しかし、合成画像と実画像の間の自然な領域ギャップは、しばしば実際のデータ上でこれらのメソッドのパフォーマンスを低下させる。 さらに、これらのアプローチは、着物自体に把持ポイントが混入するシナリオでしばしば苦労する。 以上の課題に対処するために,セマンティックセグメンテーションのための双方向フラクタルクロスフュージョンネットワーク(BiFCNet)を提案する。 深度画像のみを使用する代わりに,フラクタル・クロス・フュージョン(FCF)モジュールがRGBと深度データを融合するネットワークへの入力として,フラクタル幾何に基づく地球規模の複雑な特徴を考慮したRGB画像を利用する。 さらに,実データ収集のコストを削減するために,色と幾何学的変換がラベル対応を維持しながらrgbと深度データを同時に処理する,敵対的戦略に基づくデータ拡張手法を提案する。 最後に,衣服の平坦性尺度に基づくセグメント領域からの地点選択戦略を付加し,その把握方向を考慮しつつ,意味セグメンテーションの観点から衣服の把握と展開を行うパイプラインを提案する。 公開データセットNYUDv2でBiFCNetを評価し,現在の最先端モデルに匹敵する性能を得た。 また,baxterロボットにモデルをデプロイし,アブレーション実験の一環として広範囲な把握および展開実験を行い,84%の成功率を得た。

Clothes grasping and unfolding is a core step in robotic-assisted dressing. Most existing works leverage depth images of clothes to train a deep learning-based model to recognize suitable grasping points. These methods often utilize physics engines to synthesize depth images to reduce the cost of real labeled data collection. However, the natural domain gap between synthetic and real images often leads to poor performance of these methods on real data. Furthermore, these approaches often struggle in scenarios where grasping points are occluded by the clothing item itself. To address the above challenges, we propose a novel Bi-directional Fractal Cross Fusion Network (BiFCNet) for semantic segmentation, enabling recognition of graspable regions in order to provide more possibilities for grasping. Instead of using depth images only, we also utilize RGB images with rich color features as input to our network in which the Fractal Cross Fusion (FCF) module fuses RGB and depth data by considering global complex features based on fractal geometry. To reduce the cost of real data collection, we further propose a data augmentation method based on an adversarial strategy, in which the color and geometric transformations simultaneously process RGB and depth data while maintaining the label correspondence. Finally, we present a pipeline for clothes grasping and unfolding from the perspective of semantic segmentation, through the addition of a strategy for grasp point selection from segmentation regions based on clothing flatness measures, while taking into account the grasping direction. We evaluate our BiFCNet on the public dataset NYUDv2 and obtained comparable performance to current state-of-the-art models. We also deploy our model on a Baxter robot, running extensive grasping and unfolding experiments as part of our ablation studies, achieving an 84% success rate.
翻訳日:2023-05-09 11:12:07 公開日:2023-05-08
# 量子仮想プライベートネットワークにおける資源管理

Resource Management in Quantum Virtual Private Networks ( http://arxiv.org/abs/2305.03231v2 )

ライセンス: Link先を確認
Shahrooz Pouryousef, Nitish K. Panigrahy, Monimoy Deb Purkayastha, Sabyasachi Mukhopadhyay, Gert Grammel, Domenico Di Mola, and Don Towsley(参考訳) 本研究では,複数の組織による量子絡み合い分布の基盤となる量子ネットワークの共有を含む,量子仮想プライベートネットワーク(qvpn)のためのリソース管理フレームワークを開発した。 提案手法では,集中型最適化フレームワークを用いて,qVPNにおけるリンク絡みリソース割り当ての問題を解決する。 我々は,qvpn最適化のための遺伝的および学習ベースのアルゴリズムの可能性に関する洞察を提供し,多組織環境における効率的かつ信頼性の高い量子通信の実現における経路選択と蒸留の重要性を強調する。 遺伝的アルゴリズムと学習に基づくアルゴリズムは,従来の欲望に基づくヒューリスティックと比べ,よりよい経路を識別できることを示した。 さらに、これらのアルゴリズムは、エンドユーザーに必要なサービス品質を確保しつつ、ゲートや量子チャネルの潜在的なノイズを軽減する優れた蒸留戦略を効果的に特定することができる。

In this study, we develop a resource management framework for a quantum virtual private network (qVPN), which involves the sharing of an underlying public quantum network by multiple organizations for quantum entanglement distribution. Our approach involves resolving the issue of link entanglement resource allocation in a qVPN by utilizing a centralized optimization framework. We provide insights into the potential of genetic and learning-based algorithms for optimizing qVPNs, and emphasize the significance of path selection and distillation in enabling efficient and reliable quantum communication in multi-organizational settings. Our findings demonstrate that compared to traditional greedy based heuristics, genetic and learning-based algorithms can identify better paths. Furthermore, these algorithms can effectively identify good distillation strategies to mitigate potential noises in gates and quantum channels, while ensuring the necessary quality of service for end users.
翻訳日:2023-05-09 11:11:39 公開日:2023-05-08
# 大域 atstasis の一般化モデルとしてのコントラスト損失

Contrastive losses as generalized models of global epistasis ( http://arxiv.org/abs/2305.03136v2 )

ライセンス: Link先を確認
David H. Brookes, Jakub Otwinowski, and Sam Sinai(参考訳) 適合関数は、生物系列の大きな組合せ空間を興味のある性質にマップする。 実験データからこれらのマルチモーダル関数を推測することは、現代のタンパク質工学において中心的なタスクである。 グローバルエピスタシスモデル(global epistasis model)は、観測データからフィットネス関数を推定するための有効で物理的に接地したモデルである。 これらのモデルは、スパース潜在関数が単調非線形性によって変換され、測定可能な適合度が生成されると仮定する。 本稿では,ブラッドレー・テリー損失のようなコントラスト損失関数を最小化することは,グローバル・エピスタシスが暗黙の潜在関数を抽出するための単純で柔軟な手法であることを示す。 我々は、大域的エピスタシスモデルの非線形性は、疎表現を含まない観察されたフィットネス関数を生成できるため、平均二乗誤差(MSE)損失を用いた場合の観察から学ぶのが非効率的である、というフィットネス・エピスタシスの不確実性原理を議論する。 我々は,MSEが有効でない制度においても,限られたデータからランキング関数を正確に推定できることを示す。 この洞察の実用的有用性を検証するために,コントラスト損失関数がベンチマークタスクのパフォーマンスを一貫して向上させることを示す。

Fitness functions map large combinatorial spaces of biological sequences to properties of interest. Inferring these multimodal functions from experimental data is a central task in modern protein engineering. Global epistasis models are an effective and physically-grounded class of models for estimating fitness functions from observed data. These models assume that a sparse latent function is transformed by a monotonic nonlinearity to emit measurable fitness. Here we demonstrate that minimizing contrastive loss functions, such as the Bradley-Terry loss, is a simple and flexible technique for extracting the sparse latent function implied by global epistasis. We argue by way of a fitness-epistasis uncertainty principle that the nonlinearities in global epistasis models can produce observed fitness functions that do not admit sparse representations, and thus may be inefficient to learn from observations when using a Mean Squared Error (MSE) loss (a common practice). We show that contrastive losses are able to accurately estimate a ranking function from limited data even in regimes where MSE is ineffective. We validate the practical utility of this insight by showing contrastive loss functions result in consistently improved performance on benchmark tasks.
翻訳日:2023-05-09 11:11:25 公開日:2023-05-08
# OctFormer: 3Dポイントクラウド用のOctreeベースのトランスフォーマー

OctFormer: Octree-based Transformers for 3D Point Clouds ( http://arxiv.org/abs/2305.03045v2 )

ライセンス: Link先を確認
Peng-Shuai Wang(参考訳) 3dポイント・クラウド・ラーニングのためにoctreeベースの変圧器 octformer を提案する。 OctFormerは3Dポイントクラウドセグメンテーションとオブジェクト検出のための汎用的で効果的なバックボーンとして機能するだけでなく、線形複雑性を持ち、大規模ポイントクラウドにもスケーラブルである。 ポイントクラウドにトランスフォーマーを適用する上で重要な課題は、注意の2次的、すなわち圧倒的な計算複雑性を減らすことである。 この問題に対処するため、いくつかの作業は点雲を重複しないウィンドウに分割し、各ローカルウィンドウで注意を拘束する。 しかし、各ウィンドウのポイント番号は大きく異なり、GPU上での効率的な実行を妨げる。 局所窓の形状に対して注意が頑健であることを確認するため,オクツリーのシャッフルキーをソートして,一定数の点を含む局所窓に分割し,窓の形状を自由に変化させることができる新しいオクツリーアテンションを提案する。 また,拡大したオクツリーの注意も導入し,受容野をさらに拡大する。 octreeの注目度は,オープンソースライブラリを使用した10行のコードで実装可能で,ポイント数が200kを越えると,他のポイントクラウドの注意度よりも17倍高速になります。 octreeの注意力に基づいて構築されたocformerは、簡単にスケールアップでき、一連の3dセグメンテーションと検出ベンチマークで最先端のパフォーマンスを達成でき、効率と効果の両面で従来のスパース・ボクセルベースのcnnとポイント・クラウドトランスフォーマーを上回っている。 特に、挑戦的なScanNet200データセットでは、OcctFormerは、mIoUでスパースボクセルベースのCNNを7.3上回っている。 私たちのコードとトレーニングされたモデルは、https://wang-ps.github.io/octformerで利用可能です。

We propose octree-based transformers, named OctFormer, for 3D point cloud learning. OctFormer can not only serve as a general and effective backbone for 3D point cloud segmentation and object detection but also have linear complexity and is scalable for large-scale point clouds. The key challenge in applying transformers to point clouds is reducing the quadratic, thus overwhelming, computation complexity of attentions. To combat this issue, several works divide point clouds into non-overlapping windows and constrain attentions in each local window. However, the point number in each window varies greatly, impeding the efficient execution on GPU. Observing that attentions are robust to the shapes of local windows, we propose a novel octree attention, which leverages sorted shuffled keys of octrees to partition point clouds into local windows containing a fixed number of points while permitting shapes of windows to change freely. And we also introduce dilated octree attention to expand the receptive field further. Our octree attention can be implemented in 10 lines of code with open-sourced libraries and runs 17 times faster than other point cloud attentions when the point number exceeds 200k. Built upon the octree attention, OctFormer can be easily scaled up and achieves state-of-the-art performances on a series of 3D segmentation and detection benchmarks, surpassing previous sparse-voxel-based CNNs and point cloud transformers in terms of both efficiency and effectiveness. Notably, on the challenging ScanNet200 dataset, OctFormer outperforms sparse-voxel-based CNNs by 7.3 in mIoU. Our code and trained models are available at https://wang-ps.github.io/octformer.
翻訳日:2023-05-09 11:11:02 公開日:2023-05-08
# $^{171}$Yb原子における核スピン量子ビットの繰り返し読み出しとリアルタイム制御

Repetitive readout and real-time control of nuclear spin qubits in $^{171}$Yb atoms ( http://arxiv.org/abs/2305.02926v2 )

ライセンス: Link先を確認
William Huie, Lintao Li, Neville Chen, Xiye Hu, Zhubing Jia, Won Kyu Calvin Sun, Jacob P. Covey(参考訳) 我々は、中性イッテルビウム-171(^{171}$Yb)原子配列における核スピン量子ビットの高忠実度反復射影測定を実証する。 その結果, 1つのトワイザーに対して0.993(6)の確率で測定結果に対応する状態と配列上で平均される0.981(4)の条件下で, 量子ビット状態は0.995(4)の忠実度で測定できることがわかった。 これは、光励起状態の核スピン量子状態のうちの1つがb=58$gの磁場下でほぼ完全な周期性を持つことで達成され、蛍光読み出し時に明るく暗いコントラストが約10^5$となる。 パフォーマンスは$\sim1/b^2$でさらに向上する。 平均値0.98(1)の読み出しサバイバルは、暗黒状態への非共鳴散乱によって制限され、回路の端の原子番号を計測したり、両キュービット状態の測定を行うことで、選択後の処理によって対処することができる。 投影的測定と交流磁場による核スピン量子ビットの高忠実な回転を組み合わせることで、直交基底における測定の非可換性や「フリーズ」コヒーレント進化の量子ゼノン機構など、いくつかのパラダイムシナリオを探求する。 最後に、実時間フィードフォワードを用いて、直交的に初期化し、$z$-basisで射影測定を行った後、$+z$または$-z$方向のキュービットを繰り返し決定的に準備する。 これらの能力は、測定に基づく量子計算、高速多体状態形成、ホログラフィックダイナミクスシミュレーション、量子誤差補正など、原子配列を持つ適応量子回路への重要なステップを構成する。

We demonstrate high fidelity repetitive projective measurements of nuclear spin qubits in an array of neutral ytterbium-171 ($^{171}$Yb) atoms. We show that the qubit state can be measured with a fidelity of 0.995(4) under a condition that leaves it in the state corresponding to the measurement outcome with a probability of 0.993(6) for a single tweezer and 0.981(4) averaged over the array. This is accomplished by near-perfect cyclicity of one of the nuclear spin qubit states with an optically excited state under a magnetic field of $B=58$ G, resulting in a bright/dark contrast of $\approx10^5$ during fluorescence readout. The performance improves further as $\sim1/B^2$. The state-averaged readout survival of 0.98(1) is limited by off-resonant scattering to dark states and can be addressed via post-selection by measuring the atom number at the end of the circuit, or during the circuit by performing a measurement of both qubit states. We combine projective measurements with high-fidelity rotations of the nuclear spin qubit via an AC magnetic field to explore several paradigmatic scenarios, including the non-commutivity of measurements in orthogonal bases, and the quantum Zeno mechanism in which measurements "freeze" coherent evolution. Finally, we employ real-time feedforward to repetitively deterministically prepare the qubit in the $+z$ or $-z$ direction after initializing it in an orthogonal basis and performing a projective measurement in the $z$-basis. These capabilities constitute an important step towards adaptive quantum circuits with atom arrays, such as in measurement-based quantum computation, fast many-body state preparation, holographic dynamics simulations, and quantum error correction.
翻訳日:2023-05-09 11:09:56 公開日:2023-05-08
# APR: 集約されたポイントクラウド再構築によるオンライン遠隔地クラウド登録

APR: Online Distant Point Cloud Registration Through Aggregated Point Cloud Reconstruction ( http://arxiv.org/abs/2305.02893v2 )

ライセンス: Link先を確認
Quan Liu, Yunsong Zhou, Hongzi Zhu, Shan Chang, Minyi Guo(参考訳) 多くの運転安全アプリケーションにとって、遠く離れた移動車両で発生するLiDAR点雲を正確に登録することが非常に重要である。 しかし、そのような点雲は同じ対象に対して非常に異なる点密度とセンサーの視点を持ち、そのような点雲の登録は非常に困難である。 本稿では,オンライン遠隔地クラウド登録のための新しい特徴抽出フレームワークであるAPRを提案する。 具体的には、オートエンコーダの設計を活用し、オートエンコーダは元の単一入力点クラウドの代わりに複数のフレームでより密集した点雲を再構成する。 我々の設計では、エンコーダは1つの入力ポイントクラウドに基づいて、リッチな局所幾何学情報を持つ特徴を抽出せざるを得ない。 このような機能は、オンライン遠隔地クラウド登録に使用される。 我々は、KITTIおよびnuScenesデータセット上で、最先端(SOTA)特徴抽出器に対して広範な実験を行う。 その結果、APRは全ての抽出機を大きなマージンで上回り、SOTA抽出機の平均登録リコールはLoKITTIで7.1%、LoNuScenesで4.6%増加した。 コードはhttps://github.com/liuQuan98/APRで入手できる。

For many driving safety applications, it is of great importance to accurately register LiDAR point clouds generated on distant moving vehicles. However, such point clouds have extremely different point density and sensor perspective on the same object, making registration on such point clouds very hard. In this paper, we propose a novel feature extraction framework, called APR, for online distant point cloud registration. Specifically, APR leverages an autoencoder design, where the autoencoder reconstructs a denser aggregated point cloud with several frames instead of the original single input point cloud. Our design forces the encoder to extract features with rich local geometry information based on one single input point cloud. Such features are then used for online distant point cloud registration. We conduct extensive experiments against state-of-the-art (SOTA) feature extractors on KITTI and nuScenes datasets. Results show that APR outperforms all other extractors by a large margin, increasing average registration recall of SOTA extractors by 7.1% on LoKITTI and 4.6% on LoNuScenes. Code is available at https://github.com/liuQuan98/APR.
翻訳日:2023-05-09 11:09:24 公開日:2023-05-08