このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230511となっている論文です。

PDF登録状況(公開日: 20230511)

TitleAuthorsAbstract論文公表日・翻訳日
# CryptSan: C/C++のメモリ安全性にARMポインタ認証を活用する

CryptSan: Leveraging ARM Pointer Authentication for Memory Safety in C/C++ ( http://arxiv.org/abs/2202.08669v2 )

ライセンス: Link先を確認
Konrad Hohentanner, Philipp Zieris, Julian Horsch(参考訳) メモリ安全性のバグは、その検出と防止に関する何十年もの研究を経ても、セキュリティ上の脆弱性の最上位にある。 C/C++には、言語方言からインスツルメンテーションまで、さまざまな緩和策が提案されている。 コンパイラベースのインスツルメンテーションは特に有望であり、手作業によるコード修正を必要とせず、正確なメモリ安全性を実現することができる。 残念ながら、既存のコンパイラベースのソリューションは、パフォーマンスだけでなく、ユーザビリティやメモリ安全性の保証など、多くの分野で妥協している。 ハードウェアの新しい開発は、コンパイラベースのメモリ安全性のパフォーマンスとセキュリティを改善するのに役立つ。 ARM V8.3アーキテクチャに追加されたARM Pointer Authenticationは、ハードウェアによる制御フロー統合(CFI)を可能にすることを目的としている。 しかし、オペレーションは汎用的であるため、他のより包括的なハードウェアサポートのランタイム整合性アプローチも可能にする。 そこで我々は,ARM Pointer Authenticationに基づくメモリ安全性アプローチであるCryptSanを提案する。 cryptsanはポインタシグネチャを使用してc/c++プログラムのメモリ安全性を再構築し、ヒープ、スタック、グローバルを時間的および空間的脆弱性から保護する。 実際のARMv8.3ハードウェア上で,M1 MacBook Pro上で動作するLLVMベースのプロトタイプ実装について述べる。 プロトタイプ評価の結果,本システムは実環境下では類似したアプローチを上回っていることがわかった。 これにより、未登録のライブラリとの相互運用性とメタデータへの攻撃に対する暗号化保護とともに、cryptsanはc/c++プログラムにメモリ安全性を組み込むための有効なソリューションとなる。

Memory safety bugs remain in the top ranks of security vulnerabilities, even after decades of research on their detection and prevention. Various mitigations have been proposed for C/C++, ranging from language dialects to instrumentation. Among these, compiler-based instrumentation is particularly promising, not requiring manual code modifications and being able to achieve precise memory safety. Unfortunately, existing compiler-based solutions compromise in many areas, including performance but also usability and memory safety guarantees. New developments in hardware can help improve performance and security of compiler-based memory safety. ARM Pointer Authentication, added in the ARMv8.3 architecture, is intended to enable hardware-assisted Control Flow Integrity (CFI). But since its operations are generic, it also enables other, more comprehensive hardware-supported runtime integrity approaches. As such, we propose CryptSan, a memory safety approach based on ARM Pointer Authentication. CryptSan uses pointer signatures to retrofit memory safety to C/C++ programs, protecting heap, stack, and globals against temporal and spatial vulnerabilities. We present a full LLVM-based prototype implementation, running on an M1 MacBook Pro, i.e., on actual ARMv8.3 hardware. Our prototype evaluation shows that the system outperforms similar approaches under real-world conditions. This, together with its interoperability with uninstrumented libraries and cryptographic protection against attacks on metadata, makes CryptSan a viable solution for retrofitting memory safety to C/C++ programs.
翻訳日:2023-10-24 15:38:39 公開日:2023-05-11
# 人工知能時代の可視化:大規模言語モデルによる構造的可視化のための実験

Visualization in the Era of Artificial Intelligence: Experiments for Creating Structural Visualizations by Prompting Large Language Models ( http://arxiv.org/abs/2305.03380v2 )

ライセンス: Link先を確認
Hans-Georg Fill, Fabian Muff(参考訳) 大規模言語モデル(LLM)は、テキスト入力から人間に似たテキストや画像を生成することによって自然言語処理に革命をもたらした。 しかし、複雑な2D/3Dビジュアライゼーションを生成する可能性はほとんど解明されていない。 LLMが2D/3Dビジュアライゼーションを生成できることを示す最初の実験を報告した。 複雑な2Dビジュアライゼーションと3Dシーンにはさらなる研究が必要である。 LLMは、多くの産業やアプリケーションにとって強力なツールとなり、最小限のトレーニングで複雑な視覚化を生成する。

Large Language Models (LLMs) have revolutionized natural language processing by generating human-like text and images from textual input. However, their potential to generate complex 2D/3D visualizations has been largely unexplored. We report initial experiments showing that LLMs can generate 2D/3D visualizations that may be used for legal visualization. Further research is needed for complex 2D visualizations and 3D scenes. LLMs can become a powerful tool for many industries and applications, generating complex visualizations with minimal training.
翻訳日:2023-10-24 12:14:09 公開日:2023-05-11
# コード検索のための連結クエリの合成

Synthesizing Conjunctive Queries for Code Search ( http://arxiv.org/abs/2305.04316v2 )

ライセンス: Link先を確認
Chengpeng Wang, Peisen Yao, Wensheng Tang, Gang Fan, and Charles Zhang(参考訳) 本稿では,対象パターンを探索する新しい結合型クエリ合成アルゴリズムであるSquidを提案する。 自然言語記述と負の例が与えられたsquidは、データログベースのプログラムアナライザによって例から派生した関係を分析し、検索意図を表す結合クエリを合成する。 合成されたクエリは、エディタで所望の文法構造を探すためにさらに使用できる。 高効率を実現するため,不必要な関係を取り除き,クエリ候補を列挙することで,膨大な検索空間を創出する。 また、クエリ優先順位付けのための2つの定量的メトリクスを導入し、複数の候補からクエリを選択し、コード検索に望ましいクエリを得る。 我々は30以上のコード検索タスクでSquidを評価した。 Squidは全てのタスクの接続クエリをうまく合成し、平均2.56秒で処理できることが示されている。

This paper presents Squid, a new conjunctive query synthesis algorithm for searching code with target patterns. Given positive and negative examples along with a natural language description, Squid analyzes the relations derived from the examples by a Datalog-based program analyzer and synthesizes a conjunctive query expressing the search intent. The synthesized query can be further used to search for desired grammatical constructs in the editor. To achieve high efficiency, we prune the huge search space by removing unnecessary relations and enumerating query candidates via refinement. We also introduce two quantitative metrics for query prioritization to select the queries from multiple candidates, yielding desired queries for code search. We have evaluated Squid on over thirty code search tasks. It is shown that Squid successfully synthesizes the conjunctive queries for all the tasks, taking only 2.56 seconds on average.
翻訳日:2023-10-24 12:05:42 公開日:2023-05-11
# モデル変換言語の最も重要な特性であるトレーサビリティと再利用機構

Traceability and Reuse Mechanisms, the most important Properties of Model Transformation Languages ( http://arxiv.org/abs/2305.06764v1 )

ライセンス: Link先を確認
Stefan H\"oppner, Matthias Tichy(参考訳) 専用モデル変換言語は、モデル変換を開発するための汎用言語の使用に多くの利点があると主張している。 しかし、MTLの使用に伴う実際の利点は、実証的にはあまり理解されていない。 アドバンテージとデメリットとは何か、どこから生まれたのかに関する知識や実証的な評価はほとんどありません。 事前のインタビュー研究において、どのような要因と影響を緩める要因から得られる利点について専門家の意見を導き出した。 インタビューの結果を定量的に評価し,異なる要因が与えた影響を確認し,否定する。 我々は、将来の研究がこれらのデータに基づいてターゲットと関連する研究を設計できるように、さまざまな要因がいかに価値があるかについての洞察を得るつもりです。 オンライン調査を用いて,要因と品質特性のデータを収集する。 データを解析するために、構造モデルに基づく普遍的な構造モデリングを用いる。 各仮説の相互依存に対してbzusmが生成する重要度値と経路係数を用いて相関を確認・拒否し,影響の強さを推定する。 113の回答を分析した。 その結果,追跡機構と再利用機構が全体として最も重要であることがわかった。 しかし、観察された効果は一般的に予想より10倍も低かった。 さらに、モデレーション効果のより微妙な見方が保証されている。 そのモデレーション効果は異なる影響で大きく異なり、最も強い効果は最も弱い効果の1000倍である。 MTLの実証的な評価は、単一のスタンドアローン因子を見るだけでは解決できない複雑なトピックである。 評価結果は,異なるサイズとユースケースの変換を考慮すべきであることを示す。 言語開発は、トランスフォーメーション固有の再利用メカニズムの提供に焦点を当てるべきである。

Dedicated model transformation languages are claimed to provide many benefits over the use of general purpose languages for developing model transformations. However, the actual advantages associated with the use of MTLs are poorly understood empirically. There is little knowledge and empirical assessment about what advantages and disadvantages hold and where they originate from. In a prior interview study, we elicited expert opinions on what advantages result from what factors and a number of factors that moderate the influence. We aim to quantitatively asses the interview results to confirm or reject the effects posed by different factors. We intend to gain insights into how valuable different factors are so that future studies can draw on these data for designing targeted and relevant studies. We gather data on the factors and quality attributes using an online survey. To analyse the data, we use universal structure modelling based on a structure model. We use significance values and path coefficients produced bz USM for each hypothesised interdependence to confirm or reject correlation and to weigh the strength of influence present. We analyzed 113 responses. The results show that the Tracing and Reuse Mechanisms are most important overall. Though the observed effects were generally 10 times lower than anticipated. Additionally, we found that a more nuanced view of moderation effects is warranted. Their moderating influence differed significantly between the different influences, with the strongest effects being 1000 times higher than the weakest. The empirical assessment of MTLs is a complex topic that cannot be solved by looking at a single stand-alone factor. Our results provide clear indication that evaluation should consider transformations of different sizes and use-cases. Language development should focus on providing transformation specific reuse mechanisms .
翻訳日:2023-10-24 09:05:05 公開日:2023-05-11
# PExReport: 実行可能なクロスプロジェクト障害レポートの自動作成

PExReport: Automatic Creation of Pruned Executable Cross-Project Failure Reports ( http://arxiv.org/abs/2305.06669v1 )

ライセンス: Link先を確認
Sunzhou Huang, Xiaoyin Wang(参考訳) 現代のソフトウェア開発は、同じまたは別の組織から他の開発チームによって書かれた既存のライブラリに大きく依存します。 開発者がソフトウェアを実行すると、実行トレースは複数のソフトウェアプロダクトの境界を越えて、プロジェクト横断障害(CPF)を生成する。 既存の研究によると、スタンドアロンの実行可能な障害レポートは最も効果的なコミュニケーションを可能にする可能性があるが、ソフトウェアエコシステムにおける複雑なファイルと依存関係の相互作用のため、そのようなレポートを作成することはしばしば困難である。 本稿では,CPFレポートのトリレンマを解決するために,スタンドアローンのCPFレポートを自動生成するPExReportを開発した。 pexreportはビルドツールを利用してソースコードと依存関係をプルインし、さらにビルドプロセスを分析してcpfを再現するprunedビルド環境を作成する。 198のCPFを用いて74のソフトウェアプロジェクト問題の評価を行い、評価結果から、PExReportは、我々のデータセットの198のテスト障害のうち184の実行可能なCPFレポートを作成でき、ソースクラスと内部JARのクラスを平均72.97%削減できることを示した。

Modern software development extensively depends on existing libraries written by other developer teams from the same or a different organization. When a developer executes the software, the execution trace may go across the boundaries of multiple software products and create cross-project failures (CPFs). Existing studies show that a stand-alone executable failure report may enable the most effective communication, but creating such a report is often challenging due to the complicated files and dependencies interactions in the software ecosystems. In this paper, to solve the CPF report trilemma, we developed PExReport, which automatically creates stand-alone executable CPF reports. PExReport leverages build tools to prune source code and dependencies, and further analyzes the build process to create a pruned build environment for reproducing the CPF. We performed an evaluation on 74 software project issues with 198 CPFs, and the evaluation results show that PExReport can create executable CPF reports for 184 out of 198 test failures in our dataset, with an average reduction of 72.97% on source classes and the classes in internal JARs.
翻訳日:2023-10-24 09:04:18 公開日:2023-05-11
# 行動木を用いた自律走行システムの現実的安全クリティカルシナリオ探索

Realistic Safety-critical Scenarios Search for Autonomous Driving System via Behavior Tree ( http://arxiv.org/abs/2305.06603v1 )

ライセンス: Link先を確認
Ping Zhang, Lingfeng Ming, Tingyi Yuan, Cong Qiu, Yang Li, Xinhua Hui, Zhiquan Zhang, Chao Huang(参考訳) シミュレーションに基づく自律運転システム(ADS)の試験は注目されている。 しかし、現在のアプローチでは、専門家の知識への過度な依存と単純な評価指標の利用という2つの理由から、広告を正確に評価することができないことが多い。 これにより、シミュレートされたシナリオと自然主義的な運転環境の食い違いが生じる。 そこで我々は,行動木に基づくテストフレームワークであるMatrix-Fuzzerを提案し,現実的な安全クリティカルなテストシナリオを自動的に生成する。 提案手法は,道路利用者の軌跡を行動シーケンスに抽象化した $log2bt$ メソッドを用いる。 さらに,実世界の運転分布から行動特性を変化させ,適応アルゴリズムを用いて入力空間を探索する。 一方,我々は,アルゴリズムを臨界領域へ誘導する汎用評価エンジンを設計し,無効なシナリオの生成を減らす。 我々のアプローチはマトリックスシミュレーターで実証されている。 実験の結果,(1)log2BT$は良好な軌道再構成を達成できた。 2) 提案手法では, 安全クリティカルシナリオのタイプが最も多いが, ベースラインアルゴリズムと比較して, 全体の30%程度しか生成できない。 具体的には、2つのケーススタディにおいて、合計シナリオに対する重大な違反の割合と、合計シナリオに対するタイプの割合を少なくとも10倍と5倍に向上させ、無効シナリオと合計シナリオの比率を少なくとも58%減少させる。

The simulation-based testing of Autonomous Driving Systems (ADSs) has gained significant attention. However, current approaches often fall short of accurately assessing ADSs for two reasons: over-reliance on expert knowledge and the utilization of simplistic evaluation metrics. That leads to discrepancies between simulated scenarios and naturalistic driving environments. To address this, we propose the Matrix-Fuzzer, a behavior tree-based testing framework, to automatically generate realistic safety-critical test scenarios. Our approach involves the $log2BT$ method, which abstracts logged road-users' trajectories to behavior sequences. Furthermore, we vary the properties of behaviors from real-world driving distributions and then use an adaptive algorithm to explore the input space. Meanwhile, we design a general evaluation engine that guides the algorithm toward critical areas, thus reducing the generation of invalid scenarios. Our approach is demonstrated in our Matrix Simulator. The experimental results show that: (1) Our $log2BT$ achieves satisfactory trajectory reconstructions. (2) Our approach is able to find the most types of safety-critical scenarios, but only generating around 30% of the total scenarios compared with the baseline algorithm. Specifically, it improves the ratio of the critical violations to total scenarios and the ratio of the types to total scenarios by at least 10x and 5x, respectively, while reducing the ratio of the invalid scenarios to total scenarios by at least 58% in two case studies.
翻訳日:2023-10-24 09:03:56 公開日:2023-05-11
# PriGen: Androidアプリケーションのコードからプライバシ容量への自動翻訳を目指す

PriGen: Towards Automated Translation of Android Applications' Code to Privacy Captions ( http://arxiv.org/abs/2305.06509v1 )

ライセンス: Link先を確認
Vijayanta Jain, Sanonda Datta Gupta, Sepideh Ghanavati, Sai Teja Peddinti(参考訳) モバイルアプリケーションは、個人情報の収集や共有を行う際、ユーザにプライバシー通知を与える必要がある。 一貫性と簡潔なプライバシ通知を作成することは、開発者にとって難しい作業です。 これまでの研究は、開発者がアンケートや事前定義されたテンプレートを通じてプライバシー通知を作成するのに役立ってきた。 本稿では,これらの先行研究を拡張した新しいアプローチとフレームワーク,prigenを提案する。 PriGenは静的解析を使用して、機密情報(すなわちパーミッション要求コードセグメント)を処理するAndroidアプリケーションのコードセグメントを特定し、ニューラルネットワーク翻訳モデルを利用してプライバシキャプションに変換する。 我々は,30万ドルのコードセグメントに対して,翻訳タスクの初期評価を行う。

Mobile applications are required to give privacy notices to the users when they collect or share personal information. Creating consistent and concise privacy notices can be a challenging task for developers. Previous work has attempted to help developers create privacy notices through a questionnaire or predefined templates. In this paper, we propose a novel approach and a framework, called PriGen, that extends these prior work. PriGen uses static analysis to identify Android applications' code segments which process sensitive information (i.e. permission-requiring code segments) and then leverages a Neural Machine Translation model to translate them into privacy captions. We present the initial evaluation of our translation task for $\sim$300,000 code segments.
翻訳日:2023-10-24 09:03:34 公開日:2023-05-11
# 自然言語要件における匂いの自動検出と推薦

Automated Smell Detection and Recommendation in Natural Language Requirements ( http://arxiv.org/abs/2305.07097v1 )

ライセンス: Link先を確認
Alvaro Veizaga, Seung Yeob Shin, Lionel C. Briand(参考訳) 要求仕様は一般的に自然言語(NL)で記述されるが、それは複数のドメインにまたがるユーザビリティと、すべての利害関係者による理解性のためである。 しかし、構造化されていないNLは、要求を書く際の品質問題(例えば曖昧さ)が原因でプロジェクトの失敗につながる。 この問題に対処するために,我々は,nl要件の臭いとして品質問題を自動的に検出し,品質を改善するためのレコメンデーションを提供するpaskaというツールを提案する。 我々のアプローチは、自然言語処理(NLP)技術と、最も重要なのは、要求(Rimay)に対する最先端の制御された自然言語(CNL)を使用して、臭いを検出し、要求品質を改善するためにRimayで定義されたパターンを使用して推奨する。 13のシステムと2725のアノテート要件を含む金融分野での産業ケーススタディを通じてPaskaを評価した。 その結果,嗅覚検出の精度(精度89%,リコール89%)と適切なリメイパターン推薦の精度(精度96%,リコール94%)が示唆された。

Requirement specifications are typically written in natural language (NL) due to its usability across multiple domains and understandability by all stakeholders. However, unstructured NL is prone to quality problems (e.g., ambiguity) in writing requirements, which can result in project failures. To address this issue, we present a tool, named Paska, that automatically detects quality problems as smells in NL requirements and offers recommendations to improve their quality. Our approach relies on natural language processing (NLP) techniques and, most importantly, a state-of-the-art controlled natural language (CNL) for requirements (Rimay), to detect smells and suggest recommendations using patterns defined in Rimay to improve requirement quality. We evaluated Paska through an industrial case study in the financial domain involving 13 systems and 2725 annotated requirements. The results show that our tool is accurate in detecting smells (precision of 89% and recall of 89%) and suggesting appropriate Rimay pattern recommendations (precision of 96% and recall of 94%).
翻訳日:2023-10-24 08:54:04 公開日:2023-05-11
# SigRec:スマートコントラクトにおける関数シグナチャの自動リカバリ

SigRec: Automatic Recovery of Function Signatures in Smart Contracts ( http://arxiv.org/abs/2305.07067v1 )

ライセンス: Link先を確認
Ting Chen, Zihao Li, Xiapu Luo, Xiaofeng Wang, Ting Wang, Zheyuan He, Kezhao Fang, Yufei Zhang, Hang Zhu, Hongwei Li, Yan Cheng, Xiaosong Zhang(参考訳) 何百万ものスマートコントラクトがEthereumにデプロイされ、さまざまなサービスを提供しています。 この目的のために、呼び出し元は関数IDとパラメータタイプを含む呼び出し元の関数シグネチャを知る必要がある。 このようなシグネチャは、リバースエンジニアリング、ファジング、アタック検出、プロファイリングなど、スマートコントラクトにフォーカスした多くのアプリケーションにとって極めて重要である。 残念ながら、バイトコードにはデバッグ情報も型情報も存在しないため、コントラクトバイトコードから関数シグネチャを復元することは難しい。 この問題に対処するため、以前のアプローチでは、ソースコードや、不完全なデータベースからの既知のシグネチャのコレクション、あるいは不完全なヒューリスティックなルールに依存していた。 本稿では,Ethereum仮想マシン(EVM)が関数シグネチャを自動的に復元する手法を新たに提案する。 特に,関数IDの特定と抽出のために,スマートコントラクトが呼び出される関数を決定する方法を活用するとともに,パラメータ上のEVM操作のセマンティクスを利用してパラメータの数と型を識別する,型認識シンボル実行(TASE)という新しいアプローチを提案する。 さらに,ソースコードや関数シグネチャデータベースを必要としない契約バイトコードから関数シグネチャを復元する新しいツールであるSigRecを開発した。 大規模な実験の結果、SigRecは既存のツール全てを上回り、0.074秒で98.7%の精度を達成した。 さらに,回復した関数シグネチャが,evmバイトコードのアタック検出,ファジング,リバースエンジニアリングに有用であることを実証する。

Millions of smart contracts have been deployed onto Ethereum for providing various services, whose functions can be invoked. For this purpose, the caller needs to know the function signature of a callee, which includes its function id and parameter types. Such signatures are critical to many applications focusing on smart contracts, e.g., reverse engineering, fuzzing, attack detection, and profiling. Unfortunately, it is challenging to recover the function signatures from contract bytecode, since neither debug information nor type information is present in the bytecode. To address this issue, prior approaches rely on source code, or a collection of known signatures from incomplete databases or incomplete heuristic rules, which, however, are far from adequate and cannot cope with the rapid growth of new contracts. In this paper, we propose a novel solution that leverages how functions are handled by Ethereum virtual machine (EVM) to automatically recover function signatures. In particular, we exploit how smart contracts determine the functions to be invoked to locate and extract function ids, and propose a new approach named type-aware symbolic execution (TASE) that utilizes the semantics of EVM operations on parameters to identify the number and the types of parameters. Moreover, we develop SigRec, a new tool for recovering function signatures from contract bytecode without the need of source code and function signature databases. The extensive experimental results show that SigRec outperforms all existing tools, achieving an unprecedented 98.7 percent accuracy within 0.074 seconds. We further demonstrate that the recovered function signatures are useful in attack detection, fuzzing and reverse engineering of EVM bytecode.
翻訳日:2023-10-24 08:53:45 公開日:2023-05-11
# Sparse and Invisible Trigger によるバックドアアタック

Backdoor Attack with Sparse and Invisible Trigger ( http://arxiv.org/abs/2306.06209v1 )

ライセンス: Link先を確認
Yinghua Gao, Yiming Li, Xueluan Gong, Shu-Tao Xia, Qian Wang(参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱であり、敵は、被害者モデルが通常、良性サンプルで予測するが、トリガーされたサンプルをターゲットクラスに分類するように、少数のトレーニングデータを操作する。 バックドア攻撃は、トレーニングフェーズの脅威として浮上しているが、DNNベースのアプリケーションに深刻なリスクをもたらす。 本稿では,既存のバックドア攻撃のトリガパターンを再検討する。 私たちは、それらが見えているか、スパースでないかを明らかにします。 さらに重要なのは、既存の手法を組み合わせて効果的なスパースで見えないバックドア攻撃を設計することは不可能である。 この問題に対処するために、疎度と可視性制約を伴う二段階最適化問題としてトリガ生成を定式化し、それを解決する効果的な方法を提案する。 提案手法はsparse and visible backdoor attack (SIBA)と呼ばれる。 異なる設定下でベンチマークデータセットを広範囲に実験し、攻撃の有効性と既存のバックドア防御に対する耐性を検証する。 主な実験を再現するためのコードは \url{https://github.com/yinghuagao/siba} で入手できる。

Deep neural networks (DNNs) are vulnerable to backdoor attacks, where the adversary manipulates a small portion of training data such that the victim model predicts normally on the benign samples but classifies the triggered samples as the target class. The backdoor attack is an emerging yet threatening training-phase threat, leading to serious risks in DNN-based applications. In this paper, we revisit the trigger patterns of existing backdoor attacks. We reveal that they are either visible or not sparse and therefore are not stealthy enough. More importantly, it is not feasible to simply combine existing methods to design an effective sparse and invisible backdoor attack. To address this problem, we formulate the trigger generation as a bi-level optimization problem with sparsity and invisibility constraints and propose an effective method to solve it. The proposed method is dubbed sparse and invisible backdoor attack (SIBA). We conduct extensive experiments on benchmark datasets under different settings, which verify the effectiveness of our attack and its resistance to existing backdoor defenses. The codes for reproducing main experiments are available at \url{https://github.com/YinghuaGao/SIBA}.
翻訳日:2023-06-18 12:41:20 公開日:2023-05-11
# Unicodeテキストに対する Abugida Normalizer と Parser

Abugida Normalizer and Parser for Unicode texts ( http://arxiv.org/abs/2306.01743v1 )

ライセンス: Link先を確認
Nazmuddoha Ansary, Quazi Adibur Rahman Adib, Tahsin Reasat, Sazia Mehnaz, Asif Shahriyar Sushmit, Ahmed Imtiaz Humayun, Mohammad Mamun Or Rashid, Farig Sadeque(参考訳) 本稿では,Unicodeベースの言語記述方式における共通および非共通問題に対処する2つのライブラリを提案する。 1つ目は、エンコーディングスキーム https://pypi.org/project/bnunicodenormalizer/ によって生じる矛盾を修正する正規化子である。 2つ目は、abugida text https://pypi.org/project/indicparser/用のgraphemeパーサである。 どちらのツールも、以前使ったツールよりも効率的で効果的です。 我々は400%の速度向上を報告し、異なる言語モデルに基づく下流タスクにおける性能を著しく向上させる。

This paper proposes two libraries to address common and uncommon issues with Unicode-based writing schemes for Indic languages. The first is a normalizer that corrects inconsistencies caused by the encoding scheme https://pypi.org/project/bnunicodenormalizer/ . The second is a grapheme parser for Abugida text https://pypi.org/project/indicparser/ . Both tools are more efficient and effective than previously used tools. We report 400% increase in speed and ensure significantly better performance for different language model based downstream tasks.
翻訳日:2023-06-11 14:13:59 公開日:2023-05-11
# パーソナライズ可能な女性および男性歩行者SAFER人体モデルの開発と全体的検証

Development and Whole-Body Validation of Personalizable Female and Male Pedestrian SAFER Human Body Models ( http://arxiv.org/abs/2305.13918v1 )

ライセンス: Link先を確認
Natalia Lindgren, Qiantailang Yuan, Bengt Pipkorn, Svein Kleiven and Xiaogai Li(参考訳) 脆弱な道路利用者は、世界中の道路交通の負傷者数で過大評価されている。 道路安全の向上と介入戦略の策定をめざして, 多様な人文科学を代表して, 生物中心的な男性・女性歩行者HBMの開発が不可欠である。 本研究では,SAFER HBMの50分の1のオスとメスの歩行者を対象に,画像登録に基づくメッシュ・フォーミング・フレームワークを開発した。 HBMとそれに伴うパーソナライズ・フレームワークは, 汎用セダン・バックによって横打ちされたキャダバー実験によって評価された。 シミュレーションされた全身の歩行者衝突では、パーソナライズされたHBMは、横方向の衝撃で観察された軌跡と頭部運動学を再現する優れた能力を示す。 提案した歩行者HBMとパーソナライズフレームワークは、歩行者と車両の衝突を徹底的かつ正確に再構築し、評価する堅牢な手段を提供する。

Vulnerable road users are overrepresented in the worldwide number of road-traffic injury victims. Developing biofidelic male and female pedestrian HBMs representing a range of anthropometries is imperative to follow through with the efforts to increase road safety and propose intervention strategies. In this study, a 50th percentile male and female pedestrian of the SAFER HBM was developed via a newly developed image registration-based mesh morphing framework for subject personalization. The HBM and its accompanied personalization framework were evaluated by means of a set of cadaver experiments, where subjects were struck laterally by a generic sedan buck. In the simulated whole-body pedestrian collisions, the personalized HBMs demonstrate a good capability of reproducing the trajectories and head kinematics observed in lateral impacts. The presented pedestrian HBMs and personalization framework provide robust means to thoroughly and accurately reconstruct and evaluate pedestrian-to-vehicle collisions.
翻訳日:2023-05-28 05:12:54 公開日:2023-05-11
# ウイルス-宿主相互作用抽出のための新しいデータセット

A Novel Dataset Towards Extracting Virus-Host Interactions ( http://arxiv.org/abs/2305.13317v1 )

ライセンス: Link先を確認
Rasha Alshawi, Atriya Sen, Nathan S. Upham, Beckett Sterner(参考訳) 本稿では,ウイルスと宿主の関連付けに関連する命名分類学およびその他の実体の自動認識のための新しいデータセットについて述べる。 さらに、この新しいデータセットにおけるNERタスクの事前学習モデルを用いて、いくつかの初期結果について述べる。 筆者らは,手指アノテーション付き抄録のデータセットに,今後のnerモデルのトレーニングのためのゴールド・スタンダード・コーパスが提供され,学術論文からホスト病原体検出手法を自動的に抽出し,本研究がどのようにしてヒトの健康に関連する重要な概念であるウイルス散布リスクを科学文献から自動で予測するための第一歩を踏み出すかを説明する。

We describe a novel dataset for the automated recognition of named taxonomic and other entities relevant to the association of viruses with their hosts. We further describe some initial results using pre-trained models on the named-entity recognition (NER) task on this novel dataset. We propose that our dataset of manually annotated abstracts now offers a Gold Standard Corpus for training future NER models in the automated extraction of host-pathogen detection methods from scientific publications, and further explain how our work makes first steps towards predicting the important human health-related concept of viral spillover risk automatically from the scientific literature.
翻訳日:2023-05-28 05:11:31 公開日:2023-05-11
# 臨界解析:バイオインスパイアされた非線形データ表現

Criticality Analysis: Bio-inspired Nonlinear Data Representation ( http://arxiv.org/abs/2305.14361v1 )

ライセンス: Link先を確認
Tjeerd V. olde Scheper(参考訳) 生物系における任意のデータの表現は、生物情報処理の最も不可解な要素の1つである。 生体システムに提示される振幅と周波数における情報の対数的性質は、入力に含まれる情報の単純なカプセル化を防ぐ。 臨界解析(英: criticality analysis、ca)は、生物にインスパイアされた、無スケール表現を可能にする自己組織的臨界システム内の情報表現の手法である。 これは、自己相似データが動的非線形表現を生成する動的振る舞いの貯水池の概念に基づいている。 このユニークなデータ投影は多次元近傍におけるデータの類似性を保存する。 入力は、全体的なデータの特徴を保持する投影出力に次元的に縮小できるが、より単純な動的応答を持つ。 この方法は、任意のデータのエンコーディングを可能にする基盤となる制御モデルに適用されるカオスのレート制御にのみ依存し、振動子の生物学的関連ネットワークが与えられたデータの最適なエンコーディングを約束する。 CA法は、生体システムへの任意の入力の生物学的に関連する符号化機構を可能にし、生物の複雑さの異なる情報処理に適したモデルと機械学習のためのスケールフリーなデータ表現を作成する。

The representation of arbitrary data in a biological system is one of the most elusive elements of biological information processing. The often logarithmic nature of information in amplitude and frequency presented to biosystems prevents simple encapsulation of the information contained in the input. Criticality Analysis (CA) is a bio-inspired method of information representation within a controlled self-organised critical system that allows scale-free representation. This is based on the concept of a reservoir of dynamic behaviour in which self-similar data will create dynamic nonlinear representations. This unique projection of data preserves the similarity of data within a multidimensional neighbourhood. The input can be reduced dimensionally to a projection output that retains the features of the overall data, yet has much simpler dynamic response. The method depends only on the rate control of chaos applied to the underlying controlled models, that allows the encoding of arbitrary data, and promises optimal encoding of data given biological relevant networks of oscillators. The CA method allows for a biologically relevant encoding mechanism of arbitrary input to biosystems, creating a suitable model for information processing in varying complexity of organisms and scale-free data representation for machine learning.
翻訳日:2023-05-28 04:49:33 公開日:2023-05-11
# バランスクラスタリングにおけるエントロピー認識の類似性:メラノーマ検出例

Entropy-Aware Similarity for Balanced Clustering: A Case Study with Melanoma Detection ( http://arxiv.org/abs/2305.15417v1 )

ライセンス: Link先を確認
Seok Bin Son, Soohyun Park, Joongheon Kim(参考訳) データクラスタリングは、データポイントのセットを複数のグループに分割することを目的とした教師なしの学習アプローチである。 これは、機械学習とデータマイニングにおいて重要な課題である。 その応用は様々な分野にまたがる。 しかし、従来のクラスタリング技術では、特定のアプリケーションにおけるバランスの重要性を考慮する必要がある。 そこで本稿では,不均衡クラスタリング問題の課題に対処し,均衡度として定義できるエントロピー・アウェアの類似性を利用した新しいバランスクラスタリング手法を提案する。 本研究では,不均衡データの相補的クラスタリングによってクラスタリング中のバランスを最大化し,角度差と距離の両方を考慮に入れた新しい類似式にエントロピーを取り入れた,バランスクラスタリングのためのエントロピー対応類似性(entropy-aware similarity)という用語を作成した。 本手法の有効性は,実際のメラノーマ,特にinternational skin imaging collaboration (isic) 2019および2020 challenge datasetsを用いて評価し,バランスを保ちながらデータを効果的にクラスタ化できることを実証した。 最後に,提案手法が従来の方法と比較してメラノーマの検出に優れていたことを確認する。

Clustering data is an unsupervised learning approach that aims to divide a set of data points into multiple groups. It is a crucial yet demanding subject in machine learning and data mining. Its successful applications span various fields. However, conventional clustering techniques necessitate the consideration of balance significance in specific applications. Therefore, this paper addresses the challenge of imbalanced clustering problems and presents a new method for balanced clustering by utilizing entropy-aware similarity, which can be defined as the degree of balances. We have coined the term, entropy-aware similarity for balanced clustering (EASB), which maximizes balance during clustering by complementary clustering of unbalanced data and incorporating entropy in a novel similarity formula that accounts for both angular differences and distances. The effectiveness of the proposed approach is evaluated on actual melanoma medial data, specifically the International Skin Imaging Collaboration (ISIC) 2019 and 2020 challenge datasets, to demonstrate how it can successfully cluster the data while preserving balance. Lastly, we can confirm that the proposed method exhibited outstanding performance in detecting melanoma, comparing to classical methods.
翻訳日:2023-05-28 04:40:39 公開日:2023-05-11
# 知識追跡における終端因果発見の概念モデル

A Conceptual Model for End-to-End Causal Discovery in Knowledge Tracing ( http://arxiv.org/abs/2305.16165v1 )

ライセンス: Link先を確認
Nischal Ashok Kumar, Wanyong Feng, Jaewook Lee, Hunter McNichols, Aritra Ghosh, Andrew Lan(参考訳) 本稿では,知識追跡における因果発見(因果発見)の問題を解決するための予備的なステップ,すなわち実世界の学生の反応データから異なるスキル間の因果関係を見出す。 この問題は、広範囲なA/Bテストなしに異なるスキル間の因果関係を理解するのに役立つ可能性があるため、教育者がより優れたカリキュラムを設計するのに役立つ可能性がある。 具体的には、改良された知識追跡モデルにおける概念的解、新しい因果ゲート再帰単位(GRU)モジュールを提案する。 一 技能間の因果順序付けのための学習可能な順列行列 二 スキル間の因果構造のための任意に学習可能な下三角行列 また、モデルパラメータをエンドツーエンドで微分可能な方法で学習する方法についても詳しく説明します。 私たちのソリューションは、教育における学習経路の因果的洞察に関するneurips 2022チャレンジのタスク3の上位エントリに含まれています。 基礎的真理因果構造が公表されていないため,現地での詳細な評価が不可能となるため,課題の公開リーダボード上で評価した予備実験について詳述する。

In this paper, we take a preliminary step towards solving the problem of causal discovery in knowledge tracing, i.e., finding the underlying causal relationship among different skills from real-world student response data. This problem is important since it can potentially help us understand the causal relationship between different skills without extensive A/B testing, which can potentially help educators to design better curricula according to skill prerequisite information. Specifically, we propose a conceptual solution, a novel causal gated recurrent unit (GRU) module in a modified deep knowledge tracing model, which uses i) a learnable permutation matrix for causal ordering among skills and ii) an optionally learnable lower-triangular matrix for causal structure among skills. We also detail how to learn the model parameters in an end-to-end, differentiable way. Our solution placed among the top entries in Task 3 of the NeurIPS 2022 Challenge on Causal Insights for Learning Paths in Education. We detail preliminary experiments as evaluated on the challenge's public leaderboard since the ground truth causal structure has not been publicly released, making detailed local evaluation impossible.
翻訳日:2023-05-28 04:32:24 公開日:2023-05-11
# PPGenCDR: プライバシー保護クロスドメイン勧告のための安定的でロバストなフレームワーク

PPGenCDR: A Stable and Robust Framework for Privacy-Preserving Cross-Domain Recommendation ( http://arxiv.org/abs/2305.16163v1 )

ライセンス: Link先を確認
Xinting Liao, Weiming Liu, Xiaolin Zheng, Binhui Yao, and Chaochao Chen(参考訳) プライバシ保護クロスドメインレコメンデーション(PPCDR)とは、ソースドメインからターゲットドメインに知識を転送する際のユーザのプライバシを保存することであり、リコメンデーションシステムの長期的な開発に不可欠である。 クロスドメインレコメンデーション(CDR)に関する既存の作業は、高度なレコメンデーションパフォーマンスを満足する一方で、プライバシの保護をほとんど無視している。 このギャップを埋めるために、PPCDRのためのプライバシー保護型生成ドメインレコメンデーション(PPGenCDR)フレームワークを提案する。 PPGenCDRには、安定なプライバシ保存ジェネレータモジュールと堅牢なクロスドメインレコメンデーションモジュールの2つの主要なモジュールが含まれている。 具体的には、gan(generative adversarial network)ベースのモデルを用いて、異なるドメインからデータを分離し、renyi differential privacy(rdp)技術を用いて、ソースドメイン内のプライベートデータの分布を安定的に見積もる。 次に、後者は、ソースドメインからの摂動だが効果的な知識をターゲットドメインの生データにしっかりと活用し、レコメンデーションパフォーマンスを向上させることを目的としています。 1)選択的プライバシ保持器,(2)gan安定化器,(3)ロバスト性導体という3つのキーモジュールは,実用性とプライバシの間の費用対効果の高いトレードオフ,rdpを使用する際のganの安定性,それに応じて転送可能な知識を活用するロバスト性を保証する。 DoubanとAmazonのデータセットに関する広範な実証研究は、PPGenCDRがプライバシーを維持しながら最先端のレコメンデーションモデルを大幅に上回っていることを示している。

Privacy-preserving cross-domain recommendation (PPCDR) refers to preserving the privacy of users when transferring the knowledge from source domain to target domain for better performance, which is vital for the long-term development of recommender systems. Existing work on cross-domain recommendation (CDR) reaches advanced and satisfying recommendation performance, but mostly neglects preserving privacy. To fill this gap, we propose a privacy-preserving generative cross-domain recommendation (PPGenCDR) framework for PPCDR. PPGenCDR includes two main modules, i.e., stable privacy-preserving generator module, and robust cross-domain recommendation module. Specifically, the former isolates data from different domains with a generative adversarial network (GAN) based model, which stably estimates the distribution of private data in the source domain with Renyi differential privacy (RDP) technique. Then the latter aims to robustly leverage the perturbed but effective knowledge from the source domain with the raw data in target domain to improve recommendation performance. Three key modules, i.e., (1) selective privacy preserver, (2) GAN stabilizer, and (3) robustness conductor, guarantee the cost-effective trade-off between utility and privacy, the stability of GAN when using RDP, and the robustness of leveraging transferable knowledge accordingly. The extensive empirical studies on Douban and Amazon datasets demonstrate that PPGenCDR significantly outperforms the state-of-the-art recommendation models while preserving privacy.
翻訳日:2023-05-28 04:32:09 公開日:2023-05-11
# 加速2レベルシングル・エンタングル原子系に対するフリング・デイビス・アンルー効果

Fulling-Davies-Unruh effect for accelerated two-level single and entangled atomic systems ( http://arxiv.org/abs/2305.08867v1 )

ライセンス: Link先を確認
Arnab Mukherjee, Sunandan Gangopadhyay, A. S. Majumdar(参考訳) 空空間およびキャビティ内部における一様加速二段階単一および絡み合った原子系の遷移速度について検討した。 我々は,即時慣性オブザーバと共加速オブザーバの観点から,システムと無質量スカラー場の相互作用を考慮に入れた。 二原子系では、システムは初めは一般的な純粋に絡み合った状態で準備されていると考えられる。 キャビティの存在下では、単原子と二原子の場合の両方において、原子系の加速によって上向きの遷移が起こることが観察される。 遷移速度は空洞やシステムパラメータによって微妙な特徴を呈し、初期絡み合いも現れる。 量子情報処理応用において, 加速2原子系のエンタングルメントが保存可能であることを示すため, 最大エンタングル化サブラジアント初期状態については遷移が起こらないことが示された。 本解析は, 慣性観察者に対する一様加速度の効果と, 共加速観察者に対する熱浴の効果, 空洞内および空洞内における熱浴の温度が無ルー温度と等しい場合の等価性を包括的に検証する。

We investigate the transition rates of uniformly accelerated two-level single and entangled atomic systems in empty space as well as inside a cavity. We take into account the interaction between the systems and a massless scalar field from the viewpoint of an instantaneously inertial observer and a coaccelerated observer, respectively. For the two-atom system, we consider that the system is initially prepared in a generic pure entangled state. In the presence of a cavity, we observe that for both the single and the two-atom cases, the upward transition occurs due to the acceleration of the atomic systems. The transition rate manifests subtle features depending upon cavity and system parameters, as well as the initial entanglement. It is shown that no transition occurs for a maximally entangled sub-radiant initial state, signifying that such entanglement in the accelerated two-atom system can be preserved for quantum information processing applications. Our analysis comprehensively validates the equivalence between the effect of uniform acceleration for an inertial observer and the effect of a thermal bath for a coaccelerated observer, in free space as well as inside a cavity, if the temperature of the thermal bath is equal to the Unruh temperature.
翻訳日:2023-05-21 11:03:49 公開日:2023-05-11
# 産業用制御システムの異常検出データセット

Anomaly Detection Dataset for Industrial Control Systems ( http://arxiv.org/abs/2305.09678v1 )

ライセンス: Link先を確認
Alireza Dehlaghi-Ghadim, Mahshid Helali Moghadam, Ali Balador, Hans Hansson(参考訳) 過去数十年間、ICS(Industrial Control Systems)はサイバー攻撃の対象となり、ICSがインターネットに接続されるにつれて、ますます脆弱になりつつある。 侵入検知システム(IDS)に機械学習(ML)を使用することは、ICSサイバー保護にとって有望なアプローチであるが、MLアルゴリズムを評価するための適切なデータセットが欠如していることが課題である。 一般的に使用されるデータセットはいくつか存在するが、現実のicsネットワークデータを反映していないか、効果的な異常検出に必要な機能がないか、時代遅れである。 本稿では、教師付きおよび教師なしMLベースのIDS評価のためのネットワークデータとプロセス状態変数ログを提供する「ICS-Flow」データセットを提案する。 ネットワークデータは、通常のネットワークパケット及び異常ネットワークパケットを含み、シミュレーションicコンポーネントおよびエミュレートされたネットワークからキャプチャされるフローを含む。 異常はハッカーがネットワークトラフィックの修正やICSの侵入によく使う様々な攻撃手法によってシステムに注入された。 また、Raw ネットワークパケットからネットワークフローパラメータを生成するためのオープンソースツール 'ICSFlowGenerator' も提案した。 最後のデータセットは25,000,000以上の生ネットワークパケット、ネットワークフローレコード、プロセス変数ログで構成されている。 本稿では,データセットの収集とラベル付けに使用される方法論を説明し,詳細なデータ解析を行う。 最後に、決定木、ランダムフォレスト、人工知能ニューラルネットワークなど、いくつかのMLモデルを実装し、異常や攻撃を検知し、我々のデータセットが侵入検出MLモデルのトレーニングに有効であることを示す。

Over the past few decades, Industrial Control Systems (ICSs) have been targeted by cyberattacks and are becoming increasingly vulnerable as more ICSs are connected to the internet. Using Machine Learning (ML) for Intrusion Detection Systems (IDS) is a promising approach for ICS cyber protection, but the lack of suitable datasets for evaluating ML algorithms is a challenge. Although there are a few commonly used datasets, they may not reflect realistic ICS network data, lack necessary features for effective anomaly detection, or be outdated. This paper presents the 'ICS-Flow' dataset, which offers network data and process state variables logs for supervised and unsupervised ML-based IDS assessment. The network data includes normal and anomalous network packets and flows captured from simulated ICS components and emulated networks. The anomalies were injected into the system through various attack techniques commonly used by hackers to modify network traffic and compromise ICSs. We also proposed open-source tools, `ICSFlowGenerator' for generating network flow parameters from Raw network packets. The final dataset comprises over 25,000,000 raw network packets, network flow records, and process variable logs. The paper describes the methodology used to collect and label the dataset and provides a detailed data analysis. Finally, we implement several ML models, including the decision tree, random forest, and artificial neural network to detect anomalies and attacks, demonstrating that our dataset can be used effectively for training intrusion detection ML models.
翻訳日:2023-05-21 10:56:15 公開日:2023-05-11
# AIをエッジに持ち込む - 効果的なIoTアーキテクチャをデプロイするための正式なM&S仕様

Bringing AI to the edge: A formal M&S specification to deploy effective IoT architectures ( http://arxiv.org/abs/2305.10437v1 )

ライセンス: Link先を確認
Rom\'an C\'ardenas, Patricia Arroba and Jos\'e L. Risco-Mart\'in(参考訳) モノのインターネットは私たちの社会を変え、生活の質と資源管理を改善する新しいサービスを提供しています。 これらのアプリケーションは、複数の分散デバイスのユビキタスネットワークに基づいており、限られたコンピューティングリソースとパワーを持ち、異種ソースからデータをリアルタイムで収集し保存することができる。 ネットワーク飽和と高い遅延を避けるため、フォグコンピューティングのような新しいアーキテクチャが登場し、コンピューティング基盤をデータソースに近づけている。 さらに、ネットワークの端にリアルタイムのビッグデータとデータ分析機能を提供するには、新たなデータセンタが必要である。 本研究では,離散イベントシステム仕様の定式化を用いたモデルベースシステム工学の原理に基づくIoTモデルを提案する。 提供される数学的形式は、IoTデバイスからエッジデータセンタの処理ユニットに至るまで、アーキテクチャ全体の記述をカバーしている。 本研究は,ユーザ機器,ネットワーク,コンピューティング基盤の位置認識機能を含み,遅延と電力消費の観点から協調リソース管理を最適化する。 本稿では,IoTデータストリーム分析アプリケーションの次元化と動的操作を支援する効果的なフレームワークを提案する。

The Internet of Things is transforming our society, providing new services that improve the quality of life and resource management. These applications are based on ubiquitous networks of multiple distributed devices, with limited computing resources and power, capable of collecting and storing data from heterogeneous sources in real-time. To avoid network saturation and high delays, new architectures such as fog computing are emerging to bring computing infrastructure closer to data sources. Additionally, new data centers are needed to provide real-time Big Data and data analytics capabilities at the edge of the network, where energy efficiency needs to be considered to ensure a sustainable and effective deployment in areas of human activity. In this research, we present an IoT model based on the principles of Model-Based Systems Engineering defined using the Discrete Event System Specification formalism. The provided mathematical formalism covers the description of the entire architecture, from IoT devices to the processing units in edge data centers. Our work includes the location-awareness of user equipment, network, and computing infrastructures to optimize federated resource management in terms of delay and power consumption. We present an effective framework to assist the dimensioning and the dynamic operation of IoT data stream analytics applications, demonstrating our contributions through a driving assistance use case based on real traces and data.
翻訳日:2023-05-21 10:37:00 公開日:2023-05-11
# SmartPhone: 自動生成のVerbalとVisual Cuesを使ったキーワードMnemonicの探索

SmartPhone: Exploring Keyword Mnemonic with Auto-generated Verbal and Visual Cues ( http://arxiv.org/abs/2305.10436v1 )

ライセンス: Link先を確認
Jaewook Lee and Andrew Lan(参考訳) 第二言語語彙学習では、既存の研究は主に学習インターフェースや、記憶保持を最大化するためにパーソナライズされた検索プラクティスのスケジューリングに重点を置いている。 しかし、学習内容、すなわちフラッシュカードに提示される情報は、ほとんど一定のままである。 キーワード・ムネモニック(英: Keyword mnemonic)は、新しい語彙と既存の知識を関連づける有名な学習戦略である。 さらに、これらのリンクの構築を容易にするために、キーワードに関連する言語的および視覚的な手がかりを生成するには、手動のプロセスが必要で、スケーラブルではない。 本稿では,大言語モデルを用いて,キーワード・メニーモニックのための言語・視覚的手がかりを自動的に生成する機会を探る。 言語と視覚を自動生成するエンド・ツー・エンドのパイプラインである我々のアプローチは、覚えやすいキューを自動的に生成することができる。 本研究は,人体実験によるアプローチの有効性について,手動で作成した手がかりと比較することによって検討する。

In second language vocabulary learning, existing works have primarily focused on either the learning interface or scheduling personalized retrieval practices to maximize memory retention. However, the learning content, i.e., the information presented on flashcards, has mostly remained constant. Keyword mnemonic is a notable learning strategy that relates new vocabulary to existing knowledge by building an acoustic and imagery link using a keyword that sounds alike. Beyond that, producing verbal and visual cues associated with the keyword to facilitate building these links requires a manual process and is not scalable. In this paper, we explore an opportunity to use large language models to automatically generate verbal and visual cues for keyword mnemonics. Our approach, an end-to-end pipeline for auto-generating verbal and visual cues, can automatically generate highly memorable cues. We investigate the effectiveness of our approach via a human participant experiment by comparing it with manually generated cues.
翻訳日:2023-05-21 10:36:40 公開日:2023-05-11
# ジェネレーティブ事前学習トランス : 実現技術,潜在的な応用,新興課題,今後の方向性に関する包括的レビュー

Generative Pre-trained Transformer: A Comprehensive Review on Enabling Technologies, Potential Applications, Emerging Challenges, and Future Directions ( http://arxiv.org/abs/2305.10435v1 )

ライセンス: Link先を確認
Gokul Yenduri, Ramalingam M, Chemmalar Selvi G, Supriya Y, Gautam Srivastava, Praveen Kumar Reddy Maddikunta, Deepti Raj G, Rutvij H Jhaveri, Prabadevi B, Weizheng Wang, Athanasios V. Vasilakos, and Thippa Reddy Gadekallu(参考訳) 生成事前学習型トランスフォーマーモデルは、自然言語処理の分野における画期的なブレークスルーであり、人間のものとよく似た方法で、言語を使って理解し、コミュニケーションできる機械の開発を推進している。 Generative Pre-trained Transformerモデルは、自然言語処理タスク用に設計されたディープニューラルネットワークであるTransformerアーキテクチャに基づいている。 自然言語処理タスクにおける印象的なパフォーマンスと効果的な会話能力により、生成事前学習トランスフォーマーモデルは研究者や産業コミュニティの間で大きな人気を集めており、自然言語処理や関連分野において最も広く使われている効果的なモデルの一つとなっている。 本レビューでは,そのアーキテクチャ,作業プロセス,訓練手順,実現技術,各種アプリケーションへの影響など,生成的事前学習トランスの詳細な概要について述べる。 本総説では, 生成予習変圧器の潜在的な課題と限界についても検討した。 さらに,潜在的な解決策と今後の方向性についても論じる。 本稿では, 汎用事前学習トランスフォーマーの包括的理解, 技術, 様々なアプリケーションへの影響, 新たな課題, 潜在的なソリューションの提供を目的とする。

The Generative Pre-trained Transformer models represent a notable breakthrough in the domain of natural language processing, which is propelling us toward the development of machines that can understand and communicate using language in a manner that closely resembles that of humans. Generative Pre-trained Transformer models are based on the transformer architecture, a deep neural network designed for natural language processing tasks. Due to their impressive performance on natural language processing tasks and ability to effectively converse, Generative Pre-trained Transformer models have gained significant popularity among researchers and industrial communities, making them one of the most widely used and effective models in natural language processing and related fields, which motivated to conduct this review. This review provides a detailed overview of the Generative Pre-trained Transformer, including its architecture, working process, training procedures, enabling technologies, and its impact on various applications. In this review, we also explored the potential challenges and limitations of a Generative Pre-trained Transformer. Furthermore, we discuss potential solutions and future directions. Overall, this paper aims to provide a comprehensive understanding of Generative Pre-trained Transformers, enabling technologies, their impact on various applications, emerging challenges, and potential solutions.
翻訳日:2023-05-21 10:36:23 公開日:2023-05-11
# 大規模視覚言語モデルを用いたテキストの可視性学習

Learning the Visualness of Text Using Large Vision-Language Models ( http://arxiv.org/abs/2305.10434v1 )

ライセンス: Link先を確認
Gaurav Verma, Ryan A. Rossi, Christopher Tensmeyer, Jiuxiang Gu, Ani Nenkova(参考訳) 視覚テキストは人の心の中のイメージを誘発するが、非視覚テキストはそうしない。 テキスト内の視覚を自動的に検出する方法は、入力テキストが本質的に視覚的であるという暗黙の仮定に基づいて、ニューラルネットワークによる画像生成と検索モデルが動作するため、関連する画像でテキストを拡張できる。 3,620の英文のデータセットと、複数の人間の注釈者が提供する視覚スコアをキュレートした。 さらに,テキストと視覚的アセットを含む文書を用いて,文書テキストと関連画像の遠隔教師付きコーパスを作成する。 また,テキスト入力のみからテキストの視覚性を評価するタスクに対して,テキストと画像の1対1対応を仮定するCLIPのような大規模視覚言語モデルを適用するための微調整戦略を提案する。 本手法は,非視覚と認識されるテキストを共通のヌル画像にマッピングし,文書中の対応する画像と視覚的テキストをマッチングする,モデルのコントラスト学習目標を変更することを目的とする。 提案するアプローチの能力を評価する。 (i)視覚的・非視覚的テキストを正確に分類し、 (二)心理言語学研究において視覚的に識別される単語に参画すること。 経験的評価は,提案手法が複数のヒューリスティックモデルやベースラインモデルよりも優れた性能を示す。 さらに,テキストの視覚的さをモデル化することの重要性を強調するため,dall-e のようなテキスト対画像生成システムの質的分析を行う。

Visual text evokes an image in a person's mind, while non-visual text fails to do so. A method to automatically detect visualness in text will unlock the ability to augment text with relevant images, as neural text-to-image generation and retrieval models operate on the implicit assumption that the input text is visual in nature. We curate a dataset of 3,620 English sentences and their visualness scores provided by multiple human annotators. Additionally, we use documents that contain text and visual assets to create a distantly supervised corpus of document text and associated images. We also propose a fine-tuning strategy that adapts large vision-language models like CLIP that assume a one-to-one correspondence between text and image to the task of scoring text visualness from text input alone. Our strategy involves modifying the model's contrastive learning objective to map text identified as non-visual to a common NULL image while matching visual text to their corresponding images in the document. We evaluate the proposed approach on its ability to (i) classify visual and non-visual text accurately, and (ii) attend over words that are identified as visual in psycholinguistic studies. Empirical evaluation indicates that our approach performs better than several heuristics and baseline models for the proposed task. Furthermore, to highlight the importance of modeling the visualness of text, we conduct qualitative analyses of text-to-image generation systems like DALL-E.
翻訳日:2023-05-21 10:36:00 公開日:2023-05-11
# 毒性インスペクタ:フィードバックによる毒性検出における基礎的真理評価の枠組み

Toxicity Inspector: A Framework to Evaluate Ground Truth in Toxicity Detection Through Feedback ( http://arxiv.org/abs/2305.10433v1 )

ライセンス: Link先を確認
Huriyyah Althunayan, Rahaf Bahlas, Manar Alharbi, Lena Alsuwailem, Abeer Aldayel, Rehab ALahmadi(参考訳) トックス言語はモノリシックではないため定義が困難であり、毒性の知覚に多くのバリエーションがある。 有害言語を検出するというこの課題は、その解釈の文脈と主観性によって増大し、データセットの信頼性を低下させ、検出モデルの性能に悪影響を及ぼす可能性がある。 この空白を埋めるため,本稿では,繰り返しフィードバックサイクルを通じて評価器の値に集中することにより,有毒性ベンチマークデータセットの信頼性を高めることを目的とした,人道的パイプラインを組み込んだ有毒性検査フレームワークを提案する。 このフレームワークの中心は反復的なフィードバックプロセスであり、評価者やデータセット作成者に対して、パフォーマンス向上と毒性回避のトレードオフをバランスさせる洞察力のある検査を提供する、2つのメトリクスタイプ(ハードとソフト)によって導かれる。

Toxic language is difficult to define, as it is not monolithic and has many variations in perceptions of toxicity. This challenge of detecting toxic language is increased by the highly contextual and subjectivity of its interpretation, which can degrade the reliability of datasets and negatively affect detection model performance. To fill this void, this paper introduces a toxicity inspector framework that incorporates a human-in-the-loop pipeline with the aim of enhancing the reliability of toxicity benchmark datasets by centering the evaluator's values through an iterative feedback cycle. The centerpiece of this framework is the iterative feedback process, which is guided by two metric types (hard and soft) that provide evaluators and dataset creators with insightful examination to balance the tradeoff between performance gains and toxicity avoidance.
翻訳日:2023-05-21 10:35:38 公開日:2023-05-11
# 1型糖尿病患者の運動検出のためのアンサンブル学習アプローチ

An Ensemble Learning Approach for Exercise Detection in Type 1 Diabetes Patients ( http://arxiv.org/abs/2305.10353v1 )

ライセンス: Link先を確認
Ke Ma, Hongkai Chen, Shan Lin(参考訳) 1型糖尿病は、個人が血糖値を調節できない重篤な疾患であり、様々な合併症を引き起こす。 人工膵(AP)システムは1型糖尿病患者の膵の挙動を模倣し、血糖値を調節するソリューションとして開発された。 しかし、現在のAPシステムは運動によるグルコース摂取の検出能力に欠けており、最大4時間から8時間持続する。 この障害は低血糖を引き起こす可能性があり、もし未治療のままにしておけば、死を含む深刻な結果をもたらす可能性がある。 既存のエクササイズ検出方法は、単一のセンサーデータに制限されるか、またはエクササイズ検出に不正確なモデルを使用するかのいずれかであり、実際は効果が低い。 本研究では,データ駆動型生理モデルとシャムネットワークを組み合わせたアンサンブル学習フレームワークを提案する。 提案手法の有効性を評価するため, 糖尿病患者12名を対象に, 8週間の臨床試験を行った。 提案手法は,運動検出における正の86.4%,正の負の99.1%を達成し,最先端のソリューションを上回った。

Type 1 diabetes is a serious disease in which individuals are unable to regulate their blood glucose levels, leading to various medical complications. Artificial pancreas (AP) systems have been developed as a solution for type 1 diabetic patients to mimic the behavior of the pancreas and regulate blood glucose levels. However, current AP systems lack detection capabilities for exercise-induced glucose intake, which can last up to 4 to 8 hours. This incapability can lead to hypoglycemia, which if left untreated, could have serious consequences, including death. Existing exercise detection methods are either limited to single sensor data or use inaccurate models for exercise detection, making them less effective in practice. In this work, we propose an ensemble learning framework that combines a data-driven physiological model and a Siamese network to leverage multiple physiological signal streams for exercise detection with high accuracy. To evaluate the effectiveness of our proposed approach, we utilized a public dataset with 12 diabetic patients collected from an 8-week clinical trial. Our approach achieves a true positive rate for exercise detection of 86.4% and a true negative rate of 99.1%, outperforming state-of-the-art solutions.
翻訳日:2023-05-21 10:34:12 公開日:2023-05-11
# 幾何学的変換感性アーキテクチャを用いた非対象中心画像からの自己教師付き学習

Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture ( http://arxiv.org/abs/2304.08014v6 )

ライセンス: Link先を確認
Taeho Kim, Jong-Min Lee(参考訳) ほとんどの不変性に基づく自己教師付き手法は、幾何学変換に不変な事前学習のための単一のオブジェクト中心の画像(イメージネット画像など)に依存している。 しかし、画像がオブジェクト中心でない場合、画像のセマンティクスは切り欠きによって著しく変化する可能性がある。 さらに、モデルが幾何学的変換に敏感になるにつれて、位置情報を捉えるのに苦労する可能性がある。 そこで我々は,4次元回転,ランダム作物,マルチクロップに着目し,幾何学的変換に敏感な幾何学的変換センシティブなアーキテクチャを提案する。 本手法は,教師特徴マップのプーリングと回転を通じて,その変換によって変化する目標を用いて,生徒の自転を予測し,センシティブ化を促す。 さらに、パッチ対応損失を利用して、類似した特徴を持つパッチ間の対応を促進する。 このアプローチは、学習がマルチクロップに敏感でない場合に発生する局所的対グローバル対応を奨励することで、長期的な依存関係を捉えるよりも適切な方法で長期的な依存関係を捉えることができます。 提案手法は,非対象中心の画像を事前学習データとして使用する場合,幾何学的変換に敏感であるようにモデルを訓練する他の方法と比較して,性能向上を示す。 画像分類、意味セグメンテーション、検出、インスタンスセグメンテーションといったタスクでは、dino[caron et al.[2021b]のベースラインを4.9$top-1 acc$、3.3$miou$、3.4$ap^b$、2.7$ap^m$で上回りました。 コードおよび事前訓練されたモデルは、以下の通り公開されている。

Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning features that invariant to geometric transformation. However, when images are not object-centric, the semantics of the image can be significantly altered due to cropping. Furthermore, as the model becomes insensitive to geometric transformations, it may struggle to capture location information. For this reason, we propose a Geometric Transformation Sensitive Architecture designed to be sensitive to geometric transformations, specifically focusing on four-fold rotation, random crop, and multi-crop. Our method encourages the student to be sensitive by predicting rotation and using targets that vary with those transformations through pooling and rotating the teacher feature map. Additionally, we use patch correspondence loss to encourage correspondence between patches with similar features. This approach allows us to capture long-term dependencies in a more appropriate way than capturing long-term dependencies by encouraging local-to-global correspondence, which occurs when learning to be insensitive to multi-crop. Our approach demonstrates improved performance when using non-object-centric images as pretraining data compared to other methods that train the model to be insensitive to geometric transformation. We surpass DINO[Caron et al.[2021b]] baseline in tasks including image classification, semantic segmentation, detection, and instance segmentation with improvements of 4.9 $Top-1 Acc$, 3.3 $mIoU$, 3.4 $AP^b$, and 2.7 $AP^m$. Code and pretrained models are publicly available at: \url{https://github.com/bok3948/GTSA}
翻訳日:2023-05-16 21:02:50 公開日:2023-05-11
# latentpinns: 潜在表現学習による生成物理学に基づくニューラルネットワーク

LatentPINNs: Generative physics-informed neural networks via a latent representation learning ( http://arxiv.org/abs/2305.07671v1 )

ライセンス: Link先を確認
Mohammad H. Taufik and Tariq Alkhalifah(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、より正確で柔軟なPDEソリューションを提供することで、従来の偏微分方程式(PDE)を置き換えることを約束している。 しかし、それらは比較的緩やかな収束と、異なるPDEパラメータに対する追加で潜在的に高価なトレーニングを実行する必要性によって妨げられている。 この制限を解決するために,pdeパラメータの潜在表現をピンへの(座標への)入力として利用し,これらのパラメータの分布をトレーニング可能にするフレームワークであるlatentpinnを紹介する。 近年の生成モデルの発展に動機づけられて,pdeパラメータ分布の圧縮潜在表現を学習し,nn関数解への入力パラメータとして機能する潜在拡散モデルの利用を促進する。 我々は,pdeパラメータの分布について,第1段階から潜在表現を学習する2段階学習方式を用いる。 第2段階では、解領域内の座標空間からランダムに描画されたサンプルと、PDEパラメータの学習潜在表現から得られたサンプルから得られる入力に対して、物理インフォームドニューラルネットワークを訓練する。 非線形アイコン方程式によって与えられるレベルセット方程式のクラスに対するアプローチをテストする。 3つの異なるアイコンパラメータ(速度モデル)の集合に対応する結果を特に共有する。 提案手法は,新たな位相速度モデルにおいて,追加のトレーニングを必要とせずにうまく機能する。

Physics-informed neural networks (PINNs) are promising to replace conventional partial differential equation (PDE) solvers by offering more accurate and flexible PDE solutions. However, they are hampered by the relatively slow convergence and the need to perform additional, potentially expensive, training for different PDE parameters. To solve this limitation, we introduce latentPINN, a framework that utilizes latent representations of the PDE parameters as additional (to the coordinates) inputs into PINNs and allows for training over the distribution of these parameters. Motivated by the recent progress on generative models, we promote the use of latent diffusion models to learn compressed latent representations of the PDE parameters distribution and act as input parameters to NN functional solutions. We use a two-stage training scheme in which the first stage, we learn the latent representations for the distribution of PDE parameters. In the second stage, we train a physics-informed neural network over inputs given by randomly drawn samples from the coordinate space within the solution domain and samples from the learned latent representation of the PDE parameters. We test the approach on a class of level set equations given by the nonlinear Eikonal equation. We specifically share results corresponding to three different sets of Eikonal parameters (velocity models). The proposed method performs well on new phase velocity models without the need for any additional training.
翻訳日:2023-05-16 20:27:09 公開日:2023-05-11
# ニューラルネットワーク解析性能評価のための機械学習を用いた肝感染症予測解析

Liver Infection Prediction Analysis using Machine Learning to Evaluate Analytical Performance in Neural Networks by Optimization Techniques ( http://arxiv.org/abs/2305.07670v1 )

ライセンス: Link先を確認
P. Deivendran, S. Selvakanmani, S. Jegadeesan, V. Vinoth Kumar(参考訳) 肝感染症は一般的な疾患であり、ヒトの健康にとって大きな脅威となるが、それでも大規模なスクリーニングに使用できる最適な手法を特定できる。 本稿では,異なるデータセットと予測分析を用いてMLアルゴリズムを扱う。 したがって、マシンMLは、可視化のためのパターンの一片を統合するために異なる疾患に利用できる。 本稿では,異なるタイプのパラメータと最適化手法を用いて,各種肝疾患データセットの機械学習アルゴリズムを用いて解析性能を評価する。 選択された分類アルゴリズムは、結果の違いを分析し、肝疾患の最も優れた分類モデルを見出す。 機械学習最適化は、コスト関数を最小化する最適化アプローチの1つを採用するために、ハイパーパラメータを変更する手順である。 ハイパーパラメータを設定するには、多くのホスホターゼ、直接ビリルビン、プロティエン、アルブミン、アルブミングロブリンを含む。 予測可能なパラメータの真の重要性とモデルの予測を結びつける差を記述するため、コスト関数を最小化することが重要である。

Liver infection is a common disease, which poses a great threat to human health, but there is still able to identify an optimal technique that can be used on large-level screening. This paper deals with ML algorithms using different data sets and predictive analyses. Therefore, machine ML can be utilized in different diseases for integrating a piece of pattern for visualization. This paper deals with various machine learning algorithms on different liver illness datasets to evaluate the analytical performance using different types of parameters and optimization techniques. The selected classification algorithms analyze the difference in results and find out the most excellent categorization models for liver disease. Machine learning optimization is the procedure of modifying hyperparameters in arrange to employ one of the optimization approaches to minimise the cost function. To set the hyperparameter, include a number of Phosphotase,Direct Billirubin, Protiens, Albumin and Albumin Globulin. Since it describes the difference linking the predictable parameter's true importance and the model's prediction, it is crucial to minimise the cost function.
翻訳日:2023-05-16 20:26:46 公開日:2023-05-11
# マルチモーダル・レコーダとしてのマスケオーディオテキストエンコーダ

Masked Audio Text Encoders are Effective Multi-Modal Rescorers ( http://arxiv.org/abs/2305.07677v1 )

ライセンス: Link先を確認
Jinglun Cai, Monica Sunkara, Xilai Li, Anshu Bhatia, Xiao Pan, Sravan Bodapati(参考訳) Masked Language Models (MLM) は、自動音声認識(ASR)システムにおいて、第2パスの再構成に有効であることが証明されている。 本研究では,MLMの入力空間に音響表現を組み込んだマルチモーダルマスキング言語モデル再構成器であるMasked Audio Text Encoder (MATE)を提案する。 我々は,共有表現を学習することでモダリティを効果的に調整するために,コントラスト学習を採用する。 マルチモーダル・リスコラーは、ターゲットドメインデータが利用できない場合に、ASRシステムのドメイン一般化に有用であることを示す。 MATEは、テキストのみのベースライン上で、ドメイン内の単語エラー率(WER)を4%-16%、ドメイン外のデータセットで3%-7%削減する。 さらに、非常に限られたトレーニングデータ(0.8時間)で、mateは1回のパスベースラインに対して8%-23%の削減を達成している。

Masked Language Models (MLMs) have proven to be effective for second-pass rescoring in Automatic Speech Recognition (ASR) systems. In this work, we propose Masked Audio Text Encoder (MATE), a multi-modal masked language model rescorer which incorporates acoustic representations into the input space of MLM. We adopt contrastive learning for effectively aligning the modalities by learning shared representations. We show that using a multi-modal rescorer is beneficial for domain generalization of the ASR system when target domain data is unavailable. MATE reduces word error rate (WER) by 4%-16% on in-domain, and 3%-7% on out-of-domain datasets, over the text-only baseline. Additionally, with very limited amount of training data (0.8 hours), MATE achieves a WER reduction of 8%-23% over the first-pass baseline.
翻訳日:2023-05-16 20:14:08 公開日:2023-05-11
# フェルミオンモデルのデジタルアナログ量子シミュレーション

Digital-analog quantum simulation of fermionic models ( http://arxiv.org/abs/2103.15689v2 )

ライセンス: Link先を確認
Lucas C. C\'eleri, Daniel Huerga, Francisco Albarr\'an-Arriagada, Enrique Solano, Mikel Garcia de Andoin and Mikel Sanz(参考訳) 量子多体系のシミュレーションは、必要なリソースがシステムの次元とともに指数関数的に増加するため、非常に要求のかかるタスクである。 フェルミオン系の場合、非局所相互作用はフェルミオン波動関数の反対称性によって現れるため、これはさらに困難である。 本稿では,一次元Fermi-Hubbardモデルを含む広い種類のフェルミオンハミルトニアンをシミュレートするディジタルアナログ量子アルゴリズムを提案する。 これらのデジタルアナログ法により、量子アルゴリズムはコヒーレンス時間(英語版)を効率的に利用してデジタルバージョンを超えて動作することができる。 さらに,本手法を,特定のフェミオンモデルのリアルなデジタルアナログ実装のための低接続アーキテクチャを用いて実証する。

Simulating quantum many-body systems is a highly demanding task since the required resources grow exponentially with the dimension of the system. In the case of fermionic systems, this is even harder since nonlocal interactions emerge due to the antisymmetric character of the fermionic wave function. Here, we introduce a digital-analog quantum algorithm to simulate a wide class of fermionic Hamiltonians including the paradigmatic one-dimensional Fermi-Hubbard model. These digital-analog methods allow quantum algorithms to run beyond digital versions via an efficient use of coherence time. Furthermore, we exemplify our techniques with a low-connected architecture for realistic digital-analog implementations of specific fermionic models.
翻訳日:2023-05-15 16:57:40 公開日:2023-05-11
# torch.manual_seed(3407) : コンピュータビジョンのためのディープラーニングアーキテクチャにおけるランダム種の影響について

Torch.manual_seed(3407) is all you need: On the influence of random seeds in deep learning architectures for computer vision ( http://arxiv.org/abs/2109.08203v2 )

ライセンス: Link先を確認
David Picard(参考訳) 本稿では,一般的なディープラーニングアーキテクチャを用いたコンピュータビジョンにおけるランダムシード選択が精度に及ぼす影響について検討する。 私はCIFAR 10上で大量の種子(最大10ドル^4ドル)をスキャンし、また、トレーニング済みのモデルを使用してImagenet上の種子をスキャンして、大規模なデータセットを調査します。 結論は、分散がそれほど大きくなくても、平均よりもずっと良い、あるいははるかに悪い結果をもたらす外れ値を見つけるのは驚くほど容易であるということである。

In this paper I investigate the effect of random seed selection on the accuracy when using popular deep learning architectures for computer vision. I scan a large amount of seeds (up to $10^4$) on CIFAR 10 and I also scan fewer seeds on Imagenet using pre-trained models to investigate large scale datasets. The conclusions are that even if the variance is not very large, it is surprisingly easy to find an outlier that performs much better or much worse than the average.
翻訳日:2023-05-15 16:52:30 公開日:2023-05-11
# 時系列のトランスフォーマー:サーベイ

Transformers in Time Series: A Survey ( http://arxiv.org/abs/2202.07125v5 )

ライセンス: Link先を確認
Qingsong Wen, Tian Zhou, Chaoli Zhang, Weiqi Chen, Ziqing Ma, Junchi Yan, Liang Sun(参考訳) トランスフォーマーは自然言語処理やコンピュータビジョンにおける多くのタスクにおいて優れたパフォーマンスを達成しており、時系列コミュニティにも大きな関心が寄せられている。 トランスフォーマの複数の利点のうち、長距離の依存関係と相互作用をキャプチャする能力は、時系列モデリングにおいて特に魅力的であり、様々な時系列アプリケーションでエキサイティングな進歩をもたらす。 本稿では,時系列モデリングのためのTransformerスキームを体系的にレビューし,その強みと限界を強調した。 特に,2つの観点から時系列変換器の開発について検討する。 ネットワーク構造の観点からは、時系列解析における課題に対応するためにトランスフォーマーに施された適応と修正を要約する。 応用の観点からは,予測,異常検出,分類などの共通タスクに基づいて時系列変換器を分類する。 実験では,ロバスト解析,モデルサイズ解析,季節分解分析を行い,時系列におけるトランスフォーマーの動作について検討した。 最後に, 有用な研究指導を行うための今後の方向性について考察し, 提案する。 本論文は,時系列データをモデル化するための変圧器の最近の進歩を包括的かつ体系的に要約した最初の研究である。 この調査が、時系列トランスフォーマーのさらなる研究関心を喚起することを願っている。

Transformers have achieved superior performances in many tasks in natural language processing and computer vision, which also triggered great interest in the time series community. Among multiple advantages of Transformers, the ability to capture long-range dependencies and interactions is especially attractive for time series modeling, leading to exciting progress in various time series applications. In this paper, we systematically review Transformer schemes for time series modeling by highlighting their strengths as well as limitations. In particular, we examine the development of time series Transformers in two perspectives. From the perspective of network structure, we summarize the adaptations and modifications that have been made to Transformers in order to accommodate the challenges in time series analysis. From the perspective of applications, we categorize time series Transformers based on common tasks including forecasting, anomaly detection, and classification. Empirically, we perform robust analysis, model size analysis, and seasonal-trend decomposition analysis to study how Transformers perform in time series. Finally, we discuss and suggest future directions to provide useful research guidance. To the best of our knowledge, this paper is the first work to comprehensively and systematically summarize the recent advances of Transformers for modeling time series data. We hope this survey will ignite further research interests in time series Transformers.
翻訳日:2023-05-15 16:40:59 公開日:2023-05-11
# テンソルネットワークを用いた強化学習を用いた自己補正量子多体制御

Self-Correcting Quantum Many-Body Control using Reinforcement Learning with Tensor Networks ( http://arxiv.org/abs/2201.11790v2 )

ライセンス: Link先を確認
Friederike Metz, Marin Bukov(参考訳) 量子多体制御は、量子技術を活用するための重要なマイルストーンである。 しかし、ヒルベルト空間次元が量子ビット数で指数関数的に増加すると、量子多体系を古典的にシミュレートすることが難しくなり、信頼性とロバストな最適制御プロトコルが考案される。 本稿では、強化学習(RL)に基づく量子多体系を効率的に制御するための新しい枠組みを提案する。 我々は行列積状態を利用して量子制御問題に取り組む (i)多体状態を表すための、及び (ii)RLエージェントのトレーニング可能な機械学習アーキテクチャの一部として。 このフレームワークは、臨界領域の状態を含む量子イジング鎖の基底状態を作成するために適用される。 これにより、ニューラルネットワークのみのアーキテクチャよりもはるかに大きなシステムを制御できると同時に、一般化性やノイズに対するトレーニング可能な堅牢性といったディープラーニングアルゴリズムの利点を保ちます。 特に、RLエージェントが普遍的な制御を見出すことができ、多くの身体状態を最適に操る方法を学び、量子力学が確率的摂動を受ける場合、制御プロトコルをオンザフライで適用できることを示した。 さらに、QMPSフレームワークを、ノイズのある中間スケールの量子デバイス上で実行可能なハイブリッド量子古典アルゴリズムにマッピングし、実験的なノイズ源の存在下でテストする。

Quantum many-body control is a central milestone en route to harnessing quantum technologies. However, the exponential growth of the Hilbert space dimension with the number of qubits makes it challenging to classically simulate quantum many-body systems and consequently, to devise reliable and robust optimal control protocols. Here, we present a novel framework for efficiently controlling quantum many-body systems based on reinforcement learning (RL). We tackle the quantum control problem by leveraging matrix product states (i) for representing the many-body state and, (ii) as part of the trainable machine learning architecture for our RL agent. The framework is applied to prepare ground states of the quantum Ising chain, including states in the critical region. It allows us to control systems far larger than neural-network-only architectures permit, while retaining the advantages of deep learning algorithms, such as generalizability and trainable robustness to noise. In particular, we demonstrate that RL agents are capable of finding universal controls, of learning how to optimally steer previously unseen many-body states, and of adapting control protocols on-the-fly when the quantum dynamics is subject to stochastic perturbations. Furthermore, we map the QMPS framework to a hybrid quantum-classical algorithm that can be performed on noisy intermediate-scale quantum devices and test it under the presence of experimentally relevant sources of noise.
翻訳日:2023-05-15 16:40:41 公開日:2023-05-11
# 等方性三次元流体上における白色物質ハイパーインテンシティのセグメンテーション : ノルウェー画像データベースを用いた深部学習ツールの評価

Segmenting white matter hyperintensities on isotropic three-dimensional Fluid Attenuated Inversion Recovery magnetic resonance images: Assessing deep learning tools on norwegian imaging database ( http://arxiv.org/abs/2207.08467v7 )

ライセンス: Link先を確認
Martin Soria R{\o}vang, Per Selnes, Bradley John MacIntosh, Inge Rasmus Groote, Lene Paalhaugen, Sudre Carole, Tormod Fladby, Atle Bj{\o}rnerud(参考訳) 磁気共鳴画像(MRI)の神経画像解析において,白質超強度の自動セグメンテーション(WMHs)は重要なステップである。 FLAIR-weighted(Fluid Attenuated Inversion Recovery)は、脳小血管疾患とアルツハイマー病(AD)の指標であるWMHの可視化と定量化に特に有用であるMRI造影剤である。 臨床MRIプロトコルは3次元のFLAIR強調取得に移行し、3つのボクセル次元の高空間分解能を実現する。 本研究は,全国広告撮像イニシアチブの一環として取得した3dフレア強調画像から,自動wmhセグメンテーションとキャラクタリゼーションを実現するための深層学習ツールの展開について詳述する。 DDIによる441人(男性194人、平均年齢:64.91歳/-9.32歳)のうち、国内5か所で2つのネットワークをトレーニングし、検証した。 3つのモデルは、441人の参加者による内部データの保持されたサブセットと29人の国際協力者による外部データセットでテストされた。 これらのテストセットは独立して評価された。 5つの確立されたWMH性能測定値を用いて,実測値との比較を行った。 実験した3つのネットワークの結果、3D nnU-Netは平均サイコロ類似度係数スコア0.76 +/- 0.16で最高の性能を示し、社内で開発された2.5DモデルとSOTAディープベイズネットワークよりも優れた性能を示した。 また,MRIプロトコルにおける3次元FLAIR強調画像の利用の増加に伴い,WMHセグメンテーションモデルが3次元データに基づいてトレーニングされ,T1強調画像系列を含まないまま,最先端技術に匹敵するWMHセグメンテーション性能が得られることが示唆された。

Automated segmentation of white matter hyperintensities (WMHs) is an essential step in neuroimaging analysis of Magnetic Resonance Imaging (MRI). Fluid Attenuated Inversion Recovery (FLAIR-weighted) is an MRI contrast that is particularly useful to visualize and quantify WMHs, a hallmark of cerebral small vessel disease and Alzheimer's disease (AD). Clinical MRI protocols migrate to a three-dimensional (3D) FLAIR-weighted acquisition to enable high spatial resolution in all three voxel dimensions. The current study details the deployment of deep learning tools to enable automated WMH segmentation and characterization from 3D FLAIR-weighted images acquired as part of a national AD imaging initiative. Among 441 participants (194 male, mean age: (64.91 +/- 9.32) years) from the DDI study, two in-house networks were trained and validated across five national collection sites. Three models were tested on a held-out subset of the internal data from the 441 participants and an external dataset with 29 cases from an international collaborator. These test sets were evaluated independently. Five established WMH performance metrics were used for comparison against ground truth human-in-the-loop segmentation. Results of the three networks tested, the 3D nnU-Net had the best performance with an average dice similarity coefficient score of 0.76 +/- 0.16, performing better than both the in-house developed 2.5D model and the SOTA Deep Bayesian network. With the increasing use of 3D FLAIR-weighted images in MRI protocols, our results suggest that WMH segmentation models can be trained on 3D data and yield WMH segmentation performance that is comparable to or better than state-of-the-art without the need for including T1-weighted image series.
翻訳日:2023-05-15 16:31:30 公開日:2023-05-11
# 非相互作用型xor量子斜め移動:最適プロトコルとその実験的実装

Non-interactive XOR quantum oblivious transfer: optimal protocols and their experimental implementations ( http://arxiv.org/abs/2209.11300v2 )

ライセンス: Link先を確認
Lara Stroh, Nikola Horov\'a, Robert St\'arek, Ittoop V. Puthoor, Michal Mi\v{c}uda, Miloslav Du\v{s}ek, and Erika Andersson(参考訳) Oblivious Transfer (OT) は重要な暗号プリミティブである。 マルチパーティ計算は、OTをビルディングブロックとして実現することができる。 XORoblivious Transfer (XOT) は送信側 Alice が2ビットを持つ変種であり、受信側 Bob が第1ビット、第2ビット、またはその XOR を取得する。 ボブはそれ以上学ぶべきではないし、アリスはボブが学んだことを学ぶべきではない。 情報理論セキュリティを備えた完全な量子OTは不可能であることが知られている。 対称的純粋状態を用いた非相互作用量子xotプロトコルにおける非拘束的不正当事者に対する最小の不正確率を判定し、古典的プロトコルを上回る最適なプロトコルを提案する。 また、Bobが量子状態の送信者になり、Aliceがそれを計測する受信機になるように、AliceからBobへの不愉快な転送を実装しながら、このプロトコルを"逆"する。 双方の確率は、逆のプロトコルと同じです。 我々は,逆プロトコルと逆プロトコルの両方を光学的に実装し,逆プロトコルの実装が容易であることを指摘した。

Oblivious transfer (OT) is an important cryptographic primitive. Any multi-party computation can be realised with OT as building block. XOR oblivious transfer (XOT) is a variant where the sender Alice has two bits, and a receiver Bob obtains either the first bit, the second bit, or their XOR. Bob should not learn anything more than this, and Alice should not learn what Bob has learnt. Perfect quantum OT with information-theoretic security is known to be impossible. We determine the smallest possible cheating probabilities for unrestricted dishonest parties in non-interactive quantum XOT protocols using symmetric pure states, and present an optimal protocol, which outperforms classical protocols. We also "reverse" this protocol, so that Bob becomes sender of a quantum state and Alice the receiver who measures it, while still implementing oblivious transfer from Alice to Bob. Cheating probabilities for both parties stay the same as for the unreversed protocol. We optically implemented both the unreversed and the reversed protocols, and cheating strategies, noting that the reversed protocol is easier to implement.
翻訳日:2023-05-15 16:23:01 公開日:2023-05-11
# GANとクロージャ:マルチスケールモデリングにおけるマイクロマクロ一貫性

GANs and Closures: Micro-Macro Consistency in Multiscale Modeling ( http://arxiv.org/abs/2208.10715v3 )

ライセンス: Link先を確認
Ellis R. Crabtree, Juan M. Bello-Rivas, Andrew L. Ferguson, Ioannis G. Kevrekidis(参考訳) 分子系の位相空間、そしてより一般的には、確率微分方程式によって効果的にモデル化される複雑な系のサンプリングは、タンパク質の折り畳みから物質発見に至るまで、多くの分野において重要なモデリングステップである。 これらの問題は自然界においてしばしばマルチスケールであり、少数の「遅い」反応座標によってパラメトリケートされた低次元の有効自由エネルギー表面で説明でき、残りの「速い」自由度は反応座標値の平衡測度を発生させる。 このような問題に対するサンプリング手順は、条件付き平衡分布に関するアンサンブル平均と同様に有効自由エネルギー差を推定するために用いられる。 近年,分子シミュレーションと組み合わせた改良されたサンプリング技術が開発されている。 興味深いアナロジーは機械学習(ml)の分野において発生し、生成型逆ネットワークは低次元確率分布から高次元のサンプルを生成することができる。 このサンプル生成は、その低次元表現に関する情報から、モデル状態の可能な高次元空間実現を返す。 本稿では,同じタスクに対して,mlベースの条件付き生成逆ネットワークを用いて条件分布をサンプリングするための物理ベースのシミュレーションとバイアス手法を結合する手法を提案する。 微細なスケールの実現を条件付ける「粗い記述子」は、優先順位として、あるいは非線形次元の減少を通じて学習することができる。 物理学に基づく拡張サンプリング技術とcGANを結合したフレームワークが、マルチスケールのSDE動的システムサンプリングを改善することを実証し、複雑さを増すシステムへの期待を示す。

Sampling the phase space of molecular systems -- and, more generally, of complex systems effectively modeled by stochastic differential equations -- is a crucial modeling step in many fields, from protein folding to materials discovery. These problems are often multiscale in nature: they can be described in terms of low-dimensional effective free energy surfaces parametrized by a small number of "slow" reaction coordinates; the remaining "fast" degrees of freedom populate an equilibrium measure on the reaction coordinate values. Sampling procedures for such problems are used to estimate effective free energy differences as well as ensemble averages with respect to the conditional equilibrium distributions; these latter averages lead to closures for effective reduced dynamic models. Over the years, enhanced sampling techniques coupled with molecular simulation have been developed. An intriguing analogy arises with the field of Machine Learning (ML), where Generative Adversarial Networks can produce high dimensional samples from low dimensional probability distributions. This sample generation returns plausible high dimensional space realizations of a model state, from information about its low-dimensional representation. In this work, we present an approach that couples physics-based simulations and biasing methods for sampling conditional distributions with ML-based conditional generative adversarial networks for the same task. The "coarse descriptors" on which we condition the fine scale realizations can either be known a priori, or learned through nonlinear dimensionality reduction. We suggest that this may bring out the best features of both approaches: we demonstrate that a framework that couples cGANs with physics-based enhanced sampling techniques can improve multiscale SDE dynamical systems sampling, and even shows promise for systems of increasing complexity.
翻訳日:2023-05-15 16:21:32 公開日:2023-05-11
# 不定因果順序による熱力学的利点の再評価

Reassessing thermodynamic advantage from indefinite causal order ( http://arxiv.org/abs/2208.03205v2 )

ライセンス: Link先を確認
Matheus Capela, Harshit Verma, Fabio Costa and Lucas Chibebe C\'eleri(参考訳) 不定因果順序は、量子高次変換の研究における重要な特徴である。 近年、量子プロセスの明確な因果順序の欠如に関連する利点について、強い研究がなされている。 量子スイッチはしばしば、情報理論と熱力学のタスクに利点をもたらすと主張される。 ここでは、不定因数順序が量子熱力学の資源であるかどうかを問う。 文献の既往の結果に触発されて,自由エネルギーとエルゴトロピーの増加が報告された場合,無期限因果秩序は不要であることを示した。 より具体的には、最終測定の前にシステムの状態を新しいものに置き換える単純な因果順序過程が、これまで考慮されてきたすべての熱力学的タスクにおいて量子スイッチより優れていることを示す。 さらに,システムと環境間の非マルコフ的相互作用を許容すれば,システムを完全に破棄することなく,同様の利点が得られることを示す。 我々は分析を不定因果順のより極端な例にまで拡張し、それらにも利点がないことを示した。 最後に,汎用シナリオにおける因果順序の不定因果関係から生じる可能性のある利点について検討する。

Indefinite causal order is a key feature involved in the study of quantum higher order transformations. Recently, intense research has been focused on possible advantages related to the lack of definite causal order of quantum processes. Quite often the quantum switch is claimed to provide advantages in information-theoretic and thermodynamic tasks. We address here the question whether indefinite causal order is a resource for quantum thermodynamics. Inspired by previous results in the literature, we show that indefinite causal order is not necessary for the reported increase in free energy and ergotropy. More specifically, we show that a simple causally ordered process, which replaces the system's state with a new one before the final measurement, outperforms the quantum switch in all thermodynamic tasks considered so far. We further show that a similar advantage can be also achieved without completely discarding system, if we allow for non-Markovian interactions between the system and an environment. We extend the analysis to more extreme examples of indefinite causal order, showing that they do not provide an advantage either. Finally, we discuss a possible way to study the advantages that may arise from indefinite causal order in a general scenario.
翻訳日:2023-05-15 16:20:18 公開日:2023-05-11
# トロッターステップの実装の複雑さについて

On the complexity of implementing Trotter steps ( http://arxiv.org/abs/2211.09133v3 )

ライセンス: Link先を確認
Guang Hao Low, Yuan Su, Yu Tong, Minh C. Tran(参考訳) 量子力学は、ハミルトニアンの初等項を逐次的に解いて量子コンピュータ上でシミュレーションすることができる。 しかし、そのようなトロッターステップの実装は、ハミルトニアン項全体の数に依存するゲート複雑性を持ち、より高度な手法を用いたアルゴリズムと比較すると不利である。 我々は,項数において複雑性をサブ線形とした高速なトロッターステップを実現する手法を開発した。 力則に従って相互作用強度が距離とともに減衰するハミルトニアンのクラスに対してこれを達成する。 提案手法は,再帰的ブロック符号化に基づくもの,平均コストシミュレーションに基づくもの,これら量子シミュレーション技術の正規化因子障壁を克服するものを含む。 また、ハミルトン係数の特定のブロックが低いとき、より高速なトロッターステップを実現する。 より厳密なエラー分析と組み合わせると、{\left(\eta^{1/3}n^{1/3}+\frac{n^{2/3}}{\eta^{2/3}}\right)n^{1+o(1)}$gatesを使って、実空間における第二量子化におけるスピン軌道と$\eta$電子による一様電子ガスをシミュレートし、以前の最良の仕事よりも漸近的に改善できることが分かる。 ボルン-オッペンハイマー近似の下で原子核の外部ポテンシャルが導入されたとき、類似の結果が得られる。 我々は、ハミルトニアン係数が連続値の範囲を取るとき、回路の低い境界を証明し、通勤項を持つ一般の$n$-qubit $2$-local Hamiltonianが、時間$t=\Omega(\epsilon)$に対して$\epsilon=\Omega(1/poly(n))$で進化するために少なくとも$\Omega(n^2)$ゲートを必要とすることを示す。 我々の証明は、ハミングウェイト内の対角ユニタリの近似合成から2$部分空間へのゲート効率の低下に基づく。 その結果, ゲート複雑性の低いトロッターステップを実装するのに必要かつ十分であるハミルトン構造特性を用いることが示唆された。

Quantum dynamics can be simulated on a quantum computer by exponentiating elementary terms from the Hamiltonian in a sequential manner. However, such an implementation of Trotter steps has gate complexity depending on the total Hamiltonian term number, comparing unfavorably to algorithms using more advanced techniques. We develop methods to perform faster Trotter steps with complexity sublinear in the number of terms. We achieve this for a class of Hamiltonians whose interaction strength decays with distance according to power law. Our methods include one based on a recursive block encoding and one based on an average-cost simulation, overcoming the normalization-factor barrier of these advanced quantum simulation techniques. We also realize faster Trotter steps when certain blocks of Hamiltonian coefficients have low rank. Combining with a tighter error analysis, we show that it suffices to use $\left(\eta^{1/3}n^{1/3}+\frac{n^{2/3}}{\eta^{2/3}}\right)n^{1+o(1)}$ gates to simulate uniform electron gas with $n$ spin orbitals and $\eta$ electrons in second quantization in real space, asymptotically improving over the best previous work. We obtain an analogous result when the external potential of nuclei is introduced under the Born-Oppenheimer approximation. We prove a circuit lower bound when the Hamiltonian coefficients take a continuum range of values, showing that generic $n$-qubit $2$-local Hamiltonians with commuting terms require at least $\Omega(n^2)$ gates to evolve with accuracy $\epsilon=\Omega(1/poly(n))$ for time $t=\Omega(\epsilon)$. Our proof is based on a gate-efficient reduction from the approximate synthesis of diagonal unitaries within the Hamming weight-$2$ subspace, which may be of independent interest. Our result thus suggests the use of Hamiltonian structural properties as both necessary and sufficient to implement Trotter steps with lower gate complexity.
翻訳日:2023-05-15 16:13:07 公開日:2023-05-11
# 自然科学のための人工知能ソリューションを開発する補完的スキルの学生グループ-幅広い採用に適した真の研究教育アプローチ

Student groups of complementary skills developing artificial intelligence solutions for natural sciences -- an authentic research education approach suitable for wide adoption ( http://arxiv.org/abs/2210.08966v3 )

ライセンス: Link先を確認
Sergey V Samsonau, Aziza Kurbonova, Lu Jiang, Hazem Lashen, Jiamu Bai, Theresa Merchant, Ruoxi Wang, Laiba Mehnaz, Zecheng Wang, Ishita Patil(参考訳) 本稿では,自然科学研究者のための人工知能(AI)ソリューションを開発することによって,学生が真の研究経験を得る方法について報告する。 学生に教育的利益をもたらす一方で、我々のアプローチは、特定のニーズに対する機械学習の有用性を評価する機会を得た科学者に直接利益をもたらします。 これを実現するために、私たちは研究所と協力して、ニーズを明らかにし、特定すると同時に、学生チームはコンサルティングのようなアレンジメントを使用して、ユニークな問題に対するaiソリューションの発見、設計、開発に取り組んでいます。 本設計では,既存の研究教育のアプローチのほとんどに共通する障壁に対処し,様々な学校で広く採用されている。 これまでのところ、われわれのグループはニューヨーク大学(NYU)で5学期連続で活動しており、1年生から修士候補まで70人以上の学生を雇い、14人の協力者と共に15以上のプロジェクトに取り組んでいる。

We report a methodology in which students gain experience in authentic research by developing artificial intelligence (AI) solutions for researchers in natural sciences. While creating education benefits for students, our approach also directly benefits scientists, who get an opportunity to evaluate the usefulness of machine learning for their specific needs. In order to accomplish this, we work with research laboratories that reveal/specify the needs they have, and then our student teams work on the discovery, design, and development of an AI solution for unique problems using a consulting-like arrangement. Our design addresses common barriers which appear in most existing authentic research education approaches and thus is suitable for wide adoption at various schools. To date, our group has been operating at New York University (NYU) for five consecutive semesters and has engaged more than seventy students, ranging from first-year college students to master's candidates, and worked on more than 15 projects with 14 collaborators.
翻訳日:2023-05-15 16:10:09 公開日:2023-05-11
# 強化学習における知識伝達のための不適用行動学習

Inapplicable Actions Learning for Knowledge Transfer in Reinforcement Learning ( http://arxiv.org/abs/2211.15589v3 )

ライセンス: Link先を確認
Leo Ardon, Alberto Pozanco, Daniel Borrajo, Sumitra Ganesh(参考訳) 強化学習(rl)アルゴリズムは、利用可能なアクションがたくさんある環境ではスケールが悪く、最適なポリシーを学ぶために多数のサンプルを必要とすることが知られている。 あらゆる可能な状態において同じ固定されたアクション空間を考える伝統的なアプローチは、エージェントが、その報酬を最大化するためにも、$\textit{inapplicable actions}$のような無関係なアクション(つまり、与えられた状態において実行された環境に影響を与えないアクション)を無視しなければならないことを意味する。 この情報を知ることで、ポリシー分布から適用不可能なアクションを隠蔽し、最適なポリシーを見つけるためのアクションのみを探索することで、RLアルゴリズムのサンプルの複雑さを低減することができる。 この手法はSTRIPS言語でプレコンディション(プレコンディション)の概念を取り入れたAutomated Planningコミュニティ内ではかなり前から公式化されてきたが、RLアルゴリズムはこの情報を利用して探索空間を創出することはなかった。 これは通常、RLアルゴリズムに手作りのドメインロジックを追加してアドホックな方法で行われる。 本稿では,この知識をアルゴリズムに導入するためのより体系的な手法を提案する。 私たち (i) エージェントに対して知識を手動で指定する方法を標準化すること。 (ii)政策と共同で行動の前提条件をカプセル化する部分的行動モデルを自律的に学習するための新しい枠組みを提案する。 本研究では,学習不可能な動作が,無関係な動作を隠蔽する信頼性の高い信号を提供することにより,アルゴリズムのサンプル効率を大幅に向上することを示す。 さらに,得られた知識の伝達可能性により,学習プロセスをより効率的にするために,他のタスクやドメインで再利用可能であることを示す。

Reinforcement Learning (RL) algorithms are known to scale poorly to environments with many available actions, requiring numerous samples to learn an optimal policy. The traditional approach of considering the same fixed action space in every possible state implies that the agent must understand, while also learning to maximize its reward, to ignore irrelevant actions such as $\textit{inapplicable actions}$ (i.e. actions that have no effect on the environment when performed in a given state). Knowing this information can help reduce the sample complexity of RL algorithms by masking the inapplicable actions from the policy distribution to only explore actions relevant to finding an optimal policy. While this technique has been formalized for quite some time within the Automated Planning community with the concept of precondition in the STRIPS language, RL algorithms have never formally taken advantage of this information to prune the search space to explore. This is typically done in an ad-hoc manner with hand-crafted domain logic added to the RL algorithm. In this paper, we propose a more systematic approach to introduce this knowledge into the algorithm. We (i) standardize the way knowledge can be manually specified to the agent; and (ii) present a new framework to autonomously learn the partial action model encapsulating the precondition of an action jointly with the policy. We show experimentally that learning inapplicable actions greatly improves the sample efficiency of the algorithm by providing a reliable signal to mask out irrelevant actions. Moreover, we demonstrate that thanks to the transferability of the knowledge acquired, it can be reused in other tasks and domains to make the learning process more efficient.
翻訳日:2023-05-15 16:01:16 公開日:2023-05-11
# Ensemble Self-Training を用いた自己監督型オブジェクト空間推定器の正当性検証手法

A Correct-and-Certify Approach to Self-Supervise Object Pose Estimators via Ensemble Self-Training ( http://arxiv.org/abs/2302.06019v2 )

ライセンス: Link先を確認
Jingnan Shi and Rajat Talak and Dominic Maggio and Luca Carlone(参考訳) 現実世界のロボットアプリケーションは、さまざまなシナリオで確実に機能するオブジェクトポーズ推定メソッドを要求する。 現代の学習ベースのアプローチでは、大きなラベル付きデータセットが必要となり、トレーニングドメイン外ではパフォーマンスが低下する傾向がある。 私たちの最初の貢献は、深さ情報を使用してポーズ推定を補正し、既存のメソッドを新しいテストドメインにより良い一般化を可能にする堅牢な補正モジュールを開発することです。 第2の貢献は、複数のポーズ推定器を自己監督的に同時に訓練するアンサンブル自己学習アプローチである。 我々のアンサンブル自己学習アーキテクチャは、頑健な修正器を用いて各ポーズ推定器の出力を洗練し、観測可能な正確性証明を用いて出力の品質を評価する。 付加的な貢献として、リグレッションベースのキーポイント検出アーキテクチャの小さな改善を提案し、その堅牢性を高めるために、ロバストなプーリングスキームとロバストなセントロイド計算を含む。 ycbvおよびtlessデータセットにおける実験では、実データに3dアノテーションを必要とせず、完全に教師付きベースラインを満たしている。

Real-world robotics applications demand object pose estimation methods that work reliably across a variety of scenarios. Modern learning-based approaches require large labeled datasets and tend to perform poorly outside the training domain. Our first contribution is to develop a robust corrector module that corrects pose estimates using depth information, thus enabling existing methods to better generalize to new test domains; the corrector operates on semantic keypoints (but is also applicable to other pose estimators) and is fully differentiable. Our second contribution is an ensemble self-training approach that simultaneously trains multiple pose estimators in a self-supervised manner. Our ensemble self-training architecture uses the robust corrector to refine the output of each pose estimator; then, it evaluates the quality of the outputs using observable correctness certificates; finally, it uses the observably correct outputs for further training, without requiring external supervision. As an additional contribution, we propose small improvements to a regression-based keypoint detection architecture, to enhance its robustness to outliers; these improvements include a robust pooling scheme and a robust centroid computation. Experiments on the YCBV and TLESS datasets show the proposed ensemble self-training outperforms fully supervised baselines while not requiring 3D annotations on real data.
翻訳日:2023-05-15 15:52:45 公開日:2023-05-11
# nora:高連結ハミルトニアンの体積則エンタングル平衡状態に対するテンソルネットワーク ansatz

NoRA: A Tensor Network Ansatz for Volume-Law Entangled Equilibrium States of Highly Connected Hamiltonians ( http://arxiv.org/abs/2303.16946v3 )

ライセンス: Link先を確認
Val\'erie Bettaque, Brian Swingle(参考訳) 平均場量子スピングラスモデルやSachdev-Ye-Kitaev(SYK)モデルのような全対全相互作用を持つ量子モデルの基底状態構造により、体積法則の絡み合いと大きな基底状態の縮退を緩和できるテンソルネットワークアーキテクチャを提案する。 このアーキテクチャを非局所再正規化 ansatz (nora) と呼ぶのは、mera、dmera、分岐 meraネットワークの一般化であり、空間的局所性の制約を取り除いているからである。 アーキテクチャはSYKモデルの接地空間の絡み合いや複雑さを捉えるのに十分な表現性を持っているため、適切な変分アンザッツとなるが、SYKの詳細な研究は今後の研究に任せる。 さらに、テンソルがランダムクリフォードゲートである特別な場合のアーキテクチャについても検討する。 ここで、アーキテクチャはランダム安定化コードのエンコーディングマップと見なすことができる。 我々はSYKモデルにインスパイアされた一連の符号を導入し、高重量安定器のコストで一定速度と線形距離を選択できることを示した。 また、この符号族とSYK基底空間から形成される近似符号との潜在的な類似点についてもコメントする。

Motivated by the ground state structure of quantum models with all-to-all interactions such as mean-field quantum spin glass models and the Sachdev-Ye-Kitaev (SYK) model, we propose a tensor network architecture which can accomodate volume law entanglement and a large ground state degeneracy. We call this architecture the non-local renormalization ansatz (NoRA) because it can be viewed as a generalization of MERA, DMERA, and branching MERA networks with the constraints of spatial locality removed. We argue that the architecture is potentially expressive enough to capture the entanglement and complexity of the ground space of the SYK model, thus making it a suitable variational ansatz, but we leave a detailed study of SYK to future work. We further explore the architecture in the special case in which the tensors are random Clifford gates. Here the architecture can be viewed as the encoding map of a random stabilizer code. We introduce a family of codes inspired by the SYK model which can be chosen to have constant rate and linear distance at the cost of some high weight stabilizers. We also comment on potential similarities between this code family and the approximate code formed from the SYK ground space.
翻訳日:2023-05-15 15:45:06 公開日:2023-05-11
# 中性水素分子形成における核スピンと電子スピンの効果の比較

Comparing the effects of nuclear and electron spins on the formation of neutral hydrogen molecule ( http://arxiv.org/abs/2303.10413v4 )

ライセンス: Link先を確認
Miao Hui-hui and Ozhigov Yuri Igorevich(参考訳) 光学キャビティ内の量子ドット上に2つの2層人工原子を持つ化学の有限次元空洞量子力学モデルである中性水素分子の結合解離モデルについて,Tavis-Cummings-Hubbardモデルに基づく。 原子核の運動は量子形式で表される。 電子スピン転移とスピンスピン相互作用はどちらも考慮される。 また、中性水素分子の形成に対する核スピンと電子スピンの影響についても考察する。

We introduce the association-dissociation model of neutral hydrogen molecule, which is a finite-dimensional cavity quantum electrodynamics model of chemistry with two two-level artificial atoms on quantum dots placed in optical cavities, based on the Tavis-Cummings-Hubbard model. The motion of the nuclei can be represented in quantum form. Electron spin transition and spin-spin interaction between electron and nucleus are both considered. Consideration is also given to the effects of nuclear and electron spins on the formation of neutral hydrogen molecule.
翻訳日:2023-05-15 15:42:59 公開日:2023-05-11
# ニューラルネットワークにおける可塑性の理解

Understanding plasticity in neural networks ( http://arxiv.org/abs/2303.01486v2 )

ライセンス: Link先を確認
Clare Lyle, Zeyu Zheng, Evgenii Nikishin, Bernardo Avila Pires, Razvan Pascanu, Will Dabney(参考訳) 深層強化学習システムの適応性と頑健性には,ニューラルネットワークが新たな情報に応答して予測を迅速に変化させる能力である可塑性が不可欠である。 深層ニューラルネットワークは、比較的単純な学習問題であっても、トレーニングの過程で可塑性を失うことが知られているが、この現象を駆動するメカニズムはまだよく分かっていない。 本稿では, 可塑性損失の系統的解析を行い, この現象を機械的に理解し, 対象とするソリューションの今後の発展を導くことを目的とする。 可塑性の損失は、損失ランドスケープの曲率の変化と深く結びついているが、通常は飽和単位や分岐勾配の基準が存在しない場合に発生する。 この知見に基づいて、ネットワークがトレーニングの過程で可塑性をよりよく維持できるようなパラメータ化と最適化設計の選択肢を多数特定する。 アーケード学習環境を訓練した深層RLエージェントに対して,最も優れた介入,層正規化を適用して,大規模学習問題におけるこれらの知見の有用性を検証する。

Plasticity, the ability of a neural network to quickly change its predictions in response to new information, is essential for the adaptability and robustness of deep reinforcement learning systems. Deep neural networks are known to lose plasticity over the course of training even in relatively simple learning problems, but the mechanisms driving this phenomenon are still poorly understood. This paper conducts a systematic empirical analysis into plasticity loss, with the goal of understanding the phenomenon mechanistically in order to guide the future development of targeted solutions. We find that loss of plasticity is deeply connected to changes in the curvature of the loss landscape, but that it typically occurs in the absence of saturated units or divergent gradient norms. Based on this insight, we identify a number of parameterization and optimization design choices which enable networks to better preserve plasticity over the course of training. We validate the utility of these findings in larger-scale learning problems by applying the best-performing intervention, layer normalization, to a deep RL agent trained on the Arcade Learning Environment.
翻訳日:2023-05-15 15:42:20 公開日:2023-05-11
# 文レベルの関係に関するチャットGPT評価:時間的・因果的・会話的関係に着目して

ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations ( http://arxiv.org/abs/2304.14827v2 )

ライセンス: Link先を確認
Chunkit Chan, Jiayang Cheng, Weiqi Wang, Yuxin Jiang, Tianqing Fang, Xin Liu, Yangqiu Song(参考訳) 本稿では,対話型大規模言語モデルChatGPTの性能を時間的関係,因果関係,談話関係などの関係性に基づいて定量的に評価することを目的とする。 様々なタスクにおけるChatGPTの有望な性能を考えると、時間的および因果関係、PDTB2.0に基づく対話に基づく会話関係、談話理解における下流アプリケーションなど、13のデータセットの試験セット全体に対して広範な評価を行う。 信頼性の高い結果を得るために,ゼロショットプロンプトテンプレート,ゼロショットプロンプトエンジニアリング(PE)テンプレート,インコンテキスト学習(ICL)プロンプトテンプレートなど,各タスクに適した3つのプロンプトテンプレートを導入し,一般的な文対関係分類タスクのベースラインスコアを初めて確立した。 chatgptは因果関係の検出と推論において強力な性能を示すが,2つの事象間の時間順序の同定には適さない可能性がある。 既存の明示的な談話接続とのほとんどの談話関係を認識できるが、暗黙的な談話関係は依然として困難な課題である。 一方、ChatGPTは、対話関係に気付く前に対話の構造的理解を必要とする対話談話解析タスクにおいて、不十分に機能する。

This paper aims to quantitatively evaluate the performance of ChatGPT, an interactive large language model, on inter-sentential relations such as temporal relations, causal relations, and discourse relations. Given ChatGPT's promising performance across various tasks, we conduct extensive evaluations on the whole test sets of 13 datasets, including temporal and causal relations, PDTB2.0-based and dialogue-based discourse relations, and downstream applications on discourse understanding. To achieve reliable results, we adopt three tailored prompt templates for each task, including the zero-shot prompt template, zero-shot prompt engineering (PE) template, and in-context learning (ICL) prompt template, to establish the initial baseline scores for all popular sentence-pair relation classification tasks for the first time. We find that ChatGPT exhibits strong performance in detecting and reasoning about causal relations, while it may not be proficient in identifying the temporal order between two events. It can recognize most discourse relations with existing explicit discourse connectives, but the implicit discourse relation still remains a challenging task. Meanwhile, ChatGPT performs poorly in the dialogue discourse parsing task that requires structural understanding in a dialogue before being aware of the discourse relation.
翻訳日:2023-05-15 15:34:41 公開日:2023-05-11
# avface: 視聴覚4次元顔再建に向けて

AVFace: Towards Detailed Audio-Visual 4D Face Reconstruction ( http://arxiv.org/abs/2304.13115v2 )

ライセンス: Link先を確認
Aggelina Chatziagapi, Dimitris Samaras(参考訳) 本研究では,モノクロ映像からの4次元顔再構成問題に対するマルチモーダル・ソリューションを提案する。 2次元画像からの3次元顔の再構成は、深さのあいまいさによる制約の少ない問題である。 最先端の手法は、単一の画像やビデオからの視覚情報を活用してこの問題を解決しようとするが、3dメッシュアニメーションのアプローチはオーディオに依存している。 しかし、ほとんどのケース(例えばAR/VRアプリケーション)では、ビデオには視覚情報と音声情報の両方が含まれている。 本研究では,任意の話者の4次元顔と唇の動きを,訓練に3次元的真実を必要とせず正確に再構成するAVFaceを提案する。 粗いステージは、3次元の変形可能なモデルのフレームあたりのパラメータを推定し、続いて唇の精製を行い、さらに細かいステージは顔の幾何学的詳細を復元する。 トランスフォーマティブ・モジュールによってキャプチャされた時間的音声と映像情報により,どちらのモダリティも不十分な場合(顔のオクルージョンなど)ではロバストな手法である。 大規模定性的・定量的評価は,本手法が現状よりも優れていることを示す。

In this work, we present a multimodal solution to the problem of 4D face reconstruction from monocular videos. 3D face reconstruction from 2D images is an under-constrained problem due to the ambiguity of depth. State-of-the-art methods try to solve this problem by leveraging visual information from a single image or video, whereas 3D mesh animation approaches rely more on audio. However, in most cases (e.g. AR/VR applications), videos include both visual and speech information. We propose AVFace that incorporates both modalities and accurately reconstructs the 4D facial and lip motion of any speaker, without requiring any 3D ground truth for training. A coarse stage estimates the per-frame parameters of a 3D morphable model, followed by a lip refinement, and then a fine stage recovers facial geometric details. Due to the temporal audio and video information captured by transformer-based modules, our method is robust in cases when either modality is insufficient (e.g. face occlusions). Extensive qualitative and quantitative evaluation demonstrates the superiority of our method over the current state-of-the-art.
翻訳日:2023-05-15 15:34:18 公開日:2023-05-11
# 神経変調ゲートトランス

Neuromodulation Gated Transformer ( http://arxiv.org/abs/2305.03232v2 )

ライセンス: Link先を確認
Kobe Knowles, Joshua Bensemann, Diana Benavides-Prado, Vithya Yogarajan, Michael Witbrock, Gillian Dobbie and Yang Chen(参考訳) 我々は,神経変調ゲートトランスフォーマー (ngt) という新しいアーキテクチャを導入し,乗法効果によるトランスフォーマーにおける神経変調の簡易な実装法を提案する。 ベースラインと比較した結果,SuperGLUEベンチマーク検証セットの平均性能が最高の結果となった。

We introduce a novel architecture, the Neuromodulation Gated Transformer (NGT), which is a simple implementation of neuromodulation in transformers via a multiplicative effect. We compare it to baselines and show that it results in the best average performance on the SuperGLUE benchmark validation sets.
翻訳日:2023-05-15 15:24:42 公開日:2023-05-11
# 近接決定的テレポーテーションプロトコルによる連続的および離散的可変デバイス間の量子モード転送

Qumode transfer between continuous and discrete variable devices by near-deterministic teleportation protocols ( http://arxiv.org/abs/2305.03179v2 )

ライセンス: Link先を確認
Alexandru Macridin and Andy C. Y. Li and Panagiotis Spentzouris(参考訳) 異なる種類の量子ハードウェア間で量子情報を転送することは、統合量子技術にとって不可欠である。 特に、連続変数(cv)と離散変数(dv)間の情報変換は、量子ネットワーク、量子センシング、量子機械学習、量子コンピューティングにおいて多くの応用を可能にする。 本稿では,CVとDVデバイス間のCV符号化情報の転送について述べる。 本稿では,DVデバイス上でCV状態を符号化し,CVゲートを実装するための効率的な方法と,CVとDVデバイス間でCV状態を転送するための2つのテレポーテーションプロトコルを提案する。 テレポーテーションプロトコルの成功確率は測定結果に依存するため、DVデバイスに補助量子ビットを追加することで、ほぼ決定論的値に拡張することができる。

Transferring quantum information between different types of quantum hardware is crucial for integrated quantum technology. In particular, converting information between continuous-variable (CV) and discrete-variable (DV) devices enables many applications in quantum networking, quantum sensing, quantum machine learning, and quantum computing. This paper addresses the transfer of CV-encoded information between CV and DV devices. We present an efficient method for encoding CV states and implementing CV gates on DV devices, as well as two teleportation protocols for transferring CV states between CV and DV devices. The success probability of the teleportation protocols depends on the measurement outcome and can be increased to near-deterministic values by adding ancillary qubits to the DV devices.
翻訳日:2023-05-15 15:24:37 公開日:2023-05-11
# スペクトル計測のための逐次実験設計:パラメトリックモデルを用いたアクティブラーニング

Sequential Experimental Design for Spectral Measurement: Active Learning Using a Parametric Model ( http://arxiv.org/abs/2305.07040v1 )

ライセンス: Link先を確認
Tomohiro Nabika, Kenji Nagata, Shun Katakami, Masaichiro Mizumaki, and Masato Okada(参考訳) 本研究では,パラメトリックモデルを用いた能動学習によるスペクトル測定の逐次的実験設計について述べる。 分光測定では,試料の脆性や高エネルギーコストのため,測定時間を短縮する必要がある。 実験の効率を向上させるために, 連続的な実験設計を提案し, 測定前に得られたデータを用いて, 積極的学習によりその後の測定を設計する。 従来、パラメトリックモデルはデータ分析に用いられており、アクティブラーニングにはデータ解析の精度を向上させるための逐次的な実験設計が期待されている。 しかし,公式の複雑さのため,一般パラメトリックモデルを用いた逐次実験設計は実現されていない。 そこで,交換モンテカルロ法を用いてベイズ推定に基づくデータ解析を行い,一般パラメトリックモデルを用いた逐次実験設計を実現する。 本研究では,x線光電子分光法におけるベイズスペクトル分解とベイズハミルトニアン選択に適用することにより,提案手法の有効性を評価した。 人工データを用いた数値実験により,本手法は,アクティブラーニングやガウス過程回帰を用いたアクティブラーニングと比較して,測定時間を短縮しつつ,モデル選択とパラメータ推定の精度を向上させることを実証した。

In this study, we demonstrate a sequential experimental design for spectral measurements by active learning using parametric models as predictors. In spectral measurements, it is necessary to reduce the measurement time because of sample fragility and high energy costs. To improve the efficiency of experiments, sequential experimental designs are proposed, in which the subsequent measurement is designed by active learning using the data obtained before the measurement. Conventionally, parametric models are employed in data analysis; when employed for active learning, they are expected to afford a sequential experimental design that improves the accuracy of data analysis. However, due to the complexity of the formulas, a sequential experimental design using general parametric models has not been realized. Therefore, we applied Bayesian inference-based data analysis using the exchange Monte Carlo method to realize a sequential experimental design with general parametric models. In this study, we evaluated the effectiveness of the proposed method by applying it to Bayesian spectral deconvolution and Bayesian Hamiltonian selection in X-ray photoelectron spectroscopy. Using numerical experiments with artificial data, we demonstrated that the proposed method improves the accuracy of model selection and parameter estimation while reducing the measurement time compared with the results achieved without active learning or with active learning using the Gaussian process regression.
翻訳日:2023-05-15 15:07:34 公開日:2023-05-11
# gated summarizationモジュールを用いた値反復ネットワーク

Value Iteration Networks with Gated Summarization Module ( http://arxiv.org/abs/2305.07039v1 )

ライセンス: Link先を確認
Jinyu Cai, Jialong Li and Kenji Tei(参考訳) 本稿では,VIN(Value Iteration Networks)が直面している,より大きな入力マップの処理と,繰り返しの増大による累積誤差の影響の軽減に対処する。 本稿では,(1)反復回数を減らすために,(1)適応イテレーション戦略をバリューイテレーションモジュールに導入すること,(2)反復プロセスを要約するゲーテッド要約モジュールを導入すること,の2つの主な改良点を取り入れた新しいアプローチとして,Gated Summarization Module (GS-VIN)を提案する。 アダプティブイテレーション戦略は、イテレーション時間の少ないより大きな畳み込みカーネルを使用し、ネットワークの深さを削減し、計画プロセスの精度を維持しながらトレーニング安定性を向上させる。 ゲート要約モジュールは、VIモジュール内の計画プロセス全体を時間的かつ空間的に再サンプリングすることにより、最終グローバルな計画結果のみに頼るのではなく、計画プロセス全体を強調することができる。 我々は,2次元グリッドの世界パスフィニング問題とAtari Mr. Pac-man環境について実験を行い,GS-VINが単一ステップの精度,計画成功率,および異なるマップサイズでの全体的な性能において,ベースラインよりも優れていることを示した。 さらに,viベースのモデルの大部分に適用可能な入力サイズとカーネルサイズ,およびviベースのモデルのイテレーション数との関係について分析を行い,研究者や産業展開に有用な知見を提供する。

In this paper, we address the challenges faced by Value Iteration Networks (VIN) in handling larger input maps and mitigating the impact of accumulated errors caused by increased iterations. We propose a novel approach, Value Iteration Networks with Gated Summarization Module (GS-VIN), which incorporates two main improvements: (1) employing an Adaptive Iteration Strategy in the Value Iteration module to reduce the number of iterations, and (2) introducing a Gated Summarization module to summarize the iterative process. The adaptive iteration strategy uses larger convolution kernels with fewer iteration times, reducing network depth and increasing training stability while maintaining the accuracy of the planning process. The gated summarization module enables the network to emphasize the entire planning process, rather than solely relying on the final global planning outcome, by temporally and spatially resampling the entire planning process within the VI module. We conduct experiments on 2D grid world path-finding problems and the Atari Mr. Pac-man environment, demonstrating that GS-VIN outperforms the baseline in terms of single-step accuracy, planning success rate, and overall performance across different map sizes. Additionally, we provide an analysis of the relationship between input size, kernel size, and the number of iterations in VI-based models, which is applicable to a majority of VI-based models and offers valuable insights for researchers and industrial deployment.
翻訳日:2023-05-15 15:06:56 公開日:2023-05-11
# パーキンソン病における症状のパターン : 3次元畳み込みオートエンコーダを用いた潜在空間解析

Revealing Patterns of Symptomatology in Parkinson's Disease: A Latent Space Analysis with 3D Convolutional Autoencoders ( http://arxiv.org/abs/2305.07038v1 )

ライセンス: Link先を確認
E. Delgado de las Heras, F.J. Martinez-Murcia, I.A. Ill\'an, C. Jim\'enez-Mesa, D. Castillo-Barnes, J. Ram\'irez, and J.M. G\'orriz(参考訳) 本研究は,パーキンソン病(PD)における神経変性による病態変化の追跡にCVAE(3D Convolutional variational autoencoder)を用いたことを提案する。 本研究では, ドパミントランスポーター(DaT)濃度と空間パターンの変化を, Ioflupane(FPCIT)画像上の3次元CVAEを用いて検出・定量する手法を提案する。 このアプローチでは,脳画像データの低次元表現を学習するために深層学習の力を活用し,回帰アルゴリズムを用いて異なる症状カテゴリに関連付ける。 本研究のアプローチがPD患者のデータセットと健康管理に及ぼす影響を実証し,一般症状学(UPDRS)がCVAEとR2>0.25のD次元分解に結びついていることを示す。 本研究は,早期診断のみならず,神経変性過程や症状学の理解においても,表現学習の可能性を示す。

This work proposes the use of 3D convolutional variational autoencoders (CVAEs) to trace the changes and symptomatology produced by neurodegeneration in Parkinson's disease (PD). In this work, we present a novel approach to detect and quantify changes in dopamine transporter (DaT) concentration and its spatial patterns using 3D CVAEs on Ioflupane (FPCIT) imaging. Our approach leverages the power of deep learning to learn a low-dimensional representation of the brain imaging data, which then is linked to different symptom categories using regression algorithms. We demonstrate the effectiveness of our approach on a dataset of PD patients and healthy controls, and show that general symptomatology (UPDRS) is linked to a d-dimensional decomposition via the CVAE with R2>0.25. Our work shows the potential of representation learning not only in early diagnosis but in understanding neurodegeneration processes and symptomatology.
翻訳日:2023-05-15 15:06:18 公開日:2023-05-11
# 層内リンクによる深度分離の再考

Rethink Depth Separation with Intra-layer Links ( http://arxiv.org/abs/2305.07037v1 )

ライセンス: Link先を確認
Feng-Lei Fan, Ze-Yu Li, Huan Xiong, Tieyong Zeng(参考訳) 深度分離理論は、現在、深さの力の有効な説明として広く受け入れられており、2つの部分からなる。 一 深層ネットワークで表現可能な機能があること。 二 この関数は、幅が閾値より低い浅いネットワークで表すことができない。 しかし、この理論はフィードフォワードネットワークで確立されている。 現実世界の問題を解決する上で最も一般的なネットワークタイプであるショートカットの文脈で、深さ分離理論を考察する研究はほとんどない。 ここでは層内リンクを付加することで深さ分離理論を変更できることを見いだす。 まず,層内リンクの追加により,境界推定,明示的構成,関数空間解析により,ネットワークの表現能力が大幅に向上することを示す。 そこで, 層内リンクを持つ浅層ネットワークが, 深層ネットワークによって構築されたハード関数を表現するために, 従来よりも幅を広くする必要がないことを示すことにより, 深さ分離理論を変更する。 そのような関数には有名な "sawtooth" 関数が含まれる。 また、幅の節約は線形となる。 本研究は,近距離領域におけるその限界を調べることにより,既存の深さ分離理論を補足する。 また,ResNet や DenseNet, \textit{e.g.} などの一般的なショートカットネットワークの表現性を解析し,残余接続により,ソートゥース関数を効率的に表現することができる。

The depth separation theory is nowadays widely accepted as an effective explanation for the power of depth, which consists of two parts: i) there exists a function representable by a deep network; ii) such a function cannot be represented by a shallow network whose width is lower than a threshold. However, this theory is established for feedforward networks. Few studies, if not none, considered the depth separation theory in the context of shortcuts which are the most common network types in solving real-world problems. Here, we find that adding intra-layer links can modify the depth separation theory. First, we report that adding intra-layer links can greatly improve a network's representation capability through bound estimation, explicit construction, and functional space analysis. Then, we modify the depth separation theory by showing that a shallow network with intra-layer links does not need to go as wide as before to express some hard functions constructed by a deep network. Such functions include the renowned "sawtooth" functions. Moreover, the saving of width is up to linear. Our results supplement the existing depth separation theory by examining its limit in the shortcut domain. Also, the mechanism we identify can be translated into analyzing the expressivity of popular shortcut networks such as ResNet and DenseNet, \textit{e.g.}, residual connections empower a network to represent a sawtooth function efficiently.
翻訳日:2023-05-15 15:05:58 公開日:2023-05-11
# ヒューマンフィードバックを備えたGFlowNets

GFlowNets with Human Feedback ( http://arxiv.org/abs/2305.07036v1 )

ライセンス: Link先を確認
Yinchuan Li, Shuang Luo, Yunfeng Shao, and Jianye Hao(参考訳) 我々は,AIモデルを訓練する際の探索能力を向上させるために,GFlowNets with Human Feedback (GFlowHF)フレームワークを提案する。 報酬が不明なタスクに対しては、異なる軌道上の人間の評価を通して報酬関数を適合させる。 GFlowHFの目標は、RLHFのような人間のお気に入りの評価だけに焦点を当てるのではなく、人間の評価に厳密に比例した政策を学ぶことだ。 実験により、GFlowHFはRLHFよりも優れた探査能力が得られることが示された。

We propose the GFlowNets with Human Feedback (GFlowHF) framework to improve the exploration ability when training AI models. For tasks where the reward is unknown, we fit the reward function through human evaluations on different trajectories. The goal of GFlowHF is to learn a policy that is strictly proportional to human ratings, instead of only focusing on human favorite ratings like RLHF. Experiments show that GFlowHF can achieve better exploration ability than RLHF.
翻訳日:2023-05-15 15:05:37 公開日:2023-05-11
# 異なる量子ハードウェアを用いた変分量子固有解法のベンチマーク

Benchmarking the Variational Quantum Eigensolver using different quantum hardware ( http://arxiv.org/abs/2305.07092v1 )

ライセンス: Link先を確認
Amine Bentellis, Andrea Matic-Flierl, Christian B. Mendl, Jeanette Miriam Lorenz(参考訳) 変分量子固有解法 (VQE) は、ノイズ中間スケール量子 (NISQ) 時代に化学を応用するための有望な量子アルゴリズムである。 量子コンピュータが高い精度で電子構造をシミュレートする能力は、物質科学や生化学科学に大きな影響を与え、例えば新しい薬物の開発に応用される可能性がある。 しかし、様々な量子ハードウェアアーキテクチャを考えると、分子のシミュレーションのようなVQEを実行するのにどのハードウェア概念が最も適しているかは未だに不明である。 ここで考慮すべき側面は、使用する量子回路の必要な接続、サイズと深さ、そしてノイズ効果に対する感受性である。 理論的考察に加えて、利用可能な量子ハードウェアを用いた実証研究は、特定のアプリケーションやアルゴリズムにどのハードウェア技術がより適しているかという問題を明らかにするのに役立つかもしれない。 本研究では,水素分子のシミュレーションにVQEを用いて,超伝導とイオントラップ量子コンピュータを比較した。 実験はansatzとoptimizerの標準化されたセットアップで行われ、必要なイテレーションの量を減らすために選択される。 これらの結果は、異なる量子プロセッサタイプ、キャリブレーションデータ、およびトランスパイレーション後の異なるハードウェア概念に必要な回路の深さとゲート数を考慮して分析される。

The Variational Quantum Eigensolver (VQE) is a promising quantum algorithm for applications in chemistry within the Noisy Intermediate-Scale Quantum (NISQ) era. The ability for a quantum computer to simulate electronic structures with high accuracy would have a profound impact on material and biochemical science with potential applications e.g., to the development of new drugs. However, considering the variety of quantum hardware architectures, it is still uncertain which hardware concept is most suited to execute the VQE for e.g., the simulation of molecules. Aspects to consider here are the required connectivity of the quantum circuit used, the size and the depth and thus the susceptibility to noise effects. Besides theoretical considerations, empirical studies using available quantum hardware may help to clarify the question of which hardware technology might be better suited for a certain given application and algorithm. Going one step into this direction, within this work, we present results using the VQE for the simulation of the hydrogen molecule, comparing superconducting and ion trap quantum computers. The experiments are carried out with a standardized setup of ansatz and optimizer, selected to reduce the amount of iterations required. The findings are analyzed considering different quantum processor types, calibration data as well as the depth and gate counts of the circuits required for the different hardware concepts after transpilation.
翻訳日:2023-05-15 14:56:11 公開日:2023-05-11
# 大規模非有界確率的情報遅延を伴う分散確率近似の安定性と収束

Stability and Convergence of Distributed Stochastic Approximations with large Unbounded Stochastic Information Delays ( http://arxiv.org/abs/2305.07091v1 )

ライセンス: Link先を確認
Adrian Redder, Arunselvan Ramaswamy, Holger Karl(参考訳) 任意のモーメント境界を持つ情報遅延を持つ確率近似(SA)にBMT(Borkar-Meyn stability Theorem)を一般化する。 遅延をモデル化するために, 単位成長特性を持つ非負整数の確率過程である age of information process (aoips) を導入する。 任意のモーメント境界を持つAoIPは、無限に時間の分数を超えることはできないことを示す。 適度に選択されたステップサイズと組み合わせると、この性質は分散SAの安定性に十分であることがわかった。 BMTと比較すると,AoIによるSAの誤りに対処するためには,重要な修正と新たな議論が必要である。 本分析では,これらSA誤差が再帰的不等式を満たすことを示す。 この再帰を評価するために, 時変下限に対する新しいグロンウォール型不等式を提案する。 分散BMTへの応用として、分散勾配に基づく最適化と、運動量を持つSAを解析するための新しいアプローチについて論じる。

We generalize the Borkar-Meyn stability Theorem (BMT) to distributed stochastic approximations (SAs) with information delays that possess an arbitrary moment bound. To model the delays, we introduce Age of Information Processes (AoIPs): stochastic processes on the non-negative integers with a unit growth property. We show that AoIPs with an arbitrary moment bound cannot exceed any fraction of time infinitely often. In combination with a suitably chosen stepsize, this property turns out to be sufficient for the stability of distributed SAs. Compared to the BMT, our analysis requires crucial modifications and a new line of argument to handle the SA errors caused by AoI. In our analysis, we show that these SA errors satisfy a recursive inequality. To evaluate this recursion, we propose a new Gronwall-type inequality for time-varying lower limits of summations. As applications to our distributed BMT, we discuss distributed gradient-based optimization and a new approach to analyzing SAs with momentum.
翻訳日:2023-05-15 14:55:51 公開日:2023-05-11
# HINT:コヒーレント確率予測のための階層型混合ネットワーク

HINT: Hierarchical Mixture Networks For Coherent Probabilistic Forecasting ( http://arxiv.org/abs/2305.07089v1 )

ライセンス: Link先を確認
Kin G. Olivares, David Luo, Cristian Challu, Stefania La Vattiata, Max Mergenthaler, Artur Dubrawski(参考訳) 本稿では,効率的なコヒーレント予測のためのモデルファミリーである階層混合ネットワーク(HINT)を提案する。 我々は,複合度に最適化された多変量混合によりタスク上のネットワークを特殊化し,ブートストラップによるコヒーレント化を行う。 さらに,ネットワークを強化して時系列スケールの変動を抑え,正規化された特徴抽出と出力スケールの再構成をアーキテクチャに組み込む。 8%のscrpsが5つのデータセットにまたがって精度が向上していることを示す。 我々は, モデル成分に関するアブレーション研究を行い, 多変量混合物の理論的性質を幅広く検討した。 HINTのコードは、https://github.com/Nixtla/neuralforecast.comで入手できる。

We present the Hierarchical Mixture Networks (HINT), a model family for efficient and accurate coherent forecasting. We specialize the networks on the task via a multivariate mixture optimized with composite likelihood and made coherent via bootstrap reconciliation. Additionally, we robustify the networks to stark time series scale variations, incorporating normalized feature extraction and recomposition of output scales within their architecture. We demonstrate 8% sCRPS improved accuracy across five datasets compared to the existing state-of-the-art. We conduct ablation studies on our model's components and extensively investigate the theoretical properties of the multivariate mixture. HINT's code is available at this https://github.com/Nixtla/neuralforecast.
翻訳日:2023-05-15 14:55:36 公開日:2023-05-11
# 雑音誘導攻撃によるコントラスト学習の促進:野生における連続的関係抽出を目指して

Enhancing Contrastive Learning with Noise-Guided Attack: Towards Continual Relation Extraction in the Wild ( http://arxiv.org/abs/2305.07085v1 )

ライセンス: Link先を確認
Ting Wu, Jingyi Liu, Rui Zheng, Qi Zhang, Tao Gui, Xuanjing Huang(参考訳) 連続的関係抽出の原則~(CRE)は、od知識を維持しながら新しい関係に適応することである。 creにおける現在の取り組みは古い知識の保存に成功しているが、汚染されたデータストリームにさらされると失敗する傾向がある。 これは、データストリームにアノテーションエラーがないという人工的な仮説に依拠していると仮定し、creの現実世界のアプリケーションを妨げる。 本稿では,実世界のデータセットにおける雑音ラベルのユビキタス性を考慮して,より実用的な学習シナリオを定式化する。 この難易度設定に基づいて, 漸進的に劣化した関係を学習するために, 雑音耐性のコントラストフレームワークである \textbf{N}oise-guided \textbf{a}ttack in \textbf{C}ontrative \textbf{L}earning~(NaCL)を開発した。 直接雑音除去や到達不能雑音回避と比較して,攻撃により与えられた雑音ラベルにマッチするように特徴空間を変更することで,コントラスト表現をよりリッチにすることができる。 広範な実証的検証により、naclはノイズレートを増加させ、最先端のベースラインを上回って一貫したパフォーマンス改善を達成できることが示されている。

The principle of continual relation extraction~(CRE) involves adapting to emerging novel relations while preserving od knowledge. While current endeavors in CRE succeed in preserving old knowledge, they tend to fail when exposed to contaminated data streams. We assume this is attributed to their reliance on an artificial hypothesis that the data stream has no annotation errors, which hinders real-world applications for CRE. Considering the ubiquity of noisy labels in real-world datasets, in this paper, we formalize a more practical learning scenario, termed as \textit{noisy-CRE}. Building upon this challenging setting, we develop a noise-resistant contrastive framework named as \textbf{N}oise-guided \textbf{a}ttack in \textbf{C}ontrative \textbf{L}earning~(NaCL) to learn incremental corrupted relations. Compared to direct noise discarding or inaccessible noise relabeling, we present modifying the feature space to match the given noisy labels via attacking can better enrich contrastive representations. Extensive empirical validations highlight that NaCL can achieve consistent performance improvements with increasing noise rates, outperforming state-of-the-art baselines.
翻訳日:2023-05-15 14:55:25 公開日:2023-05-11
# 機械がベルを鳴らすと: 絡み合いとベルの不等式は$t\bar{t}$となる。

When the Machine Chimes the Bell: Entanglement and Bell Inequalities with Boosted $t\bar{t}$ ( http://arxiv.org/abs/2305.07075v1 )

ライセンス: Link先を確認
Zhongtian Dong, Dorival Gon\c{c}alves, Kyoungchul Kong, Alberto Navarro(参考訳) 大型ハドロン衝突型加速器は、今日利用可能な最高エネルギーでベルの不平等の量子絡み合いと違反を研究するユニークな機会を提供する。 本稿では、2量子ビットの系を表すトップクォーク対生成とこれらの量子相関について検討する。 2つの因果的に切断されたトップクォークの空間的な分離要件は、相対論的に互いに離れて飛行することであり、これは半レプトニックのトップペアチャネルで強化されたトップタグの使用を動機付けている。 ハドロントップクォークのスピン偏光測定は困難であることが知られているが、最適ハドロン偏光度計を用いて2量子系のスピン密度行列を再構成することは可能である。 これは、サブジェットとクォークのマッピングを改善するため、ジェットサブ構造技術とNNインスパイアされた再構成手法によって達成される。 既存のデータでは、エンタングルメントが既に5ドル以上で観測でき、ベルの不等式違反はhl-lhcにおいて3ab$^{-1}$のデータで4$\sigma$レベル以上で調査することができる。

The Large Hadron Collider provides a unique opportunity to study quantum entanglement and violation of Bell inequalities at the highest energy available today. In this paper, we will investigate these quantum correlations with top quark pair production, which represents a system of two-qubits. The spacelike separation requirement for the two causally disconnected top quarks requires they fly relativistically away from each other, which motivates the use of the boosted top-tagging with the semi-leptonic top pair channel. Although measuring the spin polarization of the hadronic top quark is known to be challenging, our study indicates that it is feasible to reconstruct the spin density matrix of the two-qubit system using an optimal hadronic polarimeter. This is achieved with the aid of jet substructure techniques and NN-inspired reconstruction methods, which improve the mapping between subjets and quarks. We find that entanglement can already be observed at more than $5\sigma$ level with existing data, and violation of Bell inequalities may be probed above 4$\sigma$ level at the HL-LHC with 3 ab$^{-1}$ of data.
翻訳日:2023-05-15 14:55:00 公開日:2023-05-11
# 可変誤り補正量子ビットによるフルスタック量子コンピューティングの実現

Enabling Full-Stack Quantum Computing with Changeable Error-Corrected Qubits ( http://arxiv.org/abs/2305.07072v1 )

ライセンス: Link先を確認
Anbang Wu, Keyi Yin, Andrew W. Cross, Ang Li, Yufei Ding(参考訳) 量子エラー補正(QEC)による量子アプリケーションの実行は、イージン・ニウルの定理によって課されるゲート不等式問題に直面する。 1つのリソース時間効率のソリューションとして、コードスイッチングは論理キュービットのエンコーディングを変更し、普遍論理ゲートを実装する。 残念ながら、変更可能な論理量子ビットに基づいてフルスタックのフォールトトレラント量子コンピューティング(FTQC)を実行する方法はまだ不明である。 特に3つの重要な問題は未解決のままである。 a) 動的論理キュービットをハードウェアに実装する方法 b) 論理キュービットの変化の適切なタイミングを決定する方法 c) 異なる機能を持つプログラムのシステム全体のパフォーマンスを改善する方法。 これらの設計問題を克服するために,変更可能な論理量子ビットに基づくFTQCの大規模設計空間を探索するCECQを提案する。 様々な量子プログラムの実験は、CECQの有効性を示す。

Executing quantum applications with quantum error correction (QEC) faces the gate non-universality problem imposed by the Eastin-Knill theorem. As one resource-time-efficient solution, code switching changes the encoding of logical qubits to implement universal logical gates. Unfortunately, it is still unclear how to perform full-stack fault-tolerant quantum computing (FTQC) based on the changeable logical qubit. Specifically, three critical problems remain unsolved: a) how to implement the dynamic logical qubit on hardware; b) how to determine the appropriate timing for logical qubit varying; c) how to improve the overall system performance for programs of different features. To overcome those design problems, We propose CECQ, to explore the large design space for FTQC based on changeable logical qubits. Experiments on various quantum programs demonstrate the effectiveness of CECQ.
翻訳日:2023-05-15 14:54:35 公開日:2023-05-11
# UAVベースの3Dネットワークにおける干渉管理のための深層強化学習の可能性と課題

Deep Reinforcement Learning for Interference Management in UAV-based 3D Networks: Potentials and Challenges ( http://arxiv.org/abs/2305.07069v1 )

ライセンス: Link先を確認
Mojtaba Vaezi, Xingqin Lin, Hongliang Zhang, Walid Saad, and H. Vincent Poor(参考訳) 現代のセルネットワークはマルチセルであり、スペクトル効率を最大化するためにユニバーサル周波数再利用を使用する。 これにより細胞間干渉が高まる。 この問題は、無人航空機(uav)の採用により、セルラーネットワークが3次元化していくにつれて拡大している。 これは、UAV通信における視線チャネルにより、干渉リンクの強度と数が急速に増加するためである。 既存の干渉管理ソリューションでは、各送信者が干渉信号のチャネル情報を知る必要があり、過度の信号のオーバーヘッドのため実用的でない。 本稿では,この欠点に対処するための干渉管理に深層強化学習を活用することを提案する。 特に,チャネル情報を知ることなく干渉を効果的に軽減できることを示す。 次に、線形・サブ線形複雑度でアルゴリズムをスケールし、マルチエージェント強化学習を用いて分散化する新しい手法について論じる。 干渉を利用して提案された解決策は、民間UAVの継続的な成長を可能にする。

Modern cellular networks are multi-cell and use universal frequency reuse to maximize spectral efficiency. This results in high inter-cell interference. This problem is growing as cellular networks become three-dimensional with the adoption of unmanned aerial vehicles (UAVs). This is because the strength and number of interference links rapidly increase due to the line-of-sight channels in UAV communications. Existing interference management solutions need each transmitter to know the channel information of interfering signals, rendering them impractical due to excessive signaling overhead. In this paper, we propose leveraging deep reinforcement learning for interference management to tackle this shortcoming. In particular, we show that interference can still be effectively mitigated even without knowing its channel information. We then discuss novel approaches to scale the algorithms with linear/sublinear complexity and decentralize them using multi-agent reinforcement learning. By harnessing interference, the proposed solutions enable the continued growth of civilian UAVs.
翻訳日:2023-05-15 14:54:22 公開日:2023-05-11
# 変分量子仮想時間発展の確率的近似

Stochastic Approximation of Variational Quantum Imaginary Time Evolution ( http://arxiv.org/abs/2305.07059v1 )

ライセンス: Link先を確認
Julien Gacon, Christa Zoufal, Giuseppe Carleo, Stefan Woerner(参考訳) 量子状態の想像上の時間発展は、自然科学から古典的最適化や機械学習まで、様々な分野に不可欠である。 量子想像時間進化のシミュレーションは一般に指数関数的に大きな波動関数を保存する必要があるため、量子コンピュータはこのタスクに有望なプラットフォームとして出現している。 しかし、短期量子コンピュータに適した変分的アプローチは、関連するシステムサイズに対する禁止的な数の測定と非現実的な実行に苦慮する。 ここでは、変動量子想像時間進化に対する確率論的アプローチを提案する。 提案手法では, 投資した資源と精度のトレードオフが可能であり, 正確な力学をシミュレーションする必要がない基底状態の準備にも適している。 シミュレーションにおけるアルゴリズムの効率を実証し,27量子ビットにおける横フィールドイジングモデルの仮想時間進化を行うハードウェア実験を示す。

The imaginary-time evolution of quantum states is integral to various fields, ranging from natural sciences to classical optimization or machine learning. Since simulating quantum imaginary-time evolution generally requires storing an exponentially large wave function, quantum computers are emerging as a promising platform for this task. However, variational approaches, suitable for near-term quantum computers, struggle with a prohibitive number of measurements and impractical runtimes for relevant system sizes. Here, we suggest a stochastic approach to variational quantum imaginary-time evolution, which allows a significant reduction in runtimes. Our approach allows trading off invested resources and accuracy, which makes it also suitable for ground state preparation, where simulating the exact dynamics is not required. We demonstrate the efficiency of our algorithm in simulations and show a hardware experiment performing the imaginary-time evolution of the transverse field Ising model on 27 qubits.
翻訳日:2023-05-15 14:54:06 公開日:2023-05-11
# 代替超伝導量子アーキテクチャの設計と実現のための枠組み

A Framework for the Design and Realization of Alternative Superconducting Quantum Architectures ( http://arxiv.org/abs/2305.07052v1 )

ライセンス: Link先を確認
Jagatheesan Kunasaikaran, Kevin Mato and Robert Wille(参考訳) 超伝導量子ハードウェアアーキテクチャは、基礎となる物理学の物理的制約を考慮して設計されている。 これらの汎用アーキテクチャにはカスタマイズと最適化の余地があり、量子ハードウェア上で実行される量子アプリケーション特有の代替アーキテクチャを活用できる。 しかし、対応する設計手順はほとんど統合されておらず、手作業に大きく依存している。 本研究では,この欠点に対処するための基盤を提供することを目的としたソフトウェアフレームワークを提供する。 この目的のために、まず超伝導量子ハードウェアアーキテクチャの設計をレビューし、その後、アプリケーション固有の量子ハードウェアアーキテクチャの設計フローをカプセル化した凝集フレームワークを提案する。 結果として得られるフレームワークは、量子アプリケーションに最適化された高レベルのアーキテクチャ生成、アーキテクチャの物理的レイアウト、および体系的なレイアウトの最適化を統合する。 リファレンス実装のフレームワークは、https://github.com/cda-tum/dasqaを通じてオープンソースライセンスで利用可能である。

Superconducting quantum hardware architectures have been designed by considering the physical constraints of the underlying physics. These general-purpose architectures leave room for customization and optimization that can be exploited with alternative architectures specific to the quantum applications that will be executed on the quantum hardware. However, the corresponding design steps are hardly integrated yet and still rely heavily on manual labor. In this work, we provide a software framework that aims at providing a foundation to address this drawback. To this end, we first review the design of superconducting quantum hardware architectures and, afterwards, propose a cohesive framework encapsulating the design flow of an application-specific quantum hardware architecture. The resulting framework integrates high-level architecture generation optimized for a quantum application, the physical layout of the architecture, as well as optimization of the layout in a methodical manner. The framework with a reference implementation is available via https://github.com/cda-tum/dasqa under an open-source license.
翻訳日:2023-05-15 14:53:50 公開日:2023-05-11
# 機械学習の公平性とヘルスケアの公平性

Fairness in Machine Learning meets with Equity in Healthcare ( http://arxiv.org/abs/2305.07041v1 )

ライセンス: Link先を確認
Shaina Raza, Parisa Osivand Pour, Syed Raza Bashir(参考訳) 医療における機械学習の利用の増加に伴い、医療の成果と効率を高める可能性が高まっている。 しかし、これはデータやモデル設計におけるバイアスを持続させるリスクをもたらし、年齢、性別、人種といった要因に基づいて保護されたグループに損害を与える可能性がある。 本研究では,ソフトウェア工学の原則に基づく人工知能フレームワークを提案し,医療現場における公平性を確保しつつ,データやモデルのバイアスを識別・緩和する。 そこで本研究では,データの系統的バイアスがモデル予測の増幅バイアスにどのようにつながるかを示すとともに,機械学習によるバイアス防止法を提案する。 今後の研究は、提案するMLフレームワークを実世界の臨床環境でテストし、検証することを目的としており、その影響が健康株の促進に与える影響を評価する。

With the growing utilization of machine learning in healthcare, there is increasing potential to enhance healthcare outcomes and efficiency. However, this also brings the risk of perpetuating biases in data and model design that can harm certain protected groups based on factors such as age, gender, and race. This study proposes an artificial intelligence framework, grounded in software engineering principles, for identifying and mitigating biases in data and models while ensuring fairness in healthcare settings. A case study is presented to demonstrate how systematic biases in data can lead to amplified biases in model predictions, and machine learning methods are suggested to prevent such biases. Future research aims to test and validate the proposed ML framework in real-world clinical settings to evaluate its impact on promoting health equity.
翻訳日:2023-05-15 14:53:37 公開日:2023-05-11
# 構造光系の画素ワイド合理的モデル

Pixel-wise rational model for structured light system ( http://arxiv.org/abs/2305.07128v1 )

ライセンス: Link先を確認
Ra\'ul Vargas, Lenny A. Romero, Song Zhang, Andres G. Marrugo(参考訳) このレターは、画素ワイドな有理関数による局所レンズ歪みを効果的に考察する構造的光システムモデルを示す。 ステレオ法を初期校正に利用し,各画素の有理モデルの推定を行う。 提案モデルは,キャリブレーションボリューム内外において高い測定精度を達成でき,ロバスト性と精度を示す。

This Letter presents a novel structured light system model that effectively considers local lens distortion by pixel-wise rational functions. We leverage the stereo method for initial calibration and then estimate the rational model for each pixel. Our proposed model can achieve high measurement accuracy within and outside the calibration volume, demonstrating its robustness and accuracy.
翻訳日:2023-05-15 14:48:08 公開日:2023-05-11
# 高精度・低複雑さSAR ATRのためのグラフニューラルネットワーク

Graph Neural Network for Accurate and Low-complexity SAR ATR ( http://arxiv.org/abs/2305.07119v1 )

ライセンス: Link先を確認
Bingyi Zhang, Sasindu Wijeratne, Rajgopal Kannan, Viktor Prasanna, Carl Busart(参考訳) The Synthetic Aperture Radar (SAR) Automatic Target Recognition (ATR)はリモートセンシング画像認識の鍵となる技術である。 最先端の研究は、SAR ATRの深部畳み込みニューラルネットワーク(CNN)を活用し、高い計算コストをもたらす。 これらの深いCNNモデルは、リソース制限されたプラットフォームにデプロイするには適していません。 本研究では,高精度かつ低レイテンシなSAR ATRを実現するグラフニューラルネットワーク(GNN)モデルを提案する。 入力されたSAR画像をグラフ表現に変換する。 提案したGNNモデルは、入力グラフ上で動作し、ターゲット分類を行うGNN層のスタックで構成されている。 大量の畳み込み演算を必要とする最先端のCNNとは異なり、提案したGNNモデルは計算複雑性が低く、高い精度を実現する。 GNNに基づくアプローチは,提案したemph{input pruning}戦略を実現する。 入力グラフの無関係な頂点をフィルタリングすることで、計算の複雑さを低減できる。 さらに,モデル重み行列をスパース化し,計算の複雑さを更に低減する \emph{model pruning} 戦略を提案する。 MSTARデータセットと船舶識別データセットに基づいて提案したGNNモデルを評価する。 評価の結果,上記の2つのデータセットにおいて,提案モデルがそれぞれ99.38\%,99.7\%の分類精度を達成した。 プルーニング戦略は、98.6\%の入力頂点と97\%の重みエントリを無視できる精度損失を伴う。 現状のCNNと比較して、提案したGNNモデルは、計算コストが1/3000、モデルサイズが1/80である。

Synthetic Aperture Radar (SAR) Automatic Target Recognition (ATR) is the key technique for remote sensing image recognition. The state-of-the-art works exploit the deep convolutional neural networks (CNNs) for SAR ATR, leading to high computation costs. These deep CNN models are unsuitable to be deployed on resource-limited platforms. In this work, we propose a graph neural network (GNN) model to achieve accurate and low-latency SAR ATR. We transform the input SAR image into the graph representation. The proposed GNN model consists of a stack of GNN layers that operates on the input graph to perform target classification. Unlike the state-of-the-art CNNs, which need heavy convolution operations, the proposed GNN model has low computation complexity and achieves comparable high accuracy. The GNN-based approach enables our proposed \emph{input pruning} strategy. By filtering out the irrelevant vertices in the input graph, we can reduce the computation complexity. Moreover, we propose the \emph{model pruning} strategy to sparsify the model weight matrices which further reduces the computation complexity. We evaluate the proposed GNN model on the MSTAR dataset and ship discrimination dataset. The evaluation results show that the proposed GNN model achieves 99.38\% and 99.7\% classification accuracy on the above two datasets, respectively. The proposed pruning strategies can prune 98.6\% input vertices and 97\% weight entries with negligible accuracy loss. Compared with the state-of-the-art CNNs, the proposed GNN model has only 1/3000 computation cost and 1/80 model size.
翻訳日:2023-05-15 14:48:02 公開日:2023-05-11
# k匿名化と合成データ技術によるエネルギーコストと機械学習精度への影響

Energy cost and machine learning accuracy impact of k-anonymisation and synthetic data techniques ( http://arxiv.org/abs/2305.07116v1 )

ライセンス: Link先を確認
Pepijn de Reus, Ana Oprescu, Koen van Elsen(参考訳) プライバシーと気候に関する社会的懸念の高まりに対処するため、EUはGDPR(General Data Protection Regulation)を採用し、グリーンディールにコミットした。 ソフトウェアのエネルギー効率と匿名データセットでトレーニングされた機械学習モデルの精度について検討した。 最近の研究は、k匿名性に焦点を当てた機械学習モデルのエネルギー消費と正確性の両方にプライバシー向上技術(PET)が与える影響を探求し始めた。 合成データがPETとしてますます普及しつつある中、本稿では2つの相のエネルギー消費と精度について分析する。 イ 関係データセットにプライバシー強化技術を適用すること。 b) プライバシ強化データセット上でモデルをトレーニングすること。 プライバシエンハンシングにはk匿名化(一般化と抑制)と合成データと3つの機械学習モデルを用いる。 各モデルは、プライバシー強化されたデータセットでトレーニングされる。 以上の結果から,k匿名化データでトレーニングしたモデルは,元のデータでトレーニングしたモデルよりも少ないエネルギーを消費することがわかった。 合成データでトレーニングされたモデルは、元のデータでトレーニングされたモデルと同等のエネルギー消費量と低い精度を持つ。

To address increasing societal concerns regarding privacy and climate, the EU adopted the General Data Protection Regulation (GDPR) and committed to the Green Deal. Considerable research studied the energy efficiency of software and the accuracy of machine learning models trained on anonymised data sets. Recent work began exploring the impact of privacy-enhancing techniques (PET) on both the energy consumption and accuracy of the machine learning models, focusing on k-anonymity. As synthetic data is becoming an increasingly popular PET, this paper analyses the energy consumption and accuracy of two phases: a) applying privacy-enhancing techniques to the concerned data set, b) training the models on the concerned privacy-enhanced data set. We use two privacy-enhancing techniques: k-anonymisation (using generalisation and suppression) and synthetic data, and three machine-learning models. Each model is trained on each privacy-enhanced data set. Our results show that models trained on k-anonymised data consume less energy than models trained on the original data, with a similar performance regarding accuracy. Models trained on synthetic data have a similar energy consumption and a similar to lower accuracy compared to models trained on the original data.
翻訳日:2023-05-15 14:47:37 公開日:2023-05-11
# 平衡における三項ディックモデル

A tricritical Dicke model in and out of equilibrium ( http://arxiv.org/abs/2305.07109v1 )

ライセンス: Link先を確認
Diego Fallas Padilla, Han Pu(参考訳) 多層原子を含む光物質相互作用系は、平衡や力学現象をテストするためのプラットフォームとして魅力的である。 ここでは、三段階系のアンサンブルが1つの光モードと相互作用する三臨界ディッケモデルについて、一般化されたホルシュタイン-プリマコフ写像とゲルマン行列を用いた処理という2つの異なるアプローチで検討する。 どちらの方法も無限個の原子の熱力学的極限において等価である。 平衡では、系は豊かな位相図を示し、連続対称性と離散対称性の両方を自発的に破壊することができる。 スケーリングの振る舞いに応じて,様々な種類の対称性を特徴付ける。 熱力学の限界とは程遠いが、数十個の原子を考えると、この系はすでに2階遷移と1階遷移の両方を潜在的な実験で特徴付けることができる。 重要なことは, 散逸を考慮した場合, 三臨界挙動は保存されることであり, さらに, 三臨界点に収束する様々な不安定領域を有する定常相図を作成することである。 複数の安定な正規および超ラジアント相を持つことは、初期状態および/またはパラメータのクエンチを巧みに選択することによって、興味深い定常状態を工学するための将来の道を開く。

Light-matter interacting systems involving multi-level atoms are appealing platforms for testing equilibrium and dynamical phenomena. Here, we explore a tricritical Dicke model, where an ensemble of three-level systems interacts with a single light mode, through two different approaches: a generalized Holstein-Primakoff map, and a treatment using the Gell-Mann matrices. Both methods are found to be equivalent in the thermodynamic limit of an infinite number of atoms. In equilibrium, the system exhibits a rich phase diagram where both continuous and discrete symmetries can be spontaneously broken. We characterize all the different types of symmetries according to their scaling behaviors. Far from the thermodynamic limit, considering just a few tens of atoms, the system already exhibits features that could help characterize both second and first-order transitions in a potential experiment. Importantly, we show that the tricritical behavior is preserved when dissipation is taken into account, moreover, the system develops a steady-state phase diagram with various regions of bistability, all of them converging at the tricritical point. Having multiple stable normal and superradiant phases opens prospective avenues for engineering interesting steady states by a clever choice of initial states and/or parameter quenching.
翻訳日:2023-05-15 14:47:18 公開日:2023-05-11
# 連続波レーザーによる単一光子・時間分解蛍光測定のための光子相関

Entangled Photon Correlations Allow a Continuous-Wave Laser Diode to Measure Single Photon, Time-Resolved Fluorescence ( http://arxiv.org/abs/2305.07108v1 )

ライセンス: Link先を確認
Nathan Harper, Bryce P. Hickam, Manni He, Scott K. Cushing(参考訳) 蛍光寿命実験は励起状態ダイナミクスと局所環境効果を測定する標準的な手法である。 ここでは、連続波(CW)レーザーによる絡み合った光子対が位相変調なしでパルスレーザー実験を再現可能であることを示す。 原理の証明として、インドシアニングリーンのピコ秒蛍光寿命を複数の環境で測定する。 絡み合った光子の使用には3つの利点がある。 第一に、低出力のCWレーザーダイオードと絡み合った光子源設計は、分配可能な蛍光寿命測定への直接経路のオンチップ統合に繋がる。 第二に、絡み合った対の波長は温度や電場によって容易に調整でき、単一の光源がオクターブ帯域をカバーすることができる。 第3に、フェムト秒時間分解能は、ソース技術や外部位相変調の大幅な進歩を必要としない。 絡み合った光子は、時間分解蛍光へのアクセシビリティを高めつつ、光に敏感で本質的に量子システムに新たな科学的道を開くことができる。

Fluorescence lifetime experiments are a standard approach for measuring excited state dynamics and local environment effects. Here, we show that entangled photon pairs produced from a continuous-wave (CW) laser diode can replicate pulsed laser experiments without phase modulation. As a proof of principle, picosecond fluorescence lifetimes of indocyanine green are measured in multiple environments. The use of entangled photons has three unique advantages. First, low power CW laser diodes and entangled photon source design lead to straightforward on-chip integration for a direct path to distributable fluorescence lifetime measurements. Second, the entangled pair wavelength is easily tuned by temperature or electric field, allowing a single source to cover octave bandwidths. Third, femtosecond temporal resolutions can be reached without requiring major advances in source technology or external phase modulation. Entangled photons could therefore provide increased accessibility to time-resolved fluorescence while also opening new scientific avenues in photosensitive and inherently quantum systems.
翻訳日:2023-05-15 14:46:55 公開日:2023-05-11
# 量子エラー補正による一般非コヒーレントな時空間ブロック符号

Generalized Noncoherent Space-Time Block Codes from Quantum Error Correction ( http://arxiv.org/abs/2305.07104v1 )

ライセンス: Link先を確認
S. Andrew Lanham, Eli Bradley, and Brian R. La Cour(参考訳) 本稿では、量子誤り訂正(QEC)に基づく非コヒーレント時空間ブロック符号(STBC)設計の結果を新しいアンテナ構成に一般化する。 従来、QECにインスパイアされたアンテナジオメトリー用のSTBCは、送信アンテナと受信アンテナの数が等しく、電力は2つであった。 本研究は, 受信アンテナ数が送信アンテナ数より大きい正方形アンテナジオメトリーおよびいくつかの矩形ジオメトリーに適用可能なQEC型STBCを提供することにより, これらの結果を拡張する。 我々は、白色ガウス雑音を伴うレイリーフェーディングの特別な場合の、この符号群に対する最大類似復号規則を導出する。 本稿では,この環境下での符号の性能をモンテカルロシミュレーションにより3つのアンテナ正方形幾何と3つの6つの正方形幾何に対して評価する。 一般的な非コヒーレントな微分符号に対して,これらの符号の競合性能を示す。

This paper generalizes results in noncoherent space-time block code (STBC) design based on quantum error correction (QEC) to new antenna configurations. Previous work proposed QEC-inspired STBCs for antenna geometries where the number of transmit and receive antennas were equal and a power of two. In this work we extend these results by providing QEC-inspired STBCs applicable to all square antenna geometries and some rectangular geometries where the number of receive antennas is greater than the number of transmit antennas. We derive the maximum-likelihood decoding rule for this family of codes for the special case of Rayleigh fading with additive white Gaussian noise. We present Monte Carlo simulations of the performance of the codes in this environment for a three-antenna square geometry and a three-by-six rectangular geometry. We demonstrate competitive performance for these codes with respect to a popular noncoherent differential code.
翻訳日:2023-05-15 14:46:39 公開日:2023-05-11
# 微細粒度分類のためのsalient mask-guided vision transformer

Salient Mask-Guided Vision Transformer for Fine-Grained Classification ( http://arxiv.org/abs/2305.07102v1 )

ライセンス: Link先を確認
Dmitry Demidov, Muhammad Hamza Sharif, Aliakbar Abdurahimov, Hisham Cholakkal, Fahad Shahbaz Khan(参考訳) 細粒度視覚分類(fgvc)は、下位カテゴリから自動的にオブジェクトを認識するタスクであるコンピュータビジョンの問題である。 その主な難点の1つは、視覚的に類似したクラス間の最も差別的なクラス間分散を捉えることである。 近年,視覚変換器 (ViT) を用いた手法がFGVCにおいて顕著な成果をみせている。 しかし、そのようなアプローチは、固有の自己認識機構にのみ依存するため、真の差別的領域に効果的に焦点を合わせるのに苦労する可能性があり、その結果、分類トークンは重要でない背景パッチからグローバル情報を集約する可能性がある。 さらに、データポイントの欠如により、分類器はクラス間の識別に最も有用な特徴を見つけることができず、他の無関係だが独特な背景領域は誤認識される可能性がある。 この目的のために,標準ViTのアテンションマップの識別性は,潜在的に差別的な前景領域のサージェントマスキングによって向上する,シンプルで効果的なSalient Mask-Guided Vision Transformer(SM-ViT)を導入する。 大規模な実験により、SM-ViTは既存のVTベースのアプローチで人気の高いFGVCベンチマークの最先端のパフォーマンスを達成し、リソースの削減と入力画像の解像度の低下を図っている。

Fine-grained visual classification (FGVC) is a challenging computer vision problem, where the task is to automatically recognise objects from subordinate categories. One of its main difficulties is capturing the most discriminative inter-class variances among visually similar classes. Recently, methods with Vision Transformer (ViT) have demonstrated noticeable achievements in FGVC, generally by employing the self-attention mechanism with additional resource-consuming techniques to distinguish potentially discriminative regions while disregarding the rest. However, such approaches may struggle to effectively focus on truly discriminative regions due to only relying on the inherent self-attention mechanism, resulting in the classification token likely aggregating global information from less-important background patches. Moreover, due to the immense lack of the datapoints, classifiers may fail to find the most helpful inter-class distinguishing features, since other unrelated but distinctive background regions may be falsely recognised as being valuable. To this end, we introduce a simple yet effective Salient Mask-Guided Vision Transformer (SM-ViT), where the discriminability of the standard ViT`s attention maps is boosted through salient masking of potentially discriminative foreground regions. Extensive experiments demonstrate that with the standard training procedure our SM-ViT achieves state-of-the-art performance on popular FGVC benchmarks among existing ViT-based approaches while requiring fewer resources and lower input image resolution.
翻訳日:2023-05-15 14:46:23 公開日:2023-05-11
# $\mathrm{E}(n)$ Equivariant Message Passing Simplicial Networks

$\mathrm{E}(n)$ Equivariant Message Passing Simplicial Networks ( http://arxiv.org/abs/2305.07100v1 )

ライセンス: Link先を確認
Floor Eijkelboom, Rob Hesselink, Erik Bekkers(参考訳) 本稿では、回転、変換、反射に同変である幾何学的グラフと点雲を学習するための新しいアプローチである、$\mathrm{e}(n)$ equivariant message passing simplicial networks (empsns)を提案する。 EMPSNはグラフ(例えば三角形)の高次元の単純関数を学習し、$\mathrm{E}(n)$同変の方法で高次元の単純化の幾何学的情報を増やすことができる。 EMPSNは同時に$\mathrm{E}(n)$ Equivariant Graph Neural Networksを位相的により精巧に一般化し、メッセージパッシング単純ネットワークに幾何学的情報を含めるためのアプローチを提供する。 その結果, EMPSNは両手法の利点を生かすことができ, いずれの手法と比較しても性能が全般的に向上することが示唆された。 さらに, 幾何学的情報を取り込むことは, メッセージパッシングネットワーク, 特に高次元単純構造上での動作に対する効果的な対策として有効であることが示唆された。 最後に、EMPSNは幾何学グラフの学習における最先端のアプローチと同等であることを示す。

This paper presents $\mathrm{E}(n)$ Equivariant Message Passing Simplicial Networks (EMPSNs), a novel approach to learning on geometric graphs and point clouds that is equivariant to rotations, translations, and reflections. EMPSNs can learn high-dimensional simplex features in graphs (e.g. triangles), and use the increase of geometric information of higher-dimensional simplices in an $\mathrm{E}(n)$ equivariant fashion. EMPSNs simultaneously generalize $\mathrm{E}(n)$ Equivariant Graph Neural Networks to a topologically more elaborate counterpart and provide an approach for including geometric information in Message Passing Simplicial Networks. The results indicate that EMPSNs can leverage the benefits of both approaches, leading to a general increase in performance when compared to either method. Furthermore, the results suggest that incorporating geometric information serves as an effective measure against over-smoothing in message passing networks, especially when operating on high-dimensional simplicial structures. Last, we show that EMPSNs are on par with state-of-the-art approaches for learning on geometric graphs.
翻訳日:2023-05-15 14:45:56 公開日:2023-05-11
# 一般化重み付き時間リンクOneMax上の進化的アルゴリズムの理論解析

Theoretical Analyses of Evolutionary Algorithms on Time-Linkage OneMax with General Weights ( http://arxiv.org/abs/2305.07098v1 )

ライセンス: Link先を確認
Weijie Zheng and Xin Yao(参考訳) 進化的計算は動的最適化において優位性を示しているが、(動的)時間リンク問題に対して、いくつかの理論的研究は進化的計算の弱点を明らかにしている。 理論的に解析された時間連鎖問題は、非常に強い負の時間連鎖効果の影響のみを考慮し、より一般的な時間連鎖効果の問題にも弱が現れるかどうかは不明である。 さらに,時間連鎖効果とアルゴリズム的特徴との関係を深く理解することは,アルゴリズム的特徴がどのような問題に優れているかを知る上で重要である。 本稿では,一般時間連鎖効果を分析し,絶対値が強みを反映し,符号が正または負の影響を反映する一般重み付き時間結合型onemaxについて考察する。 我々は, 時間リンク効果が小さい(0ドルと1ドル)以外は, ランダム化局所探索 (RLS) と (1+1)EA は, 正の確率で大域的最適値に収束できないことを証明した。 より正確には、負の時間リンク効果(負の重み付けの場合)では、両方のアルゴリズムは効率的に大域最適に到達できず、大域最適に収束しない確率は少なくとも1-o(1)$である。 それほど小さな正の時間リンク効果(正の重みが1ドルより大きい)に対して、そのような確率は少なくとも$c+o(1)$であり、$c$は厳密に1ドル以下である。

Evolutionary computation has shown its superiority in dynamic optimization, but for the (dynamic) time-linkage problems, some theoretical studies have revealed the possible weakness of evolutionary computation. Since the theoretically analyzed time-linkage problem only considers the influence of an extremely strong negative time-linkage effect, it remains unclear whether the weakness also appears in problems with more general time-linkage effects. Besides, understanding in depth the relationship between time-linkage effect and algorithmic features is important to build up our knowledge of what algorithmic features are good at what kinds of problems. In this paper, we analyze the general time-linkage effect and consider the time-linkage OneMax with general weights whose absolute values reflect the strength and whose sign reflects the positive or negative influence. We prove that except for some small and positive time-linkage effects (that is, for weights $0$ and $1$), randomized local search (RLS) and (1+1)EA cannot converge to the global optimum with a positive probability. More precisely, for the negative time-linkage effect (for negative weights), both algorithms cannot efficiently reach the global optimum and the probability of failing to converge to the global optimum is at least $1-o(1)$. For the not so small positive time-linkage effect (positive weights greater than $1$), such a probability is at most $c+o(1)$ where $c$ is a constant strictly less than $1$.
翻訳日:2023-05-15 14:45:33 公開日:2023-05-11
# 機械の合理化は人間にとって有用か? 自由テキスト合理化の人的有用性の測定と改善

Are Machine Rationales (Not) Useful to Humans? Measuring and Improving Human Utility of Free-Text Rationales ( http://arxiv.org/abs/2305.07095v1 )

ライセンス: Link先を確認
Brihi Joshi, Ziyi Liu, Sahana Ramnath, Aaron Chan, Zhewei Tong, Shaoliang Nie, Qifan Wang, Yejin Choi, Xiang Ren(参考訳) 大きな言語モデル(LM)の顕著な創発的能力の1つは、自由テキストの合理化であり、あるスケールを超えると、大きなLMは一見有用な合理化を生成することができ、その結果、リーダーボード上でのパフォーマンスを劇的に向上させることができる。 マシン生成の合理性は、特に、在地人間がこれらの機械の合理性に基づいて質問に答えようとするとき、人間にも役に立つのだろうか? 既存の合理性の人的効用は十分ではなく、人間の研究で見積もるのに費用がかかる。 理性を生成するlmのタスクパフォーマンスや、生成と金の合理性の類似性といった既存のメトリクスは、それらのヒューマンユーティリティのよい指標ではありません。 簡潔さや新しさといった理性のある性質は、人間の有用性と相関していると観察するが、人間の関与なしに推定することは困難である。 類似の未確認事例に答える合理性の有用性を推定することにより、人間の実用性をよりよく測定できることを示す。 また,この発見を自動スコア GEN-U に変換することで,作業性能のほとんどを維持しつつ,人的有用性の向上による理性生成能力の向上を図っている。 最後に、このプロジェクトですべてのコードと収集データをリリースします。

Among the remarkable emergent capabilities of large language models (LMs) is free-text rationalization; beyond a certain scale, large LMs are capable of generating seemingly useful rationalizations, which in turn, can dramatically enhance their performances on leaderboards. This phenomenon raises a question: can machine generated rationales also be useful for humans, especially when lay humans try to answer questions based on those machine rationales? We observe that human utility of existing rationales is far from satisfactory, and expensive to estimate with human studies. Existing metrics like task performance of the LM generating the rationales, or similarity between generated and gold rationales are not good indicators of their human utility. While we observe that certain properties of rationales like conciseness and novelty are correlated with their human utility, estimating them without human involvement is challenging. We show that, by estimating a rationale's helpfulness in answering similar unseen instances, we can measure its human utility to a better extent. We also translate this finding into an automated score, GEN-U, that we propose, which can help improve LMs' ability to generate rationales with better human utility, while maintaining most of its task performance. Lastly, we release all code and collected data with this project.
翻訳日:2023-05-15 14:45:06 公開日:2023-05-11
# agiの安全とガバナンスのベストプラクティスに向けて:専門家の意見調査

Towards best practices in AGI safety and governance: A survey of expert opinion ( http://arxiv.org/abs/2305.07153v1 )

ライセンス: Link先を確認
Jonas Schuett, Noemi Dreksler, Markus Anderljung, David McCaffary, Lennart Heim, Emma Bluemke, Ben Garfinkel(参考訳) OpenAI、Google DeepMind、Anthropicなど、主要なAI企業は、幅広い認知タスクで人のパフォーマンスを達成または超える人工知能システム(AGI)を構築するという目標を掲げている。 この目標を追求することで、特に重大なリスクをもたらすAIシステムを開発、展開することが可能になる。 これらのリスクを軽減するための対策をすでに講じているが、ベストプラクティスはまだ現れていない。 ベストプラクティスの特定を支援するため,agi labs,アカデミア,市民社会の専門家92名を対象に調査を行い,51の回答を得た。 参加者は、agi labsが行うべき50の声明にどの程度同意したかを尋ねられた。 私たちの主な発見は、参加者が平均してすべての参加者と一致していることです。 多くの声明は極めて高いレベルの合意を得た。 例えば、回答者の98%は、agi labsがデプロイ前のリスクアセスメント、危険な能力評価、サードパーティのモデル監査、モデル使用に関する安全性制限、レッドチーム化を行うべきだと、ある程度あるいは強く同意している。 最終的に、私たちのステートメントのリストは、AGIラボのベストプラクティス、標準、規制を開発するための有用な基盤として役立ちます。

A number of leading AI companies, including OpenAI, Google DeepMind, and Anthropic, have the stated goal of building artificial general intelligence (AGI) - AI systems that achieve or exceed human performance across a wide range of cognitive tasks. In pursuing this goal, they may develop and deploy AI systems that pose particularly significant risks. While they have already taken some measures to mitigate these risks, best practices have not yet emerged. To support the identification of best practices, we sent a survey to 92 leading experts from AGI labs, academia, and civil society and received 51 responses. Participants were asked how much they agreed with 50 statements about what AGI labs should do. Our main finding is that participants, on average, agreed with all of them. Many statements received extremely high levels of agreement. For example, 98% of respondents somewhat or strongly agreed that AGI labs should conduct pre-deployment risk assessments, dangerous capabilities evaluations, third-party model audits, safety restrictions on model usage, and red teaming. Ultimately, our list of statements may serve as a helpful foundation for efforts to develop best practices, standards, and regulations for AGI labs.
翻訳日:2023-05-15 14:37:39 公開日:2023-05-11
# 外科ツールの分類と局在:MICCAI 2022 SurgToolLoc Challengeの結果と方法

Surgical tool classification and localization: results and methods from the MICCAI 2022 SurgToolLoc challenge ( http://arxiv.org/abs/2305.07152v1 )

ライセンス: Link先を確認
Aneeq Zia, Kiran Bhattacharyya, Xi Liu, Max Berniker, Ziheng Wang, Rogerio Nespolo, Satoshi Kondo, Satoshi Kasai, Kousuke Hirasawa, Bo Liu, David Austin, Yiheng Wang, Michal Futrega, Jean-Francois Puget, Zhenqiang Li, Yoichi Sato, Ryo Fujii, Ryo Hachiuma, Mana Masuda, Hideo Saito, An Wang, Mengya Xu, Mobarakol Islam, Long Bai, Winnie Pang, Hongliang Ren, Chinedu Nwoye, Luca Sestini, Nicolas Padoy, Maximilian Nielsen, Samuel Sch\"uttler, Thilo Sentker, H\"umeyra Husseini, Ivo Baltruschat, R\"udiger Schmitz, Ren\'e Werner, Aleksandr Matsun, Mugariya Farooq, Numan Saaed, Jose Renato Restom Viera, Mohammad Yaqub, Neil Getty, Fangfang Xia, Zixuan Zhao, Xiaotian Duan, Xing Yao, Ange Lou, Hao Yang, Jintong Han, Jack Noble, Jie Ying Wu, Tamer Abdulbaki Alshirbaji, Nour Aldeen Jalal, Herag Arabian, Ning Ding, Knut Moeller, Weiliang Chen, Quan He, Lena Maier-Hein, Danail Stoyanov, Stefanie Speidel, Anthony Jarc(参考訳) 内視鏡ビデオで手術器具を自動的に検出し追跡する能力は、トランスフォーメーションの介入を可能にする。 手術のパフォーマンスと効率を評価し、熟練したツールの使用と振り付けを識別し、リソースの運用的およびロジスティックな側面を計画することは、メリットのあるアプリケーションのほんの一部に過ぎません。 残念ながら、手術ツールを特定しローカライズするために機械学習モデルのトレーニングに必要なアノテーションを取得するのは、難しい作業です。 フレーム単位の注釈付きボックスは面倒で時間を要するが、多種多様な手術器具や手術器具を備えた大量のデータは、堅牢な訓練のために取得する必要がある。 さらに, 手術器具の革新に追随するためには, 進行中のアノテータ訓練が必要である。 しかし、ロボット支援手術では、計器の設置や取り外しのタイムスタンプのような潜在的に有益なデータをプログラム的に収集することができる。 ツールのインストールデータのみに依存する能力は、堅牢なツール追跡モデルをトレーニングする作業負荷を大幅に削減する。 このモチベーションを念頭に、私たちはSurgToolLoc 2022というチャレンジに参加するために、外科データ科学コミュニティを招待しました。 目標は、ツールの存在データを、ツールを検出し、バウンディングボックスでビデオフレームにローカライズするようにトレーニングされた機械学習モデルの弱いラベルとして活用することだった。 この課題の結果を、多くのチームの努力とともに提示します。 これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。 24,695本のビデオクリップとツールの存在ラベルから成るトレーニングデータも公開され、https://console.cloud.google.com/storage/browser/isi-surgtoolloc-2022.comでアクセスできる。

The ability to automatically detect and track surgical instruments in endoscopic videos can enable transformational interventions. Assessing surgical performance and efficiency, identifying skilled tool use and choreography, and planning operational and logistical aspects of OR resources are just a few of the applications that could benefit. Unfortunately, obtaining the annotations needed to train machine learning models to identify and localize surgical tools is a difficult task. Annotating bounding boxes frame-by-frame is tedious and time-consuming, yet large amounts of data with a wide variety of surgical tools and surgeries must be captured for robust training. Moreover, ongoing annotator training is needed to stay up to date with surgical instrument innovation. In robotic-assisted surgery, however, potentially informative data like timestamps of instrument installation and removal can be programmatically harvested. The ability to rely on tool installation data alone would significantly reduce the workload to train robust tool-tracking models. With this motivation in mind we invited the surgical data science community to participate in the challenge, SurgToolLoc 2022. The goal was to leverage tool presence data as weak labels for machine learning models trained to detect tools and localize them in video frames with bounding boxes. We present the results of this challenge along with many of the team's efforts. We conclude by discussing these results in the broader context of machine learning and surgical data science. The training data used for this challenge consisting of 24,695 video clips with tool presence labels is also being released publicly and can be accessed at https://console.cloud.google.com/storage/browser/isi-surgtoolloc-2022.
翻訳日:2023-05-15 14:37:18 公開日:2023-05-11
# 人間と機械による過剰な質問応答

Overinformative Question Answering by Humans and Machines ( http://arxiv.org/abs/2305.07151v1 )

ライセンス: Link先を確認
Polina Tsvilodub, Michael Franke, Robert D. Hawkins, Noah D. Goodman(参考訳) 極性問題に直面した場合、話者は単純な「イエス」や「ノー」以上の過剰な回答を提供することが多い。 しかし、追加情報の選択を導く原則は何か? 本稿では, 人間の回答における過剰な表現性は, 質問者が発話する機能的文脈を考慮し, 柔軟に調整する質問者の目標との関連性を考慮したものであることを示す。 これらの結果は、最先端のニューラルネットワークモデルにおける質問応答性能を調査するための強力なベンチマークであり、人間の実験から得られた項目を広範囲に評価する。 ほとんどのモデルは、人間のような方法で回答行動を調整することができず、無関係な情報を含む傾向があります。 GPT-3はプロンプトの形式に非常に敏感であり、実例と認知的動機のある説明によって導かれるときのみ人間的な回答パターンが達成されることを示す。

When faced with a polar question, speakers often provide overinformative answers going beyond a simple "yes" or "no". But what principles guide the selection of additional information? In this paper, we provide experimental evidence from two studies suggesting that overinformativeness in human answering is driven by considerations of relevance to the questioner's goals which they flexibly adjust given the functional context in which the question is uttered. We take these human results as a strong benchmark for investigating question-answering performance in state-of-the-art neural language models, conducting an extensive evaluation on items from human experiments. We find that most models fail to adjust their answering behavior in a human-like way and tend to include irrelevant information. We show that GPT-3 is highly sensitive to the form of the prompt and only achieves human-like answer patterns when guided by an example and cognitively-motivated explanation.
翻訳日:2023-05-15 14:36:47 公開日:2023-05-11
# 機械学習によるペトロ物理研究の強化:不均質貯留層における透水性予測のフィールドケーススタディ

Enhancing Petrophysical Studies with Machine Learning: A Field Case Study on Permeability Prediction in Heterogeneous Reservoirs ( http://arxiv.org/abs/2305.07145v1 )

ライセンス: Link先を確認
Fethi Ali Cheddad(参考訳) このフィールドケーススタディは, 貯留層の性能予測に大きな影響を与える不均質貯水池の物性を正確に予測することの課題に対処することを目的としている。 この研究は、従来のログから透過性ログを予測し、コアデータとマッチングするために、Artificial Neural Network(ANN)、Random Forest Classifier(RFC)、Support Vector Machine(SVM)という3つの機械学習アルゴリズムを使用した。 本研究の目的は,3つの機械学習アルゴリズムの透過性予測における有効性を比較し,最適予測法を決定することである。 本研究は,フローゾーン指標(FZI)ロックタイピング技術を用いて,貯水池の品質に影響を及ぼす要因を解明した。 この発見は貯水池シミュレーションを改善し、将来の井戸をより正確に発見するために使われる。 本研究は,fzi手法と機械学習アルゴリズムが透過性ログの予測と貯留層性能予測に有効であることを結論づけた。

This field case study aims to address the challenge of accurately predicting petrophysical properties in heterogeneous reservoir formations, which can significantly impact reservoir performance predictions. The study employed three machine learning algorithms, namely Artificial Neural Network (ANN), Random Forest Classifier (RFC), and Support Vector Machine (SVM), to predict permeability log from conventional logs and match it with core data. The primary objective of this study was to compare the effectiveness of the three machine learning algorithms in predicting permeability and determine the optimal prediction method. The study utilized the Flow Zone Indicator (FZI) rock typing technique to understand the factors influencing reservoir quality. The findings will be used to improve reservoir simulation and locate future wells more accurately. The study concluded that the FZI approach and machine learning algorithms are effective in predicting permeability log and improving reservoir performance predictions.
翻訳日:2023-05-15 14:36:31 公開日:2023-05-11
# ConceptARCベンチマーク:ARCドメインの理解と一般化を評価する

The ConceptARC Benchmark: Evaluating Understanding and Generalization in the ARC Domain ( http://arxiv.org/abs/2305.07141v1 )

ライセンス: Link先を確認
Arseny Moskvichev, Victor Vikram Odouard, and Melanie Mitchell(参考訳) 概念を形成、抽象化する能力は人間の知性にとって重要だが、最先端のAIシステムにはそのような能力がない。 特にRavenのProgressive MatricesやBongardのような理想化されたドメインを使って、AIの概念の抽象化についてかなりの研究がなされてきたが、AIシステムがそのような問題に成功しても、システムが実際に捉える概念を実際に把握したかどうかを深く評価することはめったにない。 本稿では,chollet [2019] が開発した数発の抽象化とアナロジー問題の集合であるabstract and reasoning corpus (arc) の詳細な評価ベンチマークについて述べる。 具体的には,多くの基本的な空間的および意味的概念の抽象化と一般化能力を体系的に評価する,ARCドメインで新たに公開されたベンチマークであるConceptARCについて述べる。 conceptarcはオリジナルのarcデータセットと異なり、特定の概念にフォーカスし、複雑さや抽象化のレベルが異なる問題の集合である「概念グループ」を中心に特別に構成されている。 2021年のarcコンペティションとopenaiのgpt-4の2つのプログラムで、このベンチマークで人間をテストした結果を報告します。 我々の結果は、人間がこのベンチマークでマシンソルバを著しく上回り、AIシステムがまだ捉えていない概念を抽象化し、一般化する能力を示していることを示している。 このベンチマークは、概念的抽象化のためのAIシステム開発や、そのようなシステムの有効性評価の改善に拍車をかけるだろうと考えている。

The abilities to form and abstract concepts is key to human intelligence, but such abilities remain lacking in state-of-the-art AI systems. There has been substantial research on conceptual abstraction in AI, particularly using idealized domains such as Raven's Progressive Matrices and Bongard problems, but even when AI systems succeed on such problems, the systems are rarely evaluated in depth to see if they have actually grasped the concepts they are meant to capture. In this paper we describe an in-depth evaluation benchmark for the Abstraction and Reasoning Corpus (ARC), a collection of few-shot abstraction and analogy problems developed by Chollet [2019]. In particular, we describe ConceptARC, a new, publicly available benchmark in the ARC domain that systematically assesses abstraction and generalization abilities on a number of basic spatial and semantic concepts. ConceptARC differs from the original ARC dataset in that it is specifically organized around "concept groups" -- sets of problems that focus on specific concepts and that are vary in complexity and level of abstraction. We report results on testing humans on this benchmark as well as three machine solvers: the top two programs from a 2021 ARC competition and OpenAI's GPT-4. Our results show that humans substantially outperform the machine solvers on this benchmark, showing abilities to abstract and generalize concepts that are not yet captured by AI systems. We believe that this benchmark will spur improvements in the development of AI systems for conceptual abstraction and in the effective evaluation of such systems.
翻訳日:2023-05-15 14:36:10 公開日:2023-05-11
# 情報理論による最適輸送グラフ要約の約束と限界

Promise and Limitations of Supervised Optimal Transport-Based Graph Summarization via Information Theoretic Measures ( http://arxiv.org/abs/2305.07138v1 )

ライセンス: Link先を確認
Sepideh Neshatfar, Abram Magner, Salimeh Yasaei Sekeh(参考訳) グラフ要約は、入力グラフデータセットのより小さなグラフ表現を生成する問題であり、より小さな圧縮グラフが下流タスクの関連する構造情報をキャプチャする。 最近のグラフ要約法では、ノード、エッジ、属性の重要性(その作業で定義されていない)をグラフ要約プロセスに組み込むために、最適なトランスポートベースのフレームワークを定式化している。 しかし、この枠組みの統計的性質についてはほとんど分かっていない。 この問題を解明するために,クラスラベルに関する関連情報を保持するための情報理論的手法を用いて,教師付きグラフ要約の問題を考える。 教師付き要約問題そのものに関する理論的視点を得るため、まず、要約グラフとクラスラベルの間のシャノン相互情報の最大化の観点から定式化する。 本稿では,この問題に対する近似結果のnp-hardnessを示し,提案する解に対して何を期待すべきかを制約する。 次に,サンプルグラフとクラスラベルに関連付けられた確率変数間の相互情報推定を最適輸送圧縮フレームワークに組み込んだ要約手法を提案する。 我々は,合成データと特定の実データ集合の分類精度と時間の観点から,従来よりも性能が向上していることを示す。 また, 教師付き要約問題に対する最適輸送手法の限界についても理論的に検討し, 所望の情報単調性を満足できないことを示す。

Graph summarization is the problem of producing smaller graph representations of an input graph dataset, in such a way that the smaller compressed graphs capture relevant structural information for downstream tasks. There is a recent graph summarization method that formulates an optimal transport-based framework that allows prior information about node, edge, and attribute importance (never defined in that work) to be incorporated into the graph summarization process. However, very little is known about the statistical properties of this framework. To elucidate this question, we consider the problem of supervised graph summarization, wherein by using information theoretic measures we seek to preserve relevant information about a class label. To gain a theoretical perspective on the supervised summarization problem itself, we first formulate it in terms of maximizing the Shannon mutual information between the summarized graph and the class label. We show an NP-hardness of approximation result for this problem, thereby constraining what one should expect from proposed solutions. We then propose a summarization method that incorporates mutual information estimates between random variables associated with sample graphs and class labels into the optimal transport compression framework. We empirically show performance improvements over previous works in terms of classification accuracy and time on synthetic and certain real datasets. We also theoretically explore the limitations of the optimal transport approach for the supervised summarization problem and we show that it fails to satisfy a certain desirable information monotonicity property.
翻訳日:2023-05-15 14:35:42 公開日:2023-05-11
# 資源制約付きフェデレーション学習システムにおけるNASパズルの除算

Divide-and-Conquer the NAS puzzle in Resource Constrained Federated Learning Systems ( http://arxiv.org/abs/2305.07135v1 )

ライセンス: Link先を確認
Yeshwanth Venkatesha, Youngeun Kim, Hyoungseob Park, Priyadarshini Panda(参考訳) Federated Learning(FL)は、エッジデバイスのアプリケーションを対象とした、プライバシ保護の分散機械学習アプローチである。 しかしながら、連合環境でカスタムニューラルアーキテクチャを設計する問題は、システム全体の効率の観点からは取り組まれていない。 本稿では,システム内のスーパーネットに基づくニューラルネットワーク探索 (nas) を行う分割探索手法であるdc-nasを提案する。 本稿では,まず,標本間の距離を最大化し,訓練が進むにつれて,この距離を段階的に縮小することにより,探索空間の探索と利用のバランスをとる新しいサンプリング戦略を提案する。 続いてチャネルプルーニングを行い、さらにデバイスでのトレーニングの複雑さを低減します。 本手法は,サンプルを最大に分離したアダマールサンプリングなど,いくつかのサンプリング戦略に勝ることを示す。 我々は, CIFAR10, CIFAR100, EMNIST, TinyImagenetベンチマークを用いて, 拡張性や非IIDデータといったフェデレート学習のさまざまな側面の包括的解析を行った。 DC-NASは、フルスケールのフェデレーションNASに比べて50%少ないリソースで、ほぼ等精度を実現している。

Federated Learning (FL) is a privacy-preserving distributed machine learning approach geared towards applications in edge devices. However, the problem of designing custom neural architectures in federated environments is not tackled from the perspective of overall system efficiency. In this paper, we propose DC-NAS -- a divide-and-conquer approach that performs supernet-based Neural Architecture Search (NAS) in a federated system by systematically sampling the search space. We propose a novel diversified sampling strategy that balances exploration and exploitation of the search space by initially maximizing the distance between the samples and progressively shrinking this distance as the training progresses. We then perform channel pruning to reduce the training complexity at the devices further. We show that our approach outperforms several sampling strategies including Hadamard sampling, where the samples are maximally separated. We evaluate our method on the CIFAR10, CIFAR100, EMNIST, and TinyImagenet benchmarks and show a comprehensive analysis of different aspects of federated learning such as scalability, and non-IID data. DC-NAS achieves near iso-accuracy as compared to full-scale federated NAS with 50% fewer resources.
翻訳日:2023-05-15 14:35:20 公開日:2023-05-11
# 原子遷移が狭い量子共鳴光学的不安定性:悪い空洞状態における不安定性相図

Quantum resonant optical bistability with a narrow atomic transition: bistability phase diagram in the bad cavity regime ( http://arxiv.org/abs/2305.07133v1 )

ライセンス: Link先を確認
Dalila Rivero Jerez, Claudio Pessoa Jr, Gustavo de Fran\c{c}a, Raul Celistrino Teixeira, Sebastian Slama, Philippe W. Courteille(参考訳) 狭い原子遷移を通じて原子の雲と強く相互作用する共振励起光環空洞における飽和誘起光不安定性の新たな発現の観測について報告する。 不安定性は臨界ポンプ速度を超えると、原子共鳴に近いキャビティの正常モードスペクトルに付加的なピークとして現れる。 この第3の透過ピークは通常、強い共鳴吸収によって抑制されるが、我々の実験では、原子遷移の直線幅がキャビティよりもはるかに小さいため、実験を悪いキャビティ状態に設定する。 遷移の完全な飽和に基づいて、この不安定性は量子起源を持ち、非線形屈折率を示す古典的な材料では模倣できない。 通常のモードに加えて中央ピークの出現は、tavis-cummings hamiltonian から派生した半古典的モデルによって予測される。 相図は、これまでの未探索の双安定相をいくつか示している。

We report on the observation of a novel manifestation of saturation-induced optical bistability in a resonantly pumped optical ring cavity interacting strongly with a cloud of atoms via a narrow atomic transition. The bistability emerges, above a critical pump rate, as an additional peak in the cavity's normal mode spectrum close to atomic resonance. This third transmission peak is usually suppressed due to strong resonant absorption, but in our experiment it is visible because of the linewidth of the atomic transition being much smaller than that of the cavity, which sets the experiment into the bad-cavity regime. Relying on complete saturation of the transition, this bistability has a quantum origin and cannot be mimicked by a classical material presenting a nonlinear refraction index. The appearance of the central peak in addition to the normal modes is predicted by a semi-classical model derived from the Tavis-Cummings Hamiltonian from which we derive a bistability phase diagram that connects our observations with former work on optical bistability in the good cavity regime. The phase diagram reveals several so far unexplored bistable phases.
翻訳日:2023-05-15 14:35:00 公開日:2023-05-11
# 非負行列分解による音声分類網の解法可能性

Tackling Interpretability in Audio Classification Networks with Non-negative Matrix Factorization ( http://arxiv.org/abs/2305.07132v1 )

ライセンス: Link先を確認
Jayneel Parekh, Sanjeel Parekh, Pavlo Mozharovskyi, Ga\"el Richard, Florence d'Alch\'e-Buc(参考訳) 本稿では,音声処理ネットワークの解釈可能性,ポストホック,副設計の2つの問題に対処する。 ポストホックな解釈では、エンドユーザーにも聞き取れるハイレベルなオーディオオブジェクトを用いて、ネットワークの決定を解釈することを目的としている。 これは性能の高い本質的に解釈可能なモデルに拡張される。 そこで本研究では,非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。 特に、インタプリタは、ターゲットネットワークの隠れ層から正規化中間埋め込みを生成し、事前学習したNMF辞書のタイムアクティベーションとして学習する。 提案手法により,ネットワークの判断に最も関係のある入力信号の一部を明示的に拡張する直感的な音声ベースの解釈を生成することができる。 実環境における音声・音楽のマルチラベルデータを含む,様々な分類課題に対する本手法の適用性を示す。

This paper tackles two major problem settings for interpretability of audio processing networks, post-hoc and by-design interpretation. For post-hoc interpretation, we aim to interpret decisions of a network in terms of high-level audio objects that are also listenable for the end-user. This is extended to present an inherently interpretable model with high performance. To this end, we propose a novel interpreter design that incorporates non-negative matrix factorization (NMF). In particular, an interpreter is trained to generate a regularized intermediate embedding from hidden layers of a target network, learnt as time-activations of a pre-learnt NMF dictionary. Our methodology allows us to generate intuitive audio-based interpretations that explicitly enhance parts of the input signal most relevant for a network's decision. We demonstrate our method's applicability on a variety of classification tasks, including multi-label data for real-world audio and music.
翻訳日:2023-05-15 14:34:40 公開日:2023-05-11
# 近世印刷本を読むためのocrモデルの組み合わせ

Combining OCR Models for Reading Early Modern Printed Books ( http://arxiv.org/abs/2305.07131v1 )

ライセンス: Link先を確認
Mathias Seuret, Janne van der Loop, Nikolaus Weichselbaumer, Martin Mayr, Janina Molnar, Tatjana Hass, Florian Kordon, Anguelos Nicolau, Vincent Christlein(参考訳) 本稿では,15世紀から18世紀にかけて印刷された書籍のocrにおけるきめ細かなフォント認識について検討する。 我々は、フォントにバウンディングボックスをラベル付けした初期印刷書籍のOCRデータセットを新たに作成した。 私たちは各文字に使用されるフォントグループだけでなく、フォントの場所も知っています。 この時代の本では、フォントグループの変化が、言語の変化を示す中・中・単語でしばしば見られる。 我々は、コーパスに存在する8つの異なるフォントグループについて検討し、データセット全体とテキスト行に1つのフォント、複数のフォント、ローマフォント、ゴシックフォント、およびそれぞれのフォントを含む13の異なるサブセットを調査した。 ocrの性能はフォントスタイルの影響を強く受けており,フォントグループ認識による微調整モデルの選択は,結果に非常に肯定的な影響を与えている。 さらに,複数のフォント認識モデルの出力を結合するために,局所フォントグループ認識を用いたシステムを開発した。

In this paper, we investigate the usage of fine-grained font recognition on OCR for books printed from the 15th to the 18th century. We used a newly created dataset for OCR of early printed books for which fonts are labeled with bounding boxes. We know not only the font group used for each character, but the locations of font changes as well. In books of this period, we frequently find font group changes mid-line or even mid-word that indicate changes in language. We consider 8 different font groups present in our corpus and investigate 13 different subsets: the whole dataset and text lines with a single font, multiple fonts, Roman fonts, Gothic fonts, and each of the considered fonts, respectively. We show that OCR performance is strongly impacted by font style and that selecting fine-tuned models with font group recognition has a very positive impact on the results. Moreover, we developed a system using local font group recognition in order to combine the output of multiple font recognition models, and show that while slower, this approach performs better not only on text lines composed of multiple fonts but on the ones containing a single font only as well.
翻訳日:2023-05-15 14:34:24 公開日:2023-05-11
# スライディングウィンドウ選択によるパレートの高速化

Fast Pareto Optimization Using Sliding Window Selection ( http://arxiv.org/abs/2305.07178v1 )

ライセンス: Link先を確認
Frank Neumann and Carsten Witt(参考訳) 進化的多目的アルゴリズムを用いたパレート最適化は制約付き部分モジュラ最適化問題に広く応用されている。 適切な近似を得るために使用される進化アルゴリズムのランタイムを決定する重要な要因は、アルゴリズムが遭遇するトレードオフの数で成長するアルゴリズムの集団サイズである。 本稿では,最近導入されたアルゴリズムのスライディングウィンドウ高速化手法を提案する。 我々は,本手法が実行環境に悪影響を及ぼす重要な要因として人口サイズを除外し,計算時間を短縮した従来の手法と同じ理論的性能保証を実現することを実証する。 古典的最大カバレッジ問題に対する実験により,スライディングウインドウ手法が広範囲のインスタンスや制約設定に対して明らかにより良い結果をもたらすことを確認した。

Pareto optimization using evolutionary multi-objective algorithms has been widely applied to solve constrained submodular optimization problems. A crucial factor determining the runtime of the used evolutionary algorithms to obtain good approximations is the population size of the algorithms which grows with the number of trade-offs that the algorithms encounter. In this paper, we introduce a sliding window speed up technique for recently introduced algorithms. We prove that our technique eliminates the population size as a crucial factor negatively impacting the runtime and achieves the same theoretical performance guarantees as previous approaches within less computation time. Our experimental investigations for the classical maximum coverage problem confirms that our sliding window technique clearly leads to better results for a wide range of instances and constraint settings.
翻訳日:2023-05-15 14:27:20 公開日:2023-05-11
# 硬度負の学習による放射線診断自動生成

Automatic Radiology Report Generation by Learning with Increasingly Hard Negatives ( http://arxiv.org/abs/2305.07176v1 )

ライセンス: Link先を確認
Bhanu Prakash Voutharoja and Lei Wang and Luping Zhou(参考訳) 医学的画像やレポートは通常、解剖学的に共通する内容のため、互いに類似しているため、自動放射線学レポート生成は困難である。 これにより、個々の画像のユニークさを捉えるのが難しくなり、望ましくないジェネリックまたはミスマッチしたレポートを生成する傾向にある。 この状況は、画像とレポートの微妙なミスマッチをキャプチャできる、より差別的な特徴を学習することを求めている。 そこで本稿では,識別イメージを学習し,特徴を最も近い仲間,すなわちハードネガティブと区別し,特徴を報告するための新しい枠組みを提案する。 特に,より識別的な特徴を達成するために,訓練中の各画像に対して,より強固な負のレポートを作成することにより,学習課題の難易度を徐々に高めていく。 急激な負を補助変数として扱うことにより、この過程を min-max の交互最適化問題として定式化する。 各イテレーションにおいて、与えられた一組の強陰性レポートに基づいて、レポート生成に関連する損失関数を最小化することにより、通常通り画像およびレポート特徴を学習する。 その後、画像とレポートのアライメントを反映した損失を最大化することで、新たな厳しいネガティブレポートが作成される。 この最適化を解決すれば、より具体的に正確なレポートを生成することができるモデルが得られる。 このフレームワークは,ネットワークの重み付けを余分に導入することなく,識別的特徴学習を促進する。 また、既存のハードネガティブの生成方法とは対照的に、トレーニングセットから厳しいサンプルを生成することにより、データセットの粒度を超えてフレームワークが拡張されます。 ベンチマークデータセットの実験研究により,本フレームワークの有効性が検証され,既存の医療報告生成モデルを簡単に改善するためのプラグインとして機能することが確認された。

Automatic radiology report generation is challenging as medical images or reports are usually similar to each other due to the common content of anatomy. This makes a model hard to capture the uniqueness of individual images and is prone to producing undesired generic or mismatched reports. This situation calls for learning more discriminative features that could capture even fine-grained mismatches between images and reports. To achieve this, this paper proposes a novel framework to learn discriminative image and report features by distinguishing them from their closest peers, i.e., hard negatives. Especially, to attain more discriminative features, we gradually raise the difficulty of such a learning task by creating increasingly hard negative reports for each image in the feature space during training, respectively. By treating the increasingly hard negatives as auxiliary variables, we formulate this process as a min-max alternating optimisation problem. At each iteration, conditioned on a given set of hard negative reports, image and report features are learned as usual by minimising the loss functions related to report generation. After that, a new set of harder negative reports will be created by maximising a loss reflecting image-report alignment. By solving this optimisation, we attain a model that can generate more specific and accurate reports. It is noteworthy that our framework enhances discriminative feature learning without introducing extra network weights. Also, in contrast to the existing way of generating hard negatives, our framework extends beyond the granularity of the dataset by generating harder samples out of the training set. Experimental study on benchmark datasets verifies the efficacy of our framework and shows that it can serve as a plug-in to readily improve existing medical report generation models.
翻訳日:2023-05-15 14:27:09 公開日:2023-05-11
# GFlowNetトレーニングの理解と改善に向けて

Towards Understanding and Improving GFlowNet Training ( http://arxiv.org/abs/2305.07170v1 )

ライセンス: Link先を確認
Max W. Shen, Emmanuel Bengio, Ehsan Hajiramezanali, Andreas Loukas, Kyunghyun Cho, Tommaso Biancalani(参考訳) 生成フローネットワーク (Generative Flow Networks, GFlowNets) は、離散オブジェクトを非負の$R(x)$でサンプリングするために生成ポリシーを学ぶアルゴリズムのファミリーである。 学習目的は、目標分布からGFlowNetのサンプルを$x$で保証する$p^*(x) \propto R(x)$ すべての状態や軌道で損失が世界規模で最小化されるが、トレーニングリソースの実際的な制限でどれだけうまく機能するかは定かではない。 学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。 トレーニングデータから,フローを過小評価できるため,学習フローが一般化し,実際に$p^*(x)$と一致することの重要性を明らかにする。 より良い流れを学ぶ方法について調査し 提案します (i)高額なx$のリプレイトレーニングを優先する。 (二)相対的エッジフロー政策のパラメトリゼーション、及び (iii)新規な誘導軌道バランス目標を示し、サブストラクチャークレジット割当問題をいかに解決できるかを示す。 バイオケミカルデザインタスクにおける試料効率を大幅に改善する。

Generative flow networks (GFlowNets) are a family of algorithms that learn a generative policy to sample discrete objects $x$ with non-negative reward $R(x)$. Learning objectives guarantee the GFlowNet samples $x$ from the target distribution $p^*(x) \propto R(x)$ when loss is globally minimized over all states or trajectories, but it is unclear how well they perform with practical limits on training resources. We introduce an efficient evaluation strategy to compare the learned sampling distribution to the target reward distribution. As flows can be underdetermined given training data, we clarify the importance of learned flows to generalization and matching $p^*(x)$ in practice. We investigate how to learn better flows, and propose (i) prioritized replay training of high-reward $x$, (ii) relative edge flow policy parametrization, and (iii) a novel guided trajectory balance objective, and show how it can solve a substructure credit assignment problem. We substantially improve sample efficiency on biochemical design tasks.
翻訳日:2023-05-15 14:26:42 公開日:2023-05-11
# 1CAD:マルチモーダル学習を用いた全画像データセットの1分類

OneCAD: One Classifier for All image Datasets using multimodal learning ( http://arxiv.org/abs/2305.07167v1 )

ライセンス: Link先を確認
Shakti N. Wadekar, Eugenio Culurciello(参考訳) vision-transformers(vits)とconvolutional neural networks(cnns)は、分類タスクに広く使われているディープニューラルネットワーク(dnn)である。 これらのモデルアーキテクチャは、トレーニングしたデータセット内のクラス数に依存する。 クラスの数を変更すると、モデルのアーキテクチャが変更される(部分的あるいは全体的)。 多数のクラスに依存しないモデルアーキテクチャを作成することは可能ですか? . これにより、モデルのアーキテクチャは、トレーニングされたデータセットから独立することができる。 この作業は、現在のアーキテクチャ(ViTとCNN)の問題を強調します。 また,全画像データセットのOneCAD(One Classifier for All Image Datasets)を学習・推論フレームワークとして提案する。 我々の知る限り、クラス数に依存しないDNNモデルアーキテクチャを作成するために、分類タスクにマルチモーダル学習を備えたマスク・イメージ・モデリング(MIM)を使った最初の研究である。 予備結果は、自然画像および医学画像データセットに示される。 データセット:MNIST、CIFAR10、CIFAR100、COVIDx。 コードは間もなくgithubで公開される。

Vision-Transformers (ViTs) and Convolutional neural networks (CNNs) are widely used Deep Neural Networks (DNNs) for classification task. These model architectures are dependent on the number of classes in the dataset it was trained on. Any change in number of classes leads to change (partial or full) in the model's architecture. This work addresses the question: Is it possible to create a number-of-class-agnostic model architecture?. This allows model's architecture to be independent of the dataset it is trained on. This work highlights the issues with the current architectures (ViTs and CNNs). Also, proposes a training and inference framework OneCAD (One Classifier for All image Datasets) to achieve close-to number-of-class-agnostic transformer model. To best of our knowledge this is the first work to use Mask-Image-Modeling (MIM) with multimodal learning for classification task to create a DNN model architecture agnostic to the number of classes. Preliminary results are shown on natural and medical image datasets. Datasets: MNIST, CIFAR10, CIFAR100 and COVIDx. Code will soon be publicly available on github.
翻訳日:2023-05-15 14:26:23 公開日:2023-05-11
# デッドラインを用いた学習強化オンラインパケットスケジューリング

Learning-Augmented Online Packet Scheduling with Deadlines ( http://arxiv.org/abs/2305.07164v1 )

ライセンス: Link先を確認
Clifford Stein and Hao-Ting Wei(参考訳) 現代のネットワークは、非クリティカルトラフィックよりも重要なトラフィックを優先し、トラフィックフローを効果的に管理することを目的としている。 これにより、重要でないトラフィックへの影響を最小限に抑えつつ、重要なトラフィックの損失を防止するために適切なバッファ管理が必要である。 したがって、アルゴリズムの目的は、送信するパケットと、各ステップで破棄するパケットを制御することである。 本研究では,期限付きオンラインパケットスケジューリングの学習を開始するとともに,予測に対処する新しいアルゴリズムフレームワークを提案する。 予測誤差が小さい場合には, 予測誤差にかかわらず有界な競合比を維持しながら, 競合比を向上できることを示す。

The modern network aims to prioritize critical traffic over non-critical traffic and effectively manage traffic flow. This necessitates proper buffer management to prevent the loss of crucial traffic while minimizing the impact on non-critical traffic. Therefore, the algorithm's objective is to control which packets to transmit and which to discard at each step. In this study, we initiate the learning-augmented online packet scheduling with deadlines and provide a novel algorithmic framework to cope with the prediction. We show that when the prediction error is small, our algorithm improves the competitive ratio while still maintaining a bounded competitive ratio, regardless of the prediction error.
翻訳日:2023-05-15 14:26:09 公開日:2023-05-11
# CatE:圏論的意味論を用いた$\mathcal{ALC}$オントロジーの埋め込み

CatE: Embedding $\mathcal{ALC}$ ontologies using category-theoretical semantics ( http://arxiv.org/abs/2305.07163v1 )

ライセンス: Link先を確認
Fernando Zhapa-Camacho, Robert Hoehndorf(参考訳) ひとつは、オントロジーをグラフ構造に投影し、グラフ埋め込みやグラフベースの機械学習メソッドを結果のグラフに適用することである。 オントロジー公理をグラフに投影する手法がいくつか開発されている。 しかしながら、これらの手法は、投影できる公理の種類(トータル性)、可逆性(インジェクティビティ)の有無、意味情報の活用方法に制限されている。 これらの制限は適用可能なタスクの種類を制限する。 論理言語のカテゴリー論的意味論は、集合の代わりに圏を用いて解釈を形式化し、圏はグラフのような構造を持つ。 オントロジー公理のグラフ表現を生成するために、Description Logic $\mathcal{ALC}$のセマンティクスのカテゴリー論的定式化を利用するCatEを開発した。 ケート射影は総括的かつ単射的であり、従って一般に可逆でない他のグラフベースのオントロジー埋め込み法の制限を克服する。 帰納的推論や帰納的推論など,さまざまなタスクにCatEを適用し,CatEがアートオントロジーの埋め込み手法の状態を改善できることを実証した。 さらに,cateは生体医学領域の機械学習タスクにおけるモデル理論的オントロジー埋め込み手法よりも優れることを示した。

Machine learning with Semantic Web ontologies follows several strategies, one of which involves projecting ontologies into graph structures and applying graph embeddings or graph-based machine learning methods to the resulting graphs. Several methods have been developed that project ontology axioms into graphs. However, these methods are limited in the type of axioms they can project (totality), whether they are invertible (injectivity), and how they exploit semantic information. These limitations restrict the kind of tasks to which they can be applied. Category-theoretical semantics of logic languages formalizes interpretations using categories instead of sets, and categories have a graph-like structure. We developed CatE, which uses the category-theoretical formulation of the semantics of the Description Logic $\mathcal{ALC}$ to generate a graph representation for ontology axioms. The CatE projection is total and injective, and therefore overcomes limitations of other graph-based ontology embedding methods which are generally not invertible. We apply CatE to a number of different tasks, including deductive and inductive reasoning, and we demonstrate that CatE improves over state of the art ontology embedding methods. Furthermore, we show that CatE can also outperform model-theoretic ontology embedding methods in machine learning tasks in the biomedical domain.
翻訳日:2023-05-15 14:25:58 公開日:2023-05-11
# 深層学習に基づく全スライド病理組織像の圧縮・分類手法

A Deep Learning-based Compression and Classification Technique for Whole Slide Histopathology Images ( http://arxiv.org/abs/2305.07161v1 )

ライセンス: Link先を確認
Agnes Barsi, Suvendu Chandan Nayak, Sasmita Parida, Raj Mani Shukla(参考訳) 本稿では,原画像のより高密度で有意義な表現を維持しつつ,病理組織像を圧縮する自動エンコーダベースのニューラルネットワークアーキテクチャを提案する。 圧縮アルゴリズムの改善に関する最近の研究は、関心領域(roiに基づくアプローチ)の圧縮率を下げる手法に焦点を当てている。 ニューラルネットワークは画像から意味のある意味表現を抽出するのに優れており、圧縮プロセスにおいて関心を持つ領域を選択することができる。 本研究では,スライド病理像全体の圧縮に焦点を当てた。 目的は、ニューラルネットワークのアンサンブルを構築し、圧縮オートエンコーダを教師付き方式で、入力されたヒストロジー画像のより密度が高くより意味のある表現を維持することである。 提案システムは,圧縮ニューラルネットワークを監督するシンプルで斬新な手法である。 転送学習に基づく分類器を用いて圧縮画像をテストし,その精度と分類性能が期待できることを示す。

This paper presents an autoencoder-based neural network architecture to compress histopathological images while retaining the denser and more meaningful representation of the original images. Current research into improving compression algorithms is focused on methods allowing lower compression rates for Regions of Interest (ROI-based approaches). Neural networks are great at extracting meaningful semantic representations from images, therefore are able to select the regions to be considered of interest for the compression process. In this work, we focus on the compression of whole slide histopathology images. The objective is to build an ensemble of neural networks that enables a compressive autoencoder in a supervised fashion to retain a denser and more meaningful representation of the input histology images. Our proposed system is a simple and novel method to supervise compressive neural networks. We test the compressed images using transfer learning-based classifiers and show that they provide promising accuracy and classification performance.
翻訳日:2023-05-15 14:25:35 公開日:2023-05-11
# インテント分類におけるゼロ・ファウショット手法の探索

Exploring Zero and Few-shot Techniques for Intent Classification ( http://arxiv.org/abs/2305.07157v1 )

ライセンス: Link先を確認
Soham Parikh, Quaizar Vohra, Prashil Tumbade, Mitul Tiwari(参考訳) 会話型NLUプロバイダは、新しい顧客がコールドスタート問題に直面する場合、数千のインテント分類モデルにスケールする必要があることが多い。 多くの顧客へのスケーリングは、ストレージスペースにも制約を与えます。 本稿では,この低リソース制約を用いた4つの異なるゼロと少数ショットの意図分類手法について検討する。 1)ドメイン適応 2)データ拡張 3)記述型大言語モデル(llm)を用いたゼロショット意図分類 4) パラメータ効率のよい言語モデルの微調整。 その結果,これらの手法はすべて低リソース環境において異なる程度に有効であることがわかった。 Flan-T5 (Chang et al., 2022) 上の T-few レシピ (Liu et al., 2022) を用いたパラメータ効率の良い微調整では, インテント当たりのサンプルが1つでも最高の性能が得られる。 また,意図記述を用いたllmを促すゼロショット方式も示す。

Conversational NLU providers often need to scale to thousands of intent-classification models where new customers often face the cold-start problem. Scaling to so many customers puts a constraint on storage space as well. In this paper, we explore four different zero and few-shot intent classification approaches with this low-resource constraint: 1) domain adaptation, 2) data augmentation, 3) zero-shot intent classification using descriptions large language models (LLMs), and 4) parameter-efficient fine-tuning of instruction-finetuned language models. Our results show that all these approaches are effective to different degrees in low-resource settings. Parameter-efficient fine-tuning using T-few recipe (Liu et al., 2022) on Flan-T5 (Chang et al., 2022) yields the best performance even with just one sample per intent. We also show that the zero-shot method of prompting LLMs using intent descriptions
翻訳日:2023-05-15 14:25:22 公開日:2023-05-11
# 深層強化学習によるメモリマッピングの最適化

Optimizing Memory Mapping Using Deep Reinforcement Learning ( http://arxiv.org/abs/2305.07440v1 )

ライセンス: Link先を確認
Pengming Wang, Mikita Sazanovich, Berkin Ilbeyi, Phitchaya Mangpo Phothilimthana, Manish Purohit, Han Yang Tay, Ng\^an V\~u, Miaosen Wang, Cosmin Paduraru, Edouard Leurent, Anton Zhernov, Julian Schrittwieser, Thomas Hubert, Robert Tung, Paula Kurylowicz, Kieran Milan, Oriol Vinyals and Daniel J. Mankowitz(参考訳) 資源のスケジューリングと割り当ては、混雑制御からクラウドコンピューティングまで、多くの高負荷システムの重要なコンポーネントである。 これらの問題に対するより最適な解決策を見つけることは、しばしば資源と時間の節約に重大な影響を与える。 本稿では,スケジューリング問題,すなわち,機械学習プログラムのコンパイル中に発生するメモリマッピング問題,すなわち,テンソルを異なるメモリ層にマッピングして実行時間を最適化する特定の事例に焦点を当てる。 本稿では,強化学習を用いたメモリマッピング問題の解法を提案する。 rlは、計画に適した逐次的意思決定問題や、高次元データ入力を持つ組合せ探索空間に適したソリューションパラダイムである。 そこで我々は,この問題をmallocGameと呼ぶ単一プレイヤーゲームとして定式化し,ゲームの高軌道がターゲットハードウェア上の効率的なメモリマッピングに対応するようにした。 また、Reinforcement LearningエージェントであるmalocMuZeroを導入し、このゲームをプレイすることで、MLアクセラレータ上での実際のMLワークロードの実行時間の短縮につながる、新しい改善されたメモリマッピングソリューションを見つけることができることを示す。 実際のMLワークロードのベンチマークで,malocMuZeroのパフォーマンスを,Accelerated Linear Algebra (XLA)コンパイラが使用しているデフォルトのソルバと比較した。 さらに、mallocmuzero は、最近発表された alphatensor matrix multiplication model の実行時間を改善することができることを示した。

Resource scheduling and allocation is a critical component of many high impact systems ranging from congestion control to cloud computing. Finding more optimal solutions to these problems often has significant impact on resource and time savings, reducing device wear-and-tear, and even potentially improving carbon emissions. In this paper, we focus on a specific instance of a scheduling problem, namely the memory mapping problem that occurs during compilation of machine learning programs: That is, mapping tensors to different memory layers to optimize execution time. We introduce an approach for solving the memory mapping problem using Reinforcement Learning. RL is a solution paradigm well-suited for sequential decision making problems that are amenable to planning, and combinatorial search spaces with high-dimensional data inputs. We formulate the problem as a single-player game, which we call the mallocGame, such that high-reward trajectories of the game correspond to efficient memory mappings on the target hardware. We also introduce a Reinforcement Learning agent, mallocMuZero, and show that it is capable of playing this game to discover new and improved memory mapping solutions that lead to faster execution times on real ML workloads on ML accelerators. We compare the performance of mallocMuZero to the default solver used by the Accelerated Linear Algebra (XLA) compiler on a benchmark of realistic ML workloads. In addition, we show that mallocMuZero is capable of improving the execution time of the recently published AlphaTensor matrix multiplication model.
翻訳日:2023-05-15 12:59:04 公開日:2023-05-11
# 対角情報を用いた連続視覚言語表現学習

Continual Vision-Language Representaion Learning with Off-Diagonal Information ( http://arxiv.org/abs/2305.07437v1 )

ライセンス: Link先を確認
Zixuan Ni and Longhui Wei and Siliang Tang and Yueting Zhuang and Qi Tian(参考訳) 本稿では,ストリーミングデータによるCLIPモデルの継続的なトレーニングの実現可能性について論じる。 次に, 連続更新クリップモデルにおける表現ベクトルの方向変化を追跡することにより, 空間変動を, モーダル内回転とモーダル間偏差に区分できる空間性障害 (sd) として探索し, 要約する。 さらに, モーダル内回転とモーダル間偏差が, 経験的・理論的に相互モーダル検索タスクにおけるCLIPの性能低下につながることを示す。 空間的障害を軽減するために, シンプルながら効果的な連続学習フレームワーク Mod-X を提案する。 異なるスケールとスコープを持つ一般的なデータセットに対する実験 (ref{method}, \ref{experiments}, appendix \ref{appendix_to_experiments}) は,本手法の有効性を示すものである。

This paper discusses the feasibility of continuously training the CLIP model through streaming data. Then, by tracking the directional changes of the representation vectors in the continuously updated CLIP model, we explore and summarize these spatial variations as Spatial Disorder (SD), which can be divided into Intra-modal Rotation and Inter-modal Deviation. Moreover, we demonstrate how intra-modal rotation and inter-modal deviation lead to a performance decline for CLIP on cross-modal retrieval tasks in both empirically and theoretically. To alleviate the spatial disorder, we propose a simple yet effective continual learning framework Mod-X: Maintain off-diagonal information-matriX. The experiments (in Section \ref{method}, \ref{experiments} and Appendix \ref{Appendix_to_experiments}) on commonly used datasets with different scales and scopes have illustrated the effectiveness of our method.
翻訳日:2023-05-15 12:58:42 公開日:2023-05-11
# MolDiff: 3次元分子拡散生成における原子結合不整合問題に対処する

MolDiff: Addressing the Atom-Bond Inconsistency Problem in 3D Molecule Diffusion Generation ( http://arxiv.org/abs/2305.07508v1 )

ライセンス: Link先を確認
Xingang Peng, Jiaqi Guan, Qiang Liu, Jianzhu Ma(参考訳) 深層生成モデルは最近、3d分子生成において優れた性能を達成している。 それらのほとんどがまず原子を生成し、その後に生成した原子に基づいて化学結合を後処理で付加する。 しかし、その位置が潜在的な結合を考慮せずに生成されるため、時間的に生成された原子の対応する結合解は存在しないかもしれない。 我々は、この問題を原子結合不整合問題として定義し、非現実的な3d分子を生成する現在のアプローチの主な理由であると主張している。 この問題を克服するために,分子間の依存関係を明示的にモデル化することにより,原子と結合を同時に生成できるMoldiffと呼ばれる新しい拡散モデルを提案する。 提案するモデルの生成能と生成分子の品質を幾何学的および化学的性質の双方に関する基準を用いて評価した。 実験により, モデルが従来の手法より優れ, 成功率の3倍向上, 品質が著しく向上した分子の生成が得られた。

Deep generative models have recently achieved superior performance in 3D molecule generation. Most of them first generate atoms and then add chemical bonds based on the generated atoms in a post-processing manner. However, there might be no corresponding bond solution for the temporally generated atoms as their locations are generated without considering potential bonds. We define this problem as the atom-bond inconsistency problem and claim it is the main reason for current approaches to generating unrealistic 3D molecules. To overcome this problem, we propose a new diffusion model called MolDiff which can generate atoms and bonds simultaneously while still maintaining their consistency by explicitly modeling the dependence between their relationships. We evaluated the generation ability of our proposed model and the quality of the generated molecules using criteria related to both geometry and chemical properties. The empirical studies showed that our model outperforms previous approaches, achieving a three-fold improvement in success rate and generating molecules with significantly better quality.
翻訳日:2023-05-15 12:41:48 公開日:2023-05-11
# 関係モダリティをもつランベック計算のカテゴリーベクトル空間意味論

Categorical Vector Space Semantics for Lambek Calculus with a Relevant Modality ( http://arxiv.org/abs/2005.03074v4 )

ライセンス: Link先を確認
Lachlan McPheat, Mehrnoosh Sadrzadeh, Hadi Wazni, Gijs Wijnholds(参考訳) 関連するモダリティを持つランベック計算の分類的構成分布意味論を開発する。 L* - 収縮と置換規則の限定版を持つ。 セマンティクスのカテゴリー的部分(英: categorical part of the semantics)は、微分カテゴリーの構造と非常によく似た、コガブラのモダリティを持つモノイドの双閉圏である。 我々は、この圏を「量子化」関手を通じて有限次元ベクトル空間と線型写像にインスタンス化し、コリゲブラ様相の3つの具体的解釈を扱う。 モデルを適用して、モチベーションのある ! の例に対する分類的および具体的意味解釈を構築する。 L*: 寄生的ギャップを持つ句の派生。 文の曖昧化データセットを、BERT、Word2Vec、FastTextベクターおよびリレーショナルテンソルを用いて、寄生的ギャップフレーズに拡張することにより、具体的解釈の有効性を評価する。

We develop a categorical compositional distributional semantics for Lambek Calculus with a Relevant Modality !L*, which has a limited edition of the contraction and permutation rules. The categorical part of the semantics is a monoidal biclosed category with a coalgebra modality, very similar to the structure of a Differential Category. We instantiate this category to finite dimensional vector spaces and linear maps via "quantisation" functors and work with three concrete interpretations of the coalgebra modality. We apply the model to construct categorical and concrete semantic interpretations for the motivating example of !L*: the derivation of a phrase with a parasitic gap. The effectiveness of the concrete interpretations are evaluated via a disambiguation task, on an extension of a sentence disambiguation dataset to parasitic gap phrases, using BERT, Word2Vec, and FastText vectors and Relational tensors.
翻訳日:2023-05-12 20:19:09 公開日:2023-05-11
# 3次元タルボットトワイザー格子における単一原子キュービットアレーのスケーラブルな多層構造

Scalable multilayer architecture of assembled single-atom qubit arrays in a three-dimensional Talbot tweezer lattice ( http://arxiv.org/abs/1902.05424v5 )

ライセンス: Link先を確認
Malte Schlosser, Sascha Tichelmann, Dominik Sch\"affner, Daniel Ohl de Mello, Moritz Hambach, Jan Sch\"utz, Gerhard Birkl(参考訳) 本稿では,2次元ツイーザーアレイを3次元に拡張したマイクロレンズ生成Talbot tweezer格子による平面配列の大規模3次元多層構成を実現するための新しいプラットフォームの実現について報告する。 本稿では,整数および分数タルボット平面におけるルビジウム原子のトラップおよびイメージングと,異なる層における欠陥のない原子配列の組み立てについて述べる。 マイクロレンズアレイに対するタルボット自己イメージング効果は、3次元原子配列を有効スケーリング特性で実現するための構造的に堅牢で波長ユニバーサルな方法を構成する。 2D層当たり750 qubitサイト以上を持つこれらのスケーリング特性は、現在の実装で既に \num{10000} qubitサイトが3Dでアクセス可能であることを示唆している。 トラップトポロジと機能は、マイクロメートル単位で設定可能である。 これを動的位置制御とスピン状態の並列化サブラティスアドレスを持つインターリーブ格子を生成し、量子科学と技術に直ちに応用する。

We report on the realization of a novel platform for the creation of large-scale 3D multilayer configurations of planar arrays of individual neutral-atom qubits:~a microlens-generated Talbot tweezer lattice that extends 2D tweezer arrays to the third dimension at no additional costs. We demonstrate the trapping and imaging of rubidium atoms in integer and fractional Talbot planes and the assembly of defect-free atom arrays in different layers. The Talbot self-imaging effect for microlens arrays constitutes a structurally robust and wavelength-universal method for the realization of 3D atom arrays with beneficial scaling properties. With more than 750 qubit sites per 2D layer, these scaling properties imply that \num{10000} qubit sites are already accessible in 3D in our current implementation. The trap topology and functionality are configurable in the micrometer regime. We use this to generate interleaved lattices with dynamic position control and parallelized sublattice addressing of spin states for immediate application in quantum science and technology.
翻訳日:2023-05-12 20:18:50 公開日:2023-05-11
# セマンティクスセグメンテーションのスペクトル解析 : 特徴の切り込みと弱いアノテーションへの応用

Spectral Analysis for Semantic Segmentation with Applications on Feature Truncation and Weak Annotation ( http://arxiv.org/abs/2012.14123v5 )

ライセンス: Link先を確認
Li-Wei Chen, Wei-Chen Chiu, Chin-Tien Wu(参考訳) セマンティックセグメンテーションニューラルネットワーク(SSNN)は、オブジェクトの境界を解決するために密度の高いセグメンテーションマップを生成し、ダウンサンプルグリッドの予測を制限し、計算コストを軽減することはよく知られている。 U-NetのようなSSNNの精度とトレーニングコストの顕著なバランスが存在する。 本研究では,ダウンサンプルグリッドの分解能,損失関数,ssnnの精度の相関性を調べるため,スペクトル解析を行った。 周波数領域におけるネットワークバックプロパゲーションプロセスの解析により、従来の損失関数、クロスエントロピー、CNNの鍵となる特徴が、主にセグメンテーションラベルの低周波成分に影響されることが分かる。 我々の発見はSSNNにもいくつかの方法で適用できる。 (i)セグメンテーションマップを解決するための効率的な低解像度グリッドの決定 (ii) 計算コストを節約するために高周波デコーダの特徴を切断してネットワークを刈り取ること (iii)ラベル付け時間を節約するためにブロックワイドなアノテーションを使用する。 本稿では,DeepLab V3+ や Deep Aggregation Net (DAN) などのネットワークのスペクトル解析結果と一致することを示す。

It is well known that semantic segmentation neural networks (SSNNs) produce dense segmentation maps to resolve the objects' boundaries while restrict the prediction on down-sampled grids to alleviate the computational cost. A striking balance between the accuracy and the training cost of the SSNNs such as U-Net exists. We propose a spectral analysis to investigate the correlations among the resolution of the down sampled grid, the loss function and the accuracy of the SSNNs. By analyzing the network back-propagation process in frequency domain, we discover that the traditional loss function, cross-entropy, and the key features of CNN are mainly affected by the low-frequency components of segmentation labels. Our discoveries can be applied to SSNNs in several ways including (i) determining an efficient low resolution grid for resolving the segmentation maps (ii) pruning the networks by truncating the high frequency decoder features for saving computation costs, and (iii) using block-wise weak annotation for saving the labeling time. Experimental results shown in this paper agree with our spectral analysis for the networks such as DeepLab V3+ and Deep Aggregation Net (DAN).
翻訳日:2023-05-12 19:37:31 公開日:2023-05-11
# 多項ロジット選択によるランクの学習

Learning to Rank under Multinomial Logit Choice ( http://arxiv.org/abs/2009.03207v2 )

ライセンス: Link先を確認
James A. Grant, David S. Leslie(参考訳) コンテンツの最適順序付けを学ぶことは、ウェブサイト設計において重要な課題である。 learning to rank(ltr)フレームワークはこの問題を、コンテンツのリストを選択し、ユーザーがクリックする場所を観察するシーケンシャルな問題としてモデル化している。 LTRに関するこれまでのほとんどの作業は、ユーザがリスト内の各項目を個別に考慮し、各項目をクリックするかしないかをバイナリ選択すると仮定している。 LTRフレームワークにMNL(multinomial logit)選択モデルを導入し、注文されたアイテムのリスト全体を考慮したユーザの振る舞いをキャプチャし、すべてのアイテムの中から1つの選択肢とノークリックオプションを選択できるようにする。 MNLモデルでは、ユーザーは本来より魅力的であるか、リスト内の好ましい位置に置かれているアイテムを好む。 我々は,位置依存パラメータが知られ未知である2つの設定において,後悔を最小限に抑えるためのuper confidence bound (ucb)アルゴリズムを提案する。 我々は、問題に対する$\Omega(\sqrt{JT})$下限、既知のパラメータ設定における UCB アルゴリズムの後悔に関する$\tilde{O}(\sqrt{JT})$上限、およびより困難な未知のパラメータ設定における後悔に関する$\tilde{O}(K^2\sqrt{JT})$上限を導く理論的解析を行う。 この分析は、幾何学的確率変数に対する厳密な新しい濃度結果と、離散データに基づいて計算された最大可能性推定器の関数的不等式に基づく。

Learning the optimal ordering of content is an important challenge in website design. The learning to rank (LTR) framework models this problem as a sequential problem of selecting lists of content and observing where users decide to click. Most previous work on LTR assumes that the user considers each item in the list in isolation, and makes binary choices to click or not on each. We introduce a multinomial logit (MNL) choice model to the LTR framework, which captures the behaviour of users who consider the ordered list of items as a whole and make a single choice among all the items and a no-click option. Under the MNL model, the user favours items which are either inherently more attractive, or placed in a preferable position within the list. We propose upper confidence bound (UCB) algorithms to minimise regret in two settings - where the position dependent parameters are known, and unknown. We present theoretical analysis leading to an $\Omega(\sqrt{JT})$ lower bound for the problem, an $\tilde{O}(\sqrt{JT})$ upper bound on regret of the UCB algorithm in the known-parameter setting, and an $\tilde{O}(K^2\sqrt{JT})$ upper bound on regret, the first, in the more challenging unknown-position-parameter setting. Our analyses are based on tight new concentration results for Geometric random variables, and novel functional inequalities for maximum likelihood estimators computed on discrete data.
翻訳日:2023-05-12 19:37:10 公開日:2023-05-11
# CLIP-Lite: 言語スーパービジョンを用いた情報効率の良い視覚表現学習

CLIP-Lite: Information Efficient Visual Representation Learning with Language Supervision ( http://arxiv.org/abs/2112.07133v2 )

ライセンス: Link先を確認
Aman Shrivastava, Ramprasaath R. Selvaraju, Nikhil Naik, Vicente Ordonez(参考訳) テキストアノテーションと特徴アライメントによる視覚表現学習のための情報効率向上手法であるCLIP-Liteを提案する。 以前提案したCLIPモデルと比較して、CLIP-Liteは、対照的な学習目標の最適化において、正のイメージテキストサンプル毎に1つの負のイメージテキストサンプルペアしか必要としない。 我々は,2つの入力モード間の相互情報を最大化するために,情報効率のよい低バウンドを利用する。 これにより、CLIP-Liteは大幅にデータ量とバッチサイズを減らし、同じスケールでCLIPよりも優れたパフォーマンスを得ることができる。 CLIP-LiteはCOCO-Captionsデータセットで事前トレーニングを行い、他のデータセットへの転送学習をテストする。 clip-liteはpascal voc分類での絶対的な性能向上率(+14.0%)と、imagenetのtop-1精度向上率(+22.1%)を得た。 CLIP-Liteは、画像とテキストの検索、ゼロショット分類、視覚的グラウンドニングにおいてCLIPよりも優れている。 最後に、CLIP-Liteは言語セマンティクスを利用して、下流タスクで使用できるバイアスのない視覚表現を促進することができることを示す。 実装:https://github.com/4m4n5/CLIP-Lite

We propose CLIP-Lite, an information efficient method for visual representation learning by feature alignment with textual annotations. Compared to the previously proposed CLIP model, CLIP-Lite requires only one negative image-text sample pair for every positive image-text sample during the optimization of its contrastive learning objective. We accomplish this by taking advantage of an information efficient lower-bound to maximize the mutual information between the two input modalities. This allows CLIP-Lite to be trained with significantly reduced amounts of data and batch sizes while obtaining better performance than CLIP at the same scale. We evaluate CLIP-Lite by pretraining on the COCO-Captions dataset and testing transfer learning to other datasets. CLIP-Lite obtains a +14.0% mAP absolute gain in performance on Pascal VOC classification, and a +22.1% top-1 accuracy gain on ImageNet, while being comparable or superior to other, more complex, text-supervised models. CLIP-Lite is also superior to CLIP on image and text retrieval, zero-shot classification, and visual grounding. Finally, we show that CLIP-Lite can leverage language semantics to encourage bias-free visual representations that can be used in downstream tasks. Implementation: https://github.com/4m4n5/CLIP-Lite
翻訳日:2023-05-12 19:28:02 公開日:2023-05-11
# ガウス多武装バンディットのUPB則の記述を制限する確率微分方程式

Stochastic differential equations for limiting description of UCB rule for Gaussian multi-armed bandits ( http://arxiv.org/abs/2112.06423v3 )

ライセンス: Link先を確認
Sergey Garbar(参考訳) ガウス多武装バンドの高信頼バウンド戦略を制御地平線サイズが既知の$N$で検討し、確率微分方程式と常微分方程式の系を用いて制限記述を構築する。 腕に対する報酬は、未知の期待値と既知のばらつきを持つと仮定される。 1組のモンテカルロシミュレーションが、報酬の密分布の場合、平均報酬が、最も正規化された後悔を与えるため、$n^{-1/2}$の桁数によって異なり、得られた記述の妥当性を検証するために行われた。 正規化された後悔が最大値よりも顕著に大きくない制御水平方向の最小サイズを推定した。

We consider the upper confidence bound strategy for Gaussian multi-armed bandits with known control horizon sizes $N$ and build its limiting description with a system of stochastic differential equations and ordinary differential equations. Rewards for the arms are assumed to have unknown expected values and known variances. A set of Monte-Carlo simulations was performed for the case of close distributions of rewards, when mean rewards differ by the magnitude of order $N^{-1/2}$, as it yields the highest normalized regret, to verify the validity of the obtained description. The minimal size of the control horizon when the normalized regret is not noticeably larger than maximum possible was estimated.
翻訳日:2023-05-12 19:27:38 公開日:2023-05-11
# 学習可能な間隔による拡張畳み込み

Dilated convolution with learnable spacings ( http://arxiv.org/abs/2112.03740v4 )

ライセンス: Link先を確認
Ismail Khalfaoui-Hassani, Thomas Pellegrini and Timoth\'ee Masquelier(参考訳) 近年の研究では、畳み込みニューラルネットワーク(cnn)が視覚トランスフォーマーと競合するために大きな受容場(rf)を必要とすることが示されている。 CNNでは、畳み込みカーネルのサイズを増やすことでRFを単純に拡大することができる。 しかし、2Dの場合、カーネルのサイズと4倍にスケールするトレーニング可能なパラメータの数は、急速に禁止され、トレーニングは非常に困難である。 本稿では,パラメータ数を増やすことなくRFサイズを増大させる新しい手法を提案する。 拡張畳み込み(DC)は、既に同じ目的のために提案されている。 DCはカーネルとの畳み込みと見なすことができ、通常のグリッド上に配置されるゼロでない要素はわずかである。 本稿では,非零要素間の間隔,あるいはその位置がもはや固定されていないが,補間技術によりバックプロパゲーションによって学習可能なdcの新しいバージョンを提案する。 我々はこの手法を"Dilated Convolution with Learnable Spacings" (DCLS)と呼び、n次元の畳み込みケースに一般化する。 しかし、私たちの主な焦点は2Dケースです。 私たちはまず、ResNet50のアプローチを試しました。標準の畳み込みをDCLSに置き換えて、Iso-parametersにおけるImageNet1k分類の精度を高めましたが、スループットを犠牲にしました。 次に、最近のConvNeXtの最先端の畳み込みアーキテクチャを使用し、深い畳み込みをDCLSに置き換えました。 これはimagenet1k分類の精度を高めるだけでなく、isoパラメータでの典型的な下流およびロバストネスタスクの精度を高めるだけでなく、convnextでは分離可能な畳み込みを使用するため、スループットに無視できるコストがかかる。 逆に、古典的なDCはResNet50とConvNeXtで性能が劣った。 メソッドのコードは以下の通りである。 https://github.com/K-H-Ismail/Dilated-Convolution-with-Learnable-Spacings-PyTorch。

Recent works indicate that convolutional neural networks (CNN) need large receptive fields (RF) to compete with visual transformers and their attention mechanism. In CNNs, RFs can simply be enlarged by increasing the convolution kernel sizes. Yet the number of trainable parameters, which scales quadratically with the kernel's size in the 2D case, rapidly becomes prohibitive, and the training is notoriously difficult. This paper presents a new method to increase the RF size without increasing the number of parameters. The dilated convolution (DC) has already been proposed for the same purpose. DC can be seen as a convolution with a kernel that contains only a few non-zero elements placed on a regular grid. Here we present a new version of the DC in which the spacings between the non-zero elements, or equivalently their positions, are no longer fixed but learnable via backpropagation thanks to an interpolation technique. We call this method "Dilated Convolution with Learnable Spacings" (DCLS) and generalize it to the n-dimensional convolution case. However, our main focus here will be on the 2D case. We first tried our approach on ResNet50: we drop-in replaced the standard convolutions with DCLS ones, which increased the accuracy of ImageNet1k classification at iso-parameters, but at the expense of the throughput. Next, we used the recent ConvNeXt state-of-the-art convolutional architecture and drop-in replaced the depthwise convolutions with DCLS ones. This not only increased the accuracy of ImageNet1k classification but also of typical downstream and robustness tasks, again at iso-parameters but this time with negligible cost on throughput, as ConvNeXt uses separable convolutions. Conversely, classic DC led to poor performance with both ResNet50 and ConvNeXt. The code of the method is available at: https://github.com/K-H-Ismail/Dilated-Convolution-with-Learnable-Spacings-PyTorch.
翻訳日:2023-05-12 19:27:26 公開日:2023-05-11
# 動的系に対するクープマン作用素のスペクトル特性の厳密なデータ駆動計算

Rigorous data-driven computation of spectral properties of Koopman operators for dynamical systems ( http://arxiv.org/abs/2111.14889v2 )

ライセンス: Link先を確認
Matthew J. Colbrook, Alex Townsend(参考訳) クープマン作用素(koopman operator)は、非線形力学系を大域的に線形化する無限次元作用素であり、そのスペクトル情報は力学を理解する上で有用である。 しかし、クープマン作用素は連続スペクトルと無限次元不変部分空間を持ち、そのスペクトル情報を計算することがかなり難しい。 本稿では、コープマン作用素のスペクトル情報を軌道データから計算するための厳密な収束保証付きデータ駆動アルゴリズムについて述べる。 スペクトル汚染のないスナップショットデータから一般クープマン作用素のスペクトルと擬似スペクトルを計算するための最初のスキームである残留動的モード分解(ResDMD)を導入する。 リゾルペント演算子とResDMDを用いて、一般的な測度保存力学系に関連するスペクトル測度のスムーズな近似を計算する。 我々は,連続スペクトルと離散スペクトルの密度を計算する際に,カオス系においても高次収束を達成できるアルゴリズムの明示的な収束定理を証明した。 我々のアルゴリズムは誤差制御を備えているため、ResDMDはスペクトル量、クープマンモード分解、および学習辞書のアポテリ検証を可能にする。 我々は,テントマップ,円回転,ガウス反復マップ,非線形振り子,二重振り子,ローレンツシステムにアルゴリズムを実演する。 最後に、高次元状態空間を持つ力学系に対するアルゴリズムのカーネル化された変種を提供する。 これにより,295,122次元状態空間を持つレイノルズ数$>10^5$で,20,046次元状態空間を持つタンパク質分子のダイナミックスに関連するスペクトル測度を計算し,非線型コオプマンモードと乱流流を過ぎるエアロフォイルの誤差境界を計算できる。

Koopman operators are infinite-dimensional operators that globally linearize nonlinear dynamical systems, making their spectral information valuable for understanding dynamics. However, Koopman operators can have continuous spectra and infinite-dimensional invariant subspaces, making computing their spectral information a considerable challenge. This paper describes data-driven algorithms with rigorous convergence guarantees for computing spectral information of Koopman operators from trajectory data. We introduce residual dynamic mode decomposition (ResDMD), which provides the first scheme for computing the spectra and pseudospectra of general Koopman operators from snapshot data without spectral pollution. Using the resolvent operator and ResDMD, we compute smoothed approximations of spectral measures associated with general measure-preserving dynamical systems. We prove explicit convergence theorems for our algorithms, which can achieve high-order convergence even for chaotic systems when computing the density of the continuous spectrum and the discrete spectrum. Since our algorithms come with error control, ResDMD allows aposteri verification of spectral quantities, Koopman mode decompositions, and learned dictionaries. We demonstrate our algorithms on the tent map, circle rotations, Gauss iterated map, nonlinear pendulum, double pendulum, and Lorenz system. Finally, we provide kernelized variants of our algorithms for dynamical systems with a high-dimensional state space. This allows us to compute the spectral measure associated with the dynamics of a protein molecule with a 20,046-dimensional state space and compute nonlinear Koopman modes with error bounds for turbulent flow past aerofoils with Reynolds number $>10^5$ that has a 295,122-dimensional state space.
翻訳日:2023-05-12 19:26:56 公開日:2023-05-11
# 知識蒸留のための相互情報の推定と最大化

Estimating and Maximizing Mutual Information for Knowledge Distillation ( http://arxiv.org/abs/2110.15946v3 )

ライセンス: Link先を確認
Aman Shrivastava, Yanjun Qi, Vicente Ordonez(参考訳) 本研究では,相互情報最大化知識蒸留(MIMKD)を提案する。 提案手法では,教師と学生ネットワーク間の局所的特徴表現とグローバル的特徴表現の相互情報に対する低境界を同時に推定し,最大化する。 我々は,より高性能だが計算コストの高いモデルから知識を伝達することで,低容量モデルの性能向上に有効であることを示す。 これは、計算リソースの少ないデバイスで実行できるより良いモデルを作成するのに使うことができる。 我々の手法は柔軟であり、任意のネットワークアーキテクチャを持つ教師から任意の学生ネットワークに知識を抽出することができる。 実験の結果,MIMKDは,異なる能力,異なるアーキテクチャ,学生ネットワークが極めて低容量である場合に,幅広い学生と教師のペア間で競合するアプローチよりも優れていた。 ResNet-50の知識を蒸留することにより,ShufflenetV2を用いたCIFAR100の74.55%の精度を69.8%の精度で取得できる。 Imagenetでは、ResNet-34の教師ネットワークを使用して、68.88%から70.32%の精度(1.44%以上)に改善した。

In this work, we propose Mutual Information Maximization Knowledge Distillation (MIMKD). Our method uses a contrastive objective to simultaneously estimate and maximize a lower bound on the mutual information of local and global feature representations between a teacher and a student network. We demonstrate through extensive experiments that this can be used to improve the performance of low capacity models by transferring knowledge from more performant but computationally expensive models. This can be used to produce better models that can be run on devices with low computational resources. Our method is flexible, we can distill knowledge from teachers with arbitrary network architectures to arbitrary student networks. Our empirical results show that MIMKD outperforms competing approaches across a wide range of student-teacher pairs with different capacities, with different architectures, and when student networks are with extremely low capacity. We are able to obtain 74.55% accuracy on CIFAR100 with a ShufflenetV2 from a baseline accuracy of 69.8% by distilling knowledge from ResNet-50. On Imagenet we improve a ResNet-18 network from 68.88% to 70.32% accuracy (1.44%+) using a ResNet-34 teacher network.
翻訳日:2023-05-12 19:26:27 公開日:2023-05-11
# 左クリックリカレントニューラルネットワークによる人間の文処理のモデル化

Modeling Human Sentence Processing with Left-Corner Recurrent Neural Network Grammars ( http://arxiv.org/abs/2109.04939v2 )

ライセンス: Link先を確認
Ryo Yoshida, Hiroshi Noji, Yohei Oseki(参考訳) 計算言語学では、階層構造が言語モデル(LM)をより人間らしくすることが示された。 しかし、以前の文献は階層モデルの解析戦略について無知である。 本稿では,階層構造がLMをより人間らしくするかどうかを考察し,その場合,どの解析戦略が最も認知的に妥当かを検討した。 この問題に対処するため,日本語の読解時間に対して,Long Short-Term Memory (LSTM) を逐次モデルとし,Long Short-Term Memory (LSTM) を階層モデル,Recurrent Neural Network Grammars (RNNGs) を階層モデルとして評価した。 計算モデルにより,左コーン型RNNGはトップダウン型RNNGやLSTMよりも優れており,階層型および左コーン型アーキテクチャの方がトップダウン型アーキテクチャやシーケンシャル型アーキテクチャよりも認知的な可能性が示唆された。 また,認知的妥当性と認知的妥当性の関係 (i)パープレキシティ(perplexity) (ii)パース、及び (iii)ビームサイズについても検討する。

In computational linguistics, it has been shown that hierarchical structures make language models (LMs) more human-like. However, the previous literature has been agnostic about a parsing strategy of the hierarchical models. In this paper, we investigated whether hierarchical structures make LMs more human-like, and if so, which parsing strategy is most cognitively plausible. In order to address this question, we evaluated three LMs against human reading times in Japanese with head-final left-branching structures: Long Short-Term Memory (LSTM) as a sequential model and Recurrent Neural Network Grammars (RNNGs) with top-down and left-corner parsing strategies as hierarchical models. Our computational modeling demonstrated that left-corner RNNGs outperformed top-down RNNGs and LSTM, suggesting that hierarchical and left-corner architectures are more cognitively plausible than top-down or sequential architectures. In addition, the relationships between the cognitive plausibility and (i) perplexity, (ii) parsing, and (iii) beam size will also be discussed.
翻訳日:2023-05-12 19:26:08 公開日:2023-05-11
# グラフニューラルネットワークによる影響の最大化

Maximizing Influence with Graph Neural Networks ( http://arxiv.org/abs/2108.04623v5 )

ライセンス: Link先を確認
George Panagopoulos, Nikolaos Tziortziotis, Fragkiskos D. Malliaros, Michalis Vazirgiannis(参考訳) ネットワーク上に広がる影響を最大化するシードセットを見つけることは、よく知られたNPハード問題である。 グリーディアルゴリズムは最適に近い解を与えることができるが、影響推定のサブ確率は解を非効率にする。 本研究では,独立カスケードの影響拡散を推定する方法を学習するグラフニューラルネットワークである \textsc{glie} を提案する。 GLIEは, 教師付きトレーニングによって強化された理論上界に依存しており, 実験により, 実グラフが列車の最大10倍の精度で影響を推定できることが示されている。 計算効率を向上させるため,まずglieの予測を用いて種子選択を逐次学習するq学習法を考案する。 最後に,種集合を適応的に構築しながらノードのランク付けを行うために,glieの表現に基づいて拡散する有理サブモジュラー的影響を開発することで,最も効率的なアプローチに到達した。 提案されたアルゴリズムはインダクティブであり、300ノード未満のグラフと最大5シードのグラフでトレーニングされ、数百万ノードと最大200シードのグラフでテストされる。 最後の方法は、時間効率と影響品質の最も有望な組み合わせを示し、いくつかのベースラインを上回っている。

Finding the seed set that maximizes the influence spread over a network is a well-known NP-hard problem. Though a greedy algorithm can provide near-optimal solutions, the subproblem of influence estimation renders the solutions inefficient. In this work, we propose \textsc{Glie}, a graph neural network that learns how to estimate the influence spread of the independent cascade. GLIE relies on a theoretical upper bound that is tightened through supervised training.Experiments indicate that it provides accurate influence estimation for real graphs up to 10 times larger than the train set.Subsequently, we incorporate it into three influence maximization techniques.We first utilize Cost Effective Lazy Forward optimization substituting Monte Carlo simulations with GLIE, surpassing the benchmarks albeit with a computational overhead. To improve computational efficiency we first devise a Q-learning method that learns to choose seeds sequentially using GLIE's predictions. Finally, we arrive at the most efficient approach by developing a provably submodular influence spread based on GLIE's representations, to rank nodes while building the seed set adaptively. The proposed algorithms are inductive, meaning they are trained on graphs with less than 300 nodes and up to 5 seeds, and tested on graphs with millions of nodes and up to 200 seeds. The final method exhibits the most promising combination of time efficiency and influence quality, outperforming several baselines.
翻訳日:2023-05-12 19:25:28 公開日:2023-05-11
# 連続平均共分散帯域

Continuous Mean-Covariance Bandits ( http://arxiv.org/abs/2102.12090v5 )

ライセンス: Link先を確認
Yihan Du, Siwei Wang, Zhixuan Fang, Longbo Huang(参考訳) 既存のリスクアウェアマルチアームバンディットモデルは、一般的に分散などの個別オプションのリスク対策に焦点を当てている。 その結果、関連する選択肢を持つ重要なオンライン意思決定問題に直接適用することはできない。 本稿では,オプション相関を考慮した新しい連続平均共分散バンドイット(cmcb)モデルを提案する。 具体的には、CMCBにおいて、与えられた選択肢の重みベクトルを逐次選択し、決定に従ってランダムなフィードバックを観察する学習者がいる。 エージェントの目的は、オプションの共分散によって測定される報酬とリスクの間の最良のトレードオフを達成することである。 実例で異なる報奨観察シナリオを捉えるため,全情報,半帯域,全帯域の3つのフィードバック設定を検討する。 対数的因子を伴わない)最適後悔を伴う新しいアルゴリズムを提案し、その最適性を検証するために一致した下界を提供する。 実験結果は,アルゴリズムの優位性も示している。 我々の知る限りでは、リスク対応の帯域におけるオプション相関を考慮し、任意の共分散構造が学習性能に与える影響を明確に評価する最初の研究である。 推定共分散を利用して, 抽出戦略特性に基づく選択された行動のリスクを限定することで, 他のバンディット分析に応用でき, 独立した興味を持つ可能性がある。

Existing risk-aware multi-armed bandit models typically focus on risk measures of individual options such as variance. As a result, they cannot be directly applied to important real-world online decision making problems with correlated options. In this paper, we propose a novel Continuous Mean-Covariance Bandit (CMCB) model to explicitly take into account option correlation. Specifically, in CMCB, there is a learner who sequentially chooses weight vectors on given options and observes random feedback according to the decisions. The agent's objective is to achieve the best trade-off between reward and risk, measured with option covariance. To capture different reward observation scenarios in practice, we consider three feedback settings, i.e., full-information, semi-bandit and full-bandit feedback. We propose novel algorithms with optimal regrets (within logarithmic factors), and provide matching lower bounds to validate their optimalities. The experimental results also demonstrate the superiority of our algorithms. To the best of our knowledge, this is the first work that considers option correlation in risk-aware bandits and explicitly quantifies how arbitrary covariance structures impact the learning performance. The novel analytical techniques we developed for exploiting the estimated covariance to build concentration and bounding the risk of selected actions based on sampling strategy properties can likely find applications in other bandit analysis and be of independent interests.
翻訳日:2023-05-12 19:25:04 公開日:2023-05-11
# 単純量子文脈性

Simplicial quantum contextuality ( http://arxiv.org/abs/2204.06648v3 )

ライセンス: Link先を確認
Cihan Okay, Aziz Kharoof, Selman Ipek(参考訳) 現代ホモトピー理論において重要な役割を果たす位相空間の組合せモデルである単純集合に基づく文脈性の新しい枠組みを提案する。 提案手法は, 測定シナリオを, 測度と結果の空間(集合ではなく集合)に拡張し, 単純集合でモデル化された空間上の分布である非シグナリング分布を単純分布に一般化する。 この形式主義を用いて、ベルのシナリオにおける非文脈性を特徴づけるためのファインの定理の位相的に着想を得た新しい証明を示す。 強文脈性は単純分布に好適に一般化され、量子可観測物間の代数的関係に制限された初期の位相的構造を確率分布のレベルまで拡張するコホモロジー的証人を定義することができる。 Gleasonの定理やKochen-Specker定理のような量子理論の基礎定理は、この新しい言語の中で自然に表現できる。

We introduce a new framework for contextuality based on simplicial sets, combinatorial models of topological spaces that play a prominent role in modern homotopy theory. Our approach extends measurement scenarios to consist of spaces (rather than sets) of measurements and outcomes, and thereby generalizes nonsignaling distributions to simplicial distributions, which are distributions on spaces modeled by simplicial sets. Using this formalism we present a topologically inspired new proof of Fine's theorem for characterizing noncontextuality in Bell scenarios. Strong contextuality is generalized suitably for simplicial distributions, allowing us to define cohomological witnesses that extend the earlier topological constructions restricted to algebraic relations among quantum observables to the level of probability distributions. Foundational theorems of quantum theory such as the Gleason's theorem and Kochen-Specker theorem can be expressed naturally within this new language.
翻訳日:2023-05-12 19:19:33 公開日:2023-05-11
# 確率過程による言語モデリング

Language modeling via stochastic processes ( http://arxiv.org/abs/2203.11370v2 )

ライセンス: Link先を確認
Rose E Wang, Esin Durmus, Noah Goodman, Tatsunori Hashimoto(参考訳) 現代の言語モデルは高品質の短文を生成することができる。 しかし、長いテキストを生成する際には、しばしばメランジェや不整合である。 これらの問題は、next-tokenのみの言語モデリングの目的から生じる。 自己教師付き学習における最近の研究は、モデルがコントラスト学習を通じて良い潜在表現を学習できることを示唆している。 我々の研究は、長文生成のような生成タスクへのコントラスト表現の適用を分析する。 本稿では,時間制御 (TC) と呼ばれる構成表現を利用する方法を提案する。 TCはまず、対象のテキストドメインのコントラスト表現を学び、それからこれらの表現から復号することでテキストを生成する。 ドメイン固有の手法や様々なテキスト領域にわたる微調整GPT2と比較して、TCは談話コヒーレンスに基づく文表現の学習に特有な手法と競合する。 長いテキスト生成設定では、tcは注文(最大で$+15\%$)とテキストの長さ一貫性(最大で$+90\%$)の両方でテキスト構造を保持します。

Modern language models can generate high-quality short texts. However, they often meander or are incoherent when generating longer texts. These issues arise from the next-token-only language modeling objective. Recent work in self-supervised learning suggests that models can learn good latent representations via contrastive learning, which can be effective for discriminative tasks. Our work analyzes the application of contrastive representations for generative tasks, like long text generation. We propose one approach for leveraging constrastive representations, which we call Time Control (TC). TC first learns a contrastive representation of the target text domain, then generates text by decoding from these representations. Compared to domain-specific methods and fine-tuning GPT2 across a variety of text domains, TC performs competitively to methods specific for learning sentence representations on discourse coherence. On long text generation settings, TC preserves the text structure both in terms of ordering (up to $+15\%$ better) and text length consistency (up to $+90\%$ better).
翻訳日:2023-05-12 19:19:17 公開日:2023-05-11
# 量子密度行列の古典的質問応答と古典的画像分類への応用

Application of Quantum Density Matrix in Classical Question Answering and Classical Image Classification ( http://arxiv.org/abs/2203.11155v2 )

ライセンス: Link先を確認
X. Q. Zhao, H. Wan(参考訳) 量子密度行列(Quantum density matrix)は、量子系の全ての情報を表し、密度行列を用いた新しいモデルでは、量子問題応答タスクにおいて、仮説や言語的あいまいさなどの言語現象を自然にモデル化する。 自然に、量子密度行列を古典的質問応答(QA)タスクに適用すると、より効果的な性能が得られると論じる。 具体的には (i)入力が行列である場合に対応するため、LSTM(Long Short-Term Memory)に基づく新しいメカニズムを設計すること。 (2)畳み込みニューラルネットワーク(CNN)のQA問題に適用し,量子密度行列を用いたLSTMに基づくQAモデルを得る。 TREC-QAデータセットとWIKI-QAデータセットの新たなモデルによる実験結果が得られた。 同様に、量子密度行列は、画像特徴情報と古典的な画像分類の特徴との関係性を高めることができると論じる。 ですから私たちは i) 密度行列とCNNを組み合わせて新しい機構を設計すること。 (ii)代表的古典的画像分類課題に新たなメカニズムを適用する。 一連の実験により、画像分類における量子密度行列の応用は、異なるデータセットに対する一般化と高効率性を有することが示された。 古典的質問応答課題と古典的画像分類課題の両方における量子密度行列の適用は、より効果的な性能を示す。

Quantum density matrix represents all the information of the entire quantum system, and novel models of meaning employing density matrices naturally model linguistic phenomena such as hyponymy and linguistic ambiguity, among others in quantum question answering tasks. Naturally, we argue that applying the quantum density matrix into classical Question Answering (QA) tasks can show more effective performance. Specifically, we (i) design a new mechanism based on Long Short-Term Memory (LSTM) to accommodate the case when the inputs are matrixes; (ii) apply the new mechanism to QA problems with Convolutional Neural Network (CNN) and gain the LSTM-based QA model with the quantum density matrix. Experiments of our new model on TREC-QA and WIKI-QA data sets show encouraging results. Similarly, we argue that the quantum density matrix can also enhance the image feature information and the relationship between the features for the classical image classification. Thus, we (i) combine density matrices and CNN to design a new mechanism; (ii) apply the new mechanism to some representative classical image classification tasks. A series of experiments show that the application of quantum density matrix in image classification has the generalization and high efficiency on different datasets. The application of quantum density matrix both in classical question answering tasks and classical image classification tasks show more effective performance.
翻訳日:2023-05-12 19:19:01 公開日:2023-05-11
# EventFormer: 顔アクションユニットイベント検出のためのAU Event Transformer

EventFormer: AU Event Transformer for Facial Action Unit Event Detection ( http://arxiv.org/abs/2203.06355v2 )

ライセンス: Link先を確認
Yingjie Chen, Jiarui Zhang, Tao Wang, and Yun Liang(参考訳) 顔行動単位(AU)は人間の感情分析において不可欠である。 実世界のアプリケーションでは,AUに基づく高レベル感情分析が緊急に必要とされているが,過去の研究で得られたフレームレベル感情分析はそのような分析には直接利用できない。 さらに, ausは動的プロセスであるため, 地球規模の時間情報の利用は重要であるが, 文献では無視されている。 そこで本研究では、AUイベント検出を複数のクラス固有のセット予測問題として見ることにより、ビデオシーケンスからAUイベントを直接検出する、AUイベント検出のためのEventFormerを提案する。 一般的に使用されるAUベンチマークデータセットBP4Dで実施された大規模な実験は、適切なメトリクス下でのEventFormerの優位性を示している。

Facial action units (AUs) play an indispensable role in human emotion analysis. We observe that although AU-based high-level emotion analysis is urgently needed by real-world applications, frame-level AU results provided by previous works cannot be directly used for such analysis. Moreover, as AUs are dynamic processes, the utilization of global temporal information is important but has been gravely ignored in the literature. To this end, we propose EventFormer for AU event detection, which is the first work directly detecting AU events from a video sequence by viewing AU event detection as a multiple class-specific sets prediction problem. Extensive experiments conducted on a commonly used AU benchmark dataset, BP4D, show the superiority of EventFormer under suitable metrics.
翻訳日:2023-05-12 19:18:38 公開日:2023-05-11
# 計算効率と統計的に最適ロバストな低ランク行列とテンソル推定

Computationally Efficient and Statistically Optimal Robust Low-rank Matrix and Tensor Estimation ( http://arxiv.org/abs/2203.00953v4 )

ライセンス: Link先を確認
Yinan Shen and Jingyang Li and Jian-Feng Cai and Dong Xia(参考訳) 重項雑音下での低位行列推定は, 計算量と統計量の両方において困難である。 凸アプローチは統計的に最適であることが証明されているが、特にロバストな損失関数は通常スムースではないため計算コストが高い。 より最近では、サブ勾配降下による計算速度の速い非凸アプローチが提案されているが、残念ながらサブガウス雑音下でも統計的に一貫した推定器を提供していない。 本稿では,線形収束により計算効率が向上するだけでなく,ガウス雑音や重み付き雑音に対して統計的に最適である,新しいリーマン部分勾配アルゴリズムを提案する。 一般の枠組みとして収束理論を確立し,絶対損失,ハマー損失,量子損失に対する特定の応用について検討した。 既存の非凸法と比較して, 2相収束の驚くべき現象が明らかになった。 フェーズ1では、rsgradは徐々に崩壊するステップを必要とする典型的な非スムース最適化のように振る舞う。 しかし、第1相は、既存の文献で既に観察されている統計的に準最適推定器のみを提供する。 興味深いことに、位相 2 のとき、RsGrad は滑らかで強凸な目的関数を最小化するように線型収束し、したがって一定の段階化が成立する。 位相2収束の根底にあるのは、無作為なノイズが近接する領域における非スムースなロバストな損失に対して平滑化効果である。 最後に、重項雑音下での低ランクテンソル推定にはrsgradが適用可能であり、双相収束の同じ現象で統計的に最適速度が達成でき、新しい縮約に基づく二階モーメント法によって温暖初期化が保証される。 数値シミュレーションにより, 理論的な発見を確認し, rsgradが先行手法よりも優れていることを示す。

Low-rank matrix estimation under heavy-tailed noise is challenging, both computationally and statistically. Convex approaches have been proven statistically optimal but suffer from high computational costs, especially since robust loss functions are usually non-smooth. More recently, computationally fast non-convex approaches via sub-gradient descent are proposed, which, unfortunately, fail to deliver a statistically consistent estimator even under sub-Gaussian noise. In this paper, we introduce a novel Riemannian sub-gradient (RsGrad) algorithm which is not only computationally efficient with linear convergence but also is statistically optimal, be the noise Gaussian or heavy-tailed. Convergence theory is established for a general framework and specific applications to absolute loss, Huber loss, and quantile loss are investigated. Compared with existing non-convex methods, ours reveals a surprising phenomenon of dual-phase convergence. In phase one, RsGrad behaves as in a typical non-smooth optimization that requires gradually decaying stepsizes. However, phase one only delivers a statistically sub-optimal estimator which is already observed in the existing literature. Interestingly, during phase two, RsGrad converges linearly as if minimizing a smooth and strongly convex objective function and thus a constant stepsize suffices. Underlying the phase-two convergence is the smoothing effect of random noise to the non-smooth robust losses in an area close but not too close to the truth. Lastly, RsGrad is applicable for low-rank tensor estimation under heavy-tailed noise where a statistically optimal rate is attainable with the same phenomenon of dual-phase convergence, and a novel shrinkage-based second-order moment method is guaranteed to deliver a warm initialization. Numerical simulations confirm our theoretical discovery and showcase the superiority of RsGrad over prior methods.
翻訳日:2023-05-12 19:18:24 公開日:2023-05-11
# 量子多体系におけるスクランブルダイナミクスと時間外順序相関器:チュートリアル

Scrambling Dynamics and Out-of-Time Ordered Correlators in Quantum Many-Body Systems: a Tutorial ( http://arxiv.org/abs/2202.07060v3 )

ライセンス: Link先を確認
Shenglong Xu and Brian Swingle(参考訳) 本稿では,量子多体系における量子情報のスクランブルの物理について紹介する。 目的は、量子情報の拡散の正確な定量化方法と、複雑な量子系における因果関係の出現方法を理解することである。 本稿では,検出や復号を含む量子情報のダイナミクスを研究するための一般的な枠組みを紹介する。 量子情報のダイナミクスはハイゼンベルク図の演算子力学と密接に関連しており、ある状況下では、いわゆる時間外順序相関器~(OTOC)によって正確に定量化可能であることを示す。 OTOCの一般的な挙動は、Sachdev-Ye-Kitaevモデル、ランダム回路モデル、そしてOTOCが解析的に抽出可能なブラウンモデルなど、いくつかのおもちゃモデルに基づいて議論される。 我々は,汎用量子多体系におけるOTOCを計算するために,正確な対角化法やテンソルネットワーク法などの数値手法を導入する。 また,様々な量子シミュレータにおけるOTOCの測定方法についても検討した。

This tutorial article introduces the physics of quantum information scrambling in quantum many-body systems. The goals are to understand how to precisely quantify the spreading of quantum information and how causality emerges in complex quantum systems. We introduce a general framework to study the dynamics of quantum information, including detection and decoding. We show that the dynamics of quantum information is closely related to operator dynamics in the Heisenberg picture, and, under certain circumstances, can be precisely quantified by the so-called out-of-time ordered correlator~(OTOC). The general behavior of OTOC is discussed based on several toy models, including the Sachdev-Ye-Kitaev model, random circuit models, and Brownian models, in which OTOC is analytically tractable. We introduce numerical methods, including exact diagonalization and tensor network methods, to calculate OTOC for generic quantum many-body systems. We also survey current experimental schemes for measuring OTOC in various quantum simulators.
翻訳日:2023-05-12 19:17:17 公開日:2023-05-11
# 生成モデルにおける量子アドバンテージの一般化指標

Generalization Metrics for Practical Quantum Advantage in Generative Models ( http://arxiv.org/abs/2201.08770v3 )

ライセンス: Link先を確認
Kaitlin Gili, Marta Mauri, Alejandro Perdomo-Ortiz(参考訳) 量子コンピューティングのコミュニティは、量子コンピュータの実用的利点を理解することに向かっているため、特定の応用の文脈において、実用的な量子優位性を評価するための明確な定義と評価スキームを持つことが最重要である。 例えば、生成モデリングは量子コンピュータにおいて広く受け入れられている自然のユースケースであり、古典的モデルよりも量子モデルの成功を定量化するための具体的なアプローチを欠いている。 本研究では,アルゴリズムの一般化性能を測定することにより,生成モデルにおける実用的量子アドバンテージを調べるための,単純かつ曖昧な手法を構築した。 ここで提案したサンプルベースアプローチにより、gansのような最先端の古典的生成モデルから量子回路生まれのマシンのような量子モデルまで、任意の生成モデルが、具体的よく定義されたフレームワーク上で同じ基盤上で評価できる。 他のサンプルベースのメトリクスとは対照的に、制約付き最適化問題(例えば、濃度制限された問題)を利用し、これらの離散データセットを使用して、サンプルの品質を曖昧に測定できる特定のメトリクスと、トレーニングセットを越えてデータを生成するためのモデルの一般化能力を定義する。 さらに、我々のメトリクスは、テンソルネットワークで構築された量子インスパイアされたモデルとGANを比較したときに示すように、モード崩壊やオーバーフィッティングといったトレーニング可能性の問題を診断することができる。 シミュレーション結果から,我々の量子インスパイアされたモデルでは,gansと比較して,識別不能で有効なサンプルを生成する場合,最大68 \times$向上し,トレーニングセットで観察されたものよりも品質の良いサンプルを生成する場合,61:2の比率を示した。 生成モデリングの領域における実用的な量子優位性を厳格に定義するための貴重なツールとして,これらの指標を予想する。

As the quantum computing community gravitates towards understanding the practical benefits of quantum computers, having a clear definition and evaluation scheme for assessing practical quantum advantage in the context of specific applications is paramount. Generative modeling, for example, is a widely accepted natural use case for quantum computers, and yet has lacked a concrete approach for quantifying success of quantum models over classical ones. In this work, we construct a simple and unambiguous approach to probe practical quantum advantage for generative modeling by measuring the algorithm's generalization performance. Using the sample-based approach proposed here, any generative model, from state-of-the-art classical generative models such as GANs to quantum models such as Quantum Circuit Born Machines, can be evaluated on the same ground on a concrete well-defined framework. In contrast to other sample-based metrics for probing practical generalization, we leverage constrained optimization problems (e.g., cardinality-constrained problems) and use these discrete datasets to define specific metrics capable of unambiguously measuring the quality of the samples and the model's generalization capabilities for generating data beyond the training set but still within the valid solution space. Additionally, our metrics can diagnose trainability issues such as mode collapse and overfitting, as we illustrate when comparing GANs to quantum-inspired models built out of tensor networks. Our simulation results show that our quantum-inspired models have up to a $68 \times$ enhancement in generating unseen unique and valid samples compared to GANs, and a ratio of 61:2 for generating samples with better quality than those observed in the training set. We foresee these metrics as valuable tools for rigorously defining practical quantum advantage in the domain of generative modeling.
翻訳日:2023-05-12 19:17:01 公開日:2023-05-11
# 一次元量子格子モデルの双対性:対称ハミルトンと行列積演算子

Dualities in one-dimensional quantum lattice models: symmetric Hamiltonians and matrix product operator intertwiners ( http://arxiv.org/abs/2112.09091v4 )

ライセンス: Link先を確認
Laurens Lootens, Clement Delcamp, Gerardo Ortiz, Frank Verstraete(参考訳) 一次元量子格子系における双対変換の生成と分類のための体系的レシピを提案する。 我々の構成は、(非)アーベル群によって記述されるだけでなく、より一般的な圏対称性を含む大域的対称性の役割を強調している。 これらの対称性は、対称性と可換なすべての対称作用素の代数を特徴づける融合圏の抽出を可能にする行列積作用素として実現することができる。 結合代数として知られるその明示的な実現は、融合圏上の加群圏によって分類される。 双対性は、双対ハミルトニアンと同様に、結合代数の双対実現をもたらす2つの異なる加群圏によって定義される。 双対モデルの対称性は一般に異なるが、分類学的モリタ同値を満たす。 我々のカテゴリー的アプローチの重要な新規性は、ヒルベルト空間のレベルで双対結合代数を解釈する行列積作用素の明示的な構成であり、一般に局所順序作用素を非局所弦次作用素に写像する。 我々は、kramers-wannier、jordan-wigner、 kennedy-tasaki、irf-vertex対応のような既知の双対性に対するこのアプローチ、$t$-$j_z$チェーンモデルの新しい双対性、エキゾチックなhaagerup対称性を持つモデルにおける双対性を説明する。 最後に,高次元への一般化について述べる。

We present a systematic recipe for generating and classifying duality transformations in one-dimensional quantum lattice systems. Our construction emphasizes the role of global symmetries, including those described by (non)-abelian groups but also more general categorical symmetries. These symmetries can be realized as matrix product operators which allow the extraction of a fusion category that characterizes the algebra of all symmetric operators commuting with the symmetry. Known as the bond algebra, its explicit realizations are classified by module categories over the fusion category. A duality is then defined by a pair of distinct module categories giving rise to dual realizations of the bond algebra, as well as dual Hamiltonians. Symmetries of dual models are in general distinct but satisfy a categorical Morita equivalence. A key novelty of our categorical approach is the explicit construction of matrix product operators that intertwine dual bond algebra realizations at the level of the Hilbert space, and in general map local order operators to non-local string-order operators. We illustrate this approach for known dualities such as Kramers-Wannier, Jordan-Wigner, Kennedy-Tasaki and the IRF-vertex correspondence, a new duality of the $t$-$J_z$ chain model, and dualities in models with the exotic Haagerup symmetry. Finally, we comment on generalizations to higher dimensions.
翻訳日:2023-05-12 19:16:27 公開日:2023-05-11
# 角度を先行しない深い回転補正

Deep Rotation Correction without Angle Prior ( http://arxiv.org/abs/2207.03054v2 )

ライセンス: Link先を確認
Lang Nie, Chunyu Lin, Kang Liao, Shuaicheng Liu, Yao Zhao(参考訳) プロの撮影スキルと十分な撮影時間が備わっているわけではないし、撮影された画像の傾きも時々ある。 本稿では,回転角が不明な条件下で,高いコンテンツ忠実度で自動的に傾きを補正する,回転補正という新しい実用的課題を提案する。 このタスクは画像編集アプリケーションに簡単に統合でき、ユーザーは手動操作なしで回転した画像を修正できる。 この目的のために、我々はニューラルネットワークを利用して、傾斜した画像を知覚的に水平に歪めることができる光学フローを予測する。 しかし、特に大角傾斜画像の場合、単一の画像からの画素単位の光学フロー推定は極めて不安定である。 その強靭性を高めるために,頑健な弾性ワープを形成するための簡易かつ効果的な予測戦略を提案する。 特に,まずメッシュ変形を推し進めて,より堅牢な初期光学フローに変換する。 次に,残差光学フローを推定し,画素方向の変形の柔軟性をネットワークに与え,傾斜画像の詳細をさらに補正する。 評価ベンチマークを確立し、学習フレームワークを訓練するために、総合的な回転補正データセットをシーンの多様性と回転角度で提示する。 広範囲にわたる実験により,事前の角度がなくても,このアルゴリズムが先行する他の最先端ソリューションよりも優れていることが証明された。 コードとデータセットはhttps://github.com/nie-lang/RotationCorrectionで公開されている。

Not everybody can be equipped with professional photography skills and sufficient shooting time, and there can be some tilts in the captured images occasionally. In this paper, we propose a new and practical task, named Rotation Correction, to automatically correct the tilt with high content fidelity in the condition that the rotated angle is unknown. This task can be easily integrated into image editing applications, allowing users to correct the rotated images without any manual operations. To this end, we leverage a neural network to predict the optical flows that can warp the tilted images to be perceptually horizontal. Nevertheless, the pixel-wise optical flow estimation from a single image is severely unstable, especially in large-angle tilted images. To enhance its robustness, we propose a simple but effective prediction strategy to form a robust elastic warp. Particularly, we first regress the mesh deformation that can be transformed into robust initial optical flows. Then we estimate residual optical flows to facilitate our network the flexibility of pixel-wise deformation, further correcting the details of the tilted images. To establish an evaluation benchmark and train the learning framework, a comprehensive rotation correction dataset is presented with a large diversity in scenes and rotated angles. Extensive experiments demonstrate that even in the absence of the angle prior, our algorithm can outperform other state-of-the-art solutions requiring this prior. The code and dataset are available at https://github.com/nie-lang/RotationCorrection.
翻訳日:2023-05-12 19:08:59 公開日:2023-05-11
# ライン上のコンセンサス:分散シフトによるニューラルネットワークの性能予測

Agreement-on-the-Line: Predicting the Performance of Neural Networks under Distribution Shift ( http://arxiv.org/abs/2206.13089v2 )

ライセンス: Link先を確認
Christina Baek, Yiding Jiang, Aditi Raghunathan, Zico Kolter(参考訳) ミラーらは最近、oodベンチマークにおいてモデルの分布内精度 (id) が、その分布外精度 (ood) と強い線形相関を持つことを示した("accuracy-on-the-line")。 モデル選択に有用なツール(つまり、最高のOODを実行する可能性が最も高いモデルは、最高のID精度を持つモデルである)であるが、この事実はラベル付きOOD検証セットにアクセスせずに実際のOOD性能を推定するのに役立ちません。 本稿では,類似するが驚くべき現象として,ニューラルネットワークの分類器のペア間の一致も示している: 精度が維持されるたびに,任意の2組のニューラルネットワーク(潜在的に異なるアーキテクチャを持つ)の予測間のood合意も,そのid合意と強い線形相関を観測する。 さらに,OOD対ID契約の傾きと偏りがOOD対IDの精度と密接に一致していることが観察された。 この現象はアグリーメント・オン・ザ・ラインと呼ばれており、ラベル付きデータがないと、oodアグリーメントはラベル付きデータだけで推定できるため、分類器のood精度を予測することができる。 予測アルゴリズムは,ライン上の一致が保持されるシフトと,精度がライン上でない場合の両方において,従来の手法よりも優れています。 この現象はまた、ディープニューラルネットワークに対する新たな洞察を与えている: 精度のオン・ザ・ラインとは異なり、コンセンサス・オン・ザ・ラインはニューラルネットワーク分類器のみを保持するように見える。

Recently, Miller et al. showed that a model's in-distribution (ID) accuracy has a strong linear correlation with its out-of-distribution (OOD) accuracy on several OOD benchmarks -- a phenomenon they dubbed ''accuracy-on-the-line''. While a useful tool for model selection (i.e., the model most likely to perform the best OOD is the one with highest ID accuracy), this fact does not help estimate the actual OOD performance of models without access to a labeled OOD validation set. In this paper, we show a similar but surprising phenomenon also holds for the agreement between pairs of neural network classifiers: whenever accuracy-on-the-line holds, we observe that the OOD agreement between the predictions of any two pairs of neural networks (with potentially different architectures) also observes a strong linear correlation with their ID agreement. Furthermore, we observe that the slope and bias of OOD vs ID agreement closely matches that of OOD vs ID accuracy. This phenomenon, which we call agreement-on-the-line, has important practical applications: without any labeled data, we can predict the OOD accuracy of classifiers}, since OOD agreement can be estimated with just unlabeled data. Our prediction algorithm outperforms previous methods both in shifts where agreement-on-the-line holds and, surprisingly, when accuracy is not on the line. This phenomenon also provides new insights into deep neural networks: unlike accuracy-on-the-line, agreement-on-the-line appears to only hold for neural network classifiers.
翻訳日:2023-05-12 19:08:35 公開日:2023-05-11
# 中心力による連続変数の絡み合い:量子質量間の重力への応用

Continuous-Variable Entanglement through Central Forces: Application to Gravity between Quantum Masses ( http://arxiv.org/abs/2206.12897v3 )

ライセンス: Link先を確認
Ankit Kumar, Tanjung Krisnanda, P. Arumugam, and Tomasz Paterek(参考訳) 近接する2つの量子質量間の重力相互作用を精密に研究するための完全な方法について述べる。 これらの質量の変位は、その中心間の最初の分離よりもはるかに小さいため、変位-分離比は重力ポテンシャルを拡大できる自然なパラメータである。 このような実験における絡み合いは、系が非ガウス状態へと発展するとき、つまりポテンシャルが少なくとも立方項まで拡張されるときのみ、初期相対運動量に敏感であることを示す。 位置モメンタム相関の主要因としての力勾配の役割が示された。 エンタングルメントゲインに対する閉形式表現を確立し,立方項からの寄与は運動量に比例し,四次項からの寄与は運動量に比例することを示した。 量子情報の観点から、結果は非ガウス的絡み合いの運動量として応用される。 我々の手法は汎用性があり、任意の順序に拡張された任意の中心的相互作用に適用できる。

We describe a complete method for a precise study of gravitational interaction between two nearby quantum masses. Since the displacements of these masses are much smaller than the initial separation between their centers, the displacement-to-separation ratio is a natural parameter in which the gravitational potential can be expanded. We show that entanglement in such experiments is sensitive to initial relative momentum only when the system evolves into non-Gaussian states, i.e., when the potential is expanded at least up to the cubic term. A pivotal role of force gradient as the dominant contributor to position-momentum correlations is demonstrated. We establish a closed-form expression for the entanglement gain, which shows that the contribution from the cubic term is proportional to momentum and from the quartic term is proportional to momentum squared. From a quantum information perspective, the results find applications as a momentum witness of non-Gaussian entanglement. Our methods are versatile and apply to any number of central interactions expanded to any order.
翻訳日:2023-05-12 19:07:56 公開日:2023-05-11
# 効果的なリスク感応強化学習:反復cvarと最悪パス

Provably Efficient Risk-Sensitive Reinforcement Learning: Iterated CVaR and Worst Path ( http://arxiv.org/abs/2206.02678v2 )

ライセンス: Link先を確認
Yihan Du, Siwei Wang, Longbo Huang(参考訳) 本稿では,各段階における報酬の尾の最大化を目標とし,各段階における破滅的な状況に陥るリスクを厳格に制御することを目的とした,新たなエピソード型リスク感応型強化学習(RL)問題であるIterated CVaR RLについて検討する。 この定式化は、自律運転、臨床治療計画、ロボット工学など、意思決定プロセスを通して強いリスク回避を要求する現実世界のタスクに適用できる。 CVaR RLに基づく2つの性能指標,すなわちレジスト最小化とベストポリシー同定について検討する。 いずれの指標も,効率的なアルゴリズムであるCVaR-RMとCVaR-BPIを設計し,各エピソード数に対してほぼ一致する上界と下界を提供する。 また,最小累積報酬の最大化を目的とした反復CVaR RL(Worst Path RL)の興味深い制限事例についても検討した。 ワーストパス RL に対して,定数な上界と下界を持つ効率的なアルゴリズムを提案する。 最後に, CVaRの値関数シフトによる変化と, 歪んだ訪問分布による後悔を分解する手法は, 新規であり, 他のリスクに敏感なRL問題にも適用できる。

In this paper, we study a novel episodic risk-sensitive Reinforcement Learning (RL) problem, named Iterated CVaR RL, which aims to maximize the tail of the reward-to-go at each step, and focuses on tightly controlling the risk of getting into catastrophic situations at each stage. This formulation is applicable to real-world tasks that demand strong risk avoidance throughout the decision process, such as autonomous driving, clinical treatment planning and robotics. We investigate two performance metrics under Iterated CVaR RL, i.e., Regret Minimization and Best Policy Identification. For both metrics, we design efficient algorithms ICVaR-RM and ICVaR-BPI, respectively, and provide nearly matching upper and lower bounds with respect to the number of episodes $K$. We also investigate an interesting limiting case of Iterated CVaR RL, called Worst Path RL, where the objective becomes to maximize the minimum possible cumulative reward. For Worst Path RL, we propose an efficient algorithm with constant upper and lower bounds. Finally, our techniques for bounding the change of CVaR due to the value function shift and decomposing the regret via a distorted visitation distribution are novel, and can find applications in other risk-sensitive RL problems.
翻訳日:2023-05-12 19:07:40 公開日:2023-05-11
# VLCDoC:クロスモーダル文書分類のための視覚言語コントラスト事前学習モデル

VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal Document Classification ( http://arxiv.org/abs/2205.12029v3 )

ライセンス: Link先を確認
Souhail Bakkali, Zuheng Ming, Mickael Coustaty, Mar\c{c}al Rusi\~nol, Oriol Ramos Terrades(参考訳) ドキュメントデータからのマルチモーダル学習は最近、学習可能な下流タスクに先行して意味的に意味のある機能を事前トレーニングできるため、大きな成功を収めている。 本稿では,モダリティ内およびモダリティ間関係を考慮し,言語と視覚の相互表現を学習し,文書分類問題にアプローチする。 異なるモダリティの機能を結合表現空間にマージする代わりに、提案手法は高レベルの相互作用を活用し、モダリティ内外における効果的な注意の流れから関連する意味情報を学習する。 提案した学習目的は,タスクごとの類似度分布を正のサンプル対を縮合し,かつ共同表現空間内の負の対を同時に比較することにより,モダリティ内アライメントタスクとモダリティ間アライメントタスクの間に工夫される。 公開文書分類データセットに関する広範囲な実験により,本モデルの有効性と汎用性が実証された。

Multimodal learning from document data has achieved great success lately as it allows to pre-train semantically meaningful features as a prior into a learnable downstream task. In this paper, we approach the document classification problem by learning cross-modal representations through language and vision cues, considering intra- and inter-modality relationships. Instead of merging features from different modalities into a joint representation space, the proposed method exploits high-level interactions and learns relevant semantic information from effective attention flows within and across modalities. The proposed learning objective is devised between intra- and inter-modality alignment tasks, where the similarity distribution per task is computed by contracting positive sample pairs while simultaneously contrasting negative ones in the joint representation space}. Extensive experiments on public document classification datasets demonstrate the effectiveness and the generality of our model on low-scale and large-scale datasets.
翻訳日:2023-05-12 19:07:15 公開日:2023-05-11
# 分布変換に基づく情報照合

Distributional Transform Based Information Reconciliation ( http://arxiv.org/abs/2204.08891v2 )

ライセンス: Link先を確認
Micael Andrade Dias, Francisco Marcos de Assis(参考訳) 本稿では,分散変換を用いた連続可変QKDのための情報調整プロトコルを提案する。 本研究では,コプラと情報理論のツールを組み合わせることで,ガウス変調CVQKDプロトコルに対して,独立対称ベルヌーイビットを抽出する手法を提案する。 ホモダイン測定とヘテロダイン測定の両方における最大和解効率の式を導出し,最後には信号対雑音比 -3.6 db 以下で0.9 以上の効率で達成可能とした。

In this paper, we present an information reconciliation protocol designed for Continuous-Variable QKD using the Distributional Transform. By combining tools from copula and information theory, we present a method for extracting independent symmetric Bernoulli bits for Gaussian-modulated CVQKD protocols, which we called the Distributional Transform Expansion (DTE). We derived the expressions for the maximum reconciliation efficiency for both homodyne and heterodyne measurements, which, for the last, is achievable with an efficiency greater than 0.9 at a signal-to-noise ratio lower than -3.6 dB.
翻訳日:2023-05-12 19:05:52 公開日:2023-05-11
# トランスフォーマーに基づく自然言語処理手法による訴訟書類間の類似性の分析

Analysing similarities between legal court documents using natural language processing approaches based on Transformers ( http://arxiv.org/abs/2204.07182v3 )

ライセンス: Link先を確認
Raphael Souza de Oliveira and Erick Giovani Sperandio Nascimento(参考訳) 最近の人工知能(ai)の進歩は、自然言語処理(nlp)領域における複雑な問題を解決するために有望な結果を活用し、法的領域における司法手続の迅速な解決に役立つ重要なツールとなっている。 本研究は,ブラジルの司法制度における法的手続のケーススタディに,トランスフォーマーアーキテクチャに基づく6つのNLP技術を適用することにより,推論グループで達成可能な司法文書間の類似度を検出することを目的とする。 nlpトランスフォーマーのモデル(bert、gpt-2、roberta)はブラジルのポルトガル語の汎用コーパスを使用して事前訓練され、その後210,000の法的手続きを用いて法的な部門向けに微調整され、専門化された。 各法的文書のベクトル表現は、その埋め込みに基づいて計算され、訴訟の集団化に用いられ、集団の要素と遠心部との間の距離のコサインに基づいて各モデルの質を計算した。 我々は、トランスフォーマーに基づくモデルは従来のnlp技術よりも優れた性能を示し、ブラジルポルトガル語に特化したロバータモデルは最高の結果を示していることに気付いた。 この手法は、異なる言語に対する他のケーススタディにも適用可能であり、法律分野に適用されたNLPの領域における最先端の技術の進歩を可能にする。

Recent advances in Artificial Intelligence (AI) have leveraged promising results in solving complex problems in the area of Natural Language Processing (NLP), being an important tool to help in the expeditious resolution of judicial proceedings in the legal area. In this context, this work targets the problem of detecting the degree of similarity between judicial documents that can be achieved in the inference group, by applying six NLP techniques based on the transformers architecture to a case study of legal proceedings in the Brazilian judicial system. The NLP transformer-based models, namely BERT, GPT-2 and RoBERTa, were pre-trained using a general purpose corpora of the Brazilian Portuguese language, and then were fine-tuned and specialised for the legal sector using 210,000 legal proceedings. Vector representations of each legal document were calculated based on their embeddings, which were used to cluster the lawsuits, calculating the quality of each model based on the cosine of the distance between the elements of the group to its centroid. We noticed that models based on transformers presented better performance when compared to previous traditional NLP techniques, with the RoBERTa model specialised for the Brazilian Portuguese language presenting the best results. This methodology can be also applied to other case studies for different languages, making it possible to advance in the current state of the art in the area of NLP applied to the legal sector.
翻訳日:2023-05-12 19:05:42 公開日:2023-05-11
# ランダム森林との共分散回帰

Covariance regression with random forests ( http://arxiv.org/abs/2209.08173v3 )

ライセンス: Link先を確認
Cansu Alakus, Denis Larocque, Aurelie Labbe(参考訳) 共変量に基づく多変量応答ベクトルの要素間の条件共変や相関を捉えることは、神経科学、疫学、生医学など様々な分野において重要である。 本研究では,ランダムフォレストフレームワークを用いて多変量応答の共分散行列を推定するために,ランダムフォレストとの共分散回帰(covregrf)と呼ばれる新しい手法を提案する。 ランダムフォレストツリーは、子ノードのサンプル共分散行列推定値の違いを最大化するために特別に設計された分割ルールで構築される。 また,共変量のサブセットの部分的効果に対する意義試験も提案する。 本研究では,提案手法が正確な共分散行列推定を提供し,タイプ1の誤差が十分に制御されていることを示すシミュレーション実験を行い,提案手法と意義試験の性能評価を行った。 また,提案法を甲状腺疾患データに適用した。 CovRegRF は CRAN 上の R パッケージで実装されている。

Capturing the conditional covariances or correlations among the elements of a multivariate response vector based on covariates is important to various fields including neuroscience, epidemiology and biomedicine. We propose a new method called Covariance Regression with Random Forests (CovRegRF) to estimate the covariance matrix of a multivariate response given a set of covariates, using a random forest framework. Random forest trees are built with a splitting rule specially designed to maximize the difference between the sample covariance matrix estimates of the child nodes. We also propose a significance test for the partial effect of a subset of covariates. We evaluate the performance of the proposed method and significance test through a simulation study which shows that the proposed method provides accurate covariance matrix estimates and that the Type-1 error is well controlled. An application of the proposed method to thyroid disease data is also presented. CovRegRF is implemented in a freely available R package on CRAN.
翻訳日:2023-05-12 18:59:27 公開日:2023-05-11
# トポロジー摂動に対するグラフ神経拡散のロバスト性について

On the Robustness of Graph Neural Diffusion to Topology Perturbations ( http://arxiv.org/abs/2209.07754v2 )

ライセンス: Link先を確認
Yang Song, Qiyu Kang, Sijie Wang, Zhao Kai, Wee Peng Tay(参考訳) グラフ上の神経拡散はグラフニューラルネットワークの新しいクラスであり、近年注目を集めている。 グラフニューラルネットワーク(GNN)の共通ハードルに対処するグラフニューラル偏微分方程式(PDE)の能力、例えば過度なスムーシングやボトルネックの問題などについて研究されているが、敵の攻撃に対する堅牢性は示されていない。 本研究では,グラフニューラルPDEのロバスト性について検討する。 グラフニューラルPDEは、他のGNNと比較してトポロジの摂動に対して本質的に堅牢であることを示す。 グラフトポロジー摂動下での熱半群の安定性を利用してこの現象の洞察を与える。 グラフ拡散演算子について検討し,既存のグラフニューラルPDEに関連付ける。 さらに,新しい頑健なGNNを定義可能なグラフニューラルPDEフレームワークを提案する。 我々は,新しいモデルが複数のベンチマークデータセット上で同等の最先端性能を達成することを検証した。

Neural diffusion on graphs is a novel class of graph neural networks that has attracted increasing attention recently. The capability of graph neural partial differential equations (PDEs) in addressing common hurdles of graph neural networks (GNNs), such as the problems of over-smoothing and bottlenecks, has been investigated but not their robustness to adversarial attacks. In this work, we explore the robustness properties of graph neural PDEs. We empirically demonstrate that graph neural PDEs are intrinsically more robust against topology perturbation as compared to other GNNs. We provide insights into this phenomenon by exploiting the stability of the heat semigroup under graph topology perturbations. We discuss various graph diffusion operators and relate them to existing graph neural PDEs. Furthermore, we propose a general graph neural PDE framework based on which a new class of robust GNNs can be defined. We verify that the new model achieves comparable state-of-the-art performance on several benchmark datasets.
翻訳日:2023-05-12 18:59:10 公開日:2023-05-11
# 法律領域における事前学習型言語モデル:インド法を事例として

Pre-trained Language Models for the Legal Domain: A Case Study on Indian Law ( http://arxiv.org/abs/2209.06049v4 )

ライセンス: Link先を確認
Shounak Paul, Arpan Mandal, Pawan Goyal and Saptarshi Ghosh(参考訳) 法律分野におけるNLPは、トランスフォーマーベースの事前訓練言語モデル(PLM)が法的テキストで事前訓練されるようになり、成功している。 ヨーロッパとアメリカの法律上のテキストで訓練されたplmは一般に公開されているが、インドなど他のドメイン(国)からの法的文書には多くの特徴がある。 各国における法律NLP適用の急増に伴い、各国の法的文書に照らして、これらのLMを事前訓練する必要性が高まっている。 本研究では,インド法域における事前訓練について検討する。 私たちは、インドの法律データに基づいて、人気のある2つの法的 PLM(LegalBERT と CaseLawBERT)を再訓練し、インドの法文に基づく語彙でモデルをゼロからトレーニングします。 我々は、これらのPLMを3つの法的NLPタスク – 事実からの違法な特定、裁判所判決文書のセマンティックセグメンテーション、および控訴判決予測 – に対して、インドと非インド(EU、英国)両方のデータセットに適用する。 提案手法は,新たなドメイン(インド文)の性能向上だけでなく,オリジナルドメイン(ヨーロッパ文,イギリス文)の性能向上にも寄与する。 また,これらの異なるPLMの質的比較のための説明可能性実験を行った。

NLP in the legal domain has seen increasing success with the emergence of Transformer-based Pre-trained Language Models (PLMs) pre-trained on legal text. PLMs trained over European and US legal text are available publicly; however, legal text from other domains (countries), such as India, have a lot of distinguishing characteristics. With the rapidly increasing volume of Legal NLP applications in various countries, it has become necessary to pre-train such LMs over legal text of other countries as well. In this work, we attempt to investigate pre-training in the Indian legal domain. We re-train (continue pre-training) two popular legal PLMs, LegalBERT and CaseLawBERT, on Indian legal data, as well as train a model from scratch with a vocabulary based on Indian legal text. We apply these PLMs over three benchmark legal NLP tasks -- Legal Statute Identification from facts, Semantic Segmentation of Court Judgment Documents, and Court Appeal Judgment Prediction -- over both Indian and non-Indian (EU, UK) datasets. We observe that our approach not only enhances performance on the new domain (Indian texts) but also over the original domain (European and UK texts). We also conduct explainability experiments for a qualitative comparison of all these different PLMs.
翻訳日:2023-05-12 18:58:54 公開日:2023-05-11
# 知性を生み出す - IQとMLベンチマークにおける倫理的価値

Making Intelligence: Ethical Values in IQ and ML Benchmarks ( http://arxiv.org/abs/2209.00692v4 )

ライセンス: Link先を確認
Borhane Blili-Hamelin and Leif Hancox-Li(参考訳) 近年、ML研究者は機械学習(ML)ベンチマークとデータセットの定義と改善に力を入れている。 並行して、データセットの作成とml研究の倫理に関する批判的なレンズを訓練する者もいる。 本稿では,MLベンチマークの設計に関する「技術的」あるいは「科学的」な判断による倫理の絡み合いを強調する。 私たちの出発点は、人間のインテリジェンスベンチマークとMLベンチマークの間に、見過ごされた構造的類似点が複数存在することです。 どちらのベンチマークも、インテリジェンスに関連するタスクに関するパフォーマンスを記述、評価、比較するための標準を設定している。 私たちは、iqベンチマークと社会科学の厚い概念についてフェミニスト哲学の視点を用いて、mlベンチマークを作成する際に価値を考慮し、文書化する必要があると主張する。 価値中立なベンチマークを作成することで、この選択を避けることは不可能であり、望ましくない。 最後に,MLベンチマーク研究倫理と倫理審査の実践的勧告について概説する。

In recent years, ML researchers have wrestled with defining and improving machine learning (ML) benchmarks and datasets. In parallel, some have trained a critical lens on the ethics of dataset creation and ML research. In this position paper, we highlight the entanglement of ethics with seemingly ``technical'' or ``scientific'' decisions about the design of ML benchmarks. Our starting point is the existence of multiple overlooked structural similarities between human intelligence benchmarks and ML benchmarks. Both types of benchmarks set standards for describing, evaluating, and comparing performance on tasks relevant to intelligence -- standards that many scholars of human intelligence have long recognized as value-laden. We use perspectives from feminist philosophy of science on IQ benchmarks and thick concepts in social science to argue that values need to be considered and documented when creating ML benchmarks. It is neither possible nor desirable to avoid this choice by creating value-neutral benchmarks. Finally, we outline practical recommendations for ML benchmark research ethics and ethics review.
翻訳日:2023-05-12 18:58:13 公開日:2023-05-11
# オフザシェルフ画像生成とキャプションを用いた視覚モデルにおけるバグ発見

Discovering Bugs in Vision Models using Off-the-shelf Image Generation and Captioning ( http://arxiv.org/abs/2208.08831v2 )

ライセンス: Link先を確認
Olivia Wiles, Isabela Albuquerque, Sven Gowal(参考訳) 現実の設定下でビジョンモデルの失敗を自動的に発見することは、まだ未解決の課題である。 この研究は、大量のデータに基づいてトレーニングされたオフザシェルフ、大規模、画像からテキスト、およびテキストから画像へのモデルがどのように活用され、そのような障害を自動的に見つけることができるかを示す。 本質的には、条件付きテキストから画像への生成モデルは、接地ラベルが与えられた大量の合成だが現実的な入力を生成するために使用される。 誤分類された入力はクラスタ化され、各クラスタを記述するためにキャプションモデルが使用される。 各クラスタの説明は、より多くの入力を生成し、特定のクラスタが期待以上の障害を引き起こすかどうかを評価するために使われる。 このパイプラインを使用して、imagenetでトレーニングされた分類器を効果的に問合せして、特定の障害ケースを見つけ、スプリアス相関を見つけることができることを実証する。 また、特定の分類器アーキテクチャをターゲットとした逆データセットを生成するアプローチをスケールできることも示しています。 この研究は、ビジョンモデルのバグを自動的にオープンに発見する大規模な生成モデルの有用性を示す概念実証として機能する。 このアプローチに関連するいくつかの制限と落とし穴についても述べています。

Automatically discovering failures in vision models under real-world settings remains an open challenge. This work demonstrates how off-the-shelf, large-scale, image-to-text and text-to-image models, trained on vast amounts of data, can be leveraged to automatically find such failures. In essence, a conditional text-to-image generative model is used to generate large amounts of synthetic, yet realistic, inputs given a ground-truth label. Misclassified inputs are clustered and a captioning model is used to describe each cluster. Each cluster's description is used in turn to generate more inputs and assess whether specific clusters induce more failures than expected. We use this pipeline to demonstrate that we can effectively interrogate classifiers trained on ImageNet to find specific failure cases and discover spurious correlations. We also show that we can scale the approach to generate adversarial datasets targeting specific classifier architectures. This work serves as a proof-of-concept demonstrating the utility of large-scale generative models to automatically discover bugs in vision models in an open-ended manner. We also describe a number of limitations and pitfalls related to this approach.
翻訳日:2023-05-12 18:57:58 公開日:2023-05-11
# FedOBD:フェデレーションラーニングによる大規模ニューラルネットワークの効率的なトレーニングのための機会論的ブロックドロップアウト

FedOBD: Opportunistic Block Dropout for Efficiently Training Large-scale Neural Networks through Federated Learning ( http://arxiv.org/abs/2208.05174v4 )

ライセンス: Link先を確認
Yuanyuan Chen, Zichen Chen, Pengcheng Wu, Han Yu(参考訳) 大規模ニューラルネットワークは相当な表現力を持っている。 工業アプリケーションにおける複雑な学習タスクに適している。 しかしながら、大規模モデルは、現在の連合学習(fl)パラダイムの下で、トレーニングに重大な課題をもたらす。 効率的なFLトレーニングのための既存のアプローチは、しばしばモデルパラメータのドロップアウトを利用する。 しかし、個々のモデルパラメータを操作することは、大規模FLモデルを訓練する際の通信オーバーヘッドを有意義に削減するだけでなく、最近の研究で示されているように、スケーリングの取り組みやモデル性能にも寄与する可能性がある。 これらの問題に対処するため,FedOBD(Federated Opportunistic Block Dropout)アプローチを提案する。 鍵となる新規性は、大規模モデルをセマンティックブロックに分解し、FL参加者が、モデルのトレーニングにおいて重要と思われる量子化されたブロックをFLサーバにアップロードして集約できるようにすることである。 複数の実世界のデータセットに基づく4つの最先端アプローチに対するfeedobdの評価実験は、最高のパフォーマンスのベースラインアプローチと比較して、全体の通信オーバーヘッドを88%以上削減し、最も高いテスト精度を達成していることを示している。 我々の知る限りでは、FedOBDは個々のパラメータレベルではなくブロックレベルでFLモデルのドロップアウトを実行するための最初のアプローチである。

Large-scale neural networks possess considerable expressive power. They are well-suited for complex learning tasks in industrial applications. However, large-scale models pose significant challenges for training under the current Federated Learning (FL) paradigm. Existing approaches for efficient FL training often leverage model parameter dropout. However, manipulating individual model parameters is not only inefficient in meaningfully reducing the communication overhead when training large-scale FL models, but may also be detrimental to the scaling efforts and model performance as shown by recent research. To address these issues, we propose the Federated Opportunistic Block Dropout (FedOBD) approach. The key novelty is that it decomposes large-scale models into semantic blocks so that FL participants can opportunistically upload quantized blocks, which are deemed to be significant towards training the model, to the FL server for aggregation. Extensive experiments evaluating FedOBD against four state-of-the-art approaches based on multiple real-world datasets show that it reduces the overall communication overhead by more than 88% compared to the best performing baseline approach, while achieving the highest test accuracy. To the best of our knowledge, FedOBD is the first approach to perform dropout on FL models at the block level rather than at the individual parameter level.
翻訳日:2023-05-12 18:57:39 公開日:2023-05-11
# 近似古典的誤り訂正遷移が支配する量子回路における普遍的クロスオーバー

A universal crossover in quantum circuits governed by a proximate classical error correction transition ( http://arxiv.org/abs/2208.02217v2 )

ライセンス: Link先を確認
Anasuya Lyons, Soonwon Choi, Ehud Altman(参考訳) 我々は,最近発見された量子回路の位相遷移における量子絡み合いの役割を明らかにするために,半古典回路モデルを定式化した。 出発点として、最寄りの古典ゲートが消去誤差によって中断されたランダム回路モデルを定義する。 量子設定と類似して、このシステムは、出力状態の古典的な情報エントロピーが消滅する上の臨界誤差率で浄化遷移を行う。 この位相遷移は有向パーコレーション普遍性クラスにあり、エントロピーがゼロであることは力学の吸収状態であるという事実と一致し、古典的な回路はエントロピーを生成できない。 誤差の存在下で量子ゲートの任意に小さい密度を加えると、吸収状態を破壊することによって遷移が排除される: 量子ゲートは内部絡み合いを生成し、エラーによって古典エントロピーに効果的に変換できる。 半古典回路の有効モデルにおける不安定性の普遍的性質について述べる。 本モデルでは,古典回路と量子回路における情報ダイナミクスの大きな違いを浮き彫りにする。

We formulate a semi-classical circuit model to clarify the role of quantum entanglement in the recently discovered encoding phase transitions in quantum circuits with measurements. As a starting point we define a random circuit model with nearest neighbor classical gates interrupted by erasure errors. In analogy with the quantum setting, this system undergoes a purification transition at a critical error rate above which the classical information entropy in the output state vanishes. We show that this phase transition is in the directed percolation universality class, consistent with the fact that having zero entropy is an absorbing state of the dynamics; this classical circuit cannot generate entropy. Adding an arbitrarily small density of quantum gates in the presence of errors eliminates the transition by destroying the absorbing state: the quantum gates generate internal entanglement, which can be effectively converted to classical entropy by the errors. We describe the universal properties of this instability in an effective model of the semi-classical circuit. Our model highlights the crucial differences between information dynamics in classical and quantum circuits.
翻訳日:2023-05-12 18:56:55 公開日:2023-05-11
# ポジトロニウムの異常状態の性質

Properties of the Anomalous States of Positronium ( http://arxiv.org/abs/2207.05725v2 )

ライセンス: Link先を確認
Chris W. Patterson(参考訳) 電子と陽電子が電磁ポテンシャルを介して相互作用する二体ディラック方程式に異常な境界状態解が存在することが示されている。 これらの異常解は核距離(フェルミ)で量子化された座標を持ち、ベーテ・サルペター方程式の単純な拡張で示されるように、通常の原子ポジトロニウム境界状態と直交する。 異常状態はニュートリノと対応する多くの性質を持つことが示されている。

It is shown that there are anomalous bound-state solutions to the two-body Dirac equation for an electron and positron interacting via an electromagnetic potential. These anomalous solutions have quantized coordinates at nuclear distances (fermi) and are orthogonal to the usual atomic positronium bound-states as shown by a simple extension of the Bethe-Salpeter equation. It is shown that the anomalous states have many properties which correspond to those of neutrinos.
翻訳日:2023-05-12 18:56:38 公開日:2023-05-11
# 注意を伴うマルチタスク学習に基づくビデオ異常検出

Multi-Task Learning based Video Anomaly Detection with Attention ( http://arxiv.org/abs/2210.07697v2 )

ライセンス: Link先を確認
Mohammad Baradaran and Robert Bergevin(参考訳) マルチタスク学習に基づくビデオ異常検出手法は、異なるブランチ内の複数のプロキシタスクを組み合わせて、異なる状況でビデオ異常を検出する。 既存のほとんどのメソッドは、すべての動作パターンを効果的にカバーするために補完的なタスクを結合しないか、オブジェクトのクラスを明示的に考慮していない。 上記の欠点に対処するために,相補的なプロキシタスクを組み合わせたマルチタスク学習に基づく新しい手法を提案する。 セマンティクスセグメンテーションと将来のフレーム予測タスクを1つのブランチで組み合わせ、オブジェクトクラスと一貫した動きパターンを学習し、それぞれの異常を同時に検出する。 第2のブランチでは,物体に注目する動き異常,動き方向,カメラからの物体の距離を検出するための注意機構をいくつか追加した。 その結果,提案手法は物体クラスを効果的に考慮し,上述の重要な要素に注目して動作を学習し,より正確な動作モデルとより優れた動作異常検出を実現する。 さらに,本手法が最先端手法よりも優れていることを示す。

Multi-task learning based video anomaly detection methods combine multiple proxy tasks in different branches to detect video anomalies in different situations. Most existing methods either do not combine complementary tasks to effectively cover all motion patterns, or the class of the objects is not explicitly considered. To address the aforementioned shortcomings, we propose a novel multi-task learning based method that combines complementary proxy tasks to better consider the motion and appearance features. We combine the semantic segmentation and future frame prediction tasks in a single branch to learn the object class and consistent motion patterns, and to detect respective anomalies simultaneously. In the second branch, we added several attention mechanisms to detect motion anomalies with attention to object parts, the direction of motion, and the distance of the objects from the camera. Our qualitative results show that the proposed method considers the object class effectively and learns motion with attention to the aforementioned important factors which results in a precise motion modeling and a better motion anomaly detection. Additionally, quantitative results show the superiority of our method compared with state-of-the-art methods.
翻訳日:2023-05-12 18:49:08 公開日:2023-05-11
# 単発読み出しのないキュービットのリアルタイム周波数推定

Real-time frequency estimation of a qubit without single-shot-readout ( http://arxiv.org/abs/2210.05542v2 )

ライセンス: Link先を確認
Inbar Zohar, Ben Haylock, Yoav Romach, Muhammad Junaid Arshad, Nir Halay, Niv Drucker, Rainer St\"ohr, Andrej Denisenko, Yonatan Cohen, Cristian Bonato and Amit Finkler(参考訳) 量子センサーは、量子アルゴリズムを用いて大きなダイナミックレンジでハイゼンベルクの感度限界を達成することができる。 適応位相推定アルゴリズム(PEA)は、単発読み取り(SSR)センサで高感度を実現することが証明された一例である。 しかし,非ssrセンサにおける適応型peaの使用は,測定のコントラストが低いため自明ではない。 PEAアルゴリズムにおける測定値の平均的性質を考慮に入れた標準的なアプローチは、'majority voting'に基づく手法を使用することである。 実装は容易であるが、測定結果のノイズにより誤りが生じやすい。 これらの誤りを低減するため、最近、バッチ選択による二項分布法が理論的に優れていることが示され、平均測定結果のあらゆる範囲が考慮された。 ここでは、二項分布アプローチを用いた非SSRセンサに、初めてリアルタイム非適応型PEAを適用する。 二項分布法の平均二乗誤差を,非ssrセンサとしてダイヤモンド中の窒素空白中心を用いた多数決法と比較した。 その結果,二項分布法は同じセンシング時間で精度が向上することが示唆された。 さらに、検知時間を短縮するため、読み出し位相を制御する適応アルゴリズムを提案し、その結果、測定基準セットを提案する。 適応プロトコルを追加することで、将来のリアルタイム実験における精度をさらに向上できることを示す。

Quantum sensors can potentially achieve the Heisenberg limit of sensitivity over a large dynamic range using quantum algorithms. The adaptive phase estimation algorithm (PEA) is one example that was proven to achieve such high sensitivities with single-shot readout (SSR) sensors. However, using the adaptive PEA on a non-SSR sensor is not trivial due to the low contrast nature of the measurement. The standard approach to account for the averaged nature of the measurement in this PEA algorithm is to use a method based on `majority voting'. Although it is easy to implement, this method is more prone to mistakes due to noise in the measurement. To reduce these mistakes, a binomial distribution technique from a batch selection was recently shown theoretically to be superior, as all ranges of outcomes from an averaged measurement are considered. Here we apply, for the first time, real-time non-adaptive PEA on a non-SSR sensor with the binomial distribution approach. We compare the mean square error of the binomial distribution method to the majority-voting approach using the nitrogen-vacancy center in diamond at ambient conditions as a non-SSR sensor. Our results suggest that the binomial distribution approach achieves better accuracy with the same sensing times. To further shorten the sensing time, we propose an adaptive algorithm that controls the readout phase and, therefore, the measurement basis set. We show by numerical simulation that adding the adaptive protocol can further improve the accuracy in a future real-time experiment.
翻訳日:2023-05-12 18:48:33 公開日:2023-05-11
# 知識グラフを用いた時間質問応答のための意味的フレームワークに基づくクエリ生成

Semantic Framework based Query Generation for Temporal Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2210.04490v3 )

ライセンス: Link先を確認
Wentao Ding, Hao Chen, Huayu Li, Yuzhong Qu(参考訳) 近年,知識グラフ(時間的KGQA)に対する時間的意図による事実質問への回答が注目されている。 時間的クエリの生成において、既存のKGQAメソッドは、イベント間の固有の接続が時間的に関連し、その能力を制限することができるという事実を無視している。 我々は,時間的制約の解釈を体系的に分析し,解釈構造を時間的制約の意味的枠組み,SF-TConsとして結論付ける。 提案手法は,検索プロセスがSF-TConsによって制限されるような,参照するエンティティの関連事実を探索することによってクエリグラフを生成する,時間的質問応答手法であるSF-TQAを提案する。 評価の結果,SF-TQAは知識グラフの異なる2つのベンチマークにおいて既存手法よりも優れていた。

Answering factual questions with temporal intent over knowledge graphs (temporal KGQA) attracts rising attention in recent years. In the generation of temporal queries, existing KGQA methods ignore the fact that some intrinsic connections between events can make them temporally related, which may limit their capability. We systematically analyze the possible interpretation of temporal constraints and conclude the interpretation structures as the Semantic Framework of Temporal Constraints, SF-TCons. Based on the semantic framework, we propose a temporal question answering method, SF-TQA, which generates query graphs by exploring the relevant facts of mentioned entities, where the exploring process is restricted by SF-TCons. Our evaluations show that SF-TQA significantly outperforms existing methods on two benchmarks over different knowledge graphs.
翻訳日:2023-05-12 18:48:09 公開日:2023-05-11
# 全文コンテンツを用いたベストセラー書籍の識別と識別

Using Full-Text Content to Characterize and Identify Best Seller Books ( http://arxiv.org/abs/2210.02334v2 )

ライセンス: Link先を確認
Giovana D. da Silva, Filipi N. Silva, Henrique F. de Arruda, B\'arbara C. e Souza, Luciano da F. Costa and Diego R. Amancio(参考訳) 芸術的な作品について、いくつかの視点から研究することができる。 本論文では,本書がベストセラーになるかどうかを予測するタスクを特に評価し,文学作品の観点からこの興味深い話題にアプローチする。 従来のアプローチと異なり,本の全文に着目し,可視化と分類の課題を検討した。 我々はSemAxisと線形判別分析を含むデータ構造と特性の予備的な探索に可視化を用いた。 そして, 定量的かつ客観的な結果を得るために, 様々な分類器を用いた。 このようなアプローチはデータセットとともに使用されました (i)1895年(明治28年)から1924年(大正13年)に刊行され、出版社週刊ベストセラーリストからベストセラーに選定された書籍 (二)同時期に刊行されたものの、そのリストには記載されていない文学作品。 提案手法との比較により,単語のバッグ・オブ・ワード表現とロジスティック回帰分類を組み合わした最良の結果が平均精度0.75に向上したことが明らかとなった。 このような結果から,テキストの全文のみを用いて,精度の高い書籍の成功を予測することは不可能であることが示唆された。 しかし,本研究では,文学作品の相対的成功につながる要因について考察した。

Artistic pieces can be studied from several perspectives, one example being their reception among readers over time. In the present work, we approach this interesting topic from the standpoint of literary works, particularly assessing the task of predicting whether a book will become a best seller. Dissimilarly from previous approaches, we focused on the full content of books and considered visualization and classification tasks. We employed visualization for the preliminary exploration of the data structure and properties, involving SemAxis and linear discriminant analyses. Then, to obtain quantitative and more objective results, we employed various classifiers. Such approaches were used along with a dataset containing (i) books published from 1895 to 1924 and consecrated as best sellers by the Publishers Weekly Bestseller Lists and (ii) literary works published in the same period but not being mentioned in that list. Our comparison of methods revealed that the best-achieved result - combining a bag-of-words representation with a logistic regression classifier - led to an average accuracy of 0.75 both for the leave-one-out and 10-fold cross-validations. Such an outcome suggests that it is unfeasible to predict the success of books with high accuracy using only the full content of the texts. Nevertheless, our findings provide insights into the factors leading to the relative success of a literary work.
翻訳日:2023-05-12 18:47:55 公開日:2023-05-11
# 熱力学極限における1次元量子系の自由エネルギーに対するサブポリノミカル時間アルゴリズム

A subpolynomial-time algorithm for the free energy of one-dimensional quantum systems in the thermodynamic limit ( http://arxiv.org/abs/2209.14989v2 )

ライセンス: Link先を確認
Hamza Fawzi, Omar Fawzi, Samuel O. Scalet(参考訳) 局所的、翻訳不変な1次元量子系の自由エネルギーを無限鎖サイズの熱力学極限で近似する古典的アルゴリズムを導入する。 これらの系に対する基底状態問題(すなわち、温度$T = 0$の自由エネルギー)は、量子コンピュータに対しても計算的に困難であると予想されるが、我々のアルゴリズムは、任意の固定温度$T > 0$で、すなわち、時間$O((\frac{1}{\varepsilon})^{c})$で、任意の定数$c > 0$で、$\varepsilon$は加算近似誤差である。 これまで最もよく知られたアルゴリズムは、$\frac{1}{\varepsilon}$の多項式であるランタイムを持っていた。 このアルゴリズムは、線形写像のスペクトル半径の計算に還元されるため、特に単純である。 この線型写像は非可換移動行列として解釈され、自由エネルギーの解析性と相関の減衰に関する結果を証明するために以前に研究されてきた。 また、この写像の対応する固有ベクトルはギブス状態の辺の近似を与え、量子系の様々な熱力学特性の計算を可能にすることを示す。

We introduce a classical algorithm to approximate the free energy of local, translation-invariant, one-dimensional quantum systems in the thermodynamic limit of infinite chain size. While the ground state problem (i.e., the free energy at temperature $T = 0$) for these systems is expected to be computationally hard even for quantum computers, our algorithm runs for any fixed temperature $T > 0$ in subpolynomial time, i.e., in time $O((\frac{1}{\varepsilon})^{c})$ for any constant $c > 0$ where $\varepsilon$ is the additive approximation error. Previously, the best known algorithm had a runtime that is polynomial in $\frac{1}{\varepsilon}$. Our algorithm is also particularly simple as it reduces to the computation of the spectral radius of a linear map. This linear map has an interpretation as a noncommutative transfer matrix and has been studied previously to prove results on the analyticity of the free energy and the decay of correlations. We also show that the corresponding eigenvector of this map gives an approximation of the marginal of the Gibbs state and thereby allows for the computation of various thermodynamic properties of the quantum system.
翻訳日:2023-05-12 18:47:20 公開日:2023-05-11
# 相互接触発見

Mutual Contact Discovery ( http://arxiv.org/abs/2209.12003v3 )

ライセンス: Link先を確認
Jaap-Henk Hoepman(参考訳) メッセージングサービスでは、新規ユーザーがコンタクト発見と呼ばれるプロセスを通じて、すでにそのサービスを使っている既存の連絡先を見つけることができる。 既存のユーザーも同様に、すでに連絡先リストにある新規ユーザーについて通知される。 これはプライバシーの問題を引き起こします: 連絡先発見を有効にすると、すでに連絡先リストに自分の番号を持っているサービスにいる人は、自分が参加したことを通知されます。 たとえその人物を知らない人でも、あるいはあなたが長い間別れた元同僚で、誰の連絡先の詳細をずっと前に削除したとしても。 そこで本稿では,ユーザ同士が(まだ)お互いの連絡先リストにある場合にのみ,お互いを発見できる相互接触発見プロトコルを提案する。 相互接触発見は、信頼できるハードウェアに頼らずに、従来の一方的なコンタクト発見よりも、よりプライバシーに優しい方法で実装できるという利点がある(例えば、サーバからソーシャルグラフを保護するなど)。

Messaging services allow new users to find existing contacts that already use that service through a process called contact discovery. Existing users are similarly informed of new users that are already on their contact list. This creates a privacy issue: when you join and enable contact discovery, anyone already on the service that has your number on their contact list gets notified that you joined. Even if you don't know that person, or if it is an ex or former colleague that you long parted with and whose contact details you deleted long ago. To solve this, we propose a mutual contact discovery protocol, that only allow users to discover each other when both are (still) in each other's contact list. Mutual contact discovery has the additional advantage that it can be implemented in a more privacy friendly fashion (e.g. protecting the social graph from the server) than traditional, one-sided contact discovery, without necessarily relying on trusted hardware.
翻訳日:2023-05-12 18:46:54 公開日:2023-05-11
# Gemino:ビデオ会議のための実用的でロバストなニューラル圧縮

Gemino: Practical and Robust Neural Compression for Video Conferencing ( http://arxiv.org/abs/2209.10507v3 )

ライセンス: Link先を確認
Vibhaalakshmi Sivaraman, Pantea Karimi, Vedantha Venkatapathy, Mehrdad Khani, Sadjad Fouladi, Mohammad Alizadeh, Fr\'edo Durand, Vivienne Sze(参考訳) ビデオ会議システムは、現在のビデオコーデックが極端に低ビットレートで動作できないため、ネットワーク状態が悪化するとユーザエクスペリエンスが低下する。 近年,顔のランドマーク情報などの各フレームのスパース表現を用いて,非常に低ビットレートでの音声ヘッドビデオの再構成が提案されている。 しかし、これらの手法は、呼び出しの途中で大きな動きや閉塞を伴うシナリオにおいて貧弱な再構成をもたらし、より高い解像度にスケールしない。 我々は,新しい高周波数条件超解像パイプラインに基づくビデオ会議用ニューラル圧縮システムgeminoを設計した。 Geminoは、単一の高解像度参照画像から抽出された情報に基づいて、高周波の詳細(皮膚のテクスチャ、毛髪など)を高めながら、ターゲットフレームの非常に低解像度バージョンをアップサンプリングする。 私たちは、異なる解像度でモデルの異なるコンポーネントを実行し、720pに匹敵する解像度にスケールできるマルチスケールアーキテクチャを使用し、モデルをパーソナライズして各人の特定の詳細を学習し、低ビットレートでより優れた忠実度を実現します。 我々は、WebRTCのオープンソースPython実装であるaiortc上にGeminoを実装し、Titan X GPU上で1024x1024の動画をリアルタイムで実行し、同じ知覚品質で従来のビデオコーデックよりも2.2-5倍低いビットレートを達成することを示す。

Video conferencing systems suffer from poor user experience when network conditions deteriorate because current video codecs simply cannot operate at extremely low bitrates. Recently, several neural alternatives have been proposed that reconstruct talking head videos at very low bitrates using sparse representations of each frame such as facial landmark information. However, these approaches produce poor reconstructions in scenarios with major movement or occlusions over the course of a call, and do not scale to higher resolutions. We design Gemino, a new neural compression system for video conferencing based on a novel high-frequency-conditional super-resolution pipeline. Gemino upsamples a very low-resolution version of each target frame while enhancing high-frequency details (e.g., skin texture, hair, etc.) based on information extracted from a single high-resolution reference image. We use a multi-scale architecture that runs different components of the model at different resolutions, allowing it to scale to resolutions comparable to 720p, and we personalize the model to learn specific details of each person, achieving much better fidelity at low bitrates. We implement Gemino atop aiortc, an open-source Python implementation of WebRTC, and show that it operates on 1024x1024 videos in real-time on a Titan X GPU, and achieves 2.2-5x lower bitrate than traditional video codecs for the same perceptual quality.
翻訳日:2023-05-12 18:46:40 公開日:2023-05-11
# 量子計算と復号化多要素量子計算

Oblivious Quantum Computation and Delegated Multiparty Quantum Computation ( http://arxiv.org/abs/2211.00962v4 )

ライセンス: Link先を確認
Masahito Hayashi(参考訳) 本稿では、入力量子ビットの秘密性と量子ゲートを識別するプログラムが要求される量子計算の計算結果に対して、暗黙の転送を必要とする新しい概念である暗黙の量子計算を提案する。 本研究では,量子テレポーテーションを利用した2サーバプロトコルを提案する。このプロトコルは,計算結果の送信に対する2サーバ(量子)オブリービング転送の単純な適用よりも,通信の複雑さを指数関数的に向上させる。 また,従来の通信のみを用いて,複数のユーザがサーバにマルチパーティ量子計算を依頼する多パーティ量子計算についても論じる。 本稿では,後者のタスクに対して2サーバプロトコルを提案する。

We propose a new concept, oblivious quantum computation, which requires performing oblivious transfer with respect to the computation outcome of the quantum computation, where the secrecy of the input qubits and the program to identify the quantum gates are required. Exploiting quantum teleportation, we propose a two-server protocol for this task, which realizes an exponential improvement for the communication complexity over the simple application of two-server (quantum) oblivious transfer to the sending of the computation result. Also, we discuss delegated multiparty quantum computation, in which, several users ask multiparty quantum computation to server(s) only using classical communications. We propose a two-server protocol for the latter task as well.
翻訳日:2023-05-12 18:40:00 公開日:2023-05-11
# 不完全市場の非フレキシブルマルチアセットヘッジ

Inflexible Multi-Asset Hedging of incomplete market ( http://arxiv.org/abs/2211.00948v2 )

ライセンス: Link先を確認
Ruochen Xiao and Qiaochu Feng and Ruxin Deng(参考訳) 完全な市場における仮定の下で訓練されたモデルは、通常不完全な市場では効果がない。 本稿では,不完全市場におけるヘッジ問題を,リスクファクター,不平等,離散取引日という3つの不完全性源で解決する。 確率的資産価格を記述するために,新しいジャンプ拡散モデルを提案する。 RNN, LSTM, Mogrifier-LSTM の3つの中立ネットワークを用いて, MSE Loss と Huber Loss のヘッジ戦略を実装・比較し, その結果, Mogrifier-LSTM は MSE と Huber Loss が最も高速なモデルとなった。

Models trained under assumptions in the complete market usually don't take effect in the incomplete market. This paper solves the hedging problem in incomplete market with three sources of incompleteness: risk factor, illiquidity, and discrete transaction dates. A new jump-diffusion model is proposed to describe stochastic asset prices. Three neutral networks, including RNN, LSTM, Mogrifier-LSTM are used to attain hedging strategies with MSE Loss and Huber Loss implemented and compared.As a result, Mogrifier-LSTM is the fastest model with the best results under MSE and Huber Loss.
翻訳日:2023-05-12 18:39:47 公開日:2023-05-11
# 多重攻撃による超スペクトル逆ロバスト性の改善

Improving Hyperspectral Adversarial Robustness Under Multiple Attacks ( http://arxiv.org/abs/2210.16346v4 )

ライセンス: Link先を確認
Nicholas Soucy and Salimeh Yasaei Sekeh(参考訳) ハイパースペクトル画像(HSI)を分類するセグメンテーションモデルは、敵対的な例に対して脆弱である。 敵対的ロバストネスに対する従来のアプローチは、攻撃されたデータに対する単一のネットワークのトレーニングや再トレーニングに重点を置いているが、複数の攻撃が存在する場合には、各攻撃で個別に訓練されたネットワークと比較してパフォーマンスが低下する。 この課題に対処するため,ネットワーク全体のロバスト化を図り,データタイプ毎の重みを最適に保持する統一モデルの下で,攻撃型検出と敵のロバスト性に着目したADE-Net(Adversarial Discriminator Ensemble Network)を提案する。 提案手法では,攻撃型別データを特定の攻撃経験アンサンブルネットワークに分離するために識別器ネットワークを用いる。

Semantic segmentation models classifying hyperspectral images (HSI) are vulnerable to adversarial examples. Traditional approaches to adversarial robustness focus on training or retraining a single network on attacked data, however, in the presence of multiple attacks these approaches decrease in performance compared to networks trained individually on each attack. To combat this issue we propose an Adversarial Discriminator Ensemble Network (ADE-Net) which focuses on attack type detection and adversarial robustness under a unified model to preserve per data-type weight optimally while robustifiying the overall network. In the proposed method, a discriminator network is used to separate data by attack type into their specific attack-expert ensemble network.
翻訳日:2023-05-12 18:39:11 公開日:2023-05-11
# ニューラル構造学習を用いたオンデバイス音声感情認識のための知識伝達

Knowledge Transfer For On-Device Speech Emotion Recognition with Neural Structured Learning ( http://arxiv.org/abs/2210.14977v3 )

ライセンス: Link先を確認
Yi Chang, Zhao Ren, Thanh Tam Nguyen, Kun Qian, Bj\"orn W. Schuller(参考訳) 音声感情認識(SER)は、ヒューマンコンピュータインタラクション(HCI)において人気のある研究トピックである。 エッジデバイスは急速に跳躍しているため、エッジデバイスにSERを適用することは、多数のHCIアプリケーションに期待できる。 複雑なモデルの学習によってSERの性能を向上させるためにディープラーニングが研究されているが、エッジデバイスのメモリ空間と計算能力は、ディープラーニングモデルを組み込むための制約を表している。 合成グラフ構築によるニューラル構造化学習(NSL)フレームワークを提案する。 SERモデルはソースデータセットに基づいてトレーニングされ、ターゲットデータセット上にグラフを構築するために使用される。 比較的軽量なモデルは、入力として音声サンプルとグラフを併用して訓練される。 実験により,音声サンプルとグラフを用いた軽量SERモデルの訓練は,小さなSERモデルを生成するだけでなく,音声サンプルのみを用いたモデルや古典的移動学習戦略を用いたモデルと比較して,モデル性能を向上させることができることが示された。

Speech emotion recognition (SER) has been a popular research topic in human-computer interaction (HCI). As edge devices are rapidly springing up, applying SER to edge devices is promising for a huge number of HCI applications. Although deep learning has been investigated to improve the performance of SER by training complex models, the memory space and computational capability of edge devices represents a constraint for embedding deep learning models. We propose a neural structured learning (NSL) framework through building synthesized graphs. An SER model is trained on a source dataset and used to build graphs on a target dataset. A relatively lightweight model is then trained with the speech samples and graphs together as the input. Our experiments demonstrate that training a lightweight SER model on the target dataset with speech samples and graphs can not only produce small SER models, but also enhance the model performance compared to models with speech samples only and those using classic transfer learning strategies.
翻訳日:2023-05-12 18:38:53 公開日:2023-05-11
# 多行動政策のグラディエントについて

On Many-Actions Policy Gradient ( http://arxiv.org/abs/2210.13011v4 )

ライセンス: Link先を確認
Michal Nauman and Marek Cygan(参考訳) 確率的政策勾配 (SPGs) と状態毎のアクションサンプルのばらつきについて検討した。 我々は,多作用のspgが分散を生じさせる時期を決定する多作用最適条件を,比例伸長軌道を持つ単作用剤と比較して導出する。 SPGの文脈における多行動サンプリングに動的モデルを活用するモデルベース多行動(MBMA)を提案する。 MBMAは、マルチアクションSPGの既存の実装に関連する問題に対処し、モデルシミュレーションロールアウトの状態から推定される低いバイアスとSPGに匹敵する分散をもたらす。 MBMAバイアスと分散構造は理論によって予測されるものと一致している。 その結果, MBMAはモデルフリー, 多アクション, モデルベースSPGベースラインと比較して, サンプル効率の向上と, 一連の連続行動環境のリターンの向上を実現している。

We study the variance of stochastic policy gradients (SPGs) with many action samples per state. We derive a many-actions optimality condition, which determines when many-actions SPG yields lower variance as compared to a single-action agent with proportionally extended trajectory. We propose Model-Based Many-Actions (MBMA), an approach leveraging dynamics models for many-actions sampling in the context of SPG. MBMA addresses issues associated with existing implementations of many-actions SPG and yields lower bias and comparable variance to SPG estimated from states in model-simulated rollouts. We find that MBMA bias and variance structure matches that predicted by theory. As a result, MBMA achieves improved sample efficiency and higher returns on a range of continuous action environments as compared to model-free, many-actions, and model-based on-policy SPG baselines.
翻訳日:2023-05-12 18:38:23 公開日:2023-05-11
# 構成、注意、または両方?

Composition, Attention, or Both? ( http://arxiv.org/abs/2210.12958v3 )

ライセンス: Link先を確認
Ryo Yoshida and Yohei Oseki(参考訳) 本稿では,サブツリーを合成関数で1つのベクトル表現に再帰的に構成し,自己認識機構で過去の構造情報に選択的に参画する,構成注意文法(CAG)と呼ばれる新しいアーキテクチャを提案する。 これらの成分 -- 合成機能と自己着脱機構 -- がヒト様構文一般化を誘導するかどうかについて検討する。 具体的には,モデルサイズを注意深く制御したこれら2つのコンポーネントを伴わずに言語モデル(lms)を訓練し,synticgymベンチマークで6つのテスト回路に対する構文一般化性能を評価する。 その結果,合成機能と自己着脱機構の両方がlmsをより人間らしくするために重要な役割を果たすことが示され,言語現象の綿密な検査は,合成機能が構文的特徴を許容するが意味的特徴は持たないが,サブツリー表現にパーコレートできることを示唆した。

In this paper, we propose a novel architecture called Composition Attention Grammars (CAGs) that recursively compose subtrees into a single vector representation with a composition function, and selectively attend to previous structural information with a self-attention mechanism. We investigate whether these components -- the composition function and the self-attention mechanism -- can both induce human-like syntactic generalization. Specifically, we train language models (LMs) with and without these two components with the model sizes carefully controlled, and evaluate their syntactic generalization performance against six test circuits on the SyntaxGym benchmark. The results demonstrated that the composition function and the self-attention mechanism both play an important role to make LMs more human-like, and closer inspection of linguistic phenomenon implied that the composition function allowed syntactic features, but not semantic features, to percolate into subtree representations.
翻訳日:2023-05-12 18:38:10 公開日:2023-05-11
# 多分野自動音声認識のための自己監督的・弱教師的・完全教師的訓練アプローチの検討 : バングラデシュ・バングラの研究

Investigating self-supervised, weakly supervised and fully supervised training approaches for multi-domain automatic speech recognition: a study on Bangladeshi Bangla ( http://arxiv.org/abs/2210.12921v3 )

ライセンス: Link先を確認
Ahnaf Mozib Samin, M. Humayon Kobir, Md. Mushtaq Shahriyar Rafee, M. Firoz Ahmed, Mehedi Hasan, Partha Ghosh, Shafkat Kibria, and M. Shahidur Rahman(参考訳) ニューラルネットワークを用いた自動音声認識(ASR)の大幅な改善にもかかわらず、ASRシステムはドメインシフトによる堅牢性や一般化性の欠如に悩まされている。 これは主に、主要なコーパス設計基準がASRデータセットをコンパイルしながら適切に識別され、検査されることがしばしばあるためである。 本研究では,自己教師型wav2vec 2.0や弱教師型Whisper,マルチドメインASRのための完全教師型畳み込みニューラルネットワーク(CNN)といった最先端の伝達学習手法の堅牢性を検討した。 また,マルチドメインバングラデシュのバングラデシュ・バングラアasr評価ベンチマーク(バングラデシュ・バングラasr評価ベンチマーク)において,13領域から8085発話を抽出し,コーパス作成時のドメイン選択の重要性を実証した。 SUBAK.KOは、形態的に豊かなバングラ語のためのほとんど読み上げられた音声コーパスであり、ASRシステムの訓練に使われている。 実験評価により,マルチドメインasrタスクに取り組むための弱い監督と完全な監督に比べて,自己教師付き言語間事前訓練が最善の戦略であることが判明した。 さらに,asrモデルでは,自発的な発話がほとんどである領域からの音声認識が困難であった。 BanSpeechは、Bangla ASRの挑戦的な評価ベンチマークの必要性を満たすために、一般公開される予定である。

Despite huge improvements in automatic speech recognition (ASR) employing neural networks, ASR systems still suffer from a lack of robustness and generalizability issues due to domain shifting. This is mainly because principal corpus design criteria are often not identified and examined adequately while compiling ASR datasets. In this study, we investigate the robustness of the state-of-the-art transfer learning approaches such as self-supervised wav2vec 2.0 and weakly supervised Whisper as well as fully supervised convolutional neural networks (CNNs) for multi-domain ASR. We also demonstrate the significance of domain selection while building a corpus by assessing these models on a novel multi-domain Bangladeshi Bangla ASR evaluation benchmark - BanSpeech, which contains approximately 6.52 hours of human-annotated speech and 8085 utterances from 13 distinct domains. SUBAK.KO, a mostly read speech corpus for the morphologically rich language Bangla, has been used to train the ASR systems. Experimental evaluation reveals that self-supervised cross-lingual pre-training is the best strategy compared to weak supervision and full supervision to tackle the multi-domain ASR task. Moreover, the ASR models trained on SUBAK.KO face difficulty recognizing speech from domains with mostly spontaneous speech. The BanSpeech will be publicly available to meet the need for a challenging evaluation benchmark for Bangla ASR.
翻訳日:2023-05-12 18:37:53 公開日:2023-05-11
# MagicVideo: 遅延拡散モデルによる効率的なビデオ生成

MagicVideo: Efficient Video Generation With Latent Diffusion Models ( http://arxiv.org/abs/2211.11018v2 )

ライセンス: Link先を確認
Daquan Zhou, Weimin Wang, Hanshu Yan, Weiwei Lv, Yizhe Zhu, Jiashi Feng(参考訳) 本稿では,潜在拡散モデルに基づく効率的なテキスト対ビデオ生成フレームワークであるmagicvideoを提案する。 MagicVideoは、与えられたテキスト記述と一致したスムーズなビデオクリップを生成することができる。 低次元空間における映像の分布をモデル化する新しい3次元U-Netの設計により、MagicVideoは単一のGPUカード上で256x256の空間解像度でビデオクリップを合成することができる。 具体的には、RGB空間でビデオモデルを直接訓練する既存の作品とは異なり、トレーニング済みのVAEを使用して、ビデオクリップを低次元の潜在空間にマッピングし、拡散モデルを用いてビデオの潜伏コードの分布を学習する。 また,映像課題を訓練したu-netデノイザーを映像データに適用する2つの新しい設計を導入する: 映像から映像への分散調整のためのフレームワイズ軽量適応モジュールと,フレーム間の時間的依存性をキャプチャする有向時的注意モジュールである。 これにより,テキスト対画像モデルから畳み込み操作者の情報重みを活用し,映像トレーニングを高速化することができる。 また,生成したビデオの画素ディザリングを改善するため,rgb再構成のための新しいビデオvaeオートエンコーダを提案する。 幅広い実験を行い、magicvideoがリアルまたは想像上のコンテンツで高品質なビデオクリップを生成できることを実証する。 詳しくは \url{https://magicvideo.github.io/#} を参照してください。

We present an efficient text-to-video generation framework based on latent diffusion models, termed MagicVideo. MagicVideo can generate smooth video clips that are concordant with the given text descriptions. Due to a novel and efficient 3D U-Net design and modeling video distributions in a low-dimensional space, MagicVideo can synthesize video clips with 256x256 spatial resolution on a single GPU card, which takes around 64x fewer computations than the Video Diffusion Models (VDM) in terms of FLOPs. In specific, unlike existing works that directly train video models in the RGB space, we use a pre-trained VAE to map video clips into a low-dimensional latent space and learn the distribution of videos' latent codes via a diffusion model. Besides, we introduce two new designs to adapt the U-Net denoiser trained on image tasks to video data: a frame-wise lightweight adaptor for the image-to-video distribution adjustment and a directed temporal attention module to capture temporal dependencies across frames. Thus, we can exploit the informative weights of convolution operators from a text-to-image model for accelerating video training. To ameliorate the pixel dithering in the generated videos, we also propose a novel VideoVAE auto-encoder for better RGB reconstruction. We conduct extensive experiments and demonstrate that MagicVideo can generate high-quality video clips with either realistic or imaginary content. Refer to \url{https://magicvideo.github.io/#} for more examples.
翻訳日:2023-05-12 18:30:46 公開日:2023-05-11
# 68個のプログラム可能な超伝導量子ビットを持つ非アベリア電子のディジタルシミュレーション

Digital simulation of non-Abelian anyons with 68 programmable superconducting qubits ( http://arxiv.org/abs/2211.09802v2 )

ライセンス: Link先を確認
Shibo Xu, Zheng-Zhi Sun, Ke Wang, Liang Xiang, Zehang Bao, Zitian Zhu, Fanhao Shen, Zixuan Song, Pengfei Zhang, Wenhui Ren, Xu Zhang, Hang Dong, Jinfeng Deng, Jiachen Chen, Yaozu Wu, Ziqi Tan, Yu Gao, Feitong Jin, Xuhao Zhu, Chuanyu Zhang, Ning Wang, Yiren Zou, Jiarun Zhong, Aosai Zhang, Weikang Li, Wenjie Jiang, Li-Wei Yu, Yunyan Yao, Zhen Wang, Hekang Li, Qiujiang Guo, Chao Song, H. Wang, and Dong-Ling Deng(参考訳) 非アベリア・エノン(Non-Abelian anyon)は、物質のトポロジカル位相によってホストされるエキゾチック準粒子励起である。 彼らはフェルミオン・ボソン二分法を破り、非アベリアのブレイディング統計に従う:その交換は位相関数ではなく、位相的に退化した波動関数で囲まれた空間でユニタリ演算をもたらす。 これらはトポロジカル量子コンピューティングの構成要素である。 しかしながら、非アベリアの異性体の実験的観察とそれらの特徴付けによる編曲統計は、様々な理論的な提案にもかかわらず、明らかに困難であり、解像的なヒットヘルトのままである。 本稿では,2次元格子上に配置された最大68個のプログラム可能な超伝導量子ビットを用いた,射影非アベリア電子の量子ディジタルシミュレーションとそのブレイディング統計について報告する。 量子回路をひねってトーリック符号モデルの基底状態を実装することにより、ツイストが電荷と磁気電荷を交換し、特定の種類の非可換アノン、すなわちイジングアノンとして振る舞うことを実証する。 特に、これらのツイストはイジング型の融合規則や非アベリアブレイディング統計に従い、トポロジカル論理量子ビットを符号化するために探索できることを実験的に示す。 さらに,基礎となる物理キュービット上に基本パウリゲートの列を適用することにより,単一および2キュービット論理ゲートの実装方法を示す。 この結果は、非アベリア異性体をシミュレートするための多用途量子デジタルアプローチを示し、そのような特異な準粒子の研究に新しいレンズを提供する。

Non-Abelian anyons are exotic quasiparticle excitations hosted by certain topological phases of matter. They break the fermion-boson dichotomy and obey non-Abelian braiding statistics: their interchanges yield unitary operations, rather than merely a phase factor, in a space spanned by topologically degenerate wavefunctions. They are the building blocks of topological quantum computing. However, experimental observation of non-Abelian anyons and their characterizing braiding statistics is notoriously challenging and has remained elusive hitherto, in spite of various theoretical proposals. Here, we report an experimental quantum digital simulation of projective non-Abelian anyons and their braiding statistics with up to 68 programmable superconducting qubits arranged on a two-dimensional lattice. By implementing the ground states of the toric-code model with twists through quantum circuits, we demonstrate that twists exchange electric and magnetic charges and behave as a particular type of non-Abelian anyons, i.e., the Ising anyons. In particular, we show experimentally that these twists follow the fusion rules and non-Abelian braiding statistics of the Ising type, and can be explored to encode topological logical qubits. Furthermore, we demonstrate how to implement both single- and two-qubit logic gates through applying a sequence of elementary Pauli gates on the underlying physical qubits. Our results demonstrate a versatile quantum digital approach for simulating non-Abelian anyons, offering a new lens into the study of such peculiar quasiparticles.
翻訳日:2023-05-12 18:30:23 公開日:2023-05-11
# ランダム化測定による相関行列の幾何学の探索

Probing the geometry of correlation matrices with randomized measurements ( http://arxiv.org/abs/2211.09610v2 )

ライセンス: Link先を確認
Nikolai Wyderka and Andreas Ketterer(参考訳) 二部量子状態の一般化されたブロッホ分解は、特異値が絡み合いの次元のような状態の非局所的性質に関する豊富な情報を提供する相関行列をもたらす。 特異値に基づく絡み合い基準がいくつか存在するが、許容相関行列の幾何学の完全な理解が欠けている。 我々は、限定シュミット数の相関行列の特異値の幾何についてより深い洞察を与える。 まず、ランダム化測定の枠組みへのリンクを提供し、ブロッホ球面上の直交平均から得られるのと同じモーメントの可観測性を構築して、このフレームワークにおける特異値に関する知識を得る方法を示す。 次に、分離可能な状態の場合に注目し、顔の一部と極端点について明示的な構成をすることで、最初の2つの非消滅モーメントの集合の境界を特徴づける。 これらの構成は相関行列の幾何学と相互に偏りのない基底の極大集合の存在問題、およびsic-povmとの関係をもたらす。

The generalized Bloch decomposition of a bipartite quantum state gives rise to a correlation matrix whose singular values provide rich information about non-local properties of the state, such as the dimensionality of entanglement. While some entanglement criteria based on the singular values exist, a complete understanding of the geometry of admissible correlation matrices is lacking. We provide a deeper insight into the geometry of the singular values of the correlation matrices of limited Schmidt number. First, we provide a link to the framework of randomized measurements and show how to obtain knowledge about the singular values in this framework by constructing observables that yield the same moments as one obtains from orthogonal averages over the Bloch sphere. We then focus on the case of separable states and characterize the boundary of the set of the first two non-vanishing moments by giving explicit constructions for some of the faces and extremal points. These constructions yield a connection between the geometry of the correlation matrices and the existence problems of maximal sets of mutually unbiased bases, as well as SIC-POVMs.
翻訳日:2023-05-12 18:29:26 公開日:2023-05-11
# マルチビュー圧縮表現を用いたロバスト低リソースファインチューニングに向けて

Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed Representations ( http://arxiv.org/abs/2211.08794v3 )

ライセンス: Link先を確認
Linlin Liu, Xingxuan Li, Megh Thakkar, Xin Li, Shafiq Joty, Luo Si, Lidong Bing(参考訳) 大量のパラメータのため、事前訓練された言語モデル(PLM)の微調整は、低リソースのシナリオで過度に適合する傾向がある。 そこで本研究では,PLMの隠れ表現に基づいてオーバーフィッティングを低減する手法を提案する。 微調整の際には, PLMの隠蔽層間にランダムなオートエンコーダを挿入し, 前の層からのアクティベーションを複数ビュー圧縮表現に変換して上層に供給する。 オートエンコーダは微調整後に接続されるので,提案手法ではパラメータの追加や推論時の計算コストの増大は行わない。 本手法は,多種多様なシーケンスおよびトークンレベルの低リソースnlpタスクにおいて有望な性能改善を示す。

Due to the huge amount of parameters, fine-tuning of pretrained language models (PLMs) is prone to overfitting in the low resource scenarios. In this work, we present a novel method that operates on the hidden representations of a PLM to reduce overfitting. During fine-tuning, our method inserts random autoencoders between the hidden layers of a PLM, which transform activations from the previous layers into multi-view compressed representations before feeding them into the upper layers. The autoencoders are plugged out after fine-tuning, so our method does not add extra parameters or increase computation cost during inference. Our method demonstrates promising performance improvement across a wide range of sequence- and token-level low-resource NLP tasks.
翻訳日:2023-05-12 18:29:09 公開日:2023-05-11
# ストリーム型関節音声認識と拡散検出

Streaming Joint Speech Recognition and Disfluency Detection ( http://arxiv.org/abs/2211.08726v2 )

ライセンス: Link先を確認
Hayato Futami, Emiru Tsunoo, Kentaro Shibata, Yosuke Kashiwagi, Takao Okuda, Siddhant Arora, Shinji Watanabe(参考訳) ディフルエンシー検出は主に、音声認識の処理後としてパイプラインアプローチで解決されている。 本研究では,ストリーミング方式で動作する音声認識と不整合検出を共同で解決するトランスコーダ・デコーダモデルを提案する。 パイプラインアプローチと比較して,不均一検出を認識エラーに頑健なものとし,非言語的手がかりを提供する音響情報を活用することができる。 さらに、ジョイントモデリングは低レイテンシと軽量な推論をもたらす。 ストリーム不流動性検出のための2つの共用モデル - 書き起こしエンリッチモデルとマルチタスクモデルについて検討した。 書き起こしエンリッチモデルは、不流動部分の開始点と終了点を示す特別なタグでテキストで訓練される。 しかし、遅延や標準言語モデルへの適応には問題がある。 本稿では,トランスフォーマーデコーダに2つの出力層を持つマルチタスクモデルを提案する。 追加のトークン依存性メカニズムで現在認識されているトークンで条件付けされるようにモデル化される。 提案したジョイントモデルは,スイッチボードと自発日本語のコーパスの両方において,BERTベースのパイプラインアプローチよりも精度とレイテンシが優れていた。

Disfluency detection has mainly been solved in a pipeline approach, as post-processing of speech recognition. In this study, we propose Transformer-based encoder-decoder models that jointly solve speech recognition and disfluency detection, which work in a streaming manner. Compared to pipeline approaches, the joint models can leverage acoustic information that makes disfluency detection robust to recognition errors and provide non-verbal clues. Moreover, joint modeling results in low-latency and lightweight inference. We investigate two joint model variants for streaming disfluency detection: a transcript-enriched model and a multi-task model. The transcript-enriched model is trained on text with special tags indicating the starting and ending points of the disfluent part. However, it has problems with latency and standard language model adaptation, which arise from the additional disfluency tags. We propose a multi-task model to solve such problems, which has two output layers at the Transformer decoder; one for speech recognition and the other for disfluency detection. It is modeled to be conditioned on the currently recognized token with an additional token-dependency mechanism. We show that the proposed joint models outperformed a BERT-based pipeline approach in both accuracy and latency, on both the Switchboard and the corpus of spontaneous Japanese.
翻訳日:2023-05-12 18:28:55 公開日:2023-05-11
# 決断し易く、同意し難い: 相性メソッド間の相違を減らす

Easy to Decide, Hard to Agree: Reducing Disagreements Between Saliency Methods ( http://arxiv.org/abs/2211.08369v3 )

ライセンス: Link先を確認
Josip Juki\'c, Martin Tutek, Jan \v{S}najder(参考訳) ニューラルNLPモデルのブラックボックスを公開するための一般的なアプローチは、各入力コンポーネントにスカラー重要度スコアを割り当てるサリエンシ手法を活用することである。 解釈可能性法が忠実であるかどうかを評価するための一般的な実践は、複数のメソッドが説明に一致する場合、その信頼性は増大する。 しかし、最近の研究では、同じモデルインスタンスに適用しても、サラレンシ法は低いランク相関を示し、代替診断法の使用を提唱している。 私たちの研究では、ランク相関が合意の評価に適さないことを実証し、pearson-$r$がより適した代替手段であると主張する。 さらに,注意力説明の忠実度を高める正規化手法が,衛生手法の一致を増大させることを示す。 本研究の結果をトレーニング力学に基づく事例分類に結びつけることにより,学習が容易な事例では,有能な方法の説明の一致が極めて低いことを示す。 最後に、インスタンスカテゴリ間の合意の改善とインスタンスの局所表現空間統計とを結びつけ、どの内在的モデルプロパティが解釈可能性メソッドの前置性を改善するかを分析する作業の道を開く。

A popular approach to unveiling the black box of neural NLP models is to leverage saliency methods, which assign scalar importance scores to each input component. A common practice for evaluating whether an interpretability method is faithful has been to use evaluation-by-agreement -- if multiple methods agree on an explanation, its credibility increases. However, recent work has found that saliency methods exhibit weak rank correlations even when applied to the same model instance and advocated for the use of alternative diagnostic methods. In our work, we demonstrate that rank correlation is not a good fit for evaluating agreement and argue that Pearson-$r$ is a better-suited alternative. We further show that regularization techniques that increase faithfulness of attention explanations also increase agreement between saliency methods. By connecting our findings to instance categories based on training dynamics, we show that the agreement of saliency method explanations is very low for easy-to-learn instances. Finally, we connect the improvement in agreement across instance categories to local representation space statistics of instances, paving the way for work on analyzing which intrinsic model properties improve their predisposition to interpretability methods.
翻訳日:2023-05-12 18:28:35 公開日:2023-05-11
# FolkScope:Eコマースコモンセンスディスカバリのための意図的知識グラフ構築

FolkScope: Intention Knowledge Graph Construction for E-commerce Commonsense Discovery ( http://arxiv.org/abs/2211.08316v2 )

ライセンス: Link先を確認
Changlong Yu, Weiqi Wang, Xin Liu, Jiaxin Bai, Yangqiu Song, Zheng Li, Yifan Gao, Tianyu Cao, and Bing Yin(参考訳) eコマースプラットフォームにおけるユーザの意図を理解するには、常識的な知識が必要です。 本稿では、商品購入に関する人間の心の構造を明らかにするための意図的知識グラフ構築フレームワークであるFolkScopeを提案する。 常識知識は一般に有効ではなく、明示的に表現されていないため、情報抽出を行うことは困難である。 そこで我々は,知識グラフを半自動的に構築するために,大規模言語モデル~(llms)とヒューマン・イン・ザ・ループアノテーションの生成力を活用する新しい手法を提案する。 LLMはまず、eコマース固有のプロンプトを通じて意図的なアサーションを生成して、その意図がオープンな理由であるか、あるいはConceptNet、IsA、MadeOf、UsedForなどと整合した18のカテゴリの1つに該当する述語となるようなショッピング行動を説明する。 そこで我々は,すべての自動世代に人的判断を投入するために,サンプル意図の妥当性と典型性ラベルをトレーニングデータとして注釈付けする。 最後に,アサーションを構造化するために,より凝縮し抽象的な知識を形成するパターンマイニングと概念化を提案する。 大規模な評価と研究は、構築された知識グラフが電子商取引の知識をうまくモデル化し、多くの潜在的な応用を持つことを示す。

Understanding users' intentions in e-commerce platforms requires commonsense knowledge. In this paper, we present FolkScope, an intention knowledge graph construction framework to reveal the structure of humans' minds about purchasing items. As commonsense knowledge is usually ineffable and not expressed explicitly, it is challenging to perform information extraction. Thus, we propose a new approach that leverages the generation power of large language models~(LLMs) and human-in-the-loop annotation to semi-automatically construct the knowledge graph. LLMs first generate intention assertions via e-commerce-specific prompts to explain shopping behaviors, where the intention can be an open reason or a predicate falling into one of 18 categories aligning with ConceptNet, e.g., IsA, MadeOf, UsedFor, etc. Then we annotate plausibility and typicality labels of sampled intentions as training data in order to populate human judgments to all automatic generations. Last, to structurize the assertions, we propose pattern mining and conceptualization to form more condensed and abstract knowledge. Extensive evaluations and studies demonstrate that our constructed knowledge graph can well model e-commerce knowledge and have many potential applications.
翻訳日:2023-05-12 18:28:13 公開日:2023-05-11
# 対話要約における省略の理解に向けて

Towards Understanding Omission in Dialogue Summarization ( http://arxiv.org/abs/2211.07145v2 )

ライセンス: Link先を確認
Yicheng Zou, Kaitao Song, Xu Tan, Zhongkai Fu, Qi Zhang, Dongsheng Li, Tao Gui(参考訳) 対話要約は、長い対話を簡潔な要約にまとめることを目的としており、最近は大きな進歩を遂げている。 しかし、既存の方法の結果はまだ満足のいくものではない。 これまでの研究では, 省略が要約の質に影響を及ぼす主要な要因であることが示されたが, 省略が要約結果にどのように影響するか, 欠落の検出方法など, 省略問題をさらに探求する研究は少ない。 さらに, 省略文の分析と検出は, 現在の文献では利用できない, 省略ラベル付き要約データセット(すなわち, 要約文中の対話発話を省略する)に依存している。 本稿では,対話要約のための高品質なオミッションラベルを提供するOLDSデータセットを提案する。 このデータセットを解析することにより,対話要約における省略検出の重要性を実証するために,要約モデルに接頭辞省略ラベルを提供することにより,要約品質の大幅な向上が期待できることがわかった。 そこで我々は,この課題の学習と評価を支援するために,誤り検出タスクを定式化し,提案するデータセットを実証する。 また,提案するデータセットに基づく欠落検出に関する研究活動も求める。 データセットとコードは公開されています。

Dialogue summarization aims to condense the lengthy dialogue into a concise summary, and has recently achieved significant progress. However, the result of existing methods is still far from satisfactory. Previous works indicated that omission is a major factor in affecting the quality of summarization, but few of them have further explored the omission problem, such as how omission affects summarization results and how to detect omission, which is critical for reducing omission and improving summarization quality. Moreover, analyzing and detecting omission relies on summarization datasets with omission labels (i.e., which dialogue utterances are omitted in the summarization), which are not available in the current literature. In this paper, we propose the OLDS dataset, which provides high-quality Omission Labels for Dialogue Summarization. By analyzing this dataset, we find that a large improvement in summarization quality can be achieved by providing ground-truth omission labels for the summarization model to recover omission information, which demonstrates the importance of omission detection for omission mitigation in dialogue summarization. Therefore, we formulate an omission detection task and demonstrate our proposed dataset can support the training and evaluation of this task well. We also call for research action on omission detection based on our proposed datasets. Our dataset and codes are publicly available.
翻訳日:2023-05-12 18:27:48 公開日:2023-05-11
# 減数化拡散から減数化マルコフモデルへ

From Denoising Diffusions to Denoising Markov Models ( http://arxiv.org/abs/2211.03595v2 )

ライセンス: Link先を確認
Joe Benton, Yuyang Shi, Valentin De Bortoli, George Deligiannidis, Arnaud Doucet(参考訳) ノイズ拡散は、驚くべき経験的性能を示す最先端の生成モデルである。 それらは、データ分布をガウス分布に拡散し、このノミネーションプロセスを逆転して合成データポイントを得るように学習することで機能する。 ノイズ拡散は、スコアマッチングを用いたノイズデータ密度の対数微分の近似に依存する。 このようなモデルは、事前および可能性からのみサンプリングできる場合、近似後続シミュレーションの実行にも使用できる。 本稿では,このアプローチを広い範囲に一般化した統一フレームワークを提案し,スコアマッチングを独自に拡張する。 様々なアプリケーションで得られたモデルを説明します。

Denoising diffusions are state-of-the-art generative models exhibiting remarkable empirical performance. They work by diffusing the data distribution into a Gaussian distribution and then learning to reverse this noising process to obtain synthetic datapoints. The denoising diffusion relies on approximations of the logarithmic derivatives of the noised data densities using score matching. Such models can also be used to perform approximate posterior simulation when one can only sample from the prior and likelihood. We propose a unifying framework generalising this approach to a wide class of spaces and leading to an original extension of score matching. We illustrate the resulting models on various applications.
翻訳日:2023-05-12 18:27:26 公開日:2023-05-11
# 行列乗算時間におけるQUBOの半定緩和の解法と量子コンピュータによる高速化

Solving the semidefinite relaxation of QUBOs in matrix multiplication time, and faster with a quantum computer ( http://arxiv.org/abs/2301.04237v3 )

ライセンス: Link先を確認
Brandon Augustino, Giacomo Nannicini, Tam\'as Terlaky and Luis Zuluaga(参考訳) 半定値最適化(SDO)問題を解く量子アルゴリズムに関する最近の研究は、正半定値行列の量子力学的解釈を利用して、次元$n$と制約数$m$に関する量子スピードアップを求める方法を開発した。 他のパラメータへの依存は古典的手法よりも全体的なスピードアップを示さないが、量子SDOソルバによっては低精度な方式でスピードアップを提供する。 我々はこの事実を有利に活用し,brand\~ao et al. (quantum 6, 625 (2022)) のハミルトニアン更新アルゴリズムの反復的改良スキームを提案し,アルゴリズムの精度依存性を指数関数的に改善する。 その結果,行列乗算時間における二次非拘束二元最適化問題 (qubos) の半定義緩和を解く古典的なアルゴリズムが得られる。 量子リード/古典的書き込みランダムアクセスメモリ(QRAM)へのアクセスにより、我々のアルゴリズムの量子実装は、$\mathcal{O} \left(ns + n^{1.5} \cdot \text{polylog} \left(n, \| C \|_F, \frac{1}{\epsilon} \right)$の最悪の実行時間を示す。

Recent works on quantum algorithms for solving semidefinite optimization (SDO) problems have leveraged a quantum-mechanical interpretation of positive semidefinite matrices to develop methods that obtain quantum speedups with respect to the dimension $n$ and number of constraints $m$. While their dependence on other parameters suggests no overall speedup over classical methodologies, some quantum SDO solvers provide speedups in the low-precision regime. We exploit this fact to our advantage, and present an iterative refinement scheme for the Hamiltonian Updates algorithm of Brand\~ao et al. (Quantum 6, 625 (2022)) to exponentially improve the dependence of their algorithm on precision. As a result, we obtain a classical algorithm to solve the semidefinite relaxation of Quadratic Unconstrained Binary Optimization problems (QUBOs) in matrix multiplication time. Provided access to a quantum read/classical write random access memory (QRAM), a quantum implementation of our algorithm exhibits a worst case running time of $\mathcal{O} \left(ns + n^{1.5} \cdot \text{polylog} \left(n, \| C \|_F, \frac{1}{\epsilon} \right) \right)$.
翻訳日:2023-05-12 18:21:42 公開日:2023-05-11
# 量子計算による投票の加速

Accelerating Voting by Quantum Computation ( http://arxiv.org/abs/2301.02995v3 )

ライセンス: Link先を確認
Ao Liu, Qishen Han, Lirong Xia, Nengkun Yu(参考訳) 投票ルールの下で勝者を決定する計算の複雑さを研究し、高速なアルゴリズムを設計することは、計算社会選択において古典的かつ基本的な問題である。 本稿では,量子コンピューティングを利用して投票を加速する。 本稿では,任意の匿名投票規則に適用可能な量子加速投票アルゴリズムを提案する。 さらに,我々のアルゴリズムは,定位スコアリングルール,コペランド,シングル転送可能な投票(STV)など,様々な共通投票規則の下で,従来のアルゴリズム(置換によるサンプリングに基づく)よりも2次的に高速であることを示す。 正確には、我々の量子加速投票アルゴリズムは、実行時$\Theta\left(\frac{n}{\text{MOV}}\right)$で正しい勝者を出力する。 一方、置換されたサンプリングに基づく古典的な投票アルゴリズムは、多くの投票規則の下でランタイム$\Omega\left(\frac{n^2}{\text{MOV}^2}\right)$を必要とする。 理論的結果は,ボルダ,コープランド,STVの複数の実験で裏付けられている。

Studying the computational complexity of determining winners under voting rules and designing fast algorithms are classical and fundamental questions in computational social choice. In this paper, we accelerate voting by leveraging quantum computing. We propose a quantum-accelerated voting algorithm that can be applied to any anonymous voting rule. We further show that our algorithm can be quadratically faster than any classical algorithm (based on sampling with replacement) under a wide range of common voting rules, including positional scoring rules, Copeland, and single transferable voting (STV). Precisely, our quantum-accelerated voting algorithm output the correct winner with runtime $\Theta\left(\frac{n}{\text{MOV}}\right)$, where $n$ is the number of votes and $\text{MOV}$ is margin of victory, the smallest number of voters to change the winner. On the other hand, any classical voting algorithm based on sampling with replacement requires runtime $\Omega\left(\frac{n^2}{\text{MOV}^2}\right)$ under a large subset of voting rules. Our theoretical results are supported by experiments under plurality, Borda, Copeland, and STV.
翻訳日:2023-05-12 18:21:10 公開日:2023-05-11
# カーネル部分空間と特徴抽出

Kernel Subspace and Feature Extraction ( http://arxiv.org/abs/2301.01410v2 )

ライセンス: Link先を確認
Xiangxiang Xu, Lizhong Zheng(参考訳) 特徴部分空間の観点から機械学習におけるカーネル手法について検討する。 特徴部分空間とカーネルの1対1対応性を確立し,カーネルの情報理論尺度を提案する。 特に、Hirschfeld--Gebelein--R\'{e}nyi の最大相関関数からカーネルを構築し、最大相関カーネルを作成し、その情報理論の最適性を示す。 サポートベクターマシン(SVM)を例として、カーネルメソッドと特徴抽出アプローチの接続を例に挙げる。 最大相関カーネル上のカーネルSVMが最小予測誤差を達成することを示す。 最後に、フィッシャーカーネルを特別な最大相関カーネルとして解釈し、その最適性を確立する。

We study kernel methods in machine learning from the perspective of feature subspace. We establish a one-to-one correspondence between feature subspaces and kernels and propose an information-theoretic measure for kernels. In particular, we construct a kernel from Hirschfeld--Gebelein--R\'{e}nyi maximal correlation functions, coined the maximal correlation kernel, and demonstrate its information-theoretic optimality. We use the support vector machine (SVM) as an example to illustrate a connection between kernel methods and feature extraction approaches. We show that the kernel SVM on maximal correlation kernel achieves minimum prediction error. Finally, we interpret the Fisher kernel as a special maximal correlation kernel and establish its optimality.
翻訳日:2023-05-12 18:20:53 公開日:2023-05-11
# 開量子多体系の非定常モードにおける自発対称性の破れ

Spontaneous symmetry breaking in non-steady modes of open quantum many-body systems ( http://arxiv.org/abs/2212.09327v2 )

ライセンス: Link先を確認
Taiki Haga(参考訳) 環境に結合した量子多体系では、制御パラメータが臨界値を超えると、その定常状態が自発的対称性の破れを示す。 本研究では,開量子多体系の非定常モードにおける自発的対称性の破れを考える。 系の密度行列の時間発展がマルコフのマスター方程式によって記述されると仮定すると、系の力学は対応する時間発展超作用素の固有モードとスペクトルによって完全に特徴づけられる。 有限寿命を持つ非定常固有モードのうち、最も高い周波数を持つ固有モードに焦点を当て、最もコヒーレントなモードと呼ぶ。 散逸スピンモデルにおいて、最もコヒーレントなモードは、定常状態が特異な振る舞いを示さない場合でも、不規則位相から対称性ブロッケン秩序相への遷移を示すことが示されている。 さらに、最もコヒーレントなモードの位相遷移は、高度に絡み合った状態、すなわちシュル=オディンガーの猫状態のデコヒーレンスダイナミクスを定性的に変化させる。

In a quantum many-body system coupled to the environment, its steady state can exhibit spontaneous symmetry breaking when a control parameter exceeds a critical value. In this study, we consider spontaneous symmetry breaking in non-steady modes of an open quantum many-body system. Assuming that the time evolution of the density matrix of the system is described by a Markovian master equation, the dynamics of the system is fully characterized by the eigenmodes and spectrum of the corresponding time evolution superoperator. Among the non-steady eigenmodes with finite lifetimes, we focus on the eigenmodes with the highest frequency, which we call the most coherent mode. For a dissipative spin model, it is shown that the most coherent mode exhibits a transition from a disordered phase to a symmetry-broken ordered phase, even if the steady state does not show singular behavior. We further argue that the phase transition of the most coherent mode induces a qualitative change in the decoherence dynamics of highly entangled states, i.e., the Schr\"odinger's cat states.
翻訳日:2023-05-12 18:20:40 公開日:2023-05-11
# HyPe: 隠れ表現摂動による訓練済み言語モデルの微調整

HyPe: Better Pre-trained Language Model Fine-tuning with Hidden Representation Perturbation ( http://arxiv.org/abs/2212.08853v2 )

ライセンス: Link先を確認
Hongyi Yuan, Zheng Yuan, Chuanqi Tan, Fei Huang, Songfang Huang(参考訳) Transformers構造を持つ言語モデルは自然言語処理において優れた性能を示している。 しかし、オーバーフィットや表現の崩壊など、下流タスクで訓練済みの言語モデルを微調整する場合にも問題が発生する。 本稿では,トランスフォーマー層を隠蔽した表現を摂動することで,そのような問題を緩和する,シンプルで効果的な微調整手法であるHyPeを提案する。 入力やパラメータにノイズを追加する以前の作品とは異なり、トランスフォーマー層の隠れた表現はより多様で有意義な言語情報を伝達すると主張している。 したがって、トランスフォーマー層を隠れた表現の摂動に対してより強固なものにすることは、plmのブロックでの微調整をさらに有益である。 我々はGLUEや他の自然言語推論データセットに関する広範な実験と分析を行う。 その結果,HyPeはバニラ微調整より優れ,異なる層からの隠蔽表現の一般化が促進されることがわかった。 さらにHyPeは、無視可能な計算オーバーヘッドを取得し、従来の最先端の微調整技術よりも優れ、互換性がある。

Language models with the Transformers structure have shown great performance in natural language processing. However, there still poses problems when fine-tuning pre-trained language models on downstream tasks, such as over-fitting or representation collapse. In this work, we propose HyPe, a simple yet effective fine-tuning technique to alleviate such problems by perturbing hidden representations of Transformers layers. Unlike previous works that only add noise to inputs or parameters, we argue that the hidden representations of Transformers layers convey more diverse and meaningful language information. Therefore, making the Transformers layers more robust to hidden representation perturbations can further benefit the fine-tuning of PLMs en bloc. We conduct extensive experiments and analyses on GLUE and other natural language inference datasets. Results demonstrate that HyPe outperforms vanilla fine-tuning and enhances generalization of hidden representations from different layers. In addition, HyPe acquires negligible computational overheads, and is better than and compatible with previous state-of-the-art fine-tuning techniques.
翻訳日:2023-05-12 18:20:21 公開日:2023-05-11
# 同時音声翻訳ガイドとしての留意点

Attention as a Guide for Simultaneous Speech Translation ( http://arxiv.org/abs/2212.07850v2 )

ライセンス: Link先を確認
Sara Papi, Matteo Negri, Marco Turchi(参考訳) 注意機構の研究は言語モデリングや機械翻訳など多くの分野への関心を喚起している。 ニューラルネットワークの理解からテキストアライメントに至るまで,そのパターンはさまざまなタスクを実行するために利用されてきたが,音声翻訳(ST)におけるエンコーダ・デコーダの注意行動の解析や,特定のタスクにおいてSTを改善するために使用する以前の研究は行われていない。 本稿では、音声入力とテキスト出力の既存の注意関係の分析により動機付けられた同時ST(SimulST)に対する注意ベースのポリシー(EDAtt)を提案することにより、このギャップを埋める。 その目標は、エンコーダ-デコーダアテンションスコアを利用して推論をリアルタイムでガイドすることである。 en->{de, es} の結果から,EDAtt ポリシは,特に計算に意識したレイテンシの観点から,技術の SimulST 状態と比較して総合的に優れた結果が得られることが示された。

The study of the attention mechanism has sparked interest in many fields, such as language modeling and machine translation. Although its patterns have been exploited to perform different tasks, from neural network understanding to textual alignment, no previous work has analysed the encoder-decoder attention behavior in speech translation (ST) nor used it to improve ST on a specific task. In this paper, we fill this gap by proposing an attention-based policy (EDAtt) for simultaneous ST (SimulST) that is motivated by an analysis of the existing attention relations between audio input and textual output. Its goal is to leverage the encoder-decoder attention scores to guide inference in real time. Results on en->{de, es} show that the EDAtt policy achieves overall better results compared to the SimulST state of the art, especially in terms of computational-aware latency.
翻訳日:2023-05-12 18:20:03 公開日:2023-05-11
# 物体検出データセットにおける雑音ラベル対策

Combating noisy labels in object detection datasets ( http://arxiv.org/abs/2211.13993v2 )

ライセンス: Link先を確認
Krystian Chachu{\l}a, Jakub {\L}yskawa, Bart{\l}omiej Olber, Piotr Fr\k{a}tczak, Adam Popowicz, Krystian Radlak(参考訳) ディープニューラルネットワークのためのトレーニングデータセットの品質は、結果のモデルの正確性に寄与する重要な要因である。 この効果はオブジェクト検出のような難しいタスクで増幅される。 データセットのエラーに対する対処は、一部の例が間違っていて、信頼性を見積もり、適切な重み付けを割り当てたり、トレーニング中に不確実なものを無視したりする場合に限られる。 本研究では,異なるアプローチを提案する。 本稿では,オブジェクト検出データセットにおける各ラベルの品質評価,欠落・散逸・誤記・誤表示の同定,修正を提案する,clodアルゴリズムを提案する。 トレーニングデータセットの誤った例を見つけることに集中することで、ルートでそれらを排除できます。 疑わしいバウンディングボックスは、データセットの品質を改善するためにレビューされ、既に複雑なアーキテクチャを複雑にすることなく、より良いモデルに繋がる。 提案手法は,人工的に乱れた境界ボックスの99%を0.3未満の誤検出率で示すことができる。 我々は,この手法を一般的なオブジェクト検出データセットの修正に有効であると考えている。

The quality of training datasets for deep neural networks is a key factor contributing to the accuracy of resulting models. This effect is amplified in difficult tasks such as object detection. Dealing with errors in datasets is often limited to accepting that some fraction of examples is incorrect, estimating their confidence and assigning appropriate weights or ignoring uncertain ones during training. In this work, we propose a different approach. We introduce the Confident Learning for Object Detection (CLOD) algorithm for assessing the quality of each label in object detection datasets, identifying missing, spurious, mislabeled and mislocated bounding boxes and suggesting corrections. By focusing on finding incorrect examples in the training datasets, we can eliminate them at the root. Suspicious bounding boxes can be reviewed in order to improve the quality of the dataset, leading to better models without further complicating their already complex architectures. The proposed method is able to point out 99% of artificially disturbed bounding boxes with a false positive rate below 0.3. We see this method as a promising path to correcting popular object detection datasets.
翻訳日:2023-05-12 18:19:01 公開日:2023-05-11
# 自然言語処理課題の継続的な学習 : 調査

Continual Learning of Natural Language Processing Tasks: A Survey ( http://arxiv.org/abs/2211.12701v2 )

ライセンス: Link先を確認
Zixuan Ke, Bing Liu(参考訳) 継続学習(英: Continual Learning, CL)とは、学習した知識を忘れることなく、学習と知識の蓄積の人間的能力をエミュレートする学習パラダイムである。 本調査は,コンピュータビジョンと機械学習におけるCLとの大きな違いがあるNLPにおけるCLの最近の進歩に関する総合的なレビューと分析を行う。 本研究は,(1)既存の技術の分類による全てのCL設定,(2)破滅的忘れ(CF)防止,(3)NLPタスクにおいて特に重要である知識伝達(KT),(4)タスク間分離(ICS)のいくつかの理論と隠れた課題をカバーする。 1)(3)及び(4)は,既存調査には含まれていない。 最後に,今後の方向性について述べる。

Continual learning (CL) is a learning paradigm that emulates the human capability of learning and accumulating knowledge continually without forgetting the previously learned knowledge and also transferring the learned knowledge to help learn new tasks better. This survey presents a comprehensive review and analysis of the recent progress of CL in NLP, which has significant differences from CL in computer vision and machine learning. It covers (1) all CL settings with a taxonomy of existing techniques; (2) catastrophic forgetting (CF) prevention, (3) knowledge transfer (KT), which is particularly important for NLP tasks; and (4) some theory and the hidden challenge of inter-task class separation (ICS). (1), (3) and (4) have not been included in the existing survey. Finally, a list of future directions is discussed.
翻訳日:2023-05-12 18:18:43 公開日:2023-05-11
# 貯水池計算における量子力学的利点の探索

Exploring quantum mechanical advantage for reservoir computing ( http://arxiv.org/abs/2302.03595v2 )

ライセンス: Link先を確認
Niclas G\"otting, Frederik Lohof, Christopher Gies(参考訳) 量子貯水池コンピューティングは、量子システムを用いた機械学習の新たな分野である。 古典的リザーバコンピューティングは、多くの自由度を持つ現実の複雑な力学系で機械学習を可能にする有能な概念であることが証明されているが、量子アナログの利点はまだ十分に検討されていない。 そこで本研究では,量子リザーバの量子特性,すなわちエンタングルメントとその占有位相空間次元とのリンクと,その線形短期記憶性能を定式化する。 貯水池内の高次絡み合いは,指数関数的な位相空間を解き放ち,短期記憶容量を増大させる鍵となる,より複雑な貯水池力学の前提条件であることがわかった。 これらの関係を定量化し、物理量子貯水池の性能を低下させる効果について論じる。

Quantum reservoir computing is an emerging field in machine learning with quantum systems. While classical reservoir computing has proven to be a capable concept of enabling machine learning on real, complex dynamical systems with many degrees of freedom, the advantage of its quantum analogue is yet to be fully explored. Here, we establish a link between quantum properties of a quantum reservoir, namely entanglement and its occupied phase space dimension, and its linear short-term memory performance. We find that a high degree of entanglement in the reservoir is a prerequisite for a more complex reservoir dynamics that is key to unlocking the exponential phase space and higher short-term memory capacity. We quantify these relations and discuss the effect of dephasing in the performance of physical quantum reservoirs.
翻訳日:2023-05-12 18:10:41 公開日:2023-05-11
# ランオフ選挙: データ攻撃に対する防御が改善

Run-Off Election: Improved Provable Defense against Data Poisoning Attacks ( http://arxiv.org/abs/2302.02300v2 )

ライセンス: Link先を確認
Keivan Rezaei, Kiarash Banihashem, Atoosa Chegini and Soheil Feizi(参考訳) データ中毒攻撃では、相手はトレーニングデータ中のサンプルの追加、修正、削除によってモデルの予測を変更しようとする。 近年,複数のベースモデルにまたがって過半数の投票をすることで,データ中毒に対する証明可能な防御を得るためのアンサンブルベースのアプローチが提案されている。 本研究では,アンサンブル防衛における過半数の票を考慮すれば,基本モデルのロジット層で有効利用できないため,無駄であることを示す。 第1ラウンドでは、モデルが好みのクラスに投票し、第2ラウンドでは、第1ラウンドで上位2つのクラスの間でランオフ選挙が行われる。 そこで本研究では,dpa+roeとfa+roeの防御法として,dpa(deep partition aggregation)とfa(finite aggregate)アプローチを提案する。 我々は, MNIST, CIFAR-10, GTSRBについて評価し, 認証精度を最大3%-4%向上させた。 また, ROEをDPAの強化バージョンに適用することにより, 現在の最先端技術と比較して約12%-27%の改善が得られ, データ中毒に対する信頼性の高い新たな最先端技術が確立された。 多くの場合、我々の手法は32倍の計算能力でも最先端の手法よりも優れている。

In data poisoning attacks, an adversary tries to change a model's prediction by adding, modifying, or removing samples in the training data. Recently, ensemble-based approaches for obtaining provable defenses against data poisoning have been proposed where predictions are done by taking a majority vote across multiple base models. In this work, we show that merely considering the majority vote in ensemble defenses is wasteful as it does not effectively utilize available information in the logits layers of the base models. Instead, we propose Run-Off Election (ROE), a novel aggregation method based on a two-round election across the base models: In the first round, models vote for their preferred class and then a second, Run-Off election is held between the top two classes in the first round. Based on this approach, we propose DPA+ROE and FA+ROE defense methods based on Deep Partition Aggregation (DPA) and Finite Aggregation (FA) approaches from prior work. We evaluate our methods on MNIST, CIFAR-10, and GTSRB and obtain improvements in certified accuracy by up to 3%-4%. Also, by applying ROE on a boosted version of DPA, we gain improvements around 12%-27% comparing to the current state-of-the-art, establishing a new state-of-the-art in (pointwise) certified robustness against data poisoning. In many cases, our approach outperforms the state-of-the-art, even when using 32 times less computational power.
翻訳日:2023-05-12 18:10:28 公開日:2023-05-11
# 注意に基づくチャネル予測のための逆順序付け手法

Reverse Ordering Techniques for Attention-Based Channel Prediction ( http://arxiv.org/abs/2302.00341v2 )

ライセンス: Link先を確認
Valentina Rizzello, Benedikt B\"ock, Michael Joham, Wolfgang Utschick(参考訳) 本研究の目的は,注意を伴うシーケンス・ツー・シーケンスモデル(seq2seq-attn)とトランスフォーマーモデルを用いて,ノイズ観測に基づく無線通信システムのチャネル予測を行うことである。 どちらのモデルも自然言語処理から適応し、チャネル予測の複雑な課題に取り組む。 さらに,変換器モデルに逆位置符号化と呼ばれる新しい手法を導入し,異なるシーケンス長に対するモデルの堅牢性を向上させる。 同様に、Seq2Seq-attnモデルのエンコーダ出力は注意を引く前に反転する。 シミュレーションの結果,提案手法により,既存の手法とは対照的に,シーケンス長に関わらず,シーケンス内のチャネルスナップショット間の関係をよりよく捉えることができることがわかった。

This work aims to predict channels in wireless communication systems based on noisy observations, utilizing sequence-to-sequence models with attention (Seq2Seq-attn) and transformer models. Both models are adapted from natural language processing to tackle the complex challenge of channel prediction. Additionally, a new technique called reverse positional encoding is introduced in the transformer model to improve the robustness of the model against varying sequence lengths. Similarly, the encoder outputs of the Seq2Seq-attn model are reversed before applying attention. Simulation results demonstrate that the proposed ordering techniques allow the models to better capture the relationships between the channel snapshots within the sequence, irrespective of the sequence length, as opposed to existing methods.
翻訳日:2023-05-12 18:10:02 公開日:2023-05-11
# NeSyFOLD:畳み込みニューラルネットワークから論理プログラムを抽出する

NeSyFOLD: Extracting Logic Programs from Convolutional Neural Networks ( http://arxiv.org/abs/2301.12667v2 )

ライセンス: Link先を確認
Parth Padalkar, Huaduo Wang, Gopal Gupta(参考訳) 我々は、CNNから論理規則を抽出し、画像を分類するNeSyFOLDモデルを作成する、NeSyFOLDと呼ばれる新しいニューロシンボリックフレームワークを提案する。 NeSyFOLDの学習パイプラインは以下のとおりである。 i)入力画像データセット上で最初にCNNを事前訓練し、最後のレイヤカーネルのアクティベーションをバイナリ値として抽出する。 次に、FOLD-SE-Mルールに基づく機械学習アルゴリズムを用いて、各カーネルに対応するバイナリアクティベーションのベクトルとして表現されたイメージを分類可能な論理プログラムを生成し、論理的説明を生成する。 FOLD-SE-Mアルゴリズムが生成するルールは、カーネル番号を述語として持つ。 我々はCNNカーネルを画像のセマンティックな概念に自動的にマッピングする新しいアルゴリズムを考案した。 このマッピングはルールセットの述語名(カーネル番号)を対応する意味概念ラベルに置き換えるために使用される。 結果のルールセットは解釈可能であり、人間によって直感的に理解することができる。 我々はNeSyFOLDフレームワークと決定木のようなアルゴリズムを用いてルールを得るERICシステムを比較した。 私たちのフレームワークはericよりも次のような利点があります。 (i)ほとんどの場合、NeSyFOLDは正確性及び忠実性を損なうことなく、より小さなルールセットを生成する。 (ii)NeSyFOLDはフィルタ番号を意味ラベルに自動的にマッピングする。

We present a novel neurosymbolic framework called NeSyFOLD to extract logic rules from a CNN and create a NeSyFOLD model to classify images. NeSyFOLD's learning pipeline is as follows: (i) We first pre-train a CNN on the input image dataset and extract activations of the last layer kernels as binary values; (ii) Next, we use the FOLD-SE-M rule-based machine learning algorithm to generate a logic program that can classify an image -- represented as a vector of binary activations corresponding to each kernel -- while producing a logical explanation. The rules generated by the FOLD-SE-M algorithm have kernel numbers as predicates. We have devised a novel algorithm for automatically mapping the CNN kernels to semantic concepts in the images. This mapping is used to replace predicate names (kernel numbers) in the rule-set with corresponding semantic concept labels. The resulting rule-set is interpretable, and can be intuitively understood by humans. We compare our NeSyFOLD framework with the ERIC system that uses a decision-tree like algorithm to obtain the rules. Our framework has the following advantages over ERIC: (i) In most cases, NeSyFOLD generates smaller rule-sets without compromising on the accuracy and fidelity; (ii) NeSyFOLD generates the mapping of filter numbers to semantic labels automatically.
翻訳日:2023-05-12 18:09:49 公開日:2023-05-11
# ニューラルポイント法による2016-2017年中央アペニン地震の予測

Forecasting the 2016-2017 Central Apennines Earthquake Sequence with a Neural Point Process ( http://arxiv.org/abs/2301.09948v2 )

ライセンス: Link先を確認
Samuel Stockman, Daniel J. Lawson, Maxmilian J. Werner(参考訳) ポイントプロセスは数十年間、地震活動の進化のモデル化において支配的であり、流行型余震シーケンス(etas)モデルが最も一般的である。 機械学習の最近の進歩は、既存のパラメトリックモデルを改善するためにニューラルネットワークを使用して、高度に柔軟なポイントプロセスモデルを構築している。 これらのフレキシブルな点過程モデルが、既存の時間的ニューラルモデルからマグニチュード領域まで拡張することにより、短期間の地震活動予測に応用できるかどうかを検証し、このモデルが目標マグニチュード閾値を超える地震を予測できることを示す。 最初に、ニューラルネットワークが合成ETASデータに適合することを示したが、シーケンスの完全な履歴に依存しないため、計算時間の短縮が必要であった。 合成データセットにおける短期的余震の不完全性を人工的にエミュレートすることにより、ニューラルモデルがETASを上回っていることが分かる。 2016-2017年中央アペニン地震の新たなカタログを用いて、入力マグニチュードの最低値に対するetasと神経モデルの予測スキルを調査した。 ビッソ地震,ノルシア地震,カンポトスト地震を用いて複数の予測実験を行い,訓練データと試験データを分割し,M3+イベントを目標とした。 どちらのモデルも以前に検討したしきい値(例えば、M3以上)でも同様に動作するが、閾値をM1.2に下げると、ニューラルモデルとは異なり、ETASの性能が低下する。 これらの成果のいくつかは、ニューラルモデルが不完全なデータを処理できることによるものであると論じている。 データ不足に対するロバストさと、ニューラルネットワークをトレーニングするスピードは、地震予報において強力な競争相手であることを示している。

Point processes have been dominant in modeling the evolution of seismicity for decades, with the Epidemic Type Aftershock Sequence (ETAS) model being most popular. Recent advances in machine learning have constructed highly flexible point process models using neural networks to improve upon existing parametric models. We investigate whether these flexible point process models can be applied to short-term seismicity forecasting by extending an existing temporal neural model to the magnitude domain and we show how this model can forecast earthquakes above a target magnitude threshold. We first demonstrate that the neural model can fit synthetic ETAS data, however, requiring less computational time because it is not dependent on the full history of the sequence. By artificially emulating short-term aftershock incompleteness in the synthetic dataset, we find that the neural model outperforms ETAS. Using a new enhanced catalog from the 2016-2017 Central Apennines earthquake sequence, we investigate the predictive skill of ETAS and the neural model with respect to the lowest input magnitude. Constructing multiple forecasting experiments using the Visso, Norcia and Campotosto earthquakes to partition training and testing data, we target M3+ events. We find both models perform similarly at previously explored thresholds (e.g., above M3), but lowering the threshold to M1.2 reduces the performance of ETAS unlike the neural model. We argue that some of these gains are due to the neural model's ability to handle incomplete data. The robustness to missing data and speed to train the neural model present it as an encouraging competitor in earthquake forecasting.
翻訳日:2023-05-12 18:09:29 公開日:2023-05-11
# 量子クエリ複雑性と多項式次数の指数的分離

An Exponential Separation Between Quantum Query Complexity and the Polynomial Degree ( http://arxiv.org/abs/2301.09218v2 )

ライセンス: Link先を確認
Andris Ambainis and Aleksandrs Belovs(参考訳) 量子クエリ複雑性と全関数の多項式次数の間には多項式分離が少なくとも存在することは知られているが、この2つの間の正確な関係は部分関数に対しては明確ではない。 本稿では,部分ブール関数に対する完全多項式次数と近似量子クエリ複雑性の指数関数的分離を実証する。 非有界なアルファベットサイズでは、定数対多項式分離がある。

While it is known that there is at most a polynomial separation between quantum query complexity and the polynomial degree for total functions, the precise relationship between the two is not clear for partial functions. In this paper, we demonstrate an exponential separation between exact polynomial degree and approximate quantum query complexity for a partial Boolean function. For an unbounded alphabet size, we have a constant versus polynomial separation.
翻訳日:2023-05-12 18:09:01 公開日:2023-05-11
# 将来の映像フレーム予測のためのアンチエイリアシング予測符号化ネットワーク

Anti-aliasing Predictive Coding Network for Future Video Frame Prediction ( http://arxiv.org/abs/2301.05421v2 )

ライセンス: Link先を確認
Chaofan Ling, Weihua Li, Junpei Zhong(参考訳) 本稿では,精度とシャープな将来のフレーム生成を目的とした予測符号化モデルを提案する。 予測的符号化仮説と関連する作業に触発され、ボトムアップとトップダウンの情報フローの組み合わせによって総モデルが更新され、異なるネットワークレベル間の相互作用が促進される。 最も重要なのは、ニューラルネットワークがクリアで自然なフレームを生成するように、いくつかのアーティファクトを提案し、改善することです。 異なる入力はもはや単に連結や付加ではなく、大まかに融合されるのを避けるために変調された方法で計算される。 ダウンサンプリングおよびアップサンプリングモジュールは、低周波入力のフーリエ特徴からのイメージをより容易に構築できるように再設計されている。 さらに、トレーニング戦略も検討され改善され、実行可能な結果が得られ、入力された予測フレームと地上の真実との間の矛盾が軽減される。 提案手法は,画素精度と可視化効果のバランスが向上する。

We introduce here a predictive coding based model that aims to generate accurate and sharp future frames. Inspired by the predictive coding hypothesis and related works, the total model is updated through a combination of bottom-up and top-down information flows, which can enhance the interaction between different network levels. Most importantly, We propose and improve several artifacts to ensure that the neural networks generate clear and natural frames. Different inputs are no longer simply concatenated or added, they are calculated in a modulated manner to avoid being roughly fused. The downsampling and upsampling modules have been redesigned to ensure that the network can more easily construct images from Fourier features of low-frequency inputs. Additionally, the training strategies are also explored and improved to generate believable results and alleviate inconsistency between the input predicted frames and ground truth. Our proposals achieve results that better balance pixel accuracy and visualization effect.
翻訳日:2023-05-12 18:08:55 公開日:2023-05-11
# 音声合成拡散モデルによる音声駆動映像編集

Speech Driven Video Editing via an Audio-Conditioned Diffusion Model ( http://arxiv.org/abs/2301.04474v3 )

ライセンス: Link先を確認
Dan Bigioi, Shubhajit Basak, Micha{\l} Stypu{\l}kowski, Maciej Zi\k{e}ba, Hugh Jordan, Rachel McDonnell, Peter Corcoran(参考訳) 拡散モデルを用いた視覚生成タスクの最近の発展から着想を得て,デノナイズド拡散モデルを用いたエンドツーエンドのビデオ編集手法を提案する。 話し手のビデオと別個の聴覚音声記録が与えられた場合、顔のランドマークや3D顔モデルなどの中間構造表現に頼ることなく、唇と顎の動きを再同期する。 音声メルスペクトル特徴量にデノナイジング拡散モデルを適用して、顔の動きを同期させることにより、これを実現できることを示す。 単一話者と複数話者のビデオ編集において,概念実証結果が実証され,CREMA-Dオーディオヴィジュアルデータセットのベースラインモデルが提供される。 私たちの知る限りでは、これは音声駆動ビデオ編集のタスクにエンドツーエンドのデノベーション拡散モデルを適用することの可能性を実証し、検証した最初の作品です。

Taking inspiration from recent developments in visual generative tasks using diffusion models, we propose a method for end-to-end speech-driven video editing using a denoising diffusion model. Given a video of a talking person, and a separate auditory speech recording, the lip and jaw motions are re-synchronized without relying on intermediate structural representations such as facial landmarks or a 3D face model. We show this is possible by conditioning a denoising diffusion model on audio mel spectral features to generate synchronised facial motion. Proof of concept results are demonstrated on both single-speaker and multi-speaker video editing, providing a baseline model on the CREMA-D audiovisual data set. To the best of our knowledge, this is the first work to demonstrate and validate the feasibility of applying end-to-end denoising diffusion models to the task of audio-driven video editing.
翻訳日:2023-05-12 18:08:40 公開日:2023-05-11
# wright-fisherモデルによる推論のための自己完結型β-with-spikes近似

Self-contained Beta-with-Spikes Approximation for Inference Under a Wright-Fisher Model ( http://arxiv.org/abs/2303.04691v2 )

ライセンス: Link先を確認
Juan Guerrero Montero, Richard A. Blythe(参考訳) 時系列データから,選択と遺伝的ドリフトによる対立頻度の変化を記述するライト・フィッシュモデルにおいて,進化パラメータの信頼性の高い推定を行う。 このようなデータは、例えば人工進化実験や、同様の意味を持つ異なる単語の歴史的使用を文書化した言語コーパスのような、行動の文化的進化のための生物集団に存在している。 本手法は,Wright-Fisherモデルにより予測されるアレル周波数の分布に対するBeta-with-Spikes近似に基づく。 近似におけるパラメータを推定するための自己完結型スキームを導入し、特に前回のアプローチが失敗する強選択・準指数法において、その堅牢性を合成データで示す。 さらにパン屋の酵母(Saccharomyces cerevisiae)のアレル頻度データにも適用し,このような結論を裏付ける独立した証拠が得られた場合に,選択の有意なシグナルを見出した。 さらに,スペイン語における歴史的綴り改革の文脈において,進化的パラメータが変化する時点を検出する可能性を示す。

We construct a reliable estimation of evolutionary parameters within the Wright-Fisher model, which describes changes in allele frequencies due to selection and genetic drift, from time-series data. Such data exists for biological populations, for example via artificial evolution experiments, and for the cultural evolution of behavior, such as linguistic corpora that document historical usage of different words with similar meanings. Our method of analysis builds on a Beta-with-Spikes approximation to the distribution of allele frequencies predicted by the Wright-Fisher model. We introduce a self-contained scheme for estimating the parameters in the approximation, and demonstrate its robustness with synthetic data, especially in the strong-selection and near-extinction regimes where previous approaches fail. We further apply to allele frequency data for baker's yeast (Saccharomyces cerevisiae), finding a significant signal of selection in cases where independent evidence supports such a conclusion. We further demonstrate the possibility of detecting time-points at which evolutionary parameters change in the context of a historical spelling reform in the Spanish language.
翻訳日:2023-05-12 18:02:14 公開日:2023-05-11
# マヨラナ単電荷トランジスタにおける全計数統計

Full counting statistics in a Majorana single-charge transistor ( http://arxiv.org/abs/2303.04046v2 )

ライセンス: Link先を確認
Eric Kleinherbers, Alexander Sch\"unemann, and J\"urgen K\"onig(参考訳) マヨラナ単電荷トランジスタによる電子輸送の完全な計数統計について検討する。 低バイアス電圧では、輸送はジョセフソン・マヨラナサイクルと呼ばれる通常の単電荷およびジョセフソントンネルのシーケンスによって支配される。 完全数え上げ統計を特徴付ける因子累積は、このサイクルにおける電荷移動の相関の性質を解明する。 さらに、クーパー対の完全ポアソン変換からジョセフソンカップリングの増加を伴う2つの異なるフェルミオンパリティ状態間の相関的な切り替えへの完全な数え上げ統計量の位相的遷移を予測する。

We study full counting statistics of electron transport through a Majorana single-charge transistor. At low bias voltage, transport is dominated by the so-called Josephson-Majorana cycle, a sequence of normal and anomalous single-charge and Josephson tunneling. Factorial cumulants characterizing the full counting statistics elucidate the correlated nature of the charge transfers in this cycle. Moreover, we predict a topological transition in the full counting statistics from a perfect Poissonian transfer of Cooper pairs to a correlated switching between two distinct fermion parity states with increasing Josephson coupling.
翻訳日:2023-05-12 18:01:55 公開日:2023-05-11
# 混合量子古典力学におけるラグランジュ軌道と閉包モデル

Lagrangian trajectories and closure models in mixed quantum-classical dynamics ( http://arxiv.org/abs/2303.01975v3 )

ライセンス: Link先を確認
Cesare Tronci, Fran\c{c}ois Gay-Balmaz(参考訳) 完全量子アプローチの計算課題を克服するために、混合量子古典モデルがいくつかの文脈で提案されている。 しかし、現在のモデルは一般的に長期間の一貫性の問題に悩まされ、場合によってはハイゼンベルクの不確実性原理を無効にする。 ここでは量子古典力学の完全ハミルトン理論を提示し、量子密度と古典密度の正則性を超えた一連の一貫性特性を最初に保証したように見える。 ラグランジアン位相空間パスに基づいて、モデルはカシミール汎函数の無限類と同様に量子古典的なポアンカーイ積分不変量を持つ。 また,ラグランジュ軌道を用いて有限次元閉包スキームを数値的実装に対して定式化する。

Mixed quantum-classical models have been proposed in several contexts to overcome the computational challenges of fully quantum approaches. However, current models typically suffer from long-standing consistency issues, and, in some cases, invalidate Heisenberg's uncertainty principle. Here, we present a fully Hamiltonian theory of quantum-classical dynamics that appears to be the first to ensure a series of consistency properties, beyond positivity of quantum and classical densities. Based on Lagrangian phase-space paths, the model possesses a quantum-classical Poincar\'e integral invariant as well as infinite classes of Casimir functionals. We also exploit Lagrangian trajectories to formulate a finite-dimensional closure scheme for numerical implementations.
翻訳日:2023-05-12 18:01:46 公開日:2023-05-11
# 文字レベルの翻訳は待つ価値があるか? 機械翻訳における文字・サブワードレベルのモデルの比較

Are Character-level Translations Worth the Wait? Comparing Character- and Subword-level Models for Machine Translation ( http://arxiv.org/abs/2302.14220v2 )

ライセンス: Link先を確認
Lukas Edman, Gabriele Sarti, Antonio Toral, Gertjan van Noord, Arianna Bisazza(参考訳) 事前訓練された文字レベルの言語モデルは、最近、様々なNLPタスクで人気のあるサブワードモデルと競合することが示されている。 しかし、ニューラルネットワーク翻訳(NMT)の有効性についてはほとんど研究されていない。 本研究は,翻訳における文字レベルのモデリングの有効性,特に訓練データに制限がある場合において,複数の言語と,NMT上での最先端文字レベルの事前訓練モデル(ByT5とmT5)の実験的条件を比較した。 本研究では,文字モデルの性能向上が,正書法的に類似した単語や希少な単語の翻訳に反映されることを示す。 モデル予測におけるソーステキストの重要性を評価しながら、翻訳中に単語や文字レベルの情報を変調する能力を示すbyt5の単語レベルのパターンに注目し、文字レベルのモデリングの潜在的な弱点に関する洞察を提供する。 キャラクタモデルの効率トレードオフを評価し,翻訳品質を高めるための非時間クリティカルなシナリオでの利用を提案する。

Pretrained character-level language models were recently shown to be competitive with popular subword models across a range of NLP tasks. However, there has been little research on their effectiveness for neural machine translation (NMT). This work performs an extensive comparison across multiple languages and experimental conditions of state-of-the-art character- and subword-level pre-trained models (ByT5 and mT5, respectively) on NMT, showing the effectiveness of character-level modeling in translation, particularly in cases where training data is limited. In our analysis, we show how character models' performance gains are reflected in better translations of orthographically similar words and rare words. While evaluating the importance of source texts in driving model predictions, we highlight ByT5 word-level patterns suggesting an ability to modulate word and character-level information during the translation, providing insights into a potential weakness of character-level modeling. We conclude by assessing the efficiency tradeoff of character models, suggesting their usage in non-time-critical scenarios to boost translation quality.
翻訳日:2023-05-12 18:01:35 公開日:2023-05-11
# DLOFTBs -- B-splinesによる変形可能な線形物体の高速追跡

DLOFTBs -- Fast Tracking of Deformable Linear Objects with B-splines ( http://arxiv.org/abs/2302.13694v2 )

ライセンス: Link先を確認
Piotr Kicki, Amadeusz Szymko, Krzysztof Walas(参考訳) 剛体物体の操作は広範囲にわたる研究課題であるが、変形可能な線形物体(DLO)の操作は著しく未発達である。 潜在的な理由は、DLOの状態を操作中の幾何学的変化として記述し観察することの難しさである。 本稿では,マスク画像に基づいてDLOの形状を高速に追跡するアルゴリズムを提案する。 追跡対象について事前の知識がないため,提案手法は数十ミリ秒以内の追跡対象の形状の信頼性の高い表現を求める。 このアルゴリズムの主なアイデアは、まずDLOマスクの画像をスケルトン化し、DLOのスケルトンの一部を通り抜け、セグメントを順序づけられた経路に配置し、最後にB-スプラインを適合させることである。 実験の結果,DLOの形状復元精度とアルゴリズム実行時間において,本手法は最先端の手法よりも優れており,重度の閉塞,自己切断,複数のDLOを単一画像で処理できることがわかった。

While manipulating rigid objects is an extensively explored research topic, deformable linear object (DLO) manipulation seems significantly underdeveloped. A potential reason for this is the inherent difficulty in describing and observing the state of the DLO as its geometry changes during manipulation. This paper proposes an algorithm for fast-tracking the shape of a DLO based on the masked image. Having no prior knowledge about the tracked object, the proposed method finds a reliable representation of the shape of the tracked object within tens of milliseconds. This algorithm's main idea is to first skeletonize the DLO mask image, walk through the parts of the DLO skeleton, arrange the segments into an ordered path, and finally fit a B-spline into it. Experiments show that our solution outperforms the State-of-the-Art approaches in DLO's shape reconstruction accuracy and algorithm running time and can handle challenging scenarios such as severe occlusions, self-intersections, and multiple DLOs in a single image.
翻訳日:2023-05-12 18:01:14 公開日:2023-05-11
# 対実的状況テスト: 公平さによる差別の発見

Counterfactual Situation Testing: Uncovering Discrimination under Fairness given the Difference ( http://arxiv.org/abs/2302.11944v2 )

ライセンス: Link先を確認
Jose M. Alvarez and Salvatore Ruggieri(参考訳) 分類器の識別を検出するための因果的データマイニングフレームワークであるcst(counterfactual situation testing)を提案する。 cstは、行動可能で意味のある方法で答えることを目的としており、直感的な質問は「モデルの結果が、個人、または苦情が、異なる保護された状態であったとしたら、何だったのか? これは、反実的推論を用いた差異から公正性の概念を運用することによって、Tanh et al. (2011) の法的根拠による状況検証を拡張している。 どんな苦情に対しても、分類器が制御およびテストグループを構築するために使用するデータセットにおいて、類似した保護されたインスタンスと非保護されたインスタンスを見つけ、比較します。 訴追者を取り巻く双方のグループを構築する状況テストとは違って,訴追者側が因果的知識を用いて生成した反事実に基づくテストグループを構築する。 counterfactualは、変更時に保護された属性が、分類器が使用する一見中立的な属性にどのように影響するかを反映することを目的としている。 CSTでは、各グループ内の類似した個人を比較検討するが、不一致者とその反事実との相違が考えられるため、双方で異同する。 2つの分類シナリオの枠組みを評価することで,Kusnerら (2017) の対実フェアネス条件を満たした場合でも, 状況検査よりも多くの事例が明らかになった。

We present counterfactual situation testing (CST), a causal data mining framework for detecting discrimination in classifiers. CST aims to answer in an actionable and meaningful way the intuitive question "what would have been the model outcome had the individual, or complainant, been of a different protected status?" It extends the legally-grounded situation testing of Thanh et al. (2011) by operationalizing the notion of fairness given the difference using counterfactual reasoning. For any complainant, we find and compare similar protected and non-protected instances in the dataset used by the classifier to construct a control and test group, where a difference between the decision outcomes of the two groups implies potential individual discrimination. Unlike situation testing, which builds both groups around the complainant, we build the test group on the complainant's counterfactual generated using causal knowledge. The counterfactual is intended to reflect how the protected attribute when changed affects the seemingly neutral attributes used by the classifier, which is taken for granted in many frameworks for discrimination. Under CST, we compare similar individuals within each group but dissimilar individuals across both groups due to the possible difference between the complainant and its counterfactual. Evaluating our framework on two classification scenarios, we show that it uncovers a greater number of cases than situation testing, even when the classifier satisfies the counterfactual fairness condition of Kusner et al. (2017).
翻訳日:2023-05-12 18:00:55 公開日:2023-05-11
# データ効率の高いコントラスト型自己教師付き学習: 簡単な例が最も貢献

Data-Efficient Contrastive Self-supervised Learning: Easy Examples Contribute the Most ( http://arxiv.org/abs/2302.09195v3 )

ライセンス: Link先を確認
Siddharth Joshi and Baharan Mirzasoleiman(参考訳) 自己教師付き学習(SSL)は、ラベルなしトレーニングデータの大規模なプールから高品質な表現を学ぶ。 データセットが大きくなるにつれて、そのような表現の学習に最も寄与する例を特定することが重要になる。 これにより、高品質な表現を学習するために必要なデータの量を削減し、効率的なSSLを可能にする。 それでもSSLの例の定量化は未解決の問題である。 この研究では、コントラストのあるSSLに最も貢献する例が、期待して他の例に最もよく似た拡張を持つ例であることを証明して、初めてこの問題に対処する。 このようなサブセット上でSSLの一般化性能を厳格に保証する。 経験上、sslに最も寄与するサブセットは、監督された学習に最も貢献しない部分集合である。 CIFAR100, CIFAR10, STL10において, 我々のサブセットはランダムサブセットよりも3%以上優れていた。 興味深いことに、CIFAR100から20%、STL10から40%を安全に排除でき、下流タスクのパフォーマンスに影響を与えない。

Self-supervised learning (SSL) learns high-quality representations from large pools of unlabeled training data. As datasets grow larger, it becomes crucial to identify the examples that contribute the most to learning such representations. This enables efficient SSL by reducing the volume of data required for learning high-quality representations. Nevertheless, quantifying the value of examples for SSL has remained an open question. In this work, we address this for the first time, by proving that examples that contribute the most to contrastive SSL are those that have the most similar augmentations to other examples, in expectation. We provide rigorous guarantees for the generalization performance of SSL on such subsets. Empirically, we discover, perhaps surprisingly, the subsets that contribute the most to SSL are those that contribute the least to supervised learning. Through extensive experiments, we show that our subsets outperform random subsets by more than 3% on CIFAR100, CIFAR10, and STL10. Interestingly, we also find that we can safely exclude 20% of examples from CIFAR100 and 40% from STL10, without affecting downstream task performance.
翻訳日:2023-05-12 17:59:57 公開日:2023-05-11
# アクティブサンプリングを用いた病理組織学におけるデータ効率の良いコントラスト学習

Data Efficient Contrastive Learning in Histopathology using Active Sampling ( http://arxiv.org/abs/2303.16247v3 )

ライセンス: Link先を確認
Tahsin Reasat and David S. Smith(参考訳) ディープラーニングに基づく診断システムは、デジタル病理学において正確で堅牢な定量的分析を提供することができる。 これらのアルゴリズムは、病理組織像の高分解能のため、病理学では実用的でない大量の注釈付きトレーニングデータを必要とする。 そこで,アドホックなプレテキストタスクを用いて特徴を学習するための自己指導手法が提案されている。 自己教師型トレーニングプロセスは時間がかかり、学習した特徴空間、特にデータ不均衡の下で顕著な制約が欠如しているため、しばしばサブパー機能表現につながる。 本研究では,少数のラベルと小さなプロキシネットワークを用いてトレーニングセットを積極的にサンプリングし,サンプル要求を93%削減し,トレーニング時間を62%削減することを提案する。

Deep Learning based diagnostics systems can provide accurate and robust quantitative analysis in digital pathology. These algorithms require large amounts of annotated training data which is impractical in pathology due to the high resolution of histopathological images. Hence, self-supervised methods have been proposed to learn features using ad-hoc pretext tasks. The self-supervised training process is time consuming and often leads to subpar feature representation due to a lack of constrain on the learnt feature space, particularly prominent under data imbalance. In this work, we propose to actively sample the training set using a handful of labels and a small proxy network, decreasing sample requirement by 93% and training time by 62%.
翻訳日:2023-05-12 17:53:16 公開日:2023-05-11
# 正規化exp, cosh, sinh回帰問題の解法

Solving Regularized Exp, Cosh and Sinh Regression Problems ( http://arxiv.org/abs/2303.15725v2 )

ライセンス: Link先を確認
Zhihang Li, Zhao Song, Tianyi Zhou(参考訳) 現代の機械学習では、注意計算はTransformer、GPT-4、ChatGPTといった大規模言語モデルを訓練するための基本的なタスクである。 本研究では,大規模言語モデルにおける注意機構におけるsoftmax/exp単位に触発された指数回帰問題について検討する。 標準指数回帰は非凸である。 凸問題である指数回帰問題の正規化バージョンについて検討する。 入力間隔時間において近似ニュートン法を用いて解く。 形式的には、この問題において、行列 $a \in \mathbb{r}^{n \times d}$, $b \in \mathbb{r}^n$, $w \in \mathbb{r}^n$ と任意の関数 $\exp, \cosh$, $\sinh$ が与えられる。 目標は、$ 0.5 \| f(ax) - b \|_2^2 + 0.5 \| \mathrm{diag}(w) ax \|_2^2$ を最小化する最適な$x$を見つけることである。 単純な方法は、ネイブ・ニュートンのメソッドを使用することである。 $\mathrm{nnz}(A)$ は行列 $A$ における 0 でないエントリの数を表す。 行列乗算の指数を$\omega$ とする。 現在、$\omega \approx 2.373$である。 精度エラーを表す$\epsilon$ とします。 本稿では,1回の反復時間あたり$\log ( \|x_0 - x^*\|_2 / \epsilon)$と$\widetilde{o}(\mathrm{nnz}(a) + d^{\omega} )$を用いて解くアルゴリズムの入力スパーシティと目的について述べる。

In modern machine learning, attention computation is a fundamental task for training large language models such as Transformer, GPT-4 and ChatGPT. In this work, we study exponential regression problem which is inspired by the softmax/exp unit in the attention mechanism in large language models. The standard exponential regression is non-convex. We study the regularization version of exponential regression problem which is a convex problem. We use approximate newton method to solve in input sparsity time. Formally, in this problem, one is given matrix $A \in \mathbb{R}^{n \times d}$, $b \in \mathbb{R}^n$, $w \in \mathbb{R}^n$ and any of functions $\exp, \cosh$ and $\sinh$ denoted as $f$. The goal is to find the optimal $x$ that minimize $ 0.5 \| f(Ax) - b \|_2^2 + 0.5 \| \mathrm{diag}(w) A x \|_2^2$. The straightforward method is to use the naive Newton's method. Let $\mathrm{nnz}(A)$ denote the number of non-zeros entries in matrix $A$. Let $\omega$ denote the exponent of matrix multiplication. Currently, $\omega \approx 2.373$. Let $\epsilon$ denote the accuracy error. In this paper, we make use of the input sparsity and purpose an algorithm that use $\log ( \|x_0 - x^*\|_2 / \epsilon)$ iterations and $\widetilde{O}(\mathrm{nnz}(A) + d^{\omega} )$ per iteration time to solve the problem.
翻訳日:2023-05-12 17:53:04 公開日:2023-05-11
# ディープ畳み込みニューラルネットワークを用いた層間ネットワークトレーニングと従来のネットワークトレーニングの比較

Comparison between layer-to-layer network training and conventional network training using Deep Convolutional Neural Networks ( http://arxiv.org/abs/2303.15245v2 )

ライセンス: Link先を確認
Kiran Kumar Ashish Bhyravabhottla and WonSook Lee(参考訳) タイトル:層間ネットワークトレーニングとディープ畳み込みニューラルネットワークを用いた従来のネットワークトレーニングの比較: 畳み込みニューラルネットワーク(cnns)は、データから特徴を抽出するのに効果があるため、様々なアプリケーションで広く使われている。 しかし、CNNのパフォーマンスはアーキテクチャとトレーニングプロセスに大きく依存している。 本研究では,層間学習法を提案し,その性能を従来の訓練法と比較する。 層間トレーニングアプローチでは,初期層の一部を学生ネットワークとして,後期層を教師ネットワークとして扱う。 各トレーニングステップにおいて,教師ネットワークの出力から学習する学生ネットワークを段階的にトレーニングし,その逆を学習する。 我々は,VGG16,ResNext,DenseNetネットワーク上で,事前学習した画像ネット重みと通常のCNNモデルを用いないアプローチを評価する。 実験の結果, 層間学習法は両モデルの従来の訓練法よりも優れていた。 具体的には,VGG16,ResNext,DeseNetネットワークのテストセットと,従来のトレーニング手法と比較して層間トレーニングを用いたCNNモデルにおいて高い精度を実現する。 本研究は、CNNにおけるレイヤーワイドトレーニングの重要性を強調し、CNNの精度を向上させるための層間トレーニングが有望なアプローチであることを示す。

Title: Comparison between layer-to-layer network training and conventional network training using Deep Convolutional Neural Networks Abstract: Convolutional neural networks (CNNs) are widely used in various applications due to their effectiveness in extracting features from data. However, the performance of a CNN heavily depends on its architecture and training process. In this study, we propose a layer-to-layer training method and compare its performance with the conventional training method. In the layer-to-layer training approach, we treat a portion of the early layers as a student network and the later layers as a teacher network. During each training step, we incrementally train the student network to learn from the output of the teacher network, and vice versa. We evaluate this approach on VGG16, ResNext, and DenseNet networks without pre-trained ImageNet weights and a regular CNN model. Our experiments show that the layer-to-layer training method outperforms the conventional training method for both models. Specifically, we achieve higher accuracy on the test set for the VGG16, ResNext, and DeseNet networks and the CNN model using layer-to-layer training compared to the conventional training method. Overall, our study highlights the importance of layer-wise training in CNNs and suggests that layer-to-layer training can be a promising approach for improving the accuracy of CNNs.
翻訳日:2023-05-12 17:52:31 公開日:2023-05-11
# 共振キャビティ設計を用いたオンデマンド不識別光子および絡み合い光子

On-demand indistinguishable and entangled photons using tailored cavity designs ( http://arxiv.org/abs/2303.13871v2 )

ライセンス: Link先を確認
David Bauch, Dustin Siebert, Klaus D. J\"ons, Jens F\"orstner and Stefan Schumacher(参考訳) 量子ドット系でよく用いられるバイエキシトン・エキシトン放出カスケードは、偏光エンタングルメントを生成するために、本質的に区別不可能な光子を生成する。 本研究は, 偏光絡み合いの度合いが高く, 同時に不均一性が高い光子の対を生成することに焦点を当てる。 光共振器を用いたバイエクシトン寿命を選択的に低減することで、この目標を達成する。 広帯域光子抽出と2重縮退光モードを併用したバイエクシトンエミッションの十分なパーセル向上の要求を満たすように調整した円形ブラッグ反射器を試作した。 我々の詳細な理論研究が組み合わさる (i)モデルパラメータを入力として抽出したマクスウェル方程式を解いた現実的なフォトニック構造の最適化 (ii)光子特性に完全にアクセスできる量子ドットキャビティ励起ダイナミクスの微視的シミュレーション 本稿では,システムパラメータへの非自明な依存を報告し,Purcell拡張の最適範囲を決定するために,組み合わせた理論手法の予測力を用いて,不明瞭性とほぼユニタリな値への絡み合いを最大化する。

The biexciton-exciton emission cascade commonly used in quantum-dot systems to generate polarization entanglement yields photons with intrinsically limited indistinguishability. In the present work we focus on the generation of pairs of photons with high degrees of polarization entanglement and simultaneously high indistinguishability. We achieve this goal by selectively reducing the biexciton lifetime with an optical resonator. We demonstrate that a suitably tailored circular Bragg reflector fulfills the requirements of sufficient selective Purcell enhancement of biexciton emission paired with spectrally broad photon extraction and two-fold degenerate optical modes. Our in-depth theoretical study combines (i) the optimization of realistic photonic structures solving Maxwell's equations from which model parameters are extracted as input for (ii) microscopic simulations of quantum-dot cavity excitation dynamics with full access to photon properties. We report non-trivial dependencies on system parameters and use the predictive power of our combined theoretical approach to determine the optimal range of Purcell enhancement that maximizes indistinguishability and entanglement to near unity values, here specifically for the telecom C-band at $1550\,\mathrm{nm}$.
翻訳日:2023-05-12 17:52:06 公開日:2023-05-11
# マルチモーダル変分オートエンコーダによる複数画像モダリティの規範的モデリング

Multi-modal Variational Autoencoders for normative modelling across multiple imaging modalities ( http://arxiv.org/abs/2303.12706v2 )

ライセンス: Link先を確認
Ana Lawry Aguila, James Chapman, Andre Altmann(参考訳) 一般的な神経疾患の研究の課題の1つは、疾患の多様性であり、原因の違い、神経画像の特徴、共生性、遺伝的変異などが含まれる。 規範的モデリングは、生理システムの「正常」な振る舞いがモデル化されるようなコホートを研究する一般的な方法となり、疾患の病理に関する偏差を検出するために被験者レベルで使用できる。 多くの異種疾患では、様々な神経画像および生物学的変数にまたがる異常を観察することを期待する。 しかし、これまでは単一のイメージングモダリティを研究するための規範モデルが主に開発されてきた。 我々は,複数モーダル変数間で異常を集約し,ユニモーダルベースラインよりも偏差を検出するマルチモーダル規範モデリングフレームワークを開発することを目的とする。 本稿では,T1およびDTIデータ間の主観レベルずれを検出するための2つのマルチモーダルVAE規範モデルを提案する。 提案モデルは, 基礎的アプローチよりも, 病人検出, 疾病重症度把握, 患者認知との関連性が良好であった。 また,多変量潜在空間の偏差を測定する多変量潜在空間偏差測定法を提案し,特徴量よりも優れていた。

One of the challenges of studying common neurological disorders is disease heterogeneity including differences in causes, neuroimaging characteristics, comorbidities, or genetic variation. Normative modelling has become a popular method for studying such cohorts where the 'normal' behaviour of a physiological system is modelled and can be used at subject level to detect deviations relating to disease pathology. For many heterogeneous diseases, we expect to observe abnormalities across a range of neuroimaging and biological variables. However, thus far, normative models have largely been developed for studying a single imaging modality. We aim to develop a multi-modal normative modelling framework where abnormality is aggregated across variables of multiple modalities and is better able to detect deviations than uni-modal baselines. We propose two multi-modal VAE normative models to detect subject level deviations across T1 and DTI data. Our proposed models were better able to detect diseased individuals, capture disease severity, and correlate with patient cognition than baseline approaches. We also propose a multivariate latent deviation metric, measuring deviations from the joint latent space, which outperformed feature-based metrics.
翻訳日:2023-05-12 17:51:48 公開日:2023-05-11
# グラフ符号を用いたほぼ長期$n$から$k$蒸留プロトコル

Near-term $n$ to $k$ distillation protocols using graph codes ( http://arxiv.org/abs/2303.11465v2 )

ライセンス: Link先を確認
Kenneth Goodenough, S\'ebastian de Bone, Vaishnavi L. Addala, Stefan Krastanov, Sarah Jansen, Dion Gijswijt, David Elkouss(参考訳) ノイズの多いハードウェアは、短期的な量子インターネットの実現において大きなハードルとなっている。 蒸留プロトコルにより、オーバーヘッドの増加によってこのノイズを克服することができる。 ここでは,バイローカルなクリフォード演算,単一ラウンドの通信,および観測結果による最終ローカル操作を用いて,$n$から$k$の中間対を蒸留する蒸留プロトコルを実験的に検討する。 入力状態における変分非偏極雑音の場合、これらの蒸留プロトコルとグラフ符号の対応性を見出す。 この対応を利用して、量子インターネットにとって重要ないくつかのタスクに対して、このクラスで証明可能な最適な蒸留プロトコルを見つける。 この対応により、いわゆる非自明な測定症候群のユースケースを調査できる。 さらに,グラフコードを与えられた蒸留プロトコルに使用する回路を構成するレシピを詳述する。 これを使って、短い深さと少数の2量子ビットゲートの回路を見つける。 さらに,ブラックボックス回路最適化アルゴリズムを開発した。 最後に、符号化された状態のテレポーテーションを調査し、先行技術に関する率と忠実性を共同で改善するプロトコルを見つける。

Noisy hardware forms one of the main hurdles to the realization of a near-term quantum internet. Distillation protocols allows one to overcome this noise at the cost of an increased overhead. We consider here an experimentally relevant class of distillation protocols, which distill $n$ to $k$ end-to-end entangled pairs using bilocal Clifford operations, a single round of communication and a possible final local operation depending on the observed measurement outcomes. In the case of permutationally invariant depolarizing noise on the input states, we find a correspondence between these distillation protocols and graph codes. We leverage this correspondence to find provably optimal distillation protocols in this class for several tasks important for the quantum internet. This correspondence allows us to investigate use cases for so-called non-trivial measurement syndromes. Furthermore, we detail a recipe to construct the circuit used for the distillation protocol given a graph code. We use this to find circuits of short depth and small number of two-qubit gates. Additionally, we develop a black-box circuit optimization algorithm, and find that both approaches yield comparable circuits. Finally, we investigate the teleportation of encoded states and find protocols which jointly improve the rate and fidelities with respect to prior art.
翻訳日:2023-05-12 17:51:25 公開日:2023-05-11
# 深度教師による単眼神経放射野

Single-view Neural Radiance Fields with Depth Teacher ( http://arxiv.org/abs/2303.09952v2 )

ライセンス: Link先を確認
Yurui Chen, Chun Gu, Feihu Zhang, Li Zhang(参考訳) ニューラルレージアンス場 (NeRF) はフォトリアリスティックな新しいビューレンダリングのために提案されている。 しかし、トレーニングには複数の異なるシーンのビューが必要である。 また、新しい場面への一般化が乏しく、各シーンの調整や微調整も必要である。 本稿では,単一画像のみを入力として,新しいビュー合成のための新しいNeRFモデルを開発する。 本稿では,平面レンダリングとボリュームレンダリング(細かな)を組み合わせて,高いレンダリング品質とより良い一般化を実現することを提案する。 また,統合レンダリング機構を監督し,一貫した3次元幾何学の学習を促進するために,密集した擬似深度マップを予測する深度教師ネットを設計する。 提案手法を3つの挑戦的データセットで評価する。 PSNRの5$\sim$20\%の改善と、深度レンダリングにおけるエラーの20$\sim$50\%削減によって、最先端のシングルビューNeRFよりも優れています。 また、新しいシーンごとに微調整することなく、データを見落とせる優れた一般化能力を示す。

Neural Radiance Fields (NeRF) have been proposed for photorealistic novel view rendering. However, it requires many different views of one scene for training. Moreover, it has poor generalizations to new scenes and requires retraining or fine-tuning on each scene. In this paper, we develop a new NeRF model for novel view synthesis using only a single image as input. We propose to combine the (coarse) planar rendering and the (fine) volume rendering to achieve higher rendering quality and better generalizations. We also design a depth teacher net that predicts dense pseudo depth maps to supervise the joint rendering mechanism and boost the learning of consistent 3D geometry. We evaluate our method on three challenging datasets. It outperforms state-of-the-art single-view NeRFs by achieving 5$\sim$20\% improvements in PSNR and reducing 20$\sim$50\% of the errors in the depth rendering. It also shows excellent generalization abilities to unseen data without the need to fine-tune on each new scene.
翻訳日:2023-05-12 17:51:05 公開日:2023-05-11
# 実験固体力学における機械学習の最近の進歩と応用

Recent Advances and Applications of Machine Learning in Experimental Solid Mechanics: A Review ( http://arxiv.org/abs/2303.07647v3 )

ライセンス: Link先を確認
Hanxun Jin, Enrui Zhang, Horacio D. Espinosa(参考訳) 長年にわたり、実験的な固体力学は自然および新規物質の力学特性を特徴づけ、理解する上で重要な役割を担ってきた。 機械学習(ML)の最近の進歩は、実験設計、データ分析、不確実性定量化、逆問題など、この分野に新たな機会をもたらす。 この新興分野における近年の論文の数が爆発的に増えているため、実験固体力学における最近のML応用の包括的かつ最新のレビューを行うのは時期尚早である。 本稿では、まず、このレビューに係わる共通MLアルゴリズムと用語の概要を説明し、物理インフォームドおよび物理ベースのML手法に重点を置いている。 次に, 破壊力学, バイオメカニクス, ナノ・マイクロメカニクス, 建築材料, 2次元材料など, 従来および新興の実験力学分野における最近のML応用について概説する。 最後に,MLを多モードおよび多忠実な実験データセットに適用する現在の課題を強調し,今後の研究方向性を提案する。 このレビューは、MLメソッドの使用に関する貴重な洞察と、固体力学の研究者が実験に組み込むための様々な例を提供することを目的としている。

For many decades, experimental solid mechanics has played a crucial role in characterizing and understanding the mechanical properties of natural and novel materials. Recent advances in machine learning (ML) provide new opportunities for the field, including experimental design, data analysis, uncertainty quantification, and inverse problems. As the number of papers published in recent years in this emerging field is exploding, it is timely to conduct a comprehensive and up-to-date review of recent ML applications in experimental solid mechanics. Here, we first provide an overview of common ML algorithms and terminologies that are pertinent to this review, with emphasis placed on physics-informed and physics-based ML methods. Then, we provide thorough coverage of recent ML applications in traditional and emerging areas of experimental mechanics, including fracture mechanics, biomechanics, nano- and micro-mechanics, architected materials, and 2D material. Finally, we highlight some current challenges of applying ML to multi-modality and multi-fidelity experimental datasets and propose several future research directions. This review aims to provide valuable insights into the use of ML methods as well as a variety of examples for researchers in solid mechanics to integrate into their experiments.
翻訳日:2023-05-12 17:50:15 公開日:2023-05-11
# graph-toolformer: chatgpt によるプロンプト拡張による llm のグラフ推論能力強化

Graph-ToolFormer: To Empower LLMs with Graph Reasoning Ability via Prompt Augmented by ChatGPT ( http://arxiv.org/abs/2304.11116v3 )

ライセンス: Link先を確認
Jiawei Zhang(参考訳) 本稿では,複雑なグラフデータに対する推論能力を備えた大規模言語モデル(llm)の開発を目指している。 現在、LLMは様々な自然言語学習タスクにおいて非常に優れた性能を発揮しており、その拡張もマルチモーダルデータによる視覚タスクの研究に応用されている。 しかし、グラフ学習のタスクに関しては、既存のLLMは、空間的および時間的要因について、複数の継承された弱点である {multi-step logic reasoning}, {precise mathematical calculation}, {perception about the spatial and temporal factors} を実行するために、非常に深刻な欠陥を呈している。 このような課題に対処するため,本稿では,既存のLCMをグラフ推論能力で強化する原理,方法論,アルゴリズムについて検討する。 最新のChatGPTおよびToolformerモデルにインスパイアされた我々は、Graph-ToolFormer(Graph Reasoning oriented Toolformer)フレームワークを提案する。 具体的には,1)単純なグラフの順序やサイズから,グラフの直径や周辺まで,グラフ特性の推論タスクと,(2)書誌ネットワークやタンパク質分子,シーケンシャルレコメンデータシステム,ソーシャルネットワーク,ナレッジグラフといった,現実的なグラフデータに対するより高度な推論タスクの両方を含む,グラフデータ推論タスクの処理をGraph-ToolFormerに教えることについて検討する。

In this paper, we aim to develop a large language model (LLM) with the reasoning ability on complex graph data. Currently, LLMs have achieved very impressive performance on various natural language learning tasks, extensions of which have also been applied to study the vision tasks with multi-modal data. However, when it comes to the graph learning tasks, existing LLMs present very serious flaws due to their several inherited weaknesses in performing {multi-step logic reasoning}, {precise mathematical calculation} and {perception about the spatial and temporal factors}. To address such challenges, in this paper, we will investigate the principles, methodologies and algorithms to empower existing LLMs with graph reasoning ability, which will have tremendous impacts on the current research of both LLMs and graph learning. Inspired by the latest ChatGPT and Toolformer models, we propose the Graph-ToolFormer (Graph Reasoning oriented Toolformer) framework to teach LLMs themselves with prompts augmented by ChatGPT to use external graph reasoning API tools. Specifically, we will investigate to teach Graph-ToolFormer to handle various graph data reasoning tasks in this paper, including both (1) very basic graph data loading and graph property reasoning tasks, ranging from simple graph order and size to the graph diameter and periphery, and (2) more advanced reasoning tasks on real-world graph data, such as bibliographic networks, protein molecules, sequential recommender systems, social networks and knowledge graphs.
翻訳日:2023-05-12 17:44:44 公開日:2023-05-11
# Progressive-Hint Promptingは大規模言語モデルの推論を改善する

Progressive-Hint Prompting Improves Reasoning in Large Language Models ( http://arxiv.org/abs/2304.09797v3 )

ライセンス: Link先を確認
Chuanyang Zheng, Zhengying Liu, Enze Xie, Zhenguo Li, Yu Li(参考訳) 推論タスクにおける大規模言語モデル(llm)のパフォーマンスは、プロンプトデザインに大きく依存しており、chain-of-thought (cot) と self-consistency はこの能力を高める重要な方法である。 しかし、これらの手法はLLMが生成した回答を十分に活用していない。 本稿では,これまで生成した回答をヒントとして,ユーザとLLMの対話を自動的に行うためのプロンプトプロンプト手法であるプログレッシブ・ヒント・プロンプト(PHP)を提案する。 PHPはCoTと自己整合性に直交しているため、最新技術と組み合わせてパフォーマンスをさらに向上することができる。 提案手法の有効性を実証するため,広範かつ包括的な評価を行った。 7つのベンチマーク実験の結果,CoTとPHPの自己整合性の組み合わせは高い効率を維持しながら精度を著しく向上させることがわかった。 例えば、text-davinci-003では、複雑なCoTに比べてGSM8Kが4.2%向上し、自己整合性のあるサンプルパスが46.17%減少した。 GPT-4とPHPでは、SVAMP(89.1% -> 91.9%)、GSM8K(92% -> 95.5%)、AQuA(76.4% -> 79.9%)、MATH(50.3% -> 53.9%)の最先端のパフォーマンスを実現している。

The performance of Large Language Models (LLMs) in reasoning tasks depends heavily on prompt design, with Chain-of-Thought (CoT) and self-consistency being critical methods that enhance this ability. However, these methods do not fully exploit the answers generated by the LLM to guide subsequent responses. This paper proposes a new prompting method, named Progressive-Hint Prompting (PHP), that enables automatic multiple interactions between users and LLMs by using previously generated answers as hints to progressively guide toward the correct answers. PHP is orthogonal to CoT and self-consistency, making it easy to combine with state-of-the-art techniques to further improve performance. We conducted an extensive and comprehensive evaluation to demonstrate the effectiveness of the proposed method. Our experimental results on seven benchmarks show that combining CoT and self-consistency with PHP significantly improves accuracy while remaining highly efficient. For instance, with text-davinci-003, we observed a 4.2% improvement on GSM8K with greedy decoding compared to Complex CoT, and a 46.17% reduction in sample paths with self-consistency. With GPT-4 and PHP, we achieve state-of-the-art performances on SVAMP (89.1% -> 91.9%), GSM8K (92% -> 95.5%), AQuA (76.4% -> 79.9%) and MATH (50.3% -> 53.9%).
翻訳日:2023-05-12 17:44:13 公開日:2023-05-11
# 乳癌画像の深層学習 : 進歩と今後の方向性

Deep Learning in Breast Cancer Imaging: A Decade of Progress and Future Directions ( http://arxiv.org/abs/2304.06662v3 )

ライセンス: Link先を確認
Luyang Luo, Xi Wang, Yi Lin, Xiaoqi Ma, Andong Tan, Ronald Chan, Varut Vardhanabhuti, Winnie CW Chu, Kwang-Ting Cheng, Hao Chen(参考訳) 乳がんは2020年以降、世界中のすべての悪性腫瘍の中で最高率に達している。 乳がん患者の早期診断と治療の介入において乳房画像は重要な役割を担っている。 過去10年間で、深層学習は乳がん画像解析の顕著な進歩を示し、乳がん画像の豊富な情報と複雑な文脈を解釈する上で大きな可能性を秘めている。 深層学習技術の急速な進歩と乳癌の重症度の増加を考えると、過去の進歩を要約し、対処すべき今後の課題を特定することが重要である。 本稿では,過去10年間のマンモグラム,超音波,磁気共鳴画像,およびデジタル病理画像の研究を対象とする,ディープラーニングに基づく乳癌イメージング研究の広範な調査を行う。 画像ベースのスクリーニング、診断、治療反応予測、予後予測における主要なディープラーニング手法、公開データセット、および応用について詳述する。 本稿では,本研究の結果から,ディープラーニングを用いた乳がんイメージングにおける今後の研究の課題と可能性について総合的な考察を行う。

Breast cancer has reached the highest incidence rate worldwide among all malignancies since 2020. Breast imaging plays a significant role in early diagnosis and intervention to improve the outcome of breast cancer patients. In the past decade, deep learning has shown remarkable progress in breast cancer imaging analysis, holding great promise in interpreting the rich information and complex context of breast imaging modalities. Considering the rapid improvement in the deep learning technology and the increasing severity of breast cancer, it is critical to summarize past progress and identify future challenges to be addressed. In this paper, we provide an extensive survey of deep learning-based breast cancer imaging research, covering studies on mammogram, ultrasound, magnetic resonance imaging, and digital pathology images over the past decade. The major deep learning methods, publicly available datasets, and applications on imaging-based screening, diagnosis, treatment response prediction, and prognosis are described in detail. Drawn from the findings of this survey, we present a comprehensive discussion of the challenges and potential avenues for future research in deep learning-based breast cancer imaging.
翻訳日:2023-05-12 17:43:41 公開日:2023-05-11
# MC-ViViT:Multi-branch Classifier-ViViTによる高齢者の軽度認知障害の検出

MC-ViViT: Multi-branch Classifier-ViViT to Detect Mild Cognitive Impairment in Older Adults using Facial Videos ( http://arxiv.org/abs/2304.05292v2 )

ライセンス: Link先を確認
Jian Sun, Hiroko H. Dodge, and Mohammad H. Mahoor(参考訳) 畳み込みニューラルネットワーク(cnn)を含む深層機械学習モデルは、医療画像、アンケート、ビデオを用いた軽度認知障害(mci)の検出に成功している。 本稿では,mciと正常認知を有するものを顔特徴解析により区別するマルチブランチ分類器・ビデオビジョントランスフォーマ(mc-vivit)モデルを提案する。 このデータは、頻繁なビデオチャットを提供することで認知機能を改善するための行動介入試験であるI-CONECTから得られたものだ。 MC-ViViTは1つのブランチでビデオの時空間的特徴を抽出し、MCモジュールによる表現を拡大する。 I-CONECTデータセットは、MC-ViViTのパフォーマンスを妨げるHard-EasyとPositive-Negativeのサンプルを含むデータセットの不均衡のため、難しい。 不均衡な問題に対処するために,Focal LossとAD-CORRE Lossを組み合わせたHP Loss(HP Loss)の損失関数を提案する。 I-CONECTデータセットの実験結果から,MC-ViViTがMCIを90.63倍の精度で予測できる可能性が示された。

Deep machine learning models including Convolutional Neural Networks (CNN) have been successful in the detection of Mild Cognitive Impairment (MCI) using medical images, questionnaires, and videos. This paper proposes a novel Multi-branch Classifier-Video Vision Transformer (MC-ViViT) model to distinguish MCI from those with normal cognition by analyzing facial features. The data comes from the I-CONECT, a behavioral intervention trial aimed at improving cognitive function by providing frequent video chats. MC-ViViT extracts spatiotemporal features of videos in one branch and augments representations by the MC module. The I-CONECT dataset is challenging as the dataset is imbalanced containing Hard-Easy and Positive-Negative samples, which impedes the performance of MC-ViViT. We propose a loss function for Hard-Easy and Positive-Negative Samples (HP Loss) by combining Focal loss and AD-CORRE loss to address the imbalanced problem. Our experimental results on the I-CONECT dataset show the great potential of MC-ViViT in predicting MCI with a high accuracy of 90.63\% accuracy on some of the interview videos.
翻訳日:2023-05-12 17:43:25 公開日:2023-05-11
# ChatGPT/GPT-4研究の概要と大規模言語モデルの将来への展望

Summary of ChatGPT/GPT-4 Research and Perspective Towards the Future of Large Language Models ( http://arxiv.org/abs/2304.01852v3 )

ライセンス: Link先を確認
Yiheng Liu, Tianle Han, Siyuan Ma, Jiayue Zhang, Yuanyuan Yang, Jiaming Tian, Hao He, Antong Li, Mengshen He, Zhengliang Liu, Zihao Wu, Dajiang Zhu, Xiang Li, Ning Qiang, Dingang Shen, Tianming Liu, Bao Ge(参考訳) 本稿では,GPTシリーズにおけるChatGPTとGPT-4,最先端の大規模言語モデル (LLM) の総合的な調査と,多分野にわたる将来的な応用について述べる。 実際、世界中の知識を捉える大規模な事前学習や、人間のフィードバックからの微調整と強化学習(RLHF)といった重要な革新は、LLMの適応性と性能を高める上で重要な役割を担っている。 各種アプリケーション領域におけるトレンド分析,ワードクラウド表現,分布解析を含む,arXivに関する194の関連論文の詳細な分析を行った。 この発見は、直接の自然言語処理アプリケーションを中心にしたchatgpt/gpt-4研究に有意かつ増大する関心を示し、教育や歴史から数学、医学、物理学まで幅広い分野においてかなりの可能性を示している。 本研究は,ChatGPTの能力,潜在的含意,倫理的懸念,今後の発展への方向性について考察する。

This paper presents a comprehensive survey of ChatGPT and GPT-4, state-of-the-art large language models (LLM) from the GPT series, and their prospective applications across diverse domains. Indeed, key innovations such as large-scale pre-training that captures knowledge across the entire world wide web, instruction fine-tuning and Reinforcement Learning from Human Feedback (RLHF) have played significant roles in enhancing LLMs' adaptability and performance. We performed an in-depth analysis of 194 relevant papers on arXiv, encompassing trend analysis, word cloud representation, and distribution analysis across various application domains. The findings reveal a significant and increasing interest in ChatGPT/GPT-4 research, predominantly centered on direct natural language processing applications, while also demonstrating considerable potential in areas ranging from education and history to mathematics, medicine, and physics. This study endeavors to furnish insights into ChatGPT's capabilities, potential implications, ethical concerns, and offer direction for future advancements in this field.
翻訳日:2023-05-12 17:42:50 公開日:2023-05-11
# 生体認証における非目標近傍衝突攻撃

Untargeted Near-collision Attacks in Biometric Recognition ( http://arxiv.org/abs/2304.01580v2 )

ライセンス: Link先を確認
Axel Durbet and Paul-Marie Grollemund and Kevin Thiry-Atighehchi(参考訳) 生体認証システムは、識別または検証の2つの異なるモードで動作する。 第1のモードでは、システムは、マッチするすべてのユーザの登録テンプレートを検索することで、個人を認識する。 第2モードでは、新たに提供されたテンプレートと登録されたテンプレートを比較して、ユーザのアイデンティティクレームを検証する。 バイオメトリック変換方式は通常、暗号方式によりよりよく扱われるバイナリテンプレートを生成し、比較は2つのバイオメトリックテンプレート間の類似性に関する情報をリークする距離に基づいて行われる。 認識しきい値調整による偽の一致率と偽の一致率の両方が認識精度を規定し、システムのセキュリティを規定している。 私たちの知る限りでは、情報の漏えいを最小限に抑え、すなわち閾値との比較による二分結果の下でセキュリティを形式的に扱う作品はほとんどない。 本稿では,バイナリテンプレートのセキュリティ強度を定量化するために,確率モデルに頼る。 テンプレートサイズ,データベースサイズ,しきい値がほぼ衝突する確率に及ぼす影響について検討した。 本研究は, 生体認証システムに対する非標的攻撃を数回強調する。 興味深いことに、これらの攻撃はオンラインとオフラインの両方で、識別モードと検証モードの両方で起動できる。 汎用攻撃によるパラメータの選択について検討する。

A biometric recognition system can operate in two distinct modes, identification or verification. In the first mode, the system recognizes an individual by searching the enrolled templates of all the users for a match. In the second mode, the system validates a user's identity claim by comparing the fresh provided template with the enrolled template. The biometric transformation schemes usually produce binary templates that are better handled by cryptographic schemes, and the comparison is based on a distance that leaks information about the similarities between two biometric templates. Both the experimentally determined false match rate and false non-match rate through recognition threshold adjustment define the recognition accuracy, and hence the security of the system. To the best of our knowledge, few works provide a formal treatment of the security under minimum leakage of information, i.e., the binary outcome of a comparison with a threshold. In this paper, we rely on probabilistic modelling to quantify the security strength of binary templates. We investigate the influence of template size, database size and threshold on the probability of having a near-collision. We highlight several untargeted attacks on biometric systems considering naive and adaptive adversaries. Interestingly, these attacks can be launched both online and offline and, both in the identification mode and in the verification mode. We discuss the choice of parameters through the generic presented attacks.
翻訳日:2023-05-12 17:42:30 公開日:2023-05-11
# オーバーラップギャッププロパティからの Combinatorial NLTS

Combinatorial NLTS From the Overlap Gap Property ( http://arxiv.org/abs/2304.00643v2 )

ライセンス: Link先を確認
Eric R. Anschuetz and David Gamarnik and Bobak Kiani(参考訳) 最近の重要な発展の中で、Anshu, Breuckmann, and Nirkhe [ABN22] は、フリードマンとヘイスティングスによるいわゆるNo Low-Energy Trivial State (NLTS)予想を肯定的に解決した。 この予想は、浅い(sublogarithmic depth)回路でニアグラウンド状態が作成できないn量子ビット系上の線形サイズの局所ハミルトニアンの存在を仮定した。 ABN22]の構成は、最近開発された良い量子符号に基づいている。 この方向の初期の結果には、nltsの弱いバージョンであるいわゆる組合せnltsの構成も含まれており、ハミルトニアン項 [ab22] の消失分数に少なくとも違反した場合、状態は低エネルギーであると定義されている。 これらの構造は暗号にも基づいていた。 本稿では、Y Combinatorial NLTSを満たすハミルトン群の「非コード」構成を提供する。 この構成は [AB22] に着想を得たものであるが、我々の証明はコードの性質ではなくランダム K-SAT の複素解空間幾何を用いる。 具体的には、ある節から変数への密度を超えると、ランダムな k-sat の割り当てを満足する集合は重複ギャップ特性を示し、これは各集合を指数関数的に多数のクラスターに分割することができることを意味する。 我々は、このクラスタリング特性のある種の頑健なバージョンを確立し、我々の構築したハミルトニアンの任意の組合せ的近傍状態が、この集合によって支持されるほぼ一様分布を誘導することを示す。 標準引数は、そのような分布は深さo(log n)の量子回路では作成できないことを示すために用いられる。 クラスタリング特性は、適切な色付けや最大カットを含む多くのランダムな構造で示されるので、これらのモデルにも我々のアプローチが拡張可能であることを期待する。

In an important recent development, Anshu, Breuckmann, and Nirkhe [ABN22] resolved positively the so-called No Low-Energy Trivial State (NLTS) conjecture by Freedman and Hastings. The conjecture postulated the existence of linear-size local Hamiltonians on n qubit systems for which no near-ground state can be prepared by a shallow (sublogarithmic depth) circuit. The construction in [ABN22] is based on recently developed good quantum codes. Earlier results in this direction included the constructions of the so-called Combinatorial NLTS -- a weaker version of NLTS -- where a state is defined to have low energy if it violates at most a vanishing fraction of the Hamiltonian terms [AB22]. These constructions were also based on codes. In this paper we provide a "non-code" construction of a class of Hamiltonians satisfying the Combinatorial NLTS. The construction is inspired by one in [AB22], but our proof uses the complex solution space geometry of random K-SAT instead of properties of codes. Specifically, it is known that above a certain clause-to-variables density the set of satisfying assignments of random K-SAT exhibits an overlap gap property, which implies that it can be partitioned into exponentially many clusters each constituting at most an exponentially small fraction of the total set of satisfying solutions. We establish a certain robust version of this clustering property for the space of near-satisfying assignments and show that for our constructed Hamiltonians every combinatorial near-ground state induces a near-uniform distribution supported by this set. Standard arguments then are used to show that such distributions cannot be prepared by quantum circuits with depth o(log n). Since the clustering property is exhibited by many random structures, including proper coloring and maximum cut, we anticipate that our approach is extendable to these models as well.
翻訳日:2023-05-12 17:42:09 公開日:2023-05-11
# 軽量ビジョントランスにおける局所認識の再考

Rethinking Local Perception in Lightweight Vision Transformer ( http://arxiv.org/abs/2303.17803v3 )

ライセンス: Link先を確認
Qihang Fan, Huaibo Huang, Jiyang Guan, Ran He(参考訳) 視覚変換器(ViT)は様々な視覚タスクに有効であることが示されている。 しかし、それらをモバイルフレンドリーなサイズにリサイズすると、パフォーマンスが大幅に低下する。 そのため、軽量な視覚トランスフォーマーの開発は重要な研究分野となっている。 本稿では,コンテキスト対応の局所拡張を利用した軽量視覚トランスフォーマであるcloformerを紹介する。 cloformerは、バニラ畳み込み演算子でよく使われるグローバルな共有重みと注意を向けるトークン固有のコンテキスト認識重みの関係を探求し、高頻度の局所情報をキャプチャする効果的で簡単なモジュールを提案する。 CloFormerでは、注意スタイルの畳み込み演算子であるAttnConvを紹介します。 提案するattnconvは、共有重みを使ってローカル情報を集約し、注意深く設計されたコンテキストアウェア重みを配置し、ローカル機能を強化する。 CloFormerのFLOPを減らすためにプールを使用するAttnConvとバニラアテンションを組み合わせることで、モデルは高周波と低周波の情報を認識することができる。 画像分類,物体検出,意味セグメンテーションなどの広範な実験を行い,cloformerの優位性を実証した。

Vision Transformers (ViTs) have been shown to be effective in various vision tasks. However, resizing them to a mobile-friendly size leads to significant performance degradation. Therefore, developing lightweight vision transformers has become a crucial area of research. This paper introduces CloFormer, a lightweight vision transformer that leverages context-aware local enhancement. CloFormer explores the relationship between globally shared weights often used in vanilla convolutional operators and token-specific context-aware weights appearing in attention, then proposes an effective and straightforward module to capture high-frequency local information. In CloFormer, we introduce AttnConv, a convolution operator in attention's style. The proposed AttnConv uses shared weights to aggregate local information and deploys carefully designed context-aware weights to enhance local features. The combination of the AttnConv and vanilla attention which uses pooling to reduce FLOPs in CloFormer enables the model to perceive high-frequency and low-frequency information. Extensive experiments were conducted in image classification, object detection, and semantic segmentation, demonstrating the superiority of CloFormer.
翻訳日:2023-05-12 17:41:33 公開日:2023-05-11
# グラフ上の公理からベクトルへ、そして再び、グラフに基づくオントロジー埋め込みの性質を評価する

From axioms over graphs to vectors, and back again: evaluating the properties of graph-based ontology embeddings ( http://arxiv.org/abs/2303.16519v2 )

ライセンス: Link先を確認
Fernando Zhapa-Camacho, Robert Hoehndorf(参考訳) 記述論理オントロジーの埋め込みを生成し、機械学習にこれらの埋め込みを使用するいくつかのアプローチが開発されている。 オントロジーを生成する1つのアプローチは、まずオントロジーをグラフ構造に埋め込み、すなわち名前付きエンティティと論理公理のためのノードとエッジの集合を導入し、次にグラフ埋め込みを適用することで、グラフを$\mathbb{r}^n$に埋め込む。 グラフ(グラフ射影)にオントロジーを埋め込む方法は、それらが活用できる公理の種類、射影が可逆であるかどうか、あるいは主張された公理に応用できるかどうか、あるいはその帰納的閉包に関して異なる形式的性質を持つ。 オントロジーの埋め込みに用いられてきた複数のグラフ投影法を定量的・定量的に分析し,オントロジー埋め込みによる公理予測の性能に及ぼすグラフ投影の性質の影響を実証した。 予測法には相違があり, ノードとエッジへの公理の投射と知識の表現における存在論的選択の両方が, 公理の予測にオントロジー埋め込みを用いることの成功に影響を及ぼすことがわかった。

Several approaches have been developed that generate embeddings for Description Logic ontologies and use these embeddings in machine learning. One approach of generating ontologies embeddings is by first embedding the ontologies into a graph structure, i.e., introducing a set of nodes and edges for named entities and logical axioms, and then applying a graph embedding to embed the graph in $\mathbb{R}^n$. Methods that embed ontologies in graphs (graph projections) have different formal properties related to the type of axioms they can utilize, whether the projections are invertible or not, and whether they can be applied to asserted axioms or their deductive closure. We analyze, qualitatively and quantitatively, several graph projection methods that have been used to embed ontologies, and we demonstrate the effect of the properties of graph projections on the performance of predicting axioms from ontology embeddings. We find that there are substantial differences between different projection methods, and both the projection of axioms into nodes and edges as well ontological choices in representing knowledge will impact the success of using ontology embeddings to predict axioms.
翻訳日:2023-05-12 17:41:14 公開日:2023-05-11
# STOP低リソースチャレンジに向けたMLMデータ拡張によるASRとNLUのパイプラインシステム

The Pipeline System of ASR and NLU with MLM-based Data Augmentation toward STOP Low-resource Challenge ( http://arxiv.org/abs/2305.01194v2 )

ライセンス: Link先を確認
Hayato Futami, Jessica Huynh, Siddhant Arora, Shih-Lun Wu, Yosuke Kashiwagi, Yifan Peng, Brian Yan, Emiru Tsunoo, Shinji Watanabe(参考訳) 本稿では,ICASSP 信号処理グランドチャレンジ 2023 の一部である Spoken Language Understanding Grand Challenge における低リソース領域適応トラック (Track 3) について述べる。 トラックでは、ASRとNLUのパイプラインアプローチを採用しています。 ASRでは、アップサンプリングで各ドメインに対してWhisperを微調整します。 NLUでは、すべてのTrack3データと低リソースのドメインデータに基づいてBARTを微調整します。 マスク付きLM(MLM)ベースのデータ拡張を適用し、入力トークンと対応するターゲットラベルのいくつかをMLMで置き換える。 また,モデル入力に類似したトレーニングサンプルを追加する,検索ベースのアプローチも適用する。 その結果、リマインダー/ウェザードメインの精度63.3/75.0(平均69.15)を達成し、挑戦で1位を獲得した。

This paper describes our system for the low-resource domain adaptation track (Track 3) in Spoken Language Understanding Grand Challenge, which is a part of ICASSP Signal Processing Grand Challenge 2023. In the track, we adopt a pipeline approach of ASR and NLU. For ASR, we fine-tune Whisper for each domain with upsampling. For NLU, we fine-tune BART on all the Track3 data and then on low-resource domain data. We apply masked LM (MLM) -based data augmentation, where some of input tokens and corresponding target labels are replaced using MLM. We also apply a retrieval-based approach, where model input is augmented with similar training samples. As a result, we achieved exact match (EM) accuracy 63.3/75.0 (average: 69.15) for reminder/weather domain, and won the 1st place at the challenge.
翻訳日:2023-05-12 17:33:53 公開日:2023-05-11
# ノイズは量子通信における資源コンテキストである

Noise is resource-contextual in quantum communication ( http://arxiv.org/abs/2305.00680v2 )

ライセンス: Link先を確認
Aditya Nema, Ananda G. Maity, Sergii Strelchuk and David Elkouss(参考訳) 量子チャネルの情報伝達能力の推定は、量子情報処理における根本的な問題の一つである。 古典的チャネルとは対照的に、量子チャネルの情報伝達能力は文脈的である。 2つの量子チャネルの容量は、個々の容量の合計よりも大きい可能性がある。 本稿では、パラメータが1つの量子容量とプライベート容量を増加させるにつれて、2つのチャネル容量が減少する1つのパラメータのチャネルファミリを示す。 また,一方向と二方向の蒸留可能な絡み合いと秘密鍵に関して,類似の挙動を持つ1パラメータの状態の族を示す。 我々の構造は、ノイズが量子通信に依存していることを示している。

Estimating the information transmission capability of a quantum channel remains one of the fundamental problems in quantum information processing. In contrast to classical channels, the information-carrying capability of quantum channels is contextual. One of the most significant manifestations of this is the superadditivity of the channel capacity: the capacity of two quantum channels used together can be larger than the sum of the individual capacities. Here, we present a one-parameter family of channels for which as the parameter increases its one-way quantum and private capacities increase while its two-way capacities decrease. We also exhibit a one-parameter family of states with analogous behavior with respect to the one- and two-way distillable entanglement and secret key. Our constructions demonstrate that noise is context dependent in quantum communication.
翻訳日:2023-05-12 17:33:37 公開日:2023-05-11
# 自己監督型行動認識のためのコントラスト学習

Part Aware Contrastive Learning for Self-Supervised Action Recognition ( http://arxiv.org/abs/2305.00666v2 )

ライセンス: Link先を確認
Yilei Hua, Wenhan Wu, Ce Zheng, Aidong Lu, Mengyuan Liu, Chen Chen, Shiqian Wu(参考訳) 近年,スケルトンシーケンスと対比学習を用いた自己教師付き行動認識において顕著な結果が得られている。 人間の行動特徴のセマンティックな区別は、足や手などの局所的な身体部位によって表されることが多く、骨格に基づく行動認識に有利である。 本稿では,骨格表現の局所的類似性とグローバルな特徴を統合した,骨格表現学習のための注意型コントラスト学習フレームワークであるSkeAttnCLRを提案する。 これを実現するために、スケルトンからソフトアテンションマスクの特徴を学習するためにマルチヘッドアテンションマスクモジュールを使用し、局所的な塩分特徴をアクセントしながら非塩分局所特徴を抑え、特徴空間に類似した局所特徴を近づける。 さらに、グローバルな特徴を持つ正当性と非正則性に基づくコントラストペアを拡張して、スケルトン全体の意味表現をネットワークに教えることによって、多くのコントラストペアが生成される。 したがって、アテンションマスク機構により、SkeAttnCLRは異なるデータ拡張ビューの下でローカル機能を学ぶ。 実験の結果,局所的特徴類似性がスケルトンに基づく行動表現を著しく高めることが示された。 提案するSkeAttnCLRはNTURGB+D, NTU120-RGB+D, PKU-MMDデータセットの最先端手法より優れている。

In recent years, remarkable results have been achieved in self-supervised action recognition using skeleton sequences with contrastive learning. It has been observed that the semantic distinction of human action features is often represented by local body parts, such as legs or hands, which are advantageous for skeleton-based action recognition. This paper proposes an attention-based contrastive learning framework for skeleton representation learning, called SkeAttnCLR, which integrates local similarity and global features for skeleton-based action representations. To achieve this, a multi-head attention mask module is employed to learn the soft attention mask features from the skeletons, suppressing non-salient local features while accentuating local salient features, thereby bringing similar local features closer in the feature space. Additionally, ample contrastive pairs are generated by expanding contrastive pairs based on salient and non-salient features with global features, which guide the network to learn the semantic representations of the entire skeleton. Therefore, with the attention mask mechanism, SkeAttnCLR learns local features under different data augmentation views. The experiment results demonstrate that the inclusion of local feature similarity significantly enhances skeleton-based action representation. Our proposed SkeAttnCLR outperforms state-of-the-art methods on NTURGB+D, NTU120-RGB+D, and PKU-MMD datasets.
翻訳日:2023-05-12 17:33:26 公開日:2023-05-11
# 典型性をもつ条件論理における多層パーセプトロンの優先的解釈

A preferential interpretation of MultiLayer Perceptrons in a conditional logic with typicality ( http://arxiv.org/abs/2305.00304v2 )

ライセンス: Link先を確認
Mario Alviano, Francesco Bartoli, Marco Botta, Roberto Esposito, Laura Giordano, Daniele Theseider Dupr\'e(参考訳) 本稿では,知識表現におけるデファシブル推論のための多項述語セマンティクスと多層ニューラルネットワークモデルとの関係について検討する。 典型的な単純な記述論理に対する重み付き知識ベースは、(多値) ``concept-wise" 多重参照セマンティクスの下で考慮される。 セマンティクスは、MultiLayer Perceptrons(MLP)の優先的な解釈を提供するために使用される。 MLPの条件特性の検証には,モデルチェックとエンテーメントに基づくアプローチが有効である。

In this paper we investigate the relationships between a multipreferential semantics for defeasible reasoning in knowledge representation and a multilayer neural network model. Weighted knowledge bases for a simple description logic with typicality are considered under a (many-valued) ``concept-wise" multipreference semantics. The semantics is used to provide a preferential interpretation of MultiLayer Perceptrons (MLPs). A model checking and an entailment based approach are exploited in the verification of conditional properties of MLPs.
翻訳日:2023-05-12 17:33:01 公開日:2023-05-11
# トラクタブル・マルチパースペクティブ・推論の境界を推し進める:スタンドポイントEL+のドダクション計算

Pushing the Boundaries of Tractable Multiperspective Reasoning: A Deduction Calculus for Standpoint EL+ ( http://arxiv.org/abs/2304.14323v2 )

ライセンス: Link先を確認
Luc\'ia G\'omez \'Alvarez, Sebastian Rudolph and Hannes Strass(参考訳) スタンドポイントEL(Standpoint EL)は、一般的な記述ロジックELのマルチモーダル拡張であり、さまざまな視点や視点に対するドメイン知識の統合表現を可能にする。 利点として、その満足度問題は、最近PTimeにあることが示され、大規模な知識統合のための有望なフレームワークとなっている。 本稿では,この形式主義の表現性をさらに推し進めること,すなわちStandpoint EL+と呼ばれる,公理否定,ロールチェーン公理,自己ループ,その他の特徴をトラクタビリティを維持しつつ,拡張論理に到達できることを述べる。 これは、実用的なアルゴリズムの必要性に対処する、満足度チェックの推論計算を設計することで達成される。 我々は,その推論規則の原型データログの実装を提示することにより,計算の実現可能性を示す。

Standpoint EL is a multi-modal extension of the popular description logic EL that allows for the integrated representation of domain knowledge relative to diverse standpoints or perspectives. Advantageously, its satisfiability problem has recently been shown to be in PTime, making it a promising framework for large-scale knowledge integration. In this paper, we show that we can further push the expressivity of this formalism, arriving at an extended logic, called Standpoint EL+, which allows for axiom negation, role chain axioms, self-loops, and other features, while maintaining tractability. This is achieved by designing a satisfiability-checking deduction calculus, which at the same time addresses the need for practical algorithms. We demonstrate the feasibility of our calculus by presenting a prototypical Datalog implementation of its deduction rules.
翻訳日:2023-05-12 17:32:53 公開日:2023-05-11
# 人-ロボットインタラクションシナリオの生成を支援するサロゲート

Surrogate Assisted Generation of Human-Robot Interaction Scenarios ( http://arxiv.org/abs/2304.13787v2 )

ライセンス: Link先を確認
Varun Bhatt, Heramb Nemlekar, Matthew C. Fontaine, Bryon Tjanaka, Hejia Zhang, Ya-Chuan Hsu, Stefanos Nikolaidis(参考訳) HRI(Human-robot Interaction)システムが進歩するにつれて、異なる環境と異なるユーザでこれらのシステムの強みや制限を評価し理解することが困難になる。 この目的のために、従来の手法は、共有制御遠隔操作タスクにおけるシステム障害を明らかにする様々なシナリオをアルゴリズムで生成している。 しかし,これらの手法では,ロボットのポリシーや人間行動のシミュレーションによって生成シナリオを直接評価する必要がある。 これらの評価の計算コストは、より複雑な領域での適用性を制限する。 そこで本研究では,人間とロボットの行動を予測するサロゲートモデルを用いたシナリオ生成システムを提案する。 共有制御遠隔操作ドメインとより複雑な共有ワークスペース協調タスクにおいて,surrogate assisted scenario generation が課題シナリオの多様なデータセットを効率的に合成することを示す。 これらの失敗は実世界の相互作用において再現可能であることを示す。

As human-robot interaction (HRI) systems advance, so does the difficulty of evaluating and understanding the strengths and limitations of these systems in different environments and with different users. To this end, previous methods have algorithmically generated diverse scenarios that reveal system failures in a shared control teleoperation task. However, these methods require directly evaluating generated scenarios by simulating robot policies and human actions. The computational cost of these evaluations limits their applicability in more complex domains. Thus, we propose augmenting scenario generation systems with surrogate models that predict both human and robot behaviors. In the shared control teleoperation domain and a more complex shared workspace collaboration task, we show that surrogate assisted scenario generation efficiently synthesizes diverse datasets of challenging scenarios. We demonstrate that these failures are reproducible in real-world interactions.
翻訳日:2023-05-12 17:32:37 公開日:2023-05-11
# 勾配ブースト決定木の1ホットエンコーディングと正規化によるロバスト性向上

Enhancing Robustness of Gradient-Boosted Decision Trees through One-Hot Encoding and Regularization ( http://arxiv.org/abs/2304.13761v3 )

ライセンス: Link先を確認
Shijie Cui, Agus Sudjianto, Aijun Zhang, Runze Li(参考訳) グラフデータモデリングにおいて、GBDT(Gradient-boosted decision tree)が広く使われ、非常に効果的な機械学習アプローチである。 しかし、その複雑な構造は、目に見えないデータにおいて小さな共変量摂動に対して低い堅牢性をもたらす可能性がある。 本研究では,各木の葉を1つのダミー変数にエンコーディングすることにより,gbdtモデルを線形フレームワークに変換するために,ワンホットエンコーディングを適用する。 これにより線形回帰法が利用可能となり、GBDTモデルの共変量摂動に対する堅牢性を評価する新たなリスク分解が可能となった。 線形回帰形式を$L_1$または$L_2$正規化することでGBDTモデルの堅牢性を高めることを提案する。 モデル性能とロバスト性に対する正則化の効果に関する理論的結果を得た。 数値実験により,提案手法は1ホット符号化GBDTモデルのロバスト性を高めることができることを示した。

Gradient-boosted decision trees (GBDT) are widely used and highly effective machine learning approach for tabular data modeling. However, their complex structure may lead to low robustness against small covariate perturbation in unseen data. In this study, we apply one-hot encoding to convert a GBDT model into a linear framework, through encoding of each tree leaf to one dummy variable. This allows for the use of linear regression techniques, plus a novel risk decomposition for assessing the robustness of a GBDT model against covariate perturbations. We propose to enhance the robustness of GBDT models by refitting their linear regression forms with $L_1$ or $L_2$ regularization. Theoretical results are obtained about the effect of regularization on the model performance and robustness. It is demonstrated through numerical experiments that the proposed regularization approach can enhance the robustness of the one-hot-encoded GBDT models.
翻訳日:2023-05-12 17:32:23 公開日:2023-05-11
# 医用samアダプタ : 医用画像分割のためのsegment anythingモデルの適用

Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation ( http://arxiv.org/abs/2304.12620v5 )

ライセンス: Link先を確認
Junde Wu and Yu Zhang and Rao Fu and Huihui Fang and Yuanpei Liu and Zhaowei Wang and Yanwu Xu and Yueming Jin(参考訳) Segment Anything Model (SAM)は画像セグメンテーションの分野で最近人気を集めている。 全面的なセグメンテーションタスクとプロンプトベースのインターフェースの素晴らしい機能のおかげで、SAMはコミュニティ内で激しい議論を巻き起こした。 イメージセグメンテーションのタスクはSAMによって「完了」されたと多くの名高い専門家から言われている。 しかし, イメージセグメンテーションは, イメージセグメンテーションファミリーの重要な分枝であるが, セグメンテーション"Anything"の範囲には含まれていないようである。 多くの個人実験や最近の研究では、SAMは医療画像のセグメンテーションのサブパールを担っていることが示されている。 自然な疑問は、SAMの強力なセグメンテーション能力を医療画像セグメンテーションに拡張するために、パズルの欠片を見つける方法である。 本稿では,SAMモデルを微調整する代わりに,医療特化領域の知識をセグメンテーションモデルに統合するMed SAM Adapterを提案する。 この単純な実装は、医療画像のセグメンテーションにおいて驚くほど優れた性能を示しており、一般的なNLP技術であるAdapterをコンピュータビジョンのケースに転送する試みの1つだ。 医用SAMアダプタ (MSA) は, CT, MRI, 超音波画像, 眼底画像, 皮膚内視鏡画像など, 様々な画像モダリティを有する19の医用画像セグメンテーションタスクにおいて, 優れた性能を示した。 MSAは、nnUNet、TransUNet、UNetr、MedSegDiffのような幅広い最先端(SOTA)の医療画像セグメンテーション手法より優れており、また、完全に細返されたMedSAMよりもかなりパフォーマンスの差がある。 コードは、https://github.com/WuJunde/Medical-SAM-Adapter.comでリリースされる。

The Segment Anything Model (SAM) has recently gained popularity in the field of image segmentation. Thanks to its impressive capabilities in all-round segmentation tasks and its prompt-based interface, SAM has sparked intensive discussion within the community. It is even said by many prestigious experts that image segmentation task has been "finished" by SAM. However, medical image segmentation, although an important branch of the image segmentation family, seems not to be included in the scope of Segmenting "Anything". Many individual experiments and recent studies have shown that SAM performs subpar in medical image segmentation. A natural question is how to find the missing piece of the puzzle to extend the strong segmentation capability of SAM to medical image segmentation. In this paper, instead of fine-tuning the SAM model, we propose Med SAM Adapter, which integrates the medical specific domain knowledge to the segmentation model, by a simple yet effective adaptation technique. Although this work is still one of a few to transfer the popular NLP technique Adapter to computer vision cases, this simple implementation shows surprisingly good performance on medical image segmentation. A medical image adapted SAM, which we have dubbed Medical SAM Adapter (MSA), shows superior performance on 19 medical image segmentation tasks with various image modalities including CT, MRI, ultrasound image, fundus image, and dermoscopic images. MSA outperforms a wide range of state-of-the-art (SOTA) medical image segmentation methods, such as nnUNet, TransUNet, UNetr, MedSegDiff, and also outperforms the fully fine-turned MedSAM with a considerable performance gap. Code will be released at: https://github.com/WuJunde/Medical-SAM-Adapter.
翻訳日:2023-05-12 17:31:43 公開日:2023-05-11
# フェデレーション学習におけるより小さな一般化誤差によるコミュニケーションの効果

More Communication Does Not Result in Smaller Generalization Error in Federated Learning ( http://arxiv.org/abs/2304.12216v2 )

ライセンス: Link先を確認
Romain Chor, Milad Sefidgaran and Abdellatif Zaidi(参考訳) フェデレートラーニング(FL)における統計的学習モデルの一般化誤差について検討する。 具体的には、デバイスまたはクライアントが$Kで、それぞれ独立して$n$のデータセットを持っている。 Stochastic Gradient Descentを通じてローカルに学習された個々のモデルは、中央サーバによって集約(平均化)され、グローバルモデルに変換され、デバイスに返される。 モデル集約の複数ラウンド(例えば、$r \in \mathbb n^*$)を検討し、最終集約モデルの一般化誤差に対する$r$の影響について検討する。 私たちは、r$の影響を明示的に考慮した一般化エラーの上限を設定します(参加デバイスの数は$k$、データセットサイズは$n$です)。 固定 $(n, k)$ の場合、バウンドは $r$ となり、そのような学習アルゴリズムの一般化はパラメータサーバーとのより頻繁な通信によって負の影響を受けることが示されている。 しかし、経験的リスクが一般に$R$のより大きな値に対して減少するという事実と組み合わせると、$R$はFLアルゴリズムの集団リスクを低減するためのパラメータである可能性がある。 また,不均一なデータ設定に直感的に拡張した本論文の結果を数値例で示す。

We study the generalization error of statistical learning models in a Federated Learning (FL) setting. Specifically, there are $K$ devices or clients, each holding an independent own dataset of size $n$. Individual models, learned locally via Stochastic Gradient Descent, are aggregated (averaged) by a central server into a global model and then sent back to the devices. We consider multiple (say $R \in \mathbb N^*$) rounds of model aggregation and study the effect of $R$ on the generalization error of the final aggregated model. We establish an upper bound on the generalization error that accounts explicitly for the effect of $R$ (in addition to the number of participating devices $K$ and dataset size $n$). It is observed that, for fixed $(n, K)$, the bound increases with $R$, suggesting that the generalization of such learning algorithms is negatively affected by more frequent communication with the parameter server. Combined with the fact that the empirical risk, however, generally decreases for larger values of $R$, this indicates that $R$ might be a parameter to optimize to reduce the population risk of FL algorithms. The results of this paper, which extend straightforwardly to the heterogeneous data setting, are also illustrated through numerical examples.
翻訳日:2023-05-12 17:31:08 公開日:2023-05-11
# 制御可能なシンボリック音楽生成のためのソフトマスキング言語モデリングの検討

Exploring Softly Masked Language Modelling for Controllable Symbolic Music Generation ( http://arxiv.org/abs/2305.03530v2 )

ライセンス: Link先を確認
Nicolas Jonason, Bob L.T. Sturm(参考訳) 本論文は,SMLM(Softly Masked Language Modelling)を記号的音楽生成に適用する初期の研究について述べる。 smlmは、マスキング言語モデリング(mlm)の一般化と見なすことができ、入力集合の各要素が既知のか未知であるかの代わりに、各要素が既知のか、不明か、あるいは部分的に知られている。 変換器エンコーダアーキテクチャを用いた制約付きシンボリック音楽生成にSMLMを適用した結果を示す。 いくつかのオーディオサンプルがhttps://erl-j.github.io/smlm-web-supplement/で入手できる。

This document presents some early explorations of applying Softly Masked Language Modelling (SMLM) to symbolic music generation. SMLM can be seen as a generalisation of masked language modelling (MLM), where instead of each element of the input set being either known or unknown, each element can be known, unknown or partly known. We demonstrate some results of applying SMLM to constrained symbolic music generation using a transformer encoder architecture. Several audio examples are available at https://erl-j.github.io/smlm-web-supplement/
翻訳日:2023-05-12 17:25:01 公開日:2023-05-11
# 触媒は有界絡みを克服できない

Catalysis cannot overcome bound entanglement ( http://arxiv.org/abs/2305.03489v2 )

ライセンス: Link先を確認
Ludovico Lami, Bartosz Regula, Alexander Streltsov(参考訳) 触媒として知られる共役量子系の使用は、局所的な操作と古典的通信の下での絡み合い変換の能力を高めることが知られている。 しかし、これらの利点の限界は決定されておらず、特にそのような援助が漸近的変換率(特に有界絡み合い状態の存在)の既知の制限を克服できるかどうかは不明である。 ここでは, 触媒が関心の系と相関し, パーミッシブな自由操作の選択の下でも, 触媒変換が有界な絡み合い状態からの絡み合いの蒸留を許さないことを示す。 このことは、触媒が絡み合い理論を漸近的に可逆的にできる可能性を妨げる。 本手法は, 連関触媒による蒸留性エンタングルメントとエンタングルメントコストの新しい漸近境界に基づいている。 エンタングルメント理論を超えて、我々のアプローチを拡張することで、触媒は量子コヒーレンスの操作において可逆性を持たず、この資源理論における漸近的触媒変換に対するより強い制限を確立することができる。

The use of ancillary quantum systems known as catalysts is known to be able to enhance the capabilities of entanglement transformations under local operations and classical communication. However, the limits of these advantages have not been determined, and in particular it is not known if such assistance can overcome the known restrictions on asymptotic transformation rates -- notably the existence of bound entangled (undistillable) states. Here we establish a general limitation of entanglement catalysis: we show that catalytic transformations can never allow for the distillation of entanglement from a bound entangled state, even if the catalyst may become correlated with the system of interest, and even under permissive choices of free operations. This precludes the possibility that catalysis can make entanglement theory asymptotically reversible. Our methods are based on new asymptotic bounds for the distillable entanglement and entanglement cost assisted by correlated catalysts. Extending our approach beyond entanglement theory, we show that catalysts also cannot enable reversibility in the manipulation of quantum coherence, establishing even stronger restrictions on asymptotic catalytic transformations in this resource theory.
翻訳日:2023-05-12 17:24:48 公開日:2023-05-11
# 自律システムの信頼性評価

Assessing Trustworthiness of Autonomous Systems ( http://arxiv.org/abs/2305.03411v2 )

ライセンス: Link先を確認
Gregory Chance and Dhaminda B. Abeywickrama and Beckett LeClair and Owen Kerr and Kerstin Eder(参考訳) 社会において、自律システム(AS)がよりユビキタスになり、より安全とそれとの相互作用に責任を負うようになり、それらが信頼に値することが不可欠である。 ASの信頼性を評価することは、検証と開発コミュニティにとって必須の課題である。 これは、現在および将来の幅広いアプリケーションにおいて、ASの信頼性を客観的かつ相対的に判断するのに役立つ適切な標準と適切なメトリクスを必要とします。 信頼度」というメタ表現は、文献でこの用語を構成する関連する性質を捉えるという文脈で検討される。 自律システムの保証をサポートする標準とフレームワークの最近の進展を概観する。 コミュニティにとって重要な課題のリストが特定され、ASの信頼性評価フレームワークとして使用できるプロセスの概要を示す。

As Autonomous Systems (AS) become more ubiquitous in society, more responsible for our safety and our interaction with them more frequent, it is essential that they are trustworthy. Assessing the trustworthiness of AS is a mandatory challenge for the verification and development community. This will require appropriate standards and suitable metrics that may serve to objectively and comparatively judge trustworthiness of AS across the broad range of current and future applications. The meta-expression `trustworthiness' is examined in the context of AS capturing the relevant qualities that comprise this term in the literature. Recent developments in standards and frameworks that support assurance of autonomous systems are reviewed. A list of key challenges are identified for the community and we present an outline of a process that can be used as a trustworthiness assessment framework for AS.
翻訳日:2023-05-12 17:24:27 公開日:2023-05-11
# semeval-2023タスク7: 臨床試験データのための多次元自然言語推論

SemEval-2023 Task 7: Multi-Evidence Natural Language Inference for Clinical Trial Data ( http://arxiv.org/abs/2305.02993v2 )

ライセンス: Link先を確認
Ma\"el Jullien, Marco Valentino, Hannah Frost, Paul O'Regan, Donal Landers, Andr\'e Freitas(参考訳) 本稿では,SemEval 2023 task 7 -- Multi-Evidence Natural Language Inference for Clinical Trial Data (NLI4CT) -- の2つのタスク,自然言語推論(NLI)タスク,臨床治験データに対するエビデンス選択タスクについて述べる。 提案する課題は、医療証拠の大規模解釈と検索が可能なシステムの開発において重要な役割を担っているマルチホップな生体医学的・数値的推論を必要とする。 第1タスクは40人の参加者から643人の応募を受け、第2タスクは証拠選択タスクは23人の参加者から364人の応募を受けた。 課題は課題であり,提出されたシステムの大部分は,提案タスクにおける多数クラスベースラインを著しく上回っており,提案タスクよりもエビデンス選択タスクにおけるパフォーマンスが著しく向上している。 モデルパラメータ数の増加は、バイオメディカル事前トレーニングの効果よりもはるかに重要な、パフォーマンスの直接的な向上につながる。 将来の研究は、一般化と数値推論のための大きなモデルの限界を探求し、より厳密なテストを可能にし、微調整を容易にするために臨床データセットを拡張する方法を探るかもしれない。 我々は, この課題のデータセット, モデル, 結果が, バイオメディカルNLIとエビデンス検索コミュニティに有用であることを示唆する。 データセット、競合リーダーボード、ウェブサイトが公開されている。

This paper describes the results of SemEval 2023 task 7 -- Multi-Evidence Natural Language Inference for Clinical Trial Data (NLI4CT) -- consisting of 2 tasks, a Natural Language Inference (NLI) task, and an evidence selection task on clinical trial data. The proposed challenges require multi-hop biomedical and numerical reasoning, which are of significant importance to the development of systems capable of large-scale interpretation and retrieval of medical evidence, to provide personalized evidence-based care. Task 1, the entailment task, received 643 submissions from 40 participants, and Task 2, the evidence selection task, received 364 submissions from 23 participants. The tasks are challenging, with the majority of submitted systems failing to significantly outperform the majority class baseline on the entailment task, and we observe significantly better performance on the evidence selection task than on the entailment task. Increasing the number of model parameters leads to a direct increase in performance, far more significant than the effect of biomedical pre-training. Future works could explore the limitations of large models for generalization and numerical inference, and investigate methods to augment clinical datasets to allow for more rigorous testing and to facilitate fine-tuning. We envisage that the dataset, models, and results of this task will be useful to the biomedical NLI and evidence retrieval communities. The dataset, competition leaderboard, and website are publicly available.
翻訳日:2023-05-12 17:24:14 公開日:2023-05-11
# 画像キャプチャーは、見る画像より多くを語ることがある

Image Captioners Sometimes Tell More Than Images They See ( http://arxiv.org/abs/2305.02932v2 )

ライセンス: Link先を確認
Honori Udo and Takafumi Koshinaka(参考訳) 画像キャプションは、与えられた画像から記述テキストを生成する「画像からテキスト」であり、ディープラーニングの時代を通じて急速に発展してきた。 画像キャプタによって生成された記述テキストに保存された原画像の情報は、どの程度まで保持されているか。 そこで我々は,画像を参照することなく,説明文のみからの画像の分類を含む実験を行い,その結果を標準画像ベース分類器と比較した。 本研究では,災害画像分類タスクである crisisnlp に関して,複数の画像キャプションモデルを評価し,記述的テキスト分類器が標準画像に基づく分類器よりも高い精度を達成できることを示す。 さらに,画像ベース分類器と記述テキスト分類器を融合させることで精度が向上することを示す。

Image captioning, a.k.a. "image-to-text," which generates descriptive text from given images, has been rapidly developing throughout the era of deep learning. To what extent is the information in the original image preserved in the descriptive text generated by an image captioner? To answer that question, we have performed experiments involving the classification of images from descriptive text alone, without referring to the images at all, and compared results with those from standard image-based classifiers. We have evaluate several image captioning models with respect to a disaster image classification task, CrisisNLP, and show that descriptive text classifiers can sometimes achieve higher accuracy than standard image-based classifiers. Further, we show that fusing an image-based classifier with a descriptive text classifier can provide improvement in accuracy.
翻訳日:2023-05-12 17:23:47 公開日:2023-05-11
# b meson flavour tagging用量子ビット・連続可変量子サポートベクトルマシンの高速化

Boosted Ensembles of Qubit and Continuous Variable Quantum Support Vector Machines for B Meson Flavour Tagging ( http://arxiv.org/abs/2305.02729v2 )

ライセンス: Link先を確認
Maxwell T. West, Martin Sevior and Muhammad Usman(参考訳) 最近、数十から数百のノイズ量子ビットを持つ量子コンピュータの物理的実現は、そのユニークな能力の有用な応用を強く探究するきっかけとなった。 特に注目されている分野は、量子コンピュータ上でネイティブに実行される機械学習アルゴリズムの研究であるquantum machine learning(qml)である。 このようなアルゴリズムは、量子コンピュータのパターン認識能力の向上が期待される粒子物理学におけるデータ集約的な問題に応用され始めている。 本研究では,宇宙で観測される物質-反物質非対称性をよりよく理解するために,重クォーク混合とcp違反を探索する粒子物理学実験の重要な要素であるb meson flavour tagging法を開発,応用する。 量子サポートベクトルマシン(qsvm)を従来の量子ビットベースのアーキテクチャと連続変数アーキテクチャの両方に基づいて拡張したアンサンブルをシミュレートし,従来の機械学習アルゴリズムを用いた30.0%の結果に匹敵する28.0%と29.2%の効果的なタグ付け効率を実現する。 分類器のアンサンブルの性質は特に重要であり、単一のQSVMの効果的なタグ付け効率を2倍にしている。 これらの結果は、古典的にシミュレート可能なQSVMアーキテクチャを扱うという強い制約にもかかわらず得られ、古典的にシミュレート可能なシミュレートを超えた連続変数QSVMが、十分に強力な量子ハードウェアを開発すれば、報告された古典的な結果を超え、さらに高いパフォーマンスを実現することができることを示す。

The recent physical realisation of quantum computers with dozens to hundreds of noisy qubits has given birth to an intense search for useful applications of their unique capabilities. One area that has received particular attention is quantum machine learning (QML), the study of machine learning algorithms running natively on quantum computers. Such algorithms have begun to be applied to data intensive problems in particle physics, driven by the expected increased capacity for pattern recognition of quantum computers. In this work we develop and apply QML methods to B meson flavour tagging, an important component of experiments in particle physics which probe heavy quark mixing and CP violation in order to obtain a better understanding of the matter-antimatter asymmetry observed in the universe. We simulate boosted ensembles of quantum support vector machines (QSVMs) based on both conventional qubit-based and continuous variable architectures, attaining effective tagging efficiencies of 28.0% and 29.2% respectively, comparable with the leading published result of 30.0% using classical machine learning algorithms. The ensemble nature of our classifier is of particular importance, doubling the effective tagging efficiency of a single QSVM, which we find to be highly prone to overfitting. These results are obtained despite the strong constraint of working with QSVM architectures that are classically simulable, and we find evidence that continuous variable QSVMs beyond the classically simulable regime may be able to realise even higher performance, surpassing the reported classical results, when sufficiently powerful quantum hardware is developed to execute them.
翻訳日:2023-05-12 17:23:33 公開日:2023-05-11
# トランスフォーマの注意における層ノルムの表現性の役割について

On the Expressivity Role of LayerNorm in Transformers' Attention ( http://arxiv.org/abs/2305.02582v2 )

ライセンス: Link先を確認
Shaked Brody, Uri Alon, Eran Yahav(参考訳) 層正規化(layernorm)は、全てのトランスフォーマーモデルに固有のコンポーネントである。 本稿では、LayerNormが、それに続くマルチヘッドアテンション層の表現性に不可欠であることを示す。 これは、LayerNormの唯一の役割は前方通過時の活性化と後方通過時の勾配を正規化することだという一般的な信念とは対照的である。 私たちはLayerNormの幾何学的解釈を考察し、2つの構成要素からなることを示す。 (a)$\left[1,1,...,1\right]$ベクトルに直交する$d-1$空間への入力ベクトルの射影、および (b)すべてのベクトルを$\sqrt{d}$という同じノルムにスケーリングする。 これらの各コンポーネントは、トランスフォーマーでそれに従うアテンション層にとって重要であることを示す。 (a)プロジェクションにより、注意機構は、すべてのキーに等しく出席する注意クエリを作成し、注意によってこの操作を学ぶ必要性をオフロードすることができる。 (b)スケーリングにより、各キーが最も注目される可能性があり、キーが「選択不能」になることを防げる。 本稿では,多言語モデリングにおけるLayeNormの特性や,"majority"のような単純な関数の計算において,Transformerが真に有益であることを示す。 私たちのコードはhttps://github.com/tech-srl/layer_norm_expressivity_roleで利用可能です。

Layer Normalization (LayerNorm) is an inherent component in all Transformer-based models. In this paper, we show that LayerNorm is crucial to the expressivity of the multi-head attention layer that follows it. This is in contrast to the common belief that LayerNorm's only role is to normalize the activations during the forward pass, and their gradients during the backward pass. We consider a geometric interpretation of LayerNorm and show that it consists of two components: (a) projection of the input vectors to a $d-1$ space that is orthogonal to the $\left[1,1,...,1\right]$ vector, and (b) scaling of all vectors to the same norm of $\sqrt{d}$. We show that each of these components is important for the attention layer that follows it in Transformers: (a) projection allows the attention mechanism to create an attention query that attends to all keys equally, offloading the need to learn this operation by the attention; and (b) scaling allows each key to potentially receive the highest attention, and prevents keys from being "un-select-able". We show empirically that Transformers do indeed benefit from these properties of LayeNorm in general language modeling and even in computing simple functions such as "majority". Our code is available at https://github.com/tech-srl/layer_norm_expressivity_role .
翻訳日:2023-05-12 17:23:02 公開日:2023-05-11
# DiffuSum: 拡散による抽出要約の高速化

DiffuSum: Generation Enhanced Extractive Summarization with Diffusion ( http://arxiv.org/abs/2305.01735v2 )

ライセンス: Link先を確認
Haopeng Zhang, Xiao Liu, Jiawei Zhang(参考訳) 抽出要約は、ソース文書から直接文章を抽出することで要約を形成することを目的としている。 既存の研究は主に、個々の文ラベルを予測することによって、シーケンスラベル問題として定式化している。 本稿では,拡散モデルを用いて所望の要約文表現を直接生成し,文表現マッチングに基づいて文を抽出することで,抽出要約のための新しいパラダイムであるdiffusumを提案する。 さらにdiffusumは、文表現アライメントのマッチング損失と表現多様性の多クラスコントラスト損失とを備えたコントラスト文エンコーダを共同で最適化する。 実験結果から, ROUGEスコアが44.83/22.56/40.56$のCNN/DailyMailにおけるDiffuSumの抽出結果が得られた。 他の2つのデータセットの要約長の異なる実験もDiffuSumの有効性を示している。 本フレームワークの強い性能は,抽出要約に生成モデルを適用する大きな可能性を示している。 今後のさらなる作業を促進するため、私たちは \url{https://github.com/hpzhang94/DiffuSum} でコードを公開しました。

Extractive summarization aims to form a summary by directly extracting sentences from the source document. Existing works mostly formulate it as a sequence labeling problem by making individual sentence label predictions. This paper proposes DiffuSum, a novel paradigm for extractive summarization, by directly generating the desired summary sentence representations with diffusion models and extracting sentences based on sentence representation matching. In addition, DiffuSum jointly optimizes a contrastive sentence encoder with a matching loss for sentence representation alignment and a multi-class contrastive loss for representation diversity. Experimental results show that DiffuSum achieves the new state-of-the-art extractive results on CNN/DailyMail with ROUGE scores of $44.83/22.56/40.56$. Experiments on the other two datasets with different summary lengths also demonstrate the effectiveness of DiffuSum. The strong performance of our framework shows the great potential of adapting generative models for extractive summarization. To encourage more following work in the future, we have released our codes at \url{https://github.com/hpzhang94/DiffuSum}
翻訳日:2023-05-12 17:22:40 公開日:2023-05-11
# FlowMap:交通流を用いたオープンスペースにおける自動走行車の経路生成

FlowMap: Path Generation for Automated Vehicles in Open Space Using Traffic Flow ( http://arxiv.org/abs/2305.01622v2 )

ライセンス: Link先を確認
Wenchao Ding and Jieru Zhao and Yubin Chu and Haihui Huang and Tong Qin and Chunjing Xu and Yuxiang Guan and Zhongxue Gan(参考訳) lidar点雲やディープニューラルネットを用いたカメラ画像などの様々なセンサ入力を用いて道路構造の知覚に関する広範な文献がある。 ニューラルアーキテクト(トランスフォーマーなど)とバードアイビュー(bev)表現の最新の進歩を活用して、道路認識精度が向上している。 しかし、適切に定義された 'roads' が存在しない自動車両の ‘road' をどう認識するかは、未解決の問題である。 例えば、HDマップのない交差点内の経路を見つける方法は、 'roads' の明示的な定義やレーンマーキングのような明示的な特徴がないため、難しい。 この論文のアイデアは、人々が歩くときの方法になる、という確証から生まれたものです。 センサーの読み出しには「道路」はないが、他の車両のトラックからは「道路」がある。 本稿では,交通流に基づく自動走行車のための経路生成フレームワークであるFlowMapを提案する。 FlowMapは、軽量なセマンティックマップであるRoadMapを拡張し、さらにトラフィックフロー層を追加することによって構築されます。 トラヒックフロー場(traffic flow fields, tffs)上の経路生成アルゴリズムを提案する。 提案フレームワークは実世界の駆動データを用いて検証され、hdマップを使用せずに超複雑な交差点の経路を生成することができる。

There is extensive literature on perceiving road structures by fusing various sensor inputs such as lidar point clouds and camera images using deep neural nets. Leveraging the latest advance of neural architects (such as transformers) and bird-eye-view (BEV) representation, the road cognition accuracy keeps improving. However, how to cognize the ``road'' for automated vehicles where there is no well-defined ``roads'' remains an open problem. For example, how to find paths inside intersections without HD maps is hard since there is neither an explicit definition for ``roads'' nor explicit features such as lane markings. The idea of this paper comes from a proverb: it becomes a way when people walk on it. Although there are no ``roads'' from sensor readings, there are ``roads'' from tracks of other vehicles. In this paper, we propose FlowMap, a path generation framework for automated vehicles based on traffic flows. FlowMap is built by extending our previous work RoadMap, a light-weight semantic map, with an additional traffic flow layer. A path generation algorithm on traffic flow fields (TFFs) is proposed to generate human-like paths. The proposed framework is validated using real-world driving data and is amenable to generating paths for super complicated intersections without using HD maps.
翻訳日:2023-05-12 17:22:21 公開日:2023-05-11
# 量子通信におけるマルチコアファイバのクロストークとノイズの緩和

Mitigation of crosstalk and noise in multicore fiber on quantum communication ( http://arxiv.org/abs/2305.01502v2 )

ライセンス: Link先を確認
Ekaterina Ponizovskaya-Devine(参考訳) クロストークが量子通信ネットワークに与える影響とその緩和について論じる。 位相確率共鳴現象を用いたネットワークのパラメータを選択することで,信号対雑音比を増加させることができることを示した。

The influence of crosstalk on quantum communication networks and its mitigation is discussed. It was shown that choosing the parameters for the network that uses the phase stochastic resonance phenomena can increase the signal-to-noise ratio.
翻訳日:2023-05-12 17:21:59 公開日:2023-05-11
# 全身移動操作のための因果政策勾配

Causal Policy Gradient for Whole-Body Mobile Manipulation ( http://arxiv.org/abs/2305.04866v2 )

ライセンス: Link先を確認
Jiaheng Hu, Peter Stone, Roberto Mart\'in-Mart\'in(参考訳) 次世代の家庭用ロボットヘルパーの開発には、移動操作(MoMa)と呼ばれる移動運動と相互作用機能を組み合わせる必要がある。 MoMaタスクは、ロボットの大きな動作空間と、タスクの共通の多目的性(例えば、障害物を避けながら効率的にゴールに達すること)のため、難しい。 現在のアプローチでは、動作空間の一部をMoMaサブオブジェクト(例えば、移動目的のためのベースアクションと操作のためのアームアクション)に手動でマッチングすることで、操作なしでタスクをナビゲーションに分離する。 このソリューションは、移動と相互作用の自由度の同時組み合わせを防止し、アクション空間を分割し、アクション部分をサブオブジェクトに合わせるために、人間のドメイン知識を必要とする。 本稿では,ロボットの動作空間の最も好ましい部分空間を利用して各サブオブジェクトに対処する,典型的なMoMaタスクに対するポリシーをトレーニングする新しいフレームワークであるCausal MoMaを紹介する。 因果モマは、アクションと報酬関数の項の間の因果依存性を自動的に発見し、これらの依存関係を因果ポリシー学習手順で活用し、以前の最先端ポリシー勾配アルゴリズムと比較して勾配分散を減少させ、収束と結果を改善する。 各種のMoMaタスクにまたがる3種類の模擬ロボットにおけるCausal MoMaの性能評価を行い、シミュレーションで訓練されたポリシーを直接実際のロボットに転送し、エージェントは移動目標に従って動的障害物に反応し、同時にベース、アーム、ヘッドを相乗的に制御できることを示す。 詳細はhttps://sites.google.com/view/causal-momaを参照。

Developing the next generation of household robot helpers requires combining locomotion and interaction capabilities, which is generally referred to as mobile manipulation (MoMa). MoMa tasks are difficult due to the large action space of the robot and the common multi-objective nature of the task, e.g., efficiently reaching a goal while avoiding obstacles. Current approaches often segregate tasks into navigation without manipulation and stationary manipulation without locomotion by manually matching parts of the action space to MoMa sub-objectives (e.g. base actions for locomotion objectives and arm actions for manipulation). This solution prevents simultaneous combinations of locomotion and interaction degrees of freedom and requires human domain knowledge for both partitioning the action space and matching the action parts to the sub-objectives. In this paper, we introduce Causal MoMa, a new framework to train policies for typical MoMa tasks that makes use of the most favorable subspace of the robot's action space to address each sub-objective. Causal MoMa automatically discovers the causal dependencies between actions and terms of the reward function and exploits these dependencies in a causal policy learning procedure that reduces gradient variance compared to previous state-of-the-art policy gradient algorithms, improving convergence and results. We evaluate the performance of Causal MoMa on three types of simulated robots across different MoMa tasks and demonstrate success in transferring the policies trained in simulation directly to a real robot, where our agent is able to follow moving goals and react to dynamic obstacles while simultaneously and synergistically controlling the whole-body: base, arm, and head. More information at https://sites.google.com/view/causal-moma.
翻訳日:2023-05-12 17:13:07 公開日:2023-05-11
# モデルを超えて:androidアプリのディープラーニングモデルに対するデータ前処理攻撃

Beyond the Model: Data Pre-processing Attack to Deep Learning Models in Android Apps ( http://arxiv.org/abs/2305.03963v2 )

ライセンス: Link先を確認
Ye Sang, Yujin Huang, Shuo Huang, Helei Cui(参考訳) 近年、ディープラーニング(DL)モデルの人気が高まり、スマートフォンでの低レイテンシや帯域幅の節約など、コンピューティングの利点により、インテリジェントなモバイルアプリケーション(DLアプリとしても知られる)が出現している。 しかし、この技術的発展は、敵対的な例、モデル盗み、データ中毒問題など、いくつかのセキュリティ上の懸念を引き起こした。 オンデバイスdlモデルの攻撃と対策に関する既存の取り組みは、主にモデル自体に焦点を当てている。 しかし,データ処理障害がモデル推論に与える影響には注意が払われている。 この知識格差は、オンデバイスモデルのデータ処理に関するセキュリティ問題を完全に理解し、対処するための追加研究の必要性を強調している。 本稿では,実世界のDLアプリに対するデータ処理による攻撃について紹介する。 特に、我々の攻撃はDLアプリの動作に影響を与えることなく、モデルの性能とレイテンシに影響を与える可能性がある。 攻撃の有効性を示すため,Google Playから収集した実世界のDLアプリ517について実証的研究を行った。 mlkitを利用する320のアプリのうち、81.56\%がうまく攻撃できることがわかった。 その結果、データ処理の観点からデバイス上のモデルをセキュアにするために、DLアプリ開発者が認識し、アクションを取ることの重要性を強調した。

The increasing popularity of deep learning (DL) models and the advantages of computing, including low latency and bandwidth savings on smartphones, have led to the emergence of intelligent mobile applications, also known as DL apps, in recent years. However, this technological development has also given rise to several security concerns, including adversarial examples, model stealing, and data poisoning issues. Existing works on attacks and countermeasures for on-device DL models have primarily focused on the models themselves. However, scant attention has been paid to the impact of data processing disturbance on the model inference. This knowledge disparity highlights the need for additional research to fully comprehend and address security issues related to data processing for on-device models. In this paper, we introduce a data processing-based attacks against real-world DL apps. In particular, our attack could influence the performance and latency of the model without affecting the operation of a DL app. To demonstrate the effectiveness of our attack, we carry out an empirical study on 517 real-world DL apps collected from Google Play. Among 320 apps utilizing MLkit, we find that 81.56\% of them can be successfully attacked. The results emphasize the importance of DL app developers being aware of and taking actions to secure on-device models from the perspective of data processing.
翻訳日:2023-05-12 17:12:35 公開日:2023-05-11
# スポンジ中毒によるオンデバイスニューラルネットワークへのエネルギーレイテンシー攻撃

Energy-Latency Attacks to On-Device Neural Networks via Sponge Poisoning ( http://arxiv.org/abs/2305.03888v2 )

ライセンス: Link先を確認
Zijian Wang, Shuo Huang, Yujin Huang, Helei Cui(参考訳) 近年,モバイルデバイス向けの安価なディープラーニングアプリケーションを開発する手段として,デバイス上でのディープラーニングが注目されている。 しかし、オンデバイスモデルは限られたエネルギーと計算資源によって制約される。 スポンジ中毒(sponge poisoning)として知られる中毒攻撃が開発されており、この攻撃にはモデルに有毒な例を与えて推論中のエネルギー消費量を増やすことが含まれる。 これまでの作業ではサーバハードウェアアクセラレータに重点を置いていたため、スポンジ中毒攻撃をオンデバイスシナリオにまで拡張し、モバイルデバイスプロセッサの脆弱性を評価する。 オンデバイス環境における知識ギャップを埋めるため、ストリーミングと一貫性のある推論シナリオをシミュレートするオンデバイススポンジ中毒攻撃パイプラインを提案する。 プロセッサとオンデバイスネットワークによる排他的実験分析は、スポンジ中毒攻撃が、その内蔵アクセラレーターによって、現代のプロセッサを効果的に汚染することを示している。 我々はスポンジ中毒アルゴリズムにおける様々な要因の影響を分析し、デバイス上での深層学習アプリケーションに対する攻撃を防止するための防御機構の改善の必要性を強調した。

In recent years, on-device deep learning has gained attention as a means of developing affordable deep learning applications for mobile devices. However, on-device models are constrained by limited energy and computation resources. In the mean time, a poisoning attack known as sponge poisoning has been developed.This attack involves feeding the model with poisoned examples to increase the energy consumption during inference. As previous work is focusing on server hardware accelerators, in this work, we extend the sponge poisoning attack to an on-device scenario to evaluate the vulnerability of mobile device processors. We present an on-device sponge poisoning attack pipeline to simulate the streaming and consistent inference scenario to bridge the knowledge gap in the on-device setting. Our exclusive experimental analysis with processors and on-device networks shows that sponge poisoning attacks can effectively pollute the modern processor with its built-in accelerator. We analyze the impact of different factors in the sponge poisoning algorithm and highlight the need for improved defense mechanisms to prevent such attacks on on-device deep learning applications.
翻訳日:2023-05-12 17:12:17 公開日:2023-05-11
# 逆ロバストテキスト分類のためのマスク推論によるランダム化平滑化

Randomized Smoothing with Masked Inference for Adversarially Robust Text Classifications ( http://arxiv.org/abs/2305.06522v1 )

ライセンス: Link先を確認
Han Cheol Moon, Shafiq Joty, Ruochen Zhao, Megh Thakkar, Xu Chi(参考訳) 大規模事前学習言語モデルは、様々なNLPタスクにおいて優れた性能を示している。 しかし、それらもまた特別に作られた敵の例に対して著しく脆いことが知られており、nlpシステムの敵意の強固さを探究する関心が高まっている。 ランダム化平滑化(RS)とマスク推論(MI)を組み合わせた新しい2段階のフレームワークであるRSMIを導入し,NLPシステムの対角的ロバスト性を改善する。 RSは分類器をスムーズな分類器に変換してロバストな表現を得る一方、MIは入力シーケンスでマスクされたトークンの周囲のコンテキストを利用するようにモデルを強制する。 RSMIは、ベンチマークデータセット上の既存の最先端メソッドよりも2倍から3倍の敵の堅牢性を向上する。 また,RSMIの異なる段階の有効性を検証するための詳細な定性分析を行い,広範囲なアブレーションを通じてその成分の影響を調査する。 RSMIの安定性を実証的に証明することにより,大規模NLPモデルを堅牢に訓練する実践的手法として,これを推し進める。 私たちのコードとデータセットはhttps://github.com/han8931/rsmi_nlpで利用可能です。

Large-scale pre-trained language models have shown outstanding performance in a variety of NLP tasks. However, they are also known to be significantly brittle against specifically crafted adversarial examples, leading to increasing interest in probing the adversarial robustness of NLP systems. We introduce RSMI, a novel two-stage framework that combines randomized smoothing (RS) with masked inference (MI) to improve the adversarial robustness of NLP systems. RS transforms a classifier into a smoothed classifier to obtain robust representations, whereas MI forces a model to exploit the surrounding context of a masked token in an input sequence. RSMI improves adversarial robustness by 2 to 3 times over existing state-of-the-art methods on benchmark datasets. We also perform in-depth qualitative analysis to validate the effectiveness of the different stages of RSMI and probe the impact of its components through extensive ablations. By empirically proving the stability of RSMI, we put it forward as a practical method to robustly train large-scale NLP models. Our code and datasets are available at https://github.com/Han8931/rsmi_nlp
翻訳日:2023-05-12 16:28:10 公開日:2023-05-11
# 任意のランダム量子状態と既知の量子状態の重ね合わせを特徴付ける

Characterizing the superposition of arbitrary random quantum states and a known quantum state ( http://arxiv.org/abs/2305.06515v1 )

ライセンス: Link先を確認
Bo Li, Xiao-Bin Liang, and Shao-Ming Fei(参考訳) 状態の重ね合わせは量子世界における最も根本的な問題の1つである。 一般に、2つの未知のランダム状態が非ゼロ確率で重なり合う物理的操作は存在しない。 既知の量子ビット状態に対する未知の量子ビット状態の重ね合わせ問題について検討する。 トレース非負の操作の下では、重ね合わせ可能な状態集合はブロッホ球面上のいくつかの円上に位置することが示されている。 一方、ブロッホ球面上の円の量子状態は既知の状態に関して重畳可能であることが証明される。 最後に、高次元の場合、任意の重ね合わせ変換プロトコルがほとんど全ての状態に対して非閉原理に反することを示す。 この結果はまた、量子no-go定理の観点から重ね合わせ原理の理解と応用を促進する。

The superposition of states is one of the most fundamental issues in the quantum world. Generally there do not exist physical operations to superpose two unknown random states with nonzero probability. We investigate the superposition problem of unknown qubit states with respect to a known qubit state. It is shown that under trace-nonincreasing completely positive operations the superposable state sets are located in some circles on the Bloch sphere. Meanwhile, we prove that the quantum states in a circle on the Bloch sphere are superposable with respect to a known state. Finally, for the high-dimensional case, we illustrate that any superposition transformation protocols will violate the no-cloning principle for almost all the states. Our results also promote the understanding and applications of the superposition principle in view of quantum no-go theorems.
翻訳日:2023-05-12 16:27:53 公開日:2023-05-11
# ライン形状によるコヒーレント状態重ね合わせの識別

Discriminating coherent states superpositions by line shapes ( http://arxiv.org/abs/2305.06512v1 )

ライセンス: Link先を確認
L. Hern\'andez-S\'anchez, I. Ramos-Prieto, F. Soto-Eguibar, H.M. Moya-Cessa(参考訳) 本論文は、電磁場と相互作用する原子のスペクトル線に対する非共鳴準位の影響を考察する。 具体的には、フィールド周波数が2つの低いレベル間の遷移周波数と一致し、フィールドの平均光子数(|\alpha|^2 <4$)が小さいときに発生する交流スターク効果を調べる。 本研究は, スペクトル線形状の変化を, 逆相を持つシュリンガー・キャット状態の$\pi$, すなわち, $|\alpha\rangle + |-\alpha\rangle$ と $|\alpha\rangle|-\alpha\rangle$ の区別に利用できることを示した。

This article investigates the effect of near non-resonant levels on the spectral lines of atoms interacting with an electromagnetic field. Specifically, we examine the AC Stark effect that occurs when the field frequency matches the transition frequency between two lower levels and the field has a small average number of photons ($|\alpha|^2 <4$). Our research demonstrates that the changes in spectral line shape can be used to distinguish between Schr\"odinger cat states with opposite phases in $\pi$, namely, the states $|\alpha\rangle + |-\alpha\rangle$ and $|\alpha\rangle - |-\alpha\rangle$.
翻訳日:2023-05-12 16:27:41 公開日:2023-05-11
# ParamNet:高速ステン正規化のためのパラメータ可変ネットワーク

ParamNet: A Parameter-variable Network for Fast Stain Normalization ( http://arxiv.org/abs/2305.06511v1 )

ライセンス: Link先を確認
Hongtao Kang, Die Luo, Li Chen, Junbo Hu, Shenghua Cheng, Tingwei Quan, Shaoqun Zeng and Xiuli Liu(参考訳) 実際には、デジタル病理画像は様々な要因に影響され、色と明るさに大きな違いをもたらすことが多い。 Stain normalizationは、デジタル病理画像の色と明るさの違いを効果的に低減し、コンピュータ支援診断システムの性能を向上させる。 従来の染色正規化法は1つまたは複数の参照画像に依存するが、データセット全体を表現することは困難である。 学習に基づく染色正規化手法は一般的な手法であるが、複雑なディープネットワークを用いるため、計算効率を大幅に低下させるだけでなく、アーティファクトを導入するリスクも大きい。 StainNetは高速で堅牢な染色正規化ネットワークであるが,ネットワーク構造が複雑すぎるため,複雑な染色正規化を行うには不十分である。 本研究ではパラメータ可変染色正規化ネットワークparamnetを提案する。 ParamNetにはパラメータ予測サブネットワークとカラーマッピングサブネットワークが含まれており、パラメータ予測サブネットワークは各入力画像に応じて色マッピングサブネットワークの適切なパラメータを自動的に決定することができる。 パラメータ変数の特徴は、ネットワークが様々な染色正規化タスクに十分な能力を持つことを保証する。 カラーマッピングサブネットワークは,59個の変数を持つ完全な1x1畳み込みネットワークである。 病理組織学および病理組織学データセットの結果から,我々のparamnetは最先端の手法よりも優れており,病理診断タスクにおける分類器の一般化を効果的に改善できることが示された。 コードはhttps://github.com/khtao/ParamNetで公開されている。

In practice, digital pathology images are often affected by various factors, resulting in very large differences in color and brightness. Stain normalization can effectively reduce the differences in color and brightness of digital pathology images, thus improving the performance of computer-aided diagnostic systems. Conventional stain normalization methods rely on one or several reference images, but one or several images are difficult to represent the entire dataset. Although learning-based stain normalization methods are a general approach, they use complex deep networks, which not only greatly reduce computational efficiency, but also risk introducing artifacts. StainNet is a fast and robust stain normalization network, but it has not a sufficient capability for complex stain normalization due to its too simple network structure. In this study, we proposed a parameter-variable stain normalization network, ParamNet. ParamNet contains a parameter prediction sub-network and a color mapping sub-network, where the parameter prediction sub-network can automatically determine the appropriate parameters for the color mapping sub-network according to each input image. The feature of parameter variable ensures that our network has a sufficient capability for various stain normalization tasks. The color mapping sub-network is a fully 1x1 convolutional network with a total of 59 variable parameters, which allows our network to be extremely computationally efficient and does not introduce artifacts. The results on cytopathology and histopathology datasets show that our ParamNet outperforms state-of-the-art methods and can effectively improve the generalization of classifiers on pathology diagnosis tasks. The code has been available at https://github.com/khtao/ParamNet.
翻訳日:2023-05-12 16:27:26 公開日:2023-05-11
# InstructBLIP:インストラクションチューニングを用いた汎用視覚言語モデルを目指して

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning ( http://arxiv.org/abs/2305.06500v1 )

ライセンス: Link先を確認
Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi(参考訳) さまざまな言語ドメインタスクを解決可能な汎用言語モデルが,事前トレーニングと命令チューニングパイプラインによって実現されている。 しかし,視覚入力によるタスクの差が増大するため,汎用視覚言語モデルの構築は困難である。 視覚言語による事前学習は広く研究されているが、視覚言語による指導訓練は比較的少ない。 本稿では,事前学習したBLIP-2モデルに基づく視覚言語指導の体系的・包括的研究を行う。 我々は26の公開データセットを収集し、それらを命令チューニング形式に変換し、2つのクラスタに分類し、ホールドイン命令チューニングとホールドアウトゼロショット評価を行う。 さらに、与えられた命令に合わせて情報的特徴を抽出できる重要な手法である、命令認識型視覚特徴抽出を導入する。 結果として得られたInstructBLIPモデルは、13のホールトアウトデータセットすべてで最先端のゼロショット性能を達成し、BLIP-2とより大きなFlamingoを著しく上回っている。 我々のモデルは、個々の下流タスク(例えば、ScienceQA IMGの90.7%の精度)で微調整された場合、最先端のパフォーマンスをもたらす。 さらに,並列マルチモーダルモデルに対する命令BLIPの利点を質的に示す。 InstructBLIPの全モデルはhttps://github.com/salesforce/LAVIS/tree/main/projects/instructblipでオープンソース化された。

General-purpose language models that can solve various language-domain tasks have emerged driven by the pre-training and instruction-tuning pipeline. However, building general-purpose vision-language models is challenging due to the increased task discrepancy introduced by the additional visual input. Although vision-language pre-training has been widely studied, vision-language instruction tuning remains relatively less explored. In this paper, we conduct a systematic and comprehensive study on vision-language instruction tuning based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly available datasets, transform them into instruction tuning format and categorize them into two clusters for held-in instruction tuning and held-out zero-shot evaluation. Additionally, we introduce instruction-aware visual feature extraction, a crucial method that enables the model to extract informative features tailored to the given instruction. The resulting InstructBLIP models achieve state-of-the-art zero-shot performance across all 13 held-out datasets, substantially outperforming BLIP-2 and the larger Flamingo. Our models also lead to state-of-the-art performance when finetuned on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG). Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over concurrent multimodal models. All InstructBLIP models have been open-sourced at https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
翻訳日:2023-05-12 16:26:58 公開日:2023-05-11
# セマンティック不確実性は、新しい参照者への規約の延長を導く

Semantic uncertainty guides the extension of conventions to new referents ( http://arxiv.org/abs/2305.06539v1 )

ライセンス: Link先を確認
Ron Eliav, Anya Ji, Yoav Artzi, Robert D. Hawkins(参考訳) 精神言語学における長い研究の伝統は、参照ゲームにおけるアドホックな慣習の形成と一般化を検証し、与えられたターゲットを新しい参照コンテキストに移行するための新しい慣習がどのようにして獲得されたかを示している。 しかし、別の一般化の軸が検討されている:特定の語彙選択が繰り返されない場合、あるターゲットが完全に異なるターゲットに遷移するための慣習はどのように形成されるのか? 本稿では、この一般化の軸に対処する2つのダイアディック研究(N = 240)を、名前可能性の役割に焦点を当てて提示する。 最近リリースされたkilogramデータセットは、従来より桁違いに大きなタングラム画像のコレクションで、命名可能性などの特性が多様である。 第1の研究では、命名可能性がどのように規約形成を形作るか、第2の研究では、新しい規約がいかに完全に新しい参照対象に一般化するかを問う。 我々の結果は、特定の語彙選択のターゲット固有の再使用を超えて、アドホック規約がどのように拡張されるかについての新しい疑問を提起する。

A long tradition of studies in psycholinguistics has examined the formation and generalization of ad hoc conventions in reference games, showing how newly acquired conventions for a given target transfer to new referential contexts. However, another axis of generalization remains understudied: how do conventions formed for one target transfer to completely distinct targets, when specific lexical choices are unlikely to repeat? This paper presents two dyadic studies (N = 240) that address this axis of generalization, focusing on the role of nameability -- the a priori likelihood that two individuals will share the same label. We leverage the recently-released KiloGram dataset, a collection of abstract tangram images that is orders of magnitude larger than previously available, exhibiting high diversity of properties like nameability. Our first study asks how nameability shapes convention formation, while the second asks how new conventions generalize to entirely new targets of reference. Our results raise new questions about how ad hoc conventions extend beyond target-specific re-use of specific lexical choices.
翻訳日:2023-05-12 16:18:14 公開日:2023-05-11
# VQEを用いてIBM量子上の水素分子の基底エネルギーを計算する

Use VQE to calculate the ground energy of hydrogen molecules on IBM Quantum ( http://arxiv.org/abs/2305.06538v1 )

ライセンス: Link先を確認
Maomin Qing and Wei Xie(参考訳) 量子コンピューティングは、古典的コンピュータにとって難解な問題を解決するための有望な技術として登場した。 本研究では、量子コンピューティングを導入し、IBM量子プラットフォーム上でQiskitを用いた変分量子固有解法(VQE)アルゴリズムを実装し、水素分子の基底状態エネルギーを計算する。 量子力学、量子ビット、量子ゲート、およびVQEアルゴリズムの理論的枠組みを提供する。 実装プロセスを説明し,その結果をシミュレートした。 さらに、IBM Quantumプラットフォーム上で実験を行い、その結果を分析した。 fi ndingsは、vqeが高い精度で分子特性を集中的に計算できることを示しています。 しかし、より大きな分子に対するアルゴリズムのスケーリングにおける制限や課題もedに同一視されている。 この研究は量子コンピューティングの研究に寄与し、現実の問題解決におけるVQEの可能性を強調している。

Quantum computing has emerged as a promising technology for solving problems that are intractable for classical computers. In this study, we introduce quantum computing and implement the Variational Quantum Eigensolver (VQE) algorithm using Qiskit on the IBM Quantum platform to calculate the ground state energy of a hydrogen molecule. We provide a theoretical framework of quantum mechanics, qubits, quantum gates, and the VQE algorithm. Our implementation process is described, and we simulate the results. Additionally, experiments are conducted on the IBM Quantum platform, and the results are analyzed. Our fi ndings demonstrate that VQE can effi ciently calculate molecular properties with high accuracy. However, limitations and challenges in scaling the algorithm for larger molecules are also identifi ed. This work contributes to the growing body of research on quantum computing and highlights the potential applications of VQE for real-world problem-solving.
翻訳日:2023-05-12 16:17:52 公開日:2023-05-11
# テンソルネットワークアンサッツを用いたエンタングル埋め込み変分量子固有解器

Entangled embedding variational quantum eigensolver with tensor network ansatz ( http://arxiv.org/abs/2305.06536v1 )

ライセンス: Link先を確認
Ryo Watanabe, Keisuke Fujii, Hiroshi Ueda(参考訳) 本稿では,rudolphらによる相乗的最適化フレームワーク [arxiv: 2208.13673] の絡み合い強化プロセスにテンソルネットワーク (tn) スキームを導入し,不均質系に対して体系的にそのプロセスを構築する。 我々のシナジスティックはまず、TN状態の変分最適解をエントロピー領域法則に埋め込む。これは従来の(古典的な)コンピュータにおいて、エントロピー体積法則にインスパイアされた量子変分回路アンサッツに完全に最適化できる。 次に、フレームワークは、埋め込み状態を初期状態とする変分量子固有ソルバ(vqe)プロセスを実行する。 本研究では, マルチスケールエンタングルメント再正規化アンサッツ(MERA)状態と, エントロピー領域法および体積法則を持つTN状態として分岐したMERA状態を用いて, 全結合ランダム逆場Ising/XYZ/Heisenbergモデルの基底状態解析に適用した。 次に,分岐メラに触発されたアンサッツの初期パラメータ推定を行わず,3つのモデルにおけるvqe計算を相乗的に加速し,標準vqeに捕えられた局所解をイジングモデルのアンサッツで回避できることを示した。 また、全対全結合不均質系におけるmeraの最適化の改善、相乗効果の強化と潜在的な応用について論じた。

In this paper, we introduce a tensor network (TN) scheme into the entanglement augmentation process of the synergistic optimization framework [arXiv: 2208.13673] by Rudolph et al. to build its process systematically for inhomogeneous systems. Our synergistic first embeds the variational optimal solution of the TN state with the entropic area law, which can be perfectly optimized in conventional (classical) computers, in a quantum variational circuit ansatz inspired by the TN state with the entropic volume law. Next, the framework performs a variational quantum eigensolver (VQE) process with the embedded states as the initial state. We applied the synergistic to the ground state analysis of the all-to-all coupled random transverse-field Ising/XYZ/Heisenberg model, employing the binary multi-scale entanglement renormalization ansatz (MERA) state and branching MERA states as TN states with the entropic area law and volume law, respectively. We then show that the synergistic accelerates VQE calculations in the three models without initial parameter guess of the branching-MERA-inspired ansatz and can avoid a local solution trapped by a standard VQE with the ansatz in the Ising model. Improvement of optimizer for MERA in the all-to-all coupled inhomogeneous systems, enhancement and potential applications of the synergistic are also discussed.
翻訳日:2023-05-12 16:17:39 公開日:2023-05-11
# KGA:知識ギャップアライメントに基づく汎用機械学習フレームワーク

KGA: A General Machine Unlearning Framework Based on Knowledge Gap Alignment ( http://arxiv.org/abs/2305.06535v1 )

ライセンス: Link先を確認
Lingzhi Wang, Tong Chen, Wei Yuan, Xingshan Zeng, Kam-Fai Wong, Hongzhi Yin(参考訳) 近年の「忘れられる権利」の法律は、学習したモデルに特定のトレーニングインスタンスに関する情報をトレーニングセットに存在していないかのように忘れてしまう機能を与えることで、機械学習への関心を高めている。 以前の研究は主にコンピュータビジョンのシナリオに焦点を当てており、テキストデータは画像よりも明示的でセンシティブな個人情報を含んでいるnlp分野におけるアンラーニングの本質をほとんど無視している。 本稿では,忘れやすさを誘発する一般学習フレームワークKGAを提案する。 勾配を復元したり、モデルを特定の分布に近づけようとする以前の作業とは異なり、kgaは分布の違い(つまり知識のギャップ)を維持している。 これは分布仮定を緩和する。 さらに,まず,NLPタスク(分類,翻訳,応答生成など)にアンラーニング手法を適用し,関連する未学習評価指標を提案する。 大規模なデータセットの実験では、KGAはベースラインよりも包括的な改善をもたらし、KGAの有効性をさらに検証し、NLPタスクの未学習に関する洞察を提供する。

Recent legislation of the "right to be forgotten" has led to the interest in machine unlearning, where the learned models are endowed with the function to forget information about specific training instances as if they have never existed in the training set. Previous work mainly focuses on computer vision scenarios and largely ignores the essentials of unlearning in NLP field, where text data contains more explicit and sensitive personal information than images. In this paper, we propose a general unlearning framework called KGA to induce forgetfulness. Different from previous work that tries to recover gradients or forces models to perform close to one specific distribution, KGA maintains distribution differences (i.e., knowledge gap). This relaxes the distribution assumption. Furthermore, we first apply the unlearning method to various NLP tasks (i.e., classification, translation, response generation) and propose several unlearning evaluation metrics with pertinence. Experiments on large-scale datasets show that KGA yields comprehensive improvements over baselines, where extensive analyses further validate the effectiveness of KGA and provide insight into unlearning for NLP tasks.
翻訳日:2023-05-12 16:17:09 公開日:2023-05-11
# 最小不確かさ状態からの原始重力の騒音とデコヒーレンス

Noise and Decoherence of Primordial Graviton From Minimum Uncertainty States ( http://arxiv.org/abs/2305.06534v1 )

ライセンス: Link先を確認
Anom Trenggana, Freddy P. Zen, and Getbogi Hikmawan(参考訳) 最小不確実な初期状態を持つ原始重力による量子ノイズとデコヒーレンスについて検討した。 この条件は初期状態が絡み合い状態または重ね合わせ状態の形で存在することを許す。 エンタングルメントの初期状態における重力の増大は、量子ノイズに対応する有効ひずみを増加させ、実験的なセットアップシステムの寸法を減少させることができることがわかった。 初期重ね合わせ状態における非対角要素の存在により、量子ノイズの分布は非ガウス的となる。 さらに、これらの非対角的な用語は、バンチ・ダヴィエ真空の形の初期状態と比較して、非常に長い時間量子ノイズを引き起こす。

We have investigated quantum noise and decoherence due to primordial gravitons with minimum uncertainty initial states. This condition allows the initial state to be in the form of an entanglement or a superposition state. We got that the increasing number of gravitons in the initial state of entanglement can increase the effective strain corresponding to the quantum noise and can reduce the dimensions of the experimental setup system. The existence of non-diagonal elements in the initial superposition state allows the distribution of the quantum noise to be non-Gaussian. In addition, these non-diagonal terms also cause the quantum noise to occur for a very long time compared to the initial state in the form of a Bunch-Davies vacuum.
翻訳日:2023-05-12 16:16:51 公開日:2023-05-11
# 有意グラフにおけるグラフ表現学習のための意味的ランダムウォーク

Semantic Random Walk for Graph Representation Learning in Attributed Graphs ( http://arxiv.org/abs/2305.06531v1 )

ライセンス: Link先を確認
Meng Qin(参考訳) 本研究では,属性グラフにおけるグラフ表現学習(ネットワーク埋め込み)に注目した。 グラフ構造とセマンティックの組込みを2つの最適化目的の単純な組み合わせとして扱う既存の埋め込み方法とは違って, 2つの異種ソースの結合最適化を高次近接ベースフレームワークに定式化するための意味グラフ表現(SGR)法を提案する。 具体的には,まず補助重み付きグラフを構築し,そのグラフ内のノードと属性の複雑な等質的・異質な関係を包括的に符号化する。 高次トポロジーの公理を考える従来の埋め込み手法は、新しく構築されたグラフに容易に適用でき、グラフ構造と意味論の間の非線形高次固有相関を捉えながら、ノードと属性の両方の表現を学ぶことができる。 学習された属性埋め込みは、セマンティック指向の推論タスク(セマンティックコミュニティ検出など)を効果的にサポートし、グラフの深い意味を明らかにするのに役立つ。 SGRの有効性は、他のベースラインよりも印象的なパフォーマンスを達成できる一連の実グラフ上でさらに検証される。

In this study, we focus on the graph representation learning (a.k.a. network embedding) in attributed graphs. Different from existing embedding methods that treat the incorporation of graph structure and semantic as the simple combination of two optimization objectives, we propose a novel semantic graph representation (SGR) method to formulate the joint optimization of the two heterogeneous sources into a common high-order proximity based framework. Concretely, we first construct an auxiliary weighted graph, where the complex homogeneous and heterogeneous relations among nodes and attributes in the original graph are comprehensively encoded. Conventional embedding methods that consider high-order topology proximities can then be easily applied to the newly constructed graph to learn the representations of both node and attribute while capturing the nonlinear high-order intrinsic correlation inside or among graph structure and semantic. The learned attribute embeddings can also effectively support some semantic-oriented inference tasks (e.g., semantic community detection), helping to reveal the graph's deep semantic. The effectiveness of SGR is further verified on a series of real graphs, where it achieves impressive performance over other baselines.
翻訳日:2023-05-12 16:16:41 公開日:2023-05-11
# アフリカの言語上での商業的大規模言語モデルはどのくらい良いか?

How Good are Commercial Large Language Models on African Languages? ( http://arxiv.org/abs/2305.06530v1 )

ライセンス: Link先を確認
Jessica Ojo and Kelechi Ogueji(参考訳) 自然言語処理(NLP)の最近の進歩は、大規模な事前学習言語モデルの普及につながっている。 これらのモデルは、未認識のタスクや言語でも、コンテキスト内学習を使用して、優れたパフォーマンスをもたらすことが示されている。 また、言語モデル・アズ・ア・サービスという形で商用APIとして公開されており、非常に採用されている。 しかし、アフリカ語での演奏はほとんど分かっていない。 本研究では,8つのアフリカの言語にまたがる2つのタスク(機械翻訳とテキスト分類)における商業的大規模言語モデルの予備的分析を行う。 この結果から, 商業言語モデルがアフリカ語で低水準のパフォーマンスを生んでいることが示唆された。 また,機械翻訳よりもテキスト分類が優れていることがわかった。 一般論として,アフリカ語が商業的な大言語モデルで十分に表現されていることを確認すべく,我々の研究結果はコール・ツー・アクションを提示する。

Recent advancements in Natural Language Processing (NLP) has led to the proliferation of large pretrained language models. These models have been shown to yield good performance, using in-context learning, even on unseen tasks and languages. They have also been exposed as commercial APIs as a form of language-model-as-a-service, with great adoption. However, their performance on African languages is largely unknown. We present a preliminary analysis of commercial large language models on two tasks (machine translation and text classification) across eight African languages, spanning different language families and geographical areas. Our results suggest that commercial language models produce below-par performance on African languages. We also find that they perform better on text classification than machine translation. In general, our findings present a call-to-action to ensure African languages are well represented in commercial large language models, given their growing popularity.
翻訳日:2023-05-12 16:16:19 公開日:2023-05-11
# ピラミッドテクスチャフィルタリング

Pyramid Texture Filtering ( http://arxiv.org/abs/2305.06525v1 )

ライセンス: Link先を確認
Qing Zhang, Hao Jiang, Yongwei Nie, Wei-Shi Zheng(参考訳) 優れた構造を保ちながらテクスチャを平滑化させる,単純かつ効果的な手法を提案する。 ガウスピラミッドの最も粗いレベルはしばしば自然にテクスチャを取り除き、主要なイメージ構造を要約します。 これは、非常に低い解像度の粗いガウスピラミッドのレベルを、保存状態の良い構造で完全な解像度のテクスチャ平滑化結果に段階的にサンプリングし、それぞれの微細なガウスピラミッドのレベルと関連するラプラシアピラミッドのレベルを指導するという、テクスチャフィルタリングの中心的なアイデアを刺激します。 本手法は, 異なるスケール, 局所コントラスト, 形状のテクスチャから, 構造劣化や視覚的アーティファクトを導入することなく, 構造を分離することが効果的であることを示す。 提案手法の適用性についても,ディテールエンハンスメント,画像抽象化,HDRトーンマッピング,逆ハーフトニング,LDR画像エンハンスメントなど,様々な応用に適用可能であることを示す。

We present a simple but effective technique to smooth out textures while preserving the prominent structures. Our method is built upon a key observation -- the coarsest level in a Gaussian pyramid often naturally eliminates textures and summarizes the main image structures. This inspires our central idea for texture filtering, which is to progressively upsample the very low-resolution coarsest Gaussian pyramid level to a full-resolution texture smoothing result with well-preserved structures, under the guidance of each fine-scale Gaussian pyramid level and its associated Laplacian pyramid level. We show that our approach is effective to separate structure from texture of different scales, local contrasts, and forms, without degrading structures or introducing visual artifacts. We also demonstrate the applicability of our method on various applications including detail enhancement, image abstraction, HDR tone mapping, inverse halftoning, and LDR image enhancement.
翻訳日:2023-05-12 16:16:04 公開日:2023-05-11
# SAMは超解像を加速できるか?

Can SAM Boost Video Super-Resolution? ( http://arxiv.org/abs/2305.06524v1 )

ライセンス: Link先を確認
Zhihe Lu, Zeyu Xiao, Jiawang Bai, Zhiwei Xiong, Xinchao Wang(参考訳) ビデオ超解像(VSR)の主な課題は、入力フレーム内の大きな動きを扱うことであり、複数のフレームから情報を正確に集約することは困難である。 既存の作品は変形可能な畳み込みを採用するか、または光学フローを事前に推定し、効果的なアライメントと融合のためのフレーム間の対応を確立する。 フローベースの手法はフロー推定モデルの精度に大きく依存しており、2つの低解像度フレームの正確な流れを提供しない可能性がある。 本稿では,画像劣化の影響を受けにくい強力な基盤モデルであるSegment Anything Model (SAM) を用いて,VSRの強化に先立って,より堅牢でセマンティックな手法を検討する。 samベースのプリエントを使用するために,単純な効果的なモジュールであるsam-guidedfinement module (seem)を提案する。 この軽量プラグインモジュールは、セマンティックアウェア機能の生成に注意機構を活用するだけでなく、既存のメソッドに簡単かつシームレスに統合できるように設計されている。 具体的には、このSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、Vimeo-90K, REDS, Vid4の3つの広く使われているVSRデータセットに対して、最小限の実装労力で継続的に性能を改善した。 さらに重要なことは,提案したSEEMが既存の手法を効率的なチューニング方式で進めることによって,性能とトレーニングパラメータ数のバランスを調整する柔軟性が向上することである。 コードは近くオープンソースになる。

The primary challenge in video super-resolution (VSR) is to handle large motions in the input frames, which makes it difficult to accurately aggregate information from multiple frames. Existing works either adopt deformable convolutions or estimate optical flow as a prior to establish correspondences between frames for the effective alignment and fusion. However, they fail to take into account the valuable semantic information that can greatly enhance it; and flow-based methods heavily rely on the accuracy of a flow estimate model, which may not provide precise flows given two low-resolution frames. In this paper, we investigate a more robust and semantic-aware prior for enhanced VSR by utilizing the Segment Anything Model (SAM), a powerful foundational model that is less susceptible to image degradation. To use the SAM-based prior, we propose a simple yet effective module -- SAM-guidEd refinEment Module (SEEM), which can enhance both alignment and fusion procedures by the utilization of semantic information. This light-weight plug-in module is specifically designed to not only leverage the attention mechanism for the generation of semantic-aware feature but also be easily and seamlessly integrated into existing methods. Concretely, we apply our SEEM to two representative methods, EDVR and BasicVSR, resulting in consistently improved performance with minimal implementation effort, on three widely used VSR datasets: Vimeo-90K, REDS and Vid4. More importantly, we found that the proposed SEEM can advance the existing methods in an efficient tuning manner, providing increased flexibility in adjusting the balance between performance and the number of training parameters. Code will be open-source soon.
翻訳日:2023-05-12 16:15:41 公開日:2023-05-11
# 時間変化グラフにおける異常予測のための高速トポロジカルアプローチ

A fast topological approach for predicting anomalies in time-varying graphs ( http://arxiv.org/abs/2305.06523v1 )

ライセンス: Link先を確認
Umar Islambekov, Hasani Pathirana, Omid Khormali, Cuneyt Akcora, Ekaterina Smirnova(参考訳) 大きな時間変化グラフは、金融、社会、生物学的設定においてますます一般的になっている。 スパース・多層動的グラフの複雑な構造を効率的にエンコードする特徴抽出は、計算および方法論上の課題を示す。 過去10年間で、トポロジカルデータ解析(TDA)からの永続化ダイアグラム(PD)は、点間距離が明確に定義されたデータ形状の一般的な記述子となった。 しかし、ノード間の距離という本質的な概念が存在しないグラフへのTDAの適用は、ほとんど探索されていない。 本稿では,グラフデータから形状情報を抽出する計算効率の良いフレームワークを導入することにより,文献におけるこのギャップを解消する。 まず, 1次元格子上の連続的なスケール値に対して関連するベティ関数を平均化することにより, 定量的なノード属性を利用するいわゆるロースターフィルタを用いてPDを計算し, ベクトル化する。 提案手法は,グラフを距離空間に埋め込むことを避け,入力雑音に対する安定性を持つ。 シミュレーション研究において,提案したベクトル要約は,時間変化グラフにおける変化点検出率の向上につながることを示す。 実際のデータアプリケーションでは、Ethereum暗号トランザクションネットワークの異常な価格予測において、私たちのアプローチは最大で22%向上する。

Large time-varying graphs are increasingly common in financial, social and biological settings. Feature extraction that efficiently encodes the complex structure of sparse, multi-layered, dynamic graphs presents computational and methodological challenges. In the past decade, a persistence diagram (PD) from topological data analysis (TDA) has become a popular descriptor of shape of data with a well-defined distance between points. However, applications of TDA to graphs, where there is no intrinsic concept of distance between the nodes, remain largely unexplored. This paper addresses this gap in the literature by introducing a computationally efficient framework to extract shape information from graph data. Our framework has two main steps: first, we compute a PD using the so-called lower-star filtration which utilizes quantitative node attributes, and then vectorize it by averaging the associated Betti function over successive scale values on a one-dimensional grid. Our approach avoids embedding a graph into a metric space and has stability properties against input noise. In simulation studies, we show that the proposed vector summary leads to improved change point detection rate in time-varying graphs. In a real data application, our approach provides up to 22% gain in anomalous price prediction for the Ethereum cryptocurrency transaction networks.
翻訳日:2023-05-12 16:15:10 公開日:2023-05-11
# 視覚トランスフォーマのパッチワイズ混合精度量子化

Patch-wise Mixed-Precision Quantization of Vision Transformer ( http://arxiv.org/abs/2305.06559v1 )

ライセンス: Link先を確認
Junrui Xiao, Zhikai Li, Lianwei Yang and Qingyi Gu(参考訳) 新興ハードウェアが混合ビット幅演算処理をサポートし始めるにつれて、ニューラルネットワークの複雑さを軽減するために混合精度量子化が広く用いられている。 しかし、視覚変換器(ViT)は、強力な特徴表現の学習を保証するために複雑な自己アテンション計算を必要とする。 本稿では,ViTの効率的な推定のためのパッチワイド混合精度量子化(PMQ)を提案する。 具体的には,vits内の各成分の量子化誤差に対する感度を測定するため,既存の手法よりも高速で軽量なグローバルメトリックを設計する。 さらに,その感度に応じて最適なビット精度を自動的に割り当てるためのパレートフロンティア手法も導入する。 推論段階における自己注意の計算複雑性をさらに軽減するため,各層にパッチのビット幅を再配置するパッチワイズモジュールを提案する。 ImageNetデータセットの大規模な実験により,提案手法は検索コストを大幅に削減し,混合精度の量子化をViTに適用しやすくする。

As emerging hardware begins to support mixed bit-width arithmetic computation, mixed-precision quantization is widely used to reduce the complexity of neural networks. However, Vision Transformers (ViTs) require complex self-attention computation to guarantee the learning of powerful feature representations, which makes mixed-precision quantization of ViTs still challenging. In this paper, we propose a novel patch-wise mixed-precision quantization (PMQ) for efficient inference of ViTs. Specifically, we design a lightweight global metric, which is faster than existing methods, to measure the sensitivity of each component in ViTs to quantization errors. Moreover, we also introduce a pareto frontier approach to automatically allocate the optimal bit-precision according to the sensitivity. To further reduce the computational complexity of self-attention in inference stage, we propose a patch-wise module to reallocate bit-width of patches in each layer. Extensive experiments on the ImageNet dataset shows that our method greatly reduces the search cost and facilitates the application of mixed-precision quantization to ViTs.
翻訳日:2023-05-12 16:09:45 公開日:2023-05-11
# セグメンテーションと追跡

Segment and Track Anything ( http://arxiv.org/abs/2305.06558v1 )

ライセンス: Link先を確認
Yangming Cheng, Liulei Li, Yuanyou Xu, Xiaodi Li, Zongxin Yang, Wenguan Wang, Yi Yang(参考訳) このレポートでは、segment and track anything(samtrack)と呼ばれるフレームワークを提示している。 さらにSAM-Trackでは、ユーザが特定の要件に応じて、ビデオ内の複数のオブジェクトをトラッキングするために、マルチモーダルなインタラクションメソッドを採用している。 これらの相互作用方法は、クリック、ストローク、テキストで構成され、それぞれに固有の利点があり、組み合わせて使用できる。 その結果、SAM-Trackは、ドローン技術、自動運転、医療画像、拡張現実、生物分析など、さまざまな分野にまたがって使用することができる。 SAM-Track amalgamates Segment Anything Model (SAM)は、対話型キーフレームセグメンテーションモデルであり、VOT 2022チャレンジの4トラックで1位を獲得したAOTベースのトラッキングモデル(DeAOT)を用いて、ビデオ中のオブジェクト追跡を容易にする。 さらに sam-track には grounding-dino というフレームワークが組み込まれており,テキストベースのインタラクションをサポートする。 我々は,DAVIS-2016 Val (92.0%),DAVIS-2017 Test (79.2%)におけるSAM-Trackの顕著な機能と,多様なアプリケーションでの実践性を示した。 プロジェクトページはhttps://github.com/z-x-yang/segment-and-track-anything.com/で閲覧できる。

This report presents a framework called Segment And Track Anything (SAMTrack) that allows users to precisely and effectively segment and track any object in a video. Additionally, SAM-Track employs multimodal interaction methods that enable users to select multiple objects in videos for tracking, corresponding to their specific requirements. These interaction methods comprise click, stroke, and text, each possessing unique benefits and capable of being employed in combination. As a result, SAM-Track can be used across an array of fields, ranging from drone technology, autonomous driving, medical imaging, augmented reality, to biological analysis. SAM-Track amalgamates Segment Anything Model (SAM), an interactive key-frame segmentation model, with our proposed AOT-based tracking model (DeAOT), which secured 1st place in four tracks of the VOT 2022 challenge, to facilitate object tracking in video. In addition, SAM-Track incorporates Grounding-DINO, which enables the framework to support text-based interaction. We have demonstrated the remarkable capabilities of SAM-Track on DAVIS-2016 Val (92.0%), DAVIS-2017 Test (79.2%)and its practicability in diverse applications. The project page is available at: https://github.com/z-x-yang/Segment-and-Track-Anything.
翻訳日:2023-05-12 16:09:27 公開日:2023-05-11
# オープンワールドにおけるロングテール質問応答

Long-Tailed Question Answering in an Open World ( http://arxiv.org/abs/2305.06557v1 )

ライセンス: Link先を確認
Yi Dai, Hao Lang, Yinhe Zheng, Fei Huang, Yongbin Li(参考訳) 実世界のデータは、しばしばオープンな長期分布を持ち、様々なタスクをサポートする統一されたQAモデルを構築することは、実用的なQAアプリケーションにとって不可欠である。 しかし、適切なサンプルの参照タスクへのアクセスを必要とするか、あるいは目に見えないタスクからのサンプルを明示的にモデル化しないため、従来のQAアプローチを拡張するのは簡単ではない。 本稿では、Long-Tailed QA(OLTQA)を、長い尾を持つ分散データから学習し、見知らぬQAタスクよりもパフォーマンスを最適化するものとして定義する。 本稿では,頭部,尾部,未確認タスク間の知識共有を促進するOLTQAモデルを提案し,大規模事前学習型言語モデル(LM)の知識を明示的にマイニングする。 具体的には、詳細なコンポーネントのプールを通じてモデルを整理し、これらのコンポーネントを動的に組み合わせて入力し、知識共有を容易にする。 さらに、QAタスクの知識を表すテキストを生成するためにLMを誘導するインコンテキストの例を選択するために、検索-then-rerankフレームが導入された。 さらに、LMからの知識蒸留(KD)によりフレームワークを事前訓練し、適応的相互KD法によりフレームとQAモデルを共同訓練するために、2段階のトレーニング手法を導入する。 大規模なOLTQAデータセットでは、既存の43のQAデータセットからキュレートします。 コードとデータは \url{https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/oltqa} で公開しています。

Real-world data often have an open long-tailed distribution, and building a unified QA model supporting various tasks is vital for practical QA applications. However, it is non-trivial to extend previous QA approaches since they either require access to seen tasks of adequate samples or do not explicitly model samples from unseen tasks. In this paper, we define Open Long-Tailed QA (OLTQA) as learning from long-tailed distributed data and optimizing performance over seen and unseen QA tasks. We propose an OLTQA model that encourages knowledge sharing between head, tail and unseen tasks, and explicitly mines knowledge from a large pre-trained language model (LM). Specifically, we organize our model through a pool of fine-grained components and dynamically combine these components for an input to facilitate knowledge sharing. A retrieve-then-rerank frame is further introduced to select in-context examples, which guild the LM to generate text that express knowledge for QA tasks. Moreover, a two-stage training approach is introduced to pre-train the framework by knowledge distillation (KD) from the LM and then jointly train the frame and a QA model through an adaptive mutual KD method. On a large-scale OLTQA dataset we curate from 43 existing QA datasets, our model consistently outperforms the state-of-the-art. We release the code and data at \url{https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/oltqa}.
翻訳日:2023-05-12 16:09:02 公開日:2023-05-11
# オープンワールドにおけるドメインインクリメンタルな生涯学習

Domain Incremental Lifelong Learning in an Open World ( http://arxiv.org/abs/2305.06555v1 )

ライセンス: Link先を確認
Yi Dai, Hao Lang, Yinhe Zheng, Bowen Yu, Fei Huang, Yongbin Li(参考訳) 生涯学習(LL)は、NLPモデルが新しいタスクを継続的に学習する重要な能力である。 アーキテクチャベースのアプローチはLLモデルの効果的な実装であると報告されている。 しかし、テストフェーズでタスクIDにアクセスするか、目に見えないタスクからのサンプルを処理できないため、以前のアプローチをドメインインクリメンタルLLシナリオに拡張するのは簡単ではない。 本稿では,a \underline{d}ynam\underline{i}c \underline{a}rchitecture-based lifelo\underline{n}g le\underline{a}rning model を提案する。 階層的に組織化された4種類のプロンプトがダイアナで使われ、異なる粒度の知識を捉えている。 具体的には、タスク固有の知識をキャプチャして高いLL性能を維持するためのタスクレベルのプロンプトと、入力サンプル間で共有される知識をインスタンスレベルのプロンプトに割り当て、モデルの一般化性能を改善する。 さらに,未知のタスクを明示的にモデル化するための個別のプロンプトと,タスク間の知識共有を容易にするための一連のプロンプトキーベクタを導入する。 大規模な実験により、Dianaは最先端のLLモデルよりも優れており、特に目に見えないタスクを処理している。 コードとデータは \url{https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana} で公開しています。

Lifelong learning (LL) is an important ability for NLP models to learn new tasks continuously. Architecture-based approaches are reported to be effective implementations for LL models. However, it is non-trivial to extend previous approaches to domain incremental LL scenarios since they either require access to task identities in the testing phase or cannot handle samples from unseen tasks. In this paper, we propose \textbf{Diana}: a \underline{d}ynam\underline{i}c \underline{a}rchitecture-based lifelo\underline{n}g le\underline{a}rning model that tries to learn a sequence of tasks with a prompt-enhanced language model. Four types of hierarchically organized prompts are used in Diana to capture knowledge from different granularities. Specifically, we dedicate task-level prompts to capture task-specific knowledge to retain high LL performances and maintain instance-level prompts to learn knowledge shared across input samples to improve the model's generalization performance. Moreover, we dedicate separate prompts to explicitly model unseen tasks and introduce a set of prompt key vectors to facilitate knowledge sharing between tasks. Extensive experiments demonstrate that Diana outperforms state-of-the-art LL models, especially in handling unseen tasks. We release the code and data at \url{https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana}.
翻訳日:2023-05-12 16:08:36 公開日:2023-05-11
# welayout: 企業文書におけるロバストレイアウトセグメンテーションに関するicdar 2023コンペティションのためのwechatレイアウト分析システム

WeLayout: WeChat Layout Analysis System for the ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents ( http://arxiv.org/abs/2305.06553v1 )

ライセンス: Link先を確認
Mingliang Zhang, Zhen Cao, Juntao Liu, Liqiang Niu, Fandong Meng, Jie Zhou(参考訳) 本稿では,WeChat Layout分析システム(WeChat Layout Analysis System)の略で,企業文書のレイアウトを分割する新しいシステムWeLayoutを紹介する。 我々のアプローチは、DINOとYOLOの洗練されたアンサンブルを利用しており、特にロバストレイアウトセグメンテーションに関するICDAR 2023コンペティションのために開発された。 提案手法は,ベースラインを大きく上回り,リーダボード上のトップ位置を70.0のマップで確保する。 この性能を達成するために,我々は,データセット拡張,モデルアーキテクチャ,バウンディングボックスリファインメント,モデルアンサンブル技術など,タスクのさまざまな側面の拡張に集中した。 さらに、各文書カテゴリのデータを個別にトレーニングし、より高い平均入力スコアを確保しました。 また,セルマッチングによる性能向上のためのアルゴリズムも開発した。 モデルアンサンブルの最適重みとiouしきい値を特定するために,木構造パルゼン推定器と呼ばれるベイズ最適化アルゴリズムを用いた。 本手法は,コーポレート文書におけるロバストなレイアウトセグメンテーションを実現するために,クエリベースとアンカーフリーモデルを組み合わせた利点を効果的に実証する。

In this paper, we introduce WeLayout, a novel system for segmenting the layout of corporate documents, which stands for WeChat Layout Analysis System. Our approach utilizes a sophisticated ensemble of DINO and YOLO models, specifically developed for the ICDAR 2023 Competition on Robust Layout Segmentation. Our method significantly surpasses the baseline, securing a top position on the leaderboard with a mAP of 70.0. To achieve this performance, we concentrated on enhancing various aspects of the task, such as dataset augmentation, model architecture, bounding box refinement, and model ensemble techniques. Additionally, we trained the data separately for each document category to ensure a higher mean submission score. We also developed an algorithm for cell matching to further improve our performance. To identify the optimal weights and IoU thresholds for our model ensemble, we employed a Bayesian optimization algorithm called the Tree-Structured Parzen Estimator. Our approach effectively demonstrates the benefits of combining query-based and anchor-free models for achieving robust layout segmentation in corporate documents.
翻訳日:2023-05-12 16:08:09 公開日:2023-05-11
# ディグラフ置換規則を用いたシフト条件を用いた肩サーフィン攻撃の防止

Prevention of shoulder-surfing attacks using shifting condition using digraph substitution rules ( http://arxiv.org/abs/2305.06549v1 )

ライセンス: Link先を確認
Amanul Islam, Fazidah Othman, Nazmus Sakib, Hafiz Md. Hasan Babu(参考訳) グラフィカルパスワードは、ユーザーがパスワードを記憶するのを助けるために、アルファ数字のパスワードを置き換える代替スキームとして実装されている。 しかし、ほとんどのグラフィカルパスワードシステムは、ビジュアルインターフェースの使用によって肩サーフィン攻撃に弱い。 本研究では,肩当て攻撃問題に対処するためにダイグラフ置換規則を用いたシフト条件を用いた手法を提案する。 提案アルゴリズムは,ユーザ認証手順を通じて,パスワード画像とデコイ画像の両方を用いて,直接観察や記録セッションからの監視を通じて,相手がパスワード画像を得るのを混乱させる。 この提案アルゴリズムによって生成されたパス画像はランダムであり、アルゴリズムが完全に理解されている場合にのみ生成される。 結果として、敵はログインする適切なパスワード画像を得る手がかりがない。 ショルダーサーフィン攻撃を回避し,提案手法の有効性を評価するため,ユーザ調査を行った。 その結果,提案手法は肩サーフィン攻撃に耐えうることが示唆された(直接観察法とビデオ記録法の両方)。 提案手法をテストした結果,肩のサーフィンや発生頻度解析に抵抗できることが判明した。 さらに、この研究で得られた経験は、グラフィカルパスワードの知識の領域におけるギャップを広げることができる。

Graphical passwords are implemented as an alternative scheme to replace alphanumeric passwords to help users to memorize their password. However, most of the graphical password systems are vulnerable to shoulder-surfing attack due to the usage of the visual interface. In this research, a method that uses shifting condition with digraph substitution rules is proposed to address shoulder-surfing attack problem. The proposed algorithm uses both password images and decoy images throughout the user authentication procedure to confuse adversaries from obtaining the password images via direct observation or watching from a recorded session. The pass-images generated by this suggested algorithm are random and can only be generated if the algorithm is fully understood. As a result, adversaries will have no clue to obtain the right password images to log in. A user study was undertaken to assess the proposed method's effectiveness to avoid shoulder-surfing attacks. The results of the user study indicate that the proposed approach can withstand shoulder-surfing attacks (both direct observation and video recording method).The proposed method was tested and the results showed that it is able to resist shoulder-surfing and frequency of occurrence analysis attacks. Moreover, the experience gained in this research can be pervaded the gap on the realm of knowledge of the graphical password.
翻訳日:2023-05-12 16:07:46 公開日:2023-05-11
# 離散時間系のニューラルリアプノフ制御

Neural Lyapunov Control for Discrete-Time Systems ( http://arxiv.org/abs/2305.06547v1 )

ライセンス: Link先を確認
Junlin Wu, Andrew Clark, Yiannis Kantaros and Yevgeniy Vorobeychik(参考訳) 線形系の安定性はよく理解されているが、非線形力学系では依然として大きな課題である。 そのような場合の一般的なアプローチは、リャプノフ安定理論を利用して、リャプノフ制御関数と関連する制御ポリシーの組合せを計算することである。 しかし、一般非線形系に対するリアプノフ函数の発見は難しい課題である。 この課題に対処するために、ニューラルネットワークを用いたリアプノフ関数を表現するいくつかの手法が最近提案されている。 しかし、このようなアプローチは連続時間システム専用に設計されている。 離散時間系におけるニューラルリアプノフ制御の学習のための最初のアプローチを提案する。 3つの重要な要素により、確実に安定した制御方針を効果的に学習することができる。 1つ目は、離散時間系の安定条件を検証するための新しい混合整数線形計画法である。 2つ目は、アトラクションの領域を特徴付ける部分レベル集合を計算するための新しいアプローチである。 最後に,反例を素早く見つけてリアプノフ関数学習を大幅に高速化するために,ヒューリスティックな勾配に基づくアプローチを採用している。 4つの標準ベンチマーク実験により、我々のアプローチは最先端のベースラインを大きく上回ることを示した。 例えば、パストラッキングベンチマークでは、最近のニューラルネットワークのlyapunovコントロールベースラインを、実行時間とアトラクション領域のサイズの両方で桁違いに上回り、この4つのベンチマーク(cartpoleとpvtol)のうち2つでは、当社が証明可能な安定したコントローラを返すための最初の自動アプローチです。

While ensuring stability for linear systems is well understood, it remains a major challenge for systems with nonlinear dynamics. A general approach in such cases is to leverage Lyapunov stability theory to compute a combination of a Lyapunov control function and an associated control policy. However, finding Lyapunov functions for general nonlinear systems is a challenging task. To address this challenge, several methods have been recently proposed that represent Lyapunov functions using neural networks. However, such approaches have been designed exclusively for continuous-time systems. We propose the first approach for learning neural Lyapunov control in discrete-time systems. Three key ingredients enable us to effectively learn provably stable control policies. The first is a novel mixed-integer linear programming approach for verifying the stability conditions in discrete-time systems. The second is a novel approach for computing sub-level sets which characterize the region of attraction. Finally, we rely on a heuristic gradient-based approach for quickly finding counterexamples to significantly speed up Lyapunov function learning. Our experiments on four standard benchmarks demonstrate that our approach significantly outperforms state-of-the-art baselines. For example, on the path tracking benchmark, we outperform recent neural Lyapunov control baselines by an order of magnitude in both running time and the size of the region of attraction, and on two of the four benchmarks (cartpole and PVTOL), ours is the first automated approach to return a provably stable controller.
翻訳日:2023-05-12 16:07:27 公開日:2023-05-11
# geoglue:地理的言語理解評価ベンチマーク

GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark ( http://arxiv.org/abs/2305.06545v1 )

ライセンス: Link先を確認
Dongyang Li, Ruixue Ding, Qiang Zhang, Zheng Li, Boli Chen, Pengjun Xie, Yao Xu, Xin Li, Ning Guo, Fei Huang and Xiaofeng He(参考訳) 地理的アプリケーションの開発が急速に進んでいるため、自動化可能かつインテリジェントなモデルは大量の情報を扱うように設計されている。 しかし、地理的自然言語処理にフォーカスする研究者はほとんどおらず、統一標準を構築するためのベンチマークは存在していない。 本研究では,GeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。 本研究は,オープンソースの地理資源から収集し,リコール時の地理的テクスト的類似性,リランクにおける地理的テクスト的類似性,地理的要素のタグ付け,地理的構成分析,何カットか,地理的エンティティアライメントなど6つの自然言語理解タスクを導入する。 また,一般ベースラインの評価実験と分析を行い,geoglueベンチマークの有効性と意義を示した。

With a fast developing pace of geographic applications, automatable and intelligent models are essential to be designed to handle the large volume of information. However, few researchers focus on geographic natural language processing, and there has never been a benchmark to build a unified standard. In this work, we propose a GeoGraphic Language Understanding Evaluation benchmark, named GeoGLUE. We collect data from open-released geographic resources and introduce six natural language understanding tasks, including geographic textual similarity on recall, geographic textual similarity on rerank, geographic elements tagging, geographic composition analysis, geographic where what cut, and geographic entity alignment. We also pro vide evaluation experiments and analysis of general baselines, indicating the effectiveness and significance of the GeoGLUE benchmark.
翻訳日:2023-05-12 16:07:06 公開日:2023-05-11
# 大規模データセットのスペクトルクラスタリング:いつ動作するのか? 連続クラスタリングと密度シーガーバスターの理論

Spectral Clustering on Large Datasets: When Does it Work? Theory from Continuous Clustering and Density Cheeger-Buser ( http://arxiv.org/abs/2305.06541v1 )

ライセンス: Link先を確認
Timothy Chu, Gary Miller, Noel Walkington(参考訳) スペクトルクラスタリングは、時間のテストに耐えた最も人気のあるクラスタリングアルゴリズムの1つである。 記述は簡単で、標準的な線形代数を使って実装でき、しばしば$k$-meansや$k$-centersのような従来のクラスタリングアルゴリズムよりもよいクラスタを見つける。 Shi and Malikによる双方向スペクトルクラスタリングの基礎アルゴリズムは、データから幾何グラフを作成し、そのグラフのスペクトルカットを見つける。 現代の機械学習では、多くのデータセットは確率密度関数から引き出された多数の点としてモデル化される。 この設定でスペクトルクラスタリングがいつ動作するのか、そうでないのかは、ほとんど分かっていない。 過去の研究者は、グラフCheegerの不等式(グラフのスペクトルカットは ``Normalized Cut''' に近似している)に訴えることでスペクトルクラスタリングを正当化したが、この正当化は大きなデータセットで分解することが知られている。 過去の研究者が検討した連続的なスペクトルクラスタリング(確率密度の非重み付けスペクトルカット)が、基礎となる密度自体のよいクラスターを見つけることを証明し、確率密度から導かれる大きなデータセット上のスペクトルクラスタリングに関する理論的に未定の直観を与える。 我々の研究は、シマリクスペクトルクラスタリングがラプラス分布の混合から引き出されたデータに対してうまく機能し、我々は「平方根トラフ」と呼ばれる密度のような特定の密度から引き出されたデータに対してうまく機能することを示唆している。 我々のコア定理は、重み付きスペクトルカットが全ての確率密度に対して低い重み付き等尺性を持つことを証明している。 私たちのキーとなるツールは、不連続なものを含む全ての確率密度に対する新しいCheeger-Buser不等式です。

Spectral clustering is one of the most popular clustering algorithms that has stood the test of time. It is simple to describe, can be implemented using standard linear algebra, and often finds better clusters than traditional clustering algorithms like $k$-means and $k$-centers. The foundational algorithm for two-way spectral clustering, by Shi and Malik, creates a geometric graph from data and finds a spectral cut of the graph. In modern machine learning, many data sets are modeled as a large number of points drawn from a probability density function. Little is known about when spectral clustering works in this setting -- and when it doesn't. Past researchers justified spectral clustering by appealing to the graph Cheeger inequality (which states that the spectral cut of a graph approximates the ``Normalized Cut''), but this justification is known to break down on large data sets. We provide theoretically-informed intuition about spectral clustering on large data sets drawn from probability densities, by proving when a continuous form of spectral clustering considered by past researchers (the unweighted spectral cut of a probability density) finds good clusters of the underlying density itself. Our work suggests that Shi-Malik spectral clustering works well on data drawn from mixtures of Laplace distributions, and works poorly on data drawn from certain other densities, such as a density we call the `square-root trough'. Our core theorem proves that weighted spectral cuts have low weighted isoperimetry for all probability densities. Our key tool is a new Cheeger-Buser inequality for all probability densities, including discontinuous ones.
翻訳日:2023-05-12 16:06:52 公開日:2023-05-11
# 映像補間モデルに対するフレーム間加速攻撃

Inter-frame Accelerate Attack against Video Interpolation Models ( http://arxiv.org/abs/2305.06540v1 )

ライセンス: Link先を確認
Junpei Liao, Zhikai Chen, Liang Yi, Wenyuan Yang, Baoyuan Wu, Xiaochun Cao(参考訳) 映像の質を高めるために中間フレームを合成することを目的とした深層学習に基づくビデオフレーム補間法 (VIF) は, 近年, 高度に開発されている。 本稿では,VIFモデルの対角的ロバスト性について検討する。 我々は,対戦型攻撃をVIFモデルに適用し,対戦型モデルに対して非常に脆弱であることを示す。 攻撃効率を向上させるため,ビデオフレーム補間作業の特性をフル活用することを提案する。 直感的には、隣接するフレーム間のギャップは小さくなり、対応する対角摂動も類似している。 次に,従来の隣接フレームの摂動として摂動を初期化し,アタック反復回数を減少させる新しい攻撃手法であるinter-frameaccelerate attack (iaa)を提案する。 本手法は従来の手法と同等の攻撃性能を達成しつつ,攻撃効率を大幅に向上できることを示す。 また,この手法を高レベルの視覚課題である映像認識モデルにも拡張し,高い攻撃効率を実現する。

Deep learning based video frame interpolation (VIF) method, aiming to synthesis the intermediate frames to enhance video quality, have been highly developed in the past few years. This paper investigates the adversarial robustness of VIF models. We apply adversarial attacks to VIF models and find that the VIF models are very vulnerable to adversarial examples. To improve attack efficiency, we suggest to make full use of the property of video frame interpolation task. The intuition is that the gap between adjacent frames would be small, leading to the corresponding adversarial perturbations being similar as well. Then we propose a novel attack method named Inter-frame Accelerate Attack (IAA) that initializes the perturbation as the perturbation for the previous adjacent frame and reduces the number of attack iterations. It is shown that our method can improve attack efficiency greatly while achieving comparable attack performance with traditional methods. Besides, we also extend our method to video recognition models which are higher level vision tasks and achieves great attack efficiency.
翻訳日:2023-05-12 16:06:21 公開日:2023-05-11
# 画像帯域の3dbノイズペナルティを超える量子エンハンス光ビートノート検出

Quantum-enhanced optical beat-note detection beyond 3-dB noise penalty of image band ( http://arxiv.org/abs/2305.06579v1 )

ライセンス: Link先を確認
Keitaro Anai, Yutaro Enomoto, Hiroto Omura, Koji Nagano, Kiwamu Izumi, Mamoru Endo, and Shuntaro Takeda(参考訳) 異なる周波数の2つのビームによる光ビートノート検出は、様々な空間的・時間的測定のための重要なセンシング技術である。 しかし、その感度は3dBノイズペナルティとして知られる画像バンドからの余分なショットノイズ汚染によるショットノイズや、検出器における避けられない光パワー制約の影響を受けやすい。 本稿では,圧縮光を用いて余分なノイズを含むすべての関連バンドからショットノイズを除去する方法を提案する。 また,3-dB以上のノイズ低減実験を行った。 我々の研究は、現在の限界を超えた様々な空間的・時間的測定の感度を高めるべきである。

Optical beat-note detection with two beams at different frequencies is a key sensing technology for various spatial/temporal measurements. However, its sensitivity is inherently susceptible to shot noise due to the extra shot-noise contamination from the image band known as the 3-dB noise penalty, as well as the unavoidable optical power constraints at detectors. Here, we propose a method to remove shot noise from all relevant bands including the extra noise by using squeezed light. We also demonstrate beyond-3-dB noise reduction experimentally. Our work should boost the sensitivity of various spatial/temporal measurements beyond the current limitations.
翻訳日:2023-05-12 15:58:46 公開日:2023-05-11
# 時間変動グラフの時間ラベル平滑性に基づくクラスタリング

Clustering of Time-Varying Graphs Based on Temporal Label Smoothness ( http://arxiv.org/abs/2305.06576v1 )

ライセンス: Link先を確認
Katsuki Fukumoto, Koki Yamada, Yuichi Tanaka, and Hoi-To Wai(参考訳) 本稿では,クラスタラベルが時間とともにスムーズに変化するという仮定に基づいて,時系列グラフのノードクラスタリング手法を提案する。 クラスタリングは、信号処理、機械学習、データマイニングなど、多くの科学および工学分野における基本的なタスクの1つです。 既存の研究のほとんどは静的グラフ内のノードのクラスタリングに重点を置いているが、時系列データ(例えばソーシャルネットワーク、脳機能接続、点クラウド)の時間変化グラフに遭遇することが多い。 本稿では,時系列グラフのノードクラスタリングをスペクトルクラスタリングに基づく最適化問題として定式化し,ノードラベルの滑らかさを制約した。 主対分割アルゴリズムを用いてこの問題を解く。 提案手法の有効性を検証するため,合成および実世界の時系列グラフ実験を行った。

We propose a node clustering method for time-varying graphs based on the assumption that the cluster labels are changed smoothly over time. Clustering is one of the fundamental tasks in many science and engineering fields including signal processing, machine learning, and data mining. Although most existing studies focus on the clustering of nodes in static graphs, we often encounter time-varying graphs for time-series data, e.g., social networks, brain functional connectivity, and point clouds. In this paper, we formulate a node clustering of time-varying graphs as an optimization problem based on spectral clustering, with a smoothness constraint of the node labels. We solve the problem with a primal-dual splitting algorithm. Experiments on synthetic and real-world time-varying graphs are performed to validate the effectiveness of the proposed approach.
翻訳日:2023-05-12 15:58:36 公開日:2023-05-11
# 大規模言語モデルにおける辞書プロンプト翻訳の連鎖

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models ( http://arxiv.org/abs/2305.06575v1 )

ライセンス: Link先を確認
Hongyuan Lu, Haoyang Huang, Dongdong Zhang, Haoran Yang, Wai Lam, Furu Wei(参考訳) 大規模言語モデル(LLM)は、並列データなしで訓練しても、MNMT(multilingual neural machine translation)において驚くほど優れた性能を示している。 しかし、トレーニングデータの量は巨大であるにもかかわらず、レアな単語、特に低リソース言語への翻訳にはまだ苦労している。 さらに悪いことに、LLM上での低リソース言語によるテキスト内学習に関する関連するデモを検索することは非現実的です。 そこで本研究では,入力単語のサブセットに対する多言語辞書の連鎖により,事前知識を持つllmを増強し,llmの翻訳能力を高める新しい手法であるcodを提案する。 CoDによるChatGPTの拡張は、FLORES-200完全テストセット上で、MNMTの最大13倍のChrF++ポイント(キリル文字で書かれた英語からセルビア語への3.08から42.63)を付与することを示している。 我々はさらに,多言語辞書の連鎖の重要性と,低リソース言語に対するcodの限定的なデモンストレーションの優位性を実証した。

Large language models (LLMs) have shown surprisingly good performance in multilingual neural machine translation (MNMT) even when trained without parallel data. Yet, despite the fact that the amount of training data is gigantic, they still struggle with translating rare words, particularly for low-resource languages. Even worse, it is usually unrealistic to retrieve relevant demonstrations for in-context learning with low-resource languages on LLMs, which restricts the practical use of LLMs for translation -- how should we mitigate this problem? To this end, we present a novel method, CoD, which augments LLMs with prior knowledge with the chains of multilingual dictionaries for a subset of input words to elicit translation abilities for LLMs. Extensive experiments indicate that augmenting ChatGPT with CoD elicits large gains by up to 13x ChrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the importance of chaining the multilingual dictionaries, as well as the superiority of CoD to few-shot demonstration for low-resource languages.
翻訳日:2023-05-12 15:58:23 公開日:2023-05-11
# 教師なし知識グラフエンティティアライメントのためのgromov-wassersteinフレームワーク

A Fused Gromov-Wasserstein Framework for Unsupervised Knowledge Graph Entity Alignment ( http://arxiv.org/abs/2305.06574v1 )

ライセンス: Link先を確認
Jianheng Tang, Kangfei Zhao, Jia Li(参考訳) エンティティアライメントは、異なる知識グラフ(KG)間で対応するエンティティを識別するタスクである。 最近の埋め込み型エンティティアライメント手法は大きな進歩を見せているが、KG構造情報の活用に苦慮している。 本稿では,FGW(Fused Gromov-Wasserstein)距離を利用した非教師付きエンティティアライメントフレームワークであるFGWEAを紹介する。 FGWの最適化に伴う計算問題に対処するため、3段階のプログレッシブ最適化アルゴリズムを考案した。 基本的なセマンティック埋め込みマッチングから始まり、高信頼なエンティティリンクの反復的な更新に基づいて、クロスKG構造とリレーショナル類似性マッチングを近似し、最終的にKG間のグローバルな構造比較で決定する。 5言語にわたる14の異なるKGをカバーする4つのエンティティアライメントデータセットについて広範な実験を行った。 監督やハイパーパラメータチューニングがなければ、fgweaは最先端のエンティティアライメントメソッドを含む21の競合ベースラインを超える。 私たちのコードはhttps://github.com/squareRoot3/FusedGW-Entity-Alignmentで利用可能です。

Entity alignment is the task of identifying corresponding entities across different knowledge graphs (KGs). Although recent embedding-based entity alignment methods have shown significant advancements, they still struggle to fully utilize KG structural information. In this paper, we introduce FGWEA, an unsupervised entity alignment framework that leverages the Fused Gromov-Wasserstein (FGW) distance, allowing for a comprehensive comparison of entity semantics and KG structures within a joint optimization framework. To address the computational challenges associated with optimizing FGW, we devise a three-stage progressive optimization algorithm. It starts with a basic semantic embedding matching, proceeds to approximate cross-KG structural and relational similarity matching based on iterative updates of high-confidence entity links, and ultimately culminates in a global structural comparison between KGs. We perform extensive experiments on four entity alignment datasets covering 14 distinct KGs across five languages. Without any supervision or hyper-parameter tuning, FGWEA surpasses 21 competitive baselines, including cutting-edge supervised entity alignment methods. Our code is available at https://github.com/squareRoot3/FusedGW-Entity-Alignment.
翻訳日:2023-05-12 15:58:00 公開日:2023-05-11
# 勧告基礎モデルの項目IDの索引付け方法

How to Index Item IDs for Recommendation Foundation Models ( http://arxiv.org/abs/2305.06569v1 )

ライセンス: Link先を確認
Wenyue Hua, Shuyuan Xu, Yingqiang Ge, Yongfeng Zhang(参考訳) Recommendation foundation modelは、リコメンデーションタスクを自然言語タスクに変換することで、リコメンデーションのために大きな言語モデル(LLM)を利用する。 従来のレコメンデーションモデルでは、各候補項目と各候補項目のランキングスコアを計算するのではなく、アイテムを直接生成する生成レコメンデーションを可能にし、マルチステージフィルタリングからシングルステージフィルタリングまでのレコメンデーションパイプラインを簡素化する。 推奨項目を決定する際に、過剰に長いテキストを生成するのを避けるために、推奨基礎モデルにはLLM互換アイテムIDを作成することが不可欠である。 本研究では,P5を代表的バックボーンモデルとし,様々なインデクシング手法を用いて結果の再現を行い,推薦基礎モデルの項目インデックス化問題を体系的に検討する。 項目インデクシングの重要性を強調するため,まず,独立したインデクシング,タイトルインデクシング,ランダムインデクシングなど,いくつかの自明な項目インデクシング手法の問題について論じる。 次に,シーケンシャルインデクシング,協調インデクシング,セマンティック(コンテンツベース)インデクシング,ハイブリッドインデクシングという,シンプルかつ効果的な4つのソリューションを提案する。 P5 の再現性調査では,項目インデックス法がモデル性能に与える影響が明らかになり,提案手法の有効性を実世界のデータセットで検証した。

Recommendation foundation model utilizes large language models (LLM) for recommendation by converting recommendation tasks into natural language tasks. It enables generative recommendation which directly generates the item(s) to recommend rather than calculating a ranking score for each and every candidate item in traditional recommendation models, simplifying the recommendation pipeline from multi-stage filtering to single-stage filtering. To avoid generating excessively long text when deciding which item(s) to recommend, creating LLM-compatible item IDs is essential for recommendation foundation models. In this study, we systematically examine the item indexing problem for recommendation foundation models, using P5 as the representative backbone model and replicating its results with various indexing methods. To emphasize the importance of item indexing, we first discuss the issues of several trivial item indexing methods, such as independent indexing, title indexing, and random indexing. We then propose four simple yet effective solutions, including sequential indexing, collaborative indexing, semantic (content-based) indexing, and hybrid indexing. Our reproducibility study of P5 highlights the significant influence of item indexing methods on the model performance, and our results on real-world datasets validate the effectiveness of our proposed solutions.
翻訳日:2023-05-12 15:57:39 公開日:2023-05-11
# 畳み込みニューラルネットワークによる意味的セグメンテーションのための形状学習

Convolutional Neural Networks Rarely Learn Shape for Semantic Segmentation ( http://arxiv.org/abs/2305.06568v1 )

ライセンス: Link先を確認
Yixin Zhang, Maciej A. Mazurowski(参考訳) 形状学習(または形状情報を活用する能力)は、対象オブジェクトが特定の形状を持つ場合、畳み込みニューラルネットワーク(cnns)の望ましい特性である。 トピックに関するいくつかの研究が浮上しているが、CNNがどのような状況で学習するかを決定的に決定する体系的な研究は存在しない。 本稿では,特に形状が重要となるセグメンテーションネットワークの文脈において,このような研究を行う。 形状を定義し、cnnが形状情報を利用する範囲を測定するための新しい行動指標を提案する。 次に、合成および実世界のデータを用いて一連の実験を行い、CNNがどのような状況下で学習し、そのような行動を奨励できるかを徐々に明らかにする。 結論として (i)cnnは、典型的な設定では形状を学習せず、関心のあるオブジェクトを識別できる他の機能に依存している。 (ii)CNNは形状を学習できるが、その形状がオブジェクトを識別できる唯一の特徴である場合に限られる。 三 形状学習には、対象物の大きさに対して十分に大きな受容野の大きさが必要である。 (iv) 限定的な追加は、形状学習を促進することができる。 (v) 分布外データが存在する場合、学習形状は確かに有用である。

Shape learning, or the ability to leverage shape information, could be a desirable property of convolutional neural networks (CNNs) when target objects have specific shapes. While some research on the topic is emerging, there is no systematic study to conclusively determine whether and under what circumstances CNNs learn shape. Here, we present such a study in the context of segmentation networks where shapes are particularly important. We define shape and propose a new behavioral metric to measure the extent to which a CNN utilizes shape information. We then execute a set of experiments with synthetic and real-world data to progressively uncover under which circumstances CNNs learn shape and what can be done to encourage such behavior. We conclude that (i) CNNs do not learn shape in typical settings but rather rely on other features available to identify the objects of interest, (ii) CNNs can learn shape, but only if the shape is the only feature available to identify the object, (iii) sufficiently large receptive field size relative to the size of target objects is necessary for shape learning; (iv) a limited set of augmentations can encourage shape learning; (v) learning shape is indeed useful in the presence of out-of-distribution data.
翻訳日:2023-05-12 15:57:14 公開日:2023-05-11
# llmによるジェネレイティブニュースレコメンデーションを初めて見る

A First Look at LLM-Powered Generative News Recommendation ( http://arxiv.org/abs/2305.06566v1 )

ライセンス: Link先を確認
Qijiong Liu, Nuo Chen, Tetsuya Sakai, Xiao-Ming Wu(参考訳) パーソナライズされたニュースレコメンデーションシステムは、ユーザーが大量のオンラインニュースコンテンツをナビゲートするために欠かせないツールとなっているが、既存のニュースレコメンデーターは、コールドスタート問題、ユーザープロファイルモデリング、ニュースコンテンツ理解といった重要な課題に直面している。 それまでの作品は、モデル設計を通じて特定の課題に対処するために柔軟性のないルーチンに従ってきたが、ニュースコンテンツを理解し、ユーザーの興味を捉える能力に制限がある。 本稿では,大規模言語モデルから事前学習された意味的知識を活用し,ニュースデータを強化した,llmを活用したニュースレコメンデーションフレームワークであるaversationを紹介する。 当社の目標は,モデル設計から迅速な設計に移行することで,ニュースレコメンデーションのフレキシブルで統一的なソリューションを提供することです。 本稿では、パーソナライズされたニュース生成、ユーザプロファイリング、ニュース要約におけるGENREの使用について紹介する。 様々なリコメンデーションモデルを用いた大規模な実験は、genREの有効性を示す。 他の研究者が作業を再現するために、コードとデータを公開します。

Personalized news recommendation systems have become essential tools for users to navigate the vast amount of online news content, yet existing news recommenders face significant challenges such as the cold-start problem, user profile modeling, and news content understanding. Previous works have typically followed an inflexible routine to address a particular challenge through model design, but are limited in their ability to understand news content and capture user interests. In this paper, we introduce GENRE, an LLM-powered generative news recommendation framework, which leverages pretrained semantic knowledge from large language models to enrich news data. Our aim is to provide a flexible and unified solution for news recommendation by moving from model design to prompt design. We showcase the use of GENRE for personalized news generation, user profiling, and news summarization. Extensive experiments with various popular recommendation models demonstrate the effectiveness of GENRE. We will publish our code and data for other researchers to reproduce our work.
翻訳日:2023-05-12 15:56:57 公開日:2023-05-11
# rgbd画像スタイライゼーションの実現

Realization RGBD Image Stylization ( http://arxiv.org/abs/2305.06565v1 )

ライセンス: Link先を確認
Bhavya Sehgal, Vaishnavi Mendu, Aparna Mendu(参考訳) 本稿では,RGB画像とそれに対応する深度マップを用いたコンピュータビジョンにおけるスタイル伝達の適用について検討する。 本稿では,RGB画像の深度マップとヒートマップを組み込んで,より現実的なスタイル転送結果を生成する手法を提案する。 本手法を従来のニューラルスタイルトランスファー手法と比較し,よりリアルな色彩とスタイルを生成できる点において,本手法がそれを上回ることを見出した。 提案手法は画像編集や仮想現実といった様々なコンピュータビジョンアプリケーションに適用でき、生成された画像のリアリズムを改善することができる。 以上の結果から,RGB画像の深度情報と熱マップがより現実的な結果をもたらす可能性が示唆された。

This research paper explores the application of style transfer in computer vision using RGB images and their corresponding depth maps. We propose a novel method that incorporates the depth map and a heatmap of the RGB image to generate more realistic style transfer results. We compare our method to the traditional neural style transfer approach and find that our method outperforms it in terms of producing more realistic color and style. The proposed method can be applied to various computer vision applications, such as image editing and virtual reality, to improve the realism of generated images. Overall, our findings demonstrate the potential of incorporating depth information and heatmap of RGB images in style transfer for more realistic results.
翻訳日:2023-05-12 15:56:40 公開日:2023-05-11
# undercover deepfakes: ビデオ中の偽のセグメントを検出する

Undercover Deepfakes: Detecting Fake Segments in Videos ( http://arxiv.org/abs/2305.06564v1 )

ライセンス: Link先を確認
Sanjay Saha, Rashindrie Perera, Sachith Seneviratne, Tamasha Malepathirana, Sanka Rasnayaka, Deshani Geethika, Terence Sim, Saman Halgamuge(参考訳) 近年のジェネレーティブモデルのルネッサンスは、主に拡散モデルの出現とGAN法の反復的な改善により、多くのクリエイティブな応用を可能にしている。 しかし、それぞれの進歩には誤用の可能性の高まりも伴っている。 ディープフェイク生成の分野では、これは重要な社会問題である。 特に、このような生成技術を使ってビデオのセグメントを修正できることは、ディープフェイクの新たなパラダイムを生み出します。 現在の学術文献におけるディープフェイク検出手法は評価されていない。 本稿では,フレームレベルのディープフェイク予測を行うことにより,この問題に対処できるディープフェイク検出手法を提案する。 テストを容易にするために,ビデオが実フレームシーケンスと偽フレームシーケンスの両方を持つ新しいベンチマークデータセットを作成する。 提案手法では,Vision Transformer, Scaling and Shifting Pretraining と Timeseries Transformer を用いてビデオの時間分割を行い,ディープフェイクの解釈を容易にする。 様々なディープフェイク生成手法に関する大規模な実験は、時間的セグメンテーションや古典的なビデオレベルの予測にも優れた結果を示す。 特に、私たちが導入するパラダイムは、ディープフェイクのモデレーションのための強力なツールを形成します。 実験はすべて、https://github.com/sanjaysaha1311/temporal-deepfake-segmentationで再現できる。

The recent renaissance in generative models, driven primarily by the advent of diffusion models and iterative improvement in GAN methods, has enabled many creative applications. However, each advancement is also accompanied by a rise in the potential for misuse. In the arena of deepfake generation this is a key societal issue. In particular, the ability to modify segments of videos using such generative techniques creates a new paradigm of deepfakes which are mostly real videos altered slightly to distort the truth. Current deepfake detection methods in the academic literature are not evaluated on this paradigm. In this paper, we present a deepfake detection method able to address this issue by performing both frame and video level deepfake prediction. To facilitate testing our method we create a new benchmark dataset where videos have both real and fake frame sequences. Our method utilizes the Vision Transformer, Scaling and Shifting pretraining and Timeseries Transformer to temporally segment videos to help facilitate the interpretation of possible deepfakes. Extensive experiments on a variety of deepfake generation methods show excellent results on temporal segmentation and classical video level predictions as well. In particular, the paradigm we introduce will form a powerful tool for the moderation of deepfakes, where human oversight can be better targeted to the parts of videos suspected of being deepfakes. All experiments can be reproduced at: https://github.com/sanjaysaha1311/temporal-deepfake-segmentation.
翻訳日:2023-05-12 15:56:26 公開日:2023-05-11
# 時空間トラヒックデータインプテーションに対する多様体正規化タッカー分解法

Manifold Regularized Tucker Decomposition Approach for Spatiotemporal Traffic Data Imputation ( http://arxiv.org/abs/2305.06563v1 )

ライセンス: Link先を確認
Wenwu Gong, Zhejun Huang, and Lili Yang(参考訳) データ駆動インテリジェントトランスポートシステム(ITS)では,部分的なトラフィックデータから欠落したデータを推定する時空間トラフィックデータ計算(STDI)が必然的かつ困難な課題である。 トラヒックデータの多次元的・時空間的性質から,データインプテーションの欠如をテンソル補完問題として扱う。 過去10年間のテンソル分解に基づくSTDIの研究が数多く行われている。 しかし、時空間相関とコアテンソルスパーシティをインプテーション性能を改善するためにどう使うかは、まだ解決する必要がある。 本稿では,第3/4次ハンケルテンソルを補足し,STDIのための革新的多様体正規化タッカー分解(ManiRTD)モデルを提案する。 本稿では,多方向遅延埋め込み変換を導入することにより,知覚トラヒック状態データを第3/第4テンソルとして表現する。 その後、ManiRTDはスパース正規化項を用いてタッカーコアの空間性を改善し、因子行列の多様体正規化と時間的制約項を用いて時空間相関を特徴づける。 最後に,コンバージェンス・ガランテドによる近位勾配更新規則の交互化に基づくブロック座標降下フレームワークを通じて,manirtdモデルに対処する。 実世界の時空間交通データセット(STD)を用いて数値実験を行った。 その結果,提案モデルは他の因子化手法よりも優れており,様々な欠落シナリオにおいてより正確にstdを再構成できることがわかった。

Spatiotemporal traffic data imputation (STDI), estimating the missing data from partially observed traffic data, is an inevitable and challenging task in data-driven intelligent transportation systems (ITS). Due to traffic data's multidimensional and spatiotemporal properties, we treat the missing data imputation as a tensor completion problem. Many studies have been on STDI based on tensor decomposition in the past decade. However, how to use spatiotemporal correlations and core tensor sparsity to improve the imputation performance still needs to be solved. This paper reshapes a 3rd/4th order Hankel tensor and proposes an innovative manifold regularized Tucker decomposition (ManiRTD) model for STDI. Expressly, we represent the sensory traffic state data as the 3rd/4th tensors by introducing Multiway Delay Embedding Transforms. Then, ManiRTD improves the sparsity of the Tucker core using a sparse regularization term and employs manifold regularization and temporal constraint terms of factor matrices to characterize the spatiotemporal correlations. Finally, we address the ManiRTD model through a block coordinate descent framework under alternating proximal gradient updating rules with convergence-guaranteed. Numerical experiments are conducted on real-world spatiotemporal traffic datasets (STDs). Our results demonstrate that the proposed model outperforms the other factorization approaches and reconstructs the STD more precisely under various missing scenarios.
翻訳日:2023-05-12 15:56:03 公開日:2023-05-11
# BanglaBook: 書籍レビューからの感性分析のための大規模バングラデータセット

BanglaBook: A Large-scale Bangla Dataset for Sentiment Analysis from Book Reviews ( http://arxiv.org/abs/2305.06595v1 )

ライセンス: Link先を確認
Mohsinul Kabir, Obayed Bin Mahfuz, Syed Rifat Raiyan, Hasan Mahmud and Md Kamrul Hasan(参考訳) 消費者感情の分析は、レビューを通じて表現されるように、製品の品質に関する豊富な洞察を提供することができる。 感情分析の研究は多くのポピュラーな言語で広く研究されてきたが、バングラ語への関心は比較的少なかった。 この制限に対処するため、BanglaBookは158,065のサンプルを3つの広いカテゴリ(正、負、中性)に分類した、バングラ書評の大規模なデータセットである。 我々は、データセットの詳細な統計分析を行い、SVM、LSTM、Bangla-BERTなどのベースラインを確立するために、機械学習モデルを用いている。 本研究は,手作業で作成する機能に依存したモデルに対して,事前学習モデルの大幅な性能上の利点を示し,この領域における追加トレーニングリソースの必要性を強調した。 さらに,感情のユニグラムを調べることで詳細な誤り解析を行い,Banglaのような低リソース言語における共通分類誤りの洞察を与えることができる。 私たちのコードとデータはhttps://github.com/mohsinulkabir14/banglabookで公開されている。

The analysis of consumer sentiment, as expressed through reviews, can provide a wealth of insight regarding the quality of a product. While the study of sentiment analysis has been widely explored in many popular languages, relatively less attention has been given to the Bangla language, mostly due to a lack of relevant data and cross-domain adaptability. To address this limitation, we present BanglaBook, a large-scale dataset of Bangla book reviews consisting of 158,065 samples classified into three broad categories: positive, negative, and neutral. We provide a detailed statistical analysis of the dataset and employ a range of machine learning models to establish baselines including SVM, LSTM, and Bangla-BERT. Our findings demonstrate a substantial performance advantage of pre-trained models over models that rely on manually crafted features, emphasizing the necessity for additional training resources in this domain. Additionally, we conduct an in-depth error analysis by examining sentiment unigrams, which may provide insight into common classification errors in under-resourced languages like Bangla. Our codes and data are publicly available at https://github.com/mohsinulkabir14/BanglaBook.
翻訳日:2023-05-12 15:51:29 公開日:2023-05-11
# V2Meow:音楽生成によるビジュアルビート

V2Meow: Meowing to the Visual Beat via Music Generation ( http://arxiv.org/abs/2305.06594v1 )

ライセンス: Link先を確認
Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee, Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, Timo I. Denk(参考訳) ビデオの視覚的コンテンツを補完する高品質な音楽を生成することは難しい課題だ。 既存の視覚条件付き音楽生成システムは、生の音声波形の代わりにMIDIファイルのような象徴的な音楽データを生成する。 シンボリックな音楽データの利用可能性が限られているため、そのような手法は少数の楽器や特定の種類の視覚入力に対してのみ音楽を生成することができる。 本稿では,V2Meow という新しい手法を提案する。V2Meow は,様々な種類のビデオ入力の視覚的セマンティクスとよく一致した高品質な音楽オーディオを生成できる。 提案する音楽生成システムは,多段階の自己回帰モデルであり,複数のo(100k)オーディオクリップをビデオフレームとペアリングして訓練し,その映像をイン・ザ・ワイルド・ミュージック・ビデオから抽出し,並列的なシンボリック・ミュージック・データには関与しない。 V2Meowは、任意のサイレントビデオクリップから抽出された事前訓練された視覚的特徴にのみ条件付けされた高忠実な音楽オーディオ波形を合成でき、また、ビデオフレームの条件付けに加えてテキストプロンプトによって、生成例の楽曲スタイルを高レベルに制御できる。 定性評価と定量的評価の両面から,我々のモデルは,視覚・音響対応と音質の両面で,既存の音楽生成システムよりも優れていることを示す。

Generating high quality music that complements the visual content of a video is a challenging task. Most existing visual conditioned music generation systems generate symbolic music data, such as MIDI files, instead of raw audio waveform. Given the limited availability of symbolic music data, such methods can only generate music for a few instruments or for specific types of visual input. In this paper, we propose a novel approach called V2Meow that can generate high-quality music audio that aligns well with the visual semantics of a diverse range of video input types. Specifically, the proposed music generation system is a multi-stage autoregressive model which is trained with a number of O(100K) music audio clips paired with video frames, which are mined from in-the-wild music videos, and no parallel symbolic music data is involved. V2Meow is able to synthesize high-fidelity music audio waveform solely conditioned on pre-trained visual features extracted from an arbitrary silent video clip, and it also allows high-level control over the music style of generation examples via supporting text prompts in addition to the video frames conditioning. Through both qualitative and quantitative evaluations, we demonstrate that our model outperforms several existing music generation systems in terms of both visual-audio correspondence and audio quality.
翻訳日:2023-05-12 15:51:08 公開日:2023-05-11
# FactKG:知識グラフの推論によるFact Verification

FactKG: Fact Verification via Reasoning on Knowledge Graphs ( http://arxiv.org/abs/2305.06590v1 )

ライセンス: Link先を確認
Jiho Kim, Sungjin Park, Yeonsu Kwon, Yohan Jo, James Thorne, Edward Choi(参考訳) 現実世界の応用では、知識グラフ(KG)は様々な領域(医学的応用や対話エージェントなど)で広く使われている。 しかし、事実検証のため、KGは知識源として適切に利用されていない。 kgsはその信頼性と幅広い適用性のため、事実検証において貴重な知識ソースとなり得る。 KGはノードとエッジで構成されており、概念がどのようにリンクされているかを明確にし、マシンがトピックの連鎖を推論できるようにする。 しかし、これらの機械可読の概念がいかにしてテキストで情報にマップするかを理解するには多くの課題がある。 コミュニティがKGをより使いやすくするために、知識グラフの推論によるFactKG: Fact Verificationという新しいデータセットを紹介します。 108kの自然言語クレームと5種類の推論(one-hop, conjunction, presence, multi-hop, negation)からなる。 さらに、FactKGには、口語スタイルの主張や実践性を高めるための書体スタイルの主張など、さまざまな言語パターンが含まれている。 最後に,これらの推論型をベースラインとしてFactKGを解析する手法を提案する。 我々は、FactKGがKGに基づく事実検証の信頼性と実用性の両方を向上できると考えている。

In real world applications, knowledge graphs (KG) are widely used in various domains (e.g. medical applications and dialogue agents). However, for fact verification, KGs have not been adequately utilized as a knowledge source. KGs can be a valuable knowledge source in fact verification due to their reliability and broad applicability. A KG consists of nodes and edges which makes it clear how concepts are linked together, allowing machines to reason over chains of topics. However, there are many challenges in understanding how these machine-readable concepts map to information in text. To enable the community to better use KGs, we introduce a new dataset, FactKG: Fact Verification via Reasoning on Knowledge Graphs. It consists of 108k natural language claims with five types of reasoning: One-hop, Conjunction, Existence, Multi-hop, and Negation. Furthermore, FactKG contains various linguistic patterns, including colloquial style claims as well as written style claims to increase practicality. Lastly, we develop a baseline approach and analyze FactKG over these reasoning types. We believe FactKG can advance both reliability and practicality in KG-based fact verification.
翻訳日:2023-05-12 15:50:42 公開日:2023-05-11
# HAHE:グローバルおよびローカルレベルのハイパーリレーショナル知識グラフに対する階層的注意

HAHE: Hierarchical Attention for Hyper-Relational Knowledge Graphs in Global and Local Level ( http://arxiv.org/abs/2305.06588v1 )

ライセンス: Link先を確認
Haoran Luo, Haihong E, Yuhao Yang, Yikai Guo, Mingzhi Sun, Tianyu Yao, Zichen Tang, Kaiyang Wan, Meina Song, Wei Lin(参考訳) ハイパーリレーショナル知識グラフ(HKG)のリンク予測は、価値のある取り組みである。 HKGは高関係事実(H-Facts)で構成され、主三重項といくつかの属性値修飾子から構成され、事実上包括的な情報を表わすことができる。 HKGの内部構造は、グローバルなハイパーグラフベースの表現と、セマンティックシーケンスベースの表現として局所的に表現することができる。 しかし、既存の研究はhkgのグラフィカルな構造とシーケンシャルな構造を同時にモデル化することはほとんどなく、hkgの表現を制限している。 この制限を克服するために,HKG埋め込み(HAHE)のための新しい階層的注意モデルを提案する。 グローバルレベルアテンションはハイパーグラフ二重アテンション層を用いてHKGのグラフィカル構造をモデル化でき、ローカルレベルアテンションはヘテロジニアス自己アテンション層を介してH-Factの内部のシーケンシャル構造を学習することができる。 実験結果から,HAHEはHKG標準データセット上のリンク予測タスクにおいて,最先端の性能を達成することが示された。 さらにHAHEは,HKGリンク予測タスクの適用性を高めるため,HKGマルチポジション予測の問題を初めて解決する。 私たちのコードは公開されています。

Link Prediction on Hyper-relational Knowledge Graphs (HKG) is a worthwhile endeavor. HKG consists of hyper-relational facts (H-Facts), composed of a main triple and several auxiliary attribute-value qualifiers, which can effectively represent factually comprehensive information. The internal structure of HKG can be represented as a hypergraph-based representation globally and a semantic sequence-based representation locally. However, existing research seldom simultaneously models the graphical and sequential structure of HKGs, limiting HKGs' representation. To overcome this limitation, we propose a novel Hierarchical Attention model for HKG Embedding (HAHE), including global-level and local-level attention. The global-level attention can model the graphical structure of HKG using hypergraph dual-attention layers, while the local-level attention can learn the sequential structure inside H-Facts via heterogeneous self-attention layers. Experiment results indicate that HAHE achieves state-of-the-art performance in link prediction tasks on HKG standard datasets. In addition, HAHE addresses the issue of HKG multi-position prediction for the first time, increasing the applicability of the HKG link prediction task. Our code is publicly available.
翻訳日:2023-05-12 15:50:23 公開日:2023-05-11
# 時系列予測のためのスペクトル-時間グラフニューラルネットワークの表現力

How Expressive are Spectral-Temporal Graph Neural Networks for Time Series Forecasting? ( http://arxiv.org/abs/2305.06587v1 )

ライセンス: Link先を確認
Ming Jin, Guangsi Shi, Yuan-Fang Li, Qingsong Wen, Bo Xiong, Tian Zhou, Shirui Pan(参考訳) スペクトル時間グラフニューラルネットワークは、グラフニューラルネットワーク(GNN)に基づくほとんどの時系列予測モデルに基づく、有望な抽象化である。 しかし、この手法の根底についてもっと知る必要がある。 本稿では,スペクトル時間GNNの表現力を向上する理論的枠組みを確立する。 その結果,線形スペクトル時間GNNは軽微な仮定の下で普遍的であり,その表現力は離散時間動的グラフ上の1次Weisfeiler-Lemanアルゴリズムによって有界であることがわかった。 有効なインスタンス化を実践するために、関連する制約を詳細に検討し、スペクトル領域における空間的および時間的モジュールを設計するための理論的青写真について概説する。 これらの知見に基づいて、我々のフレームワークに基づいて、スペクトル時間GNNがいかに強力であるかを示すために、TGC(Temporal Graph GegenConv)というシンプルなインスタンスを提案し、線形成分のみで既存のモデルよりも大幅に優れ、モデル効率が向上した。

Spectral-temporal graph neural network is a promising abstraction underlying most time series forecasting models that are based on graph neural networks (GNNs). However, more is needed to know about the underpinnings of this branch of methods. In this paper, we establish a theoretical framework that unravels the expressive power of spectral-temporal GNNs. Our results show that linear spectral-temporal GNNs are universal under mild assumptions, and their expressive power is bounded by our extended first-order Weisfeiler-Leman algorithm on discrete-time dynamic graphs. To make our findings useful in practice on valid instantiations, we discuss related constraints in detail and outline a theoretical blueprint for designing spatial and temporal modules in spectral domains. Building on these insights and to demonstrate how powerful spectral-temporal GNNs are based on our framework, we propose a simple instantiation named Temporal Graph GegenConv (TGC), which significantly outperforms most existing models with only linear components and shows better model efficiency.
翻訳日:2023-05-12 15:49:58 公開日:2023-05-11
# semeval-2023 タスク2:きめ細かな多言語名エンティティ認識(multiconer 2)

SemEval-2023 Task 2: Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2) ( http://arxiv.org/abs/2305.06586v1 )

ライセンス: Link先を確認
Besnik Fetahu, Sudipta Kar, Zhiyu Chen, Oleg Rokhlenko, Shervin Malmasi(参考訳) 本稿では,SemEval-2023 Task 2の粒度多言語固有認識(MultiCoNER 2)について述べる。 13のトラックに分割されたこのタスクは、モノリンガルとマルチリンガルのシナリオとノイズの多い設定の両方において、12言語にわたる複雑な粒度のエンティティ(WRITTENWORK、VEHICLE、MUSICALGRPなど)を特定する方法に焦点を当てた。 このタスクは、バングラ、中国語、英語、ファージ、フランス語、ドイツ語、ヒンディー語、イタリア語の2200万件からなるMultiCoNER V2データセットを使用した。 ポルトガル語、スペイン語、スウェーデン語、ウクライナ語。 MultiCoNER 2はSemEval-2023で最も人気のあるタスクの1つである。 47チームから842名が参加し、34チームがシステム論文を提出した。 その結果,メディアタイトルや製品名などの複雑なエンティティタイプが最も難しかった。 トランスフォーマーモデルに外部知識を融合する手法は最高の性能を達成し、最大の成果は創造的作業とグループクラスであり、外部知識においてもなお挑戦的であった。 いくつかのきめ細かいクラスは、SCIENTIST、ARTWORK、PRIVATECORPなど、他のクラスよりも難しいことが判明した。 また,ノイズのあるデータはモデル性能に大きな影響を与え,ノイズの多い部分集合では平均10%の低下が見られた。 このタスクは、複雑なエンティティを含むノイズデータに対するnerのロバスト性を改善するための将来の研究の必要性を強調している。

We present the findings of SemEval-2023 Task 2 on Fine-grained Multilingual Named Entity Recognition (MultiCoNER 2). Divided into 13 tracks, the task focused on methods to identify complex fine-grained named entities (like WRITTENWORK, VEHICLE, MUSICALGRP) across 12 languages, in both monolingual and multilingual scenarios, as well as noisy settings. The task used the MultiCoNER V2 dataset, composed of 2.2 million instances in Bangla, Chinese, English, Farsi, French, German, Hindi, Italian., Portuguese, Spanish, Swedish, and Ukrainian. MultiCoNER 2 was one of the most popular tasks of SemEval-2023. It attracted 842 submissions from 47 teams, and 34 teams submitted system papers. Results showed that complex entity types such as media titles and product names were the most challenging. Methods fusing external knowledge into transformer models achieved the best performance, and the largest gains were on the Creative Work and Group classes, which are still challenging even with external knowledge. Some fine-grained classes proved to be more challenging than others, such as SCIENTIST, ARTWORK, and PRIVATECORP. We also observed that noisy data has a significant impact on model performance, with an average drop of 10% on the noisy subset. The task highlights the need for future research on improving NER robustness on noisy data containing complex entities.
翻訳日:2023-05-12 15:49:39 公開日:2023-05-11
# 量子古典的ワークロードの並列化:分割技術の影響をプロファイリングする

Parallelizing Quantum-Classical Workloads: Profiling the Impact of Splitting Techniques ( http://arxiv.org/abs/2305.06585v1 )

ライセンス: Link先を確認
Tuhin Khare, Ritajit Majumdar, Rajiv Sangle, Anupama Ray, Padmanabha Venkatagiri Seshadri, Yogesh Simmhan(参考訳) 量子コンピュータは、コンピューティングハードウェアの次の進化である。 量子デバイスは、古典的コンピュータで使用されるのと同じ親しみやすいクラウドプラットフォームを通じて公開されており、量子的コンポーネントと古典的コンポーネントを組み合わせたハイブリッドアプリケーションのシームレスな実行を可能にする。 量子デバイスは、例えば、量子ビット数、量子ボリューム、CLOPS、ノイズプロファイル、キュー遅延、リソースコストなど、様々な特徴がある。 したがって、大きな量子回路または多数の量子回路でハイブリッドワークロードを小さなユニットに分割するのに役立つかもしれない。 本稿では,ibmのquantum cloud上で,1つの大きな回路を複数の小さな回路に分割する回路並列化と,2つのハードウェア上で実行される多数の回路を異なるハードウェア上で実行されるより小さな回路に分割するデータ並列化という,2つのワークロード分割手法を検証した。 これらは異種量子ハードウェアの利用を改善するが、トレードオフを伴う。 量子固有ソルバ(vqe)と量子サポートベクターマシン(qsvm)の2つの主要なアルゴリズムクラスでこれらの手法を評価し,並列化を伴わないベースラインに対する回路実行時間,前処理および後処理オーバーヘッド,結果の質への影響を測定した。 結果は実ハードウェア上で得られ、シミュレーションによって補完される。 その結果,(1) 回路切断によるVQEは, アンカット版よりも基底状態推定において約39\%向上し, (2) 並列化と機能セットの削減を組み合わせたQSVMは, 量子ワークロード実行時間の最大3倍改善し, 量子リソースの使用量を3倍削減し, 同等の精度を提供することがわかった。 エラー緩和は、考慮されたシナリオの中で最善のケースと比較して、 ~7\%、リソースフットプリントを ~4\% 改善することができる。

Quantum computers are the next evolution of computing hardware. Quantum devices are being exposed through the same familiar cloud platforms used for classical computers, and enabling seamless execution of hybrid applications that combine quantum and classical components. Quantum devices vary in features, e.g., number of qubits, quantum volume, CLOPS, noise profile, queuing delays and resource cost. So, it may be useful to split hybrid workloads with either large quantum circuits or large number of quantum circuits, into smaller units. In this paper, we profile two workload splitting techniques on IBM's Quantum Cloud: (1) Circuit parallelization, to split one large circuit into multiple smaller ones, and (2) Data parallelization to split a large number of circuits run on one hardware to smaller batches of circuits run on different hardware. These can improve the utilization of heterogenous quantum hardware, but involve trade-offs. We evaluate these techniques on two key algorithmic classes: Variational Quantum Eigensolver (VQE) and Quantum Support Vector Machine (QSVM), and measure the impact on circuit execution times, pre- and post-processing overhead, and quality of the result relative to a baseline without parallelization. Results are obtained on real hardware and complemented by simulations. We see that (1) VQE with circuit cutting is ~39\% better in ground state estimation than the uncut version, and (2) QSVM that combines data parallelization with reduced feature set yields upto 3x improvement in quantum workload execution time and reduces quantum resource use by 3x, while providing comparable accuracy. Error mitigation can improve the accuracy by ~7\% and resource foot-print by ~4\% compared to the best case among the considered scenarios.
翻訳日:2023-05-12 15:49:12 公開日:2023-05-11
# 予測最適化フレームワークにおけるアクティブラーニング:マージンに基づくアプローチ

Active Learning in the Predict-then-Optimize Framework: A Margin-Based Approach ( http://arxiv.org/abs/2305.06584v1 )

ライセンス: Link先を確認
Mo Liu, Paul Grigas, Heyuan Liu, Zuo-Jun Max Shen(参考訳) 予測最適化フレームワークにおいて,最初のアクティブラーニング手法を開発した。 具体的には、ラベルのないデータストリームから特徴サンプルの「ラベル」を順次要求するかを判断する学習手法を開発し、ラベルは意思決定のための最適化モデルのパラメータに対応する。 提案手法は, 予測パラメータによって引き起こされる決定誤差によって直接学習される最初の学習方法であり, spo(smart predict-then-optimize)損失と呼ばれる。 提案アルゴリズムは,SPO損失の構造に触発され,縮退距離の概念を生かしたマージン基準を採用し,収集したデータに対するSPO損失のトラクタブルサロゲートを最小化する。 特に、ハードとソフトの両方の拒絶変異を持つ効率的な能動学習アルゴリズムを開発し、それぞれが理論的過剰リスク(すなわち一般化)を保証する。 さらに,SPOリスクの最小レベルを達成するためにラベルが取得されたサンプルの数を参照して,ラベル複雑性の限界を導出する。 自然低雑音条件下では、これらの境界はすべてのサンプルをラベル付けするナイーブ教師付き学習アプローチよりも優れていることが示されている。 さらに, SPO+損失関数(SPO+損失の特別なサロゲート)を用いると, 分離条件下でのラベルの複雑さが著しく小さくなる。 また、パーソナライズされた価格設定と最短経路問題における提案アルゴリズムの実用的価値を示す数値的証拠を示す。

We develop the first active learning method in the predict-then-optimize framework. Specifically, we develop a learning method that sequentially decides whether to request the "labels" of feature samples from an unlabeled data stream, where the labels correspond to the parameters of an optimization model for decision-making. Our active learning method is the first to be directly informed by the decision error induced by the predicted parameters, which is referred to as the Smart Predict-then-Optimize (SPO) loss. Motivated by the structure of the SPO loss, our algorithm adopts a margin-based criterion utilizing the concept of distance to degeneracy and minimizes a tractable surrogate of the SPO loss on the collected data. In particular, we develop an efficient active learning algorithm with both hard and soft rejection variants, each with theoretical excess risk (i.e., generalization) guarantees. We further derive bounds on the label complexity, which refers to the number of samples whose labels are acquired to achieve a desired small level of SPO risk. Under some natural low-noise conditions, we show that these bounds can be better than the naive supervised learning approach that labels all samples. Furthermore, when using the SPO+ loss function, a specialized surrogate of the SPO loss, we derive a significantly smaller label complexity under separability conditions. We also present numerical evidence showing the practical value of our proposed algorithms in the settings of personalized pricing and the shortest path problem.
翻訳日:2023-05-12 15:48:20 公開日:2023-05-11
# 高臨界電流バンク構造を有する超伝導広ストリップ光子検出器

Superconducting wide strip photon detector with high critical current bank structure ( http://arxiv.org/abs/2305.06583v1 )

ライセンス: Link先を確認
Masahiro Yabuno, Fumihiro China, Hirotaka Terai and Shigehito Miki(参考訳) 超伝導ストリップ単一光子検出器は光子検出性能に優れ、フォトニック量子計算や量子ネットワークなど最先端の光学科学や技術にとって欠かせないツールである。 単純なストレートストリップを用いた高偏光非依存検出効率を実現するために, 数十マイクロメートル幅の超広帯域超電導ストリップが望ましい。 しかし、赤外線光子に敏感になるのに十分な超伝導電流で超広帯域の偏光は困難である。 主な困難はストリップ内の超伝導電流の非分布であり、過剰な固有暗黒数を生成する。 本稿では,超電導広帯域光子検出器 (SWSPD) と高臨界電流バンク (HCCB) 構造について述べる。 このHCCB構造は、固有暗黒数の抑制と広帯域の十分な超伝導電流バイアスを可能にする。 我々は, HCCB構造を持つ20-${\mu}$m幅のSWSPDを用いて, 1550nm波長光子の偏光独立系検出効率~78%, システムダークカウント率~80 cpsを実験的に実証した。 さらに29.8psの高速ジッタが達成された。 高効率、低暗数、高速の時間分解能を備えたフォトリソグラフィーで製造可能な超広帯域swspdは、膨大な数の究極の性能の単一光子検出器を必要とする大規模光量子技術の開発への道を開く。

Superconducting strip single-photon detectors offer excellent photon detection performance and are indispensable tools for cutting-edge optical science and technologies, including photonic quantum computation and quantum networks. Ultra-wide superconducting strips with widths of tens of micrometers are desirable to achieve high polarization-independent detection efficiency using a simple straight strip. However, biasing the ultra-wide strip with sufficient superconducting current to make it sensitive to infrared photons is challenging. The main difficulty is maldistribution of the superconducting current in the strip, which generates excessive intrinsic dark counts. Here, we present a novel superconducting wide strip photon detector (SWSPD) with a high critical current bank (HCCB) structure. This HCCB structure enables suppression of the intrinsic dark counts and sufficient superconducting current biasing of the wide strip. We have experimentally demonstrated a polarization-independent system detection efficiency of ~78% for 1550 nm wavelength photons and a system dark count rate of ~80 cps using a 20-${\mu}$m-wide SWSPD with the HCCB structure. Additionally, fast jitter of 29.8 ps was achieved. The photolithographically manufacturable ultra-wide SWSPD with high efficiency, low dark count, and fast temporal resolution paves the way toward the development of large-scale optical quantum technologies, which will require enormous numbers of ultimate-performance single-photon detectors.
翻訳日:2023-05-12 15:47:50 公開日:2023-05-11
# jpeg画像内に画像レベルメッセージを隠すためのきめ細かいdct表現の活用

Exploiting Fine-Grained DCT Representations for Hiding Image-Level Messages within JPEG Images ( http://arxiv.org/abs/2305.06582v1 )

ライセンス: Link先を確認
Junxue Yang, Xin Liao(参考訳) ビットレベルのメッセージを隠すのとは異なり、画像レベルのメッセージを隠すことはより難しい。 画像レベルのメッセージを隠蔽する最近の進歩は目覚ましいが、既存のスキームは、カバーとしてのロスレス空間画像に限られており、JPEG画像、日常生活におけるユビキタスなフォーマット画像に直接適用できない。 移動の困難は、目標設計の欠如と、減圧と再圧縮の損失による詳細の喪失によって引き起こされる。 JPEG圧縮標準のコアとなる8.8ドル画像パッチにDCTを密着させることを考えると、損失の少ないDCT係数に秘密画像を埋め込んで、その損失を回避するために、包括的に \underline{E}xploit \underline{F}ine-fine \underline{D}CT \underline{R}epresentations を組み込むことができる。 具体的には、JPEGのカバー画像と隠蔽画像から、ブロック間およびブロック内相関に関連付けられた周波数をコンパクト化した粒度DCT表現に変換する。 その後、サブバンド特徴強調モジュールにより細粒度DCT表現をさらに強化する。 その後、トランスベースの可逆モジュールは拡張サブバンド機能を融合するように設計されている。 このような設計により、各サブバンドの微細な自己アテンションを可能とし、隠蔽と回復の可逆性を保ちながら、長距離依存を捕捉することができる。 われわれの知る限り、これは色JPEG画像に同じ大きさのカラー画像を埋め込む最初の試みである。 広範囲な実験により,より優れた性能を持つtextsf{EFDR}の有効性が示された。

Unlike hiding bit-level messages, hiding image-level messages is more challenging, which requires large capacity, high imperceptibility, and high security. Although recent advances in hiding image-level messages have been remarkable, existing schemes are limited to lossless spatial images as covers and cannot be directly applied to JPEG images, the ubiquitous lossy format images in daily life. The difficulties of migration are caused by the lack of targeted design and the loss of details due to lossy decompression and re-compression. Considering that taking DCT densely on $8\times8$ image patches is the core of the JPEG compression standard, we design a novel model called \textsf{EFDR}, which can comprehensively \underline{E}xploit \underline{F}ine-grained \underline{D}CT \underline{R}epresentations and embed the secret image into quantized DCT coefficients to avoid the lossy process. Specifically, we transform the JPEG cover image and hidden secret image into fine-grained DCT representations that compact the frequency and are associated with the inter-block and intra-block correlations. Subsequently, the fine-grained DCT representations are further enhanced by a sub-band features enhancement module. Afterward, a transformer-based invertibility module is designed to fuse enhanced sub-band features. Such a design enables a fine-grained self-attention on each sub-band and captures long-range dependencies while maintaining excellent reversibility for hiding and recovery. To our best knowledge, this is the first attempt to embed a color image of equal size in a color JPEG image. Extensive experiments demonstrate the effectiveness of our \textsf{EFDR} with superior performance.
翻訳日:2023-05-12 15:47:28 公開日:2023-05-11
# 多数派が間違っているとき--主観的課題に対するアノテーションの活用

When the Majority is Wrong: Leveraging Annotator Disagreement for Subjective Tasks ( http://arxiv.org/abs/2305.06626v1 )

ライセンス: Link先を確認
Eve Fleisig, Rediet Abebe, Dan Klein(参考訳) アノテーターの過半数の投票は、自然言語処理における基礎的な真理ラベルに使われるのが一般的であるが、ヘイトスピーチ検出などのタスクにおけるアノテーターの不一致は、グループ意見の相違を反映しうる。 したがって、ヘイトスピーチ検出における重要な問題は、その発言がターゲットとする人口層グループに対して攻撃的であるかどうかであり、これは注釈プールのごく一部を構成する可能性がある。 我々は,潜在的に攻撃的なテキストに対する個々の注釈格付けを予測するモデルを構築し,この情報をテキストの予測対象グループと組み合わせ,対象グループメンバの意見をモデル化する。 例えば,個々のアノテータのレーティングの予測では22%,アノテータ間のばらつきの予測では33%,ベースライン上でのパフォーマンスが22%向上した。 我々は,各注釈者とその評価をリンクする注釈者idを追跡する必要なしに,オンラインコンテンツの人口統計情報や意見を用いて注釈者の評価を予測できることを見出した。 また,アノテータのオンライン体験に対する非侵襲的調査質問の利用は,アノテータの意見を予測する際に,プライバシーを最大化し,不要な人口統計情報の収集を最小化するのに役立つことがわかった。

Though majority vote among annotators is typically used for ground truth labels in natural language processing, annotator disagreement in tasks such as hate speech detection may reflect differences among group opinions, not noise. Thus, a crucial problem in hate speech detection is whether a statement is offensive to the demographic group that it targets, which may constitute a small fraction of the annotator pool. We construct a model that predicts individual annotator ratings on potentially offensive text and combines this information with the predicted target group of the text to model the opinions of target group members. We show gains across a range of metrics, including raising performance over the baseline by 22% at predicting individual annotators' ratings and 33% at predicting variance among annotators, which provides a method of measuring model uncertainty downstream. We find that annotators' ratings can be predicted using their demographic information and opinions on online content, without the need to track identifying annotator IDs that link each annotator to their ratings. We also find that use of non-invasive survey questions on annotators' online experiences helps to maximize privacy and minimize unnecessary collection of demographic information when predicting annotators' opinions.
翻訳日:2023-05-12 15:39:33 公開日:2023-05-11
# 二重指数ファミリに基づく拡張一般化線形モデルにおけるドロップアウト規則化

Dropout Regularization in Extended Generalized Linear Models based on Double Exponential Families ( http://arxiv.org/abs/2305.06625v1 )

ライセンス: Link先を確認
Benedikt L\"utke Schwienhorst, Lucas Kock, David J. Nott and Nadja Klein(参考訳) ドロップアウトは一般的な正規化手法であるが、理論的性質は完全には理解されていない。 本稿では,2重指数関数族に基づく拡張一般化線形モデルにおける分散パラメータが特徴量に応じて変化するようなドロップアウト正規化について検討する。 理論解析により、ドロップアウト正則化は平均と分散の両方において稀だが重要な特徴を好んでおり、従来の一般化された線形モデルの初期結果を一般化している。 適応学習率の確率勾配降下を用いて訓練を行う。 本研究では,bスプラインを用いた適応平滑化にドロップアウトを適用し,平均パラメータと分散パラメータを柔軟にモデル化する。 重要なB-スプライン基底関数は稀な特徴とみなすことが可能であり, 偏差パラメータの正則化の有効な形態であることを示す実験において, 明らかに滑らかなペナルティを伴い, ペナルティ化された最大可能性アプローチを改善する。

Even though dropout is a popular regularization technique, its theoretical properties are not fully understood. In this paper we study dropout regularization in extended generalized linear models based on double exponential families, for which the dispersion parameter can vary with the features. A theoretical analysis shows that dropout regularization prefers rare but important features in both the mean and dispersion, generalizing an earlier result for conventional generalized linear models. Training is performed using stochastic gradient descent with adaptive learning rate. To illustrate, we apply dropout to adaptive smoothing with B-splines, where both the mean and dispersion parameters are modelled flexibly. The important B-spline basis functions can be thought of as rare features, and we confirm in experiments that dropout is an effective form of regularization for mean and dispersion parameters that improves on a penalized maximum likelihood approach with an explicit smoothness penalty.
翻訳日:2023-05-12 15:39:09 公開日:2023-05-11
# 熱帯半環上のマトリックス三成分化

Matrix tri-factorization over the tropical semiring ( http://arxiv.org/abs/2305.06624v1 )

ライセンス: Link先を確認
Amra Omanovi\'c, Polona Oblak, Toma\v{z} Curk(参考訳) 熱帯セミリングは、最適制御、バイオインフォマティクス、離散イベントシステム、決定問題の解決など、いくつかの研究分野で成功している。 これまでの研究で、熱帯セミリングに基づく行列二元分解アルゴリズムが、二元および三元ネットワークの研究に応用されてきた。 標準線形代数に基づく三要素化アルゴリズムは、データ融合、共同クラスタ化、マトリックス補完、コミュニティ検出などのタスクの解法に使用される。 しかし、現在トロピカルマトリファクター法は存在せず、多部ネットワークを多数の部品で分析することが可能である。 そこで本研究では,熱帯セミリング上で三要素化を行うTriFastSTMFアルゴリズムを提案する。 本研究では,4分割ネットワーク構造を分析し,ネットワークのエッジ長を復元する。 また,TriFastSTMFは,ネットワーク全体に装着した場合の近似および予測性能において,Fast-NMTFと同様に動作することを示す。 特定のサブネットワークでトレーニングし、ネットワーク全体の予測に使用すると、TriFastSTMFはFast-NMTFよりも数桁小さなエラーで性能が向上する。 TriFastSTMFのロバスト性は、標準的な操作に比べて大きな値を予測しにくい熱帯操作によるものである。

Tropical semiring has proven successful in several research areas, including optimal control, bioinformatics, discrete event systems, or solving a decision problem. In previous studies, a matrix two-factorization algorithm based on the tropical semiring has been applied to investigate bipartite and tripartite networks. Tri-factorization algorithms based on standard linear algebra are used for solving tasks such as data fusion, co-clustering, matrix completion, community detection, and more. However, there is currently no tropical matrix tri-factorization approach, which would allow for the analysis of multipartite networks with a high number of parts. To address this, we propose the triFastSTMF algorithm, which performs tri-factorization over the tropical semiring. We apply it to analyze a four-partition network structure and recover the edge lengths of the network. We show that triFastSTMF performs similarly to Fast-NMTF in terms of approximation and prediction performance when fitted on the whole network. When trained on a specific subnetwork and used to predict the whole network, triFastSTMF outperforms Fast-NMTF by several orders of magnitude smaller error. The robustness of triFastSTMF is due to tropical operations, which are less prone to predict large values compared to standard operations.
翻訳日:2023-05-12 15:38:52 公開日:2023-05-11
# PVT-SSD:ポイントボクセル変換器付き単段3Dオブジェクト検出器

PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer ( http://arxiv.org/abs/2305.06621v1 )

ライセンス: Link先を確認
Honghui Yang and Wenxiao Wang and Minghao Chen and Binbin Lin and Tong He and Hua Chen and Xiaofei He and Wanli Ouyang(参考訳) 最近のトランスフォーマーベースの3dオブジェクト検出器は、ポイントまたはボクセルに基づく表現からポイントクラウドの特徴を学ぶ。 しかし、前者はサンプリングに時間を要するが、後者は量子化エラーを導入する。 本稿では,これら2つの表現を利用する単段3d検出用点ボクセルトランス(pvt-ssd)を提案する。 具体的には、最初にvoxelベースのスパース畳み込みを効率的な特徴エンコーディングに使用しました。 そこで本稿では,voxel から長時間のコンテキストを安価に取得し,正確な位置を得ることのできる Point-Voxel Transformer (PVT) モジュールを提案する。 2つの異なる表現を関連付ける鍵は、私たちが導入した入力依存クエリ初期化モジュールで、参照ポイントとコンテンツクエリを効率的に生成できる。 そしてPVTは、参照ポイントに関する長距離コンテキストおよび局所幾何学情報をコンテンツクエリに適応的に融合する。 さらに,近接する参照点の点を迅速に見つけるために,ネイティブレンジイメージをマルチセンサおよびマルチフレームに一般化する仮想レンジイメージモジュールを設計する。 いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。 コードはhttps://github.com/Nightmare-n/PVT-SSDで入手できる。

Recent Transformer-based 3D object detectors learn point cloud features either from point- or voxel-based representations. However, the former requires time-consuming sampling while the latter introduces quantization errors. In this paper, we present a novel Point-Voxel Transformer for single-stage 3D detection (PVT-SSD) that takes advantage of these two representations. Specifically, we first use voxel-based sparse convolutions for efficient feature encoding. Then, we propose a Point-Voxel Transformer (PVT) module that obtains long-range contexts in a cheap manner from voxels while attaining accurate positions from points. The key to associating the two different representations is our introduced input-dependent Query Initialization module, which could efficiently generate reference points and content queries. Then, PVT adaptively fuses long-range contextual and local geometric information around reference points into content queries. Further, to quickly find the neighboring points of reference points, we design the Virtual Range Image module, which generalizes the native range image to multi-sensor and multi-frame. The experiments on several autonomous driving benchmarks verify the effectiveness and efficiency of the proposed method. Code will be available at https://github.com/Nightmare-n/PVT-SSD.
翻訳日:2023-05-12 15:38:33 公開日:2023-05-11
# アナログセマンティクスの識別による連続的関係抽出の改善

Improving Continual Relation Extraction by Distinguishing Analogous Semantics ( http://arxiv.org/abs/2305.06620v1 )

ライセンス: Link先を確認
Wenzheng Zhao and Yuanning Cui and Wei Hu(参考訳) 連続的関係抽出(RE)は,学習した関係を忘れずに常に出現する関係を学習することを目的としている。 既存のワークは、忘れることを緩和するためにモデルを再トレーニングするために、少数の典型的なサンプルを格納している。 しかし、これらのサンプルを繰り返し再生することは過度な問題を引き起こす可能性がある。 我々は,既存の作品について経験的研究を行い,その性能が類似した関係によって著しく影響を受けることを観察する。 本稿では,類似関係に対する新しい連続的抽出モデルを提案する。 具体的には,オーバーフィッティング問題を克服するために,メモリ非感受性関係プロトタイプとメモリ拡張をデザインする。 また,類似関係の性能を高めるため,統合学習と焦点知識蒸留も導入した。 実験結果から,本モデルの優位性を示し,類似関係を識別し,オーバーフィッティングを克服する効果を示した。

Continual relation extraction (RE) aims to learn constantly emerging relations while avoiding forgetting the learned relations. Existing works store a small number of typical samples to re-train the model for alleviating forgetting. However, repeatedly replaying these samples may cause the overfitting problem. We conduct an empirical study on existing works and observe that their performance is severely affected by analogous relations. To address this issue, we propose a novel continual extraction model for analogous relations. Specifically, we design memory-insensitive relation prototypes and memory augmentation to overcome the overfitting problem. We also introduce integrated training and focal knowledge distillation to enhance the performance on analogous relations. Experimental results show the superiority of our model and demonstrate its effectiveness in distinguishing analogous relations and overcoming overfitting.
翻訳日:2023-05-12 15:38:15 公開日:2023-05-11
# 連続Few-shot関係抽出のためのシリアルコントラスト知識蒸留

Serial Contrastive Knowledge Distillation for Continual Few-shot Relation Extraction ( http://arxiv.org/abs/2305.06616v1 )

ライセンス: Link先を確認
Xinyi Wang and Zitao Wang and Wei Hu(参考訳) 連続的数ショット関係抽出(RE)は、ラベル付きトレーニングデータはほとんどなく、新しい関係のモデルを継続的に訓練することを目的としており、その主な課題は、古い関係の破滅的な忘れ、データ疎結合による過度な適合である。 本稿では,連続的なREタスクを実現するために,SCKDと呼ばれる新しいモデルを提案する。 具体的には,従来のモデルからの知識を保存し,擬似サンプルと対比学習を行い,異なる関係のサンプルの表現を十分に区別できるようにシリアル知識蒸留を設計する。 2つのベンチマークデータセットを用いた実験により,SCKDの連続的数ショットREの有効性と,その知識伝達およびメモリ利用における優位性について検証した。

Continual few-shot relation extraction (RE) aims to continuously train a model for new relations with few labeled training data, of which the major challenges are the catastrophic forgetting of old relations and the overfitting caused by data sparsity. In this paper, we propose a new model, namely SCKD, to accomplish the continual few-shot RE task. Specifically, we design serial knowledge distillation to preserve the prior knowledge from previous models and conduct contrastive learning with pseudo samples to keep the representations of samples in different relations sufficiently distinguishable. Our experiments on two benchmark datasets validate the effectiveness of SCKD for continual few-shot RE and its superiority in knowledge transfer and memory utilization over state-of-the-art models.
翻訳日:2023-05-12 15:38:04 公開日:2023-05-11
# テキストにおける自己相関の減少と言語モデルの適用限界

Autocorrelations Decay in Texts and Applicability Limits of Language Models ( http://arxiv.org/abs/2305.06615v1 )

ライセンス: Link先を確認
Nikolay Mikhaylovskiy and Ilya Churilov(参考訳) テキストにおける自己相関の法則は言語モデルの適用可能性の限界と密接に関連していることを示す。 分布的意味論を用いて,テキスト中の単語の自己相関がパワー則に従って崩壊することを示す。 分布セマンティクスは複数の言語に翻訳されたテキストに対して一貫性のある自己相関減衰指数を与える。 生成されたテキストにおける自己相関の崩壊は定量的に、しばしば文学的テキストと質的に異なる。 結論として,大規模な自己回帰型言語モデルを含むマルコフ行動を示す言語モデルは,解析や生成にかかわらず長文に適用すると制限を受ける可能性がある。

We show that the laws of autocorrelations decay in texts are closely related to applicability limits of language models. Using distributional semantics we empirically demonstrate that autocorrelations of words in texts decay according to a power law. We show that distributional semantics provides coherent autocorrelations decay exponents for texts translated to multiple languages. The autocorrelations decay in generated texts is quantitatively and often qualitatively different from the literary texts. We conclude that language models exhibiting Markov behavior, including large autoregressive language models, may have limitations when applied to long texts, whether analysis or generation.
翻訳日:2023-05-12 15:37:50 公開日:2023-05-11
# コンピュータビジョンにおける双曲的深層学習 : サーベイ

Hyperbolic Deep Learning in Computer Vision: A Survey ( http://arxiv.org/abs/2305.06611v1 )

ライセンス: Link先を確認
Pascal Mettes, Mina Ghadimi Atigh, Martin Keller-Ressel, Jeffrey Gu, Serena Yeung(参考訳) 深層表現学習は現代のコンピュータビジョンのユビキタスな部分である。 ユークリッド空間は視覚表現を学ぶためのデファクト標準多様体である一方、双曲空間はコンピュータビジョンの学習において急速に牽引されている。 具体的には、双曲学習は階層構造を埋め込んだり、限られたサンプルから学習したり、不確実性を定量化したり、堅牢性を追加したり、エラーの深刻度を制限したりする強力な可能性を示している。 本稿では,コンピュータビジョンのための双曲学習に関する現在の文献の分類と概要について述べる。 我々は,教師付き文献と教師なし文献の両方を調査し,各方面の3つの研究テーマを特定した。 我々は,すべてのテーマにおいて双曲学習がどのように行われているかを概説し,コンピュータビジョンにおける双曲学習の進歩から得られる主な研究課題について論じる。 さらに,双曲幾何学の背景にある高次直観を提供し,この方向の研究を進めるためにオープンリサーチの課題を概説する。

Deep representation learning is a ubiquitous part of modern computer vision. While Euclidean space has been the de facto standard manifold for learning visual representations, hyperbolic space has recently gained rapid traction for learning in computer vision. Specifically, hyperbolic learning has shown a strong potential to embed hierarchical structures, learn from limited samples, quantify uncertainty, add robustness, limit error severity, and more. In this paper, we provide a categorization and in-depth overview of current literature on hyperbolic learning for computer vision. We research both supervised and unsupervised literature and identify three main research themes in each direction. We outline how hyperbolic learning is performed in all themes and discuss the main research problems that benefit from current advances in hyperbolic learning for computer vision. Moreover, we provide a high-level intuition behind hyperbolic geometry and outline open research questions to further advance research in this direction.
翻訳日:2023-05-12 15:37:41 公開日:2023-05-11
# コード生成に向けた大規模言語モデルにおけるプログラミング思考の実現

Enabling Programming Thinking in Large Language Models Toward Code Generation ( http://arxiv.org/abs/2305.06599v1 )

ライセンス: Link先を確認
Jia Li, Ge Li, Yongmin Li, Zhi Jin(参考訳) 大規模言語モデル(LLM)(例えばChatGPT)は、コード生成において顕著なパフォーマンスを示している。 プログラムを書くにはプログラミング思考、すなわちプログラミング論理(シーケンス、分岐、ループなど)の要求を分析し実装する必要があるという大規模な研究が発表された。 既存の研究では、LCMを使って要件からプログラムを直接生成し、プログラミング思考を明示的に導入していない。 本稿では,コード生成におけるLLMのプログラミング思考の解法について検討し,TiPというアプローチを提案する。 私たちのアイデアは、コード生成を2つのステップに分解し、徐々にllmをプログラミングロジックにおける要件の分析と実装へと導くことです。 具体的には、TiPはまずコードスケッチを生成し、プログラミングロジックを使用して高レベルな問題解決プロセスを提供するが、実装の詳細(APIなど)を省略する。 そして、TiPはそのスケッチを特定のプログラミング言語を使ってプログラムに実装する。 我々は3つの公開ベンチマーク(HumanEval、MBPP、MBCPP)で広範な実験を行う。 1) TiPは、Pass@1で17.5%、Pass@3で11.02%、Pass@5で9.84%、最先端のベースラインであるChatGPTを上回っている。 2) 人的評価の結果, TiP は ChatGPT を 3 つの側面(正しさ, コード品質, 保守性)で上回っている。 (3)TiPは異なるLDMに対して有効である。 (4) コードスケッチに対する複数の選択(例えば、チェーン・オブ・思想)を検討し、設計の優位性を検証する。 (5) TiP と後処理アプローチ(CodeT など)の相補性について議論する。

Large Language Models (LLMs) (e.g., ChatGPT) have shown impressive performance in code generation. A large-scale study released that writing programs requires programming thinking, i.e., analyzing and implementing requirements in programming logic (e.g., sequence, branch, loop). Existing studies use LLMs to generate programs from requirements directly and do not explicitly introduce the programming thinking. This paper explores how to unlock the programming thinking of LLMs in code generation and proposes an approach named TiP. Our idea is to decompose code generation into two steps and progressively lead LLMs to analyze&implement requirements in programming logic. Specifically, TiP first generates a code sketch, which provides a high-level solving process using programming logic but omits implementation details (e.g., APIs). Then, TiP implements the sketch into a program using specific programming languages. We conduct extensive experiments on three public benchmarks (i.e., HumanEval, MBPP, and MBCPP). (1) TiP outperforms the state-of-the-art baseline - ChatGPT by up to 17.5% in Pass@1, 11.02% in Pass@3, and 9.84% in Pass@5. (2) Human evaluation shows that TiP outperforms ChatGPT in three aspects (i.e., correctness, code quality, and maintainability). (3) TiP is effective for different LLMs. (4) We explore multiple choices (e.g., chain-of-thought) for the code sketch and validate the superiority of our design. (5) We discuss the complementarity between TiP and post-processing approaches (e.g., CodeT).
翻訳日:2023-05-12 15:37:24 公開日:2023-05-11
# 光子置換量子状態と光子置換量子状態の高次非古典性の比較研究

A comparative study of higher-order nonclassicalities of photon-added-then-subtracted and photon-subtracted-then-added quantum states ( http://arxiv.org/abs/2305.06598v1 )

ライセンス: Link先を確認
Deepak and Arpita Chatterjee(参考訳) 本稿では,光子付加,光子付加,光子付加の熱的およびコヒーレントな状態の高次および低次非古典性について検討した。 マンデル関数(Q_M^{)のような異なる基準 (l)$、高次アンチバンチング(d_h^{(l-1)}$、下位ポアソニアン光子統計(d_h^{(l-1)}$)、高次スクイージング(s^{)。 (l)}$,フシミ関数(Q$),アガルワル・タラ基準(A_3$),クリシュコ条件(B) (m)$)はこれらの状態の非古典的特徴を目撃するために使用される。 これらの条件の多くは、考慮された状態が高度に非古典的であることを立証した。 非ガウジアン光子付加-then-減算演算は、非古典性を開発するための光子減算-then-additionよりも好ましい。

In the present paper, we have studied the higher as well as the lower-order nonclassicalities of photon-added-then-subtracted and photon-subtracted-then-added thermal and even coherent states. Different criteria such as Mandel's function ($Q_M^{(l)}$), higher-order antibunching ($d_h^{(l-1)}$), sub-Poissonian photon statistics ($D_h^{(l-1)}$), higher-order squeezing ($S^{(l)}$), Husimi function ($Q$), Agarwal-Tara criteria ($A_3$) and Klyshko's condition ($B(m)$) are used to witness the nonclassical feature of these states. Many of these conditions established that the considered states are highly nonclassical. It is also realized that the non-Gaussian photon-addition-then-subtraction operation is preferred over the photon-subtraction-then-addition for developing nonclassicality.
翻訳日:2023-05-12 15:36:59 公開日:2023-05-11
# 2次元アノン系の次元還元

Dimensional reduction for a system of 2D anyons ( http://arxiv.org/abs/2305.06670v1 )

ライセンス: Link先を確認
Nicolas Rougerie (UMPA-ENSL), Qiyun Yang (UMPA-ENSL)(参考訳) 統計位相パラメータ $\alpha\in(0,2)$ を持つ任意の粒子は、位相的理由により 1D または 2D の世界にしか存在しない準粒子の一種である。 タイト導波路内のエノンの2次元系の次元的低減について検討する。 より具体的には、x$-directionよりもy$-directionの方が強い粒子を罠にかける異方性高調波ポテンシャルを課した2次元磁気ゲージ画像モデルの研究である。 本研究では, 固有関数と固有関数の双方が漸近的に疎閉方向と密閉方向とに分解されることを証明した。 $x$-directionの極限1Dシステムは、$\alpha$に依存せず、2Dモデルの長距離相互作用の痕跡も残らない、不透明なトンクス・ジラルドー・ボース気体によって与えられる。

Anyons with a statistical phase parameter $\alpha\in(0,2)$ are a kind of quasi-particles that, for topological reasons, only exist in a 1D or 2D world. We consider the dimensional reduction for a 2D system of anyons in a tight wave-guide. More specifically, we study the 2D magnetic-gauge picture model with an imposed anisotropic harmonic potential that traps particles much stronger in the $y$-direction than in the $x$-direction. We prove that both the eigenenergies and the eigenfunctions are asymptotically decoupled into the loose confining direction and the tight confining direction during this reduction. The limit 1D system for the $x$-direction is given by the impenetrable Tonks-Girardeau Bose gas, which has no dependency on $\alpha$, and no trace left of the long-range interactions of the 2D model.
翻訳日:2023-05-12 15:31:01 公開日:2023-05-11
# Exp3アルゴリズムにおける学習率推定器としてのMLEの収束について

On the convergence of the MLE as an estimator of the learning rate in the Exp3 algorithm ( http://arxiv.org/abs/2305.06660v1 )

ライセンス: Link先を確認
Julien Aubert (UCA), Luc Leh\'ericy (UCA), Patricia Reynaud-Bouret (UCA)(参考訳) 個人の学習データをアルゴリズムライクな学習モデルに合わせると、観察は非常に依存的かつ非定常的であり、たとえそれが実験的な認知に適用される通常のツールであっても、古典的な最大様相推定器(MLE)が何をできるか疑問に思うかもしれない。 本研究の目的は,古典的Exp3(Exponential weights for Exploration and Exploitation)アルゴリズムにおいて,学習速度が一定であれば,学習速度の推定が効率的でないことを示すことである。 第二に, 学習速度がサンプルサイズと多項式的に減少すると, 予測誤差, 場合によってはmleの推定誤差が多項式率で減少する確率の境界を満たすことを示す。

When fitting the learning data of an individual to algorithm-like learning models, the observations are so dependent and non-stationary that one may wonder what the classical Maximum Likelihood Estimator (MLE) could do, even if it is the usual tool applied to experimental cognition. Our objective in this work is to show that the estimation of the learning rate cannot be efficient if the learning rate is constant in the classical Exp3 (Exponential weights for Exploration and Exploitation) algorithm. Secondly, we show that if the learning rate decreases polynomially with the sample size, then the prediction error and in some cases the estimation error of the MLE satisfy bounds in probability that decrease at a polynomial rate.
翻訳日:2023-05-12 15:30:46 公開日:2023-05-11
# 実用的な頑健な強化学習:隣接不確実性集合と二重エージェントアルゴリズム

On practical robust reinforcement learning: adjacent uncertainty set and double-agent algorithm ( http://arxiv.org/abs/2305.06657v1 )

ライセンス: Link先を確認
Ukjo Hwang, Songnam Hong(参考訳) robust reinforcement learning(rl)は、不確実性セットよりも最悪の場合のパフォーマンスを最適化するポリシの学習を目的とする。 トレーニング用のサンプルを生成する名目マルコフ決定プロセス(N-MDP)が与えられたセットには、N-MDPからの摂動によって得られるMDPが含まれている。 本稿では,既存のセットよりも現実的なMDPを含む新たな不確実性セットを提案する。 この不確実性集合を用いて、表ケースに対してARQ-Learningという頑健なRLを示す。 また、有限時間誤差境界を特徴づけ、Q-LearningとロバストなQ-Learning(すなわち最先端のロバストなRL法)と同じくらいの速さで収束することを証明する。 本稿では,ARQ学習を大規模あるいは連続的な状態空間に拡張する上で重要なボトルネックを効果的に解決する「悲観的エージェント」を提案する。 この手法を用いて,まずPRQ学習を提案する。 次に、これをDQNとDDPGと組み合わせて、PR-DQNとDDPGをそれぞれ開発する。 我々は,この手法が他の一般的なモデルフリー手法と簡単に組み合わせられることを強調した。 実験により,モデル不確実性のあるRLアプリケーションにおいて提案手法の優位性を示す。

Robust reinforcement learning (RL) aims at learning a policy that optimizes the worst-case performance over an uncertainty set. Given nominal Markov decision process (N-MDP) that generates samples for training, the set contains MDPs obtained by some perturbations from N-MDP. In this paper, we introduce a new uncertainty set containing more realistic MDPs in practice than the existing sets. Using this uncertainty set, we present a robust RL, named ARQ-Learning, for tabular cases. Also, we characterize the finite-time error bounds and prove that it converges as fast as Q-Learning and robust Q-Learning (i.e., the state-of-the-art robust RL method) while providing better robustness for real applications. We propose {\em pessimistic agent} that efficiently tackles the key bottleneck for the extension of ARQ-Learning into large or continuous state spaces. Using this technique, we first propose PRQ-Learning. To the next, combining this with DQN and DDPG, we develop PR-DQN and PR-DDPG, respectively. We emphasize that our technique can be easily combined with the other popular model-free methods. Via experiments, we demonstrate the superiority of the proposed methods in various RL applications with model uncertainties.
翻訳日:2023-05-12 15:30:31 公開日:2023-05-11
# QURG: コンテキスト依存型テキスト-SQLセマンティックパーシングによる質問の書き直し

QURG: Question Rewriting Guided Context-Dependent Text-to-SQL Semantic Parsing ( http://arxiv.org/abs/2305.06655v1 )

ライセンス: Link先を確認
Linzheng Chai, Dongling Xiao, Jian Yang, Liqun Yang, Qian-Wen Zhang, Yunbo Cao, Zhoujun Li, Zhao Yan(参考訳) コンテキスト依存のText-to-SQLは、マルチターン自然言語質問をSQLクエリに変換することを目的としている。 さまざまなメソッドがコンテキストsql解析に暗黙的にコンテキスト依存情報を活用しているが、現在の質問と質問コンテキストの間の依存関係を明示的に解決しようとする試みはほとんどない。 本稿では,モデルが適切な文脈理解を達成するための新しい質問書換え指導手法であるqurgを提案する。 具体的には、まず、質問コンテキストに基づいて現在の質問を完了し、それらを書き換え編集行列に変換するよう、質問書き換えモデルを訓練する。 さらに,質問と文脈間の書き換え関係と,自然言語と構造化スキーマ間のスキーマ結合関係を共同でモデル化する2ストリーム行列エンコーダの設計を行った。 実験結果から,QURGは2つの大規模コンテキスト依存データセットSParCとCoSQLの性能を著しく向上させることが示された。

Context-dependent Text-to-SQL aims to translate multi-turn natural language questions into SQL queries. Despite various methods have exploited context-dependence information implicitly for contextual SQL parsing, there are few attempts to explicitly address the dependencies between current question and question context. This paper presents QURG, a novel Question Rewriting Guided approach to help the models achieve adequate contextual understanding. Specifically, we first train a question rewriting model to complete the current question based on question context, and convert them into a rewriting edit matrix. We further design a two-stream matrix encoder to jointly model the rewriting relations between question and context, and the schema linking relations between natural language and structured schema. Experimental results show that QURG significantly improves the performances on two large-scale context-dependent datasets SParC and CoSQL, especially for hard and long-turn questions.
翻訳日:2023-05-12 15:30:08 公開日:2023-05-11
# 神経常微分方程式の一般化境界とディープ残差ネットワーク

Generalization bounds for neural ordinary differential equations and deep residual networks ( http://arxiv.org/abs/2305.06648v1 )

ライセンス: Link先を確認
Pierre Marion(参考訳) ニューラル常微分方程式(Neural ordinary differential equations,neural ODEs)は、連続深層学習モデルの一般的なファミリーである。 本研究では、時間依存型ニューラルODEを含む連続時間パラメータを持つパラメータ化ODEの大規模なファミリーを考える。 このクラスに対する一般化は、リプシッツに基づく議論によって導かれる。 ニューラルodeとディープ残差ネットワークの類似性を利用することで、特にディープ残差ネットワークのクラスに束縛された一般化を実現する。 境界は、連続する重み行列間の差の大きさを含む。 この量がニューラルネットワークの一般化能力にどのように影響するかを数値的に示す。

Neural ordinary differential equations (neural ODEs) are a popular family of continuous-depth deep learning models. In this work, we consider a large family of parameterized ODEs with continuous-in-time parameters, which include time-dependent neural ODEs. We derive a generalization bound for this class by a Lipschitz-based argument. By leveraging the analogy between neural ODEs and deep residual networks, our approach yields in particular a generalization bound for a class of deep residual networks. The bound involves the magnitude of the difference between successive weight matrices. We illustrate numerically how this quantity affects the generalization capability of neural networks.
翻訳日:2023-05-12 15:29:52 公開日:2023-05-11
# PROM: 抽象要約のためのプレトレーニング付きフレーズレベルのコピー機構

PROM: A Phrase-level Copying Mechanism with Pre-training for Abstractive Summarization ( http://arxiv.org/abs/2305.06647v1 )

ライセンス: Link先を確認
Xinbei Ma, Yeyun Gong, Pengcheng He, Hai Zhao, Nan Duan(参考訳) 抽象的な要約における事前学習言語モデルの顕著な成果に基づき、このコピー機構は、事実性、安定性、全体的な性能を改善することで有用であることが証明された。 本研究は,n-gramに対する注意を高める新しいフレーズレベルのコピー機構であるpromを提案し,事前学習によるゼロショット要約に適用する。 PROMは、ソースからコピーできるn-gramのトークンを明示的にピックアップするインジケータ層を追加し、コピー予測の補助損失を算出する。 実証的研究により、PROMはベンチマークの微調整を大幅に改善していることが示された。 ゼロショット設定では、PROMは生コーパスの自己教師付き事前学習に利用され、広範囲の要約データセットに新しい一般的なベースラインを提供する。 さらなる分析により、PROMはより合理的なコピーを行い、忠実に寄与することが示された。

Based on the remarkable achievements of pre-trained language models in abstractive summarization, the copying mechanism has proved helpful by improving the factuality, stability, and overall performance. This work proposes PROM, a new PhRase-level cOpying Mechanism that enhances attention on n-grams, which can be applied to zero-shot summarization with pre-training. PROM adds an indicator layer to explicitly pick up tokens in n-gram that can be copied from the source, and calculates an auxiliary loss for the copying prediction. Empirical studies show that PROM makes significant improvements in fine-tuning on benchmarks. In zero-shot setting, PROM is utilized in the self-supervised pre-training on raw corpora and provides new general baselines on a wide range of summarization datasets. Further analysis shows that PROM performs more reasonable copying and contributes to faithfulness.
翻訳日:2023-05-12 15:29:42 公開日:2023-05-11
# 物体ベースベイズ全波形インバージョンによるせん断エラストグラフィ

Object based Bayesian full-waveform inversion for shear elastography ( http://arxiv.org/abs/2305.06646v1 )

ライセンス: Link先を確認
Ana Carpio, Elena Cebrian, Andrea Gutierrez(参考訳) 組織内異常のせん断エラストグラフィーイメージングにおける不確かさを定量化する計算枠組みを開発した。 我々はベイズ推論の定式化を採用する。 観測されたデータ、フォワードモデル、およびそれらの不確実性から、アノマリーの幾何およびそれらのせん断モジュラーを表すパラメータフィールドの後方確率を求める。 事前確率を構成するために,関連する対象関数の位相エネルギーを利用する。 滑らかで不規則な形状の合成2次元試験に対するアプローチを実証する。 マルコフ連鎖モンテカルロ (mcmc) 法による後方分布のサンプリングを行い, せん断モジュラーと異常の幾何学的性質に関する統計的情報を得た。 一般アフィン不変アンサンブルMCMCサンプルは,低次元から中等次元のパラメータ集合を特徴とする形状に適している。 しかし、MCMC法は計算コストが高い。 簡単な形状の場合,最も可能性の高いパラメータ値を表す最大後続推定値(MAP)を計算するために,高速な最適化手法を考案する。 次に,MAP点の線形化によって発見されたガウス分布による後続分布を近似し,主モードを低計算コストで捕捉する。

We develop a computational framework to quantify uncertainty in shear elastography imaging of anomalies in tissues. We adopt a Bayesian inference formulation. Given the observed data, a forward model and their uncertainties, we find the posterior probability of parameter fields representing the geometry of the anomalies and their shear moduli. To construct a prior probability, we exploit the topological energies of associated objective functions. We demonstrate the approach on synthetic two dimensional tests with smooth and irregular shapes. Sampling the posterior distribution by Markov Chain Monte Carlo (MCMC) techniques we obtain statistical information on the shear moduli and the geometrical properties of the anomalies. General affine-invariant ensemble MCMC samplers are adequate for shapes characterized by parameter sets of low to moderate dimension. However, MCMC methods are computationally expensive. For simple shapes, we devise a fast optimization scheme to calculate the maximum a posteriori (MAP) estimate representing the most likely parameter values. Then, we approximate the posterior distribution by a Gaussian distribution found by linearization about the MAP point to capture the main mode at a low computational cost.
翻訳日:2023-05-12 15:29:27 公開日:2023-05-11
# 話者ダイアフラム発生予測 : 深い注意とオンライン適応

Speaker Diaphragm Excursion Prediction: deep attention and online adaptation ( http://arxiv.org/abs/2305.06640v1 )

ライセンス: Link先を確認
Yuwei Ren, Matt Zivney, Yin Huang, Eddie Choy, Chirag Patel and Hao Xu(参考訳) 話者保護アルゴリズムは、再生信号特性を利用して、最大ラウドネスを維持しながら、特に小さなスピーカーを持つ携帯電話において、過剰な再帰を防止する。 本稿では,従来の手法では難しい非線形探索を正確にモデル化し,予測するための効率的なDLソリューションを提案する。 まず, フィードバック電流と電圧を入力としてサンプリングした実験と前処理パイプラインを構築し, 再帰を基底的真理としてレーザーを用いて測定する。 第二に、支配的な低周波や他の未知の高調波を探索するためにFFTNetモデルを提案し、ベースラインのConvNetモデルと比較する。 INT8量子化はAIモデル効率ツールキット(AIMET\footnote{AIMET)に基づくもので、Qualcomm Innovation Center, Inc.の製品である。 })は複雑さをさらに軽減するために適用される。 提案アルゴリズムは2つの話者と3つの典型的な展開シナリオで検証され, 残留DCの$=99\%は0.1mm未満であり, 従来のソリューションよりもはるかに優れている。

Speaker protection algorithm is to leverage the playback signal properties to prevent over excursion while maintaining maximum loudness, especially for the mobile phone with tiny loudspeakers. This paper proposes efficient DL solutions to accurately model and predict the nonlinear excursion, which is challenging for conventional solutions. Firstly, we build the experiment and pre-processing pipeline, where the feedback current and voltage are sampled as input, and laser is employed to measure the excursion as ground truth. Secondly, one FFTNet model is proposed to explore the dominant low-frequency and other unknown harmonics, and compares to a baseline ConvNet model. In addition, BN re-estimation is designed to explore the online adaptation; and INT8 quantization based on AI Model efficiency toolkit (AIMET\footnote{AIMET is a product of Qualcomm Innovation Center, Inc.}) is applied to further reduce the complexity. The proposed algorithm is verified in two speakers and 3 typical deployment scenarios, and $>$99\% residual DC is less than 0.1 mm, much better than traditional solutions.
翻訳日:2023-05-12 15:29:08 公開日:2023-05-11
# 連続変数最適化のための量子アニーリング:どのように有効か?

Quantum annealing for continuous-variable optimization: How is it effective? ( http://arxiv.org/abs/2305.06631v1 )

ライセンス: Link先を確認
Shunta Arai, Hiroki Oshiyama and Hidetoshi Nishimori(参考訳) 連続変数関数の最適化への量子アニールの適用は、比較的未探索の研究領域である。 頑丈なエネルギーランドスケープを持つ1次元連続変数関数に適用する量子アニーリングの性能をテストする。 連続変数を離散イジング変数にマップするためにドメイン壁符号化を行った後、我々は、d-wave 2000qが計算時間の制限された領域で古典アルゴリズムにマッチすることを見つけるために、実ハードウェアであるd-wave 2000qのパフォーマンスを、連続変数問題のために設計されたいくつかの最先端の古典最適化アルゴリズムと比較した。 この領域を超えて、古典的なグローバル最適化アルゴリズムは量子デバイスよりも優れている。 次に,問題のイジング定式化に適用可能な最適化アルゴリズムについて検討する。例えば,理想的なコヒーレント量子アニーリング,シミュレーションアニーリング,シミュレーション量子アニーリング,スピンベクトルモンテカルロをシミュレートするtebd(time-evolving block decimation)などである。 このデータから、TEBDのコヒーレント量子アニールは他のアプローチよりもはるかに優れた結果が得られることが示され、特にコヒーレントトンネルの有効性が示されている。 これらの2つのベンチマークから,量子アニーリングのハードウェア実現は,熱雑音や他の不完全さが十分に抑制され,デバイスがコヒーレントに動作した場合に,最良な古典的アルゴリズムを著しく上回る可能性があると結論づけた。

The application of quantum annealing to the optimization of continuous-variable functions is a relatively unexplored area of research. We test the performance of quantum annealing applied to a one-dimensional continuous-variable function with a rugged energy landscape. After domain-wall encoding to map a continuous variable to discrete Ising variables, we first benchmark the performance of the real hardware, the D-Wave 2000Q, against several state-of-the-art classical optimization algorithms designed for continuous-variable problems to find that the D-Wave 2000Q matches the classical algorithms in a limited domain of computation time. Beyond this domain, the classical global optimization algorithms outperform the quantum device. Next, we examine several optimization algorithms that are applicable to the Ising formulation of the problem, such as the TEBD (time-evolving block decimation) to simulate ideal coherent quantum annealing, simulated annealing, simulated quantum annealing, and spin-vector Monte Carlo. The data show that TEBD's coherent quantum annealing achieves far better results than the other approaches, in particular demonstrating the effectiveness of coherent tunneling. From these two types of benchmarks, we conclude that the hardware realization of quantum annealing has the potential to significantly outperform the best classical algorithms if thermal noise and other imperfections are sufficiently suppressed and the device operates coherently, as demonstrated in recent short-time quantum simulations.
翻訳日:2023-05-12 15:28:49 公開日:2023-05-11
# 不均一データに対する予測的変化点検出

Predictive change point detection for heterogeneous data ( http://arxiv.org/abs/2305.06630v1 )

ライセンス: Link先を確認
Anna-Christina Glock, Florian Sobieczky, Johannes F\"urnkranz, Peter Filzmoser, Martin Jech(参考訳) 予測と比較」と呼ばれる予測機械学習モデルによって支援される変化点検出(CPD)フレームワークを導入し、偽陽性率と制御外平均ラン長で優れる他の最先端のオンラインCDDルーチンと関連して特徴付ける。 この方法の焦点は、クサム則のような逐次分析から、これらの品質測定の観点から標準的手法を改善することである。 これは、ランニング平均のような一般的な傾向推定関数をより洗練された予測モデル(予測ステップ)に置き換え、それらの予後を実際のデータと比較することで達成される(比較ステップ)。 予測ステップで使用される2つのモデルは、ARIMAモデルとLSTM再帰ニューラルネットワークである。 しかし、このフレームワークは一般的な用語で定式化されており、ここでテストされたものとは異なる他の予測や比較手法の使用を可能にする。 提案手法のパワーは, ごく少数の偽陽性状態において, ランイン, 定常状態, 発散する摩耗相を分離する変化点を検出するトライボロジーケーススタディで実証された。

A change point detection (CPD) framework assisted by a predictive machine learning model called ''Predict and Compare'' is introduced and characterised in relation to other state-of-the-art online CPD routines which it outperforms in terms of false positive rate and out-of-control average run length. The method's focus is on improving standard methods from sequential analysis such as the CUSUM rule in terms of these quality measures. This is achieved by replacing typically used trend estimation functionals such as the running mean with more sophisticated predictive models (Predict step), and comparing their prognosis with actual data (Compare step). The two models used in the Predict step are the ARIMA model and the LSTM recursive neural network. However, the framework is formulated in general terms, so as to allow the use of other prediction or comparison methods than those tested here. The power of the method is demonstrated in a tribological case study in which change points separating the run-in, steady-state, and divergent wear phases are detected in the regime of very few false positives.
翻訳日:2023-05-12 15:28:20 公開日:2023-05-11
# 粗粒度決定論と非ユニタリダイナミクスによる自発的局所化

Spontaneous localisation from a coarse-grained deterministic and non-unitary dynamics ( http://arxiv.org/abs/2305.06706v1 )

ライセンス: Link先を確認
Kartik Kakade, Avnish Singh and Tejinder P. Singh(参考訳) 波動関数の崩壊は、量子重ね合わせの原理と決定論的進化に反するように見える。 客観的崩壊モデルは、シュリンガー方程式に確率的非一意的かつノルム保存的な修正を加えることによって、この現象の動的説明を提案する。 本稿では,量子系が非単元的だがノルム保存的進化の下でどのように進化するかを問う。 適切な条件下では、量子線型重ね合わせが壊れる単純な2量子ビットモデルを用いて、システムは予測可能のいずれかの代替に駆動されることを示す。 この決定論的力学が粗粒度で低分解能で観測された場合、結果はボルン確率則に従ってランダムに現れる。 したがって, 客観的崩壊モデルにおいて, 非ユニタリティと確率性の役割に光を当てる。

Collapse of the wave function appears to violate the quantum superposition principle as well as deterministic evolution. Objective collapse models propose a dynamical explanation for this phenomenon, by making a stochastic non-unitary and norm-preserving modification to the Schr\"odinger equation. In the present article we ask how a quantum system evolves under a {\it deterministic} and non-unitary but norm-preserving evolution? We show using a simple two-qubit model that under suitable conditions, quantum linear superposition is broken, with the system predictably driven to one or the other alternatives. If this deterministic dynamics is coarse-grained and observed over a lower time resolution, the outcomes appear random while obeying the Born probability rule. Our analysis hence throws light on the distinct roles of non-unitarity and of stochasticity in objective collapse models.
翻訳日:2023-05-12 15:21:57 公開日:2023-05-11
# 正作用素値測度に基づく重ね合わせのコヒーレンス上の境界

Bounds on positive operator-valued measure based coherence of superposition ( http://arxiv.org/abs/2305.06705v1 )

ライセンス: Link先を確認
Meng-Li Guo, Jin-Min Liang, Bo Li, Shao-Ming Fei, and Zhi-Xi Wang(参考訳) 量子コヒーレンスは量子物理学の基本的特徴であり、量子情報処理において重要な役割を果たす。 フォン・ノイマン測度から正の作用素値測度(POVM)へのコヒーレンスの資源理論の一般化により、コヒーレンスの相対エントロピー、$l_1$ノルム、コヒーレンスのロバスト性、およびTsallis相対エントロピーに関してPOVMベースのコヒーレンス測度が提案されている。 重畳状態における状態のPOVMに基づくコヒーレンスの観点から、任意の重畳された純粋状態のこれらのPOVMベースのコヒーレンスに対する下界と上界を解析的に導出する。 この結果は重ね合わせ状態の量子コヒーレンス範囲の推定に利用できる。 分析的境界を検証するための詳細な例を示す。

Quantum coherence is a fundamental feature of quantum physics and plays a significant role in quantum information processing. By generalizing the resource theory of coherence from von Neumann measurements to positive operator-valued measures (POVMs), POVM-based coherence measures have been proposed with respect to the relative entropy of coherence, the $l_1$ norm of coherence, the robustness of coherence and the Tsallis relative entropy of coherence. We derive analytically the lower and upper bounds on these POVM-based coherence of an arbitrary given superposed pure state in terms of the POVM-based coherence of the states in superposition. Our results can be used to estimate range of quantum coherence of superposed states. Detailed examples are presented to verify our analytical bounds.
翻訳日:2023-05-12 15:21:40 公開日:2023-05-11
# タグ付き多要素モデルにおけるリードラグ関係のロバスト検出

Robust Detection of Lead-Lag Relationships in Lagged Multi-Factor Models ( http://arxiv.org/abs/2305.06704v1 )

ライセンス: Link先を確認
Yichi Zhang, Mihai Cucuringu, Alexander Y. Shestopaloff, Stefan Zohren(参考訳) 多変量時系列システムでは、データに固有のリードラグ関係を発見し、2つの時系列間の依存性を相対的に変化させ、制御、予測、クラスタリングの目的で利用することができる。 階層化多要素モデルにおけるリードラグ関係のロバスト検出のためのクラスタリング駆動手法を開発した。 我々のフレームワーク内では、想定されたパイプラインは一連の時系列を入力とし、スライディングウィンドウアプローチを用いて、各入力時系列から抽出されたサブシーケンスの拡大宇宙を生成する。 次に、非線形クラスタリングを含む様々なペアワイズ類似性尺度を用いて、様々なクラスタリング手法(k-means++やspectral clusteringなど)を適用する。 ひとたびクラスターが抽出されると、元の宇宙における一貫した関係の識別を強化するために、クラスター全体のリードレーグ推定を集約する。 多変量時系列は幅広い領域に分布しているため、我々の手法は金融市場でのリードラグ関係を堅牢に検出できるだけでなく、環境データセットに適用した場合にも洞察力のある結果が得られることを示す。

In multivariate time series systems, key insights can be obtained by discovering lead-lag relationships inherent in the data, which refer to the dependence between two time series shifted in time relative to one another, and which can be leveraged for the purposes of control, forecasting or clustering. We develop a clustering-driven methodology for the robust detection of lead-lag relationships in lagged multi-factor models. Within our framework, the envisioned pipeline takes as input a set of time series, and creates an enlarged universe of extracted subsequence time series from each input time series, by using a sliding window approach. We then apply various clustering techniques (e.g, K-means++ and spectral clustering), employing a variety of pairwise similarity measures, including nonlinear ones. Once the clusters have been extracted, lead-lag estimates across clusters are aggregated to enhance the identification of the consistent relationships in the original universe. Since multivariate time series are ubiquitous in a wide range of domains, we demonstrate that our method is not only able to robustly detect lead-lag relationships in financial markets, but can also yield insightful results when applied to an environmental data set.
翻訳日:2023-05-12 15:21:25 公開日:2023-05-11
# ニューラルネットワーク:競合するリスクのためのモノトニックニューラルネットワーク

Neural Fine-Gray: Monotonic neural networks for competing risks ( http://arxiv.org/abs/2305.06703v1 )

ライセンス: Link先を確認
Vincent Jeanselme, Chang Ho Yoon, Brian Tom, Jessica Barrett(参考訳) 生存分析として知られる時間対イベントモデリングは、関心のある出来事を経験していない患者の検閲に対処するため、標準回帰とは異なる。 この問題に取り組む際の競争的パフォーマンスにもかかわらず、機械学習の手法は、関心事を引き起こす他の競合リスクをしばしば無視する。 この慣行は生存推定に偏っている。 この課題に対処する拡張は、しばしば準最適生存近似につながるパラメトリック仮定や数値推定に依存する。 本稿では、制約付きモノトニックニューラルネットワークを用いて、各サバイバル分布をモデル化する。 このモデル選択は、自動微分を用いることで、計算コストの削減による正確な極大化を保証する。 このソリューションの有効性は、1つの合成データセットと3つの医療データセットで示される。 最後に,医療用リスクスコアの開発において,競合するリスクを検討することの意義について考察する。

Time-to-event modelling, known as survival analysis, differs from standard regression as it addresses censoring in patients who do not experience the event of interest. Despite competitive performances in tackling this problem, machine learning methods often ignore other competing risks that preclude the event of interest. This practice biases the survival estimation. Extensions to address this challenge often rely on parametric assumptions or numerical estimations leading to sub-optimal survival approximations. This paper leverages constrained monotonic neural networks to model each competing survival distribution. This modelling choice ensures the exact likelihood maximisation at a reduced computational cost by using automatic differentiation. The effectiveness of the solution is demonstrated on one synthetic and three medical datasets. Finally, we discuss the implications of considering competing risks when developing risk scores for medical practice.
翻訳日:2023-05-12 15:21:05 公開日:2023-05-11
# 希少種分類のための深部視覚バイオメトリックス

Deep Visual-Genetic Biometrics for Taxonomic Classification of Rare Species ( http://arxiv.org/abs/2305.06695v1 )

ライセンス: Link先を確認
Tayfun Karaderi, Tilo Burghardt, Raphael Morard, Daniela Schmidt(参考訳) 視覚と遺伝的バイオメトリクスは、生物学的応用における種や個人を特定するために日常的に使用される。 しかし、この領域では、遺伝学による画像データが少ない希少クラスの視覚的分類を強化する試みは行われていない。 そこで本稿では,クロスドメイン関係を暗黙的にエンコードし,性能を向上させることを目的として,アライメントされたビジュアルジェネティック推論空間を提案する。 このようなアライメントは, 深層埋没モデルにより初めて達成され, 特に希少種に対するLTR(Long-tailed Recognition)の促進に直接適用可能であることを実証した。 実験では,32種にまたがる30k以上のプランクティックフォラミニファー殻の微視的画像と独立した遺伝データを用いて,その概念の有効性を実証した。 最も重要なことは,視覚と遺伝の協調が,最も稀な種の視覚のみの認識に有益であることを示すことである。 技術的には、三重項損失の定式化を用いて視覚的ResNet50ディープラーニングモデルを事前訓練し、初期埋め込み空間を作成する。 この空間をシーケンスグラフ変換(sgt)によって埋め込まれた遺伝的アンカーに基づいて再構成し,クロスドメインコサインアライメントによって視覚データにリンクする。 LTRアプローチはすべてのベンチマークの最先端性を向上し、クラスごとの視覚的遺伝的アライメントの追加は、特にレアなテールクラスのベンチマークを大幅に改善することを示す。 視覚的・遺伝的アライメントは希少なクラスを含む視覚生物学的データを補完する非常に効果的なツールであると考えられる。 提案された概念は、遺伝学と画像学を統合し、分類学空間と生命そのものをより完全な科学的表現にするための重要な将来のツールとなるかもしれない。 コード、重み、データ分割が完全な再現性のために公開される。

Visual as well as genetic biometrics are routinely employed to identify species and individuals in biological applications. However, no attempts have been made in this domain to computationally enhance visual classification of rare classes with little image data via genetics. In this paper, we thus propose aligned visual-genetic inference spaces with the aim to implicitly encode cross-domain associations for improved performance. We demonstrate for the first time that such alignment can be achieved via deep embedding models and that the approach is directly applicable to boosting long-tailed recognition (LTR) particularly for rare species. We experimentally demonstrate the efficacy of the concept via application to microscopic imagery of 30k+ planktic foraminifer shells across 32 species when used together with independent genetic data samples. Most importantly for practitioners, we show that visual-genetic alignment can significantly benefit visual-only recognition of the rarest species. Technically, we pre-train a visual ResNet50 deep learning model using triplet loss formulations to create an initial embedding space. We re-structure this space based on genetic anchors embedded via a Sequence Graph Transform (SGT) and linked to visual data by cross-domain cosine alignment. We show that an LTR approach improves the state-of-the-art across all benchmarks and that adding our visual-genetic alignment improves per-class and particularly rare tail class benchmarks significantly further. We conclude that visual-genetic alignment can be a highly effective tool for complementing visual biological data containing rare classes. The concept proposed may serve as an important future tool for integrating genetics and imageomics towards a more complete scientific representation of taxonomic spaces and life itself. Code, weights, and data splits are published for full reproducibility.
翻訳日:2023-05-12 15:20:53 公開日:2023-05-11
# 量子回路のquboによるモジュラーアーキテクチャへのマッピング

Mapping quantum circuits to modular architectures with QUBO ( http://arxiv.org/abs/2305.06687v1 )

ライセンス: Link先を確認
Medina Bandic, Luise Prielinger, Jonas N\"u{\ss}lein, Anabel Ovide, Santiago Rodrigo, Sergi Abadal, Hans van Someren, Gayane Vardoyan, Eduard Alarcon, Carmen G. Almudever and Sebastian Feld(参考訳) モジュラ量子コンピューティングアーキテクチャは、量子デバイスをスケールアップするためのモノリシックQPU(Quantum Processing Unit)設計の代替として有望である。 それらは、量子コヒーレントおよび古典的リンクを介して通信できる密結合量子ビットからなる相互接続されたQPUまたはコアの集合を指す。 マルチコアアーキテクチャでは、アルゴリズムの実行時にコア間の通信量を最小化することが重要である。 したがって、量子回路をモジュラーアーキテクチャにマッピングするには、与えられたハードウェア制約を順守しつつ、高価なコア間演算数を最小化することを目的として、論理量子ビット(量子回路の量子ビット)を異なるコアに最適に割り当てることが必要となる。 本稿では,2値決定変数における量子ビット割り当てとコア間通信コストの両面での問題と解を符号化する準拘束的バイナリ最適化(QUBO)手法を初めて提案する。 この目的のために量子回路はスライスに分割され、量子ビット割り当ては各回路スライスのグラフ分割問題として定式化される。 コア間通信をペナルティ化することにより、コストのかかるコア間通信を削減できる。 最終解は全回路スライス全体のコストを最小にすることで得られる。 提案手法の有効性を評価するために,2つの異なるマルチコアアーキテクチャ上で,量子ビット数の多いベンチマークの代表的なセットを用いて詳細な解析を行う。 提案手法は有望な結果を示し,2ビットゲート当たり平均0.78のコア間通信を必要とする高密度・高並列化回路で極めて良好に動作した。

Modular quantum computing architectures are a promising alternative to monolithic QPU (Quantum Processing Unit) designs for scaling up quantum devices. They refer to a set of interconnected QPUs or cores consisting of tightly coupled quantum bits that can communicate via quantum-coherent and classical links. In multi-core architectures, it is crucial to minimize the amount of communication between cores when executing an algorithm. Therefore, mapping a quantum circuit onto a modular architecture involves finding an optimal assignment of logical qubits (qubits in the quantum circuit) to different cores with the aim to minimize the number of expensive inter-core operations while adhering to given hardware constraints. In this paper, we propose for the first time a Quadratic Unconstrained Binary Optimization (QUBO) technique to encode the problem and the solution for both qubit allocation and inter-core communication costs in binary decision variables. To this end, the quantum circuit is split into slices, and qubit assignment is formulated as a graph partitioning problem for each circuit slice. The costly inter-core communication is reduced by penalizing inter-core qubit communications. The final solution is obtained by minimizing the overall cost across all circuit slices. To evaluate the effectiveness of our approach, we conduct a detailed analysis using a representative set of benchmarks having a high number of qubits on two different multi-core architectures. Our method showed promising results and performed exceptionally well with very dense and highly-parallelized circuits that require on average 0.78 inter-core communications per two-qubit gate.
翻訳日:2023-05-12 15:20:25 公開日:2023-05-11
# スパンベースシーケンスラベリングのためのコスト効率の高いクラウドソーシング:ワーカー選択とデータ拡張

Cost-efficient Crowdsourcing for Span-based Sequence Labeling: Worker Selection and Data Augmentation ( http://arxiv.org/abs/2305.06683v1 )

ライセンス: Link先を確認
Yujie Wang, Chao Huang, Liner Yang, Zhixuan Fang, Yaping Huang, Yang Liu, Erhong Yang(参考訳) 本稿では,自然言語処理(nlp)におけるスパンベースシーケンスラベリングタスクにおけるアノテーション品質の向上とコスト削減を実現する,新たなワーカ選択アルゴリズムを提案する。 従来の単純なタスクを対象とする研究とは異なり、この研究はシーケンシャルラベリングタスクにおけるラベル相互依存性の複雑さと競合する。 提案アルゴリズムは,Multiial Multi-Armed Bandit (CMAB) アプローチを用いて作業者選択を行う。 労働者選択のオフラインシミュレーションを妨げる不均衡データセットと小規模データセットを扱うという課題は、シフト、拡張、縮小(SES)と呼ばれる革新的なデータ拡張手法によって解決される。 SES法はシーケンスラベリングタスクに特化して設計されている。 CoNLL 2003 NERと中国のOEIデータセットの厳密なテストではアルゴリズムの効率が示され、F1のスコアはエキスパートのみのベースラインの100.04%まで上昇し、コストは65.97%まで削減された。 論文ではまた、Bernoulli分布によるアノテーション評価をデータセットに依存しないテストでエミュレートし、エキスパートベースラインの97.56%のF1スコアと59.88%のコスト削減を実現している。 本研究は、複雑なNLPタスクの作業者選択における多くの障害に対処し克服する。

This paper introduces a novel worker selection algorithm, enhancing annotation quality and reducing costs in challenging span-based sequence labeling tasks in Natural Language Processing (NLP). Unlike previous studies targeting simpler tasks, this study contends with the complexities of label interdependencies in sequence labeling tasks. The proposed algorithm utilizes a Combinatorial Multi-Armed Bandit (CMAB) approach for worker selection. The challenge of dealing with imbalanced and small-scale datasets, which hinders offline simulation of worker selection, is tackled using an innovative data augmentation method termed shifting, expanding, and shrinking (SES). The SES method is designed specifically for sequence labeling tasks. Rigorous testing on CoNLL 2003 NER and Chinese OEI datasets showcased the algorithm's efficiency, with an increase in F1 score up to 100.04% of the expert-only baseline, alongside cost savings up to 65.97%. The paper also encompasses a dataset-independent test emulating annotation evaluation through a Bernoulli distribution, which still led to an impressive 97.56% F1 score of the expert baseline and 59.88% cost savings. This research addresses and overcomes numerous obstacles in worker selection for complex NLP tasks.
翻訳日:2023-05-12 15:19:59 公開日:2023-05-11
# 多重構成量子化学:CASPT2法

Multiconfigurational quantum chemistry: The CASPT2 method ( http://arxiv.org/abs/2305.06678v1 )

ライセンス: Link先を確認
Stefano Battaglia, Ignacio Fdez. Galv\'an, Roland Lindh(参考訳) 本章では、CASPT2法の背後にある理論とその多状態形式への適応について述べる。 この章はcaspt2法(rayleigh-schr\"odinger摂動理論のマルチコンフィギュレーション参照関数への応用)の理論の導入から始まる。 特に、参照ハミルトニアンの性質と一階相互作用空間について論じる。 この後、侵入者状態問題やこの問題に対処するための様々なシフト技術に関して、いくつかの詳細な議論がなされている。 その後、侵入者状態の問題をある程度、あるいは完全に除去する代替参照ハミルトン問題に関するより長いレビューが進められる。 その後、CASPT2法のマルチステートバージョンについて詳細に述べる。 この章は、手法の正確性に関する異なるベンチマーク評価と、アプローチの将来の発展可能性に関する適格な提案のレビューで締めくくられている。

This chapter presents the theory behind the CASPT2 method and its adaptation to a multi-state formalism. The chapter starts with an introduction of the theory of the CASPT2 method - an application of Rayleigh-Schr\"odinger perturbation theory applied to multiconfigurational reference function - as it was originally presented. In particular, we discuss the nature of the reference Hamiltonian and the first-order interacting space. This is followed by some detailed discussion with respect to the intruder state problem and various shift techniques to address this problem. Afterwards a longer review on alternative reference Hamiltonians, which to some degree or completely remove the intruder state problem, is put forward. Subsequently the presently proposed multi-state versions of the CASPT2 method are discussed in some detail. The chapter is concluded with a review of different benchmark assessments of the accuracy of the method and a qualified suggestion on the future development potentials of the approach.
翻訳日:2023-05-12 15:19:37 公開日:2023-05-11
# Ingenious:大規模言語モデルの効率的な事前学習のためのインフォーマティブデータセットの利用

INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of Large Language Models ( http://arxiv.org/abs/2305.06677v1 )

ライセンス: Link先を確認
H S V N S Kowndinya Renduchintala, Krishnateja Killamsetty, Sumit Bhatia, Milan Aggarwal, Ganesh Ramakrishnan, Rishabh Iyer, Balaji Krishnamurthy(参考訳) 大規模事前学習言語モデル(PTLM)の顕著な特徴は、その一般化能力と、モデルキャパシティと事前学習データセットサイズの増加による新機能の出現において顕著な改善である。 その結果、私たちは最先端を推し進める巨大なモデルの開発を目撃しています。 しかし、このことが必然的に長時間のトレーニング時間、強要の計算コスト、有害な環境影響をもたらすことを認識することが不可欠である。 PTLMトレーニングをモデルアーキテクチャ、トレーニングパイプライン、損失関数設計の革新を通じて効率化するための重要な取り組みが進行中であり、トレーニングデータの有用性の最適化に注意が払われている。 重要な疑問は、下流のパフォーマンスを維持しながら、トレーニングデータの高情報サブセットのみを利用することでPTLMをトレーニングできるかどうかである。 情報的データサブセット選択の最近の進歩に基づき、トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュール最適化を利用する方法を示す。 提案手法は,複数のPTLM (BERT, BioBERT, GPT-2) を少数のデータのみを用いて効率的に訓練し, 完全学習モデルの性能を最大$\sim99\% に抑えることができることを示す。

A salient characteristic of large pre-trained language models (PTLMs) is a remarkable improvement in their generalization capability and emergence of new capabilities with increasing model capacity and pre-training dataset size. Consequently, we are witnessing the development of enormous models pushing the state-of-the-art. It is, however, imperative to realize that this inevitably leads to prohibitively long training times, extortionate computing costs, and a detrimental environmental impact. Significant efforts are underway to make PTLM training more efficient through innovations in model architectures, training pipelines, and loss function design, with scant attention being paid to optimizing the utility of training data. The key question that we ask is whether it is possible to train PTLMs by employing only highly informative subsets of the training data while maintaining downstream performance? Building upon the recent progress in informative data subset selection, we show how we can employ submodular optimization to select highly representative subsets of the training corpora. Our results demonstrate that the proposed framework can be applied to efficiently train multiple PTLMs (BERT, BioBERT, GPT-2) using only a fraction of data while retaining up to $\sim99\%$ of the performance of the fully-trained models.
翻訳日:2023-05-12 15:19:21 公開日:2023-05-11
# WeditGAN: ラテント・スペース・リロケーションによる画像生成

WeditGAN: Few-shot Image Generation via Latent Space Relocation ( http://arxiv.org/abs/2305.06671v1 )

ライセンス: Link先を確認
Yuxuan Duan, Li Niu, Yan Hong, Liqing Zhang(参考訳) 少数の画像生成では、少数の画像上でGANモデルを直接訓練することは、過度に適合するリスクに直面している。 一般的な解決策は、大きなソースドメインで事前訓練されたモデルを小さなターゲットに転送することである。 本研究はWeditGANを導入し、StyleGANの中間潜伏符号$w$を学習定数オフセット($\Delta w$)で編集し、ソース潜伏空間の分布を単純に移動させることで、目標潜伏空間を発見し、構築することでモデル転送を実現する。 潜在空間間の1対1マッピングが確立されると、自然にモードの崩壊やオーバーフィットを防止できる。 さらに,方向を定式化したり,$\delta w$ の強度を微調整することにより,再配置プロセスをさらに強化するために,weditgan の変種も提案する。 広く使われているソース/ターゲットデータセットの集合に関する実験では、現実的で多様な画像を生成するためのweditganの能力が示されている。

In few-shot image generation, directly training GAN models on just a handful of images faces the risk of overfitting. A popular solution is to transfer the models pretrained on large source domains to small target ones. In this work, we introduce WeditGAN, which realizes model transfer by editing the intermediate latent codes $w$ in StyleGANs with learned constant offsets ($\Delta w$), discovering and constructing target latent spaces via simply relocating the distribution of source latent spaces. The established one-to-one mapping between latent spaces can naturally prevents mode collapse and overfitting. Besides, we also propose variants of WeditGAN to further enhance the relocation process by regularizing the direction or finetuning the intensity of $\Delta w$. Experiments on a collection of widely used source/target datasets manifest the capability of WeditGAN in generating realistic and diverse images, which is simple yet highly effective in the research area of few-shot image generation.
翻訳日:2023-05-12 15:18:58 公開日:2023-05-11
# 距離可視化による血管解析の強化 : 概要と実装

Enhancing Vascular Analysis with Distance Visualizations: An Overview and Implementation ( http://arxiv.org/abs/2305.06726v1 )

ライセンス: Link先を確認
Jan Hombecka, Monique Meuschke, Simon Lieb, Nils Lichtenberg, Felix Fleisch, Maximilian Enderling, Rabi Datta, Michael Krone, Christian Hansen, Bernhard Preim and Kai Lawonn(参考訳) 近年,血管構造の表現における表現的表面可視化の利用が注目されている。 これらの可視化は複雑な解剖学的構造を包括的に理解し、治療計画や医学教育に不可欠である。 しかし、意思決定を助けるために、医師は解剖学的構造とその空間的関係を明確かつよく知覚可能な方法で正確に描写する可視化を必要とする。 本研究は, 先行論文を拡張し, 3次元容器表面の距離情報を符号化する共通手法の徹底的な検討を行い, 可視化の実装を提供する。 16の異なる視覚化のためのUnity環境と詳細な実装手順が提供される。 これらの視覚化は、基本、表面ベース、補助、図示の4つのカテゴリに分類できる。 さらに、この拡張には、血管モデルのエンドポイントロケーションを生成するツールが含まれている。 全体として、このフレームワークは、参入障壁を減らし、この分野のさらなる研究を促進することで、血管表面の可視化の分野の研究者にとって貴重な資源となる。 本稿では, 血管構造の視覚的表現の正確かつ効果的な開発を支援することで, 治療計画や医学教育を支援することを目的とする。

In recent years, the use of expressive surface visualizations in the representation of vascular structures has gained significant attention. These visualizations provide a comprehensive understanding of complex anatomical structures and are crucial for treatment planning and medical education. However, to aid decision-making, physicians require visualizations that accurately depict anatomical structures and their spatial relationships in a clear and well-perceivable manner. This work extends a previous paper and presents a thorough examination of common techniques for encoding distance information of 3D vessel surfaces and provides an implementation of these visualizations. A Unity environment and detailed implementation instructions for sixteen different visualizations are provided. These visualizations can be classified into four categories: fundamental, surface-based, auxiliary, and illustrative. Furthermore, this extension includes tools to generate endpoint locations for vascular models. Overall this framework serves as a valuable resource for researchers in the field of vascular surface visualization by reducing the barrier to entry and promoting further research in this area. By providing an implementation of various visualizations, this paper aims to aid in the development of accurate and effective visual representations of vascular structures to assist in treatment planning and medical education.
翻訳日:2023-05-12 15:13:31 公開日:2023-05-11
# 効率的な複合パルスシーケンスを用いた高速高忠実化シングルキュービットゲート

Fast, high-fidelity addressed single-qubit gates using efficient composite pulse sequences ( http://arxiv.org/abs/2305.06725v1 )

ライセンス: Link先を確認
A. D. Leu, M. F. Gely, M. A. Weber, M. C. Smith, D. P. Nadlinger, D. M. Lucas(参考訳) 低温(100K)表面トラップにおいて,電子マイクロ波制御法を用いて,高速かつ忠実な単一量子ビットゲートを,$^{43}\text{Ca}^{+}$ hyperfine ''atomic clock' qubitsに対して実装する。 1つのキュービットに対して、1つのクリフォードゲートあたり$1.5$$$\times$10^{-6}$($600~\text{ns}$$$\pi/2$-pulsesで実装)のエラーをベンチマークします。 同じトラップゾーン内の2つの量子ビット(イオン分離5〜\mu\text{m}$)に対して、空間マイクロ波場勾配と効率的な4パルススキームを組み合わせて、独立したアドレスゲートを実装する。 両キュービットの並列ランダム化ベンチマークは論理ゲートあたりの平均誤差が3.4$$\times$10^{-5}$である。

We use electronic microwave control methods to implement addressed single-qubit gates with high speed and fidelity, for $^{43}\text{Ca}^{+}$ hyperfine ''atomic clock'' qubits in a cryogenic (100K) surface trap. For a single qubit, we benchmark an error of $1.5$ $\times$ $10^{-6}$ per Clifford gate (implemented using $600~\text{ns}$ $\pi/2$-pulses). For two qubits in the same trap zone (ion separation $5~\mu\text{m}$), we use a spatial microwave field gradient, combined with an efficient 4-pulse scheme, to implement independent addressed gates. Parallel randomized benchmarking on both qubits yields an average error $3.4$ $\times$ $10^{-5}$ per logical gate.
翻訳日:2023-05-12 15:13:15 公開日:2023-05-11
# 変換器Albertina PT-*によるポルトガル語のニューラルエンコーディングの改善

Advancing Neural Encoding of Portuguese with Transformer Albertina PT-* ( http://arxiv.org/abs/2305.06721v1 )

ライセンス: Link先を確認
Jo\~ao Rodrigues, Lu\'is Gomes, Jo\~ao Silva, Ant\'onio Branco, Rodrigo Santos, Henrique Lopes Cardoso, Tom\'as Os\'orio(参考訳) ポルトガル語(pt-pt)とブラジル語(pt-br)の2つの変種についてトランスフォーマーベースの基礎モデルを開発した。 このエンコーダを開発するために、我々はAlbertina PT-*と名付けた強力なモデルを出発点としてDeBERTaを使用し、その事前学習をポルトガルのデータセット、すなわちPT-PTのために収集したデータセットとPT-BRのためのbrWaCコーパス上で行った。 アルベルティーナと競合するモデルの性能は、ポルトガル語に適応した下流言語処理タスクで評価することで評価された。 アルベルティーナpt-ptとpt-brの両方のバージョンは、可能な限り無償で配布され、消費者向けのハードウェア上で動作可能であり、ポルトガル語のための言語技術の研究と革新の進展に貢献したいと考えている。

To advance the neural encoding of Portuguese (PT), and a fortiori the technological preparation of this language for the digital age, we developed a Transformer-based foundation model that sets a new state of the art in this respect for two of its variants, namely European Portuguese from Portugal (PT-PT) and American Portuguese from Brazil (PT-BR). To develop this encoder, which we named Albertina PT-*, a strong model was used as a starting point, DeBERTa, and its pre-training was done over data sets of Portuguese, namely over a data set we gathered for PT-PT and over the brWaC corpus for PT-BR. The performance of Albertina and competing models was assessed by evaluating them on prominent downstream language processing tasks adapted for Portuguese. Both Albertina PT-PT and PT-BR versions are distributed free of charge and under the most permissive license possible and can be run on consumer-grade hardware, thus seeking to contribute to the advancement of research and innovation in language technology for Portuguese.
翻訳日:2023-05-12 15:13:01 公開日:2023-05-11
# 連立多モード画像融合のためのバイレベル動的学習

Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and Beyond ( http://arxiv.org/abs/2305.06720v1 )

ライセンス: Link先を確認
Zhu Liu and Jinyuan Liu and Guanyao Wu and Long Ma and Xin Fan and Risheng Liu(参考訳) 近年、画像融合やシーン理解といったマルチモーダルシーン認識タスクが、インテリジェントな視覚システムに広く注目を集めている。 しかし、初期の取り組みは常に一方的なタスクを一方的に強化し、他のタスクを無視することを考慮し、共同プロモーションの基盤となるコネクションを調査することはほとんどなかった。 これらの制約を克服するために、これらのタスクをブリッジする階層的なデュアルタスク駆動のディープモデルを確立する。 具体的には,視覚効果の判別器や特徴量計測のセマンティックネットワークを含む,補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築する。 我々は、画像融合とフォローアップ下流タスクを定式化するバイレベル視点を提供する。 画像融合に異なるタスク関連応答を組み込むため,画像融合を第一目標とし,二重モジュールを学習可能な制約と考える。 さらに, 対応する勾配を計算するための効率的な一階近似法を開発し, 融合学習のための勾配のバランスをとるために動的重み付けアグリゲーションを提示する。 広汎な実験により,視覚的に快く融合した結果が得られるだけでなく,検出とセグメンテーションが最先端の手法よりも顕著に促進されることを示す。

Recently, multi-modality scene perception tasks, e.g., image fusion and scene understanding, have attracted widespread attention for intelligent vision systems. However, early efforts always consider boosting a single task unilaterally and neglecting others, seldom investigating their underlying connections for joint promotion. To overcome these limitations, we establish the hierarchical dual tasks-driven deep model to bridge these tasks. Concretely, we firstly construct an image fusion module to fuse complementary characteristics and cascade dual task-related modules, including a discriminator for visual effects and a semantic network for feature measurement. We provide a bi-level perspective to formulate image fusion and follow-up downstream tasks. To incorporate distinct task-related responses for image fusion, we consider image fusion as a primary goal and dual modules as learnable constraints. Furthermore, we develop an efficient first-order approximation to compute corresponding gradients and present dynamic weighted aggregation to balance the gradients for fusion learning. Extensive experiments demonstrate the superiority of our method, which not only produces visually pleasant fused results but also realizes significant promotion for detection and segmentation than the state-of-the-art approaches.
翻訳日:2023-05-12 15:12:41 公開日:2023-05-11
# 特異ポテンシャルシュレーディンガー作用素に対する滑らかで高密度な不変領域の性質

Properties of a smooth, dense, invariant domain for singular potential Schroedinger operators ( http://arxiv.org/abs/2305.06718v1 )

ライセンス: Link先を確認
Thomas Thiemann(参考訳) schr\"odinger operator はしばしば原点、原子物理学におけるクーロン問題、フリードマン=ロバートソン=ウォーカー問題における様々な物質結合項で特異点を表示する。 様々な応用に対して、例えば定常摂動理論やローリー・リッツ法のように、そのような種類のシュリンガー作用素に対して、密で不変な領域にまたがる明示的な基底を持つことが望ましい。 ここでは,そのような基盤を実際に提供できるだけでなく,関連する行列要素や内積を解析的に閉形式で計算できるので,分析用グラム・シュミット正規化などに必要なデータを提供する。

Schr\"odinger operators often display singularities at the origin, the Coulomb problem in atomic physics or the various matter coupling terms in the Friedmann-Robertson-Walker problem being prominent examples. For various applications it would be desirable to have at one's disposal an explicit basis spanning a dense and invariant domain for such types of Schr\"odinger operators, for instance stationary perturbation theory or the Raleigh-Ritz method. Here we make the observation, that not only a such basis can indeed be provided but that in addition relevant matrix elements and inner products can be computed analytically in closed form, thus providing the required data e.g. for an analytical Gram-Schmid orthonormalisation.
翻訳日:2023-05-12 15:12:18 公開日:2023-05-11
# 気晴らしの悪影響: 動き推定のための逆向きの天候攻撃

Distracting Downpour: Adversarial Weather Attacks for Motion Estimation ( http://arxiv.org/abs/2305.06716v1 )

ライセンス: Link先を確認
Jenny Schmalfuss and Lukas Mehl and Andr\'es Bruhn(参考訳) 運動推定(光学フロー)に対する現在の敵対攻撃は、実世界では現れない小さなピクセル当たりの摂動を最適化する。 対照的に、悪天候はより現実的な脅威シナリオである。 そこで本研究では,雪片や雨天,霧雲などの気象効果を再現するために,逆最適化粒子を利用した動き推定手法を提案する。 我々の攻撃フレームワークの中核は、粒子を統合する微分可能な粒子レンダリングシステムである (i)連続して複数の時間ステップ (ii)3d空間へ (三)写真リアリスティックな外観。 最適化により, 運動推定に大きな影響を及ぼす逆向きの天候を得る。 驚くべきことに、以前1ピクセルあたりの小さな摂動に対して良好な堅牢性を示した手法は、特に敵の天候に弱い。 同時に、非最適化の気象で訓練を増強することで、気象効果に対するロバスト性が向上し、ほぼ追加コストで一般化性が向上する。

Current adversarial attacks on motion estimation, or optical flow, optimize small per-pixel perturbations, which are unlikely to appear in the real world. In contrast, adverse weather conditions constitute a much more realistic threat scenario. Hence, in this work, we present a novel attack on motion estimation that exploits adversarially optimized particles to mimic weather effects like snowflakes, rain streaks or fog clouds. At the core of our attack framework is a differentiable particle rendering system that integrates particles (i) consistently over multiple time steps (ii) into the 3D space (iii) with a photo-realistic appearance. Through optimization, we obtain adversarial weather that significantly impacts the motion estimation. Surprisingly, methods that previously showed good robustness towards small per-pixel perturbations are particularly vulnerable to adversarial weather. At the same time, augmenting the training with non-optimized weather increases a method's robustness towards weather effects and improves generalizability at almost no additional cost.
翻訳日:2023-05-12 15:12:04 公開日:2023-05-11
# バックプロパゲーションフリー4次元連続アントベースニューラルトポロジーサーチ

Backpropagation-Free 4D Continuous Ant-Based Neural Topology Search ( http://arxiv.org/abs/2305.06715v1 )

ライセンス: Link先を確認
AbdElRahman ElSaid and Karl Ricanek and Zeming Lyu and Alexander Ororbia and Travis Desell(参考訳) 連続 ant-based topology search (cants) は、以前に導入されたnature-inspired neural architecture search (nas)アルゴリズムであり、antコロニー最適化 (aco) に基づいている。 CANTSは、連続的な検索空間を使用して、ニューラルアーキテクチャ検索空間を間接的にエンコードする。 合成アリエージェントは、フェロモンの密度と分布に基づいてカントの連続探索空間を探索し、アリが現実世界でどのように動くかに強い影響を受けている。 この連続的な検索空間により、cantsは任意のサイズのニューラルネットワーク(anns)の設計を自動化でき、ユーザが指定したサイズの構造内で動作しなければならない現在の多くのnasアルゴリズムに固有の重要な制限を取り除くことができる。 この研究は、潜在神経シナプス重みを表す探索空間に4次元を追加することでカントを拡大する。 この余分な次元を加えることで、cantsエージェントはアーキテクチャだけでなく、バックプロパゲーション(bp)を適用せずにannの重みも最適化できるため、最適化プロセスで消費される時間を大幅に削減することができる。 実世界のデータを用いた実験により,BP-Free~CANTSアルゴリズムは動作時間を大幅に削減しつつ,CANTSおよびANTSと比較して高い競合性能を示した。

Continuous Ant-based Topology Search (CANTS) is a previously introduced novel nature-inspired neural architecture search (NAS) algorithm that is based on ant colony optimization (ACO). CANTS utilizes a continuous search space to indirectly-encode a neural architecture search space. Synthetic ant agents explore CANTS' continuous search space based on the density and distribution of pheromones, strongly inspired by how ants move in the real world. This continuous search space allows CANTS to automate the design of artificial neural networks (ANNs) of any size, removing a key limitation inherent to many current NAS algorithms that must operate within structures of a size that is predetermined by the user. This work expands CANTS by adding a fourth dimension to its search space representing potential neural synaptic weights. Adding this extra dimension allows CANTS agents to optimize both the architecture as well as the weights of an ANN without applying backpropagation (BP), which leads to a significant reduction in the time consumed in the optimization process. The experiments of this study - using real-world data - demonstrate that the BP-Free~CANTS algorithm exhibits highly competitive performance compared to both CANTS and ANTS while requiring significantly less operation time.
翻訳日:2023-05-12 15:11:48 公開日:2023-05-11
# 拡散モデルにおけるNull-text Guidanceは、秘かにカートゥーンスタイルのクリエーターである

Null-text Guidance in Diffusion Models is Secretly a Cartoon-style Creator ( http://arxiv.org/abs/2305.06710v1 )

ライセンス: Link先を確認
Jing Zhao, Heliang Zheng, Chaoyue Wang, Long Lan, Wanrong Huang, Wenjing Yang(参考訳) 分類器フリーガイダンスは拡散モデルにおいて有効なサンプリング手法であり、広く採用されている。 主な考え方は、モデルをテキストガイダンスの方向に外挿し、nullテキストガイダンスから遠ざかることである。 本稿では,拡散モデルにおけるヌルテキストガイダンスが秘かにマンガスタイルの作者であること,すなわち,ヌルテキストガイダンスを単純に摂動させることで,生成した画像を漫画に効率的に変換できることを実証する。 具体的には,2つの外乱手法,すなわちロールバック障害(Back-D)とイメージ障害(Image-D)を提案し,サンプリングプロセスにおいて,ヌルテキストガイダンスとテキストガイダンスの予測に使用されるノイズ画像と,それぞれ \textbf{null-text noisy image} と \textbf{text noisy image} とを一致させる。 Back-Dは、$x_t$を$x_{t+\Delta t}$に置き換えることで、null-textのノイズレベルを変更することで、漫画化を実現する。 Image-Dは、クリーンな入力画像として$x_t$を定義することにより、高忠実で多様な漫画を生成する。 包括的実験により, ノイズ乱れの原理を考察し, 乱れの有効性は, 雑音画像と音源画像との相関に依存することを明らかにした。 さらに,提案手法は,漫画画像を生成し,特定のものを漫画化することができるため,任意の分類子フリー誘導拡散モデルにおいて,プラグイン・アンド・プレイ・コンポーネントとして容易に統合できる。 プロジェクトページは \url{https://nulltextforcartoon.github.io/} で利用可能である。

Classifier-free guidance is an effective sampling technique in diffusion models that has been widely adopted. The main idea is to extrapolate the model in the direction of text guidance and away from null-text guidance. In this paper, we demonstrate that null-text guidance in diffusion models is secretly a cartoon-style creator, i.e., the generated images can be efficiently transformed into cartoons by simply perturbing the null-text guidance. Specifically, we proposed two disturbance methods, i.e., Rollback disturbance (Back-D) and Image disturbance (Image-D), to construct misalignment between the noisy images used for predicting null-text guidance and text guidance (subsequently referred to as \textbf{null-text noisy image} and \textbf{text noisy image} respectively) in the sampling process. Back-D achieves cartoonization by altering the noise level of null-text noisy image via replacing $x_t$ with $x_{t+\Delta t}$. Image-D, alternatively, produces high-fidelity, diverse cartoons by defining $x_t$ as a clean input image, which further improves the incorporation of finer image details. Through comprehensive experiments, we delved into the principle of noise disturbing for null-text and uncovered that the efficacy of disturbance depends on the correlation between the null-text noisy image and the source image. Moreover, our proposed techniques, which can generate cartoon images and cartoonize specific ones, are training-free and easily integrated as a plug-and-play component in any classifier-free guided diffusion model. Project page is available at \url{https://nulltextforcartoon.github.io/}.
翻訳日:2023-05-12 15:11:23 公開日:2023-05-11
# NUBO:ベイズ最適化のための透過的なPythonパッケージ

NUBO: A Transparent Python Package for Bayesian Optimisation ( http://arxiv.org/abs/2305.06709v1 )

ライセンス: Link先を確認
Mike Diessner, Kevin Wilson, Richard D. Whalley(参考訳) NUBO(ニューカッスル大学ベイズ最適化、英: Newcastle University Bayesian Optimisation)は、物理実験やコンピュータシミュレータなどの高価なブラックボックス関数の最適化のためのベイズ最適化フレームワークである。 ベイズ最適化 (Bayesian optimization) は、ガウス過程による代理モデリングを用いて目的関数と獲得関数を表現し、対象関数の大域的最適を近似するために候補点の選択を導くコスト効率のよい最適化戦略である。 NUBO自体は透明性とユーザエクスペリエンスを重視しており、ベイズ最適化をあらゆる分野の研究者が容易に利用できるようにしている。 クリーンで理解可能なコード、正確な参照、詳細なドキュメントは透明性を保証する一方で、ユーザエクスペリエンスはモジュール化されたフレキシブルな設計、書きやすい構文、ベイズ最適化アルゴリズムの慎重に選択によって保証される。 NUBOは、提供されたビルディングブロックを使用して最適化ループを自身で書くことで、ベイズ最適化を特定の問題に合わせることができる。 連続的な単一点、並列多点、および有界、制約付きおよび/または混合(離散および連続)パラメータ入力空間の非同期最適化をサポートする。 正常に動作するために広範囲にテストされ、検証されるアルゴリズムとメソッドのみがNUBOに含まれている。 これにより、パッケージがコンパクトで、不要な数のオプションでユーザを圧倒しないことが保証される。 パッケージはPythonで書かれているが、シミュレータと実験を最適化するためにPythonのエキスパート知識を必要としない。 NUBOはBSD 3-Clauseライセンスの下でオープンソースソフトウェアとして配布されている。

NUBO, short for Newcastle University Bayesian Optimisation, is a Bayesian optimisation framework for the optimisation of expensive-to-evaluate black-box functions, such as physical experiments and computer simulators. Bayesian optimisation is a cost-efficient optimisation strategy that uses surrogate modelling via Gaussian processes to represent an objective function and acquisition functions to guide the selection of candidate points to approximate the global optimum of the objective function. NUBO itself focuses on transparency and user experience to make Bayesian optimisation easily accessible to researchers from all disciplines. Clean and understandable code, precise references, and thorough documentation ensure transparency, while user experience is ensured by a modular and flexible design, easy-to-write syntax, and careful selection of Bayesian optimisation algorithms. NUBO allows users to tailor Bayesian optimisation to their specific problem by writing the optimisation loop themselves using the provided building blocks. It supports sequential single-point, parallel multi-point, and asynchronous optimisation of bounded, constrained, and/or mixed (discrete and continuous) parameter input spaces. Only algorithms and methods that are extensively tested and validated to perform well are included in NUBO. This ensures that the package remains compact and does not overwhelm the user with an unnecessarily large number of options. The package is written in Python but does not require expert knowledge of Python to optimise your simulators and experiments. NUBO is distributed as open-source software under the BSD 3-Clause licence.
翻訳日:2023-05-12 15:10:49 公開日:2023-05-11
# RIOHTrackに基づくアスファルト舗装のメタヒューリスティック最適化を用いたデータ駆動ラッティング深度短時間予測モデル

A data-driven rutting depth short-time prediction model with metaheuristic optimization for asphalt pavements based on RIOHTrack ( http://arxiv.org/abs/2305.06707v1 )

ライセンス: Link先を確認
Zhuoxuan Li, Iakov Korovin, Xinli Shi, Sergey Gorbachev, Nadezhda Gorbacheva, Wei Huang and Jinde Cao(参考訳) アスファルト舗装のラッティングは、様々な舗装設計ガイドにおいて重要な設計基準である。 優れた道路交通基地は、道路輸送における石油とガスの輸送の安全を提供することができる。 本研究では,アスファルト舗装のラッチング深さ,温度,荷重軸を主特性として推定するロバストな人工知能モデルの開発を試みた。 実験データは,北京の東州市にある全長2.038kmのフルスケール加速舗装試験場(RIOHTrack, Road Track Institute)上で,異なる原油源を有するアスファルト舗装19面から得られた。 また,複雑なネットワーク手法とコミュニティ検出のためのLouvainアルゴリズムを用いて,異なる舗装ラッティング深さの複雑なネットワークを構築することを提案する。 最も重要な構造要素は、異なるアスファルト舗装ラッティングデータから選択することができ、同様の構造要素が見つかる。 残差補正(relm)を持つ極限学習機械アルゴリズムを独立適応粒子群アルゴリズムを用いて設計・最適化する。 提案手法の実験結果は, 従来の機械学習アルゴリズムと比較し, 平均根平均正方形誤差, 平均平均平均絶対絶対値誤差, 19アスファルト舗装における平均平均絶対値パーセンテージ誤差をそれぞれ1.742, 1.363, 1.94\%とした。 実験により,llmアルゴリズムは,道路工学における非線形問題を扱う上で,古典的機械学習手法よりも優れていることが示された。 特に,本手法は,生産環境パラメータの認知分析を通じて,シミュレーション環境の異なる抽象化レベルへの適応を保証する。

Rutting of asphalt pavements is a crucial design criterion in various pavement design guides. A good road transportation base can provide security for the transportation of oil and gas in road transportation. This study attempts to develop a robust artificial intelligence model to estimate different asphalt pavements' rutting depth clips, temperature, and load axes as primary characteristics. The experiment data were obtained from 19 asphalt pavements with different crude oil sources on a 2.038 km long full-scale field accelerated pavement test track (RIOHTrack, Road Track Institute) in Tongzhou, Beijing. In addition, this paper also proposes to build complex networks with different pavement rutting depths through complex network methods and the Louvain algorithm for community detection. The most critical structural elements can be selected from different asphalt pavement rutting data, and similar structural elements can be found. An extreme learning machine algorithm with residual correction (RELM) is designed and optimized using an independent adaptive particle swarm algorithm. The experimental results of the proposed method are compared with several classical machine learning algorithms, with predictions of Average Root Mean Squared Error, Average Mean Absolute Error, and Average Mean Absolute Percentage Error for 19 asphalt pavements reaching 1.742, 1.363, and 1.94\% respectively. The experiments demonstrate that the RELM algorithm has an advantage over classical machine learning methods in dealing with non-linear problems in road engineering. Notably, the method ensures the adaptation of the simulated environment to different levels of abstraction through the cognitive analysis of the production environment parameters.
翻訳日:2023-05-12 15:10:21 公開日:2023-05-11
# アフリカにおけるコンピュータビジョン研究コミュニティのより良い理解に向けて

Towards a Better Understanding of the Computer Vision Research Community in Africa ( http://arxiv.org/abs/2305.06773v1 )

ライセンス: Link先を確認
Abdul-Hakeem Omotayo, Mai Gamal, Eman Ehab, Gbetondji Dovonon, Zainab Akinjobi, Ismaila Lukman, Houcemeddine Turki, Mahmod Abdien, Idriss Tondji, Abigail Oppong, Yvan Pimi, Karim Gamal, Ro'ya-CV4Africa, Mennatullah Siam(参考訳) コンピュータビジョンは、様々なタスク(オブジェクト検出、意味セグメンテーション、3d再構成など)を包含する幅広い研究分野である。 コンピュータビジョンは様々な応用においてアフリカのコミュニティと関係があるが、コンピュータビジョン研究は大陸で未調査であり、過去10年間でトップクラスの出版物の0.06%しか構築していない。 本稿では,アフリカにおけるコンピュータビジョン研究をより深く理解し,研究に株式が存在するか否かの指針を提供することを目標とする。 我々は、アフリカにおけるコンピュータビジョンの出版物に関する実証的な分析を通じてこれをおこなった。 まず、アフリカの機関がトップクラスのコンピュータビジョン会場で出版する機会について調査する。 ここ数年の上位層におけるアフリカの出版トレンドは、一貫した成長を見せていないことを示す。 我々はまた、アフリカ人作家のアフィリエイト・ヒストリーを通じて、上位階層の会場における貢献をよりよく理解する新しい方法も考案した。 さらに、アフリカ各地の上位層を超えるすべてのコンピュータビジョン出版物を調査し、主に北アフリカと南アフリカが85%以上のアフリカ出版物をコンピュータビジョンで出版していることを発見した。 最後に、コンピュータビジョンの出版物において最も繰り返されるキーワードを示す。 まとめると、アフリカの研究者はアフリカ研究の中心的な貢献者であるが、トップクラスの会場で公開するための複数の障壁が存在しており、大陸で発行されるトピックの現在の傾向は必ずしもコミュニティのニーズを反映しているとは限らない。 この研究は、アフリカにおけるコンピュータビジョン研究の改善に焦点を当てたコミュニティベースの取り組みの一部である。

Computer vision is a broad field of study that encompasses different tasks (e.g., object detection, semantic segmentation, 3D reconstruction). Although computer vision is relevant to the African communities in various applications, yet computer vision research is under-explored in the continent and constructs only 0.06% of top-tier publications in the last 10 years. In this paper, our goal is to have a better understanding of the computer vision research conducted in Africa and provide pointers on whether there is equity in research or not. We do this through an empirical analysis of the African computer vision publications that are Scopus indexed. We first study the opportunities available for African institutions to publish in top-tier computer vision venues. We show that African publishing trends in top-tier venues over the years do not exhibit consistent growth. We also devise a novel way to retrieve African authors through their affiliation history to have a better understanding of their contributions in top-tier venues. Moreover, we study all computer vision publications beyond top-tier venues in different African regions to find that mainly Northern and Southern Africa are publishing in computer vision with more than 85% of African publications. Finally, we present the most recurring keywords in computer vision publications. In summary, our analysis reveals that African researchers are key contributors to African research, yet there exists multiple barriers to publish in top-tier venues and the current trend of topics published in the continent might not necessarily reflect the communities' needs. This work is part of a community based effort that is focused on improving computer vision research in Africa.
翻訳日:2023-05-12 15:02:53 公開日:2023-05-11
# 1/2-BPS状態の一般支配順序付け

A generalized dominance ordering for 1/2-BPS states ( http://arxiv.org/abs/2305.06768v1 )

ライセンス: Link先を確認
Garreth Kemp(参考訳) 対称群 $S_{n}$ の既約表現に対する一般化された支配順序は、ある有限数のカシミール作用素が知られているとき、$U(N)$ 超ヤン・ミルズ理論の1/2-BPSセクターの対応する状態の区別を目的として議論する。 このセクタにおける情報損失のメカニズムとads$_{5}\times s^{5}$における双対重力理論としてカシミール作用素の制限集合に関する知識が提案されている。 このセクターの状態が$n$ボックスを持つヤング図式によってラベル付けられていることはよく知られている。 ヤング図形のよく知られた支配順序付けの一般化を提案する。 この一般化を用いて、1/2-bps状態と重力理論におけるそれらの双対の間の区別に必要なカシミール作用素の数の上界を決定する予想を仮定する。 この予想の数値的および解析的な証拠を提供する。 最後に、状態のエネルギー$n$が漸近的に大きいときに、この予想がもたらす意味について議論する。

We discuss a generalized dominance ordering for irreducible representations of the symmetric group $S_{n}$ with the aim of distinguishing the corresponding states in the 1/2-BPS sector of $U(N)$ Super Yang-Mills theory when a certain finite number of Casimir operators are known. Having knowledge of a restricted set of Casimir operators was proposed as a mechanism for information loss in this sector and its dual gravity theory in AdS$_{5}\times S^{5}$. It is well-known that the states in this sector are labeled by Young diagrams with $n$ boxes. We propose a generalization of the well-known dominance ordering of Young diagrams. Using this generalization, we posit a conjecture to determine an upper bound for the number of Casimir operators needed to distinguish between the 1/2-BPS states and thus also between their duals in the gravity theory. We offer numerical and analytic evidence for the conjecture. Lastly, we discuss implications of this conjecture when the energy $n$ of the states is asymptotically large.
翻訳日:2023-05-12 15:02:27 公開日:2023-05-11
# cockatiel: nlpタスクにおけるニューラルネット分類器の説明のための解釈可能な要素による帰属分類の連続概念

COCKATIEL: COntinuous Concept ranKed ATtribution with Interpretable ELements for explaining neural net classifiers on NLP tasks ( http://arxiv.org/abs/2305.06754v1 )

ライセンス: Link先を確認
Fanny Jourdan, Agustin Picard, Thomas Fel, Laurent Risser, Jean Michel Loubes, Nicholas Asher(参考訳) トランスフォーマーアーキテクチャは複雑で、NLPで使用されるが、多くの成功をおさめ、解釈可能性や説明性は困難である。 近年の議論では、注意地図と属性法は信頼できない(Pruthi et al., 2019; Brunner et al., 2019)。 本稿では,その制限のいくつかを紹介するとともに,そのいくつかをうまく解決したcockatielを紹介する。 cockatielは、nlp分類タスクでトレーニングされたニューラルネットモデルの最終層から、非負行列分解(non-negative matrix factorization:nmf)を使用して、モデルが予測に利用する概念を発見し、感度分析を利用してモデルに対する各概念の重要性を正確に推定することで、意味のある説明を生成する、新しい、概念ベース、モデル非依存のxaiテクニックである。 基礎となるモデルの精度を損なうことなく、新しいモデルをトレーニングする必要もない。 我々は,単一および多視点の感情分析タスクで実験を行い,コッカティエルが人間のトランスフォーマーモデルと協調する概念を何の監督もせずに発見する能力を示し,その説明の忠実性を忠実度メトリクスで客観的に検証し,2つの異なるデータセットで有意義な説明を提供する能力を示す。

Transformer architectures are complex and their use in NLP, while it has engendered many successes, makes their interpretability or explainability challenging. Recent debates have shown that attention maps and attribution methods are unreliable (Pruthi et al., 2019; Brunner et al., 2019). In this paper, we present some of their limitations and introduce COCKATIEL, which successfully addresses some of them. COCKATIEL is a novel, post-hoc, concept-based, model-agnostic XAI technique that generates meaningful explanations from the last layer of a neural net model trained on an NLP classification task by using Non-Negative Matrix Factorization (NMF) to discover the concepts the model leverages to make predictions and by exploiting a Sensitivity Analysis to estimate accurately the importance of each of these concepts for the model. It does so without compromising the accuracy of the underlying model or requiring a new one to be trained. We conduct experiments in single and multi-aspect sentiment analysis tasks and we show COCKATIEL's superior ability to discover concepts that align with humans' on Transformer models without any supervision, we objectively verify the faithfulness of its explanations through fidelity metrics, and we showcase its ability to provide meaningful explanations in two different datasets.
翻訳日:2023-05-12 15:02:06 公開日:2023-05-11
# 振動データセットの統計的特徴に対するクラスタリングアルゴリズムの比較

Comparison of Clustering Algorithms for Statistical Features of Vibration Data Sets ( http://arxiv.org/abs/2305.06753v1 )

ライセンス: Link先を確認
Philipp Sepin, Jana Kemnitz, Safoura Rezapour Lakani and Daniel Schall(参考訳) 広帯域の動的特徴を捉えることで、異なる条件を正確に識別する能力から、振動ベースの状態監視システムが注目を集めている。 しかしながら、振動データのクラスタリングアプローチに関する研究はほとんどなく、結果として得られるソリューションは単一のデータセットに最適化されることが多い。 本研究では,振動データセットの時間領域と周波数領域から抽出した統計的特徴に対して,クラスタリングアルゴリズムK平均クラスタリング,OPTICS,ガウス混合モデルクラスタリング(GMM)を広範囲に比較した。 さらに,特徴の組み合わせ,主成分分析(pca)を用いた特徴選択,クラスタ数がクラスタリングアルゴリズムの性能に与える影響について検討した。 この比較は3つの異なるベンチマークデータセットを用いてグリッド検索を行った。 以上の結果から,平均的機能(平均,中等度)と分散的特徴(標準偏差,等量範囲)は,形状的特徴(スキーネス,クルトーシス)よりも有意に優れていた。 さらに,これらのデータセットではK平均がGMMをわずかに上回り,OPTICSは有意に低下した。 また、PCAの機能選択と機能の組み合わせが大きなパフォーマンス改善をもたらすことはないことも示しました。 特定のクラスタ数の増加に伴い、クラスタリングアルゴリズムの性能は向上したが、アルゴリズム上の制限はいくつかあった。

Vibration-based condition monitoring systems are receiving increasing attention due to their ability to accurately identify different conditions by capturing dynamic features over a broad frequency range. However, there is little research on clustering approaches in vibration data and the resulting solutions are often optimized for a single data set. In this work, we present an extensive comparison of the clustering algorithms K-means clustering, OPTICS, and Gaussian mixture model clustering (GMM) applied to statistical features extracted from the time and frequency domains of vibration data sets. Furthermore, we investigate the influence of feature combinations, feature selection using principal component analysis (PCA), and the specified number of clusters on the performance of the clustering algorithms. We conducted this comparison in terms of a grid search using three different benchmark data sets. Our work showed that averaging (Mean, Median) and variance-based features (Standard Deviation, Interquartile Range) performed significantly better than shape-based features (Skewness, Kurtosis). In addition, K-means outperformed GMM slightly for these data sets, whereas OPTICS performed significantly worse. We were also able to show that feature combinations as well as PCA feature selection did not result in any significant performance improvements. With an increase in the specified number of clusters, clustering algorithms performed better, although there were some specific algorithmic restrictions.
翻訳日:2023-05-12 15:01:40 公開日:2023-05-11
# クルド語手話のための最初の並列コーパス

The First Parallel Corpora for Kurdish Sign Language ( http://arxiv.org/abs/2305.06747v1 )

ライセンス: Link先を確認
Zina Kamal and Hossein Hassani(参考訳) クルド語手話(クルド語:kusl)は、クルド人の自然言語である。 我々はクルド語とKuSLの自動翻訳に取り組んでいる。 手話は急速に進化し、話し言葉とは異なる文法規則に従う。 したがって、いかなる翻訳においても違いを考慮すべきである。 我々は,ソラニ方言におけるクルド語のアバターに基づく自動翻訳をクルド語手話に導入することを提案した。 我々は,統計的機械翻訳(SMT)エンジンの訓練に使用する,そのペアの最初の並列コーパスを開発した。 結果の理解性を検証し,バイリンガル評価アンダースタディ(BLEU)を用いて評価した。 結果は53.8%であった。 これまでの実験と比較すると、結果はかなり高い。 二つの対の構造が類似している理由を疑う。 我々は、Curdish-BLARK(https://kurdishblark.github.io/)のCC BY-NC-SA 4.0ライセンスで、リソースを一般公開する予定です。

Kurdish Sign Language (KuSL) is the natural language of the Kurdish Deaf people. We work on automatic translation between spoken Kurdish and KuSL. Sign languages evolve rapidly and follow grammatical rules that differ from spoken languages. Consequently,those differences should be considered during any translation. We proposed an avatar-based automatic translation of Kurdish texts in the Sorani (Central Kurdish) dialect into the Kurdish Sign language. We developed the first parallel corpora for that pair that we use to train a Statistical Machine Translation (SMT) engine. We tested the outcome understandability and evaluated it using the Bilingual Evaluation Understudy (BLEU). Results showed 53.8% accuracy. Compared to the previous experiments in the field, the result is considerably high. We suspect the reason to be the similarity between the structure of the two pairs. We plan to make the resources publicly available under CC BY-NC-SA 4.0 license on the Kurdish-BLARK (https://kurdishblark.github.io/).
翻訳日:2023-05-12 15:01:17 公開日:2023-05-11
# エネルギーベースニューラルネットワークの生成ダイナミクスに関する研究

Investigating the generative dynamics of energy-based neural networks ( http://arxiv.org/abs/2305.06745v1 )

ライセンス: Link先を確認
Lorenzo Tausani and Alberto Testolin and Marco Zorzi(参考訳) 生成ニューラルネットワークは、トレーニング分布の統計的特性に応じてデータサンプルを生成することができる。 この特徴は、脳活動が部分的にトップダウン生成処理によって支えられていることを示唆する現代の計算神経科学仮説をテストするために用いられる。 広く研究されている生成モデルのクラスはRestricted Boltzmann Machines (RBMs) であり、教師なしディープラーニングアーキテクチャのビルディングブロックとして使用できる。 本研究では,rbmsの生成ダイナミクスを体系的に検討し,トップダウンサンプリング中に訪問した状態の数を特徴付け,バイアスド隠れ状態から生成プロセスを開始することで,訪問客の異種性を高めることができるかを検討する。 手書き桁の古典的なデータセットに基づいて訓練されたRBMを考慮し、複数の桁の高レベルな視覚的特徴を符号化したキメラ状態からトップダウンサンプリングを開始することにより、多様なデータプロトタイプを作成する能力を高めることができることを示す。 また、このモデルでは1つの生成軌道内で可能な全ての数値状態間の遷移ができないことが分かり、トップダウンダイナミクスはエネルギー関数の形状によって強く制約されていることが示唆された。

Generative neural networks can produce data samples according to the statistical properties of their training distribution. This feature can be used to test modern computational neuroscience hypotheses suggesting that spontaneous brain activity is partially supported by top-down generative processing. A widely studied class of generative models is that of Restricted Boltzmann Machines (RBMs), which can be used as building blocks for unsupervised deep learning architectures. In this work, we systematically explore the generative dynamics of RBMs, characterizing the number of states visited during top-down sampling and investigating whether the heterogeneity of visited attractors could be increased by starting the generation process from biased hidden states. By considering an RBM trained on a classic dataset of handwritten digits, we show that the capacity to produce diverse data prototypes can be increased by initiating top-down sampling from chimera states, which encode high-level visual features of multiple digits. We also found that the model is not capable of transitioning between all possible digit states within a single generation trajectory, suggesting that the top-down dynamics is heavily constrained by the shape of the energy function.
翻訳日:2023-05-12 15:01:05 公開日:2023-05-11
# 線形および非線形重尾多腕バンディットのクリッピングによる暗黙的正規化予測器

Implicitly normalized forecaster with clipping for linear and non-linear heavy-tailed multi-armed bandits ( http://arxiv.org/abs/2305.06743v1 )

ライセンス: Link先を確認
Yuriy Dorn and Kornilov Nikita and Nikolay Kutuzov and Alexander Nazin and Eduard Gorbunov and Alexander Gasnikov(参考訳) 暗黙的正規化予測器(tsallisエントロピーをプロキシ関数とするオンラインミラー降下)は、逆マルチアームド問題(mab)の最適アルゴリズムとして知られている。 しかし、複雑さのほとんどは、制限付き報酬やその他の制限付き仮定に依存する。 近年, 対数的および確率的重み付きMAB設定に対して, 近縁なBest-of-both-worldsアルゴリズムが提案されている。 このアルゴリズムは両方の設定で最適であることが知られているが、完全にデータを活用できない。 本稿では,報酬に対する重み付き分布を持つMAB問題に対するクリッピングを用いたImplicitly Normalized Forecasterを提案する。 報酬分布の軽度仮定の下で収束結果を導出し,本手法が線形および非線形重み付き確率的mab問題に対して最適であることを示す。 また,2世界最高のアルゴリズムと比較して,アルゴリズムの性能がよいことを示す。

Implicitly Normalized Forecaster (online mirror descent with Tsallis entropy as prox-function) is known to be an optimal algorithm for adversarial multi-armed problems (MAB). However, most of the complexity results rely on bounded rewards or other restrictive assumptions. Recently closely related best-of-both-worlds algorithm were proposed for both adversarial and stochastic heavy-tailed MAB settings. This algorithm is known to be optimal in both settings, but fails to exploit data fully. In this paper, we propose Implicitly Normalized Forecaster with clipping for MAB problems with heavy-tailed distribution on rewards. We derive convergence results under mild assumptions on rewards distribution and show that the proposed method is optimal for both linear and non-linear heavy-tailed stochastic MAB problems. Also we show that algorithm usually performs better compared to best-of-two-worlds algorithm.
翻訳日:2023-05-12 15:00:46 公開日:2023-05-11
# IVP-VAE:初期値問題解を用いたEHR時系列モデリング

IVP-VAE: Modeling EHR Time Series with Initial Value Problem Solvers ( http://arxiv.org/abs/2305.06741v1 )

ライセンス: Link先を確認
Jingge Xiao, Leonie Basso, Wolfgang Nejdl, Niloy Ganguly, Sandipan Sikdar(参考訳) Neural ODEsやNeural Flowsのような連続した時間モデルでは、電子健康記録で頻繁に遭遇する不規則にサンプリングされた時系列を分析して有望な結果を示している。 これらのモデルに基づいて、時系列は通常、変分オートエンコーダアーキテクチャ内の初期値問題(ivp)ソルバと再帰ニューラルネットワークのハイブリッドで処理される。 IVPを逐次解くことで、そのようなモデルは計算効率が低下する。 本稿では,状態変化をivpsで直接近似できる連続プロセスを用いて,時系列をモデル化することを提案する。 これにより、反復計算が不要になり、複数の状態が並列に進化することが可能になる。 さらに、その可逆性に基づいて1つのippソルバにエンコーダとデコーダを結合することで、パラメータの削減と収束の高速化を実現します。 3つの実世界のデータセットの実験により、提案手法は、他の連続時間データセットよりも1桁以上のスピードアップを達成しつつ、同等の補間と分類性能を達成することが示された。

Continuous-time models such as Neural ODEs and Neural Flows have shown promising results in analyzing irregularly sampled time series frequently encountered in electronic health records. Based on these models, time series are typically processed with a hybrid of an initial value problem (IVP) solver and a recurrent neural network within the variational autoencoder architecture. Sequentially solving IVPs makes such models computationally less efficient. In this paper, we propose to model time series purely with continuous processes whose state evolution can be approximated directly by IVPs. This eliminates the need for recurrent computation and enables multiple states to evolve in parallel. We further fuse the encoder and decoder with one IVP solver based on its invertibility, which leads to fewer parameters and faster convergence. Experiments on three real-world datasets show that the proposed approach achieves comparable extrapolation and classification performance while gaining more than one order of magnitude speedup over other continuous-time counterparts.
翻訳日:2023-05-12 15:00:30 公開日:2023-05-11
# MRIにおける振り返り運動補正のための深層学習 : 総合的考察

Deep Learning for Retrospective Motion Correction in MRI: A Comprehensive Review ( http://arxiv.org/abs/2305.06739v1 )

ライセンス: Link先を確認
Veronika Spieker, Hannah Eichhorn, Kerstin Hammernik, Daniel Rueckert, Christine Preibisch, Dimitrios C. Karampinos and Julia A. Schnabel(参考訳) 運動はMRI(MRI)における大きな課題の1つである。 MR信号は周波数空間で取得されるので、撮像された物体の運動は、他のMRイメージングアーチファクトに加えて、再構成された画像の複雑なアーチファクトにつながる。 深層学習は再建過程のいくつかの段階で運動補正のために頻繁に提案されている。 mr取得シーケンス、解剖学、関心の病理、および運動パターン(リギッド対変形可能、ランダム対正則)の幅広い範囲は、包括的解決をあり得ない。 異なるアプリケーション間でのアイデアの伝達を容易にするため、このレビューでは、MRIにおける学習に基づく動き補正手法と、それらの共通の課題と可能性について概説する。 本稿では,基礎となるデータ利用,アーキテクチャ,評価戦略の違いと相乗効果について述べる。 我々は, 異なる応用分野と研究分野との相互作用を強化することを目的として, 一般動向と今後の方向性について批判的に議論する。

Motion represents one of the major challenges in magnetic resonance imaging (MRI). Since the MR signal is acquired in frequency space, any motion of the imaged object leads to complex artefacts in the reconstructed image in addition to other MR imaging artefacts. Deep learning has been frequently proposed for motion correction at several stages of the reconstruction process. The wide range of MR acquisition sequences, anatomies and pathologies of interest, and motion patterns (rigid vs. deformable and random vs. regular) makes a comprehensive solution unlikely. To facilitate the transfer of ideas between different applications, this review provides a detailed overview of proposed methods for learning-based motion correction in MRI together with their common challenges and potentials. This review identifies differences and synergies in underlying data usage, architectures and evaluation strategies. We critically discuss general trends and outline future directions, with the aim to enhance interaction between different application areas and research fields.
翻訳日:2023-05-12 15:00:14 公開日:2023-05-11
# 量子力学の別の基礎

An alternative foundation of quantum mechanics ( http://arxiv.org/abs/2305.06727v1 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 本稿では,量子論への新たなアプローチを提案する。 基本は概念変数であり、アクセス可能あるいはアクセス不能な物理変数、すなわちアクターがそれらに数値値を割り当てることは可能か不可能かである。 認識論的プロセスでは、アクセス可能な変数は、アクターまたは一部の通信アクターと接続された理想的な観察である。 群作用はこれらの変数上で定義され、群表現論はヒルベルト空間形式論の発展の基礎となる。 アクセス可能な概念変数に対応する演算子が導出され、離散の場合、可能な物理値はそれらの演算子の固有値であると主張する。 このアプローチによって示唆される量子状態(あるいは固有ベクトル空間)の解釈は、自然に焦点を絞った質問であり、これらの質問に対する鋭い答えである。 質問はボーアが定義した意味で補完的かもしれない。 論文の焦点は、量子論の基礎として提案されたものである。 ここで、このアプローチで必要とされる群と変換は、アクセス可能な変数が有限次元である場合に明示的に構成できることを示す。 これは理論をかなり単純化する。 量子力学の解釈に関する議論は、基礎問題の徹底的な処理の後に行われるべきだと私は考えています。 ここで提案される解釈は、量子論の一般的なエピステミック解釈と呼ばれる。 これはQB主義に類似しており、ローヴェルリのリレーショナル量子力学の側面の具体的な実装と見なすことができ、他のいくつかの解釈と関係がある。 量子状態ベクトルは、物理的に有意な作用素の固有ベクトルであるベクトルに限定されるべきである。 この結果が、いわゆる量子パラドックスのためにスケッチされる。

A new approach towards quantum theory is proposed in this paper. The basis is taken to be conceptual variables, physical variables that may be accessible or inaccessible, i.e., it may be possible or impossible for an actor to assign numerical values to them. In an epistemic process, the accessible variables are just ideal observations connected to an actor or to some communicating actors. Group actions are defined on these variables, and group representation theory is the basis for developing the Hilbert space formalism. Operators corresponding to accessible conceptual variables are derived, and in the discrete case it is argued that the possible physical values are the eigenvalues of these operators. The interpretation of quantum states (or eigenvector spaces) implied by this approach is as focused questions to nature together with sharp answers to those questions. The questions may be complementary in the sense defined by Bohr. The focus of the paper is the proposed foundation of quantum theory. It is shown here that the groups and transformation needed in this approach can be constructed explicitly in the case where the accessible variables are finite-dimensional. This simplifies the theory considerably. It is my view that the discussion on the interpretation of quantum mechanics should come after a thorough treatment of the foundation issue. The interpretation proposed here may be called a general epistemic interpretation of quantum theory. It is similar in some respects to QBism, can also be seen as a concrete implementation of aspects of Rovelli's Relational Quantum Mechanics, and has a relationship to several other interpretations. It is proposed that quantum state vectors should be limited to vectors that are eigenvectors of some physically meaningful operator. Consequences of this are sketched for some so-called quantum paradoxes.
翻訳日:2023-05-12 15:00:00 公開日:2023-05-11
# 定義に基づく表現学習を用いた臨床用語の慣用的表現の検出

Detecting Idiomatic Multiword Expressions in Clinical Terminology using Definition-Based Representation Learning ( http://arxiv.org/abs/2305.06801v1 )

ライセンス: Link先を確認
Fran\c{c}ois Remy, Alfiya Khabibullina, Thomas Demeester(参考訳) 本稿では,臨床用語における慣用的・半慣用的な多語表現(MWE)を検出するための定義ベースセマンティックモデルの可能性に光を当てる。 本研究は,UMLSオントロジーで定義された生物医学的実体に着目し,これらの実体の翻訳作業の優先順位付けを支援することを目的とする。 特に, バイオメディカルなMWEの慣用性を評価するための有効なツールを開発し, それらのMWEの意味表現と, それらの構成成分の表現の重み付け平均との類似度に基づいて評価する。 我々は、BioLORDと呼ばれるエンティティ名とその定義に類似した表現を生成するよう訓練されたバイオメディカル言語モデルを用いてこれを実現する。 この定義に基づくアプローチの重要性は、BioLORDモデルと、Transformer: SapBERT と CODER に基づく2つの最先端のバイオメディカル言語モデルを比較することで強調される。 以上の結果から,BioLORDモデルは他のモデルでは再現されず,慣用的なMWEを識別する能力が強いことが示唆された。 コーパスのない慣用性推定は、オントロジー翻訳者がより挑戦的なMWEに集中するのに役立ちます。

This paper shines a light on the potential of definition-based semantic models for detecting idiomatic and semi-idiomatic multiword expressions (MWEs) in clinical terminology. Our study focuses on biomedical entities defined in the UMLS ontology and aims to help prioritize the translation efforts of these entities. In particular, we develop an effective tool for scoring the idiomaticity of biomedical MWEs based on the degree of similarity between the semantic representations of those MWEs and a weighted average of the representation of their constituents. We achieve this using a biomedical language model trained to produce similar representations for entity names and their definitions, called BioLORD. The importance of this definition-based approach is highlighted by comparing the BioLORD model to two other state-of-the-art biomedical language models based on Transformer: SapBERT and CODER. Our results show that the BioLORD model has a strong ability to identify idiomatic MWEs, not replicated in other models. Our corpus-free idiomaticity estimation helps ontology translators to focus on more challenging MWEs.
翻訳日:2023-05-12 14:53:57 公開日:2023-05-11
# gcfagg: マルチビュークラスタリングのためのグローバルおよびクロスビュー機能アグリゲーション

GCFAgg: Global and Cross-view Feature Aggregation for Multi-view Clustering ( http://arxiv.org/abs/2305.06799v1 )

ライセンス: Link先を確認
Weiqing Yan, Yuanyang Zhang, Chenlei Lv, Chang Tang, Guanghui Yue, Liang Liao, Weisi Lin(参考訳) マルチビュークラスタリングは、教師なしの方法でコンセンサス表現を学習することで、データサンプルをカテゴリに分割することができ、近年ますます注目を集めている。 しかしながら、既存のディープクラスタリング手法の多くは、すべてのサンプルの構造関係を無視するビューアグリゲーションを通じて、複数のビューからコンセンサス表現やビュー固有の表現を学ぶ。 本稿では,GCFAggMVC (Global and Cross-view Feature Aggregation for Multi-View Clustering) と呼ばれる,これらの問題に対処する新しいマルチビュークラスタリングネットワークを提案する。 具体的には、複数のビューからのコンセンサスデータ提示は、クロスサンプルとクロスビューの特徴集約によって得られる。 さらに,コンセンサス表現とビュー固有表現を構造誘導型コントラスト学習モジュールによって調整し,高い構造関係を持つ異なるサンプルからのビュー固有表現を類似させる。 提案されたモジュールは柔軟なマルチビューデータ表現モジュールで、モジュールを他のフレームワークにプラグインすることで、不完全なマルチビューデータクラスタリングタスクにも組み込むことができます。 提案手法は,完全マルチビューデータクラスタリングタスクと不完全マルチビューデータクラスタリングタスクの両方において優れた性能を発揮することを示す。

Multi-view clustering can partition data samples into their categories by learning a consensus representation in unsupervised way and has received more and more attention in recent years. However, most existing deep clustering methods learn consensus representation or view-specific representations from multiple views via view-wise aggregation way, where they ignore structure relationship of all samples. In this paper, we propose a novel multi-view clustering network to address these problems, called Global and Cross-view Feature Aggregation for Multi-View Clustering (GCFAggMVC). Specifically, the consensus data presentation from multiple views is obtained via cross-sample and cross-view feature aggregation, which fully explores the complementary ofsimilar samples. Moreover, we align the consensus representation and the view-specific representation by the structure-guided contrastive learning module, which makes the view-specific representations from different samples with high structure relationship similar. The proposed module is a flexible multi-view data representation module, which can be also embedded to the incomplete multi-view data clustering task via plugging our module into other frameworks. Extensive experiments show that the proposed method achieves excellent performance in both complete multi-view data clustering tasks and incomplete multi-view data clustering tasks.
翻訳日:2023-05-12 14:53:38 公開日:2023-05-11
# データ駆動型政策リファインメントの理論的理解に向けて

Towards Theoretical Understanding of Data-Driven Policy Refinement ( http://arxiv.org/abs/2305.06796v1 )

ライセンス: Link先を確認
Ali Baheri(参考訳) 本稿では,安全クリティカルなアプリケーション用に特別に設計された強化学習におけるデータ駆動型政策改善手法を提案する。 本手法は,データ駆動最適化と強化学習の強みを活かし,反復的洗練による政策の安全性と最適性を高める。 我々の主な貢献は、このデータ駆動政策改善の概念の数学的定式化にある。 このフレームワークは、データ駆動検証中に現れる反例から学習することで、強化学習ポリシーを体系的に改善する。 さらに, 収束, 頑健性境界, 一般化誤差, モデルミスマッチに対するレジリエンスなど, 本手法の重要な理論特性を明らかにする一連の定理を提案する。 これらの結果は,方法論の有効性を検証するだけでなく,異なる環境やシナリオにおける行動のより深い理解にも寄与する。

This paper presents an approach for data-driven policy refinement in reinforcement learning, specifically designed for safety-critical applications. Our methodology leverages the strengths of data-driven optimization and reinforcement learning to enhance policy safety and optimality through iterative refinement. Our principal contribution lies in the mathematical formulation of this data-driven policy refinement concept. This framework systematically improves reinforcement learning policies by learning from counterexamples surfaced during data-driven verification. Furthermore, we present a series of theorems elucidating key theoretical properties of our approach, including convergence, robustness bounds, generalization error, and resilience to model mismatch. These results not only validate the effectiveness of our methodology but also contribute to a deeper understanding of its behavior in different environments and scenarios.
翻訳日:2023-05-12 14:53:14 公開日:2023-05-11
# 幾何学的観点からの量子回路ノイズ調整

Quantum Circuits Noise Tailoring from a Geometric Perspective ( http://arxiv.org/abs/2305.06795v1 )

ライセンス: Link先を確認
Junkai Zeng, Yong-Ju Hai, Hao Liang, Xiu-Hao Deng(参考訳) 雑音環境下の量子エラーは、量子情報技術の進歩にとって大きな障害である。 この問題に対する解決策には、パルスレベルでの堅牢な量子制御と、回路レベルでの誤り訂正や緩和技術が含まれる。 両レベルのノイズ処理を統一し,雑音のダイナミクスを理解し,誤差を低減する幾何学的手法を開発した。 幾何空間における誤差のランダムウォークを説明し、ランダムコンパイルによってコヒーレントノイズが確率的ポーリ誤差にどのように調整されるかを説明する。 ノイズパラメータの解析式を求め、量子制御技術が回路の忠実性をさらに向上させることを示す。 本手法の有効性を数値シミュレーションを用いて実証し,量子情報処理の進歩の可能性を示す。

Quantum errors subject to noisy environments remain a major obstacle to advancing quantum information technology. Solutions to this issue include robust quantum control at the pulse level and error correction or mitigation techniques at the circuit level. We develop a geometric method to unify the treatments of noises at both levels to understand noisy dynamics and reduce errors. We illustrate the error's random walk in the geometric space to explain how coherent noises are tailored into stochastic Pauli errors by randomized compiling. We obtain analytical formulas for the noise parameters and show how robust quantum control techniques can further improve circuit fidelity. We demonstrate the efficacy of our approach using numerical simulations, showcasing its potential for advancing quantum information processing.
翻訳日:2023-05-12 14:53:04 公開日:2023-05-11
# 3次元単一物体追跡のためのマルチモーダルマルチレベル融合

Multi-modal Multi-level Fusion for 3D Single Object Tracking ( http://arxiv.org/abs/2305.06794v1 )

ライセンス: Link先を確認
Zhiheng Li, Yubo Cui, Zuoxu Gu, Zheng Fang(参考訳) 3Dオブジェクト追跡はコンピュータビジョンにおいて重要な役割を果たす。 主ストリーム法は主に点雲に頼り、ターゲットテンプレートと探索領域間の幾何マッチングを実現する。 しかし、テクスチャレスで不完全な点雲は、単一モードトラッカーが類似した構造を持つ物体を区別することが困難である。 幾何マッチングの限界を克服するために,3次元目標追跡のための点雲の画像テクスチャと幾何学特性を利用するマルチモーダルマルチレベルフュージョントラッカー (MMF-Track) を提案する。 具体的には,まず,rgb画像を3次元空間内の点雲にアライメントするための空間アライメントモジュール(sam)を提案する。 そして,2重ストリーム構造に基づく特徴間相互作用モジュール(FIM)を設計し,並列にモーダル内特徴を拡張し,モーダル間セマンティックアソシエーションを構築する。 一方,各形態的特徴を洗練するために,異なるスケールで階層的特徴的相互作用を実現する粗粒間相互作用モジュール (cfim) を導入する。 最後に、類似度融合レベルでは、ターゲットから幾何学とテクスチャの手がかりを集約する類似度融合モジュール(sfm)を提案する。 実験により,本手法はKITTIの最先端性能(39%成功,42%精度向上)を達成し,NuScenesと競合することを示した。

3D single object tracking plays a crucial role in computer vision. Mainstream methods mainly rely on point clouds to achieve geometry matching between target template and search area. However, textureless and incomplete point clouds make it difficult for single-modal trackers to distinguish objects with similar structures. To overcome the limitations of geometry matching, we propose a Multi-modal Multi-level Fusion Tracker (MMF-Track), which exploits the image texture and geometry characteristic of point clouds to track 3D target. Specifically, we first propose a Space Alignment Module (SAM) to align RGB images with point clouds in 3D space, which is the prerequisite for constructing inter-modal associations. Then, in feature interaction level, we design a Feature Interaction Module (FIM) based on dual-stream structure, which enhances intra-modal features in parallel and constructs inter-modal semantic associations. Meanwhile, in order to refine each modal feature, we introduce a Coarse-to-Fine Interaction Module (CFIM) to realize the hierarchical feature interaction at different scales. Finally, in similarity fusion level, we propose a Similarity Fusion Module (SFM) to aggregate geometry and texture clues from the target. Experiments show that our method achieves state-of-the-art performance on KITTI (39% Success and 42% Precision gains against previous multi-modal method) and is also competitive on NuScenes.
翻訳日:2023-05-12 14:52:52 公開日:2023-05-11
# 治療効果推定のためのニューラルネットワークモデルにおける近接近傍の統合

Integrating nearest neighbors on neural network models for treatment effect estimation ( http://arxiv.org/abs/2305.06789v1 )

ライセンス: Link先を確認
Niki Kiriakidou and Christos Diou(参考訳) 治療効果の推定は、多くの科学・工業分野の研究者と実践者の両方にとって重要である。 観測データの豊富さは、研究者によって因果効果の推定にますます使われてきた。 しかし、これらのデータはいくつかの弱点からバイアスに悩まされ、適切に扱わなければ不正確な因果効果を推定する。 そのため、ニューラルネットワークモデルの予測能力を活用して因果効果をより正確に推定することに注力する機械学習技術が提案されている。 そこで本研究では,ニューラルネットワークを用いた治療効果推定モデルにおいて,最も有用な近接情報の統合手法であるNearest Neighboring Information for Causal Inference (NNCI)を提案する。 NNCI法は、観測データを用いた治療効果推定のために、最も確立されたニューラルネットワークベースモデルの一部に適用される。 数値実験と解析は、NNCIと最先端のニューラルネットワークモデルとの統合が、様々なよく知られた挑戦的ベンチマークに対する治療効果推定を著しく改善する、経験的および統計的証拠を提供する。

Treatment effect estimation is of high-importance for both researchers and practitioners across many scientific and industrial domains. The abundance of observational data makes them increasingly used by researchers for the estimation of causal effects. However, these data suffer from biases, from several weaknesses, leading to inaccurate causal effect estimations, if not handled properly. Therefore, several machine learning techniques have been proposed, most of them focusing on leveraging the predictive power of neural network models to attain more precise estimation of causal effects. In this work, we propose a new methodology, named Nearest Neighboring Information for Causal Inference (NNCI), for integrating valuable nearest neighboring information on neural network-based models for estimating treatment effects. The proposed NNCI methodology is applied to some of the most well established neural network-based models for treatment effect estimation with the use of observational data. Numerical experiments and analysis provide empirical and statistical evidence that the integration of NNCI with state-of-the-art neural network models leads to considerably improved treatment effect estimations on a variety of well-known challenging benchmarks.
翻訳日:2023-05-12 14:52:28 公開日:2023-05-11
# ReMark:ディープネットワークを用いた受容場に基づく空間水マーク埋め込み最適化

ReMark: Receptive Field based Spatial WaterMark Embedding Optimization using Deep Network ( http://arxiv.org/abs/2305.06786v1 )

ライセンス: Link先を確認
Natan Semyonov, Rami Puzis, Asaf Shabtai, Gilad Katz(参考訳) ウォーターマーキングはデジタルメディアにとって最も重要な著作権保護ツールの1つである。 最も難しいウォーターマーキングのタイプは、データに識別情報を埋め込み、後者の本来の品質を保ちながら、知覚できないものである。 その目的を達成するために、ウォーターマークは、その完全性を損なうことを目標とする様々な歪みに耐える必要がある。 本研究では,知覚不能な透かしを埋め込むための,新しい深層学習に基づくアーキテクチャについて検討する。 アーキテクチャ設計を導く重要な洞察は、透かしの次元とアーキテクチャのモジュールの受容的フィールド(RF)のサイズを関連付ける必要があることである。 この適応により、透かしがより堅牢になり、画像の品質をより良く維持できるようになります。 様々な歪みに対する広範囲な評価により, 提案手法は, 衝突歪みを含む透かしの最も一般的な歪みに対して頑健であることが示された。

Watermarking is one of the most important copyright protection tools for digital media. The most challenging type of watermarking is the imperceptible one, which embeds identifying information in the data while retaining the latter's original quality. To fulfill its purpose, watermarks need to withstand various distortions whose goal is to damage their integrity. In this study, we investigate a novel deep learning-based architecture for embedding imperceptible watermarks. The key insight guiding our architecture design is the need to correlate the dimensions of our watermarks with the sizes of receptive fields (RF) of modules of our architecture. This adaptation makes our watermarks more robust, while also enabling us to generate them in a way that better maintains image quality. Extensive evaluations on a wide variety of distortions show that the proposed method is robust against most common distortions on watermarks including collusive distortion.
翻訳日:2023-05-12 14:52:11 公開日:2023-05-11
# オークションベースフェデレーション学習におけるデータ消費者の実用性最大化入札戦略

Utility-Maximizing Bidding Strategy for Data Consumers in Auction-based Federated Learning ( http://arxiv.org/abs/2305.06784v1 )

ライセンス: Link先を確認
Xiaoli Tang, Han Yu(参考訳) オークションベースのフェデレートラーニング(Federated Learning, AFL)は、データ所有者が経済的手段でFLに参加する動機付け能力によって、幅広い研究の関心を集めている。 既存の研究は、1つのデータ消費者と複数のデータ所有者だけがAFL市場(すなわち独占市場)に存在すると仮定している。 そのため、データ所有者はflのデータ消費者に加入する。 しかし、この仮定は、複数のデータ消費者が各FLタスクに参加するためにデータ所有者を引き付けるために競争できる現実的なAFLマーケットプレースでは現実的ではない。 本稿では,このギャップを,フェデレートラーニング(Fed-Bidder)におけるデータ消費者のための実用性最優先入札戦略を提案することによって埋める。 複数のflデータ消費者がaflを介して効率的に、効率的にデータ所有者と競うことができる。 6つの一般的なベンチマークデータセットに基づく大規模な実験により、Fed-Bidderは4つの最先端のアプローチに比べてはるかに有利であることが示されている。

Auction-based Federated Learning (AFL) has attracted extensive research interest due to its ability to motivate data owners to join FL through economic means. Existing works assume that only one data consumer and multiple data owners exist in an AFL marketplace (i.e., a monopoly market). Therefore, data owners bid to join the data consumer for FL. However, this assumption is not realistic in practical AFL marketplaces in which multiple data consumers can compete to attract data owners to join their respective FL tasks. In this paper, we bridge this gap by proposing a first-of-its-kind utility-maximizing bidding strategy for data consumers in federated learning (Fed-Bidder). It enables multiple FL data consumers to compete for data owners via AFL effectively and efficiently by providing with utility estimation capabilities which can accommodate diverse forms of winning functions, each reflecting different market dynamics. Extensive experiments based on six commonly adopted benchmark datasets show that Fed-Bidder is significantly more advantageous compared to four state-of-the-art approaches.
翻訳日:2023-05-12 14:51:57 公開日:2023-05-11
# EPRテンソルの主軸系の存在と曖昧性

The existence and unambiguity of the principal axis system of the EPR tensors ( http://arxiv.org/abs/2305.06778v1 )

ライセンス: Link先を確認
Stanislav Komorovsky(参考訳) 電子常磁性共鳴(EPR) g-テンソルと超微細カップリングテンソルの役割は、多くの教科書で広く議論されているが、理論の特定の側面は欠落している。 このテキストでは、これらのギャップをカバーし、したがって、EPRテンソルの主軸の存在に関する包括的な理論を提供する。 しかし、重要な観察は、g-とa-テンソルの両方が2つの主軸(実数と虚数スピン空間の1つ)を持ち、実際はテンソルではないことである。 さらに、g-テンソルの固有値である$\mb{g} = \mb{g}\mb{g}^{\! \mathsf{T}}$, and the sign of the determinant of the g-tensor are observable quantity (a analogical situation hold for the hyperfine coupling tensor)。 仮定の数を最小に保ち、従って理論はディラック=クーロン=ブレット・ハミルトニアン(dirac--coulomb--breit hamiltonian)の枠組みとシステムの任意の空間対称性に適用できる。

Although the role of the electron paramagnetic resonance (EPR) g-tensor and hyperfine coupling tensor in the EPR effective spin Hamiltonian is discussed extensively in many textbooks, certain aspects of the theory are missing. In this text we will cover those gaps and thus provide a comprehensive theory about the existence of principal axes of the EPR tensors. However, an important observation is that both g- and a-tensors have two sets of principal axes -- one in the real and one in the fictitious spin space -- and, in fact, are not tensors. Moreover, we present arguments based on the group theory why only eigenvalues of the G-tensor, $\mb{G} = \mb{g}\mb{g}^{\!\mathsf{T}}$, and the sign of the determinant of the g-tensor are observable quantities (an analogical situation also holds for the hyperfine coupling tensor). We keep the number of assumptions to a minimum and thus the theory is applicable in the framework of the Dirac--Coulomb--Breit Hamiltonian and for any spatial symmetry of the system.
翻訳日:2023-05-12 14:51:34 公開日:2023-05-11
# 適応データ取得による高品質3DMPCの生成とNeREFに基づく反射率補正による植物表現の効率化

Generating high-quality 3DMPCs by adaptive data acquisition and NeREF-based reflectance correction to facilitate efficient plant phenotyping ( http://arxiv.org/abs/2305.06777v1 )

ライセンス: Link先を確認
Pengyao Xie, Zhihong Ma, Ruiming Du, Mengqi Lv, Yutao Shen, Xuqi Lu, Jiangpeng Zhu, Haiyan Cen(参考訳) 高品質な3次元3次元データとマルチスペクトルデータを用いた植物形質特性の非破壊評価は、育種者の植物成長に対する理解を深め、情報的管理決定を可能にする。 しかし,自然光条件下での主観的視点選択と複雑な照明効果により,データ品質が低下し,表現型パラメータの解消が困難になる。 本研究では,高画質の3次元マルチスペクトル点雲(DMPC)を生成するための適応データ取得法と反射率補正法を提案する。 第1段階では,マルチセンサ搭載ロボットアームを用いた新しいUGVプラットフォームに基づく,効率的な次世代ビュー(NBV)計画手法を提案した。 第2段階では,ニューラル基準場(NeREF)を用いて参照のディジタル数(DN)を予測することにより照明効果を除去した。 植物6種とトマト6種で試験を行い,各植物に可視葉2種と関心領域4種(rois)を選抜し,バイオマスおよびクロロフィル含量を測定した。 NBV計画では, 単根とトマトの1.55 rad/sでの平均実行時間は58.70 sと53.60 sであった。 プラント全体のデータ完全性は, 固定視点のみを用いた場合と比較して平均27%向上し, 葉バイオマスの推定係数 (r2) は0.99, 0.92であった。 反射率補正では,半球基準に基づく異なるroisでの反射率スペクトルの平均根平均二乗誤差は0.08,0.07であった。 クロロフィル含量推定のR2は主成分分析とガウス過程回帰を適用した場合それぞれ0.91と0.93であった。 本手法は, 自然光条件下での高品質な3DMPCの生成と, 植物表現の精度向上に有効である。

Non-destructive assessments of plant phenotypic traits using high-quality three-dimensional (3D) and multispectral data can deepen breeders' understanding of plant growth and allow them to make informed managerial decisions. However, subjective viewpoint selection and complex illumination effects under natural light conditions decrease the data quality and increase the difficulty of resolving phenotypic parameters. We proposed methods for adaptive data acquisition and reflectance correction respectively, to generate high-quality 3D multispectral point clouds (3DMPCs) of plants. In the first stage, we proposed an efficient next-best-view (NBV) planning method based on a novel UGV platform with a multi-sensor-equipped robotic arm. In the second stage, we eliminated the illumination effects by using the neural reference field (NeREF) to predict the digital number (DN) of the reference. We tested them on 6 perilla and 6 tomato plants, and selected 2 visible leaves and 4 regions of interest (ROIs) for each plant to assess the biomass and the chlorophyll content. For NBV planning, the average execution time for single perilla and tomato plant at a joint speed of 1.55 rad/s was 58.70 s and 53.60 s respectively. The whole-plant data integrity was improved by an average of 27% compared to using fixed viewpoints alone, and the coefficients of determination (R2) for leaf biomass estimation reached 0.99 and 0.92. For reflectance correction, the average root mean squared error of the reflectance spectra with hemisphere reference-based correction at different ROIs was 0.08 and 0.07 for perilla and tomato. The R2 of chlorophyll content estimation was 0.91 and 0.93 respectively when principal component analysis and Gaussian process regression were applied. Our approach is promising for generating high-quality 3DMPCs of plants under natural light conditions and facilitates accurate plant phenotyping.
翻訳日:2023-05-12 14:51:14 公開日:2023-05-11
# DeepSTEP -- ディープラーニングによる自動車の時空間知覚

DeepSTEP -- Deep Learning-Based Spatio-Temporal End-To-End Perception for Autonomous Vehicles ( http://arxiv.org/abs/2305.06820v1 )

ライセンス: Link先を確認
Sebastian Huch, Florian Sauerbeck, Johannes Betz(参考訳) 自動運転車は認識アルゴリズムの精度と堅牢性を要求する。 効率的でスケーラブルな知覚アルゴリズムを開発するためには,センサデータから最大限の情報を抽出する必要がある。 本研究では,DeepSTEPというエンド・ツー・エンドの知覚アーキテクチャの概念を提示する。 ディープラーニングベースのアーキテクチャは、カメラ、LiDAR、RaDARからの生センサデータを処理し、抽出したデータを深層融合ネットワークに結合する。 この深層融合ネットワークの出力は共有特徴空間であり、物体検出や局所マッピングなどの知覚的タスクを達成するために知覚ヘッドネットワークによって使用される。 ひとつは、検出とローカライズをひとつのパイプラインに組み合わせることで、効率的な処理によって計算オーバーヘッドが削減され、全体的なパフォーマンスがさらに向上します。 第二に、アーキテクチャは最も重要な機能に焦点を当てたセルフアテンションメカニズムを使用することで、時間領域を活用する。 我々は,DeepSTEPの概念がエンド・ツー・エンドの知覚システムの開発を促進すると考えている。 ネットワークは当社の研究車両にデプロイされ、データ収集、実世界のテスト、バリデーションのプラットフォームとして使用される予定です。 結論として、DeepSTEPは自動運転車に対する認識の分野で大きな進歩を示している。 アーキテクチャのエンドツーエンド設計、タイムアウェアなアテンション機構、複数の知覚タスクの統合は、現実のデプロイメントにとって有望なソリューションになります。 この研究は進行中の研究であり、新しい知覚パイプラインを確立する最初の概念を提示している。

Autonomous vehicles demand high accuracy and robustness of perception algorithms. To develop efficient and scalable perception algorithms, the maximum information should be extracted from the available sensor data. In this work, we present our concept for an end-to-end perception architecture, named DeepSTEP. The deep learning-based architecture processes raw sensor data from the camera, LiDAR, and RaDAR, and combines the extracted data in a deep fusion network. The output of this deep fusion network is a shared feature space, which is used by perception head networks to fulfill several perception tasks, such as object detection or local mapping. DeepSTEP incorporates multiple ideas to advance state of the art: First, combining detection and localization into a single pipeline allows for efficient processing to reduce computational overhead and further improves overall performance. Second, the architecture leverages the temporal domain by using a self-attention mechanism that focuses on the most important features. We believe that our concept of DeepSTEP will advance the development of end-to-end perception systems. The network will be deployed on our research vehicle, which will be used as a platform for data collection, real-world testing, and validation. In conclusion, DeepSTEP represents a significant advancement in the field of perception for autonomous vehicles. The architecture's end-to-end design, time-aware attention mechanism, and integration of multiple perception tasks make it a promising solution for real-world deployment. This research is a work in progress and presents the first concept of establishing a novel perception pipeline.
翻訳日:2023-05-12 14:43:28 公開日:2023-05-11
# 連続型でゲームをシェリングする

Schelling Games with Continuous Types ( http://arxiv.org/abs/2305.06819v1 )

ライセンス: Link先を確認
Davide Bil\`o, Vittorio Bil\`o, Michelle D\"oring, Pascal Lenzner, Louise Molitor, Jonas Schmidt(参考訳) ほとんどの主要都市や都市部では、住民は民族や社会経済の線に沿って均質な地区を形成している。 この現象は住宅隔離として広く知られ、広く研究されている。 50年前、Schelling氏はエレガントなエージェントベースの方法で住宅分離を説明するランドマークモデルを提案した。 最近の論文のストリームは、ゲーム理論的アプローチを用いてシェリングのモデルを解析した。 しかしながら、これらの研究はすべて、異なる民族群をモデル化する特定の数の離散型を持つモデルを考慮したものである。 我々は、政治的左翼スペクトルにおける家計収入や地位などの非分類的属性による差別に焦点を当てる。 そこで本研究では,実数として表現できるエージェント型について考察する。 これにより、様々な合理的モデルが開かれ、概念実証として、いくつかの自然候補に焦点を当てる。 特に,隣人に対する平均型差や最大型差で位置を評価するエージェントや,隣接するエージェントの型差に対して一定の許容範囲を持つエージェントについて検討する。 平衡の存在と計算を考察し、無政府性と安定性の価格の限界を与える。 また,我々のモデルと比較し,得られた変種に対する平衡値に光を流すシミュレーション結果を示す。

In most major cities and urban areas, residents form homogeneous neighborhoods along ethnic or socioeconomic lines. This phenomenon is widely known as residential segregation and has been studied extensively. Fifty years ago, Schelling proposed a landmark model that explains residential segregation in an elegant agent-based way. A recent stream of papers analyzed Schelling's model using game-theoretic approaches. However, all these works considered models with a given number of discrete types modeling different ethnic groups. We focus on segregation caused by non-categorical attributes, such as household income or position in a political left-right spectrum. For this, we consider agent types that can be represented as real numbers. This opens up a great variety of reasonable models and, as a proof of concept, we focus on several natural candidates. In particular, we consider agents that evaluate their location by the average type-difference or the maximum type-difference to their neighbors, or by having a certain tolerance range for type-values of neighboring agents. We study the existence and computation of equilibria and provide bounds on the Price of Anarchy and Stability. Also, we present simulation results that compare our models and shed light on the obtained equilibria for our variants.
翻訳日:2023-05-12 14:43:05 公開日:2023-05-11
# サスペンスの計算解析に向けて:危険状況の検出

Towards a Computational Analysis of Suspense: Detecting Dangerous Situations ( http://arxiv.org/abs/2305.06818v1 )

ライセンス: Link先を確認
Albin Zehe, Julian Schr\"oter, Andreas Hotho(参考訳) Suspenseはストーリーテリングにおいて、読者がもっと読みたいと思うようにするための重要なツールである。 しかし、現在まで計算文学研究において広く研究されていない。 本稿では,著者がサスペンスを構築するのに使用可能な要素の1つ,すなわち危険な状況に焦点を当てる。 7種類の危険を区別した危険な状況に注釈付きテキストのコーパスを導入する。 さらに、危険の有無にかかわらず、キャラクターが経験した恐怖を記述したテキストの一部に注釈を付ける。 そこで本研究では,これらの状況を自動的に検出する実験を行い,教師なしのベースライン手法が検出に有用な信号を提供できることを発見した。 意外なことではないが、危険と恐怖の記述は、しばしばローカルな状況(例えば、危険は言及されていないが実際には存在しない状況)とグローバルな状況(例えば、冒険小説では文字通りの意味で使用されるが、ロマンス小説では比喩的に)に大きく依存している。

Suspense is an important tool in storytelling to keep readers engaged and wanting to read more. However, it has so far not been studied extensively in Computational Literary Studies. In this paper, we focus on one of the elements authors can use to build up suspense: dangerous situations. We introduce a corpus of texts annotated with dangerous situations, distinguishing between 7 types of danger. Additionally, we annotate parts of the text that describe fear experienced by a character, regardless of the actual presence of danger. We present experiments towards the automatic detection of these situations, finding that unsupervised baseline methods can provide valuable signals for the detection, but more complex methods are necessary for further analysis. Not unexpectedly, the description of danger and fear often relies heavily on the context, both local (e.g., situations where danger is only mentioned, but not actually present) and global (e.g., "storm" being used in a literal sense in an adventure novel, but metaphorically in a romance novel).
翻訳日:2023-05-12 14:42:50 公開日:2023-05-11
# thuir@coliee 2023: 訴訟に関するさらなるパラメータと法的知識

THUIR@COLIEE 2023: More Parameters and Legal Knowledge for Legal Case Entailment ( http://arxiv.org/abs/2305.06817v1 )

ライセンス: Link先を確認
Haitao Li, Changyue Wang, Weihang Su, Yueyue Wu, Qingyao Ai, Yiqun Liu(参考訳) 本稿は, COLIEE 2023 Legal Case Entailment TaskにおけるTHUIRチームのアプローチについて述べる。 このタスクでは、参加者は、クエリケースの決定を伴う所定のサポートケースから特定の段落を識別する必要があります。 従来の語彙マッチング手法と異なる大きさの事前学習言語モデルを試す。 さらに,性能向上のために,学習からランクまでの手法が用いられている。 しかし、このタスクでは学習とランクはそれほど堅牢ではない。 応答経路は情報検索技術で簡単には決定できないことを示唆している。 実験の結果, より多くのパラメータと法的知識が, 訴訟処理に寄与していることがわかった。 最後に、COLIEE 2023で3位になった。 本手法の実装はhttps://github.com/CSHaitao/THUIR-COLIEE2023で確認できる。

This paper describes the approach of the THUIR team at the COLIEE 2023 Legal Case Entailment task. This task requires the participant to identify a specific paragraph from a given supporting case that entails the decision for the query case. We try traditional lexical matching methods and pre-trained language models with different sizes. Furthermore, learning-to-rank methods are employed to further improve performance. However, learning-to-rank is not very robust on this task. which suggests that answer passages cannot simply be determined with information retrieval techniques. Experimental results show that more parameters and legal knowledge contribute to the legal case entailment task. Finally, we get the third place in COLIEE 2023. The implementation of our method can be found at https://github.com/CSHaitao/THUIR-COLIEE2023.
翻訳日:2023-05-12 14:42:31 公開日:2023-05-11
# 拡散モデルを用いた構造的リアル網膜基底画像の生成

Generation of Structurally Realistic Retinal Fundus Images with Diffusion Models ( http://arxiv.org/abs/2305.06813v1 )

ライセンス: Link先を確認
Sojung Go, Younghoon Ji, Sang Jun Park, Soochahn Lee(参考訳) 拡散モデルを用いて解剖学的に正確な血管構造を有する網膜底画像を生成する新しい手法を提案する。 血管構造を創出するために動脈/静脈マスクを生成し,網膜底部画像を作成することを条件とした。 提案手法は,より現実的な血管構造を持つ高品質画像を生成することができ,拡散モデルの強みに基づいて多様な画像を生成することができる。 血管の分節と動脈・静脈の分類におけるデータ拡張法を用いて, 性能改善を示す定量的評価を行う。 また, 臨床専門家によるチューリング試験の結果から, 生成した画像は実際の画像と区別が難しいことが示された。 患者プライバシとは無関係なスタンドアロンデータセット構築に本手法を適用することができると考えている。

We introduce a new technique for generating retinal fundus images that have anatomically accurate vascular structures, using diffusion models. We generate artery/vein masks to create the vascular structure, which we then condition to produce retinal fundus images. The proposed method can generate high-quality images with more realistic vascular structures and can create a diverse range of images based on the strengths of the diffusion model. We present quantitative evaluations that demonstrate the performance improvement using our method for data augmentation on vessel segmentation and artery/vein classification. We also present Turing test results by clinical experts, showing that our generated images are difficult to distinguish with real images. We believe that our method can be applied to construct stand-alone datasets that are irrelevant of patient privacy.
翻訳日:2023-05-12 14:42:22 公開日:2023-05-11
# THUIR@COLIEE 2023: 判例検索のための事前学習言語モデルに構造知識を組み込む

THUIR@COLIEE 2023: Incorporating Structural Knowledge into Pre-trained Language Models for Legal Case Retrieval ( http://arxiv.org/abs/2305.06812v1 )

ライセンス: Link先を確認
Haitao Li, Weihang Su, Changyue Wang, Yueyue Wu, Qingyao Ai, Yiqun Liu(参考訳) 判例検索技術は、現代のインテリジェントな法的システムにおいて重要な役割を果たす。 毎年有名な国際競争として、COLIEEは法律テキストの最先端検索モデルの実現を目指している。 本稿では,COLIEE 2023におけるチャンピオンシップチームTHUIRのアプローチを要約する。 具体的には,訴訟の理解を深めるために,構造化された事前学習言語モデルを設計する。 さらに,無関係メッセージの影響を低減するため,ヒューリスティックな前処理および後処理手法を提案する。 最終的に、異なる次元の機能をマージするために、学習とランクの手法が使用される。 実験の結果,提案の優位性を示した。 公式の結果は、私たちの実行がすべての投稿の中で最高のパフォーマンスを示している。 本手法の実装はhttps://github.com/CSHaitao/THUIR-COLIEE2023で確認できる。

Legal case retrieval techniques play an essential role in modern intelligent legal systems. As an annually well-known international competition, COLIEE is aiming to achieve the state-of-the-art retrieval model for legal texts. This paper summarizes the approach of the championship team THUIR in COLIEE 2023. To be specific, we design structure-aware pre-trained language models to enhance the understanding of legal cases. Furthermore, we propose heuristic pre-processing and post-processing approaches to reduce the influence of irrelevant messages. In the end, learning-to-rank methods are employed to merge features with different dimensions. Experimental results demonstrate the superiority of our proposal. Official results show that our run has the best performance among all submissions. The implementation of our method can be found at https://github.com/CSHaitao/THUIR-COLIEE2023.
翻訳日:2023-05-12 14:42:08 公開日:2023-05-11
# collection space navigator: 多次元データセットのためのインタラクティブな可視化インタフェース

Collection Space Navigator: An Interactive Visualization Interface for Multidimensional Datasets ( http://arxiv.org/abs/2305.06809v1 )

ライセンス: Link先を確認
Tillmann Ohm, Mar Canet Sol\`a, Andres Karjus, Maximilian Schich(参考訳) 本稿では,ベクトル埋め込みやメタデータのテーブルなどの多次元データに関連する視覚的デジタルアーティファクトの大規模なコレクションを探索し,研究し,キュレートするブラウザベースの可視化ツールであるコレクションスペースナビゲータ(CSN)を紹介する。 画像などのメディアオブジェクトは、例えばメタデータや機械学習を使って画像情報を埋め込むなど、数値ベクトルとして符号化されることが多い。 しかし、このような手続きは様々な用途に応用できるが、より包括的に多次元空間を探索し、分析し、理解することが課題である。 t-SNE や UMAP のような次元減少技術は、しばしば高次元データを低次元の可視化に投影するのに役立つが、残りの次元が通常抽象的であるため解釈が必要である。 ここで、コレクションスペースナビゲータは2次元プロジェクションと構成可能な多次元フィルタのセットを組み合わせたカスタマイズ可能なインターフェースを提供する。 その結果、ユーザは、射影間の変換、レンジスライダによる寸法のフィルタリング、および高度なテキストフィルタにより、コレクションを拡大およびスケーリングすることで、閲覧および調査することができる。 インタラクション中に得られる洞察は、フィルタリングされたメタデータとプロジェクションのアドホックエクスポートを通じて元のデータにフィードバックすることができる。 本稿では,古典西洋美術の大規模デジタルコレクションを用いた機能的ショーケースのデモを行った。 Collection Space Navigatorはオープンソースである。 ユーザは、プロジェクションやフィルタコントロールなど、独自のデータや研究ニーズに合わせてインターフェースを再構成することができる。 CSNは広いコミュニティにサービスを提供する準備ができています。

We introduce the Collection Space Navigator (CSN), a browser-based visualization tool to explore, research, and curate large collections of visual digital artifacts that are associated with multidimensional data, such as vector embeddings or tables of metadata. Media objects such as images are often encoded as numerical vectors, for e.g. based on metadata or using machine learning to embed image information. Yet, while such procedures are widespread for a range of applications, it remains a challenge to explore, analyze, and understand the resulting multidimensional spaces in a more comprehensive manner. Dimensionality reduction techniques such as t-SNE or UMAP often serve to project high-dimensional data into low dimensional visualizations, yet require interpretation themselves as the remaining dimensions are typically abstract. Here, the Collection Space Navigator provides a customizable interface that combines two-dimensional projections with a set of configurable multidimensional filters. As a result, the user is able to view and investigate collections, by zooming and scaling, by transforming between projections, by filtering dimensions via range sliders, and advanced text filters. Insights that are gained during the interaction can be fed back into the original data via ad hoc exports of filtered metadata and projections. This paper comes with a functional showcase demo using a large digitized collection of classical Western art. The Collection Space Navigator is open source. Users can reconfigure the interface to fit their own data and research needs, including projections and filter controls. The CSN is ready to serve a broad community.
翻訳日:2023-05-12 14:41:56 公開日:2023-05-11
# 量子スイッチのための最適エンタングルメント蒸留法

Optimal Entanglement Distillation Policies for Quantum Switches ( http://arxiv.org/abs/2305.06804v1 )

ライセンス: Link先を確認
Vivek Kumar, Nitish K. Chandra, Kaushik P. Seshadreesan, Alan Scheller-Wolf, Sridhar Tayur(参考訳) エンタングルメント分布ネットワークにおいて、量子スイッチの機能は、クライアントとの初等エンタングルメントを生成し、その後にエンタングルメントスワッピングを行い、クライアント間の十分な高忠実度のエンドツーエンドエンタングルメントを分配する。 絡み合いの忠実さのしきい値は、クライアントがネットワーク上で実行するアプリケーションによって指定されるサービス品質の要件である。 量子スイッチの離散時間モデルとして,最大絡み合った量子ビット対やベル対の形で,各時間ステップでクライアントとの初等絡み合いの発生を試み,確率的に成功し,得られたベル対は交換できるまでノイズの多い量子メモリに格納される。 We focus on establishing the value of entanglement distillation of the stored Bell pairs prior to entanglement swapping in presence of their inevitable aging, i.e., decoherence: For a simple instance of a switch with two clients, exponential decay of entanglement fidelity, and a well-known probabilistic but heralded two-to-one distillation protocol, given a threshold end-to-end entanglement fidelity, we use the Markov Decision Processes framework to identify the optimal action policy - to wait, to distill, or to swap that maximizes throughput. 最適蒸留可能方針下でのswitchの性能と蒸留を除いた性能を比較した。 この2つの政策のシミュレーションは, 平均スループット, 平均忠実度, 終端絡み合いのジッタに対する蒸留の最適利用により, 原理的に可能な改善を, 忠実度閾値の関数として示すものである。 このモデルにより, 量子スイッチにおけるデコヒーレンスの効果を緩和し, 量子スイッチに関する文献を増大させることで, エンタングルメント蒸留の役割を捉えることができる。

In an entanglement distribution network, the function of a quantum switch is to generate elementary entanglement with its clients followed by entanglement swapping to distribute end-to-end entanglement of sufficiently high fidelity between clients. The threshold on entanglement fidelity is any quality-of-service requirement specified by the clients as dictated by the application they run on the network. We consider a discrete-time model for a quantum switch that attempts generation of fresh elementary entanglement with clients in each time step in the form of maximally entangled qubit pairs, or Bell pairs, which succeed probabilistically; the successfully generated Bell pairs are stored in noisy quantum memories until they can be swapped. We focus on establishing the value of entanglement distillation of the stored Bell pairs prior to entanglement swapping in presence of their inevitable aging, i.e., decoherence: For a simple instance of a switch with two clients, exponential decay of entanglement fidelity, and a well-known probabilistic but heralded two-to-one distillation protocol, given a threshold end-to-end entanglement fidelity, we use the Markov Decision Processes framework to identify the optimal action policy - to wait, to distill, or to swap that maximizes throughput. We compare the switch's performance under the optimal distillation-enabled policy with that excluding distillation. Simulations of the two policies demonstrate the improvements that are possible in principle via optimal use of distillation with respect to average throughput, average fidelity, and jitter of end-to-end entanglement, as functions of fidelity threshold. Our model thus helps capture the role of entanglement distillation in mitigating the effects of decoherence in a quantum switch in an entanglement distribution network, adding to the growing literature on quantum switches.
翻訳日:2023-05-12 14:41:13 公開日:2023-05-11
# 物理インフォームドニューラルネットワークによる障害メディア中の局所固有状態の探索

Physics-Informed Neural Networks for Discovering Localised Eigenstates in Disordered Media ( http://arxiv.org/abs/2305.06802v1 )

ライセンス: Link先を確認
Liam Harcombe and Quanling Deng(参考訳) ランダムポテンシャルを持つschr\"{o}dinger方程式は、乱れた系における粒子の挙動を理解するための基本的なモデルである。 障害のある媒体は、アンダーソン局在と呼ばれる波動関数の局所化につながる複雑なポテンシャルによって特徴づけられる。 これらの波動関数は、発見に困難をもたらす固有エネルギーの同様のスケールを持つ可能性がある。 Schr\"{o}dinger 方程式を解くのに高い計算コストと複雑さがあるため、これは長年の課題であった。 近年,これらの課題に対処するための機械学習ツールが採用されている。 本稿では、近年の機械学習の進歩を踏まえ、物理インフォームドニューラルネットワーク(PINN)を用いて、乱れたメディアの局所的な固有状態を発見する新しいアプローチを提案する。 我々は、ベルヌーイ分布、正規分布、均一分布に応じてランダムに生成されるポテンシャルを持つ1次元のハミルトニアンのスペクトル近似に焦点を当てる。 本研究では,これらの領域で発生した既知の物理現象を利用して領域をスキャンし,固有状態の発見に成功した損失関数に新しい特徴を導入する。 本稿では,提案手法の性能を示す様々な例を示し,等測的解析と比較する。

The Schr\"{o}dinger equation with random potentials is a fundamental model for understanding the behaviour of particles in disordered systems. Disordered media are characterised by complex potentials that lead to the localisation of wavefunctions, also called Anderson localisation. These wavefunctions may have similar scales of eigenenergies which poses difficulty in their discovery. It has been a longstanding challenge due to the high computational cost and complexity of solving the Schr\"{o}dinger equation. Recently, machine-learning tools have been adopted to tackle these challenges. In this paper, based upon recent advances in machine learning, we present a novel approach for discovering localised eigenstates in disordered media using physics-informed neural networks (PINNs). We focus on the spectral approximation of Hamiltonians in one dimension with potentials that are randomly generated according to the Bernoulli, normal, and uniform distributions. We introduce a novel feature to the loss function that exploits known physical phenomena occurring in these regions to scan across the domain and successfully discover these eigenstates, regardless of the similarity of their eigenenergies. We present various examples to demonstrate the performance of the proposed approach and compare it with isogeometric analysis.
翻訳日:2023-05-12 14:40:41 公開日:2023-05-11
# 認定後の量子絡み合いの回復

Recovering quantum entanglement after its certification ( http://arxiv.org/abs/2305.06852v1 )

ライセンス: Link先を確認
Hyeon-Jin Kim, Ji-Hyeok Jung, Kyung-Jun Lee, Young-Sik Ra(参考訳) 絡み合いは量子情報科学に広く応用された重要な量子資源である。 実際に絡み合いを利用するためには、与えられた量子状態の絡み合いを認証することが前提条件である。 しかし、認証プロセス自体が絡み合いを破壊し、絡み合いのさらなる利用を排除している。 ここで、この矛盾を解決するために、量子状態の絡み合いを完全な破壊なしに証明し、元の絡み合いを確率的に回復し、さらなる量子応用に有用な絡み合いを与えるプロトコルを提案する。 我々は,このプロトコルをフォトニック量子システムで実験的に実証し,現実的な絡み合い源から高品質な絡み合いを選択するための有用性を強調した。 さらに本研究は,プロトコルに関わる物理量間のトレードオフ関係を明らかにした。 この結果から,量子技術の性能向上のために,エンタングルメント認証がその後の量子アプリケーションと互換性を持つことを示す。

Entanglement is a crucial quantum resource with broad applications in quantum information science. For harnessing entanglement in practice, it is a prerequisite to certify the entanglement of a given quantum state. However, the certification process itself destroys the entanglement, thereby precluding further exploitation of the entanglement. Resolving this conflict, here we present a protocol that certifies the entanglement of a quantum state without complete destruction, and then, probabilistically recovers the original entanglement to provide useful entanglement for further quantum applications. We experimentally demonstrate this protocol in a photonic quantum system, and highlight its usefulness for selecting high-quality entanglement from a realistic entanglement source. Moreover, our study reveals various tradeoff relations among the physical quantities involved in the protocol. Our results show how entanglement certification can be made compatible with subsequent quantum applications, and more importantly, be beneficial to sort entanglement for better performance in quantum technologies.
翻訳日:2023-05-12 14:35:17 公開日:2023-05-11
# ポリシー勾配アルゴリズムは継続によって暗黙的に最適化する

Policy Gradient Algorithms Implicitly Optimize by Continuation ( http://arxiv.org/abs/2305.06851v1 )

ライセンス: Link先を確認
Adrien Bolland, Gilles Louppe, Damien Ernst(参考訳) 強化学習における直接ポリシー最適化は通常、確率勾配上昇によるポリシーパラメータを最適化するポリシー勾配アルゴリズムで解決される。 本稿では,これらのアルゴリズムの理論的解釈と正当化について述べる。 まず、継続フレームワークによる最適化において、直接ポリシー最適化を定式化する。 後者は非凸関数を最適化するためのフレームワークであり、連続体と呼ばれる対象関数列が局所的に最適化される。 第二に、アフィンガウス政策の最適化とエントロピー正規化の実行は、継続による決定主義政策の暗黙の最適化として解釈できることを示す。 これらの理論的な結果に基づき、政策段階的アルゴリズムの探索は、目の前の政策の回帰の継続を計算することと、政策の回帰を最大化するよりも、局所的な過度を避けるためにポリシーの分散が履歴に依存した機能であるべきだと論じる。

Direct policy optimization in reinforcement learning is usually solved with policy-gradient algorithms, which optimize policy parameters via stochastic gradient ascent. This paper provides a new theoretical interpretation and justification of these algorithms. First, we formulate direct policy optimization in the optimization by continuation framework. The latter is a framework for optimizing nonconvex functions where a sequence of surrogate objective functions, called continuations, are locally optimized. Second, we show that optimizing affine Gaussian policies and performing entropy regularization can be interpreted as implicitly optimizing deterministic policies by continuation. Based on these theoretical results, we argue that exploration in policy-gradient algorithms consists in computing a continuation of the return of the policy at hand, and that the variance of policies should be history-dependent functions adapted to avoid local extrema rather than to maximize the return of the policy.
翻訳日:2023-05-12 14:34:49 公開日:2023-05-11
# WebCPM:中国の長文質問応答のためのインタラクティブWeb検索

WebCPM: Interactive Web Search for Chinese Long-form Question Answering ( http://arxiv.org/abs/2305.06849v1 )

ライセンス: Link先を確認
Yujia Qin, Zihan Cai, Dian Jin, Lan Yan, Shihao Liang, Kunlun Zhu, Yankai Lin, Xu Han, Ning Ding, Huadong Wang, Ruobing Xie, Fanchao Qi, Zhiyuan Liu, Maosong Sun, and Jie Zhou(参考訳) LFQA(Long-form Question answering)は、複雑でオープンな質問に、段落長の詳細な回答で答えることを目的としている。 LFQAのデファクトパラダイムは、関連する支援事実を検索する情報検索と、これらの事実を一貫性のある回答に統合する情報合成という2つの手順を必要とする。 本稿では,中国初のLFQAデータセットであるWebCPMを紹介する。 WebCPMのユニークな特徴の1つは、その情報検索がインタラクティブなWeb検索に基づいており、リアルタイムで検索エンジンと関わることである。 WebGPT に続いて,Web 検索インタフェースを開発した。 私たちはアノテータを募集し、インターフェースを使って関連情報を検索し、質問に答えます。 一方、アノテータのweb検索動作は記録されるでしょう。 合計5500対の高品質な質問応答対を収集し,14,315件のサポート事実と121,330件のWeb検索行動を行った。 web 検索の動作を模倣し,収集した事実に基づいて回答を生成するために,事前学習した言語モデルを微調整した。 我々のLFQAパイプラインは、これらの微調整されたモデルに基づいており、データセットの32.5%と47.5%のケースで、人書きのものよりも悪い回答を生成する。

Long-form question answering (LFQA) aims at answering complex, open-ended questions with detailed, paragraph-length responses. The de facto paradigm of LFQA necessitates two procedures: information retrieval, which searches for relevant supporting facts, and information synthesis, which integrates these facts into a coherent answer. In this paper, we introduce WebCPM, the first Chinese LFQA dataset. One unique feature of WebCPM is that its information retrieval is based on interactive web search, which engages with a search engine in real time. Following WebGPT, we develop a web search interface. We recruit annotators to search for relevant information using our interface and then answer questions. Meanwhile, the web search behaviors of our annotators would be recorded. In total, we collect 5,500 high-quality question-answer pairs, together with 14,315 supporting facts and 121,330 web search actions. We fine-tune pre-trained language models to imitate human behaviors for web search and to generate answers based on the collected facts. Our LFQA pipeline, built on these fine-tuned models, generates answers that are no worse than human-written ones in 32.5% and 47.5% of the cases on our dataset and DuReader, respectively.
翻訳日:2023-05-12 14:34:24 公開日:2023-05-11
# 領域不変3次元点クラウドマップマッチングのための極状ランドマークの検出と分類

Detection and Classification of Pole-like Landmarks for Domain-invariant 3D Point Cloud Map Matching ( http://arxiv.org/abs/2305.06845v1 )

ライセンス: Link先を確認
Sun Yifei, Li Dingrui, Ye Minying, Tanaka Kanji(参考訳) 3Dポイントの雲に基づく視覚的自己局在化では、ポールランドマークは季節や天候の変化による長期的安定性のため、正確で信頼性の高い位置化のランドマークとして大きな可能性がある。 本研究では,ポールランドマークに基づく自己ローカライゼーションの文脈において,最近開発された極分類のためのディープラーニングモデルの利用について検討する。 具体的には、提案手法は、ポールマップマッチングとポールクラスマッチングの2つの主要なモジュールから構成される。 前者モジュールでは、局所極マップを構築し、その構成を予め計算された大域極マップと比較する。 効率的なRANSACマップマッチングを用いて、計算効率と精度の良好なトレードオフを実現する。 後者の極クラスマッチングモジュールでは、RANSACマップマッチングによってペア化された局所極と大域極は、極属性クラスによりさらに比較される。 この目的のために、予め定義された疑似極クラスの集合は、自己教師ありの方法でk平均クラスタリングによって学習される。 NCLTデータセットを用いた実験により,極状ランドマーク分類法は,ベースライン法と比較して視覚的自己局在化システムに改善効果を示した。

In 3D point cloud-based visual self-localization, pole landmarks have a great potential as landmarks for accurate and reliable localization due to their long-term stability under seasonal and weather changes. In this study, we aim to explore the use of recently developed deep learning models for pole classification in the context of pole landmark-based self-localization. Specifically, the proposed scheme consists of two main modules: pole map matching and pole class matching. In the former module, local pole map is constructed and its configuration is compared against a precomputed global pole map. An efficient RANSAC map matching is employed to achieve a good tradeoff between computational efficiency and accuracy. In the latter pole class matching module, the local and global poles paired by the RANSAC map-matching are further compared by means of pole attribute class. To this end, a predefined set of pseudo pole classes is learned via k-means clustering in a self-supervised manner. Experiments using publicly available NCLT dataset showed that the pole-like landmark classification method has an improved effect on the visual self-localization system compared with the baseline method.
翻訳日:2023-05-12 14:33:58 公開日:2023-05-11
# ニューラルネットワークを用いた対人顔表情の感情認識

Emotion Recognition for Challenged People Facial Appearance in Social using Neural Network ( http://arxiv.org/abs/2305.06842v1 )

ライセンス: Link先を確認
P. Deivendran, P. Suresh Babu, G. Malathi, K. Anbazhagan, R. Senthil Kumar(参考訳) 人間のコミュニケーションは、他人とコミュニケーションする声と非言葉の信号である。 人間の表情は、監視システムの画像と記録データベースにおいて重要な生体計測オブジェクトである。 顔認識は生体計測の手法において重要な役割を担っており、視覚検査やセキュリティなど、多くのアプリケーションに適している。 表情は非言語コミュニケーションの一形態であり、その認識は人間の機械の相互作用を改善するのに役立つ。 本稿では,画像による表情の認識と啓蒙の不変性について提案する。 順に、その人の顔を計算することができる。 顔表現はCNN分類器で用いられ、取得した画像を異なる感情カテゴリに分類する。 深層でフィードフォワードの人工ニューラルネットワークである。 結果が人間のプレゼンテーションを上回り、別のパフォーマンスを示します。 照明条件が変化すると、フィッティングプロセスに影響を与え、認識精度が低下する。 その結果、適切な表情表現を分離するための照明条件の変更が、クリーンで多様な動作表現の効率的な表現であることがわかった。 このプロセスは、相互に異なる基本となる表情の比率を管理し、感性的な感情的な表情を作り出すこともできる。 本システムは,統計学者が居住する事前定義されたデータセットを含み,純粋で多様な表現を含む。 平均して、データセットは92.4%の精度で合成された表現の正確な検証を達成している。 これらの表情は、システム内の事前定義されたデータ配置によって比較される。 異常な状態にある人を認識すると、そのメッセージを見て、近くの病院や医師にアラートが渡される。

Human communication is the vocal and non verbal signal to communicate with others. Human expression is a significant biometric object in picture and record databases of surveillance systems. Face appreciation has a serious role in biometric methods and is good-looking for plentiful applications, including visual scrutiny and security. Facial expressions are a form of nonverbal communication; recognizing them helps improve the human machine interaction. This paper proposes an idea for face and enlightenment invariant credit of facial expressions by the images. In order on, the person's face can be computed. Face expression is used in CNN classifier to categorize the acquired picture into different emotion categories. It is a deep, feed-forward artificial neural network. Outcome surpasses human presentation and shows poses alternate performance. Varying lighting conditions can influence the fitting process and reduce recognition precision. Results illustrate that dependable facial appearance credited with changing lighting conditions for separating reasonable facial terminology display emotions is an efficient representation of clean and assorted moving expressions. This process can also manage the proportions of dissimilar basic affecting expressions of those mixed jointly to produce sensible emotional facial expressions. Our system contains a pre-defined data set, which was residential by a statistics scientist and includes all pure and varied expressions. On average, a data set has achieved 92.4% exact validation of the expressions synthesized by our technique. These facial expressions are compared through the pre-defined data-position inside our system. If it recognizes the person in an abnormal condition, an alert will be passed to the nearby hospital/doctor seeing that a message.
翻訳日:2023-05-12 14:33:36 公開日:2023-05-11
# 2回考える:質問応答モデルの予測ショートカットをなくす効率を計測する

Think Twice: Measuring the Efficiency of Eliminating Prediction Shortcuts of Question Answering Models ( http://arxiv.org/abs/2305.06841v1 )

ライセンス: Link先を確認
Luk\'a\v{s} Mikula, Michal \v{S}tef\'anik, Marek Petrovi\v{c}, Petr Sojka(参考訳) 大規模な言語モデル(llm)が言語理解タスクの大部分を占める一方で、以前の研究は、これらの結果のいくつかがトレーニングデータセットのスプリアス相関のモデリングによってサポートされていることを示している。 著者は一般的に、同じタスクのout-of-distribution(ood)データセットでモデルを評価することによってモデルのロバスト性を評価するが、これらのデータセットはトレーニングデータセットのバイアスを共有する可能性がある。 本稿では,様々な事前学習モデルと問合せ解答法(QA)において,モデルが特定された突発的特徴への依存度を簡易に測定し,既知の予測バイアスと新たに発見された予測バイアスに対するロバスト性を評価する方法を提案する。 バイアスのある特徴への依存度を緩和することで、デバイアス手法のood向上が説明できないことが分かり、qaデータセット間でバイアスが共有されていることを示唆した。 我々はさらに、OODモデルの性能がIDモデルと相容れないバイアス特性に依存していることを確かめ、LCMの堅牢性に関する報告を既知のスパイラルな特徴のレベルまで改善する動機付けとして、将来の研究を動機付けている。

While the Large Language Models (LLMs) dominate a majority of language understanding tasks, previous work shows that some of these results are supported by modelling spurious correlations of training datasets. Authors commonly assess model robustness by evaluating their models on out-of-distribution (OOD) datasets of the same task, but these datasets might share the bias of the training dataset. We propose a simple method for measuring a scale of models' reliance on any identified spurious feature and assess the robustness towards a large set of known and newly found prediction biases for various pre-trained models and debiasing methods in Question Answering (QA). We find that the reported OOD gains of debiasing methods can not be explained by mitigated reliance on biased features, suggesting that biases are shared among QA datasets. We further evidence this by measuring that performance of OOD models depends on bias features comparably to the ID model, motivating future work to refine the reports of LLMs' robustness to a level of known spurious features.
翻訳日:2023-05-12 14:33:16 公開日:2023-05-11
# 導波路における単一量子エミッタによる非線形光位相シフトの直接観察

Direct observation of non-linear optical phase shift induced by a single quantum emitter in a waveguide ( http://arxiv.org/abs/2305.06839v1 )

ライセンス: Link先を確認
Mathias J.R. Staunstrup, Alexey Tiranov, Ying Wang, Sven Scholz, Andreas D. Wieck, Arne Ludwig, Leonardo Midolo, Nir Rotenberg, Peter Lodahl, and Hanna Le Jeannic(参考訳) 古典的フォトニクスと量子フォトニクスの両方において、光ビーム上の感度の高い光子数依存位相シフトを実現する必要がある。 古典的および量子フォトニクスの機械学習の新しい応用につながるかもしれないし、光子-光子ゲートの操作を実現するための道を開くかもしれない。 非線形位相シフトは効率的な光間相互作用を必要とし、近年、ナノフォトニックデバイスに結合した量子ドットは、ほぼ決定論的単一光子カップリングを可能にした。 平面型ナノフォトニック導波路の単一量子ドットと相互作用する弱いコヒーレント状態を用いて、0.19 π pm 0.03$ radians (\approx 34$ degrees) の光位相シフトを実験的に実現した。 位相シフトは導波路の量子ドットから散乱した光の干渉計測によって観測される。 非線形プロセスは単一光子レベルで感度が高く、スケーラブルなフォトニック集積回路と互換性がある。 この研究は、高効率な光スイッチングを実現するための新しい見通しを、概念量子機械学習や量子シミュレーションの実証に応用するかもしれない。

Realizing a sensitive photon-number-dependent phase shift on a light beam is required both in classical and quantum photonics. It may lead to new applications for classical and quantum photonics machine learning or pave the way for realizing photon-photon gate operations. Non-linear phase-shifts require efficient light-matter interaction, and recently quantum dots coupled to nanophotonic devices have enabled near-deterministic single-photon coupling. We experimentally realize an optical phase shift of $0.19 \pi \pm 0.03$ radians ($\approx 34$ degrees) using a weak coherent state interacting with a single quantum dot in a planar nanophotonic waveguide. The phase shift is probed by interferometric measurements of the light scattered from the quantum dot in the waveguide. The nonlinear process is sensitive at the single-photon level and can be made compatible with scalable photonic integrated circuitry. The work may open new prospects for realizing high-efficiency optical switching or be applied for proof-of-concept quantum machine learning or quantum simulation demonstrations.
翻訳日:2023-05-12 14:32:54 公開日:2023-05-11
# 不平衡干渉計における光力学的相互作用の増強

Enhanced optomechanical interaction in the unbalanced interferometer ( http://arxiv.org/abs/2305.06831v1 )

ライセンス: Link先を確認
Alexandr Karpenko (1), Mikhail Korobko (2), Sergey P. Vyatchanin (1 and 3) ((1) Faculty of Physics, M.V. Lomonosov Moscow State University, Moscow, Russia, (2) Institut fur Laserphysik, Zentrum fur Optische Quantentechnologien, Universitat Hamburg, Hamburg, Germany, (3) Quantum Technology Centre, M.V. Lomonosov Moscow State University, Moscow, Russia)(参考訳) 量子光学系は、巨大な物体の量子の性質に関する基本的な問題の研究を可能にする。 そのため、光と機械的な動きの強い結合が必要であり、これは巨大な物体の挑戦となる。 特に、低周波発振器を持つ大きな干渉センサは量子状態に陥ることが困難である。 ここでは、光学的結合強度を高めるミシェルソン・サニャック干渉計の修正を提案する。 これは、干渉計の中央ビームスプリッターをアンバランシングすることで、系に存在する2種類の光学的カップリングのバランスをとることができる。 レーザポンプ場用ミラー(電力リサイクル)と信号場用ミラー(信号リサイクル)の2つの異なる構成を解析する。 本研究では,ビームスプリッタの不均衡により,試験質量運動の光冷却を劇的に向上させることができることを示す。 また, 量子放射圧雑音の観測条件と定式化を行った。 我々の構成は、強化された結合強度を利用する干渉計のより複雑な修正の基礎となることができる。 これにより、大きなテスト質量の量子状態に効率的に到達することができ、量子力学の基礎的な側面の研究や量子重力の実験的探索の道を開くことができる。

Quantum optomechanical systems enable the study of fundamental questions on quantum nature of massive objects. For that a strong coupling between light and mechanical motion is required, which presents a challenge for massive objects. In particular large interferometric sensors with low frequency oscillators are difficult to bring into quantum regime. Here we propose a modification of the Michelson-Sagnac interferometer, which allows to boost the optomechanical coupling strength. This is done by unbalancing the central beam-splitter of the interferometer, allowing to balance two types of optomechanical coupling present in the system: dissipative and dispersive. We analyse two different configurations, when the optomechanical cavity is formed by the mirror for the laser pump field (power-recycling), and by the mirror for the signal field (signal-recycling). We show that the imbalance of the beam splitter allows to dramatically increase the optical cooling of the test mass motion. We also formulate the conditions for observing quantum radiation-pressure noise and ponderomotive squeezing. Our configuration can serve as the basis for more complex modifications of the interferometer that would utilize the enhanced coupling strength. This will allow to efficiently reach quantum state of large test masses, opening the way to studying fundamental aspects of quantum mechanics and experimental search for quantum gravity.
翻訳日:2023-05-12 14:32:34 公開日:2023-05-11
# 条件付きニューラルネットワークによる時空間予測への時間統合のためのジェネリックアプローチ

A Generic Approach to Integrating Time into Spatial-Temporal Forecasting via Conditional Neural Fields ( http://arxiv.org/abs/2305.06827v1 )

ライセンス: Link先を確認
Minh-Thanh Bui, Duc-Thinh Ngo, and Zonghua Zhang(参考訳) 自律運転ネットワーク(autonomous driving network)は、高効率な時系列予測アルゴリズムを使用して、システムが環境の将来の状態を判断し、時間の経過とともにシステムの振る舞いに影響を及ぼす、自律運転ネットワーク(autonomous driving network)の重要な能力である。 近年,時系列に存在する複雑な時間的・空間的依存関係を利用するために,畳み込みニューラルネットワークあるいはグラフニューラルネットワークを用いた予測アルゴリズムが多数開発されている。 これらの手法は統計的アプローチよりも大きな利点を示してきたが、時系列の時間成分を介して季節パターンを表すグローバルな情報を予測モデルに効果的に組み込んで精度を向上させることが課題である。 本稿では,時間成分を予測モデルに統合する一般的な手法を提案する。 第一の考え方は、時間成分から抽出された補助的特徴を表現するために条件付きニューラルネットワークを使用することで、グローバル情報を得ることであり、レイヤーワイドゲート融合モジュールを介して自己回帰ニューラルネットワークから抽出された局所情報と効果的に結合する。 道路交通とセルラーネットワークトラヒックデータセットに関する広範な実験により,提案手法の有効性が証明された。

Self-awareness is the key capability of autonomous systems, e.g., autonomous driving network, which relies on highly efficient time series forecasting algorithm to enable the system to reason about the future state of the environment, as well as its effect on the system behavior as time progresses. Recently, a large number of forecasting algorithms using either convolutional neural networks or graph neural networks have been developed to exploit the complex temporal and spatial dependencies present in the time series. While these solutions have shown significant advantages over statistical approaches, one open question is to effectively incorporate the global information which represents the seasonality patterns via the time component of time series into the forecasting models to improve their accuracy. This paper presents a general approach to integrating the time component into forecasting models. The main idea is to employ conditional neural fields to represent the auxiliary features extracted from the time component to obtain the global information, which will be effectively combined with the local information extracted from autoregressive neural networks through a layer-wise gated fusion module. Extensive experiments on road traffic and cellular network traffic datasets prove the effectiveness of the proposed approach.
翻訳日:2023-05-12 14:32:15 公開日:2023-05-11
# 自由呼吸型心臓MRI再建のためのフーリエ入力を持つインプシットニューラルネットワーク

Implicit Neural Networks with Fourier-Feature Inputs for Free-breathing Cardiac MRI Reconstruction ( http://arxiv.org/abs/2305.06822v1 )

ライセンス: Link先を確認
Johannes F. Kunz and Stefan Ruschke and Reinhard Heckel(参考訳) 本稿では, 連続的高アンサンプリング計測から心臓のリアルタイム映像を再構成することを目的とした, 心臓磁気共鳴イメージング(mri)のアプローチを提案する。 この課題は、信号取得中に再建対象(心臓)が継続的に変化しているため、困難である。 この課題に対処するために、我々はビートハートを暗黙のニューラルネットワークで表現し、心臓の表現が測定値と一致するようにネットワークに適合させる。 フーリエ特徴入力を持つ多層パーセプトロン形式のネットワークは、有効信号の先行として作用し、信号の空間的及び時間的次元の両方における正則化強度を調整することができる。 そこで本研究では, 異なる手術領域, 異なる画像解像度, スライス厚, 取得長さにおける2次元自由呼吸型心臓mriのアプローチについて検討した。 提案手法は,Fourier領域測定に暗黙的表現を直接適用した最近の手法と比較して,最先端の未学習畳み込みニューラルネットワークと同等以上の再現品質と画像品質を実現する。 しかし、これは計算コストが高い。 このアプローチでは、心電図を含む追加の患者データやバイオセンサーは必要とせず、幅広い臨床シナリオに適用できる可能性がある。

In this paper, we propose an approach for cardiac magnetic resonance imaging (MRI), which aims to reconstruct a real-time video of a beating heart from continuous highly under-sampled measurements. This task is challenging since the object to be reconstructed (the heart) is continuously changing during signal acquisition. To address this challenge, we represent the beating heart with an implicit neural network and fit the network so that the representation of the heart is consistent with the measurements. The network in the form of a multi-layer perceptron with Fourier-feature inputs acts as an effective signal prior and enables adjusting the regularization strength in both the spatial and temporal dimensions of the signal. We examine the proposed approach for 2D free-breathing cardiac real-time MRI in different operating regimes, i.e., for different image resolutions, slice thicknesses, and acquisition lengths. Our method achieves reconstruction quality on par with or slightly better than state-of-the-art untrained convolutional neural networks and superior image quality compared to a recent method that fits an implicit representation directly to Fourier-domain measurements. However, this comes at a higher computational cost. Our approach does not require any additional patient data or biosensors including electrocardiography, making it potentially applicable in a wide range of clinical scenarios.
翻訳日:2023-05-12 14:31:59 公開日:2023-05-11
# 発展途上国におけるCOVID-19パンデミック時の移動行動の社会経済格差

Socioeconomic disparities in mobility behavior during the COVID-19 pandemic in developing countries ( http://arxiv.org/abs/2305.06888v1 )

ライセンス: Link先を確認
Lorenzo Lucchini, Ollin Langle-Chimal, Lorenzo Candeago, Lucio Melito, Alex Chunet, Aleister Montfort, Bruno Lepri, Nancy Lozano-Gracia, and Samuel P. Fraiberger(参考訳) 新型コロナウイルスのパンデミックの間、携帯電話のデータは人間のモビリティの定量化に重要な役割を果たしてきた。 モビリティ・パターンに関するこれまでの研究は主に高所得国における地域集積に焦点を合わせており、パンデミックによる最も脆弱な人口への影響が強調されている。 2020年3月から12月にかけて、携帯電話の位置情報データと3大陸中所得国6カ国の人口調査を組み合わせることで、パンデミックに対する社会経済集団の行動応答の共通性を明らかにした。 パンデミックが流行すると、低湿地に住む都市部の利用者は、自宅での自己隔離や農村への移住、通勤を控えるなどして対応しがちだった。 社会経済集団間の行動応答の差は観察期間を通じて持続した。 低湿地では、パンデミック前の高湿地で通勤していた人々は特に危険に晒され、高湿地での活動が減少し、また通勤時間が長かったために公共交通機関の閉鎖によって影響を受ける可能性が高かった。 監禁政策は、主に国全体で行われていたが、これらの結果は、最も脆弱な人への援助を目標として、移動データから情報を得た場所に基づく政策の役割を示唆している。

Mobile phone data have played a key role in quantifying human mobility during the COVID-19 pandemic. Existing studies on mobility patterns have primarily focused on regional aggregates in high-income countries, obfuscating the accentuated impact of the pandemic on the most vulnerable populations. By combining geolocation data from mobile phones and population census for 6 middle-income countries across 3 continents between March and December 2020, we uncovered common disparities in the behavioral response to the pandemic across socioeconomic groups. When the pandemic hit, urban users living in low-wealth neighborhoods were less likely to respond by self-isolating at home, relocating to rural areas, or refraining from commuting to work. The gap in the behavioral responses between socioeconomic groups persisted during the entire observation period. Among low-wealth users, those who used to commute to work in high-wealth neighborhoods pre-pandemic were particularly at risk, facing both the reduction in activity in high-wealth neighborhood and being more likely to be affected by public transport closures due to their longer commute. While confinement policies were predominantly country-wide, these results suggest a role for place-based policies informed by mobility data to target aid to the most vulnerable.
翻訳日:2023-05-12 14:24:21 公開日:2023-05-11
# 絡み合いの定義のカテゴリー理論的メタ分析

A Category-theoretical Meta-analysis of Definitions of Disentanglement ( http://arxiv.org/abs/2305.06886v1 )

ライセンス: Link先を確認
Yivan Zhang, Masashi Sugiyama(参考訳) データの変化の要因を識別することは、機械学習の基本的な概念であり、様々な研究者によって様々な方法で研究されてきた。 多くの経験的研究にもかかわらず、解離の定義的性質と異なる定義が相互にどのように関連しているかを十分に理解するためには、より理論的研究が必要である。 本稿では, カテゴリー理論を統一的かつ厳密な枠組みとして用いることにより, 既存の異方性定義のメタ分析を行う。 我々は,デカルト積とモノイド積の概念が不連続の核となるべきであることを示唆する。 中心となる概念では 類似点と重要な違いを示します (i)機能 (ii)同変写像。 (iii)関係、及び (iv)確率写像。 全体として、我々のメタアナリシスは、乱れとその様々な定式化に対する理解を深め、研究者が異なる定義をナビゲートし、特定の文脈に最適なものを選択するのに役立つ。

Disentangling the factors of variation in data is a fundamental concept in machine learning and has been studied in various ways by different researchers, leading to a multitude of definitions. Despite the numerous empirical studies, more theoretical research is needed to fully understand the defining properties of disentanglement and how different definitions relate to each other. This paper presents a meta-analysis of existing definitions of disentanglement, using category theory as a unifying and rigorous framework. We propose that the concepts of the cartesian and monoidal products should serve as the core of disentanglement. With these core concepts, we show the similarities and crucial differences in dealing with (i) functions, (ii) equivariant maps, (iii) relations, and (iv) stochastic maps. Overall, our meta-analysis deepens our understanding of disentanglement and its various formulations and can help researchers navigate different definitions and choose the most appropriate one for their specific context.
翻訳日:2023-05-12 14:23:57 公開日:2023-05-11
# 量子貯水池を用いた統一直接パラメータ推定

Unified direct parameter estimation via quantum reservoirs ( http://arxiv.org/abs/2305.06878v1 )

ライセンス: Link先を確認
Yinfei Li, Sanjib Ghosh, Jiangwei Shang, Qihua Xiong, Xiangdong Zhang(参考訳) パラメータ推定は量子情報処理の様々な応用において不可欠である。 後処理の段階でパラメータを予測するためには、まず量子状態を測定プロトコルで知覚し、取得した情報を格納することが本質である。 本研究では,量子リザーバネットワークを用いた任意の量子状態の古典近似を構築するための一般的な枠組みを提案する。 提案手法の重要な利点は,任意のパラメータを推定するには1つの局所的な測定設定のみが必要であるのに対し,従来の手法の多くは指数関数的に計測設定を増加させる必要があることである。 M$パラメータを同時に推定するために、古典近似のサイズは$\ln M$とスケールする。 さらに、この推定スキームは高次元およびハイブリッドシステムにも拡張可能であり、非常に一般的である。 本手法により線形関数と非線形関数の両方を効率的に推定でき,広範な数値シミュレーションにより理論的知見を裏付ける。

Parameter estimation is an indispensable task in various applications of quantum information processing. To predict parameters in the post-processing stage, it is inherent to first perceive the quantum state with a measurement protocol and store the information acquired. In this work, we propose a general framework for constructing classical approximations of arbitrary quantum states with quantum reservoir networks. A key advantage of our method is that only a single local measurement setting is required for estimating arbitrary parameters, while most of the previous methods need exponentially increasing number of measurement settings. To estimate $M$ parameters simultaneously, the size of the classical approximation scales as $\ln M$. Moreover, this estimation scheme is extendable to higher-dimensional as well as hybrid systems, which makes it exceptionally generic. Both linear and nonlinear functions can be estimated efficiently by our scheme, and we support our theoretical findings with extensive numerical simulations.
翻訳日:2023-05-12 14:23:04 公開日:2023-05-11
# モバイルフェデレーション学習ネットワークのための多層クライアント選択

Multi-Tier Client Selection for Mobile Federated Learning Networks ( http://arxiv.org/abs/2305.06865v1 )

ライセンス: Link先を確認
Yulan Gao, Yansong Zhao, and Han Yu(参考訳) リソース制約のあるモバイルデバイス上でのトレーニングモデルによるデータのプライバシ問題に対処するfederated learning(fl)が,研究の注目を集めている。 しかし,モバイル・フェデレーション・ラーニング・ネットワーク(MFLN)におけるFLクライアントの選択を最適化する問題は,デバイスが相互のカバー範囲内を行き来し,FLサーバがすべてのデータ所有者を知らないという問題である。 このギャップを埋めるために、コストを最小化し高品質のFLモデルを訓練するために、第一級のサンダーライン{Soc}ially-aware \underline{Fed}erated \underline{C}lient \underline{S}election (SocFedCS)アプローチを提案する。 socfedcsは、デバイスがお互いのカバレッジ内外へ移動している場合でも、データ所有者が信頼のローカルネットワークを通じてflタスク情報を伝達できるようにすることで、候補のflクライアントプールを強化している。 lyapunov最適化に基づいて,我々はまずこの時間結合問題をステップバイステップ最適化問題に変換する。 次に,この混合整数最適化問題を解くために,交互最小化と自己適応型グローバルベストハーモニー探索に基づく手法を設計する。 SocFedCSを4つの実世界のマルチメディアデータセットに基づく5つの最先端のアプローチと比較した大規模な実験により、テスト精度が2.06\%高く、最高性能のベースラインよりも平均12.24\%低いコストを達成することが示された。

Federated learning (FL), which addresses data privacy issues by training models on resource-constrained mobile devices in a distributed manner, has attracted significant research attention. However, the problem of optimizing FL client selection in mobile federated learning networks (MFLNs), where devices move in and out of each others' coverage and no FL server knows all the data owners, remains open. To bridge this gap, we propose a first-of-its-kind \underline{Soc}ially-aware \underline{Fed}erated \underline{C}lient \underline{S}election (SocFedCS) approach to minimize costs and train high-quality FL models. SocFedCS enriches the candidate FL client pool by enabling data owners to propagate FL task information through their local networks of trust, even as devices are moving into and out of each others' coverage. Based on Lyapunov optimization, we first transform this time-coupled problem into a step-by-step optimization problem. Then, we design a method based on alternating minimization and self-adaptive global best harmony search to solve this mixed-integer optimization problem. Extensive experiments comparing SocFedCS against five state-of-the-art approaches based on four real-world multimedia datasets demonstrate that it achieves 2.06\% higher test accuracy and 12.24\% lower cost on average than the best-performing baseline.
翻訳日:2023-05-12 14:22:50 公開日:2023-05-11
# Angular情報に基づくニューラルサバイバル解析モデルの埋め込み空間の可視化のための一般フレームワーク

A General Framework for Visualizing Embedding Spaces of Neural Survival Analysis Models Based on Angular Information ( http://arxiv.org/abs/2305.06862v1 )

ライセンス: Link先を確認
George H. Chen(参考訳) 神経生存解析モデルで使用される中間埋め込み表現を可視化するための汎用フレームワークを提案する。 我々のフレームワークは、埋め込み空間におけるいわゆるアンカー方向に基づいている。 本稿では,これらのアンカー方向をクラスタリングを用いて推定するか,あるいは生の入力の集合によって定義されたユーザが提供する"概念"を用いて推定する方法を示す。 表表データでは,アンカー方向が生臨床特徴と生存時間分布にどのように関係しているかを可視化する。 次に、画像である生の入力を処理するために、これらの可視化アイデアがどのように拡張されるかを示す。 我々のフレームワークは、ベクトル間の角度を埋め込み空間で見ることに基づいており、そこではマグニチュード情報を無視して「情報損失」が発生する可能性がある。 この損失が、視覚化に現れる“ジャンピング”アーティファクトにどのように影響するか、そして、実際にこの情報損失を減らす方法を示す。

We propose a general framework for visualizing any intermediate embedding representation used by any neural survival analysis model. Our framework is based on so-called anchor directions in an embedding space. We show how to estimate these anchor directions using clustering or, alternatively, using user-supplied "concepts" defined by collections of raw inputs (e.g., feature vectors all from female patients could encode the concept "female"). For tabular data, we present visualization strategies that reveal how anchor directions relate to raw clinical features and to survival time distributions. We then show how these visualization ideas extend to handling raw inputs that are images. Our framework is built on looking at angles between vectors in an embedding space, where there could be "information loss" by ignoring magnitude information. We show how this loss results in a "clumping" artifact that appears in our visualizations, and how to reduce this information loss in practice.
翻訳日:2023-05-12 14:22:19 公開日:2023-05-11
# なぜボーアはEPRに反応しなかったのか

Why Bohr was wrong in his response to EPR ( http://arxiv.org/abs/2305.06859v1 )

ライセンス: Link先を確認
Aur\'elien Drezet(参考訳) 1935年にボーアがアインシュタイン・ポドルスキー・ローゼン・パラドックス/理論の解析を行った。 2つの独立した粒子と相互作用する二重スリット移動ダイアフラムを含むボーアのゲダンケン実験を明示的に記述し、ボーアが提供した解析に欠陥があることを明らかにした。 我々は、EPRジレンマを確認するボーアのバージョンを補正する別のプロトコルを提案する: 量子力学は不完全か非局所かのいずれかである。

We assess the analysis made by Bohr in 1935 of the Einstein Podolsky Rosen paradox/theorem. We explicitly describe Bohr's gedanken experiment involving a double-slit moving diaphragm interacting with two independent particles and show that the analysis provided by Bohr was flawed. We propose a different protocol correcting Bohr's version that confirms EPR dilemma: Quantum mechanics is either incomplete or non-local.
翻訳日:2023-05-12 14:22:00 公開日:2023-05-11
# 地中エネルギー最適化のためのエントロピー制約

Entropy Constraints for Ground Energy Optimization ( http://arxiv.org/abs/2305.06855v1 )

ライセンス: Link先を確認
Hamza Fawzi, Omar Fawzi, Samuel O. Scalet(参考訳) 量子多体系の基底エネルギーに対する下界を求めるために,フォン・ノイマンエントロピー制約を用いることを検討した。 基底エネルギー上の証明を得るための既知の方法は、典型的には局所可観測物の一貫性を使用し、半定値プログラミング緩和として表現される。 そのような緩和によって定義される局所境界は、必ずしも大域状態の存在から続くエントロピーの不等式を満たすとは限らない。 ここでは, 地中エネルギー問題に対して, より厳密な凸緩和をもたらすようなエントロピー制約を加えることを提案する。 このようなエントロピー制約の利点を示す解析的および数値的な結果を与える。 私たちはまた、我々が構成するエントロピー制約の限界を示している:それらは緩和中のサイト数を2倍にすることで暗示され、結果として変数の行列サイズという観点で2次的な改善をもたらすことができる。 マルコフエントロピー分解法(markov entropy decomposition method)として知られる自由エネルギー近似法との関係について述べる。

We study the use of von Neumann entropy constraints for obtaining lower bounds on the ground energy of quantum many-body systems. Known methods for obtaining certificates on the ground energy typically use consistency of local observables and are expressed as semidefinite programming relaxations. The local marginals defined by such a relaxation do not necessarily satisfy entropy inequalities that follow from the existence of a global state. Here, we propose to add such entropy constraints that lead to tighter convex relaxations for the ground energy problem. We give analytical and numerical results illustrating the advantages of such entropy constraints. We also show limitations of the entropy constraints we construct: they are implied by doubling the number of sites in the relaxation and as a result they can at best lead to a quadratic improvement in terms of the matrix sizes of the variables. We explain the relation to a method for approximating the free energy known as the Markov Entropy Decomposition method.
翻訳日:2023-05-12 14:21:51 公開日:2023-05-11
# ハイパーツリー分解によるデータログ推論の強化

Enhancing Datalog Reasoning with Hypertree Decompositions ( http://arxiv.org/abs/2305.06854v1 )

ライセンス: Link先を確認
Xinyue Zhang, Pan Hu, Yavor Nenov, Ian Horrocks(参考訳) セミナイブ評価戦略に基づくデータログ推論は、従来のジョインプランを使用してルールを評価し、特にルールが複雑である場合、実際には冗長性と非効率性をもたらすことが多い。 ハイパーツリー分解は、効率的なクエリ計画を特定し、クエリ応答における類似の冗長性を低減します。 しかし、再帰的データログプログラムによる実体化や漸進的推論にどのように適用できるかは不明である。 さらに、ハイパーツリーの分解には追加のデータ構造が必要であるため、実行時とメモリ消費の両方で無視できないオーバーヘッドが発生する。 本稿では,データログプログラムの実体化とインクリメンタル評価にハイパーツリー分解を利用するアルゴリズムを提案する。 さらに,本手法を標準データログ推論アルゴリズムとモジュール方式で組み合わせることで,分解によるオーバーヘッドを低減する。 私たちの経験的評価は、プログラムが複雑な規則を含む場合、組み合わせたアプローチは、しばしば桁違いの順序で、ベースラインアプローチよりもはるかに高速であることを示している。

Datalog reasoning based on the semina\"ive evaluation strategy evaluates rules using traditional join plans, which often leads to redundancy and inefficiency in practice, especially when the rules are complex. Hypertree decompositions help identify efficient query plans and reduce similar redundancy in query answering. However, it is unclear how this can be applied to materialisation and incremental reasoning with recursive Datalog programs. Moreover, hypertree decompositions require additional data structures and thus introduce nonnegligible overhead in both runtime and memory consumption. In this paper, we provide algorithms that exploit hypertree decompositions for the materialisation and incremental evaluation of Datalog programs. Furthermore, we combine this approach with standard Datalog reasoning algorithms in a modular fashion so that the overhead caused by the decompositions is reduced. Our empirical evaluation shows that, when the program contains complex rules, the combined approach is usually significantly faster than the baseline approach, sometimes by orders of magnitude.
翻訳日:2023-05-12 14:21:35 公開日:2023-05-11
# グローバル経路と詳細な経路のタイミング整合性を改善する機械学習手法

A Machine Learning Approach to Improving Timing Consistency between Global Route and Detailed Route ( http://arxiv.org/abs/2305.06917v1 )

ライセンス: Link先を確認
Vidya A. Chhabria Wenjing Jiang Andrew B. Kahng Sachin S. Sapatnekar(参考訳) 詳細なルーティング (DR) の前に設計段階ではルーティング情報が利用できないため、タイミング予測と最適化のタスクが大きな課題となる。 不正確なタイミング予測は設計の労力を浪費し、回路性能を損なう。 この研究は、時間と「完全」ネットリストを最適化する最も初期の機会であるクロックツリー合成と配置の合法化後のタイミング予測に焦点を当てている。 本論文は, 最終DR寄生虫の「おかしな知識」を持つことにより, 言語後ルーティング(GR)の最適化が実現し, 最終タイミングを改善できることを示す。 ポストgr最適化におけるgrに基づく寄生虫とタイミング推定とポストdr結果とのギャップを埋めるため、マクロを用いた設計の正確な予測にマクロブロックの機能を使用するなど、機械学習(ml)ベースのモデルを提案する。 実験結果から,これらのモデルがgrに基づくタイミング推定よりも高い精度を示すことを実証した。 ポストGR最適化で使用する場合、MLベースのモデルはポストDR回路の性能を実証的に改善する。 この手法は、OpenROADと商用ツールフローの2つの異なるツールフローに適用され、45nmバルクと12nm FinFETの有効化の結果は、混雑を増大させることなく、ポストDRスラックメトリクスの改善を示す。 これらのモデルは、異なるクロック周期の制約の下で生成される設計に一般化できることが示されており、少量のノイズレベルを持つトレーニングデータに堅牢である。

Due to the unavailability of routing information in design stages prior to detailed routing (DR), the tasks of timing prediction and optimization pose major challenges. Inaccurate timing prediction wastes design effort, hurts circuit performance, and may lead to design failure. This work focuses on timing prediction after clock tree synthesis and placement legalization, which is the earliest opportunity to time and optimize a "complete" netlist. The paper first documents that having "oracle knowledge" of the final post-DR parasitics enables post-global routing (GR) optimization to produce improved final timing outcomes. To bridge the gap between GR-based parasitic and timing estimation and post-DR results during post-GR optimization, machine learning (ML)-based models are proposed, including the use of features for macro blockages for accurate predictions for designs with macros. Based on a set of experimental evaluations, it is demonstrated that these models show higher accuracy than GR-based timing estimation. When used during post-GR optimization, the ML-based models show demonstrable improvements in post-DR circuit performance. The methodology is applied to two different tool flows - OpenROAD and a commercial tool flow - and results on 45nm bulk and 12nm FinFET enablements show improvements in post-DR slack metrics without increasing congestion. The models are demonstrated to be generalizable to designs generated under different clock period constraints and are robust to training data with small levels of noise.
翻訳日:2023-05-12 14:15:51 公開日:2023-05-11
# 開量子系に対する適応変分シミュレーション

Adaptive variational simulation for open quantum systems ( http://arxiv.org/abs/2305.06915v1 )

ライセンス: Link先を確認
Huo Chen, Niladri Gomes, Siyuan Niu and Wibe Albert de Jong(参考訳) 量子ハードウェアは量子シミュレーションの新しい可能性を提供する。 研究の多くはクローズド量子システムのシミュレーションに重点を置いているが、現実の量子システムは大部分がオープンである。 したがって、オープン量子システムを効果的にシミュレートできる量子アルゴリズムを開発することが不可欠である。 本稿では,lindblad方程式によって記述された開量子系ダイナミクスをシミュレートする適応変分量子アルゴリズムを提案する。 このアルゴリズムは,シミュレーション精度を保ち,演算子の動的付加により資源効率の良いアンサーゼを構築するように設計されている。 我々は、ノイズレスシミュレータとIBM量子プロセッサの両方におけるアルゴリズムの有効性を検証し、正確な解との定量的および定性的な整合性を観察する。 また,必要資源のスケールをシステムサイズと精度で検討し,多項式の挙動を求める。 その結果、近未来の量子プロセッサはオープン量子システムをシミュレートできることがわかった。

Emerging quantum hardware provides new possibilities for quantum simulation. While much of the research has focused on simulating closed quantum systems, the real-world quantum systems are mostly open. Therefore, it is essential to develop quantum algorithms that can effectively simulate open quantum systems. Here we present an adaptive variational quantum algorithm for simulating open quantum system dynamics described by the Lindblad equation. The algorithm is designed to build resource-efficient ansatze through the dynamical addition of operators by maintaining the simulation accuracy. We validate the effectiveness of our algorithm on both noiseless simulators and IBM quantum processors and observe good quantitative and qualitative agreement with the exact solution. We also investigate the scaling of the required resources with system size and accuracy and find polynomial behavior. Our results demonstrate that near-future quantum processors are capable of simulating open quantum systems.
翻訳日:2023-05-12 14:15:22 公開日:2023-05-11
# 弱視下医療画像分割のためのメタラーニング

Meta-Learners for Few-Shot Weakly-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2305.06912v1 )

ライセンス: Link先を確認
Hugo Oliveira, Pedro H. T. Gama, Isabelle Bloch, Roberto Marcondes Cesar Jr(参考訳) 視覚認識におけるメタラーニングのほとんどの用途は、画像分類に非常によく適用され、セグメンテーションや検出のような他のタスクの作業が比較的欠如している。 医用画像領域における弱教師付きセグメンテーションのための汎用メタラーニングフレームワークを提案する。 画像分割に適応した異なるパラダイムのメタリーナーの比較分析を行い, sparsely annotated radiological tasksを用いて検討を行った。 画像のモダリティには、2D胸部、マンモグラフィ、歯科X線、および2Dスライスされたボリュームトモグラフィーと共鳴画像が含まれる。 実験では,9つのメタリーナー,4つのバックボーン,複数のターゲット臓器分割タスクについて検討した。 我々は,弱いアノテーションスタイルや密度を持つ放射線学の小規模シナリオを考察する。 分析の結果,メタトレーニングデータセットと比較して,ドメインシフトの少ないタスクにおいて,メトリックベースのメタ学習アプローチによりセグメンテーションが向上することがわかった。

Most uses of Meta-Learning in visual recognition are very often applied to image classification, with a relative lack of works in other tasks {such} as segmentation and detection. We propose a generic Meta-Learning framework for few-shot weakly-supervised segmentation in medical imaging domains. We conduct a comparative analysis of meta-learners from distinct paradigms adapted to few-shot image segmentation in different sparsely annotated radiological tasks. The imaging modalities include 2D chest, mammographic and dental X-rays, as well as 2D slices of volumetric tomography and resonance images. Our experiments consider a total of 9 meta-learners, 4 backbones and multiple target organ segmentation tasks. We explore small-data scenarios in radiology with varying weak annotation styles and densities. Our analysis shows that metric-based meta-learning approaches achieve better segmentation results in tasks with smaller domain shifts in comparison to the meta-training datasets, while some gradient- and fusion-based meta-learners are more generalizable to larger domain shifts.
翻訳日:2023-05-12 14:15:09 公開日:2023-05-11
# アーベルフラストレーションフェルミオンラダーにおける非可換su(2)不変性の出現

Emergence of non-Abelian SU(2) invariance in Abelian frustrated fermionic ladders ( http://arxiv.org/abs/2305.06911v1 )

ライセンス: Link先を確認
Bachana Beradze, Mikheil Tsitsishvili, Emanuele Tirrito, Marcello Dalmonte, Titas Chanda, Alexander Nersesyan(参考訳) 三角平板当たり$\pi/2$の磁束を持つ2脚の三角ラダー上のスピンレスフェルミオンの相互作用系を考える。 微視的には、この系は全フェルミオン電荷の保存に対応するu(1)対称性を示し、離散的$\mathbb{z}_2$ symmetry(鎖のパリティ変換と置換の積)を示す。 ボーソニゼーションを用いて、低エネルギー限界において、この系は量子二重周波数正弦-ゴルドンモデルによって記述されることを示す。 この対応に基づいて、システムの豊かな位相図を得る。 これは、ガウス臨界線で分離された弱い相互作用のための自明かつ位相的バンド絶縁体を含み、大きな相互作用では、自発的に$\mathbb{Z}_2$対称性セットと強い相関位相を持ち、純電荷不均衡と非零全電流を示す。 3つの相の交点において、系は始点 SU(2) 対称性を持つ臨界点を特徴とする。 この非可換対称性は、微視的記述に欠けており、磁束、フラストレーション、多体相関の組合せ効果として実現されている。 臨界性は SU(2)$_1$ Wess-Zumino-Novikov-Witten 普遍性クラスに属する。 臨界点は2つのイジング臨界線に分岐し、バンド絶縁体と強結合対称性の破れ相を分離する。 一方の臨界分岐点付近のモデルの低エネルギー記述と、一方のアシュキン・テラーモデルと他方の弱二量化XXZスピン-1/2鎖との間には、解析的接続が成立する。 我々は,大規模テンソルネットワークシミュレーションによるフィールド理論の理解を補完し,すべてのボーソライズ予測の説得力のある定量的な証拠を提供する。 Rydbergドレッシングを用いた最新の冷間原子実験に興味があり、すでに相関するはしごのダイナミクスが実証されている。

We consider a system of interacting spinless fermions on a two-leg triangular ladder with $\pi/2$ magnetic flux per triangular plaquette. Microscopically, the system exhibits a U(1) symmetry corresponding to the conservation of total fermionic charge, and a discrete $\mathbb{Z}_2$ symmetry -- a product of parity transformation and permutation of the chains. Using bosonization, we show that, in the low-energy limit, the system is described by the quantum double-frequency sine-Gordon model. On the basis of this correspondence, a rich phase diagram of the system is obtained. It includes a trivial and a topological band insulators for weak interactions, separated by a Gaussian critical line, whereas at larger interactions a strongly correlated phase with spontaneously broken $\mathbb{Z}_2$ symmetry sets in, exhibiting a net charge imbalance and non-zero total current. At the intersection of the three phases, the system features a critical point with an emergent SU(2) symmetry. This non-Abelian symmetry, absent in the microscopic description, is realized as a combined effect of the magnetic flux, frustration, and many-body correlations. The criticality belongs to the SU(2)$_1$ Wess-Zumino-Novikov-Witten universality class. The critical point bifurcates into two Ising critical lines that separate the band insulators from the strong-coupling symmetry broken phase. We establish an analytical connection between the low-energy description of our model around the critical bifurcation point on one hand, and the Ashkin-Teller model and a weakly dimerized XXZ spin-1/2 chain on the other. We complement our field-theory understanding via large-scale tensor network simulations, providing compelling quantitative evidences of all bosonization predictions. Our findings are of interest to up-to-date cold atom experiments utilizing Rydberg dressing, that have already demonstrated correlated ladder dynamics.
翻訳日:2023-05-12 14:14:50 公開日:2023-05-11
# CoMoSpeech:一貫性モデルによるワンステップ音声と歌声合成

CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model ( http://arxiv.org/abs/2305.06908v1 )

ライセンス: Link先を確認
Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo(参考訳) denoising diffusion probabilistic models (ddpms) は音声合成に有望な性能を示している。 しかし、高いサンプル品質を達成するためには、推論速度を制限するために、多数の反復的なステップが必要である。 サンプリング速度を高めながらサンプル品質を維持することが課題となっている。 本稿では,単一の拡散サンプリングステップで音声合成を行い,高い音声品質を実現し,音声合成を実現する「コ・ナンシスタンス・"mo"del-based "speech" 合成法,comospeechを提案する。 整合性制約を適用し、よく設計された拡散に基づく教師モデルから整合性モデルを蒸留し、最終的に蒸留したCoMoSpeechにおいて優れた性能を得る。 私たちの実験では、単一のサンプリングステップで音声記録を生成することで、hspeech2に匹敵する単一のnvidia a100 gpuで、リアルタイムよりも150倍高速で、拡散サンプリングベースの音声合成が真に実用的であることを示す。 一方,テキスト音声合成と歌唱音声合成における客観的・主観的評価では,提案する教師モデルが最高の音響品質を得られ,従来の多段階拡散モデルと同等の音響品質で最良な推定速度が得られることを示す。 オーディオサンプルはhttps://comospeech.github.io/で入手できる。

Denoising diffusion probabilistic models (DDPMs) have shown promising performance for speech synthesis. However, a large number of iterative steps are required to achieve high sample quality, which restricts the inference speed. Maintaining sample quality while increasing sampling speed has become a challenging task. In this paper, we propose a "Co"nsistency "Mo"del-based "Speech" synthesis method, CoMoSpeech, which achieve speech synthesis through a single diffusion sampling step while achieving high audio quality. The consistency constraint is applied to distill a consistency model from a well-designed diffusion-based teacher model, which ultimately yields superior performances in the distilled CoMoSpeech. Our experiments show that by generating audio recordings by a single sampling step, the CoMoSpeech achieves an inference speed more than 150 times faster than real-time on a single NVIDIA A100 GPU, which is comparable to FastSpeech2, making diffusion-sampling based speech synthesis truly practical. Meanwhile, objective and subjective evaluations on text-to-speech and singing voice synthesis show that the proposed teacher models yield the best audio quality, and the one-step sampling based CoMoSpeech achieves the best inference speed with better or comparable audio quality to other conventional multi-step diffusion model baselines. Audio samples are available at https://comospeech.github.io/.
翻訳日:2023-05-12 14:14:15 公開日:2023-05-11
# AfriQA: アフリカの言語に対する言語横断のオープン検索質問

AfriQA: Cross-lingual Open-Retrieval Question Answering for African Languages ( http://arxiv.org/abs/2305.06897v1 )

ライセンス: Link先を確認
Odunayo Ogundepo, Tajuddeen R. Gwadabe, Clara E. Rivera, Jonathan H. Clark, Sebastian Ruder, David Ifeoluwa Adelani, Bonaventure F. P. Dossou, Abdou Aziz DIOP, Claytone Sikasote, Gilles Hacheme, Happy Buzaaba, Ignatius Ezeani, Rooweither Mabuya, Salomey Osei, Chris Emezue, Albert Njoroge Kahira, Shamsuddeen H. Muhammad, Akintunde Oladipo, Abraham Toluwase Owodunni, Atnafu Lambebo Tonja, Iyanuoluwa Shode, Akari Asai, Tunde Oluwaseyi Ajayi, Clemencia Siro, Steven Arthur, Mofetoluwa Adeyemi, Orevaoghene Ahia, Aremu Anuoluwapo, Oyinkansola Awosan, Chiamaka Chukwuneke, Bernard Opoku, Awokoya Ayodele, Verrah Otiende, Christine Mwase, Boyd Sinkala, Andre Niyongabo Rubungo, Daniel A. Ajisafe, Emeka Felix Onwuegbuzia, Habib Mbow, Emile Niyomutabazi, Eunice Mukonde, Falalu Ibrahim Lawan, Ibrahim Said Ahmad, Jesujoba O. Alabi, Martin Namukombo, Mbonu Chinedu, Mofya Phiri, Neo Putini, Ndumiso Mngoma, Priscilla A. Amuok, Ruqayya Nasir Iro, Sonia Adhiambo34(参考訳) アフリカの言語は、デジタルで利用できる言語コンテンツがはるかに少ないため、質問応答システムがユーザの情報ニーズを満たすことは困難である。 xor qa(cross-lingual open-retrieval question answering)システム -- 他の言語から回答コンテンツを検索し、ネイティブ言語で人々にサービスを提供する — は、このギャップを埋める手段を提供する。 この目的のために、アフリカ言語に焦点を当てた最初の言語間QAデータセットであるAfriQAを作成しました。 AfriQAには10言語にわたる12,000以上のXOR QAサンプルが含まれている。 以前のデータセットは、主に言語間QAが対象言語からカバレッジを拡大する言語に焦点を当てていたが、AfriQAは、言語間QAコンテンツが唯一のハイカバレッジな回答コンテンツソースである言語に焦点を当てている。 このため、アフリカ言語はXOR QAにとって最も重要かつ現実的なユースケースの1つであると論じる。 本実験は,自動翻訳と多言語検索手法の性能の低下を実証する。 全体として、AfriQAは最先端のQAモデルでは難しい。 このデータセットがより公平なQA技術の開発を可能にすることを願っている。

African languages have far less in-language content available digitally, making it challenging for question answering systems to satisfy the information needs of users. Cross-lingual open-retrieval question answering (XOR QA) systems -- those that retrieve answer content from other languages while serving people in their native language -- offer a means of filling this gap. To this end, we create AfriQA, the first cross-lingual QA dataset with a focus on African languages. AfriQA includes 12,000+ XOR QA examples across 10 African languages. While previous datasets have focused primarily on languages where cross-lingual QA augments coverage from the target language, AfriQA focuses on languages where cross-lingual answer content is the only high-coverage source of answer content. Because of this, we argue that African languages are one of the most important and realistic use cases for XOR QA. Our experiments demonstrate the poor performance of automatic translation and multilingual retrieval methods. Overall, AfriQA proves challenging for state-of-the-art QA models. We hope that the dataset enables the development of more equitable QA technology.
翻訳日:2023-05-12 14:13:51 公開日:2023-05-11
# 観測不能な関節統計の予測課題としての因果発見の再解釈

Reinterpreting causal discovery as the task of predicting unobserved joint statistics ( http://arxiv.org/abs/2305.06894v1 )

ライセンス: Link先を確認
Dominik Janzing, Philipp M. Faller, Leena Chennuru Vankadara(参考訳) もし$X,Y,Z$が確率変数の集合を表すなら、2つの異なるデータソースはそれぞれ$P_{X,Y}$と$P_{Y,Z}$のサンプルを含むことができる。 因果発見は、‘観測不能な合同分布’$P_{X,Y,Z}$または$P_{X,Z}$の性質を推測するのに有効である。 性質は条件付き独立性(「統合的因果推論」のように)や依存に関する量的記述である。 より一般的に、入力が変数のサブセットであり、ラベルがそのサブセットの統計的性質である学習シナリオを定義する。 合同観測変数の集合はトレーニングポイントを定義するが、観測されていない集合はテストポイントとなる。 この学習課題を解決するため、観測結果から中間段階として因果モデルを推定し、未観測集合の性質を推定する。 したがって、因果モデルのクラスのVC次元を定義し、予測に対する一般化境界を導出することができる。 ここでは、因果的発見は、通常よりも謙虚で経験的テストにとってよりアクセスしやすいものとなり、観測されていない関節分布の統計的特性を正確に予測するときに「真の」因果的仮説を見つけるのではなく、因果的仮説は有用である。 このように、弱い影響を省略するスパース因果グラフは、より小さな部分集合の辺分布から完全な関節分布を再構成できるため、(精度が低いにもかかわらず)密度の高いものよりも有用である。 このような因果的発見の'プラグマティック'な応用の中で、いくつかの一般的なヒューリスティックなアプローチは振り返って正当化される。 例えば、DAGが部分相関の予測にのみ使用される場合、条件独立ではなく部分相関からDAGを推測することができる。

If $X,Y,Z$ denote sets of random variables, two different data sources may contain samples from $P_{X,Y}$ and $P_{Y,Z}$, respectively. We argue that causal discovery can help inferring properties of the `unobserved joint distributions' $P_{X,Y,Z}$ or $P_{X,Z}$. The properties may be conditional independences (as in `integrative causal inference') or also quantitative statements about dependences. More generally, we define a learning scenario where the input is a subset of variables and the label is some statistical property of that subset. Sets of jointly observed variables define the training points, while unobserved sets are possible test points. To solve this learning task, we infer, as an intermediate step, a causal model from the observations that then entails properties of unobserved sets. Accordingly, we can define the VC dimension of a class of causal models and derive generalization bounds for the predictions. Here, causal discovery becomes more modest and better accessible to empirical tests than usual: rather than trying to find a causal hypothesis that is `true' a causal hypothesis is {\it useful} whenever it correctly predicts statistical properties of unobserved joint distributions. This way, a sparse causal graph that omits weak influences may be more useful than a dense one (despite being less accurate) because it is able to reconstruct the full joint distribution from marginal distributions of smaller subsets. Within such a `pragmatic' application of causal discovery, some popular heuristic approaches become justified in retrospect. It is, for instance, allowed to infer DAGs from partial correlations instead of conditional independences if the DAGs are only used to predict partial correlations.
翻訳日:2023-05-12 14:13:33 公開日:2023-05-11
# SemEval-2023 Task 10におけるIUST_NLP: トランスフォーマーによる性行為の検出とタスク適応型事前学習

IUST_NLP at SemEval-2023 Task 10: Explainable Detecting Sexism with Transformers and Task-adaptive Pretraining ( http://arxiv.org/abs/2305.06892v1 )

ライセンス: Link先を確認
Hadiseh Mahmoudi(参考訳) 本稿では,SemEval-2023 Task 10: Explainable Detection of Online Sexism (EDOS)について述べる。 本研究の目的は、オンライン空間における性差別コンテンツの検出と分類のための自動システムの設計である。 本稿では,タスク適応型事前学習とアンサンブル学習を用いたトランスフォーマーに基づく事前学習モデルを提案する。 本システムの主な貢献は、様々なトランスフォーマティブベース事前学習モデルの性能を分析し、これらのモデルを組み合わせることと、モデル適応事前学習に大量のラベルなしデータを用いる効率的な方法を提供することである。 他にもいくつかの戦略も検討しました。 テストデータセットでは,サブタスクa,b,cにおいて,それぞれ83%,64%,47%のf1スコアを達成している。

This paper describes our system on SemEval-2023 Task 10: Explainable Detection of Online Sexism (EDOS). This work aims to design an automatic system for detecting and classifying sexist content in online spaces. We propose a set of transformer-based pre-trained models with task-adaptive pretraining and ensemble learning. The main contributions of our system include analyzing the performance of different transformer-based pre-trained models and combining these models, as well as providing an efficient method using large amounts of unlabeled data for model adaptive pretraining. We have also explored several other strategies. On the test dataset, our system achieves F1-scores of 83%, 64%, and 47% on subtasks A, B, and C, respectively.
翻訳日:2023-05-12 14:13:01 公開日:2023-05-11
# アーベル及び非アーベル量子2ブロック符号

Abelian and non-abelian quantum two-block codes ( http://arxiv.org/abs/2305.06890v1 )

ライセンス: Link先を確認
Renyu Wang, Hsiang-Ku Lin, and Leonid P. Pryadko(参考訳) 2つの可換正方行列から構築されたcssコードの大きなクラスである量子2ブロック符号について論じる。これらの符号の興味深いファミリーは一般化双サイクル(gb)符号と2ブロック群アルゲブラ(2bga)符号であり、ここでは巡回群は任意の有限群(一般に非可換群)に置き換えられる。 構成群が巡回群かアーベル群か非アーベル群かによって、コード構成とコード次元に関するいくつかの式を提供する。 これにより、本質的に非可換な2bga符号は、そのようなアーベル群に基づくコードと置換同値でないことが保証される。 また、2BGA符号が1組の古典的グループ符号から構築されたハイパーグラフ生成符号に還元される場合、特に2BGA符号が適用されるような距離の低い境界を与える。

We discuss quantum two-block codes, a large class of CSS codes constructed from two commuting square matrices.Interesting families of such codes are generalized-bicycle (GB) codes and two-block group-algebra (2BGA) codes, where a cyclic group is replaced with an arbitrary finite group, generally non-abelian. We present code construction and give several expressions for code dimension, applicable depending on whether the constituent group is cyclic, abelian, or non-abelian. This gives a simple criterion for an essentially non-abelian 2BGA code guaranteed not to be permutation-equivalent to such a code based on an abelian group. We also give a lower bound on the distance which, in particular, applies to the case when a 2BGA code reduces to a hypergraph-product code constructed from a pair of classical group codes.
翻訳日:2023-05-12 14:12:48 公開日:2023-05-11
# 変圧器を用いたデータ効率の良い全スリッド画像分類のためのカスケードクロスアテンションネットワーク

Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image Classification Using Transformers ( http://arxiv.org/abs/2305.06963v1 )

ライセンス: Link先を確認
Firas Khader, Jakob Nikolas Kather, Tianyu Han, Sven Nebelung, Christiane Kuhl, Johannes Stegmaier, Daniel Truhn(参考訳) 全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。 したがって、ディープラーニングモデルを用いた画像の自動分析は需要が高い。 トランスフォーマーアーキテクチャは,高分解能情報を効果的に活用するための候補として提案されている。 ここでは、全体像をより小さな画像パッチに分割し、これらの画像パッチから特徴トークンを抽出する。 しかし、従来のトランスフォーマは大量の入力トークンを同時に処理できるが、計算需要は入力トークンの数と2乗的にスケールし、したがってイメージパッチの数と2乗的にスケールする。 この問題に対処するために,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。 肺がん (TCGA NSCLC) の使用例では,我々のモデルは受信操作特性 (AUC) が0.970$\pm$0.008, 腎癌 (TCGA RCC) が0.985$\pm$0.004, 平均AUCが0.985$\pm$0.004であった。 さらに,提案手法は低データ方式では効率的であり,資源制限条件下での全スライディング画像を解析する上で有望な手法であることを示す。 この方向の研究を促進するために、私たちのコードをGitHubで公開しています。

Whole-Slide Imaging allows for the capturing and digitization of high-resolution images of histological specimen. An automated analysis of such images using deep learning models is therefore of high demand. The transformer architecture has been proposed as a possible candidate for effectively leveraging the high-resolution information. Here, the whole-slide image is partitioned into smaller image patches and feature tokens are extracted from these image patches. However, while the conventional transformer allows for a simultaneous processing of a large set of input tokens, the computational demand scales quadratically with the number of input tokens and thus quadratically with the number of image patches. To address this problem we propose a novel cascaded cross-attention network (CCAN) based on the cross-attention mechanism that scales linearly with the number of extracted patches. Our experiments demonstrate that this architecture is at least on-par with and even outperforms other attention-based state-of-the-art methods on two public datasets: On the use-case of lung cancer (TCGA NSCLC) our model reaches a mean area under the receiver operating characteristic (AUC) of 0.970 $\pm$ 0.008 and on renal cancer (TCGA RCC) reaches a mean AUC of 0.985 $\pm$ 0.004. Furthermore, we show that our proposed model is efficient in low-data regimes, making it a promising approach for analyzing whole-slide images in resource-limited settings. To foster research in this direction, we make our code publicly available on GitHub: XXX.
翻訳日:2023-05-12 14:07:15 公開日:2023-05-11
# マルチモードキャビティに強く結合したsu-schrieffer-heeger鎖の多極性エッジ状態

Multiple polaritonic edge states in a Su-Schrieffer-Heeger chain strongly coupled to a multimode cavity ( http://arxiv.org/abs/2305.06956v1 )

ライセンス: Link先を確認
Thomas F. Allard and Guillaume Weick(参考訳) 多モード光キャビティに強く結合した双極子エミッタの2次鎖について研究した。 キャビティのフォトニックな自由度を積分することにより、システムは効果的な長距離結合を持つ2バンドモデルに再キャストされ、非自明な位相位相を特徴とし位相的エッジ状態をホストするパラダイム的なSu-Schrieffer-Heegerモデルのバリエーションを模倣する。 強結合状態において、キャビティ光子は明るい双極子バルク帯を偏光子にハイブリダイズし、固有スペクトルを再正規化し、強いカイラル対称性を破る。 これにより、トポロジカルなバルクバンドに合流している間に、トポロジカルな相に存在するギャップ内エッジ状態が正式に失われる。 しかし興味深いことに、エッジ状態と共振するバルク偏光子はその局在特性の一部を継承し、複数の偏光性エッジ状態が観測される。 これらの状態は辺に完全に局在していないが、特異な性質を示す。 特に、その非局在化されたバルク部は、その分極性の性質から、これらのエッジ状態は効率的な輸送特性を示す。 縮退する代わりにスペクトルの大部分を占め、広い駆動周波数範囲で観測することができる。 さらに、対称性が保護された位相的エッジ状態を連想させるため、対角線外障害に対する耐性が強い。

A dimerized chain of dipolar emitters strongly coupled to a multimode optical cavity is studied. By integrating out the photonic degrees of freedom of the cavity, the system is recast in a two-band model with an effective long-range coupling, so that it mimicks a variation of the paradigmatic Su-Schrieffer-Heeger model, which features a nontrivial topological phase and hosts topological edge states. In the strong-coupling regime, the cavity photons hybridize the bright dipolar bulk band into a polaritonic one, renormalizing the eigenspectrum and strongly breaking chiral symmetry. This leads to a formal loss of the in-gap edge states present in the topological phase while they merge into the polaritonic bulk band. Interestingly, however, we find that bulk polaritons entering in resonance with the edge states inherit part of their localization properties, so that multiple polaritonic edge states are observed. Although these states are not fully localized on the edges, they present unusual properties. In particular, due to their delocalized bulk part, owing from their polaritonic nature, such edge states exhibit efficient transport characteristics. Instead of being degenerate, they occupy a large portion of the spectrum, allowing one to probe them in a wide driving frequency range. Moreover, being reminiscent of symmetry-protected topological edge states, they feature a strong tolerance to off-diagonal disorder.
翻訳日:2023-05-12 14:06:44 公開日:2023-05-11
# fastdiagp : 並列化直接診断のためのアルゴリズム

FastDiagP: An Algorithm for Parallelized Direct Diagnosis ( http://arxiv.org/abs/2305.06951v1 )

ライセンス: Link先を確認
Viet-Man Le, Cristian Vidal Silva, Alexander Felfernig, David Benavides, Jos\'e Galindo, Thi Ngoc Trang Tran(参考訳) 制約ベースのアプリケーションは、定義されたすべてのユーザー要求を満たすソリューションを特定しようとします。 要件が基礎となる制約セットと矛盾しない場合、不整合性制約の診断を計算するアルゴリズムが実装され、「解決策が見つからない」ジレンマを解決するのに役立つ。 FastDiagは、競合を事前に決定せずに診断計算をサポートする典型的な直接診断アルゴリズムである。 しかし、特に複雑で大規模な知識ベースを分析する場合、このアプローチは実行時のパフォーマンス問題に直面する。 本稿では,投機的プログラミングのアイデアに基づく新しいアルゴリズムであるFastDiagPを提案する。 このアルゴリズムはfastdiagが要求する一貫性チェックを予測および事前計算する並列化機構を統合することでfastdiagを拡張する。 このメカニズムは、迅速な回答で一貫性チェックを提供し、アルゴリズムのランタイムパフォーマンスを向上させる。 提案アルゴリズムの性能改善は,linux-2.6.3.33構成知識ベースを用いた実験結果から明らかにされている。

Constraint-based applications attempt to identify a solution that meets all defined user requirements. If the requirements are inconsistent with the underlying constraint set, algorithms that compute diagnoses for inconsistent constraints should be implemented to help users resolve the "no solution could be found" dilemma. FastDiag is a typical direct diagnosis algorithm that supports diagnosis calculation without predetermining conflicts. However, this approach faces runtime performance issues, especially when analyzing complex and large-scale knowledge bases. In this paper, we propose a novel algorithm, so-called FastDiagP, which is based on the idea of speculative programming. This algorithm extends FastDiag by integrating a parallelization mechanism that anticipates and pre-calculates consistency checks requested by FastDiag. This mechanism helps to provide consistency checks with fast answers and boosts the algorithm's runtime performance. The performance improvements of our proposed algorithm have been shown through empirical results using the Linux-2.6.3.33 configuration knowledge base.
翻訳日:2023-05-12 14:06:19 公開日:2023-05-11
# 消滅過程の量子反応制限反応拡散ダイナミクス

Quantum reaction-limited reaction-diffusion dynamics of annihilation processes ( http://arxiv.org/abs/2305.06944v1 )

ライセンス: Link先を確認
Gabriele Perfetto, Federico Carollo, Juan P. Garrahan, Igor Lesanovsky(参考訳) 本研究では, 一次元格子に連続的にホップし, 消滅反応を行うフェルミオン粒子の量子反応拡散ダイナミクスについて検討する。 後者は、ペア2A \to \emptyset$、三重項3A \to \emptyset$、四重項4A \to \emptyset$の損失を含む散逸過程としてモデル化される。 古典的粒子を考えると、それらの密度の時間的減衰は漸近的パワーロー挙動に従う。 1次元における関連する指数は、拡散混合が強すぎて空間相関が関係しない場合の平均場予測とは異なる。 これは特に$a\to \emptyset$に当てはまるが、平均場予測は$3a \to \emptyset$のログ補正を取得し、$4a \to \emptyset$に正確である。 平均場アプローチは、拡散混合が強い場合、いわゆる反応制限レジームにおいて、すべての3つの過程において有効である。 ここでは、量子系では図が全く異なることを示します。 我々は, 量子反応制限理論を考察し, 平均場を超えた3つの過程すべてにおいて, 空間次元とは無関係な量子コヒーレンスの結果としてパワーロー挙動が存在することを示した。 3a\to \emptyset$の場合、さらに、パワーローの振る舞いは中間時間ウィンドウ内でのみ現れ、長い間、密度減衰はパワーローではないことを示す。 この結果は、量子反応拡散力学におけるよりリッチな普遍挙動の起源と、古典的な定式化とは大きく異なることを示している。

We investigate the quantum reaction-diffusion dynamics of fermionic particles which coherently hop in a one-dimensional lattice and undergo annihilation reactions. The latter are modelled as dissipative processes which involve losses of pairs $2A \to \emptyset$, triplets $3A \to \emptyset$ and quadruplets $4A \to \emptyset$ of neighbouring particles. When considering classical particles, the corresponding decay of their density in time follows an asymptotic power-law behavior. The associated exponent in one dimension is different from the mean-field prediction whenever diffusive mixing is not too strong and spatial correlations are relevant. This specifically applies to $2A\to \emptyset$, while the mean-field prediction just acquires a log correction for $3A \to \emptyset$ and is exact for $4A \to \emptyset$. A mean-field approach is also valid, for all the three processes, when the diffusive mixing is strong, i.e., in the so-called reaction-limited regime. Here, we show that the picture is quite different for quantum systems. We consider the quantum reaction-limited regime and we show that for all the three processes power-law behavior beyond mean-field is present as a consequence of quantum coherences, which are not related to space dimensionality. In the case of $3A\to \emptyset$, we further show that power-law behavior only appears within an intermediate time window, while at long times the density decay is not power-law. Our results show the markedly different origin of the richer universal behavior in quantum reaction-diffusion dynamics as compared to its classical formulation.
翻訳日:2023-05-12 14:06:04 公開日:2023-05-11
# SalienDet: 自律運転のための物体検出のためのサリエンシに基づく特徴強調アルゴリズム

SalienDet: A Saliency-based Feature Enhancement Algorithm for Object Detection for Autonomous Driving ( http://arxiv.org/abs/2305.06940v1 )

ライセンス: Link先を確認
Ning Ding, Ce Zhang, Azim Eskandarian(参考訳) 物体検出(OD)は自動運転に不可欠である。 未知の物体は、自動運転車が運用領域を超えて運転することを妨げている理由の1つです。 本稿では,トレーニングサンプルセットに現れない物体を検出するためのsaliendetアルゴリズムを提案する。 SalienDetは、サリエンシに基づくアルゴリズムを使用して、オブジェクトの提案生成のための画像機能を強化する。 そして、未知のオブジェクトを全てのオブジェクトと区別し、オープンワールド検出を実現するためのデータセットレザベリングアプローチを設計する。 kitti、nuscenes、bddのデータセットでsaliendetを評価し、その結果、既存の未知のオブジェクト検出アルゴリズムよりも優れています。 さらに、saliendetは、オープンワールド検出タスクでインクリメンタルな学習に容易に適応できる。

Object detection (OD) is crucial to autonomous driving. Unknown objects are one of the reasons that hinder autonomous vehicles from driving beyond the operational domain. We propose a saliency-based OD algorithm (SalienDet) to detect objects that do not appear in the training sample set. SalienDet utilizes a saliency-based algorithm to enhance image features for object proposal generation. Then, we design a dataset relabeling approach to differentiate the unknown objects from all objects to achieve open-world detection. We evaluate SalienDet on KITTI, NuScenes, and BDD datasets, and the result indicates that it outperforms existing algorithms for unknown object detection. Additionally, SalienDet can be easily adapted for incremental learning in open-world detection tasks.
翻訳日:2023-05-12 14:05:31 公開日:2023-05-11
# anchor graphを用いたディープマルチビューサブスペースクラスタリング

Deep Multi-View Subspace Clustering with Anchor Graph ( http://arxiv.org/abs/2305.06939v1 )

ライセンス: Link先を確認
Chenhang Cui, Yazhou Ren, Jingyu Pu, Xiaorong Pu, Lifang He(参考訳) 深層マルチビューサブスペースクラスタリング(DMVSC)は、その有望な性能のために最近注目を集めている。 しかし,既存のdmvsc手法では,(1)自動エンコーダを使用してデータを非線形に埋め込むことに重点を置いているのに対して,(2)クラスタリングの目的がオートエンコーダではあまり考慮されていないこと,(2)既存の手法では二次的あるいは立方的な複雑性があるため,大規模データを扱うのが難しいこと,の2つの課題が残っている。 そこで本稿では,アンカーグラフ(DMCAG)を用いた深層多視点サブスペースクラスタリング手法を提案する。 具体的に言うと、DMCAGはまず各ビューの埋め込み機能を独立に学習し、サブスペース表現を得るのに使用される。 複雑さを著しく減らすため、各ビューに対して小さいサイズでアンカーグラフを構築する。 そして、統合アンカーグラフ上でスペクトルクラスタリングを行い、擬似ラベルを得る。 準最適埋め込み特徴による負の影響を克服するため、擬似ラベルを用いて埋め込みプロセスを洗練し、クラスタリングタスクに適合させる。 擬似ラベルと埋め込み機能は交互に更新される。 さらに,クラスタリング性能を向上させるために,コントラスト学習に基づくラベルの一貫性を維持する戦略を設計する。 実世界のデータセットに関する実証研究は,本手法が他の最先端手法よりも優れたクラスタリング性能を実現することを示す。

Deep multi-view subspace clustering (DMVSC) has recently attracted increasing attention due to its promising performance. However, existing DMVSC methods still have two issues: (1) they mainly focus on using autoencoders to nonlinearly embed the data, while the embedding may be suboptimal for clustering because the clustering objective is rarely considered in autoencoders, and (2) existing methods typically have a quadratic or even cubic complexity, which makes it challenging to deal with large-scale data. To address these issues, in this paper we propose a novel deep multi-view subspace clustering method with anchor graph (DMCAG). To be specific, DMCAG firstly learns the embedded features for each view independently, which are used to obtain the subspace representations. To significantly reduce the complexity, we construct an anchor graph with small size for each view. Then, spectral clustering is performed on an integrated anchor graph to obtain pseudo-labels. To overcome the negative impact caused by suboptimal embedded features, we use pseudo-labels to refine the embedding process to make it more suitable for the clustering task. Pseudo-labels and embedded features are updated alternately. Furthermore, we design a strategy to keep the consistency of the labels based on contrastive learning to enhance the clustering performance. Empirical studies on real-world datasets show that our method achieves superior clustering performance over other state-of-the-art methods.
翻訳日:2023-05-12 14:05:19 公開日:2023-05-11
# マトリックス因子化のための交互勾配の収束

Convergence of Alternating Gradient Descent for Matrix Factorization ( http://arxiv.org/abs/2305.06927v1 )

ライセンス: Link先を確認
Rachel Ward and Tamara G. Kolda(参考訳) 非対称行列分解の目的に対して, 一定のステップサイズが$\eta > 0$の交互勾配降下 (AGD) を考える。 階数-$r$行列 $\mathbf{A} \in \mathbb{R}^{m \times n}$, $T = \left( \left(\frac{\sigma_1(\mathbf{A})}\right)^2 \log(1/\epsilon)\right)^2 \log(1/\epsilon)\right)$\epsilon$-optimal factorization $\| \mathbf{A}\mathbf{X}_T^{\vphantom {\intercal}} \mathbf{Y}_T^{\vphantom \intercal} \|_{\rm F}^2 \leq \epsilon \mathbf{A} \|F2\rm F}=2\leq \mathbf{A} \mathbf{A})\right)$ $\epsilon$-optimal factorization $\| \mathbf{A}\mathbf{X}_T^{\vphantom \times n}$であることを示す。 これらの因子は$d>r$を付け、$\mathbf{x}_t\in\mathbb{r}^{m \times d}$ と$\mathbf{y}_t \in\mathbb{r}^{n \times d}$ となる。 実験により,提案する初期化は理論上の利点に留まらず,実際には勾配降下の収束を著しく改善することが示唆された。 我々の証明は概念的には単純であり、一様PL不等式と一様リプシッツ滑らか性定数は、我々のランダム初期化から始まる十分数の反復に対して保証される。 本手法は,非凸低ランク因子分解問題のより広いクラスに対する収束解析の拡張と単純化に有用である。

We consider alternating gradient descent (AGD) with fixed step size $\eta > 0$, applied to the asymmetric matrix factorization objective. We show that, for a rank-$r$ matrix $\mathbf{A} \in \mathbb{R}^{m \times n}$, $T = \left( \left(\frac{\sigma_1(\mathbf{A})}{\sigma_r(\mathbf{A})}\right)^2 \log(1/\epsilon)\right)$ iterations of alternating gradient descent suffice to reach an $\epsilon$-optimal factorization $\| \mathbf{A} - \mathbf{X}_T^{\vphantom{\intercal}} \mathbf{Y}_T^{\intercal} \|_{\rm F}^2 \leq \epsilon \| \mathbf{A} \|_{\rm F}^2$ with high probability starting from an atypical random initialization. The factors have rank $d>r$ so that $\mathbf{X}_T\in\mathbb{R}^{m \times d}$ and $\mathbf{Y}_T \in\mathbb{R}^{n \times d}$. Experiments suggest that our proposed initialization is not merely of theoretical benefit, but rather significantly improves convergence of gradient descent in practice. Our proof is conceptually simple: a uniform PL-inequality and uniform Lipschitz smoothness constant are guaranteed for a sufficient number of iterations, starting from our random initialization. Our proof method should be useful for extending and simplifying convergence analyses for a broader class of nonconvex low-rank factorization problems.
翻訳日:2023-05-12 14:04:13 公開日:2023-05-11
# EAML:文書画像分類のための自己注意型相互学習ネットワーク

EAML: Ensemble Self-Attention-based Mutual Learning Network for Document Image Classification ( http://arxiv.org/abs/2305.06923v1 )

ライセンス: Link先を確認
Souhail Bakkali, Ziheng Ming, Mickael Coustaty, Mar\c{c}al Rusi\~nol(参考訳) 近年、複雑なディープニューラルネットワークは、文書画像の分類や文書検索など、様々な文書理解タスクに大きな関心を集めている。 多くの文書タイプが視覚的スタイルが異なるため、文書イメージを分類するための深層CNNによる視覚的特徴のみを学習することは、クラス間差別の低い問題に遭遇し、そのカテゴリ間のクラス内構造の変化が高い。 並行して、文書画像内の対応する視覚特性と共同で学習したテキストレベルの理解により、精度で分類性能が大幅に向上した。 本稿では,自己組織化学習ネットワークのブロックとして機能する自己注意型融合モジュールを設計する。 トレーニングステージを通じて、画像とテキストのモダリティの識別的特徴を同時に学習することができる。 また,訓練段階で画像とテキストの正の知識を伝達することで,相互学習を促進する。 この制約は、従来の教師付き設定に新たな正規化項tr−kld−regを付加することにより実現される。 我々の知る限りでは、文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。 実験結果は,単一モードおよび多モードモードの精度の観点から,本手法の有効性を示す。 そこで,提案手法は,ベンチマークrvl-cdip と tobacco-3482 データセットに基づく最先端の分類結果よりも優れている。

In the recent past, complex deep neural networks have received huge interest in various document understanding tasks such as document image classification and document retrieval. As many document types have a distinct visual style, learning only visual features with deep CNNs to classify document images have encountered the problem of low inter-class discrimination, and high intra-class structural variations between its categories. In parallel, text-level understanding jointly learned with the corresponding visual properties within a given document image has considerably improved the classification performance in terms of accuracy. In this paper, we design a self-attention-based fusion module that serves as a block in our ensemble trainable network. It allows to simultaneously learn the discriminant features of image and text modalities throughout the training stage. Besides, we encourage mutual learning by transferring the positive knowledge between image and text modalities during the training stage. This constraint is realized by adding a truncated-Kullback-Leibler divergence loss Tr-KLD-Reg as a new regularization term, to the conventional supervised setting. To the best of our knowledge, this is the first time to leverage a mutual learning approach along with a self-attention-based fusion module to perform document image classification. The experimental results illustrate the effectiveness of our approach in terms of accuracy for the single-modal and multi-modal modalities. Thus, the proposed ensemble self-attention-based mutual learning model outperforms the state-of-the-art classification results based on the benchmark RVL-CDIP and Tobacco-3482 datasets.
翻訳日:2023-05-12 14:03:08 公開日:2023-05-11
# 3層ニューラルネットワークにおける非線形特徴学習の証明可能保証

Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural Networks ( http://arxiv.org/abs/2305.06986v1 )

ライセンス: Link先を確認
Eshaan Nichani, Alex Damian, Jason D. Lee(参考訳) ディープラーニング理論における中心的な疑問の1つは、ニューラルネットワークが階層的特徴をどのように学習するかを理解することである。 有能な特徴を抽出する深層ネットワークの能力は、その卓越した一般化能力と、事前学習と微調整の近代的な深層学習パラダイムの両方に不可欠である。 しかし、この特徴学習プロセスは理論的観点からはほとんど理解されておらず、既存の分析は2層ネットワークに限られている。 本研究では,3層ニューラルネットワークが2層ネットワークよりも機能学習能力に富んでいることを示す。 階層的勾配勾配勾配を学習した3層ネットワークで得られた特徴を解析し,対象が特定の階層構造を持つ場合の試験誤差の低減に要するサンプルの複雑さと幅を上限とする汎用定理を提案する。 我々は,このフレームワークを,特定の統計的学習環境(単一インデックスモデルと二次特徴関数)でインスタンス化し,後者の設定では,2層ネットワークに対する既存の保証すべてに対して,より複雑なサンプルが得られることを示す。 このサンプルの複雑さの改善は、3層ネットワークが非線形特徴を効率的に学習する能力に依存している。 次に,3層ネットワーク上で勾配降下により効率的に学習できるが,2層ネットワークでは効率的に学習できない関数を構築することにより,具体的最適化に基づく深さ分離を実現する。 我々の研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能な利点を理解するために前進している。

One of the central questions in the theory of deep learning is to understand how neural networks learn hierarchical features. The ability of deep networks to extract salient features is crucial to both their outstanding generalization ability and the modern deep learning paradigm of pretraining and finetuneing. However, this feature learning process remains poorly understood from a theoretical perspective, with existing analyses largely restricted to two-layer networks. In this work we show that three-layer neural networks have provably richer feature learning capabilities than two-layer networks. We analyze the features learned by a three-layer network trained with layer-wise gradient descent, and present a general purpose theorem which upper bounds the sample complexity and width needed to achieve low test error when the target has specific hierarchical structure. We instantiate our framework in specific statistical learning settings -- single-index models and functions of quadratic features -- and show that in the latter setting three-layer networks obtain a sample complexity improvement over all existing guarantees for two-layer networks. Crucially, this sample complexity improvement relies on the ability of three-layer networks to efficiently learn nonlinear features. We then establish a concrete optimization-based depth separation by constructing a function which is efficiently learnable via gradient descent on a three-layer network, yet cannot be learned efficiently by a two-layer network. Our work makes progress towards understanding the provable benefit of three-layer neural networks over two-layer networks in the feature learning regime.
翻訳日:2023-05-12 13:57:37 公開日:2023-05-11
# 大規模言語モデルにおけるオープンドメイン質問応答の評価

Evaluating Open-Domain Question Answering in the Era of Large Language Models ( http://arxiv.org/abs/2305.06984v1 )

ライセンス: Link先を確認
Ehsan Kamalloo, Nouha Dziri, Charles L. A. Clarke, Davood Rafiei(参考訳) 語彙マッチングは、オープンドメイン質問応答(QA)のデファクト評価方法として残っている。 残念なことに、論理的マッチングは、金の答えリストにプラウチブル候補の答えが現れない場合に完全に失敗し、抽出モデルから生成モデルへ移行するにつれて、ますますその傾向が増す。 近年の大規模言語モデル (LLMs) の成功により、候補解が長くなると語彙的マッチングの失敗が増加し、ゴールド解とのマッチングはさらに困難になる。 正確な評価がなければ、オープンドメインQAの真の進歩は分かっていない。 本稿では,一般的なベンチマークであるNQ-openのサブセットを手動で評価することにより,LLMを含む様々なオープンドメインQAモデルの徹底的な分析を行う。 私たちの評価では、すべてのモデルの真のパフォーマンスは著しく過小評価されているものの、instructgpt (zero-shot) llmのパフォーマンスは60%近く向上し、既存のトップモデルと同等になり、instructgpt (few-shot) モデルはnq-openの新たな最先端を実際に達成しています。 また、語彙マッチング失敗の50%以上が意味論的に等価な答えによるものであることが判明した。 さらに、不必要な厳密さに悩まされているにもかかわらず、人間の判断と整合したランクQAモデルを示す。 最後に, 自動評価モデルは, LLM が生成する長文解に対してではなく, 語彙マッチングのための合理的なサロゲートであることを示す。 自動モデルはLLM回答の幻覚を検出するのに苦労し、LLMを評価することができない。 現段階では、人間の評価に代わるものはないようである。

Lexical matching remains the de facto evaluation method for open-domain question answering (QA). Unfortunately, lexical matching fails completely when a plausible candidate answer does not appear in the list of gold answers, which is increasingly the case as we shift from extractive to generative models. The recent success of large language models (LLMs) for QA aggravates lexical matching failures since candidate answers become longer, thereby making matching with the gold answers even more challenging. Without accurate evaluation, the true progress in open-domain QA remains unknown. In this paper, we conduct a thorough analysis of various open-domain QA models, including LLMs, by manually evaluating their answers on a subset of NQ-open, a popular benchmark. Our assessments reveal that while the true performance of all models is significantly underestimated, the performance of the InstructGPT (zero-shot) LLM increases by nearly +60%, making it on par with existing top models, and the InstructGPT (few-shot) model actually achieves a new state-of-the-art on NQ-open. We also find that more than 50% of lexical matching failures are attributed to semantically equivalent answers. We further demonstrate that regex matching ranks QA models consistent with human judgments, although still suffering from unnecessary strictness. Finally, we demonstrate that automated evaluation models are a reasonable surrogate for lexical matching in some circumstances, but not for long-form answers generated by LLMs. The automated models struggle in detecting hallucinations in LLM answers and are thus unable to evaluate LLMs. At this time, there appears to be no substitute for human evaluation.
翻訳日:2023-05-12 13:57:12 公開日:2023-05-11
# アクティブ検索強化世代

Active Retrieval Augmented Generation ( http://arxiv.org/abs/2305.06983v1 )

ライセンス: Link先を確認
Zhengbao Jiang, Frank F. Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan, Graham Neubig(参考訳) 大きな言語モデル(LM)が言語を理解して生成する驚くべき能力にもかかわらず、彼らは幻覚を与え、事実的に不正確な出力を作り出す傾向にある。 外部知識資源から情報を取得することでlmsを増強することは有望な解決策である。 ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索生成設定を採用している。 しかし、長いテキストを生成する一般的なシナリオでは、生成プロセスを通して継続的に情報を収集することが不可欠である。 出力を生成しながら情報を複数回取得する試みは過去にも行われており、ほとんどの場合、以前のコンテキストをクエリとして使用して一定間隔で文書を検索する。 本研究は, アクティブ検索拡張生成の汎用的ビューを提供し, 生成過程をまたいでいつ, どのように検索するかを積極的に決定する手法を提案する。 提案するFLARE(Forward-Looking Active Retrieval augmented generation)は,次の文の予測を反復的に利用して将来の内容を予測し,低信頼トークンを含む場合,関連する文書を検索して文を再生するクエリとして利用する汎用検索拡張生成手法である。 FLAREを4つの長い知識集約型タスク/データセットに包括的にベースラインとともにテストする。 FLAREは,全タスクにおいて優れた,あるいは競争的な性能を達成し,本手法の有効性を実証する。 コードとデータセットはhttps://github.com/jzbjyb/flareで入手できる。

Despite the remarkable ability of large language models (LMs) to comprehend and generate language, they have a tendency to hallucinate and create factually inaccurate output. Augmenting LMs by retrieving information from external knowledge resources is one promising solution. Most existing retrieval-augmented LMs employ a retrieve-and-generate setup that only retrieves information once based on the input. This is limiting, however, in more general scenarios involving generation of long texts, where continually gathering information throughout the generation process is essential. There have been some past efforts to retrieve information multiple times while generating outputs, which mostly retrieve documents at fixed intervals using the previous context as queries. In this work, we provide a generalized view of active retrieval augmented generation, methods that actively decide when and what to retrieve across the course of the generation. We propose Forward-Looking Active REtrieval augmented generation (FLARE), a generic retrieval-augmented generation method which iteratively uses a prediction of the upcoming sentence to anticipate future content, which is then utilized as a query to retrieve relevant documents to regenerate the sentence if it contains low-confidence tokens. We test FLARE along with baselines comprehensively over 4 long-form knowledge-intensive generation tasks/datasets. FLARE achieves superior or competitive performance on all tasks, demonstrating the effectiveness of our method. Code and datasets are available at https://github.com/jzbjyb/FLARE.
翻訳日:2023-05-12 13:56:43 公開日:2023-05-11
# meta-hallucinator : 数発交叉モダリティ心筋画像セグメンテーションに向けて

Meta-hallucinator: Towards Few-Shot Cross-Modality Cardiac Image Segmentation ( http://arxiv.org/abs/2305.06978v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Fangcheng Zhou, Zeng Zeng, Cuntai Guan, S. Kevin Zhou(参考訳) ドメインシフトとラベル不足は、さまざまな医用画像解析タスクにディープラーニングを強く制限する。 unsupervised domain adaptation (uda)技術は最近、ラベルの多いソースドメインからラベルなしのターゲットドメインに知識を転送することで、クロスモダリティな医療画像セグメンテーションを実現している。 しかし、多くの臨床応用において、ソースドメインからのアノテーションの収集も困難であり、特に少数のソースラベルしかアクセスできない数ショットのシナリオにおいて、ほとんどの先行作品がラベルスカースソースドメインに最適である。 そこで本稿では,データ分散の多様化とクロスモダリティ性能向上のための有用な例の生成を目的として,新しい変換一貫性を持つメタハルーシネータであるmeta-hallucinatorを提案する。 本フレームワークでは, 幻覚とセグメンテーションモデルと, 勾配に基づくメタラーニング戦略を併用して, 対象領域でのセグメンテーション性能を向上する例を合成する。 さらに,データ幻覚とクロスドメイン知識伝達を容易にするために,幻覚一貫性を有する自己感覚モデルを開発した。 メタハルーシネータはメタセグメンタとシームレスにコラボレーションして,メタ学習と自己センシング学習の複合的な視点から相互利益を分かち合うことができる。 MM-WHS 2017データセットの多種間心筋セグメンテーションに関する広範な研究により,本手法は多種多様なアプローチに対して有効であることが示された。

Domain shift and label scarcity heavily limit deep learning applications to various medical image analysis tasks. Unsupervised domain adaptation (UDA) techniques have recently achieved promising cross-modality medical image segmentation by transferring knowledge from a label-rich source domain to an unlabeled target domain. However, it is also difficult to collect annotations from the source domain in many clinical applications, rendering most prior works suboptimal with the label-scarce source domain, particularly for few-shot scenarios, where only a few source labels are accessible. To achieve efficient few-shot cross-modality segmentation, we propose a novel transformation-consistent meta-hallucination framework, meta-hallucinator, with the goal of learning to diversify data distributions and generate useful examples for enhancing cross-modality performance. In our framework, hallucination and segmentation models are jointly trained with the gradient-based meta-learning strategy to synthesize examples that lead to good segmentation performance on the target domain. To further facilitate data hallucination and cross-domain knowledge transfer, we develop a self-ensembling model with a hallucination-consistent property. Our meta-hallucinator can seamlessly collaborate with the meta-segmenter for learning to hallucinate with mutual benefits from a combined view of meta-learning and self-ensembling learning. Extensive studies on MM-WHS 2017 dataset for cross-modality cardiac segmentation demonstrate that our method performs favorably against various approaches by a lot in the few-shot UDA scenario.
翻訳日:2023-05-12 13:56:19 公開日:2023-05-11
# freepoint: 教師なしのpoint cloudインスタンスセグメンテーション

FreePoint: Unsupervised Point Cloud Instance Segmentation ( http://arxiv.org/abs/2305.06973v1 )

ライセンス: Link先を確認
Zhikai Zhang, Jian Ding, Li Jiang, Dengxin Dai, Gui-Song Xia(参考訳) ポイントクラウドのインスタンスセグメンテーションは、シーン内のオブジェクトのローカライズとセグメンテーションを含む多くのアプリケーションで、3Dフィールドにおいて重要なタスクである。 しかし、十分な結果を達成するには、多くの手動のアノテーションが必要です。 アノテーションへの依存を軽減するため、ポイントクラウド上の教師なしクラス非依存のインスタンスセグメンテーションを探索するFreePointという手法を提案する。 具体的には,座標,色,正規値,自己教師付き深層特徴を組み合わせることで,点特徴を表現する。 ポイント特徴に基づいて、ポイントクラウドを擬似ラベルとして粗いインスタンスマスクに分割するマルチカットアルゴリズムを実行し、ポイントクラウドインスタンスセグメンテーションモデルをトレーニングする。 トレーニング中の粗いマスクの不正確さを軽減するため,弱い教師付きトレーニング戦略とそれに対応する損失を提案する。 私たちの作業は、限定されたアノテーションによるセマンティックインスタンスセグメンテーションの教師なし事前学習プリテキストとしても機能します。 ポイントクラウド上のクラスに依存しないインスタンスセグメンテーションでは、FreePointは最先端のインスタンスセグメンテーションモデルMask3Dに基づいて、完全に教師されたメソッドとギャップを埋める。 プリテキストタスクとして機能し、S3DISの微調整を行う場合、FreePointはトレーニングをスクラッチから5.8%APで上回り、マスクアノテーションは10%に過ぎない。

Instance segmentation of point clouds is a crucial task in 3D field with numerous applications that involve localizing and segmenting objects in a scene. However, achieving satisfactory results requires a large number of manual annotations, which is a time-consuming and expensive process. To alleviate dependency on annotations, we propose a method, called FreePoint, for underexplored unsupervised class-agnostic instance segmentation on point clouds. In detail, we represent the point features by combining coordinates, colors, normals, and self-supervised deep features. Based on the point features, we perform a multicut algorithm to segment point clouds into coarse instance masks as pseudo labels, which are used to train a point cloud instance segmentation model. To alleviate the inaccuracy of coarse masks during training, we propose a weakly-supervised training strategy and corresponding loss. Our work can also serve as an unsupervised pre-training pretext for supervised semantic instance segmentation with limited annotations. For class-agnostic instance segmentation on point clouds, FreePoint largely fills the gap with its fully-supervised counterpart based on the state-of-the-art instance segmentation model Mask3D and even surpasses some previous fully-supervised methods. When serving as a pretext task and fine-tuning on S3DIS, FreePoint outperforms training from scratch by 5.8% AP with only 10% mask annotations.
翻訳日:2023-05-12 13:55:51 公開日:2023-05-11
# 大きな言語モデルを使って、槍フィッシングキャンペーンを効果的にスケールできる

Large Language Models Can Be Used To Effectively Scale Spear Phishing Campaigns ( http://arxiv.org/abs/2305.06972v1 )

ライセンス: Link先を確認
Julian Hazell(参考訳) 人工知能(AI)の最近の進歩、特に大規模言語モデル(LLM)の領域は、強力で汎用的なデュアルユースシステムを生み出している。 実際、認知は様々なタスクに向けられ、そのうちのいくつかは害をもたらす可能性がある。 本研究は、標的を操り機密情報を漏らすことを含む、一般的なサイバー犯罪である槍フィッシング(spier phishing)に、llmをいかに使用できるかを調査した。 先進的なLSMがサイバー犯罪の効率を有意義に向上させることができることが分かり、私はまず、スピアフィッシング攻撃の成功に対する偵察およびメッセージ生成の段階を支援するLLMの能力について検討した。 次に,OpenAI の GPT-3.5 および GPT-4 モデルを用いて,600 人以上の英国議会議員に対して,ユニークなスピアフィッシングメッセージを作成することにより,実証実験を行った。 私の発見によると、これらのメッセージは現実的だけでなく、コスト効率も著しく高く、それぞれのメールは生成にわずか1セントしかかからない。 次に、人間のフィードバックによる微調整プロセスからの強化学習により、LLMにインストールされた安全ガードを回避するための基本的なプロンプトエンジニアリングを実証し、誤用を緩和するためのより堅牢なガバナンス介入の必要性を強調します。 この進化するリスクに対処するために、アプリケーションプログラミングインタフェースのような構造化アクセススキームとLLMベースの防御システムという2つの潜在的解決策を提案する。

Recent progress in artificial intelligence (AI), particularly in the domain of large language models (LLMs), has resulted in powerful and versatile dual-use systems. Indeed, cognition can be put towards a wide variety of tasks, some of which can result in harm. This study investigates how LLMs can be used for spear phishing, a prevalent form of cybercrime that involves manipulating targets into divulging sensitive information. I first explore LLMs' ability to assist with the reconnaissance and message generation stages of a successful spear phishing attack, where I find that advanced LLMs are capable of meaningfully improving cybercriminals' efficiency during these stages. Next, I conduct an empirical test by creating unique spear phishing messages for over 600 British Members of Parliament using OpenAI's GPT-3.5 and GPT-4 models. My findings reveal that these messages are not only realistic but also remarkably cost-effective, as each email cost only a fraction of a cent to generate. Next, I demonstrate how basic prompt engineering can circumvent safeguards installed in LLMs by the reinforcement learning from human feedback fine-tuning process, highlighting the need for more robust governance interventions aimed at mitigating misuse. To address these evolving risks, I propose two potential solutions: structured access schemes, such as application programming interfaces, and LLM-based defensive systems.
翻訳日:2023-05-12 13:55:25 公開日:2023-05-11
# 機械学習における交叉的公平性に関する調査--概念,緩和,課題

A Survey on Intersectional Fairness in Machine Learning: Notions, Mitigation, and Challenges ( http://arxiv.org/abs/2305.06969v1 )

ライセンス: Link先を確認
Usman Gohar, Lu Cheng(参考訳) 機械学習システムの普及は、特に刑事判決や銀行ローンといったより決定クリティカルなアプリケーションにおいて、公正性に関する懸念が高まっている。 これらの差別を緩和し、測定するためにアルゴリズムとメトリクスが開発されている。 より最近では、人種や性別といった複数の敏感な属性を包含する交叉バイアスと呼ばれる、より困難なバイアスの形式が特定されている。 本稿では,交差点フェアネスにおける最先端技術について概観する。 公平さと緩和の交叉観念に関する分類を提示する。 最後に、重要な課題を特定し、研究者に今後の方向性に関するガイドラインを提供する。

The widespread adoption of Machine Learning systems, especially in more decision-critical applications such as criminal sentencing and bank loans, has led to increased concerns about fairness implications. Algorithms and metrics have been developed to mitigate and measure these discriminations. More recently, works have identified a more challenging form of bias called intersectional bias, which encompasses multiple sensitive attributes, such as race and gender, together. In this survey, we review the state-of-the-art in intersectional fairness. We present a taxonomy for intersectional notions of fairness and mitigation. Finally, we identify the key challenges and provide researchers with guidelines for future directions.
翻訳日:2023-05-12 13:54:59 公開日:2023-05-11
# 人為流:人間のポーズと形状分布推定のためのso(3)多様体上の祖先条件付き正規化流れ

HuManiFlow: Ancestor-Conditioned Normalising Flows on SO(3) Manifolds for Human Pose and Shape Distribution Estimation ( http://arxiv.org/abs/2305.06968v1 )

ライセンス: Link先を確認
Akash Sengupta and Ignas Budvytis and Roberto Cipolla(参考訳) 複数の3次元解が被写体の2次元像を説明できるため、単眼的なポーズと形状推定は不適切な問題である。 近年のアプローチでは、画像上の3Dポーズと形状パラメータの確率分布が予測されている。 これらのアプローチは、3つの重要な性質の間のトレードオフを示す。 (i)精度 - 予測分布下での地上3次元解の可能性。 (ii) サンプル・インプットの一貫性 予測分布からの3dサンプルが可視2d画像証拠と一致する程度 (iii) サンプル多様性 - 予測分布をモデルとした3次元解の範囲。 提案手法であるhumaniflowは, 精度, 一貫性, 多様な分布を同時に予測する。 我々は,ヒトのキネマティックツリーを用いて,全身のポーズを祖先条件の個体ごとのポーズ分布に自己回帰的に分解する。 体-部分分布は、体-部分のリー群であるso(3)の多様体構造を尊重する正規化フローを用いて実装される。 これらの結果から, 3次元点推定損失はサンプルの多様性を低下させ, 確率的トレーニング損失のみを生かすことがわかった。 コードはhttps://github.com/akashsengupta1997/humaniflowで入手できる。

Monocular 3D human pose and shape estimation is an ill-posed problem since multiple 3D solutions can explain a 2D image of a subject. Recent approaches predict a probability distribution over plausible 3D pose and shape parameters conditioned on the image. We show that these approaches exhibit a trade-off between three key properties: (i) accuracy - the likelihood of the ground-truth 3D solution under the predicted distribution, (ii) sample-input consistency - the extent to which 3D samples from the predicted distribution match the visible 2D image evidence, and (iii) sample diversity - the range of plausible 3D solutions modelled by the predicted distribution. Our method, HuManiFlow, predicts simultaneously accurate, consistent and diverse distributions. We use the human kinematic tree to factorise full body pose into ancestor-conditioned per-body-part pose distributions in an autoregressive manner. Per-body-part distributions are implemented using normalising flows that respect the manifold structure of SO(3), the Lie group of per-body-part poses. We show that ill-posed, but ubiquitous, 3D point estimate losses reduce sample diversity, and employ only probabilistic training losses. Code is available at: https://github.com/akashsengupta1997/HuManiFlow.
翻訳日:2023-05-12 13:54:50 公開日:2023-05-11
# fair aiのためのデータ品質次元

Data quality dimensions for fair AI ( http://arxiv.org/abs/2305.06967v1 )

ライセンス: Link先を確認
Camilla Quaresmini, Giuseppe Primiero(参考訳) AIシステムは本質的に中立ではなく、あらゆる種類の技術ツールに偏見がある。 特に人を扱う場合、aiアルゴリズムは誤ったラベルデータに由来する技術的な誤りを反映している。 間違った分類や差別的な分類、構造的人種差別や辺境化を繰り返すため、これらのシステムは体系的にバイアスから守られていない。 本稿では,AIシステムにおけるバイアスの問題について,情報品質の観点から考察する。 性別分類の誤りにおけるバイアス軽減ツールの潜在的な改善について,非バイナリの個人分類とトランスジェンダーの個人分類の2つに言及した。 バイアス軽減ツールで実装するデータ品質次元の識別は、より公平性を達成するのに役立つかもしれない。 そこで本研究では, 完全性, 一貫性, タイムライン, 信頼性の観点から考察し, 理論的結果を提供する。

AI systems are not intrinsically neutral and biases trickle in any type of technological tool. In particular when dealing with people, AI algorithms reflect technical errors originating with mislabeled data. As they feed wrong and discriminatory classifications, perpetuating structural racism and marginalization, these systems are not systematically guarded against bias. In this article we consider the problem of bias in AI systems from the point of view of Information Quality dimensions. We illustrate potential improvements of a bias mitigation tool in gender classification errors, referring to two typically difficult contexts: the classification of non-binary individuals and the classification of transgender individuals. The identification of data quality dimensions to implement in bias mitigation tool may help achieve more fairness. Hence, we propose to consider this issue in terms of completeness, consistency, timeliness and reliability, and offer some theoretical results.
翻訳日:2023-05-12 13:54:32 公開日:2023-05-11
# モノプラナー・バイプラナー・ラジオグラフィーからのCT再構成用トランスフォーマ

Transformers for CT Reconstruction From Monoplanar and Biplanar Radiographs ( http://arxiv.org/abs/2305.06965v1 )

ライセンス: Link先を確認
Firas Khader, Gustav M\"uller-Franzes, Tianyu Han, Sven Nebelung, Christiane Kuhl, Johannes Stegmaier, Daniel Truhn(参考訳) CT(Computed Tomography)スキャンは、体内構造の詳細と正確な情報を提供する。 異なる方向からx線を体内に送信し、この情報を3次元ボリュームに組み合わせて構成する。 このようなボリュームは、広い範囲の病態を診断し、臓器の体積測定を可能にするために使用できる。 本研究では,バイプレナーX線のみからのCT画像再構成の問題に取り組む。 X線は広く利用されており、これらのX線写真から再構成されたCTが、診断において完全なCTの代替ではないとしても、CTが臓器の大きさを決定するような粗い測定のためにのみ取得される放射線から患者を遠ざけるのに役立つかもしれない。 本稿では,言語翻訳問題として基礎となるタスクをフレーミングすることで,トランスフォーマーアーキテクチャに基づく新しい手法を提案する。 ラジオグラフとCT画像は、まず2つの異なるオートエンコーダネットワークを用いて遅延量子化されたコードブックベクトルに埋め込まれる。 次に、GPTモデルをトレーニングし、CT画像のコードブックベクトルを再構成し、X線のコードブックベクトルに条件付けし、このアプローチが現実的な画像につながることを示す。 この方向のさらなる研究を促進するため、私たちのコードをGitHubで公開しています。

Computed Tomography (CT) scans provide detailed and accurate information of internal structures in the body. They are constructed by sending x-rays through the body from different directions and combining this information into a three-dimensional volume. Such volumes can then be used to diagnose a wide range of conditions and allow for volumetric measurements of organs. In this work, we tackle the problem of reconstructing CT images from biplanar x-rays only. X-rays are widely available and even if the CT reconstructed from these radiographs is not a replacement of a complete CT in the diagnostic setting, it might serve to spare the patients from radiation where a CT is only acquired for rough measurements such as determining organ size. We propose a novel method based on the transformer architecture, by framing the underlying task as a language translation problem. Radiographs and CT images are first embedded into latent quantized codebook vectors using two different autoencoder networks. We then train a GPT model, to reconstruct the codebook vectors of the CT image, conditioned on the codebook vectors of the x-rays and show that this approach leads to realistic looking images. To encourage further research in this direction, we make our code publicly available on GitHub: XXX.
翻訳日:2023-05-12 13:54:17 公開日:2023-05-11
# 暗黙の深さによる仮想オクルージョン

Virtual Occlusions Through Implicit Depth ( http://arxiv.org/abs/2305.07014v1 )

ライセンス: Link先を確認
Jamie Watson and Mohamed Sayed and Zawar Qureshi and Gabriel J. Brostow and Sara Vicente and Oisin Mac Aodha and Michael Firman(参考訳) 拡張現実(AR)にとって、仮想資産は「現実世界の物体の間にいる」ように見えることが重要である。 仮想要素は、プラウシブルな深度順序に基づいて、様々な遮蔽と実物による遮蔽をすべきである。 この閉塞は、視聴者のカメラの動きと時間とともに一貫性を持つべきである。 残念なことに、推定されたシーン深度の小さなミスは、下流のオクルージョンマスクを台無しにし、ar錯覚を引き起こす可能性がある。 特にリアルタイム設定では、境界付近や時間を越えた深さが矛盾する可能性がある。 本稿では,中間段階として深度回帰の必要性に挑戦する。 そこで我々は奥行きの暗黙のモデルを提案し,それを用いて咬合マスクを直接予測する。 ネットワークへの入力は1つ以上のカラーイメージと、任意の仮想幾何学の既知の深さです。 従来の深さ推定モデルによる予測よりも咬合予測が正確で時間的に安定であることを示す。 難解なscannetv2データセットにおける最先端のオクルージョン結果と実場面の質的評価結果を得た。

For augmented reality (AR), it is important that virtual assets appear to `sit among' real world objects. The virtual element should variously occlude and be occluded by real matter, based on a plausible depth ordering. This occlusion should be consistent over time as the viewer's camera moves. Unfortunately, small mistakes in the estimated scene depth can ruin the downstream occlusion mask, and thereby the AR illusion. Especially in real-time settings, depths inferred near boundaries or across time can be inconsistent. In this paper, we challenge the need for depth-regression as an intermediate step. We instead propose an implicit model for depth and use that to predict the occlusion mask directly. The inputs to our network are one or more color images, plus the known depths of any virtual geometry. We show how our occlusion predictions are more accurate and more temporally stable than predictions derived from traditional depth-estimation models. We obtain state-of-the-art occlusion results on the challenging ScanNetv2 dataset and superior qualitative results on real scenes.
翻訳日:2023-05-12 13:47:36 公開日:2023-05-11
# 視覚トランスフォーマーを用いた開語彙物体検出のための領域認識事前学習

Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers ( http://arxiv.org/abs/2305.07011v1 )

ライセンス: Link先を確認
Dahun Kim, Anelia Angelova, Weicheng Kuo(参考訳) 本稿では,画像レベルのプリトレーニングとオープンボキャブラリオブジェクト検出のギャップを埋めるために,画像テキストプリトレーニングレシピであるro-vit(region-aware open-vocabulary vision transformers)を提案する。 プレトレーニング段階では,画像全体の位置埋め込みを使わずに,位置埋め込みの領域をランダムに収穫・再サイズすることを提案する。 これは検出微調整フェーズにおける領域レベルでの位置埋め込みの使用に合致する。 さらに,比較学習におけるソフトマックスクロスエントロピー損失を焦点損失に置き換え,情報的かつ難解な例をよりよく学習する。 最後に、新しいオブジェクト提案の最近の進歩を活用して、オープン語彙検出の微調整を改善する。 LVIS と COCO の開語彙検出ベンチマークとゼロショット転送における全モデルの評価を行った。 RO-ViT は LVIS 上の最先端の 32.1 $AP_r$ を達成し、競合するゼロショット転送検出に加えて、+5.8 の点で最高のアプローチを上回っている。 驚いたことに、RO-ViTは画像レベルの表現も改善し、COCOとFlickrの画像テキスト検索ベンチマーク上の12のメトリクスのうち9のテクニックの状態を達成している。

We present Region-aware Open-vocabulary Vision Transformers (RO-ViT) - a contrastive image-text pretraining recipe to bridge the gap between image-level pretraining and open-vocabulary object detection. At the pretraining phase, we propose to randomly crop and resize regions of positional embeddings instead of using the whole image positional embeddings. This better matches the use of positional embeddings at region-level in the detection finetuning phase. In addition, we replace the common softmax cross entropy loss in contrastive learning with focal loss to better learn the informative yet difficult examples. Finally, we leverage recent advances in novel object proposals to improve open-vocabulary detection finetuning. We evaluate our full model on the LVIS and COCO open-vocabulary detection benchmarks and zero-shot transfer. RO-ViT achieves a state-of-the-art 32.1 $AP_r$ on LVIS, surpassing the best existing approach by +5.8 points in addition to competitive zero-shot transfer detection. Surprisingly, RO-ViT improves the image-level representation as well and achieves the state of the art on 9 out of 12 metrics on COCO and Flickr image-text retrieval benchmarks, outperforming competitive approaches with larger models.
翻訳日:2023-05-12 13:47:21 公開日:2023-05-11
# 対称適応摂動理論のためのフォールトトレラント量子アルゴリズム

Fault-tolerant quantum algorithm for symmetry-adapted perturbation theory ( http://arxiv.org/abs/2305.07009v1 )

ライセンス: Link先を確認
Cristian L. Cortes, Matthias Loipersberger, Robert M. Parrish, Sam Morley-Short, William Pol, Sukin Sim, Mark Steudtner, Christofer S. Tautermann, Matthias Degroote, Nikolaj Moll, Raffaele Santagati, Michael Streif(参考訳) 総エネルギーを超えた可観測性の効率的な計算は、量子化学におけるフォールトトレラント量子コンピューティングアプローチの重要な課題と機会である。 ここでは、相互作用エネルギーの対称性適応摂動理論(SAPT)成分を、そのような可観測物の原型的な例と考える。 必要な計算資源を最適化しながら、フォールトトレラント量子コンピュータ上で観測可能な計算を行うためのガイドを提供する。 具体的には,1次SAPTレベルでの相互作用エネルギーをハイゼンベルク制限スケーリングで推定する量子アルゴリズムを提案する。 この目的のために,各saptを効率的に表現できる高次テンソル分解およびブロック符号化技術を利用する。 提案手法の計算コストを定量化するために,一連のベンチマーク分子に対するアルゴリズムの実行に必要な論理量子ビット数とToffoliゲート数から資源推定値を提供するとともに,固有状態生成のコストとSAPTオブザーバブルを符号化するブロックのコストを考慮に入れた。 最後に, ヘムおよびアルテミシニン複合体の資源推定をドラッグデザインで発生する大規模システムとして行い, 本ベンチマークにおけるアルゴリズムの性能を強調し, 今後の研究で改善される可能性のあるボトルネックについて考察する。

The efficient computation of observables beyond the total energy is a key challenge and opportunity for fault-tolerant quantum computing approaches in quantum chemistry. Here we consider the symmetry-adapted perturbation theory (SAPT) components of the interaction energy as a prototypical example of such an observable. We provide a guide for calculating this observable on a fault-tolerant quantum computer while optimizing the required computational resources. Specifically, we present a quantum algorithm that estimates interaction energies at the first-order SAPT level with a Heisenberg-limited scaling. To this end, we exploit a high-order tensor factorization and block encoding technique that efficiently represents each SAPT observable. To quantify the computational cost of our methodology, we provide resource estimates in terms of the required number of logical qubits and Toffoli gates to execute our algorithm for a range of benchmark molecules, also taking into account the cost of the eigenstate preparation and the cost of block encoding the SAPT observables. Finally, we perform the resource estimation for a heme and artemisinin complex as a representative large-scale system encountered in drug design, highlighting our algorithm's performance in this new benchmark study and discussing possible bottlenecks that may be improved in future work.
翻訳日:2023-05-12 13:46:58 公開日:2023-05-11
# サブワードセグメンテーション機械翻訳:セグメンテーションとターゲット文生成の統合

Subword Segmental Machine Translation: Unifying Segmentation and Target Sentence Generation ( http://arxiv.org/abs/2305.07005v1 )

ライセンス: Link先を確認
Francois Meyer, Jan Buys(参考訳) BPEのようなサブワードセグメンタは、ニューラルマシン翻訳やその他の(条件付き)言語モデルにおける前処理ステップとして動作する。 トレーニング前にデータセットに適用されるので、翻訳やテキスト生成の品質はセグメンテーションの品質に依存します。 本稿では,このパラダイムからの脱却を,ssmt(subword segmental machine translation)と呼ぶ。 SSMTはサブワードセグメンテーションとMTを単一のトレーニング可能なモデルに統合する。 ターゲット文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。 SSMTを推論時に使用するために,テキスト生成アルゴリズムである動的復号法を提案する。 6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。 利益は、非常に低リソースのシナリオで最強です。 SSMTはまた、ベースラインと比較して形態素に近いサブワードを学習し、形態素合成の一般化を評価するために構築されたテストセット上でより堅牢であることを示す。

Subword segmenters like BPE operate as a preprocessing step in neural machine translation and other (conditional) language models. They are applied to datasets before training, so translation or text generation quality relies on the quality of segmentations. We propose a departure from this paradigm, called subword segmental machine translation (SSMT). SSMT unifies subword segmentation and MT in a single trainable model. It learns to segment target sentence words while jointly learning to generate target sentences. To use SSMT during inference we propose dynamic decoding, a text generation algorithm that adapts segmentations as it generates translations. Experiments across 6 translation directions show that SSMT improves chrF scores for morphologically rich agglutinative languages. Gains are strongest in the very low-resource scenario. SSMT also learns subwords that are closer to morphemes compared to baselines and proves more robust on a test set constructed for evaluating morphological compositional generalisation.
翻訳日:2023-05-12 13:46:35 公開日:2023-05-11
# LLMでは全ての言語が等しく作成されるわけではない: 言語間対話による多言語能力の向上

Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting ( http://arxiv.org/abs/2305.07004v1 )

ライセンス: Link先を確認
Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, Furu Wei(参考訳) 大規模言語モデル(LLM)は印象的な多言語機能を示すが、その性能は言語によって大きく異なる。 本研究では,LLMの多言語機能を改善するために,XLT (cross-lingual- Thought prompting) と呼ばれるシンプルだが効果的な手法を提案する。 具体的には、XLTは言語間および論理的推論スキルを刺激し、言語間のタスクパフォーマンスを向上させる汎用テンプレートプロンプトである。 我々は、高リソース言語と低リソース言語の両方をカバーする、推論、理解、生成タスクに関連する7つの典型的なベンチマークを包括的に評価する。 実験の結果,XLTは多言語タスクの性能を著しく向上させるだけでなく,各タスクの平均性能と各タスクの最高のパフォーマンスとのギャップを著しく低減することがわかった。 特に、xltは算術推論とオープンドメインの質問応答タスクにおいて平均10ポイント以上の改善をもたらす。

Large language models (LLMs) demonstrate impressive multilingual capability, but their performance varies substantially across different languages. In this work, we introduce a simple yet effective method, called cross-lingual-thought prompting (XLT), to systematically improve the multilingual capability of LLMs. Specifically, XLT is a generic template prompt that stimulates cross-lingual and logical reasoning skills to enhance task performance across languages. We conduct comprehensive evaluations on 7 typical benchmarks related to reasoning, understanding, and generation tasks, covering both high-resource and low-resource languages. Experimental results show that XLT not only remarkably enhances the performance of various multilingual tasks but also significantly reduces the gap between the average performance and the best performance of each task in different languages. Notably, XLT brings over 10 points of average improvement in arithmetic reasoning and open-domain question-answering tasks.
翻訳日:2023-05-12 13:46:19 公開日:2023-05-11
# インストラクションとしてのレコメンデーション:大規模言語モデルによるレコメンデーションアプローチ

Recommendation as Instruction Following: A Large Language Model Empowered Recommendation Approach ( http://arxiv.org/abs/2305.07001v1 )

ライセンス: Link先を確認
Junjie Zhang, Ruobing Xie, Yupeng Hou, Wayne Xin Zhao, Leyu Lin, Ji-Rong Wen(参考訳) 過去数十年間、レコメンデーターシステムは研究コミュニティと産業コミュニティの両方で多くの注目を集めており、効果的なレコメンデーションモデルの開発に多くの研究が注がれている。 基本的に、これらのモデルは主に過去の行動データからユーザーの好みを学習し、レコメンデーションのためにユーザーとアイテムのマッチング関係を推定する。 大規模言語モデル (LLMs) の最近の進歩に触発されて,LLM の指示に従ってレコメンデーションを考慮し,レコメンデーションモデルの開発に異なるアプローチをとる。 キーとなる考え方は、ユーザの好みやニーズを自然言語記述(インストラクションと呼ばれる)で表現し、LLMがレコメンデーションタスクを実行するための命令を理解し、さらに実行できるようにすることである。 LLMの公開APIを使う代わりに、LLMを推奨システムに適応させるためにオープンソースのLLM(3B Flan-T5-XL)をチューニングする。 この目的のために,まず,ユーザの好み,意図,タスク形式,コンテキストを自然言語で記述するための一般的な命令形式を設計する。 次に、39の命令テンプレートを手動で設計し、好みや意図の異なる大量のユーザ個人化命令データ(252K命令)を自動的に生成する。 提案手法の有効性を実証するため,提案手法のテンプレートを複数の提案(あるいは探索)タスクにインスタンス化し,実世界のデータセットを用いてこれらのタスクについて広範な実験を行う。 実験の結果,提案手法は,強力なgpt-3.5を含むいくつかの競合ベースラインを上回ることができることがわかった。 提案手法では,よりユーザフレンドリなレコメンデーションシステムの構築に重点を置いており,ユーザが自由にシステムと通信し,自然言語によるより正確なレコメンデーションを得られる。

In the past decades, recommender systems have attracted much attention in both research and industry communities, and a large number of studies have been devoted to developing effective recommendation models. Basically speaking, these models mainly learn the underlying user preference from historical behavior data, and then estimate the user-item matching relationships for recommendations. Inspired by the recent progress on large language models (LLMs), we take a different approach to developing the recommendation models, considering recommendation as instruction following by LLMs. The key idea is that the preferences or needs of a user can be expressed in natural language descriptions (called instructions), so that LLMs can understand and further execute the instruction for fulfilling the recommendation task. Instead of using public APIs of LLMs, we instruction tune an open-source LLM (3B Flan-T5-XL), in order to better adapt LLMs to recommender systems. For this purpose, we first design a general instruction format for describing the preference, intention, task form and context of a user in natural language. Then we manually design 39 instruction templates and automatically generate a large amount of user-personalized instruction data (252K instructions) with varying types of preferences and intentions. To demonstrate the effectiveness of our approach, we instantiate the instruction templates into several widely-studied recommendation (or search) tasks, and conduct extensive experiments on these tasks with real-world datasets. Experiment results show that the proposed approach can outperform several competitive baselines, including the powerful GPT-3.5, on these evaluation tasks. Our approach sheds light on developing more user-friendly recommender systems, in which users can freely communicate with the system and obtain more accurate recommendations via natural language instructions.
翻訳日:2023-05-12 13:46:01 公開日:2023-05-11
# グループフェアネス設定における感度特徴検出のための統計的アプローチ

A statistical approach to detect sensitive features in a group fairness setting ( http://arxiv.org/abs/2305.06994v1 )

ライセンス: Link先を確認
Guilherme Dean Pelegrina, Miguel Couceiro, Leonardo Tomazeli Duarte(参考訳) 社会的影響の高い意思決定支援システムにおける機械学習モデルの使用は、異なるグループに対する不公平な(異なる)結果に対する懸念を引き起こした。 このような不公平な判断を評価する場合、一般的には、センシティブと考えられる一連の特徴によって決定される事前定義されたグループに依存する。 しかし、このようなアプローチは主観的であり、これらの特徴だけが敏感である、あるいは不公平な(異なる)結果をもたらすものではないことを保証しない。 本稿では,不公平な結果を検証するために訓練されたモデルを必要としない,センシティブな特徴を自動的に認識するタスクに対して,事前処理ステップを提案する。 本提案は,変数分布の統計的依存性を測定するHilber-Schmidt独立基準に基づく。 ラベルベクトルと候補の依存性が感度の高い特徴に対して高い場合、この機能によって提供される情報には、グループ間のパフォーマンス対策の違いが伴うと仮定する。 我々の実験結果は仮説を検証し、文献に敏感であると考えられるいくつかの特徴は必ずしも異質な(不公平な)結果を伴わないことを示した。

The use of machine learning models in decision support systems with high societal impact raised concerns about unfair (disparate) results for different groups of people. When evaluating such unfair decisions, one generally relies on predefined groups that are determined by a set of features that are considered sensitive. However, such an approach is subjective and does not guarantee that these features are the only ones to be considered as sensitive nor that they entail unfair (disparate) outcomes. In this paper, we propose a preprocessing step to address the task of automatically recognizing sensitive features that does not require a trained model to verify unfair results. Our proposal is based on the Hilber-Schmidt independence criterion, which measures the statistical dependence of variable distributions. We hypothesize that if the dependence between the label vector and a candidate is high for a sensitive feature, then the information provided by this feature will entail disparate performance measures between groups. Our empirical results attest our hypothesis and show that several features considered as sensitive in the literature do not necessarily entail disparate (unfair) results.
翻訳日:2023-05-12 13:45:28 公開日:2023-05-11
# SMATCH++:セマンティックグラフの標準化と拡張評価

SMATCH++: Standardized and Extended Evaluation of Semantic Graphs ( http://arxiv.org/abs/2305.06993v1 )

ライセンス: Link先を確認
Juri Opitz(参考訳) Smatchメトリックは、例えば意味グラフ解析システムの性能を評価するために必要となるグラフ距離を評価する一般的な方法である。 しかし、有意義な評価を阻害する指標のいくつかを観察する。 例えば、不透明な前処理の選択は結果に影響を与え、現在のグラフアライメントソルバは上位境界を提供していない。 しかし、上限がなければ、公正な評価は保証されない。 さらに、拡張タスク(例えば、きめ細かいセマンティックな類似性)に対するSmatchの適応が広がり、統一フレームワークが欠如している。 より良い検査のために、メトリックを前処理、アライメント、スコアリングの3つのモジュールに分けます。 各モジュールを検査し、その目標を特定し、潜在的な問題を診断し、緩和戦略について議論し、テストする。 事前処理では、構造的に逸脱するが有効なグラフを許容するアノテーションガイドラインに完全に準拠する方法を示す。 安全で高機能なアライメントを実現するため、標準評価設定における最適アライメントの実現可能性を示し、探索空間を縮小し効率を大幅に向上するロスレスグラフ圧縮法を開発した。 スコアリングを改善するため,細粒度部分グラフの意味を標準化し,拡張した計量計算を提案する。 私たちのコードはhttps://github.com/flipz357/smatchppで利用可能です。

The Smatch metric is a popular method for evaluating graph distances, as is necessary, for instance, to assess the performance of semantic graph parsing systems. However, we observe some issues in the metric that jeopardize meaningful evaluation. E.g., opaque pre-processing choices can affect results, and current graph-alignment solvers do not provide us with upper-bounds. Without upper-bounds, however, fair evaluation is not guaranteed. Furthermore, adaptions of Smatch for extended tasks (e.g., fine-grained semantic similarity) are spread out, and lack a unifying framework. For better inspection, we divide the metric into three modules: pre-processing, alignment, and scoring. Examining each module, we specify its goals and diagnose potential issues, for which we discuss and test mitigation strategies. For pre-processing, we show how to fully conform to annotation guidelines that allow structurally deviating but valid graphs. For safer and enhanced alignment, we show the feasibility of optimal alignment in a standard evaluation setup, and develop a lossless graph compression method that shrinks the search space and significantly increases efficiency. For improved scoring, we propose standardized and extended metric calculation of fine-grained sub-graph meaning aspects. Our code is available at https://github.com/flipz357/smatchpp
翻訳日:2023-05-12 13:44:55 公開日:2023-05-11
# 超流体のニューラルウェーブ関数

Neural Wave Functions for Superfluids ( http://arxiv.org/abs/2305.06989v1 )

ライセンス: Link先を確認
Wan Tong Lou, Halvard Sutterud, Gino Cassella, W.M.C. Foulkes, Johannes Knolle, David Pfau, James S. Spencer(参考訳) 超流動性を理解することは、凝縮物質物理学の主要な目標である。 本稿では,最近開発されたFermionic Neural Network (FermiNet) 波動関数 Ansatz を用いてモンテカルロの変分計算を行う。 超流動基底状態を持つことが知られている強い短距離二体相互作用を持つ系である一元性フェルミガスについて検討する。 我々は、一元性フェルミガスの研究におけるフェルミネット・アンサッツの重要な限界を示し、元のフェルミネットを著しく上回る簡単な修正を提案し、高精度な結果を与える。 我々は、新しいAnsatzがパラメータが少ないにもかかわらず、元のFermiNetアーキテクチャの厳密な一般化であることを数学的に証明する。 ニューラルネットワークの使用は基礎となる基底セットの必要性を排除し、ネットワークの柔軟性は、任意の基底状態予測値の偏りのない推定値へのアクセスを提供する変分量子モンテカルロフレームワーク内で極めて正確な結果をもたらす。 本手法を他の超流動体に拡張する方法について論じる。

Understanding superfluidity remains a major goal of condensed matter physics. Here we tackle this challenge utilizing the recently developed Fermionic neural network (FermiNet) wave function Ansatz for variational Monte Carlo calculations. We study the unitary Fermi gas, a system with strong, short-range, two-body interactions known to possess a superfluid ground state but difficult to describe quantitively. We demonstrate key limitations of the FermiNet Ansatz in studying the unitary Fermi gas and propose a simple modification that outperforms the original FermiNet significantly, giving highly accurate results. We prove mathematically that the new Ansatz is a strict generalization of the original FermiNet architecture, despite the use of fewer parameters. Our approach shares several advantanges with the FermiNet: the use of a neural network removes the need for an underlying basis set; and the flexiblity of the network yields extremely accurate results within a variational quantum Monte Carlo framework that provides access to unbiased estimates of arbitrary ground-state expectation values. We discuss how the method can be extended to study other superfluids.
翻訳日:2023-05-12 13:44:25 公開日:2023-05-11
# ビデオローカライズと質問応答のための自己連鎖型画像言語モデル

Self-Chained Image-Language Model for Video Localization and Question Answering ( http://arxiv.org/abs/2305.06988v1 )

ライセンス: Link先を確認
Shoubin Yu, Jaemin Cho, Prateek Yadav, Mohit Bansal(参考訳) 近年,ビデオ質問応答における事前学習画像言語モデルの有用性が示唆されている。 これらの画像言語モデルは、ビデオ言語モデルの表現学習を効率的にブートストラップすることができるが、通常、一様にサンプリングされたビデオフレームを、明示的な言語を意識せず、時間的モデリングとして視覚入力として結合する。 ビデオ入力の一部だけが言語クエリに関連する場合、そのような均一なフレームサンプリングは、しばしば重要な視覚的手がかりを失う。 人間はしばしばビデオモーメントを見つけ、質問に答えるためにモーメントを戻そうとするが、クエリアウェアなビデオモーメントローカライザーのトレーニングには、高価なアノテーションと高い計算コストが必要になる。 そこで本研究では,単一の画像言語モデル(blip-2)を用いて,時間的キーフレームのローカライゼーションとビデオ上でのqaに取り組むための新しいフレームワークであるsevilaを提案する。 SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。 これらのモジュールは、ケースド推論と自己精製のためにチェーンします。 まず、フォワードチェーンでは、Localizerがビデオ中に複数の言語対応のキーフレームを見つけ、Answererが答えを予測するために使用する。 次に、Answererはキーフレームの擬似ラベルを生成してLocalizerを洗練させ、高価なビデオモーメントローカライゼーションアノテーションの必要性を軽減する。 SeViLAは5つのビデオQAとイベント予測タスクにおいていくつかの強力なベースライン/前処理を上回り、微調整(NExT-QA、STAR)とゼロショット(NExT-QA、STAR、How2QA、VLEP)の両方で最先端を実現する。 例えば、ローカライザの影響、ローカライザと他の時間的ローカライゼーションモデルの比較、ローカライザの事前学習/自己調整、キーフレーム数の変化など、包括的な分析結果を示す。

Recent studies have shown promising results on utilizing pre-trained image-language models for video question answering. While these image-language models can efficiently bootstrap the representation learning of video-language models, they typically concatenate uniformly sampled video frames as visual inputs without explicit language-aware, temporal modeling. When only a portion of a video input is relevant to the language query, such uniform frame sampling can often lead to missing important visual cues. Although humans often find a video moment to focus on and rewind the moment to answer questions, training a query-aware video moment localizer often requires expensive annotations and high computational costs. To address this issue, we propose Self-Chained Video Localization-Answering (SeViLA), a novel framework that leverages a single image-language model (BLIP-2) to tackle both temporal keyframe localization and QA on videos. SeViLA framework consists of two modules: Localizer and Answerer, where both are parameter-efficiently fine-tuned from BLIP-2. We chain these modules for cascaded inference and self-refinement. First, in the forward chain, the Localizer finds multiple language-aware keyframes in a video, which the Answerer uses to predict the answer. Second, in the reverse chain, the Answerer generates keyframe pseudo-labels to refine the Localizer, alleviating the need for expensive video moment localization annotations. SeViLA outperforms several strong baselines/previous works on five video QA and event prediction tasks, and achieves the state-of-the-art in both fine-tuning (NExT-QA, STAR) and zero-shot (NExT-QA, STAR, How2QA, VLEP) settings. We show a comprehensive analysis, e.g., the impact of Localizer, comparisons of Localizer with other temporal localization models, pre-training/self-refinement of Localizer, and varying the number of keyframes.
翻訳日:2023-05-12 13:44:07 公開日:2023-05-11
# エキゾチックな二部類とトポロジカルな絡み合いを持つ2次元ハミルトン多様体

2D Hamiltonians with exotic bipartite and topological entanglement ( http://arxiv.org/abs/2305.07028v1 )

ライセンス: Link先を確認
Shankar Balasubramanian, Ethan Lake, Soonwon Choi(参考訳) 量子物質における絡み合いのスケーリングに関する従来の信念に反する基底状態を持つ、正確に解ける2次元モデルのクラスを示す。 これらの信念は (i)その領域法則の絡み合いスケーリングは、絡み合いカットの境界に近縁な局所相関から発生し、 (ii) 2次元ハミルトニアンの基底状態の絡み合いは、乗法対数因子以上の領域法スケーリングに違反できない。 我々は、局所的、翻訳不変なハミルトン多様体によって定義されるモデルの2つのクラスを明示的に提示する。 第一級のモデルは領域ロースケーリングを示すが、本質的に非局所的起源であるため、位相的絡み合いエントロピーはサブシステムサイズでスケールする。 第2のモデルのクラスは、体積法則の絡み合いを示す位相を含む豊富な基底状態の位相図を持つ。

We present a class of exactly solvable 2D models whose ground states violate conventional beliefs about entanglement scaling in quantum matter. These beliefs are (i) that area law entanglement scaling originates from local correlations proximate to the boundary of the entanglement cut, and (ii) that ground state entanglement in 2D Hamiltonians cannot violate area law scaling by more than a multiplicative logarithmic factor. We explicitly present two classes of models defined by local, translation-invariant Hamiltonians, whose ground states can be exactly written as weighted superpositions of framed loop configurations. The first class of models exhibits area-law scaling, but of an intrinsically nonlocal origin so that the topological entanglement entropy scales with subsystem sizes. The second class of models has a rich ground state phase diagram that includes a phase exhibiting volume law entanglement.
翻訳日:2023-05-12 13:37:59 公開日:2023-05-11
# EfficientViT: カスケードグループ注意によるメモリ効率の高い視覚変換器

EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention ( http://arxiv.org/abs/2305.07027v1 )

ライセンス: Link先を確認
Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan(参考訳) ビジョントランスフォーマーは、高いモデル能力で大きな成功を収めている。 しかし、その顕著な性能には計算コストが伴うため、リアルタイムアプリケーションには適さない。 本稿では, efficientvit という高速視覚トランスフォーマのファミリーを提案する。 既存の変圧器モデルの速度は、メモリ非効率な演算、特にMHSAのテンソル整形と要素ワイド関数によって制限される。 そこで我々は,効率的なffn層間における単一のメモリバウンドmhsaを用いたサンドイッチレイアウトによる新しいビルディングブロックの設計を行い,チャネル通信を向上しつつメモリ効率を向上させる。 さらに,注意マップは頭部間の類似度が高く,計算冗長性が高まることがわかった。 そこで,本研究では,グループ注意モジュールを付加して,特徴の分割に注意を向け,計算コストの削減だけでなく,注意の多様性の向上も図っている。 総合的な実験では、EfficientViTが既存の効率的なモデルより優れており、スピードと精度のトレードオフが良い。 例えば、当社のEfficientViT-M5はMobileNetV3-Largeを1.9%上回り、Nvidia V100 GPUとIntel Xeon CPUでそれぞれ40.4%と45.2%のスループットを実現しています。 最近の効率的なモデルであるMobileViT-XXSと比較して、EfficientViT-M2はGPU/CPUで5.8x/3.7倍、ONNXフォーマットで7.4倍の精度を実現している。 コードとモデルはhttps://github.com/microsoft/Cream/tree/main/EfficientViT.comで入手できる。

Vision transformers have shown great success due to their high model capabilities. However, their remarkable performance is accompanied by heavy computation costs, which makes them unsuitable for real-time applications. In this paper, we propose a family of high-speed vision transformers named EfficientViT. We find that the speed of existing transformer models is commonly bounded by memory inefficient operations, especially the tensor reshaping and element-wise functions in MHSA. Therefore, we design a new building block with a sandwich layout, i.e., using a single memory-bound MHSA between efficient FFN layers, which improves memory efficiency while enhancing channel communication. Moreover, we discover that the attention maps share high similarities across heads, leading to computational redundancy. To address this, we present a cascaded group attention module feeding attention heads with different splits of the full feature, which not only saves computation cost but also improves attention diversity. Comprehensive experiments demonstrate EfficientViT outperforms existing efficient models, striking a good trade-off between speed and accuracy. For instance, our EfficientViT-M5 surpasses MobileNetV3-Large by 1.9% in accuracy, while getting 40.4% and 45.2% higher throughput on Nvidia V100 GPU and Intel Xeon CPU, respectively. Compared to the recent efficient model MobileViT-XXS, EfficientViT-M2 achieves 1.8% superior accuracy, while running 5.8x/3.7x faster on the GPU/CPU, and 7.4x faster when converted to ONNX format. Code and models are available at https://github.com/microsoft/Cream/tree/main/EfficientViT.
翻訳日:2023-05-12 13:37:42 公開日:2023-05-11
# 分散化と加速により大規模バンドル調整が可能に

Decentralization and Acceleration Enables Large-Scale Bundle Adjustment ( http://arxiv.org/abs/2305.07026v1 )

ライセンス: Link先を確認
Taosha Fan, Joseph Ortiz, Ming Hsiao, Maurizio Monge, Jing Dong, Todd Murphey, Mustafa Mukadam(参考訳) 大規模なバンドル調整問題へのスケーリングには、複数のデバイスに分散するデータと計算が必要である。 事前作業における集中型メソッドは、計算と通信のオーバーヘッドのため、中小規模の問題を解決することしかできない。 本稿では,計算と通信のボトルネックを軽減し,任意に大きなバンドル調整問題を解決する完全分散手法を提案する。 再投射誤差を補正し、異なるデバイスから最適化変数を分離する新しい代理関数を導出することにより、これを実現する。 この関数は、最大化最小化技術を使用することを可能にし、並列で解決できる独立最適化サブプロブレムへのバンドル調整を減らす。 さらに、ネステロフの加速と適応再起動を適用し、理論的な保証を維持しながら収束を改善する。 ピアツーピア通信は限られているが,本手法は軽度条件下での1次臨界点への収束が証明可能である。 公開データセットを用いた大規模なベンチマークでは,メモリ使用量や通信負荷に類似した分散ベースラインよりもはるかに高速に収束する。 単一デバイスを用いた集中型ベースラインと比較して、我々の手法は分散化されているものの、Ceresで最大940.7倍、DeepLMで最大175.2倍の精度で解が得られる。 コード:https://github.com/facebookresearch/DBA。

Scaling to arbitrarily large bundle adjustment problems requires data and compute to be distributed across multiple devices. Centralized methods in prior works are only able to solve small or medium size problems due to overhead in computation and communication. In this paper, we present a fully decentralized method that alleviates computation and communication bottlenecks to solve arbitrarily large bundle adjustment problems. We achieve this by reformulating the reprojection error and deriving a novel surrogate function that decouples optimization variables from different devices. This function makes it possible to use majorization minimization techniques and reduces bundle adjustment to independent optimization subproblems that can be solved in parallel. We further apply Nesterov's acceleration and adaptive restart to improve convergence while maintaining its theoretical guarantees. Despite limited peer-to-peer communication, our method has provable convergence to first-order critical points under mild conditions. On extensive benchmarks with public datasets, our method converges much faster than decentralized baselines with similar memory usage and communication load. Compared to centralized baselines using a single device, our method, while being decentralized, yields more accurate solutions with significant speedups of up to 940.7x over Ceres and 175.2x over DeepLM. Code: https://github.com/facebookresearch/DBA.
翻訳日:2023-05-12 13:37:12 公開日:2023-05-11
# スパースGNV:スパース入力ビューによる屋内シーンの新しい視点の生成

SparseGNV: Generating Novel Views of Indoor Scenes with Sparse Input Views ( http://arxiv.org/abs/2305.07024v1 )

ライセンス: Link先を確認
Weihao Cheng, Yan-Pei Cao, Ying Shan(参考訳) 本研究では,室内シーンの新たな視点を,少ない入力ビューで生成する。 課題は、フォトリアリズムとビュー一貫性の両方を達成することだ。 SparseGNVは3つのモジュールで新しいビューを生成するために3次元構造と画像生成モデルを組み込んだ学習フレームワークである。 最初のモジュールは、基礎となる幾何学としてニューラルポイントクラウドを構築し、ターゲットの新規ビューのコンテキスト情報とガイダンスを提供する。 第2のモジュールは、トランスフォーマーベースのネットワークを使用して、シーンコンテキストとガイダンスを共有潜在空間にマッピングし、ターゲットビューを離散的なイメージトークン形式で自己回帰的にデコードする。 第3のモジュールはトークンをターゲットビューのイメージに再構成する。 SparseGNVは大規模な屋内シーンデータセットでトレーニングされ、一般化可能な事前学習を行う。 トレーニングが完了すると、フィードフォワード方式で、見えない屋内シーンの新たなビューを効率よく生成することができる。 実世界の屋内シーンと合成室内シーンの両方でSparseGNVを評価し,ニューラルレイディアンスフィールドまたは条件画像生成に基づいて最先端の手法より優れていることを示す。

We study to generate novel views of indoor scenes given sparse input views. The challenge is to achieve both photorealism and view consistency. We present SparseGNV: a learning framework that incorporates 3D structures and image generative models to generate novel views with three modules. The first module builds a neural point cloud as underlying geometry, providing contextual information and guidance for the target novel view. The second module utilizes a transformer-based network to map the scene context and the guidance into a shared latent space and autoregressively decodes the target view in the form of discrete image tokens. The third module reconstructs the tokens into the image of the target view. SparseGNV is trained across a large indoor scene dataset to learn generalizable priors. Once trained, it can efficiently generate novel views of an unseen indoor scene in a feed-forward manner. We evaluate SparseGNV on both real-world and synthetic indoor scenes and demonstrate that it outperforms state-of-the-art methods based on either neural radiance fields or conditional image generation.
翻訳日:2023-05-12 13:36:51 公開日:2023-05-11
# エキゾチックなトランスバーサルゲート集合を持つ非加法的量子コード

A Nonadditive Quantum Code with Exotic Transversal Gate Set ( http://arxiv.org/abs/2305.07023v1 )

ライセンス: Link先を確認
Eric Kubischta and Ian Teixeira(参考訳) 1つのキュービットトランスバーサルゲートセットが$2i$、二進イコサヘドラル群である、$(7,2,3)$の非加法的量子エラー訂正コードを示す。 この特性で実証されたコードはありません。 群 $2i$ は、su(2)$ の最大部分群として本質的関心を持つ。 しかし、もっと重要なのは、2i $と特定の畳み込みが、最も効率的なシングルキュービットユニバーサルゲートセットを形成することだ。

We exhibit a $ ((7,2,3)) $ nonadditive quantum error correcting code whose single qubit transversal gate set is $2I$, the binary icosahedral group. No code has ever been demonstrated with this property. The group $2I$ has intrinsic interest as a maximal subgroup of $SU(2)$. But more importantly, $ 2I $ together with a certain involution forms the most efficient single-qubit universal gate set.
翻訳日:2023-05-12 13:36:32 公開日:2023-05-11
# 単純な token-Level Confidence はキャプションの正確性を改善する

Simple Token-Level Confidence Improves Caption Correctness ( http://arxiv.org/abs/2305.07021v1 )

ライセンス: Link先を確認
Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach(参考訳) キャプションが正しく画像を記述するかどうかを判断する能力は、視覚言語理解の重要な部分である。 しかし、最先端のモデルは、しばしば細かな詳細の正確さを誤って解釈し、生成されたキャプションにおける幻覚的オブジェクトや構成的推論の欠如といったアウトプットの誤りを引き起こす。 本研究では,字幕正当性を簡易かつ驚くほど効果的に評価する方法として,Token-Level Confidence(TLC)を探索する。 具体的には,画像キャプションに関する視覚言語モデルを微調整し,画像と提案するキャプションをモデルに入力し,単語やシーケンスに対する代数的あるいは学習済みのトークン信頼度を集約し,画像キャプション一貫性を推定する。 事前学習されたモデルのシーケンスレベルのスコアと比較すると、代数的信頼度尺度を持つtlcは、svo-probesの動詞理解において10%の相対的精度向上を達成し、ウィノグラウンドでの合成推論のためのグループスコアをそれぞれ37%、9%で上回っている。 トレーニングデータが利用可能になった場合、学習された信頼度推定器はさらなる性能向上を提供し、MS COCOキャプションのオブジェクト幻覚率を元のモデルよりも30%削減し、新しい最先端設定を行う。

The ability to judge whether a caption correctly describes an image is a critical part of vision-language understanding. However, state-of-the-art models often misinterpret the correctness of fine-grained details, leading to errors in outputs such as hallucinating objects in generated captions or poor compositional reasoning. In this work, we explore Token-Level Confidence, or TLC, as a simple yet surprisingly effective method to assess caption correctness. Specifically, we fine-tune a vision-language model on image captioning, input an image and proposed caption to the model, and aggregate either algebraic or learned token confidences over words or sequences to estimate image-caption consistency. Compared to sequence-level scores from pretrained models, TLC with algebraic confidence measures achieves a relative improvement in accuracy by 10% on verb understanding in SVO-Probes and outperforms prior state-of-the-art in image and group scores for compositional reasoning in Winoground by a relative 37% and 9%, respectively. When training data are available, a learned confidence estimator provides further improved performance, reducing object hallucination rates in MS COCO Captions by a relative 30% over the original model and setting a new state-of-the-art.
翻訳日:2023-05-12 13:36:25 公開日:2023-05-11
# Musketeer (All for One, and One for All): タスク説明プロンプトを備えた一般視覚言語モデル

Musketeer (All for One, and One for All): A Generalist Vision-Language Model with Task Explanation Prompts ( http://arxiv.org/abs/2305.07019v1 )

ライセンス: Link先を確認
Zhaoyang Zhang, Yantao Shen, Kunyu Shi, Zhaowei Cai, Jun Fang, Siqi Deng, Hao Yang, Davide Modolo, Zhuowen Tu, Stefano Soatto(参考訳) 我々は,全てのタスク(すべて1つ)でパラメータを共同で訓練し,複数のタスク(すべて1つ)で完全に共有するシーケンス・ツー・シーケンスの視覚言語モデルを提案する。 不均一なタスクにまたがる知識の統合は、タスク説明プロンプト(TEP)と呼ばれる新しい機能によって実現される。 TEPはタスク間の干渉を減らし、モデルが共有構造に集中できるようにする。 ひとつのモデルでmusketeerは、単一のタスクでトレーニングされた強力なベースラインと同等あるいはそれ以上の結果を達成します。

We present a sequence-to-sequence vision-language model whose parameters are jointly trained on all tasks (all for one) and fully shared among multiple tasks (one for all), resulting in a single model which we named Musketeer. The integration of knowledge across heterogeneous tasks is enabled by a novel feature called Task Explanation Prompt (TEP). TEP reduces interference among tasks, allowing the model to focus on their shared structure. With a single model, Musketeer achieves results comparable to or better than strong baselines trained on single tasks, almost uniformly across multiple tasks.
翻訳日:2023-05-12 13:35:49 公開日:2023-05-11
# CLIPトレーニングにおける逆スケーリング法

An Inverse Scaling Law for CLIP Training ( http://arxiv.org/abs/2305.07017v1 )

ライセンス: Link先を確認
Xianhang Li, Zeyu Wang, Cihang Xie(参考訳) 画像とテキストを接続する最初の基盤モデルであるCLIPは、コンピュータビジョンにおける最近のブレークスルーを可能にした。 しかし、それに伴う訓練費は禁止的に高く、広範な探検の障壁となっている。 本稿では,CLIPトレーニングの逆スケーリング法が存在し,画像/テキストエンコーダが大きいほど,トレーニングに応用可能な画像/テキストトークンのシーケンス長が短くなる,という驚くべき発見を示す。 さらに,画像/テキストトークン長の削減戦略が,このスケーリング則の品質を決定する上で重要な役割を担っていることを示す。 この結果,学術的資源を用いてもCLIPのトレーニングを成功させることができた。 例えば、a100 8gpuサーバでは、クリップモデルは2日間で63.2%、3日間で67.8%、4日間で69.3%というゼロショットトップ1イメージネットの精度を達成しています。 CLIPに関連する計算障壁を減らすことで、この分野、特に学者からより多くの研究を刺激したいと思っています。 私たちのコードはhttps://github.com/UCSC-VLAA/CLIPAで公開されています。

CLIP, the first foundation model that connects images and text, has enabled many recent breakthroughs in computer vision. However, its associated training cost is prohibitively high, imposing a significant barrier to its widespread exploration. In this paper, we present a surprising finding that there exists an inverse scaling law for CLIP training, whereby the larger the image/text encoders used, the shorter the sequence length of image/text tokens that can be applied in training. Moreover, we showcase that the strategy for reducing image/text token length plays a crucial role in determining the quality of this scaling law. As a result of this finding, we are able to successfully train CLIP even by using academic resources. For example, on an A100 eight-GPU server, our CLIP models achieve zero-shot top-1 ImageNet accuracies of 63.2% in ~2 days, 67.8% in ~3 days, and 69.3% in ~4 days. By reducing the computation barrier associated with CLIP, we hope to inspire more research in this field, particularly from academics. Our code is available at https://github.com/UCSC-VLAA/CLIPA.
翻訳日:2023-05-12 13:35:36 公開日:2023-05-11
# 汎用多言語文書エンコーダ

A General-Purpose Multilingual Document Encoder ( http://arxiv.org/abs/2305.07016v1 )

ライセンス: Link先を確認
Onur Galo\u{g}lu and Robert Litschko and Goran Glava\v{s}(参考訳) 多言語前訓練トランスフォーマー(mmts)は、多言語間nlpおよび特にnlpモデルの言語間移動に関する技術を大きく推進している。 大量の作業がMMTを利用して並列データをマイニングし、バイリンガル文書の埋め込みを誘導する一方で、教師なしと教師なしの両方の文書レベルのタスクに使用できる汎用(大規模)多言語文書エンコーダの訓練に費やされている労力ははるかに少ない。 本研究では,多言語文書エンコーダを階層型トランスフォーマーモデル (HMDE) として事前訓練し, 浅層文書トランスフォーマーが最先端の事前訓練された多言語文エンコーダによって生成された文表現を文脈化する。 学習データ作成のための比較資料のソースとしてwikipediaを活用し,言語間比較目的を用いてhmdeを訓練し,難解な否定文作成のためにwikipediaのカテゴリ階層を活用した。 1) 話題文書分類のための言語間転送と, (2) 言語間文書検索の2つのタスクにおいて, hmdeの有効性を評価した。 HMDEは、はるかに効果的である (i)セグメントに基づく表現の集約と (ii)多言語長者。 極めて多言語性の低いトランスフォーマーにより、hmdeは文書レベルの事前学習において認識されていない言語への一般化に成功している。 コードとモデルはhttps://github.com/ogaloglu/pre-training-multilingual-document-encodersで公開しています。

Massively multilingual pretrained transformers (MMTs) have tremendously pushed the state of the art on multilingual NLP and cross-lingual transfer of NLP models in particular. While a large body of work leveraged MMTs to mine parallel data and induce bilingual document embeddings, much less effort has been devoted to training general-purpose (massively) multilingual document encoder that can be used for both supervised and unsupervised document-level tasks. In this work, we pretrain a massively multilingual document encoder as a hierarchical transformer model (HMDE) in which a shallow document transformer contextualizes sentence representations produced by a state-of-the-art pretrained multilingual sentence encoder. We leverage Wikipedia as a readily available source of comparable documents for creating training data, and train HMDE by means of a cross-lingual contrastive objective, further exploiting the category hierarchy of Wikipedia for creation of difficult negatives. We evaluate the effectiveness of HMDE in two arguably most common and prominent cross-lingual document-level tasks: (1) cross-lingual transfer for topical document classification and (2) cross-lingual document retrieval. HMDE is significantly more effective than (i) aggregations of segment-based representations and (ii) multilingual Longformer. Crucially, owing to its massively multilingual lower transformer, HMDE successfully generalizes to languages unseen in document-level pretraining. We publicly release our code and models at https://github.com/ogaloglu/pre-training-multilingual-document-encoders .
翻訳日:2023-05-12 13:35:15 公開日:2023-05-11
# 実世界の超解像に先立つ爆発拡散

Exploiting Diffusion Prior for Real-World Image Super-Resolution ( http://arxiv.org/abs/2305.07015v1 )

ライセンス: Link先を確認
Jianyi Wang, Zongsheng Yue, Shangchen Zhou, Kelvin C.K. Chan, Chen Change Loy(参考訳) 本稿では,事前学習されたテキストから画像への拡散モデルにカプセル化された先行知識をブラインド超解像(sr)に活用する新しい手法を提案する。 具体的には、時間認識エンコーダを用いることで、事前学習した合成モデルを変更せずに有望な復元結果が得られ、生成前の保存とトレーニングコストの最小化が可能となる。 拡散モデル固有の確率性に起因する忠実さの損失を解消するため,ユーザが推論処理中にスカラー値を調整するだけで品質と忠実さのバランスをとることができる制御可能な特徴包みモジュールを導入する。 さらに,事前学習された拡散モデルの固定サイズの制約を克服し,任意のサイズの解像度に適応できるように,漸進的アグリゲーションサンプリング戦略を開発した。 合成および実世界のベンチマークを用いて,本手法の総合評価を行い,現在の最先端手法よりも優れていることを示す。

We present a novel approach to leverage prior knowledge encapsulated in pre-trained text-to-image diffusion models for blind super-resolution (SR). Specifically, by employing our time-aware encoder, we can achieve promising restoration results without altering the pre-trained synthesis model, thereby preserving the generative prior and minimizing training cost. To remedy the loss of fidelity caused by the inherent stochasticity of diffusion models, we introduce a controllable feature wrapping module that allows users to balance quality and fidelity by simply adjusting a scalar value during the inference process. Moreover, we develop a progressive aggregation sampling strategy to overcome the fixed-size constraints of pre-trained diffusion models, enabling adaptation to resolutions of any size. A comprehensive evaluation of our method using both synthetic and real-world benchmarks demonstrates its superiority over current state-of-the-art approaches.
翻訳日:2023-05-12 13:34:46 公開日:2023-05-11
# ミラーゲームのための完璧な戦略のキャラクタリゼーション

A Characterization of Perfect Strategies for Mirror Games ( http://arxiv.org/abs/2302.04557v3 )

ライセンス: Link先を確認
Sizhuo Yan, Jianting Yang, Tianshi Yu, Lihong Zhi(参考訳) 我々はミラーゲームとユニバーサルゲーム代数を関連付け、*表現を用いて量子可換作用素戦略を記述する。 ミラーゲームが完全可換操作戦略を持つか否かの代数的特徴付けを提供する。 この新しいキャラクタリゼーションでは、paulsenらによって導入されたより小さな代数を同期ゲームや、cimpric、helton、collaboratorsによって開発された非可換なnullstellensatzに使用する。 ミラーゲームが完全可換作用素戦略を持たないことを証明するために、非可換Gr\に基づくアルゴリズムと半定値プログラミングが与えられる。

We associate mirror games with the universal game algebra and use the *-representation to describe quantum commuting operator strategies. We provide an algebraic characterization of whether or not a mirror game has perfect commuting operator strategies. This new characterization uses a smaller algebra introduced by Paulsen and others for synchronous games and the noncommutative Nullstellensatz developed by Cimpric, Helton and collaborators. An algorithm based on noncommutative Gr\"obner basis computation and semidefinite programming is given for certifying that a given mirror game has no perfect commuting operator strategies.
翻訳日:2023-05-12 11:33:02 公開日:2023-05-11
# 2 \times 2$ zero-sum gamesのコミットメントと騒がしい観察

$2 \times 2$ Zero-Sum Games with Commitments and Noisy Observations ( http://arxiv.org/abs/2211.01703v3 )

ライセンス: Link先を確認
Ke Sun, Samir M. Perlaza, and Alain Jean-Marie(参考訳) この論文では、2\times2$ zero-sumゲームについて、1人のプレイヤー(リーダー)が与えられた確率測度(戦略)をサンプリングしてそのアクションを選択することをコミットする、$(2)$ the leaderが2つのチャンネルを通じて相手(従者)が観察するアクションをアナウンスする、$(3)$ the followerはリーダーの戦略の知識とリーダーの行動のノイズの観察に基づいてその戦略を選択する、という仮定で研究する。 これらの条件下では、平衡は常に存在することが示される。 興味深いことに、リーダーの行動を観察するノイズでさえ、フォロワーにとって有益か非物質的であることが示される。 より具体的には、このゲームの均衡における報酬は、純粋な戦略におけるスタックルベルク均衡(se)での給与によって上限され、混合戦略においてseと同値であるナッシュ平衡での給与によって下限となる。 また、平衡における給与がその上限値と等しくなるための十分な条件も提示される。

In this paper, $2\times2$ zero-sum games are studied under the following assumptions: $(1)$ One of the players (the leader) commits to choose its actions by sampling a given probability measure (strategy); $(2)$ The leader announces its action, which is observed by its opponent (the follower) through a binary channel; and $(3)$ the follower chooses its strategy based on the knowledge of the leader's strategy and the noisy observation of the leader's action. Under these conditions, the equilibrium is shown to always exist. Interestingly, even subject to noise, observing the actions of the leader is shown to be either beneficial or immaterial for the follower. More specifically, the payoff at the equilibrium of this game is upper bounded by the payoff at the Stackelberg equilibrium (SE) in pure strategies; and lower bounded by the payoff at the Nash equilibrium, which is equivalent to the SE in mixed strategies.Finally, necessary and sufficient conditions for observing the payoff at equilibrium to be equal to its lower bound are presented. Sufficient conditions for the payoff at equilibrium to be equal to its upper bound are also presented.
翻訳日:2023-05-12 11:32:49 公開日:2023-05-11
# トポロジカルエッジモードテーパ

Topological Edge Mode Tapering ( http://arxiv.org/abs/2206.07056v3 )

ライセンス: Link先を確認
Christopher J. Flower, Sabyasachi Barik, Mahmoud Jalali Mehrabad, Nicholas J Martin, Sunil Mittal, and Mohammad Hafezi(参考訳) モードテーパリング(英: Mode tapering)またはモードサイズを段階的に操作することは、モードサイズが異なる2つ以上のサブシステムに効率的に接続することを目的としたシステムにおいて必要である。 高い効率のテーパが実証されている一方で、大きなデバイスフットプリントや難しい製造コストがかかることが多い。 位相フォトニクスは、ある種の障害やキラリティーに頑健性を提供するが、近年では多くの応用に適した設計原理であることが証明されている。 ここではトポロジカルバンドギャップ技術により実現された新しいモードテーパを提案する。 光領域におけるほぼ一様効率の非常にコンパクトな8$\mu$m距離におけるモード幅の6倍の変化を数値的に示す。 後方散乱の抑制と高次モードの励起がないことにより、古典光学および量子光学におけるスケーラブルで多成分系の開発における新たな進歩を可能にすることができる。

Mode tapering, or the gradual manipulation of the size of some mode, is a requirement for any system that aims to efficiently interface two or more subsystems of different mode sizes. While high efficiency tapers have been demonstrated, they often come at the cost of a large device footprint or challenging fabrication. Topological photonics, offering robustness to certain types of disorder as well as chirality, has proved to be a well-suited design principle for numerous applications in recent years. Here we present a new kind of mode taper realized through topological bandgap engineering. We numerically demonstrate a sixfold change in mode width over an extremely compact 8$\mu$m distance with near unity efficiency in the optical domain. With suppressed backscattering and no excitation of higher-order modes, such a taper could enable new progress in the development of scalable, multi-component systems in classical and quantum optics.
翻訳日:2023-05-12 11:32:24 公開日:2023-05-11
# 圧縮サブ層を有する高効率変圧器デコーダ

An Efficient Transformer Decoder with Compressed Sub-layers ( http://arxiv.org/abs/2101.00542v4 )

ライセンス: Link先を確認
Yanyang Li, Ye Lin, Tong Xiao, Jingbo Zhu(参考訳) 大規模な注意に基づくエンコーダ・デコーダネットワーク(transformer)が最近普及している。 しかし、そのデコーダの計算の複雑さは非効率な問題を引き起こす。 復号器の数学的定式化を検討することにより, 若干の穏やかな条件下で, トランスフォーマーの基本構造であるサブ層を圧縮することにより, アーキテクチャを単純化し, 高い並列性を実現することを示す。 そこで本研究では,デコーダ層が3層ではなく1層のみからなる圧縮アテンションネットワークを提案する。 14のWMT機械翻訳タスクに対する大規模な実験により、我々のモデルは1.42倍高速であり、性能は強いベースラインと同等であることがわかった。 この強力なベースラインは、パフォーマンスを損なうことなく、広く使われている標準ベースラインよりも2倍高速である。

The large attention-based encoder-decoder network (Transformer) has become prevailing recently due to its effectiveness. But the high computation complexity of its decoder raises the inefficiency issue. By examining the mathematic formulation of the decoder, we show that under some mild conditions, the architecture could be simplified by compressing its sub-layers, the basic building block of Transformer, and achieves a higher parallelism. We thereby propose Compressed Attention Network, whose decoder layer consists of only one sub-layer instead of three. Extensive experiments on 14 WMT machine translation tasks show that our model is 1.42x faster with performance on par with a strong baseline. This strong baseline is already 2x faster than the widely used standard baseline without loss in performance.
翻訳日:2023-05-12 11:31:56 公開日:2023-05-11
# Restormer-Plus for Real World Image Deraining: One State-of-the-Art Solution to the GT-RAIN Challenge (CVPR 2023 UG$^2$+ Track 3)

Restormer-Plus for Real World Image Deraining: One State-of-the-Art Solution to the GT-RAIN Challenge (CVPR 2023 UG$^2$+ Track 3) ( http://arxiv.org/abs/2305.05454v2 )

ライセンス: Link先を確認
Chaochao Zheng, Luping Wang, Bin Liu(参考訳) 本技術報告では,GT-RAIN Challenge(CVPR 2023 UG$^2$+ Track 3)に提出したRestormer-Plusアプローチについて述べる。 チャレンジの詳細はhttp://cvpr2023.ug2challenge.org/track3.htmlで確認できる。 restormer-plusはピーク信号対雑音比(psnr)で他の全てのソリューションを上回った。 主に4つのモジュールで構成されており、単一のイメージデライニングモジュール、中央フィルタリングモジュール、重み付き平均化モジュール、後処理モジュールである。 restormer上に構築され,雨画像毎に実行される単一画像デレイティングモジュールrestormer-xを命名した。 中央フィルタリングモジュールは、各シーンに関連する300の雨画像の中央オペレータとして使用される。 重み付けされた平均モジュールは、中央値のフィルタリング結果をRestormer-Xと組み合わせて、Restormer-Xのみを使用する場合のオーバーフィッティングを軽減する。 最後に、後処理モジュールを使用して輝度回復を改善する。 これらのモジュールを合わせて、Restormer-PlusはGT-RAIN Challengeの最先端ソリューションのひとつとなる。 私たちのコードはhttps://github.com/ZJLAB-AMMI/Restormer-Plusで公開されています。

This technical report presents our Restormer-Plus approach, which was submitted to the GT-RAIN Challenge (CVPR 2023 UG$^2$+ Track 3). Details regarding the challenge are available at http://cvpr2023.ug2challenge.org/track3.html. Our Restormer-Plus outperformed all other submitted solutions in terms of peak signal-to-noise ratio (PSNR). It consists mainly of four modules: the single image de-raining module, the median filtering module, the weighted averaging module, and the post-processing module. We named the single-image de-raining module Restormer-X, which is built on Restormer and performed on each rainy image. The median filtering module is employed as a median operator for the 300 rainy images associated with each scene. The weighted averaging module combines the median filtering results with that of Restormer-X to alleviate overfitting if we only use Restormer-X. Finally, the post-processing module is used to improve the brightness restoration. Together, these modules render Restormer-Plus to be one state-of-the-art solution to the GT-RAIN Challenge. Our code is available at https://github.com/ZJLAB-AMMI/Restormer-Plus.
翻訳日:2023-05-12 11:24:59 公開日:2023-05-11
# 低分解能条件を用いた領域非依存画像から画像への変換

Domain Agnostic Image-to-image Translation using Low-Resolution Conditioning ( http://arxiv.org/abs/2305.05023v2 )

ライセンス: Link先を確認
Mohamed Abid, Arman Afrasiyabi, Ihsen Hedhli, Jean-Fran\c{c}ois Lalonde and Christian Gagn\'e(参考訳) 一般的には、画像から画像への変換(i2i)は、翻訳に使われる画像がコンテンツ(例えばポーズ)を共有するが、独自のドメイン固有の情報(例えばスタイル)を持つと仮定して、ドメイン間のマッピングを学習することを目的としている。 ターゲット画像に条件付きで、そのような手法は対象のスタイルを抽出し、ソース画像の内容と組み合わせ、ドメイン間の一貫性を維持する。 提案では,従来の考え方から離れて,対象領域が極めて低解像度 (lr) なイメージで表現されるシナリオを検討し,ドメインが関連づけられたきめ細かな問題に対して,ドメインに依存しない i2i メソッドを提案する。 より具体的には、我々のドメインに依存しないアプローチは、ソース画像からの視覚特徴とLRターゲット画像の低周波情報(例えば、ポーズ、色)を組み合わせた画像を生成することを目的としている。 そこで本研究では,生成モデルのトレーニングに頼って,関連するソース画像の固有情報を共有し,ダウンスケール時のLRターゲット画像と正しく一致した画像を生成する手法を提案する。 本手法をceleba-hqおよびafhqデータセット上で検証し,視覚品質の改善を示す。 定性的,定量的な結果から,ドメイン内画像翻訳を扱う場合,StarGAN v2のような最先端の手法と比較して,現実的なサンプルを生成することがわかった。 アブレーション研究では,色の変化に対して頑健であり,分布外画像にも適用可能であること,最終結果に対する手動制御が可能であることも明らかにした。

Generally, image-to-image translation (i2i) methods aim at learning mappings across domains with the assumption that the images used for translation share content (e.g., pose) but have their own domain-specific information (a.k.a. style). Conditioned on a target image, such methods extract the target style and combine it with the source image content, keeping coherence between the domains. In our proposal, we depart from this traditional view and instead consider the scenario where the target domain is represented by a very low-resolution (LR) image, proposing a domain-agnostic i2i method for fine-grained problems, where the domains are related. More specifically, our domain-agnostic approach aims at generating an image that combines visual features from the source image with low-frequency information (e.g. pose, color) of the LR target image. To do so, we present a novel approach that relies on training the generative model to produce images that both share distinctive information of the associated source image and correctly match the LR target image when downscaled. We validate our method on the CelebA-HQ and AFHQ datasets by demonstrating improvements in terms of visual quality. Qualitative and quantitative results show that when dealing with intra-domain image translation, our method generates realistic samples compared to state-of-the-art methods such as StarGAN v2. Ablation studies also reveal that our method is robust to changes in color, it can be applied to out-of-distribution images, and it allows for manual control over the final results.
翻訳日:2023-05-12 11:24:38 公開日:2023-05-11
# 次元化による高次元平滑エントロピー推定

High-Dimensional Smoothed Entropy Estimation via Dimensionality Reduction ( http://arxiv.org/abs/2305.04712v2 )

ライセンス: Link先を確認
Kristjan Greenewald, Brian Kingsbury, Yuancheng Yu(参考訳) ガウス畳み込みの下での微分エントロピー推定における指数的サンプル複雑性を克服する問題について検討する。 具体的には、差分エントロピー$h(X+Z)$ via $n$と同一分布の$X$を推定し、$X$と$Z$は独立な$D$-次元確率変数であり、有界第二モーメントを持つ$X$と$Z\sim\mathcal{N}(0,\sigma^2I_D)$である。 絶対誤差損失の下では、上記の問題はパラメトリック推定レートが$\frac{c^D}{\sqrt{n}}$であり、これはデータ次元が$D$で、しばしばアプリケーションにとって問題となる。 エントロピー推定の前に、主成分分析(PCA)を通して低次元空間に$X$を投影することで、この指数関数的なサンプル複雑性を克服し、PCAの未説明分散が消えるにつれて漸近誤差オーバーヘッドが消滅することを示す。 これは、dnnにおける相互情報(mi)の推定に使用できるディープニューラルネットワーク(dnn)の隠れ層出力を含む、高次元空間に埋め込まれた本質的に低次元構造に対する最適化に近い性能を意味する。 ガウスおよびスパイラルデータに対するPCAアプローチの有効性を検証する数値結果を提供する。 また,提案手法をニューラルネットワーク層(c.f.情報ボトルネック)における情報フロー解析に適用し,雑音完全接続ネットワークと雑音畳み込みニューラルネットワーク(cnn)によるmnist分類における相互情報計測を行った。

We study the problem of overcoming exponential sample complexity in differential entropy estimation under Gaussian convolutions. Specifically, we consider the estimation of the differential entropy $h(X+Z)$ via $n$ independently and identically distributed samples of $X$, where $X$ and $Z$ are independent $D$-dimensional random variables with $X$ sub-Gaussian with bounded second moment and $Z\sim\mathcal{N}(0,\sigma^2I_D)$. Under the absolute-error loss, the above problem has a parametric estimation rate of $\frac{c^D}{\sqrt{n}}$, which is exponential in data dimension $D$ and often problematic for applications. We overcome this exponential sample complexity by projecting $X$ to a low-dimensional space via principal component analysis (PCA) before the entropy estimation, and show that the asymptotic error overhead vanishes as the unexplained variance of the PCA vanishes. This implies near-optimal performance for inherently low-dimensional structures embedded in high-dimensional spaces, including hidden-layer outputs of deep neural networks (DNN), which can be used to estimate mutual information (MI) in DNNs. We provide numerical results verifying the performance of our PCA approach on Gaussian and spiral data. We also apply our method to analysis of information flow through neural network layers (c.f. information bottleneck), with results measuring mutual information in a noisy fully connected network and a noisy convolutional neural network (CNN) for MNIST classification.
翻訳日:2023-05-12 11:24:10 公開日:2023-05-11
# 1次元フェルミ・ハバードモデルの量子シミュレーションを$\mathrm{Z}_2$格子ゲージ理論として

Quantum simulation of the 1D Fermi-Hubbard model as a $\mathrm{Z}_2$ lattice-gauge theory ( http://arxiv.org/abs/2305.04648v2 )

ライセンス: Link先を確認
Uliana E. Khodaeva, Dmitry L. Kovrizhin, and Johannes Knolle(参考訳) フェルミ・ハバードモデル(Fermi-Hubbard model)は、強相関量子多体系の物理学における中心的なパラダイムの1つである。 本稿では,現在のNISQ量子コンピュータの実装に適した1次元Fermi-Hubbardモデルの,$\mathrm{Z}_2$ grid gauge theory (LGT)表現に基づく量子回路アルゴリズムを提案する。 LGTの記述の中には、ハミルトニアンと通勤する多くの局所保存量が存在する。 本稿では,これらの保存法則を用いて効率的な誤り軽減手法を提案する。 後者は、ノイズ量子シミュレータのための状態のポスト選択に基づいている。 LGTの説明はJordan-Wigner (JW) ベースのアプローチに比べて深い量子回路を必要とするが、我々の誤り訂正プロトコルはノイズの多い量子シミュレータの標準 JW 実装よりも高い結果をもたらす。

The Fermi-Hubbard model is one of the central paradigms in the physics of strongly-correlated quantum many-body systems. Here we propose a quantum circuit algorithm based on the $\mathrm{Z}_2$ lattice gauge theory (LGT) representation of the one-dimensional Fermi-Hubbard model, which is suitable for implementation on current NISQ quantum computers. Within the LGT description there is an extensive number of local conserved quantities commuting with the Hamiltonian. We show how these conservation laws can be used to implement an efficient error-mitigation scheme. The latter is based on a post-selection of states for noisy quantum simulators. While the LGT description requires a deeper quantum-circuit compared to a Jordan-Wigner (JW) based approach, remarkably, we find that our error-correction protocol leads to results being on-par or even better than a standard JW implementation on noisy quantum simulators.
翻訳日:2023-05-12 11:23:34 公開日:2023-05-11
# MO-DEHB:多目的最適化のための進化的ハイパーバンド

MO-DEHB: Evolutionary-based Hyperband for Multi-Objective Optimization ( http://arxiv.org/abs/2305.04502v2 )

ライセンス: Link先を確認
Noor Awad, Ayushi Sharma, Philipp Muller, Janek Thomas and Frank Hutter(参考訳) ハイパーパラメータ最適化(HPO)は機械学習(ML)モデルのチューニングを自動化する強力な技術である。 しかし、多くの実世界のアプリケーションでは、精度は考慮すべき複数の性能基準の1つである。 これらの目的を複雑で多様な検索空間で同時に最適化することは、依然として困難な課題である。 本稿では,最近の進化的ハイパーバンド法であるdehbを拡張した,効率的で柔軟なマルチ目的(mo)オプティマイザであるmo-dehbを提案する。 我々は,hso,neural architecture search (nas),nasとhsoの統合など,多様で挑戦的なmo問題からなる15のベンチマークスイートを用いて,mo-dehbの性能を検証する。 最先端のMOオプティマイザに対する比較研究は、MO-DEHBが15ベンチマークで明らかに最高のパフォーマンスを実現していることを示している。

Hyperparameter optimization (HPO) is a powerful technique for automating the tuning of machine learning (ML) models. However, in many real-world applications, accuracy is only one of multiple performance criteria that must be considered. Optimizing these objectives simultaneously on a complex and diverse search space remains a challenging task. In this paper, we propose MO-DEHB, an effective and flexible multi-objective (MO) optimizer that extends the recent evolutionary Hyperband method DEHB. We validate the performance of MO-DEHB using a comprehensive suite of 15 benchmarks consisting of diverse and challenging MO problems, including HPO, neural architecture search (NAS), and joint NAS and HPO, with objectives including accuracy, latency and algorithmic fairness. A comparative study against state-of-the-art MO optimizers demonstrates that MO-DEHB clearly achieves the best performance across our 15 benchmarks.
翻訳日:2023-05-12 11:23:18 公開日:2023-05-11
# 純量子勾配Descentアルゴリズムと完全量子変分固有解法

Pure Quantum Gradient Descent Algorithm and Full Quantum Variational Eigensolver ( http://arxiv.org/abs/2305.04198v2 )

ライセンス: Link先を確認
Ronghang Chen, Shi-Yao Hou, Cong Guo, and Guanru Feng(参考訳) 最適化問題は様々な分野に広まり、勾配に基づく勾配降下アルゴリズムは広く採用されている最適化手法である。 しかし、古典計算では、$d$変数を持つ関数の数値勾配を計算するには少なくとも$d+1$関数の評価が必要であるため、計算複雑性は$O(d)$となる。 変数の数が増加するにつれて、古典的勾配推定法は実質的な資源を必要とし、最終的には古典的コンピュータの能力を超える。 幸いなことに、量子力学における重ね合わせと絡み合いの原理を利用して、量子コンピュータは真の並列計算を実現でき、場合によっては古典的アルゴリズムよりも指数関数的に加速することができる。 このアルゴリズムの複雑さはちょうど$O(1)$である。 このアプローチに基づき,量子勾配降下アルゴリズムの実装に成功し,変分量子固有ソルバ (vqe) に適用し,純量子変分最適化アルゴリズムを作成した。 従来の勾配最適化アルゴリズムと比較して, この量子最適化アルゴリズムは, 最適化問題の効率的な解法を提供し, 複雑度が著しく向上しており, 提案手法は最適化アルゴリズムの性能向上に有望であり, この分野における量子コンピューティングの可能性を強調している。

Optimization problems are prevalent in various fields, and the gradient-based gradient descent algorithm is a widely adopted optimization method. However, in classical computing, computing the numerical gradient for a function with $d$ variables necessitates at least $d+1$ function evaluations, resulting in a computational complexity of $O(d)$. As the number of variables increases, the classical gradient estimation methods require substantial resources, ultimately surpassing the capabilities of classical computers. Fortunately, leveraging the principles of superposition and entanglement in quantum mechanics, quantum computers can achieve genuine parallel computing, leading to exponential acceleration over classical algorithms in some cases.In this paper, we propose a novel quantum-based gradient calculation method that requires only a single oracle calculation to obtain the numerical gradient result for a multivariate function. The complexity of this algorithm is just $O(1)$. Building upon this approach, we successfully implemented the quantum gradient descent algorithm and applied it to the Variational Quantum Eigensolver (VQE), creating a pure quantum variational optimization algorithm. Compared with classical gradient-based optimization algorithm, this quantum optimization algorithm has remarkable complexity advantages, providing an efficient solution to optimization problems.The proposed quantum-based method shows promise in enhancing the performance of optimization algorithms, highlighting the potential of quantum computing in this field.
翻訳日:2023-05-12 11:23:04 公開日:2023-05-11
# 部分最小方形を用いた神経進化のための高次元サロゲートモデリングへの初期ステップ

Initial Steps Towards Tackling High-dimensional Surrogate Modeling for Neuroevolution Using Kriging Partial Least Squares ( http://arxiv.org/abs/2305.03612v3 )

ライセンス: Link先を確認
Fergal Stapleton and Edgar Galv\'an(参考訳) サロゲート支援進化アルゴリズム(SAEA)は、進化計算システムにおける適合関数の近似を目的とし、効率的な計算モデルを使用することを目的としている。 この研究領域は20年以上にわたって活発に行われており、例えば、単一目的最適化や動的かつ定常的な最適化問題など、様々な分野の専門研究コミュニティから大きな注目を集めている。 SAEAsコミュニティからほとんど注目を集めていない、創発的でエキサイティングな領域は、神経進化にある。 これは、人工知能(ANN)アーキテクチャの自動構成、ハイパーパラメータ、および/またはANNのトレーニングにおける進化的アルゴリズムの使用を指す。 しかし、ANNは2つの大きな問題に悩まされている。 (a)高度な計算能力の正しい訓練への利用、及び b) 優れたネットワークを得るために必要なANNを正しく設定するために必要な高度に専門化された人的専門知識。 この研究は、これらの2つの問題に対処することによって、神経進化におけるSAEAのこの重要な研究ギャップを埋めることを目的としている。 そこで本研究では,よく知られたkriging法と比較して,よく知られた近似サーロゲートモデルの効率的な計算を可能にするkriging部分最小二乗法について述べる。

Surrogate-assisted evolutionary algorithms (SAEAs) aim to use efficient computational models with the goal of approximating the fitness function in evolutionary computation systems. This area of research has been active for over two decades and has received significant attention from the specialised research community in different areas, for example, single and many objective optimisation or dynamic and stationary optimisation problems. An emergent and exciting area that has received little attention from the SAEAs community is in neuroevolution. This refers to the use of evolutionary algorithms in the automatic configuration of artificial neural network (ANN) architectures, hyper-parameters and/or the training of ANNs. However, ANNs suffer from two major issues: (a) the use of highly-intense computational power for their correct training, and (b) the highly specialised human expertise required to correctly configure ANNs necessary to get a well-performing network. This work aims to fill this important research gap in SAEAs in neuroevolution by addressing these two issues. We demonstrate how one can use a Kriging Partial Least Squares method that allows efficient computation of good approximate surrogate models compared to the well-known Kriging method, which normally cannot be used in neuroevolution due to the high dimensionality of the data.
翻訳日:2023-05-12 11:22:39 公開日:2023-05-11
# 非ネイティブ話者の割合が言語複雑性に与える影響の証拠はまだない -- Kauhanen, Einhaus & Walkden (2023)に対する回答

Still no evidence for an effect of the proportion of non-native speakers on language complexity -- A response to Kauhanen, Einhaus & Walkden (2023) ( http://arxiv.org/abs/2305.00217v5 )

ライセンス: Link先を確認
Alexander Koplenig(参考訳) Journal of Language Evolutionに掲載された最近の論文で、Kauhanen, Einhaus & Walkden (https://doi.org/10.1093/jole/lzad005, KEW)は、私の論文の1つ(Koplenig, Royal Society Open Science 6, 181274 (2019), https://doi.org/10.1098/rsos.181274)で示された結果に異議を唱えました。 この目的のために、Ethnologueが言語ステータスを評価する方法に注目します。L1(第一言語)話者が使用することに加えて、かなりの数のL2ユーザを持つ必要がある場合、言語はvehicularとして特徴づけられます。 KEWは、言語がかなりの数のL2ユーザを持つかどうかを示す(バイナリ)指標として、そしてその比率の直接推定が不可能なときに、L2話者の0パーセントを非車種言語に出力するという考え方の両方を批判している。 出版後論評の重要性は認識していますが,本論では両論点が明記され,私の論文で分析されていることを示します。 さらに、KEWが提起した他の点についてもコメントし、KEWが提供する代替分析も、より精査に至らないことを実証します。

In a recent paper published in the Journal of Language Evolution, Kauhanen, Einhaus & Walkden (https://doi.org/10.1093/jole/lzad005, KEW) challenge the results presented in one of my papers (Koplenig, Royal Society Open Science, 6, 181274 (2019), https://doi.org/10.1098/rsos.181274), in which I tried to show through a series of statistical analyses that large numbers of L2 (second language) speakers do not seem to affect the (grammatical or statistical) complexity of a language. To this end, I focus on the way in which the Ethnologue assesses language status: a language is characterised as vehicular if, in addition to being used by L1 (first language) speakers, it should also have a significant number of L2 users. KEW criticise both the use of vehicularity as a (binary) indicator of whether a language has a significant number of L2 users and the idea of imputing a zero proportion of L2 speakers to non-vehicular languages whenever a direct estimate of that proportion is unavailable. While I recognise the importance of post-publication commentary on published research, I show in this rejoinder that both points of criticism are explicitly mentioned and analysed in my paper. In addition, I also comment on other points raised by KEW and demonstrate that both alternative analyses offered by KEW do not stand up to closer scrutiny.
翻訳日:2023-05-12 11:22:19 公開日:2023-05-11
# $\textit{RemOve-And-Retrain}$:データ処理の不平等の観点から

On Pitfalls of $\textit{RemOve-And-Retrain}$: Data Processing Inequality Perspective ( http://arxiv.org/abs/2304.13836v3 )

ライセンス: Link先を確認
Junhwa Song, Keumgang Cha, Junghoon Seo(参考訳) アトリビューション法(attribution method)と呼ばれる、特徴の重要性近似を評価するためのアプローチが、幅広いコンテキストにわたって確立されてきた。 パフォーマンスベンチマークのためのレジリエントなテクニックの開発は、説明可能なディープラーニングの分野において重要な関心事となっている。 本研究は,特徴量推定の性能評価に広く用いられているroar(remove-and-retrain)手順の信頼性について検討する。 理論的基礎と実証的研究から得られた知見は、ROARベンチマークにおいて、ROARの本来の意図に反して、決定関数に関するより少ない情報を含む属性が優れた結果をもたらす可能性があることを示している。 この現象は,最近導入された変種remove-and-debias (road)でも同様に観察され,roar attribution metricsにおけるぼやけバイアスの持続的なパターンを仮定した。 我々の発見は、ROARメトリクスの無差別使用に対する警告として役立ちます。 コードはオープンソースとして公開されている。

Approaches for appraising feature importance approximations, alternatively referred to as attribution methods, have been established across an extensive array of contexts. The development of resilient techniques for performance benchmarking constitutes a critical concern in the sphere of explainable deep learning. This study scrutinizes the dependability of the RemOve-And-Retrain (ROAR) procedure, which is prevalently employed for gauging the performance of feature importance estimates. The insights gleaned from our theoretical foundation and empirical investigations reveal that attributions containing lesser information about the decision function may yield superior results in ROAR benchmarks, contradicting the original intent of ROAR. This occurrence is similarly observed in the recently introduced variant RemOve-And-Debias (ROAD), and we posit a persistent pattern of blurriness bias in ROAR attribution metrics. Our findings serve as a warning against indiscriminate use on ROAR metrics. The code is available as open source.
翻訳日:2023-05-12 11:21:38 公開日:2023-05-11
# get your act together: ai act and technologyにおける透明性に関する比較見解

Get Your Act Together: A Comparative View on Transparency in the AI Act and Technology ( http://arxiv.org/abs/2302.10766v4 )

ライセンス: Link先を確認
Balint Gyevnar, Nick Ferguson, and Burkhard Schafer(参考訳) 欧州連合は、透明性と説明可能性に関する詳細な要件を含むAI規制に比例するリスクベースのアプローチを導入する人工知能法を提案した。 これらの要件の多くは、実際に説明可能なAI(XAI)の分野によって解決されるかもしれないが、透明性と説明可能性について、XAIと法の間には根本的な違いがある。 これらの基本的な定義は、規制が継続的に適切な技術的プラクティスに変換されることを保証するために一致すべきである。 この調整を容易にするために、まず、AI法と関連する一般データ保護規則(GDPR)に特に焦点をあてて、XAIと欧州の規制が透明性の基本的な定義をどのように見ているかの概要を示す。 次に、XAIと規制アプローチを比較して、透明性の範囲の明確化、XAIの法的地位、整合性評価の問題の監視、データセット関連透明性といった分野間の整合性を改善する主要なポイントを特定する。

The European Union has proposed the Artificial Intelligence Act which introduces a proportional risk-based approach to AI regulation including detailed requirements for transparency and explainability. Many of these requirements may be addressed in practice by the field of explainable AI (XAI), however, there are fundamental differences between XAI and the Act regarding what transparency and explainability are. These basic definitions should be aligned to assure that regulation continually translates into appropriate technical practices. To facilitate this alignment, we first give an overview of how XAI and European regulation view basic definitions of transparency with a particular focus on the AI Act and the related General Data Protection Regulation (GDPR). We then present a comparison of XAI and regulatory approaches to identify the main points that would improve alignment between the fields: clarification of the scope of transparency, the legal status of XAI, oversight issues in conformity assessments, and dataset-related transparency.
翻訳日:2023-05-12 11:21:20 公開日:2023-05-11
# シングルモーダル視覚位置分類へのマルチモーダルアプローチ

A Multi-modal Approach to Single-modal Visual Place Classification ( http://arxiv.org/abs/2305.06179v2 )

ライセンス: Link先を確認
Tomoya Iwasaki, Kanji Tanaka, and Kenta Tsukahara(参考訳) 一対一の単眼RGB画像からの視覚的位置分類は、長期ロボットナビゲーションの基本的な問題である。 RGB画像分類器は、季節、天気、照明の違いなどの領域シフトによって、しばしば空間や外観の変化に対して脆弱であり、劣化するという事実から、困難が生じる。 この問題に対処するために、rgbと深度(d)を組み合わせたマルチセンサー融合(lidar、radar、ステレオなど)が近年人気を集めている。 マルチモーダルRGB-D融合におけるこれらの取り組みに触発されて,最近開発された「ドメイン不変」単眼深度推定法を擬似深度モダリティとして用いた擬似深度測定を,擬似マルチモーダルRGB-D分類問題として再検討した。 具体的には、RGBと擬似Dという2つのモダリティを適切に処理し、融合し、分類するための実践的で完全に自己管理されたフレームワークについて述べる。 パブリックNCLTデータセットを用いたクロスドメインシナリオの挑戦実験は、提案フレームワークの有効性を検証する。

Visual place classification from a first-person-view monocular RGB image is a fundamental problem in long-term robot navigation. A difficulty arises from the fact that RGB image classifiers are often vulnerable to spatial and appearance changes and degrade due to domain shifts, such as seasonal, weather, and lighting differences. To address this issue, multi-sensor fusion approaches combining RGB and depth (D) (e.g., LIDAR, radar, stereo) have gained popularity in recent years. Inspired by these efforts in multimodal RGB-D fusion, we explore the use of pseudo-depth measurements from recently-developed techniques of ``domain invariant" monocular depth estimation as an additional pseudo depth modality, by reformulating the single-modal RGB image classification task as a pseudo multi-modal RGB-D classification problem. Specifically, a practical, fully self-supervised framework for training, appropriately processing, fusing, and classifying these two modalities, RGB and pseudo-D, is described. Experiments on challenging cross-domain scenarios using public NCLT datasets validate effectiveness of the proposed framework.
翻訳日:2023-05-12 11:17:19 公開日:2023-05-11
# HumanRF:人間の運動における高忠実性ニューラルラジアンス場

HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion ( http://arxiv.org/abs/2305.06356v2 )

ライセンス: Link先を確認
Mustafa I\c{s}{\i}k, Martin R\"unz, Markos Georgopoulos, Taras Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nie{\ss}ner(参考訳) 高い忠実度で人間のパフォーマンスを表現することは、映画制作、コンピュータゲーム、ビデオ会議など、さまざまなアプリケーションにおいて必須の構成要素である。 プロダクションレベルの品質とのギャップを埋めるために,多視点ビデオ入力から全体像を捉える4次元ダイナミックなニューラルシーン表現であるHumanRFを導入し,新規で見えない視点からの再生を可能にする。 提案手法は, 時空を時間行列ベクトル分解に分解することにより, 高圧縮率で細部をキャプチャする動的ビデオ符号化として機能する。 これにより, 挑戦的動作の文脈においても, 高分解能なディテールを表現しながら, 長時間連続する人間の俳優の時間的コヒーレントな再構成を得ることができる。 ほとんどの研究は4MP以下の解像度での合成に焦点を当てているが、我々は12MPでの運用の課題に対処する。 この目的のために,160台のカメラから12メガピクセルの映像を16のシーケンスで提供し,高忠実度でフレーム毎のメッシュ再構成を行う,新しいマルチビューデータセットである actorhq を紹介する。 このような高解像度データから生じる課題を実証し,新たに導入したhumanrfがこのデータを有効に活用し,製品レベルの新規なビュー合成に向けて大きな一歩を踏み出したことを示す。

Representing human performance at high-fidelity is an essential building block in diverse applications, such as film production, computer games or videoconferencing. To close the gap to production-level quality, we introduce HumanRF, a 4D dynamic neural scene representation that captures full-body appearance in motion from multi-view video input, and enables playback from novel, unseen viewpoints. Our novel representation acts as a dynamic video encoding that captures fine details at high compression rates by factorizing space-time into a temporal matrix-vector decomposition. This allows us to obtain temporally coherent reconstructions of human actors for long sequences, while representing high-resolution details even in the context of challenging motion. While most research focuses on synthesizing at resolutions of 4MP or lower, we address the challenge of operating at 12MP. To this end, we introduce ActorsHQ, a novel multi-view dataset that provides 12MP footage from 160 cameras for 16 sequences with high-fidelity, per-frame mesh reconstructions. We demonstrate challenges that emerge from using such high-resolution data and show that our newly introduced HumanRF effectively leverages this data, making a significant step towards production-level quality novel view synthesis.
翻訳日:2023-05-12 11:15:16 公開日:2023-05-11
# GPT-3による医療証拠の要約, 簡易化, 合成

Summarizing, Simplifying, and Synthesizing Medical Evidence Using GPT-3 (with Varying Success) ( http://arxiv.org/abs/2305.06299v2 )

ライセンス: Link先を確認
Chantal Shaib, Millicent L. Li, Sebastian Joseph, Iain J. Marshall, Junyi Jessy Li, Byron C. Wallace(参考訳) 大規模言語モデル、特にGPT-3は、いくつかの設定とゼロショット設定で一般的なドメインニュース記事の高品質な要約を生成することができる。 しかし、このようなモデルがバイオメディシンのようなより専門的で高度な領域でも同様に機能するかどうかは不明である。 本稿では,GPT-3が生み出す生物医学的項目の要約を評価するために,ドメインエキスパート(医療実習の個人)を募集する。 シングルドキュメントとマルチドキュメントの両方の設定を検討します。 前者では, GPT-3がランダム化比較試験を記述した記事の規則的, 平易な要約を生成することを任務とし, 後者では, GPT-3が記事の集合中に報告される証拠を「emph{synthesize>」できる程度の評価を行う。 モデル出力を評価するためのアノテーションスキームを設計し,生成した要約の事実的正確性を評価することに着目した。 GPT-3は1つの生物医学的論文を忠実に要約し、単純化することができるが、複数の文書の正確な集計に苦慮している。 この作業で使用されるデータとアノテーションをすべてリリースします。

Large language models, particularly GPT-3, are able to produce high quality summaries of general domain news articles in few- and zero-shot settings. However, it is unclear if such models are similarly capable in more specialized, high-stakes domains such as biomedicine. In this paper, we enlist domain experts (individuals with medical training) to evaluate summaries of biomedical articles generated by GPT-3, given zero supervision. We consider both single- and multi-document settings. In the former, GPT-3 is tasked with generating regular and plain-language summaries of articles describing randomized controlled trials; in the latter, we assess the degree to which GPT-3 is able to \emph{synthesize} evidence reported across a collection of articles. We design an annotation scheme for evaluating model outputs, with an emphasis on assessing the factual accuracy of generated summaries. We find that while GPT-3 is able to summarize and simplify single biomedical articles faithfully, it struggles to provide accurate aggregations of findings over multiple documents. We release all data and annotations used in this work.
翻訳日:2023-05-12 11:14:51 公開日:2023-05-11
# 2d/3d登録のためのパラメータ初期化を考慮した組込み特徴類似度最適化

Embedded Feature Similarity Optimization with Specific Parameter Initialization for 2D/3D Registration ( http://arxiv.org/abs/2305.06252v2 )

ライセンス: Link先を確認
Minheng Chen, Zhirun Zhang, Shuheng Gu, Youyong Kong(参考訳) 2D/3D登録のための組込み特徴類似度最適化(SOPI)は、次元ミスマッチ、重計算負荷、ゴールデンアセスメント標準の欠如など、最も困難な問題である。 設計したフレームワークには、初期化ポーズパラメータを効率よく選択するパラメータ仕様モジュールと、画像を整列する微細登録ネットワークが含まれている。 提案フレームワークは, 特殊な訓練手法を用いた新しい複合接続エンコーダを用いて, マルチスケールの特徴を抽出する。 本手法は,学習に基づく手法と最適化に基づく手法を比較し,さらなる性能評価を行う。 本実験により,本手法は登録性能を向上し,既存の手法よりも精度と実行時間に優れることを示した。 また,初期ポーズ推定器として提案手法の可能性を示す。

We present a novel deep learning-based framework: Embedded Feature Similarity Optimization with Specific Parameter Initialization (SOPI) for 2D/3D registration which is a most challenging problem due to the difficulty such as dimensional mismatch, heavy computation load and lack of golden evaluating standard. The framework we designed includes a parameter specification module to efficiently choose initialization pose parameter and a fine-registration network to align images. The proposed framework takes extracting multi-scale features into consideration using a novel composite connection encoder with special training techniques. The method is compared with both learning-based methods and optimization-based methods to further evaluate the performance. Our experiments demonstrate that the method in this paper has improved the registration performance, and thereby outperforms the existing methods in terms of accuracy and running time. We also show the potential of the proposed method as an initial pose estimator.
翻訳日:2023-05-12 11:14:29 公開日:2023-05-11
# 大規模言語モデルを用いたテキストモーダル記述に基づく解釈可能なマルチモーダル感情分析

Interpretable multimodal sentiment analysis based on textual modality descriptions by using large-scale language models ( http://arxiv.org/abs/2305.06162v2 )

ライセンス: Link先を確認
Sixia Li and Shogo Okada(参考訳) マルチモーダル感情分析は、ユーザの内部状態を理解する上で重要な領域である。 深層学習の手法は有効であるが, 難解な解釈の問題は徐々に注目されてきている。 従来の研究は、注意重みやベクトル分布を使って解釈性を提供しようと試みてきた。 しかし、それらの説明は直感的ではなく、異なる訓練されたモデルの影響を受けやすい。 本研究では,非言語的モダリティをテキスト記述に変換し,感情予測のための大規模言語モデルを用いて解釈可能性を提供する新しい手法を提案する。 これは、入力テキストからの意思決定に関してモデルが依存するものを直接解釈する直感的なアプローチを提供し、解釈可能性を大幅に改善する。 具体的には、音声モダリティのための2つの特徴パターンと、顔モダリティのための離散アクションユニットに基づいて記述を変換する。 2つの感情分析タスクの実験結果から,従来の特徴を用いたベースラインに比べて,感情分析の有効性が向上し,F1スコアの2.49%が向上した。 また, マルチモーダル記述は, 従来の核融合法と同様のモーダル性を持つことを示した。 その結果,提案手法はマルチモーダル感情分析に有効であることが示唆された。

Multimodal sentiment analysis is an important area for understanding the user's internal states. Deep learning methods were effective, but the problem of poor interpretability has gradually gained attention. Previous works have attempted to use attention weights or vector distributions to provide interpretability. However, their explanations were not intuitive and can be influenced by different trained models. This study proposed a novel approach to provide interpretability by converting nonverbal modalities into text descriptions and by using large-scale language models for sentiment predictions. This provides an intuitive approach to directly interpret what models depend on with respect to making decisions from input texts, thus significantly improving interpretability. Specifically, we convert descriptions based on two feature patterns for the audio modality and discrete action units for the facial modality. Experimental results on two sentiment analysis tasks demonstrated that the proposed approach maintained, or even improved effectiveness for sentiment analysis compared to baselines using conventional features, with the highest improvement of 2.49% on the F1 score. The results also showed that multimodal descriptions have similar characteristics on fusing modalities as those of conventional fusion methods. The results demonstrated that the proposed approach is interpretable and effective for multimodal sentiment analysis.
翻訳日:2023-05-12 11:14:15 公開日:2023-05-11
# 熱質量とトラップイオン量子スピンモデル:$\lambda\!における湯川型相互作用に対する自己整合的アプローチ \phi^4$モデル

Thermal masses and trapped-ion quantum spin models: a self-consistent approach to Yukawa-type interactions in the $\lambda\!\phi^4$ model ( http://arxiv.org/abs/2305.06113v2 )

ライセンス: Link先を確認
Pablo Vi\~nas Mart\'inez, Esperanza L\'opez and Alejandro Bermudez(参考訳) 閉じ込められたイオン系における磁性の量子シミュレーションは、結晶振動を利用してイオンの内部電子状態にエンコードされるスピン間の対方向相互作用を仲介し、リアルタイムダイナミクスを探索する実験で測定する。 これらの相互作用は長い波長の相対論的理論によって説明され、フォノンは粗い粒度のクライン=ゴルドン場 $\phi(x)$ によってキャリアとして作用するスピンに局所的に結合され、ピオンを媒介する湯川相互作用のアナログとなる。 イオン結晶の構造転移の近傍では、Klein-Gordon場を超えて、フォノン-フォノン散乱に責任を持つ$\lambda\phi^4$項を含む必要がある。 これは、この量子場理論(QFT)の根底にある固定点を探索するために用いられる効果である、湯川型のスピン相互作用の範囲を変更するファインマンループ積分によって表現できる量子効果をもたらす。 残念なことに、閉じ込められたイオン結晶の剛性は、クォート結合$\lambda$の臨界点の流れのような真の量子効果の観測を困難にしている。 レーザー冷却によって制御できる熱効果は、相互作用するqftにおける熱質量の出現を通じてこの流れを明らかにすることができる。 我々は、ある種のファインマン図形を再仮定する自己整合計算を行い、さらに平均場理論を超えて、捕捉されたイオンスピン系における測定が$\lambda\phi^4$ QFT の重要な性質をどのように探索するかを予測する。

The quantum simulation of magnetism in trapped-ion systems makes use of the crystal vibrations to mediate pairwise interactions between spins, which are encoded in the internal electronic states of the ions, and measured in experiments that probe the real-time dynamics. These interactions can be accounted for by a long-wavelength relativistic theory, where the phonons are described by a coarse-grained Klein-Gordon field $\phi(x)$ locally coupled to the spins that acts as a carrier, leading to an analogue of pion-mediated Yukawa interactions. In the vicinity of a structural transition of the ion crystal, one must go beyond the Klein-Gordon fields, and include additional $\lambda\phi^4$ terms responsible for phonon-phonon scattering. This leads to quantum effects that can be expressed by Feynman loop integrals that modify the range of the Yukawa-type spin interactions; an effect that could be used to probe the underlying fixed point of this quantum field theory (QFT). Unfortunately, the rigidity of the trapped-ion crystal makes it challenging to observe genuine quantum effects, such as the flow of the critical point with the quartic coupling $\lambda$. We hereby show that thermal effects, which can be controlled by laser cooling, can unveil this flow through the appearance of thermal masses in interacting QFTs. We perform self-consistent calculations that resum certain Feynman diagrams and, additionally, go beyond mean-field theory to predict how measurements on the trapped-ion spin system can probe key properties of the $\lambda\phi^4$ QFT.
翻訳日:2023-05-12 11:13:36 公開日:2023-05-11
# Pavlok-Nudge:スノーティング・ケースを用いた原子行動修正のためのフィードバック機構

Pavlok-Nudge: A Feedback Mechanism for Atomic Behaviour Modification with Snoring Usecase ( http://arxiv.org/abs/2305.06110v2 )

ライセンス: Link先を確認
Shreya Ghosh, Rakibul Hasan, Pradyumna Agrawal, Zhixi Cai, Susannah Soon, Abhinav Dhall, Tom Gedeon(参考訳) 本稿では,pavlokデバイスを用いた「悪習慣を壊す」フィードバック機構を提案する。 Pavlokは、ビープ、振動、衝撃を回避技術として利用し、個人が行動修正を行うのを助ける。 このデバイスは、アラームやエクササイズ通知など、日常の特定の状況下では便利だが、その使用を制限する手動操作に依存している。 この目的のために,Pavlokとディープラーニングモデルを統合した自動フィードバック機構を生成するユーザインタフェースを設計し,モバイルやデスクトップアプリケーションなどの統合ユーザインターフェースを通じて特定の動作を検出する。 提案手法は,音声コンテンツがスヌールであるか否かを予測した結果,まず環境から音声を検出するスヌーリングの文脈で実装,検証される。 ディープラーニングモデルの予測に基づいて,pavlokを用いてユーザに対して予防措置を警告する。 このシンプルなソリューションは、人々がアトミックな習慣を変えるのに役立つと信じています。

This paper proposes a feedback mechanism to 'break bad habits' using the Pavlok device. Pavlok utilises beeps, vibration and shocks as a mode of aversion technique to help individuals with behaviour modification. While the device can be useful in certain periodic daily life situations, like alarms and exercise notifications, the device relies on manual operations that limit its usage. To this end, we design a user interface to generate an automatic feedback mechanism that integrates Pavlok and a deep learning based model to detect certain behaviours via an integrated user interface i.e. mobile or desktop application. Our proposed solution is implemented and verified in the context of snoring, which first detects audio from the environment following a prediction of whether the audio content is a snore or not. Based on the prediction of the deep learning model, we use Pavlok to alert users for preventive measures. We believe that this simple solution can help people to change their atomic habits, which may lead to long-term benefits.
翻訳日:2023-05-12 11:13:01 公開日:2023-05-11
# 時間依存量子振動子のためのウィグナー・ヴラソフ形式

The Wigner-Vlasov formalizm for time-dependent quantum oscillator ( http://arxiv.org/abs/2305.06069v2 )

ライセンス: Link先を確認
E.E. Perepelkin, B.I. Sadovnikov, N.G. Inozemtseva, A.A. Korepanova(参考訳) 本稿では,位相空間における量子系に対するvlasov理論とwigner関数の枠組みにおける時間依存周波数を持つ高調波発振器の問題を包括的に検討する。 ヴェラソフ方程式チェーンとシュル=オディンガー方程式、およびウィグナー関数のモヤル方程式の関係を用いて、この問題の厳密な解を求める新しい方法が提案されている。 位相空間におけるウィグナー関数上のエネルギー関数を平均化する方法は、量子系に対する時間依存エネルギースペクトルを得るために用いられる。 ヴラソフ方程式の解はヒル方程式を満たす特性の形で表現することができる。 ヒル方程式の特別な場合、すなわち不安定解を持つマチュー方程式は詳細に検討されている。 不安定な量子系のダイナミクスの解析により、ウィグナー関数レベル線で有界な位相空間の正方形は時間保存されるが、エネルギー関数線で有界な位相空間の正方形は増加する。 この場合、ヴラソフ方程式の特徴はウィグナー関数レベル線とエネルギー関数ラインの交差点に位置する。 このクロスポイントは不安定なシステムのダイナミクスを表す軌道で時間とともに移動する。 それぞれの軌道は独自のエネルギーを持ち、ウィグナー関数上でこれらのエネルギーを平均すると、システム全体の時間依存離散エネルギースペクトルとなる。 一般化位相空間 $\left\{x,p,\dot{p},\ddot{p} \right\} において、4階のウィグナー函数に対して明示的な表現が得られている。 $

This paper presents a comprehensive investigation of the problem of a harmonic oscillator with time-depending frequencies in the framework of the Vlasov theory and the Wigner function apparatus for quantum systems in the phase space. A new method is proposed to find an exact solution of this problem using a relation of the Vlasov equation chain with the Schr\"odinger equation and with the Moyal equation for the Wigner function. A method of averaging the energy function over the Wigner function in the phase space can be used to obtain time-dependent energy spectrum for a quantum system. The Vlasov equation solution can be represented in the form of characteristics satisfying the Hill equation. A particular case of the Hill equation, namely the Mathieu equation with unstable solutions, has been considered in details. An analysis of the dynamics of an unstable quantum system shows that the phase space square bounded with the Wigner function level line conserves in time, but the phase space square bounded with the energy function line increases. In this case the Vlasov equation characteristic is situated on the crosspoint of the Wigner function level line and the energy function line. This crosspoint moves in time with a trajectory that represents the unstable system dynamics. Each such trajectory has its own energy, and averaging these energies over the Wigner function results in time-dependent discreet energy spectrum for the whole system. An explicit expression has been obtained for the Wigner function of the 4th rank in the generalized phase space $\left\{ x,p,\dot{p},\ddot{p} \right\}.$
翻訳日:2023-05-12 11:12:45 公開日:2023-05-11
# 変分核トレーニングによる量子サポートベクトルマシンの強化

Enhancing Quantum Support Vector Machines through Variational Kernel Training ( http://arxiv.org/abs/2305.06063v2 )

ライセンス: Link先を確認
Nouhaila Innan, Muhammad Al-Zafar Khan, Biswaranjan Panda, and Mohamed Bennai(参考訳) 量子機械学習(QML)は、量子サポートベクターマシン(QSVM)が将来的なモデルとして登場し、近年大きく進歩している。 本稿では,量子カーネルSVM(QK-SVM)と量子変動SVM(QV-SVM)の2つの既存QSVM手法に焦点を当てる。 どちらも印象的な結果を得たが、精度を高めるためにQK-SVMとQV-SVMの強みを相乗化する新しいアプローチを提案する。 提案する量子変分カーネルSVM(QVK-SVM)は,量子カーネルと量子変分アルゴリズムを利用する。 irisデータセットに関する広範な実験を行い、qvk-svmが既存のモデルの精度、損失、および混乱行列の指標よりも優れていることを観測した。 以上の結果から,QVK-SVMはQMLアプリケーションの信頼性と変換ツールとして大きな可能性を秘めている。 したがって、今後のQML研究における採用を推奨する。

Quantum machine learning (QML) has witnessed immense progress recently, with quantum support vector machines (QSVMs) emerging as a promising model. This paper focuses on the two existing QSVM methods: quantum kernel SVM (QK-SVM) and quantum variational SVM (QV-SVM). While both have yielded impressive results, we present a novel approach that synergizes the strengths of QK-SVM and QV-SVM to enhance accuracy. Our proposed model, quantum variational kernel SVM (QVK-SVM), leverages the quantum kernel and quantum variational algorithm. We conducted extensive experiments on the Iris dataset and observed that QVK-SVM outperforms both existing models in terms of accuracy, loss, and confusion matrix indicators. Our results demonstrate that QVK-SVM holds tremendous potential as a reliable and transformative tool for QML applications. Hence, we recommend its adoption in future QML research endeavors.
翻訳日:2023-05-12 11:12:17 公開日:2023-05-11
# CodeIE: 大規模なコード生成モデルは、Few-Shot情報エクストラクタより優れている

CodeIE: Large Code Generation Models are Better Few-Shot Information Extractors ( http://arxiv.org/abs/2305.05711v2 )

ライセンス: Link先を確認
Peng Li, Tianxiang Sun, Qiong Tang, Hang Yan, Yuanbin Wu, Xuanjing Huang, Xipeng Qiu(参考訳) 大規模コーパスで事前学習された大規模言語モデル(llm)は多くのnlpタスクで印象的な少数ショット学習能力を示している。 一般的には、GPT-3のような自然言語(NL-LLM)の生成LLMを誘導するように、タスクをテキストからテキストにリキャストする。 しかし、通常、IEタスクの出力が構造化されており、プレーンテキストに変換することが難しいため、NL-LLMで情報抽出(IE)タスクを実行するのは簡単ではない。 本稿では、構造化された出力を自然言語の代わりにコード形式で再キャストし、コーデックスのようなコード(コード-LLM)の生成LCMを用いてIEタスク、特に名前付きエンティティ認識と関係抽出を行う。 NL-LLMとは対照的に、コードスタイルのプロンプトを設計し、これらのIEタスクをコード生成タスクとして定式化することにより、コード-LLMがこれらのIEタスクと整合可能であることを示す。 7つのベンチマークによる実験結果から,IEタスク(UIEなど)に特化して設計された微調整型事前学習モデルと,数ショット設定でのNL-LLMの高速化が得られた。 さらに,IE タスクに Code-LLM を活用するメリットを示すために,一連の詳細な分析を行う。

Large language models (LLMs) pre-trained on massive corpora have demonstrated impressive few-shot learning ability on many NLP tasks. A common practice is to recast the task into a text-to-text format such that generative LLMs of natural language (NL-LLMs) like GPT-3 can be prompted to solve it. However, it is nontrivial to perform information extraction (IE) tasks with NL-LLMs since the output of the IE task is usually structured and therefore is hard to be converted into plain text. In this paper, we propose to recast the structured output in the form of code instead of natural language and utilize generative LLMs of code (Code-LLMs) such as Codex to perform IE tasks, in particular, named entity recognition and relation extraction. In contrast to NL-LLMs, we show that Code-LLMs can be well-aligned with these IE tasks by designing code-style prompts and formulating these IE tasks as code generation tasks. Experiment results on seven benchmarks show that our method consistently outperforms fine-tuning moderate-size pre-trained models specially designed for IE tasks (e.g., UIE) and prompting NL-LLMs under few-shot settings. We further conduct a series of in-depth analyses to demonstrate the merits of leveraging Code-LLMs for IE tasks.
翻訳日:2023-05-12 11:11:57 公開日:2023-05-11
# InternGPT:ChatGPT以外の言語との相互作用による視覚中心課題の解決

InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language ( http://arxiv.org/abs/2305.05662v3 )

ライセンス: Link先を確認
Zhaoyang Liu, Yinan He, Wenhai Wang, Weiyun Wang, Yi Wang, Shoufa Chen, Qinglong Zhang, Yang Yang, Qingyun Li, Jiashuo Yu, Kunchang Li, Zhe Chen, Xue Yang, Xizhou Zhu, Yali Wang, Limin Wang, Ping Luo, Jifeng Dai, Yu Qiao(参考訳) InternGPT(iGPT)という対話型視覚フレームワークを提案する。 このフレームワークは、chatgptのような計画や推論機能を備えたチャットボットと、画面上の画像やビデオを直接操作できるポインティングのような非言語命令を統合する。 ポインティング(ジェスチャー、カーソルなどを含む)の動きは、細かい制御、編集、視覚コンテンツの生成を必要とする視覚中心のタスクの実行において、より柔軟性と精度を提供する。 InternGPT は \textbf{inter}action, \textbf{n}onverbal, \textbf{chat}bots の略である。 純粋言語に依存している既存の対話システムとは違って,提案したiGPTでは,ユーザとチャットボット間の通信効率が向上し,特にオブジェクト数が2より多い複雑な視覚シナリオにおいて,チャットボットの精度が向上する。 さらに、iGPTでは、LLMの制御能力を向上するために補助制御機構が使用され、Huskyと呼ばれる大きな視覚言語モデルが高品質な多モード対話のために微調整されている(ChatGPT-3.5-turboを93.89\% GPT-4品質で圧縮する)。 この研究が将来のインタラクティブなビジュアルシステムに新たなアイデアと方向性をもたらすことを願っている。 コードをhttps://github.com/opengvlab/interngptでご覧ください。

We present an interactive visual framework named InternGPT, or iGPT for short. The framework integrates chatbots that have planning and reasoning capabilities, such as ChatGPT, with non-verbal instructions like pointing movements that enable users to directly manipulate images or videos on the screen. Pointing (including gestures, cursors, etc.) movements can provide more flexibility and precision in performing vision-centric tasks that require fine-grained control, editing, and generation of visual content. The name InternGPT stands for \textbf{inter}action, \textbf{n}onverbal, and \textbf{chat}bots. Different from existing interactive systems that rely on pure language, by incorporating pointing instructions, the proposed iGPT significantly improves the efficiency of communication between users and chatbots, as well as the accuracy of chatbots in vision-centric tasks, especially in complicated visual scenarios where the number of objects is greater than 2. Additionally, in iGPT, an auxiliary control mechanism is used to improve the control capability of LLM, and a large vision-language model termed Husky is fine-tuned for high-quality multi-modal dialogue (impressing ChatGPT-3.5-turbo with 93.89\% GPT-4 Quality). We hope this work can spark new ideas and directions for future interactive visual systems. Welcome to watch the code at https://github.com/OpenGVLab/InternGPT.
翻訳日:2023-05-12 11:11:30 公開日:2023-05-11