このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230313となっている論文です。

PDF登録状況(公開日: 20230313)

TitleAuthorsAbstract論文公表日・翻訳日
# コンピュータ工学入門講座におけるChatGPTの能力分析

Analyzing ChatGPT's Aptitude in an Introductory Computer Engineering Course ( http://arxiv.org/abs/2304.06122v1 )

ライセンス: Link先を確認
Jakub Szefer and Sanjay Deshpande(参考訳) chatgptは最近、さまざまな質問に対して、妥当で人間らしいテキスト回答を生成できるツールとして、一般大衆とアカデミアから注目を集めている。 ChatGPTの潜在的な使用、または悪用の1つは、様々な質問に答えたり、学術や教室でエッセイや研究論文全体を生成することである。 近年の研究では、人文科学、ビジネススクール、医学校の文脈におけるChatGPTの使用について検討されているが、この研究は、初歩的なコンピュータ工学コースの文脈におけるChatGPTがどのように機能するかを探求している。 この研究は、入門レベルのコンピュータ工学コースでクイズ、宿題、試験、実験室の質問に答えるChatGPTの適性を評価する。 この研究により、ChatGPTは一般的な概念に関する質問にうまく対応できることがわかった。 しかし、予測可能なテキストのみのツールとして、図や図形で質問を処理できないし、図や図形を生成することもできない。 さらに、このツールは実験室での実験やパンボードの組み立てなどを行うことはできないが、実験室の手作業による質問に対して、もっともらしい回答を生成することができる。 この研究で示された重要な観察の1つは、ChatGPTツールがコースのすべてのコンポーネントをパスできないことである。 それでも、クイズや短い質問ではうまく機能する。 一方、妥当で人間らしい答えは、不正確な答えを生み出すと学生を混乱させる可能性がある。

ChatGPT has recently gathered attention from the general public and academia as a tool that is able to generate plausible and human-sounding text answers to various questions. One potential use, or abuse, of ChatGPT is in answering various questions or even generating whole essays and research papers in an academic or classroom setting. While recent works have explored the use of ChatGPT in the context of humanities, business school, or medical school, this work explores how ChatGPT performs in the context of an introductory computer engineering course. This work assesses ChatGPT's aptitude in answering quizzes, homework, exam, and laboratory questions in an introductory-level computer engineering course. This work finds that ChatGPT can do well on questions asking about generic concepts. However, predictably, as a text-only tool, it cannot handle questions with diagrams or figures, nor can it generate diagrams and figures. Further, also clearly, the tool cannot do hands-on lab experiments, breadboard assembly, etc., but can generate plausible answers to some laboratory manual questions. One of the key observations presented in this work is that the ChatGPT tool could not be used to pass all components of the course. Nevertheless, it does well on quizzes and short-answer questions. On the other hand, plausible, human-sounding answers could confuse students when generating incorrect but still plausible answers.
翻訳日:2023-04-16 21:57:08 公開日:2023-03-13
# 文脈付き文埋め込みの効率的な量子化のためのハッシュランダム投影の再発見

Rediscovering Hashed Random Projections for Efficient Quantization of Contextualized Sentence Embeddings ( http://arxiv.org/abs/2304.02481v1 )

ライセンス: Link先を確認
Ulf A. Hamster, Ji-Ung Lee, Alexander Geyken, Iryna Gurevych(参考訳) エッジデバイスでのトレーニングと推論は、しばしば計算の制限のために効率的なセットアップを必要とする。 データ表現の事前計算とサーバへのキャッシュは、エッジデバイスの広範な計算を軽減できますが、これは2つの課題をもたらします。 まず、インスタンス数に線形にスケールするサーバに必要なストレージの量。 第二に、大量のデータをエッジデバイスに送るのに必要な帯域幅がある。 予め計算したデータ表現のメモリフットプリントを削減するために,ランダムに初期化された超平面投影を用いた単純かつ効果的な手法を提案する。 さらに98.96%まで小さくするため、結果の浮動小数点表現をバイナリベクトルに量子化する。 サイズが大幅に縮小したにもかかわらず、埋め込みは、浮動小数点の94%--99%を保持する様々な英語およびドイツ語の文分類タスクのトレーニングモデルに有効であることを示す。

Training and inference on edge devices often requires an efficient setup due to computational limitations. While pre-computing data representations and caching them on a server can mitigate extensive edge device computation, this leads to two challenges. First, the amount of storage required on the server that scales linearly with the number of instances. Second, the bandwidth required to send extensively large amounts of data to an edge device. To reduce the memory footprint of pre-computed data representations, we propose a simple, yet effective approach that uses randomly initialized hyperplane projections. To further reduce their size by up to 98.96%, we quantize the resulting floating-point representations into binary vectors. Despite the greatly reduced size, we show that the embeddings remain effective for training models across various English and German sentence classification tasks that retain 94%--99% of their floating-point.
翻訳日:2023-04-09 05:24:55 公開日:2023-03-13
# TM-vector:Twitterとマーケットデータの豊かな表現による市場ストックムーブメントの新しい予測手法

TM-vector: A Novel Forecasting Approach for Market stock movement with a Rich Representation of Twitter and Market data ( http://arxiv.org/abs/2304.02094v1 )

ライセンス: Link先を確認
Faraz Sasani, Ramin Mousa, Ali Karkehabadi, Samin Dehbashi, Ali Mohammadi(参考訳) 株式市場の予測は多くのアナリストや研究者にとって難しい部分だった。 トレンド分析、統計手法、動き指標は伝統的に株価変動予測に用いられてきたが、近年はテキスト抽出が有望な手法として登場している。 ニューラルネットワーク、特にリカレントニューラルネットワークの使用は、文献に豊富である。 ほとんどの研究では、異なるユーザーの影響は同等か無視されるが、他の効果がある。 現在の研究では、TM-vectorを導入し、このベクトルを使ってIndRNNをトレーニングし、最終的に市場のユーザの振る舞いをモデル化します。 提案モデルでは,抽出したTwitter機能と市場情報の両方でTM-vectorを同時にトレーニングする。 市場方向性をより正確に予測するために,各ユーザの特性,ユーザへの影響,市場への影響など,提案手法の有効性に様々な要因が用いられている。 dow jones 30 indexは、現在の研究で使われている。 Appleの毎日の株価変動を予測するために得られた精度は、様々なモデルに基づいており、95%以上までクローズドであり、他の株も重要なものだ。 本結果は,TMベクターが株式市場の方向性を予測する上で有効であることを示す。

Stock market forecasting has been a challenging part for many analysts and researchers. Trend analysis, statistical techniques, and movement indicators have traditionally been used to predict stock price movements, but text extraction has emerged as a promising method in recent years. The use of neural networks, especially recurrent neural networks, is abundant in the literature. In most studies, the impact of different users was considered equal or ignored, whereas users can have other effects. In the current study, we will introduce TM-vector and then use this vector to train an IndRNN and ultimately model the market users' behaviour. In the proposed model, TM-vector is simultaneously trained with both the extracted Twitter features and market information. Various factors have been used for the effectiveness of the proposed forecasting approach, including the characteristics of each individual user, their impact on each other, and their impact on the market, to predict market direction more accurately. Dow Jones 30 index has been used in current work. The accuracy obtained for predicting daily stock changes of Apple is based on various models, closed to over 95\% and for the other stocks is significant. Our results indicate the effectiveness of TM-vector in predicting stock market direction.
翻訳日:2023-04-09 05:24:07 公開日:2023-03-13
# 欧州の気候変動イノベーションにおける研究とプロジェクトのギャップを埋める

Closing the gap between research and projects in climate change innovation in Europe ( http://arxiv.org/abs/2303.17560v1 )

ライセンス: Link先を確認
Francesca Larosa, Jaroslav Mysiak, Marco Molinari, Panagiotis Varelas, Haluk Akay, Will McDowall, Catalina Spadaru, Francesco Fuso-Nerini, Ricardo Vinuesa(参考訳) イノベーションは、新しい気候条件に適応するためのツールを社会に提供する上で重要な要素である。 研究活動インタフェースの開発は、有用なアイデアを運用的な知識にシフトさせ、イノベーションが繁栄する。 本稿では、人工知能(AI)手法とネットワーク科学を組み合わせた新しい枠組みを用いて、ヨーロッパにおける気候研究とイノベーション活動のギャップを定量化する。 我々は、ピアレビュー出版からの研究関心の主要なトピックと、最新の欧州のフレームワークプログラムによって資金提供されたイノベーションプロジェクトによって取り組まれる中核的な課題の間の距離を計算する。 以上の結果から,両層間に有意差がみられた。 経済的なインセンティブ、農業と産業のプロセスは適応と緩和の優先順位に異なる関係がある。 また、バイオプロダクト、バイオテクノロジー、リスクアセスメントの実践において、研究結果と比較してアプリケーションが少ないという緩やかな研究-アクションのつながりも見出しています。 我々の分析は、研究資金がイノベーション行動にどう影響するかを測り、追跡する政策立案者を支援し、もし優先事項が達成できなければ意思決定を調整する。

Innovation is a key component to equip our society with tools to adapt to new climatic conditions. The development of research-action interfaces shifts useful ideas into operationalized knowledge allowing innovation to flourish. In this paper we quantify the existing gap between climate research and innovation action in Europe using a novel framework that combines artificial intelligence (AI) methods and network science. We compute the distance between key topics of research interest from peer review publications and core issues tackled by innovation projects funded by the most recent European framework programmes. Our findings reveal significant differences exist between and within the two layers. Economic incentives, agricultural and industrial processes are differently connected to adaptation and mitigation priorities. We also find a loose research-action connection in bioproducts, biotechnologies and risk assessment practices, where applications are still too few compared to the research insights. Our analysis supports policy-makers to measure and track how research funding result in innovation action, and to adjust decisions if stated priorities are not achieved.
翻訳日:2023-04-02 18:12:14 公開日:2023-03-13
# PBSHM : 階層システムとしての人口

Towards risk-informed PBSHM: Populations as hierarchical systems ( http://arxiv.org/abs/2303.13533v1 )

ライセンス: Link先を確認
Aidan J. Hughes, Paul Gardner, Keith Worden(参考訳) 構造物の運用・保守(O&M)に関する情報的かつ最適な意思決定の見通しは、構造的健康モニタリング(SHM)システムの開発に欠かせないものとなる。 意思決定のための確率的リスクベースのフレームワークがすでに提案されている。 しかし、意思決定に必要な統計モデルを学習するためには、関心構造からの測定データが必要である。 残念ながら、これらのデータはモデルの適切な一般化を保証するために必要な環境および運用条件の範囲ではほとんど利用できない。 近年,この課題を克服する技術が開発され,scmを構造物の集団に拡張することで,十分に類似した構造物のインスタンス間で貴重な知識を伝達することができる。 この新しいアプローチは、人口ベース構造ヒースモニタリング(PBSHM)と呼ばれる。 本論文では,リスクベースの意思決定プロセスがそれらの内部で特定されるような構造群を形式的に表現する。 人口ベース表現は、断層木を定義する確率論的リスクベースの決定枠組みの中で使用される構造の階層的表現の拡張である。 結果は、個々のコンポーネントレベルから異種集団の在庫まで、システムのシステムで構成される一連のシリーズである。 本論文は,風力発電の在庫をモチベーションの例として捉え,階層的表現の中で行うことができる推論と決定を強調する。

The prospect of informed and optimal decision-making regarding the operation and maintenance (O&M) of structures provides impetus to the development of structural health monitoring (SHM) systems. A probabilistic risk-based framework for decision-making has already been proposed. However, in order to learn the statistical models necessary for decision-making, measured data from the structure of interest are required. Unfortunately, these data are seldom available across the range of environmental and operational conditions necessary to ensure good generalisation of the model. Recently, technologies have been developed that overcome this challenge, by extending SHM to populations of structures, such that valuable knowledge may be transferred between instances of structures that are sufficiently similar. This new approach is termed population-based structural heath monitoring (PBSHM). The current paper presents a formal representation of populations of structures, such that risk-based decision processes may be specified within them. The population-based representation is an extension to the hierarchical representation of a structure used within the probabilistic risk-based decision framework to define fault trees. The result is a series, consisting of systems of systems ranging from the individual component level up to an inventory of heterogeneous populations. The current paper considers an inventory of wind farms as a motivating example and highlights the inferences and decisions that can be made within the hierarchical representation.
翻訳日:2023-03-31 16:37:26 公開日:2023-03-13
# フォレの時代:財団

The ERA of FOLE: Foundation ( http://arxiv.org/abs/1512.07430v2 )

ライセンス: Link先を確認
Robert E. Kent(参考訳) 本稿では,一階論理環境FOLEにおけるオントロジーの表現について論じる(Kent 2013)。 オントロジーは、言論コミュニティの知識資源をモデル化するプリミティブを定義している(2009年10月)。 これらのプリミティブはクラス、関係、プロパティで構成され、entity-relationship-attribute era data model (chen 1976)によって表現される。 オントロジーはこれらのプリミティブの解釈を制約するために形式公理を使用する。 要するに、オントロジーは論理理論を特定する。 本稿では,一階論理環境において,特にデータモデル,および一般にオントロジーの厳密な数学的表現を提供する3つの論文の第1報である。 最初の2つの論文は、情報フローフレームワーク(IFF)で議論されたアイデアに対応する分類形式で、FOLEが(多くの分類された)一階述語論理の形式と意味を表現する方法を示している。 特に,本論文では,ERAデータモデルの要素を一階論理環境FOLEの構成要素に結合する基盤を提供するとともに,第2報では,FOLEを一階論理の形式に拡張するスーパー構造を提供する。 第3の論文では、FOLEの解釈を、1次論理の分類形式から等価な解釈形式への変換パス(Kent 2013)の観点から定義し、従って1次論理/関係データベースシステムの形式と意味を定義する(Kent 2011)。 FOLE表現は、形式的な概念解析(Ganter and Wille 1999)と情報フロー(Barwise and Seligman 1997)と完全に互換性のある概念構造アプローチに従う。

This paper discusses the representation of ontologies in the first-order logical environment FOLE (Kent 2013). An ontology defines the primitives with which to model the knowledge resources for a community of discourse (Gruber 2009). These primitives, consisting of classes, relationships and properties, are represented by the entity-relationship-attribute ERA data model (Chen 1976). An ontology uses formal axioms to constrain the interpretation of these primitives. In short, an ontology specifies a logical theory. This paper is the first in a series of three papers that provide a rigorous mathematical representation for the ERA data model in particular, and ontologies in general, within the first-order logical environment FOLE. The first two papers show how FOLE represents the formalism and semantics of (many-sorted) first-order logic in a classification form corresponding to ideas discussed in the Information Flow Framework (IFF). In particular, this first paper provides a foundation that connects elements of the ERA data model with components of the first-order logical environment FOLE, and the second paper provides a superstructure that extends FOLE to the formalisms of first-order logic. The third paper defines an interpretation of FOLE in terms of the transformational passage, first described in (Kent 2013), from the classification form of first-order logic to an equivalent interpretation form, thereby defining the formalism and semantics of first-order logical/relational database systems (Kent 2011). The FOLE representation follows a conceptual structures approach, that is completely compatible with formal concept analysis (Ganter and Wille 1999) and information flow (Barwise and Seligman 1997).
翻訳日:2023-03-25 04:58:14 公開日:2023-03-13
# 生成モデルの潜在空間における特徴に基づく補間と測地学

Feature-Based Interpolation and Geodesics in the Latent Spaces of Generative Models ( http://arxiv.org/abs/1904.03445v3 )

ライセンス: Link先を確認
{\L}ukasz Struski, Micha{\l} Sadowski, Tomasz Danel, Jacek Tabor, Igor T. Podolak(参考訳) 点間の補間は測地線の発見と生成モデルの研究と同時に結びついた問題である。 測地線の場合、最も短い長さの曲線を探索するが、生成モデルの場合、典型的には潜在空間に線形補間を適用する。 しかし、この補間はガウスがユニモダルであるという事実を暗黙的に用いている。 したがって、潜在密度が非ガウス的である場合に補間する問題は開問題である。 本稿では,任意の密度の場合の静止空間における測地線と補間曲線を同時に探索する,補間に対する汎用的で統一的なアプローチを提案する。 本研究の結果は補間曲線の品質指標に基づく理論的背景を持つ。 特に、曲線の品質測度を最大化することは、空間上のリーマン計量のある種の再定義に対する測地線の探索として等価に理解できることを示す。 3つの重要な事例に例を挙げる。 まず,本手法は多様体上の測地線の発見に容易に適用できることを示す。 次に、事前学習された生成モデルにおける補間を見つけることに留意する。 任意の密度の場合,モデルが効果的に機能することを示す。 さらに、与えられた特徴を持つデータからなる空間の部分集合に補間することができる。 最後のケースは、化合物の空間における補間を見つけることに焦点を当てている。

Interpolating between points is a problem connected simultaneously with finding geodesics and study of generative models. In the case of geodesics, we search for the curves with the shortest length, while in the case of generative models we typically apply linear interpolation in the latent space. However, this interpolation uses implicitly the fact that Gaussian is unimodal. Thus the problem of interpolating in the case when the latent density is non-Gaussian is an open problem. In this paper, we present a general and unified approach to interpolation, which simultaneously allows us to search for geodesics and interpolating curves in latent space in the case of arbitrary density. Our results have a strong theoretical background based on the introduced quality measure of an interpolating curve. In particular, we show that maximising the quality measure of the curve can be equivalently understood as a search of geodesic for a certain redefinition of the Riemannian metric on the space. We provide examples in three important cases. First, we show that our approach can be easily applied to finding geodesics on manifolds. Next, we focus our attention in finding interpolations in pre-trained generative models. We show that our model effectively works in the case of arbitrary density. Moreover, we can interpolate in the subset of the space consisting of data possessing a given feature. The last case is focused on finding interpolation in the space of chemical compounds.
翻訳日:2023-03-25 04:41:40 公開日:2023-03-13
# 強化学習エージェントのためのポテンシャルベース逆整形

A new Potential-Based Reward Shaping for Reinforcement Learning Agent ( http://arxiv.org/abs/1902.06239v3 )

ライセンス: Link先を確認
Babak Badnava, Mona Esmaeili, Nasser Mozayani, and Payman Zarkesh-Ha(参考訳) PBRS(英: potential-based reward shaping)は、強化学習エージェントの学習速度の向上を目的とした機械学習手法の一種であり、タスクの実行中に余分な知識を抽出して活用することを目的としている。 トランスファー学習のプロセスには2つのステップがある: 事前に学習したタスクから知識を抽出し、その知識をターゲットタスクで使用するために転送する。 後者のステップは、文献において様々な方法が提案されているが、前者の調査は少ない。 このことを念頭に置いて、伝達される知識の種類は非常に重要であり、大幅な改善につながる可能性がある。 トランスファーラーニングとポテンシャルに基づく報酬形成の両方の文献の中で、未解決の課題は、学習プロセス自体に集められた知識である。 本稿では,学習過程から知識を抽出する新たなポテンシャルに基づく報酬形成手法を提案する。 提案手法はエピソードの累積報酬から知識を抽出する。 提案手法は, アーケード学習環境において評価され, シングルタスクとマルチタスク強化学習エージェントの両方において, 学習プロセスの改善が示されている。

Potential-based reward shaping (PBRS) is a particular category of machine learning methods which aims to improve the learning speed of a reinforcement learning agent by extracting and utilizing extra knowledge while performing a task. There are two steps in the process of transfer learning: extracting knowledge from previously learned tasks and transferring that knowledge to use it in a target task. The latter step is well discussed in the literature with various methods being proposed for it, while the former has been explored less. With this in mind, the type of knowledge that is transmitted is very important and can lead to considerable improvement. Among the literature of both the transfer learning and the potential-based reward shaping, a subject that has never been addressed is the knowledge gathered during the learning process itself. In this paper, we presented a novel potential-based reward shaping method that attempted to extract knowledge from the learning process. The proposed method extracts knowledge from episodes' cumulative rewards. The proposed method has been evaluated in the Arcade learning environment and the results indicate an improvement in the learning process in both the single-task and the multi-task reinforcement learner agents.
翻訳日:2023-03-25 04:41:08 公開日:2023-03-13
# 3次元タルボットトワイザー格子における単一原子キュービットアレーのスケーラブルな多層構造

Scalable multilayer architecture of assembled single-atom qubit arrays in a three-dimensional Talbot tweezer lattice ( http://arxiv.org/abs/1902.05424v4 )

ライセンス: Link先を確認
Malte Schlosser, Sascha Tichelmann, Dominik Sch\"affner, Daniel Ohl de Mello, Moritz Hambach, Jan Sch\"utz, Gerhard Birkl(参考訳) 本稿では,2次元ツイーザーアレイを3次元に拡張したマイクロレンズ生成Talbot tweezer格子による平面配列の大規模3次元多層構成を実現するための新しいプラットフォームの実現について報告する。 本稿では,整数および分数タルボット平面におけるルビジウム原子のトラップおよびイメージングと,異なる層における欠陥のない原子配列の組み立てについて述べる。 マイクロレンズアレイに対するタルボット自己イメージング効果は、3次元原子配列を有効スケーリング特性で実現するための構造的に堅牢で波長ユニバーサルな方法を構成する。 現在実装されている2D層あたり750 qubitサイトは、これらのスケーリング特性から、すでに10,000 qubitサイトが3Dでアクセス可能であることが示唆されている。 トラップトポロジと関数は、動的位置制御とスピン状態の並列化サブ格子アドレスを用いたインターリーブ格子の生成に使用するマイクロメーター系で設定可能であり、量子科学と技術に即時適用できる。

We report on the realization of a novel platform for the creation of large-scale 3D multilayer configurations of planar arrays of individual neutral-atom qubits: a microlens-generated Talbot tweezer lattice which extends 2D tweezer arrays to the third dimension at no additional costs. We demonstrate the trapping and imaging of rubidium atoms in integer and fractional Talbot planes and the assembly of defect-free atom arrays in different layers. The Talbot self-imaging effect for microlens arrays constitutes a structurally robust and wavelength-universal method for the realization of 3D atom arrays with beneficial scaling properties. With more than 750 qubit sites per 2D layer in our current implementation, these scaling properties imply that 10,000 qubit sites are already accessible in 3D. The trap topology and functionality are configurable in the micrometer regime which we use to generate interleaved lattices with dynamic position control and parallelized sublattice addressing of spin states for immediate application in quantum science and technology.
翻訳日:2023-03-25 04:40:51 公開日:2023-03-13
# 3次元空間と好ましい基底は量子構造から一意に出現することができない

3D-Space and the preferred basis cannot uniquely emerge from the quantum structure ( http://arxiv.org/abs/2102.08620v8 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) ヒルベルト空間基本主義 (Hilbert-Space Fundamentalism, HSF) は、基本構造は量子状態ベクトルとハミルトニアンのみであり、そこからは3次元空間、好ましい基底、ヒルベルト空間の好因数分解など他の全てが一意に現れる。 この記事では、そのような構造がハミルトニアンと状態ベクトルのみから現れるとき、物理的に関連がある場合、それは一意ではないことが示される。 さらに、hsfは、ヒルベルト空間のパッシブ変換によって単純に実現される時間および代替現実における「パッシブ」旅行のような奇妙な効果をもたらす。 この記事では、分岐や状態ベクトルの減少を仮定する理論(特にキャロルとシンによって作られたエヴァレットの解釈のバージョン)、デコヒーレンスに基づく様々な提案、量子構造だけで全てを記述することを目的とした提案、重力の純粋に量子論から時空が現れるという提案など、HSFに固執するすべての理論に影響を及ぼす。

Hilbert-Space Fundamentalism (HSF) states that the only fundamental structures are the quantum state vector and the Hamiltonian, and from them everything else emerge uniquely, including the 3D-space, a preferred basis, and a preferred factorization of the Hilbert space. In this article it is shown that whenever such a structure emerges from the Hamiltonian and the state vector alone, if it is physically relevant, it is not unique. Moreover, HSF leads to strange effects like "passive" travel in time and in alternative realities, realized simply by passive transformations of the Hilbert space. The results from this article affect all theories that adhere to HSF, whether they assume branching or state vector reduction (in particular the version of Everett's Interpretation coined by Carroll and Singh "Mad-dog Everettianism"), various proposals based on decoherence, proposals that aim to describe everything by the quantum structure alone, and proposals that spacetime emerges from a purely quantum theory of gravity.
翻訳日:2023-03-25 03:53:40 公開日:2023-03-13
# 2値入力を持つ3つの事象における因果完全空間の分類

Classification of causally complete spaces on 3 events with binary inputs ( http://arxiv.org/abs/2303.09925v1 )

ライセンス: Link先を確認
Stefano Gogioso and Nicola Pinzani(参考訳) 二元入力を持つ3つのイベントの入力履歴の2644個の因果的完全空間を,それらを見つけるアルゴリズムとともに徹底的に分類する。 本稿では,三部作の補足資料として,入力履歴の空間,因果順序の動的一般化を「因果性の組み合わせ」に導入し,因果分布の層理論的処理を「因果性トポロジー」に詳述し,関連する経験モデルによって形成される多面体について「因果性幾何学」で研究する。

We present an exhaustive classification of the 2644 causally complete spaces of input histories on 3 events with binary inputs, together with the algorithm used to find them. This paper forms the supplementary material for a trilogy of works: spaces of input histories, our dynamical generalisation of causal orders, are introduced in "The Combinatorics of Causality"; the sheaf-theoretic treatment of causal distributions is detailed in "The Topology of Causality"; the polytopes formed by the associated empirical models are studied in "The Geometry of Causality".
翻訳日:2023-03-25 03:35:33 公開日:2023-03-13
# 陽子におけるクォーク対角相関:エントロピーと絡み合いの負性

Quark pair angular correlations in the proton: entropy versus entanglement negativity ( http://arxiv.org/abs/2303.07408v1 )

ライセンス: Link先を確認
Adrian Dumitru and Eric Kolbusz(参考訳) 光面上の陽子の2粒子相関は、他のすべての観測されていない自由度を追跡した結果得られる混合密度行列によって記述される。 量子情報理論のエンタングルメント負性度尺度を用いて真に量子クォーク方位相関を定量化する。 色空間における2クォーク状態は高いエントロピーと弱い量子相関の1つであるが、文献からの標準3クォークモデル波動関数は、低エントロピーと高エンタングルメント負性性の方位相関状態を予測する。 低エントロピーは多くの色に対する期待値(固定された't Hooft結合$g^2 N_c$)と一致しているが、高い負性度は、N_c=3$でかなりの2粒子量子相関を示す。 また、陽子中のグルーオンの存在(または交換)に起因する光円錐摂動理論から密度行列への${\cal O}(g^2)$の補正の仕方についても記述する。 この補正はエントロピーを高め、クォーク対の方位相関に対する密度行列の負性を低減する。 したがって、絡み合い陰性度測定はQCDのプロトン状態の構造に関する新しい洞察を与える可能性がある。

Two-particle correlations in the proton on the light-front are described by a mixed density matrix obtained by tracing over all other, unobserved, degrees of freedom. We quantify genuinely quantum quark azimuthal correlations in terms of the entanglement negativity measure of Quantum Information Theory. While the two-quark state in color space is one of high entropy and weak quantum correlation, we find that a standard three-quark model wave function from the literature predicts an azimuthally correlated state of low entropy and high entanglement negativity. Low entropy is consistent with expectations for many colors (at fixed 't Hooft coupling $g^2 N_c$) but high negativity indicates substantial two-particle quantum correlations at $N_c=3$. We also describe how to account for the leading ${\cal O}(g^2)$ correction to the density matrix from light-cone perturbation theory which is due to the presence (or exchange) of a gluon in the proton. This correction increases the entropy and reduces the negativity of the density matrix for quark pair azimuthal correlations. Hence, the entanglement negativity measure may provide novel insight into the structure of the proton state of QCD.
翻訳日:2023-03-25 03:35:00 公開日:2023-03-13
# Crisp Bisimulations を用いたファジィ記述論理におけるファジィ解釈の最小化

Minimizing Fuzzy Interpretations in Fuzzy Description Logics by Using Crisp Bisimulations ( http://arxiv.org/abs/2303.11438v1 )

ライセンス: Link先を確認
Linh Anh Nguyen(参考訳) ファジィ記述論理(FDL)における有限ファジィ解釈を最小化する問題は研究に値する。 例えば、ファジィ/重み付けされたソーシャルネットワークの構造は、アクターが個人であり、アクションが役割であるfdlのファジィ解釈として扱うことができる。 ファジィで重み付けされたソーシャルネットワークの構造を最小化することで、よりコンパクトになり、ネットワーク分析タスクをより効率的にする。 本研究では,FDLにおける有限ファジィ解釈を最大化する問題について,最大クリップオートビシミュレーションを用いて検討する。 検討されたFDLは、Baazプロジェクション演算子を使用し、それらの意味論は、任意の線形かつ完全再帰格子であるファジィ真理値の抽象代数を用いて特定される。 与えられた有限ファジィ解釈を最小化するために$O((m \log{l} + n) \log{n})$の複雑さを持つ効率的なアルゴリズムを提供する。$n$は$\mathcal{I}$のドメインのサイズであり、$m$は$\mathcal{I}$の原子ロールのゼロでないインスタンスの数であり、$l$は$\mathcal{I}$の原子ロールのインスタンスに使用される異なるファジィ値の数である。 このアルゴリズムによって返されるファジィ解釈は,一定の条件下でファジィTBoxやABoxを保存しているものの中で最小限であることを示す。

The problem of minimizing finite fuzzy interpretations in fuzzy description logics (FDLs) is worth studying. For example, the structure of a fuzzy/weighted social network can be treated as a fuzzy interpretation in FDLs, where actors are individuals and actions are roles. Minimizing the structure of a fuzzy/weighted social network makes it more compact, thus making network analysis tasks more efficient. In this work, we study the problem of minimizing a finite fuzzy interpretation in a FDL by using the largest crisp auto-bisimulation. The considered FDLs use the Baaz projection operator and their semantics is specified using an abstract algebra of fuzzy truth values, which can be any linear and complete residuated lattice. We provide an efficient algorithm with a complexity of $O((m \log{l} + n) \log{n})$ for minimizing a given finite fuzzy interpretation $\mathcal{I}$, where $n$ is the size of the domain of $\mathcal{I}$, $m$ is number of nonzero instances of atomic roles of $\mathcal{I}$ and $l$ is the number of different fuzzy values used for instances of atomic roles of $\mathcal{I}$. We prove that the fuzzy interpretation returned by the algorithm is minimal among the ones that preserve fuzzy TBoxes and ABoxes under certain conditions.
翻訳日:2023-03-25 03:28:06 公開日:2023-03-13
# 協調型マルチビーム衛星通信のための学習モデルフリーロバストプレコーディング

Learning Model-Free Robust Precoding for Cooperative Multibeam Satellite Communications ( http://arxiv.org/abs/2303.11427v1 )

ライセンス: Link先を確認
Steffen Gracla, Alea Schr\"oder, Maik R\"oper, Carsten Bockelmann, Dirk W\"ubben, Armin Dekorsy(参考訳) 衛星とハンドヘルドとの直接接続は、衛星通信の新しい時代の一部であると期待されている。 宇宙分割多重アクセスプリコーディング(space-division multiple access precodeding)は、衛星ビーム間の干渉を減らす技術であり、衛星の周波数を再利用することでスペクトル効率を高める。 過去数十年間、完璧なチャネル状態情報を持つ最適なプリコーディングソリューションがいくつかのシナリオで提案されてきたが、不完全なチャネル状態情報しか持たない堅牢なプリコーディングは、単純化されたモデルのために主に研究されてきた。 特に低軌道衛星では、そのような単純化されたモデルは正確ではないかもしれない。 本稿では,ソフトアクタ-クリティック深層強化学習アルゴリズムの関数近似機能を用いて,システムの不完全さを知らずに頑健なプレコーディングを学習する。

Direct Low Earth Orbit satellite-to-handheld links are expected to be part of a new era in satellite communications. Space-Division Multiple Access precoding is a technique that reduces interference among satellite beams, therefore increasing spectral efficiency by allowing cooperating satellites to reuse frequency. Over the past decades, optimal precoding solutions with perfect channel state information have been proposed for several scenarios, whereas robust precoding with only imperfect channel state information has been mostly studied for simplified models. In particular, for Low Earth Orbit satellite applications such simplified models might not be accurate. In this paper, we use the function approximation capabilities of the Soft Actor-Critic deep Reinforcement Learning algorithm to learn robust precoding with no knowledge of the system imperfections.
翻訳日:2023-03-25 03:27:34 公開日:2023-03-13
# DPPMask:決定点プロセスを用いたマスク画像モデリング

DPPMask: Masked Image Modeling with Determinantal Point Processes ( http://arxiv.org/abs/2303.12736v1 )

ライセンス: Link先を確認
Junde Xu, Zikai Lin, Donghao Zhou, Yaodong Yang, Xiangyun Liao, Bian Wu, Guangyong Chen, Pheng-ann Heng(参考訳) Masked Image Modeling (MIM)は、ランダムにマスキングされた画像の再構成を目的として、印象的な代表的性能を達成した。 実証的な成功にもかかわらず、過去のほとんどの研究は、モデルにマスクされた物体のような回復以上のものを再構築させるのは理にかなわないという重要な事実を無視してきた。 本研究では,従来研究で広く用いられてきた一様ランダムマスキングが,必然的に重要な対象をなくし,本来の意味情報を変更し,不整合問題を引き起こし,最終的には代表的学習を損なうことを示す。 この問題に対処するために,ランダムプロセスを行列点過程(dpps)で置換することで,マスキング後の画像の意味変化を低減し,新たなマスキング戦略(dppmask)をmimに導入する。 本手法は単純かつ効果的であり,様々なフレームワークに実装した場合,追加の学習パラメータは必要としない。 特に,本手法をMAEとiBOTの2つの代表的なMIMフレームワーク上で評価した。 DPPMaskは, マスキング比の低値と高値の両方でランダムサンプリングを上回り, DPPMaskが再構成作業をより合理的に行うことを示す。 また,本手法は様々なタスクにおいてより堅牢であることを示すため,背景課題と多クラス分類タスクでさらにテストを行った。

Masked Image Modeling (MIM) has achieved impressive representative performance with the aim of reconstructing randomly masked images. Despite the empirical success, most previous works have neglected the important fact that it is unreasonable to force the model to reconstruct something beyond recovery, such as those masked objects. In this work, we show that uniformly random masking widely used in previous works unavoidably loses some key objects and changes original semantic information, resulting in a misalignment problem and hurting the representative learning eventually. To address this issue, we augment MIM with a new masking strategy namely the DPPMask by substituting the random process with Determinantal Point Process (DPPs) to reduce the semantic change of the image after masking. Our method is simple yet effective and requires no extra learnable parameters when implemented within various frameworks. In particular, we evaluate our method on two representative MIM frameworks, MAE and iBOT. We show that DPPMask surpassed random sampling under both lower and higher masking ratios, indicating that DPPMask makes the reconstruction task more reasonable. We further test our method on the background challenge and multi-class classification tasks, showing that our method is more robust at various tasks.
翻訳日:2023-03-25 03:00:26 公開日:2023-03-13
# LocalEyenet:眼の局所化のための深い注意フレームワーク

LocalEyenet: Deep Attention framework for Localization of Eyes ( http://arxiv.org/abs/2303.12728v1 )

ライセンス: Link先を確認
Somsukla Maiti and Akshansh Gupta(参考訳) ヒューマン・マシン・インタフェースの開発は、現代の機械がより自律性と効率性を高めるために必要とされている。 迷路を駆動する人間の介入は、ヒューマンエラーを軽減するインターフェースを作成するための効果的で便利な選択肢である。 顔の目印検出は、堅牢な視線検出システムの設計に非常に重要である。 回帰に基づく手法は、顔の異なる部分に対応するランドマークの良好な空間的局在を容量化する。 しかし、注意を払って対処された改善の範囲はまだ残っている。 本稿では,エンドツーエンドでトレーニング可能な眼領域のみをローカライズするためのLocalEyenetという,粗大なアーキテクチャを提案する。 積み重ねられた砂時計のバックボーン上に構築されたモデルアーキテクチャは、顔画像内の局所的な空間依存だけでなく、グローバルを保つのに役立つフィーチャーマップの自己認識を学習する。 建築深度に対する注意の喪失を最小限に抑えるため,各時間ガラスに深層凝集体を組み込んだ。 本モデルでは, クロスデータセット評価およびリアルタイム眼球定位において, 良好な一般化能力を示す。

Development of human machine interface has become a necessity for modern day machines to catalyze more autonomy and more efficiency. Gaze driven human intervention is an effective and convenient option for creating an interface to alleviate human errors. Facial landmark detection is very crucial for designing a robust gaze detection system. Regression based methods capacitate good spatial localization of the landmarks corresponding to different parts of the faces. But there are still scope of improvements which have been addressed by incorporating attention. In this paper, we have proposed a deep coarse-to-fine architecture called LocalEyenet for localization of only the eye regions that can be trained end-to-end. The model architecture, build on stacked hourglass backbone, learns the self-attention in feature maps which aids in preserving global as well as local spatial dependencies in face image. We have incorporated deep layer aggregation in each hourglass to minimize the loss of attention over the depth of architecture. Our model shows good generalization ability in cross-dataset evaluation and in real-time localization of eyes.
翻訳日:2023-03-25 02:58:03 公開日:2023-03-13
# 顔検出を用いたXGBoostアルゴリズムに基づく疲労認識モデル

A XGBoost Algorithm-based Fatigue Recognition Model Using Face Detection ( http://arxiv.org/abs/2303.12727v1 )

ライセンス: Link先を確認
Xinrui Chen, Bingquan Zhang(参考訳) 顔の目と口に通常疲労が現れるため,本研究では,EAR(Eye Aspect Ratio)とMAR(Mouth Aspect Ratio)という2つの指標を用いて,XGBoostアルゴリズムに基づく疲労認識モデルを構築した。 精度は87.37%、感度は89.14%であり、さらなる応用に有効であることが証明された。

As fatigue is normally revealed in the eyes and mouth of a person's face, this paper tried to construct a XGBoost Algorithm-Based fatigue recognition model using the two indicators, EAR (Eye Aspect Ratio) and MAR(Mouth Aspect Ratio). With an accuracy rate of 87.37% and sensitivity rate of 89.14%, the model was proved to be efficient and valid for further applications.
翻訳日:2023-03-25 02:57:48 公開日:2023-03-13
# 量子テクスチュアリティ

Quantum Contextuality ( http://arxiv.org/abs/2108.00967v4 )

ライセンス: Link先を確認
Mladen Pavicic(参考訳) 量子コンテキスト集合は、普遍的な量子計算、量子ステアリング、量子通信のリソースとして認識されている。 そこで我々は,これらの資源をサポートする集合の設計と,それらの構造と特性の決定に焦点をあてる。 このようなエンジニアリングとその後の実装は、量子状態の測定データの統計と古典的なデータとの区別に依存している。 識別子は、構造と生成が基本特性によって決定されるハイパーグラフに対して定義される不等式である。 生成は本質的にランダムであるが、取得可能なデータの所定の量子確率を持つ。 データの2種類の統計は、ハイパーグラフと6種類の不等式に対して定義される。 文献でよく用いられる統計は不適切であることが判明し、2種類の不等式は非文脈的不等式でないことが判明した。 結果は,任意の奇数空間および偶数次元空間におけるハイパーグラフを生成する普遍的自動アルゴリズムを用いて得られる。この論文では,3つのハイパーエッジと3つの頂点を持つ最小の文脈集合から,最大8次元空間における任意の多数のコンテキスト集合を得る。 高い次元は計算的に要求されるが、実現可能である。

Quantum contextual sets have been recognized as resources for universal quantum computation, quantum steering and quantum communication. Therefore, we focus on engineering the sets that support those resources and on determining their structures and properties. Such engineering and subsequent implementation rely on discrimination between statistics of measurement data of quantum states and those of their classical counterparts. The discriminators considered are inequalities defined for hypergraphs whose structure and generation are determined by their basic properties. The generation is inherently random but with the predetermined quantum probabilities of obtainable data. Two kinds of statistics of the data are defined for the hypergraphs and six kinds of inequalities. One kind of statistics, often applied in the literature, turn out to be inappropriate and two kinds of inequalities turn out not to be noncontextuality inequalities. Results are obtained by making use of universal automated algorithms which generate hypergraphs with both odd and even numbers of hyperedges in any odd and even dimensional space - in this paper, from the smallest contextual set with just three hyperedges and three vertices to arbitrarily many contextual sets in up to 8-dimensional spaces. Higher dimensions are computationally demanding although feasible.
翻訳日:2023-03-20 03:11:07 公開日:2023-03-13
# 物理インフォームドニューラルネットワークによるトポロジー最適化:非侵襲的隠れ幾何学検出への応用

Topology optimization with physics-informed neural networks: application to noninvasive detection of hidden geometries ( http://arxiv.org/abs/2303.09280v1 )

ライセンス: Link先を確認
Saviz Mowlavi, Ken Kamrin(参考訳) 電磁・音響・機械的負荷下での表面測定から隠れた幾何学的構造を検出することは、医療・産業用途における非侵襲的なイメージング技術の目標である。 逆問題の解法は、未知の位相と幾何、データの空間性、および物理法則の複雑さのために困難である。 物理学を応用したニューラルネットワーク (pinns) は、promise を問題反転のための単純なyet-powerful toolとして示しているが、事前の未知トポロジーを持つ一般的な問題には適用されていない。 本稿では,形状数や形状の事前知識を必要とせず,形状検出問題を解くピンに基づくトポロジー最適化フレームワークを提案する。 我々は、新しい固有正則化により二項値にアプローチする物質密度場を用いて幾何学を表現することで任意の解位相を許容する。 我々は,1つの機械的載荷実験から外面変位の測定値を用いて,リニアおよび非線形弾性体に隠された空隙および包有物の数,位置,形状を検出することにより,我々の枠組みを検証する。 本手法は,幾何最適化を対象とする様々な工学的問題を解決するために,PINNの経路を開放する。

Detecting hidden geometrical structures from surface measurements under electromagnetic, acoustic, or mechanical loading is the goal of noninvasive imaging techniques in medical and industrial applications. Solving the inverse problem can be challenging due to the unknown topology and geometry, the sparsity of the data, and the complexity of the physical laws. Physics-informed neural networks (PINNs) have shown promise as a simple-yet-powerful tool for problem inversion, but they have yet to be applied to general problems with a priori unknown topology. Here, we introduce a topology optimization framework based on PINNs that solves geometry detection problems without prior knowledge of the number or types of shapes. We allow for arbitrary solution topology by representing the geometry using a material density field that approaches binary values thanks to a novel eikonal regularization. We validate our framework by detecting the number, locations, and shapes of hidden voids and inclusions in linear and nonlinear elastic bodies using measurements of outer surface displacement from a single mechanical loading experiment. Our methodology opens a pathway for PINNs to solve various engineering problems targeting geometry optimization.
翻訳日:2023-03-17 15:30:16 公開日:2023-03-13
# Si量子ドットにおけるホールスピン量子ビットからの電荷距離の量子推定

Quantum estimation of a charge distance from a hole-spin qubit in Si quantum dots ( http://arxiv.org/abs/2303.07161v1 )

ライセンス: Link先を確認
Gaia Forghieri, Andrea Secchi, Andrea Bertoni, Paolo Bordone, and Filippo Troiani(参考訳) 半導体中のホールスピン量子ビットは、量子技術応用のための成熟したプラットフォームである。 本稿では,静電環境のセンサとしての利用,特に外部電荷の量子ビットからの距離推定について考察する。 単一または二重量子ドット、基底および外平衡状態、RabiとRamseyの測定に基づいて異なるアプローチが検討され、古典的および量子フィッシャー情報を用いて相対的に分析される。 詳細な定量的な側面は、マルチバンドアプローチで説明できるホール状態のマルチバンド特性から生じる。 さらに、上記の選択肢の相対的効率性について一般的な結論を導き、rabiとramseyスキーム内の一般的なキュービットのフィッシャー情報に対して解析式を導出することができる。

Hole-spin qubits in semiconductors represent a mature platform for quantum technological applications. Here we consider their use as sensors of the electrostatic environment, and specifically for estimating the distance from the qubit of an external charge. Different approaches are considered -- based on the use of single or double quantum dots, ground and out-of-equilibrium states, Rabi and Ramsey measurements -- and comparatively analyzed by means of the classical and quantum Fisher information. Detailed quantitative aspects result from the multiband character of the hole states, which we account for within a multiband approach. Beyond this, general conclusions can be drawn on the relative efficiency of the above options, and analytical expressions are derived for the Fisher information of a generic qubit within the Rabi and Ramsey schemes.
翻訳日:2023-03-16 15:51:10 公開日:2023-03-13
# スプリットフェデレーション学習におけるモデル抽出攻撃

Model Extraction Attacks on Split Federated Learning ( http://arxiv.org/abs/2303.08581v1 )

ライセンス: Link先を確認
Jingtao Li, Adnan Siraj Rakin, Xing Chen, Li Yang, Zhezhi He, Deliang Fan, Chaitali Chakrabarti(参考訳) Federated Learning(FL)は、複数のクライアントとサーバを含む一般的な協調学習スキームである。 flはクライアントのデータ保護に焦点を当てているが、知的財産(ip)の脅威に非常に弱いことが判明した。 FLは定期的にモデルパラメータを収集し配布するため、フリーライダーは最新のモデルをダウンロードしてモデルIPを盗むことができる。 リソース制約のあるクライアントとのトレーニングをサポートする最近のFLの亜種であるSplit Federated Learning (SFL)は、モデルを2つに分割し、モデルの一部をクライアント(クライアント側モデル)に、残りの部分をサーバ側モデル(サーバ側モデル)に分割する。 これにより、SFLは設計によるモデル漏洩を防止する。 さらに、予測クエリをブロックすることにより、従来のモデル抽出(ME)攻撃のような高度なIP脅威に耐性を持たせることができる。 SFLはIP保護に関してFLより優れているが、それでも脆弱である。 本稿では,SFLの脆弱性を明らかにし,サーバ側から勾配情報を問い合わせることで,悪意のあるクライアントがME攻撃を行う方法を示す。 本研究では,データ仮定と同様に勾配使用量が異なる5種類のme攻撃を提案する。 実例では,提案したME攻撃はSFLでは極めて良好であることがわかった。 例えば、サーバサイドモデルに5つの層がある場合、提案したME攻撃は、CIFAR-10上のVGG-11で精度が2%未満の精度で90%以上の精度を達成できる。

Federated Learning (FL) is a popular collaborative learning scheme involving multiple clients and a server. FL focuses on protecting clients' data but turns out to be highly vulnerable to Intellectual Property (IP) threats. Since FL periodically collects and distributes the model parameters, a free-rider can download the latest model and thus steal model IP. Split Federated Learning (SFL), a recent variant of FL that supports training with resource-constrained clients, splits the model into two, giving one part of the model to clients (client-side model), and the remaining part to the server (server-side model). Thus SFL prevents model leakage by design. Moreover, by blocking prediction queries, it can be made resistant to advanced IP threats such as traditional Model Extraction (ME) attacks. While SFL is better than FL in terms of providing IP protection, it is still vulnerable. In this paper, we expose the vulnerability of SFL and show how malicious clients can launch ME attacks by querying the gradient information from the server side. We propose five variants of ME attack which differs in the gradient usage as well as in the data assumptions. We show that under practical cases, the proposed ME attacks work exceptionally well for SFL. For instance, when the server-side model has five layers, our proposed ME attack can achieve over 90% accuracy with less than 2% accuracy degradation with VGG-11 on CIFAR-10.
翻訳日:2023-03-16 13:51:03 公開日:2023-03-13
# 境界状態と散乱状態を持つ動的アーベル異性体

Dynamical abelian anyons with bound states and scattering states ( http://arxiv.org/abs/2303.07379v1 )

ライセンス: Link先を確認
Sven Bachmann, Bruno Nachtergaele, Siddharth Vadnerkar(参考訳) 量子スピンハミルトニアンの族を$\mathbb{Z}^2$で導入し、これはこれらのモデルのゲージと双対対称性を保存する北エフのアーベル量子二重モデルの摂動と見なすことができる。 1つの電荷と1つの磁束を持つセクタを詳細に分析し、このセクタ内のスペクトルがアーベル・アノンの束縛状態と散乱状態の両方からなることを示した。 具体的には、電荷束対からなる非自明なダイナミクスを持つ有限サイズの準粒子として自然にアーベル素粒子が生じる格子モデルの族を定義した。 特に、エノンは量子化位相を持つ非自明なホロノミーを示し、ハミルトニアンのゲージと双対対称性と一致する。

We introduce a family of quantum spin Hamiltonians on $\mathbb{Z}^2$ that can be regarded as perturbations of Kitaev's abelian quantum double models that preserve the gauge and duality symmetries of these models. We analyze in detail the sector with one electric charge and one magnetic flux and show that the spectrum in this sector consists of both bound states and scattering states of abelian anyons. Concretely, we have defined a family of lattice models in which abelian anyons arise naturally as finite-size quasi-particles with non-trivial dynamics that consist of a charge-flux pair. In particular, the anyons exhibit a non-trivial holonomy with a quantized phase, consistent with the gauge and duality symmetries of the Hamiltonian.
翻訳日:2023-03-15 17:59:35 公開日:2023-03-13
# グラフ状態のビット損失に対するベル振動のロバスト性

Robustness of Bell Violation of Graph States to Qubit Loss ( http://arxiv.org/abs/2303.07377v1 )

ライセンス: Link先を確認
Shahar Silberstein and Rotem Arnon-Friedman (The Center for Quantum Science and Technology, Department of Physics of Complex Systems, Weizmann Institute of Science)(参考訳) グラフ状態は、量子エラー補正、マルチパーティ量子通信、測定に基づく量子計算など、多くの量子技術に有利な特別な絡み合った状態である。 しかし、その忠実さは様々なエラーによってしばしば破壊される。 一般に、絡み合った状態が与えられた場合、ベルの不等式は誤りにもかかわらず量子絡み合いが残るかどうかを証明するために用いられる。 ここでは,グラフ状態のベル違反による損失に対するロバスト性について検討する。 最近提案された線形スケーラブルベル作用素をbaccari $\textit{et alで扱う。 ここで、与えられたグラフ状態のベル違反がキュービット損失とともに減少する範囲の式を導出するために安定化形式を用いる。 本研究では,各グラフのアキレスのヒール,すなわちベル違反を危険にさらすクビットの集合を特定できるとともに,どのグラフトポロジーが量子ビット損失に耐えうるかを決定する。 これらの結果は実生活システムにおけるグラフ状態を含む実験やプロトコルを最適化するための分析ツールとして機能する。

Graph states are special entangled states advantageous for many quantum technologies, including quantum error correction, multiparty quantum communication and measurement-based quantum computation. Yet, their fidelity is often disrupted by various errors, most notably qubit loss. In general, given an entangled state, Bell inequalities can be used to certify whether quantum entanglement remains despite errors. Here we study the robustness of graph states to loss in terms of their Bell violation. Treating the recently proposed linearly scalable Bell operators by Baccari $\textit{et al.}$, we use the stabilizer formalism to derive a formula for the extent by which the Bell violation of a given graph state is decreased with qubit loss. Our analysis allows to determine which graph topologies are tolerable to qubit loss as well as pinpointing the Achilles' heel of each graph, namely the sets of qubits whose loss jeopardizes the Bell violation. These results can serve as an analytical tool for optimizing experiments and protocols involving graph states in real-life systems.
翻訳日:2023-03-15 17:59:12 公開日:2023-03-13
# ハミルトン工学的パルスシーケンス設計のための高次法

Higher-Order Methods for Hamiltonian Engineering Pulse Sequence Design ( http://arxiv.org/abs/2303.07374v1 )

ライセンス: Link先を確認
Matthew Tyler, Hengyun Zhou, Leigh S. Martin, Nathaniel Leitao, Mikhail D. Lukin(参考訳) Floquet-Magnus拡大に対する高次寄与の影響を体系的に考慮したハミルトン工学的パルス列を設計するためのフレームワークを提案する。 提案手法は,複雑で非局所的な通勤者を含む高階の貢献にもかかわらず,単純で直感的なルール分離を実現する。 これらのルールは、動的疎結合、量子センシング、量子シミュレーションなど、様々なタスクのために改良されたハミルトン工学のパルスシーケンスを効率的に設計するためにどのように使用できるかを説明する。

We introduce a framework for designing Hamiltonian engineering pulse sequences that systematically accounts for the effects of higher-order contributions to the Floquet-Magnus expansion. Our techniques result in simple, intuitive decoupling rules, despite the higher-order contributions naively involving complicated, non-local-in-time commutators. We illustrate how these rules can be used to efficiently design improved Hamiltonian engineering pulse sequences for a wide variety of tasks, such as dynamical decoupling, quantum sensing, and quantum simulation.
翻訳日:2023-03-15 17:58:44 公開日:2023-03-13
# 歪んだ余剰次元における絡み合いによる質量および質量重力の探索

Probing massless and massive gravitons via entanglement in a warped extra dimension ( http://arxiv.org/abs/2303.07371v1 )

ライセンス: Link先を確認
Shafaq Gulzar Elahi and Anupam Mazumdar(参考訳) 重力の量子の性質は、重力が古典的実体であれば不可能である2つの量子系の間の絡み合いを観測することで実験室で観測することができる。 本稿では,高次元,特に5次元反ド・ジッター時空(ads_5$)のゆがんだ余剰次元の効果を調べるための簡単な例を示す。 2つの量子調和振動子は、ads_5$に埋め込まれた3ブレーン(我々の4dワールド)上で距離$d$で保たれ、重力は5次元全てに伝播できると仮定する。 我々は、曲がりくねった幾何学で伝播する質量と巨大な重力を統合して、効果的なポテンシャルを計算する。 静的ケースと非静的ケースの両方の位置と運動量状態の絡み合いを計算する。 エンタングルメントは4次元の質量を持たない重力よりも強くなり、現在はads_5$半径に依存する。

Gravity's quantum nature can be probed in a laboratory by witnessing the entanglement between the two quantum systems, which cannot be possible if gravity is a classical entity. In this paper, we will provide a simple example where we can probe the effects of higher dimensions, in particular the warped extra dimension of five-dimensional Anti-de Sitter spacetime ($ AdS_5$). We assume that the two quantum harmonic oscillators are kept at a distance $d$ on a 3-brane (our 4D world) embedded in $AdS_5$, while gravity can propagate in all five dimensions. We will compute the effective potential by integrating out the massless and the massive gravitons which are propagating in the warped geometry. We will compute the entanglement between position and momentum states for both static and non-static cases. The entanglement enhances compared to the four-dimensional massless graviton, and it depends now on the $AdS_5$ radius.
翻訳日:2023-03-15 17:58:35 公開日:2023-03-13
# 強い相互作用を持つ量子センシングのためのロバスト高次ハミルトン工学

Robust Higher-Order Hamiltonian Engineering for Quantum Sensing with Strongly Interacting Systems ( http://arxiv.org/abs/2303.07363v1 )

ライセンス: Link先を確認
Hengyun Zhou, Leigh S. Martin, Matthew Tyler, Oksana Makarova, Nathaniel Leitao, Hongkun Park, Mikhail D. Lukin(参考訳) 動的デカップリング技術は多くの量子センシングプラットフォームにおいて不可欠な部分を占めており、しばしばコヒーレンス時間と感度の桁違いの改善に繋がる。 ほとんどのACセンシングシーケンスは、ターゲット信号がエコー周期と同期される周期的なエコー様構造を含む。 強く相互作用するシステムでは、この構造は不完全な相互作用の疎結合に関連する基本的な感度制限をもたらす。 我々は,この制限の原点を示す単純な物理図を示し,これらの考察をより簡潔な高階分離規則として定式化する。 次に、信号周期がエコー周期の2倍に一致する新しいシーケンス構築ブロックを特定することにより、これらの制限を克服する方法を示す。 これらのデカップリング規則と結果のシーケンス構築ブロックを用いて、動的デカップリング時間スケールと磁場感度の大幅な改善を実験的に証明し、量子センシングと量子多体物理学の新しい応用への扉を開く。

Dynamical decoupling techniques constitute an integral part of many quantum sensing platforms, often leading to orders-of-magnitude improvements in coherence time and sensitivity. Most AC sensing sequences involve a periodic echo-like structure, in which the target signal is synchronized with the echo period. We show that for strongly interacting systems, this construction leads to a fundamental sensitivity limit associated with imperfect interaction decoupling. We present a simple physical picture demonstrating the origin of this limitation, and further formalize these considerations in terms of concise higher-order decoupling rules. We then show how these limitations can be surpassed by identifying a novel sequence building block, in which the signal period matches twice the echo period. Using these decoupling rules and the resulting sequence building block, we experimentally demonstrate significant improvements in dynamical decoupling timescales and magnetic field sensitivity, opening the door for new applications in quantum sensing and quantum many-body physics.
翻訳日:2023-03-15 17:58:17 公開日:2023-03-13
# MetaTroll: トランスフォーマーアダプタを用いた状態スポンサートロールの検出

MetaTroll: Few-shot Detection of State-Sponsored Trolls with Transformer Adapters ( http://arxiv.org/abs/2303.07354v1 )

ライセンス: Link先を確認
Lin Tian, Xiuzhen Zhang and Jey Han Lau(参考訳) 国家が支援するトロルはソーシャルメディア上で影響力のあるキャンペーンの主要な人物であり、自動トロール検出は大規模に誤情報と戦うために重要である。 既存のトロール検出モデルは、既知のキャンペーンのトレーニングデータ(例えば2016年のアメリカ合衆国大統領選挙におけるロシアのインターネット研究機関による影響キャンペーン)に基づいて開発されており、新しいターゲットで"emnov"キャンペーンを扱う場合には不足する。 本稿では,メタラーニングフレームワークに基づいたテキストベースのトロール検出モデルであるmetatrollを提案する。 本稿では,<textit{campaign-specific} Transformer AdapterをMetaTrollに導入し,< ``memorise'のキャンペーン固有の知識を導入し,破滅的忘れに対処し,モデル ` `forgets' が継続適応による古いキャンペーンからのトロルの検出方法を示す。 実験の結果,MetaTrollはベースラインと最先端の数ショットテキスト分類モデルを大幅に上回っていることがわかった。 最後に,MetaTrollを多言語および多モーダル検出に拡張するための簡単な手法を検討する。 metatrollのソースコードは、https://github.com/ltian678/metatroll-code.gitで入手できる。

State-sponsored trolls are the main actors of influence campaigns on social media and automatic troll detection is important to combat misinformation at scale. Existing troll detection models are developed based on training data for known campaigns (e.g.\ the influence campaign by Russia's Internet Research Agency on the 2016 US Election), and they fall short when dealing with {\em novel} campaigns with new targets. We propose MetaTroll, a text-based troll detection model based on the meta-learning framework that enables high portability and parameter-efficient adaptation to new campaigns using only a handful of labelled samples for few-shot transfer. We introduce \textit{campaign-specific} transformer adapters to MetaTroll to ``memorise'' campaign-specific knowledge so as to tackle catastrophic forgetting, where a model ``forgets'' how to detect trolls from older campaigns due to continual adaptation. Our experiments demonstrate that MetaTroll substantially outperforms baselines and state-of-the-art few-shot text classification models. Lastly, we explore simple approaches to extend MetaTroll to multilingual and multimodal detection. Source code for MetaTroll is available at: https://github.com/ltian678/metatroll-code.git.
翻訳日:2023-03-15 17:58:01 公開日:2023-03-13
# Polar-VQA:極域からのリモートセンシング氷床画像に対する視覚的質問応答

Polar-VQA: Visual Question Answering on Remote Sensed Ice sheet Imagery from Polar Region ( http://arxiv.org/abs/2303.07403v1 )

ライセンス: Link先を確認
Argho Sarkar, Maryam Rahnemoonfar(参考訳) 氷河学者にとって極域の氷床の研究は重要である。 深層学習技術の進歩により,氷床データからハイレベルな情報を抽出できるようになった(氷床の厚さ推定,今後数年間の氷の蓄積予測など)。 しかし、視覚に基づく会話型深層学習のアプローチはまだ検討されておらず、研究者は画像について質問することで情報を得ることができる。 本稿では,リモートセンシング氷床画像における視覚質問応答(VQA)の課題について紹介する。 本研究では,この研究において独自のVQAデータセットであるPolar-VQAを提示した。 このデータセットのすべての画像は4種類の空中レーダーを用いて収集された。 本研究の主な目的は、氷床研究におけるVQAの重要性を強調し、ポーラVQAデータセットにおける既存のVQAアプローチのベースライン研究を行うことである。

For glaciologists, studying ice sheets from the polar regions is critical. With the advancement of deep learning techniques, we can now extract high-level information from the ice sheet data (e.g., estimating the ice layer thickness, predicting the ice accumulation for upcoming years, etc.). However, a vision-based conversational deep learning approach has not been explored yet, where scientists can get information by asking questions about images. In this paper, we have introduced the task of Visual Question Answering (VQA) on remote-sensed ice sheet imagery. To study, we have presented a unique VQA dataset, Polar-VQA, in this study. All the images in this dataset were collected using four types of airborne radars. The main objective of this research is to highlight the importance of VQA in the context of ice sheet research and conduct a baseline study of existing VQA approaches on Polar-VQA dataset.
翻訳日:2023-03-15 17:50:09 公開日:2023-03-13
# シーン認識のためのディープネットワークの設計

Designing Deep Networks for Scene Recognition ( http://arxiv.org/abs/2303.07402v1 )

ライセンス: Link先を確認
Zhinan Qiao, Xiaohui Yuan(参考訳) ほとんどのディープラーニングバックボーンはimagenetで評価される。 ネットワーク設計において広く受け入れられている原則が,データ変更時に劇的な性能差をもたらすことを実証するために,景観画像を用いて広範囲な実験を行った。 実験は、違いの根底にある原因を説明するために行われる。 本稿では,新たなネットワーク設計手法であるデータ指向ネットワーク設計を提案する。 言い換えれば、普遍的なバックボーンを設計する代わりに、ネットワークのスケジューリングはデータの特性を重要なコンポーネントとして扱うべきである。 さらに,Deep-Narrow Network and Dilated Poolingモジュールを提案し,ベンチマークネットワークアーキテクチャのResNetsと比較して,半分未満の計算資源を用いてシーン認識性能を向上した。 ソースコードはhttps://github.com/ZN-Qiao/Deep-Narrow-Networkで公開されている。

Most deep learning backbones are evaluated on ImageNet. Using scenery images as an example, we conducted extensive experiments to demonstrate the widely accepted principles in network design may result in dramatic performance differences when the data is altered. Exploratory experiments are engaged to explain the underlining cause of the differences. Based on our observation, this paper presents a novel network design methodology: data-oriented network design. In other words, instead of designing universal backbones, the scheming of the networks should treat the characteristics of data as a crucial component. We further proposed a Deep-Narrow Network and Dilated Pooling module, which improved the scene recognition performance using less than half of the computational resources compared to the benchmark network architecture ResNets. The source code is publicly available on https://github.com/ZN-Qiao/Deep-Narrow-Network.
翻訳日:2023-03-15 17:49:56 公開日:2023-03-13
# 最適化アルゴリズムを用いた調律支援ベクターマシンとブーストツリー

Tuning support vector machines and boosted trees using optimization algorithms ( http://arxiv.org/abs/2303.07400v1 )

ライセンス: Link先を確認
Jill F. Lundell(参考訳) 近年,統計的学習手法が普及している。 これらのプロシージャの多くは、モデルが適切に動作するように調整する必要があるパラメータを持っている。 ニューラルネットワークの研究は広く行われているが、他の多くの学習方法には当てはまらない。 本研究では, 支持ベクトルマシン, 勾配押し上げマシン, アダブーストの分類および回帰設定におけるチューニングパラメータの挙動を検討した。 私たちはグリッド検索を使用して、さまざまなデータセットにまたがる優れたモデルを見つけることができるチューニングパラメータの範囲を特定しました。 次に,パラメータ空間を横断するモデルを選択するための最適化アルゴリズムについて検討した。 最適化アルゴリズムにより選択されたモデルとグリッド探索により得られた最良のモデルを比較し,良好なアルゴリズムを選択する。 この情報は、サポートベクターマシンとブーストツリーを自動的にチューニングするrパッケージであるeztuneの作成に使用された。

Statistical learning methods have been growing in popularity in recent years. Many of these procedures have parameters that must be tuned for models to perform well. Research has been extensive in neural networks, but not for many other learning methods. We looked at the behavior of tuning parameters for support vector machines, gradient boosting machines, and adaboost in both a classification and regression setting. We used grid search to identify ranges of tuning parameters where good models can be found across many different datasets. We then explored different optimization algorithms to select a model across the tuning parameter space. Models selected by the optimization algorithm were compared to the best models obtained through grid search to select well performing algorithms. This information was used to create an R package, EZtune, that automatically tunes support vector machines and boosted trees.
翻訳日:2023-03-15 17:49:44 公開日:2023-03-13
# rtmpose:mmposeに基づくリアルタイム多人数ポーズ推定

RTMPose: Real-Time Multi-Person Pose Estimation based on MMPose ( http://arxiv.org/abs/2303.07399v1 )

ライセンス: Link先を確認
Tao Jiang, Peng Lu, Li Zhang, Ningsheng Ma, Rui Han, Chengqi Lyu, Yining Li, Kai Chen(参考訳) 2次元ポーズ推定に関する最近の研究は、公開ベンチマークで優れた性能を達成しているが、産業コミュニティにおけるその応用は、依然として重いモデルパラメータと高いレイテンシに苦しんでいる。 このギャップを埋めるために、我々は、パラダイム、モデルアーキテクチャ、トレーニング戦略、デプロイメントを含むポーズ推定における重要な要素を経験的に探求し、MMPoseに基づく高性能リアルタイム多人数ポーズ推定フレームワークRTMPoseを提案する。 我々のRTMPose-mは、Intel i7-11700 CPUで75.8%のAP、NVIDIA GTX 1660 Ti GPUで430以上のFPS、COCO-WholeBodyで130以上のFPSで67.0%のAPを達成した。 RTMPoseの重要リアルタイムアプリケーションにおける性能を更に評価するために,モバイルデバイス上でのデプロイ後の性能についても報告する。 RTMPose-s は COCO 上で 72.2% AP を達成し,Snapdragon 865 チップ上で 70 以上の FPS を実現している。 コードとモデルはhttps://github.com/open-mmlab/mmpose/tree/1.x/projects/rtmposeでリリースされる。

Recent studies on 2D pose estimation have achieved excellent performance on public benchmarks, yet its application in the industrial community still suffers from heavy model parameters and high latency. In order to bridge this gap, we empirically explore key factors in pose estimation including paradigm, model architecture, training strategy, and deployment, and present a high-performance real-time multi-person pose estimation framework, RTMPose, based on MMPose. Our RTMPose-m achieves 75.8% AP on COCO with 90+ FPS on an Intel i7-11700 CPU and 430+ FPS on an NVIDIA GTX 1660 Ti GPU, and RTMPose-l achieves 67.0% AP on COCO-WholeBody with 130+ FPS. To further evaluate RTMPose's capability in critical real-time applications, we also report the performance after deploying on the mobile device. Our RTMPose-s achieves 72.2% AP on COCO with 70+ FPS on a Snapdragon 865 chip, outperforming existing open-source libraries. Code and models are released at https://github.com/open-mmlab/mmpose/tree/1.x/projects/rtmpose.
翻訳日:2023-03-15 17:49:31 公開日:2023-03-13
# エイリアス付き観測による潜在グラフの高速探索と学習

Fast exploration and learning of latent graphs with aliased observations ( http://arxiv.org/abs/2303.07397v1 )

ライセンス: Link先を確認
Miguel Lazaro-Gredilla, Ishan Deshpande, Sivaramakrishnan Swaminathan, Meet Dave, Dileep George(参考訳) エージェントは、あるノードから別のノードにアクションを実行することによって、潜在グラフをナビゲートします。 選択された動作は、次の訪問ノード上の確率分布を決定する。 各ノードにおいて、エージェントは観測を受けるが、この観測は一意ではないため、ノードを識別せず、問題をエイリアスする。 この研究の目的は、探索効率をほぼ最大化する政策を提供することである(すなわち、与えられた探索予算に対してグラフがどの程度回復できるか)。 未利用例では,最先端の強化学習ベースラインの性能向上が見られた。 エイリアス化の場合、適切なベースラインを意識せず、代わりに様々なトポロジに対するランダムなポリシーw.r.t.を高速にリカバリし、挑戦するトポロジに対するランダムなポリシーよりも指数関数的に高速なリカバリを示す。 アルゴリズムeFeX(eFficient eXploration)をダブする。

Consider this scenario: an agent navigates a latent graph by performing actions that take it from one node to another. The chosen action determines the probability distribution over the next visited node. At each node, the agent receives an observation, but this observation is not unique, so it does not identify the node, making the problem aliased. The purpose of this work is to provide a policy that approximately maximizes exploration efficiency (i.e., how well the graph is recovered for a given exploration budget). In the unaliased case, we show improved performance w.r.t. state-of-the-art reinforcement learning baselines. For the aliased case we are not aware of suitable baselines and instead show faster recovery w.r.t. a random policy for a wide variety of topologies, and exponentially faster recovery than a random policy for challenging topologies. We dub the algorithm eFeX (from eFficient eXploration).
翻訳日:2023-03-15 17:49:08 公開日:2023-03-13
# エージェントベース市場モデルと相互作用する多くの学習エージェント

Many learning agents interacting with an agent-based market model ( http://arxiv.org/abs/2303.07393v1 )

ライセンス: Link先を確認
Matthew Dicks, Andrew Paskaramoothy, Tim Gebbie(参考訳) 我々は,金融市場のリアクティブエージェントベースモデル(ABM)とイベント時に相互作用する複数の強化学習最適実行取引エージェントのダイナミクスと相互作用を考察する。 このモデルは、最適な実行学習エージェント、最小限の知的流動性テイカー、高速な電子流動性プロバイダによって表される3つの栄養レベルを持つ市場エコロジーを表している。 最適な実行エージェントクラスには、制限注文と市場注文の組み合わせを使用できる購入および販売エージェント、または市場注文を使用した貿易のみが含まれる。 報酬関数は、注文をタイムリーに実行しないペナルティに対して、取引実行スリップを明示的にバランスさせる。 この研究は、エージェントの数、エージェントの初期注文のサイズ、学習に使用される状態空間の関数として、複数の競合する学習エージェントが、最小限のインテリジェントな市場シミュレーションにどのように影響するかを示す。 我々は、様々な学習エージェントの仕様が含まれている場合、abmのダイナミクスを調べるために位相空間プロットを用いる。 さらに、学習可能な最適な実行エージェントが、経験的データと同じ複雑さでダイナミクスを生み出すことができるかどうかについて検討する。 最適な実行エージェントを組み込むことで、ABMが作り出したスタイル化された事実を経験的データに適合させることができ、市場マイクロ構造を調査する上で必要となるものとなる。 しかし, 実験データから得られた複雑性を回復するには, チャート-基礎-ノイズABMの実行エージェントを含めるには不十分である。

We consider the dynamics and the interactions of multiple reinforcement learning optimal execution trading agents interacting with a reactive Agent-Based Model (ABM) of a financial market in event time. The model represents a market ecology with 3-trophic levels represented by: optimal execution learning agents, minimally intelligent liquidity takers, and fast electronic liquidity providers. The optimal execution agent classes include buying and selling agents that can either use a combination of limit orders and market orders, or only trade using market orders. The reward function explicitly balances trade execution slippage against the penalty of not executing the order timeously. This work demonstrates how multiple competing learning agents impact a minimally intelligent market simulation as functions of the number of agents, the size of agents' initial orders, and the state spaces used for learning. We use phase space plots to examine the dynamics of the ABM, when various specifications of learning agents are included. Further, we examine whether the inclusion of optimal execution agents that can learn is able to produce dynamics with the same complexity as empirical data. We find that the inclusion of optimal execution agents changes the stylised facts produced by ABM to conform more with empirical data, and are a necessary inclusion for ABMs investigating market micro-structure. However, including execution agents to chartist-fundamentalist-noise ABMs is insufficient to recover the complexity observed in empirical data.
翻訳日:2023-03-15 17:48:52 公開日:2023-03-13
# エンサンブルカルマンインバージョンによる逆問題に対する効率よいベイズ物理学インフォームドニューラルネットワーク

Efficient Bayesian Physics Informed Neural Networks for Inverse Problems via Ensemble Kalman Inversion ( http://arxiv.org/abs/2303.07392v1 )

ライセンス: Link先を確認
Andrew Pensoneault and Xueyu Zhu(参考訳) ベイズ物理学Informed Neural Networks (B-PINNs) は、物理パラメータを推論し、偏微分方程式に基づく問題に対する前方解の学習において大きな注目を集めている。 しかし、ニューラルネットワークの過剰パラメータの性質は、高次元の後方推定の計算上の課題をもたらす。 粒子ベースや分散推論法のような既存の推論手法は、高次元の後方推定に計算コストがかかるか、不確かさの見積もりが不十分かのどちらかである。 本稿では,高次元推論タスクにEnsemble Kalman Inversion (EKI) を用いるB-PINNの新しい効率的な推論アルゴリズムを提案する。 提案手法は,ハミルトン・モンテカルロ (HMC) ベースのB-PINNに匹敵する情報的不確実性を推定し,計算コストを大幅に削減できることを示す。 これらの結果から,本提案手法は物理インフォームド機械学習における不確実性定量化の可能性が大きいことが示唆された。

Bayesian Physics Informed Neural Networks (B-PINNs) have gained significant attention for inferring physical parameters and learning the forward solutions for problems based on partial differential equations. However, the overparameterized nature of neural networks poses a computational challenge for high-dimensional posterior inference. Existing inference approaches, such as particle-based or variance inference methods, are either computationally expensive for high-dimensional posterior inference or provide unsatisfactory uncertainty estimates. In this paper, we present a new efficient inference algorithm for B-PINNs that uses Ensemble Kalman Inversion (EKI) for high-dimensional inference tasks. We find that our proposed method can achieve inference results with informative uncertainty estimates comparable to Hamiltonian Monte Carlo (HMC)-based B-PINNs with a much reduced computational cost. These findings suggest that our proposed approach has great potential for uncertainty quantification in physics-informed machine learning for practical applications.
翻訳日:2023-03-15 17:48:28 公開日:2023-03-13
# 量子情報における数値範囲と幾何学:絡み合い、不確実性関係、相転移、状態相互変換

Numerical ranges and geometry in quantum information: Entanglement, uncertainty relations, phase transitions, and state interconversion ( http://arxiv.org/abs/2303.07390v1 )

ライセンス: Link先を確認
Konrad Szyma\'nski(参考訳) 量子情報の様々な問題に現れる集合の幾何学の研究は、理論の様々な部分を理解するのに役立つ。 したがって、幾何の角度から量子力学にアプローチする価値がある -- これは既に多くの興味深い結果をもたらしている。この論文では、いくつかの観測可能量の同時に達成可能な期待値のセットである数値範囲に関連する結果を示す。 特に, この概念は, 不確実性関係, 絡み付き検出, スペクトルギャップの値に対する境界決定に関わる問題に適用する。 これとは別に、ある群の特定の表現と交換するチャネルを用いて状態相互変換の問題を支援する幾何学的構造を示す。

Studying the geometry of sets appearing in various problems of quantum information helps in understanding different parts of the theory. It is thus worthwhile to approach quantum mechanics from the angle of geometry -- this has already provided a multitude of interesting results. In this thesis I demonstrate results relevant to numerical ranges -- the sets of simultaneously attainable expectation values of several observables. In particular, I apply this notion in the problems related to uncertainty relations, entanglement detection, and determining bounds for the value of spectral gap. Apart from this, I present geometric structures helping with the question of state interconversion using channels commuting with a particular representation of a group.
翻訳日:2023-03-15 17:48:12 公開日:2023-03-13
# 多体量子力学における速度限界と局所性

Speed limits and locality in many-body quantum dynamics ( http://arxiv.org/abs/2303.07386v1 )

ライセンス: Link先を確認
Chi-Fang Chen, Andrew Lucas, Chao Yin(参考訳) 本稿では,多体系における量子情報処理の数学的速度制限について検討する。 1972年にリーブ・ロビンソン理論が証明された後、過去20年間、古典的または量子コンピュータ上の量子システムのシミュラビリティ、絡み合いの発生、ギャップ付きシステムの基底状態の性質など、他の問題への応用に顕著な進展が見られた。 さらに、リーブ・ロビンソン境界は非自明な方法で拡張され、パワーロー相互作用やボソン相互作用を持つ系の速度限界を示し、また全対全相互作用を持つ量子重力のマンガモデルで生じる局所性の概念も証明された。 我々は,その進展を概観し,最も有望な結果とテクニックを強調するとともに,その中心となる課題について議論する。 新参者をスピードアップさせるため、私たちはこの分野の最も重要な結果の自己完結した証明を提供します。

We review the mathematical speed limits on quantum information processing in many-body systems. After the proof of the Lieb-Robinson Theorem in 1972, the past two decades have seen substantial developments in its application to other questions, such as the simulatability of quantum systems on classical or quantum computers, the generation of entanglement, and even the properties of ground states of gapped systems. Moreover, Lieb-Robinson bounds have been extended in non-trivial ways, to demonstrate speed limits in systems with power-law interactions or interacting bosons, and even to prove notions of locality that arise in cartoon models for quantum gravity with all-to-all interactions. We overview the progress which has occurred, highlight the most promising results and techniques, and discuss some central outstanding questions which remain open. To help bring newcomers to the field up to speed, we provide self-contained proofs of the field's most essential results.
翻訳日:2023-03-15 17:47:58 公開日:2023-03-13
# 二次光間相互作用を有する導波路qed

Waveguide QED with Quadratic Light-Matter Interactions ( http://arxiv.org/abs/2303.07382v1 )

ライセンス: Link先を確認
Uesli Alushi, Tom\'as Ramos, Juan Jos\'e Garc\'ia-Ripoll, Roberto Di Candia and Simone Felicetti(参考訳) 二次光-物質相互作用は非線形結合であり、量子エミッタは励起対の交換によってのみフォトニックモードやフォノニックモードと相互作用する。 原子と固体の系で実装可能なこれらの結合は、量子エミッタが局所的なボソニックモードと相互作用する空洞QEDの文脈で特徴付けられる多くの現象を引き起こす。 ここで、量子エミッタが一次元環境に閉じ込められた伝播場と相互作用する導波路qed設定における二次相互作用を考察する。 マルコフ近似の下で一般散乱理論を開発し、双光子状態の自発放出と散乱のパラダイム的例について論じる。 解析的および半解析的結果から,自然発光による相関2光子状態の生成や単一光子入力に対するエミッタの完全透過性など,従来の導波管QEDシステムと基本的差異が明らかになった。 これにより、量子情報処理における光子伝播による新たな機会が解放される。 一つの二次結合エミッタが単位忠実度を持つ2光子論理ゲートを実装し、従来の導波路qed相互作用から導かれるno-go定理を回避できることを示す。

Quadratic light-matter interactions are nonlinear couplings such that quantum emitters interact with photonic or phononic modes exclusively via the exchange of excitation pairs. Implementable with atomic and solid-state systems, these couplings lead to a plethora of phenomena that have been characterized in the context of cavity QED, where quantum emitters interact with localized bosonic modes. Here, we explore quadratic interactions in a waveguide QED setting, where quantum emitters interact with propagating fields confined in a one-dimensional environment. We develop a general scattering theory under the Markov approximation and discuss paradigmatic examples for spontaneous emission and scattering of biphoton states. Our analytical and semi-analytical results unveil fundamental differences with respect to conventional waveguide QED systems such as the generation of correlated two-photon states directly via spontaneous emission or the full transparency of the emitter to single-photon inputs. This unlocks new opportunities in quantum information processing with propagating photons. As a striking example, we show that a single quadratically coupled emitter can implement a two-photon logic gate with unit fidelity, circumventing a no-go theorem derived for conventional waveguide-QED interactions.
翻訳日:2023-03-15 17:47:42 公開日:2023-03-13
# 人間運転における多目的ユーティリティアグリゲーション

Revealed Multi-Objective Utility Aggregation in Human Driving ( http://arxiv.org/abs/2303.07435v1 )

ライセンス: Link先を確認
Atrisha Sarkar, Kate Larson, Krzysztof Czarnecki(参考訳) ゲーム理論解析における中心的な設計問題は、プレイヤーのユーティリティの推定である。 人間の運転を含む人間の意思決定における実世界の対話的な状況では、ユーティリティは本質的に多目的的であるため、アグリゲーションのパラメータ、すなわち多目的ユーティリティのスカラー値へのマッピングを推定することはゲーム構築の不可欠な部分となる。 しかしながら、観測データからこのパラメータを推定することは、アグリゲーションの基盤となるモダリティや、観測を発生させる可能性のある有理的振る舞いモデルなど、観測不能な要因のホストによるいくつかの課題をもたらす。 合理性の概念に基づいて,2つの共通集約法,重み付けおよび充足的集約法,戦略的および非ストラテジック推論モデルに対して,多目的集約パラメータを推定するアルゴリズムを開発した。 3つの異なるデータセットに基づいて、人間のドライバーが安全と進歩のユーティリティをどのように集約するか、そして集約プロセスの状況依存性を洞察する。 さらに,ゲーム解決に使用される特定の解法の概念に関わらず,データ駆動型ユーティリティアグリゲーション推定により,観察された人間の行動に対する行動モデルの予測精度が大幅に向上することを示す。

A central design problem in game theoretic analysis is the estimation of the players' utilities. In many real-world interactive situations of human decision making, including human driving, the utilities are multi-objective in nature; therefore, estimating the parameters of aggregation, i.e., mapping of multi-objective utilities to a scalar value, becomes an essential part of game construction. However, estimating this parameter from observational data introduces several challenges due to a host of unobservable factors, including the underlying modality of aggregation and the possibly boundedly rational behaviour model that generated the observation. Based on the concept of rationalisability, we develop algorithms for estimating multi-objective aggregation parameters for two common aggregation methods, weighted and satisficing aggregation, and for both strategic and non-strategic reasoning models. Based on three different datasets, we provide insights into how human drivers aggregate the utilities of safety and progress, as well as the situational dependence of the aggregation process. Additionally, we show that irrespective of the specific solution concept used for solving the games, a data-driven estimation of utility aggregation significantly improves the predictive accuracy of behaviour models with respect to observed human behaviour.
翻訳日:2023-03-15 17:41:12 公開日:2023-03-13
# 複数のアルゴリズム構成の発見

Discovering Multiple Algorithm Configurations ( http://arxiv.org/abs/2303.07434v1 )

ライセンス: Link先を確認
Leonid Keselman and Martial Hebert(参考訳) ロボット工学の多くの実践者は、典型的で手作りのアルゴリズムに依存している。 これらのアルゴリズムのパフォーマンスは、典型的なデプロイメント条件を表す注釈付き例のデータセットで調整されることが多い。 これらの設定の自動チューニングは、伝統的にアルゴリズム設定として知られている。 本研究では,チューニングデータセット内の複数のモードを自動的に検出するアルゴリズム構成を拡張する。 以前の作業とは異なり、これらの構成モードは複数のデータセットインスタンスを表し、最適化の過程で自動的に検出される。 モード発見には,ポストホック法,マルチステージ法,マルチアームバンディットを用いたオンラインアルゴリズムの3つの手法を提案する。 これらの手法は, 立体視深度推定, 微分可能レンダリング, 運動計画, 視覚計測など, 合成試験機能および複数のロボット応用領域において特徴付けられる。 アルゴリズム構成空間における複数のモードを検出することの明確な利点を示す。

Many practitioners in robotics regularly depend on classic, hand-designed algorithms. Often the performance of these algorithms is tuned across a dataset of annotated examples which represent typical deployment conditions. Automatic tuning of these settings is traditionally known as algorithm configuration. In this work, we extend algorithm configuration to automatically discover multiple modes in the tuning dataset. Unlike prior work, these configuration modes represent multiple dataset instances and are detected automatically during the course of optimization. We propose three methods for mode discovery: a post hoc method, a multi-stage method, and an online algorithm using a multi-armed bandit. Our results characterize these methods on synthetic test functions and in multiple robotics application domains: stereoscopic depth estimation, differentiable rendering, motion planning, and visual odometry. We show the clear benefits of detecting multiple modes in algorithm configuration space.
翻訳日:2023-03-15 17:40:51 公開日:2023-03-13
# シングルビュー肝メッシュ再構築のためのエンド・ツー・エンド変形型アテンショングラフニューラルネットワーク

End-to-end Deformable Attention Graph Neural Network for Single-view Liver Mesh Reconstruction ( http://arxiv.org/abs/2303.07432v1 )

ライセンス: Link先を確認
Matej Gazda, Peter Drotar, Liset Vazquez Romaguera and Samuel Kadoury(参考訳) IMRT(Intensity modulated Radiotherapy)は、がん患者の治療において最も一般的な治療法の一つである。 最大の課題の1つは、自由呼吸に由来するさまざまな動きパターンを正確に処理することである。 現在、IMRTの画像誘導ソリューションは、3Dトラッキングソリューションの複雑さのために2Dガイダンスに制限されている。 本稿では,術前に得られた基準セグメンテーションと治療中に採取した2次元MRIコロナスライスに基づいて,肝臓の三角形形状をリアルタイムに生成する新しいエンドツーエンドアテンショングラフニューラルネットワークモデルを提案する。 グラフニューラルネットワークはグラフデータを直接処理し、非ユークリッド領域の隠れパターンをキャプチャする。 さらに、従来の手法とは対照的に、メッシュ構造で完全に形状を生成し、代理画像に基づいてメッシュ形状と位置を正しく推測する。 肝メッシュ頂点を治療中に得られた2次元画像と対応させる2つのオンザフライアプローチを定義した。 さらに,グラフニューラルネットワークにおける肝臓の変形を抑えるために,空飛ぶ頂点やメッシュホールなどの現象を制限するタスク固有のアイデンティティ損失を導入する。 提案手法では、平均誤差が3.06 +- 0.7 mm、シャムファー距離が63.14 +- 27.28である。

Intensity modulated radiotherapy (IMRT) is one of the most common modalities for treating cancer patients. One of the biggest challenges is precise treatment delivery that accounts for varying motion patterns originating from free-breathing. Currently, image-guided solutions for IMRT is limited to 2D guidance due to the complexity of 3D tracking solutions. We propose a novel end-to-end attention graph neural network model that generates in real-time a triangular shape of the liver based on a reference segmentation obtained at the preoperative phase and a 2D MRI coronal slice taken during the treatment. Graph neural networks work directly with graph data and can capture hidden patterns in non-Euclidean domains. Furthermore, contrary to existing methods, it produces the shape entirely in a mesh structure and correctly infers mesh shape and position based on a surrogate image. We define two on-the-fly approaches to make the correspondence of liver mesh vertices with 2D images obtained during treatment. Furthermore, we introduce a novel task-specific identity loss to constrain the deformation of the liver in the graph neural network to limit phenomenons such as flying vertices or mesh holes. The proposed method achieves results with an average error of 3.06 +- 0.7 mm and Chamfer distance with L2 norm of 63.14 +- 27.28.
翻訳日:2023-03-15 17:40:39 公開日:2023-03-13
# FAIRが家庭で実現 - Community Data Driven InsightsによるFAIRの実装

FAIR Begins at home: Implementing FAIR via the Community Data Driven Insights ( http://arxiv.org/abs/2303.07429v1 )

ライセンス: Link先を確認
Carlos Utrilla Guerrero, Maria Vivas Romero, Marc Dolman, Michel Dumontier(参考訳) FAIR原則の主張は、主に価値へのアピールに基づいている。 しかし、多様な研究者がFAIRの効率的かつ効果的な実装を行うためには、異なる魅力が必要である。 2025年までにこの機関をFAIR大学に転換するための最近の取り組みでは、Community of Data Driven Insights(CDDI)の経験について報告します。 これらの経験を, 社会科学におけるデータスチュワードとデータ科学者の視点から述べる。両者は, 研究データ管理とデータサイエンスの支援を異なる研究グループに提供するために並行して取り組んできた。 最初は、FAIR実装の5つの課題を特定しました。 これらの視点は、単一の大学の分野にわたる研究者に対するFAIR実装の複雑な次元を示している。

Arguments for the FAIR principles have mostly been based on appeals to values. However, the work of onboarding diverse researchers to make efficient and effective implementations of FAIR requires different appeals. In our recent effort to transform the institution into a FAIR University by 2025, here we report on the experiences of the Community of Data Driven Insights (CDDI). We describe these experiences from the perspectives of a data steward in social sciences and a data scientist, both of whom have been working in parallel to provide research data management and data science support to different research groups. We initially identified 5 challenges for FAIR implementation. These perspectives show the complex dimensions of FAIR implementation to researchers across disciplines in a single university.
翻訳日:2023-03-15 17:40:16 公開日:2023-03-13
# transnetr:マルチセンターアウトオブディストリビューションテストによるポリプセグメンテーションのためのトランストランスベース残差ネットワーク

TransNetR: Transformer-based Residual Network for Polyp Segmentation with Multi-Center Out-of-Distribution Testing ( http://arxiv.org/abs/2303.07428v1 )

ライセンス: Link先を確認
Debesh Jha, Nikhil Kumar Tomar, Vanshali Sharma, Ulas Bagci(参考訳) 大腸内視鏡検査は大腸癌(crc)とその前駆病変、すなわちポリープを検出するのに最も有効なスクリーニング検査であると考えられている。 しかし、この手順はポリプの不均一性とオブザーバ間の依存性により、ミス率が高い。 したがって,臨床におけるポリープ検出とセグメンテーションの臨界性を考慮して,いくつかの深層学習システムを提案する。 改善された結果にもかかわらず、既存の自動化アプローチはリアルタイム処理速度を達成するのに非効率である。 さらに、患者間データ、特に異なるセンターから収集したデータに基づいて評価すると、大きなパフォーマンス低下に悩まされる。 そこで我々は,新しいリアルタイム深層学習型アーキテクチャであるtransnetr(transnetr)を開発し,その診断性能について検討する。 提案アーキテクチャであるTransNetRは、トレーニング済みのResNet50をエンコーダとして、そして3つのデコーダブロックと、ネットワークの終端にあるアップサンプリング層で構成されるエンコーダ・デコーダネットワークである。 TransNetRは、高いダイス係数0.8706と平均的なインターセクション0.8016を取得し、Kvasir-SEGデータセット上でのリアルタイム処理速度54.60を保持する。 これとは別に、提案したアルゴリズムをアウト・オブ・ディストリビューション(テスト分布は未知であり、トレーニング分布とは異なる)データセット上でテストすることで、TransNetRの一般化可能性を探ることにも貢献している。 ユースケースとして,提案アルゴリズムをpolypgen (6 unique centers) データセットと他の2つの人気のあるpolyp segmentation benchmarkingデータセット上でテストした。 分散テスト中に3つのデータセットすべてで最先端のパフォーマンスを得た。 TransNetRのソースコードはhttps://github.com/DebeshJha.comで公開されている。

Colonoscopy is considered the most effective screening test to detect colorectal cancer (CRC) and its precursor lesions, i.e., polyps. However, the procedure experiences high miss rates due to polyp heterogeneity and inter-observer dependency. Hence, several deep learning powered systems have been proposed considering the criticality of polyp detection and segmentation in clinical practices. Despite achieving improved outcomes, the existing automated approaches are inefficient in attaining real-time processing speed. Moreover, they suffer from a significant performance drop when evaluated on inter-patient data, especially those collected from different centers. Therefore, we intend to develop a novel real-time deep learning based architecture, Transformer based Residual network (TransNetR), for colon polyp segmentation and evaluate its diagnostic performance. The proposed architecture, TransNetR, is an encoder-decoder network that consists of a pre-trained ResNet50 as the encoder, three decoder blocks, and an upsampling layer at the end of the network. TransNetR obtains a high dice coefficient of 0.8706 and a mean Intersection over union of 0.8016 and retains a real-time processing speed of 54.60 on the Kvasir-SEG dataset. Apart from this, the major contribution of the work lies in exploring the generalizability of the TransNetR by testing the proposed algorithm on the out-of-distribution (test distribution is unknown and different from training distribution) dataset. As a use case, we tested our proposed algorithm on the PolypGen (6 unique centers) dataset and two other popular polyp segmentation benchmarking datasets. We obtained state-of-the-art performance on all three datasets during out-of-distribution testing. The source code of TransNetR will be made publicly available at https://github.com/DebeshJha.
翻訳日:2023-03-15 17:40:05 公開日:2023-03-13
# 回路の一般化設計を伴う短距離・長距離通信における符号化量子ベル対のImmense Fidelity向上

Immense Fidelity Enhancement of Encoded Quantum Bell Pairs at Short and Long-distance Communication along with Generalized Design of Circuit ( http://arxiv.org/abs/2303.07425v1 )

ライセンス: Link先を確認
Syed Emad Uddin Shubha, Md. Saifur Rahman, M.R.C. Mahdy(参考訳) 量子エンタングルメントは量子領域のユニークな基準であり、量子通信を確保するための重要なツールである。 量子ノイズとデコヒーレンスによって生じる敵対的なチャネル環境との相互作用のため、高忠実な絡み合いが常に難しい課題であった。 いくつかの手法が提案されているが、100%近い誤り訂正を達成することは依然として大きな課題である。 この研究の主な貢献の一つとして、全てのビットフリップエラーや他のエラーを適切なエンコーディングで大幅に訂正できる、長距離通信の新しいモデルが導入されている。 この目的を達成するために、最初のステップで、長距離および短距離アプリケーションを区別するアイデアが導入された。 近距離はqubit技術によってユニタリ制御ゲートを適用する最大範囲によって決定される。 われわれが知る限りでは、長距離と短距離のアプリケーションを区別する以前の研究はない。 はじめに,長距離通信における誤り訂正能力を識別するために,復号化のための安定化器形式と繰り返し符号を適用した。 特に近距離通信では、適切に符号化されたベル状態が、理論上100%精度で全てのビットフリップや位相フリップ誤差を識別できることが示されている。 対照的に、ベル状態が長距離通信に使用される場合、エラー検出と補正能力は膨大な量で低下する。 長距離通信において,忠実度を大幅に向上し,エラーを広範囲に補正するために,古典的通信プロトコルに基づく新しいモデルが提案されている。 これらのプロセスに必要な回路はすべて符号化中に一般化されている。 解析結果はIBM QISKIT QASMのシミュレーション結果でも検証されている。

Quantum entanglement is a unique criterion of the quantum realm and an essential tool to secure quantum communication. Ensuring high-fidelity entanglement has always been a challenging task owing to interaction with the hostile channel environment created due to quantum noise and decoherence. Though several methods have been proposed, achieving almost 100% error correction is still a gigantic task. As one of the main contributions of this work, a new model for large distance communication has been introduced, which can correct all bit flip errors or other errors quite extensively if proper encoding is used. To achieve this purpose, at the very first step, the idea of differentiating the long and short-distance applications has been introduced. Short-distance is determined by the maximum range of applying unitary control gates by the qubit technology. As far as we know, there is no previous work that distinguishes long and short distance applications. At the beginning, we have applied stabilizer formalism and Repetition Code for decoding to distinguish the error correcting ability in long and short distance communication. Particularly for short distance communication, it has been demonstrated that a properly encoded bell state can identify all the bit flip, or phase flip errors with 100% accuracy theoretically. In contrast, if the bell states are used in long distance communication, the error-detecting and correcting ability reduces at huge amounts. To increase the fidelity significantly and correct the errors quite extensively for long-distance communication, a new model based on classical communication protocol has been proposed. All the required circuits in these processes have been generalized during encoding. Proposed analytical results have also been verified with the Simulation results of IBM QISKIT QASM.
翻訳日:2023-03-15 17:39:34 公開日:2023-03-13
# FreeNeRF:自由周波数規則化によるファウショットニューラルレンダリングの改善

FreeNeRF: Improving Few-shot Neural Rendering with Free Frequency Regularization ( http://arxiv.org/abs/2303.07418v1 )

ライセンス: Link先を確認
Jiawei Yang, Marco Pavone, Yue Wang(参考訳) スパース入力を用いた新しいビュー合成はニューラル放射場(NeRF)にとって難しい問題である。 近年の取り組みは、事前訓練されたモデルや追加の深度信号、非自明なパッチベースのレンダリングといった外部監視を導入することで、この問題を軽減する。 本稿では,周波数正規化NeRF(FreeNeRF)について述べる。 ニューラルレンダリングにおける重要課題を分析し,nrfのトレーニングにおいて周波数が重要な役割を担っていることを確認した。 この分析に基づき,2つの正規化項を提案する。 1つは、NeRFの入力の周波数範囲を規則化し、もう1つは、近カメラ密度場をペナライズすることである。 どちらの技法も計算コストなしで ``free lunches''' である。 1行のコード変更であっても、オリジナルのNeRFは、数ショット設定で他の複雑なメソッドと同様のパフォーマンスを達成できることを示す。 FreeNeRFは、Blender、DTU、LLFFなど、さまざまなデータセットにわたる最先端のパフォーマンスを実現する。 我々は、この単純なベースラインが、低データ体制以降におけるNeRFのトレーニングにおける周波数の基本的な役割を再考する動機になることを期待している。

Novel view synthesis with sparse inputs is a challenging problem for neural radiance fields (NeRF). Recent efforts alleviate this challenge by introducing external supervision, such as pre-trained models and extra depth signals, and by non-trivial patch-based rendering. In this paper, we present Frequency regularized NeRF (FreeNeRF), a surprisingly simple baseline that outperforms previous methods with minimal modifications to the plain NeRF. We analyze the key challenges in few-shot neural rendering and find that frequency plays an important role in NeRF's training. Based on the analysis, we propose two regularization terms. One is to regularize the frequency range of NeRF's inputs, while the other is to penalize the near-camera density fields. Both techniques are ``free lunches'' at no additional computational cost. We demonstrate that even with one line of code change, the original NeRF can achieve similar performance as other complicated methods in the few-shot setting. FreeNeRF achieves state-of-the-art performance across diverse datasets, including Blender, DTU, and LLFF. We hope this simple baseline will motivate a rethinking of the fundamental role of frequency in NeRF's training under the low-data regime and beyond.
翻訳日:2023-03-15 17:39:07 公開日:2023-03-13
# 変分量子固有解法に対するフェルミオン適応サンプリング理論

Fermionic Adaptive Sampling Theory for Variational Quantum Eigensolvers ( http://arxiv.org/abs/2303.07417v1 )

ライセンス: Link先を確認
Marco Majland, Patrick Ettenhuber, Nikolaj Thomas Zinner(参考訳) 量子化学は、量子コンピューティングが大きな影響を与えうる最も有望な分野の1つとして認識されている。 現在のノイズの多い中間スケール量子(nisq)デバイスでは、量子コンピュータ上で近似波動関数を作成する最善の方法の1つは、適応微分分解型擬似トロッター ansatz variational quantum eigensolver (adapt-vqe)である。 しかし、ADAPT-VQEは波動関数における演算子の重要性を推定する際、大きな測定オーバーヘッドに悩まされる。 本研究では、波動関数におけるスレーター行列式の集団からのみ派生した重要度に基づいて演算子を選択するFermionic Adaptive Smpling Theory VQE(FAST-VQE)を提案する。 そこで,本手法は,計算に基づく測定によって簡単に決定できるスレーター行列式の集団にのみ依存するため,adapt-vqeの測定オーバーヘッドを緩和する。 本稿では,摂動理論を用いた選択構成相互作用と近似勾配に基づく2つのヒューリスティックな重要度指標を提案する。 状態ベクトルおよび有限ショットシミュレーションにおいて、近似勾配に基づくヒューリスティック距離を用いたFAST-VQEはADAPT-VQEと同等かそれ以上の速度で収束し、劇的に少ないショットを必要とする。

Quantum chemistry has been identified as one of the most promising areas where quantum computing can have a tremendous impact. For current Noisy Intermediate-Scale Quantum (NISQ) devices, one of the best available methods to prepare approximate wave functions on quantum computers is the Adaptive Derivative-Assembled Pseudo-Trotter Ansatz Variational Quantum Eigensolver (ADAPT-VQE). However, ADAPT-VQE suffers from a significant measurement overhead when estimating the importance of operators in the wave function. In this work, we propose Fermionic Adaptive Sampling Theory VQE (FAST-VQE), a method for selecting operators based on importance metrics solely derived from the populations of Slater determinants in the wave function. Thus, our method mitigates measurement overheads for ADAPT-VQE as it is only dependent on the populations of Slater determinants which can simply be determined by measurements in the computational basis. We introduce two heuristic importance metrics, one based on Selected Configuration Interaction with perturbation theory and one based on approximate gradients. In state vector and finite shot simulations, FAST-VQE using the heuristic metric based on approximate gradients converges at the same rate or faster than ADAPT-VQE and requires dramatically fewer shots.
翻訳日:2023-03-15 17:38:48 公開日:2023-03-13
# 二部量子系の絡み合いダイナミクスに関する基礎的速度制限

Fundamental speed limits on entanglement dynamics of bipartite quantum systems ( http://arxiv.org/abs/2303.07415v1 )

ライセンス: Link先を確認
Vivek Pandey, Swapnil Bhowmick, Brij Mohan, Sohail, and Ujjwal Sen(参考訳) エンタングルメントの速度限界は、物理的過程においてエンタングルメントが生成または劣化できる最大速度として定義される。 我々は, エンタングルメントの相対エントロピーを用いてエンタングルメントの速度限界を導出し, 任意のcptpダイナミクスに対して, 最接近分離状態のダイナミクスを, システムの実際のダイナミクスの最も近い分離可能ダイナミクスによって近似的に記述できると仮定する。 純粋状態によって記述される閉二成分系のユニタリダイナミクスに対して、エンタングルメント生成の速度は、システムの駆動ハミルトニアンと超主作用素の揺らぎの積によって制限され、最も近い分離可能な状態の時間依存性を反映した追加の項が与えられる。 入力の純度と進化のユニタリ性に関する制限を取り除いた場合、境界内の2つの項は適切に分解される。 実際に興味のある量子過程を考慮し, 絡み合いに対する速度制限の厳密さを示す。 さらに,与えられた写像の最も近い分離可能な写像を求める方法を提案する。

The speed limits on entanglement are defined as the maximal rate at which entanglement can be generated or degraded in a physical process. We derive the speed limits on entanglement, using the relative entropy of entanglement, for unitary and arbitrary CPTP dynamics, where we assume that the dynamics of the closest separable state can be approximately described by the closest separable dynamics of the actual dynamics of the system. For unitary dynamics of closed bipartite systems which are described by pure states, the rate of entanglement production is bounded by the product of fluctuations of the system's driving Hamiltonian and the surprisal operator, with a additional term reflecting the time-dependent nature of the closest separable state. Removing restrictions on the purity of the input and on the unitarity of the evolution, the two terms in the bound get suitably factorized. We demonstrate the tightness of our speed limits on entanglement by considering quantum processes of practical interest. Moreover, we provide a method to find the closest separable map of a given map.
翻訳日:2023-03-15 17:38:22 公開日:2023-03-13
# ディラック例外点とその等スペクトルエルミート点の解析

Analysis of Dirac exceptional points and their isospectral Hermitian counterparts ( http://arxiv.org/abs/2303.07413v1 )

ライセンス: Link先を確認
Jose H. D. Rivero and Liang Feng and Li Ge(参考訳) 近年,非エルミート系ではディラック例外点(EP)が報告されている。 エルミート系のディラック点とは異なり、このディラックEPは縮退エネルギーに加えて固有状態が結合している。 典型的なEPと異なり、このディラックEPで連結された2つのエネルギー準位はその近傍に存在しており、正方形の根の分散の代わりに線形で、運動量次元と非ハーミティシティの強度の合成次元からなるハイブリッド空間に傾斜したディラック錐を形成する。 本稿では、まず、傾斜したディラック錐体の線形分散を解析的に表現できるDicrac EPを用いた単純な3バンドおよび2バンド行列モデルを提案する。 重要なことに、我々の分析は、パラメータ空間全体に同じ(実数値の)エネルギースペクトルを持つエルミート系と非エルミート系が存在することも明らかにしている。 最後に,EPを中心とした想像上のディラックコーンの存在を示す。

Recently, a Dirac exceptional point (EP) was reported in a non-Hermitian system. Unlike a Dirac point in Hermitian systems, this Dirac EP has coalesced eigenstates in addition to the degenerate energy. Also different from a typical EP, the two energy levels connected at this Dirac EP remain real in its vicinity and display a linear instead of square root dispersion, forming a tilted Dirac cone in the hybrid space consisting of a momentum dimension and a synthetic dimension for the strength of non-Hermiticity. In this report, we first present simple three-band and two-band matrix models with a Dirac EP, where the linear dispersion of the tilted Dirac cone can be expressed analytically. Importantly, our analysis also reveals that there exist Hermitian and non-Hermitian systems that have the same (real-valued) energy spectrum in their entire parameter space, with the exception that one or more degeneracies in the former are replaced by Dirac EPs in the later. Finally, we show the existence of an imaginary Dirac cone with an EP at its center.
翻訳日:2023-03-15 17:38:02 公開日:2023-03-13
# 2つの入力と2つの出力シナリオにおける1ビット以上の量子ランダム性の実験的証明

Experimental certification of more than one bit of quantum randomness in the two inputs and two outputs scenario ( http://arxiv.org/abs/2303.07460v1 )

ライセンス: Link先を確認
Alban Jean-Marie Seguinard, Am\'elie Piveteau, Piotr Mironowicz, Mohamed Bourennane(参考訳) 量子力学の顕著な性質の1つはベル型非局所性の発生である。 これらは、エンタングル量子系を共有する2つの当事者が古典物理学において可能なよりも強い相関を観測できる理論の基本的な特徴である。 理論的な重要性に加えて、非局所相関は、デバイス非依存のランダムネス生成のような実践的な応用があり、信頼できないベンダーが導出したデバイスを用いて取得しても、プライベートな予測不可能な数が得られる。 したがって、特定の非局所相関を用いて生成できる証明可能なランダム性の量を決定することは重要な関心事である。 本稿では,量子リソースを持つ敵に対して安全なプライベートな乱数を提供するために設計された最近のベル型演算子を実験的に実現する。 デバイスに依存しないシナリオにおいて、半定値プログラミングを用いて、生成したランダム性の低い境界を min-entropy と von Neumann entropy の両方の観点から提供する。 我々は,tsirelsonのバウンドに近いベル違反を提供する実験的なセットアップと,より低い事象率とを比較した。 本実験は,二成分測定からランダムネスの2ビット近くを証明した最初の実験である。

One of the striking properties of quantum mechanics is the occurrence of the Bell-type non-locality. They are a fundamental feature of the theory that allows two parties that share an entangled quantum system to observe correlations stronger than possible in classical physics. In addition to their theoretical significance, non-local correlations have practical applications, such as device-independent randomness generation, providing private unpredictable numbers even when they are obtained using devices derived by an untrusted vendor. Thus, determining the quantity of certifiable randomness that can be produced using a specific set of non-local correlations is of significant interest. In this paper, we present an experimental realization of recent Bell-type operators designed to provide private random numbers that are secure against adversaries with quantum resources. We use semi-definite programming to provide lower bounds on the generated randomness in terms of both min-entropy and von Neumann entropy in a device-independent scenario. We compare experimental setups providing Bell violations close to the Tsirelson's bound with lower rates of events, with setups having slightly worse levels of violation but higher event rates. Our results demonstrate the first experiment that certifies close to two bits of randomness from binary measurements of two parties.
翻訳日:2023-03-15 17:32:21 公開日:2023-03-13
# AMOM:条件付きマスキング言語モデルのための適応型マスキング

AMOM: Adaptive Masking over Masking for Conditional Masked Language Model ( http://arxiv.org/abs/2303.07457v1 )

ライセンス: Link先を確認
Yisheng Xiao, Ruiyang Xu, Lijun Wu, Juntao Li, Tao Qin, Yan-Tie Liu, Min Zhang(参考訳) トランスフォーマーベースの自己回帰(AR)法は、ニューラルマシン翻訳、要約、コード生成など、様々なシーケンス・ツー・シーケンス生成タスクに対して魅力的な性能を達成しているが、推論効率が低い。 推論段階を高速化するために、過去数年間に多くの非自己回帰(NAR)戦略が提案されている。 その中でも、条件付きマスマインド言語モデル(CMLM)は、多くの異なるシーケンス生成シナリオをサポートし、これらのタスクにおいて非常に競争力のあるパフォーマンスを達成するため、最も多用途なフレームワークの1つである。 本稿では,デコーダの高精細性を向上し,エンコーダの最適化を容易にするため,マスク方式よりもシンプルで効果的な適応マスキングを提案する。 textbf{3} の異なるタスク(ニューラル機械翻訳、要約、コード生成)と \textbf{15} のデータセットを総じて実験した結果、提案手法が強力な cmlm モデルよりも大幅に性能が向上していることが確認された。 驚くべきことに、提案されたモデルは、ニューラルネットワーク翻訳における最先端のパフォーマンス(wmt16 en$\to$ro, \textbf{34.82} bleu on wmt16 ro$\to$en, \textbf{34.84} bleu on iwslt de$\to$en)を与え、少なくとも \textbf{7} ベンチマークデータセット上の \textbf{ar} transformerよりも優れたパフォーマンスを得る。 私たちのコードはGitHubで入手可能です。

Transformer-based autoregressive (AR) methods have achieved appealing performance for varied sequence-to-sequence generation tasks, e.g., neural machine translation, summarization, and code generation, but suffer from low inference efficiency. To speed up the inference stage, many non-autoregressive (NAR) strategies have been proposed in the past few years. Among them, the conditional masked language model (CMLM) is one of the most versatile frameworks, as it can support many different sequence generation scenarios and achieve very competitive performance on these tasks. In this paper, we further introduce a simple yet effective adaptive masking over masking strategy to enhance the refinement capability of the decoder and make the encoder optimization easier. Experiments on \textbf{3} different tasks (neural machine translation, summarization, and code generation) with \textbf{15} datasets in total confirm that our proposed simple method achieves significant performance improvement over the strong CMLM model. Surprisingly, our proposed model yields state-of-the-art performance on neural machine translation (\textbf{34.62} BLEU on WMT16 EN$\to$RO, \textbf{34.82} BLEU on WMT16 RO$\to$EN, and \textbf{34.84} BLEU on IWSLT De$\to$En) and even better performance than the \textbf{AR} Transformer on \textbf{7} benchmark datasets with at least \textbf{2.2$\times$} speedup. Our code is available at GitHub.
翻訳日:2023-03-15 17:31:58 公開日:2023-03-13
# (1+1)機能的完全命令セットによる遺伝的プログラミングは、任意小誤差によるブール接続と解離を回避できる

(1+1) Genetic Programming With Functionally Complete Instruction Sets Can Evolve Boolean Conjunctions and Disjunctions with Arbitrarily Small Error ( http://arxiv.org/abs/2303.07455v1 )

ライセンス: Link先を確認
Benjamin Doerr, Andrei Lissovoi, Pietro S. Oliveto(参考訳) 近年,必要最小限の部品を装備すれば,単純なGPシステムは$n$変数の結合を効率的に進化させることができることが証明されている。 本稿では,最大$n$変数のブール関数の表現を可能にする完全関数集合を用いて,ブール結合や$n$変数の解離を進化させるGPシステムの挙動と性能を分析することにより,かなり前進する。 まず、プログラムの品質を評価するのに完全真理表を使い、そしてandおよびor演算子と正のリテラルの両方を備えたgpシステムが、期待値の$o(\ell n \log^2 n)$の正確な目標関数を進化させ、ここで$\ell \geq n$は任意の許容される木の大きさの制限である。 さらに, 可能な入力の多項式サンプルを用いて解の質を評価する場合, 任意の多項式的最小一般化誤差を伴う結合あるいは接続を確率1o(\log^2(n)/n)$で発展させることができることを示した。 後者の結果はまた、GPが AND, OR and positive and negated literals を使用していれば、$n$の異なる変数のブール関数を表現することができる。 この結果を証明するために, 最適からの距離において, 期待される進行がわずかに超線形である場合, ランタイム境界が大幅に強くなる超乗算ドリフト定理を導入する。

Recently it has been proven that simple GP systems can efficiently evolve a conjunction of $n$ variables if they are equipped with the minimal required components. In this paper, we make a considerable step forward by analysing the behaviour and performance of a GP system for evolving a Boolean conjunction or disjunction of $n$ variables using a complete function set that allows the expression of any Boolean function of up to $n$ variables. First we rigorously prove that a GP system using the complete truth table to evaluate the program quality, and equipped with both the AND and OR operators and positive literals, evolves the exact target function in $O(\ell n \log^2 n)$ iterations in expectation, where $\ell \geq n$ is a limit on the size of any accepted tree. Additionally, we show that when a polynomial sample of possible inputs is used to evaluate the solution quality, conjunctions or disjunctions with any polynomially small generalisation error can be evolved with probability $1 - O(\log^2(n)/n)$. The latter result also holds if GP uses AND, OR and positive and negated literals, thus has the power to express any Boolean function of $n$ distinct variables. To prove our results we introduce a super-multiplicative drift theorem that gives significantly stronger runtime bounds when the expected progress is only slightly super-linear in the distance from the optimum.
翻訳日:2023-03-15 17:31:22 公開日:2023-03-13
# 連合学習を用いたネットワーク異常検出

Network Anomaly Detection Using Federated Learning ( http://arxiv.org/abs/2303.07452v1 )

ライセンス: Link先を確認
William Marfo, Deepak K. Tosh, Shirley V. Moore(参考訳) ネットワークトラフィックの正確性と不均一性のため,異常事象の検出は困難である。 グローバルサーバの計算負荷は、効率、正確性、スケーラビリティにおいて大きな課題である。 私たちの主な動機は、効率的なネットワーク異常検出を可能にする堅牢でスケーラブルなフレームワークを導入することです。 本稿では,複数の参加者が共同でグローバルモデルを訓練する連合学習を活用し,ネットワーク異常検出のためのスケーラビリティと効率の問題に対処する。 集中型トレーニングアーキテクチャとは異なり、連合学習では、参加者がトレーニングデータをサーバにアップロードする必要はなく、攻撃者がトレーニングデータを利用するのを防ぐ。 さらに、ほとんどの先行研究は、従来の集中型機械学習にフォーカスしており、連合機械学習はネットワーク異常検出に未熟である。 そこで我々は,特定のIPアドレスからの要求が悪意あるかどうかを確認しながら,ネットワーク異常を検出する低中間デバイスで動作するディープニューラルネットワークフレームワークを提案する。 従来の集中型マシンラーニングモデルと比べ、deep neural federatedモデルでは、トレーニング時間のオーバーヘッドが削減される。 提案手法は,UNSW-NB15データセットに対して,精度97.21%,計算時間を高速化した実験により,ベースライン機械学習手法よりも優れている。

Due to the veracity and heterogeneity in network traffic, detecting anomalous events is challenging. The computational load on global servers is a significant challenge in terms of efficiency, accuracy, and scalability. Our primary motivation is to introduce a robust and scalable framework that enables efficient network anomaly detection. We address the issue of scalability and efficiency for network anomaly detection by leveraging federated learning, in which multiple participants train a global model jointly. Unlike centralized training architectures, federated learning does not require participants to upload their training data to the server, preventing attackers from exploiting the training data. Moreover, most prior works have focused on traditional centralized machine learning, making federated machine learning under-explored in network anomaly detection. Therefore, we propose a deep neural network framework that could work on low to mid-end devices detecting network anomalies while checking if a request from a specific IP address is malicious or not. Compared to multiple traditional centralized machine learning models, the deep neural federated model reduces training time overhead. The proposed method performs better than baseline machine learning techniques on the UNSW-NB15 data set as measured by experiments conducted with an accuracy of 97.21% and a faster computation time.
翻訳日:2023-03-15 17:30:54 公開日:2023-03-13
# drishti:視覚障害者向けビジュアルナビゲーションアシスタント

DRISHTI: Visual Navigation Assistant for Visually Impaired ( http://arxiv.org/abs/2303.07451v1 )

ライセンス: Link先を確認
Malay Joshi, Aditi Shukla, Jayesh Srivastava, Manya Rastogi(参考訳) 自立生活がますます重要になっている今日の社会では、盲目の人にとっては極端に制限されることがある。 盲目で視覚障害者(BVI)は、自分の環境に関する情報を手動で支援する必要があるため、課題に直面します。 本研究は、BVI患者に視覚ナビゲーション支援を提供するために、安価で高性能なアイウェアアシストデバイスDRISHTIの開発に向けた第一歩を踏み出した。 本システムは、カメラモジュール、esp32プロセッサ、bluetoothモジュール、スマートフォン及びスピーカーを備える。 人工知能を用いて、このシステムは、その経路内のユーザの前にあるユーザの経路と障害の性質を検知し、理解し、オーディオ出力を介してbviユーザに通知することで、その経路を自分で取得できるようにする。 本稿では,通貨検出アルゴリズムの初期ソフトウェア統合を低コスト組込み配置上でテストすることにより,価格と性能の適切なバランスを実現するための概念実証を行う。 この取り組みは、世界中のBVIの人々の自立的な移動を支援するという目標を達成するための我々の今後の取り組みの基盤となるでしょう。

In today's society, where independent living is becoming increasingly important, it can be extremely constricting for those who are blind. Blind and visually impaired (BVI) people face challenges because they need manual support to prompt information about their environment. In this work, we took our first step towards developing an affordable and high-performing eye wearable assistive device, DRISHTI, to provide visual navigation assistance for BVI people. This system comprises a camera module, ESP32 processor, Bluetooth module, smartphone and speakers. Using artificial intelligence, this system is proposed to detect and understand the nature of the users' path and obstacles ahead of the user in that path and then inform BVI users about it via audio output to enable them to acquire directions by themselves on their journey. This first step discussed in this paper involves establishing a proof-of-concept of achieving the right balance of affordability and performance by testing an initial software integration of a currency detection algorithm on a low-cost embedded arrangement. This work will lay the foundation for our upcoming works toward achieving the goal of assisting the maximum of BVI people around the globe in moving independently.
翻訳日:2023-03-15 17:30:35 公開日:2023-03-13
# 位相特徴を用いたブラインド音響室パラメータ推定

Blind Acoustic Room Parameter Estimation Using Phase Features ( http://arxiv.org/abs/2303.07449v1 )

ライセンス: Link先を確認
Christopher Ick, Adib Mehrabi, Wenyu Jin(参考訳) フィールド設定における室内音響のモデル化は、雑音および残響音からある程度のブラインドパラメータ推定を伴う。 現代のアプローチでは、時間周波数表現と接して畳み込みニューラルネットワーク(CNN)を利用する。 これらのスペクトログラムライクな特徴を開発するために短時間フーリエ変換を用いると有望な結果が得られるが、この方法は位相領域でかなりの量の音声情報を暗黙的に破棄する。 音声強調の最近の研究に触発されて,いわゆる「残響指紋」パラメータ,すなわちボリュームとrt60を盲目的に推定するために,新しい位相関連特徴の活用を提案する。 これらの特徴の付加は、幅広い音響空間にわたる等級に基づくスペクトル特徴のみに依存する既存の手法よりも優れていることを示す。 本研究では, 室間インパルス応答(RIR), 合成RIR, 実音響空間の室内計測を含む新しいデータセットを用いて, 単一パラメータおよびマルチパラメータ推定手法におけるこれらの特徴の展開の有効性を評価する。

Modeling room acoustics in a field setting involves some degree of blind parameter estimation from noisy and reverberant audio. Modern approaches leverage convolutional neural networks (CNNs) in tandem with time-frequency representation. Using short-time Fourier transforms to develop these spectrogram-like features has shown promising results, but this method implicitly discards a significant amount of audio information in the phase domain. Inspired by recent works in speech enhancement, we propose utilizing novel phase-related features to extend recent approaches to blindly estimate the so-called "reverberation fingerprint" parameters, namely, volume and RT60. The addition of these features is shown to outperform existing methods that rely solely on magnitude-based spectral features across a wide range of acoustics spaces. We evaluate the effectiveness of the deployment of these novel features in both single-parameter and multi-parameter estimation strategies, using a novel dataset that consists of publicly available room impulse responses (RIRs), synthesized RIRs, and in-house measurements of real acoustic spaces.
翻訳日:2023-03-15 17:30:17 公開日:2023-03-13
# 心理物理学実験における3光子絡み検出条件

Conditions on detecting three-photon entanglement in psychophysical experiments ( http://arxiv.org/abs/2303.07446v1 )

ライセンス: Link先を確認
Lea Gassab, Ali Pedram and \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 本稿では、量子絡み合う光子に対する人間の視覚システムの感度について検討する。 人間の被験者が高次元量子絡み合い光子を知覚する可能性について心理物理学実験を通して検討する。 我々の焦点は、2光子交絡状態から始まり、人間の2光子交絡知覚に偽陽性の付加的なノイズを考慮し、文献との比較研究を行う。 その後、我々は同様の研究を高次元の単純性のために3光子交絡状態に制限する。 人体による光検出をモデル化するために, 付加雑音を含むフォック数状態におけるコヒーレント増幅光子の観測を行う確率を用いた。 以上の結果から,人間の眼における2光子および3光子絡み合いの検出は,一定のノイズレベルおよび視覚閾値において可能であることが示唆された。

This paper explores the sensitivity of the human visual system to the quantum entangled photons. We examine the possibility of human subjects perceiving higher dimensional quantum entangled photons through psychophysical experiments. Our focus begins with a two-photon entangled state to make a comparative study with the literature by taking into account additive noise for false positive on two-photon entanglement perception by humans. After that, we limit our similar investigation to a three-photon entangled state for simplicity in higher dimensions. To model the photodetection by humans, we employ the probability of seeing determined for coherently amplified photons in Fock number states, including an additive noise. Our results indicate that detecting two-photon and three-photon entanglement with the human eye is possible for a certain range of additive noise levels and visual thresholds.
翻訳日:2023-03-15 17:29:58 公開日:2023-03-13
# 意識的AI構築の倫理について

On the ethics of constructing conscious AI ( http://arxiv.org/abs/2303.07439v1 )

ライセンス: Link先を確認
Shimon Edelman(参考訳) その実践的転換の中で、AI倫理の新しい規律は人類の生物に対する集団的恐怖によって支配されるようになり、それは広範かつ多年にわたる文学的伝統に反映された。 Dr. Frankenstein's monster in the novel by Mary Shelley rising against its creator; the unorthodox golem in H. Leivick's 1920 play going on a rampage; the rebellious robots of Karel \v{C}apek -- these and hundreds of other examples of the genre are the background against which the preoccupation of AI ethics with preventing robots from behaving badly towards people is best understood. In each of these three fictional cases (as well as in many others), the miserable artificial creature -- mercilessly exploited, or cornered by a murderous mob, and driven to violence in self-defense -- has its author's sympathy. AIの倫理に関する理論家たちは、創造者から保護を必要とするロボットの可能性を完全に無視しています。 本章では、AIの倫理的な角度を取り上げている。

In its pragmatic turn, the new discipline of AI ethics came to be dominated by humanity's collective fear of its creatures, as reflected in an extensive and perennially popular literary tradition. Dr. Frankenstein's monster in the novel by Mary Shelley rising against its creator; the unorthodox golem in H. Leivick's 1920 play going on a rampage; the rebellious robots of Karel \v{C}apek -- these and hundreds of other examples of the genre are the background against which the preoccupation of AI ethics with preventing robots from behaving badly towards people is best understood. In each of these three fictional cases (as well as in many others), the miserable artificial creature -- mercilessly exploited, or cornered by a murderous mob, and driven to violence in self-defense -- has its author's sympathy. In real life, with very few exceptions, things are different: theorists working on the ethics of AI completely ignore the possibility of robots needing protection from their creators. The present book chapter takes up this, less commonly considered, ethical angle of AI.
翻訳日:2023-03-15 17:29:45 公開日:2023-03-13
# 高分解能結晶STEM画像からの直接モチーフ抽出

Direct Motif Extraction from High Resolution Crystalline STEM Images ( http://arxiv.org/abs/2303.07438v1 )

ライセンス: Link先を確認
Amel Shamseldeen Ali Alhasan, Siyuan Zhang, Benjamin Berkels(参考訳) 過去10年間、非教師付き原始セル抽出や結晶歪みの自動検出など、結晶分析のさまざまな側面に関する自動データ解析手法が開発されてきた。 しかし, 自動教師なしモチーフ抽出法はまだ広く普及していない。 本稿では,単位セル射影演算子を含む変分アプローチに基づいて,結晶画像から実空間におけるモチーフの自動抽出手法を提案する。 結果として生じる最小化問題の非凸性のため、多段アルゴリズムが用いられる。 まず、2つの格子ベクトルの形で原始単位セルを決定する。 次に、単位セル情報を用いてモチーフ画像の推定を行う。 最後に、モチーフは単位細胞内の原子の位置によって決定される。 この方法は様々な合成および実験的なhaadfのstem画像でテストされた。 その結果、モチーフの表現は、画像、原子位置、原始単位セルベクター、および入力画像のデノ化およびモデル化された再構成によって行われる。 この方法は、複雑な$\mu$-phase構造 nb$_\text{6.4}$co$_\text{6.6}$とnb$_\text{7}$co$_\text{6}$のプリミティブセルを抽出するために応用され、平面間間隔の微妙な違いが決定された。

During the last decade, automatic data analysis methods concerning different aspects of crystal analysis have been developed, e.g., unsupervised primitive unit cell extraction and automated crystal distortion and defects detection. However, an automatic, unsupervised motif extraction method is still not widely available yet. Here, we propose and demonstrate a novel method for the automatic motif extraction in real space from crystalline images based on a variational approach involving the unit cell projection operator. Due to the non-convex nature of the resulting minimization problem, a multi-stage algorithm is used. First, we determine the primitive unit cell in form of two lattice vectors. Second, a motif image is estimated using the unit cell information. Finally, the motif is determined in terms of atom positions inside the unit cell. The method was tested on various synthetic and experimental HAADF STEM images. The results are a representation of the motif in form of an image, atomic positions, primitive unit cell vectors, and a denoised and a modeled reconstruction of the input image. The method was applied to extract the primitive cells of complex $\mu$-phase structures Nb$_\text{6.4}$Co$_\text{6.6}$ and Nb$_\text{7}$Co$_\text{6}$, where subtle differences between their interplanar spacings were determined.
翻訳日:2023-03-15 17:29:30 公開日:2023-03-13
# 部分観測可能なアタリゲームにおける教師なし表現学習

Unsupervised Representation Learning in Partially Observable Atari Games ( http://arxiv.org/abs/2303.07437v1 )

ライセンス: Link先を確認
Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad(参考訳) 状態表現学習は、環境の潜在要因を捉えることを目的としている。 コントラスト法は、前回の状態表現学習研究において生成モデルよりも優れている。 一部の研究者は、マスク画像モデリングと対比表現学習の関連性を認識しているが、この取り組みは、潜在的な生成要因をよりよく表現するための拡張技術としてマスクを使うことに焦点をあてている。 強化学習における部分的に観察可能な環境は、教師なしの状態表現学習法を用いて慎重に研究されていない。 本稿では,部分可観測状態に対する教師なし状態表現学習スキームを作成する。 表現学習モデルの評価を目的とした,Atari 2600フレームワークの実験を行った。 Spatiotemporal DeepInfomax(ST-DIM)と呼ばれる対照的な手法は、このベンチマークで最先端のパフォーマンスを示しているが、監督対象よりも劣っている。 本手法は, 環境が十分に観察できない場合にST-DIMを改良し, 教師付き学習よりも高いF1スコアと精度のスコアを得る。 私たちのアプローチの平均正確度スコアは、教師付き学習の約38%に対して、平均66%です。 F1の平均スコアは64%から33%である。

State representation learning aims to capture latent factors of an environment. Contrastive methods have performed better than generative models in previous state representation learning research. Although some researchers realize the connections between masked image modeling and contrastive representation learning, the effort is focused on using masks as an augmentation technique to represent the latent generative factors better. Partially observable environments in reinforcement learning have not yet been carefully studied using unsupervised state representation learning methods. In this article, we create an unsupervised state representation learning scheme for partially observable states. We conducted our experiment on a previous Atari 2600 framework designed to evaluate representation learning models. A contrastive method called Spatiotemporal DeepInfomax (ST-DIM) has shown state-of-the-art performance on this benchmark but remains inferior to its supervised counterpart. Our approach improves ST-DIM when the environment is not fully observable and achieves higher F1 scores and accuracy scores than the supervised learning counterpart. The mean accuracy score averaged over categories of our approach is ~66%, compared to ~38% of supervised learning. The mean F1 score is ~64% to ~33%.
翻訳日:2023-03-15 17:29:07 公開日:2023-03-13
# 誘導音声強調ネットワーク

Guided Speech Enhancement Network ( http://arxiv.org/abs/2303.07486v1 )

ライセンス: Link先を確認
Yang Yang, Shao-Fu Shih, Hakan Erdogan, Jamie Menjay Lin, Chehung Lee, Yunpeng Li, George Sung, Matthias Grundmann(参考訳) 高品質な音声キャプチャは、音声通信とヒューマンコンピュータインタフェースの両方の理由から広く研究されている。 キャプチャ性能を向上させるために、様々なデバイスに展開するマルチマイクロホン音声強調技術を見つけることができる。 マルチマイクロホン音声強調問題は、空間フィルタリングを提供するビームフォーマとビームフォーマ出力を浄化する単一チャンネル音声強調モデルという2つの分離されたステップに分解されることが多い。 本研究では,MLモデルの入力として生マイクとビームフォーマの出力を併用した音声強調ソリューションを提案する。 2つの入力を対比してモデルがビームフォーマーの手がかりから学ぶことができ、空間的拒絶の能力を大きく向上させ、ノイズ除去と非残響の一般的なタスクを遂行できる、単純かつ効果的なトレーニングスキームを考案する。 提案手法は,従来の空間フィルタリングアルゴリズムと競合する代わりに利用することができる。 設計により、beamformerモジュールは別々に選択することができ、所定のフォームファクタのために最適化される大量のデータを必要としない。 我々は、MLモジュールをGSENetと命名し、ガイド付き音声強調ネットワークの略とした。 マルチマイクロフォンデバイス上で収集した実世界のデータに対して,雑音の抑制や音声の干渉による効果を示す。

High quality speech capture has been widely studied for both voice communication and human computer interface reasons. To improve the capture performance, we can often find multi-microphone speech enhancement techniques deployed on various devices. Multi-microphone speech enhancement problem is often decomposed into two decoupled steps: a beamformer that provides spatial filtering and a single-channel speech enhancement model that cleans up the beamformer output. In this work, we propose a speech enhancement solution that takes both the raw microphone and beamformer outputs as the input for an ML model. We devise a simple yet effective training scheme that allows the model to learn from the cues of the beamformer by contrasting the two inputs and greatly boost its capability in spatial rejection, while conducting the general tasks of denoising and dereverberation. The proposed solution takes advantage of classical spatial filtering algorithms instead of competing with them. By design, the beamformer module then could be selected separately and does not require a large amount of data to be optimized for a given form factor, and the network model can be considered as a standalone module which is highly transferable independently from the microphone array. We name the ML module in our solution as GSENet, short for Guided Speech Enhancement Network. We demonstrate its effectiveness on real world data collected on multi-microphone devices in terms of the suppression of noise and interfering speech.
翻訳日:2023-03-15 17:23:50 公開日:2023-03-13
# ソーシャルメディアにおける攻撃的コメントの分類のための深層学習アプローチ:機械翻訳データと実生活データ

Deep Learning Approach for Classifying the Aggressive Comments on Social Media: Machine Translated Data Vs Real Life Data ( http://arxiv.org/abs/2303.07484v1 )

ライセンス: Link先を確認
Mst Shapna Akter, Hossain Shahriar, Nova Ahmed, Alfredo Cuzzocrea(参考訳) ソーシャルメディアに対する攻撃的なコメントは、人間の生活に悪影響を及ぼす。 このような攻撃的な内容は抑うつや自殺に関連する活動に責任がある。 オンラインソーシャルネットワークは日に日に増えているので、ヘイトコンテンツも増えている。 サイバーいじめ、サイバー攻撃、ヘイトスピーチなどに関するいくつかの調査が行われている。 調査の大半は英語で行われている。 一部の言語(ヒンディ語とバングラ語)は、データセットの欠如による適切な調査をまだ欠いている。 本稿では,ヒンディー語,バングラ語,英語のデータセットを用いて攻撃的コメントの検出を行い,機械翻訳データを生成する新しい手法を提案する。 機械翻訳された英語データセットは,Long Short term memory model (LSTM), Bidirectional Long-Short term memory model (BiLSTM), LSTM-Autoencoder, word2vec, Bidirectional Encoder Representations from Transformers (BERT), Generative pre-trained transformer (GPT-2) などのモデルを用いて解析され,機械翻訳されたノイズデータセット上でモデルがどのように機能するかを観察した。 本研究では,ノイズを含まない生データと,一定の雑音データを含む半雑音データといった,さらに2つのデータセットでノイズデータを使用する場合の性能を比較した。 上記のモデルを用いて生・半ノイズデータの分類を行った。 モデルの性能を評価するために,F1スコア,精度,精度,リコールなどの評価指標を用いた。 我々は,gpt2モデル,BERTモデルを用いた半ノイズデータ,BERTモデルを用いた完全機械翻訳データを用いて,生データ上で最高の精度を達成した。 多くの言語が適切なデータ可用性を持っていないため、我々のアプローチは研究者がいくつかの分析目的で機械翻訳データセットを作成するのに役立つだろう。

Aggressive comments on social media negatively impact human life. Such offensive contents are responsible for depression and suicidal-related activities. Since online social networking is increasing day by day, the hate content is also increasing. Several investigations have been done on the domain of cyberbullying, cyberaggression, hate speech, etc. The majority of the inquiry has been done in the English language. Some languages (Hindi and Bangla) still lack proper investigations due to the lack of a dataset. This paper particularly worked on the Hindi, Bangla, and English datasets to detect aggressive comments and have shown a novel way of generating machine-translated data to resolve data unavailability issues. A fully machine-translated English dataset has been analyzed with the models such as the Long Short term memory model (LSTM), Bidirectional Long-short term memory model (BiLSTM), LSTM-Autoencoder, word2vec, Bidirectional Encoder Representations from Transformers (BERT), and generative pre-trained transformer (GPT-2) to make an observation on how the models perform on a machine-translated noisy dataset. We have compared the performance of using the noisy data with two more datasets such as raw data, which does not contain any noises, and semi-noisy data, which contains a certain amount of noisy data. We have classified both the raw and semi-noisy data using the aforementioned models. To evaluate the performance of the models, we have used evaluation metrics such as F1-score,accuracy, precision, and recall. We have achieved the highest accuracy on raw data using the gpt2 model, semi-noisy data using the BERT model, and fully machine-translated data using the BERT model. Since many languages do not have proper data availability, our approach will help researchers create machine-translated datasets for several analysis purposes.
翻訳日:2023-03-15 17:23:30 公開日:2023-03-13
# 偏光伝達の統一化に向けて -- DNP と PHIP の等価性

Towards a unified picture of polarization transfer -- equivalence of DNP and PHIP ( http://arxiv.org/abs/2303.07478v1 )

ライセンス: Link先を確認
Martin C. Korzeczek, Laurynas Dagys, Christoph M\"uller, Benedikt Tratzmiller, Alon Salhov, Tim Eichhorn, Stephan Knecht, Martin B. Plenio, Ilai Schwartz(参考訳) 超偏極は、核磁気共鳴(NMR)と磁気共鳴イメージング(MRI)の感度を高めるための主要な方法である。 このアプローチでは、動的核偏極(DNP)の電子スピンやPHIP/SABREの水素中の一重項状態から得られる高スピン秩序のソースが、スピン秩序の効率的な移動を可能にするために、興味のある核スピンと近接して配置される。 しかし、電子スピンと核一重項状態からの偏光移動の物理は、電子と核スピンの間のエネルギースケールの著しい差と、標的核との相互作用の物理的起源と強度の違いによって大きく異なるように見える。 しかしながら、擬似スピン形式を用いることで、PHIP/SABREの臨界状態、すなわち低磁場偏光伝達系は、異核標的スピンがDNP電子と類似した役割を担い、パラ水素の擬似スピンがDNPにおける核スピンの役割を担っているような等価な系にマッピングできることが示される。 この等価性を用いて、PHIP と DNP における最も重要な分極伝達配列のいくつかを詳細にマッピングし、あるフィールドで開発されたシーケンスを別のフィールドに転送する方法を示す。 このマッピングに基づいて、我々は2つの分野における分極シーケンス開発者との強い相互補間を予測した。

Hyperpolarization, the elevation of nuclear spin polarization beyond its value in thermal equilibrium, is a leading method for enhancing the sensitivity of nuclear magnetic resonance (NMR) and magnetic resonance imaging (MRI). In this approach, a readily available source of higher spin order, either from electron spins in dynamic nuclear polarization (DNP) or singlet states in hydrogen for PHIP / SABRE, is placed in close contact with the nuclear spin of interest to allow for efficient transfer of the spin order. However, the physics of polarization transfer from electron spins and nuclear singlet states appears to differ substantially due to the marked difference in energy scale between electron and nuclear spins and due to the different physical origin and strength of the interaction with the target nuclei. Nevertheless, utilizing a pseudo-spin formalism we show that a critical regime of PHIP / SABRE, namely the low-field polarization transfer regime can be mapped to an equivalent system, where the heteronuclear target spin takes a role analogous to that of the DNP-electron and the pseudospin of the parahydrogen takes the role of the nuclear spin in DNP. Using this equivalence we provide a detailed mapping between some of the most important polarization transfer sequences in PHIP and DNP and we show how one can transfer sequences that have been developed in one field to the other. Building on this mapping we foresee new insights generated and potentially a strong cross-pollination between polarization sequence developers in the two fields.
翻訳日:2023-03-15 17:22:56 公開日:2023-03-13
# プログレッシブタスク相関層凍結による高効率自己教師付き連続学習

Efficient Self-supervised Continual Learning with Progressive Task-correlated Layer Freezing ( http://arxiv.org/abs/2303.07477v1 )

ライセンス: Link先を確認
Li Yang, Sen Lin, Fan Zhang, Junshan Zhang and Deliang Fan(参考訳) ラベルのないデータから視覚表現を学ぶための自己教師付き学習(SSL)の成功に触発された最近の研究は、複数のタスクが順次学習される連続学習(CL)の文脈でSSLを研究し、新たなパラダイム、すなわち自己教師付き連続学習(SSCL)を生み出した。 SSCLは教師付き連続学習(SCL)より優れており、学習表現は破滅的な忘れ方に対してより情報的かつ堅牢である。 しかし、知的に設計されていない場合、SSCLのトレーニングの複雑さはSSL固有のトレーニングコストのため、禁断的に高い可能性がある。 本研究は,SSCLセットアップにおけるタスク相関をまず検討することにより,SSL学習背景モデルを用いてタスク間に高い相関関係を持つという興味深い現象を発見した。 この新たな発見に基づいて,各タスクの相関率が最も高い部分層を段階的に凍結し,トレーニング計算効率とメモリ効率を向上する,階層的に凍結した新しいSSCL法を提案する。 複数のデータセットにわたる大規模な実験を行い、提案手法は様々なSSLフレームワーク下でのSoTA SSCL法に対して優れた性能を示す。 例えば、hembと比較して、gpuトレーニング時間の削減は12\%/14\%/12\%、メモリ削減は23\%/26\%/24\%、後方フロップ削減は35\%/34\%/33\%、後方フロップ削減は1.31\%/1.98\%/1.21\%の削減は3つのデータセットで精度低下を伴わない。

Inspired by the success of Self-supervised learning (SSL) in learning visual representations from unlabeled data, a few recent works have studied SSL in the context of continual learning (CL), where multiple tasks are learned sequentially, giving rise to a new paradigm, namely self-supervised continual learning (SSCL). It has been shown that the SSCL outperforms supervised continual learning (SCL) as the learned representations are more informative and robust to catastrophic forgetting. However, if not designed intelligently, the training complexity of SSCL may be prohibitively high due to the inherent training cost of SSL. In this work, by investigating the task correlations in SSCL setup first, we discover an interesting phenomenon that, with the SSL-learned background model, the intermediate features are highly correlated between tasks. Based on this new finding, we propose a new SSCL method with layer-wise freezing which progressively freezes partial layers with the highest correlation ratios for each task to improve training computation efficiency and memory efficiency. Extensive experiments across multiple datasets are performed, where our proposed method shows superior performance against the SoTA SSCL methods under various SSL frameworks. For example, compared to LUMP, our method achieves 12\%/14\%/12\% GPU training time reduction, 23\%/26\%/24\% memory reduction, 35\%/34\%/33\% backward FLOPs reduction, and 1.31\%/1.98\%/1.21\% forgetting reduction without accuracy degradation on three datasets, respectively.
翻訳日:2023-03-15 17:22:26 公開日:2023-03-13
# ディープラーニングモデル再設計の課題と実践--コンピュータビジョンを事例として

Challenges and Practices of Deep Learning Model Reengineering: A Case Study on Computer Vision ( http://arxiv.org/abs/2303.07476v1 )

ライセンス: Link先を確認
Wenxin Jiang, Vishnu Banna, Naveen Vivek, Abhinav Goel, Nicholas Synovic, George K. Thiruvathukal, James C. Davis(参考訳) 多くのエンジニアリング組織は、ディープニューラルネットワークを研究コミュニティから再実装し、拡張している。 このプロセスはディープラーニングモデルの再設計である。 ディープラーニングモデルの再設計 – 再利用、再現、適応、最先端のディープラーニングアプローチの強化 – は、ドキュメント不足の参照モデル、要件の変更、実装とテストのコストといった理由から、難しい。 さらに、個々のエンジニアはソフトウェアエンジニアリングの専門知識を欠いているかもしれないが、チームはソフトウェアエンジニアリングとディープラーニングの知識を適用して成功させる必要がある。 以前の研究は"製品"の観点からDLシステムを調べ、エンジニアの目的に関係なくプロジェクトからの欠陥を調べてきた。 本研究は,「プロセス」の観点からのリエンジニアリング活動に注目し,リエンジニアリングプロセスに特に携わるエンジニアに焦点を当てた。 私たちの目標は、ディープラーニングモデルの再設計の特徴と課題を理解することです。 我々は,コンピュータビジョンの文脈に着目し,この現象の事例研究を行った。 この結果は,オープンソースの再設計プロジェクトで報告された欠陥と,オープンソースプロジェクトのコントリビュータと再設計チームのリーダによるインタビューの2つのデータソースから得られた。 本稿では,深層学習に基づくコンピュータビジョン技術の再設計方法を説明し,このプロセスにおける欠陥の分布を分析し,課題と実践について議論する。 定量的・定性的なデータを統合し,新しい再設計ワークフローを提案する。 モデル再設計の未知の側面を計測すること、再設計を容易にするためのエンジニアリングプラクティスの標準化、モデル再設計とモデル再利用を支援するツールの開発などである。

Many engineering organizations are reimplementing and extending deep neural networks from the research community. We describe this process as deep learning model reengineering. Deep learning model reengineering - reusing, reproducing, adapting, and enhancing state-of-the-art deep learning approaches - is challenging for reasons including under-documented reference models, changing requirements, and the cost of implementation and testing. In addition, individual engineers may lack expertise in software engineering, yet teams must apply knowledge of software engineering and deep learning to succeed. Prior work has examined on DL systems from a "product" view, examining defects from projects regardless of the engineers' purpose. Our study is focused on reengineering activities from a "process" view, and focuses on engineers specifically engaged in the reengineering process. Our goal is to understand the characteristics and challenges of deep learning model reengineering. We conducted a case study of this phenomenon, focusing on the context of computer vision. Our results draw from two data sources: defects reported in open-source reeengineering projects, and interviews conducted with open-source project contributors and the leaders of a reengineering team. Our results describe how deep learning-based computer vision techniques are reengineered, analyze the distribution of defects in this process, and discuss challenges and practices. Integrating our quantitative and qualitative data, we proposed a novel reengineering workflow. Our findings inform several future directions, including: measuring additional unknown aspects of model reengineering; standardizing engineering practices to facilitate reengineering; and developing tools to support model reengineering and model reuse.
翻訳日:2023-03-15 17:21:50 公開日:2023-03-13
# 一般損失関数は高次元における(近似)補間をもたらす

General Loss Functions Lead to (Approximate) Interpolation in High Dimensions ( http://arxiv.org/abs/2303.07475v1 )

ライセンス: Link先を確認
Kuo-Wei Lai, Vidya Muthukumar(参考訳) 閉形式における勾配降下の暗黙的バイアスを概ね特徴付けるために,一般の凸損失の家系,および過パラメータ化状態における二進的および多クラス的設定に適用可能な統一的な枠組みを提供する。 具体的には、暗黙バイアスは、正方形損失のトレーニングから生じる高次元における最小ノルム補間を近似する(正確には同値ではない)ことを示す。 指数的尾尾損失に適応し, 中間支持ベクトルマシンの定式化を用いた先行研究とは対照的に, 本フレームワークは, Ji と Telgarsky (2021) の原始双対解析に基づいて構築され, 新規な感度解析により一般凸損失に対する新しい近似等価性を提供する。 また,本フレームワークは,バイナリとマルチクラス設定間で指数関数的に制限された損失に対して,既存の正確な等価性を回復する。 最後に,本手法の厳密性を示す証拠を提示し,閉形式解に対する分布外問題のために設計された損失関数の効果を示す。

We provide a unified framework, applicable to a general family of convex losses and across binary and multiclass settings in the overparameterized regime, to approximately characterize the implicit bias of gradient descent in closed form. Specifically, we show that the implicit bias is approximated (but not exactly equal to) the minimum-norm interpolation in high dimensions, which arises from training on the squared loss. In contrast to prior work which was tailored to exponentially-tailed losses and used the intermediate support-vector-machine formulation, our framework directly builds on the primal-dual analysis of Ji and Telgarsky (2021), allowing us to provide new approximate equivalences for general convex losses through a novel sensitivity analysis. Our framework also recovers existing exact equivalence results for exponentially-tailed losses across binary and multiclass settings. Finally, we provide evidence for the tightness of our techniques, which we use to demonstrate the effect of certain loss functions designed for out-of-distribution problems on the closed-form solution.
翻訳日:2023-03-15 17:21:23 公開日:2023-03-13
# 被害者モデル情報に逆例を適用できるか?

Can Adversarial Examples Be Parsed to Reveal Victim Model Information? ( http://arxiv.org/abs/2303.07474v1 )

ライセンス: Link先を確認
Yuguang Yao, Jiancheng Liu, Yifan Gong, Xiaoming Liu, Yanzhi Wang, Xue Lin, Sijia Liu(参考訳) 最先端機械学習(ML)モデル、特にディープニューラルネットワーク(DNN)の誤予測を引き起こす可能性のある、知覚不能なイメージ摂動を生成するために、多くの逆襲攻撃法が開発されている。 敵の攻撃に関する激しい研究にもかかわらず、敵の攻撃でもたらされた「アルカナ」を明らかにするための努力はほとんど行われなかった。 本研究では、データ固有の敵インスタンスから、データに依存しない被害者モデル(VM)情報(MLモデルやDNNの特徴)を推測できるかどうかを問う。 これは、攻撃中に隠されたVM情報の観点から'arcana'を明らかにするタスクです。 我々は,VMのモデル属性のクラス(アーキテクチャタイプ,カーネルサイズ,アクティベーション関数,重量空間)を,このVMから生成された攻撃インスタンスに正しく割り当てる,教師付き学習によるモデル解析にアプローチする。 135の犠牲者モデル(5つのアーキテクチャタイプ、3つのカーネルサイズ設定、3つのアクティベーション関数タイプ、3つのウェイト空間比)から生成された7種類の攻撃タイプに対する敵攻撃のデータセットを収集します。 本稿では, 単純な教師付きモデル解析ネットワーク(MPN)が, 攻撃設定がトレーニング設定(即ち, 分布内一般化評価)と一致している場合, 未知の敵攻撃からVM属性を推測できることを示す。 また,敵の攻撃からのvm解析の実現可能性や,解析性能のトレーニングや評価要因の影響を正当化するための広範な実験も実施する(例えば,アウトオブディストリビューション評価における一般化課題)。 さらに、提案したMPNを用いて、トランスファー攻撃からソースVM属性を解明し、モデル解析とアタック転送可能性の間の潜在的な接続に光を当てる方法について述べる。

Numerous adversarial attack methods have been developed to generate imperceptible image perturbations that can cause erroneous predictions of state-of-the-art machine learning (ML) models, in particular, deep neural networks (DNNs). Despite intense research on adversarial attacks, little effort was made to uncover 'arcana' carried in adversarial attacks. In this work, we ask whether it is possible to infer data-agnostic victim model (VM) information (i.e., characteristics of the ML model or DNN used to generate adversarial attacks) from data-specific adversarial instances. We call this 'model parsing of adversarial attacks' - a task to uncover 'arcana' in terms of the concealed VM information in attacks. We approach model parsing via supervised learning, which correctly assigns classes of VM's model attributes (in terms of architecture type, kernel size, activation function, and weight sparsity) to an attack instance generated from this VM. We collect a dataset of adversarial attacks across 7 attack types generated from 135 victim models (configured by 5 architecture types, 3 kernel size setups, 3 activation function types, and 3 weight sparsity ratios). We show that a simple, supervised model parsing network (MPN) is able to infer VM attributes from unseen adversarial attacks if their attack settings are consistent with the training setting (i.e., in-distribution generalization assessment). We also provide extensive experiments to justify the feasibility of VM parsing from adversarial attacks, and the influence of training and evaluation factors in the parsing performance (e.g., generalization challenge raised in out-of-distribution evaluation). We further demonstrate how the proposed MPN can be used to uncover the source VM attributes from transfer attacks, and shed light on a potential connection between model parsing and attack transferability.
翻訳日:2023-03-15 17:21:03 公開日:2023-03-13
# X-Former: トランスのメモリ内高速化

X-Former: In-Memory Acceleration of Transformers ( http://arxiv.org/abs/2303.07470v1 )

ライセンス: Link先を確認
Shrihari Sridharan, Jacob R. Stevens, Kaushik Roy and Anand Raghunathan(参考訳) トランスフォーマーは、アテンション機構によって様々な自然言語処理(nlp)タスクで大きな成功を収めており、シーケンス内の他の単語に対する各単語の重要性スコアを割り当てている。 しかし、これらのモデルは非常に大きく、しばしば数十億のパラメータに到達し、そのため大量のDRAMアクセスを必要とする。 したがって、GPUやTPUといった従来のディープニューラルネットワーク(DNN)アクセラレータは、Transformerを効率的に処理する際の制限に直面している。 非揮発性メモリに基づくインメモリアクセラレータは、メモリアレイ内で超並列行列ベクトル乗算を実行しながら、高いストレージ密度を提供するため、この課題に対する効果的な解決策となる。 しかし、トランスフォーマー(CNNやRNNとは違って)で頻繁に使用されるアテンションスコア計算では、各入力ごとに両方のオペランドが動的に変化する行列ベクトル乗算(MVM)が必要となる。 その結果、従来のNVMベースのアクセラレータでは、Transformerを使用すると書き込みレイテンシと書き込みエネルギが高くなり、ほとんどのNVM技術の耐久性が低下する。 これらの課題に対処するために,NVMおよびCMOS処理要素からなるハイブリッドインメモリハードウェアアクセラレータであるX-Formerを紹介した。 x-formerのハードウェア利用を改善するために,2つの処理要素の計算を重複させ,実行時間を短縮するシーケンスブロッキングデータフローを提案する。 いくつかのベンチマークで、X-FormerはNVIDIA GeForce GTX 1060 GPUでのレイテンシとエネルギーの最大85倍および7.5倍の改善、最先端のインメモリNVMアクセラレータでのレイテンシとエネルギーの最大10.7倍と4.6倍の改善を実現している。

Transformers have achieved great success in a wide variety of natural language processing (NLP) tasks due to the attention mechanism, which assigns an importance score for every word relative to other words in a sequence. However, these models are very large, often reaching hundreds of billions of parameters, and therefore require a large number of DRAM accesses. Hence, traditional deep neural network (DNN) accelerators such as GPUs and TPUs face limitations in processing Transformers efficiently. In-memory accelerators based on non-volatile memory promise to be an effective solution to this challenge, since they provide high storage density while performing massively parallel matrix vector multiplications within memory arrays. However, attention score computations, which are frequently used in Transformers (unlike CNNs and RNNs), require matrix vector multiplications (MVM) where both operands change dynamically for each input. As a result, conventional NVM-based accelerators incur high write latency and write energy when used for Transformers, and further suffer from the low endurance of most NVM technologies. To address these challenges, we present X-Former, a hybrid in-memory hardware accelerator that consists of both NVM and CMOS processing elements to execute transformer workloads efficiently. To improve the hardware utilization of X-Former, we also propose a sequence blocking dataflow, which overlaps the computations of the two processing elements and reduces execution time. Across several benchmarks, we show that X-Former achieves upto 85x and 7.5x improvements in latency and energy over a NVIDIA GeForce GTX 1060 GPU and upto 10.7x and 4.6x improvements in latency and energy over a state-of-the-art in-memory NVM accelerator.
翻訳日:2023-03-15 17:20:28 公開日:2023-03-13
# 知識ベースにおけるエンティティ解決とクエリ応答を組み合わせたフレームワーク

A Framework for Combining Entity Resolution and Query Answering in Knowledge Bases ( http://arxiv.org/abs/2303.07469v1 )

ライセンス: Link先を確認
Ronald Fagin, Phokion G. Kolaitis, Domenico Lembo, Lucian Popa, Federico Scafoglieri(参考訳) 本稿では,知識ベース(KB)におけるエンティティ解決とクエリ応答をタプル生成依存性(tgd)と等価生成依存性(egd)をルールとして組み合わせた新しいフレームワークを提案する。 我々は、エンティティと値の集合の同値クラスを含む特別なインスタンスの観点から、kbの意味を定義する。 直感的には、前者は同じ現実世界のオブジェクトを表すすべてのエンティティを集め、後者は属性に対する全ての代替値を収集します。 このアプローチにより、エンティティを解決し、データの不整合を回避できます。 次に、この新たなフレームワークに適合し、決して失敗しない特徴を持つチェイス手順を設計する。さらに、チェイス手順が終了すると、普遍的な解が生成され、従って、共役クエリに対する特定の回答を得るのに使用できる。 最終的に、追跡が終了しないときに生じる課題について議論する。

We propose a new framework for combining entity resolution and query answering in knowledge bases (KBs) with tuple-generating dependencies (tgds) and equality-generating dependencies (egds) as rules. We define the semantics of the KB in terms of special instances that involve equivalence classes of entities and sets of values. Intuitively, the former collect all entities denoting the same real-world object, while the latter collect all alternative values for an attribute. This approach allows us to both resolve entities and bypass possible inconsistencies in the data. We then design a chase procedure that is tailored to this new framework and has the feature that it never fails; moreover, when the chase procedure terminates, it produces a universal solution, which in turn can be used to obtain the certain answers to conjunctive queries. We finally discuss challenges arising when the chase does not terminate.
翻訳日:2023-03-15 17:19:54 公開日:2023-03-13
# 超人人工知能は、新規性を高めて人間の意思決定を改善する

Superhuman Artificial Intelligence Can Improve Human Decision Making by Increasing Novelty ( http://arxiv.org/abs/2303.07462v1 )

ライセンス: Link先を確認
Minkyu Shin, Jin Kim, Bas van Opheusden, and Thomas L. Griffiths(参考訳) 超人的人工知能(AI)は人間の意思決定にどのように影響を与えるのか? この効果の背後にあるメカニズムは何でしょう? これらの疑問に対処するため、過去71年間(1950-2021年)にAIが人間のパフォーマンスを上回る領域で、プロの囲碁選手による580万件以上の意思決定を分析した。 最初の質問に対処するために、私たちは超人的AIプログラムを使用して、時間にわたって人間の決定の質を推定し、58億の偽のゲームパターンを生成し、実際の人間の決定の勝利率と偽のAI決定の勝利率を比較する。 人間は超人的AIの出現によって、はるかに優れた決定を下し始めた。 そして、時間をかけて人間の戦略を調べ、新しい決定(つまり、以前は観測されていなかった動き)がより頻繁に発生し、超人的AIの出現後、より高い意思決定品質に結びつくことを発見した。 我々の研究は、超人的AIプログラムの開発によって、人間のプレイヤーが伝統的な戦略から脱却し、新しい動きを探求するきっかけとなったかもしれないことを示唆している。

How will superhuman artificial intelligence (AI) affect human decision making? And what will be the mechanisms behind this effect? We address these questions in a domain where AI already exceeds human performance, analyzing more than 5.8 million move decisions made by professional Go players over the past 71 years (1950-2021). To address the first question, we use a superhuman AI program to estimate the quality of human decisions across time, generating 58 billion counterfactual game patterns and comparing the win rates of actual human decisions with those of counterfactual AI decisions. We find that humans began to make significantly better decisions following the advent of superhuman AI. We then examine human players' strategies across time and find that novel decisions (i.e., previously unobserved moves) occurred more frequently and became associated with higher decision quality after the advent of superhuman AI. Our findings suggest that the development of superhuman AI programs may have prompted human players to break away from traditional strategies and induced them to explore novel moves, which in turn may have improved their decision-making.
翻訳日:2023-03-15 17:19:37 公開日:2023-03-13
# supermask: マルチビュー低解像度mriによる高分解能オブジェクトマスクの生成

SuperMask: Generating High-resolution object masks from multi-view, unaligned low-resolution MRIs ( http://arxiv.org/abs/2303.07517v1 )

ライセンス: Link先を確認
Hanxue Gu, Hongyu He, Roy Colglazier, Jordan Axelrod, Robert French, Maciej A Mazurowski(参考訳) 高分解能等方性MRIはまれであり、典型的なMRIは異方性であり、外界次元ははるかに低いため、物体の真の形状を反映する磁気共鳴画像(MRI)の3次元分割は困難である。 この問題に対する潜在的な対策は、しばしば異なる平面上で複数のシーケンスが取得されるという事実にある。 しかし、実際には、これらのシーケンスは互いに直交せず、複数の低解像度画像から高解像度画像を再構成する多くの従来のソリューションの適用性を制限している。 複数の低解像度画像から高解像度マスクを生成するための弱教師付きディープラーニングベースのソリューションを提案する。 本手法では,2つの新たな正規化を導入し,セグメンテーションと教師なし登録ネットワークを組み合わせることで,セグメンテーションとセグメンテーションの強化を行う。 最後に,高解像度ターゲットマスクを生成するための多視点融合手法を提案する。 2つのデータセットに対する実験結果から,本手法の優位性を示した。 重要なことは、トレーニングプロセスで高分解能画像を使用しない利点は、幅広いMRIセグメント化タスクに適用できるということである。

Three-dimensional segmentation in magnetic resonance images (MRI), which reflects the true shape of the objects, is challenging since high-resolution isotropic MRIs are rare and typical MRIs are anisotropic, with the out-of-plane dimension having a much lower resolution. A potential remedy to this issue lies in the fact that often multiple sequences are acquired on different planes. However, in practice, these sequences are not orthogonal to each other, limiting the applicability of many previous solutions to reconstruct higher-resolution images from multiple lower-resolution ones. We propose a weakly-supervised deep learning-based solution to generating high-resolution masks from multiple low-resolution images. Our method combines segmentation and unsupervised registration networks by introducing two new regularizations to make registration and segmentation reinforce each other. Finally, we introduce a multi-view fusion method to generate high-resolution target object masks. The experimental results on two datasets show the superiority of our methods. Importantly, the advantage of not using high-resolution images in the training process makes our method applicable to a wide variety of MRI segmentation tasks.
翻訳日:2023-03-15 17:13:44 公開日:2023-03-13
# 強化学習に基づく衛星対地レーザー通信のためのウェーブフロントセンサレス適応光学手法

Reinforcement Learning-based Wavefront Sensorless Adaptive Optics Approaches for Satellite-to-Ground Laser Communication ( http://arxiv.org/abs/2303.07516v1 )

ライセンス: Link先を確認
Payam Parvizi, Runnan Zou, Colin Bellinger, Ross Cheriton and Davide Spinello(参考訳) 光衛星間通信(OSGC)は、遠隔地における高速で安価なインターネットへのアクセスを改善する可能性がある。 しかし、大気乱流は光ビームを歪め、単一モードのファイバに結合するとデータレートポテンシャルを損なう。 従来の適応光学(ao)システムは、ファイバカップリングを改善するためにウェーブフロントセンサーを使用する。 これにより、システムサイズ、コスト、複雑さが向上し、インシデントビームのごく一部を消費し、レイテンシを導入し、インターネットサービスのOSGCを実用的でないものにする。 本稿では,波面位相プロファイリングカメラではなく,低コストのクアドラントフォトダイオードとのインタラクションを通じて制御ポリシを学習することにより,システムのレイテンシ,サイズ,コストを最大30~40 %まで削減するための強化学習(RL)を提案する。 我々は,繊維結合性能に相関したStrehl比に基づいてRLを開発し,評価するための標準プラットフォームを提供するAO RL環境を開発し,共有する。 実験分析の結果,PPOはソフトアクター・クリティカルおよびディープ決定論的政策グラディエントを上回っていることがわかった。 PPOは250エピソードのトレーニングの後、理想的なシャック・ハートマンセンサによって得られる最大報酬の8,6\%以内に収束し、効率的な波面センサレスOSGCを実現するためのRLの可能性を示している。

Optical satellite-to-ground communication (OSGC) has the potential to improve access to fast and affordable Internet in remote regions. Atmospheric turbulence, however, distorts the optical beam, eroding the data rate potential when coupling into single-mode fibers. Traditional adaptive optics (AO) systems use a wavefront sensor to improve fiber coupling. This leads to higher system size, cost and complexity, consumes a fraction of the incident beam and introduces latency, making OSGC for internet service impractical. We propose the use of reinforcement learning (RL) to reduce the latency, size and cost of the system by up to $30-40\%$ by learning a control policy through interactions with a low-cost quadrant photodiode rather than a wavefront phase profiling camera. We develop and share an AO RL environment that provides a standardized platform to develop and evaluate RL based on the Strehl ratio, which is correlated to fiber-coupling performance. Our empirical analysis finds that Proximal Policy Optimization (PPO) outperforms Soft-Actor-Critic and Deep Deterministic Policy Gradient. PPO converges to within $86\%$ of the maximum reward obtained by an idealized Shack-Hartmann sensor after training of 250 episodes, indicating the potential of RL to enable efficient wavefront sensorless OSGC.
翻訳日:2023-03-15 17:13:25 公開日:2023-03-13
# 深層学習を用いた手書き単語認識:手書き単語を生成する新しい方法

Handwritten Word Recognition using Deep Learning Approach: A Novel Way of Generating Handwritten Words ( http://arxiv.org/abs/2303.07514v1 )

ライセンス: Link先を確認
Mst Shapna Akter, Hossain Shahriar, Alfredo Cuzzocrea, Nova Ahmed, Carson Leung(参考訳) 手書きの単語認識システムには、大規模で多様なデータセットの欠如などの問題が伴う。 大規模で多様なデータセットを使用してディープラーニングモデルをトレーニングすることで、数百万の公式文書をデジタル化できるため、このような問題を解決する必要がある。 データ可用性の欠如のため、トレーニングされたモデルは期待された結果を与えない。 したがって、結果の低さを示す可能性は高い。 本稿では,手書き文字を用いた多様な手書き語画像を生成する手法を提案する。 本研究の目的は,BLSTM-CTCアーキテクチャを合成手書き文字で学習することである。 このアプローチ全体は、2種類の大規模かつ多様な手書き単語データセットを生成するプロセスを示している。 手書きの単語にも2文字の重なり合いのような問題があるため、我々はそれを実験的な部分に組み込もうとした。 また,深層学習モデルを用いて手書き文書の認識の過程を実証した。 実験では、手書きの単語データセットが欠けているバングラ語を対象とし、任意の言語に対して従うことができる。 我々のアプローチは従来のGANモデルよりも複雑でコストがかかりません。 最後に, 単語誤り率(WER), 精度, f1スコア, 精度およびリコール指標を用いて, モデルの評価を行った。 このモデルでは、39%のWERスコア、92%の精度、92%のf1スコアが非オーバーラップデータを使用し、63%のWERスコア、83%の正確性、そして85%のf1スコアが重複データを使用する。

A handwritten word recognition system comes with issues such as lack of large and diverse datasets. It is necessary to resolve such issues since millions of official documents can be digitized by training deep learning models using a large and diverse dataset. Due to the lack of data availability, the trained model does not give the expected result. Thus, it has a high chance of showing poor results. This paper proposes a novel way of generating diverse handwritten word images using handwritten characters. The idea of our project is to train the BiLSTM-CTC architecture with generated synthetic handwritten words. The whole approach shows the process of generating two types of large and diverse handwritten word datasets: overlapped and non-overlapped. Since handwritten words also have issues like overlapping between two characters, we have tried to put it into our experimental part. We have also demonstrated the process of recognizing handwritten documents using the deep learning model. For the experiments, we have targeted the Bangla language, which lacks the handwritten word dataset, and can be followed for any language. Our approach is less complex and less costly than traditional GAN models. Finally, we have evaluated our model using Word Error Rate (WER), accuracy, f1-score, precision, and recall metrics. The model gives 39% WER score, 92% percent accuracy, and 92% percent f1 scores using non-overlapped data and 63% percent WER score, 83% percent accuracy, and 85% percent f1 scores using overlapped data.
翻訳日:2023-03-15 17:13:00 公開日:2023-03-13
# 新しい日光システムのエネルギー性能評価--可逆日光システム(rds)

The Evaluation of a New Daylighting System's Energy Performance: Reversible Daylighting System (RDS) ( http://arxiv.org/abs/2303.07511v1 )

ライセンス: Link先を確認
Masoome Haghani, Behrouz Mohammadkari, Rima Fayaz(参考訳) 本論文は、著者が特許を取得した新しい昼光照明システムの省エネルギー性能を、通常の閉鎖オフィス空間で評価する。 従来のベネチアンブラインドとは対照的に、この新しいシステムの利点は、空間のエネルギー効率を向上させる回転能力である。 イランの3都市(tehran (3b), tabriz (4b), yazd (2b))における窓対壁比30% (wwr) の閉鎖オフィス空間の南開口部におけるこの新しいシステムの性能を計算機シミュレーションにより検証した。 このシミュレーションは、暖房、冷却、照明の負荷からなる合計負荷をシミュレートするために、エネルギープラスエンジンを搭載したhoneybeeプラットフォームで実装されている。 照明を制御するために、空間にディミング制御が適用される。 本研究は,1年間の暖房・冷房需要時において,視覚障害者の空間のエネルギー効率を向上させるために,視覚障害者に対する可逆的採光システム(RDS)の利点を示すものである。

This paper evaluates the energy performance of a new daylighting system, patented by the author, in a regular closed office space. The advantage of this new system as opposed to conventional venetian blinds is its rotating capability, which improves the energy efficiency of the space. Computer simulation method has been conducted to examine the performance of this new system on the south aperture of a closed-office space with 30% Window to Wall ratio (WWR) in three cities in Iran with different climate zones based on ASHRAE: Tehran (3B), Tabriz (4B), and Yazd (2B). The simulation has been implemented in Honeybee platform with EnergyPlus engine to simulate the combined total load consisting of heating, cooling, and lighting loads. To control lighting, a dimming control is applied to the space. The results of the study represent the benefits of the reversible daylighting system (RDS) over the state of the art venetian blinds to improve the energy efficiency of the space through just changing the location of the blind during heating/cooling demand time of the year.
翻訳日:2023-03-15 17:12:36 公開日:2023-03-13
# schr\"odinger氏のカメラ: 量子ベースのプライバシー保護カメラへの第一歩

Schr\"odinger's Camera: First Steps Towards a Quantum-Based Privacy Preserving Camera ( http://arxiv.org/abs/2303.07510v1 )

ライセンス: Link先を確認
Hannah Kirkland, Sanjeev J. Koppal(参考訳) プライバシー保護のビジョンは、ユーティリティとプライバシという2つの課題を克服しなければならない。 匿名性が多すぎると画像は役に立たないが、プライバシーが少なすぎるため機密データを保護できない。 本稿では,画像が量子状態に格納されるプライバシー保護のための新しい設計を提案する。 将来、これは量子イメージングカメラによって実現され、現在、非常に低い解像度の画像を量子状態に保存することが可能である。 量子状態画像は、測定時点までプライベートと非プライベートの両方であるという利点がある。 これは、全ての量子アクションが完全に可逆であるため、画像が操作された場合でも起こる。 本研究では,ダブルディープq学習に基づく制御アルゴリズムを提案し,計測前に画像の匿名化を学習する。 学習後、rl重みは固定され、新しいアタックニューラルネットワークはシステムのプライバシを壊すためにスクラッチから訓練される。 結果はすべてシミュレーションですが、これらの最初のステップでは、プライバシとユーティリティの両方を量子ベースで制御することが可能であることを実証しています。

Privacy-preserving vision must overcome the dual challenge of utility and privacy. Too much anonymity renders the images useless, but too little privacy does not protect sensitive data. We propose a novel design for privacy preservation, where the imagery is stored in quantum states. In the future, this will be enabled by quantum imaging cameras, and, currently, storing very low resolution imagery in quantum states is possible. Quantum state imagery has the advantage of being both private and non-private till the point of measurement. This occurs even when images are manipulated, since every quantum action is fully reversible. We propose a control algorithm, based on double deep Q-learning, to learn how to anonymize the image before measurement. After learning, the RL weights are fixed, and new attack neural networks are trained from scratch to break the system's privacy. Although all our results are in simulation, we demonstrate, with these first steps, that it is possible to control both privacy and utility in a quantum-based manner.
翻訳日:2023-03-15 17:12:12 公開日:2023-03-13
# 連続的深層強化学習における可塑性の喪失

Loss of Plasticity in Continual Deep Reinforcement Learning ( http://arxiv.org/abs/2303.07507v1 )

ライセンス: Link先を確認
Zaheer Abbas, Rosie Zhao, Joseph Modayil, Adam White, Marlos C. Machado(参考訳) 継続的に学ぶ能力は、複雑で変化する世界において不可欠です。 本稿では,正準値に基づく深部強化学習(RL)アプローチの動作を,非定常度で特徴付ける。 特に,深部RLエージェントは,アタリ2600のゲームシリーズを循環することで,優れたポリシーを学ぶ能力を失うことを示した。 この現象は、可塑性の喪失、暗黙の過パラメータ化、プライマシーバイアス、キャパシティ損失など、様々な状況下での以前の仕事において言及される。 この現象を大規模に検討し,様々な次元(ゲーム数,ゲーム数,ゲーム当たりのフレーム数など)の実験において,重み,勾配,アクティベーションが経時的にどのように変化するかを解析し,50日間から20億の環境相互作用にまたがる実験を行った。 解析の結果,ネットワークのアクティベーションフットプリントはスパーサーとなり,勾配の低下に寄与した。 我々は,非常に単純な緩和戦略である連結relus(crelus)活性化関数を調査し,変化環境における連続学習の促進効果を示す。

The ability to learn continually is essential in a complex and changing world. In this paper, we characterize the behavior of canonical value-based deep reinforcement learning (RL) approaches under varying degrees of non-stationarity. In particular, we demonstrate that deep RL agents lose their ability to learn good policies when they cycle through a sequence of Atari 2600 games. This phenomenon is alluded to in prior work under various guises -- e.g., loss of plasticity, implicit under-parameterization, primacy bias, and capacity loss. We investigate this phenomenon closely at scale and analyze how the weights, gradients, and activations change over time in several experiments with varying dimensions (e.g., similarity between games, number of games, number of frames per game), with some experiments spanning 50 days and 2 billion environment interactions. Our analysis shows that the activation footprint of the network becomes sparser, contributing to the diminishing gradients. We investigate a remarkably simple mitigation strategy -- Concatenated ReLUs (CReLUs) activation function -- and demonstrate its effectiveness in facilitating continual learning in a changing environment.
翻訳日:2023-03-15 17:11:55 公開日:2023-03-13
# 数ショット学習のためのメタラーニングアプローチ:最近の進歩に関する調査

Meta-learning approaches for few-shot learning: A survey of recent advances ( http://arxiv.org/abs/2303.07502v1 )

ライセンス: Link先を確認
Hassan Gharoun, Fereshteh Momenifar, Fang Chen, and Amir H. Gandomi(参考訳) 深い多次元データを学ぶという驚くべき成功にもかかわらず、深層学習のパフォーマンスは、主に同分布予測に焦点が当てられ、目に見えない新しいタスクに低下する。 さらに、ディープラーニングは、少数のサンプルからの一般化が不十分なことで悪名高い。 メタ学習は、数ショットのデータセットで新しいタスクに適応することで、これらの問題に対処する有望なアプローチである。 本調査では,まずメタラーニングについて概説し,最新メタラーニング手法と最近の進歩について考察する。 最後に,今後の研究に向けた課題と洞察について述べる。

Despite its astounding success in learning deeper multi-dimensional data, the performance of deep learning declines on new unseen tasks mainly due to its focus on same-distribution prediction. Moreover, deep learning is notorious for poor generalization from few samples. Meta-learning is a promising approach that addresses these issues by adapting to new tasks with few-shot datasets. This survey first briefly introduces meta-learning and then investigates state-of-the-art meta-learning methods and recent advances in: (I) metric-based, (II) memory-based, (III), and learning-based methods. Finally, current challenges and insights for future researches are discussed.
翻訳日:2023-03-15 17:11:32 公開日:2023-03-13
# ボヘミア力学の非標準定式化

A Nonstandard Formulation of Bohmian Mechanics ( http://arxiv.org/abs/2303.07500v1 )

ライセンス: Link先を確認
Jeffrey Barrett and Isaac Goldbring(参考訳) 非標準解析のツールを用いて、ボーム力学の代替定式化を開発し、提示する。 このアプローチにより、理論の標準的な定式化よりも広い物理系の分類を記述することができる。 また、より多くの状況で予測することもできる。 我々は、bohmian example system を用いて非標準な定式化を動機付け、earman (1986) の古典的スペースインベーダーや逆スペースインベーダーに似た振る舞いを示す。 次に、この例を使ってボーム力学の代替定式化がどのように機能するかを説明する。

Using the tools of nonstandard analysis, we develop and present an alternative formulation of Bohmian mechanics. This approach allows one to describe a broader assortment of physical systems than the standard formulation of the theory. It also allows one to make predictions in more situations. We motivate the nonstandard formulation with a Bohmian example system that exhibits behavior akin to Earman's (1986) classical space invaders and reverse space invaders. We then use the example to illustrate how the alternative formulation of Bohmian mechanics works.
翻訳日:2023-03-15 17:11:20 公開日:2023-03-13
# MRET:ビデオ品質評価のためのマルチレゾリューショントランス

MRET: Multi-resolution Transformer for Video Quality Assessment ( http://arxiv.org/abs/2303.07489v1 )

ライセンス: Link先を確認
Junjie Ke, Tianhao Zhang, Yilin Wang, Peyman Milanfar, Feng Yang(参考訳) ユーザ生成コンテンツ(UGC)の非参照ビデオ品質評価(NR-VQA)は、視覚体験の理解と改善に不可欠である。 ビデオ認識タスクとは異なり、VQAタスクは入力解像度の変化に敏感である。 現在、UGCビデオの量は720p以上なので、NR-VQA法で使用される固定された比較的小さな入力は、多くのビデオで高周波の詳細を欠いている。 本稿では,高分解能な品質情報を保存する新しいNR-VQAフレームワークを提案する。 マルチレゾリューション入力表現と新しいマルチレゾリューションパッチサンプリング機構により,グローバルなビデオ合成と局所的な高レゾリューションの詳細の両方を包括的に見ることができる。 提案手法は,空間次元と時間次元の異なる粒度にわたる品質情報を効果的に集約し,入力解像度の変動に頑健なモデルを実現する。 提案手法は,大規模 UGC VQA データセット LSVQ と LSVQ-1080p と KoNViD-1k と LIVE-VQC を微調整することなく,最先端の性能を実現する。

No-reference video quality assessment (NR-VQA) for user generated content (UGC) is crucial for understanding and improving visual experience. Unlike video recognition tasks, VQA tasks are sensitive to changes in input resolution. Since large amounts of UGC videos nowadays are 720p or above, the fixed and relatively small input used in conventional NR-VQA methods results in missing high-frequency details for many videos. In this paper, we propose a novel Transformer-based NR-VQA framework that preserves the high-resolution quality information. With the multi-resolution input representation and a novel multi-resolution patch sampling mechanism, our method enables a comprehensive view of both the global video composition and local high-resolution details. The proposed approach can effectively aggregate quality information across different granularities in spatial and temporal dimensions, making the model robust to input resolution variations. Our method achieves state-of-the-art performance on large-scale UGC VQA datasets LSVQ and LSVQ-1080p, and on KoNViD-1k and LIVE-VQC without fine-tuning.
翻訳日:2023-03-15 17:11:04 公開日:2023-03-13
# VAEによる潜伏変数の学習:Cryo-EMの応用に関する観察

Using VAEs to Learn Latent Variables: Observations on Applications in cryo-EM ( http://arxiv.org/abs/2303.07487v1 )

ライセンス: Link先を確認
Daniel G. Edelberg, Roy R. Lederman(参考訳) 変分オートエンコーダ(VAE)は分布を近似する一般的な生成モデルである。 vaeのエンコーダ部分は、潜在変数の償却学習に使われ、データサンプルの潜在表現を生成する。 近年、VAEは物理的および生物学的システムの特徴付けに使われている。 本稿では,生物応用におけるVAEのアモータイズ特性について質的に検討する。 このアプリケーションでは、エンコーダはより伝統的な潜在変数の明示的な表現と質的な類似性を持つ。

Variational autoencoders (VAEs) are a popular generative model used to approximate distributions. The encoder part of the VAE is used in amortized learning of latent variables, producing a latent representation for data samples. Recently, VAEs have been used to characterize physical and biological systems. In this case study, we qualitatively examine the amortization properties of a VAE used in biological applications. We find that in this application the encoder bears a qualitative resemblance to more traditional explicit representation of latent variables.
翻訳日:2023-03-15 17:10:30 公開日:2023-03-13
# HiSSNet:低音源ヘッドホンのための階層型プロトタイプネットワークによる音声事象検出と話者同定

HiSSNet: Sound Event Detection and Speaker Identification via Hierarchical Prototypical Networks for Low-Resource Headphones ( http://arxiv.org/abs/2303.07538v1 )

ライセンス: Link先を確認
N Shashaank, Berker Banar, Mohammad Rasool Izadi, Jeremy Kemmerer, Shuo Zhang, Chuan-Che (Jeff) Huang(参考訳) 最近のノイズキャンセリングヘッドホンは、望ましくないバックグラウンドノイズを取り除くことで、ユーザーの聴覚体験を大幅に改善しているが、ユーザにとって重要な音をブロックすることもできる。 音声イベント検出(SED)と話者識別(SID)のための機械学習(ML)モデルは、ヘッドフォンが重要な音を選択的に通過することを可能にするが、ユーザ中心のエクスペリエンスのためにこれらのモデルを実装することは、いくつかの固有の課題をもたらす。 まず、ほとんどの人がヘッドフォンのカスタマイズに費やす時間が限られているので、音検出はすぐにうまく機能するはずです。 第二に、モデルは、暗黙的かつ明示的な相互作用に基づいて、ユーザにとって重要な特定の音を時間とともに学習できるべきである。 最後に、そのようなモデルは、オンチップメモリの限られた低消費電力ヘッドフォンで動作させるために、小さなメモリフットプリントを持つ必要がある。 本稿では,HiSSNet (Hierarchical SED and SID Network) を用いて,これらの課題に対処することを提案する。 HiSSNetは、階層的なプロトタイプネットワークを用いて、一般的な音と特定の音の両方を検出し、アラームのような音と音声の両方を特徴付けるSEID(SEDおよびSID)モデルである。 HiSSNetは非階層型プロトタイプネットワークを用いてトレーニングされたSEIDモデルを6.9~8.6%上回っている。 SEDやSID専用にトレーニングされた最新技術(SOTA)モデルと比較して、HiSSNetは、デバイス上で複数の機能をサポートするために必要なメモリフットプリントを削減しつつ、同様のまたはより良いパフォーマンスを実現している。

Modern noise-cancelling headphones have significantly improved users' auditory experiences by removing unwanted background noise, but they can also block out sounds that matter to users. Machine learning (ML) models for sound event detection (SED) and speaker identification (SID) can enable headphones to selectively pass through important sounds; however, implementing these models for a user-centric experience presents several unique challenges. First, most people spend limited time customizing their headphones, so the sound detection should work reasonably well out of the box. Second, the models should be able to learn over time the specific sounds that are important to users based on their implicit and explicit interactions. Finally, such models should have a small memory footprint to run on low-power headphones with limited on-chip memory. In this paper, we propose addressing these challenges using HiSSNet (Hierarchical SED and SID Network). HiSSNet is an SEID (SED and SID) model that uses a hierarchical prototypical network to detect both general and specific sounds of interest and characterize both alarm-like and speech sounds. We show that HiSSNet outperforms an SEID model trained using non-hierarchical prototypical networks by 6.9 - 8.6 percent. When compared to state-of-the-art (SOTA) models trained specifically for SED or SID alone, HiSSNet achieves similar or better performance while reducing the memory footprint required to support multiple capabilities on-device.
翻訳日:2023-03-15 17:04:14 公開日:2023-03-13
# COPDステージ予測の深層学習を促進するフラクショナルダイナミクス

Fractional dynamics foster deep learning of COPD stage prediction ( http://arxiv.org/abs/2303.07537v1 )

ライセンス: Link先を確認
Chenzhong Yin, Mihai Udrescu, Gaurav Gupta, Mingxi Cheng, Andrei Lihu, Lucretia Udrescu, Paul Bogdan, David M Mannino, and Stefan Mihaicuta(参考訳) 慢性閉塞性肺疾患(COPD)は世界中の死因の1つである。 現在のCOPD診断(spirometry)は、テストがテスタとテスタの適切な努力に依存しているため、信頼性が低い可能性がある。 また,copdの早期診断は困難である。 2つの新しい生理的信号データセット(WestRo COPDデータセット54例の4432記録とWestRo Porti COPDデータセット534例の13824の医療記録)を構築して、PD検出に対処する。 筆者らは複雑な結合フラクタル力学特性を示し, COPD を診断するために分数次動的深層学習解析を行う。 著者らは, COPD のすべての段階 (健康) から第4段階 (非常に重篤) の患者の生理的信号から, 分数次力学モデルを用いて特徴を抽出できることを発見した。 入力特徴(胸郭呼吸、呼吸速度、酸素飽和など)に基づいて COPD ステージを予測するディープニューラルネットワークを開発し、訓練するために、分数的なシグネチャを使用する。 著者らは、分数的動的深層学習モデル (FDDLM) が COPD 予測精度98.66% を達成し、スピロメトリの頑健な代替品として機能することを示した。 FDDLMはまた、異なる生理的信号を持つデータセット上で検証された際の精度も高い。

Chronic obstructive pulmonary disease (COPD) is one of the leading causes of death worldwide. Current COPD diagnosis (i.e., spirometry) could be unreliable because the test depends on an adequate effort from the tester and testee. Moreover, the early diagnosis of COPD is challenging. We address COPD detection by constructing two novel physiological signals datasets (4432 records from 54 patients in the WestRo COPD dataset and 13824 medical records from 534 patients in the WestRo Porti COPD dataset). The authors demonstrate their complex coupled fractal dynamical characteristics and perform a fractional-order dynamics deep learning analysis to diagnose COPD. The authors found that the fractional-order dynamical modeling can extract distinguishing signatures from the physiological signals across patients with all COPD stages from stage 0 (healthy) to stage 4 (very severe). They use the fractional signatures to develop and train a deep neural network that predicts COPD stages based on the input features (such as thorax breathing effort, respiratory rate, or oxygen saturation). The authors show that the fractional dynamic deep learning model (FDDLM) achieves a COPD prediction accuracy of 98.66% and can serve as a robust alternative to spirometry. The FDDLM also has high accuracy when validated on a dataset with different physiological signals.
翻訳日:2023-03-15 17:03:46 公開日:2023-03-13
# 強化学習を用いた経路計画:政策反復アプローチ

Path Planning using Reinforcement Learning: A Policy Iteration Approach ( http://arxiv.org/abs/2303.07535v1 )

ライセンス: Link先を確認
Saumil Shivdikar, Jagannath Nirmal(参考訳) 近年,リアルタイム処理の影響により,強化学習アルゴリズムの効率的な実装の必要性が高まっている。 ベルマン方程式の多数の利点はRLアルゴリズムで活用されているが、設計パラメータの大きな探索空間がないわけではない。 本研究は, 強化学習パラメータ, 特に政策イテレーションに関連する設計空間の探索に光を当てることを目的としている。 強化学習アルゴリズムのパラメータを微調整する膨大な計算コストを考えると、これらのパラメータを探索する過程を加速し、その代わりに最適なポリシーへの収束を加速する自動チューナーに基づく順序回帰手法を提案する。 提案手法は,従来の最先端技術よりも平均1.48倍の高速化を実現する。

With the impact of real-time processing being realized in the recent past, the need for efficient implementations of reinforcement learning algorithms has been on the rise. Albeit the numerous advantages of Bellman equations utilized in RL algorithms, they are not without the large search space of design parameters. This research aims to shed light on the design space exploration associated with reinforcement learning parameters, specifically that of Policy Iteration. Given the large computational expenses of fine-tuning the parameters of reinforcement learning algorithms, we propose an auto-tuner-based ordinal regression approach to accelerate the process of exploring these parameters and, in return, accelerate convergence towards an optimal policy. Our approach provides 1.82x peak speedup with an average of 1.48x speedup over the previous state-of-the-art.
翻訳日:2023-03-15 17:03:24 公開日:2023-03-13
# セキュリティを緩和するサイバー物理システムデータの教師なし学習に向けて

Towards Unsupervised Learning based Denoising of Cyber Physical System Data to Mitigate Security Concerns ( http://arxiv.org/abs/2303.07530v1 )

ライセンス: Link先を確認
Mst Shapna Akter, Hossain Shahriar(参考訳) 産業環境下で収集されたデータセットは、しばしばかなりのノイズを含む。 多くの場合、自明なフィルタを用いることで、ノイズのない正確な値という有用な情報を得るには不十分である。 そのようなデータの一つは、燃料情報を含む移動車両から収集された時系列センサ読み取りである。 ノイズの多いダイナミックスと移動環境のため、センサーの読み取りは非常にノイズが多い。 このようなデータセットを非表示することは、有用なアプリケーションやセキュリティ上の問題の前提条件である。 セキュリティは、現在の車両計画におけるプリミティブな懸念である。 燃料情報を取得するサーバ側を容易にハックすることができる。 車両ネットワークを介して、正確でノイズのない燃料情報を提供することは困難になる。 そのため,ノイズを除去し,元の値を保持できるシステムを開発した。 このシステムは、自動車産業、燃料ステーション、燃料を必要とする発電所にも役立つ。 本研究では,燃料レベルの値のみを考察し,補間,補間,外挿,スペクトルクラスタリング,凝集クラスタリング,ウェーブレット解析,中央値フィルタリングなどのアルゴリズムを用いて,高等級ノイズをフィルタするユニークな手法を考案した。 また,充電サイクルにおける燃料補給および消費を検出するために,ピーク検出とピーク検証アルゴリズムを採用した。 モデルの評価にはr-二乗法を用いてきましたが、ほとんどの場合、検出された値と実際の値の差は1lの範囲に留まります。

A dataset, collected under an industrial setting, often contains a significant portion of noises. In many cases, using trivial filters is not enough to retrieve useful information i.e., accurate value without the noise. One such data is time-series sensor readings collected from moving vehicles containing fuel information. Due to the noisy dynamics and mobile environment, the sensor readings can be very noisy. Denoising such a dataset is a prerequisite for any useful application and security issues. Security is a primitive concern in present vehicular schemes. The server side for retrieving the fuel information can be easily hacked. Providing the accurate and noise free fuel information via vehicular networks become crutial. Therefore, it has led us to develop a system that can remove noise and keep the original value. The system is also helpful for vehicle industry, fuel station, and power-plant station that require fuel. In this work, we have only considered the value of fuel level, and we have come up with a unique solution to filter out the noise of high magnitudes using several algorithms such as interpolation, extrapolation, spectral clustering, agglomerative clustering, wavelet analysis, and median filtering. We have also employed peak detection and peak validation algorithms to detect fuel refill and consumption in charge-discharge cycles. We have used the R-squared metric to evaluate our model, and it is 98 percent In most cases, the difference between detected value and real value remains within the range of 1L.
翻訳日:2023-03-15 17:03:12 公開日:2023-03-13
# 上流を考える - AIサプライチェーンにおける倫理と政策機会

Thinking Upstream: Ethics and Policy Opportunities in AI Supply Chains ( http://arxiv.org/abs/2303.07529v1 )

ライセンス: Link先を確認
David Gray Widder, Richmond Wong(参考訳) 1990年代初頭に子供たちがランニングシューズを縫う様子が撮影された後、ナイキはまず「サプライヤーの工場での労働条件」を否定し、その後、上流のサプライチェーンにおける倫理の責任を負うようになった。 2023年、openaiはケニアの労働者は、そのchatgptモデルからトラウマ的なコンテンツをフィルタリングするために1時間あたり2ドル以下を支払ったと批判し、一部は労働者の支払いとメンタルヘルスの懸念を管理する下請け業者に仕事をアウトソースしたと述べた。 本稿では,AI倫理に関する政策介入をサプライチェーン問題とみなす必要があると論じる。

After children were pictured sewing its running shoes in the early 1990s, Nike at first disavowed the "working conditions in its suppliers' factories", before public pressure led them to take responsibility for ethics in their upstream supply chain. In 2023, OpenAI responded to criticism that Kenyan workers were paid less than $2 per hour to filter traumatic content from its ChatGPT model by stating in part that it had outsourced the work to a subcontractor, who managed workers' payment and mental health concerns. In this position paper, we argue that policy interventions for AI Ethics must consider AI as a supply chain problem, given how the political economy and intra-firm relations structure AI production, in particular examining opportunities upstream.
翻訳日:2023-03-15 17:02:50 公開日:2023-03-13
# 核規範正規化による領域一般化

Domain Generalization via Nuclear Norm Regularization ( http://arxiv.org/abs/2303.07527v1 )

ライセンス: Link先を確認
Zhenmei Shi, Yifei Ming, Ying Fan, Frederic Sala, Yingyu Liang(参考訳) 未認識のドメインに一般化する能力は、現実世界にデプロイされるマシンラーニングシステムにとって、特に限られたトレーニングドメインのデータしか持たない場合には、非常に重要です。 本稿では,領域一般化のための学習特徴の核ノルムに基づく,単純かつ効果的な正規化手法を提案する。 直観的には、提案する正規化器は環境特性の影響を緩和し、ドメイン不変特徴の学習を促進する。 理論的には、ermやオルタナティブ正規化法に比べて核規範正規化がなぜ効果的かという知見を提供する。 実験では,合成データと実データの両方について広範な実験を行う。 核ノルム正則化は,幅広い領域の一般化タスクにおいて,ベースラインと比較して高い性能を発揮することを示す。 さらに、この正規化器はermやswadといった様々な方法で広く適用でき、ドメインベッドベンチマークでそれぞれ1.7%と0.9%のテスト精度が向上した。

The ability to generalize to unseen domains is crucial for machine learning systems deployed in the real world, especially when we only have data from limited training domains. In this paper, we propose a simple and effective regularization method based on the nuclear norm of the learned features for domain generalization. Intuitively, the proposed regularizer mitigates the impacts of environmental features and encourages learning domain-invariant features. Theoretically, we provide insights into why nuclear norm regularization is more effective compared to ERM and alternative regularization methods. Empirically, we conduct extensive experiments on both synthetic and real datasets. We show that nuclear norm regularization achieves strong performance compared to baselines in a wide range of domain generalization tasks. Moreover, our regularizer is broadly applicable with various methods such as ERM and SWAD with consistently improved performance, e.g., 1.7% and 0.9% test accuracy improvements respectively on the DomainBed benchmark.
翻訳日:2023-03-15 17:02:34 公開日:2023-03-13
# 量子自然言語処理を用いたソースコードの自動脆弱性検出

Automated Vulnerability Detection in Source Code Using Quantum Natural Language Processing ( http://arxiv.org/abs/2303.07525v1 )

ライセンス: Link先を確認
Mst Shapna Akter, Hossain Shahriar, and Zakirul Alam Bhuiya(参考訳) ソフトウェアコード監査の分野で最も重要な課題の1つは、ソフトウェアソースコードに脆弱性があることである。 これらの欠陥は爆発した可能性が高いため、システムの妥協、データ漏洩、あるいはサーデバイスの否定につながる。 cとc++のオープンソースコードは、関数レベルの脆弱性識別のための大規模で古典的な機械学習と量子機械学習システムを作成するために利用できる。 私たちは、poten-tialエクスプロイトを示す数百万のオープンソース関数の巨大なデータセットを組み立てました。 我々は,深層ニューラルネットワークモデルLong Short Term Memory(LSTM)と量子機械学習モデルLong Short Term Memory(QLSTM)に基づいて,ソースコードから抽出した特徴を学習可能な,効率的でスケーラブルな脆弱性検出手法を開発した。 ソースコードは、まず最小限の中間表現に変換され、ポイントレスコンポーネントを取り除き、デペンデンシーを短くする。 そこで我々は,GloveやfastTextといったアートワード埋め込みアルゴリズムの状態を用いて,セマンティックおよび構文情報を保持する。 埋め込みベクトルは古典的および量子畳み込みニューラルネットワークに入力され、潜在的な脆弱性を分類する。 性能測定には,f1スコア,精度,再呼び出し,精度,総実行時間などの評価指標を用いた。 従来のLSTMと量子LSTMから得られた結果を,基本的特徴表現と意味的・統語的再認識を用いて比較した。 意味的および統語的特徴を持つQLSTMは、極めて正確な脆弱性を検出し、従来のものよりも高速に動作することを発見した。

One of the most important challenges in the field of software code audit is the presence of vulnerabilities in software source code. These flaws are highly likely ex-ploited and lead to system compromise, data leakage, or denial of ser-vice. C and C++ open source code are now available in order to create a large-scale, classical machine-learning and quantum machine-learning system for function-level vulnerability identification. We assembled a siz-able dataset of millions of open-source functions that point to poten-tial exploits. We created an efficient and scalable vulnerability detection method based on a deep neural network model Long Short Term Memory (LSTM), and quantum machine learning model Long Short Term Memory (QLSTM), that can learn features extracted from the source codes. The source code is first converted into a minimal intermediate representation to remove the pointless components and shorten the de-pendency. Therefore, We keep the semantic and syntactic information using state of the art word embedding algorithms such as Glove and fastText. The embedded vectors are subsequently fed into the classical and quantum convolutional neural networks to classify the possible vulnerabilities. To measure the performance, we used evaluation metrics such as F1 score, precision, re-call, accuracy, and total execution time. We made a comparison between the results derived from the classical LSTM and quantum LSTM using basic feature representation as well as semantic and syntactic represen-tation. We found that the QLSTM with semantic and syntactic features detects significantly accurate vulnerability and runs faster than its classical counterpart.
翻訳日:2023-03-15 17:02:19 公開日:2023-03-13
# ロボットナビゲーションのための音声視覚言語マップ

Audio Visual Language Maps for Robot Navigation ( http://arxiv.org/abs/2303.07522v1 )

ライセンス: Link先を確認
Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard(参考訳) 世界でのインタラクションはマルチセンサーな体験だが、多くのロボットは、視覚知覚に頼って、環境をマッピングし、ナビゲートしている。 本研究では,音声,視覚,言語からの情報を保存するための3次元空間地図表現であるAVLMapを提案する。 avlmapsは、インターネットスケールデータで事前トレーニングされたマルチモーダル基礎モデルのオープンボキャブラリ機能を、その機能を集中型の3dボクセルグリッドに融合することで統合する。 ナビゲーションの文脈では,avlmapsによって,テキスト記述や画像,ランドマークの音声スニペットなど,マルチモーダルなクエリに基づいて,ロボットシステムが地図内の目標をインデックス化できることが示されている。 特に、音声情報を追加することで、ロボットはゴール位置をより確実に曖昧にすることができる。 AVLMapsはマルチモーダルプロンプトからゼロショットマルチモーダルゴールナビゲーションを可能にし、曖昧なシナリオでは50%改善されたリコールを提供する。 これらの機能は、現実世界のモバイルロボットにも拡張され、視覚、音声、空間の概念を参照するランドマークにナビゲートされる。 ビデオとコードは、https://avlmaps.github.io.comで入手できる。

While interacting in the world is a multi-sensory experience, many robots continue to predominantly rely on visual perception to map and navigate in their environments. In this work, we propose Audio-Visual-Language Maps (AVLMaps), a unified 3D spatial map representation for storing cross-modal information from audio, visual, and language cues. AVLMaps integrate the open-vocabulary capabilities of multimodal foundation models pre-trained on Internet-scale data by fusing their features into a centralized 3D voxel grid. In the context of navigation, we show that AVLMaps enable robot systems to index goals in the map based on multimodal queries, e.g., textual descriptions, images, or audio snippets of landmarks. In particular, the addition of audio information enables robots to more reliably disambiguate goal locations. Extensive experiments in simulation show that AVLMaps enable zero-shot multimodal goal navigation from multimodal prompts and provide 50% better recall in ambiguous scenarios. These capabilities extend to mobile robots in the real world - navigating to landmarks referring to visual, audio, and spatial concepts. Videos and code are available at: https://avlmaps.github.io.
翻訳日:2023-03-15 17:01:54 公開日:2023-03-13
# 深層畳み込みニューラルネットワークを用いた多クラス皮膚がん分類アーキテクチャ

Multi-class Skin Cancer Classification Architecture Based on Deep Convolutional Neural Network ( http://arxiv.org/abs/2303.07520v1 )

ライセンス: Link先を確認
Mst Shapna Akter, Hossain Shahriar, Sweta Sneha, Alfredo Cuzzocrea(参考訳) 異なる種類の皮膚病変は類似度が高いため、皮膚がんの検出は困難である。 本稿では,異なる皮膚病変を正確に識別するコンピュータベースの深層学習手法を提案する。 ディープラーニングアプローチは、モデルが画像の各ピクセルを学習するため、皮膚がんを非常に正確に検出できる。 時として、人間は皮膚の病変の類似性によって混乱することがある。 しかし、すべてのディープラーニングアプローチがより良い予測をもたらすわけではない。 一部のディープラーニングモデルには制限があり、モデルに偽陽性の結果をもたらす。 皮膚病変を分類する深層学習モデルを導入し,皮膚がんと皮膚病変の鑑別を行った。 皮膚病変を分類する前に、データ前処理とデータ増補法を用いる。 最後に、公開利用可能なベンチマークham10000データセットに畳み込みニューラルネットワーク(cnn)モデルと、resnet-50、vgg-16、dungnet、mobilenet、inceptionv3、xceptionなどの6つのトランスファー学習モデルを適用し、皮膚病変の7つの分類と比較分析を行う。 モデルは、がん細胞と非癌細胞を区別することで皮膚がんを検出する。 モデル性能は、精度、リコール、f1スコア、精度などのパフォーマンス指標を用いて測定される。 inceptionv3, xception, densenet, mobilenet, resnet, cnn, vgg16では,それぞれ90, 88, 88, 87, 82, 77パーセントの精度を得た。 さらに,inceptionv3-inceptionv3, densenet-mobilenet, inceptionv3-xception, resnet50-vgg16, stack-sixの5種類の積層モデルを用いて皮膚病変の分類を行った。 すべての積み重ねモデルの中で78%の精度を実現しています。

Skin cancer detection is challenging since different types of skin lesions share high similarities. This paper proposes a computer-based deep learning approach that will accurately identify different kinds of skin lesions. Deep learning approaches can detect skin cancer very accurately since the models learn each pixel of an image. Sometimes humans can get confused by the similarities of the skin lesions, which we can minimize by involving the machine. However, not all deep learning approaches can give better predictions. Some deep learning models have limitations, leading the model to a false-positive result. We have introduced several deep learning models to classify skin lesions to distinguish skin cancer from different types of skin lesions. Before classifying the skin lesions, data preprocessing and data augmentation methods are used. Finally, a Convolutional Neural Network (CNN) model and six transfer learning models such as Resnet-50, VGG-16, Densenet, Mobilenet, Inceptionv3, and Xception are applied to the publically available benchmark HAM10000 dataset to classify seven classes of skin lesions and to conduct a comparative analysis. The models will detect skin cancer by differentiating the cancerous cell from the non-cancerous ones. The models performance is measured using performance metrics such as precision, recall, f1 score, and accuracy. We receive accuracy of 90, 88, 88, 87, 82, and 77 percent for inceptionv3, Xception, Densenet, Mobilenet, Resnet, CNN, and VGG16, respectively. Furthermore, we develop five different stacking models such as inceptionv3-inceptionv3, Densenet-mobilenet, inceptionv3-Xception, Resnet50-Vgg16, and stack-six for classifying the skin lesions and found that the stacking models perform poorly. We achieve the highest accuracy of 78 percent among all the stacking models.
翻訳日:2023-03-15 17:01:33 公開日:2023-03-13
# Architext: 言語駆動生成アーキテクチャ設計

Architext: Language-Driven Generative Architecture Design ( http://arxiv.org/abs/2303.07519v1 )

ライセンス: Link先を確認
Theodoros Galanos, Antonios Liapis and Georgios N. Yannakakis(参考訳) アーキテクチャ設計は、幅広い分野、技術、プロプライエタリなデザインソフトウェア、専門知識、そしてほぼ無限の制約を含む非常に複雑なプラクティスである。 直感的でアクセシブルでスケーラブルな設計プロセスを実現することは、パフォーマンス駆動で持続可能な設計への重要なステップです。 そこで本研究では,新しい意味生成支援ツールであるarchitextを紹介する。 Architextは、大規模な言語モデルに入力として与えられる自然言語プロンプトのみを持つ設計生成を可能にする。 我々は,1億2000万から60億のパラメータを含む事前学習された言語モデルの意味的精度と多様性に着目し,Architextの下流タスク性能の詳細な定量的評価を行う。 Architextモデルは特定の設計タスクを学習することができ、有効な住宅レイアウトを約100倍の割合で生成する。 大きなモデル(gpt-j)では、さまざまなプロンプトカテゴリで25%から80%以上という、印象的な精度を実現している。 私たちは、このエキサイティングなデザイン研究領域で実験を刺激したいと考えている、微調整Architextモデルと合成データセットをオープンソースにしています。

Architectural design is a highly complex practice that involves a wide diversity of disciplines, technologies, proprietary design software, expertise, and an almost infinite number of constraints, across a vast array of design tasks. Enabling intuitive, accessible, and scalable design processes is an important step towards performance-driven and sustainable design for all. To that end, we introduce Architext, a novel semantic generation assistive tool. Architext enables design generation with only natural language prompts, given to large-scale Language Models, as input. We conduct a thorough quantitative evaluation of Architext's downstream task performance, focusing on semantic accuracy and diversity for a number of pre-trained language models ranging from 120 million to 6 billion parameters. Architext models are able to learn the specific design task, generating valid residential layouts at a near 100\% rate. Accuracy shows great improvement when scaling the models, with the largest model (GPT-J) yielding impressive accuracy ranging between 25% to over 80% for different prompt categories. We open source the finetuned Architext models and our synthetic dataset, hoping to inspire experimentation in this exciting area of design research.
翻訳日:2023-03-15 17:00:55 公開日:2023-03-13
# 学習者のベイズ複雑性と過度適合

Bayes Complexity of Learners vs Overfitting ( http://arxiv.org/abs/2303.07874v1 )

ライセンス: Link先を確認
Grzegorz G{\l}uch, Rudiger Urbanke(参考訳) 関数の複雑性という新しい概念を導入し、次のような性質を持つことを示す。 i) PACベイズ様一般化境界を統治する。 (ii)ニューラルネットワークでは、関数の複雑さ(変動など)の自然な概念と関係し、 (iii)ニューラルネットワークと線形スキームの一般化ギャップを説明する。 そのような性質をそれぞれ独立に持つ境界を記述した大量の論文や、我々が知る限りでは2つの論文でさえあるが、これはこれら3つ全てを満たす最初の概念である。 さらに、従来の研究とは対照的に、我々は自然に複数の層を持つニューラルネットワークに一般化している。 複雑性の計算は一般には自明ではないが、周期関数のような構造を持つ高層層や関数であっても、上界は導出しやすいことが多い。 上界のwe導出により、周期関数のための2層と4層ニューラルネットワークのよい一般化に必要なサンプル数を分離できる。

We introduce a new notion of complexity of functions and we show that it has the following properties: (i) it governs a PAC Bayes-like generalization bound, (ii) for neural networks it relates to natural notions of complexity of functions (such as the variation), and (iii) it explains the generalization gap between neural networks and linear schemes. While there is a large set of papers which describes bounds that have each such property in isolation, and even some that have two, as far as we know, this is a first notion that satisfies all three of them. Moreover, in contrast to previous works, our notion naturally generalizes to neural networks with several layers. Even though the computation of our complexity is nontrivial in general, an upper-bound is often easy to derive, even for higher number of layers and functions with structure, such as period functions. An upper-bound we derive allows to show a separation in the number of samples needed for good generalization between 2 and 4-layer neural networks for periodic functions.
翻訳日:2023-03-15 15:03:18 公開日:2023-03-13
# 一般対称性型を考慮した不明確なポーズパラメータを用いたオブジェクトベースSLAM

Object-based SLAM utilizing unambiguous pose parameters considering general symmetry types ( http://arxiv.org/abs/2303.07872v1 )

ライセンス: Link先を確認
Taekbeom Lee, Youngseok Jang, and H. Jin Kim(参考訳) 異なる視点での観測が同一である対称物体の存在は、同時局在化およびマッピング(slam)の性能を低下させる可能性がある。 本研究は,対称物体の存在下でも,カメラや物体の姿勢を頑健に最適化するシステムを提案する。 対象をその対称性特性に応じて3つのカテゴリに分類し,同じカテゴリのオブジェクトが同一のあいまいさに関連付けられるようにすることで,一般のオブジェクトを扱えるように効率的かつ効果的に分類する。 次に,各カテゴリに対応する不明瞭なパラメータのみを抽出し,カメラとオブジェクトポーズの協調最適化とデータアソシエーションに利用する。 提案手法は,曖昧なパラメータを取り除き,可能な限り有用な幾何学的情報を活用することで,slamの性能に多大なロバスト性を与える。 ベースラインアルゴリズムとの比較により,ベースラインが失敗する困難なシナリオにおいても,オブジェクト追跡やポーズ推定において,提案方式の優れた性能が確認されている。

Existence of symmetric objects, whose observation at different viewpoints can be identical, can deteriorate the performance of simultaneous localization and mapping(SLAM). This work proposes a system for robustly optimizing the pose of cameras and objects even in the presence of symmetric objects. We classify objects into three categories depending on their symmetry characteristics, which is efficient and effective in that it allows to deal with general objects and the objects in the same category can be associated with the same type of ambiguity. Then we extract only the unambiguous parameters corresponding to each category and use them in data association and joint optimization of the camera and object pose. The proposed approach provides significant robustness to the SLAM performance by removing the ambiguous parameters and utilizing as much useful geometric information as possible. Comparison with baseline algorithms confirms the superior performance of the proposed system in terms of object tracking and pose estimation, even in challenging scenarios where the baseline fails.
翻訳日:2023-03-15 15:02:52 公開日:2023-03-13
# 多様なカオスシステムを効果的に予測する大規模統計学習モデル

Large statistical learning models effectively forecast diverse chaotic systems ( http://arxiv.org/abs/2303.08011v1 )

ライセンス: Link先を確認
William Gilpin(参考訳) カオスと予測不能は伝統的に同義語であるが、統計予測の最近の進歩は、大規模機械学習モデルが複雑なシステムの拡張観測から予期せぬ洞察を導き出せることを示唆している。 本稿では,135個の異なる低次元カオスシステムのクラウドソーシングデータベース上で,24種類の最先端多変量予測手法の大規模比較を行い,カオスの大規模予測について検討する。 ニューラルネットワークに基づく大規模でドメインに依存しない時系列予測手法は、一貫して強い予測性能を示しており、場合によっては何十ものリアプノフ時間にわたって正確な予測を行う場合もある。 カオスを予測するためのクラス最高の結果は、最近導入された階層型ニューラルネットワークモデルによって達成される。 しかし、ニューラル常微分方程式や貯水池コンピュータのような物理学にインスパイアされたハイブリッド手法は、データ制限設定におけるデータ効率の向上とトレーニング時間の短縮をもたらす誘導バイアスを含む。 広範に変化するアーキテクチャにも拘わらず,全ての手法で一貫した相関関係が観察され,また,予測が長い時間間隔で減衰する際の普遍構造も観察される。 その結果,現代の予測手法の重要な利点は,そのアーキテクチャの詳細ではなく,カオス的誘引者の大規模構造を学ぶ能力にあることが示唆された。

Chaos and unpredictability are traditionally synonymous, yet recent advances in statistical forecasting suggest that large machine learning models can derive unexpected insight from extended observation of complex systems. Here, we study the forecasting of chaos at scale, by performing a large-scale comparison of 24 representative state-of-the-art multivariate forecasting methods on a crowdsourced database of 135 distinct low-dimensional chaotic systems. We find that large, domain-agnostic time series forecasting methods based on artificial neural networks consistently exhibit strong forecasting performance, in some cases producing accurate predictions lasting for dozens of Lyapunov times. Best-in-class results for forecasting chaos are achieved by recently-introduced hierarchical neural basis function models, though even generic transformers and recurrent neural networks perform strongly. However, physics-inspired hybrid methods like neural ordinary equations and reservoir computers contain inductive biases conferring greater data efficiency and lower training times in data-limited settings. We observe consistent correlation across all methods despite their widely-varying architectures, as well as universal structure in how predictions decay over long time intervals. Our results suggest that a key advantage of modern forecasting methods stems not from their architectural details, but rather from their capacity to learn the large-scale structure of chaotic attractors.
翻訳日:2023-03-15 14:26:45 公開日:2023-03-13
# 無線通信のための機械学習モデルのドメイン一般化:概念,最新技術,オープンイシュー

Domain Generalization in Machine Learning Models for Wireless Communications: Concepts, State-of-the-Art, and Open Issues ( http://arxiv.org/abs/2303.08106v1 )

ライセンス: Link先を確認
Mohamed Akrout, Amal Feriani, Faouzi Bellili, Amine Mezghani, Ekram Hossain(参考訳) データ駆動機械学習(ML)は、次世代無線システムで使用される可能性のある技術のひとつとして推奨されている。 この結果、無線伝送リンクの異なる層における問題を解決するためにML技術を適用した大規模な研究に繋がった。 しかし、これらのアプリケーションのほとんどは教師あり学習に依存しており、ソース(トレーニング)とターゲット(テスト)データは独立であり、同一に分散している(すなわちd)。 この仮定は、ソースとターゲットデータの間のドメインや分散シフトによって、実世界ではしばしば違反される。 したがって、これらのアルゴリズムがアウト・オブ・ディストリビューション(OOD)データに一般化されることを保証することが重要である。 この文脈では、ドメイン一般化(DG)はOODに関連する問題に取り組み、異なる異なるソースドメイン/データセットのモデルを学習し、新たなドメインを追加の微調整なしで認識できるようにする。 本稿では、無線アプリケーションにおけるdg要件の重要性に動機づけられ、最近のdg開発と異なるドメインシフト源の概要を紹介する。 また,既存の dg 手法を要約し,選択した無線通信問題に対するそれらの応用をレビューし,洞察とオープン質問で結論づける。

Data-driven machine learning (ML) is promoted as one potential technology to be used in next-generations wireless systems. This led to a large body of research work that applies ML techniques to solve problems in different layers of the wireless transmission link. However, most of these applications rely on supervised learning which assumes that the source (training) and target (test) data are independent and identically distributed (i.i.d). This assumption is often violated in the real world due to domain or distribution shifts between the source and the target data. Thus, it is important to ensure that these algorithms generalize to out-of-distribution (OOD) data. In this context, domain generalization (DG) tackles the OOD-related issues by learning models on different and distinct source domains/datasets with generalization capabilities to unseen new domains without additional finetuning. Motivated by the importance of DG requirements for wireless applications, we present a comprehensive overview of the recent developments in DG and the different sources of domain shift. We also summarize the existing DG methods and review their applications in selected wireless communication problems, and conclude with insights and open questions.
翻訳日:2023-03-15 13:48:18 公開日:2023-03-13
# スポーツ賭けのための機械学習: 予測モデルは精度やキャリブレーションのために最適化されるべきか?

Machine learning for sports betting: should forecasting models be optimised for accuracy or calibration? ( http://arxiv.org/abs/2303.06021v2 )

ライセンス: Link先を確認
Conor Walsh, Alok Joshi(参考訳) 米国におけるスポーツ・ベッティングの連邦合法化は、機械学習の黄金時代と一致する。 ベクターがデータを利用して結果の確率を正確に予測できれば、ブックメーカーのオッズが好まれるときに認識することができる。 スポーツの賭けは米国だけでも数十億ドルの産業であり、そのような機会を特定することは極めて有益である。 多くの研究者が機械学習をスポーツ結果予測問題に適用し、概して精度を用いて予測モデルの性能を評価する。 スポーツベッティング問題に対して,モデルの校正は精度よりも重要であると仮定する。 この仮説をテストするために、NBAデータ上のモデルを数シーズンにわたってトレーニングし、1シーズンの賭け実験を公開オッズを用いて実施する。 様々な賭けシステムを評価することにより、キャリブレーションの予測モデルの最適化は、精度の最適化よりも高いリターンをもたらすことが示され(投資額が$10.42\%$対$.98\%$)、最良の場合が$902.01\$$対$22.84\%$)。 これらの結果は,スポーツベッティング(または各結果の予測確率に基づいて意思決定を行う予測問題)において,キャリブレーションは精度よりも重要な指標であることが示唆された。 利益を上げようとするスポーツベクターは、キャリブレーションの予測モデルを最適化すべきである。

Sports betting's recent federal legalisation in the USA coincides with the golden age of machine learning. If bettors can leverage data to accurately predict the probability of an outcome, they can recognise when the bookmaker's odds are in their favour. As sports betting is a multi-billion dollar industry in the USA alone, identifying such opportunities could be extremely lucrative. Many researchers have applied machine learning to the sports outcome prediction problem, generally using accuracy to evaluate the performance of forecasting models. We hypothesise that for the sports betting problem, model calibration is more important than accuracy. To test this hypothesis, we train models on NBA data over several seasons and run betting experiments on a single season, using published odds. Evaluating various betting systems, we show that optimising the forecasting model for calibration leads to greater returns than optimising for accuracy, on average (return on investment of $110.42\%$ versus $2.98\%$) and in the best case ($902.01\%$ versus $222.84\%$). These findings suggest that for sports betting (or any forecasting problem where decisions are made based on the predicted probability of each outcome), calibration is a more important metric than accuracy. Sports bettors who wish to increase profits should therefore optimise their forecasting model for calibration.
翻訳日:2023-03-15 11:30:31 公開日:2023-03-13
# 直交変換領域による畳み込み層へのアプローチ

Orthogonal Transform Domain Approaches for the Convolutional Layer ( http://arxiv.org/abs/2303.06797v1 )

ライセンス: Link先を確認
Hongyi Pan, Xin Zhu, Salih Atici, Ahmet Enis Cetin(参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)における3ドル3ドルのConv2Dの代替として,変換ベースのニューラルネットワーク層を提案する。 提案手法は, 離散コサイン変換 (DCT) やアダマール変換 (HT) などの直交変換と, 生体直交ブロックウェーブレット変換 (BWT) に基づいて実装することができる。 畳み込みフィルタ演算は、畳み込み定理を利用して要素ワイド乗算を用いて変換領域で実行される。 変換領域のノイズを取り除くトレーニング可能なソフトthresholding layerは、変換ドメイン層に非線形性をもたらす。 Conv2D層と比較すると,提案層は位置特異的であり,チャネル特異的である。 提案するレイヤは,ImageNet-1K分類タスクにおける正規ResNetの精度を向上しつつ,パラメータ数と乗算数を著しく削減する。 さらに、従来のResNetのグローバル平均プール層の前にバッチ正規化層を挿入することで、パラメータ数や計算コストの無視できる増加を伴う分類精度を向上させることができる。

In this paper, we propose a set of transform-based neural network layers as an alternative to the $3\times3$ Conv2D layers in Convolutional Neural Networks (CNNs). The proposed layers can be implemented based on orthogonal transforms such as Discrete Cosine Transform (DCT) and Hadamard transform (HT), and the biorthogonal Block Wavelet Transform (BWT). Convolutional filtering operations are performed in the transform domain using element-wise multiplications by taking advantage of the convolution theorems. Trainable soft-thresholding layers that remove noise in the transform domain bring nonlinearity to the transform domain layers. Compared to the Conv2D layer which is spatial-agnostic and channel-specific, the proposed layers are location-specific and channel-specific. The proposed layers reduce the number of parameters and multiplications significantly while improving the accuracy results of regular ResNets on the ImageNet-1K classification task. Furthermore, the proposed layers can be inserted with a batch normalization layer before the global average pooling layer in the conventional ResNets as an additional layer to improve classification accuracy with a negligible increase in the number of parameters and computational cost.
翻訳日:2023-03-14 17:01:26 公開日:2023-03-13
# Ins-ATP:高出力顕微鏡画像による有機物ATPの深部推定

Ins-ATP: Deep Estimation of ATP for Organoid Based on High Throughput Microscopic Images ( http://arxiv.org/abs/2303.06796v1 )

ライセンス: Link先を確認
Xuesheng Bian, Cheng Wang, Shuting Chen, Weiquan Liu, Sen Xu, Jinxin Zhu, Rugang Wang, Zexin Chen, Min Huang, Gang Li(参考訳) アデノシン三リン酸(ATP、Adenosine triphosphate)は、高エネルギーのリン酸化合物である。 ATPは生物学における細胞生存性を評価するための重要なバイオマーカーである。 研究者はATPバイオルミネッセンス(ATP bioluminescence)を用いて、薬物の効果を評価する。 しかし、ATP生物発光にはいくつかの制限があり、信頼性の低い薬物スクリーニング結果をもたらす。 ATPバイオルミネッセンスの性能はオルガノイドの細胞溶解を引き起こすため、服薬後の長期生存率の変化を観察することは不可能である。 ATPバイオルミネッセンスの欠点を克服するため,高出力顕微鏡画像に基づく非侵襲的組織型ATP推定モデルであるIns-ATPを提案する。 Ins-ATPは、高出力の顕微鏡画像からオルガノイドのATPを直接推定するので、オルガノイドの薬物反応には影響しない。 したがって、オルガノイドのATP変化は長い間観察され、より安定した結果が得られる。 実験の結果,Ins-ATPによるATP推定はATP生物発光によるATP推定とよく一致していることがわかった。 特に、Ins-ATPの予測は、異なる薬物の有効性評価実験においてATP生物発光によって測定された結果と一致している。

Adenosine triphosphate (ATP) is a high-energy phosphate compound and the most direct energy source in organisms. ATP is an essential biomarker for evaluating cell viability in biology. Researchers often use ATP bioluminescence to measure the ATP of organoid after drug to evaluate the drug efficacy. However, ATP bioluminescence has some limitations, leading to unreliable drug screening results. Performing ATP bioluminescence causes cell lysis of organoids, so it is impossible to observe organoids' long-term viability changes after medication continually. To overcome the disadvantages of ATP bioluminescence, we propose Ins-ATP, a non-invasive strategy, the first organoid ATP estimation model based on the high-throughput microscopic image. Ins-ATP directly estimates the ATP of organoids from high-throughput microscopic images, so that it does not influence the drug reactions of organoids. Therefore, the ATP change of organoids can be observed for a long time to obtain more stable results. Experimental results show that the ATP estimation by Ins-ATP is in good agreement with those determined by ATP bioluminescence. Specifically, the predictions of Ins-ATP are consistent with the results measured by ATP bioluminescence in the efficacy evaluation experiments of different drugs.
翻訳日:2023-03-14 17:01:07 公開日:2023-03-13
# メタビージングへのロードマップ

Roadmap towards Meta-being ( http://arxiv.org/abs/2303.06795v1 )

ライセンス: Link先を確認
Tianyi Huang, Stan Z. Li, Xin Yuan, Shenghui Cheng(参考訳) Metaverseは、物理的現実とデジタル仮想性を統合する永続的で永続的なマルチユーザー環境である。 これはインターネットの次の革命であると考えられている。 デジタル人間はメタバースの重要な部分です。 人工知能(AI)によって駆動され、多くのアプリケーションにデプロイされる。 しかし、デジタル人間を構築する複雑なプロセスであり、水没生成、接続構築、経済活動といったメタバース要素とうまく組み合わせることができる。 本稿ではメタバースにおけるデジタル人間構築のためのメタビーイングのロードマップを示す。 このロードマップでは、まずMetaverseの没入型ディスプレイのためのデジタルヒューマンモデルをモデル化し、レンダリングする必要があります。 そして、このデジタル人間のための音声、表情、動きを備えた対話システムを追加する。 最後に、セキュリティを考慮して、デジタル人間を経済の分野のメタバースに適用することができる。 また、ロードマップを実装するためにMetaverseでデジタル人間を構築します。 実装では,AI,自然言語処理(NLP),モーションキャプチャなどの先進技術やデバイスが使用されている。 このデジタル人間は、教育や展示など、多くの応用に適用することができる。

Metaverse is a perpetual and persistent multi-user environment that merges physical reality with digital virtuality. It is widely considered to be the next revolution of the Internet. Digital humans are a critical part of Metaverse. They are driven by artificial intelligence (AI) and deployed in many applications. However, it is a complex process to construct digital humans which can be well combined with the Metaverse elements, such as immersion creation, connection construction, and economic operation. In this paper, we present the roadmap of Meta-being to construct the digital human in Metaverse. In this roadmap, we first need to model and render a digital human model for immersive display in Metaverse. Then we add a dialogue system with audio, facial expressions, and movements for this digital human. Finally, we can apply our digital human in the fields of the economy in Metaverse with the consideration of security. We also construct a digital human in Metaverse to implement our roadmap. Numerous advanced technologies and devices, such as AI, Natural Language Processing (NLP), and motion capture, are used in our implementation. This digital human can be applied to many applications, such as education and exhibition.
翻訳日:2023-03-14 17:00:43 公開日:2023-03-13
# 単一項目を超えて:会話型プレイリストキュレーションデータセットによるアイテムセット内のユーザ嗜好の探索

Beyond Single Items: Exploring User Preferences in Item Sets with the Conversational Playlist Curation Dataset ( http://arxiv.org/abs/2303.06791v1 )

ライセンス: Link先を確認
Arun Tejasvi Chaganty, Megan Leszczynski, Shu Zhang, Ravi Ganti, Krisztian Balog, Filip Radlinski(参考訳) 音楽など消費領域のユーザは、特定のアイテム(プレイリストやラジオなど)よりも、複数のアイテム(曲など)に対してより効率的に好みを提供することができる。 残念ながら、これは未調査の研究分野であり、既存のレコメンデーションシステムは単一項目よりも好みを理解することに限定されている。 これは、ユーザーがユーザーのニーズを理解する効率的な方法として、自然言語における好みを明確化または洗練する会話的アプローチを動機付ける。 このタスク会話アイテムセットのキュレーションと呼び、アイテムレベルとセットレベルのフィードバックの両方を観察することにより、会話設定におけるアイテムセットの現実的な好みを効率的に収集する新しいデータ収集手法を提案する。 この手法を音楽レコメンデーションに適用して,対話型プレイリストキュレーションデータセット(cpcd)を構築する。 最後に,このタスクのベースラインとして,幅広い会話検索モデルを提案し,データセット上で評価する。

Users in consumption domains, like music, are often able to more efficiently provide preferences over a set of items (e.g. a playlist or radio) than over single items (e.g. songs). Unfortunately, this is an underexplored area of research, with most existing recommendation systems limited to understanding preferences over single items. Curating an item set exponentiates the search space that recommender systems must consider (all subsets of items!): this motivates conversational approaches-where users explicitly state or refine their preferences and systems elicit preferences in natural language-as an efficient way to understand user needs. We call this task conversational item set curation and present a novel data collection methodology that efficiently collects realistic preferences about item sets in a conversational setting by observing both item-level and set-level feedback. We apply this methodology to music recommendation to build the Conversational Playlist Curation Dataset (CPCD), where we show that it leads raters to express preferences that would not be otherwise expressed. Finally, we propose a wide range of conversational retrieval models as baselines for this task and evaluate them on the dataset.
翻訳日:2023-03-14 17:00:29 公開日:2023-03-13
# Decon founded Representation Learning によるバックドアディフェンス

Backdoor Defense via Deconfounded Representation Learning ( http://arxiv.org/abs/2303.06818v1 )

ライセンス: Link先を確認
Zaixi Zhang, Qi Liu, Zhicai Wang, Zepu Lu, Qingyong Hu(参考訳) 近年、ディープニューラルネットワーク(DNN)は、トレーニングデータセットにいくつかの有毒なサンプルを注入することで、攻撃者がDNNモデルに隠れたバックドアを埋め込むバックドア攻撃に対して脆弱であることが示されている。 バックドアのDNNからバックドアを検出・除去するための広範囲な努力がなされているが、バックドアのないクリーンモデルが有毒なデータセットから直接取得できるかどうかは不明だ。 本稿では,まず,被毒データの生成過程をモデル化する因果グラフを構築し,バックドア攻撃が共起体として作用することを確認し,入力画像とターゲットラベルとのスプリアスな関連をもたらし,モデル予測の信頼性を低下させる。 因果理解に触発され,信頼性の高い分類のための解約表現を学ぶために,因果性に触発されたバックドアディフェンス(cbd)を提案する。 具体的には、バックドアモデルが故意に訓練され、結果として生じる効果を捉える。 他のクリーンモデルでは、バックドアモデルからの共起表現との相互情報を最小化し、サンプルワイド再重み付け方式を用いることで、所望の因果効果を捉えることに専心する。 6つの最先端攻撃に対する複数のベンチマークデータセットに対する広範囲な実験により,提案手法が良性サンプルの予測精度を維持しつつ,バックドア脅威の低減に有効であることが確認された。 さらなる分析により、CBDは潜在的適応攻撃にも抵抗できることが示された。 コードは \url{https://github.com/zaixizhang/cbd} で入手できる。

Deep neural networks (DNNs) are recently shown to be vulnerable to backdoor attacks, where attackers embed hidden backdoors in the DNN model by injecting a few poisoned examples into the training dataset. While extensive efforts have been made to detect and remove backdoors from backdoored DNNs, it is still not clear whether a backdoor-free clean model can be directly obtained from poisoned datasets. In this paper, we first construct a causal graph to model the generation process of poisoned data and find that the backdoor attack acts as the confounder, which brings spurious associations between the input images and target labels, making the model predictions less reliable. Inspired by the causal understanding, we propose the Causality-inspired Backdoor Defense (CBD), to learn deconfounded representations for reliable classification. Specifically, a backdoored model is intentionally trained to capture the confounding effects. The other clean model dedicates to capturing the desired causal effects by minimizing the mutual information with the confounding representations from the backdoored model and employing a sample-wise re-weighting scheme. Extensive experiments on multiple benchmark datasets against 6 state-of-the-art attacks verify that our proposed defense method is effective in reducing backdoor threats while maintaining high accuracy in predicting benign samples. Further analysis shows that CBD can also resist potential adaptive attacks. The code is available at \url{https://github.com/zaixizhang/CBD}.
翻訳日:2023-03-14 16:51:50 公開日:2023-03-13
# リモートセンシング画像における極小物体検出のための変換不変ネットワーク

Transformation-Invariant Network for Few-Shot Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2303.06817v1 )

ライセンス: Link先を確認
Nanqing Liu, Xun Xu, Turgay Celik, Zongxin Gan, Heng-Chao Li(参考訳) リモートセンシング画像におけるオブジェクト検出は、トレーニングのために大量のラベル付きデータに依存する。 成長する新しいカテゴリとクラス不均衡は、徹底的なアノテーションをスケーリング不能にします。 Few-shot Object Detection~(FSOD)は、目に見えるベースクラスでメタ学習を行い、ラベル付きサンプルがほとんどない新しいクラスで微調整することでこの問題に取り組む。 しかし、オブジェクトのスケールと向きのバリエーションは、リモートセンシング画像では特に大きいため、既存の少数ショットオブジェクト検出方法に課題が生じる。 これらの課題に対処するために,我々はまず,機能ピラミッドネットワークを統合して,既存のFSODメソッドを改善するためにクエリ機能を強調するプロトタイプ機能を提案する。 改良されたFSODをStrong Baselineと呼び、元のベースラインよりもはるかに優れた性能を示す。 さらに,向き変化のロバスト性を向上させるために,ネットワークを幾何学的変換に不変にする変換不変ネットワーク(tinet)を提案する。 NWPU VHR-10.v2, DIOR, HRRSDの3つのリモートセンシングオブジェクト検出データセットの大規模な実験により,提案手法の有効性が示された。 最後に,リモートセンシング画像のための複数のfsod手法を再現し,追従作業のための広範なベンチマークを作成した。

Object detection in remote sensing images relies on a large amount of labeled data for training. The growing new categories and class imbalance render exhaustive annotation non-scalable. Few-shot object detection~(FSOD) tackles this issue by meta-learning on seen base classes and then fine-tuning on novel classes with few labeled samples. However, the object's scale and orientation variations are particularly large in remote sensing images, thus posing challenges to existing few-shot object detection methods. To tackle these challenges, we first propose to integrate a feature pyramid network and use prototype features to highlight query features to improve upon existing FSOD methods. We refer to the modified FSOD as a Strong Baseline which is demonstrated to perform significantly better than the original baselines. To improve the robustness of orientation variation, we further propose a transformation-invariant network (TINet) to allow the network to be invariant to geometric transformations. Extensive experiments on three widely used remote sensing object detection datasets, i.e., NWPU VHR-10.v2, DIOR, and HRRSD demonstrated the effectiveness of the proposed method. Finally, we reproduced multiple FSOD methods for remote sensing images to create an extensive benchmark for follow-up works.
翻訳日:2023-03-14 16:51:23 公開日:2023-03-13
# テンソル分解に基づくニューラルネットワークトレーニングの確率収束

Provable Convergence of Tensor Decomposition-Based Neural Network Training ( http://arxiv.org/abs/2303.06815v1 )

ライセンス: Link先を確認
Chenyang Li, Bo Shen(参考訳) テンソル列(tt)のような高度なテンソル分解は、テンソル分解に基づくニューラルネットワーク(nn)トレーニングのために広く研究されてきた。 しかし、テンソル分解を伴うトレーニングNNは、常にかなりの精度の損失と収束の問題に悩まされる。 本稿では,tt分解に基づくnnトレーニングを非凸最適化問題として定式化することにより,テンソル分解に基づくnnトレーニングのための包括的枠組みを提案する。 この問題は、勾配のないアルゴリズムであるテンソルブロック座標降下法(tenBCD)によって解決できる。 10BCDのO(1/k) の臨界点への大域収束は、k を反復数とする Kurdyka {\L}ojasiewicz (K{\L}) 特性によって確立される。 理論結果は、一般的な残留ニューラルネットワーク(ResNets)に拡張することができる。 提案手法の有効性と有効性は,画像分類データセットを用いて検証され,提案手法はトレーニングにおいて効率よく収束し,オーバーフィッティングを防止することができる。

Advanced tensor decomposition, such as tensor train (TT), has been widely studied for tensor decomposition-based neural network (NN) training, which is one of the most common model compression methods. However, training NN with tensor decomposition always suffers significant accuracy loss and convergence issues. In this paper, a holistic framework is proposed for tensor decomposition-based NN training by formulating TT decomposition-based NN training as a nonconvex optimization problem. This problem can be solved by the proposed tensor block coordinate descent (tenBCD) method, which is a gradient-free algorithm. The global convergence of tenBCD to a critical point at a rate of O(1/k) is established with the Kurdyka {\L}ojasiewicz (K{\L}) property, where k is the number of iterations. The theoretical results can be extended to the popular residual neural networks (ResNets). The effectiveness and efficiency of our proposed framework are verified through an image classification dataset, where our proposed method can converge efficiently in training and prevent overfitting.
翻訳日:2023-03-14 16:51:01 公開日:2023-03-13
# 有意義な人的指揮:自律兵器システムの道徳的・法的責任を可能にする方法としての先進制御指令

Meaningful Human Command: Advance Control Directives as a method to enable moral and legal responsibility for autonomous weapons systems ( http://arxiv.org/abs/2303.06813v1 )

ライセンス: Link先を確認
Susannah Kate Devitt(参考訳) 21世紀の戦争はスピードが増しており、従来の力は自律システムと人間と機械の統合の大量利用と組み合わせられている。 しかし、重要な課題は、人間が通常の時間的パラメータの外で動作するシステムに対して、道徳的および法的責任を確実にする方法である。 本章では,人間の意識や集中力を十分に把握できないような,非常に遅い作業において,特にリアルタイムよりも早く,将来の状況において起こる行動について,契約の事前の確立により,人間がリアルタイムの外に立ち,自律システムに対する行動の権限を付与できるかどうかを考察する。 advance control driective(advance control driective、advances control driective、acd)では、武器システムの説明責任と責任に要する時間を消費し、熟慮するプロセスが、リアルタイムに捉えられる可能性があることを「advance control driective(advance control driective)」に示す。 この章では、自律システムの展開に先立って、ACDの構築を通じて足場を組み、合法化された「自律コマンド」を提案している。

21st Century war is increasing in speed, with conventional forces combined with massed use of autonomous systems and human-machine integration. However, a significant challenge is how humans can ensure moral and legal responsibility for systems operating outside of normal temporal parameters. This chapter considers whether humans can stand outside of real time and authorise actions for autonomous systems by the prior establishment of a contract, for actions to occur in a future context particularly in faster than real time or in very slow operations where human consciousness and concentration could not remain well informed. The medical legal precdent found in 'advance care directives' suggests how the time-consuming, deliberative process required for accountability and responsibility of weapons systems may be achievable outside real time captured in an 'advance control driective' (ACD). The chapter proposes 'autonomy command' scaffolded and legitimised through the construction of ACD ahead of the deployment of autonomous systems.
翻訳日:2023-03-14 16:50:41 公開日:2023-03-13
# 教師なし人物再識別のための動的クラスタリングとクラスタコントラスト学習

Dynamic Clustering and Cluster Contrastive Learning for Unsupervised Person Re-identification ( http://arxiv.org/abs/2303.06810v1 )

ライセンス: Link先を確認
Ziqi He, Mengjia Xue, Yunhao Du, Zhicheng Zhao, Fei Su(参考訳) unsupervised re-idメソッドは、ラベルのないデータから堅牢で識別的な特徴を学ぶことを目的としている。 しかし、既存のメソッドはRe-IDフレームワークのモジュールパラメータと特徴分布の関係を無視することが多いため、機能の不整合を招き、モデルの性能を阻害する可能性がある。 そこで本研究では,動的クラスタリングとクラスタコントラスト学習(DCCC)手法を提案する。 具体的には,クラス間距離とクラス間距離の変動に適合するように,クラスタリングのハイパーパラメータを調整する動的クラスタリングパラメータスケジューラ(dcps)を設計した。 次に、クラスタ表現ベクトルの重みと局所的特徴相関を一致させるために、動的クラスタコントラスト学習(DyCL)法を設計する。 最後に,ソフトコントラスト損失(L_{ss}$)を平滑化させるラベルを構築し,クラスタコントラスト学習と自己教師学習のバランスを低消費電力で高い計算効率で維持する。 今回提案するdcccの有効性を検証するために,いくつかの公開データセットを用いた実験を行った。

Unsupervised Re-ID methods aim at learning robust and discriminative features from unlabeled data. However, existing methods often ignore the relationship between module parameters of Re-ID framework and feature distributions, which may lead to feature misalignment and hinder the model performance. To address this problem, we propose a dynamic clustering and cluster contrastive learning (DCCC) method. Specifically, we first design a dynamic clustering parameters scheduler (DCPS) which adjust the hyper-parameter of clustering to fit the variation of intra- and inter-class distances. Then, a dynamic cluster contrastive learning (DyCL) method is designed to match the cluster representation vectors' weights with the local feature association. Finally, a label smoothing soft contrastive loss ($L_{ss}$) is built to keep the balance between cluster contrastive learning and self-supervised learning with low computational consumption and high computational efficiency. Experiments on several widely used public datasets validate the effectiveness of our proposed DCCC which outperforms previous state-of-the-art methods by achieving the best performance.
翻訳日:2023-03-14 16:50:21 公開日:2023-03-13
# データ拡張によるソースコード学習の促進:実証的研究

Boosting Source Code Learning with Data Augmentation: An Empirical Study ( http://arxiv.org/abs/2303.06808v1 )

ライセンス: Link先を確認
Zeming Dong, Qiang Hu, Yuejun Guo, Zhenya Zhang, Maxime Cordy, Mike Papadakis, Yves Le Traon, Jianjun Zhao(参考訳) プログラム理解の次の時代は、ソフトウェア問題を解決するために機械学習を使用することによって推進されている。 近年の研究では、ディープニューラルネットワーク(DNN)を様々な重要なソフトウェアタスク、例えばバグ検出やクローン検出に適用するソースコード学習の驚くべき結果が示されている。 この成功は、大量の高品質なトレーニングデータの利用に大きく影響しており、実際には、追加のトレーニングデータを生成する技術であるデータ拡張は、コンピュータビジョンのような様々な領域で広く採用されている。 しかし、ソースコード学習においては、データ拡張は広く研究されておらず、既存のプラクティスはコードリファクタリングのような単純な構文保存メソッドに限られている。 基本的に、ソースコードは、ソースコード学習でトレーニングデータとして使用される場合、テキストデータとして順次、グラフデータとして構造的に2つの方法で表現されることが多い。 このようなアナロジー関係に触発されて,テキストやグラフにもともと使用されるデータ拡張手法が,ソースコード学習のトレーニング品質向上に有効であるかどうかを早期に検討する。 そこで我々はまず,文献におけるデータ拡張手法の収集と分類を行った。 次に、4つの重要なタスクと11のDNNアーキテクチャに関する総合的な実証的研究を行い、12のデータ拡張手法(コードリファクタリングや11のテキストおよびグラフデータを含む)の有効性について検討する。 この結果から、ミックスアップ(テキストのSenMixupやグラフのManifold-Mixupなど)や、ソースコードの構文(テキストのランダムスワップやランダム削除など)をわずかに損なうものなど、ソースコード学習のためのより正確で堅牢なモデルを生成することのできるデータ拡張手法を特定した。

The next era of program understanding is being propelled by the use of machine learning to solve software problems. Recent studies have shown surprising results of source code learning, which applies deep neural networks (DNNs) to various critical software tasks, e.g., bug detection and clone detection. This success can be greatly attributed to the utilization of massive high-quality training data, and in practice, data augmentation, which is a technique used to produce additional training data, has been widely adopted in various domains, such as computer vision. However, in source code learning, data augmentation has not been extensively studied, and existing practice is limited to simple syntax-preserved methods, such as code refactoring. Essentially, source code is often represented in two ways, namely, sequentially as text data and structurally as graph data, when it is used as training data in source code learning. Inspired by these analogy relations, we take an early step to investigate whether data augmentation methods that are originally used for text and graphs are effective in improving the training quality of source code learning. To that end, we first collect and categorize data augmentation methods in the literature. Second, we conduct a comprehensive empirical study on four critical tasks and 11 DNN architectures to explore the effectiveness of 12 data augmentation methods (including code refactoring and 11 other methods for text and graph data). Our results identify the data augmentation methods that can produce more accurate and robust models for source code learning, including those based on mixup (e.g., SenMixup for texts and Manifold-Mixup for graphs), and those that slightly break the syntax of source code (e.g., random swap and random deletion for texts).
翻訳日:2023-03-14 16:50:04 公開日:2023-03-13
# ヒューリスティックな文脈制約によるOCTからOCTAへの変換

Vessel-Promoted OCT to OCTA Image Translation by Heuristic Contextual Constraints ( http://arxiv.org/abs/2303.06807v1 )

ライセンス: Link先を確認
Shuhan Li, Dong Zhang, Xiaomeng Li, Chubin Ou, Lin An, Yanwu Xu, Kwang-Ting Cheng(参考訳) 光コヒーレンス断層撮影法(optical coherence tomography angiography,octa)は,非接触走査法で血管の正確な3dイメージングを撮影できるため,眼底疾患のスクリーニングにおいてますます重要になっている。 しかし、専用のセンサーと高価なデバイスを必要とするため、OCTA画像の取得は依然として困難である。 本稿では,3次元光コヒーレンストモグラフィ(oct)画像を画像変換パターンを用いて排他的3次元オクタ画像に変換する新しい枠組みであるtransproを提案する。 本研究の目的は,既存の画像翻訳ベースラインにおける2つの課題,すなわち翻訳過程の無目的性と翻訳対象の不完全性に対処することである。 前者は、翻訳されたOCTA画像の全体的な品質が良好であるが、網膜血管質は低いことを指している。 後者は、グローバルコンテキストの欠如により、翻訳されたOCTA画像の不完全なオブジェクトを指す。 TransProは2次元網膜血管セグメンテーションモデルと2次元OCTA画像変換モデルを、翻訳OCTA画像によって投影された2次元投影マップの3次元画像翻訳ベースラインにマージする。 2d retinal vascular segmentation modelは網膜血管への注意を高めるが、2d octa image translation modelは有益なヒューリスティックな文脈情報を導入する。 2つの挑戦的なデータセットに対する大規模な実験結果によると、TransProはトレーニング中に最小限の計算オーバーヘッドで既存のアプローチを一貫して上回り、テスト中には何も実行できない。

Optical Coherence Tomography Angiography (OCTA) has become increasingly vital in the clinical screening of fundus diseases due to its ability to capture accurate 3D imaging of blood vessels in a non-contact scanning manner. However, the acquisition of OCTA images remains challenging due to the requirement of exclusive sensors and expensive devices. In this paper, we propose a novel framework, TransPro, that translates 3D Optical Coherence Tomography (OCT) images into exclusive 3D OCTA images using an image translation pattern. Our main objective is to address two issues in existing image translation baselines, namely, the aimlessness in the translation process and incompleteness of the translated object. The former refers to the overall quality of the translated OCTA images being satisfactory, but the retinal vascular quality being low. The latter refers to incomplete objects in translated OCTA images due to the lack of global contexts. TransPro merges a 2D retinal vascular segmentation model and a 2D OCTA image translation model into a 3D image translation baseline for the 2D projection map projected by the translated OCTA images. The 2D retinal vascular segmentation model can improve attention to the retinal vascular, while the 2D OCTA image translation model introduces beneficial heuristic contextual information. Extensive experimental results on two challenging datasets demonstrate that TransPro can consistently outperform existing approaches with minimal computational overhead during training and none during testing.
翻訳日:2023-03-14 16:49:35 公開日:2023-03-13
# 非自己回帰性中間アトラクタによる神経ダイアリゼーション

Neural Diarization with Non-autoregressive Intermediate Attractors ( http://arxiv.org/abs/2303.06806v1 )

ライセンス: Link先を確認
Yusuke Fujita, Tatsuya Komatsu, Robin Scheibler, Yusuke Kida, Tetsuji Ogawa(参考訳) エンコーダデコーダベースアトラクタ(eda)を用いたエンドツーエンドニューラルネットワークダイアリゼーション(eend)は、単一のニューラルネットワークで話者ダイアリゼーション問題全体を同時処理する有望な方法である。 EENDモデルはすべてのフレームレベルの話者ラベルを同時に生成できるが、出力ラベルの依存性を無視する。 本研究では,フレーム間のラベル依存を導入した新しいEENDモデルを提案する。 提案手法は,非自己回帰型中間誘引器を生成し,下位層に話者ラベルを生成し,その後の層にラベルを付与する。 提案モデルは非自己回帰的に機能するが、話者ラベルは中間ラベルの全列を参照して洗練される。 2話者CALLHOMEデータセットを用いた実験により,提案した非自己回帰型中間誘引器を用いた中間ラベルによりダイアリゼーション性能が向上した。 より深いネットワークを持つ提案手法は,中間ラベルの利点が強く,EEND-EDAよりも性能とトレーニングのスループットが向上する。

End-to-end neural diarization (EEND) with encoder-decoder-based attractors (EDA) is a promising method to handle the whole speaker diarization problem simultaneously with a single neural network. While the EEND model can produce all frame-level speaker labels simultaneously, it disregards output label dependency. In this work, we propose a novel EEND model that introduces the label dependency between frames. The proposed method generates non-autoregressive intermediate attractors to produce speaker labels at the lower layers and conditions the subsequent layers with these labels. While the proposed model works in a non-autoregressive manner, the speaker labels are refined by referring to the whole sequence of intermediate labels. The experiments with the two-speaker CALLHOME dataset show that the intermediate labels with the proposed non-autoregressive intermediate attractors boost the diarization performance. The proposed method with the deeper network benefits more from the intermediate labels, resulting in better performance and training throughput than EEND-EDA.
翻訳日:2023-03-14 16:49:09 公開日:2023-03-13
# 人間インスタンスのためのオブジェクト中心型マルチタスク学習

Object-Centric Multi-Task Learning for Human Instances ( http://arxiv.org/abs/2303.06800v1 )

ライセンス: Link先を確認
Hyeongseok Son, Sangil Jung, Solae Lee, Seongeun Kim, Seung-In Park, ByungIn Yoo(参考訳) 人間は、検出、セグメンテーション、ポーズ推定といった視覚認識タスクにおいて最も重要なクラスの一つである。 個々のタスクに多くの労力が費やされているが、これら3つのタスクのマルチタスク学習はほとんど研究されていない。 本稿では,オブジェクト中心学習によって複数のタスクのパラメータを最大に共有する,コンパクトなマルチタスクネットワークアーキテクチャを提案する。 そこで本研究では,Human-centric query (HCQ) と呼ばれる,人間のインスタンス情報を効果的に符号化する新しいクエリ設計を提案する。 hcqにより、クエリはキーポイントのような人間の明示的および構造的な情報も学習できる。 さらに、ターゲットタスクの予測ヘッドにHCQを利用するとともに、トランスフォーマーデコーダの変形可能な注意とHCQを織り込み、よく学習されたオブジェクト中心表現を利用する。 実験の結果,提案するマルチタスクネットワークは,人間の検出,セグメンテーション,ポーズ推定タスクにおいて最先端のタスク固有モデルに匹敵する精度が得られるが,計算コストは少ないことがわかった。

Human is one of the most essential classes in visual recognition tasks such as detection, segmentation, and pose estimation. Although much effort has been put into individual tasks, multi-task learning for these three tasks has been rarely studied. In this paper, we explore a compact multi-task network architecture that maximally shares the parameters of the multiple tasks via object-centric learning. To this end, we propose a novel query design to encode the human instance information effectively, called human-centric query (HCQ). HCQ enables for the query to learn explicit and structural information of human as well such as keypoints. Besides, we utilize HCQ in prediction heads of the target tasks directly and also interweave HCQ with the deformable attention in Transformer decoders to exploit a well-learned object-centric representation. Experimental results show that the proposed multi-task network achieves comparable accuracy to state-of-the-art task-specific models in human detection, segmentation, and pose estimation task, while it consumes less computational costs.
翻訳日:2023-03-14 16:48:49 公開日:2023-03-13
# 方向多様体の積上のガウス過程

Gaussian Process on the Product of Directional Manifolds ( http://arxiv.org/abs/2303.06799v1 )

ライセンス: Link先を確認
Ziyu Cao and Kailai Li(参考訳) 配向多様体の積上の変数上のガウス過程の確立に関する原理的な研究を提案する。 基本機能成分として、単位円上のガウス過程回帰に対するフォン・ミセス分布に基づく多様体適応核が提示される。 その後、相関円成分を考慮したトポロジカルなガウス過程を実現するために、新しい超トロイダルフォン・ミゼス核が導入された。 そこで本研究では,内在的同領域化モデルを用いて高鳥上のベクトル値関数を学習するマルチアウトプット回帰を可能にし,ハイパーパラメータ最適化における解析的導出を提供する。 提案した多出力ハイパートロイダルガウス過程は、未知領域検出モデル学習のためのデータ駆動再帰推定スキームにさらに埋め込まれる。 レンジベースローカライゼーションの評価から,提案手法はパラメトリックモデリングや一般的なガウス過程よりも優れた追跡精度を実現する。

We present a principled study on establishing Gaussian processes over variables on the product of directional manifolds. As a basic functional component, a manifold-adaptive kernel is presented based on the von Mises distribution for Gaussian process regression on unit circles. Afterward, a novel hypertoroidal von Mises kernel is introduced to enable topology-aware Gaussian processes on hypertori with consideration of correlational circular components. Based thereon, we enable multi-output regression for learning vector-valued functions on hypertori using intrinsic coregionalization model and provide analytical derivatives in hyperparameter optimization. The proposed multi-output hypertoroidal Gaussian process is further embedded to a data-driven recursive estimation scheme for learning unknown range sensing models of angle-of-arrival inputs. Evaluations on range-based localization show that the proposed scheme enables superior tracking accuracy over parametric modeling and common Gaussian processes.
翻訳日:2023-03-14 16:48:31 公開日:2023-03-13
# DarkVisionNet:RGB-NIR融合による低照度イメージング

DarkVisionNet: Low-Light Imaging via RGB-NIR Fusion with Deep Inconsistency Prior ( http://arxiv.org/abs/2303.06834v1 )

ライセンス: Link先を確認
Shuangping Jin, Bingbing Yu, Minhao Jing, Yi Zhou, Jiajun Liang, Renhe Ji(参考訳) RGB-NIR融合は低照度イメージングの有望な方法である。 しかし、低照度画像における高強度ノイズは、既存のアルゴリズムに反するRGB-NIR画像間の構造不整合の影響を増幅する。 そこで我々は,DVN (Dark Vision Net) と呼ばれる新しいRGB-NIR融合アルゴリズムを提案し,DIP(Deep Structure and Deep Inconsistency Prior)とDIP(Deep Inconsistency Prior)の2つの技術的特徴について述べる。 ディープ構造は、生の入力空間よりも深いマルチスケールの特徴空間における明確な構造の詳細を抽出する。 RGBドメインとNIRドメインの両方の深い構造に基づいて、RGB-NIRの融合を導くために構造不整合を利用するDIPを導入する。 これより、提案したDVNは、視覚的アーティファクトのない高品質の低照度画像を得る。 また、最初の公開RGBNIR融合ベンチマークとして、一致したRGB-NIR画像ペアからなるDark Vision Dataset (DVD) という新しいデータセットを提案する。 提案したベンチマークの定量的および定性的な結果から、DVNはPSNRとSSIMの他の比較アルゴリズム、特に極低照度環境では著しく優れていた。

RGB-NIR fusion is a promising method for low-light imaging. However, high-intensity noise in low-light images amplifies the effect of structure inconsistency between RGB-NIR images, which fails existing algorithms. To handle this, we propose a new RGB-NIR fusion algorithm called Dark Vision Net (DVN) with two technical novelties: Deep Structure and Deep Inconsistency Prior (DIP). The Deep Structure extracts clear structure details in deep multiscale feature space rather than raw input space, which is more robust to noisy inputs. Based on the deep structures from both RGB and NIR domains, we introduce the DIP to leverage the structure inconsistency to guide the fusion of RGB-NIR. Benefiting from this, the proposed DVN obtains high-quality lowlight images without the visual artifacts. We also propose a new dataset called Dark Vision Dataset (DVD), consisting of aligned RGB-NIR image pairs, as the first public RGBNIR fusion benchmark. Quantitative and qualitative results on the proposed benchmark show that DVN significantly outperforms other comparison algorithms in PSNR and SSIM, especially in extremely low light conditions.
翻訳日:2023-03-14 16:43:14 公開日:2023-03-13
# 変圧器を用いたシンボリック回帰計画

Transformer-based Planning for Symbolic Regression ( http://arxiv.org/abs/2303.06833v1 )

ライセンス: Link先を確認
Parshin Shojaee, Kazem Meidani, Amir Barati Farimani, Chandan K. Reddy(参考訳) 記号回帰(SR)は、その値に基づいて関数の数学的表現を見つけることを含む機械学習における挑戦的なタスクである。 SRの最近の進歩は、合成データセットの大規模事前学習の恩恵を受け、推論時間の観点からGPベースの手法よりもかなりの利点がある、配列として方程式を生成するための事前訓練されたトランスフォーマーベースのモデルの有効性を実証している。 しかし、これらのモデルはテキスト生成から借りた教師付き事前学習目標に焦点を当て、精度や複雑さといった方程式固有の目的を無視している。 そこで本研究では,モンテカルロ木探索をトランスフォーマ復号処理に組み込んだ,トランスフォーマに基づくシンボリック回帰計画戦略TPSRを提案する。 TPSRは、従来の復号法とは対照的に、方程式生成プロセスに外部の知識源として、精度や複雑さなどの非微分可能なフィードバックを統合することができる。 様々なデータセットに対する大規模な実験により、我々のアプローチは最先端の手法よりも優れており、モデルの適合・複雑度トレードオフ、外挿能力、ノイズに対する堅牢性を高めている。 また,様々なキャッシング機構の活用により,tpsrの効率がさらに向上することを示す。

Symbolic regression (SR) is a challenging task in machine learning that involves finding a mathematical expression for a function based on its values. Recent advancements in SR have demonstrated the efficacy of pretrained transformer-based models for generating equations as sequences, which benefit from large-scale pretraining on synthetic datasets and offer considerable advantages over GP-based methods in terms of inference time. However, these models focus on supervised pretraining goals borrowed from text generation and ignore equation-specific objectives like accuracy and complexity. To address this, we propose TPSR, a Transformer-based Planning strategy for Symbolic Regression that incorporates Monte Carlo Tree Search into the transformer decoding process. TPSR, as opposed to conventional decoding strategies, allows for the integration of non-differentiable feedback, such as fitting accuracy and complexity, as external sources of knowledge into the equation generation process. Extensive experiments on various datasets show that our approach outperforms state-of-the-art methods, enhancing the model's fitting-complexity trade-off, extrapolation abilities, and robustness to noise. We also demonstrate that the utilization of various caching mechanisms can further enhance the efficiency of TPSR.
翻訳日:2023-03-14 16:42:49 公開日:2023-03-13
# ODIN:データセットロックインを軽減するオンデマンドデータ定式化

ODIN: On-demand Data Formulation to Mitigate Dataset Lock-in ( http://arxiv.org/abs/2303.06832v1 )

ライセンス: Link先を確認
Spchoi, Jihoon Lee, HyeongSeok Ahn, Sanghee Jung, Bumsoo Kang(参考訳) ODINは、生成AIモデルを統合することでデータセット制約の問題に対処する革新的なアプローチである。 従来のゼロショット学習方法はトレーニングデータセットによって制約される。 この制限を根本的に克服するため、ODINは、ユーザ要求に基づいてオンデマンドデータセットを生成することにより、データセット制約を緩和しようとする。 ODINは、プロンプトジェネレータ、テキスト・ツー・イメージジェネレータ、イメージ・ポストプロセッサの3つの主要モジュールで構成されている。 高品質なプロンプトと画像を生成するために,大言語モデル(chatgptなど)とテキストから画像への拡散モデル(安定拡散など)をそれぞれ採用した。 モデル精度とデータ多様性の観点から様々なデータセット上でODINを評価し,その可能性を示すとともに,さらなる調査のために実験後実験を行った。 全体として、ODINは、Alがトレーニングデータセット以外の見えない知識を学習できるようにする、実現可能なアプローチである。

ODIN is an innovative approach that addresses the problem of dataset constraints by integrating generative AI models. Traditional zero-shot learning methods are constrained by the training dataset. To fundamentally overcome this limitation, ODIN attempts to mitigate the dataset constraints by generating on-demand datasets based on user requirements. ODIN consists of three main modules: a prompt generator, a text-to-image generator, and an image post-processor. To generate high-quality prompts and images, we adopted a large language model (e.g., ChatGPT), and a text-to-image diffusion model (e.g., Stable Diffusion), respectively. We evaluated ODIN on various datasets in terms of model accuracy and data diversity to demonstrate its potential, and conducted post-experiments for further investigation. Overall, ODIN is a feasible approach that enables Al to learn unseen knowledge beyond the training dataset.
翻訳日:2023-03-14 16:42:27 公開日:2023-03-13
# スクイーズ量子場におけるゆらぎ誘起量子放射と原子からの反応

Fluctuations-Induced Quantum Radiation and Reaction from an Atom in a Squeezed Quantum Field ( http://arxiv.org/abs/2303.06831v1 )

ライセンス: Link先を確認
Matthew Bravo, Jen-Tsung Hsiang, and Bei-Lok Hu(参考訳) 量子放射に関する第3のシリーズでは、量子場に保持されている記憶を用いて、初期の宇宙に関する特定の情報を解読する可能性を探る。 モデル研究として、質量を持たない量子場を有限時間間隔でパラメトリックなプロセスにすることで、磁場のモード周波数が1つの定数から別の値に遷移する。 この構成は、静的に有界な宇宙を模倣するが、継続的な進化はしない。 このプロセスによって絞り込まれたフィールドは、プロセス自体の情報を含むべきである。 パラメトリック過程の後、原子が磁場に結合された場合、その応答はスクイーズに依存し、原子から放出される量子放射は、この情報を遠ざけるので、より遅い時間に観測者がそれを識別することができる。 私たちの分析は 1) リモートオブザーバは、純放射エネルギーフラックスがキャンセルされるため、原子からの放射エネルギーフラックスを介して発生するスクイーズを測定することができない。 しかし、 2) 一定の放射エネルギー密度を後期に測定することにより, スクイージングを同定する機会がある。 唯一の制限は、このエネルギー密度が近接場の性質であることである。 本論文の第2部は, 3)パラメトリックプロセスの関数形式に対するスクイージングの依存性。 いくつかの例を通じて、スクイージングの挙動がパラメトリックプロセスの本質的性質を反映していることが示される。 実際、印象的な特徴は様々なスケールを含む複雑なプロセスに現れます。 これらの解析により、圧縮された量子場の性質と、スクイーズを行うパラメトリック過程との間の接続を確立することができる。 そのため 4) 測定可能な量のデータから未知のパラメトリックプロセスを再構成するためのテンプレートを構築することができる。 後続の論文では、これらの結果は宇宙論における量子放射の研究に適用される。

In this third of a series on quantum radiation, we explore the feasibility of using the memories kept in a quantum field to decipher certain information about the early universe. As a model study, we let a massless quantum field be subjected to a parametric process for a finite time interval such that the mode frequency of the field transits from one constant value to another. This configuration mimics a statically-bounded universe, but not a continuously evolving one. The field squeezed by this process should contain information of the process itself. If an atom is coupled to the field after the parametric process, its response will depend on the squeezing, and any quantum radiation emitted by the atom will carry this information away so that an observer at a much later time may still identify it. Our analyses show that 1) a remote observer cannot measure the generated squeezing via the radiation energy flux from the atom because the net radiation energy flux is canceled. However, 2) there is a chance to identify squeezing by measuring the constant radiation energy density at late times. The only restriction is that this energy density is of the near-field nature. The second part of this paper focuses on 3) the dependence of squeezing on the functional form of the parametric process. Via several examples we demonstrate that the behavior of squeezing reflect essential properties of the parametric process. In fact, striking features may show up in complicated processes involving various scales. These analyses allow us to establish the connection between properties of a squeezed quantum field and the parametric process which does the squeezing. Therefore, 4) one can construct templates to reconstitute the unknown parametric processes from the data of measurable quantities subjected to squeezing. In a sequel paper these results will be applied to a study of quantum radiations in cosmology.
翻訳日:2023-03-14 16:42:11 公開日:2023-03-13
# カーネル密度ベイズ逆強化学習

Kernel Density Bayesian Inverse Reinforcement Learning ( http://arxiv.org/abs/2303.06827v1 )

ライセンス: Link先を確認
Aishwarya Mandyam, Didong Li, Diana Cai, Andrew Jones, Barbara E. Engelhardt(参考訳) 逆強化学習(irl)はエージェントの報酬関数の振る舞いを観察することで推測する強力なフレームワークであるが、報酬関数のポイント推定を学習するirlアルゴリズムは、エージェントの振る舞いを等しく記述するいくつかの関数が存在するため、誤解を招く可能性がある。 IRLに対するベイズ的アプローチは、候補報酬関数上の分布をモデル化し、点推定を学習する際の欠点を緩和する。 しかし、いくつかのベイジアンIRLアルゴリズムは、確率関数の代わりに$Q$値関数を使用する。 結果として得られる後続関数は計算に集約的であり、理論的な保証はほとんどなく、$Q$-値関数は可能性の低い近似であることが多い。 本稿では,カーネル密度IRL(KD-BIRL)を導入し,条件付きカーネル密度推定を用いてその可能性を直接近似し,複雑な状態空間と無限の状態空間を持つ環境に適用可能な,報酬関数のパラメータ化を改良した効率的なフレームワークを提供する。 KD-BIRLの利点をグリッドワールド環境における一連の実験とシミュレートされたセシス処理タスクを通じて実証する。

Inverse reinforcement learning~(IRL) is a powerful framework to infer an agent's reward function by observing its behavior, but IRL algorithms that learn point estimates of the reward function can be misleading because there may be several functions that describe an agent's behavior equally well. A Bayesian approach to IRL models a distribution over candidate reward functions, alleviating the shortcomings of learning a point estimate. However, several Bayesian IRL algorithms use a $Q$-value function in place of the likelihood function. The resulting posterior is computationally intensive to calculate, has few theoretical guarantees, and the $Q$-value function is often a poor approximation for the likelihood. We introduce kernel density Bayesian IRL (KD-BIRL), which uses conditional kernel density estimation to directly approximate the likelihood, providing an efficient framework that, with a modified reward function parameterization, is applicable to environments with complex and infinite state spaces. We demonstrate KD-BIRL's benefits through a series of experiments in Gridworld environments and a simulated sepsis treatment task.
翻訳日:2023-03-14 16:41:45 公開日:2023-03-13
# Follow-the-regularized-Leadアルゴリズムによる線形帯域の3次元最適解析

Best-of-three-worlds Analysis for Linear Bandits with Follow-the-regularized-leader Algorithm ( http://arxiv.org/abs/2303.06825v1 )

ライセンス: Link先を確認
Fang Kong, Canzhe Zhao, Shuai Li(参考訳) 線形バンディット問題は、確率的および対角的設定の両方において長年研究されてきた。 損失タイプを知らずに環境を最適化できるアルゴリズムを設計することは、多くの関心を集めている。 \citet{LeeLWZ021} は、損失タイプを積極的に検出し、異なる設定のために特別に設計された異なるアルゴリズムを切り替えるアルゴリズムを提案する。 しかし、このようなアプローチでは、すべての設定でうまく機能するために精巧な設計が必要である。 FTRL(Follow-the-regularized-leader)は、異なる環境に適応できるアルゴリズムタイプである。 このアルゴリズムは単純な設計であり、従来のマルチアームバンディット問題において、検出スウィッチ型アルゴリズムと比較して、後悔境界が最適であることが示されている。 線形バンディットのためのFTRL型アルゴリズムの設計は、長い間開かれてきた重要な問題である。 本稿では, 負エントロピー正規化器を用いたFTRL型アルゴリズムが, 学習率の選択と特殊設計の自己拘束不等式との密接な協調による線形バンディット問題に対して, 最良の3次元結果が得られることを示す。

The linear bandit problem has been studied for many years in both stochastic and adversarial settings. Designing an algorithm that can optimize the environment without knowing the loss type attracts lots of interest. \citet{LeeLWZ021} propose an algorithm that actively detects the loss type and then switches between different algorithms specially designed for different settings. However, such an approach requires meticulous designs to perform well in all settings. Follow-the-regularized-leader (FTRL) is another popular algorithm type that can adapt to different environments. This algorithm is of simple design and the regret bounds are shown to be optimal in traditional multi-armed bandit problems compared with the detect-switch type algorithms. Designing an FTRL-type algorithm for linear bandits is an important question that has been open for a long time. In this paper, we prove that the FTRL-type algorithm with a negative entropy regularizer can achieve the best-of-three-world results for the linear bandit problem with the tacit cooperation between the choice of the learning rate and the specially designed self-bounding inequality.
翻訳日:2023-03-14 16:41:24 公開日:2023-03-13
# Instate: 最後の名前から住居の状態を予測する

Instate: Predicting the State of Residence From Last Name ( http://arxiv.org/abs/2303.06823v1 )

ライセンス: Link先を確認
Atul Dhingra, Gaurav Sood(参考訳) インドには22の公用語がある。 このような多様な言語基盤を実現することは、調査統計学者、コールセンターオペレーター、ソフトウェア開発者、その他のサービスプロバイダにとって課題である。 ローカライゼーションの改善を通じて、さまざまな言語コミュニティにより良いサービスを提供するために、ユーザが自分の名前から話せる言語を予測する新しい機械学習モデルを紹介します。 インドの33の州にまたがる約438万のレコードと、インドの選挙人ロールス社(?)の1.13万のユニークなラストネームを用いて、ラストネームに基づいて居住状態を予測する文字レベルのトランスフォーマーベースの機械学習モデルを構築した。 このモデルは、見えない名前で85.3%のtop-3精度を持つ。 インド人の国勢調査を用いて各州を言語にマップし、応答者が理解した言語を推測する。 本論文で論じる手法を実装したオープンソースソフトウェアを提供する。

India has twenty-two official languages. Serving such a diverse language base is a challenge for survey statisticians, call center operators, software developers, and other such service providers. To help provide better services to different language communities via better localization, we introduce a new machine learning model that predicts the language(s) that the user can speak from their name. Using nearly 438M records spanning 33 Indian states and 1.13M unique last names from the Indian Electoral Rolls Corpus (?), we build a character-level transformer-based machine-learning model that predicts the state of residence based on the last name. The model has a top-3 accuracy of 85.3% on unseen names. We map the states to languages using the Indian census to infer languages understood by the respondent. We provide open-source software that implements the method discussed in the paper.
翻訳日:2023-03-14 16:41:05 公開日:2023-03-13
# SDF-3DGAN: 入出力符号距離関数に基づく3次元オブジェクト生成法

SDF-3DGAN: A 3D Object Generative Method Based on Implicit Signed Distance Function ( http://arxiv.org/abs/2303.06821v1 )

ライセンス: Link先を確認
Lutao Jiang, Ruyi Ji, Libo Zhang(参考訳) 本稿では,3次元オブジェクト生成のためのSDF-3DGANと呼ばれる新しい手法を開発し,生成領域における3次元オブジェクト表現法として暗黙の符号付き距離関数(SDF)を導入する。 空間における3次元物体の高画質表現にSDFを適用し,高効率かつ高精度な新しいSDFニューラルレンダラーを設計する。 2次元画像のみをトレーニングするために、まずガウス分布からSDFで表現されたオブジェクトを生成する。 そして、それらを2D画像にレンダリングし、データセット内の2D画像とともにGANトレーニング手法を適用する。 新しいレンダリング法では,従来のSDFニューラルレンダラの計算圧力を軽減するために,SDFの数学的特性のポテンシャルをすべて緩和する。 具体的には、新しいSDFニューラルレンダラーは、サンプリングポイント数が不十分な場合に、サンプリングのあいまいさを解消し、より少ないポイントを使用してレンダリングパイプラインで高品質なサンプリングタスクを完了する。 このレンダリングパイプラインでは、表面を容易に見つけることができます。 したがって, 生成した物体表面の平滑性を制御するために, 正常な損失を適用することで, 従来よりも優れた品質を享受できる。 3Dオブジェクト生成タスクと3D-Aware画像合成タスクにおける最先端手法に対する定量的および定性的な評価実験を行った。 私たちのコードはhttps://github.com/lutao2021/SDF-3DGANで公開されます。

In this paper, we develop a new method, termed SDF-3DGAN, for 3D object generation and 3D-Aware image synthesis tasks, which introduce implicit Signed Distance Function (SDF) as the 3D object representation method in the generative field. We apply SDF for higher quality representation of 3D object in space and design a new SDF neural renderer, which has higher efficiency and higher accuracy. To train only on 2D images, we first generate the objects, which are represented by SDF, from Gaussian distribution. Then we render them to 2D images and use them to apply GAN training method together with 2D images in the dataset. In the new rendering method, we relieve all the potential of SDF mathematical property to alleviate computation pressure in the previous SDF neural renderer. In specific, our new SDF neural renderer can solve the problem of sampling ambiguity when the number of sampling point is not enough, \ie use the less points to finish higher quality sampling task in the rendering pipeline. And in this rendering pipeline, we can locate the surface easily. Therefore, we apply normal loss on it to control the smoothness of generated object surface, which can make our method enjoy the much higher generation quality. Quantitative and qualitative experiments conducted on public benchmarks demonstrate favorable performance against the state-of-the-art methods in 3D object generation task and 3D-Aware image synthesis task. Our codes will be released at https://github.com/lutao2021/SDF-3DGAN.
翻訳日:2023-03-14 16:40:49 公開日:2023-03-13
# クロスレゾリューション知識蒸留に基づく連続手話認識

Continuous sign language recognition based on cross-resolution knowledge distillation ( http://arxiv.org/abs/2303.06820v1 )

ライセンス: Link先を確認
Qidan Zhu, Jing Li, Fei Yuan, Quan Gan(参考訳) 連続手話認識(CSLR)研究の目標は,CSLRモデルを実生活におけるコミュニケーションツールとして活用することであり,モデルのリアルタイム要求が重要である。 本稿では,クロスレゾリューション知識蒸留によるモデル実時間問題に対処する。 本研究では, 学生ネットワークの出力と教師ネットワークのフレームレベルの特徴量を一定に保つことは, 特徴蒸留のためのフレームレベルの特徴量を回復させるよりも優れていることを示した。 そこで本研究では,教師ネットワークが出力するフレームレベル特徴量と同じスケールで出力フレームレベル特徴量を保持する新しいフレームレベル特徴抽出器を提案する。 さらに,従来の研究で提案したTSCM+2Dハイブリッド畳み込みと組み合わせて,CSLRネットワーク-Low解像度入力ネット(LRINet)を新たに構築する。 その後、クロスレゾリューション知識蒸留と伝統的な知識蒸留法を組み合わせて、クロスレゾリューション知識蒸留(CRKD)に基づくCSLRモデルを形成する。 CRKDは、教師ネットワークへの入力として高解像度フレームを使用し、トレーニング後の重みをロックし、学生ネットワークLRINetへの入力として低解像度フレームを使用して、フレームレベルの特徴と分類機能に関する知識蒸留を行う。 2つの大規模連続手話データセットの実験によりCRKDの有効性が証明された。 入力として高分解能データを用いたモデルと比較すると、モデルの計算量、パラメータ量、推論時間が同じ実験条件下で大幅に削減され、モデルの精度が保証され、他の高度な手法と比較して非常に競争力のある結果が得られた。

The goal of continuous sign language recognition(CSLR) research is to apply CSLR models as a communication tool in real life, and the real-time requirement of the models is important. In this paper, we address the model real-time problem through cross-resolution knowledge distillation. In our study, we found that keeping the frame-level feature scales consistent between the output of the student network and the teacher network is better than recovering the frame-level feature sizes for feature distillation. Based on this finding, we propose a new frame-level feature extractor that keeps the output frame-level features at the same scale as the output of by the teacher network. We further combined with the TSCM+2D hybrid convolution proposed in our previous study to form a new lightweight end-to-end CSLR network-Low resolution input net(LRINet). It is then used to combine cross-resolution knowledge distillation and traditional knowledge distillation methods to form a CSLR model based on cross-resolution knowledge distillation (CRKD). The CRKD uses high-resolution frames as input to the teacher network for training, locks the weights after training, and then uses low-resolution frames as input to the student network LRINet to perform knowledge distillation on frame-level features and classification features respectively. Experiments on two large-scale continuous sign language datasets have proved the effectiveness of CRKD. Compared with the model with high-resolution data as input, the calculation amount, parameter amount and inference time of the model have been significantly reduced under the same experimental conditions, while ensuring the accuracy of the model, and has achieved very competitive results in comparison with other advanced methods.
翻訳日:2023-03-14 16:40:22 公開日:2023-03-13
# TranSG: 人物再同定のための構造トラジェクトリ・プロンプト再構成を用いたトランスフォーマーベースのスケルトングラフ原型コントラスト学習

TranSG: Transformer-Based Skeleton Graph Prototype Contrastive Learning with Structure-Trajectory Prompted Reconstruction for Person Re-Identification ( http://arxiv.org/abs/2303.06819v1 )

ライセンス: Link先を確認
Haocong Rao, Chunyan Miao(参考訳) 3Dスケルトンデータによる人物再識別(re-ID)は、顕著な優位性を持つ新興トピックである。 既存の手法は通常、体関節を持つ骨格記述子を設計したり、骨格配列表現学習を行う。 しかし、それらは通常、異なる体-成分関係を同時モデル化することはできず、身体関節の細粒度表現から有用な意味論を探索することが滅多にない。 本稿では,骨格関係と空間-時空間意味論を完全に捉えるための構造-軌跡誘導型コントラスト・ラーニング(transg)アプローチを提案する。 具体的には、スケルトングラフ変換器(SGT)を用いて、骨格グラフ内の身体と運動の関係を同時に学習し、キー相関ノードの特徴をグラフ表現に集約する。 そこで我々は,グラフ表現と異なるプロトタイプの類似性を比較検討し,識別グラフ表現を学習するために,グラフプロトタイプ学習(GPC)を提案する。 最後に、グラフノードの空間的および時間的コンテキストを利用して、スケルトングラフ再構成を促進するために、stpr(graph structure-trajectoryinduced reconstruction)メカニズムが提案されている。 実証的な評価は、TranSGが既存の最先端手法を著しく上回っていることを示している。 さらに、異なるグラフモデリング、RGB推定スケルトン、教師なしシナリオの下で、その一般化を示す。

Person re-identification (re-ID) via 3D skeleton data is an emerging topic with prominent advantages. Existing methods usually design skeleton descriptors with raw body joints or perform skeleton sequence representation learning. However, they typically cannot concurrently model different body-component relations, and rarely explore useful semantics from fine-grained representations of body joints. In this paper, we propose a generic Transformer-based Skeleton Graph prototype contrastive learning (TranSG) approach with structure-trajectory prompted reconstruction to fully capture skeletal relations and valuable spatial-temporal semantics from skeleton graphs for person re-ID. Specifically, we first devise the Skeleton Graph Transformer (SGT) to simultaneously learn body and motion relations within skeleton graphs, so as to aggregate key correlative node features into graph representations. Then, we propose the Graph Prototype Contrastive learning (GPC) to mine the most typical graph features (graph prototypes) of each identity, and contrast the inherent similarity between graph representations and different prototypes from both skeleton and sequence levels to learn discriminative graph representations. Last, a graph Structure-Trajectory Prompted Reconstruction (STPR) mechanism is proposed to exploit the spatial and temporal contexts of graph nodes to prompt skeleton graph reconstruction, which facilitates capturing more valuable patterns and graph semantics for person re-ID. Empirical evaluations demonstrate that TranSG significantly outperforms existing state-of-the-art methods. We further show its generality under different graph modeling, RGB-estimated skeletons, and unsupervised scenarios.
翻訳日:2023-03-14 16:39:54 公開日:2023-03-13
# 広範囲データ拡張による新規白質路のワンショットセグメンテーション

One-Shot Segmentation of Novel White Matter Tracts via Extensive Data Augmentation ( http://arxiv.org/abs/2303.06852v1 )

ライセンス: Link先を確認
Wan Liu, Qi Lu, ZhiZheng Zhuo, Yaou Liu, Chuyang Ye(参考訳) 深層学習に基づく手法は, 自動ホワイトマター(WM)トラクションセグメンテーションの最先端性能を達成した。 これらの方法では、セグメンテーションモデルは、多くの手動のアノテーション付きスキャンでトレーニングする必要があります。 既存の注釈付きWMトラクトに含まれていない新規なWMトラクトがセグメンテーションされる場合、これらの新規なWMトラクトの追加アノテーションを収集する必要がある。 トラクションアノテーションは時間と費用がかかるため、セグメンテーションモデルをトレーニングするための新しいWMトラクトのアノテーションを少しだけ作成することが望ましいが、これまでの研究は、既存のWMトラクトをセグメンテーションする際の知識を新しいWMトラクトのセグメンテーションに転送することでこの問題に対処してきた。 しかし,新しいWMトラクトの正確なセグメンテーションは,新規なWMトラクトに対して1つのスキャンのみをアノテートするワンショット環境では依然として困難である。 本研究では,新しいWMトラクタのワンショットセグメンテーションの問題について検討する。 既存の知識伝達フレームワークをベースとして,注釈付きトレーニングデータのワンショット設定は極めて少ないため,合成注釈付きトレーニングデータを生成する単一アノテーション付きスキャンに対して,広範なデータ拡張を行うことを提案する。 我々は、データ拡張のための単一の注釈付きスキャンの領域を隠蔽するいくつかの異なる戦略を設計した。 提案手法は,公開および社内データセットを用いて評価した。 実験結果から,新しいWMトラクターのワンショットセグメンテーションの精度が向上することが示唆された。

Deep learning based methods have achieved state-of-the-art performance for automated white matter (WM) tract segmentation. In these methods, the segmentation model needs to be trained with a large number of manually annotated scans, which can be accumulated throughout time. When novel WM tracts, i.e., tracts not included in the existing annotated WM tracts, are to be segmented, additional annotations of these novel WM tracts need to be collected. Since tract annotation is time-consuming and costly, it is desirable to make only a few annotations of novel WM tracts for training the segmentation model, and previous work has addressed this problem by transferring the knowledge learned for segmenting existing WM tracts to the segmentation of novel WM tracts. However, accurate segmentation of novel WM tracts can still be challenging in the one-shot setting, where only one scan is annotated for the novel WM tracts. In this work, we explore the problem of one-shot segmentation of novel WM tracts. Since in the one-shot setting the annotated training data is extremely scarce, based on the existing knowledge transfer framework, we propose to further perform extensive data augmentation for the single annotated scan, where synthetic annotated training data is produced. We have designed several different strategies that mask out regions in the single annotated scan for data augmentation. Our method was evaluated on public and in-house datasets. The experimental results show that our method improves the accuracy of one-shot segmentation of novel WM tracts.
翻訳日:2023-03-14 16:33:24 公開日:2023-03-13
# オンラインエッジサービスホスティングの後悔について

On the Regret of Online Edge Service Hosting ( http://arxiv.org/abs/2303.06851v1 )

ライセンス: Link先を確認
R Sri Prakash, Nikhil Karamchandani, Sharayu Moharir(参考訳) サービス提供者が短期契約を通じてエッジリソースを動的にレンタルし、顧客にとってより良いサービス品質を確保するサービスホスティングの問題を考える。 サービスがエッジで部分的にホストされる場合もあり、その場合、顧客の要求はエッジで部分的に提供される。 システムによって発生する総コストは、レンタルコスト、サービス提供の遅延によるサービスコスト、およびエッジでサービスをホストするためにクラウドサーバからサービスのコード/データベースを取得するのに使われる帯域幅の結果として発生するフェッチコストの組み合わせとしてモデル化される。 本稿では、複数のホスティングポリシーと、そのポリシーがもたらすコストと、ある時間帯における最適ポリシーとの差として定義した基準として後悔とを比較した。 特に,レトロレンタル(rr)を考慮し,文献に提案されている乱れたリーダ(ftpl)ポリシーに従い,これらのポリシーの後悔に対するパフォーマンス保証を提供する。 RRポリシは線形後悔であり,FTPLポリシは常に後悔していることを示す。 次に,FTPLの変種である Wait then FTPL (W-FTPL)を提案する。 また, RR ポリシは線形後悔であり, FTPL と W-FTPL はともに順序最適である $\mathrm{O}(\sqrt{T})$ を後悔していることを示す。

We consider the problem of service hosting where a service provider can dynamically rent edge resources via short term contracts to ensure better quality of service to its customers. The service can also be partially hosted at the edge, in which case, customers' requests can be partially served at the edge. The total cost incurred by the system is modeled as a combination of the rent cost, the service cost incurred due to latency in serving customers, and the fetch cost incurred as a result of the bandwidth used to fetch the code/databases of the service from the cloud servers to host the service at the edge. In this paper, we compare multiple hosting policies with regret as a metric, defined as the difference in the cost incurred by the policy and the optimal policy over some time horizon $T$. In particular we consider the Retro Renting (RR) and Follow The Perturbed Leader (FTPL) policies proposed in the literature and provide performance guarantees on the regret of these policies. We show that under i.i.d stochastic arrivals, RR policy has linear regret while FTPL policy has constant regret. Next, we propose a variant of FTPL, namely Wait then FTPL (W-FTPL), which also has constant regret while demonstrating much better dependence on the fetch cost. We also show that under adversarial arrivals, RR policy has linear regret while both FTPL and W-FTPL have regret $\mathrm{O}(\sqrt{T})$ which is order-optimal.
翻訳日:2023-03-14 16:32:56 公開日:2023-03-13
# 逆ゼロエラーチャネル符号化におけるハーディの非局所相関の利点

Advantage of Hardy's Nonlocal Correlation in Reverse Zero-Error Channel Coding ( http://arxiv.org/abs/2303.06848v1 )

ライセンス: Link先を確認
Mir Alimuddin, Ananya Chakraborty, Govind Lal Sidhardh, Ram Krishna Patra, Samrat Sen, Snehasish Roy Chowdhury, Sahil Gopalkrishna Naik, Manik Banik(参考訳) ハーディの議論は、素数ベルの定理によって確立された量子非局所性のエレガントな証明を構成する。 本研究では,ハーディの非局所相関のエキゾチックな応用を報告する。 我々は,単純な通信タスクを考案し,受信機への1ビット通信のみを許可した場合に,タスクの期待した利益が正であることを示し,そうでなければ古典的相関を無制限に共有できる。 興味深いことに、同じ古典的チャンネルはハーディの非局所性を示す相関を補助するときに正の報酬を保証できる。 結果として、2-input-2-output no-signaling correlationsのうち、ハーディの相関のみが1-cbitチャンネルの補助で正の報酬を保証できることがわかった。 これにより、相関を補助する逆ゼロエラーチャネル符号化シナリオにおいて、相関を補助するノイズのないチャネルで正確にシミュレートすることを目的としている場合、極端にゼロの絡み合いがある場合でも、非極端に純粋な絡み合い状態の補助が望ましいことが示される。

Hardy's argument constitutes an elegant proof of quantum nonlocality as established by the seminal Bell's theorem. In this work, we report an exotic application of Hardy's nonlocal correlations. We devise a simple communication task and show that the expected payoff of the task cannot be positive whenever only 1-cbit communication is allowed from the sender to the receiver, who otherwise can share an unlimited amount of classical correlation. Interestingly, the same classical channel can ensure a positive payoff when assisted with correlations exhibiting Hardy's nonlocality. As it turns out, among all the 2-input-2-output no-signaling correlations, only Hardy's correlation can ensure a positive payoff when assisted to 1-cbit channel. This further prompts us to show that in the correlation assisted reverse zero-error channel coding scenario, where the aim is to simulate a noisy channel exactly by a noiseless one in assistance with correlations, assistance of non-maximally pure entangled states -- even with vanishingly zero amount of entanglement -- could be preferable over the maximal one.
翻訳日:2023-03-14 16:32:28 公開日:2023-03-13
# 論理ラベルからのラベル分布学習

Label Distribution Learning from Logical Label ( http://arxiv.org/abs/2303.06847v1 )

ライセンス: Link先を確認
Yuheng Jia, Jiawei Tang, Jiahao Jiang(参考訳) ラベル分布学習(LDL)は、サンプルのラベル記述度(ラベル分布)を予測する効果的な方法である。 しかし、トレーニングサンプルのアノテートラベル分布(LD)は非常にコストがかかる。 そのため、最近の研究はまずまずラベル拡張(LE)を用いて、論理ラベルから推定されたラベル分布を生成し、それから復元されたラベル分布に外部LCLアルゴリズムを適用し、未知のサンプルのラベル分布を予測する。 しかし、この段階的なやり方はleとldlのつながりを見落としている。 さらに、既存のLEアプローチは、いくつかの記述度を無効なラベルに割り当てることができる。 上記の問題を解決するために,論理ラベルから直接LDLモデルを学習する新しい手法を提案し,LEとLDLを結合モデルに統合し,従来のLE手法の欠点を回避する。 様々なデータセットに関する広範囲な実験により、提案手法は論理ラベルから直接信頼できるldlモデルを構築し、最先端のle法よりも正確なラベル分布を生成することが証明された。

Label distribution learning (LDL) is an effective method to predict the label description degree (a.k.a. label distribution) of a sample. However, annotating label distribution (LD) for training samples is extremely costly. So recent studies often first use label enhancement (LE) to generate the estimated label distribution from the logical label and then apply external LDL algorithms on the recovered label distribution to predict the label distribution for unseen samples. But this step-wise manner overlooks the possible connections between LE and LDL. Moreover, the existing LE approaches may assign some description degrees to invalid labels. To solve the above problems, we propose a novel method to learn an LDL model directly from the logical label, which unifies LE and LDL into a joint model, and avoids the drawbacks of the previous LE methods. Extensive experiments on various datasets prove that the proposed approach can construct a reliable LDL model directly from the logical label, and produce more accurate label distribution than the state-of-the-art LE methods.
翻訳日:2023-03-14 16:32:10 公開日:2023-03-13
# ランダムコンパイルによる量子誤差補正の改善

Improved quantum error correction with randomized compiling ( http://arxiv.org/abs/2303.06846v1 )

ライセンス: Link先を確認
Aditya Jain, Pavithran Iyer, Stephen D. Bartlett and Joseph Emerson(参考訳) 現在の量子コンピューティングのハードウェアは高いレベルのノイズに悩まされており、実用的なフォールトトレラント量子コンピューティングを実現するには、量子回路のエラーを修正するための強力で効率的な方法が必要となる。 本稿では,ノイズ調整手法を用いた誤り訂正符号の性能向上における役割と有効性について検討する。 ランダム化コンパイル(RC)のようなノイズ調整手法は、複雑なコヒーレントノイズ処理を有効確率雑音に変換する。 効率的な診断ツールの設計に利用できることは知られているが、エラー訂正コードの性能に与える影響について検討する。 特に興味深いのは、制御エラーから生じるコヒーレントエラーの重要なクラスであり、RCは最大効果を持ち、これらを純粋に確率的なエラーに変換する。 これらのエラーに対して、rcは結合したsteaneコードのパフォーマンスを数桁改善することを示している。 また,しきい値回転角以下では,符号の大きさを増加させることで,論理忠実度の向上を任意に拡大できることを示した。 これらの結果から, ランダム化コンパイルを用いることで, 耐故障性を実現するために必要なリソースオーバーヘッドを大幅に削減できる可能性が示唆された。

Current hardware for quantum computing suffers from high levels of noise, and so to achieve practical fault-tolerant quantum computing will require powerful and efficient methods to correct for errors in quantum circuits. Here, we explore the role and effectiveness of using noise tailoring techniques to improve the performance of error correcting codes. Noise tailoring methods such as randomized compiling (RC) convert complex coherent noise processes to effective stochastic noise. While it is known that this can be leveraged to design efficient diagnostic tools, we explore its impact on the performance of error correcting codes. Of particular interest is the important class of coherent errors, arising from control errors, where RC has the maximum effect -- converting these into purely stochastic errors. For these errors, we show here that RC delivers an improvement in performance of the concatenated Steane code by several orders of magnitude. We also show that below a threshold rotation angle, the gains in logical fidelity can be arbitrarily magnified by increasing the size of the codes. These results suggest that using randomized compiling can lead to a significant reduction in the resource overhead required to achieve fault tolerance.
翻訳日:2023-03-14 16:31:53 公開日:2023-03-13
# 生体信号を用いた痛み分類のためのマルチスケールディープラーニングを用いたトランスフォーマーエンコーダ

Transformer Encoder with Multiscale Deep Learning for Pain Classification Using Physiological Signals ( http://arxiv.org/abs/2303.06845v1 )

ライセンス: Link先を確認
Zhenyuan Lu, Burcu Ozek, Sagar Kamarthi(参考訳) 痛みは世界中で深刻な健康問題であり、人口の大部分に影響を与える。 痛みの効率的な管理と治療には、痛みの重症度の正確な分類と評価が必要である。 しかし、痛みは主観的な感覚駆動体験であるため、これは難しい。 痛みの強さを測定する伝統的なテクニック、例えば自己報告尺度は、バイアスを受けやすく、一部のケースでは信頼できない。 したがって、より客観的かつ自動的な痛み強度評価戦略が必要である。 本研究では,生理的シグナルを入力として,痛み強度を分類する新しいトランスフォーマーエンコーダディープラーニングフレームワークPainAttnNet(PAN)を開発した。 提案手法は,マルチスケール畳み込みネットワーク (mscn) , 押出残差ネットワーク (seresnet) およびトランスコーダブロックの3つの特徴抽出アーキテクチャで構成されている。 痛み刺激に基づいて,MSCNは短ウィンドウ情報と長ウィンドウ情報と逐次特徴を抽出する。 SEResNetは、機能間の依存性をマッピングすることで、関連する抽出機能を強調している。 第3のアーキテクチャでは、3つの時間的畳み込みネットワーク(TCN)と3つのマルチヘッドアテンション(MHA)レイヤで構成されるトランスフォーマーエンコーダを使用して、特徴から時間的依存関係を抽出する。 公開のbiovid painデータセットを使用して、提案する painattnnet モデルをテストし、その結果が最先端のモデルを上回ることを実証する。 以上の結果から, 生理的信号を用いた痛み強度の自動分類は, 痛み管理と治療を改善するために有効であることが示唆された。

Pain is a serious worldwide health problem that affects a vast proportion of the population. For efficient pain management and treatment, accurate classification and evaluation of pain severity are necessary. However, this can be challenging as pain is a subjective sensation-driven experience. Traditional techniques for measuring pain intensity, e.g. self-report scales, are susceptible to bias and unreliable in some instances. Consequently, there is a need for more objective and automatic pain intensity assessment strategies. In this research, we develop PainAttnNet (PAN), a novel transfomer-encoder deep-learning framework for classifying pain intensities with physiological signals as input. The proposed approach is comprised of three feature extraction architectures: multiscale convolutional networks (MSCN), a squeeze-and-excitation residual network (SEResNet), and a transformer encoder block. On the basis of pain stimuli, MSCN extracts short- and long-window information as well as sequential features. SEResNet highlights relevant extracted features by mapping the interdependencies among features. The third architecture employs a transformer encoder consisting of three temporal convolutional networks (TCN) with three multi-head attention (MHA) layers to extract temporal dependencies from the features. Using the publicly available BioVid pain dataset, we test the proposed PainAttnNet model and demonstrate that our outcomes outperform state-of-the-art models. These results confirm that our approach can be utilized for automated classification of pain intensity using physiological signals to improve pain management and treatment.
翻訳日:2023-03-14 16:31:36 公開日:2023-03-13
# 階層的関係推論によるシーングラフ生成

Scene Graph Generation from Hierarchical Relationship Reasoning ( http://arxiv.org/abs/2303.06842v1 )

ライセンス: Link先を確認
Bowen Jiang and Camillo J. Taylor(参考訳) 本稿では,物体間の関係を視覚的に再現する新しい手法について述べる。 オブジェクトと関係のカテゴリを分離するために課せられる、有益で階層的な構造を明示的に利用します。 特に,提案手法では,ベイズ予測ヘッドを実装し,そのスーパーカテゴリ内の詳細な関係と2つのオブジェクト間のスーパーカテゴリや関係のタイプを共同で予測する。 この設計はクラス不均衡の問題の影響を低減する。 本稿では,視覚ゲノムとopenimage v6データセットについて実験結果を示し,この因子化アプローチにより,比較的単純なモデルが,特に述語分類やゼロショットタスクにおいて,競争性能を達成することができることを示した。

This paper describes a novel approach to deducing relationships between objects in a visual scene. It explicitly exploits an informative hierarchical structure that can be imposed to divide the object and relationship categories into disjoint super-categories. Specifically, our proposed scheme implements a Bayes prediction head to jointly predict the super-category or type of relationship between the two objects, along with the detailed relationship within that super-category. This design reduces the impact of class imbalance problems. We present experimental results on the Visual Genome and OpenImage V6 datasets showing that this factorized approach allows a relatively simple model to achieve competitive performance, especially on predicate classification and zero-shot tasks.
翻訳日:2023-03-14 16:31:11 公開日:2023-03-13
# RNN Seq2seqモデルによるトランスダクションとアライメントの学習

Learning Transductions and Alignments with RNN Seq2seq Models ( http://arxiv.org/abs/2303.06841v1 )

ライセンス: Link先を確認
Zhengxiang Wang(参考訳) 本稿では,4つの文字列から文字列への変換タスク(identity,reversal,total reduplication,input-specificified reduplication)の学習におけるrecurrent-neural-network sequence to sequence(rnn seq2seq)モデルの能力について検討した。 これらのトランスダクションは伝統的に有限状態トランスデューサの下でよく研究されており、様々な複雑さがある。 RNN seq2seqモデルでは,トレーニングデータや分布内データに適合するマッピングを近似することができる。 注意は大いに役立つが、分布外一般化の限界は解決しない。 タスクの複雑さとRNNのバリエーションも結果に重要な役割を果たします。 この結果は,文字列トランスダクションとは対照的に,形式言語の複雑性階層の観点から最もよく理解されている。

The paper studies the capabilities of Recurrent-Neural-Network sequence to sequence (RNN seq2seq) models in learning four string-to-string transduction tasks: identity, reversal, total reduplication, and input-specified reduplication. These transductions are traditionally well studied under finite state transducers and attributed with varying complexity. We find that RNN seq2seq models are only able to approximate a mapping that fits the training or in-distribution data. Attention helps significantly, but does not solve the out-of-distribution generalization limitation. Task complexity and RNN variants also play a role in the results. Our results are best understood in terms of the complexity hierarchy of formal languages as opposed to that of string transductions.
翻訳日:2023-03-14 16:30:59 公開日:2023-03-13
# DDFM:多モード画像融合のための拡散モデル

DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion ( http://arxiv.org/abs/2303.06840v1 )

ライセンス: Link先を確認
Zixiang Zhao, Haowen Bai, Yuanzhi Zhu, Jiangshe Zhang, Shuang Xu, Yulun Zhang, Kai Zhang, Deyu Meng, Radu Timofte, Luc Van Gool(参考訳) マルチモーダル画像融合は、機能ハイライトやテクスチャ詳細など、各モーダルの相補的な特徴を保持する融合画像を生成するために、様々なモダリティを組み合わせることを目的としている。 不安定な学習や,GANに基づく生成手法の解釈可能性の欠如といった課題に対処するために,拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。 融合タスクはDDPMサンプリングフレームワークの下で条件生成問題として定式化され、さらに非条件生成サブプロブレムと最大極大サブプロブレムに分割される。 後者は潜在変数を持つ階層ベイズ的手法でモデル化され、期待最大化アルゴリズムによって推定される。 拡散サンプリングイテレーションに推論ソリューションを組み込むことにより,音源画像から自然画像生成前処理とクロスモダリティ情報を含む高品質な融合画像を生成することができる。 必要なのは条件のない事前学習生成モデルだけで、微調整は不要である。 広範にわたる実験により,近赤外可視画像融合と医用画像融合の有望な融合が得られた。 コードはリリースされます。

Multi-modality image fusion aims to combine different modalities to produce fused images that retain the complementary features of each modality, such as functional highlights and texture details. To leverage strong generative priors and address challenges such as unstable training and lack of interpretability for GAN-based generative methods, we propose a novel fusion algorithm based on the denoising diffusion probabilistic model (DDPM). The fusion task is formulated as a conditional generation problem under the DDPM sampling framework, which is further divided into an unconditional generation subproblem and a maximum likelihood subproblem. The latter is modeled in a hierarchical Bayesian manner with latent variables and inferred by the expectation-maximization algorithm. By integrating the inference solution into the diffusion sampling iteration, our method can generate high-quality fused images with natural image generative priors and cross-modality information from source images. Note that all we required is an unconditional pre-trained generative model, and no fine-tuning is needed. Our extensive experiments indicate that our approach yields promising fusion results in infrared-visible image fusion and medical image fusion. The code will be released.
翻訳日:2023-03-14 16:30:33 公開日:2023-03-13
# ラベルエンハンスメントのためのラベル情報ボトルネック

Label Information Bottleneck for Label Enhancement ( http://arxiv.org/abs/2303.06836v1 )

ライセンス: Link先を確認
Qinghai Zheng, Jihua Zhu, Haoyu Tang(参考訳) 本研究では,論理ラベルからラベル分布を正確に復元することを目的としたラベル拡張(LE)の課題に焦点をあて,LEのための新しいラベル情報ボトルネック(LIB)手法を提案する。 ラベル分布の回復過程において、データセットに含まれる無関係なラベル情報は、不満足な回復性能をもたらす可能性がある。 この制限に対処するため,我々は,リカバリ性能を向上させるために必要不可欠なラベル関連情報を発掘する努力を行う。 LE問題を以下の2つの共同プロセスとして定式化する。 1) 本質的ラベル関連情報で表現を学習すること。 2)学習した表現に基づいてラベル分布を復元する。 ラベル関連情報は、学習表現によって形成された「ボトルネック」に基づいて発掘することができる。 本手法では,ラベル割り当てに関するラベル関連情報とラベルギャップに関するラベル関連情報の両方を探索することができる。 複数のベンチマークラベル分布学習データセットで実施した評価実験により,LIBの有効性と競争性を検証した。 私たちのソースコードは "https://github.com/qinghai-zheng/LIBLE" で利用可能です。

In this work, we focus on the challenging problem of Label Enhancement (LE), which aims to exactly recover label distributions from logical labels, and present a novel Label Information Bottleneck (LIB) method for LE. For the recovery process of label distributions, the label irrelevant information contained in the dataset may lead to unsatisfactory recovery performance. To address this limitation, we make efforts to excavate the essential label relevant information to improve the recovery performance. Our method formulates the LE problem as the following two joint processes: 1) learning the representation with the essential label relevant information, 2) recovering label distributions based on the learned representation. The label relevant information can be excavated based on the "bottleneck" formed by the learned representation. Significantly, both the label relevant information about the label assignments and the label relevant information about the label gaps can be explored in our method. Evaluation experiments conducted on several benchmark label distribution learning datasets verify the effectiveness and competitiveness of LIB. Our source codes are available "https://github.com/qinghai-zheng/LIBLE"
翻訳日:2023-03-14 16:30:12 公開日:2023-03-13
# 普遍的にスリムな自己指導型学習のための3つのガイドライン

Three Guidelines You Should Know for Universally Slimmable Self-Supervised Learning ( http://arxiv.org/abs/2303.06870v1 )

ライセンス: Link先を確認
Yun-Hao Cao and Peiqin Sun and Shuchang Zhou(参考訳) 我々は,複数のデバイスにまたがって自己教師付きモデルを展開するための精度・効率のトレードオフを実現するために,普遍的にスリム化可能な自己教師付き学習(US3L)を提案する。 我々は,トレーニングプロセスが頻繁に崩壊するにつれて,自己教師あり学習(SSL)のネットワークへの直接的な適応が誤っていることを観察する。 そこで我々は,普遍的にスリム化可能なネットワークにおいてsslが成功するための鍵となる,時間的一貫性のあるガイダンスを見出し,その時間的一貫性を統一的な勾配の観点から確保するための3つのガイドラインを提案する。 さらに,トレーニング効率と精度を同時に向上するための動的サンプリングとグループ正規化手法を提案する。 us3l法は畳み込みニューラルネットワークと視覚トランスフォーマーの両方で実証的に検証されている。 1回のトレーニングと1回の重み付けしか行わず、認識、オブジェクト検出、インスタンスセグメンテーションを含むベンチマークにおいて、最先端の手法(個別に訓練するか否かに関わらず)より優れている。 私たちのコードはhttps://github.com/megvii-research/us3l-cvpr2023で利用可能です。

We propose universally slimmable self-supervised learning (dubbed as US3L) to achieve better accuracy-efficiency trade-offs for deploying self-supervised models across different devices. We observe that direct adaptation of self-supervised learning (SSL) to universally slimmable networks misbehaves as the training process frequently collapses. We then discover that temporal consistent guidance is the key to the success of SSL for universally slimmable networks, and we propose three guidelines for the loss design to ensure this temporal consistency from a unified gradient perspective. Moreover, we propose dynamic sampling and group regularization strategies to simultaneously improve training efficiency and accuracy. Our US3L method has been empirically validated on both convolutional neural networks and vision transformers. With only once training and one copy of weights, our method outperforms various state-of-the-art methods (individually trained or not) on benchmarks including recognition, object detection and instance segmentation. Our code is available at https://github.com/megvii-research/US3L-CVPR2023.
翻訳日:2023-03-14 16:25:08 公開日:2023-03-13
# 適応型データフリー量子化

Adaptive Data-Free Quantization ( http://arxiv.org/abs/2303.06869v1 )

ライセンス: Link先を確認
Biao Qian, Yang Wang, Richang Hong, Meng Wang(参考訳) データフリー量子化(dfq)は、実データにアクセスせずに量子化ネットワーク(q)の性能を回復するが、代わりに全精度ネットワーク(p)から学習し、ジェネレータ(g)を介して偽のサンプルを生成する。 しかし、そのようなサンプル生成過程はQとは全く独立であり、生成したサンプル、すなわちQの学習過程への情報的か否かから知識の適応性を見極め、一般化誤差のオーバーフローをもたらす。 さまざまなビット幅シナリオの下でQに対するサンプル適応性を測定するには、どうすればよいのか? Qの一般化を改善するために大きな適応性を持つサンプルを生成するには? 最大の適応性がベストなのか? そこで,本稿では,2人のプレイヤー - ジェネレータと量子化ネットワーク - のサンプル適応性に基づいて,dfqをゼロサムゲームとして再構成する適応型データフリー量子化(adadfq)手法を提案する。 この観点から、さらに意見の不一致と合意のサンプルを2つの境界に定め、そこで利幅を過度に適合する問題に対処し、Qに好適な適合性を持つサンプルを生成するよう最適化する。 1)最大の適応性は、qの一般化に役立つサンプル生成にとって最善ではない。 2) 生成したサンプルの知識は, q に限らず,p の訓練データのカテゴリと分布情報にも関連し, adadfq の利点を実証する。 私たちのコードは、https: github.com/hfutqian/adadfqで利用可能です。

Data-free quantization (DFQ) recovers the performance of quantized network (Q) without accessing the real data, but generates the fake sample via a generator (G) by learning from full-precision network (P) instead. However, such sample generation process is totally independent of Q, overlooking the adaptability of the knowledge from generated samples, i.e., informative or not to the learning process of Q, resulting into the overflow of generalization error. Building on this, several critical questions -- how to measure the sample adaptability to Q under varied bit-width scenarios? how to generate the samples with large adaptability to improve Q's generalization? whether the largest adaptability is the best? To answer the above questions, in this paper, we propose an Adaptive Data-Free Quantization (AdaDFQ) method, which reformulates DFQ as a zero-sum game upon the sample adaptability between two players -- a generator and a quantized network. Following this viewpoint, we further define the disagreement and agreement samples to form two boundaries, where the margin is optimized to address the over-and-under fitting issues, so as to generate the samples with the desirable adaptability to Q. Our AdaDFQ reveals: 1) the largest adaptability is NOT the best for sample generation to benefit Q's generalization; 2) the knowledge of the generated sample should not be informative to Q only, but also related to the category and distribution information of the training data for P. The theoretical and empirical analysis validate the advantages of AdaDFQ over the state-of-the-arts. Our code is available at https: github.com/hfutqian/AdaDFQ.
翻訳日:2023-03-14 16:24:50 公開日:2023-03-13
# 3次元包括的視覚刺激を用いたアルツハイマー病診断のためのディープラーニングに基づく眼球追跡分析

Deep Learning-based Eye-Tracking Analysis for Diagnosis of Alzheimer's Disease Using 3D Comprehensive Visual Stimuli ( http://arxiv.org/abs/2303.06868v1 )

ライセンス: Link先を確認
Fangyu Zuo, Peiguang Jing, Jinglin Sun, Jizhong, Duan, Yong Ji, Yu Liu(参考訳) アルツハイマー病(AD)は記憶、思考、判断の連続的な低下を引き起こす。 従来の診断は通常臨床経験に基づいており、現実的な要因によって制限される。 本稿では,視線追跡行動に基づくADの診断に深層学習技術を活用することに焦点を当てる。 視覚的注意は、典型的な視線追跡行動として、AD患者の認知異常を検出するために非常に臨床的に有用である。 AD患者と正常者の視覚的注意の差異をよりよく解析するため,非侵襲的な視線追跡システムを用いて視覚的注意熱マップの収集を行う。 次に,AD患者と正常者の視覚的注意差を識別するために,多層比較畳み込みニューラルネットワーク(MC-CNN)を提案する。 MC-CNNでは、階層的畳み込みにより、より優れた眼球運動挙動を符号化し、さらに距離ベクトルに統合して、包括的視覚的タスクに役立てることで、熱マップの多層表現が得られる。 その結果, MC-CNNは視線追跡データを用いてAD患者と正常者の分類において一貫した妥当性が得られた。

Alzheimer's Disease (AD) causes a continuous decline in memory, thinking, and judgment. Traditional diagnoses are usually based on clinical experience, which is limited by some realistic factors. In this paper, we focus on exploiting deep learning techniques to diagnose AD based on eye-tracking behaviors. Visual attention, as typical eye-tracking behavior, is of great clinical value to detect cognitive abnormalities in AD patients. To better analyze the differences in visual attention between AD patients and normals, we first conduct a 3D comprehensive visual task on a non-invasive eye-tracking system to collect visual attention heatmaps. We then propose a multi-layered comparison convolution neural network (MC-CNN) to distinguish the visual attention differences between AD patients and normals. In MC-CNN, the multi-layered representations of heatmaps are obtained by hierarchical convolution to better encode eye-movement behaviors, which are further integrated into a distance vector to benefit the comprehensive visual task. Extensive experimental results on the collected dataset demonstrate that MC-CNN achieves consistent validity in classifying AD patients and normals with eye-tracking data.
翻訳日:2023-03-14 16:24:22 公開日:2023-03-13
# 単一gpuを用いた大規模言語モデルの高スループット生成

High-throughput Generative Inference of Large Language Models with a Single GPU ( http://arxiv.org/abs/2303.06865v1 )

ライセンス: Link先を確認
Ying Sheng, Lianmin Zheng, Binhang Yuan, Zhuohan Li, Max Ryabinin, Daniel Y. Fu, Zhiqiang Xie, Beidi Chen, Clark Barrett, Joseph E. Gonzalez, Percy Liang, Christopher R\'e, Ion Stoica, Ce Zhang(参考訳) 大規模言語モデル(LLM)の高計算およびメモリ要求は、伝統的に複数のハイエンドアクセラレーターでのみ実現可能である。 本稿では,バッチ処理による遅延に敏感なタスクの需要が高まっている中で,単一のコモディティGPUなどの限られたリソースを用いた高スループットLPM推論の研究を開始する。 我々は、限られたGPUメモリでLLMを実行するための高スループット生成エンジンFlexGenを紹介する。 FlexGenは、GPU、CPU、ディスクからメモリと計算を集約することで、様々なハードウェアリソース制約の下で柔軟に設定できる。 線形プログラミングオプティマイザを通じて、テンソルの保存とアクセスのための効率的なパターンを探す。 flexgenはこれらの重みを圧縮し、アテンションキャッシュを4ビットに圧縮する。 これらの技術によりflexgenはバッチサイズ選択のスペースを大きくし、最大スループットを大幅に増やすことができる。 その結果、単一の16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上し、1トークン/sの生成スループットが144倍に向上した。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。 コードはhttps://github.com/FMInference/FlexGenで入手できる。

The high computational and memory requirements of large language model (LLM) inference traditionally make it feasible only with multiple high-end accelerators. Motivated by the emerging demand for latency-insensitive tasks with batched processing, this paper initiates the study of high-throughput LLM inference using limited resources, such as a single commodity GPU. We present FlexGen, a high-throughput generation engine for running LLMs with limited GPU memory. FlexGen can be flexibly configured under various hardware resource constraints by aggregating memory and computation from the GPU, CPU, and disk. Through a linear programming optimizer, it searches for efficient patterns to store and access tensors. FlexGen further compresses these weights and the attention cache to 4 bits with negligible accuracy loss. These techniques enable FlexGen to have a larger space of batch size choices and thus significantly increase maximum throughput. As a result, when running OPT-175B on a single 16GB GPU, FlexGen achieves significantly higher throughput compared to state-of-the-art offloading systems, reaching a generation throughput of 1 token/s for the first time with an effective batch size of 144. On the HELM benchmark, FlexGen can benchmark a 30B model with a 16GB GPU on 7 representative sub-scenarios in 21 hours. The code is available at https://github.com/FMInference/FlexGen
翻訳日:2023-03-14 16:24:01 公開日:2023-03-13
# OTOV2: 自動、ジェネリック、ユーザフレンドリー

OTOV2: Automatic, Generic, User-Friendly ( http://arxiv.org/abs/2303.06862v1 )

ライセンス: Link先を確認
Tianyi Chen, Luming Liang, Tianyu Ding, Zhihui Zhu, Ilya Zharkov(参考訳) 構造的プルーニングによる既存のモデル圧縮手法は、通常複雑な多段処理を必要とする。 各ステージは、多くのエンジニアリング活動とエンドユーザからのドメイン知識を必要としており、より広いシナリオへのアプリケーションの適用を妨げている。 汎用dnnをスクラッチから1回だけ自動で訓練・圧縮し、よりコンパクトなモデルを作り、微調整することなく競合性能を発揮できる第2世代の列車用オンス(otov2)を提案する。 otov2は、さまざまなディープラーニングアプリケーションに自動的かつプラグイン可能で、ユーザによるほとんど最小限のエンジニアリング作業を必要とする。 方法論的には、OTOv2は2つの大きな改善を提案する。 (i)自律性:一般的なDNNの依存関係を自動的に活用し、トレーニング可能な変数をゼロ不変群(ZIG)に分割し、圧縮モデルを構築する。 (二)二重半空間射影勾配(DHSPG):構造的疎結合問題をより確実に解くための新しい最適化手法。 VGG,ResNet,CARN,ConvNeXt,DenseNet,StackedUnetsなど,さまざまなモデルアーキテクチャ上でのOTOv2の汎用性と自律性を示す。 CIFAR10/100、DIV2K、Fashion-MNIST、SVNH、ImageNetなどのベンチマークデータセットとともに、その有効性は、最先端技術よりも競合的あるいはそれ以上に実行することによって検証される。 ソースコードはhttps://github.com/tianyic/only_train_onceで入手できる。

The existing model compression methods via structured pruning typically require complicated multi-stage procedures. Each individual stage necessitates numerous engineering efforts and domain-knowledge from the end-users which prevent their wider applications onto broader scenarios. We propose the second generation of Only-Train-Once (OTOv2), which first automatically trains and compresses a general DNN only once from scratch to produce a more compact model with competitive performance without fine-tuning. OTOv2 is automatic and pluggable into various deep learning applications, and requires almost minimal engineering efforts from the users. Methodologically, OTOv2 proposes two major improvements: (i) Autonomy: automatically exploits the dependency of general DNNs, partitions the trainable variables into Zero-Invariant Groups (ZIGs), and constructs the compressed model; and (ii) Dual Half-Space Projected Gradient (DHSPG): a novel optimizer to more reliably solve structured-sparsity problems. Numerically, we demonstrate the generality and autonomy of OTOv2 on a variety of model architectures such as VGG, ResNet, CARN, ConvNeXt, DenseNet and StackedUnets, the majority of which cannot be handled by other methods without extensive handcrafting efforts. Together with benchmark datasets including CIFAR10/100, DIV2K, Fashion-MNIST, SVNH and ImageNet, its effectiveness is validated by performing competitively or even better than the state-of-the-arts. The source code is available at https://github.com/tianyic/only_train_once.
翻訳日:2023-03-14 16:23:40 公開日:2023-03-13
# 深度知覚を考慮した適応型光場劣化ネットワーク

View Adaptive Light Field Deblurring Networks with Depth Perception ( http://arxiv.org/abs/2303.06860v1 )

ライセンス: Link先を確認
Zeqi Shen, Shuo Zhang, Zhuhao Zhang, Qihua Chen, Xueyao Dong, Youfang Lin(参考訳) カメラの揺らぎや物体の動きといった様々な理由でぼやけた画像が引き起こされるため、光電界偏向(LF)タスクは難しい問題である。 この問題を解決する方法として, 単一画像デブロアリング法が考えられる。 しかし、各ビューを独立して扱うため、lf構造を効果的に利用・維持できないため、通常、復元効果は理想的ではない。 さらに、LFのぼかしはビューや深さの影響を受けやすいため、より複雑である。 そこで我々は,LFブラー特性に基づく新しいLFデブロアリングネットワークを慎重に設計した。 一方,ぼやけた程度は異なる視点で大きく異なるため,ぼやけたlfをデブラーするために,新しいビュー適応型空間畳み込みをデザインし,各ビューに対する排他的畳み込み核を計算する。 一方、ぼかし度も被写体の深度とともに変化するため、異なる視界からの情報を選択的に統合して、異なる深度領域を損なうように、深度知覚ビューアテンションを設計する。 さらに,lf構造を良好に維持するために角位置埋め込みを導入し,モデルがビュー情報を正しく復元できるようにする。 合成画像と実画像の定量的および定性的な実験結果から,本手法の劣化効果は他の最先端手法よりも優れていることが示された。

The Light Field (LF) deblurring task is a challenging problem as the blur images are caused by different reasons like the camera shake and the object motion. The single image deblurring method is a possible way to solve this problem. However, since it deals with each view independently and cannot effectively utilize and maintain the LF structure, the restoration effect is usually not ideal. Besides, the LF blur is more complex because the degree is affected by the views and depth. Therefore, we carefully designed a novel LF deblurring network based on the LF blur characteristics. On one hand, since the blur degree varies a lot in different views, we design a novel view adaptive spatial convolution to deblur blurred LFs, which calculates the exclusive convolution kernel for each view. On the other hand, because the blur degree also varies with the depth of the object, a depth perception view attention is designed to deblur different depth areas by selectively integrating information from different views. Besides, we introduce an angular position embedding to maintain the LF structure better, which ensures the model correctly restores the view information. Quantitative and qualitative experimental results on synthetic and real images show that the deblurring effect of our method is better than other state-of-the-art methods.
翻訳日:2023-03-14 16:22:56 公開日:2023-03-13
# 因果関係からみた画像復元のための学習歪不変表現

Learning Distortion Invariant Representation for Image Restoration from A Causality Perspective ( http://arxiv.org/abs/2303.06859v1 )

ライセンス: Link先を確認
Xin Li, Bingchen Li, Xin Jin, Cuiling Lan, Zhibo Chen(参考訳) 近年,画像復元におけるディープニューラルネットワーク(dnn)の飛躍的な進歩を目の当たりにしている。 しかし、重要な制限は、異なる次数や型を持つ実世界の分解に対してうまく一般化できないことである。 本稿では,原因不明の劣化に対するDNNの一般化能力を向上させるために,因果的視点から画像復元のための新たなトレーニング戦略を提案する。 本手法は, 歪み不変表現学習 (dil) と呼ばれ, それぞれの歪みタイプと次数を1つの特定の共起体として扱い, 劣化の有害な共起効果を排除することにより歪み不変表現を学習する。 我々は,最適化の観点から異なる歪みの干渉をモデル化することにより,因果関係におけるバックドアの基準を導出する。 特に,共起者としての仮想的歪みタイプと程度をシミュレートするために,反事実的歪み強化を導入する。 そして、対応する歪み画像に基づいて、仮想モデル更新による各歪みの介入をインスタンス化し、メタラーニングの観点から排除する。 広範に実験を行い,非知覚歪型と程度に対する一般化能力に対するdilの有効性を実証した。 私たちのコードはhttps://github.com/lixinustc/Casual-IRDILで公開されます。

In recent years, we have witnessed the great advancement of Deep neural networks (DNNs) in image restoration. However, a critical limitation is that they cannot generalize well to real-world degradations with different degrees or types. In this paper, we are the first to propose a novel training strategy for image restoration from the causality perspective, to improve the generalization ability of DNNs for unknown degradations. Our method, termed Distortion Invariant representation Learning (DIL), treats each distortion type and degree as one specific confounder, and learns the distortion-invariant representation by eliminating the harmful confounding effect of each degradation. We derive our DIL with the back-door criterion in causality by modeling the interventions of different distortions from the optimization perspective. Particularly, we introduce counterfactual distortion augmentation to simulate the virtual distortion types and degrees as the confounders. Then, we instantiate the intervention of each distortion with a virtual model updating based on corresponding distorted images, and eliminate them from the meta-learning perspective. Extensive experiments demonstrate the effectiveness of our DIL on the generalization capability for unseen distortion types and degrees. Our code will be available at https://github.com/lixinustc/Casual-IRDIL.
翻訳日:2023-03-14 16:22:24 公開日:2023-03-13
# 成人マーモセット脳におけるin situハイブリダイゼーション遺伝子発現データのアトラス作成のための自動化パイプライン

An automated pipeline to create an atlas of in situ hybridization gene expression data in the adult marmoset brain ( http://arxiv.org/abs/2303.06857v1 )

ライセンス: Link先を確認
Charissa Poon, Muhammad Febrian Rachmadi, Michal Byra, Matthias Schlachter, Binbin Xu, Tomomi Shimogori, Henrik Skibbe(参考訳) 成人マーモセット脳におけるin situハイブリダイゼーション遺伝子の発現のアトラスを同一の立体構造空間で生成する最初の自動パイプラインを提示する。 このパイプラインは、顕微鏡画像からの遺伝子発現のセグメンテーションと、画像の標準空間への登録からなる。 このパイプラインの自動化は、ゲノム全体の全脳データセットで大量のデータを解析し、様々な強度プロファイルと表現パターンを持つ画像を人間のバイアスを最小限に抑えるために必要である。 学習に必要なラベル付き画像数を減らすため,半教師付きセグメンテーションモデルを開発した。 さらに、画像を標準空間に登録する反復アルゴリズムを開発し、遺伝子間の比較分析と他のデータセットとの同時可視化を可能にし、霊長類脳の構造と機能に関するより包括的な理解を容易にする。

We present the first automated pipeline to create an atlas of in situ hybridization gene expression in the adult marmoset brain in the same stereotaxic space. The pipeline consists of segmentation of gene expression from microscopy images and registration of images to a standard space. Automation of this pipeline is necessary to analyze the large volume of data in the genome-wide whole-brain dataset, and to process images that have varying intensity profiles and expression patterns with minimal human bias. To reduce the number of labelled images required for training, we develop a semi-supervised segmentation model. We further develop an iterative algorithm to register images to a standard space, enabling comparative analysis between genes and concurrent visualization with other datasets, thereby facilitating a more holistic understanding of primate brain structure and function.
翻訳日:2023-03-14 16:22:05 公開日:2023-03-13
# 多様なネットワークトポロジを横断するマルチタスク学習のための動的ニューラルネットワーク

Dynamic Neural Network for Multi-Task Learning Searching across Diverse Network Topologies ( http://arxiv.org/abs/2303.06856v1 )

ライセンス: Link先を確認
Wonhyeok Choi, Sunghoon Im(参考訳) 本稿では,多彩なグラフトポロジを持つ複数のタスクに最適化された構造を探索し,タスク間で特徴を共有する新しいMTLフレームワークを提案する。 探索空間と時間を制限するとともに、トポロジ的に多様なタスク適応構造を構築するために、読み出し/読み出し層を持つDAGベースの制限型中央ネットワークを設計する。 3段階のトレーニングプロセスを使用して,複数のタスク適応サブネットワークとして機能する,単一の最適化ネットワークを探索する。 ネットワークをコンパクトかつ離散化するために,フローベース還元アルゴリズムとトレーニングプロセスで使用される圧縮損失を提案する。 我々は,様々な公共MTLデータセット上で最適化されたネットワークを評価し,最先端の性能を示す。 広範なアブレーション研究により,サブモジュールとスキームの有効性が実験的に検証された。

In this paper, we present a new MTL framework that searches for structures optimized for multiple tasks with diverse graph topologies and shares features among tasks. We design a restricted DAG-based central network with read-in/read-out layers to build topologically diverse task-adaptive structures while limiting search space and time. We search for a single optimized network that serves as multiple task adaptive sub-networks using our three-stage training process. To make the network compact and discretized, we propose a flow-based reduction algorithm and a squeeze loss used in the training process. We evaluate our optimized network on various public MTL datasets and show ours achieves state-of-the-art performance. An extensive ablation study experimentally validates the effectiveness of the sub-module and schemes in our framework.
翻訳日:2023-03-14 16:21:50 公開日:2023-03-13
# 対人攻撃に対するロバストコントラスト言語画像前処理

Robust Contrastive Language-Image Pretraining against Adversarial Attacks ( http://arxiv.org/abs/2303.06854v1 )

ライセンス: Link先を確認
Wenhan Yang, Baharan Mirzasoleiman(参考訳) 対照的な視覚言語表現学習は、インターネットからクロールされた数百万のイメージキャプチャペアから学習することで、ゼロショット分類の最先端のパフォーマンスを達成している。 しかし、CLIPのような大規模なマルチモーダルモデルを動かす巨大なデータは、ターゲットデータやバックドアデータ中毒攻撃など、さまざまな種類の敵攻撃に対して極めて脆弱である。 この脆弱性にもかかわらず、逆境攻撃に対する強固な対照的な視覚言語前訓練は未対応のままである。 本研究では,<and fine-tuning>マルチモーダル視覚言語モデルのためのロクリップ法を提案する。 RoCLIPは、ランダムなサンプルのプールを考慮し、(1)全ての画像とプールのキャプションに最も近いテキストをマッチングし、(2)全てのキャプションとプールのイメージに最もよく似た画像とをマッチングすることにより、有毒な画像カプセルの関連を効果的に破壊する。 提案手法は,CLIPの事前訓練や微調整において,最先端のデータ中毒やバックドア攻撃が有効でないことを示す。 特に、RoCLIPは、事前トレーニング中に毒性とバックドア攻撃の成功率を0\%、微調整時に1\%-4\%に低下させ、モデルの性能を効果的に向上させる。

Contrastive vision-language representation learning has achieved state-of-the-art performance for zero-shot classification, by learning from millions of image-caption pairs crawled from the internet. However, the massive data that powers large multimodal models such as CLIP, makes them extremely vulnerable to various types of adversarial attacks, including targeted and backdoor data poisoning attacks. Despite this vulnerability, robust contrastive vision-language pretraining against adversarial attacks has remained unaddressed. In this work, we propose RoCLIP, the first effective method for robust pretraining {and fine-tuning} multimodal vision-language models. RoCLIP effectively breaks the association between poisoned image-caption pairs by considering a pool of random examples, and (1) matching every image with the text that is most similar to its caption in the pool, and (2) matching every caption with the image that is most similar to its image in the pool. Our extensive experiments show that our method renders state-of-the-art targeted data poisoning and backdoor attacks ineffective during pre-training or fine-tuning of CLIP. In particular, RoCLIP decreases the poison and backdoor attack success rates down to 0\% during pre-training and 1\%-4\% during fine-tuning, and effectively improves the model's performance.
翻訳日:2023-03-14 16:21:35 公開日:2023-03-13
# SCPNet: Point Cloudでのセマンティックシーン補完

SCPNet: Semantic Scene Completion on Point Cloud ( http://arxiv.org/abs/2303.06884v1 )

ライセンス: Link先を確認
Zhaoyang Xia, Youquan Liu, Xin Li, Xinge Zhu, Yuexin Ma, Yikang Li, Yuenan Hou, Yu Qiao(参考訳) セマンティックシーン補完のための深層モデル(SSC)の訓練は、スパースで不完全な入力、多様なスケールの大量のオブジェクト、移動物体に固有のラベルノイズにより困難である。 上記の問題に対処するため、以下の3つの解決策を提案する。 1) 完了サブネットワークの再設計。 複数のマルチパスブロック(MPB)から構成される新しいサブネットワークを設計し、マルチスケールな特徴を集約し、損失の少ないダウンサンプリング操作を不要とする。 2)マルチフレームモデルから豊富な知識を抽出する。 我々はDense-to-Sparse Knowledge Distillation (DSKD)と呼ばれる新しい知識蒸留目標を設計する。 密集した関係に基づく意味知識を多フレームの教師から単フレームの生徒に伝達し、単フレームモデルの表現学習を大幅に改善する。 3) 完了ラベルの修正。 そこで,本研究では, 既設のパノプティック・セグメンテーション・ラベルを用いて, 完了ラベル中の動的物体の痕跡を除去し, 特に移動物体の深部モデルの性能を大幅に向上させる, 簡易かつ効果的なラベル修正戦略を提案する。 大規模な実験は2つの公開SSCベンチマーク、すなわちSemanticKITTIとSemanticPOSSで実施される。 我々のSCPNetはセマンティックKITTIセマンティックシーンコンプリートチャレンジで1位であり、競合するS3CNetを7.2mIoUで上回っている。 SCPNetはまた、SemanticPOSSデータセットで以前の補完アルゴリズムよりも優れている。 また,semantickittiセマンティックセグメンテーションタスクにおける競合結果も達成し,セグメンテーションタスクにおいてシーン補完で学習した知識が有益であることを示す。

Training deep models for semantic scene completion (SSC) is challenging due to the sparse and incomplete input, a large quantity of objects of diverse scales as well as the inherent label noise for moving objects. To address the above-mentioned problems, we propose the following three solutions: 1) Redesigning the completion sub-network. We design a novel completion sub-network, which consists of several Multi-Path Blocks (MPBs) to aggregate multi-scale features and is free from the lossy downsampling operations. 2) Distilling rich knowledge from the multi-frame model. We design a novel knowledge distillation objective, dubbed Dense-to-Sparse Knowledge Distillation (DSKD). It transfers the dense, relation-based semantic knowledge from the multi-frame teacher to the single-frame student, significantly improving the representation learning of the single-frame model. 3) Completion label rectification. We propose a simple yet effective label rectification strategy, which uses off-the-shelf panoptic segmentation labels to remove the traces of dynamic objects in completion labels, greatly improving the performance of deep models especially for those moving objects. Extensive experiments are conducted in two public SSC benchmarks, i.e., SemanticKITTI and SemanticPOSS. Our SCPNet ranks 1st on SemanticKITTI semantic scene completion challenge and surpasses the competitive S3CNet by 7.2 mIoU. SCPNet also outperforms previous completion algorithms on the SemanticPOSS dataset. Besides, our method also achieves competitive results on SemanticKITTI semantic segmentation tasks, showing that knowledge learned in the scene completion is beneficial to the segmentation task.
翻訳日:2023-03-14 16:15:00 公開日:2023-03-13
# OverlapNetVLAD:LiDARを用いた位置認識のための粗大なフレームワーク

OverlapNetVLAD: A Coarse-to-Fine Framework for LiDAR-based Place Recognition ( http://arxiv.org/abs/2303.06881v1 )

ライセンス: Link先を確認
Chencan Fu, Lin Li, Linpeng Peng, Yukai Ma, Xiangrui Zhao, and Yong Liu(参考訳) 位置認識はロボット工学では難しいが重要な課題だ。 既存の3dライダー位置認識手法は特徴表現能力に制限があり、検索時間が長い。 これらの課題に対処するために,バードズアイビュー(BEV)特徴抽出,粗粒度マッチング,細粒度検証を組み合わせた3次元LiDAR位置認識のための新しい粗粒度フレームワークを提案する。 粗い段階では,BEV機能に含まれる豊富なコンテキスト情報を利用してグローバルな記述子を生成する。 すると、最も類似する候補のトップ-\textit{k} が記述子マッチングによって識別される。 詳細な段階では、重なり推定ネットワークは対応するBEV特徴を再利用し、重なり合う領域を予測し、正確かつ正確なマッチングを可能にする。 KITTI odometry ベンチマークの実験結果から,我々のフレームワークは最先端の手法と比較して高い性能を達成できることが示された。 私たちのコードは、 \url{https://github.com/fcchit/overlapnetvlad} で利用可能です。

Place recognition is a challenging yet crucial task in robotics. Existing 3D LiDAR place recognition methods suffer from limited feature representation capability and long search times. To address these challenges, we propose a novel coarse-to-fine framework for 3D LiDAR place recognition that combines Birds' Eye View (BEV) feature extraction, coarse-grained matching, and fine-grained verification. In the coarse stage, our framework leverages the rich contextual information contained in BEV features to produce global descriptors. Then the top-\textit{K} most similar candidates are identified via descriptor matching, which is fast but coarse-grained. In the fine stage, our overlap estimation network reuses the corresponding BEV features to predict the overlap region, enabling meticulous and precise matching. Experimental results on the KITTI odometry benchmark demonstrate that our framework achieves leading performance compared to state-of-the-art methods. Our code is available at: \url{https://github.com/fcchit/OverlapNetVLAD}.
翻訳日:2023-03-14 16:14:24 公開日:2023-03-13
# Uni3D:マルチデータセット3Dオブジェクト検出のための統一ベースライン

Uni3D: A Unified Baseline for Multi-dataset 3D Object Detection ( http://arxiv.org/abs/2303.06880v1 )

ライセンス: Link先を確認
Bo Zhang, Jiakang Yuan, Botian Shi, Tao Chen, Yikang Li, Yu Qiao(参考訳) 現在の3Dオブジェクト検出モデルは、単一のデータセット固有のトレーニングとテストのパラダイムに従っている。 本稿では,複数のデータセットから統合された3次元検出器を訓練する作業について検討する。 これは、データ集合が、異なるlidarタイプとデータ取得標準によって引き起こされる、実質的なデータレベルの差異と分類学的レベルのバリエーションをもたらすためである。 このような観察から着想を得たuni3dは,単純なデータレベル補正操作と設計したセマンティックレベル結合・再結合モジュールを用いて,それぞれ避けられないデータレベルと分類レベルの差異を緩和する。 本手法は,PV-RCNNやVoxel-RCNNなどの多くの3Dオブジェクト検出ベースラインと簡単に組み合わせられ,複数の既製の3Dデータセットから効果的に学習し,より識別的で一般化可能な表現を得ることができる。 Waymo-nuScenes、nuScenes-KITTI、Waymo-KITTI、Waymo-nuScenes-KITTIの統合など、多くのデータセット統合環境で実験が行われている。 これらの結果は、uni3dが1つのデータセットで訓練された一連の個々の検出器を上回り、選択されたベースライン検出器よりも1.04倍のパラメータが増加することを示している。 この研究は知覚性能の限界を推し進めるため、3D一般化の研究を刺激することを期待している。

Current 3D object detection models follow a single dataset-specific training and testing paradigm, which often faces a serious detection accuracy drop when they are directly deployed in another dataset. In this paper, we study the task of training a unified 3D detector from multiple datasets. We observe that this appears to be a challenging task, which is mainly due to that these datasets present substantial data-level differences and taxonomy-level variations caused by different LiDAR types and data acquisition standards. Inspired by such observation, we present a Uni3D which leverages a simple data-level correction operation and a designed semantic-level coupling-and-recoupling module to alleviate the unavoidable data-level and taxonomy-level differences, respectively. Our method is simple and easily combined with many 3D object detection baselines such as PV-RCNN and Voxel-RCNN, enabling them to effectively learn from multiple off-the-shelf 3D datasets to obtain more discriminative and generalizable representations. Experiments are conducted on many dataset consolidation settings including Waymo-nuScenes, nuScenes-KITTI, Waymo-KITTI, and Waymo-nuScenes-KITTI consolidations. Their results demonstrate that Uni3D exceeds a series of individual detectors trained on a single dataset, with a 1.04x parameter increase over a selected baseline detector. We expect this work will inspire the research of 3D generalization since it will push the limits of perceptual performance.
翻訳日:2023-03-14 16:14:05 公開日:2023-03-13
# 注意時間畳み込みネットワークを用いた宇宙船異常検出

Spacecraft Anomaly Detection with Attention Temporal Convolution Network ( http://arxiv.org/abs/2303.06879v1 )

ライセンス: Link先を確認
Liang Liu and Ling Tian and Zhao Kang and Tianqi Wan(参考訳) 宇宙機は複雑な宇宙空間での探査ミッションを行う際に様々な状況に直面しているため、宇宙船の異常状態を監視することは、航空宇宙産業の発達に不可欠である。 軌道上の宇宙船 \textcolor{blue}{contains} によって生成された時系列テレメトリデータは、宇宙船の状態に関する重要な情報である。 しかしながら、従来のドメイン知識に基づく宇宙機異常検出法は、高次元と変数間の複雑な相関のため有効ではない。 本研究では,時空間畳み込みネットワーク(TCN)に基づく,宇宙船の多変量時系列データの異常検出フレームワークを提案する。 まず,動的グラフに着目し,変数と時系列の複雑な相関をモデル化する。 第2に、並列処理能力を有する時間畳み込みネットワークを用いて、下流予測タスクのために多次元の \textcolor{blue}{features} を抽出する。 最後に、多くの潜在的な異常が最高の閾値で検出される。 実際のNASA SMAP/MSL衛星データセットの実験は、最先端の手法に関して提案したモデルの優位性を示している。

Spacecraft faces various situations when carrying out exploration missions in complex space, thus monitoring the anomaly status of spacecraft is crucial to the development of \textcolor{blue}{the} aerospace industry. The time series telemetry data generated by on-orbit spacecraft \textcolor{blue}{contains} important information about the status of spacecraft. However, traditional domain knowledge-based spacecraft anomaly detection methods are not effective due to high dimensionality and complex correlation among variables. In this work, we propose an anomaly detection framework for spacecraft multivariate time-series data based on temporal convolution networks (TCNs). First, we employ dynamic graph attention to model the complex correlation among variables and time series. Second, temporal convolution networks with parallel processing ability are used to extract multidimensional \textcolor{blue}{features} for \textcolor{blue}{the} downstream prediction task. Finally, many potential anomalies are detected by the best threshold. Experiments on real NASA SMAP/MSL spacecraft datasets show the superiority of our proposed model with respect to state-of-the-art methods.
翻訳日:2023-03-14 16:13:39 公開日:2023-03-13
# ICPR MSR ChallengeにおけるDun_oscarチームのシステム記述

The System Description of dun_oscar team for The ICPR MSR Challenge ( http://arxiv.org/abs/2303.06878v1 )

ライセンス: Link先を確認
Binbin Du, Rui Deng, Yingxin Zhang(参考訳) 本稿では,ICPR MSR Challengeのためにdun_oscarチームが提出したシステムを紹介する。 task1-task3の3つのサブシステムはそれぞれ記述される。 タスク1では、サブタイトルと非サブタイトルを区別するOCRモデル、テキストトラッカー、NLP分類器を含む視覚システムを開発する。 タスク2では,18層のAMと4グラムのLMを備えたASRシステムを用いる。 ラベルなしデータの半教師付き学習も不可欠である。 task3では、asrシステムを用いて視覚システムを改善し、いくつかの偽の字幕をフュージョンモジュールで修正する。

This paper introduces the system submitted by dun_oscar team for the ICPR MSR Challenge. Three subsystems for task1-task3 are descripted respectively. In task1, we develop a visual system which includes a OCR model, a text tracker, and a NLP classifier for distinguishing subtitles and non-subtitles. In task2, we employ an ASR system which includes an AM with 18 layers and a 4-gram LM. Semi-supervised learning on unlabeled data is also vital. In task3, we employ the ASR system to improve the visual system, some false subtitles can be corrected by a fusion module.
翻訳日:2023-03-14 16:13:23 公開日:2023-03-13
# オープンセットモデル帰属のためのプログレッシブオープンスペース拡張

Progressive Open Space Expansion for Open-Set Model Attribution ( http://arxiv.org/abs/2303.06877v1 )

ライセンス: Link先を確認
Tianyun Yang, Danding Wang, Fan Tang, Xinying Zhao, Juan Cao, Sheng Tang(参考訳) ジェネレーティブ・テクノロジーの顕著な進歩にもかかわらず、知的財産保護と悪意のあるコンテンツ監督というジャヌスに面した問題が発生した。 合成画像を管理するための努力は、それらが潜在的なソースモデルのセットに起因する。 しかし、クローズドセットの分類設定は、任意のモデルによって生成されたコンテンツを扱う実際のシナリオのアプリケーションを制限する。 本研究では,OSMA(Open-Set Model Attribution)という課題に焦点をあて,既知のモデルに画像を同時に属性付け,未知のモデルからそれらを特定する。 セマンティックノベルティに焦点を当てた既存のオープンセット認識(OSR)タスクと比較して、OSMAは既知のモデルと未知のモデルとの区別が視覚的に知覚できないトレースにのみ存在するため、より難しい。 そこで本研究では,オープンセット標本をシミュレートし,クローズドセット標本と同じセマンティクスを保ちながら,異なる不可避なトレースを組込むプログレッシブオープンスペース展開 (pose) ソリューションを提案する。 多様性制約によって導かれる開空間は、一連の軽量拡張モデルによって徐々にシミュレートされる。 実世界のシナリオを3つ検討し、異なるランダムシード、アーキテクチャ、既知のデータセットでトレーニングされた未知のモデルを含むOSMAベンチマークデータセットを構築する。 データセットに関する広範囲な実験は、既存のモデル帰属法と既成のosr法の両方よりも優れていることを示している。

Despite the remarkable progress in generative technology, the Janus-faced issues of intellectual property protection and malicious content supervision have arisen. Efforts have been paid to manage synthetic images by attributing them to a set of potential source models. However, the closed-set classification setting limits the application in real-world scenarios for handling contents generated by arbitrary models. In this study, we focus on a challenging task, namely Open-Set Model Attribution (OSMA), to simultaneously attribute images to known models and identify those from unknown ones. Compared to existing open-set recognition (OSR) tasks focusing on semantic novelty, OSMA is more challenging as the distinction between images from known and unknown models may only lie in visually imperceptible traces. To this end, we propose a Progressive Open Space Expansion (POSE) solution, which simulates open-set samples that maintain the same semantics as closed-set samples but embedded with different imperceptible traces. Guided by a diversity constraint, the open space is simulated progressively by a set of lightweight augmentation models. We consider three real-world scenarios and construct an OSMA benchmark dataset, including unknown models trained with different random seeds, architectures, and datasets from known ones. Extensive experiments on the dataset demonstrate POSE is superior to both existing model attribution methods and off-the-shelf OSR methods.
翻訳日:2023-03-14 16:13:14 公開日:2023-03-13
# 二元的医用画像分類のための決定論的手法によるモデル自己解釈可能性の再検討

Revisiting model self-interpretability in a decision-theoretic way for binary medical image classification ( http://arxiv.org/abs/2303.06876v1 )

ライセンス: Link先を確認
Sourya Sengupta and Mark A. Anastasio(参考訳) ディープニューラルネットワークベースの分類器、特に医用画像における高い判定に対処する場合、解釈可能性は非常に望ましい。 一般的に使用されるポストホックの解釈可能性法は、異なる方法が与えられたモデルのいくつかの妥当な解釈を生成できるため、常に有用ではないかもしれない。 本研究では, 単一重み付き単層完全連結ネットワークと結合した, {inherently} 解釈可能なエンコーダデコーダモデルを提案する。 同じタスクのために訓練されたブラックボックスネットワークの特徴抽出成分を、解釈可能なモデルの事前学習エンコーダとして用いる。 このモデルは、同じ精度を維持するために、与えられた訓練されたブラックボックスディープバイナリ分類器の決定統計を推定するために訓練される。 } デコーダ出力は、固定された完全連結層によって処理されると、元の分類器と同じ決定統計値を生成するto-be-classifiedイメージの変換バージョンを表す。 これは、トレーニング中のブラックボックスモデルの決定統計値とエンコーダ-デコーダモデルの間の平均2乗誤差を最小化する。 デコーダ出力画像は同値マップと呼ばれる。 単層ネットワークは完全に解釈可能であるため、同値写像は、決定統計量に寄与する変換画像の特徴を可視化し、さらにそれらの相対的貢献の定量化を可能にする。 従来のポストホック解釈法とは異なり、提案手法は本質的に解釈可能であり、定量的であり、決定論に基づく。

Interpretability is highly desired for deep neural network-based classifiers, especially when addressing high-stake decisions in medical imaging. Commonly used post-hoc interpretability methods may not be always useful because different such methods can produce several plausible but different interpretations of a given model, leading to confusion about which one to choose. {In this work, an {inherently} interpretable encoder-decoder model coupled with a single-layer fully connected network with unity weights is proposed for binary medical image classification problems. The feature extraction component of a trained black-box network for the same task is employed as the pre-trained encoder of the interpretable model. The model is trained to estimate the decision statistic of the given trained black-box deep binary classifier to maintain a similar accuracy.} The decoder output represents a transformed version of the to-be-classified image that, when processed by the fixed fully connected layer, produces the same decision statistic value as the original classifier. This is accomplished by minimizing the mean squared error between the decision statistic values of the black-box model and encoder-decoder based model during training. The decoder output image is referred to as an equivalency map. Because the single-layer network is fully interpretable, the equivalency map provides a visualization of the transformed image features that contribute to the decision statistic value and, moreover, permits quantification of their relative contributions. Unlike the traditional post-hoc interpretability methods, the proposed method is inherently interpretable, quantitative, and fundamentally based on decision theory.
翻訳日:2023-03-14 16:12:49 公開日:2023-03-13
# 全身slide病理画像を用いた介入型バッグマルチインテンス学習

Interventional Bag Multi-Instance Learning On Whole-Slide Pathological Images ( http://arxiv.org/abs/2303.06873v1 )

ライセンス: Link先を確認
Tiancheng Lin, Zhimiao Yu, Hongyu Hu, Yi Xu, Chang Wen Chen(参考訳) MIL(Multi-Instance Learning)は、ギガピクセル解像度とスライドレベルラベルを扱うために、WSI分類に有効なパラダイムである。 一般的なMIL法は主に特徴抽出器と集約器の改善に焦点を当てている。 しかし、これらの方法の欠点の一つは、バッグコンテクスト・プリエントが、バッグとラベルの間の散発的な相関を捉えるようにモデルを騙す可能性があることである。 この欠損は、既存のMILメソッドのパフォーマンスを制限する共同創設者である。 本稿では, バッグレベルの非整合予測を実現するための新しい手法, Interventional Bag Multi-Instance Learning (IBMIL) を提案する。 従来の確率ベース戦略とは異なり,提案手法はバックドア調整に基づいて介入訓練を行い,バッグコンテクストによるバイアスを抑制することができる。 IBMILの原理は既存のバッグMIL法と直交していることに注意。 そのため、IBMILは既存のスキームに一貫したパフォーマンス向上をもたらし、新しい最先端のパフォーマンスを達成することができる。 コードはhttps://github.com/HHdo/IBMILで入手できる。

Multi-instance learning (MIL) is an effective paradigm for whole-slide pathological images (WSIs) classification to handle the gigapixel resolution and slide-level label. Prevailing MIL methods primarily focus on improving the feature extractor and aggregator. However, one deficiency of these methods is that the bag contextual prior may trick the model into capturing spurious correlations between bags and labels. This deficiency is a confounder that limits the performance of existing MIL methods. In this paper, we propose a novel scheme, Interventional Bag Multi-Instance Learning (IBMIL), to achieve deconfounded bag-level prediction. Unlike traditional likelihood-based strategies, the proposed scheme is based on the backdoor adjustment to achieve the interventional training, thus is capable of suppressing the bias caused by the bag contextual prior. Note that the principle of IBMIL is orthogonal to existing bag MIL methods. Therefore, IBMIL is able to bring consistent performance boosting to existing schemes, achieving new state-of-the-art performance. Code is available at https://github.com/HHHedo/IBMIL.
翻訳日:2023-03-14 16:12:23 公開日:2023-03-13
# FusionLoc:マルチヘッド自己注意を用いたカメラ2D LiDARフュージョン

FusionLoc: Camera-2D LiDAR Fusion Using Multi-Head Self-Attention for End-to-End Serving Robot Relocalization ( http://arxiv.org/abs/2303.06872v1 )

ライセンス: Link先を確認
Jieun Lee, Hakjun Lee, Jiyong Oh(参考訳) 近年の自動運転技術の発展により、繰り返し作業の効率や非対面サービスの価値が高まるにつれて、配送ロボットやサービスロボットなどの移動サービスロボットが注目され、その需要は日々増加している。 しかし、何か問題が発生した場合、ほとんどの商用サービスロボットは、正常に動作するために開始位置と方向に戻る必要がある。 本稿では,この問題に対処するためのサービスロボットのエンドツーエンド再ローカライズに焦点をあてる。 ニューラルネットワークを用いて、搭載されているセンサーデータから直接ロボットのポーズを予測する。 特に,カメラ2D LiDARセンサ融合に基づく再局在のためのディープニューラルネットワークアーキテクチャを提案する。 提案手法をFusionLocと呼ぶ。 提案手法では,2つのセンサが捉えた異なる種類の情報をマルチヘッドセルフアテンションにより補完する。 商用サービスロボットが収集したデータセットを用いた実験により,FusionLocは単一画像または2次元LiDAR点雲のみを受信する従来の再局在法よりも優れた性能と,それらの特徴を結合した簡単な融合法を提供できることを示した。

With the recent development of autonomous driving technology, as the pursuit of efficiency for repetitive tasks and the value of non-face-to-face services increase, mobile service robots such as delivery robots and serving robots attract attention, and their demands are increasing day by day. However, when something goes wrong, most commercial serving robots need to return to their starting position and orientation to operate normally again. In this paper, we focus on end-to-end relocalization of serving robots to address the problem. It is to predict robot pose directly from only the onboard sensor data using neural networks. In particular, we propose a deep neural network architecture for the relocalization based on camera-2D LiDAR sensor fusion. We call the proposed method FusionLoc. In the proposed method, the multi-head self-attention complements different types of information captured by the two sensors. Our experiments on a dataset collected by a commercial serving robot demonstrate that FusionLoc can provide better performances than previous relocalization methods taking only a single image or a 2D LiDAR point cloud as well as a straightforward fusion method concatenating their features.
翻訳日:2023-03-14 16:12:05 公開日:2023-03-13
# PyTorchとFiredrakeを結合した物理駆動機械学習モデル

Physics-driven machine learning models coupling PyTorch and Firedrake ( http://arxiv.org/abs/2303.06871v1 )

ライセンス: Link先を確認
Nacime Bouziani, David A. Ham(参考訳) 偏微分方程式 (Partial differential equation, PDE) は、科学や工学の分野にまたがる複雑な物理系の記述とモデル化の中心である。 しかし、多くの現実的な応用において、PDEモデリングは関心の物理学の不完全な記述を提供する。 PDEベースの機械学習技術はこの制限に対処するために設計されている。 このアプローチでは、PDEはインダクティブバイアスとして使われ、結合されたモデルは、トレーニングデータが少なくとも基本的な物理法則に依存することができる。 PDEと機械学習を複雑な問題に結合する高性能シミュレーションの展開は、機械学習とPDEベースのフレームワークが提供する機能の構成を必要とする。 我々は、機械学習フレームワークPyTorchと、研究者、エンジニア、ドメインスペシャリストに、既存のコードに簡単な変更しか必要とせず、結合したモデルを特定する高い生産性の方法を提供するPDEシステムFiredrakeとの、シンプルで効果的な結合を提示する。

Partial differential equations (PDEs) are central to describing and modelling complex physical systems that arise in many disciplines across science and engineering. However, in many realistic applications PDE modelling provides an incomplete description of the physics of interest. PDE-based machine learning techniques are designed to address this limitation. In this approach, the PDE is used as an inductive bias enabling the coupled model to rely on fundamental physical laws while requiring less training data. The deployment of high-performance simulations coupling PDEs and machine learning to complex problems necessitates the composition of capabilities provided by machine learning and PDE-based frameworks. We present a simple yet effective coupling between the machine learning framework PyTorch and the PDE system Firedrake that provides researchers, engineers and domain specialists with a high productive way of specifying coupled models while only requiring trivial changes to existing code.
翻訳日:2023-03-14 16:11:45 公開日:2023-03-13
# ViM: 統合下流転送のためのビジョンミドルウェア

ViM: Vision Middleware for Unified Downstream Transferring ( http://arxiv.org/abs/2303.06911v1 )

ライセンス: Link先を確認
Yutong Feng, Biao Gong, Jianwen Jiang, Yiliang Lv, Yujun Shen, Deli Zhao, Jingren Zhou(参考訳) 基礎モデルは大量のデータに基づいて事前トレーニングされ、微調整によって下流タスクに転送される。 この研究は、単一の基礎モデルからさまざまな下流タスクへの統一的な移行を目標とする新しい学習パラダイムであるViM(Vision Middleware)を提示する。 vimは、軽量なプラグインモジュールの動物園で構成されており、それぞれが、共有凍結されたバックボーンを持つミッドストリームデータセットで独立に学習される。 下流タスクは、下流タスクから受け継いだ豊富な知識のおかげで、モジュール動物園の適切な集約の恩恵を受けることができる。 このような設計には3つの大きな利点がある。 効率の面では、上流のバックボーンは一度しかトレーニングできず、チューニングなしですべての下流タスクで再利用できる。 スケーラビリティの観点から、既存のモジュールに影響を与えずに、VIMに追加のモジュールを簡単に追加できます。 パフォーマンス面では、ViMは可能な限り多くの中流タスクを含むことができ、上流と下流の間のタスクギャップを狭めることができる。 これらの利点を考えると、コミュニティが共同で維持・発展できるViMは、基礎モデルを支援する強力なツールとなると信じています。

Foundation models are pre-trained on massive data and transferred to downstream tasks via fine-tuning. This work presents Vision Middleware (ViM), a new learning paradigm that targets unified transferring from a single foundation model to a variety of downstream tasks. ViM consists of a zoo of lightweight plug-in modules, each of which is independently learned on a midstream dataset with a shared frozen backbone. Downstream tasks can then benefit from an adequate aggregation of the module zoo thanks to the rich knowledge inherited from midstream tasks. There are three major advantages of such a design. From the efficiency aspect, the upstream backbone can be trained only once and reused for all downstream tasks without tuning. From the scalability aspect, we can easily append additional modules to ViM with no influence on existing modules. From the performance aspect, ViM can include as many midstream tasks as possible, narrowing the task gap between upstream and downstream. Considering these benefits, we believe that ViM, which the community could maintain and develop together, would serve as a powerful tool to assist foundation models.
翻訳日:2023-03-14 16:05:52 公開日:2023-03-13
# crossformer++: クロススケールに注目する多用途視覚トランスフォーマー

CrossFormer++: A Versatile Vision Transformer Hinging on Cross-scale Attention ( http://arxiv.org/abs/2303.06908v1 )

ライセンス: Link先を確認
Wenxiao Wang, Wei Chen, Qibo Qiu, Long Chen, Boxi Wu, Binbin Lin, Xiaofei He and Wei Liu(参考訳) 異なるスケールの特徴は視覚入力にとって知覚的に重要であるが、既存の視覚トランスフォーマーはまだそれらを明示的に活用していない。 そこで我々はまず,クロススケールな視覚変換器であるCrossFormerを提案する。 クロススケール埋め込み層(CEL)と長距離注意層(LSDA)を導入している。 一方、CELは各トークンを異なるスケールの複数のパッチでブレンドし、セルフアテンションモジュール自体にクロススケールの機能を提供します。 一方lsdaは、セルフアテンションモジュールを近距離モジュールと遠距離モジュールに分割し、計算負荷を低減させるだけでなく、小規模と大規模両方の特徴をトークンに保持する。 さらに、クロスフォーマの実験を通じて、視覚トランスフォーマーの性能に影響を与える別の2つの問題、すなわち拡大する自己アテンションマップと振幅爆発を観察する。 そこで我々は,2つの問題を緩和するために,プログレッシブグループサイズ(PGS)パラダイムと振幅冷却層(ACL)パラダイムを提案する。 PGSとACLを統合したCrossFormerはCrossFormer++と呼ばれる。 大規模な実験では、CrossFormer++はイメージ分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションタスクにおいて、他のビジョントランスフォーマーよりも優れていた。 コードは、https://github.com/cheerss/CrossFormer.comで入手できる。

While features of different scales are perceptually important to visual inputs, existing vision transformers do not yet take advantage of them explicitly. To this end, we first propose a cross-scale vision transformer, CrossFormer. It introduces a cross-scale embedding layer (CEL) and a long-short distance attention (LSDA). On the one hand, CEL blends each token with multiple patches of different scales, providing the self-attention module itself with cross-scale features. On the other hand, LSDA splits the self-attention module into a short-distance one and a long-distance counterpart, which not only reduces the computational burden but also keeps both small-scale and large-scale features in the tokens. Moreover, through experiments on CrossFormer, we observe another two issues that affect vision transformers' performance, i.e. the enlarging self-attention maps and amplitude explosion. Thus, we further propose a progressive group size (PGS) paradigm and an amplitude cooling layer (ACL) to alleviate the two issues, respectively. The CrossFormer incorporating with PGS and ACL is called CrossFormer++. Extensive experiments show that CrossFormer++ outperforms the other vision transformers on image classification, object detection, instance segmentation, and semantic segmentation tasks. The code will be available at: https://github.com/cheerss/CrossFormer.
翻訳日:2023-03-14 16:05:36 公開日:2023-03-13
# ST360IQ:球面視覚変換器による非参照全方位画像品質評価

ST360IQ: No-Reference Omnidirectional Image Quality Assessment with Spherical Vision Transformers ( http://arxiv.org/abs/2303.06907v1 )

ライセンス: Link先を確認
Nafiseh Jabbari Tofighi, Mohamed Hedi Elfkir, Nevrez Imamoglu, Cagri Ozcinar, Erkut Erdem, Aykut Erdem(参考訳) 360度画像は、没入的でインタラクティブな視覚体験を提供する。 近年、その人気が劇的に高まる中、360度画像の品質評価は、この新メディアを捉え、送信し、消費するための洞察を提供するため、関心の対象となっている。 しかし、全方位データに対する標準自然画像に対して提案した品質評価手法を直接適用することは、ある種の課題をもたらす。 これらのモデルは、画像の球面形状による非常に高解像度なデータと暗黙的な歪みを扱う必要がある。 本研究では,無参照360度画像品質評価手法を提案する。 提案したST360IQモデルは、入力全方位画像の有向部分から有向ビューポートを抽出し、各ビューポートから品質スコアを推定する視覚変換器に基づくモジュール処理サリエンシ選択パッチ/トークンを用いる。 そして、これらのスコアを集約して最終的な品質スコアを与える。 OIQA と CVIQ の2つのベンチマークデータセットを用いた実験により,本手法は最先端と比較して,全方位画像の品質が人間の知覚した画質と相関していることが実証された。 コードはhttps://github.com/nafiseh-tofighi/st360iqで入手できる。

Omnidirectional images, aka 360 images, can deliver immersive and interactive visual experiences. As their popularity has increased dramatically in recent years, evaluating the quality of 360 images has become a problem of interest since it provides insights for capturing, transmitting, and consuming this new media. However, directly adapting quality assessment methods proposed for standard natural images for omnidirectional data poses certain challenges. These models need to deal with very high-resolution data and implicit distortions due to the spherical form of the images. In this study, we present a method for no-reference 360 image quality assessment. Our proposed ST360IQ model extracts tangent viewports from the salient parts of the input omnidirectional image and employs a vision-transformers based module processing saliency selective patches/tokens that estimates a quality score from each viewport. Then, it aggregates these scores to give a final quality score. Our experiments on two benchmark datasets, namely OIQA and CVIQ datasets, demonstrate that as compared to the state-of-the-art, our approach predicts the quality of an omnidirectional image correlated with the human-perceived image quality. The code has been available on https://github.com/Nafiseh-Tofighi/ST360IQ
翻訳日:2023-03-14 16:05:14 公開日:2023-03-13
# DEHRFormer:多色ヘイズシーンからの深度推定とヘイズ除去のためのリアルタイムトランス

DEHRFormer: Real-time Transformer for Depth Estimation and Haze Removal from Varicolored Haze Scenes ( http://arxiv.org/abs/2303.06905v1 )

ライセンス: Link先を確認
Sixiang Chen, Tian Ye, Jun Shi, Yun Liu, JingXia Jiang, Erkang Chen, Peng Chen(参考訳) カラーキャストによる多彩なヘイズは、ヘイズ除去と深さ推定の課題を引き起こす。 近年の学習に基づく深度推定法は, 主に, ヘイズフリーシーンからの深度を推定することを目的としている。 これにより、彩色した風と風景の奥行きとの間の内側のつながりが失われる。 本稿では,Depth Estimation and Haze removal (DEHRFormer) を同時に行うリアルタイムトランスフォーマを提案する。 DEHRFormerは1つのエンコーダと2つのタスク固有のデコーダで構成される。 学習可能なクエリを持つ変換器デコーダは、タスクに依存しないエンコーダから結合機能をデコードし、それらをクリーンな画像と深度マップに投影するように設計されている。 さらに,実世界のデヘイジングにおける弱一般化問題に取り組むために,コントラスト学習とドメイン一貫性学習を利用した新しい学習パラダイムを導入し,同じシーンから同じ深さマップを可変ヘイズで予測する。 DEHRFormerは,従来の深度推定ネットワークやデハジングアプローチよりも多彩なヘイズシーンにおいて,大幅な性能向上を実現している。

Varicolored haze caused by chromatic casts poses haze removal and depth estimation challenges. Recent learning-based depth estimation methods are mainly targeted at dehazing first and estimating depth subsequently from haze-free scenes. This way, the inner connections between colored haze and scene depth are lost. In this paper, we propose a real-time transformer for simultaneous single image Depth Estimation and Haze Removal (DEHRFormer). DEHRFormer consists of a single encoder and two task-specific decoders. The transformer decoders with learnable queries are designed to decode coupling features from the task-agnostic encoder and project them into clean image and depth map, respectively. In addition, we introduce a novel learning paradigm that utilizes contrastive learning and domain consistency learning to tackle weak-generalization problem for real-world dehazing, while predicting the same depth map from the same scene with varicolored haze. Experiments demonstrate that DEHRFormer achieves significant performance improvement across diverse varicolored haze scenes over previous depth estimation networks and dehazing approaches.
翻訳日:2023-03-14 16:04:54 公開日:2023-03-13
# マルチモーダルシーン情報を用いた文脈に富む人間の知覚

Contextually-rich human affect perception using multimodal scene information ( http://arxiv.org/abs/2303.06904v1 )

ライセンス: Link先を確認
Digbalay Bose, Rajat Hebbar, Krishna Somandepalli, Shrikanth Narayanan(参考訳) 人間の理解に影響を及ぼす過程は、イメージ、スピーチ、言語など様々なソースから人特有の感情状態を推測する能力を含む。 画像からの感情知覚は、主に有能な顔作物から抽出された表現に焦点を当てている。 しかしながら、人間によって知覚される感情は、社会的設定、前景の相互作用、周囲の視覚シーンなど、複数の文脈的手がかりに依存している。 本研究では、事前学習された視覚言語(VLN)モデルを用いて、画像から前景コンテキストの記述を抽出する。 さらに,前景の手がかりを視覚シーンと組み合わせたマルチモーダルコンテキスト融合(MCF)モジュールと,感情予測のための個人ベースのコンテキスト情報を提案する。 自然のシーンとテレビ番組に関連する2つのデータセットに対するモジュール設計の有効性を示す。

The process of human affect understanding involves the ability to infer person specific emotional states from various sources including images, speech, and language. Affect perception from images has predominantly focused on expressions extracted from salient face crops. However, emotions perceived by humans rely on multiple contextual cues including social settings, foreground interactions, and ambient visual scenes. In this work, we leverage pretrained vision-language (VLN) models to extract descriptions of foreground context from images. Further, we propose a multimodal context fusion (MCF) module to combine foreground cues with the visual scene and person-based contextual information for emotion prediction. We show the effectiveness of our proposed modular design on two datasets associated with natural scenes and TV shows.
翻訳日:2023-03-14 16:04:36 公開日:2023-03-13
# 一般密度行列の資源効率直接キャラクタリゼーション

Resource-efficient Direct Characterization of General Density Matrix ( http://arxiv.org/abs/2303.06903v1 )

ライセンス: Link先を確認
Liang Xu, Mingti Zhou, Runxia Tao, Zhipeng Zhong, Ben Wang, Zhiyong Cao, Hongkuan Xia, Qianyi Wang, Hao Zhan, Aonan Zhang, Shang Yu, Nanyang Xu, Ying Dong, Changliang Ren and Lijian Zhang(参考訳) 逐次的な弱測定により、密度行列全体をグローバルに再構築する代わりに、個々の密度行列要素を直接抽出することが可能となり、量子系を特徴づけるための新しい道を開くことができる。 それでも、量子系の各キューディットに対する多重結合の必要性と適切な精度評価の欠如は、その適用性の拡張、特にマルチキューディット量子系に制約を与える。 本稿では,一般マルチキュートシステムの密度行列を直接特徴付けるリソース効率スキーム (res) を提案する。 このスキームにおいて、量子系の効率的な観測可能状態は、対応する密度行列要素を抽出するのに各quditに結合された単一のメートル状態が十分であるように構成される。 誤差の統計的分布に基づく適切なモデルを用いて、スキームの精度と実現可能性を評価する。 我々はRESを一般の単一光子クォート状態と2光子絡み状態の直接評価に実験的に適用した。 その結果、RESは弱結合シナリオと強結合シナリオの両方において効率と精度の点で逐次スキームよりも優れていた。 この研究は、大規模量子システムの実用的キャラクタリゼーションとそれらの非古典的性質の研究に新しい光を当てている。

Sequential weak measurements allow the direct extraction of individual density-matrix elements instead of globally reconstructing the whole density matrix, opening a new avenue for the characterization of quantum systems. Nevertheless, the requirement of multiple coupling for each qudit of quantum systems and the lack of appropriate precision evaluation constraint its applicability extension, especially for multi-qudit quantum systems. Here, we propose a resource-efficient scheme (RES) to directly characterize the density matrix of general multi-qudit systems, which not only optimizes the measurements but also establishes a feasible estimation analysis. In this scheme, an efficient observable of quantum system is constructed such that a single meter state coupled to each qudit is sufficient to extract the corresponding density-matrix element. An appropriate model based on the statistical distribution of errors are used to evaluate the precision and feasibility of the scheme. We experimentally apply the RES to the direct characterization of general single-photon qutrit states and two-photon entangled states. The results show that the RES outperforms the sequential schemes in terms of efficiency and precision in both weak- and strong- coupling scenarios. This work sheds new light on the practical characterization of large-scale quantum systems and investigation of their non-classical properties.
翻訳日:2023-03-14 16:04:24 公開日:2023-03-13
# 意味不変なコントラスト学習による分子特性予測

Molecular Property Prediction by Semantic-invariant Contrastive Learning ( http://arxiv.org/abs/2303.06902v1 )

ライセンス: Link先を確認
Ziqiao Zhang, Ailin Xie, Jihong Guan, Shuigeng Zhou(参考訳) コントラスト学習は、AI支援薬物設計・発見における自己学習済み分子表現学習モデルの前提課題として広く用いられている。 しかし、コントラスト学習のためのノイズ付加操作による分子ビューを生成する出口法は、意味的不整合の問題に直面し、偽陽性ペアが発生し、結果として予測性能が低下する可能性がある。 本稿ではまず,分子グラフをフラグメントペアに適切に分割し,意味不変なビュー生成手法を提案する。 そこで我々は,分子特性予測のためのビュー生成法に基づいて,フラグメントに基づくSemantic-Invariant Contrastive Learning (FraSICL) モデルを開発した。 frasiclモデルは、コントラスト学習のためのビューの表現を生成する2つのブランチから成り、異なるフラグメントペアビューに含まれる情報をよりよく利用するために、マルチビュー融合と補助類似性損失が導入される。 さまざまなベンチマークデータセットに対する大規模な実験により、FraSICLは、トレーニング済みサンプルの最小数で、既存の主要なモデルと比較して最先端のパフォーマンスを達成できることが示されている。

Contrastive learning have been widely used as pretext tasks for self-supervised pre-trained molecular representation learning models in AI-aided drug design and discovery. However, exiting methods that generate molecular views by noise-adding operations for contrastive learning may face the semantic inconsistency problem, which leads to false positive pairs and consequently poor prediction performance. To address this problem, in this paper we first propose a semantic-invariant view generation method by properly breaking molecular graphs into fragment pairs. Then, we develop a Fragment-based Semantic-Invariant Contrastive Learning (FraSICL) model based on this view generation method for molecular property prediction. The FraSICL model consists of two branches to generate representations of views for contrastive learning, meanwhile a multi-view fusion and an auxiliary similarity loss are introduced to make better use of the information contained in different fragment-pair views. Extensive experiments on various benchmark datasets show that with the least number of pre-training samples, FraSICL can achieve state-of-the-art performance, compared with major existing counterpart models.
翻訳日:2023-03-14 16:04:00 公開日:2023-03-13
# NMR量子プロセッサ上でのパウリスピン作用素の弱い測定による量子状態と過程の直接トモグラフィー

Direct tomography of quantum states and processes via weak measurements of Pauli spin operators on an NMR quantum processor ( http://arxiv.org/abs/2303.06892v1 )

ライセンス: Link先を確認
Akshay Gaikwad and Gayatri Singh and Kavita Dorai and Arvind(参考訳) 本稿では,直接量子状態トモグラフィ (dqst) と直接量子プロセストモグラフィ (dqpt) のための効率的な弱測定に基づくスキームを提案する。 我々は,未知の量子状態とプロセスをそれぞれ特徴付ける密度行列とプロセス行列の選択した要素を直接測定できる一般化量子回路を開発した。 この一般化量子回路は、スカラーj結合を用いて、システムキュービットとメートルキュービット間の相互作用強度を制御する。 我々はこれらの弱い測定ベースのDQSTおよびDQPTプロトコルを実験的に実装し、2量子量子状態と1量子量子過程を正確に特徴付ける。 余分なキュービットはdqstプロトコルを実装するためにメートルキュービットとして使用され、dqptプロトコルでは2つの余分なキュービット(1つはメートルキュービット、もう1つはアンシラキュービット)が使用される。

In this paper, we present an efficient weak measurement-based scheme for direct quantum state tomography (DQST) and direct quantum process tomography (DQPT), and experimentally implement it on an NMR ensemble quantum information processor without involving any projective measurements. We develop a generalized quantum circuit that enables us to directly measure selected elements of the density matrix and process matrix which characterize unknown quantum states and processes, respectively. This generalized quantum circuit uses the scalar J-coupling to control the interaction strength between the system qubits and the metre qubit. We experimentally implement these weak measurement-based DQST and DQPT protocols and use them to accurately characterize several two-qubit quantum states and single-qubit quantum processes. An extra qubit is used as a metre qubit to implement the DQST protocol, while for the DQPT protocol, two extra qubits (one as a metre qubit and the other as an ancilla qubit) are used.
翻訳日:2023-03-14 16:03:43 公開日:2023-03-13
# 1024\times 1024$ quantum linear solver and beyond 大規模量子アルゴリズムのスケーラブルなプログラム実装とシミュレーション

Scalable Program Implementation and Simulation of the Large-Scale Quantum Algorithm: $1024\times 1024$ Quantum Linear Solver and Beyond ( http://arxiv.org/abs/2303.06890v1 )

ライセンス: Link先を確認
Zhao-Yun Chen, Cheng Xue, Xi-Ning Zhuang, Tai-Ping Sun, Huan-Yu Liu, Ye Li, Yu-Chun Wu and Guo-Ping Guo(参考訳) プログラムの実装とシミュレーションは量子アルゴリズムの研究に不可欠である。 しかし、複雑な大規模量子アルゴリズムは、既存の量子プログラミング言語やシミュレータに問題をもたらす可能性がある。 本稿では,スパース行列上の量子ウォークのスケーラブルなプログラム実装と,量子ウォークに基づく量子線形解法を提案する。 本実装は、分散行列を量子ランダムアクセスメモリ内の圧縮スパースカラム形式に格納する実用的なシナリオに基づいている。 すべての必要なモジュールは一元的に実装され、量子バイナリ探索や元のアルゴリズムの修正を含む量子ゲートレベルで分解されることが保証される。 プログラムはレジスタレベルとスパース状態表現に基づく高効率な量子回路シミュレータを用いて検証される。 単一のコアだけで、16384次元の行列上の量子ウォークをシミュレートし、ステップあたり1.1分で582キュービット、最大1024次元で70時間で212245ステップの量子線形ソルバを計算した。 我々の研究は量子アルゴリズムのシミュレーションと古典的解法の間のギャップを狭め、量子線形解法シミュレーションの漸近的な複雑さは古典的線形解法を近似する。 これらのプログラムの実装とシミュレーション技術は、大規模量子アルゴリズムの数値研究の境界を広げる可能性があり、誤り訂正型量子コンピューティングソリューションの開発に寄与する。

Program implementation and simulation are essential for research in the field of quantum algorithms. However, complex and large-scale quantum algorithms can pose challenges for existing quantum programming languages and simulators. Here, we present a scalable program implementation of the quantum walk on a sparse matrix and the quantum linear solver based on the quantum walk. Our implementation is based on a practical scenario in which the sparse matrix is stored in the compressed-sparse-column format in quantum random access memory. All necessary modules are implemented unitarily and are ensured to be decomposed at the quantum gate level, including implementing a quantum binary search and a modification of the original algorithm. The program is validated using a highly efficient quantum circuit simulator which is based on the register level and sparse state representation. With only a single core, we simulate the quantum walk on a 16384-dimensional matrix with 582 qubits in 1.1 minutes per step, as well as a quantum linear solver up to 1024 dimensions and 212245 steps in 70 hours. Our work narrows the gap between the simulation of a quantum algorithm and its classical counterparts, where the asymptotic complexity of our quantum linear solver simulation approximates a classical linear solver. These program implementation and simulation techniques have the potential to expand the boundary of numerical research for large-scale quantum algorithms, with implications for the development of error-correction-era quantum computing solutions.
翻訳日:2023-03-14 16:03:23 公開日:2023-03-13
# DR2: ブラインド顔修復のための拡散型ロバスト劣化再検討

DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration ( http://arxiv.org/abs/2303.06885v1 )

ライセンス: Link先を確認
Zhixin Wang, Xiaoyun Zhang, Ziying Zhang, Huangjie Zheng, Mingyuan Zhou, Ya Zhang, Yanfeng Wang(参考訳) ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成するが、より複雑なケースは現実世界で起こりうる。 この仮定と実際の劣化のギャップは、成果物がしばしば出力で観察される復元性能を損なう。 しかし、トレーニングデータに実際のケースをカバーするためのあらゆる種類の劣化を含めることは、高価で不可能である。 このロバスト性問題に対処するために,まず劣化した画像を粗いが劣化不変な予測に変換する拡散ベースロバスト劣化除去器(dr2)を提案する。 DR2は, 良好な拡散確率モデルを用いて, 様々な種類の劣化がガウス雑音に繋がるノイズ状態に拡散し, 反復分解ステップを通じて意味情報をキャプチャする。 その結果、dr2は共通の劣化(ぼかし、リサイズ、ノイズ、圧縮など)に対して堅牢であり、拡張モジュールの異なる設計と互換性がある。 様々な環境での実験によって、我々のフレームワークは、高度に分解された合成および実世界のデータセットで最先端のメソッドよりも優れています。

Blind face restoration usually synthesizes degraded low-quality data with a pre-defined degradation model for training, while more complex cases could happen in the real world. This gap between the assumed and actual degradation hurts the restoration performance where artifacts are often observed in the output. However, it is expensive and infeasible to include every type of degradation to cover real-world cases in the training data. To tackle this robustness issue, we propose Diffusion-based Robust Degradation Remover (DR2) to first transform the degraded image to a coarse but degradation-invariant prediction, then employ an enhancement module to restore the coarse prediction to a high-quality image. By leveraging a well-performing denoising diffusion probabilistic model, our DR2 diffuses input images to a noisy status where various types of degradation give way to Gaussian noise, and then captures semantic information through iterative denoising steps. As a result, DR2 is robust against common degradation (e.g. blur, resize, noise and compression) and compatible with different designs of enhancement modules. Experiments in various settings show that our framework outperforms state-of-the-art methods on heavily degraded synthetic and real-world datasets.
翻訳日:2023-03-14 16:02:57 公開日:2023-03-13
# 会話型音楽推薦質問における名前付きエンティティ認識(ner)の人間課題研究

A Human Subject Study of Named Entity Recognition (NER) in Conversational Music Recommendation Queries ( http://arxiv.org/abs/2303.06944v1 )

ライセンス: Link先を確認
Elena V. Epure and Romain Hennequin(参考訳) 対話型音楽推薦問合せの騒がしいコーパス上で、名前付きエンティティ認識に関する人間実験を行い、多くの不規則な名前付きエンティティについて検討した。 我々はこれらの課題における人間のNER言語行動を評価し、現在最も一般的なNERシステムである微調整変換器と比較した。 我々のゴールは、より良い評価手法とNERアルゴリズムの設計をガイドするタスクについて学習することであった。 その結果、厳密な評価スキーマの下では、NERは人間とアルゴリズムの両方にとって非常に困難であり、人間は高い精度を示し、一方で、事前トレーニング中に特にエンティティが露出するため、モデルは高いリコール率を示し、エンティティタイプは異なるエラーパターン(アーティストの頻繁なタイピングエラーなど)を持っていた。 リリースされたコーパスは、事前に定義された相互作用のフレームを超えて、対話型音楽レコメンデーションで将来の作業をサポートすることができる。

We conducted a human subject study of named entity recognition on a noisy corpus of conversational music recommendation queries, with many irregular and novel named entities. We evaluated the human NER linguistic behaviour in these challenging conditions and compared it with the most common NER systems nowadays, fine-tuned transformers. Our goal was to learn about the task to guide the design of better evaluation methods and NER algorithms. The results showed that NER in our context was quite hard for both human and algorithms under a strict evaluation schema; humans had higher precision, while the model higher recall because of entity exposure especially during pre-training; and entity types had different error patterns (e.g. frequent typing errors for artists). The released corpus goes beyond predefined frames of interaction and can support future work in conversational music recommendation.
翻訳日:2023-03-14 15:56:48 公開日:2023-03-13
# 指導の指導 : ボリューム画像のインタラクティブセグメンテーションのためのユーザ誘導信号の比較分析

Guiding the Guidance: A Comparative Analysis of User Guidance Signals for Interactive Segmentation of Volumetric Images ( http://arxiv.org/abs/2303.06942v1 )

ライセンス: Link先を確認
Zdravko Marinov, Rainer Stiefelhagen, Jens Kleesiek(参考訳) インタラクティブなセグメンテーションは、医用画像のアノテーション時間を短縮し、クリックのような修正的な相互作用でラベルを反復的に洗練することができる。 既存のインタラクティブなモデルでは、クリックをユーザー誘導信号に変換し、画像と組み合わせて(画像、ガイダンス)ペアを形成するが、ガイダンスの最適な表現方法に関する問題は十分に検討されていない。 そこで本研究では,モデル設計における重要なパラメータを特定するために,異なる信号とパラメータ設定を持つ対話型モデルを訓練することにより,既存のガイダンス信号の比較研究を行う。 本研究は,その限界に対処しながら,他の信号の利点を維持する誘導信号の設計を行った。 本稿では,ジオデシック距離変換を用いたガウス熱マップ誘導信号を提案し,クリックの符号化時に各ヒートマップの半径を動的に適応させる。 我々は,MSD脾臓とAutoPETデータセットについて,解剖学的(脾)と病理的(腫瘍病変)のセグメンテーションについて検討した。 その結果,対話型セグメンテーションでは誘導信号の選択が重要であり,非対話型モデルと比較した場合,適応型ヒートマップを用いて14%Diceで性能を向上することが示唆された。 これにより、インタラクティブなモデルが、臨床ワークフローへのデプロイに一歩近づいた。 コードを公開して公開します。

Interactive segmentation reduces the annotation time of medical images and allows annotators to iteratively refine labels with corrective interactions, such as clicks. While existing interactive models transform clicks into user guidance signals, which are combined with images to form (image, guidance) pairs, the question of how to best represent the guidance has not been fully explored. To address this, we conduct a comparative study of existing guidance signals by training interactive models with different signals and parameter settings to identify crucial parameters for the model's design. Based on our findings, we design a guidance signal that retains the benefits of other signals while addressing their limitations. We propose an adaptive Gaussian heatmaps guidance signal that utilizes the geodesic distance transform to dynamically adapt the radius of each heatmap when encoding clicks. We conduct our study on the MSD Spleen and the AutoPET datasets to explore the segmentation of both anatomy (spleen) and pathology (tumor lesions). Our results show that choosing the guidance signal is crucial for interactive segmentation as we improve the performance by 14% Dice with our adaptive heatmaps on the challenging AutoPET dataset when compared to non-interactive models. This brings interactive models one step closer to deployment on clinical workflows. We will make our code publically available.
翻訳日:2023-03-14 15:56:30 公開日:2023-03-13
# 連帯型授業継続学習における破滅的忘れ方への取り組み

Addressing Catastrophic Forgetting in Federated Class-Continual Learning ( http://arxiv.org/abs/2303.06937v1 )

ライセンス: Link先を確認
Jie Zhang, Chen Chen, Weiming Zhuang, Lingjuan Lv(参考訳) 本稿では,新しいクラスを動的に追加するフェデレーション型クラス連続学習(fccl)について述べる。 既存のFCCLの作業には、データセットの追加や、以前のタスクからのプライベートデータの保存など、さまざまな制限がある。 その結果,非IIDデータによりFLにおける破滅的忘れの問題が悪化することが確認された。 次に,クライアントデータプライバシを保護しながらFCCLにおける破滅的な忘れを緩和するTARGET(federat\textbf{T}ed cl\textbf{A}ss-continual lea\textbf{R}nin\textbf{G} via \textbf{E}xemplar-free dis\textbf{T}illation)を提案する。 提案手法では,前述したグローバルモデルを利用して,過去のタスクの知識をモデルレベルで現在のタスクに転送する。 さらに、データレベルで各クライアント上のデータのグローバルな分布をシミュレートする合成データを生成するように、ジェネレータを訓練する。 従来のFCCLメソッドと比較して、TARGETは追加のデータセットや以前のタスクからの実際のデータを格納する必要がなく、データに敏感なシナリオに最適である。

This paper focuses on an under-explored yet important problem: Federated Class-Continual Learning (FCCL), where new classes are dynamically added in federated learning. Existing FCCL works suffer from various limitations, such as requiring additional datasets or storing the private data from previous tasks. In response, we first demonstrate that non-IID data exacerbates catastrophic forgetting issue in FL. Then we propose a novel method called TARGET (federat\textbf{T}ed cl\textbf{A}ss-continual lea\textbf{R}nin\textbf{G} via \textbf{E}xemplar-free dis\textbf{T}illation), which alleviates catastrophic forgetting in FCCL while preserving client data privacy. Our proposed method leverages the previously trained global model to transfer knowledge of old tasks to the current task at the model level. Moreover, a generator is trained to produce synthetic data to simulate the global distribution of data on each client at the data level. Compared to previous FCCL methods, TARGET does not require any additional datasets or storing real data from previous tasks, which makes it ideal for data-sensitive scenarios.
翻訳日:2023-03-14 15:56:05 公開日:2023-03-13
# 複雑な運転状況に対するリスクモデルによる重要度フィルタリング

Importance Filtering with Risk Models for Complex Driving Situations ( http://arxiv.org/abs/2303.06935v1 )

ライセンス: Link先を確認
Tim Puphal, Raphael Wenzel, Benedict Flade, Malte Probst and Julian Eggert(参考訳) 自動運転車は、混雑した都市を移動するときに大量のエージェントで複雑な運転状況に直面します。 しかし、一部のエージェントは実際に自動運転車の挙動に影響を与えていない。 重要でないエージェントをフィルタリングすることは、システムの振る舞いや動作計画タスクを本質的に単純化する。 計画システムは、ego〜agentの最適な行動ソリューションを見つけるために、より少ないエージェントに集中することができる。 これは特に計算効率の点で有用である。 そこで本稿では,運転リスクモデルによる重要度フィルタリングの研究トピックを紹介する。 本稿では、現状のリスクモデルの概要とフィルタリングのための新たなリスクモデルを提案する。 不重要な物質をフィルターする能力は、大規模な実験で比較される。 その結果、新しい軌道距離は性能、ロバスト性、効率のバランスが良いことがわかった。 この結果に基づいて,複数のフィルタステップを用いた新たなフィルタアーキテクチャを導出し,各ステップに対してリスクモデルが推奨されることにより,ロバスト性がさらに向上する。 これにより、現在の行動計画システムが日々の運転で複雑な状況をよりよく解決できると確信しています。

Self-driving cars face complex driving situations with a large amount of agents when moving in crowded cities. However, some of the agents are actually not influencing the behavior of the self-driving car. Filtering out unimportant agents would inherently simplify the behavior or motion planning task for the system. The planning system can then focus on fewer agents to find optimal behavior solutions for the ego~agent. This is helpful especially in terms of computational efficiency. In this paper, therefore, the research topic of importance filtering with driving risk models is introduced. We give an overview of state-of-the-art risk models and present newly adapted risk models for filtering. Their capability to filter out surrounding unimportant agents is compared in a large-scale experiment. As it turns out, the novel trajectory distance balances performance, robustness and efficiency well. Based on the results, we can further derive a novel filter architecture with multiple filter steps, for which risk models are recommended for each step, to further improve the robustness. We are confident that this will enable current behavior planning systems to better solve complex situations in everyday driving.
翻訳日:2023-03-14 15:55:34 公開日:2023-03-13
# DeepVigor: DNNの信頼性評価のための脆弱性値範囲と要因

DeepVigor: Vulnerability Value Ranges and Factors for DNNs' Reliability Assessment ( http://arxiv.org/abs/2303.06931v1 )

ライセンス: Link先を確認
Mohammad Hasan Ahmadilivani, Mahdi Taheri, Jaan Raik, Masoud Daneshtalab, Maksim Jenihhin(参考訳) ディープニューラルネットワーク(DNN)とそのアクセラレーターは、より頻繁に安全クリティカルなアプリケーションにデプロイされ、信頼性の懸念が高まる。 dnnの信頼性を評価する従来的かつ正確な方法は、フォールトインジェクションを頼りにしてきたが、しかしながら、時間的複雑さに苦しむ。 解析的およびハイブリッドなフォールトインジェクション/分析的手法が提案されているが、それらは特定の加速器アーキテクチャに不正確または特異的である。 本研究では,DNNニューロンの出力に対する脆弱性値範囲を提供するDeepVigorと呼ばれる,高精度,微細粒度,計量指向,加速器非依存の手法を提案する。 deepvigorの結果は、dnnの信頼性を改善するために異なる技術を開発するために活用できる各ニューロンの脆弱で不可逆な範囲を表す分析モデルである。 さらに、DeepVigorは、脆弱性範囲を使用したビット、ニューロン、レイヤの脆弱性ファクタに基づいた信頼性評価メトリクスを提供する。 提案手法は, 故障注入よりも高速であるだけでなく, 加速器から独立して, DNNの信頼性に関する広範囲かつ正確な情報も提供する。 本論文の実験的評価は,従来未確認テストデータで評価した場合でも,提案する脆弱性範囲は99.9%から100%正確であることを示している。 また, 得られた脆弱性因子は, ビット, ニューロン, レイヤの臨界度を良好に表している。 DeepVigorはPyTorchフレームワークで実装され、複雑なDNNベンチマークで検証される。

Deep Neural Networks (DNNs) and their accelerators are being deployed ever more frequently in safety-critical applications leading to increasing reliability concerns. A traditional and accurate method for assessing DNNs' reliability has been resorting to fault injection, which, however, suffers from prohibitive time complexity. While analytical and hybrid fault injection-/analytical-based methods have been proposed, they are either inaccurate or specific to particular accelerator architectures. In this work, we propose a novel accurate, fine-grain, metric-oriented, and accelerator-agnostic method called DeepVigor that provides vulnerability value ranges for DNN neurons' outputs. An outcome of DeepVigor is an analytical model representing vulnerable and non-vulnerable ranges for each neuron that can be exploited to develop different techniques for improving DNNs' reliability. Moreover, DeepVigor provides reliability assessment metrics based on vulnerability factors for bits, neurons, and layers using the vulnerability ranges. The proposed method is not only faster than fault injection but also provides extensive and accurate information about the reliability of DNNs, independent from the accelerator. The experimental evaluations in the paper indicate that the proposed vulnerability ranges are 99.9% to 100% accurate even when evaluated on previously unseen test data. Also, it is shown that the obtained vulnerability factors represent the criticality of bits, neurons, and layers proficiently. DeepVigor is implemented in the PyTorch framework and validated on complex DNN benchmarks.
翻訳日:2023-03-14 15:55:19 公開日:2023-03-13
# 雑音ラベルを用いた双対コントラスト学習

Twin Contrastive Learning with Noisy Labels ( http://arxiv.org/abs/2303.06930v1 )

ライセンス: Link先を確認
Zhizhong Huang and Junping Zhang and Hongming Shan(参考訳) ノイズの多いデータから学ぶことは、モデルのパフォーマンスを著しく劣化させる難しいタスクです。 本稿では,ロバスト表現を学習し,分類のための雑音ラベルを扱うための,新しい双対コントラスト学習モデルtclを提案する。 具体的には、GMMに教師付きモデル予測を注入し、GMM内のラベルなし潜伏変数をラベルなしアノテーションでリンクすることにより、表現上のガウス混合モデル(GMM)を構築する。 次にTCLは、データ分布を考慮した別の2成分GMMにより、間違ったラベルの例を配布外例として検出する。 さらに,モデル予測から真の目標をブートストラップしてノイズラベルを処理するエントロピー正規化損失を伴うクロススーパービジョンを提案する。 その結果、tclはミックスアップとコントラスト学習を通じて推定ラベルに合わせた識別表現を学習できる。 いくつかの標準ベンチマークと実世界のデータセットにおける広範囲な実験結果がtclの優れた性能を示している。 特にTCLは、CIFAR-10の7.5\%の改善を90%のノイズラベルで達成している。 ソースコードは \url{https://github.com/Hzzone/TCL} で入手できる。

Learning from noisy data is a challenging task that significantly degenerates the model performance. In this paper, we present TCL, a novel twin contrastive learning model to learn robust representations and handle noisy labels for classification. Specifically, we construct a Gaussian mixture model (GMM) over the representations by injecting the supervised model predictions into GMM to link label-free latent variables in GMM with label-noisy annotations. Then, TCL detects the examples with wrong labels as the out-of-distribution examples by another two-component GMM, taking into account the data distribution. We further propose a cross-supervision with an entropy regularization loss that bootstraps the true targets from model predictions to handle the noisy labels. As a result, TCL can learn discriminative representations aligned with estimated labels through mixup and contrastive learning. Extensive experimental results on several standard benchmarks and real-world datasets demonstrate the superior performance of TCL. In particular, TCL achieves 7.5\% improvements on CIFAR-10 with 90\% noisy label -- an extremely noisy scenario. The source code is available at \url{https://github.com/Hzzone/TCL}.
翻訳日:2023-03-14 15:54:53 公開日:2023-03-13
# 集団カウントのための超解像情報強調

Super-Resolution Information Enhancement For Crowd Counting ( http://arxiv.org/abs/2303.06925v1 )

ライセンス: Link先を確認
Jiahao Xie, Wei Xu, Dingkang Liang, Zhanyu Ma, Kongming Liang, Weidong Liu, Rui Wang, Ling Jin(参考訳) 群衆の数え上げは、重い咬合、スケール、密度の変化のために難しい課題である。 既存の手法は、低分解能(LR)環境を無視しながらこれらの課題を効果的に処理する。 LRの状況は2つの重要な理由から、計数性能を著しく低下させる。 1) 限られた詳細情報 2) 重なり合う頭部領域は密度マップに蓄積され, 極端に接地値となる。 直感的な解決策は、入力LR画像に超解像前処理を用いることである。 しかし、推論ステップを複雑にし、リアルタイムにアプリケーションの可能性を制限する。 マルチスケール超解法モジュール (MSSRM) と呼ばれるよりエレガントな手法を提案する。 失われたデテールを推定するためにネットワークを誘導し、機能空間の詳細な情報を強化する。 注目すべきは、MSSRMはプラグインプラグインであり、推論コストなしでLR問題を扱うことである。 提案手法はSRラベルを必要とするため,さらに超解答クラウドカウントデータセット(SR-Crowd)を提案する。 3つのデータセットに対する大規模な実験により,本手法の優位性が示された。 コードはhttps://github.com/PRIS-CV/MSSRM.gitで入手できる。

Crowd counting is a challenging task due to the heavy occlusions, scales, and density variations. Existing methods handle these challenges effectively while ignoring low-resolution (LR) circumstances. The LR circumstances weaken the counting performance deeply for two crucial reasons: 1) limited detail information; 2) overlapping head regions accumulate in density maps and result in extreme ground-truth values. An intuitive solution is to employ super-resolution (SR) pre-processes for the input LR images. However, it complicates the inference steps and thus limits application potentials when requiring real-time. We propose a more elegant method termed Multi-Scale Super-Resolution Module (MSSRM). It guides the network to estimate the lost de tails and enhances the detailed information in the feature space. Noteworthy that the MSSRM is plug-in plug-out and deals with the LR problems with no inference cost. As the proposed method requires SR labels, we further propose a Super-Resolution Crowd Counting dataset (SR-Crowd). Extensive experiments on three datasets demonstrate the superiority of our method. The code will be available at https://github.com/PRIS-CV/MSSRM.git.
翻訳日:2023-03-14 15:54:35 公開日:2023-03-13
# 分布外セグメンテーションに応用した畳み込みニューラルネットワークの画素ワイズ勾配不確かさ

Pixel-wise Gradient Uncertainty for Convolutional Neural Networks applied to Out-of-Distribution Segmentation ( http://arxiv.org/abs/2303.06920v1 )

ライセンス: Link先を確認
Kira Maag and Tobias Riedlinger(参考訳) 近年、ディープニューラルネットワークはセマンティックセグメンテーションの最先端を定義しており、予測は事前に定義されたセマンティクスクラスに制限されている。 それらは自動運転のようなアプリケーションにデプロイされるが、そのカテゴリ的に制限された表現力はそのようなオープンワールドのシナリオとは対照的に実行される。 したがって、事前に定義されたセマンティック空間外、すなわちOoD(out-of-distribution)オブジェクトの検出とセグメンテーションが最も関心を持つ。 ソフトマックスエントロピーやベイズモデルのような不確実性推定法は誤った予測に敏感であるため、これらの手法はood検出の自然なベースラインである。 本稿では,推定中に効率的に計算できる画素損失勾配から不確かさスコアを得る手法を提案する。 我々のアプローチは、大規模なモデルのクラスの実装が簡単であり、追加のトレーニングや補助データを必要としないため、事前訓練されたセグメンテーションモデルで容易に利用できる。 本実験は,提案手法が誤った画素分類を識別し,予測品質を推定する能力を示す。 特に、segmentmeifyoucanベンチマークにおいて、oodセグメンテーションと同等のベースラインの点で優れたパフォーマンスを観察し、同様に実装が容易なメソッドを明らかに上回っている。

In recent years, deep neural networks have defined the state-of-the-art in semantic segmentation where their predictions are constrained to a predefined set of semantic classes. They are to be deployed in applications such as automated driving, although their categorically confined expressive power runs contrary to such open world scenarios. Thus, the detection and segmentation of objects from outside their predefined semantic space, i.e., out-of-distribution (OoD) objects, is of highest interest. Since uncertainty estimation methods like softmax entropy or Bayesian models are sensitive to erroneous predictions, these methods are a natural baseline for OoD detection. Here, we present a method for obtaining uncertainty scores from pixel-wise loss gradients which can be computed efficiently during inference. Our approach is simple to implement for a large class of models, does not require any additional training or auxiliary data and can be readily used on pre-trained segmentation models. Our experiments show the ability of our method to identify wrong pixel classifications and to estimate prediction quality. In particular, we observe superior performance in terms of OoD segmentation to comparable baselines on the SegmentMeIfYouCan benchmark, clearly outperforming methods which are similarly flexible to implement.
翻訳日:2023-03-14 15:54:24 公開日:2023-03-13
# nerflix: 分解駆動型視点間ミキサー学習による高品質ニューラルビュー合成

NeRFLiX: High-Quality Neural View Synthesis by Learning a Degradation-Driven Inter-viewpoint MiXer ( http://arxiv.org/abs/2303.06919v1 )

ライセンス: Link先を確認
Kun Zhou, Wenbo Li, Yi Wang, Tao Hu, Nianjuan Jiang, Xiaoguang Han, Jiangbo Lu(参考訳) ニューラルレイディアンス場(NeRF)は、新規なビュー合成において大きな成功を収めた。 しかし, 実世界の場面では, 音源画像から高品質なディテールを復元することは, 既存のnrfベースの手法では依然として困難であり, 不完全なキャリブレーション情報やシーン表現の不正確性が指摘されている。 高品質なトレーニングフレームであっても、NeRFモデルで作られた合成ノベルビューは、ノイズやぼやけなどの顕著なレンダリングアーティファクトに悩まされている。 nerfベースの手法の合成品質を向上させるために,分解駆動型視点間ミキサーを学習し,一般的なnerf非依存リカバリパラダイムであるnerflixを提案する。 特に, nerf型劣化モデリング手法を設計, 大規模トレーニングデータを構築し, 既存のディープニューラルネットワークに対して, nerfネイティブレンダリングアーティファクトを効果的に除去することを可能にする。 さらに, 劣化除去以外にも, 高画質トレーニング画像の融合が可能な視点間集約フレームワークを提案し, 最先端のnrfモデルの性能を全く新しいレベルに押し上げ, 高度にフォトリアリスティックな合成ビューを生成する。

Neural radiance fields (NeRF) show great success in novel view synthesis. However, in real-world scenes, recovering high-quality details from the source images is still challenging for the existing NeRF-based approaches, due to the potential imperfect calibration information and scene representation inaccuracy. Even with high-quality training frames, the synthetic novel views produced by NeRF models still suffer from notable rendering artifacts, such as noise, blur, etc. Towards to improve the synthesis quality of NeRF-based approaches, we propose NeRFLiX, a general NeRF-agnostic restorer paradigm by learning a degradation-driven inter-viewpoint mixer. Specially, we design a NeRF-style degradation modeling approach and construct large-scale training data, enabling the possibility of effectively removing NeRF-native rendering artifacts for existing deep neural networks. Moreover, beyond the degradation removal, we propose an inter-viewpoint aggregation framework that is able to fuse highly related high-quality training images, pushing the performance of cutting-edge NeRF models to entirely new levels and producing highly photo-realistic synthetic views.
翻訳日:2023-03-14 15:53:57 公開日:2023-03-13
# エンタングルメント生成と記憶のための動的ボース・ハバードモデル

Dynamical Bose-Hubbard model for entanglement generation and storing ( http://arxiv.org/abs/2303.06913v1 )

ライセンス: Link先を確認
Maciej Ko\'scielski(参考訳) この研究は、1次元光学格子電位にロードされたボゾン原子からなるシステムにおいて、耐久性が高く絡み合ったグリーンベルガー・ホルン・ザイリンガー状態(GHZ)の動的生成と保存のためのプロトコルの理論的研究を示す。 システム内の絡み合いを示す方法も提示する。 系の基底状態は超流動相かモット絶縁体相のいずれかである。 超流動相中の原子の波動関数は格子全体にわたって非局在化され、重なる。 モット位相では、波動関数は格子点の周りで局所化される。 GHZ状態は超流動相で生成され、モット絶縁体相に記憶される。 これは、2種の原子で満たされた光学格子の電位深さの線形変化によって達成される。 システムを記述するために用いられる数値方法は、ボース=ハバード・ハミルトニアンの正確な対角化に基づいている。 多モード絡み合いレベルを示す量子相関器を導入する。 最後に、コリレータの値がghz状態の生成を示すことを示す。 GHZ状態の出現は、状態の数値表現によって確認される。

This work presents a theoretical study of a protocol for dynamical generation and storage of the durable, highly entangled Greenberger-Horne-Zeilinger (GHZ) state in a system composed of bosonic atoms loaded into a one-dimensional optical lattice potential. A method of indicating entanglement in the system is also presented. The system ground-state can be either in the superfluid phase or in the Mott insulator phase. The wave functions of atoms in the superfluid phase are delocalised over the whole lattice and overlap. In the Mott phase, the wave functions are localised around lattice sites. The GHZ state is being generated in the superfluid phase and stored in the Mott insulator phase. It is achieved by a linear change of the potential depth in an optical lattice filled with atoms of two species. The numerical method used to describe the system is based on the exact diagonalisation of the Bose-Hubbard Hamiltonian. A quantum correlator indicating the level of multi-mode entanglement is introduced. Finally, it is shown that the value of the correlator indicates generation of the GHZ state. The appearance of the GHZ state is confirmed by the numerical representation of the state.
翻訳日:2023-03-14 15:53:35 公開日:2023-03-13
# 動的デカップリング列を用いたcs量子ビットの環境計測

Measuring the environment of a Cs qubit with dynamical decoupling sequences ( http://arxiv.org/abs/2303.06983v1 )

ライセンス: Link先を確認
Sabrina Burgardt, Simon B. J\"ager, Julian Fe{\ss}, Silvia Hiebel, Imke Schneider, Artur Widera(参考訳) 最大25個の光捕捉型中性cs原子からなる非相互作用アンサンブル上での動的デカップリングの実験的実装について報告する。 量子ビットは、2つの磁気非感受性csクロック状態である$\left|f=3, m_f=0 \right>$と$\left|f=4, m_f=0\right>$からなる。 Carr-Purcell-Meiboom-Gill (CPMG) 動的疎結合を用いた場合のコヒーレンス時間を大幅に向上させる。 10個の再焦点パルスを持つcpmgシーケンスは16.2(9)msのコヒーレンス時間を1桁以上178(2)msに増加させ、さらにフィルタ関数形式を利用し、cpmgシーケンスを用いてクビットコヒーレンスに影響する背景雑音床を測定し、パワーローノイズスペクトル $1/\omega^\alpha$ with $\mathit{\alpha} = 0.89(2)$を求める。 この発見は、トラップレーザーの強度におけるノイズの独立測定と非常によく一致している。 さらに、測定されたコヒーレンス進化は、異なる周波数で発生する低周波雑音の符号も示している。 以上の結果から,超低温の$^{87}$Rb浴に浸漬した個々のCs不純物系の単一原子ダイナミックデカップリングによる原子浴のノイズスペクトルが示唆された。

We report the experimental implementation of dynamical decoupling on a small, non-interacting ensemble of up to 25 optically trapped, neutral Cs atoms. The qubit consists of the two magnetic-insensitive Cs clock states $\left| F=3, m_F=0 \right>$ and $\left|F=4, m_F=0\right>$, which are coupled by microwave radiation. We observe a significant enhancement of the coherence time when employing Carr-Purcell-Meiboom-Gill (CPMG) dynamical decoupling. A CPMG sequence with ten refocusing pulses increases the coherence time of 16.2(9) ms by more than one order of magnitude to 178(2) ms. In addition, we make use of the filter function formalism and utilize the CPMG sequence to measure the background noise floor affecting the qubit coherence, finding a power-law noise spectrum $1/\omega^\alpha$ with $\mathit{\alpha} = 0.89(2)$. This finding is in very good agreement with an independent measurement of the noise in the intensity of the trapping laser. Moreover, the measured coherence evolutions also exhibit signatures of low-frequency noise originating at distinct frequencies. Our findings point toward noise spectroscopy of engineered atomic baths through single-atom dynamical decoupling in a system of individual Cs impurities immersed in an ultracold $^{87}$Rb bath.
翻訳日:2023-03-14 15:47:44 公開日:2023-03-13
# 心血管イベント検出のための自己監督型総合検査室進歩事前訓練モデル

Self-supervised based general laboratory progress pretrained model for cardiovascular event detection ( http://arxiv.org/abs/2303.06980v1 )

ライセンス: Link先を確認
Li-Chin Chen, Kuo-Hsuan Hung, Yi-Ju Tseng, Hsin-Yao Wang, Tse-Min Lu, Wei-Chieh Huang, Yu Tsao(参考訳) 定期的な監視は、循環器疾患の管理に不可欠である。 稀な疾患や特定の疾患に対する患者の採用は、患者の大きさやエピソード的観察によって制限されることが多い。 しかし、これらのデータは不規則性、時間性、スパース性、欠席性で悪名高い。 本研究は, 自己教師型学習(SSL)と移動学習を利用して, 上記の障壁を克服し, 心臓血管実験室パラメータの患者進行傾向を有意な症例から, 稀な, 特定の心血管イベント検出に移行した。 高血圧症患者(まだ糖尿病患者)を用いた総合検査前トレーニングモデル(glp)をプレトレーニングし,その臨床経過を経皮的冠動脈インターベンション患者における標的血管再血管化(tvr)の検出に移管した。 GLPは補間データを利用した2段階のトレーニングプロセスを採用し、SSLの性能を高めた。 プレトレーニング後,TVR予測のために微調整を行った。 提案された2段階のトレーニングプロセスはSSLを上回った。 glpで処理すると、その分類は、平均精度で 0.63 から 0.90 に向上した。 従来のGLP処理と比較して,全ての指標が有意に優れていた(p < 0.01)。 この表現は、アルゴリズム機構と多種多様なデータ分布傾向とは無関係に、明確な分離性を示した。 本手法は, 既往例から小規模症例への循環器検査の進展傾向を効果的に伝達し, エピソード観察を伴わずに心血管イベントのリスク評価を支援する効果を示す。 このアプローチを他の検査や疾患にも拡張する可能性は有望です。

Regular surveillance is an indispensable aspect of managing cardiovascular disorders. Patient recruitment for rare or specific diseases is often limited due to their small patient size and episodic observations, whereas prevalent cases accumulate longitudinal data easily due to regular follow-ups. These data, however, are notorious for their irregularity, temporality, sparsity, and absenteeism. In this study, we leveraged self-supervised learning (SSL) and transfer learning to overcome the above-mentioned barriers, transferring patient progress trends in cardiovascular laboratory parameters from prevalent cases to rare or specific cardiovascular events detection. We pretrained a general laboratory progress (GLP) pretrain model using hypertension patients (who were yet to be diabetic), and transferred their laboratory progress trend to assist in detecting target vessel revascularization (TVR) in percutaneous coronary intervention patients. GLP adopted a two-stage training process that utilized interpolated data, enhancing the performance of SSL. After pretraining GLP, we fine-tuned it for TVR prediction. The proposed two-stage training process outperformed SSL. Upon processing by GLP, the classification demonstrated a marked improvement, increasing from 0.63 to 0.90 in averaged accuracy. All metrics were significantly superior (p < 0.01) to the performance of prior GLP processing. The representation displayed distinct separability independent of algorithmic mechanisms, and diverse data distribution trend. Our approach effectively transferred the progression trends of cardiovascular laboratory parameters from prevalent cases to small-numbered cases, thereby demonstrating its efficacy in aiding the risk assessment of cardiovascular events without limiting to episodic observation. The potential for extending this approach to other laboratory tests and diseases is promising.
翻訳日:2023-03-14 15:47:18 公開日:2023-03-13
# 量子skyrmion相における位相力学的量子相転移

Topological dynamical quantum phase transition in a quantum skyrmion phase ( http://arxiv.org/abs/2303.06977v1 )

ライセンス: Link先を確認
Vipin Vijayan, L. Chotorlishvili, A. Ernst, S. S. P. Parkin, M. I. Katsnelson, S. K. Mishra(参考訳) 量子skyrmionic位相は2次元ヘリカルスピン格子でモデル化される。 この位相的空力相は強磁性相に移動する前に大きなパラメータ空間にその性質を保ち続ける。 次に最も近い隣り合う相互作用は安定性を改善し、パラメータ空間における位相位相のシフトを引き起こす。 観測された速度関数の非解析的挙動は、当初量子スクリミオン相にあった系が自明な量子強磁性相にキューチされたとき、動的に量子相転移を示す。 量子相の動的遷移は、最初にスカイマーミオン相にある系がヘリカル相にクエンチされたときに欠如する。

Quantum skyrmionic phase is modelled in a 2D helical spin lattice. This topological skyrmionic phase retains its nature in a large parameter space before moving to a ferromagnetic phase. Next nearest-neighbour interaction improves the stability and it also causes a shift of the topological phase in the parameter space. Nonanalytic behaviour of the rate function observed, when the system which is initially in a quantum skyrmion phase is quenched to a trivial quantum ferromagnetic phase, indicates a dynamical quantum phase transition. Dynamical quantum phase transition is absent when the system initially in a skyrmion phase is quenched to a helical phase.
翻訳日:2023-03-14 15:46:47 公開日:2023-03-13
# ニューラルクープマン演算子を用いたスカースデータからの動的システムの連続表現学習

Leveraging Neural Koopman Operators to Learn Continuous Representations of Dynamical Systems from Scarce Data ( http://arxiv.org/abs/2303.06972v1 )

ライセンス: Link先を確認
Anthony Frion (Lab-STICC_OSE, IMT Atlantique - MEE, ODYSSEY), Lucas Drumetz (Lab-STICC_OSE, IMT Atlantique - MEE, ODYSSEY), Mauro Dalla Mura (IUF, GIPSA-SIGMAPHY), Guillaume Tochon (LRDE), Abdeldjalil Aissa El Bey (Lab-STICC\_COSYDE, IMT Atlantique - MEE)(参考訳) ここ数年、いくつかの研究が、基礎となる物理の知識やほとんどない観測データから動的システムを学ぶためのディープラーニングアーキテクチャを提案してきた。 一連の作業は、クープマン作用素理論に基づいて、基礎となる現象のダイナミクスを線形作用素によって記述できる学習表現に依存している。 しかし, 理想的な状況下では, いくつかの力学系に対して信頼性の高い長期予測が可能であるにもかかわらず, 提案手法には, 本質的に連続的な力学系を離散化する必要があるなど, データの損失, 特に不完全あるいは疎サンプルデータを扱う場合の限界がある。 本稿では,動的システムから発生する複数のデータセットを例に挙げた,限られたトレーニングデータのパフォーマンス向上を実現するために,ダイナミクスを本質的に連続的に表現する新しい深層koopmanフレームワークを提案する。

Over the last few years, several works have proposed deep learning architectures to learn dynamical systems from observation data with no or little knowledge of the underlying physics. A line of work relies on learning representations where the dynamics of the underlying phenomenon can be described by a linear operator, based on the Koopman operator theory. However, despite being able to provide reliable long-term predictions for some dynamical systems in ideal situations, the methods proposed so far have limitations, such as requiring to discretize intrinsically continuous dynamical systems, leading to data loss, especially when handling incomplete or sparsely sampled data. Here, we propose a new deep Koopman framework that represents dynamics in an intrinsically continuous way, leading to better performance on limited training data, as exemplified on several datasets arising from dynamical systems.
翻訳日:2023-03-14 15:46:36 公開日:2023-03-13
# 腫瘍プロファイルが類似した臨床病理学的データに基づく腫瘍型スコアの予測法

A new methodology to predict the oncotype scores based on clinico-pathological data with similar tumor profiles ( http://arxiv.org/abs/2303.06966v1 )

ライセンス: Link先を確認
Zeina Al Masry (FEMTO-ST), Romain Pic (LMB), Cl\'ement Dombry (LMB), Christine Devalland (HNFC)(参考訳) 序説: Oncotype DX (ODX) テストは乳がん診断のための市販の分子検査であり、HER2陰性患者に対する予後および予測乳がん再発情報を提供する。 本研究の目的は,医師の意思決定を支援する新しい手法を提案することである。 方法】2012年から2020年にかけて,ブルゴーニュ・フランシュ=コント連邦の3つの病院からODXアッセイを受けた症例333例を対象とした振り返り調査を行った。 データ収集には臨床および病理所見が用いられた。 9つの臨床病理学的特徴を用いて分布ランダム林に基づく手法を開発した。 この方法は、新規患者と類似性を有するトレーニングコーホートの患者を識別し、odxスコアの分布を推定するために特に有用である。 結果: 参加者の平均年齢は56.9歳であった。 リスクの低い患者は92%、リスクの高い患者は40.2%と正しく分類した。 全体の精度は79.3%である。 低リスク補正予測値(PPV)の比率は82%である。 高リスク補正予測値(NPV)の比率は約62.3%である。 f1-scoreと曲線下領域(auc)はそれぞれ0.87と0.759である。 結論:提案手法により,患者に対するODXスコアの分布を予測し,予測スコアの説明を行うことができる。 病理組織学的および免疫組織化学的特徴の異なる病理医の専門性を持つこの方法論の使用は、乳癌治療に関する意思決定において腫瘍医に臨床効果をもたらす。

Introduction: The Oncotype DX (ODX) test is a commercially available molecular test for breast cancer assay that provides prognostic and predictive breast cancer recurrence information for hormone positive, HER2-negative patients. The aim of this study is to propose a novel methodology to assist physicians in their decision-making. Methods: A retrospective study between 2012 and 2020 with 333 cases that underwent an ODX assay from three hospitals in Bourgogne Franche-Comt{\'e} was conducted. Clinical and pathological reports were used to collect the data. A methodology based on distributional random forest was developed using 9 clinico-pathological characteristics. This methodology can be used particularly to identify the patients of the training cohort that share similarities with the new patient and to predict an estimate of the distribution of the ODX score. Results: The mean age of participants id 56.9 years old. We have correctly classified 92% of patients in low risk and 40.2% of patients in high risk. The overall accuracy is 79.3%. The proportion of low risk correct predicted value (PPV) is 82%. The percentage of high risk correct predicted value (NPV) is approximately 62.3%. The F1-score and the Area Under Curve (AUC) are of 0.87 and 0.759, respectively. Conclusion: The proposed methodology makes it possible to predict the distribution of the ODX score for a patient and provides an explanation of the predicted score. The use of the methodology with the pathologist's expertise on the different histological and immunohistochemical characteristics has a clinical impact to help oncologist in decision-making regarding breast cancer therapy.
翻訳日:2023-03-14 15:46:20 公開日:2023-03-13
# Uni-RXN: 化学反応前処理と条件分子生成のギャップを埋める統一フレームワーク

Uni-RXN: An Unified Framework that Bridge the Gap between Chemical Reaction Pretraining and Conditional Molecule Generation ( http://arxiv.org/abs/2303.06965v1 )

ライセンス: Link先を確認
Bo Qiang, Yiran Zhou, Yuheng Ding, Ningfeng Liu, Liangren Zhang, Zhenming Liu(参考訳) 化学反応は薬物設計と有機化学研究の基本的な構成要素である。 化学のための機械学習は多くの応用で急速に進歩している分野である。 近年,化学反応の基本ルールを効率的に把握できる大規模ディープラーニングフレームワークの必要性が高まっている。 本稿では,反応表現学習と分子生成タスクの両方に対処し,より総合的なアプローチを可能にする統一的な枠組みを提案する。 有機化学機構にインスパイアされた我々は,モデルに誘導バイアスを組み込むことのできる,新しい事前学習フレームワークを開発した。 我々のフレームワークは、下流タスクに挑戦する最先端の成果を達成する。 化学知識を持つことによって、この枠組みは反応ベースの生成モデルに適用でき、少数の反応テンプレートに依存する現在の分子生成モデルの限界を克服することができる。 広範な実験において,本モデルは高品質の合成可能な薬物様構造を生成する。 全体として、我々の研究は、さまざまな反応ベースのアプリケーションのための大規模なディープラーニングフレームワークに向けて大きな一歩を踏み出した。

Chemical reactions are the fundamental building blocks of drug design and organic chemistry research. Machine learning for chemistry is a rapidly advancing field with numerous applications. In recent years, there has been a growing need for a large-scale deep-learning framework that can efficiently capture the basic rules of chemical reactions. In this paper, we have proposed a unified framework that addresses both the reaction representation learning and molecule generation tasks, which allows for a more holistic approach. Inspired by the organic chemistry mechanism, we develop a novel pretraining framework that enables us to incorporate inductive biases into the model. Our framework achieves state-of-the-art results on challenging downstream tasks. By possessing chemical knowledge, this framework can be applied to reaction-based generative models, overcoming the limitations of current molecule generation models that rely on a small number of reaction templates. In the extensive experiments, our model generates synthesizable drug-like structures of high quality. Overall, our work presents a significant step toward a large-scale deep-learning framework for a variety of reaction-based applications.
翻訳日:2023-03-14 15:45:57 公開日:2023-03-13
# 視覚協調シーケンシャル座標モデリングによるテーブル構造認識の改善

Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling ( http://arxiv.org/abs/2303.06949v1 )

ライセンス: Link先を確認
Yongshuai Huang, Ning Lu, Dapeng Chen, Yibo Li, Zecheng Xie, Shenggao Zhu, Liangcai Gao, Wei Peng(参考訳) テーブル構造認識は、非構造化テーブル画像の論理的および物理的構造を機械可読形式に抽出することを目的としている。 最新のエンドツーエンドのイメージ・ツー・テキスト・アプローチでは、2つのデコーダによって2つの構造を同時に予測し、物理構造の予測(セルの境界ボックス)は論理構造の表現に基づいて行われる。 しかし、論理表現は局所的な視覚情報を欠いているため、以前の手法は不正確な境界ボックスに苦しむ。 この問題に対処するために,VASTと呼ばれるテーブル構造認識のためのエンドツーエンドの逐次モデリングフレームワークを提案する。 論理構造デコーダからの空でないセルの表現によってトリガーされる新しい座標シーケンスデコーダを含む。 座標列デコーダでは、境界ボックス座標を言語列としてモデル化し、左、上、右、下の座標を逐次デコーダで復号し、座標間の依存性を利用する。 さらに、空でない細胞の論理的な表現を強制し、より局所的な視覚詳細を包含し、より優れた細胞結合ボックスを生み出す補助的な視覚調整損失を提案する。 広範な実験により,提案手法が論理構造認識と物理構造認識の両方において最先端の結果が得られることを示した。 アブレーション実験は,提案した座標列デコーダと視覚的アライメント損失が,本手法の成功の鍵であることを示す。

Table structure recognition aims to extract the logical and physical structure of unstructured table images into a machine-readable format. The latest end-to-end image-to-text approaches simultaneously predict the two structures by two decoders, where the prediction of the physical structure (the bounding boxes of the cells) is based on the representation of the logical structure. However, the previous methods struggle with imprecise bounding boxes as the logical representation lacks local visual information. To address this issue, we propose an end-to-end sequential modeling framework for table structure recognition called VAST. It contains a novel coordinate sequence decoder triggered by the representation of the non-empty cell from the logical structure decoder. In the coordinate sequence decoder, we model the bounding box coordinates as a language sequence, where the left, top, right and bottom coordinates are decoded sequentially to leverage the inter-coordinate dependency. Furthermore, we propose an auxiliary visual-alignment loss to enforce the logical representation of the non-empty cells to contain more local visual details, which helps produce better cell bounding boxes. Extensive experiments demonstrate that our proposed method can achieve state-of-the-art results in both logical and physical structure recognition. The ablation study also validates that the proposed coordinate sequence decoder and the visual-alignment loss are the keys to the success of our method.
翻訳日:2023-03-14 15:45:44 公開日:2023-03-13
# 動的環境におけるディジタルツインベースv2x通信を実現するマルチモーダルシミュレーションフレームワーク

A Multi-Modal Simulation Framework to Enable Digital Twin-based V2X Communications in Dynamic Environments ( http://arxiv.org/abs/2303.06947v1 )

ライセンス: Link先を確認
Lorenzo Cazzella, Francesco Linsalata, Maurizio Magarini, Matteo Matteucci, Umberto Spagnolini(参考訳) 近年,物理無線環境のためのDigital Twins (DT) が,物理通信機器における多層決定を可能にする伝搬環境の正確な仮想表現として提案されている。 高周波帯では、DTは車体環境を特徴とする高移動環境において生じる課題を克服するのに役立つ。 本稿では,V2X通信シナリオのDT作成のための新しいデータ駆動ワークフローと,現実的なセンサデータと正確なmmWave/sub-THz無線チャネルを生成するためのマルチモーダルシミュレーションフレームワークを提案する。 提案手法は,Unreal Engineゲームエンジンと正確なレイトレーシングチャネルシミュレータに基づく,自動車シミュレーションおよびテストフレームワークを活用する。 都市シナリオのシミュレーションでは、達成可能な現実的なセンサーとチャネルがインフラとエゴ車両の両方でモデル化されている。

Digital Twins (DTs) for physical wireless environments have been recently proposed as accurate virtual representations of the propagation environment that can enable multi-layer decisions at the physical communication equipment. At high frequency bands, DTs can help to overcome the challenges emerging in the high mobility conditions featuring vehicular environments. In this paper, we propose a novel data-driven workflow for the creation of the DT of a Vehicle-to-Everything (V2X) communication scenario and a multi-modal simulation framework for the generation of realistic sensor data and accurate mmWave/sub-THz wireless channels. The proposed method leverages an automotive simulation and testing framework based on the Unreal Engine game engine and an accurate ray-tracing channel simulator. Simulations over an urban scenario show the achievable realistic sensor and channel modelling both at the infrastructure and at an ego-vehicle.
翻訳日:2023-03-14 15:45:22 公開日:2023-03-13
# 列認識モデルの校正のための文脈対応選択ラベル平滑化

Context-Aware Selective Label Smoothing for Calibrating Sequence Recognition Model ( http://arxiv.org/abs/2303.06946v1 )

ライセンス: Link先を確認
Shuangping Huang, Yu Luo, Zhenzhou Zhuang, Jin-Gang Yu, Mengchao He, Yongpan Wang(参考訳) シーケンシャルデータ(シーンテキストと音声)認識におけるディープニューラルネットワーク(DNN)の成功にもかかわらず、主にクロスエントロピー損失によるトレーニングの過度な適合により、自信過剰な問題に悩まされ、意思決定の信頼性が低下する可能性がある。 近年,この問題に対する効果的な解決策として信頼度校正が提案されている。 それにもかかわらず、既存の信頼度校正手法の大多数は、シーケンシャルなデータに直接適用した場合に制限される非シーケンスデータを対象としている。 最後に,シーケンシャルデータのキャリブレーションのための文脈認識選択的ラベル平滑化(casls)手法を提案する。 提案したCASLSはシーケンスのコンテキスト依存性をフル活用し、異なるクラスにおけるコンテキスト予測統計の混乱行列を構築する。 クラス固有のエラーレートは、適応キャリブレーションを達成するために平滑化強度の重みを調整するために使用される。 シーンテキスト認識や音声認識などのシーケンス認識タスクの実験結果から,本手法が最先端の性能を実現することを示す。

Despite the success of deep neural network (DNN) on sequential data (i.e., scene text and speech) recognition, it suffers from the over-confidence problem mainly due to overfitting in training with the cross-entropy loss, which may make the decision-making less reliable. Confidence calibration has been recently proposed as one effective solution to this problem. Nevertheless, the majority of existing confidence calibration methods aims at non-sequential data, which is limited if directly applied to sequential data since the intrinsic contextual dependency in sequences or the class-specific statistical prior is seldom exploited. To the end, we propose a Context-Aware Selective Label Smoothing (CASLS) method for calibrating sequential data. The proposed CASLS fully leverages the contextual dependency in sequences to construct confusion matrices of contextual prediction statistics over different classes. Class-specific error rates are then used to adjust the weights of smoothing strength in order to achieve adaptive calibration. Experimental results on sequence recognition tasks, including scene text recognition and speech recognition, demonstrate that our method can achieve the state-of-the-art performance.
翻訳日:2023-03-14 15:45:06 公開日:2023-03-13
# coganppis:タンパク質-タンパク質相互作用サイト予測のための共進化強化グローバルアテンションニューラルネットワーク

CoGANPPIS: Coevolution-enhanced Global Attention Neural Network for Protein-Protein Interaction Site Prediction ( http://arxiv.org/abs/2303.06945v1 )

ライセンス: Link先を確認
Jiaxing Guo, Xuening Zhu, Zixin Hu, Xiaoxi Hu(参考訳) タンパク質とタンパク質の相互作用は生化学的プロセスにおいて必須である。 タンパク質-タンパク質相互作用部位(PPI)の正確な予測は、我々の生物学的メカニズムの理解を深め、新しい医薬品設計に不可欠である。 しかし、従来のPPI予測実験手法はコストと時間を要するため、近年多くの計算手法、特にMLベースの手法が開発されている。 これらの手法は, 満足度の高い結果を得たものの, 1) 多くのモデルでは有用な入力特徴を発掘しているが, 共進化的特徴を考慮に入れられなかった。(2) 注意ベースモデルでは, 対象残差から遠く離れた残差も考慮せず, 近隣残差に対してのみ注意重みを割り当てている。 我々は,CGANPPISと呼ばれるPPI予測のためのシーケンスベースディープラーニングモデルである,共進化型グローバルアテンションニューラルネットワークを提案する。 It utilizes three layers in parallel for feature extraction: (1) Local-level representation aggregation layer, which aggregates the neighboring residues' features; (2) Global-level representation learning layer, which employs a novel coevolution-enhanced global attention mechanism to allocate attention weights to all the residues on the same protein sequences; (3) Coevolutionary information learning layer, which applies CNN & pooling to coevolutionary information to obtain the coevolutionary profile representation. そして、3つの出力が連結され、最終予測のために複数の完全連結層に渡される。 2つのベンチマークデータセット上のアプリケーションは、このモデルの最先端のパフォーマンスを実証しました。 ソースコードはhttps://github.com/Slam1423/CoGANPPIS_source_codeで公開されている。

Protein-protein interactions are essential in biochemical processes. Accurate prediction of the protein-protein interaction sites (PPIs) deepens our understanding of biological mechanism and is crucial for new drug design. However, conventional experimental methods for PPIs prediction are costly and time-consuming so that many computational approaches, especially ML-based methods, have been developed recently. Although these approaches have achieved gratifying results, there are still two limitations: (1) Most models have excavated some useful input features, but failed to take coevolutionary features into account, which could provide clues for inter-residue relationships; (2) The attention-based models only allocate attention weights for neighboring residues, instead of doing it globally, neglecting that some residues being far away from the target residues might also matter. We propose a coevolution-enhanced global attention neural network, a sequence-based deep learning model for PPIs prediction, called CoGANPPIS. It utilizes three layers in parallel for feature extraction: (1) Local-level representation aggregation layer, which aggregates the neighboring residues' features; (2) Global-level representation learning layer, which employs a novel coevolution-enhanced global attention mechanism to allocate attention weights to all the residues on the same protein sequences; (3) Coevolutionary information learning layer, which applies CNN & pooling to coevolutionary information to obtain the coevolutionary profile representation. Then, the three outputs are concatenated and passed into several fully connected layers for the final prediction. Application on two benchmark datasets demonstrated a state-of-the-art performance of our model. The source code is publicly available at https://github.com/Slam1423/CoGANPPIS_source_code.
翻訳日:2023-03-14 15:44:47 公開日:2023-03-13
# 表現可能プログラムを用いたPDEのシンボリック回帰

Symbolic Regression for PDEs using Pruned Differentiable Programs ( http://arxiv.org/abs/2303.07009v1 )

ライセンス: Link先を確認
Ritam Majumdar, Vishal Jadhav, Anirudh Deodhar, Shirish Karande, Lovekesh Vig, Venkataramana Runkana(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、部分微分方程式系(PDE)の正確なニューラルネットワークサロゲートを得るために広く用いられている。 PINNの大きな制限の1つは、ニューラルネットワークが解釈が困難であり、ブラックボックスソルバとして扱われることである。 シンボリック回帰(SR)は広く研究されているが、PDEのシステムに対して直接SRを実行する解析式を生成する研究はほとんどない。 本研究では,PDEの解に対する数学的表現を得るためのエンドツーエンドフレームワークを提案する。 トレーニングされたPINNを使用してデータセットを生成し、SRを実行する。 我々は,文脈自由文法を用いて定義した微分可能プログラムアーキテクチャ(dpa)を用いて記号表現の空間を記述する。 重みを重みとして深度優先的にDPAを刈り取ることにより,解釈可能性を向上させる。 平均してDPAのパラメータは95.3%減少し,PINNと同等の精度を維持した。 さらに、平均して、プルーニングはDPAの精度を7.81%向上させる。 本稿では,navier-stokes や kovasznay flow,taylor-green vortex flow といった複雑な pdes の系において,既存のsr ソルバよりも優れたフレームワークを示す。 さらに,Air-Preheater の複雑な産業用ユースケースに対する解析式を,性能損失 Viz-a-viz PINN に悩まされることなく生成する。

Physics-informed Neural Networks (PINNs) have been widely used to obtain accurate neural surrogates for a system of Partial Differential Equations (PDE). One of the major limitations of PINNs is that the neural solutions are challenging to interpret, and are often treated as black-box solvers. While Symbolic Regression (SR) has been studied extensively, very few works exist which generate analytical expressions to directly perform SR for a system of PDEs. In this work, we introduce an end-to-end framework for obtaining mathematical expressions for solutions of PDEs. We use a trained PINN to generate a dataset, upon which we perform SR. We use a Differentiable Program Architecture (DPA) defined using context-free grammar to describe the space of symbolic expressions. We improve the interpretability by pruning the DPA in a depth-first manner using the magnitude of weights as our heuristic. On average, we observe a 95.3% reduction in parameters of DPA while maintaining accuracy at par with PINNs. Furthermore, on an average, pruning improves the accuracy of DPA by 7.81% . We demonstrate our framework outperforms the existing state-of-the-art SR solvers on systems of complex PDEs like Navier-Stokes: Kovasznay flow and Taylor-Green Vortex flow. Furthermore, we produce analytical expressions for a complex industrial use-case of an Air-Preheater, without suffering from performance loss viz-a-viz PINNs.
翻訳日:2023-03-14 15:38:10 公開日:2023-03-13
# 準1次元幾何学における慣性物質波ジェット

Incommensurable matter-wave jets in quasi-1D geometry ( http://arxiv.org/abs/2303.07004v1 )

ライセンス: Link先を確認
Tadej Me\v{z}nar\v{s}i\v{c}, Rok \v{Z}itko, Katja Gosar, Katja Arh, Matev\v{z} Jug, Erik Zupani\v{c}, and Peter Jegli\v{c}(参考訳) 単周波相互作用変調を受けるボース・アインシュタイン凝縮体(BEC)における非共振性"ゴールド"$\frac{1+\sqrt{5}}{2}$物質波ジェットの自然形成を実験的に示す。 数値1次元グロス・ピタエフスキー方程式シミュレーションを用いて, 準1次元(1次元)幾何における高次ジェットの形成とそれに対応する不測密度波について検討した。 本研究では,広い範囲の変調振幅と周波数に対するジェット形成過程を調査し,ジェット形成のための位相図を示す。

We experimentally show spontaneous formation of incommensurable "golden" $\frac{1+\sqrt{5}}{2}$ matter-wave jets in a Bose-Einstein condensate (BEC) subjected to single frequency interaction modulation. We study the formation of higher order jets and corresponding incommensurable density waves in quasi one dimensional (1D) geometry with the help of numerical 1D Gross-Pitaevskii equation simulation. We explore the process of jet formation for a large range of modulation amplitudes and frequencies and present a phase diagram for jet formation.
翻訳日:2023-03-14 15:37:48 公開日:2023-03-13
# ネットワーク侵入検知システムにおける敵対的回避攻撃と防御の可能性

Review on the Feasibility of Adversarial Evasion Attacks and Defenses for Network Intrusion Detection Systems ( http://arxiv.org/abs/2303.07003v1 )

ライセンス: Link先を確認
Islam Debicha, Benjamin Cochez, Tayeb Kenaza, Thibault Debatty, Jean-Michel Dricot, Wim Mees(参考訳) 今日では、多くのアプリケーションが機械学習(ML)アルゴリズムを取り入れている。 しかし、コンピュータビジョンの分野における多くの研究は、MLは敵の例と呼ばれる故意に作られた事例によって騙される可能性があることを示した。 これらの逆例は、MLモデルの本質的な脆弱性を利用する。 最近の研究はサイバーセキュリティの分野で多くの懸念を提起している。 多くの研究者が、侵入検知システム(IDS)のようなMLアルゴリズムに基づくセキュリティシステムに対する攻撃の可能性について研究している。 このような敵攻撃の可能性は、様々なドメイン固有の制約に影響されるだろう。 これにより、敵の例を作るのが難しくなる可能性がある。 この領域で行われているかなりの研究にもかかわらず、生データから抽出した特徴を用いてモデルを騙すことは可能であるが、実際的な側面、すなわち理論から実践への逆変換には対処しないことを示すことに焦点を当てている。 そこで本研究では,様々な重要な論文を閲覧して総合的な分析を行う手法を提案する。 我々の分析は、レビュー論文で未解決の課題をいくつか取り上げている。

Nowadays, numerous applications incorporate machine learning (ML) algorithms due to their prominent achievements. However, many studies in the field of computer vision have shown that ML can be fooled by intentionally crafted instances, called adversarial examples. These adversarial examples take advantage of the intrinsic vulnerability of ML models. Recent research raises many concerns in the cybersecurity field. An increasing number of researchers are studying the feasibility of such attacks on security systems based on ML algorithms, such as Intrusion Detection Systems (IDS). The feasibility of such adversarial attacks would be influenced by various domain-specific constraints. This can potentially increase the difficulty of crafting adversarial examples. Despite the considerable amount of research that has been done in this area, much of it focuses on showing that it is possible to fool a model using features extracted from the raw data but does not address the practical side, i.e., the reverse transformation from theory to practice. For this reason, we propose a review browsing through various important papers to provide a comprehensive analysis. Our analysis highlights some challenges that have not been addressed in the reviewed papers.
翻訳日:2023-03-14 15:37:39 公開日:2023-03-13
# マルチモーダル変圧器による状態密度予測

Predicting Density of States via Multi-modal Transformer ( http://arxiv.org/abs/2303.07000v1 )

ライセンス: Link先を確認
Namkyeong Lee, Heewoong Noh, Sungwon Kim, Dongmin Hyun, Gyoung S. Na, Chanyoung Park(参考訳) 状態密度 (DOS) は材料のスペクトル特性であり、材料の様々な特性に関する基本的な洞察を提供する。 本稿では,dosの性質を反映してdosを予測するモデルを提案する:dosはエネルギーの関数として状態の一般分布を決定する。 具体的には、結晶構造とエネルギーから得られる異種情報を多モード変圧器を介して統合し、結晶構造中の原子と様々なエネルギーレベルの間の複雑な関係をモデル化する。 Phonon DOSとElectron DOSの2種類のDOSに関する大規模な実験は、DOSTransformerの優位性を実証している。 DOSTransformerのソースコードはhttps://github.com/HeewoongNoh/DOSTransformerで入手できる。

The density of states (DOS) is a spectral property of materials, which provides fundamental insights on various characteristics of materials. In this paper, we propose a model to predict the DOS by reflecting the nature of DOS: DOS determines the general distribution of states as a function of energy. Specifically, we integrate the heterogeneous information obtained from the crystal structure and the energies via multi-modal transformer, thereby modeling the complex relationships between the atoms in the crystal structure, and various energy levels. Extensive experiments on two types of DOS, i.e., Phonon DOS and Electron DOS, with various real-world scenarios demonstrate the superiority of DOSTransformer. The source code for DOSTransformer is available at https://github.com/HeewoongNoh/DOSTransformer.
翻訳日:2023-03-14 15:37:24 公開日:2023-03-13
# 損失検査による物体検出データセットにおけるラベル誤りの同定

Identifying Label Errors in Object Detection Datasets by Loss Inspection ( http://arxiv.org/abs/2303.06999v1 )

ライセンス: Link先を確認
Marius Schubert, Tobias Riedlinger, Karsten Kahl, Daniel Kr\"oll, Sebastian Schoenen, Sini\v{s}a \v{S}egvi\'c, Matthias Rottmann(参考訳) 教師付きオブジェクト検出のためのデータセットのラベル付けは退屈で時間を要する作業である。 エラーはアノテーション中に簡単に導入でき、レビュー中に見落とされ、不正確なベンチマークとノイズラベルに基づいてトレーニングされたディープニューラルネットワークのパフォーマンス劣化をもたらす。 本稿では,まず,オブジェクト検出データセットにおけるラベル誤り検出手法のベンチマークとラベルエラー検出手法とベースラインをいくつか紹介する。 4種類のランダムに導入されたラベルエラーを列車上でシミュレートし,よくラベルされたオブジェクト検出データセットをテストセットとした。 ラベル誤り検出法では,2段階の物体検出器が与えられると仮定し,両者の分類と回帰損失の総和を考察する。 損失は、後者を検出することを目的として、予測とシミュレートされたラベルエラーを含むノイズラベルに対して計算される。 我々は,本手法を3つのベースラインと比較した。深層学習のないナイーブな手法,対象検出器のスコア,分類ソフトマックス分布のエントロピーである。 すべてのベースラインを上回り、検討したメソッドの中で、4つのタイプのラベルエラーを効率的に検出する唯一の方法であることを実証します。 さらに 実際のラベルエラーを検知し a) オブジェクト検出において一般的に使用されるテストデータセットについて b) プロプライエタリなデータセット。 いずれの場合も、偽陽性率の低い場合、すなわち、この方法から200の提案を考えると、精度の高いラベルエラーを検出する。 a)71.5%まで、及び b) 97%であった。

Labeling datasets for supervised object detection is a dull and time-consuming task. Errors can be easily introduced during annotation and overlooked during review, yielding inaccurate benchmarks and performance degradation of deep neural networks trained on noisy labels. In this work, we for the first time introduce a benchmark for label error detection methods on object detection datasets as well as a label error detection method and a number of baselines. We simulate four different types of randomly introduced label errors on train and test sets of well-labeled object detection datasets. For our label error detection method we assume a two-stage object detector to be given and consider the sum of both stages' classification and regression losses. The losses are computed with respect to the predictions and the noisy labels including simulated label errors, aiming at detecting the latter. We compare our method to three baselines: a naive one without deep learning, the object detector's score and the entropy of the classification softmax distribution. We outperform all baselines and demonstrate that among the considered methods, ours is the only one that detects label errors of all four types efficiently. Furthermore, we detect real label errors a) on commonly used test datasets in object detection and b) on a proprietary dataset. In both cases we achieve low false positives rates, i.e., when considering 200 proposals from our method, we detect label errors with a precision for a) of up to 71.5% and for b) with 97%.
翻訳日:2023-03-14 15:37:11 公開日:2023-03-13
# リアルな画像復元訓練ペアの合成:拡散アプローチ

Synthesizing Realistic Image Restoration Training Pairs: A Diffusion Approach ( http://arxiv.org/abs/2303.06994v1 )

ライセンス: Link先を確認
Tao Yang and Peiran Ren and Xuansong xie and Lei Zhang(参考訳) 教師付き画像復元タスクでは、アライメントされた高品質(hq)と低品質(lq)のトレーニング画像ペアを取得する方法が鍵となる。 残念なことに、HQ-LQトレーニングペアは実際には捕獲が困難であり、野生の複雑な未知の劣化のために合成が困難である。 いくつかの高度な劣化モデルが本社構内からLQ画像を合成するために手動で設計されているが、合成されたLQ画像と実世界のLQ画像の分布ギャップは大きいままである。 本研究では,新たな拡散確率モデル(ddpm)を用いた画像復元訓練ペアの合成手法を提案する。 まず,ノイズの多い入力を所望のLQ画像に変換するDDPMを,目標データ分布を定義する大量のLQ画像を用いて訓練する。 そして,任意のhq画像に対して,既定分解モデルを用いて初期lq画像を合成し,それに対して適切なガウス雑音を反復的に付加する。 最後に、事前学習したddpmを用いてノイズの多いlq画像から最終lq画像を取得し、実世界のlq画像のターゲット分布に陥る。 分散近似におけるDDPMの強い能力により、合成されたHQ-LQイメージペアは、ブラインド顔画像復元やブラインド画像超解像などの実世界の画像復元タスクのための堅牢なモデルを訓練するために使用できる。 既存の劣化モデルに対する提案手法の優位性を示す実験を行った。 コードとデータはリリースされる。

In supervised image restoration tasks, one key issue is how to obtain the aligned high-quality (HQ) and low-quality (LQ) training image pairs. Unfortunately, such HQ-LQ training pairs are hard to capture in practice, and hard to synthesize due to the complex unknown degradation in the wild. While several sophisticated degradation models have been manually designed to synthesize LQ images from their HQ counterparts, the distribution gap between the synthesized and real-world LQ images remains large. We propose a new approach to synthesizing realistic image restoration training pairs using the emerging denoising diffusion probabilistic model (DDPM). First, we train a DDPM, which could convert a noisy input into the desired LQ image, with a large amount of collected LQ images, which define the target data distribution. Then, for a given HQ image, we synthesize an initial LQ image by using an off-the-shelf degradation model, and iteratively add proper Gaussian noises to it. Finally, we denoise the noisy LQ image using the pre-trained DDPM to obtain the final LQ image, which falls into the target distribution of real-world LQ images. Thanks to the strong capability of DDPM in distribution approximation, the synthesized HQ-LQ image pairs can be used to train robust models for real-world image restoration tasks, such as blind face image restoration and blind image super-resolution. Experiments demonstrated the superiority of our proposed approach to existing degradation models. Code and data will be released.
翻訳日:2023-03-14 15:36:48 公開日:2023-03-13
# 連続時間における平均場制御のためのアクタ-クリティック学習

Actor-Critic learning for mean-field control in continuous time ( http://arxiv.org/abs/2303.06993v1 )

ライセンス: Link先を確認
Noufel Frikha (UP1 UFR27), Maximilien Germain (LPSM (UMR\_8001)), Mathieu Lauri\`ere, Huy\^en Pham (LPSM (UMR\_8001)), Xuanye Song (LPSM (UMR\_8001))(参考訳) 強化学習環境における平均場制御のための政策勾配を連続的に検討する。 エントロピー正規化を伴う無作為化ポリシーを考えることにより, オフライン学習とオンライン学習のいずれによっても, 状態の観察サンプルと人口分布のモデルフリー推定に基づいて, 価値関数とポリシーを交互に学習するアクター-批判型アルゴリズムに適合する値関数の勾配期待表現を導出する。 線形二次平均場フレームワークでは、ワッサースタイン空間上で定義されるアクターと批判関数の正確なパラメータを求める。 最後に,具体例について数値実験を行い,本アルゴリズムの結果について述べる。

We study policy gradient for mean-field control in continuous time in a reinforcement learning setting. By considering randomised policies with entropy regularisation, we derive a gradient expectation representation of the value function, which is amenable to actor-critic type algorithms, where the value functions and the policies are learnt alternately based on observation samples of the state and model-free estimation of the population state distribution, either by offline or online learning. In the linear-quadratic mean-field framework, we obtain an exact parametrisation of the actor and critic functions defined on the Wasserstein space. Finally, we illustrate the results of our algorithms with some numerical experiments on concrete examples.
翻訳日:2023-03-14 15:36:22 公開日:2023-03-13
# アニールおよびエネルギーベース境界による相互情報推定の改善

Improving Mutual Information Estimation with Annealed and Energy-Based Bounds ( http://arxiv.org/abs/2303.06992v1 )

ライセンス: Link先を確認
Rob Brekelmans, Sicong Huang, Marzyeh Ghassemi, Greg Ver Steeg, Roger Grosse, Alireza Makhzani(参考訳) 相互情報 (MI) は情報理論と機械学習の基本的な量である。 しかし、MIの直接推定は、たとえ興味のある変数の真の結合確率密度が知られているとしても、潜在的に高次元のログ分割関数を推定することを含む。 本稿では,重要度サンプリングの観点から,既存のMI境界の統一的な視点を示し,このアプローチに基づく3つの新しい境界を提案する。 密度情報のないMIの正確な推定には、真のMIで指数関数的なサンプルサイズを必要とするため、単一の辺りまたは完全な関節密度情報が知られていると仮定する。 本実験では,全関節密度が利用可能である場合,miのマルチサンプルアニール化重要度サンプリング(ais)境界を提案する。 1つの限界分布しか知られていない環境では、一般化IWAE(GIWAE)とMINE-AIS境界を提案する。 我々のGIWAE境界は、InfoNCE、IWAE、Barber-Agakov境界を一般化する単一のフレームワークにおいて変動境界とコントラスト境界を統一する。 MINE-AIS法はMINE-DVやMINE-Fといった既存のエネルギーベース手法をMIのより強い下界を直接最適化することで改善する。 MINE-AISはMCMCサンプリングを用いてトレーニングの勾配を推定し、境界値の評価にはマルチサンプルAISを用いる。 本手法は, 境界密度や関節密度の明示的な形態がしばしば見られるため, 深部生成モデルにおけるMIの評価に特に適している。 MNIST と CIFAR データセットでトレーニングしたVAE と GAN の MI を推定することの限界を評価し、これらの挑戦的な設定において、高地真理 MI を用いて既存の境界よりも顕著に向上したことを示す。

Mutual information (MI) is a fundamental quantity in information theory and machine learning. However, direct estimation of MI is intractable, even if the true joint probability density for the variables of interest is known, as it involves estimating a potentially high-dimensional log partition function. In this work, we present a unifying view of existing MI bounds from the perspective of importance sampling, and propose three novel bounds based on this approach. Since accurate estimation of MI without density information requires a sample size exponential in the true MI, we assume either a single marginal or the full joint density information is known. In settings where the full joint density is available, we propose Multi-Sample Annealed Importance Sampling (AIS) bounds on MI, which we demonstrate can tightly estimate large values of MI in our experiments. In settings where only a single marginal distribution is known, we propose Generalized IWAE (GIWAE) and MINE-AIS bounds. Our GIWAE bound unifies variational and contrastive bounds in a single framework that generalizes InfoNCE, IWAE, and Barber-Agakov bounds. Our MINE-AIS method improves upon existing energy-based methods such as MINE-DV and MINE-F by directly optimizing a tighter lower bound on MI. MINE-AIS uses MCMC sampling to estimate gradients for training and Multi-Sample AIS for evaluating the bound. Our methods are particularly suitable for evaluating MI in deep generative models, since explicit forms of the marginal or joint densities are often available. We evaluate our bounds on estimating the MI of VAEs and GANs trained on the MNIST and CIFAR datasets, and showcase significant gains over existing bounds in these challenging settings with high ground truth MI.
翻訳日:2023-03-14 15:36:09 公開日:2023-03-13
# 非古典性のランダム性フリーテストと相関コイントスにおける実験的量子アドバンテージ

Randomness-free Test of Non-classicality and An Experimental Quantum Advantage in Correlated Coin Tossing ( http://arxiv.org/abs/2303.06990v1 )

ライセンス: Link先を確認
Zhonghua Ma, Markus Rambach, Kaumudibikash Goswami, Some Sankar Bhattacharya, Manik Banik, and Jacquiline Romero(参考訳) 量子絡み合いはベル試験によって証明できる非古典的相関をもたらす。 これらのテストでは、複数の量子系の異なる部分で実行される局所的な測定値を選択するために、しばしばコストがかかり、抜け穴に弱いシードランダム性が必要となる。 種子のランダム性を必要としない相関の非古典性を検出する手法を実装した。 テストは半デバイス非依存であり、部品の寸法の事前知識のみを必要とする。 横方向の空間モードに絡み合う光子対から特定の相関コインを生成することにより、我々はまた、相関したコイントスリングにおいて新しい量子アドバンテージを実験的に示す。 この利点は、我々が得た相関したコイン状態が、任意の2段階の古典的相関硬貨から導出できないことを示すことによって確立される。 量子上の優位性は、絡み合ったペアの各部分にキュービットトリンの正の演算子値測定(POVM)を実行することであり、従ってそのようなPOVMを半デバイスに依存しない方法で認証する。 我々は、将来のマルチパーティ量子通信において重要な共有ランダム性を生成する上で、確実に量子優位性を確立する。

Quantum entanglement leads to non-classical correlations certifiable through Bell tests. These tests require seed randomness -- which is often costly and vulnerable to loopholes -- for choosing the local measurements performed on different parts of a multipartite quantum system. We implement a technique of detecting the non-classicality of correlations that does not require seed randomness. Our test is semi-device-independent and requires only prior knowledge of the dimension of the parts. By producing specific correlated coins from pairs of photons entangled in their transverse spatial modes we also experimentally show a novel quantum advantage in correlated coin tossing. We establish the advantage by showing that the correlated coin state we obtain cannot be derived from any two 2-level classical correlated coins. The quantum advantage requires performing qubit trine positive operator value measures (POVMs) on each part of the entangled pair, thus also certifying such POVMs in a semi-device-independent manner. We firmly establish a quantum advantage in generating shared randomness which will be important for future multi-party quantum communications.
翻訳日:2023-03-14 15:35:38 公開日:2023-03-13
# プログラム可能な中性原子配列を用いたフェルミオン量子処理

Fermionic quantum processing with programmable neutral atom arrays ( http://arxiv.org/abs/2303.06985v1 )

ライセンス: Link先を確認
Daniel Gonz\'alez-Cuadra, Dolev Bluvstein, Marcin Kalinowski, Raphael Kaubruegger, Nishad Maskara, Piero Naldesi, Torsten V. Zache, Adam M. Kaufman, Mikhail D. Lukin, Hannes Pichler, Beno\^it Vermersch, Jun Ye, Peter Zoller(参考訳) 多体フェルミオン系の特性をシミュレーションすることは、物質科学、量子化学、粒子物理学に関連する卓越した計算課題である。 qubitベースの量子コンピュータは、古典的デバイスよりも効率的にこの問題に対処できるが、非局所的フェルミオン統計のエンコーディングは必要なリソースのオーバーヘッドをもたらし、短期的アーキテクチャへの適用性を制限している。 本研究では,フェルミオンモデルが局所的にフェルミイオンレジスタに符号化され,フェルミイオンゲートを用いてハードウェア効率のよいシミュレーションを行うフェルミイオン量子プロセッサを提案する。 プログラム可能なツイーザアレイにおける特にフェルミイオン原子を考察し,非局所トンネルゲートを実装するための異なるプロトコルを開発し,ハードウェアレベルでのフェルミ統計を保証する。 我々は、このゲートセットと、Rydbergによる相互作用ゲートを用いて、分子エネルギー推定のために、ディジタルおよび変分量子シミュレーションアルゴリズムの効率的な回路分解を見つける。 最後に、原子の運動自由度と内部自由度の両方を利用して量子位相推定を効率的に実施し、格子ゲージ理論のダイナミクスをシミュレートするフェルミオン量子ビットアーキテクチャについて考察する。

Simulating the properties of many-body fermionic systems is an outstanding computational challenge relevant to material science, quantum chemistry, and particle physics. Although qubit-based quantum computers can potentially tackle this problem more efficiently than classical devices, encoding non-local fermionic statistics introduces an overhead in the required resources, limiting their applicability on near-term architectures. In this work, we present a fermionic quantum processor, where fermionic models are locally encoded in a fermionic register and simulated in a hardware-efficient manner using fermionic gates. We consider in particular fermionic atoms in programmable tweezer arrays and develop different protocols to implement non-local tunneling gates, guaranteeing Fermi statistics at the hardware level. We use this gate set, together with Rydberg-mediated interaction gates, to find efficient circuit decompositions for digital and variational quantum simulation algorithms, illustrated here for molecular energy estimation. Finally, we consider a combined fermion-qubit architecture, where both the motional and internal degrees of freedom of the atoms are harnessed to efficiently implement quantum phase estimation, as well as to simulate lattice gauge theory dynamics.
翻訳日:2023-03-14 15:35:18 公開日:2023-03-13
# SelfPromer: 深さ一貫性を備えたセルフプロンプトデハージングトランス

SelfPromer: Self-Prompt Dehazing Transformers with Depth-Consistency ( http://arxiv.org/abs/2303.07033v1 )

ライセンス: Link先を確認
Cong Wang and Jinshan Pan and Wanyu Lin and Jiangxin Dong and Xiao-Ming Wu(参考訳) 本研究は,画像デハージングに有効な深度整合型セルフプロンプトトランスを提案する。 ヘイズ残像とその明確な像の深さが異なるという観測によって動機づけられた。 したがって、デハザード画像とクリア画像の深さ整合性を強制することは、デハザーズに必須である。 そこで本研究では, より優れた修復を行うために, ヘイズ入力画像とそれに対応する鮮明な画像との深度差の特徴に基づくプロンプトを開発する。 具体的には,入力画像から抽出した深部特徴を深度差特徴量に適用し,入力中のヘイズ残差情報を含むプロンプトを生成する。 そこで我々は,深い特徴にプロンプトを線形に追加することにより,迷路残差を知覚するプロンプト埋め込みモジュールを提案する。 さらに,より優れた除去のために,haze残差に注意を払うための効果的なプロンプトアテンションモジュールを開発した。 VQGANに基づくエンコーダ・デコーダネットワークにプロンプト、プロンプト埋め込み、そしてインタプリタを組み込むことにより、より優れた知覚品質を実現することができる。 画像の鮮明な深さは推論では得られず,一方のフィードフォワード実行によるデハズ化画像は依然として一部のヘイズ残差を含む可能性があるため,より優れたヘイズフリー画像生成に向けてデハズ化モデルを反復的に補正できる新しい連続自己プロンプト推論を提案する。 本手法は,NIQE,PI,PIQEなどの知覚指標を用いて,合成と実世界の両方のデータセットに対する最先端のアプローチに対して良好に作用することを示す。

This work presents an effective depth-consistency self-prompt Transformer for image dehazing. It is motivated by an observation that the estimated depths of an image with haze residuals and its clear counterpart vary. Enforcing the depth consistency of dehazed images with clear ones, therefore, is essential for dehazing. For this purpose, we develop a prompt based on the features of depth differences between the hazy input images and corresponding clear counterparts that can guide dehazing models for better restoration. Specifically, we first apply deep features extracted from the input images to the depth difference features for generating the prompt that contains the haze residual information in the input. Then we propose a prompt embedding module that is designed to perceive the haze residuals, by linearly adding the prompt to the deep features. Further, we develop an effective prompt attention module to pay more attention to haze residuals for better removal. By incorporating the prompt, prompt embedding, and prompt attention into an encoder-decoder network based on VQGAN, we can achieve better perception quality. As the depths of clear images are not available at inference, and the dehazed images with one-time feed-forward execution may still contain a portion of haze residuals, we propose a new continuous self-prompt inference that can iteratively correct the dehazing model towards better haze-free image generation. Extensive experiments show that our method performs favorably against the state-of-the-art approaches on both synthetic and real-world datasets in terms of perception metrics including NIQE, PI, and PIQE.
翻訳日:2023-03-14 15:29:42 公開日:2023-03-13
# 量子コンピュータを用いた効率的な光伝搬アルゴリズム

Efficient Light Propagation Algorithm using Quantum Computers ( http://arxiv.org/abs/2303.07032v1 )

ライセンス: Link先を確認
Chanaprom Cholsuk, Siavash Davani, Lorcan O. Conlon, Tobias Vogl, Falk Eilenberger(参考訳) 量子アルゴリズムは計算的に難しい問題の境界を克服することができる。 現代光学の基盤の1つはビーム伝搬アルゴリズムであり、特定の分散関係を持つ波が時間と空間でどのように伝播するかの計算を容易にする。 このアルゴリズムは、フーリエ変換、転送関数による乗算、後続のバック変換によって波動伝播方程式を解く。 この伝達関数は各分散関係から決定され、多項式として拡張することができる。 自由空間またはピコ秒パルス伝搬における同軸波伝搬の場合、この展開は二次項の後に停止することができる。 波動伝播の古典的な解は$\mathcal{O}(N log N)$計算ステップを必要とし、そこでは$N$は波動関数が離散化される点の数である。 ここでは,この伝搬を$\mathcal{O}((log{}N)^2)$ 1 個の位相ゲートを持つ量子アルゴリズムとして行うことができ,計算複雑性が指数関数的に減少することを示す。 本稿では、この量子ビーム伝搬法(QBPM)を実証し、二重スリット実験とガウスビーム伝搬のための1次元および2次元システムの両方でそのような伝搬を行う。 我々は、量子測定プロセスの統計的性質に直面して量子長所を維持するための適切な観測器の選択の重要性を強調し、古典的解には存在しないサンプリング誤差をもたらす。

Quantum algorithms can potentially overcome the boundary of computationally hard problems. One of the cornerstones in modern optics is the beam propagation algorithm, facilitating the calculation of how waves with a particular dispersion relation propagate in time and space. This algorithm solves the wave propagation equation by Fourier transformation, multiplication with a transfer function, and subsequent back transformation. This transfer function is determined from the respective dispersion relation and can often be expanded as a polynomial. In the case of paraxial wave propagation in free space or picosecond pulse propagation, this expansion can be truncated after the quadratic term. The classical solution to the wave propagation requires $\mathcal{O}(N log N)$ computation steps, where $N$ is the number of points into which the wave function is discretized. Here, we show that the propagation can be performed as a quantum algorithm with $\mathcal{O}((log{}N)^2)$ single-controlled phase gates, indicating exponentially reduced computational complexity. We herein demonstrate this quantum beam propagation method (QBPM) and perform such propagation in both one- and two-dimensional systems for the double-slit experiment and Gaussian beam propagation. We highlight the importance of the selection of suitable observables to retain the quantum advantage in the face of the statistical nature of the quantum measurement process, which leads to sampling errors that do not exist in classical solutions.
翻訳日:2023-03-14 15:29:12 公開日:2023-03-13
# $\nabla$SD:スパーステンソルの微分可能なプログラミング

$\nabla$SD: Differentiable Programming for Sparse Tensors ( http://arxiv.org/abs/2303.07030v1 )

ライセンス: Link先を確認
Amir Shaikhha, Mathieu Huot, Shideh Hashemian(参考訳) スパーステンソルは多くのデータ集約型アプリケーションで一般的であるが、既存の微分可能なプログラミングフレームワークは高密度テンソル向けに調整されている。 これは、不規則なスパーシティパターンが実質的なメモリと計算上のオーバーヘッドをもたらす可能性があるため、スパーステンソル演算による勾配を効率的に計算するための重要な課題である。 本研究では,スパーステンソルの効率的かつ自動微分を可能にする新しいフレームワークを導入し,この問題に対処する。 実験では,提案するフレームワークの有効性を,パフォーマンスとスケーラビリティの観点から実証し,さまざまな合成および実世界のデータセットで最先端のフレームワークより優れていることを示した。 私たちのアプローチは、スパーステンソルを用いた効率的でスケーラブルな微分可能プログラミングを可能にするための、有望な方向性を提供します。

Sparse tensors are prevalent in many data-intensive applications, yet existing differentiable programming frameworks are tailored towards dense tensors. This presents a significant challenge for efficiently computing gradients through sparse tensor operations, as their irregular sparsity patterns can result in substantial memory and computational overheads. In this work, we introduce a novel framework that enables the efficient and automatic differentiation of sparse tensors, addressing this fundamental issue. Our experiments demonstrate the effectiveness of the proposed framework in terms of performance and scalability, outperforming state-of-the-art frameworks across a range of synthetic and real-world datasets. Our approach offers a promising direction for enabling efficient and scalable differentiable programming with sparse tensors, which has significant implications for numerous applications in machine learning, natural language processing, and scientific computing.
翻訳日:2023-03-14 15:28:47 公開日:2023-03-13
# ロボットマニピュレーションタスクのためのマルチカメラビューからシングルカメラビュー知識蒸留への視覚ポリティクス学習

Visual-Policy Learning through Multi-Camera View to Single-Camera View Knowledge Distillation for Robot Manipulation Tasks ( http://arxiv.org/abs/2303.07026v1 )

ライセンス: Link先を確認
Cihan Acar, Kuluhan Binici, Alp Tekirda\u{g} and Wu Ya(参考訳) マルチカメラビューを同時に使用することで、視覚ポリシーの一般化能力と性能が向上することが示されている。 しかし、現実のシナリオにおけるハードウェアコストと設計上の制約は、複数のカメラの使用を難しくする可能性がある。 本研究では,ロボット操作タスクのための視覚に基づく強化学習(RL)アルゴリズムの一般化性能を高める新しい手法を提案する。 提案手法は,複数のカメラ視点で訓練された「教師」政策が,単一カメラ視点から学習する「学生」政策を導く「知識蒸留」と呼ばれる手法を利用する。 カメラ位置摂動に対する学生政策の堅牢性を高めるため、データ拡張と極端な視点変化を用いて訓練を行う。 その結果、学生ポリシーは、カメラの視点に関係なく、興味のある対象を正確にかつ一貫して見つけることができる堅牢な視覚特徴を学習する。 提案手法の有効性と効率をシミュレーションと実環境の両方で評価した。 その結果、単一視点の視覚的学生政策は、単一視点の政策だけでは不可能な課題を把握し、持ち上げることをうまく学べることを示した。 さらに、学生の方針はゼロショット転送能力を示し、見えない視覚構成のための現実シナリオにおけるオブジェクトの把握と持ち上げを成功させる。

The use of multi-camera views simultaneously has been shown to improve the generalization capabilities and performance of visual policies. However, the hardware cost and design constraints in real-world scenarios can potentially make it challenging to use multiple cameras. In this study, we present a novel approach to enhance the generalization performance of vision-based Reinforcement Learning (RL) algorithms for robotic manipulation tasks. Our proposed method involves utilizing a technique known as knowledge distillation, in which a pre-trained ``teacher'' policy trained with multiple camera viewpoints guides a ``student'' policy in learning from a single camera viewpoint. To enhance the student policy's robustness against camera location perturbations, it is trained using data augmentation and extreme viewpoint changes. As a result, the student policy learns robust visual features that allow it to locate the object of interest accurately and consistently, regardless of the camera viewpoint. The efficacy and efficiency of the proposed method were evaluated both in simulation and real-world environments. The results demonstrate that the single-view visual student policy can successfully learn to grasp and lift a challenging object, which was not possible with a single-view policy alone. Furthermore, the student policy demonstrates zero-shot transfer capability, where it can successfully grasp and lift objects in real-world scenarios for unseen visual configurations.
翻訳日:2023-03-14 15:28:33 公開日:2023-03-13
# エンドツーエンドパイプラインアプローチによるテキストのバイアスに対処する

Addressing Biases in the Texts using an End-to-End Pipeline Approach ( http://arxiv.org/abs/2303.07024v1 )

ライセンス: Link先を確認
Shaina Raza, Syed Raza Bashir, Sneha, Urooj Qamar(参考訳) 公正という概念は学術や産業で人気を集めている。 ソーシャルメディアは特にメディアの偏見や有害な言語やコメントに弱い。 本稿では,テキストを入力とし,バイアスや有害な内容を含むか否かを判定する,公正なMLパイプラインを提案する。 そして、事前学習された単語埋め込みに基づいて、二義語を置換して新しい単語の集合を示唆し、それらのバイアスを代替語に置き換えることで効果を減少させる。 我々のアプローチを既存の公平性モデルと比較し、その効果を判断する。 その結果,提案したパイプラインはソーシャルメディアデータのバイアスを検出・識別・緩和できることがわかった。

The concept of fairness is gaining popularity in academia and industry. Social media is especially vulnerable to media biases and toxic language and comments. We propose a fair ML pipeline that takes a text as input and determines whether it contains biases and toxic content. Then, based on pre-trained word embeddings, it suggests a set of new words by substituting the bi-ased words, the idea is to lessen the effects of those biases by replacing them with alternative words. We compare our approach to existing fairness models to determine its effectiveness. The results show that our proposed pipeline can de-tect, identify, and mitigate biases in social media data
翻訳日:2023-03-14 15:28:12 公開日:2023-03-13
# サイドバンドマイクロ波干渉計を用いた系統雑音に対する量子デバイスの読み出し

Readout of quantum devices with a sideband microwave interferometer immune to systematic noise ( http://arxiv.org/abs/2303.07018v1 )

ライセンス: Link先を確認
N. Crescini, E. G. Kelly, G. Salis, A. Fuhrer(参考訳) マイクロ波測定の精度は、通信やレーダーへの応用だけでなく、将来の量子コンピュータにも重要である。 超伝導量子ビットやスピン量子ビットのような量子ビット技術は、典型的には量子ビットに結合した共振器からマイクロ波音を反射させることで、微小信号を検出する必要がある。 温度の変動などによるコーリングや増幅からのノイズは、忠実度を読み取るのに有害である。 キャリア信号の2つの1次サイドバンドから発生するマイクロ波音の差動測定に基づいて,テスト中の装置の位相変化と振幅変化を検出する手法を提案する。 2つのマイクロ波トーンは、一方のサイドバンドに対して狭帯域応答を示す測定装置に同じケーブルを介して送信され、他方は影響を受けない。 反射側バンドはキャリアとのダウンコンバージョンによって干渉される。 サイドバンドの振幅と位相を選択することで、共通振幅または共通位相ノイズの抑制が可能となり、周波数シフトの高速で安定した測定と共振器の品質因子が得られる。 25mKのNbN超伝導共振器を用いて実験装置の校正および特性評価を行い, 共振周波数の時間依存性変動について検討した。

The accuracy of microwave measurements is not only critical for applications in telecommunication and radar, but also for future quantum computers. Qubit technologies such as superconducting qubits or spin qubits require detecting minuscule signals, typically achieved by reflecting a microwave tone off a resonator that is coupled to the qubit. Noise from cabling and amplification, e.g. from temperature variations, can be detrimental to readout fidelity. We present an approach to detect phase and amplitude changes of a device under test based on the differential measurement of microwave tones generated by two first-order sidebands of a carrier signal. The two microwave tones are sent through the same cable to the measured device that exhibits a narrow-band response for one sideband and leaves the other unaffected. The reflected sidebands are interfered by down-conversion with the carrier. By choosing amplitude and phases of the sidebands, suppression of either common amplitude or common phase noise can be achieved, allowing for fast, stable measurements of frequency shifts and quality factors of resonators. Test measurements were performed on NbN superconducting resonators at 25 mK to calibrate and characterise the experimental setup, and to study time-dependent fluctuations of their resonance frequency.
翻訳日:2023-03-14 15:28:01 公開日:2023-03-13
# HOOV:慣性センシングを用いた触覚対話のための手動外視追跡

HOOV: Hand Out-Of-View Tracking for Proprioceptive Interaction using Inertial Sensing ( http://arxiv.org/abs/2303.07016v1 )

ライセンス: Link先を確認
Paul Streli, Rayan Armani, Yi Fei Cheng and Christian Holz(参考訳) 現在の仮想現実システムは、視覚制御下でのインタラクションのために設計されている。 内蔵カメラを使って、ヘッドセットは視野の中にいる間、ユーザーの手やハンドヘルドコントローラーを追跡します。 したがって現在のシステムは、ユーザの画面外コンテンツとのインタラクションを無視する — ユーザが集中させるために頭の動きを煩雑に必要とせずに、プロピオセプションを通じて素早くアクセス可能な仮想オブジェクト — 。 本稿では,VR利用者が視野外の物体と対話できる手首回りのセンシング手法であるHOOVを提案する。 単一手首の慣性センサーの信号に基づいて、HOOVは3空間のユーザーの手の位置を連続的に推定し、手がトラッキング範囲を離れるとヘッドセットのトラッキングを補完する。 我々の新しいデータ駆動手法は、慣性観測のみに基づく安定な手の位置と軌道の連続的な推定から手の位置と軌道を予測する。 慣性センシングは、同時に指ピンチングを検出して画面外選択イベントを登録し、手首デバイス内の触覚アクチュエータを用いて確認し、仮想コンテンツの選択、把持、ドロップを可能にする。 我々はHOOVの性能をカメラベースの光学式モーションキャプチャシステムと比較した。 第1の評価では、参加者はモーションキャプチャーシステムからの追跡情報に基づいて相互作用を行い、その精度を評価する一方、第2に、HOOVのリアルタイム推定に基づいて相互作用した。 HOOVの目標に依存しない推定値の平均追跡誤差は7.7cmであり、参加者は最初に焦点を合わせることなく、身体の仮想オブジェクトに確実にアクセスすることができる。 我々は,より広い入力空間のhoovを活用したいくつかの応用例を示し,本手法の可能性を議論して結論づける。

Current Virtual Reality systems are designed for interaction under visual control. Using built-in cameras, headsets track the user's hands or hand-held controllers while they are inside the field of view. Current systems thus ignore the user's interaction with off-screen content -- virtual objects that the user could quickly access through proprioception without requiring laborious head motions to bring them into focus. In this paper, we present HOOV, a wrist-worn sensing method that allows VR users to interact with objects outside their field of view. Based on the signals of a single wrist-worn inertial sensor, HOOV continuously estimates the user's hand position in 3-space to complement the headset's tracking as the hands leave the tracking range. Our novel data-driven method predicts hand positions and trajectories from just the continuous estimation of hand orientation, which by itself is stable based solely on inertial observations. Our inertial sensing simultaneously detects finger pinching to register off-screen selection events, confirms them using a haptic actuator inside our wrist device, and thus allows users to select, grab, and drop virtual content. We compared HOOV's performance with a camera-based optical motion capture system in two folds. In the first evaluation, participants interacted based on tracking information from the motion capture system to assess the accuracy of their proprioceptive input, whereas in the second, they interacted based on HOOV's real-time estimations. We found that HOOV's target-agnostic estimations had a mean tracking error of 7.7 cm, which allowed participants to reliably access virtual objects around their body without first bringing them into focus. We demonstrate several applications that leverage the larger input space HOOV opens up for quick proprioceptive interaction, and conclude by discussing the potential of our technique.
翻訳日:2023-03-14 15:27:42 公開日:2023-03-13
# アイデンティティとテクスチャ制御による参照ガイド付き大規模顔ペンキ

Reference-Guided Large-Scale Face Inpainting with Identity and Texture Control ( http://arxiv.org/abs/2303.07014v1 )

ライセンス: Link先を確認
Wuyang Luo, Su Yang, Weishan Zhang(参考訳) Face Inpaintingは、破損した領域内の顔画像の欠落を確実に予測することを目的としている。 既存の手法のほとんどは、大規模なデータセットから顔画像分布を学習する生成モデルに依存している。 そこで本研究では, 顔塗抹の強固な制御を導入するために, 大規模欠落領域を同一性, テクスチャ制御で満たす, 新たな参照誘導顔塗抹法を提案する。 しかし、2つの制御信号による高品質な結果の生成は困難である。 そこで,本稿では,顔の形状とテクスチャを表現したテクスチャ情報を識別するハイレベルな識別情報と低レベルなテクスチャ情報という,フレキシブルな制御のために,参照画像を2段階に分離する2段階制御の一段階フレームワークを提案する。 高品質な結果を合成するために,2種類の制御情報を塗布処理に注入するために,Half-AdaIN と Component-Wise Style Injector (CWSI) と呼ばれる2つの新しいモジュールを設計した。 本手法は,参照画像に忠実なアイデンティティとテクスチャ制御による現実的な結果を生成する。 私たちの知る限りでは、より正確で制御可能な結果を約束するために、IDとコンポーネントレベルのコントロールを同時に適用するのは、初めての作業です。 コードはhttps://github.com/WuyangLuo/RefFaceInpaintingで入手できる。

Face inpainting aims at plausibly predicting missing pixels of face images within a corrupted region. Most existing methods rely on generative models learning a face image distribution from a big dataset, which produces uncontrollable results, especially with large-scale missing regions. To introduce strong control for face inpainting, we propose a novel reference-guided face inpainting method that fills the large-scale missing region with identity and texture control guided by a reference face image. However, generating high-quality results under imposing two control signals is challenging. To tackle such difficulty, we propose a dual control one-stage framework that decouples the reference image into two levels for flexible control: High-level identity information and low-level texture information, where the identity information figures out the shape of the face and the texture information depicts the component-aware texture. To synthesize high-quality results, we design two novel modules referred to as Half-AdaIN and Component-Wise Style Injector (CWSI) to inject the two kinds of control information into the inpainting processing. Our method produces realistic results with identity and texture control faithful to reference images. To the best of our knowledge, it is the first work to concurrently apply identity and component-level controls in face inpainting to promise more precise and controllable results. Code is available at https://github.com/WuyangLuo/RefFaceInpainting
翻訳日:2023-03-14 15:27:12 公開日:2023-03-13
# agtgan: 写真古代文字生成のための非対訳画像

AGTGAN: Unpaired Image Translation for Photographic Ancient Character Generation ( http://arxiv.org/abs/2303.07012v1 )

ライセンス: Link先を確認
Hongxiang Huang, Daihui Yang, Gang Dai, Zhen Han, Yuyi Wang, Kin-Man Lam, Fan Yang, Shuangping Huang, Yongge Liu, Mengchao He(参考訳) 古代の文献の研究は考古学や文献学に非常に価値がある。 基本的な素材は写真キャラクタであるが、手動による写真キャラクタ認識は非常に時間と専門性に依存している。 そのため、自動分類が望まれる。 しかし、注釈データがないため、現在の性能は限られている。 データ生成は、データ不足に対する安価だが有用なソリューションである。 それでも、写真古文字の多様なグリフ形状や複雑な背景テクスチャは、生成作業を困難にし、既存の手法の満足できない結果をもたらす。 本稿では,AGTGAN と呼ばれる非教師付き生成敵ネットワークを提案する。 球形および局所的なグリフ形状をモデル化し,その後にストローク対応テクスチャ転送と,対応する対角学習機構により,多様なグリフと現実的なテクスチャを持つキャラクタを生成することができる。 我々は,写真古代文字データセット,例えば obc306 と csdd のアプローチを評価した。 本手法は,様々な測定値において最先端のアプローチを上回り,生成したサンプルの多様性と信頼性の面ではるかに優れている。 私たちの生成した画像から,最大16.34%の精度で分類精度を向上できることを示す,最大の写真oracle bone character dataset実験を行った。

The study of ancient writings has great value for archaeology and philology. Essential forms of material are photographic characters, but manual photographic character recognition is extremely time-consuming and expertise-dependent. Automatic classification is therefore greatly desired. However, the current performance is limited due to the lack of annotated data. Data generation is an inexpensive but useful solution for data scarcity. Nevertheless, the diverse glyph shapes and complex background textures of photographic ancient characters make the generation task difficult, leading to the unsatisfactory results of existing methods. In this paper, we propose an unsupervised generative adversarial network called AGTGAN. By the explicit global and local glyph shape style modeling followed by the stroke-aware texture transfer, as well as an associate adversarial learning mechanism, our method can generate characters with diverse glyphs and realistic textures. We evaluate our approach on the photographic ancient character datasets, e.g., OBC306 and CSDD. Our method outperforms the state-of-the-art approaches in various metrics and performs much better in terms of the diversity and authenticity of generated samples. With our generated images, experiments on the largest photographic oracle bone character dataset show that our method can achieve a significant increase in classification accuracy, up to 16.34%.
翻訳日:2023-03-14 15:26:46 公開日:2023-03-13
# OSIS: 3Dインスタンスセグメンテーションのための効率的なワンステージネットワーク

OSIS: Efficient One-stage Network for 3D Instance Segmentation ( http://arxiv.org/abs/2303.07011v1 )

ライセンス: Link先を確認
Chuan Tang, Xi Yang(参考訳) 現在の3dインスタンスセグメンテーションモデルは一般的に、クラスタリング、特徴抽出、後処理プロセスを含むインスタンスオブジェクトを抽出するために多段階メソッドを使用する。 しかし、これらの多段階アプローチは、モデルの推論速度を制限するハイパーパラメータ設定と手作りのプロセスに依存している。 本稿では,OSISと呼ばれる新しい3Dポイント・クラウド・インスタンス・セグメンテーション・ネットワークを提案する。 OSISは、ニューラルネットワークを使用して3Dポイントクラウドデータから直接インスタンスをセグメントする、ワンステージネットワークである。 ネットワークから直接インスタンスをセグメント化するために,ネットワークからインスタンスセグメントへインスタンス機能をデコードするインスタンスデコーダを提案する。 提案手法は,2部マッチングによるエンドツーエンドトレーニングを実現するため,非最大抑制(nms)や推論時のクラスタリングといった計算コストの高い後処理ステップを必要としない。 その結果,我々のネットワークは,一般的に使用される屋内シーンインスタンスセグメンテーションデータセットにおいて,最終的に優れた性能を達成し,ネットワークの推論速度は1シーンあたり平均138ミリ秒であり,従来の最速手法を大きく上回ることがわかった。

Current 3D instance segmentation models generally use multi-stage methods to extract instance objects, including clustering, feature extraction, and post-processing processes. However, these multi-stage approaches rely on hyperparameter settings and hand-crafted processes, which restrict the inference speed of the model. In this paper, we propose a new 3D point cloud instance segmentation network, named OSIS. OSIS is a one-stage network, which directly segments instances from 3D point cloud data using neural network. To segment instances directly from the network, we propose an instance decoder, which decodes instance features from the network into instance segments. Our proposed OSIS realizes the end-to-end training by bipartite matching, therefore, our network does not require computationally expensive post-processing steps such as non maximum suppression (NMS) and clustering during inference. The results show that our network finally achieves excellent performance in the commonly used indoor scene instance segmentation dataset, and the inference speed of our network is only an average of 138ms per scene, which substantially exceeds the previous fastest method.
翻訳日:2023-03-14 15:26:25 公開日:2023-03-13
# 一般化マルチモーダル核融合検出フレームワーク

A Generalized Multi-Modal Fusion Detection Framework ( http://arxiv.org/abs/2303.07064v1 )

ライセンス: Link先を確認
Leichao Cui, Xiuxian Li, Min Meng, and Xiaoyu Mo(参考訳) LiDARポイントクラウドは、自動運転において最も一般的なデータソースになっている。 しかし、点雲のスパース性のため、特定のシナリオでは正確かつ信頼性の高い検出は達成できない。 点雲との相補性から,画像の注目が高まっている。 ある程度の成功はあるが、既存の核融合法は硬核融合を行うか直接的に融合しない。 本稿では,マルチモーダル特徴を用いたMMFusionと呼ばれる汎用3次元検出フレームワークを提案する。 このフレームワークは、複雑なシーンにおける3D検出を改善するために、LiDARと画像の正確な融合を実現することを目的としている。 我々のフレームワークは、LiDARストリームとカメラストリームの2つの別々のストリームで構成されており、任意の単一モーダル特徴抽出ネットワークと互換性がある。 lidarストリーム内のvoxel局所知覚モジュールは、局所的な特徴表現を強化し、マルチモーダル特徴融合モジュールは、異なるストリームからの機能出力を選択的に組み合わせ、より優れた融合を達成する。 広範な実験により,提案手法は既存のベンチマークよりも優れており,特にkittiベンチマークによる自転車や歩行者の検出において,強固な堅牢性と一般化能力を有する。 願わくば私たちの研究は、自動運転タスクのマルチモーダル融合に関するさらなる研究を刺激するだろう。

LiDAR point clouds have become the most common data source in autonomous driving. However, due to the sparsity of point clouds, accurate and reliable detection cannot be achieved in specific scenarios. Because of their complementarity with point clouds, images are getting increasing attention. Although with some success, existing fusion methods either perform hard fusion or do not fuse in a direct manner. In this paper, we propose a generic 3D detection framework called MMFusion, using multi-modal features. The framework aims to achieve accurate fusion between LiDAR and images to improve 3D detection in complex scenes. Our framework consists of two separate streams: the LiDAR stream and the camera stream, which can be compatible with any single-modal feature extraction network. The Voxel Local Perception Module in the LiDAR stream enhances local feature representation, and then the Multi-modal Feature Fusion Module selectively combines feature output from different streams to achieve better fusion. Extensive experiments have shown that our framework not only outperforms existing benchmarks but also improves their detection, especially for detecting cyclists and pedestrians on KITTI benchmarks, with strong robustness and generalization capabilities. Hopefully, our work will stimulate more research into multi-modal fusion for autonomous driving tasks.
翻訳日:2023-03-14 15:20:02 公開日:2023-03-13
# 半導体故障解析のための質的オンライン学習

Quantile Online Learning for Semiconductor Failure Analysis ( http://arxiv.org/abs/2303.07062v1 )

ライセンス: Link先を確認
Bangjian Zhou, Pan Jieming, Maheswari Sivan, Aaron Voon-Yew Thean, J. Senthilnath(参考訳) 半導体チップにおける高デバイス統合密度と高度なデバイス構造が進化するにつれ、欠陥の検出は解明され複雑になる。 従来、機械学習(ML)誘導型障害解析はオフラインバッチモードのトレーニングで行われている。 しかし、新しいタイプの障害の発生やデータ分散の変化は、モデルの再トレーニングを要求する。 製造過程において、単一パスのオンライン方式で欠陥を検出することはより困難で好まれる。 本稿では,半導体故障解析のための新しい量子オンライン学習について述べる。 提案手法は半導体デバイスレベルの欠陥,FinFETブリッジ欠陥,GAA-FETブリッジ欠陥,GAA-FET転位欠陥,および公開データベースSECOMに適用される。 得られた結果から,提案手法が既存の手法よりも優れた性能を発揮することを見出した。 提案手法は全体の86.66%の精度を達成し,GAA-FET転位欠陥データセットの15.50%を改善する2番目に高い既存手法と比較した。

With high device integration density and evolving sophisticated device structures in semiconductor chips, detecting defects becomes elusive and complex. Conventionally, machine learning (ML)-guided failure analysis is performed with offline batch mode training. However, the occurrence of new types of failures or changes in the data distribution demands retraining the model. During the manufacturing process, detecting defects in a single-pass online fashion is more challenging and favoured. This paper focuses on novel quantile online learning for semiconductor failure analysis. The proposed method is applied to semiconductor device-level defects: FinFET bridge defect, GAA-FET bridge defect, GAA-FET dislocation defect, and a public database: SECOM. From the obtained results, we observed that the proposed method is able to perform better than the existing methods. Our proposed method achieved an overall accuracy of 86.66% and compared with the second-best existing method it improves 15.50% on the GAA-FET dislocation defect dataset.
翻訳日:2023-03-14 15:19:43 公開日:2023-03-13
# 量子工学教育におけるパイロットプロジェクトからの貢献 : 量子フラッグシップへの支援

Contributions from Pilot Projects in Quantum Technology Education as Support Action to Quantum Flagship ( http://arxiv.org/abs/2303.07055v1 )

ライセンス: Link先を確認
Sergej Faletic, Philipp Bitzenbauer, Maria Bondani, Marilu Chiofalo, Simon Goorney, Kim Krijtenburg-Lewerissa, Oxana Mishina, Rainer Muller, Gesche Pospiech, Ilke Ercan, Massimiliano Malgieri, Avraham Merzel, Marisa Michelini, Pasquale Onorato, Henk Pol, Lorenzo Santi, Zeki Can Seskir, Jacob Sherson, Kirsten Stadermann, Alberto Stefanel, Elif Surer, Kristof Toth, Jorge Yago Malo, Olgas Zabello(参考訳) 量子物理学の教育と学習に関するGIREPコミュニティと、欧州連合(EU)の量子フラッグシッププロジェクト(QTEdu)の教育部門は、アウトリーチを含むあらゆるレベルで量子物理学を教える分野の様々な利害関係者を集めている。 QTEduの目標は、将来の量子労働者のトレーニングの道を開くことだ。 この目的のためには、量子技術(QT)分野のニーズを理解し、QTの存在と重要性を一般大衆に認識させ、すでに高校時代に量子物理学を導入し、高校生がQTを研究とキャリアの分野として選択できるようにする必要がある。 最後に、量子エンジニアのような新しい特定のプロファイルをサポートするために、新しい大学コースを確立する必要がある。 このシンポジウムでは、4つのQTEduパイロットプロジェクトがまとめられ、これらの補完的なアプローチが、上記の目標の実現にどのように貢献したかを実証した。

The GIREP community on teaching and learning quantum physics and the Education section of the Quantum flagship project of the European Union (QTEdu) have brought together different stakeholders in the field of teaching quantum physics on all levels, including outreach. The goal of QTEdu is to pave the way for the training of the future quantum workforce. To this end, it is necessary to understand the needs of the quantum technology (QT) field, make the general public aware of the existence and importance of QT, and introduce quantum physics already in high school, so that high school students can choose QT as their field of study and career. Finally, new university courses need to be established to support emerging specific profiles such as a quantum engineer. In this symposium, four QTEdu pilot projects were brought together to demonstrate how their complementary approaches have worked towards realising the above goals.
翻訳日:2023-03-14 15:19:28 公開日:2023-03-13
# 複雑な健康・ケアニーズを持つ高齢者のバンド支援ケア計画

Bandit-supported care planning for older people with complex health and care needs ( http://arxiv.org/abs/2303.07053v1 )

ライセンス: Link先を確認
Gi-Soo Kim, Young Suh Hong, Tae Hoon Lee, Myunghee Cho Paik, Hongsoo Kim(参考訳) 高齢者の介護サービスは高齢化社会の大部分で大きな需要がある。 介護施設の利用者数は増加傾向にあり、介護提供者数は限られている。 介護労働者が不足しているため、脆弱な高齢者へのケアは個人固有のニーズや嗜好に完全に適合することができない。 これは、制度化された高齢者の健康成果や生活の質に悪影響を及ぼす可能性がある。 医療従事者限定のケアプランニングとデリバリーによるケア品質向上を図るため,人工知能を活用した新たなケアプランニングモデルを提案する。 我々は,過去の意思決定からの逐次フィードバックに適応して,ケアプランニングのための臨床判断を最適化するバンディットアルゴリズムを適用する。 ICT活用ケアマネジメントプログラムであるSPEC(Systems for Person-centered Elder Care)研究から得られた経験的データに基づくモデルの評価を行った。

Long-term care service for old people is in great demand in most of the aging societies. The number of nursing homes residents is increasing while the number of care providers is limited. Due to the care worker shortage, care to vulnerable older residents cannot be fully tailored to the unique needs and preference of each individual. This may bring negative impacts on health outcomes and quality of life among institutionalized older people. To improve care quality through personalized care planning and delivery with limited care workforce, we propose a new care planning model assisted by artificial intelligence. We apply bandit algorithms which optimize the clinical decision for care planning by adapting to the sequential feedback from the past decisions. We evaluate the proposed model on empirical data acquired from the Systems for Person-centered Elder Care (SPEC) study, a ICT-enhanced care management program.
翻訳日:2023-03-14 15:19:11 公開日:2023-03-13
# 4-log N+2$ Qubits を用いた量子化ダウンフォールディングのハミルトニアンシミュレーション

Hamiltonian Simulation Via Qubitized Downfolding Using $4\log N+2$ Qubits ( http://arxiv.org/abs/2303.07051v1 )

ライセンス: Link先を確認
Anirban Mukherjee(参考訳) 本稿では,N分子軌道(MO)の量子化学系を4-log N + 2$ qubitsを用いてシミュレーションする量子アルゴリズムについて報告する。 多電子配置の数はMOの数と指数関数的にスケールし、多電子系のエネルギーを計算する主要なボトルネックとなる。 本稿では,量子ウォーク法とハミルトニアンダウンフォールディング法を組み合わせた量子化ハミルトニアンダウンフォールディング法(qhd法)を提案する。 qhdの各段階では、分子軌道(mo)を最も高い占有率であるmo(homo)から切り離すことで、多電子配置の数は1/4ドル減少する。 このようなダウンフォールディングステップのシーケンスにより、低エネルギーのHOMO-LUMOウィンドウにスケールすることができる。 ダウンフォールディングの各段階について、emph{decoupling condition}すなわち多体正規順序ブロッホ方程式を二次多項式方程式の系に写像する。 これらの下降方程式は、レンベルク・マルクワット法(LMM)を用いて解くことができる。 各 LMM ステップはヘシアン逆変換を含み、量子線形システム問題(QLSP)を構成する。 量子化オラクルを用いてヘッセンをブロックエンコードする量子回路について述べる。 その後、量子ウォークの列を用いたヘッセン変換のためのチェビシェフ展開を実装した。 N軌道系から始まり、各ダウンフォールディング回路のゲート複雑性は$O(N^{2}\log^{2}(1/\epsilon))$としてスケールし、すべてのダウンフォールディングMOは$O(N^3/\epsilon^{2})$ Oracleクエリを含む。

This paper reports a quantum algorithm for simulating quantum chemical systems of N molecular orbitals(MOs) using $4\log N +2$ qubits. The number of multi-electron configurations scales exponentially with the number of MOs and is the primary bottleneck in calculating the energy of a many-electron system. This paper introduces qubitized Hamiltonian downfolding(QHD) by combining the techniques of qubitized quantum walks and Hamiltonian downfolding to reduce the active space dimension systematically. At each stage of QHD, the number of many-electron configurations is reduced by $1/4$ by decoupling the molecular orbital (MO) farthest from the highest occupied MO (HOMO). The sequence of such downfolding steps enables us to scale towards the low-energy HOMO-LUMO window. For each stage of downfolding, we map the \emph{decoupling condition} i.e., a many-body normal-ordered Bloch equation to a system of quadratic polynomial equations. These downfolding equations can be solved using the Levenberg-Marquadt Method (LMM). Each LMM step involves a Hessian inversion and comprises a quantum linear system problem(QLSP). We describe quantum circuits that block-encode the Hessian using qubitization oracles. Subsequently, we implement the Chebyshev expansion for Hessian inversion utilizing a sequence of qubitized quantum walks. Starting from an N-orbital system the gate complexity of each downfolding circuit scales as $O(N^{2}\log^{2}(1/\epsilon))$ and for downfolding all the MOs involve $O(N^3/\epsilon^{2})$ oracle queries.
翻訳日:2023-03-14 15:18:58 公開日:2023-03-13
# 時系列予測のためのハイブリッド変分オートエンコーダ

Hybrid Variational Autoencoder for Time Series Forecasting ( http://arxiv.org/abs/2303.07048v1 )

ライセンス: Link先を確認
Borui Cai, Shuiqiao Yang, Longxiang Gao and Yong Xiang(参考訳) 変分オートエンコーダ(VAE)は、入力データの潜在表現をランダム変数として学習する強力な生成モデルである。 近年の研究では、VAEは時系列の複雑な時間力学を柔軟に学習し、決定論的モデルよりも予測結果をより期待できることが示された。 しかし、既存の研究の大きな制限は、予測のための時系列の局所的なパターン(季節性や傾向など)と時間的ダイナミクスを共同で学習できないことである。 そこで本研究では,時系列予測のための変分推論による局所パターンの学習と時間ダイナミクスを統合するハイブリッド変分オートエンコーダ(hyvae)を提案する。 実世界の4つのデータセットにおける実験結果から,提案手法は,時系列の局所パターンや時間ダイナミクスのみを学習する2つのhyvae変種と同様に,様々な手法よりも優れた予測結果が得られることがわかった。

Variational autoencoders (VAE) are powerful generative models that learn the latent representations of input data as random variables. Recent studies show that VAE can flexibly learn the complex temporal dynamics of time series and achieve more promising forecasting results than deterministic models. However, a major limitation of existing works is that they fail to jointly learn the local patterns (e.g., seasonality and trend) and temporal dynamics of time series for forecasting. Accordingly, we propose a novel hybrid variational autoencoder (HyVAE) to integrate the learning of local patterns and temporal dynamics by variational inference for time series forecasting. Experimental results on four real-world datasets show that the proposed HyVAE achieves better forecasting results than various counterpart methods, as well as two HyVAE variants that only learn the local patterns or temporal dynamics of time series, respectively.
翻訳日:2023-03-14 15:18:26 公開日:2023-03-13
# インターセクションマージインの生存解析による速度ランプの最適化

Optimization of Velocity Ramps with Survival Analysis for Intersection Merge-Ins ( http://arxiv.org/abs/2303.07047v1 )

ライセンス: Link先を確認
Tim Puphal, Malte Probst, Yiyang Li, Yosuke Sakamoto and Julian Eggert(参考訳) 任意の形状と車両密度のt-intersection merge-inの正しい動作計画の問題を考える。 マージイン支援システムは、2つの連続する車両間のギャップをうまく取り出せる確率を見積もる必要がある。 ヒューリスティックギャップサイズルールに基づく従来のモデルとは対照的に,パラメトリズド速度ランプを用いた状況統合リスクを最適化する手法を提案する。 曲線や、あらゆる経路におけるすべての車両(前方と後方)からのリスクを、いわゆる生存分析で説明する。 比較のために,交差点に入るためのインテリジェントドライバモデル(IDM)を特別に設計した拡張も導入する。 本研究は, 生存方法が絶対リスク(衝突は起こらない), リスク有効性トレードオフ(出現ギャップの有効利用)の点で有利であることを示す定量的統計学的評価を行った。 さらに,本手法はリスク源を付加したより複雑な状況に一般化する。

We consider the problem of correct motion planning for T-intersection merge-ins of arbitrary geometry and vehicle density. A merge-in support system has to estimate the chances that a gap between two consecutive vehicles can be taken successfully. In contrast to previous models based on heuristic gap size rules, we present an approach which optimizes the integral risk of the situation using parametrized velocity ramps. It accounts for the risks from curves and all involved vehicles (front and rear on all paths) with a so-called survival analysis. For comparison, we also introduce a specially designed extension of the Intelligent Driver Model (IDM) for entering intersections. We show in a quantitative statistical evaluation that the survival method provides advantages in terms of lower absolute risk (i.e., no crash happens) and better risk-utility tradeoff (i.e., making better use of appearing gaps). Furthermore, our approach generalizes to more complex situations with additional risk sources.
翻訳日:2023-03-14 15:18:10 公開日:2023-03-13
# 人的フィードバックによるオフライン強化学習の展開

Deploying Offline Reinforcement Learning with Human Feedback ( http://arxiv.org/abs/2303.07046v1 )

ライセンス: Link先を確認
Ziniu Li, Ke Xu, Liu Liu, Lanqing Li, Deheng Ye, Peilin Zhao(参考訳) 強化学習(RL)は現実世界のアプリケーションで意思決定タスクを約束している。 1つの実践的なフレームワークは、オフラインデータセットからパラメータ化されたポリシーモデルをトレーニングし、その後オンライン環境にデプロイする。 しかし、オフライントレーニングが完璧ではない可能性があるため、このアプローチはリスクが高く、危険なアクションを取る可能性のあるrlモデルのパフォーマンスが低下する。 この問題に対処するため、我々は、人間がRLモデルを監督し、オンラインデプロイメントフェーズで追加のフィードバックを提供する代替フレームワークを提案する。 このオンラインデプロイメント問題を形式化し、2つのアプローチを開発します。 最初のアプローチでは、モデル選択と上位信頼境界アルゴリズムを使用して、トレーニングされたオフラインRLモデルの候補セットからモデルを適応的に選択する。 第2のアプローチでは、監視信号が届くと、オンラインデプロイメントフェーズでモデルを微調整する。 ロボットの歩行制御および交通光制御タスクにおけるこれらのアプローチの有効性を実証的検証により実証する。

Reinforcement learning (RL) has shown promise for decision-making tasks in real-world applications. One practical framework involves training parameterized policy models from an offline dataset and subsequently deploying them in an online environment. However, this approach can be risky since the offline training may not be perfect, leading to poor performance of the RL models that may take dangerous actions. To address this issue, we propose an alternative framework that involves a human supervising the RL models and providing additional feedback in the online deployment phase. We formalize this online deployment problem and develop two approaches. The first approach uses model selection and the upper confidence bound algorithm to adaptively select a model to deploy from a candidate set of trained offline RL models. The second approach involves fine-tuning the model in the online deployment phase when a supervision signal arrives. We demonstrate the effectiveness of these approaches for robot locomotion control and traffic light control tasks through empirical validation.
翻訳日:2023-03-14 15:17:53 公開日:2023-03-13
# FireRisk: 監視および自己教師型学習を用いたベンチマークによる火災リスク評価のためのリモートセンシングデータセット

FireRisk: A Remote Sensing Dataset for Fire Risk Assessment with Benchmarks Using Supervised and Self-supervised Learning ( http://arxiv.org/abs/2303.07035v1 )

ライセンス: Link先を確認
Shuchang Shen, Sachith Seneviratne, Xinye Wanyan, Michael Kirley(参考訳) 近年の森林火災は、広範かつ極端に破壊的な自然災害として、膨大な財産の損失と死者をもたらし、森林生態系に大きな被害を与えた。 多くの火災リスク評価プロジェクトは、山火事を防ぐために提案されているが、GISに基づく手法は、データ収集や局地条件の変化により、本質的に異なる地域への拡張が困難である。 市販のリモートセンシングプロジェクトや,コンピュータビジョンにおける深層学習の発展に触発されて,リモートセンシング画像を用いた火災リスクの評価に焦点が当てられた。 本研究では,火災リスク評価のための計91872枚のラベル付き画像を含む7種類の火災リスククラスからなる,新しいリモートセンシングデータセットであるfireriskを提案する。 このリモートセンシングデータセットは、ワイルドファイアハザードポテンシャル(whp)ラスターデータセットから供給される火災リスククラスにラベル付けされ、高解像度リモートセンシングイメージプログラムであるnational agriculture image program(naip)を用いてリモートセンシングイメージを収集する。 FireRiskでは,ImageNet1k上で事前トレーニングされたMasked Autoencoders(MAE)を用いて,教師付きおよび自己教師型表現のベンチマーク性能を65.29%と高い分類精度で示す。 このリモートセンシングデータセットであるFireRiskは、火災リスク評価の新しい方向を提供しており、https://github.com/CharmonyShen/FireRisk.comで公開しています。

In recent decades, wildfires, as widespread and extremely destructive natural disasters, have caused tremendous property losses and fatalities, as well as extensive damage to forest ecosystems. Many fire risk assessment projects have been proposed to prevent wildfires, but GIS-based methods are inherently challenging to scale to different geographic areas due to variations in data collection and local conditions. Inspired by the abundance of publicly available remote sensing projects and the burgeoning development of deep learning in computer vision, our research focuses on assessing fire risk using remote sensing imagery. In this work, we propose a novel remote sensing dataset, FireRisk, consisting of 7 fire risk classes with a total of 91872 labelled images for fire risk assessment. This remote sensing dataset is labelled with the fire risk classes supplied by the Wildfire Hazard Potential (WHP) raster dataset, and remote sensing images are collected using the National Agriculture Imagery Program (NAIP), a high-resolution remote sensing imagery program. On FireRisk, we present benchmark performance for supervised and self-supervised representations, with Masked Autoencoders (MAE) pre-trained on ImageNet1k achieving the highest classification accuracy, 65.29%. This remote sensing dataset, FireRisk, provides a new direction for fire risk assessment, and we make it publicly available on https://github.com/CharmonyShen/FireRisk.
翻訳日:2023-03-14 15:17:39 公開日:2023-03-13
# 医用画像におけるVTの事前表現

Pretrained ViTs Yield Versatile Representations For Medical Images ( http://arxiv.org/abs/2303.07034v1 )

ライセンス: Link先を確認
Christos Matsoukas and Johan Fredin Haslum and Magnus S\"oderberg and Kevin Smith(参考訳) 畳み込みニューラルネットワーク(CNN)は10年間、医療画像の自動診断における事実上のアプローチとして支配され、分類、検出、セグメンテーションタスクの最先端を推し進めてきた。 過去数年間、ヴィジュアルトランスフォーマー(vits)はcnnの代替品として登場し、自然画像領域における驚くべきレベルのパフォーマンスをもたらし、また医療画像のタスクに有益ないくつかの興味深い特性を持っている。 本研究では,医療画像分類におけるトランスフォーマーモデルの有用性と欠点について検討する。 我々は,いくつかの標準2次元医用画像ベンチマークデータセットとタスクについて,一連の実験を行った。 以上の結果から,CNNはスクラッチからトレーニングした場合は性能が向上するが,ImageNetで事前トレーニングを行うと,市販のビジョントランスフォーマーはCNNと同等に動作し,教師付きおよび自己教師型の両方で動作し,CNNの代替となる可能性が示唆された。

Convolutional Neural Networks (CNNs) have reigned for a decade as the de facto approach to automated medical image diagnosis, pushing the state-of-the-art in classification, detection and segmentation tasks. Over the last years, vision transformers (ViTs) have appeared as a competitive alternative to CNNs, yielding impressive levels of performance in the natural image domain, while possessing several interesting properties that could prove beneficial for medical imaging tasks. In this work, we explore the benefits and drawbacks of transformer-based models for medical image classification. We conduct a series of experiments on several standard 2D medical image benchmark datasets and tasks. Our findings show that, while CNNs perform better if trained from scratch, off-the-shelf vision transformers can perform on par with CNNs when pretrained on ImageNet, both in a supervised and self-supervised setting, rendering them as a viable alternative to CNNs.
翻訳日:2023-03-14 15:17:05 公開日:2023-03-13
# 変分量子固有解法の逐次最適化のための最適パラメータ構成

Optimal Parameter Configurations for Sequential Optimization of Variational Quantum Eigensolver ( http://arxiv.org/abs/2303.07082v1 )

ライセンス: Link先を確認
Katsuhiro Endo, Yuki Sato, Rudy Raymond, Kaito Wada, Naoki Yamamoto and Hiroshi C. Watanabe(参考訳) 変分量子固有ソルバ (vqe) は、古典コンピュータを用いてパラメトリズド量子回路 (pqc) を最適化することにより、与えられたハミルトニアンの最小固有値/ベクトルを求めるハイブリッドアルゴリズムである。 量子回路テンソルネットワークでよく用いられる逐次最適化法は、pqcsのパラメトリ化ゲートを最適化するのによく用いられる。 本稿では, 最適化対象のコンポーネントが単一キュービットゲートである場合に着目し, 単一キュービットゲートの解析最適化を順次実施する。 解析解は、パラメータ構成と呼ばれる所定のパラメータのセットによって指定された可観測物の期待値から要素が計算される行列の対角化によって与えられる。 本研究では,予測値の統計的誤差によるパラメータ設定の選択に,最適化精度が大きく依存していることを示す。 次に、パラメータ設定の最適化精度を、可能な全ての統計的誤差、設定オーバーヘッド/コスト、Cコストで定量化するメトリクスを同定する。 理論的には、cコストの下限を提供し、パラメータ構成の最小サイズに対して、パラメータ構成がいわゆる等角線条件を満たす場合に限り下限が達成されることを示す。 最後に,最適パラメータ構成が複数のvqe問題に対して最適な結果を示すことを示す数値実験を行った。 この一般統計手法により,PQCの逐次最適化の有効性が向上し,短期量子デバイスによる実用化が期待できる。

Variational Quantum Eigensolver (VQE) is a hybrid algorithm for finding the minimum eigenvalue/vector of a given Hamiltonian by optimizing a parametrized quantum circuit (PQC) using a classical computer. Sequential optimization methods, which are often used in quantum circuit tensor networks, are popular for optimizing the parametrized gates of PQCs. This paper focuses on the case where the components to be optimized are single-qubit gates, in which the analytic optimization of a single-qubit gate is sequentially performed. The analytical solution is given by diagonalization of a matrix whose elements are computed from the expectation values of observables specified by a set of predetermined parameters which we call the parameter configurations. In this study, we first show that the optimization accuracy significantly depends on the choice of parameter configurations due to the statistical errors in the expectation values. We then identify a metric that quantifies the optimization accuracy of a parameter configuration for all possible statistical errors, named configuration overhead/cost or C-cost. We theoretically provide the lower bound of C-cost and show that, for the minimum size of parameter configurations, the lower bound is achieved if and only if the parameter configuration satisfies the so-called equiangular line condition. Finally, we provide numerical experiments demonstrating that the optimal parameter configuration exhibits the best result in several VQE problems. We hope that this general statistical methodology will enhance the efficacy of sequential optimization of PQCs for solving practical problems with near-term quantum devices.
翻訳日:2023-03-14 15:11:47 公開日:2023-03-13
# アシラ量子測定による多体系の進化

Evolution of many-body systems under ancilla quantum measurements ( http://arxiv.org/abs/2303.07081v1 )

ライセンス: Link先を確認
Elmer V. H. Doggen, Yuval Gefen, Igor V. Gornyi, Alexander D. Mirlin, Dmitry G. Polyakov(参考訳) 本研究では,多体格子系と射影計測を行う漸近自由度を結合することにより,量子計測を実現する概念を検討する。 一次元鎖内の相互作用するハードコアボソンの動的相関に対する繰り返し測定(「ストロボスコープ」)の効果を解析した。 このプロトコルの重要な特徴は、検出アンシラが各測定工程後に再起動されないことである。 これにより、測定された相関系による累積影響の記憶を維持する。 はじめに,アシラを1つの格子サイトと結合するモデルを考える。 この設定により、アシラ系相互作用によって変調された自由度のラビ振動を通じてシステムに関する情報を得ることができる。 量子軌道の統計は、測定が強くなったときに生じる「量子-ゼノバルブ効果」を示し、低エンタングルメントと高エンタングルメントの間に鋭い分岐がある。 数値シミュレーションを2つのアンシラの場合に適用し,その後,全部位の計測に拡張する。 この現実的な測定装置により、より抽象的なモデルで以前観察されたように、遠絡測定による遷移の証拠が見つかる。 力学は絡み合いエントロピーの広い分布を特徴とする。

We explore the concept of implementing quantum measurements by coupling a many-body lattice system to an ancillary degree of freedom on which projective measurements are performed. We analyze the effect of repeated (``stroboscopic'') measurements on the dynamical correlations of interacting hard-core bosons in a one-dimensional chain. An important distinctive ingredient of the protocol is the fact that the detector ancillas are not re-initialized after each measurement step. The detector thus maintains memory of the accumulated influence by the measured correlated system. Initially, we consider a model in which the ancilla is coupled to a single lattice site. This setup allows obtaining information about the system through Rabi oscillations in the ancillary degrees of freedom, modulated by the ancilla-system interaction. The statistics of quantum trajectories exhibits a ``quantum-Zeno-valve effect'' that occurs when the measurement becomes strong, with sharp branching between low and high entanglement. We proceed by extending numerical simulations to the case of two ancillas and, then, to measurements on all sites. With this realistic measurement apparatus, we find evidence of a disentangling-entangling measurement-induced transition as was previously observed in more abstract models. The dynamics features a broad distribution of the entanglement entropy.
翻訳日:2023-03-14 15:11:23 公開日:2023-03-13
# 画像分類のための量子化畳み込みニューラルネットワークによるトリックの袋

Bag of Tricks with Quantized Convolutional Neural Networks for image classification ( http://arxiv.org/abs/2303.07080v1 )

ライセンス: Link先を確認
Jie Hu, Mengze Zeng, Enhua Wu(参考訳) ディープニューラルネットワークは幅広いタスクで有効であることが証明されている。 しかし、計算コストやメモリコストが高いため、リソースに制約のあるデバイスにデプロイするのは現実的ではない。 この問題を解決するため、メモリフットプリントの削減と推論速度の向上のために量子化スキームが提案されている。 多くの量子化手法が提案されているが、その有効性に関する体系的な分析が欠如している。 このギャップを埋めるために,既存の量子化手法を収集・改良し,トレーニング後の量子化のためのゴールドガイドラインを提案する。 提案手法の有効性を,ImageNetデータセット上でResNet50とMobileNetV2の2つの人気モデルを用いて評価した。 ガイドラインに従うことで,モデルを直接8ビットに定量化しても,追加のトレーニングを行わずに精度の劣化は発生しない。 このガイドラインに基づく量子化アウェアトレーニングは、低ビット量子化の精度をさらに向上させることができる。 さらに,既存の刈り取り技術と調和して動作する多段階微調整戦略を統合し,コストをさらに削減した。 その結果,30 % の間隔を持つ量子化 MobileNetV2 が等価な完全精度モデルの性能を実際に上回り,提案方式の有効性とレジリエンスを実証した。

Deep neural networks have been proven effective in a wide range of tasks. However, their high computational and memory costs make them impractical to deploy on resource-constrained devices. To address this issue, quantization schemes have been proposed to reduce the memory footprint and improve inference speed. While numerous quantization methods have been proposed, they lack systematic analysis for their effectiveness. To bridge this gap, we collect and improve existing quantization methods and propose a gold guideline for post-training quantization. We evaluate the effectiveness of our proposed method with two popular models, ResNet50 and MobileNetV2, on the ImageNet dataset. By following our guidelines, no accuracy degradation occurs even after directly quantizing the model to 8-bits without additional training. A quantization-aware training based on the guidelines can further improve the accuracy in lower-bits quantization. Moreover, we have integrated a multi-stage fine-tuning strategy that works harmoniously with existing pruning techniques to reduce costs even further. Remarkably, our results reveal that a quantized MobileNetV2 with 30\% sparsity actually surpasses the performance of the equivalent full-precision model, underscoring the effectiveness and resilience of our proposed scheme.
翻訳日:2023-03-14 15:11:03 公開日:2023-03-13
# 異なるソース間での自己申告技術的負債の相互関係の自動同定

Automatically Identifying Relations Between Self-Admitted Technical Debt Across Different Sources ( http://arxiv.org/abs/2303.07079v1 )

ライセンス: Link先を確認
Yikun Li, Mohamed Soliman, Paris Avgeriou(参考訳) Self-Admitted Technical DebtまたはSATDは、ソースコードコメント、コミットメッセージ、イシュートラッキングシステム、プルリクエストなど、さまざまなソースで見ることができる。 これまでの研究では,SATD 項目間の関係を異なるソースで確立しており,SATD 管理の調査・改善に有用である。 しかし、これらのSATD関係を自動的に検出するアプローチは今のところ存在しない。 そこで我々は,異なるソース間のsat関係を自動的に識別する手法を提案し,評価した。 その結果,本手法は,SATD項目間の関係を同定する上で,平均F1スコア0.829を達成した。 さらに,103のオープンソースプロジェクトにおけるSATD関係の特徴を考察し,関連するSATDを第2のソースに記録した9つの主要な事例について述べるとともに,26種類の関係を定量的に概説した。

Self-Admitted Technical Debt or SATD can be found in various sources, such as source code comments, commit messages, issue tracking systems, and pull requests. Previous research has established the existence of relations between SATD items in different sources; such relations can be useful for investigating and improving SATD management. However, there is currently a lack of approaches for automatically detecting these SATD relations. To address this, we proposed and evaluated approaches for automatically identifying SATD relations across different sources. Our findings show that our approach outperforms baseline approaches by a large margin, achieving an average F1-score of 0.829 in identifying relations between SATD items. Moreover, we explored the characteristics of SATD relations in 103 open-source projects and describe nine major cases in which related SATD is documented in a second source, and give a quantitative overview of 26 kinds of relations.
翻訳日:2023-03-14 15:10:43 公開日:2023-03-13
# オフライン手書き数式認識のための空間的注意と構文規則強化木デコーダ

Spatial Attention and Syntax Rule Enhanced Tree Decoder for Offine Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2303.07077v1 )

ライセンス: Link先を確認
Zihao Lin, Jinrong Li, Fan Yang, Shuangping Huang, Xu Yang, Jianmin Lin and Ming Yang(参考訳) 木デコーダをエンコーダ-デコーダ法の一部として使用することにより, オフライン手書き数式認識(HMER)が劇的に進歩した。 ツリーデコーダに基づく手法では、式を木と見なし、2d空間構造を木ノードシーケンスにパースするが、既然的な木ノード予測エラーのため、既存の作業のパフォーマンスは低いままである。 さらに、表現の出力を制御するための構文ルールが欠けている。 本稿では,木構造の予測誤差を緩和する空間注意機構と,文法規則の変換から得られる構文マスクを用いて,非文法的な数学的表現の発生を抑制することを目的とした,空間意識・構文規則強化木デコーダ (SS-TD) と呼ばれる新しいモデルを提案する。 このように、木構造を効果的に記述し、出力表現の精度を高めることができる。 実験により,従来のCROHME 14/16/19データセットよりもSS-TDの認識性能が向上し,本モデルの有効性が示された。

Offline Handwritten Mathematical Expression Recognition (HMER) has been dramatically advanced recently by employing tree decoders as part of the encoder-decoder method. Despite the tree decoder-based methods regard the expressions as a tree and parse 2D spatial structure to the tree nodes sequence, the performance of existing works is still poor due to the inevitable tree nodes prediction errors. Besides, they lack syntax rules to regulate the output of expressions. In this paper, we propose a novel model called Spatial Attention and Syntax Rule Enhanced Tree Decoder (SS-TD), which is equipped with spatial attention mechanism to alleviate the prediction error of tree structure and use syntax masks (obtained from the transformation of syntax rules) to constrain the occurrence of ungrammatical mathematical expression. In this way, our model can effectively describe tree structure and increase the accuracy of output expression. Experiments show that SS-TD achieves better recognition performance than prior models on CROHME 14/16/19 datasets, demonstrating the effectiveness of our model.
翻訳日:2023-03-14 15:10:27 公開日:2023-03-13
# 長距離2次リンドブラディアンにおける絡み合いと局在

Entanglement and localization in long-range quadratic Lindbladians ( http://arxiv.org/abs/2303.07070v1 )

ライセンス: Link先を確認
Alejandro Cros Carrillo de Albornoz, Dominic C. Rose and Arijeet Pal(参考訳) アンダーソン局在の存在は、無秩序系における古典波と量子波のコヒーレンスを示すものと考えられている。 環境への結合が著しく抑制されるが排除されない凝縮物や低温原子系では、局在のシグネチャが観察されている。 本研究では,開量子系を記述するランダム・リンドブラッド力学における局在現象を考察する。 浴槽の局所的なアンサンブルに結合した非相互作用性スピンレスフェルミオンの1次元連鎖モデルを提案する。 各サイトにリンクされた浴槽との相互作用を媒介するジャンプ演算子は、指数$p$のパワーローテールを有する。 系の定常状態は,コヒーレントホッピングの有無で安定な$p$をチューニングすることにより,局所的絡み合い相転移が進行することを示す。 開系の量子軌道における絡み合い遷移とは異なり、この遷移はリンドブレディアンの平均定常状態密度行列によって表される。 局所化相の定常状態は、局所的な人口不均衡の不均一性によって特徴づけられる一方、ジャンプ演算子は影響する部位の一定の参加率を示す。 我々の研究は、オープン量子システムにおける局在物理学の新たな実現を提供する。

Existence of Anderson localization is considered a manifestation of coherence of classical and quantum waves in disordered systems. Signatures of localization have been observed in condensed matter and cold atomic systems where the coupling to the environment can be significantly suppressed but not eliminated. In this work we explore the phenomena of localization in random Lindbladian dynamics describing open quantum systems. We propose a model of one-dimensional chain of non-interacting, spinless fermions coupled to a local ensemble of baths. The jump operator mediating the interaction with the bath linked to each site has a power-law tail with an exponent $p$. We show that the steady state of the system undergoes a localization entanglement phase transition by tuning $p$ which remains stable in the presence of coherent hopping. Unlike the entanglement transition in the quantum trajectories of open systems, this transition is exhibited by the averaged steady state density matrix of the Lindbladian. The steady state in the localized phase is characterised by a heterogeneity in local population imbalance, while the jump operators exhibit a constant participation ratio of the sites they affect. Our work provides a novel realisation of localization physics in open quantum systems.
翻訳日:2023-03-14 15:09:53 公開日:2023-03-13
# 気晴らしとキュー・マスキングによる医療質問に対する複数選択質問の生成

Generating multiple-choice questions for medical question answering with distractors and cue-masking ( http://arxiv.org/abs/2303.07069v1 )

ライセンス: Link先を確認
Damien Sileo, Kanimozhi Uma, Marie-Francine Moens(参考訳) 医療多重選択質問応答(MCQA)は特に困難である。 質問は患者の症状を記述し、ドメイン知識と複雑な推論を必要とする正しい診断を求める。 標準言語モデリングの事前訓練だけでは、最良の結果を得るには不十分です。 \citet{jin2020disease} は,医学百科事典を入力として使用する場合,病名予測にマスク付き言語モデリングを集中させることで,MCQAの精度が向上することを示した。 本研究では,(1)生成したMCQAデータセットの微調整がマスキング言語モデリングの目的を上回り,(2)回答に正しくマスキングすることが,優れたパフォーマンスのために重要であることを示す。 我々は、新しい事前トレーニングデータセットをリリースし、4つのMCQAデータセット、特にMedQA-USMLEのベースサイズモデルで、最先端の結果を得る。

Medical multiple-choice question answering (MCQA) is particularly difficult. Questions may describe patient symptoms and ask for the correct diagnosis, which requires domain knowledge and complex reasoning. Standard language modeling pretraining alone is not sufficient to achieve the best results. \citet{jin2020disease} showed that focusing masked language modeling on disease name prediction when using medical encyclopedic paragraphs as input leads to considerable MCQA accuracy improvement. In this work, we show that (1) fine-tuning on generated MCQA dataset outperforms the masked language modeling based objective and (2) correctly masking the cues to the answers is critical for good performance. We release new pretraining datasets and achieve state-of-the-art results on 4 MCQA datasets, notably +5.7\% with base-size model on MedQA-USMLE.
翻訳日:2023-03-14 15:09:20 公開日:2023-03-13
# 最適nによるnステップ時間差学習

n-Step Temporal Difference Learning with Optimal n ( http://arxiv.org/abs/2303.07068v1 )

ライセンス: Link先を確認
Lakshmi Mandal and Shalabh Bhatnagar(参考訳) 我々は,n-step temporal difference (TD) アルゴリズムにおいて,n の最適値を求める問題を考える。 我々は,同時摂動確率近似 (spsa) のモデルフリー最適化手法を用いて最適な n を求める。 我々は, 離散最適化フレームワークへの連続最適化を目的として, 巡回摂動列を組み込んだ1シミュレーションのspsa手法を採用する。 提案アルゴリズムであるSDPSAの収束性を証明し,n段TDにおけるnの最適値を求める。 実験により、n の最適値は任意の任意の初期値に対して SDPSA を用いて達成されることを示す。

We consider the problem of finding the optimal value of n in the n-step temporal difference (TD) algorithm. We find the optimal n by resorting to the model-free optimization technique of simultaneous perturbation stochastic approximation (SPSA). We adopt a one-simulation SPSA procedure that is originally for continuous optimization to the discrete optimization framework but incorporates a cyclic perturbation sequence. We prove the convergence of our proposed algorithm, SDPSA, and show that it finds the optimal value of n in n-step TD. Through experiments, we show that the optimal value of n is achieved with SDPSA for any arbitrary initial value of the same.
翻訳日:2023-03-14 15:08:58 公開日:2023-03-13
# モバイル健康診断のためのデバイス間フェデレーション学習 : COVID-19検出に関する最初の研究

Cross-device Federated Learning for Mobile Health Diagnostics: A First Study on COVID-19 Detection ( http://arxiv.org/abs/2303.07067v1 )

ライセンス: Link先を確認
Tong Xia, Jing Han, Abhirup Ghosh, Cecilia Mascolo(参考訳) フェデレーション学習(fl)支援健康診断モデルは、多くのパーソナルエッジデバイス(携帯電話など)からのデータを取り込んで、元のデバイスにローカルに保持し、プライバシを確保することができる。 しかしながら、このような医療診断のためのクロスデバイスflアプローチは、ローカルデータの不均衡(ローカルデータが単一の疾患クラスで構成されている場合など)とグローバルデータ不均衡(一般的には人口において疾患の有病率が低い)の両方のために、依然として多くの課題を課している。 フェデレーションサーバはデータ配信情報にアクセスできないため、偏りのないモデルに対する不均衡問題を解決することは容易ではない。 本稿では,医療診断のためのクロスデバイスFLフレームワークであるFedLossを提案する。 ここで、フェデレーションサーバは、サンプル数だけを重みとして使うのではなく、ローカルデータの予測損失に応じてエッジデバイスでトレーニングされたモデルを平均化する。 予測損失がデバイスのデータ分布をより定量化するので、federosはデータの不均衡の影響を軽減する。 実際の呼吸音のデータセットと症状に基づくCOVID-19ドルの検出タスクを通じて、FedLossの優位性を検証する。 AUC-ROCが79.5%の集中型モデルと比較して、競争力のあるCOVID-19$検出性能を実現している。 また、最先端のflベースラインを感度と収束速度で上回っている。 われわれの研究は、新型コロナウイルス(COVID-19)の19ドル検出の約束を実証するだけでなく、プライバシー保護という形で、モバイルの健康モデル開発への道を開いた。

Federated learning (FL) aided health diagnostic models can incorporate data from a large number of personal edge devices (e.g., mobile phones) while keeping the data local to the originating devices, largely ensuring privacy. However, such a cross-device FL approach for health diagnostics still imposes many challenges due to both local data imbalance (as extreme as local data consists of a single disease class) and global data imbalance (the disease prevalence is generally low in a population). Since the federated server has no access to data distribution information, it is not trivial to solve the imbalance issue towards an unbiased model. In this paper, we propose FedLoss, a novel cross-device FL framework for health diagnostics. Here the federated server averages the models trained on edge devices according to the predictive loss on the local data, rather than using only the number of samples as weights. As the predictive loss better quantifies the data distribution at a device, FedLoss alleviates the impact of data imbalance. Through a real-world dataset on respiratory sound and symptom-based COVID-$19$ detection task, we validate the superiority of FedLoss. It achieves competitive COVID-$19$ detection performance compared to a centralised model with an AUC-ROC of $79\%$. It also outperforms the state-of-the-art FL baselines in sensitivity and convergence speed. Our work not only demonstrates the promise of federated COVID-$19$ detection but also paves the way to a plethora of mobile health model development in a privacy-preserving fashion.
翻訳日:2023-03-14 15:08:46 公開日:2023-03-13
# MSINet:オブジェクトReIDのためのマルチスケールインタラクションの双対探索

MSINet: Twins Contrastive Search of Multi-Scale Interaction for Object ReID ( http://arxiv.org/abs/2303.07065v1 )

ライセンス: Link先を確認
Jianyang Gu, Kai Wang, Hao Luo, Chen Chen, Wei Jiang, Yuqiang Fang, Shanghang Zhang, Yang You, Jian Zhao(参考訳) ニューラルアーキテクチャ検索(nas)は、タスク固有のアーキテクチャが検索性能を大幅に改善するため、オブジェクト再識別社会(reid)にますますアピールされている。 従来の研究はNAS ReIDの新しい最適化ターゲットと探索空間を探索するが、画像分類とReIDのトレーニングスキームの違いは無視する。 本稿では,ReIDアーキテクチャ探索のより適切な監視を行うために,新しいTwins Contrastive Mechanism(TCM)を提案する。 TCMは、トレーニングデータと検証データの重複を低減し、現実世界のReIDトレーニングスキームのシミュレーションにおいてNASを支援する。 次にマルチスケールインタラクション(MSI)検索空間を設計し、マルチスケール機能間の合理的なインタラクション操作を探索する。 さらに、異なるソースの画像に直面する注意の一貫性を高めるために、SAM(Spatial Alignment Module)を導入する。 提案したNASスキームでは、特定のアーキテクチャが自動的に検索され、MSINetと呼ばれる。 大規模な実験により,本手法はドメイン内およびクロスドメインのシナリオにおいて,最先端のReID手法を超えることが示された。 ソースコードはhttps://github.com/vimar-gu/msinet。

Neural Architecture Search (NAS) has been increasingly appealing to the society of object Re-Identification (ReID), for that task-specific architectures significantly improve the retrieval performance. Previous works explore new optimizing targets and search spaces for NAS ReID, yet they neglect the difference of training schemes between image classification and ReID. In this work, we propose a novel Twins Contrastive Mechanism (TCM) to provide more appropriate supervision for ReID architecture search. TCM reduces the category overlaps between the training and validation data, and assists NAS in simulating real-world ReID training schemes. We then design a Multi-Scale Interaction (MSI) search space to search for rational interaction operations between multi-scale features. In addition, we introduce a Spatial Alignment Module (SAM) to further enhance the attention consistency confronted with images from different sources. Under the proposed NAS scheme, a specific architecture is automatically searched, named as MSINet. Extensive experiments demonstrate that our method surpasses state-of-the-art ReID methods on both in-domain and cross-domain scenarios. Source code available in https://github.com/vimar-gu/MSINet.
翻訳日:2023-03-14 15:08:18 公開日:2023-03-13
# 透明偏光高感度位相パターンの量子ゴーストイメージング

Quantum ghost imaging of a transparent polarisation sensitive phase pattern ( http://arxiv.org/abs/2303.07108v1 )

ライセンス: Link先を確認
Aditya Saxena, Manpreet Kaur, Vipin Devrari, Mandip Singh(参考訳) 透過偏光感度位相パターンは、透過光の位置と偏光依存性の位相シフトを示し、一元変換を表す。 このパターンの量子ゴースト画像は、アインシュタイン-ポドルスキー-ローゼン(EPR)と偏極絡みからなる超絡み合った光子によって生成される。 量子ゴーストイメージングでは、単一光子がパターンと相互作用し、静止検出器によって検出され、非干渉光子が偶然のカメラに撮像される。 eprエンタングルメントは対象面とゴースト画像面との空間相関を示し、パターンによって示される偏光依存位相シフトは偏光エンタングルメントによって検出される。 この量子ゴーストイメージングでは、このパターンと相互作用する光子のどの位置偏光情報は実験には存在しない。 相互作用光子の偏光モーメントと非相互作用光子の偏光位置との相関を計測して量子ゴースト画像を構築する。 この実験は偶然の単一光子検出カメラを用いて行われ、非相互作用光子はソースからカメラまでの長い光路の長さが17.83〜$m$で、パターンはカメラから19.16〜$m$の光距離に位置する。

A transparent polarisation sensitive phase pattern exhibits a position and polarisation dependent phase shift of transmitted light and it represents a unitary transformation. A quantum ghost image of this pattern is produced with hyper-entangled photons consisting of Einstein-Podolsky-Rosen (EPR) and polarisation entanglement. In quantum ghost imaging, a single photon interacts with the pattern and is detected by a stationary detector and a non-interacting photon is imaged on a coincidence camera. EPR entanglement manifests spatial correlations between an object plane and a ghost image plane, whereas a polarisation dependent phase shift exhibited by the pattern is detected with polarisation entanglement. In this quantum ghost imaging, the which-position-polarisation information of a photon interacting with the pattern is not present in the experiment. A quantum ghost image is constructed by measuring correlations of the polarisation-momentum of an interacting photon with polarisation-position of a non-interacting photon. The experiment is performed with a coincidence single photon detection camera, where a non-interacting photon travels a long optical path length of 17.83~$m$ from source to camera and a pattern is positioned at an optical distance of 19.16~$m$ from the camera.
翻訳日:2023-03-14 15:01:55 公開日:2023-03-13
# xASTNN: 産業実践のためのコード表現の改善

xASTNN: Improved Code Representations for Industrial Practice ( http://arxiv.org/abs/2303.07104v1 )

ライセンス: Link先を確認
Zhiwei Xu, Min Zhou, Xibin Zhao, Yang Chen, Xi Cheng, Hongyu Zhang(参考訳) ソフトウェア工学におけるディープラーニング技術の応用がますます普及している。 問題のひとつは、コード関連タスクのための高品質で使いやすいソースコード表現を開発することだ。 近年,研究コミュニティは印象的な成果を得ている。 しかし、デプロイメントの困難とパフォーマンスのボトルネックのため、これらのアプローチが業界に適用されることはほとんどない。 本稿では,ソースコード表現のためのeXtreme Abstract Syntax Tree (AST)ベースのニューラルネットワークであるxASTNNについて述べる。 提案されているxASTNNには3つの利点がある。 まず、xASTNNは広く使われているASTを完全にベースとしており、複雑なデータ前処理を必要としないため、様々なプログラミング言語や実践シナリオに適用できる。 第2に,xastnnの有効性を保証するために,コード自然性のためのステートメントサブツリーシーケンス,構文情報のためのゲート再帰ユニット,シーケンシャル情報のためのゲート再帰ユニットという,3つの密接な関連設計が提案されている。 第3に、xASTNNの時間的複雑さを著しく低減するために動的バッチアルゴリズムを導入する。 2つのコード理解タスク、コード分類とコードクローン検出が評価に採用されている。 その結果、xASTNNはベースラインよりも高速で最先端の技術を向上できることがわかった。

The application of deep learning techniques in software engineering becomes increasingly popular. One key problem is developing high-quality and easy-to-use source code representations for code-related tasks. The research community has acquired impressive results in recent years. However, due to the deployment difficulties and performance bottlenecks, seldom these approaches are applied to the industry. In this paper, we present xASTNN, an eXtreme Abstract Syntax Tree (AST)-based Neural Network for source code representation, aiming to push this technique to industrial practice. The proposed xASTNN has three advantages. First, xASTNN is completely based on widely-used ASTs and does not require complicated data pre-processing, making it applicable to various programming languages and practical scenarios. Second, three closely-related designs are proposed to guarantee the effectiveness of xASTNN, including statement subtree sequence for code naturalness, gated recursive unit for syntactical information, and gated recurrent unit for sequential information. Third, a dynamic batching algorithm is introduced to significantly reduce the time complexity of xASTNN. Two code comprehension downstream tasks, code classification and code clone detection, are adopted for evaluation. The results demonstrate that our xASTNN can improve the state-of-the-art while being faster than the baselines.
翻訳日:2023-03-14 15:01:04 公開日:2023-03-13
# 弦測定演算子を用いた絡み合いダイナミクス

Entanglement dynamics with string measurement operators ( http://arxiv.org/abs/2303.07102v1 )

ライセンス: Link先を確認
Giulia Piccitto, Angelo Russomanno and Davide Rossini(参考訳) ガウス保存作用素をフェルミオンガウス状態に適用する方法を説明する。 この手法を用いて、弦測度演算子を持つリンドブラッド力学に続くイジングスピン鎖の絡み合いエントロピーの進化を研究し、そのようなリンドブラディアンの量子ジャンプ展開に注目した。 漸近的絡み合いエントロピーは、有限範囲弦作用素の領域則と、系の大きさにスケールする弦の範囲の体積則に従うことが分かる。 同じ挙動が測定のみのダイナミクスで観察され、測定がこの文脈で主要な役割を果たすことを示唆している。

We explain how to apply a Gaussian-preserving operator to a fermionic Gaussian state. We use this method to study the evolution of the entanglement entropy of an Ising spin chain following a Lindblad dynamics with string measurement operators, focusing on the quantum-jump unraveling of such Lindbladian. We find that the asymptotic entanglement entropy obeys an area law for finite-range string operators and a volume law for ranges of the string which scale with the system size. The same behavior is observed for the measurement-only dynamics, suggesting that measurements can play a leading role in this context.
翻訳日:2023-03-14 15:00:45 公開日:2023-03-13
# 自動車用画像品質劣化認識のための特徴量に基づくアプローチ

A Feature-based Approach for the Recognition of Image Quality Degradation in Automotive Applications ( http://arxiv.org/abs/2303.07100v1 )

ライセンス: Link先を確認
Florian Bauer(参考訳) カメラは現代の運転支援システムにおいて重要な役割を担い、自動運転のためのセンサー技術の重要な部分である。 車載カメラで撮影される画像の品質は、視覚知覚システムの性能に大きく影響する。 本稿では,自動車アプリケーションにおける画像品質の劣化を検知する特徴に基づくアルゴリズムを提案する。 アルゴリズムは重要な特徴のインテリジェントな選択に基づいている。 少数の特徴のため、このアルゴリズムは小さなデータセットでもうまく機能する。 異なるデータセットを用いた実験により、このアルゴリズムはカメラレンズに付着した汚れを検出し、異なるタイプの画像劣化を分類することができる。

Cameras play a crucial role in modern driver assistance systems and are an essential part of the sensor technology for automated driving. The quality of images captured by in-vehicle cameras highly influences the performance of visual perception systems. This paper presents a feature-based algorithm to detect certain effects that can degrade image quality in automotive applications. The algorithm is based on an intelligent selection of significant features. Due to the small number of features, the algorithm performs well even with small data sets. Experiments with different data sets show that the algorithm can detect soiling adhering to camera lenses and classify different types of image degradation.
翻訳日:2023-03-14 15:00:33 公開日:2023-03-13
# 魚と自転車を超えて:オンライン女性のイデオロギー空間の多様性を探る

Beyond Fish and Bicycles: Exploring the Varieties of Online Women's Ideological Spaces ( http://arxiv.org/abs/2303.07099v1 )

ライセンス: Link先を確認
Utkucan Balci, Chen Ling, Emiliano De Cristofaro, Megan Squire, Gianluca Stringhini, Jeremy Blackburn(参考訳) インターネットは、表現不足と脆弱な人々のグループを繋ぐのに役立っている。 社会的交流とエンゲージメントを促進するために構築されたプラットフォームは、歴史的に権限を剥奪されたグループが声を持つことを可能にした。 そのような脆弱なグループは女性です。 本稿では,多次元アプローチを用いたオンライン女性のイデオロギー空間の多様性について考察する。 redditのコメント600万件を大規模でデータ駆動で分析し、14のサブredditから投稿した。 我々は、オンライン女性のイデオロギー空間を多様に分類し、いわゆるマンスフィアからジェンダー・クリティカル・フェミニズムまで様々である。 次にコンテンツ分析を行い、トピックやコミュニティ間で有意義な違いを見つけます。 最後に、ovarit.comとthepinkpill.coという、オンライン女性のイデオロギー空間(元ダークリティカルフェミニズムとfemcels)の2つの有毒なコミュニティがredditを禁止された後に移行した2つのプラットフォームに光を当てた。

The Internet has been instrumental in connecting under-represented and vulnerable groups of people. Platforms built to foster social interaction and engagement have enabled historically disenfranchised groups to have a voice. One such vulnerable group is women. In this paper, we explore the diversity in online women's ideological spaces using a multi-dimensional approach. We perform a large-scale, data-driven analysis of over 6M Reddit comments and submissions from 14 subreddits. We elicit a diverse taxonomy of online women's ideological spaces, ranging from counterparts to the so-called Manosphere to Gender-Critical Feminism. We then perform content analysis, finding meaningful differences across topics and communities. Finally, we shed light on two platforms, ovarit.com and thepinkpill.co, where two toxic communities of online women's ideological spaces (Gender-Critical Feminism and Femcels) migrated after their ban on Reddit.
翻訳日:2023-03-14 15:00:24 公開日:2023-03-13
# シーングラフ生成のためのプロトタイプベース埋め込みネットワーク

Prototype-based Embedding Network for Scene Graph Generation ( http://arxiv.org/abs/2303.07096v1 )

ライセンス: Link先を確認
Chaofan Zheng, Xinyu Lyu, Lianli Gao, Bo Dai, and Jingkuan Song(参考訳) 現在のシーングラフ生成(sgg)メソッドは、エンティティペア間の関係を予測するためにコンテキスト情報を探索する。 しかし、様々な対象と対象の組合せの多様な視覚的外観のため、モデルの潜在空間において、各述語カテゴリー(例えば「マンホールディング・ピザ、キリン・ピザ・リーフ」)に大きなクラス内変異があり、また「マンホールディング・プレート、マン・イーティング・ピザ」など、異なるクラス間の深刻なクラス間類似性がある。 上記の課題は、現在のSGG法が信頼性の高い関係予測のために堅牢な特徴を得るのを防ぐ。 本稿では,その課題を解消するための意味空間において,述語が持つカテゴリーに内在する意味論がクラス指向のプロトタイプとして機能すると主張する。 そこで,本稿では,プロトタイプ指向のコンパクトかつ識別表現を用いたエンティティ/述語をモデル化し,関係認識のための共通埋め込み空間におけるエンティティ対と述語とのマッチングを確立するプロトタイプベース埋め込みネットワーク(pe-net)を提案する。 さらに,PE-Net がこのようなエンティティ述語マッチングを効率的に学習するのを助けるために,PL (Prototype-Guided Learning) を導入し,その意味的重複による曖昧なエンティティ述語マッチングを緩和するために,PR (Prototype Regularization) を考案した。 広汎な実験により,SGG上の関係認識能力が向上し,Visual Genome と Open Images の両方のデータセット上で,最先端のパフォーマンスが達成された。

Current Scene Graph Generation (SGG) methods explore contextual information to predict relationships among entity pairs. However, due to the diverse visual appearance of numerous possible subject-object combinations, there is a large intra-class variation within each predicate category, e.g., "man-eating-pizza, giraffe-eating-leaf", and the severe inter-class similarity between different classes, e.g., "man-holding-plate, man-eating-pizza", in model's latent space. The above challenges prevent current SGG methods from acquiring robust features for reliable relation prediction. In this paper, we claim that the predicate's category-inherent semantics can serve as class-wise prototypes in the semantic space for relieving the challenges. To the end, we propose the Prototype-based Embedding Network (PE-Net), which models entities/predicates with prototype-aligned compact and distinctive representations and thereby establishes matching between entity pairs and predicates in a common embedding space for relation recognition. Moreover, Prototype-guided Learning (PL) is introduced to help PE-Net efficiently learn such entitypredicate matching, and Prototype Regularization (PR) is devised to relieve the ambiguous entity-predicate matching caused by the predicate's semantic overlap. Extensive experiments demonstrate that our method gains superior relation recognition capability on SGG, achieving new state-of-the-art performances on both Visual Genome and Open Images datasets.
翻訳日:2023-03-14 15:00:05 公開日:2023-03-13
# 前庭神経節分節に対する弱教師なし領域適応

Weakly Unsupervised Domain Adaptation for Vestibular Schwannoma Segmentation ( http://arxiv.org/abs/2303.07093v1 )

ライセンス: Link先を確認
Shahad Hardan and Hussain Alasmawi and Xiangjian Hou and Mohammad Yaqub(参考訳) 前庭神経腫 (VS) は耳の横にある非癌性腫瘍であり、難聴を引き起こすことがある。 患者から取得されたほとんどの脳MRI画像はコントラスト増強T1(ceT1)であり、コントラスト剤の使用を伴うceT1を置き換える高解像度T2画像(hrT2)への関心が高まっている。 hrT2イメージが不足しているため、VSや他の脳構造をセグメントする堅牢な機械学習モデルをトレーニングする可能性は低い。 本研究では、ceT1スキャンのみから学習し、hrT2スキャンから2つの構造、すなわちクロスMoDAデータセットからVSとcochleaに適応する弱い教師付き機械学習アプローチを提案する。 私たちのモデル 1) CET1画像とセグメンテーションマスクから偽のhrT2スキャンを生成する。 2) 偽のhrt2スキャンを用いて訓練する。 3)拡張実時間hrT2スキャンを予測し, 4)偽hrt2と実hrt2の両方を使用して再び再訓練する。 このモデルの最終的な結果は、2022年のクロスモダ・チャレンジ・オーガナイザによって提供される未発見のテストデータセットで計算された。 平均ダイススコアと平均対称表面距離(ASSD)はそれぞれ0.78と0.46である。 予測されたセグメンテーションマスクはVSでは0.83点、ASSDは0.56点、サイススコアは0.74点、ASSDは0.35点であった。

Vestibular schwannoma (VS) is a non-cancerous tumor located next to the ear that can cause hearing loss. Most brain MRI images acquired from patients are contrast-enhanced T1 (ceT1), with a growing interest in high-resolution T2 images (hrT2) to replace ceT1, which involves the use of a contrast agent. As hrT2 images are currently scarce, it is less likely to train robust machine learning models to segment VS or other brain structures. In this work, we propose a weakly supervised machine learning approach that learns from only ceT1 scans and adapts to segment two structures from hrT2 scans: the VS and the cochlea from the crossMoDA dataset. Our model 1) generates fake hrT2 scans from ceT1 images and segmentation masks, 2) is trained using the fake hrT2 scans, 3) predicts the augmented real hrT2 scans, and 4) is retrained again using both the fake and real hrT2. The final result of this model has been computed on an unseen testing dataset provided by the 2022 crossMoDA challenge organizers. The mean dice score and average symmetric surface distance (ASSD) are 0.78 and 0.46, respectively. The predicted segmentation masks achieved a dice score of 0.83 and an ASSD of 0.56 on the VS, and a dice score of 0.74 and an ASSD of 0.35 on the cochleas.
翻訳日:2023-03-14 14:59:34 公開日:2023-03-13
# 表現学習の課題:深部視覚モデルにおける精度の向上は知覚的類似性のより良い予測を伴わない

The challenge of representation learning: Improved accuracy in deep vision models does not come with better predictions of perceptual similarity ( http://arxiv.org/abs/2303.07084v1 )

ライセンス: Link先を確認
Fritz G\"unther, Marco Marelli, Marco Alessandro Petilli(参考訳) 過去数年間、コンピュータビジョンのためのディープラーニングモデルの進歩は、画像分類の精度を劇的に向上させた。 しかし、訓練されたタスクの精度が高いモデルは、訓練されていない他のタスクでもより良いパフォーマンスを発揮できるように、より良いイメージ表現を開発する必要はない。 本研究では,高パフォーマンスコンピュータビジョンモデルの表現学習能力を検討するために,大規模行動データセットから知覚的類似度を示す指標を捉えた。 画像分類精度の向上は,これらのデータセットの性能向上に結びついておらず,実際にGoogLeNet(2015年リリース)やVGG-M(2014年リリース)以降のパフォーマンス向上は観測されていない。 より正確な分類は、非常に類似したクラス間の非常にきめ細かい区別に向けたハイパーエンジニアリングによってもたらされる可能性があると推測する。

Over the last years, advancements in deep learning models for computer vision have led to a dramatic improvement in their image classification accuracy. However, models with a higher accuracy in the task they were trained on do not necessarily develop better image representations that allow them to also perform better in other tasks they were not trained on. In order to investigate the representation learning capabilities of prominent high-performing computer vision models, we investigated how well they capture various indices of perceptual similarity from large-scale behavioral datasets. We find that higher image classification accuracy rates are not associated with a better performance on these datasets, and in fact we observe no improvement in performance since GoogLeNet (released 2015) and VGG-M (released 2014). We speculate that more accurate classification may result from hyper-engineering towards very fine-grained distinctions between highly similar classes, which does not incentivize the models to capture overall perceptual similarities.
翻訳日:2023-03-14 14:59:10 公開日:2023-03-13
# 1次元ボース-フェルミ混合物におけるフォノン様相互作用の探索

Exploring phonon-like interactions in one-dimensional Bose-Fermi mixtures ( http://arxiv.org/abs/2303.07083v1 )

ライセンス: Link先を確認
Axel Gagge, Th. K. Mavrogordatos, and Jonas Larson(参考訳) 動的背景に移動する電子の物理的挙動をシミュレートすることを目的として,ボソンによってのみ感じられる光学格子電位における冷原子ボース-フェルミ混合物の研究を行った。 ボゾンは深い超流動状態にあると仮定され、光学格子の周期性を継承し、次に偏極フェルミオンの動的ポテンシャルとして作用する。 フェルミオンと凝縮物の間の原子-フォノン相互作用により、結合系はルッティンガー液体からピエルス相へのベレジンスキー-コステリッツ-チューレス遷移を示す。 しかし、十分に強いボース・フェルミ相互作用では、ピエルス相は不安定となり、崩壊または分離した相によって後継される。 光学格子の主な役割はピエルス相の安定化にある。 さらに、閉じたハーモニックトラップの存在は、ボソンまたはフェルミオンが別々に閉じ込められた状態で観察される以上の、リッチな物理的挙動をもたらす。 特に、魅力的なボース・フェルミ相互作用では、絶縁相は基盤となる格子ポテンシャルの動的性質を反映したフェルミオン式ウェディングケーキのような構造を発達させる可能性がある。 一方,反発的な相互作用では,トラップはパイエルズ相を不安定化し,2種は分離していると結論づける。

With the objective of simulating the physical behaviour of electrons moving in a dynamical background, we study a cold atomic Bose-Fermi mixture in an optical lattice potential felt only by the bosons. The bosons, assumed to be in the deep superfluid regime, inherit the periodicity of the optical lattice and subsequently act as a dynamical potential for the polarized fermions. Due to the atom-phonon interaction between the fermions and the condensate, the coupled system displays a Berezinskii-Kosterlitz-Thouless transition from a Luttinger liquid to a Peierls phase. For sufficiently strong Bose-Fermi interaction, however, the Peierls phase becomes unstable and is succeeded by either a collapsed or a separated phase. We find that the main role of the optical lattice amounts to stabilizing the Peierls phase. Furthermore, the presence of a confining harmonic trap leads to a rich physical behaviour beyond what is observed for either bosons or fermions separately trapped. In particular, for an attractive Bose-Fermi interaction, the insulating phase may develop a fermionic wedding-cake like configuration reflecting the dynamical nature of the underlying lattice potential. For repulsive interaction, on the other hand, we conclude that the trap destabilizes the Peierls phase and the two species separate.
翻訳日:2023-03-14 14:58:54 公開日:2023-03-13
# mirror u-net: 医療画像における意味セグメンテーションのためのマルチモーダルフィッションとマルチタスク学習の融合

Mirror U-Net: Marrying Multimodal Fission with Multi-task Learning for Semantic Segmentation in Medical Imaging ( http://arxiv.org/abs/2303.07126v1 )

ライセンス: Link先を確認
Zdravko Marinov, Simon Rei{\ss}, David Kersting, Jens Kleesiek, Rainer Stiefelhagen(参考訳) PET(Positron Emission Tomography)とCT(Computer Tomography)を併用して腫瘍を検出する。 PET/CTセグメンテーションモデルは腫瘍の脱線を自動化できるが、現在のマルチモーダルモデルはPETとCTデータを結合するか、決定レベルで融合させるため、各モードで補完的な情報を十分に活用していない。 そこで本研究では,従来の融合法をマルチモーダルフィッションに置き換えたミラーU-Netを提案し,マルチモーダル表現をモーダル固有分岐と補助マルチモーダルデコーダに分解する。 これらのブランチでは、mirror u-netは共有表現のマルチモーダルな特徴を維持しながら、ユニモーダルな特徴を強化するために各モダリティに合わせたタスクを割り当てる。 フィッションやマルチタスク学習を使う従来の方法とは対照的に、Mirror U-Netは両方のパラダイムを統一されたフレームワークで組み合わせている。 様々なタスクの組み合わせを調べ、モデルでどのパラメータを共有するべきかを調べる。 我々は, autopet pet/ct と multimodal msd braintumor dataset 上のミラー u-net を評価し,マルチモーダルセグメンテーションにおけるその効果を実証し,両データセットの最先端性能を実現する。 私たちのコードは公開されます。

Positron Emission Tomography (PET) and Computer Tomography (CT) are routinely used together to detect tumors. PET/CT segmentation models can automate tumor delineation, however, current multimodal models do not fully exploit the complementary information in each modality, as they either concatenate PET and CT data or fuse them at the decision level. To combat this, we propose Mirror U-Net, which replaces traditional fusion methods with multimodal fission by factorizing the multimodal representation into modality-specific branches and an auxiliary multimodal decoder. At these branches, Mirror U-Net assigns a task tailored to each modality to reinforce unimodal features while preserving multimodal features in the shared representation. In contrast to previous methods that use either fission or multi-task learning, Mirror U-Net combines both paradigms in a unified framework. We explore various task combinations and examine which parameters to share in the model. We evaluate Mirror U-Net on the AutoPET PET/CT and on the multimodal MSD BrainTumor datasets, demonstrating its effectiveness in multimodal segmentation and achieving state-of-the-art performance on both datasets. Our code will be made publicly available.
翻訳日:2023-03-14 14:53:15 公開日:2023-03-13
# don't panic: アルツハイマー病の解釈可能な分類のための典型的付加型ニューラルネットワーク

Don't PANIC: Prototypical Additive Neural Network for Interpretable Classification of Alzheimer's Disease ( http://arxiv.org/abs/2303.07125v1 )

ライセンス: Link先を確認
Tom Nuno Wolf, Sebastian P\"olster, and Christian Wachinger(参考訳) アルツハイマー病(ad)は、神経解剖学、遺伝学、脳脊髄液バイオマーカーに関する情報を統合して正確な診断を行う複雑な多因子性疾患である。 したがって、最近のディープラーニングアプローチでは、画像と表情報を組み合わせて診断性能を向上させる。 しかしながら、そのようなニューラルネットワークのブラックボックスの性質は、異種モデルの決定を理解することが不可欠である臨床応用の障壁である。 本稿では,3次元画像と表データを組み合わせたAD分類のための原型付加型ニューラルネットワークPANICを提案する。 設計によって解釈可能であり、ネットワークの決定を近似しようとするポストホックな説明は不要である。 以上の結果から,PANICはAD分類における最先端性能を実現し,局所的およびグローバルな説明を直接提供する。 最後に,PAICは生物学的に意味のあるADのシグネチャを抽出し,信頼できる機械学習のための望ましいデシラタのセットを満たすことを示す。 実装は \url{https://github.com/ai-med/PANIC} で公開しています。

Alzheimer's disease (AD) has a complex and multifactorial etiology, which requires integrating information about neuroanatomy, genetics, and cerebrospinal fluid biomarkers for accurate diagnosis. Hence, recent deep learning approaches combined image and tabular information to improve diagnostic performance. However, the black-box nature of such neural networks is still a barrier for clinical applications, in which understanding the decision of a heterogeneous model is integral. We propose PANIC, a prototypical additive neural network for interpretable AD classification that integrates 3D image and tabular data. It is interpretable by design and, thus, avoids the need for post-hoc explanations that try to approximate the decision of a network. Our results demonstrate that PANIC achieves state-of-the-art performance in AD classification, while directly providing local and global explanations. Finally, we show that PANIC extracts biologically meaningful signatures of AD, and satisfies a set of desirable desiderata for trustworthy machine learning. Our implementation is available at \url{https://github.com/ai-med/PANIC}.
翻訳日:2023-03-14 14:52:51 公開日:2023-03-13
# 単一領域一般化のためのモダリティ非依存デバイアス

Modality-Agnostic Debiasing for Single Domain Generalization ( http://arxiv.org/abs/2303.07123v1 )

ライセンス: Link先を確認
Sanqing Qu, Yingwei Pan, Guang Chen, Ting Yao, Changjun Jiang, Tao Mei(参考訳) ディープニューラルネットワーク(DNN)は通常、DNNを単一ドメインから複数の未確認ドメインに転送する単一ドメイン一般化(単一DG)の極端な場合において、OODデータの外部への一般化に失敗する。 既存のシングルDG技術は、様々なデータ拡張アルゴリズムを考案し、ドメイン一般化(セマンティック)機能を学ぶために、マルチソースのドメイン一般化方法論を再検討する。 しかしながら、これらの方法は典型的にはモダリティ特異的であり、1つのモダリティ(例えば画像)のみに適用できる。 対照的に、我々は単一DGのための多機能なModality-Agnostic Debiasing (MAD) フレームワークをターゲットにしており、異なるモダリティの一般化を可能にしている。 バイアスドブランチは、ドメイン固有の(表層的な)特徴を特定するように分類器を奨励し、一般ブランチはバイアスドブランチからの知識に基づいてドメイン一般化された特徴をキャプチャする。 私たちのMADは、ほとんどのシングルDGモデルにプラグイン可能であるという点で魅力的です。 1Dテキストの認識,2D画像の認識,3Dポイントクラウドの認識,2D画像のセマンティックセマンティックセマンティックセグメンテーションなど,さまざまなモードの単一DGシナリオにおけるMADの優位性を検証する。 さらに驚くべきことに、2D画像上の3Dポイントクラウドの認識とセマンティックセグメンテーションのために、MADはDSUを2.82\%、1.5\%の精度で改善している。

Deep neural networks (DNNs) usually fail to generalize well to outside of distribution (OOD) data, especially in the extreme case of single domain generalization (single-DG) that transfers DNNs from single domain to multiple unseen domains. Existing single-DG techniques commonly devise various data-augmentation algorithms, and remould the multi-source domain generalization methodology to learn domain-generalized (semantic) features. Nevertheless, these methods are typically modality-specific, thereby being only applicable to one single modality (e.g., image). In contrast, we target a versatile Modality-Agnostic Debiasing (MAD) framework for single-DG, that enables generalization for different modalities. Technically, MAD introduces a novel two-branch classifier: a biased-branch encourages the classifier to identify the domain-specific (superficial) features, and a general-branch captures domain-generalized features based on the knowledge from biased-branch. Our MAD is appealing in view that it is pluggable to most single-DG models. We validate the superiority of our MAD in a variety of single-DG scenarios with different modalities, including recognition on 1D texts, 2D images, 3D point clouds, and semantic segmentation on 2D images. More remarkably, for recognition on 3D point clouds and semantic segmentation on 2D images, MAD improves DSU by 2.82\% and 1.5\% in accuracy and mIOU.
翻訳日:2023-03-14 14:52:30 公開日:2023-03-13
# 量子振幅増幅のための効率の悪いオラクルの自動生成

Automatic Generation of an Efficient Less-Than Oracle for Quantum Amplitude Amplification ( http://arxiv.org/abs/2303.07120v1 )

ライセンス: Link先を確認
Javier Sanchez-Rivero, Daniel Talav\'an, Jose Garcia-Alonso, Antonio Ruiz-Cort\'es and Juan Manuel Murillo(参考訳) グローバーのアルゴリズムは量子コンピューティングへのよく知られた貢献である。 任意の古典的アルゴリズムよりも高速に、順序のない列内の1つの値を検索する。 このアルゴリズムの基本的な部分はいわゆるオラクルであり、所望の値に対応する量子状態を示す量子回路である。 一般化は振幅増幅のためのオラクルであり、複数の所望の状態を示す。 本研究では,振幅増幅のための位相マーキングオラクルを構築する古典的アルゴリズムを提案する。 このオラクルは、与えられたものより小さい自然数を表す状態を示すため、より少ない操作を実行する。 シミュレーションと実験の結果は,その機能を証明するものである。 oracleの実装は、あらゆる数のキュービットで動作し、アンシラキュービットは不要である。 奥行きについては、qiskit自動メソッドunitarygateで生成された実装と比較する。 より少ないオラクルの実装の深さは常に低いことを示しています。 この違いは、本手法が実際の量子ハードウェア上でユニタリゲートを上回るほど重要である。

Grover's algorithm is a well-known contribution to quantum computing. It searches one value within an unordered sequence faster than any classical algorithm. A fundamental part of this algorithm is the so-called oracle, a quantum circuit that marks the quantum state corresponding to the desired value. A generalization of it is the oracle for Amplitude Amplification, that marks multiple desired states. In this work we present a classical algorithm that builds a phase-marking oracle for Amplitude Amplification. This oracle performs a less-than operation, marking states representing natural numbers smaller than a given one. Results of both simulations and experiments are shown to prove its functionality. This less-than oracle implementation works on any number of qubits and does not require any ancilla qubits. Regarding depth, the proposed implementation is compared with the one generated by Qiskit automatic method, UnitaryGate. We show that the depth of our less-than oracle implementation is always lower. This difference is significant enough for our method to outperform UnitaryGate on real quantum hardware.
翻訳日:2023-03-14 14:52:03 公開日:2023-03-13
# coherent-population-trapping pulse sequenceを用いたramseyインターフェロメトリ

Ramsey interferometry with arbitrary coherent-population-trapping pulse sequence ( http://arxiv.org/abs/2303.07118v1 )

ライセンス: Link先を確認
Ruihuan Fang, Chengyin Han, Bo Lu, Jiahao Huang, Chaohong Lee(参考訳) コヒーレント集団トラップ(英: Coherent population trapping、CPT)は原子時計や磁気センサにおける有望な応用の多段階量子コヒーレンス現象である。 特に、マルチパルスCPT-ラムゼー干渉計は、CPT原子時計の性能を向上させる強力なツールである。 マルチパルスCPT-Ramsey干渉計のほとんどの研究は、周期的なパルスシーケンスと時間非依存のデチューニングを考慮している。 しかし、精度と精度をさらに向上するために、パルスシーケンスと時間依存のデチューニングや位相シフトを含むスペクトル対称性を変更することができる。 本稿では,時間依存デチューニングの任意のパルス系列の下でのマルチパルスcpt-ramsey干渉法を理論的に解析し,一般解析式を得る。 本式を用いて,2パルス対称・反対称分光法や多パルス対称・反対称分光法などの一般的なCPT-ラムゼー干渉法を解析した。 さらに,周期パルスにおけるパルス幅,パルス周期,パルス数,ラビ周波数の影響を定量的に求める。 本理論は,マルチパルスcpt-ramsey干渉計による原子時計の性能向上のための実験設計を導くことができる。

Coherent population trapping (CPT) is a multi-level quantum coherence phenomenon of promising applications in atomic clocks and magnetometers. Particularly, multi-pulse CPT-Ramsey interferometry is a powerful tool for improving the performance of CPT atomic clocks. Most studies on multi-pulse CPT-Ramsey interferometry consider periodic pulse sequence and time-independent detuning. However, to further improve the accuracy and precision, one may modify the spectrum symmetry which involves pulse sequence with time-dependent detuning or phase shift. Here, we theoretically analyze the multi-pulse CPT-Ramsey interferometry under arbitrary pulse sequences of time-dependent detuning and obtain a general analytical formula. Using our formula, we analyze the popular CPT-Ramsey interferometry schemes such as two-pulse symmetric and antisymmetric spectroscopy, and multi-pulse symmetric and antisymmetric spectroscopy. Moreover, we quantitatively obtain the influences of pulse width, pulse period, pulse number, and Rabi frequency under periodic pulses. Our theoretical results can guide the experimental design to improve the performance of atomic clocks via multi-pulse CPT-Ramsey interferometry.
翻訳日:2023-03-14 14:51:49 公開日:2023-03-13
# NeurEPDiff: 変形空間における測地線予測のためのニューラル演算子

NeurEPDiff: Neural Operators to Predict Geodesics in Deformation Spaces ( http://arxiv.org/abs/2303.07115v1 )

ライセンス: Link先を確認
Nian Wu and Miaomiao Zhang(参考訳) 本稿では、よく知られたオイラー・ポアンカーの微分方程式(EPDiff)によって生成される変形空間の測地線を高速に予測する新しいネットワークNeurEPDiffを提案する。 これを実現するために, 微分同相写像(速度場)の接空間でパラメータ化された測地線変形の進行軌道を初めて学習するニューラル演算子を開発した。 トレーニング画像に純粋に適合する従来の手法とは対照的に,提案したNeurEPDiffは時間依存速度場間の非線形マッピング関数を学習する。 積分作用素と滑らかな活性化関数の合成をNeurEPDiffの各層で定式化し、そのような写像を効果的に近似する。 NeurEPDiffがEPDiffの数値解を迅速に提供できるという事実は、高次元画像空間における微分同相の測地線撮影の計算コストを大幅に削減する。 さらに、NeurEPDiffの離散/分解不変性は、オフラインでトレーニングされた後の複数の画像解像度にその性能を一般化できるようにする。 2次元合成データと3次元脳共鳴画像(MRI)の2つの画像データセットの登録におけるNeurEPDiffの有効性を示す。 登録精度と計算効率は、現在最先端の微分登録アルゴリズムと測地撮影を比較した。

This paper presents NeurEPDiff, a novel network to fast predict the geodesics in deformation spaces generated by a well known Euler-Poincar\'e differential equation (EPDiff). To achieve this, we develop a neural operator that for the first time learns the evolving trajectory of geodesic deformations parameterized in the tangent space of diffeomorphisms(a.k.a velocity fields). In contrast to previous methods that purely fit the training images, our proposed NeurEPDiff learns a nonlinear mapping function between the time-dependent velocity fields. A composition of integral operators and smooth activation functions is formulated in each layer of NeurEPDiff to effectively approximate such mappings. The fact that NeurEPDiff is able to rapidly provide the numerical solution of EPDiff (given any initial condition) results in a significantly reduced computational cost of geodesic shooting of diffeomorphisms in a high-dimensional image space. Additionally, the properties of discretiztion/resolution-invariant of NeurEPDiff make its performance generalizable to multiple image resolutions after being trained offline. We demonstrate the effectiveness of NeurEPDiff in registering two image datasets: 2D synthetic data and 3D brain resonance imaging (MRI). The registration accuracy and computational efficiency are compared with the state-of-the-art diffeomophic registration algorithms with geodesic shooting.
翻訳日:2023-03-14 14:51:30 公開日:2023-03-13
# ドメインとカテゴリシフトによるアップサイクリングモデル

Upcycling Models under Domain and Category Shift ( http://arxiv.org/abs/2303.07110v1 )

ライセンス: Link先を確認
Sanqing Qu, Tianpei Zou, Florian Roehrbein, Cewu Lu, Guang Chen, Dacheng Tao, Changjun Jiang(参考訳) ディープニューラルネットワーク(DNN)はドメインシフトやカテゴリシフトの存在下ではよく機能しない。 DNNをリサイクルし、ターゲットタスクに適応する方法は、依然として重要なオープンな問題である。 Unsupervised Domain Adaptation (UDA)、特に最近提案された Source-free Domain Adaptation (SFDA) はこの問題に対処するための有望な技術となっている。 それでも、既存のSFDA法では、ソースドメインとターゲットドメインが同じラベル空間を共有している必要があるため、バニラ閉集合設定にのみ適用できる。 本稿では、さらに一歩進めて、SF-UniDA(Source-free Universal Domain Adaptation)について考察する。 目標は、ドメインとカテゴリシフトの両方で"既知の"データサンプルを特定し、(ソースクラスには存在しない)これらの"既知の"データサンプルを、標準の事前学習されたソースモデルからのみ拒否することである。 そこで我々は,グローバルかつ局所的なクラスタリング学習技術(GLC)を導入する。 具体的には,新しい適応型one-vs-allグローバルクラスタリングアルゴリズムを設計し,異なるターゲットクラス間の識別を実現し,局所的なk-nnクラスタリング戦略を導入して負の転送を緩和する。 部分集合, 開集合, 開部分集合 DA など, 異なるカテゴリシフトシナリオを持つ複数のベンチマークにおいて, GLC の優位性を検討する。 注目すべきは、最も困難なオープンパーティルセットDAシナリオにおいて、GLCは、VisDAベンチマークでUMADを14.8 %上回っていることである。 コードはhttps://github.com/ispc-lab/glcで入手できる。

Deep neural networks (DNNs) often perform poorly in the presence of domain shift and category shift. How to upcycle DNNs and adapt them to the target task remains an important open problem. Unsupervised Domain Adaptation (UDA), especially recently proposed Source-free Domain Adaptation (SFDA), has become a promising technology to address this issue. Nevertheless, existing SFDA methods require that the source domain and target domain share the same label space, consequently being only applicable to the vanilla closed-set setting. In this paper, we take one step further and explore the Source-free Universal Domain Adaptation (SF-UniDA). The goal is to identify "known" data samples under both domain and category shift, and reject those "unknown" data samples (not present in source classes), with only the knowledge from standard pre-trained source model. To this end, we introduce an innovative global and local clustering learning technique (GLC). Specifically, we design a novel, adaptive one-vs-all global clustering algorithm to achieve the distinction across different target classes and introduce a local k-NN clustering strategy to alleviate negative transfer. We examine the superiority of our GLC on multiple benchmarks with different category shift scenarios, including partial-set, open-set, and open-partial-set DA. Remarkably, in the most challenging open-partial-set DA scenario, GLC outperforms UMAD by 14.8\% on the VisDA benchmark. The code is available at https://github.com/ispc-lab/GLC.
翻訳日:2023-03-14 14:50:36 公開日:2023-03-13
# トランスフォーマーベースの世界モデルは100万のインタラクションに満足

Transformer-based World Models Are Happy With 100k Interactions ( http://arxiv.org/abs/2303.07109v1 )

ライセンス: Link先を確認
Jan Robine, Marc H\"oftmann, Tobias Uelwer, Stefan Harmeling(参考訳) ディープニューラルネットワークは多くの強化学習環境で成功している。 しかし、人間の学習者と比べれば、データ不足が極端に多い。 サンプル効率のよい世界モデルを構築するために, 実世界のエピソードに対して, コンパクトな潜伏状態と取付動作だけでなく, 経験や予測された報酬をトランスフォーマーに供給し, 異なる時間ステップで3つのモードに柔軟に対応できるように, トランスフォーマを自己回帰的に適用する。 トランスフォーマは、圧縮されたリカレント状態ではなく、世界モデルが以前の状態に直接アクセスできるようにします。 Transformer-XLアーキテクチャを利用することで、計算効率を保ちながら長期的な依存関係を学習することができる。 我々のトランスフォーマーベースの世界モデル(TWM)は、Atari 100kベンチマークにおいて、従来のモデルフリーおよびモデルベース強化学習アルゴリズムより優れているポリシーのトレーニングに使用される有意義で新しい体験を生成する。

Deep neural networks have been successful in many reinforcement learning settings. However, compared to human learners they are overly data hungry. To build a sample-efficient world model, we apply a transformer to real-world episodes in an autoregressive manner: not only the compact latent states and the taken actions but also the experienced or predicted rewards are fed into the transformer, so that it can attend flexibly to all three modalities at different time steps. The transformer allows our world model to access previous states directly, instead of viewing them through a compressed recurrent state. By utilizing the Transformer-XL architecture, it is able to learn long-term dependencies while staying computationally efficient. Our transformer-based world model (TWM) generates meaningful, new experience, which is used to train a policy that outperforms previous model-free and model-based reinforcement learning algorithms on the Atari 100k benchmark.
翻訳日:2023-03-14 14:50:09 公開日:2023-03-13
# 職場における大規模言語モデル:職種分類のためのプロンプト工学の事例研究

Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification ( http://arxiv.org/abs/2303.07142v1 )

ライセンス: Link先を確認
Benjamin Clavi\'e and Alexandru Ciceu and Frederick Naylor and Guillaume Souli\'e and Thomas Brightwell(参考訳) 本研究は,英語の求職が大学・入学レベルの職位に適切かどうかを判断することを目的として,実世界の職種分類の課題について検討する。 本稿では,SVM(Support Vector Machines)のような従来のモデルやDeBERTaのような最先端のディープラーニング手法など,テキスト分類に対する複数のアプローチを検討する。 少数ショットとゼロショットの両方の分類設定で使用されるLarge Language Models (LLM)と比較する。 そこで我々は,所望の出力に向けてLLMを誘導するプロンプトを設計する手法であるプロンプトエンジニアリングを採用する。 具体的には,市販のgpt-3.5言語モデルtext-davinci-003とgpt-3.5-turboの性能評価を行った。 また,プロンプトエンジニアリングのさまざまな側面がモデルの性能に与える影響について詳細な分析を行った。 以上の結果から,ゼロショットgpt-3.5ターボ分類器は,最善の教師付きアプローチと比較して精度@95%のリコールを6%向上させた。 さらに,プロンプトの単語化はモデルにおける適切な「推論」を導き出す上で重要な要素であり,プロンプトの微妙な側面がモデルの性能に大きく影響していることが観察された。

This case study investigates the task of job classification in a real-world setting, where the goal is to determine whether an English-language job posting is appropriate for a graduate or entry-level position. We explore multiple approaches to text classification, including supervised approaches such as traditional models like Support Vector Machines (SVMs) and state-of-the-art deep learning methods such as DeBERTa. We compare them with Large Language Models (LLMs) used in both few-shot and zero-shot classification settings. To accomplish this task, we employ prompt engineering, a technique that involves designing prompts to guide the LLMs towards the desired output. Specifically, we evaluate the performance of two commercially available state-of-the-art GPT-3.5-based language models, text-davinci-003 and gpt-3.5-turbo. We also conduct a detailed analysis of the impact of different aspects of prompt engineering on the model's performance. Our results show that, with a well-designed prompt, a zero-shot gpt-3.5-turbo classifier outperforms all other models, achieving a 6% increase in Precision@95% Recall compared to the best supervised approach. Furthermore, we observe that the wording of the prompt is a critical factor in eliciting the appropriate "reasoning" in the model, and that seemingly minor aspects of the prompt significantly affect the model's performance.
翻訳日:2023-03-14 14:43:20 公開日:2023-03-13
# ECCV 2022における視点推定のためのベースラインフレームワークの改良 : ヒューマン環境ワークショップにおけるナビゲーションの視覚的知覚

An Improved Baseline Framework for Pose Estimation Challenge at ECCV 2022 Visual Perception for Navigation in Human Environments Workshop ( http://arxiv.org/abs/2303.07141v1 )

ライセンス: Link先を確認
Jiajun Fu, Yonghao Dang, Ruoqi Yin, Shaojie Zhang, Feng Zhou, Wending Zhao, Jianqin Yin(参考訳) 本技術報告では,ECCV 2022 Visual Perception for Navigation in Human Environments Workshopにおけるポーズ推定問題に対する最初のソリューションについて述べる。 本課題は、縫合したパノラマ画像から人間のポーズを推定することである。 提案手法は人間検出のための高速R-CNNと人間のポーズ推定のためのHRNetに基づいて構築される。 JRDB-Poseデータセットの技術的詳細と実験結果について述べる。 コンペではJRDB-Poseのテストセットで0.303 $\text{OSPA}_{\text{IOU}}$と64.047\% $\text{AP}_{\text{0.5}}$を達成しました。

This technical report describes our first-place solution to the pose estimation challenge at ECCV 2022 Visual Perception for Navigation in Human Environments Workshop. In this challenge, we aim to estimate human poses from in-the-wild stitched panoramic images. Our method is built based on Faster R-CNN for human detection, and HRNet for human pose estimation. We describe technical details for the JRDB-Pose dataset, together with some experimental results. In the competition, we achieved 0.303 $\text{OSPA}_{\text{IOU}}$ and 64.047\% $\text{AP}_{\text{0.5}}$ on the test set of JRDB-Pose.
翻訳日:2023-03-14 14:42:52 公開日:2023-03-13
# データ駆動ロジスティクスにおける時系列予測のための統計的および機械学習手法の比較-シミュレーション研究

Comparing statistical and machine learning methods for time series forecasting in data-driven logistics -- A simulation study ( http://arxiv.org/abs/2303.07139v1 )

ライセンス: Link先を確認
Lena Schmid, Moritz Roidl and Markus Pauly(参考訳) 物流およびサプライチェーン管理における多くの計画と決定活動は、複数の時間依存要因の予測に基づいている。 したがって、計画の質は予測の質に依存する。 シミュレーション時系列の広いセットにおいて,ボックス外予測性能の観点から,様々な予測手法を比較した。 各種線形および非線形時系列をシミュレートし,統計的学習手法の1ステップ予測性能について検討する。

Many planning and decision activities in logistics and supply chain management are based on forecasts of multiple time dependent factors. Therefore, the quality of planning depends on the quality of the forecasts. We compare various forecasting methods in terms of out of the box forecasting performance on a broad set of simulated time series. We simulate various linear and non-linear time series and look at the one step forecast performance of statistical learning methods.
翻訳日:2023-03-14 14:42:41 公開日:2023-03-13
# 物理インフォームドトポロジカル特徴工学を用いた移動型深層学習電力系統の短期電圧安定性評価

Transferable Deep Learning Power System Short-Term Voltage Stability Assessment with Physics-Informed Topological Feature Engineering ( http://arxiv.org/abs/2303.07138v1 )

ライセンス: Link先を確認
Zijian Feng, Xin Chen, Zijian Lv, Peiyuan Sun, Kai Wu(参考訳) ディープラーニング(DL)アルゴリズムは、電力系統の短期電圧安定性(STVS)評価に広く応用されている。 しかし、トポロジ的変化を伴う電力網の知識を他の電力網に移すことは依然として難しい課題である。 本稿では、PMUデータからトポロジ対応の電圧動的特徴を構築することにより、STVS評価のための転送可能なDLベースモデルを提案する。 反応動力流とグリッドトポロジは電圧安定性に不可欠であるため、トポロジ・アウェアおよび物理インフォームド電圧動的特徴を利用して、乱後の動的軌跡から位相的および時間的パターンを効果的に表現する。 提案したDLベースSTVS評価モデルは,ニューイングランド39バスシステム上でランダムな動作条件下で試験される。 トポロジー認識と物理インフォームド電圧動的特徴を用いた短期電圧安定状態の99.99\%の分類精度を有する。 高精度に加え、実験はPMUエラーへの適応性も良好である。 さらに,STVS評価手法は微調整後の新しいグリッドトポロジに優れた性能を示す。 特に、最高精度は評価で99.68\%に達し、電力グリッドトポロジー変化に対する提案モデルの優れた知識伝達能力を示す。

Deep learning (DL) algorithms have been widely applied to short-term voltage stability (STVS) assessment in power systems. However, transferring the knowledge learned in one power grid to other power grids with topology changes is still a challenging task. This paper proposed a transferable DL-based model for STVS assessment by constructing the topology-aware voltage dynamic features from raw PMU data. Since the reactive power flow and grid topology are essential to voltage stability, the topology-aware and physics-informed voltage dynamic features are utilized to effectively represent the topological and temporal patterns from post-disturbance system dynamic trajectories. The proposed DL-based STVS assessment model is tested under random operating conditions on the New England 39-bus system. It has 99.99\% classification accuracy of the short-term voltage stability status using the topology-aware and physics-informed voltage dynamic features. In addition to high accuracy, the experiments show good adaptability to PMU errors. Moreover, The proposed STVS assessment method has outstanding performance on new grid topologies after fine-tuning. In particular, the highest accuracy reaches 99.68\% in evaluation, which demonstrates a good knowledge transfer ability of the proposed model for power grid topology change.
翻訳日:2023-03-14 14:42:35 公開日:2023-03-13
# 量子状態トモグラフィにおける信頼領域の比較

Comparison of confidence regions for quantum state tomography ( http://arxiv.org/abs/2303.07136v1 )

ライセンス: Link先を確認
Jessica O. de Almeida, Matthias Kleinmann and Gael Sent\'is(参考訳) 未知の実験準備手順に関連する量子状態は、量子状態トモグラフィーを行うことで決定できる。 データの統計的不確かさが他の実験誤差よりも大きい場合、トモグラフィ再構成手順は単一の状態ではなく、状態空間における統計的信頼領域を生成する必要がある。 自然にサンプル数を増やすと、この領域の大きさは減少するが、その領域の構成方法にも依存する。 本稿では,ガウス近似に基づく信頼領域構築手法と参照手法の比較を行った。 比較のために,本研究では,各手法に有意な差があるが,どの手法が望ましいかは,状態準備シナリオの詳細に依存することができることを示す。

The quantum state associated to an unknown experimental preparation procedure can be determined by performing quantum state tomography. If the statistical uncertainty in the data dominates over other experimental errors, then a tomographic reconstruction procedure must produce a statistical confidence region in state space rather than a single state. Naturally, the size of this region decreases when increasing the number of samples, but it also depends critically on the construction method of the region. We compare recent methods for constructing confidence regions as well as a reference method based on a Gaussian approximation. For the comparison, we propose an operational measure with the finding, that there is a significant difference between methods, but which method is preferable can depend on the details of the state preparation scenario.
翻訳日:2023-03-14 14:42:14 公開日:2023-03-13
# 進化的量子特徴選択

Evolutionary quantum feature selection ( http://arxiv.org/abs/2303.07131v1 )

ライセンス: Link先を確認
Anton S. Albino, Otto M. Pires, Mauro Q. Nooblath, Erick G. S. Nascimento(参考訳) 効果的な特徴選択は、人工知能モデルの性能向上に不可欠である。 与えられたメトリックを最適化する機能の組み合わせを特定することが必要ですが、これは問題の指数時間的複雑性のために難しいタスクです。 本研究では、量子回路進化(qce)アルゴリズムを用いた進化的量子特徴選択(eqfs)と呼ばれる革新的なヒューリスティックを提案する。 提案手法は,浅部深度回路を用いてスパース確率分布を生成するQCEのユニークな機能を利用する。 計算実験により,eqfsは特徴数の2次スケーリングと良い特徴の組み合わせを識別できることを示した。 EQFSの性能を評価するために、与えられた古典的モデルが特定の計量のコスト関数を評価する回数を世代数関数として数えた。

Effective feature selection is essential for enhancing the performance of artificial intelligence models. It involves identifying feature combinations that optimize a given metric, but this is a challenging task due to the problem's exponential time complexity. In this study, we present an innovative heuristic called Evolutionary Quantum Feature Selection (EQFS) that employs the Quantum Circuit Evolution (QCE) algorithm. Our approach harnesses the unique capabilities of QCE, which utilizes shallow depth circuits to generate sparse probability distributions. Our computational experiments demonstrate that EQFS can identify good feature combinations with quadratic scaling in the number of features. To evaluate EQFS's performance, we counted the number of times a given classical model assesses the cost function for a specific metric, as a function of the number of generations.
翻訳日:2023-03-14 14:42:02 公開日:2023-03-13
# アンサンブル法による新型コロナウイルス重症度分析の強化

Enhancing COVID-19 Severity Analysis through Ensemble Methods ( http://arxiv.org/abs/2303.07130v1 )

ライセンス: Link先を確認
Anand Thyagachandran, Hema A Murthy(参考訳) ctスキャンは肺の詳細な画像を提供し、臨床医はcovid-19による損傷の程度を観察できる。 重症度スコア(CTSS)は、CTスキャンで観察される肺への関与度に基づいて分類することができる。 本稿では, 多様な画像処理アルゴリズムと事前学習したUNETモデルを用いて, 感染領域を抽出する領域知識に基づくパイプラインを提案する。 ランダムフォレスト(RF)、極端ランダム化木(ERT)、サポートベクトルマシン(SVM)の3つの機械学習モデルのアンサンブルを用いて、CTスキャンを異なる重度クラスに分類する。 提案システムはAI-Enabled Medical Image Analysis Workshopと新型コロナウイルス診断コンペティション(AI-MIA-COV19D)の検証データセットのマクロF1スコア57.47%を達成した。

Computed Tomography (CT) scans provide a detailed image of the lungs, allowing clinicians to observe the extent of damage caused by COVID-19. The CT severity score (CTSS) of COVID-19 can be categorized based on the extent of lung involvement observed on a CT scan. This paper proposes a domain knowledge-based pipeline to extract the infection regions using diverse image-processing algorithms and a pre-trained UNET model. An ensemble of three machine-learning models, Random Forest (RF), Extremely Randomized Trees (ERT), and Support Vector Machine (SVM), is employed to classify the CT scans into different severity classes. The proposed system achieved a macro F1 score of 57.47% on the validation dataset in the AI-Enabled Medical Image Analysis Workshop and COVID-19 Diagnosis Competition (AI-MIA-COV19D).
翻訳日:2023-03-14 14:41:50 公開日:2023-03-13
# AdaptiveNet: 分散エッジ環境のためのポストデプロイニューラルネットワーク適応

AdaptiveNet: Post-deployment Neural Architecture Adaptation for Diverse Edge Environments ( http://arxiv.org/abs/2303.07129v1 )

ライセンス: Link先を確認
Hao Wen, Yuanchun Li, Zunshuai Zhang, Shiqi Jiang, Xiaozhou Ye, Ye Ouyang, Ya-Qin Zhang, Yunxin Liu(参考訳) ディープラーニングモデルは、リアルタイムアプリケーションのためのエッジデバイスにますますデプロイされる。 多様なエッジ環境にまたがって安定したサービス品質を確保するためには、異なる条件下で適切なモデルアーキテクチャを生成することが望ましい。 しかし,エッジ環境の多様性やエッジ情報要求の処理が困難であるため,従来のデプロイ前モデル生成手法では満足できない。 本稿では,モデル品質を正確に測定し,プライベートエッジデータを保持可能なターゲット環境に配置した後に,モデルアーキテクチャを適用することを提案する。 効率的なエッジモデル生成を実現するために,事前学習型オンクラウドモデルエラスティフィケーション法とエッジフレンドリーなオンデバイスアーキテクチャ探索法を導入する。 モデルエラスタフィケーションは、開発者が特定したoracleモデルのガイダンスに従って、モデルアーキテクチャの高品質な検索空間を生成する。 空間内の各サブネットは、異なる環境親和性を持つ有効なモデルであり、各デバイスは、一連のエッジ調整最適化に基づいて、最も適切なサブネットを効率的に見つけて維持する。 様々なエッジデバイスでの広範囲な実験により、我々のアプローチは、最小のオーバーヘッド(クラウドで13gpu時間、エッジサーバーで2分)を持つ強力なベースラインよりも、精度とレイテンシのトレードオフ(平均精度で46.74\%、レイテンシー予算で60\%)が大幅に向上できることが示されました。

Deep learning models are increasingly deployed to edge devices for real-time applications. To ensure stable service quality across diverse edge environments, it is highly desirable to generate tailored model architectures for different conditions. However, conventional pre-deployment model generation approaches are not satisfactory due to the difficulty of handling the diversity of edge environments and the demand for edge information. In this paper, we propose to adapt the model architecture after deployment in the target environment, where the model quality can be precisely measured and private edge data can be retained. To achieve efficient and effective edge model generation, we introduce a pretraining-assisted on-cloud model elastification method and an edge-friendly on-device architecture search method. Model elastification generates a high-quality search space of model architectures with the guidance of a developer-specified oracle model. Each subnet in the space is a valid model with different environment affinity, and each device efficiently finds and maintains the most suitable subnet based on a series of edge-tailored optimizations. Extensive experiments on various edge devices demonstrate that our approach is able to achieve significantly better accuracy-latency tradeoffs (e.g. 46.74\% higher on average accuracy with a 60\% latency budget) than strong baselines with minimal overhead (13 GPU hours in the cloud and 2 minutes on the edge server).
翻訳日:2023-03-14 14:41:35 公開日:2023-03-13
# vmcdl: ソース制御フロー下のカスケードディープラーニングに基づく脆弱性マイニング

VMCDL: Vulnerability Mining Based on Cascaded Deep Learning Under Source Control Flow ( http://arxiv.org/abs/2303.07128v1 )

ライセンス: Link先を確認
Wen Zhou(参考訳) コンピュータ産業とコンピュータソフトウェアの急速な発展により、ソフトウェアの脆弱性が悪用されるリスクは大きく増大した。 しかし、漏洩源調査のための既存の鉱業技術には、高い誤報率、粗粒度検出、専門家の経験への依存など、多くの欠点がある。 本稿では,主にSARDデータセットのc/c++ソースコードデータを使用し,CWE476,CWE469,CWE516,CWE570脆弱性型のソースコードを処理し,最先端ツールのJoern脆弱性スキャン機能をテストするとともに,ソースコード制御フローに基づく新たなカスケード深層学習モデルVMCDLを提案する。 まず,感性のある関数や文の探索と抽出にJoernを用い,脆弱なコードの文ライブラリを形成する。 そして、CFGフロー脆弱性コードスニペットを双方向の幅優先トラバーサルで生成し、Doc2vecでベクトル化する。 最後に、ソースコード制御フローに基づくカスケードディープラーニングモデルを用いて分類を行い、分類結果を得る。 実験評価では,特定の脆弱性についてJoernのテスト結果を与え,単一脆弱性型ソースコード上でモデルアルゴリズムのバイナリ分類結果の混乱行列とラベルデータを与え,FPR,FNR,ACC,P,F1の5指標をそれぞれ10.30%,520%,92.50%,85.10%,85.40%とし,静的解析の誤報率を効果的に低減できることを示した。

With the rapid development of the computer industry and computer software, the risk of software vulnerabilities being exploited has greatly increased. However, there are still many shortcomings in the existing mining techniques for leakage source research, such as high false alarm rate, coarse-grained detection, and dependence on expert experience. In this paper, we mainly use the c/c++ source code data of the SARD dataset, process the source code of CWE476, CWE469, CWE516 and CWE570 vulnerability types, test the Joern vulnerability scanning function of the cutting-edge tool, and propose a new cascading deep learning model VMCDL based on source code control flow to effectively detect vulnerabilities. First, this paper uses joern to locate and extract sensitive functions and statements to form a sensitive statement library of vulnerable code. Then, the CFG flow vulnerability code snippets are generated by bidirectional breadth-first traversal, and then vectorized by Doc2vec. Finally, the cascade deep learning model based on source code control flow is used for classification to obtain the classification results. In the experimental evaluation, we give the test results of Joern on specific vulnerabilities, and give the confusion matrix and label data of the binary classification results of the model algorithm on single vulnerability type source code, and compare and verify the five indicators of FPR, FNR, ACC, P and F1, respectively reaching 10.30%, 5.20%, 92.50%,85.10% and 85.40%,which shows that it can effectively reduce the false alarm rate of static analysis.
翻訳日:2023-03-14 14:41:10 公開日:2023-03-13
# メタ学習最適化による物理形ニューラルネットワークの改良

Improving physics-informed neural networks with meta-learned optimization ( http://arxiv.org/abs/2303.07127v1 )

ライセンス: Link先を確認
Alex Bihlo(参考訳) 本稿では,従来の定型手作りオプティマイザではなく,メタ学習最適化法を用いて,差分方程式系を解くための物理インフォームドニューラルネットワークを用いた誤差を大幅に低減できることを示す。 微分方程式の特定のクラスに対してメタ訓練された浅い多層パーセプトロンに基づく学習可能な最適化法を選択する。 本稿では,線形随伴方程式,ポアソン方程式,コルテウェグ・ド・ブリース方程式,バーガーズ方程式など,数理物理学における実用的妥当性の方程式に対するメタトレーニング最適化について述べる。 また,ある微分方程式上のメタ学習オプティマイザが別の微分方程式上でもうまく展開できることから,メタ学習オプティマイザがトランスファー学習能力を示すことも示す。

We show that the error achievable using physics-informed neural networks for solving systems of differential equations can be substantially reduced when these networks are trained using meta-learned optimization methods rather than to using fixed, hand-crafted optimizers as traditionally done. We choose a learnable optimization method based on a shallow multi-layer perceptron that is meta-trained for specific classes of differential equations. We illustrate meta-trained optimizers for several equations of practical relevance in mathematical physics, including the linear advection equation, Poisson's equation, the Korteweg--de Vries equation and Burgers' equation. We also illustrate that meta-learned optimizers exhibit transfer learning abilities, in that a meta-trained optimizer on one differential equation can also be successfully deployed on another differential equation.
翻訳日:2023-03-14 14:40:36 公開日:2023-03-13
# 幾何学的深層学習のための等質空間上の等変畳み込み核の計算法

An elementary method to compute equivariant convolutional kernels on homogeneous spaces for geometric deep learning ( http://arxiv.org/abs/2303.07157v1 )

ライセンス: Link先を確認
Vincent Knibbeler(参考訳) 我々は、リー群の同次空間からこの群の加群への同変写像の空間を計算する基本的な方法を開発する。 リー群はコンパクトである必要はない。 より一般に、同次ベクトル束における不変部分の空間について研究し、ファイバーが代数である場合に特別な関心を持つ。 後者の場合、自然な大域代数構造を持つ。 我々は、同次空間がコンパクトな安定化子を持つ場合に生じる自己同型代数を分類する。 この研究は幾何学的深層学習の理論的な発展や自己同型リー代数の理論にも応用できる。

We develop an elementary method to compute spaces of equivariant maps from a homogeneous space of a Lie group to a module of this group. The Lie group is not required to be compact. More generally we study spaces of invariant sections in homogeneous vector bundles, and take a special interest in the case where the fibres are algebras. This latter case has a natural global algebra structure. We classify the resulting automorphic algebras for the case where the homogeneous space has compact stabilisers. This work has applications in the theoretical development of geometric deep learning and also in the theory of automorphic Lie algebras.
翻訳日:2023-03-14 14:34:57 公開日:2023-03-13
# ガウス状態の量子最大相関

Quantum Maximal Correlation for Gaussian States ( http://arxiv.org/abs/2303.07155v1 )

ライセンス: Link先を確認
Salman Beigi, Saleh Rahimi-Keshari(参考訳) 連続変数系の二分項ガウス状態に対する量子最大相関を計算する。 量子最大相関 (quantum maximal correlation) は、局所状態変換問題(英語版)として知られる古典的な通信なしで、資源状態の任意の数のコピーが標的状態に局所的に変換できるかどうかを研究するために用いられる、単調性とテンソル化特性との相関の尺度である。 ガウス状態の量子極大相関を計算するために必要な最適化は、位相空間二次作用素の観点から線形な局所作用素に制限できることを示した。 これにより、ガウス状態の共分散行列の観点から、量子最大相関に対する閉形式式を導出することができる。 さらに,局所ホモダイン測定に付随する位相空間二次作用素の観点から線形な局所エルミート作用素のクラスを考慮し,ガウスの最大相関を定義する。 この尺度はテンソル化特性を満足し、資源状態と対象状態の両方がガウス状態であるときに局所状態変換問題のガウス版に使用できる。 また、これらの測度をマルチパーティイトケースに一般化する。 具体的には、量子最大相関リボンを定義し、マルチパーティイトガウス状態に特徴付ける。

We compute the quantum maximal correlation for bipartite Gaussian states of continuous-variable systems. Quantum maximal correlation is a measure of correlation with the monotonicity and tensorization properties that can be used to study whether an arbitrary number of copies of a resource state can be locally transformed into a target state without classical communication, known as the local state transformation problem. We show that the required optimization for computing the quantum maximal correlation of Gaussian states can be restricted to local operators that are linear in terms of phase-space quadrature operators. This allows us to derive a closed-form expression for the quantum maximal correlation in terms of the covariance matrix of Gaussian states. Moreover, we define Gaussian maximal correlation based on considering the class of local hermitian operators that are linear in terms of phase-space quadrature operators associated with local homodyne measurements. This measure satisfies the tensorization property and can be used for the Gaussian version of the local state transformation problem when both resource and target states are Gaussian. We also generalize these measures to the multipartite case. Specifically, we define the quantum maximal correlation ribbon and then characterize it for multipartite Gaussian states.
翻訳日:2023-03-14 14:34:48 公開日:2023-03-13
# 異種良腕識別

Differential Good Arm Identification ( http://arxiv.org/abs/2303.07154v1 )

ライセンス: Link先を確認
Yun-Da Tsai, Tzu-Hsien Tsai, Shou-De Lin(参考訳) 本稿では,GAIと呼ばれる確率的マルチアームバンディット問題の変種を対象とする。 GAIは純粋な探索用バンディット問題であり、できるだけ多くの良い腕をできるだけ少ないサンプルで出力することを目的としており、良い腕は期待される報酬が与えられた閾値より大きい腕として定義される。 本研究では,データ駆動方式で最新のhdocアルゴリズムのサンプル複雑性を改善するための,微分可能な優れたアーム識別アルゴリズムであるdgaiを提案する。 また,DGAIは,アームセットに対する事前知識のしきい値から,汎用マルチアームバンディット(MAB)問題の性能をさらに向上させることができることを示した。 GAIタスクとMABタスクの両方の合成および実世界のデータセットにおいて,我々のアルゴリズムがベースラインアルゴリズムよりも有意に優れていることを確認した。

This paper targets a variant of the stochastic multi-armed bandit problem called good arm identification (GAI). GAI is a pure-exploration bandit problem with the goal to output as many good arms using as few samples as possible, where a good arm is defined as an arm whose expected reward is greater than a given threshold. In this work, we propose DGAI - a differentiable good arm identification algorithm to improve the sample complexity of the state-of-the-art HDoC algorithm in a data-driven fashion. We also showed that the DGAI can further boost the performance of a general multi-arm bandit (MAB) problem given a threshold as a prior knowledge to the arm set. Extensive experiments confirm that our algorithm outperform the baseline algorithms significantly in both synthetic and real world datasets for both GAI and MAB tasks.
翻訳日:2023-03-14 14:34:31 公開日:2023-03-13
# sa-cnn:シミュレーションアニーリングに基づく畳み込みニューラルネットワーク最適化によるテキスト分類問題への応用

SA-CNN: Application to text categorization issues using simulated annealing-based convolutional neural network optimization ( http://arxiv.org/abs/2303.07153v1 )

ライセンス: Link先を確認
Zihao Guo and Yueying Cao(参考訳) 畳み込みニューラルネットワーク(英: Convolutional Neural Network, CNN)は、階層構造に基づく入力データの翻訳不変分類を行う畳み込み計算を含むディープラーニングアルゴリズムの代表クラスである。 しかし、古典的畳み込みニューラルネットワーク学習法は、トレーニングに最も急降下アルゴリズムを使用し、学習性能は、畳み込み層と完全連結層の初期重み設定に大きく影響され、異なるモデル構造とデータの下でより良いパフォーマンスを達成するために、再学習を必要とする。 グローバルサーチにおけるシミュレーションアニーリングアルゴリズムの強みを組み合わせることで,畳み込みニューラルネットワーク(CNN)の有効性を高めるために,ハイパーパラメータ探索プロセスに適用することを提案する。 本稿では,テキスト分類タスクを対象としたSA-CNNニューラルネットワークを導入し,ハイパーパラメータ探索のためのシミュレーションアニーリングアルゴリズムを実装した。 実験により、手動チューニングによる従来のモデルよりも高い分類精度が達成できることが示され、人間のチューニングに対する探索の時間と空間の改善が顕著である。

Convolutional neural networks (CNNs) are a representative class of deep learning algorithms including convolutional computation that perform translation-invariant classification of input data based on their hierarchical architecture. However, classical convolutional neural network learning methods use the steepest descent algorithm for training, and the learning performance is greatly influenced by the initial weight settings of the convolutional and fully connected layers, requiring re-tuning to achieve better performance under different model structures and data. Combining the strengths of the simulated annealing algorithm in global search, we propose applying it to the hyperparameter search process in order to increase the effectiveness of convolutional neural networks (CNNs). In this paper, we introduce SA-CNN neural networks for text classification tasks based on Text-CNN neural networks and implement the simulated annealing algorithm for hyperparameter search. Experiments demonstrate that we can achieve greater classification accuracy than earlier models with manual tuning, and the improvement in time and space for exploration relative to human tuning is substantial.
翻訳日:2023-03-14 14:34:20 公開日:2023-03-13
# スコア攻撃: 最適な差分学習のための低境界手法

Score Attack: A Lower Bound Technique for Optimal Differentially Private Learning ( http://arxiv.org/abs/2303.07152v1 )

ライセンス: Link先を確認
T. Tony Cai, Yichen Wang, Linjun Zhang(参考訳) 個人データのプライバシーを確保しながら最適な統計性能を達成することは、現代のデータ分析において難しいが重要な目標である。 しかし、プライバシー制約の下で最適性、特にミニマックスの低い境界を特徴づけるのは技術的に難しい。 この問題に対処するため,スコアアタックと呼ばれる新しい手法を提案し,パラメータ推定の差分プライバシに制約されたミニマックスリスクを低く抑える。 スコアアタック法は差分プライバシーにおけるトレースアタックの概念に基づいており、よく定義されたスコア統計量を持つ任意の統計モデルに適用することができる。 様々な統計問題に対する差分プライバシーを確保しながら、未知のモデルパラメータを推定する最小限のリスクを対数係数まで最適に下げることができる。 古典的および高次元スパース設定における一般化線形モデル、ペア比較のためのブラッドリー・テリー・リュックモデル、ソボレフクラス上の非パラメトリック回帰など、この一般的な手法の有効性と最適性を示す。

Achieving optimal statistical performance while ensuring the privacy of personal data is a challenging yet crucial objective in modern data analysis. However, characterizing the optimality, particularly the minimax lower bound, under privacy constraints is technically difficult. To address this issue, we propose a novel approach called the score attack, which provides a lower bound on the differential-privacy-constrained minimax risk of parameter estimation. The score attack method is based on the tracing attack concept in differential privacy and can be applied to any statistical model with a well-defined score statistic. It can optimally lower bound the minimax risk of estimating unknown model parameters, up to a logarithmic factor, while ensuring differential privacy for a range of statistical problems. We demonstrate the effectiveness and optimality of this general method in various examples, such as the generalized linear model in both classical and high-dimensional sparse settings, the Bradley-Terry-Luce model for pairwise comparisons, and nonparametric regression over the Sobolev class.
翻訳日:2023-03-14 14:34:01 公開日:2023-03-13
# Am'elioration de la qualit\e d'images avec un algorithme d'optimisation inspir\ee par la nature

Am\'elioration de la qualit\'e d'images avec un algorithme d'optimisation inspir\'ee par la nature ( http://arxiv.org/abs/2303.07151v1 )

ライセンス: Link先を確認
Olivier Parisot and Thomas Tamisier(参考訳) 再現可能な画像前処理は、コンピュータビジョン、効率的なアルゴリズム比較、新しい画像コーパスの準備において重要である。 本稿では,品質評価手法に基づいて,自然に着想を得た最適化アルゴリズムを用いて,与えられた画像を改善するための明示的かつ順序付けられた変換列を得る手法を提案する。 予備的なテストは、アプローチがさまざまな最先端データセットに与える影響を示している。 -l'application de pr\'etraitements explicites et reproductibles est fondamentale dans le domaine de la vision par ordinateur, pour pouvoir comparisonr efficacement des algorithmes ou pour pr\'eparer un nouveau corpus d'images Dans cet article, nous proposons une m\'ethode pour obtenir une s\'equence reproductible de transformations qui am\'eliore une image donn\'ee: le calcul est r\'ealis\'e via un algorithme d'optimisation inspir\'ee par la nature et bas\'e sur des techniques d'\evaluation de la qualit\'e。 Des test montrent l'impact de l'approche sur diff\'erents mbles d'images de l'\etat de l'art。

Reproducible images preprocessing is important in the field of computer vision, for efficient algorithms comparison or for new images corpus preparation. In this paper, we propose a method to obtain an explicit and ordered sequence of transformations that improves a given image: the computation is performed via a nature-inspired optimization algorithm based on quality assessment techniques. Preliminary tests show the impact of the approach on different state-of-the-art data sets. -- L'application de pr\'etraitements explicites et reproductibles est fondamentale dans le domaine de la vision par ordinateur, pour pouvoir comparer efficacement des algorithmes ou pour pr\'eparer un nouveau corpus d'images. Dans cet article, nous proposons une m\'ethode pour obtenir une s\'equence reproductible de transformations qui am\'eliore une image donn\'ee: le calcul est r\'ealis\'e via un algorithme d'optimisation inspir\'ee par la nature et bas\'e sur des techniques d'\'evaluation de la qualit\'e. Des tests montrent l'impact de l'approche sur diff\'erents ensembles d'images de l'\'etat de l'art.
翻訳日:2023-03-14 14:33:42 公開日:2023-03-13
# Multi PILOT:動的MRIのための学習可能な多重取得軌跡

Multi PILOT: Learned Feasible Multiple Acquisition Trajectories for Dynamic MRI ( http://arxiv.org/abs/2303.07150v1 )

ライセンス: Link先を確認
Tamir Shor, Tomer Weiss, Dor Noti, Alex Bronstein(参考訳) dynamic magnetic resonance imaging(mri)は、内部臓器や組織の動的イメージングのための強力で信頼性の高い技術として知られ、主要な診断ツールとなっている。 この設定でMRIを使用する際の大きな困難は、高時空間分解能の撮像に必要な比較的長い取得時間(およびそれによるコストの増加)であり、関連する運動アーティファクトの出現と分解能の低下につながる。 圧縮センシング(CS)技術は,k空間における画像のサブサンプリングによってMRI取得時間を短縮するための一般的なツールとなっている。 いくつかの研究は、事前に定義された軌跡のセットを使用するのではなく、より優れた画像再構成を実現するために、これらの取得軌跡を学習するためにディープラーニング技術を適用することに重点を置いている。 我々の知る限りでは、学習獲得軌道は静的MRIの文脈でのみ探索されている。 本研究では,ダイナミックイメージング環境における獲得軌跡学習について考察する。 我々は,複数フレーム毎の取得経路と再構成ニューラルネットワークを併用したエンドツーエンドパイプラインを設計し,より短い取得時間で画像再構成品質の向上を示す。 すべての実験を再現するコードは、https://github.com/tamirshor7/multipilot.comから利用できる。

Dynamic Magnetic Resonance Imaging (MRI) is known to be a powerful and reliable technique for the dynamic imaging of internal organs and tissues, making it a leading diagnostic tool. A major difficulty in using MRI in this setting is the relatively long acquisition time (and, hence, increased cost) required for imaging in high spatio-temporal resolution, leading to the appearance of related motion artifacts and decrease in resolution. Compressed Sensing (CS) techniques have become a common tool to reduce MRI acquisition time by subsampling images in the k-space according to some acquisition trajectory. Several studies have particularly focused on applying deep learning techniques to learn these acquisition trajectories in order to attain better image reconstruction, rather than using some predefined set of trajectories. To the best of our knowledge, learning acquisition trajectories has been only explored in the context of static MRI. In this study, we consider acquisition trajectory learning in the dynamic imaging setting. We design an end-to-end pipeline for the joint optimization of multiple per-frame acquisition trajectories along with a reconstruction neural network, and demonstrate improved image reconstruction quality in shorter acquisition times. The code for reproducing all experiments is accessible at https://github.com/tamirshor7/MultiPILOT.
翻訳日:2023-03-14 14:32:46 公開日:2023-03-13
# 因果性のトポロジー

The Topology of Causality ( http://arxiv.org/abs/2303.07148v1 )

ライセンス: Link先を確認
Stefano Gogioso and Nicola Pinzani(参考訳) 完全デバイス非依存・理論非依存の環境で因果関係、非局所性、文脈性を研究するための統一的な運用フレームワークを提供する。 私たちの研究は、Abramsky と Brandenburger による文脈性に関する層理論の枠組みに根ざしており、任意の因果順序(定性、動的、不定)を含むように拡張されている。 入力履歴の任意の空間に対する因果関数の概念を定義し,共役出力に対する因果制約の明示的な付与は入力履歴の先端イベントに対する局所出力の自由割り当てと等価であることを示す。 基底空間の並列, 逐次, 条件付きシーケンシャル合成における因果関数の因子化結果を証明する。 我々は、因果性が基礎空間上の低集合位相に関して連続性に等しいことを証明し、開部分空間上で定義される部分因果函数がプレシェフにバンドル可能であることを示す。 しかし、アブラムスキー・ブランデンブルクのセッティングから著しく離れたところでは、ある状況下で因果関数が棚を形成するのに失敗することを示す。 経験的モデルは、入力履歴の基底空間の任意の開被覆に対して、因果関数上の確率分布の前層における互換族として定義する。 因果的文脈性(causally-induced contextity)の存在を示す。因果的制約自体が文脈依存になるときに生じる現象であり、静的と動的の両方の順序において非局所性に対するno-go結果が証明される。

We provide a unified operational framework for the study of causality, non-locality and contextuality, in a fully device-independent and theory-independent setting. Our work has its roots in the sheaf-theoretic framework for contextuality by Abramsky and Brandenburger, which it extends to include arbitrary causal orders (be they definite, dynamical or indefinite). We define a notion of causal function for arbitrary spaces of input histories, and we show that the explicit imposition of causal constraints on joint outputs is equivalent to the free assignment of local outputs to the tip events of input histories. We prove factorisation results for causal functions over parallel, sequential, and conditional sequential compositions of the underlying spaces. We prove that causality is equivalent to continuity with respect to the lowerset topology on the underlying spaces, and we show that partial causal functions defined on open sub-spaces can be bundled into a presheaf. In a striking departure from the Abramsky-Brandenburger setting, however, we show that causal functions fail, under certain circumstances, to form a sheaf. We define empirical models as compatible families in the presheaf of probability distributions on causal functions, for arbitrary open covers of the underlying space of input histories. We show the existence of causally-induced contextuality, a phenomenon arising when the causal constraints themselves become context-dependent, and we prove a no-go result for non-locality on total orders, both static and dynamical.
翻訳日:2023-03-14 14:32:23 公開日:2023-03-13
# NeuroQL: オブジェクト間推論のためのニューロシンボリック言語とデータセット

NeuroQL: A Neuro-Symbolic Language and Dataset for Inter-Subjective Reasoning ( http://arxiv.org/abs/2303.07146v1 )

ライセンス: Link先を確認
Nick Papoulias(参考訳) 目的間推論のための新しいAIタスクとベースラインソリューションを提案する。 主観的情報と主観的情報の混合として、目的間情報を定義する。 例えば、IR(Information Retrieval)システムによって報告されている商品とその客観的特性は、オンラインフォーラムの主観的ユーザレビューと相互参照する必要がある。 AIシステムが両方をうまく推理するには、客観的事実の象徴的な推論と、主観的ユーザレビューに見られる共通コンセンサスを組み合わせる必要がある。 この目的のために、この問題のベースラインソリューションとしてNeuroQLデータセットとDSL(Domain-specific Language)を紹介します。 NeuroQLはニューロシンボリック言語で、抽出と検索のために神経プリミティブと論理的統一性を拡張する。 自然言語で表される)主語間質問を、それらに答える神経シンボリックなコードに自動翻訳するターゲットとして機能する。

We present a new AI task and baseline solution for Inter-Subjective Reasoning. We define inter-subjective information, to be a mixture of objective and subjective information possibly shared by different parties. Examples may include commodities and their objective properties as reported by IR (Information Retrieval) systems, that need to be cross-referenced with subjective user reviews from an online forum. For an AI system to successfully reason about both, it needs to be able to combine symbolic reasoning of objective facts with the shared consensus found on subjective user reviews. To this end we introduce the NeuroQL dataset and DSL (Domain-specific Language) as a baseline solution for this problem. NeuroQL is a neuro-symbolic language that extends logical unification with neural primitives for extraction and retrieval. It can function as a target for automatic translation of inter-subjective questions (posed in natural language) into the neuro-symbolic code that can answer them.
翻訳日:2023-03-14 14:31:54 公開日:2023-03-13
# 空間領域によるマルチマイクロホン話者分離

Multi-Microphone Speaker Separation by Spatial Regions ( http://arxiv.org/abs/2303.07143v1 )

ライセンス: Link先を確認
Julian Wechsler, Srikanth Raj Chetupalli, Wolfgang Mack, Emanu\"el A. P. Habets(参考訳) 残響マルチマイクロホン記録の領域ベース音源分離の課題について検討する。 各領域ごとに単一のアクティブソースを持つ事前定義された空間領域を仮定する。 本研究の目的は,信号と空間領域の対応性を保ちつつ,参照マイクロホンが捉えた個々の空間領域からの信号を推定することである。 本稿では,異なるレイヤが空間情報と分光時間情報をモデル化する,最先端ネットワークの修正版を用いたデータ駆動型アプローチを提案する。 ネットワークは、ネットワーク出力に一定の領域のマッピングを強制するように訓練される。 LibriMixの音声を用いて、地域情報を含むように設計されたデータセットを構築する。 さらに、置換不変のトレーニングでネットワークをトレーニングする。 両トレーニング手法は,ネットワーク出力に対する領域の固定マッピングを行い,同等の性能を実現し,ネットワークが空間情報を利用することを示す。 提案したネットワークは、1.5dBのベースラインネットワークをスケール不変の信号-歪み比で上回る。

We consider the task of region-based source separation of reverberant multi-microphone recordings. We assume pre-defined spatial regions with a single active source per region. The objective is to estimate the signals from the individual spatial regions as captured by a reference microphone while retaining a correspondence between signals and spatial regions. We propose a data-driven approach using a modified version of a state-of-the-art network, where different layers model spatial and spectro-temporal information. The network is trained to enforce a fixed mapping of regions to network outputs. Using speech from LibriMix, we construct a data set specifically designed to contain the region information. Additionally, we train the network with permutation invariant training. We show that both training methods result in a fixed mapping of regions to network outputs, achieve comparable performance, and that the networks exploit spatial information. The proposed network outperforms a baseline network by 1.5 dB in scale-invariant signal-to-distortion ratio.
翻訳日:2023-03-14 14:31:39 公開日:2023-03-13
# 移動学習による交通予測:相互情報に基づくアプローチ

Traffic Prediction with Transfer Learning: A Mutual Information-based Approach ( http://arxiv.org/abs/2303.07184v1 )

ライセンス: Link先を確認
Yunjie Huang, Xiaozhuang Song, Yuanshao Zhu, Shiyao Zhang and James J.Q. Yu(参考訳) 現代の交通管理において、最も重要でありながら困難なタスクの1つは、正確かつタイムリーなトラフィック予測である。 交通データにおける時空間関係を利用する場合,深層学習に基づく時空間モデルには限界があると考えられる。 通常、データ駆動モデルは膨大なデータを必要とするが、機器の配備やメンテナンスコストといった制約のため、小さな都市でデータを集めることは困難である。 この問題を解決するために,他の都市からのビッグデータを用いて交通予測を行う都市間交通予測手法であるTrafficTLを提案する。 周期性に基づく転送パラダイムを用いることで、データ類似性を識別し、離れた都市の2つのデータ分布の相違に起因する負の転送を低減する。 さらに, 提案手法では, 小都市からのデータの欠陥の修正にグラフ再構成を用いる。 TrafficTLは3つの実世界のデータセットの包括的なケーススタディによって評価され、最先端のベースラインを約8~25%上回る。

In modern traffic management, one of the most essential yet challenging tasks is accurately and timely predicting traffic. It has been well investigated and examined that deep learning-based Spatio-temporal models have an edge when exploiting Spatio-temporal relationships in traffic data. Typically, data-driven models require vast volumes of data, but gathering data in small cities can be difficult owing to constraints such as equipment deployment and maintenance costs. To resolve this problem, we propose TrafficTL, a cross-city traffic prediction approach that uses big data from other cities to aid data-scarce cities in traffic prediction. Utilizing a periodicity-based transfer paradigm, it identifies data similarity and reduces negative transfer caused by the disparity between two data distributions from distant cities. In addition, the suggested method employs graph reconstruction techniques to rectify defects in data from small data cities. TrafficTL is evaluated by comprehensive case studies on three real-world datasets and outperforms the state-of-the-art baseline by around 8 to 25 percent.
翻訳日:2023-03-14 14:24:43 公開日:2023-03-13
# モバイルマッピングメッシュの変更検出と更新

Mobile Mapping Mesh Change Detection and Update ( http://arxiv.org/abs/2303.07182v1 )

ライセンス: Link先を確認
Teng Wu, Bruno Vallet, C\'edric Demonceaux(参考訳) モバイルマッピング、特にモバイルライダースキャン(MLS)は、都市スケールの都市シーンを前例のない解像度と精度で監視し、地図化するために急速に普及している。 得られたシーン幾何のポイントクラウドサンプリングは、視覚化、シミュレーション、ナビゲーションなど、さまざまなアプリケーションのための連続表現を作成するためにメッシュ化することができる。 これらの都市景観の非常にダイナミックな性質のため、長期マッピングは頻繁な地図更新に依存するべきである。 簡単な解決策は、新しい買収が行われる度に、古いデータを新しいデータに置き換えることである。 ただし、欠点は2つある。 1)旧データは,新データより高品質(解像度,精度)である可能性がある 2) シーンのカバー範囲は, 様々なオクルージョンを含む, 様々な買収において異なる可能性がある。 本稿では,メッシュを異なる品質,カバレッジ,取得時間でマージする問題を定式化することにより,これら2つの問題に対処するための完全自動パイプラインを提案する。 提案手法は, 距離と可視性を組み合わせた変化検出, 変化持続性を評価する時系列解析, グローバルブール最適化に基づくメッシュモザイク化, 最終的に得られたメッシュピース境界を三角形のストリップで縫い合わせることに基づく。 最後に,robotcar と stereopolis データセットを用いて本手法を実証する。

Mobile mapping, in particular, Mobile Lidar Scanning (MLS) is increasingly widespread to monitor and map urban scenes at city scale with unprecedented resolution and accuracy. The resulting point cloud sampling of the scene geometry can be meshed in order to create a continuous representation for different applications: visualization, simulation, navigation, etc. Because of the highly dynamic nature of these urban scenes, long term mapping should rely on frequent map updates. A trivial solution is to simply replace old data with newer data each time a new acquisition is made. However it has two drawbacks: 1) the old data may be of higher quality (resolution, precision) than the new and 2) the coverage of the scene might be different in various acquisitions, including varying occlusions. In this paper, we propose a fully automatic pipeline to address these two issues by formulating the problem of merging meshes with different quality, coverage and acquisition time. Our method is based on a combined distance and visibility based change detection, a time series analysis to assess the sustainability of changes, a mesh mosaicking based on a global boolean optimization and finally a stitching of the resulting mesh pieces boundaries with triangle strips. Finally, our method is demonstrated on Robotcar and Stereopolis datasets.
翻訳日:2023-03-14 14:24:27 公開日:2023-03-13
# 自然運転のための確率的不確実性認識リスクスポット検出

Probabilistic Uncertainty-Aware Risk Spot Detector for Naturalistic Driving ( http://arxiv.org/abs/2303.07181v1 )

ライセンス: Link先を確認
Tim Puphal, Malte Probst and Julian Eggert(参考訳) リスクアセスメントは自動運転車(av)の開発と検証の中心的な要素である。 将来の臨界事象の発生確率と深刻度を組み合わせたものである。 Time Headway (TH) や Time-To-Contact (TTC) は一般的にリスクメトリクスとして使われ、発生確率と質的な関係を持つ。 しかし、理論的な導出が欠如しており、また特別な交通シナリオ(例えば単車ペア間の追従など)のみをカバーするように設計されている。 本稿では、生存分析に基づく確率論的状況リスクモデルを提案し、現実のシナリオで発生する感覚・時間的・行動的不確実性を自然に組み込むよう拡張する。 得られたリスクスポット検出器(rsd)を複数の交差点を有する多車線のブールバードの自然駆動データに適用してテストし、道路臨界マップの可視化を可能にした。 TH と TTC と比較して,我々のアプローチはより選択的であり,リスクを予測する上で特異である。 RSDは、大きな加速と減速または高速なアプローチが発生する高車両密度の駆動区間に集中する。

Risk assessment is a central element for the development and validation of Autonomous Vehicles (AV). It comprises a combination of occurrence probability and severity of future critical events. Time Headway (TH) as well as Time-To-Contact (TTC) are commonly used risk metrics and have qualitative relations to occurrence probability. However, they lack theoretical derivations and additionally they are designed to only cover special types of traffic scenarios (e.g. following between single car pairs). In this paper, we present a probabilistic situation risk model based on survival analysis considerations and extend it to naturally incorporate sensory, temporal and behavioral uncertainties as they arise in real-world scenarios. The resulting Risk Spot Detector (RSD) is applied and tested on naturalistic driving data of a multi-lane boulevard with several intersections, enabling the visualization of road criticality maps. Compared to TH and TTC, our approach is more selective and specific in predicting risk. RSD concentrates on driving sections of high vehicle density where large accelerations and decelerations or approaches with high velocity occur.
翻訳日:2023-03-14 14:24:08 公開日:2023-03-13
# ラベル誘導マスクとカテゴリ認識トランスフォーマによる不完全多視点マルチラベル学習

Incomplete Multi-View Multi-Label Learning via Label-Guided Masked View- and Category-Aware Transformers ( http://arxiv.org/abs/2303.07180v1 )

ライセンス: Link先を確認
Chengliang Liu, Jie Wen, Xiaoling Luo, Yong Xu(参考訳) マルチビューデータの方がシングルビューデータよりも表現力が高く、マルチラベルアノテーションはシングルラベルよりもリッチな監視情報を楽しむため、多ビューマルチラベル学習は様々なパターン認識タスクに広く適用できる。 この複雑な表現学習問題では、次の3つの主な課題を特徴付けることができる。 一 すべての視点でサンプルの一貫性のある表現を学習する方法 ii)マルチラベルのカテゴリ相関を利用して推論を導く方法 iii)ビューやラベルの不完全性から生じるネガティブな影響を避けるには? 本稿では,この問題を解決するために,ラベルガイド付きマスキングビューとカテゴリ認識トランスフォーマと呼ばれる汎用マルチビューマルチラベル学習フレームワークを提案する。 まず,クロスビュー機能アグリゲーションとマルチラベル分類のためのトランスフォーマティブ型モジュールを2つ設計した。 前者はビュー固有の特徴を抽出する過程で異なるビューから情報を集約し、後者は分類性能を改善するためにサブカテゴリ埋め込みを学習する。 次に,ビュー間の表現力の不均衡を考慮した適応重み付きビュー融合モジュールを提案する。 第3に,教師付き情報の利用を最大化するために,サンプルレベル表現学習におけるラベル多様体の制約を課す。 最後に、全てのモジュールは不完全なビューとラベルの前提で設計されており、メソッドは任意のマルチビューとマルチラベルのデータに適応できる。 5つのデータセットに対する大規模な実験により、我々の手法は他の最先端手法よりも明確な利点があることが確認された。

As we all know, multi-view data is more expressive than single-view data and multi-label annotation enjoys richer supervision information than single-label, which makes multi-view multi-label learning widely applicable for various pattern recognition tasks. In this complex representation learning problem, three main challenges can be characterized as follows: i) How to learn consistent representations of samples across all views? ii) How to exploit and utilize category correlations of multi-label to guide inference? iii) How to avoid the negative impact resulting from the incompleteness of views or labels? To cope with these problems, we propose a general multi-view multi-label learning framework named label-guided masked view- and category-aware transformers in this paper. First, we design two transformer-style based modules for cross-view features aggregation and multi-label classification, respectively. The former aggregates information from different views in the process of extracting view-specific features, and the latter learns subcategory embedding to improve classification performance. Second, considering the imbalance of expressive power among views, an adaptively weighted view fusion module is proposed to obtain view-consistent embedding features. Third, we impose a label manifold constraint in sample-level representation learning to maximize the utilization of supervised information. Last but not least, all the modules are designed under the premise of incomplete views and labels, which makes our method adaptable to arbitrary multi-view and multi-label data. Extensive experiments on five datasets confirm that our method has clear advantages over other state-of-the-art methods.
翻訳日:2023-03-14 14:23:51 公開日:2023-03-13
# 深層ニューラルネットワークにおける視覚数識別の評価

Evaluating Visual Number Discrimination in Deep Neural Networks ( http://arxiv.org/abs/2303.07172v1 )

ライセンス: Link先を確認
Ivana Kaji\'c and Aida Nematzadeh(参考訳) 大量と少量の区別能力は、人間と動物の両方において基本的な数値的能力の中核である。 本研究では,視覚のために設計された最先端のニューラルネットワークが,この基本的な能力を示す程度について検討する。 動物および幼児の数値認知の研究によって動機付けられ, 神経アーキテクチャの異なる家系の数値識別試験に数値二分法を用いた。 以上の結果から,視覚特異的帰納的バイアスは,タスク上でのテスト誤差が最小であり,人間や動物と定性的に類似した心理測定曲線を持つことが示唆された。 しかし、性能の標準的な指標で測定された最強のモデルでさえ、異なる訓練と試験条件で伝達実験の量を識別することができず、そのような誘導バイアスが不十分であることを示している。

The ability to discriminate between large and small quantities is a core aspect of basic numerical competence in both humans and animals. In this work, we examine the extent to which the state-of-the-art neural networks designed for vision exhibit this basic ability. Motivated by studies in animal and infant numerical cognition, we use the numerical bisection procedure to test number discrimination in different families of neural architectures. Our results suggest that vision-specific inductive biases are helpful in numerosity discrimination, as models with such biases have lowest test errors on the task, and often have psychometric curves that qualitatively resemble those of humans and animals performing the task. However, even the strongest models, as measured on standard metrics of performance, fail to discriminate quantities in transfer experiments with differing training and testing conditions, indicating that such inductive biases might not be sufficient.
翻訳日:2023-03-14 14:23:26 公開日:2023-03-13
# 不確実性定量化指標の検証:プライマー

Validation of uncertainty quantification metrics: a primer ( http://arxiv.org/abs/2303.07170v1 )

ライセンス: Link先を確認
Pascal Pernot(参考訳) 不確実性定量化(uq)検証の実践は、特に物理化学の機械学習において、全ての望ましいものをカバーすることなく、キャリブレーションの補完的な側面を探求するいくつかのグラフィカルな方法(散乱プロット、キャリブレーション曲線、信頼性図、信頼度曲線)にかかっている。 例えば、これらの手法は入力機能の範囲でUQメトリクスの信頼性を扱うものではありません。 キャリブレーション、一貫性、適応性という3つの補完的な概念に基づいて、分散と間隔に基づくメトリクスの共通検証方法のツールボックスを再検討し、その能力をよりよく把握することを目的としている。 この研究は、UQ検証の導入として考えられ、すべての方法がいくつかの基本的なルールから導出される。 これらの手法は、最近の物理化学的機械学習UQ文献から抽出された合成データセットと例を用いて、図示し、検証する。

The practice of uncertainty quantification (UQ) validation, notably in machine learning for the physico-chemical sciences, rests on several graphical methods (scattering plots, calibration curves, reliability diagrams and confidence curves) which explore complementary aspects of calibration, without covering all the desirable ones. For instance, none of these methods deals with the reliability of UQ metrics across the range of input features. Based on three complementary concepts, calibration, consistency and adaptivity, the toolbox of common validation methods for variance- and intervals- based metrics is revisited with the aim to provide a better grasp on their capabilities. This study is conceived as an introduction to UQ validation, and all methods are derived from a few basic rules. The methods are illustrated and tested on synthetic datasets and examples extracted from the recent physico-chemical machine learning UQ literature.
翻訳日:2023-03-14 14:23:11 公開日:2023-03-13
# 動的イベントベース光フロー同定と通信

Dynamic Event-based Optical Flow Identification and Communication ( http://arxiv.org/abs/2303.07169v1 )

ライセンス: Link先を確認
Axel von Arnim, Jules Lecomte, Stanislaw Wozniak, Naima Elosegui Borras, Angeliki Pantazi(参考訳) 光学的識別はしばしば、空間的または時間的視覚パターン認識と局在化によって行われる。 時間パターン認識は、技術によっては通信周波数、範囲、正確な追跡のトレードオフを伴う。 高速なイベントベースカメラを利用して、このトレードオフを改善する発光ビーコンを用いたソリューションを提案し、スパイクニューロンで計算された疎いニューロモルフィック光の流れを追跡する。 資産モニタリングのユースケースでは、シミュレートされたドローンに埋め込まれたシステムは相対的な動きに頑健であり、複数の移動ビーコンとの同時通信が可能であることを実証する。 最後に、ハードウェアラボのプロトタイプにおいて、kHz級の最先端の光学カメラ通信周波数を実現する。

Optical identification is often done with spatial or temporal visual pattern recognition and localization. Temporal pattern recognition, depending on the technology, involves a trade-off between communication frequency, range and accurate tracking. We propose a solution with light-emitting beacons that improves this trade-off by exploiting fast event-based cameras and, for tracking, sparse neuromorphic optical flow computed with spiking neurons. In an asset monitoring use case, we demonstrate that the system, embedded in a simulated drone, is robust to relative movements and enables simultaneous communication with, and tracking of, multiple moving beacons. Finally, in a hardware lab prototype, we achieve state-of-the-art optical camera communication frequencies in the kHz magnitude.
翻訳日:2023-03-14 14:22:54 公開日:2023-03-13
# これ以上気にしない:不注意反応の開始を識別する

I Don't Care Anymore: Identifying the Onset of Careless Responding ( http://arxiv.org/abs/2303.07167v1 )

ライセンス: Link先を確認
Max Welz and Andreas Alfons(参考訳) 行動科学や組織科学のアンケートは長引く傾向にあり、何百もの項目からなる調査は例外ではなく規範である。 しかし、近年の文献では、アンケートが長くなるほど、参加者が関心を失い、不注意に反応し始める確率が高いことが示唆されている。 その結果、長期にわたる調査では、多くの参加者が不注意な反応をし、内部の妥当性に大きな脅威をもたらす可能性がある。 各参加者に対して不注意な応答(または欠席)の開始を識別する新しい方法を提案する。 具体的には,不注意感(不整合性,不変性,迅速な応答)が現れる最大3次元の複合計測に基づく。 いずれの次元においても構造的ブレークは不注意を示す可能性があるため,3次元に沿った変化点の証拠を探索する。 本手法は,機械学習に基づく高い柔軟性を有し,その性能に関する統計的保証を提供する。 シミュレーション実験では,不注意を正しく同定し,不注意と無注意の回答者を判別し,不注意を圧倒的に有するデータセットにおいても,不注意な応答スタイルを多種多様に把握できるという高い信頼性が得られた。 さらに,本手法をBig 5測定で実証的に検証した。 さらに、経験的研究者によるアクセシビリティと採用を促進するために、Rで自由に利用できるソフトウェアを提供する。

Questionnaires in the behavioral and organizational sciences tend to be lengthy: survey measures comprising hundreds of items are the norm rather than the exception. However, recent literature suggests that the longer a questionnaire takes, the higher the probability that participants lose interest and start responding carelessly. Consequently, in long surveys a large number of participants may engage in careless responding, posing a major threat to internal validity. We propose a novel method to identify the onset of careless responding (or an absence thereof) for each participant. Specifically, our method is based on combined measurements of up to three dimensions in which carelessness may manifest (inconsistency, invariability, fast responding). Since a structural break in either dimension is potentially indicative of carelessness, our method searches for evidence for changepoints along the three dimensions. Our method is highly flexible, based on machine learning, and provides statistical guarantees on its performance. In simulation experiments, we find that it achieves high reliability in correctly identifying carelessness onset, discriminates well between careless and attentive respondents, and can capture a wide variety of careless response styles, even in datasets with an overwhelming presence of carelessness. In addition, we empirically validate our method on a Big 5 measurement. Furthermore, we provide freely available software in R to enhance accessibility and adoption by empirical researchers.
翻訳日:2023-03-14 14:22:44 公開日:2023-03-13
# 自動プログラム合成のための改良された木探索

Improved Tree Search for Automatic Program Synthesis ( http://arxiv.org/abs/2303.07166v1 )

ライセンス: Link先を確認
Aran Carmon and Lior Wolf(参考訳) 自動プログラム合成のタスクにおいて、各サンプル入力が一致する出力を返す特定のドメイン固有言語(DSL)において、マッチング入力と出力のペアを取得してコンピュータプログラムを生成する。 重要な要素は、有効なプログラムの空間で効率的な検索を可能にすることである。 ここでは2つの大きな異なるDSL上でのアート結果の状態を導くMCTSの変種を提案する。 提案する探索方法は,修正された訪問回数,トレーニングデータセットの前処理手順,実行済みのプログラムのエンコードなど,複数のコントリビューションを含む。

In the task of automatic program synthesis, one obtains pairs of matching inputs and outputs and generates a computer program, in a particular domain-specific language (DSL), which given each sample input returns the matching output. A key element is being able to perform an efficient search in the space of valid programs. Here, we suggest a variant of MCTS that leads to state of the art results on two vastly different DSLs. The exploration method we propose includes multiple contributions: a modified visit count, a preprocessing procedure for the training dataset, and encoding the part of the program that was already executed.
翻訳日:2023-03-14 14:22:21 公開日:2023-03-13
# SGDをシャッフルするためのより低い境界:ランダムな置換とそれを超える

Tighter Lower Bounds for Shuffling SGD: Random Permutations and Beyond ( http://arxiv.org/abs/2303.07160v1 )

ライセンス: Link先を確認
Jaeyoung Cha, Jaewook Lee, Chulhee Yun(参考訳) 非置換確率勾配勾配勾配(SGD)の収束下界を滑らかな(強い-)凸有限サム最小化問題の解法として検討する。 成分数$n$とエポック数$K$という観点で最終反復下界に焦点を絞った既存の結果とは異なり、条件数$\kappa$を含むすべての因子において厳密な任意の重み付き平均的反復に対する境界を求める。 Random Reshuffling を持つ SGD の場合、既存の境界よりもより強い$\kappa$ 依存を持つ低い境界を示す。 その結果, 強凸と凸のいずれにおいても, 重み付き平均イテレートに対する下界と上界のギャップを完全に閉じることができた。 また、重み付け平均は任意の置換ベースのsgdに対して下限を反復し、最良の置換を慎重に選択する全ての変種に適用する。 我々の境界は、$n$と$\kappa$の因子の既存の境界を改善し、その結果、最近提案されたGraBアルゴリズムで示される上限と一致する。

We study convergence lower bounds of without-replacement stochastic gradient descent (SGD) for solving smooth (strongly-)convex finite-sum minimization problems. Unlike most existing results focusing on final iterate lower bounds in terms of the number of components $n$ and the number of epochs $K$, we seek bounds for arbitrary weighted average iterates that are tight in all factors including the condition number $\kappa$. For SGD with Random Reshuffling, we present lower bounds that have tighter $\kappa$ dependencies than existing bounds. Our results are the first to perfectly close the gap between lower and upper bounds for weighted average iterates in both strongly-convex and convex cases. We also prove weighted average iterate lower bounds for arbitrary permutation-based SGD, which apply to all variants that carefully choose the best permutation. Our bounds improve the existing bounds in factors of $n$ and $\kappa$ and thereby match the upper bounds shown for a recently proposed algorithm called GraB.
翻訳日:2023-03-14 14:22:10 公開日:2023-03-13
# 都市緑地の位置と設計の最適化

Optimization of the location and design of urban green spaces ( http://arxiv.org/abs/2303.07202v1 )

ライセンス: Link先を確認
Caroline Leboeuf and Margarida Carvalho and Yan Kestens and Beno\^it Thierry(参考訳) 近年の持続的都市計画の推進と、健康と健康を改善するための公共の介入の必要性の高まりが組み合わさって、都市周辺の緑地への集団的関心が高まっている。 特に、公園は都市部で幅広い利点が証明されている。 これはまた、公園のアクセシビリティの不平等が健康上の不平等に寄与することを意味する。 本研究では,公園のアクセシビリティ,流通,デザインを改善する意思決定者を支援するために,運用研究からの古典的ツールの適用について紹介する。 公共意思決定の文脈を考えると,我々は特にエクイティと環境の正義に関心を持ち,空間的相互作用モデルによるユーザの行動の高度評価に焦点をあてている。 都市の緑地計画において,都市レベルでの意思決定を支援するテンプレートモデルとして,2段階の公正な施設配置と設計モデルを提案する。 最適化モデルの第一段階は、不等式属性を露呈するデータに基づいて、近隣への都市予算配分を最適化することである。 第2段階は、各地区の公園の最適な位置と設計を求め、その目的は、公園を訪れた個人が期待する総確率を最大化することである。 後者を混合整数線形プログラムとして再構成する方法を示す。 さらに,問題の大きさを小さくし,最適解に近い解を妥当な時間内に決定するクラスタリング手法を提案する。 モデルをモントリオール市のケーススタディを用いて検証し、モデルの性能を正当化するために比較結果を詳細に議論する。

The recent promotion of sustainable urban planning combined with a growing need for public interventions to improve well-being and health have led to an increased collective interest for green spaces in and around cities. In particular, parks have proven a wide range of benefits in urban areas. This also means inequities in park accessibility may contribute to health inequities. In this work, we showcase the application of classic tools from Operations Research to assist decision-makers to improve parks' accessibility, distribution and design. Given the context of public decision-making, we are particularly concerned with equity and environmental justice, and are focused on an advanced assessment of users' behavior through a spatial interaction model. We present a two-stage fair facility location and design model, which serves as a template model to assist public decision-makers at the city-level for the planning of urban green spaces. The first-stage of the optimization model is about the optimal city-budget allocation to neighborhoods based on a data exposing inequality attributes. The second-stage seeks the optimal location and design of parks for each neighborhood, and the objective consists of maximizing the total expected probability of individuals visiting parks. We show how to reformulate the latter as a mixed-integer linear program. We further introduce a clustering method to reduce the size of the problem and determine a close to optimal solution within reasonable time. The model is tested using the case study of the city of Montreal and comparative results are discussed in detail to justify the performance of the model.
翻訳日:2023-03-14 14:15:14 公開日:2023-03-13
# 既存の単語埋め込み手法の包括的経験的評価

A Comprehensive Empirical Evaluation of Existing Word Embedding Approaches ( http://arxiv.org/abs/2303.07196v1 )

ライセンス: Link先を確認
Obaidullah Zaland, Muhammad Abulaish, Mohd. Fazil(参考訳) ベクトルベースの単語表現は、無数の自然言語処理(NLP)タスクが言語の意味的および構文的規則性の両方をキャプチャするのに役立つ。 本稿では,既存の単語埋め込み手法の特徴について述べるとともに,多くの分類タスクについて分析する。 従来の手法では、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えられていない。 一方、ニューラルネットワークに基づくアプローチは、言語の洗練された規則性を捉え、生成された単語表現における単語関係を保存できる。 我々は,複数の分類タスクに関する実験結果を報告し,一つのアプローチが他よりもうまく機能するシナリオを強調する。

Vector-based word representations help countless Natural Language Processing (NLP) tasks capture both semantic and syntactic regularities of the language. In this paper, we present the characteristics of existing word embedding approaches and analyze them with regards to many classification tasks. We categorize the methods into two main groups - Traditional approaches mostly use matrix factorization to produce word representations, and they are not able to capture the semantic and syntactic regularities of the language very well. Neural-Network based approaches, on the other hand, can capture sophisticated regularities of the language and preserve the word relationships in the generated word representations. We report experimental results on multiple classification tasks and highlight the scenarios where one approach performs better than the rest.
翻訳日:2023-03-14 14:14:24 公開日:2023-03-13
# 臨床CTにおける慢性閉塞性肺疾患検出のための畳み込みニューラルネットワークの最適化

Optimizing Convolutional Neural Networks for Chronic Obstructive Pulmonary Disease Detection in Clinical Computed Tomography Imaging ( http://arxiv.org/abs/2303.07189v1 )

ライセンス: Link先を確認
Tina Dorosti (1-3), Manuel Schultheiss (1-3), Felix Hofmann (3), Luisa Kirchner (3), Theresa Urban (1-3), Franz Pfeiffer (1-4), Johannes Thalhammer (1-3), Florian Schaff (1 and 2), Tobias Lasser (2 and 5), and Daniela Pfeiffer (1-4) ((1) Chair of Biomedical Physics, Department of Physics, School of Natural Sciences, Technical University of Munich, Germany, (2) Munich Institute of Biomedical Engineering, Technical University of Munich, Germany, (3) Department of Diagnostic and Interventional Radiology, School of Medicine, Klinikum rechts der Isar, Technical University of Munich, Germany, (4) Institute for Advanced Study, Technical University of Munich, Germany, (5) Computational Imaging and Inverse Problems, Department of Informatics, School of Computation, Information, and Technology, Technical University of Munich, Germany)(参考訳) 慢性閉塞性肺疾患(copd)は世界中で主要な死因であるが、早期発見と治療は肺疾患の進行を予防することができる。 胸部CT(X線CT)による肺形態変化の計測は,従来の呼吸機能検査法とは対照的に,胸部CT検査は肺形態変化の指標となる。 深層学習モデルを用いて, COPDの自動検出が可能であることが示されている。 しかし, COPD のCT スキャン検査において臨床医が行う最適なウィンドウ設定選択を組み込むことの可能性は, 一般的には深層学習のアプローチでは見過ごされがちである。 我々は、手動および自動ウィンドウセッティング最適化(WSO)ステップの実装により、密結合畳み込みニューラルネットワーク(DenseNets)によるPDのバイナリ分類を最適化することを目指している。 我々のデータセットは、klinikum rechts der isar research hospitalの78のctスキャンで構成されていた。 テストセットで繰り返し推測した結果、WSOがなければ、普通のDenseNetの平均スライスレベルAUCは0.80$\pm$0.05となった。 入力画像は気腫ウィンドウ設定に手動で調整され、普通のDenseNetモデルは平均AUCが0.86$\pm$0.04と予測した。 DenseNetにカスタマイズされたレイヤを追加してWSOを自動化することにより、気腫窓設定に近い最適なウィンドウ設定が学習され、平均AUCは0.82$\pm$0.04となった。 DenseNet モデルによる COPD の検出は,CT データの WSO から気腫窓設定範囲に最適化され,深層学習パイプラインにおいて最適なウィンドウ設定を選択することの重要性が示された。

Chronic Obstructive Pulmonary Disease (COPD) is a leading cause of death worldwide, yet early detection and treatment can prevent the progression of the disease. In contrast to the conventional method of detecting COPD with spirometry tests, X-ray Computed Tomography (CT) scans of the chest provide a measure of morphological changes in the lung. It has been shown that automated detection of COPD can be performed with deep learning models. However, the potential of incorporating optimal window setting selection, typically carried out by clinicians during examination of CT scans for COPD, is generally overlooked in deep learning approaches. We aim to optimize the binary classification of COPD with densely connected convolutional neural networks (DenseNets) through implementation of manual and automated Window-Setting Optimization (WSO) steps. Our dataset consisted of 78 CT scans from the Klinikum rechts der Isar research hospital. Repeated inference on the test set showed that without WSO, the plain DenseNet resulted in a mean slice-level AUC of 0.80$\pm$0.05. With input images manually adjusted to the emphysema window setting, the plain DenseNet model predicted COPD with a mean AUC of 0.86$\pm$0.04. By automating the WSO through addition of a customized layer to the DenseNet, an optimal window setting in the proximity of the emphysema window setting was learned and a mean AUC of 0.82$\pm$0.04 was achieved. Detection of COPD with DenseNet models was optimized by WSO of CT data to the emphysema window setting range, demonstrating the importance of implementing optimal window setting selection in the deep learning pipeline.
翻訳日:2023-03-14 14:13:42 公開日:2023-03-13
# 共同行動と共通信念

Joint Behavior and Common Belief ( http://arxiv.org/abs/2303.07185v1 )

ライセンス: Link先を確認
Meir Friedenberg and Joseph Y. Halpern(参考訳) 25年以上にわたり、共通の信念は共同行動に必要なものとみなされてきた。 しかし、これは必ずしも正しくない。 共同行動として自然に考えられるものは、共通の信念なしに起こりうることを示す。 次に, 共通信念の2つの変種を提示し, 標準的共通信念が達成されることなく, 共同行動に繋がる可能性を示し, そのうちの1つ, 行動規範的共通信念は, 共同行動に必要かつ十分であることを示す。 これらの観察は、よく知られたように、共通の信念は実際に達成することは極めて困難であるが、これらの変異はより容易に達成できる。

For over 25 years, common belief has been widely viewed as necessary for joint behavior. But this is not quite correct. We show by example that what can naturally be thought of as joint behavior can occur without common belief. We then present two variants of common belief that can lead to joint behavior, even without standard common belief ever being achieved, and show that one of them, action-stamped common belief, is in a sense necessary and sufficient for joint behavior. These observations are significant because, as is well known, common belief is quite difficult to achieve in practice, whereas these variants are more easily achievable.
翻訳日:2023-03-14 14:13:09 公開日:2023-03-13
# モデルはインドの法律データフェアで訓練されているか?

Are Models Trained on Indian Legal Data Fair? ( http://arxiv.org/abs/2303.07247v1 )

ライセンス: Link先を確認
Sahil Girhepuje, Anmol Goel, Gokul Krishnan, Shreya Goyal, Satyendra Pandey, Ponnurangam Kumaraguru and Balaram Ravindran(参考訳) 言語技術と人工知能の最近の進歩と応用は、法律、医療、精神保健といった複数の領域で大きな成功を収めている。 AIベースの言語モデル、例えば判断予測は、最近法分野に提案されている。 しかし、これらのモデルは、トレーニングデータから取り出された社会的バイアスが符号化されている。 偏見と公平性はNLP全体で研究されているが、ほとんどの研究は主に西洋の文脈にある。 本研究は,インドの法律分野における公正性に関する最初の調査である。 ヒンディー語法文書で訓練されたモデルに対する保留予測タスクにおける学習アルゴリズムバイアスの伝播に注目した。 人口統計学的パリティを用いてフェアネスギャップを評価し,保釈予測タスクに訓練された決定木モデルが,ヒンドゥー教とムスリムに関連する入力特徴間で0.237のフェアネス差を持つことを示した。 さらに、インドの文脈に焦点を絞った法律分野におけるaiの適用において、公正/バイアスの道筋でさらなる研究と研究が必要であることも強調する。

Recent advances and applications of language technology and artificial intelligence have enabled much success across multiple domains like law, medical and mental health. AI-based Language Models, like Judgement Prediction, have recently been proposed for the legal sector. However, these models are strife with encoded social biases picked up from the training data. While bias and fairness have been studied across NLP, most studies primarily locate themselves within a Western context. In this work, we present an initial investigation of fairness from the Indian perspective in the legal domain. We highlight the propagation of learnt algorithmic biases in the bail prediction task for models trained on Hindi legal documents. We evaluate the fairness gap using demographic parity and show that a decision tree model trained for the bail prediction task has an overall fairness disparity of 0.237 between input features associated with Hindus and Muslims. Additionally, we highlight the need for further research and studies in the avenues of fairness/bias in applying AI in the legal sector with a specific focus on the Indian context.
翻訳日:2023-03-14 14:06:48 公開日:2023-03-13
# ワークプレースウェルビーイング技術に労働者は満足できるのか?

Can Workers Meaningfully Consent to Workplace Wellbeing Technologies? ( http://arxiv.org/abs/2303.07242v1 )

ライセンス: Link先を確認
Shreya Chowdhary, Anna Kawakami, Jina Suh, Mary L. Gray, Alexandra Olteanu, Koustuv Saha(参考訳) 職場にデプロイされたセンシング技術は、個々のアクティビティやグループインタラクションに関する詳細なデータを収集することができる。 これらの技術の希望的な応用は、企業や労働者が生産性と幸福を最適化するのを助けることだ。 しかしながら、職場における本質的で構造的な力のダイナミクスを考えると、労働者の有意義な同意を求めるのではなく、労働者活動を監視するために暗黙のコンプライアンスを受け入れるという一般的なアプローチは、プライバシと倫理的懸念を提起する。 本稿では,職場の福祉技術に同意する労働者が直面する課題を整理する。 15名の参加者を対象とする6名の多人数集中グループ間の考察を仮説として,職場センシング技術への参加者の期待と同意能力について検討した。 We sketched possible interventions that could better support more meaningful consent to workplace wellbeing technologies by drawing on critical computing and feminist scholarship -- which reframes consent from a purely individual choice to a structural condition experienced at the individual level that needs to be freely given, reversible, informed, enthusiastic, and specific (FRIES). The focus groups revealed that workers are vulnerable to meaningless consent -- dynamics that undo the value of data gathered in the name of "wellbeing," as well as an erosion of autonomy in the workplace. 有意義な同意を得るために、参加者はテクノロジーの動作や利用方法の変更や、テクノロジーを取り巻くポリシーやプラクティスを望んでいる。 我々の地図は、労働者が職場の健康管理技術(チャレヘス)に有意義に同意することを防ぐものであり、それに必要なもの(干渉)は、意味のある同意の欠如が社会技術的解決を必要とする構造的な問題であることを示している。

Sensing technologies deployed in the workplace can collect detailed data about individual activities and group interactions that are otherwise difficult to capture. A hopeful application of these technologies is that they can help businesses and workers optimize productivity and wellbeing. However, given the inherent and structural power dynamics in the workplace, the prevalent approach of accepting tacit compliance to monitor work activities rather than seeking workers' meaningful consent raises privacy and ethical concerns. This paper unpacks a range of challenges that workers face when consenting to workplace wellbeing technologies. Using a hypothetical case to prompt reflection among six multi-stakeholder focus groups involving 15 participants, we explored participants' expectations and capacity to consent to workplace sensing technologies. We sketched possible interventions that could better support more meaningful consent to workplace wellbeing technologies by drawing on critical computing and feminist scholarship -- which reframes consent from a purely individual choice to a structural condition experienced at the individual level that needs to be freely given, reversible, informed, enthusiastic, and specific (FRIES). The focus groups revealed that workers are vulnerable to meaningless consent -- dynamics that undo the value of data gathered in the name of "wellbeing," as well as an erosion of autonomy in the workplace. To meaningfully consent, participants wanted changes to how the technology works and is being used, as well as to the policies and practices surrounding the technology. Our mapping of what prevents workers from meaningfully consenting to workplace wellbeing technologies (challenges) and what they require to do so (interventions) underscores that the lack of meaningful consent is a structural problem requiring socio-technical solutions.
翻訳日:2023-03-14 14:06:37 公開日:2023-03-13
# PMC-CLIP:バイオメディカルドキュメンテーションを用いたコントラスト言語画像事前学習

PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents ( http://arxiv.org/abs/2303.07240v1 )

ライセンス: Link先を確認
Weixiong Lin, Ziheng Zhao, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 大規模データセットでトレーニングされたファンデーションモデルは、最近CVとNLPが急増している。 対照的に、生体医学領域の開発はデータの不足のため、はるかに遅れている。 この問題に対処するため,PubMedCentralのOpenAccessサブセットから収集した1.6Mイメージキャプチャペアを備えたバイオメディカルデータセットであるPMC-OAを構築し,リリースする。 PMC-OAは様々なモダリティや病気をカバーしており、画像キャプチャーのサンプルのほとんどは細粒度、すなわちサブフィギュアとサブキャプションに配列している。 PMC-OA上でCLIPスタイルのモデルを事前学習している間、PMC-CLIPと呼ばれるモデルでは、ROCO上の画像テキスト検索、MedMNIST画像分類、医療用VQA、画像テキスト検索における8.1% R@10、画像分類における3.9%の精度など、様々なダウンストリームタスクに対して最先端の結果が得られる。

Foundation models trained on large-scale dataset gain a recent surge in CV and NLP. In contrast, development in biomedical domain lags far behind due to data scarcity. To address this issue, we build and release PMC-OA, a biomedical dataset with 1.6M image-caption pairs collected from PubMedCentral's OpenAccess subset, which is 8 times larger than before. PMC-OA covers diverse modalities or diseases, with majority of the image-caption samples aligned at finer-grained level, i.e., subfigure and subcaption. While pretraining a CLIP-style model on PMC-OA, our model named PMC-CLIP achieves state-of-the-art results on various downstream tasks, including image-text retrieval on ROCO, MedMNIST image classification, Medical VQA, i.e. +8.1% R@10 on image-text retrieval, +3.9% accuracy on image classification.
翻訳日:2023-03-14 14:06:08 公開日:2023-03-13
# カロジェロ模型の閉形プロパゲータ

Closed-form propagator of the Calogero model ( http://arxiv.org/abs/2303.07231v1 )

ライセンス: Link先を確認
Valdemar Melin and Edwin Langmann(参考訳) 本研究では,実数直線上の量子多体系の時間発展作用素の積分核に対して,カロジェロモデルのプロパゲータに対して,外部調和ポテンシャルと逆二乗二体相互作用を持つ完全閉形式表現を提案する。 この式は、第一に、このプロパゲータを調和ポテンシャルのないカロジェロモデルの固有関数に関連付ける簡単な公式、第二に、多項式二体函数の積の有限和としてこれらの固有関数の式を組み合わせることによって得られる。

We present an exact closed-form expression for the propagator of the Calogero model, i.e., for the integral kernel of the time evolution operator of the quantum many-body system on the real line with an external harmonic potential and inverse-square two-body interactions. This expression is obtained by combining two results: first, a simple formula relating this propagator to the eigenfunctions of the Calogero model without harmonic potential and second, a formula for these eigenfunctions as finite sums of products of polynomial two-body functions.
翻訳日:2023-03-14 14:05:46 公開日:2023-03-13
# 無用な絡み合わせによる蒸留可能な絡み合わせと量子容量の推定

Estimate distillable entanglement and quantum capacity by squeezing useless entanglement ( http://arxiv.org/abs/2303.07228v1 )

ライセンス: Link先を確認
Chengkai Zhu, Chenghong Zhu, Xin Wang(参考訳) 量子情報処理では絡み合い蒸留が重要である。 しかし、蒸留可能な絡み合いとその密接に関連する重要な量であるノイズのある量子チャネルの量子容量を推定することは依然として困難である。 本研究では, 蒸留可能な絡み合いや量子容量に対して, それぞれの寄与が無視されるであろう状態や量子チャネル内の不要な絡み合いを絞り込むことにより, 両量を評価する手法を提案する。 まず,目標状態と自由状態の集合との最小発散を定量化するために,資源の逆発散と呼ばれる一般資源測度を導入する。 次に, エンタングルメントの逆マックス関係エントロピーを導入し, 蒸留性エンタングルメント上の効率的に計算可能な上界を確立する。 また、資源の逆分散を量子チャネルに拡張し、量子容量上の上限を導出する。 さらに, 脱分極や振幅減衰などの実用的な雑音下での最大絡合状態の浄化について検討し, また, 一方向蒸留可能な絡合状態の推定における改善点を確立する。 我々のバウンダリはまた、パウリチャネルやランダム混合ユニタリチャネルを含む量子ビット量子チャネルの量子容量を評価するための有用なベンチマークも提供する。

Entanglement distillation is crucial in quantum information processing. But it remains challenging to estimate the distillable entanglement and its closely related essential quantity, the quantum capacity of a noisy quantum channel. In this work, we propose methods for evaluating both quantities by squeezing out useless entanglement within a state or a quantum channel, whose contributions are expected to be ignored for the distillable entanglement or the quantum capacity, respectively. We first introduce a general resource measure called the reverse divergence of resources to quantify the minimum divergence between a target state and the set of free states. We then introduce the reverse max-relative entropy of entanglement and apply it to establish efficiently computable upper bounds on the distillable entanglement. We also extend the reverse divergence of resources to quantum channels and derive upper bounds on the quantum capacity. We further apply our method to investigate purifying the maximally entangled states under practical noises, such as depolarizing and amplitude damping noises, and notably establish improvements in estimating the one-way distillable entanglement. Our bounds also offer useful benchmarks for evaluating the quantum capacities of qubit quantum channels of interest, including the Pauli channels and the random mixed unitary channels.
翻訳日:2023-03-14 14:05:35 公開日:2023-03-13
# リレーショナルローカルダイナミックマップを用いた閉塞リスクの区間警告システム

Intersection Warning System for Occlusion Risks using Relational Local Dynamic Maps ( http://arxiv.org/abs/2303.07227v1 )

ライセンス: Link先を確認
Florian Damerow, Yuda Li, Tim Puphal, Benedict Flade and Julian Eggert(参考訳) 本研究は,センサカバレッジの制限による可観測性に制限のある交通シナリオにおけるリスク評価の課題に対処する。 ここでは,視覚的アクセスが難しい交差点シナリオに注目する。 視覚領域を特定するために,局所動的地図上にレイキャスティングを用い,幾何学的情報と道路インフラを提供する。 視認性が低下したエリアに基づいて,視覚的に認識できないリスクを生じる可能性のあるシーンエンティティをまずモデル化する。 そして,衝突リスク推定のための生存分析における最悪の軌道を予測した。 結果として生じるリスク指標は、ドライバーの現在の行動を評価し、重大な状況でドライバーに警告し、安全に行動する方法や安全な軌道の計画を提案するために使用される。 本手法は,実世界シナリオに交叉警告システムを適用することで検証する。 提案システムの動作は,人間の運転者の動作を模倣することを明らかにする。

This work addresses the task of risk evaluation in traffic scenarios with limited observability due to restricted sensorial coverage. Here, we concentrate on intersection scenarios that are difficult to access visually. To identify the area of sight, we employ ray casting on a local dynamic map providing geometrical information and road infrastructure. Based on the area with reduced visibility, we first model scene entities that pose a potential risk without being visually perceivable yet. Then, we predict a worst-case trajectory in the survival analysis for collision risk estimation. Resulting risk indicators are utilized to evaluate the driver's current behavior, to warn the driver in critical situations, to give suggestions on how to act safely or to plan safe trajectories. We validate our approach by applying the resulting intersection warning system on real world scenarios. The proposed system's behavior reveals to mimic the general behavior of a correctly acting human driver.
翻訳日:2023-03-14 14:05:13 公開日:2023-03-13
# スパースミキサーを用いた視覚・言語モデルのスケーリング

Scaling Vision-Language Models with Sparse Mixture of Experts ( http://arxiv.org/abs/2303.07226v1 )

ライセンス: Link先を確認
Sheng Shen, Zhewei Yao, Chunyuan Li, Trevor Darrell, Kurt Keutzer, Yuxiong He(参考訳) 自然言語処理(NLP)の分野は近年、特に大規模視覚言語モデル(VLM)の開発において大きな進歩を遂げている。 これらのモデルは、テキストと視覚情報のギャップを埋めることを目的としており、マルチメディアデータのより包括的な理解を可能にする。 しかし、これらのモデルがより大きく複雑になるにつれて、トレーニングやデプロイも難しくなります。 この課題に対処する1つのアプローチは、モデルをより小さく専門化されたサブモデルに分割し、共同でタスクを解決できる疎結合なmixing-of-experts(moe)技術を使用することである。 本稿では、視覚言語モデルのスケーリングにおけるMoEの有効性について検討し、等価な計算コストの高密度モデルに対するベンチマークにおいて、最先端の性能を実現する可能性を示す。 我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、VLMのスケーリング時の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。 私たちは、大規模な視覚言語モデルやその他のマルチモーダル機械学習アプリケーションのスケーリングにMoEを使用することについて、さらなる研究を期待しています。

The field of natural language processing (NLP) has made significant strides in recent years, particularly in the development of large-scale vision-language models (VLMs). These models aim to bridge the gap between text and visual information, enabling a more comprehensive understanding of multimedia data. However, as these models become larger and more complex, they also become more challenging to train and deploy. One approach to addressing this challenge is the use of sparsely-gated mixture-of-experts (MoE) techniques, which divide the model into smaller, specialized sub-models that can jointly solve a task. In this paper, we explore the effectiveness of MoE in scaling vision-language models, demonstrating its potential to achieve state-of-the-art performance on a range of benchmarks over dense models of equivalent computational cost. Our research offers valuable insights into stabilizing the training of MoE models, understanding the impact of MoE on model interpretability, and balancing the trade-offs between compute performance when scaling VLMs. We hope our work will inspire further research into the use of MoE for scaling large-scale vision-language models and other multimodal machine learning applications.
翻訳日:2023-03-14 14:04:58 公開日:2023-03-13
# 圧縮映像の解像度変化による効率的なセマンティックセグメンテーション

Efficient Semantic Segmentation by Altering Resolutions for Compressed Videos ( http://arxiv.org/abs/2303.07224v1 )

ライセンス: Link先を確認
Yubin Hu, Yuze He, Yanghao Li, Jisheng Li, Yuxing Han, Jiangtao Wen, Yong-Jin Liu(参考訳) ビデオセマンティックセグメンテーション(VSS)は、フレームレートの高いビデオのフレーム単位の予測のために計算コストがかかるタスクである。 近年,vssの効率化のために,コンパクトモデルや適応型ネットワーク戦略が提案されている。 しかし、彼らは入力側から計算コストに影響を与える重要な要因、すなわち入力解像度を考慮しなかった。 本稿では,効率的なVSSを実現するために,圧縮ビデオのためのAR-Segと呼ばれる変換分解能フレームワークを提案する。 AR-Segは、キーフレーム以外の低解像度で計算コストを削減することを目的としている。 ダウンサンプリングによる性能劣化を防止するため,クロスレゾリューション・フィーチャー・フュージョン(CreFF)モジュールを設計し,新しい特徴類似性訓練(FST)戦略で監視する。 具体的には、CreFFはまず圧縮されたビデオに格納されたモーションベクトルを使用して、高解像度のキーフレームから低解像度の非キーフレームまで特徴をワープし、空間的なアライメントを改善する。 さらに,fstは,共有デコーディング層からの明示的な類似性損失と暗黙的な制約により,高分解能特徴を有する集約特徴を監督する。 CamVidとCityscapesの大規模な実験によると、AR-Segは最先端のパフォーマンスを実現し、異なるセグメンテーションバックボーンと互換性がある。 CamVidでは、AR-Segは高いセグメンテーション精度を維持しながらPSPNet18バックボーンで67%の計算コスト(GFLOPで測定)を節約する。 コード:https://github.com/THU-LYJ-Lab/AR-Seg

Video semantic segmentation (VSS) is a computationally expensive task due to the per-frame prediction for videos of high frame rates. In recent work, compact models or adaptive network strategies have been proposed for efficient VSS. However, they did not consider a crucial factor that affects the computational cost from the input side: the input resolution. In this paper, we propose an altering resolution framework called AR-Seg for compressed videos to achieve efficient VSS. AR-Seg aims to reduce the computational cost by using low resolution for non-keyframes. To prevent the performance degradation caused by downsampling, we design a Cross Resolution Feature Fusion (CReFF) module, and supervise it with a novel Feature Similarity Training (FST) strategy. Specifically, CReFF first makes use of motion vectors stored in a compressed video to warp features from high-resolution keyframes to low-resolution non-keyframes for better spatial alignment, and then selectively aggregates the warped features with local attention mechanism. Furthermore, the proposed FST supervises the aggregated features with high-resolution features through an explicit similarity loss and an implicit constraint from the shared decoding layer. Extensive experiments on CamVid and Cityscapes show that AR-Seg achieves state-of-the-art performance and is compatible with different segmentation backbones. On CamVid, AR-Seg saves 67% computational cost (measured in GFLOPs) with the PSPNet18 backbone while maintaining high segmentation accuracy. Code: https://github.com/THU-LYJ-Lab/AR-Seg.
翻訳日:2023-03-14 14:04:40 公開日:2023-03-13
# PromptFusion: 継続的な学習のための安定性と塑性の分離

PromptFusion: Decoupling Stability and Plasticity for Continual Learning ( http://arxiv.org/abs/2303.07223v1 )

ライセンス: Link先を確認
Haoran Chen, Zuxuan Wu, Xintong Han, Menglin Jia, Yu-Gang Jiang(参考訳) 連続学習とは、データのストリームから連続的に学習する能力を指す。 現在の研究は、主に破滅的な忘れを省くことに焦点を当てており、その成功の大部分は、新しく入ってくるタスクのパフォーマンスを制限するコストに費やされている。 このようなトレードオフは安定性塑性ジレンマと呼ばれ、継続的な学習においてより一般的で困難な問題である。 しかし、この2つの概念の間に固有の矛盾があるため、両者に満足できる解決策を同時に考案することは不可能である。 したがって、我々は「それらを独立して征服する2つの問題に分けることは可能か? そこで本研究では,PromptFusionと呼ばれる急速チューニング方式を提案し,安定性と塑性の疎結合を実現する。 具体的には、PromptFusionは、破滅的な忘れ物を扱う、慎重に設計された安定化モジュールと、新しい知識を同時に学習するBoosterモジュールで構成される。 トレーニング中、PromptFusionはまず入力画像を2つのモジュールに別々に渡す。 そして、結果のロジットはさらに学習可能な重みパラメータで融合される。 最後に、導出ロジットに重みマスクを適用して、古いクラスと新しいクラスのバランスをとる。 広範な実験により,本手法は,クラスインクリメンタル設定とドメインインクリメンタル設定の両方において,一般的な連続学習データセットに対して有望な結果が得られることが示された。 特に,クラスインクリメンタル学習における最も難しいデータセットであるsplit-imagenet-rでは,最先端のプロンプトベース手法であるl2pとdualpromptを10%以上超えている。

Continual learning refers to the capability of continuously learning from a stream of data. Current research mainly focuses on relieving catastrophic forgetting, and most of their success is at the cost of limiting the performance of newly incoming tasks. Such a trade-off is referred to as the stabilityplasticity dilemma and is a more general and challenging problem for continual learning. However, the inherent conflict between these two concepts makes it seemingly impossible to devise a satisfactory solution to both of them simultaneously. Therefore, we ask, "is it possible to divide them into two problems to conquer independently?" To this end, we propose a prompt-tuning-based method termed PromptFusion to enable the decoupling of stability and plasticity. Specifically, PromptFusion consists of a carefully designed Stabilizer module that deals with catastrophic forgetting and a Booster module to learn new knowledge concurrently. During training, PromptFusion first passes an input image to the two modules separately. Then the resulting logits are further fused with a learnable weight parameter. Finally, a weight mask is applied to the derived logits to balance between old and new classes. Extensive experiments show that our method achieves promising results on popular continual learning datasets for both class-incremental and domain incremental settings. Especially on Split-Imagenet-R, one of the most challenging datasets for class-incremental learning, our method exceeds state-of-the-art prompt-based methods L2P and DualPrompt by more than 10%.
翻訳日:2023-03-14 14:04:11 公開日:2023-03-13
# 視界統一のための平行渦拡散

Parallel Vertex Diffusion for Unified Visual Grounding ( http://arxiv.org/abs/2303.07216v1 )

ライセンス: Link先を確認
Zesen Cheng and Kehan Li and Peng Jin and Xiangyang Ji and Li Yuan and Chang Liu and Jie Chen(参考訳) 統一ビジュアルグラウンドティングは、タスク固有の設計の少ないマルチタスクデータを活用するためのシンプルで汎用的な技術経路を追求する。 最も先進的な手法は、自己回帰的な逐次的頂点生成パラダイムとしてのモデル参照検出とセグメンテーションのための頂点シーケンスとしてボックスとマスクを表示する。 しかし,高次元頂点列を逐次生成することは,上流が静的なままであり,重要な位置ギャップがあるとしても下流頂点情報では洗練できないため,誤りやすい。 さらに、頂点が限られているため、複雑な輪郭を持つ物体の劣る適合性は、性能上界を制限する。 このジレンマに対処するため,ノイズ次元を簡易に変化させることで,拡散モデルによる高次元スケーラビリティを実現するための並列頂点生成パラダイムを提案する。 我々のパラダイムの直感的な実体化は、頂点座標を生成対象として直接設定し、拡散モデルを用いてトレーニングと推論を行う並列頂点拡散(PVD)である。 1) 正規化されていない座標は損失値のばらつきを生じさせ,(2) PVD の本来の訓練目的は点整合性のみを考慮しつつ幾何整合性を無視することである。 最初の欠陥を解決するため、CAM(Central Anchor Mechanism)は、座標を正規化されたオフセット値として変換してトレーニング損失値を安定化するように設計されている。 第2の欠点として、アングル和損失(ASL)は、幾何レベルの整合性に対する予測と基底真理頂点の幾何学的差を制限するように設計されている。 実験の結果,PVDは検出とセグメンテーションの両面において最先端を実現しており,そのパラダイムは高次元データを用いた逐次頂点生成よりもスケーラブルで効率的であることがわかった。

Unified visual grounding pursues a simple and generic technical route to leverage multi-task data with less task-specific design. The most advanced methods typically present boxes and masks as vertex sequences to model referring detection and segmentation as an autoregressive sequential vertex generation paradigm. However, generating high-dimensional vertex sequences sequentially is error-prone because the upstream of the sequence remains static and cannot be refined based on downstream vertex information, even if there is a significant location gap. Besides, with limited vertexes, the inferior fitting of objects with complex contours restricts the performance upper bound. To deal with this dilemma, we propose a parallel vertex generation paradigm for superior high-dimension scalability with a diffusion model by simply modifying the noise dimension. An intuitive materialization of our paradigm is Parallel Vertex Diffusion (PVD) to directly set vertex coordinates as the generation target and use a diffusion model to train and infer. We claim that it has two flaws: (1) unnormalized coordinate caused a high variance of loss value; (2) the original training objective of PVD only considers point consistency but ignores geometry consistency. To solve the first flaw, Center Anchor Mechanism (CAM) is designed to convert coordinates as normalized offset values to stabilize the training loss value. For the second flaw, Angle summation loss (ASL) is designed to constrain the geometry difference of prediction and ground truth vertexes for geometry-level consistency. Empirical results show that our PVD achieves state-of-the-art in both referring detection and segmentation, and our paradigm is more scalable and efficient than sequential vertex generation with high-dimension data.
翻訳日:2023-03-14 14:03:44 公開日:2023-03-13
# グラフプロンプト手法に関する調査:技術,応用,課題

A Survey of Graph Prompting Methods: Techniques, Applications, and Challenges ( http://arxiv.org/abs/2303.07275v1 )

ライセンス: Link先を確認
Xuansheng Wu, Kaixiong Zhou, Mingchen Sun, Xin Wang, Ninghao Liu(参考訳) ディープラーニングはさまざまなタスクで大きな成功を収めていますが、タスク固有のモデルのトレーニングは大量のラベル付きデータに依存しています。 近年,限定ラベルデータを用いたモデル一般化能力向上のために, ‘pre-train, prompt, predict’' という新たなトレーニングパラダイムが提案されている。 主なアイデアは、事前学習されたモデルに基づいて、プロンプト関数はテンプレートを使用して入力サンプルを指示的コンテキストで拡張し、対象タスクを事前学習タスクの1つに再構成する。 本稿では,グラフの観点からのプロンプト手法の独特なレビューを行う。 グラフデータは、エンティティ間のインタラクションを明示的にモデル化することで、さまざまなシステムで構造化された知識リポジトリとして機能する。 従来の手法と比較して、グラフプロンプト関数はタスク関連のコンテキストを誘導し、構造化された知識を持つテンプレートを適用することができる。 事前学習されたモデルは、将来のサンプルに対して適応的に一般化される。 特に,グラフプロンプト学習の基本概念,グラフプロンプト関数の設計に関する既存の作業の整理,さまざまな機械学習問題に対するそれらの応用と課題について述べる。 この調査は構造化グラフ間のギャップを埋め、将来の方法論開発を促進するために設計を促す試みである。

While deep learning has achieved great success on various tasks, the task-specific model training notoriously relies on a large volume of labeled data. Recently, a new training paradigm of ``pre-train, prompt, predict'' has been proposed to improve model generalization ability with limited labeled data. The main idea is that, based on a pre-trained model, the prompting function uses a template to augment input samples with indicative context and reformalizes the target task to one of the pre-training tasks. In this survey, we provide a unique review of prompting methods from the graph perspective. Graph data has served as structured knowledge repositories in various systems by explicitly modeling the interaction between entities. Compared with traditional methods, graph prompting functions could induce task-related context and apply templates with structured knowledge. The pre-trained model is then adaptively generalized for future samples. In particular, we introduce the basic concepts of graph prompt learning, organize the existing work of designing graph prompting functions, and describe their applications and challenges to a variety of machine learning problems. This survey attempts to bridge the gap between structured graphs and prompt design to facilitate future methodology development.
翻訳日:2023-03-14 13:57:57 公開日:2023-03-13
# 常識を破る: なんてこった! 合成画像と合成画像の視覚言語ベンチマーク

Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images ( http://arxiv.org/abs/2303.07274v1 )

ライセンス: Link先を確認
Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz(参考訳) 弱く、異常で、不気味なイメージは、観察者の好奇心を喚起する。 例えば、2022年のワールドカップ中に公開された画像は、有名なサッカースターのライオネル・メッシとクリスティアーノ・ロナルドがチェスをしている様子を描いている。 人間はこれらの非伝統的なイメージを容易に認識し解釈できますが、AIモデルも同じことができますか? 私たちは、visual commonsenseの新しいデータセットとベンチマークであるwhoops!を紹介します。 データセットは、midjourneyのような一般公開された画像生成ツールを使用して設計者が作成した、意図的に常識に準拠したイメージで構成されている。 データセット上のいくつかのタスクについて検討する。 画像キャプション, クロスモーダルマッチング, 視覚的質問応答に加えて, モデルが与えられた画像がなぜ異常であるかを識別し, 説明しなければならない, 困難な説明生成タスクを導入する。 GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。 . われわれのデータセットは、より強力なビジュアルコモンセンス推論能力を持つAIモデルの開発を促すことを願っている。 データ、モデル、コードはプロジェクトのwebサイト:whoops-benchmark.github.ioで入手できる。

Weird, unusual, and uncanny images pique the curiosity of observers because they challenge commonsense. For example, an image released during the 2022 world cup depicts the famous soccer stars Lionel Messi and Cristiano Ronaldo playing chess, which playfully violates our expectation that their competition should occur on the football field. Humans can easily recognize and interpret these unconventional images, but can AI models do the same? We introduce WHOOPS!, a new dataset and benchmark for visual commonsense. The dataset is comprised of purposefully commonsense-defying images created by designers using publicly-available image generation tools like Midjourney. We consider several tasks posed over the dataset. In addition to image captioning, cross-modal matching, and visual question answering, we introduce a difficult explanation generation task, where models must identify and explain why a given image is unusual. Our results show that state-of-the-art models such as GPT3 and BLIP2 still lag behind human performance on WHOOPS!. We hope our dataset will inspire the development of AI models with stronger visual commonsense reasoning abilities. Data, models and code are available at the project website: whoops-benchmark.github.io
翻訳日:2023-03-14 13:57:37 公開日:2023-03-13
# InPL:不均衡半教師あり学習のためのインレーヤの擬似ラベル付け

InPL: Pseudo-labeling the Inliers First for Imbalanced Semi-supervised Learning ( http://arxiv.org/abs/2303.07269v1 )

ライセンス: Link先を確認
Zhuoran Yu, Yin Li, Yong Jae Lee(参考訳) 不均衡半教師付き学習(SSL)における最近の最先端手法は、信頼に基づく疑似ラベルと整合性正規化に依存している。 高品質な擬似ラベルを得るには、一般的に高い信頼しきい値を採用する。 しかし,深層ネットワークにおけるソフトマックスに基づく信頼度スコアは,トレーニングデータから離れたサンプルでは任意に高い値となり,信頼性の低いサンプルであっても疑似ラベルは信頼できない可能性がある。 本研究では,不均衡なSSLに対する疑似ラベルの新たな視点を示す。 モデル信頼性に頼らず、未ラベルのサンプルが'in-distribution''、すなわち現在のトレーニングデータに近いかどうかを測定することを提案する。 ラベルのないサンプルが ‘in-distribution' か `out-of-distribution'' かを判定するために,out-out-distribution detection literature のエネルギスコアを採用する。 トレーニングが進み、ラベルのないサンプルが流通し、トレーニングに寄与するにつれて、ラベル付きデータと擬ラベル付きデータは真のクラス分布をよりよく近似してモデルを改善することができる。 実験により, エネルギーベース擬似ラベル法である \textbf{inpl} が, 概念的には単純であるが, 不均衡なsslベンチマークでは信頼度ベースの手法を著しく上回っていることを実証した。 例えば、cifar10-ltの絶対精度は約3\%向上する。 最先端のロングテールSSLメソッドと組み合わせると、さらなる改善が達成される。 特に、最も難しいシナリオの1つとして、InPLは最高の競合よりも6.9倍の精度で改善している。

Recent state-of-the-art methods in imbalanced semi-supervised learning (SSL) rely on confidence-based pseudo-labeling with consistency regularization. To obtain high-quality pseudo-labels, a high confidence threshold is typically adopted. However, it has been shown that softmax-based confidence scores in deep networks can be arbitrarily high for samples far from the training data, and thus, the pseudo-labels for even high-confidence unlabeled samples may still be unreliable. In this work, we present a new perspective of pseudo-labeling for imbalanced SSL. Without relying on model confidence, we propose to measure whether an unlabeled sample is likely to be ``in-distribution''; i.e., close to the current training data. To decide whether an unlabeled sample is ``in-distribution'' or ``out-of-distribution'', we adopt the energy score from out-of-distribution detection literature. As training progresses and more unlabeled samples become in-distribution and contribute to training, the combined labeled and pseudo-labeled data can better approximate the true class distribution to improve the model. Experiments demonstrate that our energy-based pseudo-labeling method, \textbf{InPL}, albeit conceptually simple, significantly outperforms confidence-based methods on imbalanced SSL benchmarks. For example, it produces around 3\% absolute accuracy improvement on CIFAR10-LT. When combined with state-of-the-art long-tailed SSL methods, further improvements are attained. In particular, in one of the most challenging scenarios, InPL achieves a 6.9\% accuracy improvement over the best competitor.
翻訳日:2023-03-14 13:56:03 公開日:2023-03-13
# 大腸内視鏡再建のための表面正規性ニューラルフレームワーク

A Surface-normal Based Neural Framework for Colonoscopy Reconstruction ( http://arxiv.org/abs/2303.07264v1 )

ライセンス: Link先を確認
Shuxian Wang, Yubo Zhang, Sarah K. McGill, Julian G. Rosenman, Jan-Michael Frahm, Soumyadip Sengupta, Stephen M. Pizer(参考訳) 大腸内視鏡映像からの3次元表面の再構成は,映像フレームの照明と反射率の変動により困難であり,形状予測に支障が生じた。 この課題を克服すべく,表面正常ベクターの特性を活用し,大腸内視鏡の再現性を大幅に向上させる2段階の神経枠組みを構築した。 自己教師付き正規整合損失で訓練された正規ベース深度初期化ネットワークは、照明と表面の正常の関係を利用してフレームワイドの正常度と深度予測を再帰的に洗練する正規深度精製モジュールに深度マップ初期化を提供する。 ファントム大腸内視鏡データにおける深達度精度の指標として,特にen face viewを用いた大腸内視鏡再建における表面正常値の活用の有用性が示唆された。 低深度誤差のため,本フレームワークから得られた予測結果は,リアルタイム大腸内視鏡再建に臨床応用するために限られた後処理が必要である。

Reconstructing a 3D surface from colonoscopy video is challenging due to illumination and reflectivity variation in the video frame that can cause defective shape predictions. Aiming to overcome this challenge, we utilize the characteristics of surface normal vectors and develop a two-step neural framework that significantly improves the colonoscopy reconstruction quality. The normal-based depth initialization network trained with self-supervised normal consistency loss provides depth map initialization to the normal-depth refinement module, which utilizes the relationship between illumination and surface normals to refine the frame-wise normal and depth predictions recursively. Our framework's depth accuracy performance on phantom colonoscopy data demonstrates the value of exploiting the surface normals in colonoscopy reconstruction, especially on en face views. Due to its low depth error, the prediction result from our framework will require limited post-processing to be clinically applicable for real-time colonoscopy reconstruction.
翻訳日:2023-03-14 13:55:29 公開日:2023-03-13
# Ab initio電子格子ダウンフォールディング:電荷密度波材料におけるポテンシャルエネルギー景観、非調和性、分子動力学

Ab initio electron-lattice downfolding: potential energy landscapes, anharmonicity, and molecular dynamics in charge density wave materials ( http://arxiv.org/abs/2303.07261v1 )

ライセンス: Link先を確認
Arne Schobert, Jan Berges, Erik G. C. P. van Loon, Michael A. Sentef, Sergey Brener, Mariana Rossi, and Tim O. Wehling(参考訳) 電子と核の自由度の相互作用は、凝縮物質物理学と化学において際立った問題をもたらす。 計算上の課題は、特に大規模システム、長期スケール、非平衡システム、強い相関を持つシステムにおいて発生する。 本研究では, ダウンフォールディングアプローチが電子的側面における複雑さの低減を促進し, 電子的性質と核運動のシミュレーション, 特に分子動力学 (md) シミュレーションを促進させることを示す。 1H-TaS$_2$, 1T-TiSe$_2$, 1H-NbS$_2$, 1次元炭素鎖を含む選択電荷密度波(CDW)系のフル密度関数計算に対して, 制約, アンスクリーニング, 組み合わせに基づく3つの異なる下降戦略をベンチマークした。 ダウンフォールドモデルはスーパーセル上のポテンシャルエネルギー表面を正確に再現でき、純粋にab initio計算と比較して約5桁のmdシミュレーションで計算速度を上げることができる。 1H-TaS$_2$の場合、古典的なレプリカ交換と量子パス積分MDシミュレーションを報告し、CDW遷移に対する熱的および量子的変動の影響を明らかにした。

The interplay of electronic and nuclear degrees of freedom presents an outstanding problem in condensed matter physics and chemistry. Computational challenges arise especially for large systems, long time scales, in nonequilibrium, or in systems with strong correlations. In this work, we show how downfolding approaches facilitate complexity reduction on the electronic side and thereby boost the simulation of electronic properties and nuclear motion - in particular molecular dynamics (MD) simulations. Three different downfolding strategies based on constraining, unscreening, and combinations thereof are benchmarked against full density functional calculations for selected charge density wave (CDW) systems, namely 1H-TaS$_2$, 1T-TiSe$_2$, 1H-NbS$_2$, and a one-dimensional carbon chain. We find that the downfolded models can reproduce potential energy surfaces on supercells accurately and facilitate computational speedup in MD simulations by about five orders of magnitude in comparison to purely ab initio calculations. For monolayer 1H-TaS$_2$ we report classical replica exchange and quantum path integral MD simulations, revealing the impact of thermal and quantum fluctuations on the CDW transition.
翻訳日:2023-03-14 13:55:10 公開日:2023-03-13
# 水中可視光通信におけるチャネル推定 : スパース学習の視点から

Channel Estimation for Underwater Visible Light Communication: A Sparse Learning Perspective ( http://arxiv.org/abs/2303.07248v1 )

ライセンス: Link先を確認
Younan Mou, Sicong Liu(参考訳) 可視光信号の水中伝搬環境は、吸収、シャドーイング、反射といった複雑な要因に影響され、効果的な水中可視光通信(uvlc)チャネル推定を達成することが非常に困難である。 UVLCチャネルが時間領域と周波数領域でスパース表現されることは困難であり、チャンネル推定の性能を向上させるためにスパース信号処理技術を使用する可能性を制限する。 この目的のために,水中可視光チャネルの伝搬リンク距離領域におけるスパーシティを十分に活用し,圧縮センシング(cs)ベースの枠組みを確立する。 スパースリカバリ問題の解決と、より正確なUVLCチャネル推定を実現するために、スパースラーニングに基づく水中可視光チャネル推定法(SL-UVCE)を提案する。 具体的には、ampの反復を学習可能なパラメータの異なる一連の層に分解する近似メッセージパッシング(amp)の古典的な反復スパースリカバリアルゴリズムを模倣したディープアンフォールディングニューラルネットワークを用いる。 提案手法は,既存の非cs系およびcs系スキームと比較して,チャネル推定における精度が向上することを示す。

The underwater propagation environment for visible light signals is affected by complex factors such as absorption, shadowing, and reflection, making it very challengeable to achieve effective underwater visible light communication (UVLC) channel estimation. It is difficult for the UVLC channel to be sparse represented in the time and frequency domains, which limits the chance of using sparse signal processing techniques to achieve better performance of channel estimation. To this end, a compressed sensing (CS) based framework is established in this paper by fully exploiting the sparsity of the underwater visible light channel in the distance domain of the propagation links. In order to solve the sparse recovery problem and achieve more accurate UVLC channel estimation, a sparse learning based underwater visible light channel estimation (SL-UVCE) scheme is proposed. Specifically, a deep-unfolding neural network mimicking the classical iterative sparse recovery algorithm of approximate message passing (AMP) is employed, which decomposes the iterations of AMP into a series of layers with different learnable parameters. Compared with the existing non-CS-based and CS-based schemes, the proposed scheme shows better performance of accuracy in channel estimation, especially in severe conditions such as insufficient measurement pilots and large number of multipath components.
翻訳日:2023-03-14 13:54:44 公開日:2023-03-13
# 現実的な量子ハードウェア上のShallower CNOT回路

Shallower CNOT circuits on realistic quantum hardware ( http://arxiv.org/abs/2303.07302v1 )

ライセンス: Link先を確認
Timoth\'ee Goubault de Brugi\`ere, Simon Martiel(参考訳) 接続性に制限のあるハードウェア上でのCNOT回路の深さ最適化に着目する。 我々は,LNN(Linear Nearest Neighbour)アーキテクチャ上で,任意の$n$-qubit CNOT回路を最大5n$で実装したKutinらによるアルゴリズムを適用した。 我々の提案はKutinらのアルゴリズムのブロックバージョンであり、ハードウェアで利用可能なインタラクションの数に応じてスケーラブルである。 より優れた理論上の上限を導出し、アルゴリズムの簡単な実装を提供する。 全体として、グリッドやはしごのような現実的な量子ハードウェア上でのCNOT回路の深さの複雑さを改善する。 例えば、グリッド上の$n$-qubit cnot回路の実行は、深さ4n$で実行することができる。

We focus on the depth optimization of CNOT circuits on hardwares with limited connectivity. We adapt the algorithm from Kutin et al. that implements any $n$-qubit CNOT circuit in depth at most $5n$ on a Linear Nearest Neighbour (LNN) architecture. Our proposal is a block version of Kutin et al.'s algorithm that is scalable with the number of interactions available in the hardware: the more interactions we have the less the depth. We derive better theoretical upper bounds and we provide a simple implementation of the algorithm. Overall, we achieve better depth complexity for CNOT circuits on some realistic quantum hardware like a grid or a ladder. For instance the execution of a $n$-qubit CNOT circuit on a grid can be done in depth $4n$.
翻訳日:2023-03-14 13:47:41 公開日:2023-03-13
# 確率間のアルゴリズム情報について

On the Algorithmic Information Between Probabilities ( http://arxiv.org/abs/2303.07296v1 )

ライセンス: Link先を確認
Samuel Epstein(参考訳) 我々はアルゴリズムの保存不等式を確率測度まで拡張する。 確率測度の自己情報量は、ランダム化処理に従えば増加することができない。 これは(潜在的に計算不可能な)有限列、無限列、および第二可算位相である$T_0$を含む。 一つの例は、確率核を持つ実数上の信号の畳み込みである。 したがって、任意の信号の平滑化は、量子測定が与えられたとき、純粋な状態の圧倒的多数に対して、意味のある情報は生成されないことを示す。

We extend algorithmic conservation inequalities to probability measures. The amount of self information of a probability measure cannot increase when submitted to randomized processing. This includes (potentially non-computable) measures over finite sequences, infinite sequences, and $T_0$, second countable topologies. One example is the convolution of signals over real numbers with probability kernels. Thus the smoothing of any signal due We show that given a quantum measurement, for an overwhelming majority of pure states, no meaningful information is produced.
翻訳日:2023-03-14 13:47:31 公開日:2023-03-13
# 中間のミート: トレーニング済みの新たなパラダイム

Meet in the Middle: A New Pre-training Paradigm ( http://arxiv.org/abs/2303.07295v1 )

ライセンス: Link先を確認
Anh Nguyen, Nikos Karampatziakis, Weizhu Chen(参考訳) ほとんどの言語モデル(lms)は、次のトークンが前のトークンのみに依存すると仮定して、自己回帰的な左から右への方法で訓練され適用される。 しかし、この仮定は、トレーニング中に全シーケンス情報を使用することの潜在的な利点と、推論中に両側からコンテキストを持つ可能性を無視している。 本稿では,入力タスクにおけるLMのトレーニングデータ効率と能力を協調的に向上させる技術を備えた,新しい事前学習パラダイムを提案する。 1つは、左から右のlmの予測を、同じデータに基づいてトレーニングされた右から左のlmの予測と一致させるトレーニング目標である。 2つ目は双方向の推論手順で、両方のLMが中央で一致できるようにする。 我々は,プログラミングモデルと自然言語モデルの両方において,強いベースラインを上回って広範な実験を行い,事前学習パラダイムの有効性を示す。

Most language models (LMs) are trained and applied in an autoregressive left-to-right fashion, assuming that the next token only depends on the preceding ones. However, this assumption ignores the potential benefits of using the full sequence information during training, and the possibility of having context from both sides during inference. In this paper, we propose a new pre-training paradigm with techniques that jointly improve the training data efficiency and the capabilities of the LMs in the infilling task. The first is a training objective that aligns the predictions of a left-to-right LM with those of a right-to-left LM, trained on the same data but in reverse order. The second is a bidirectional inference procedure that enables both LMs to meet in the middle. We show the effectiveness of our pre-training paradigm with extensive experiments on both programming and natural language models, outperforming strong baselines.
翻訳日:2023-03-14 13:47:23 公開日:2023-03-13
# トランスフォーマティブに基づく感情検出手法

Transformer-based approaches to Sentiment Detection ( http://arxiv.org/abs/2303.07292v1 )

ライセンス: Link先を確認
Olumide Ebenezer Ojo, Hoang Thang Ta, Alexander Gelbukh, Hiram Calvo, Olaronke Oluwayemisi Adebanji, Grigori Sidorov(参考訳) 転写学習手法の使用は、複数のドメインにわたる自然言語処理(NLP)タスクのブレークスルーに大きく寄与している。 感情検出の問題を解決するために,テキスト分類のための4種類の既知変圧器モデルの性能について検討した。 変換器(BERT)からの双方向エンコーダ表現、ロバスト最適化BERT事前学習アプローチ(RoBERTa)、BERTの蒸留版(DistilBERT)、大規模双方向ニューラルネットワークアーキテクチャ(XLNet)などのモデルを提案する。 テキスト中の災害検出に使用された4つのモデルの性能を比較した。 全てのモデルは十分に機能し、トランスフォーマーベースのモデルはテキスト中の災害検出に適していることを示している。 RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。 さらに,学習アルゴリズムの性能は,前処理技術,語彙中の単語の性質,バランスの取れないラベル付け,モデルパラメータの影響を受けていることがわかった。

The use of transfer learning methods is largely responsible for the present breakthrough in Natural Learning Processing (NLP) tasks across multiple domains. In order to solve the problem of sentiment detection, we examined the performance of four different types of well-known state-of-the-art transformer models for text classification. Models such as Bidirectional Encoder Representations from Transformers (BERT), Robustly Optimized BERT Pre-training Approach (RoBERTa), a distilled version of BERT (DistilBERT), and a large bidirectional neural network architecture (XLNet) were proposed. The performance of the four models that were used to detect disaster in the text was compared. All the models performed well enough, indicating that transformer-based models are suitable for the detection of disaster in text. The RoBERTa transformer model performs best on the test dataset with a score of 82.6% and is highly recommended for quality predictions. Furthermore, we discovered that the learning algorithms' performance was influenced by the pre-processing techniques, the nature of words in the vocabulary, unbalanced labeling, and the model parameters.
翻訳日:2023-03-14 13:47:08 公開日:2023-03-13
# 弦ネットモデルにおけるanyon凝縮

Anyon condensation in the string-net models ( http://arxiv.org/abs/2303.07291v1 )

ライセンス: Link先を確認
Chien-Hung Lin, Fiona J. Burnell(参考訳) 我々は、弦ネットモデルにおけるアーベルボソンの凝縮を、そのような遷移を通じて調律できるハミルトニアンの族を構築することによって研究する。 これらのハミルトニアンは、完全可解な弦ネット限界を2つ認めている: 1つは非凝縮相、もう1つは初期凝縮弦ネットハミルトニアン、もう1つは凝縮相、もう1つは最終凝縮弦ネットモデルによって記述される。 縮合弦ネットモデルについて、縮合弦ネットと縮合アーベルボソンに関連するデータの観点から体系的に記述する。 具体的には、非凝縮弦ネットが融合圏 $\mathcal{C}$ で記述されている場合、融合圏 $\mathcal{\tilde{C}}$ の弦ラベルと融合データが、凝縮弦ネットを記述するデータである $\mathcal{C}$ と、凝縮子を生成する弦オープレータを記述するデータから得られることを示す。 この構成は、(例えば)チャーン・サイモンズ理論から構築された弦網におけるキラルボソンを含む任意のアーベルボソンの凝縮を許すことにより、弦網におけるエノン凝縮への以前のアプローチを一般化する。 これにより、これらの2層モデルから明示的な時間反転対称性を持たずに文字列ネットの全データを得ることができる。 私たちはいくつかの例でアプローチを説明します。

We study condensation of abelian bosons in string-net models, by constructing a family of Hamiltonians that can be tuned through any such transition. We show that these Hamiltonians admit two exactly solvable, string-net limits: one deep in the uncondensed phase, described by an initial, uncondensed string net Hamiltonian, and one deep in the condensed phase, described by a final, condensed string net model. We give a systematic description of the condensed string net model in terms of the uncondensed string net and the data associated with the condensing abelian bosons. Specifically, if the uncondensed string net is described by a fusion category $\mathcal{C}$, we show how the string labels and fusion data of the fusion category $\mathcal{\tilde{C}}$ describing the condensed string net can be obtained from that of $\mathcal{C}$ and the data describing the string oeprators that create the condensing boson. This construction generalizes previous approaches to anyon condensation in string nets, by allowing the condensation of arbitrary abelian bosons, including chiral bosons in string nets constructed from (for example) Chern-Simons theories, which describe time-reversal invariant bilayer states. This gives a method for obtaining the full data for string nets without explicit time-reversal symmetry from such bilayer models. We illustrate our approach with several examples.
翻訳日:2023-03-14 13:46:51 公開日:2023-03-13
# サブガウス内在的モーメントノルムによる密接な非漸近的推論

Tight Non-asymptotic Inference via Sub-Gaussian Intrinsic Moment Norm ( http://arxiv.org/abs/2303.07287v1 )

ライセンス: Link先を確認
Huiming Zhang, Haoyu Wei, Guang Cheng(参考訳) 非漸近的統計的推論では、サブガウス分布の分散型パラメータが重要な役割を果たす。 しかし,経験的モーメント生成関数(MGF)に基づくパラメータの直接推定は不可能である。 この目的のために、一連の正規化モーメントを最大化することで、下位ゲージ固有モーメントノルム(buldygin and kozachenko (2000), theorem 1.3)を使うことを推奨する。 重要なことに、推奨ノルムは対応する MGF の指数モーメント境界を回復するだけでなく、ホーフディングの準ガウス濃度の不等式もより強くする。 実際、"color{black} は、サブガウスプロットによって有限のサンプルサイズでサブガウスデータをチェックする直感的な方法を提案する。 固有モーメントノルムは、単純なプラグインアプローチで頑健に推定できる。 理論結果は多腕バンディットを含む非漸近解析に適用できる。

In non-asymptotic statistical inferences, variance-type parameters of sub-Gaussian distributions play a crucial role. However, direct estimation of these parameters based on the empirical moment generating function (MGF) is infeasible. To this end, we recommend using a sub-Gaussian intrinsic moment norm [Buldygin and Kozachenko (2000), Theorem 1.3] through maximizing a series of normalized moments. Importantly, the recommended norm can not only recover the exponential moment bounds for the corresponding MGFs, but also lead to tighter Hoeffding's sub-Gaussian concentration inequalities. In practice, {\color{black} we propose an intuitive way of checking sub-Gaussian data with a finite sample size by the sub-Gaussian plot}. Intrinsic moment norm can be robustly estimated via a simple plug-in approach. Our theoretical results are applied to non-asymptotic analysis, including the multi-armed bandit.
翻訳日:2023-03-14 13:46:22 公開日:2023-03-13
# Align and Attend: Dual Contrastive Lossesを用いたマルチモーダル要約

Align and Attend: Multimodal Summarization with Dual Contrastive Losses ( http://arxiv.org/abs/2303.07284v1 )

ライセンス: Link先を確認
Bo He, Jun Wang, Jielin Qiu, Trung Bui, Abhinav Shrivastava, Zhaowen Wang(参考訳) マルチモーダル要約の目標は、異なるモダリティから最も重要な情報を抽出して要約を形成することである。 単項要約とは異なり、マルチモーダル要約タスクはクロスモーダル情報を明示的に活用し、より信頼性が高く高品質な要約を生成する。 しかし、既存の手法では、異なるモダリティ間の時間的対応を活用できず、異なるサンプル間の固有の相関を無視する。 そこで本研究では,マルチモーダル入力を効果的に調整し,対応できる統一マルチモーダルトランスフォーマーモデルであるa2summ(aldin and attend multimodal summarization)を提案する。 さらに,試料間相関と試料内相関の両方をモデル化する2つの新しいコントラスト損失を提案する。 2つの標準ビデオ要約データセット(TVSumとSumMe)と2つのマルチモーダル要約データセット(Daily MailとCNN)に対する大規模な実験は、A2Summの優位性を示し、すべてのデータセットで最先端のパフォーマンスを達成する。 さらに,ライブストリームビデオと注釈付き要約文を含む大規模マルチモーダル要約データセットBLiSSを収集した。 私たちのコードとデータセットは、~\url{https://boheumd.github.io/A2Summ/}で公開されています。

The goal of multimodal summarization is to extract the most important information from different modalities to form summaries. Unlike unimodal summarization, the multimodal summarization task explicitly leverages cross-modal information to help generate more reliable and high-quality summaries. However, existing methods fail to leverage the temporal correspondence between different modalities and ignore the intrinsic correlation between different samples. To address this issue, we introduce Align and Attend Multimodal Summarization (A2Summ), a unified multimodal transformer-based model which can effectively align and attend the multimodal input. In addition, we propose two novel contrastive losses to model both inter-sample and intra-sample correlations. Extensive experiments on two standard video summarization datasets (TVSum and SumMe) and two multimodal summarization datasets (Daily Mail and CNN) demonstrate the superiority of A2Summ, achieving state-of-the-art performances on all datasets. Moreover, we collected a large-scale multimodal summarization dataset BLiSS, which contains livestream videos and transcribed texts with annotated summaries. Our code and dataset are publicly available at ~\url{https://boheumd.github.io/A2Summ/}.
翻訳日:2023-03-14 13:46:07 公開日:2023-03-13
# チェス:カオス工学に基づく自己適応システム評価のためのフレームワーク

CHESS: A Framework for Evaluation of Self-adaptive Systems based on Chaos Engineering ( http://arxiv.org/abs/2303.07283v1 )

ライセンス: Link先を確認
Sehrish Malik, Moeen Ali Naqvi, Leon Moonen(参考訳) 批判的かつ高ダイナミックな環境での自己適応型および自己修復型システムの正しい振る舞いを評価する必要性が高まっている。 しかし、自己適応型・自己修復型システムには体系的な評価方法がない。 カオスエンジニアリング(CE) [arXiv:2208.13227 ] に基づくフォールトインジェクションによる自己適応型および自己修復型システムの評価により, このギャップに対処する新しいアプローチであるCHESSを提案する。 本稿では,2つのマイクロサービスベースのケーススタディ(スマートオフィスケーススタディとYelbという既存のデモアプリケーション)を通じて,CHESSの使用について概観する。 管理システムサービス、自己監視サービス、インフラストラクチャ障害と機能障害をカバーする5つのフォールトインジェクションシナリオが付属している。 これらのコンポーネントは、CHESSアプローチを新しいケーススタディに適用するために簡単に拡張または置き換えることができ、その約束と制限を探索し、将来の研究の方向性を特定するのに役立つ。 キーワード:自己修復、レジリエンス、カオスエンジニアリング、評価、アーティファクト

There is an increasing need to assess the correct behavior of self-adaptive and self-healing systems due to their adoption in critical and highly dynamic environments. However, there is a lack of systematic evaluation methods for self-adaptive and self-healing systems. We proposed CHESS, a novel approach to address this gap by evaluating self-adaptive and self-healing systems through fault injection based on chaos engineering (CE) [ arXiv:2208.13227 ]. The artifact presented in this paper provides an extensive overview of the use of CHESS through two microservice-based case studies: a smart office case study and an existing demo application called Yelb. It comes with a managing system service, a self-monitoring service, as well as five fault injection scenarios covering infrastructure faults and functional faults. Each of these components can be easily extended or replaced to adopt the CHESS approach to a new case study, help explore its promises and limitations, and identify directions for future research. Keywords: self-healing, resilience, chaos engineering, evaluation, artifact
翻訳日:2023-03-14 13:45:41 公開日:2023-03-13
# 成功検知器としての視覚言語モデル

Vision-Language Models as Success Detectors ( http://arxiv.org/abs/2303.07280v1 )

ライセンス: Link先を確認
Yuqing Du, Ksenia Konyushkova, Misha Denil, Akhil Raju, Jessica Landon, Felix Hill, Nando de Freitas, Serkan Cabi(参考訳) 知的エージェントのトレーニングには、行動の成功を検出することが重要です。 このように、一般化可能な報酬モデルは、行動の一般化を学ぶことができるエージェントの前提条件である。 本研究では,大規模な視覚言語モデル(Flamingo, Alayrac et al. (2022))と人間の報酬アノテーションを活用する,堅牢な成功検出装置の開発に注力する。 具体的には,成功検出を視覚的質問応答(VQA)問題として扱う。 3つの異なる領域にわたる成功検出について研究する。 (i)シミュレート家庭における対話型言語条件エージェント (ii)実世界のロボット操作、及び (iii)人間エゴセントリックビデオ「in-the-wild」 フラミンゴをベースとした成功度検出モデルの一般化特性と,最初の2つの領域における視覚的変化について検討し,いずれの変分も伴わない分布外テストシナリオにおいて,提案手法がベスパイク報酬モデルより優れていることを示した。 実写ビデオの最後の領域では,実写ビデオにおける成功検出が,今後の作業に合致するさらに困難な一般化課題であることを示す。 最初の成果が,現実世界の成功検出と報酬モデリングのさらなる作業を促進することを願っています。

Detecting successful behaviour is crucial for training intelligent agents. As such, generalisable reward models are a prerequisite for agents that can learn to generalise their behaviour. In this work we focus on developing robust success detectors that leverage large, pretrained vision-language models (Flamingo, Alayrac et al. (2022)) and human reward annotations. Concretely, we treat success detection as a visual question answering (VQA) problem, denoted SuccessVQA. We study success detection across three vastly different domains: (i) interactive language-conditioned agents in a simulated household, (ii) real world robotic manipulation, and (iii) "in-the-wild" human egocentric videos. We investigate the generalisation properties of a Flamingo-based success detection model across unseen language and visual changes in the first two domains, and find that the proposed method is able to outperform bespoke reward models in out-of-distribution test scenarios with either variation. In the last domain of "in-the-wild" human videos, we show that success detection on unseen real videos presents an even more challenging generalisation task warranting future work. We hope our initial results encourage further work in real world success detection and reward modelling.
翻訳日:2023-03-14 13:45:26 公開日:2023-03-13
# 普遍符号化、内在ボリューム、および計量複雑性

Universal coding, intrinsic volumes, and metric complexity ( http://arxiv.org/abs/2303.07279v1 )

ライセンス: Link先を確認
Jaouad Mourtada(参考訳) ガウス集合における逐次確率割当について検討し、与えられた$\mathbf{r}^n$ の部分集合に平均が制約された最良ガウス分布と同様に、実数値観測の列を予測、または同等に圧縮することを目的としている。 第一に、凸制約セット $k$ の場合には、予想問題の難しさ(ミニマックスの後悔)を、本質的体積 $k$ で表現し、具体的には凸幾何学から機能する意志の対数と等しい。 次に、一般非凸の場合におけるウィルズ汎関数の比較不等式を確立し、この量の計量的性質を基礎とし、ガウス幅に対するスレピアン・スダコフ・フェルニク比較原理を一般化する。 この不等式に動機づけられ、大域被覆数と局所ガウス幅の観点で、一般非凸集合に対する関数と見なされる函数の正確な等級を特徴づける。 これは凸体の内在的な体積列の対数ラプラス変換の計量同型な推定を意味する。 解析の一部として、一般的な制約集合に対するミニマックス冗長性も特徴付ける。 情報理論における古典的漸近的結果と最終的に関連づけて比較する。

We study sequential probability assignment in the Gaussian setting, where the goal is to predict, or equivalently compress, a sequence of real-valued observations almost as well as the best Gaussian distribution with mean constrained to a given subset of $\mathbf{R}^n$. First, in the case of a convex constraint set $K$, we express the hardness of the prediction problem (the minimax regret) in terms of the intrinsic volumes of $K$; specifically, it equals the logarithm of the Wills functional from convex geometry. We then establish a comparison inequality for the Wills functional in the general nonconvex case, which underlines the metric nature of this quantity and generalizes the Slepian-Sudakov-Fernique comparison principle for the Gaussian width. Motivated by this inequality, we characterize the exact order of magnitude of the considered functional for a general nonconvex set, in terms of global covering numbers and local Gaussian widths. This implies metric isomorphic estimates for the log-Laplace transform of the intrinsic volume sequence of a convex body. As part of our analysis, we also characterize the minimax redundancy for a general constraint set. We finally relate and contrast our findings with classical asymptotic results in information theory.
翻訳日:2023-03-14 13:45:05 公開日:2023-03-13
# コントラスト学習による教師なしHDR画像とビデオトーンマッピング

Unsupervised HDR Image and Video Tone Mapping via Contrastive Learning ( http://arxiv.org/abs/2303.07327v1 )

ライセンス: Link先を確認
Cong Cao, Huanjing Yue, Xin Liu, Jingyu Yang(参考訳) 高ダイナミックレンジ(hdr)画像(ビデオ)の撮影は、暗い領域と明るい領域の両方で詳細を明らかにすることができるため、魅力的である。 主流画面は低ダイナミックレンジ(LDR)コンテンツしかサポートしていないため、HDR画像(ビデオ)のダイナミックレンジを圧縮するためにトーンマッピングアルゴリズムが必要である。 画像トーンマッピングは広く研究されているが、HDR-LDRビデオペアが不足しているため、特にディープラーニングベースの手法ではビデオトーンマッピングが遅れている。 本研究では,教師なし画像とビデオトーンマッピングのための統合フレームワーク(IVTMNet)を提案する。 教師なし学習を改善するために,ドメインとインスタンスに基づくコントラスト学習損失を提案する。 類似度測定のための特徴を抽出するためにvggのような普遍的特徴抽出器を使う代わりに、抽出された特徴の輝度とコントラストの集約である新しい潜在コードを提案し、異なる対の類似度を測定する。 2つの負のペアと3つの正のペアを完全に構築し、トーンマップ結果の潜在コードを制限する。 ビデオトーンマッピングでは,時間的相関を効率的に活用し,映像トーンマップ結果の時間的一貫性を向上させるtfrモジュールを提案する。 我々は、ビデオトーンマッピングのための教師なしトレーニングプロセスを容易にするために、大規模な未ペアHDR-LDRビデオデータセットを構築した。 実験の結果,本手法は最先端画像と映像トーンマッピング法を上回った。 私たちのコードとデータセットは、この作業が受け入れられてからリリースされます。

Capturing high dynamic range (HDR) images (videos) is attractive because it can reveal the details in both dark and bright regions. Since the mainstream screens only support low dynamic range (LDR) content, tone mapping algorithm is required to compress the dynamic range of HDR images (videos). Although image tone mapping has been widely explored, video tone mapping is lagging behind, especially for the deep-learning-based methods, due to the lack of HDR-LDR video pairs. In this work, we propose a unified framework (IVTMNet) for unsupervised image and video tone mapping. To improve unsupervised training, we propose domain and instance based contrastive learning loss. Instead of using a universal feature extractor, such as VGG to extract the features for similarity measurement, we propose a novel latent code, which is an aggregation of the brightness and contrast of extracted features, to measure the similarity of different pairs. We totally construct two negative pairs and three positive pairs to constrain the latent codes of tone mapped results. For video tone mapping, we propose a temporal-feature-replaced (TFR) module to efficiently utilize the temporal correlation and improve the temporal consistency of video tone-mapped results. We construct a large-scale unpaired HDR-LDR video dataset to facilitate the unsupervised training process for video tone mapping. Experimental results demonstrate that our method outperforms state-of-the-art image and video tone mapping methods. Our code and dataset will be released after the acceptance of this work.
翻訳日:2023-03-14 13:39:06 公開日:2023-03-13
# 高ドープ量子井戸におけるクーロン誘起サブバンドコヒーレンスの同期と巨大集団共鳴の形成

Coulomb-induced synchronization of intersubband coherences in highly doped quantum wells and the formation of giant collective resonances ( http://arxiv.org/abs/2303.07322v1 )

ライセンス: Link先を確認
Mikhail Tokman, Maria Erukhimova, Yongrui Wang, Alexey Belyanin(参考訳) 多体クーロン相互作用は、高ドープ半導体量子井戸の光学応答を劇的に変化させ、全てのサブバンド間遷移共鳴を全ての単粒子遷移周波数よりもかなり高い周波数で1つの鋭いピークに融合させる。 ハーツリー・フォック近似における対相互作用フェルミオンの気体に対する標準密度行列式から、この効果はクーロンによる全ての$N$サブバンド間遷移のコヒーレンス振動の同期と、外部光学場との結合の急激な集合的増加によるものであることを示す。 高ドーピング限界において、光と物質の相互作用のダイナミクスは、系の新しい集合正規モードを決定し、ブルーシフト集合共鳴の周波数と強度を予測する、n$結合振動子の解析理論によって記述される。

Many-body Coulomb interactions drastically modify the optical response of highly doped semiconductor quantum wells leading to a merger of all intersubband transition resonances into one sharp peak at the frequency substantially higher than all single-particle transition frequencies. Starting from standard density matrix equations for the gas of pairwise interacting fermions within Hartree-Fock approximation, we show that this effect is due to Coulomb-induced synchronization of the oscillations of coherences of all $N$ intersubband transitions and sharp collective increase in their coupling with an external optical field. In the high doping limit, the dynamics of light-matter interaction is described by the analytic theory of $N$ coupled oscillators which determines new collective normal modes of the system and predicts the frequency and strength of the blueshifted collective resonance.
翻訳日:2023-03-14 13:38:39 公開日:2023-03-13
# 自己ラベル分類のための衝突クロスエントロピーとEMアルゴリズム

Collision Cross-entropy and EM Algorithm for Self-labeled Classification ( http://arxiv.org/abs/2303.07321v1 )

ライセンス: Link先を確認
Zhongwen Zhang, Yuri Boykov(参考訳) 後方モデルを用いた自己ラベル分類の文脈において、シャノンのクロスエントロピーに代わるロバストな選択肢として「コリシオンクロスエントロピー」を提案する。 ラベルのないデータを仮定すると、自己ラベルは潜在的な擬似ラベル、カテゴリー分布 y を推定し、「決定性」や「フェアネス」のような差別的クラスタリング基準を最適化する。 既存の自己ラベル付き損失は全て、推定分布yにおけるモデル予測、ソフトマックスを対象とするシャノンのクロスエントロピー項を含む。 実際、ソフトマックスはyの不確かさを正確に模倣するように訓練されている。 代わりに、ソフトマックスとyの分布で表される2つの確率変数の等しい確率を最大化する「衝突」の負の対数類似性を提案する。 我々の損失は、一般化されたクロスエントロピーのいくつかの性質を満たす。 興味深いことに、1つのホットな擬似ラベルyに対するシャノンのクロスエントロピーと一致するが、よりソフトなラベルからのトレーニングは弱まる。 例えば、あるデータポイントにおけるyが一様分布であれば、トレーニングへの寄与はゼロである。 衝突クロスエントロピーと基本的なクラスタリング基準を組み合わせた自己ラベル損失は凸 w.r.t. 擬似ラベルであるが、確率単純性の最適化には非自明である。 擬似ラベルyをジェネリック法よりも大幅に高速に最適化する実用的なEMアルゴリズムを導出する。 衝突クロスエントロピーは、異なるdnnを用いた複数の自己ラベルクラスタリング例の結果を一貫して改善する。

We propose "collision cross-entropy" as a robust alternative to the Shannon's cross-entropy in the context of self-labeled classification with posterior models. Assuming unlabeled data, self-labeling works by estimating latent pseudo-labels, categorical distributions y, that optimize some discriminative clustering criteria, e.g. "decisiveness" and "fairness". All existing self-labeled losses incorporate Shannon's cross-entropy term targeting the model prediction, softmax, at the estimated distribution y. In fact, softmax is trained to mimic the uncertainty in y exactly. Instead, we propose the negative log-likelihood of "collision" to maximize the probability of equality between two random variables represented by distributions softmax and y. We show that our loss satisfies some properties of a generalized cross-entropy. Interestingly, it agrees with the Shannon's cross-entropy for one-hot pseudo-labels y, but the training from softer labels weakens. For example, if y is a uniform distribution at some data point, it has zero contribution to the training. Our self-labeling loss combining collision cross entropy with basic clustering criteria is convex w.r.t. pseudo-labels, but non-trivial to optimize over the probability simplex. We derive a practical EM algorithm optimizing pseudo-labels y significantly faster than generic methods, e.g. the projectile gradient descent. The collision cross-entropy consistently improves the results on multiple self-labeled clustering examples using different DNNs.
翻訳日:2023-03-14 13:38:23 公開日:2023-03-13
# NLPモデルを逆向きにロバストにするモデルチューニングVia Prompts

Model-tuning Via Prompts Makes NLP Models Adversarially Robust ( http://arxiv.org/abs/2303.07320v1 )

ライセンス: Link先を確認
Mrigank Raman, Pratyush Maini, J. Zico Kolter, Zachary C. Lipton, Danish Pruthi(参考訳) 近年、NLP実践者は以下の実践に集約されている。 (i)既成品(マスク)言語モデルを輸入すること。 (ii) CLSトークンの隠された表現(ランダム初期化重み付き)の上に多層パーセプトロンを付加し、 (iii)下流タスク(mlp)上のモデル全体を微調整すること。 この手順は標準のNLPベンチマークで大幅に向上したが、これらのモデルは、単語レベルの同義語置換のような穏やかな逆転摂動に対しても不安定なままである。 本研究は,下流タスクに適応する代替手法である Model-tuning Via Prompts (MVP) によって実現された,対向的堅牢性の驚くべき向上を示す。 モデルを変更する(MLPヘッドを追加する)代わりに、MVPは入力を変更する(プロンプトテンプレートを追加する)。 3つの分類データセットをまたいで、mvpは、敵語レベルの同義語置換に対するパフォーマンスを標準メソッドの平均で8%改善し、敵語トレーニングベースの最先端防御を3.5%上回っている。 mvpと対向訓練を組み合わせることで、クリーンな精度を維持しつつ、ロバストな正確性をさらに向上させる。 最後に,これらのゲインのメカニズムを検討するため,アブレーションを行う。 特に,MLPの脆弱性の主な原因は,事前学習タスクと微調整タスクのミスアライメントと,ランダムに初期化したMLPパラメータによるものである。 コードはhttps://github.com/acmi-lab/mvpで入手できる。

In recent years, NLP practitioners have converged on the following practice: (i) import an off-the-shelf pretrained (masked) language model; (ii) append a multilayer perceptron atop the CLS token's hidden representation (with randomly initialized weights); and (iii) fine-tune the entire model on a downstream task (MLP). This procedure has produced massive gains on standard NLP benchmarks, but these models remain brittle, even to mild adversarial perturbations, such as word-level synonym substitutions. In this work, we demonstrate surprising gains in adversarial robustness enjoyed by Model-tuning Via Prompts (MVP), an alternative method of adapting to downstream tasks. Rather than modifying the model (by appending an MLP head), MVP instead modifies the input (by appending a prompt template). Across three classification datasets, MVP improves performance against adversarial word-level synonym substitutions by an average of 8% over standard methods and even outperforms adversarial training-based state-of-art defenses by 3.5%. By combining MVP with adversarial training, we achieve further improvements in robust accuracy while maintaining clean accuracy. Finally, we conduct ablations to investigate the mechanism underlying these gains. Notably, we find that the main causes of vulnerability of MLP can be attributed to the misalignment between pre-training and fine-tuning tasks, and the randomly initialized MLP parameters. Code is available at https://github.com/acmi-lab/mvp
翻訳日:2023-03-14 13:38:00 公開日:2023-03-13
# ラベルなしビデオによる最寄り-neighbor間コントラスト学習

Nearest-Neighbor Inter-Intra Contrastive Learning from Unlabeled Videos ( http://arxiv.org/abs/2303.07317v1 )

ライセンス: Link先を確認
David Fan, Deyu Yang, Xinyu Li, Vimal Bhat, Rohith MV(参考訳) コントラスト学習は、画像領域とビデオ領域における自己監督的手法と教師的手法のギャップを狭めた。 CVRLや$\rho$-MoCoのような最先端のビデオコントラスト学習手法は、時間的に同じビデオから2つのクリップを肯定的に増強する。 単一のビデオからローカルにポジティブなクリップをサンプリングするだけで、意味的に関連した他のビデオも無視できる。 この制限に対処するために、我々は、グローバル空間から最も近い隣の動画を追加のポジティブペアとして活用し、ポジティブなキーの多様性を改善し、ビデオやクラスの境界を超えて、よりリラックスした類似性の概念を導入する。 Intra Video Contrastive Learning (IIVCL) と呼ばれる手法は,様々なビデオタスクのパフォーマンスを向上させる。

Contrastive learning has recently narrowed the gap between self-supervised and supervised methods in image and video domain. State-of-the-art video contrastive learning methods such as CVRL and $\rho$-MoCo spatiotemporally augment two clips from the same video as positives. By only sampling positive clips locally from a single video, these methods neglect other semantically related videos that can also be useful. To address this limitation, we leverage nearest-neighbor videos from the global space as additional positive pairs, thus improving positive key diversity and introducing a more relaxed notion of similarity that extends beyond video and even class boundaries. Our method, Inter-Intra Video Contrastive Learning (IIVCL), improves performance on a range of video tasks.
翻訳日:2023-03-14 13:37:35 公開日:2023-03-13
# 英国のサイバー防衛に関するデータ駆動分析

A data-driven analysis of UK cyber defence ( http://arxiv.org/abs/2303.07313v1 )

ライセンス: Link先を確認
Justin McKeown(参考訳) 私たちの研究は、この疑問に答えています。英国のサイバー脅威の状況はどのようなものなのか? これに対処する上では、検出可能、既知の、および潜在的に防止可能なサイバー脅威、特に彼らが見せている悪意のあるスキャンアクティビティの種類によって識別されるものに焦点を当てます。 このアプローチを選んだ理由は2つあります。 まず、ここで証明されているように、英国の市民の生活や事業に影響を及ぼすサイバー脅威の大部分は、識別可能で予防可能な脅威である。 このように、市民がサイバー脅威を予防し、検出し、対処する方法を改善することで、英国のサイバー防衛を改善する可能性がある。 これを達成するには、政策立案者に通知する根拠が必要だ。 第二に、既知の脅威空間(つまり、検出可能、識別可能、および潜在的に防止可能なサイバー脅威)の量的根拠を構築することは、この情報がより新しいサイバー脅威の出現を検知しようとする場合に有用かどうかを確認するために有用である。 本研究は、2020年12月1日から2021年11月30日までに英国内で収集された悪意のあるインターネットスキャン活動を分析した。 データは、greynoiseのデータを収集し処理するカスタム自動化システムによって収集され、それをshodan経由で強化し、イギリスの地名と位置情報に関する国家統計局のデータと所有者データと照合した。

Our research addresses the question: What are the conditions of the UK's cyber threat landscape? In addressing this we focus on detectable, known and therefore potentially preventable cyber threats, specifically those that are identifiable by the types of malicious scanning activities they exhibit. We have chosen this approach for two reasons. First, as is evidenced herein, the vast majority of cyber threats affecting the lives and business endeavours of UK citizens are identifiable, preventable threats. Thus the potential exists to better improve UK cyber defence by improving how citizens are supported in preventing, detecting and responding to cyber threats. Achieving this requires an evidence base to inform policy makers. Second, it is potentially useful to build a quantifiable evidence base of the known threat space - that is to say detectable, identifiable and therefore potentially preventable cyber threats - to ascertain if this information may also be useful when attempting to detect the emergence of more novel cyber threats. This research presents an analysis of malicious internet scanning activity collected within the UK between 1st December 2020 and the 30th November 2021. The data was gathered via a custom automated system which collected and processed data from Greynoise, enriched this via Shodan, cross referencing it with data from the Office of National Statistics and proprietorial data on UK place names and geolocation.
翻訳日:2023-03-14 13:37:21 公開日:2023-03-13
# グラフニューラルネットワークを用いた循環器シミュレーションのための低次学習モデル

Learning Reduced-Order Models for Cardiovascular Simulations with Graph Neural Networks ( http://arxiv.org/abs/2303.07310v1 )

ライセンス: Link先を確認
Luca Pegolotti, Martin R. Pfaller, Natalia L. Rubio, Ke Ding, Rita Brugarolas Brufau, Eric Darve, Alison L. Marsden(参考訳) 物理学に基づく減数次モデルは、その効率性から心臓血管モデリングにおいて一般的な選択であるが、多数の接合部や病理状態を含む解剖学を扱う際に精度が低下することがある。 三次元血行シミュレーションデータに基づいて学習したグラフニューラルネットワークを用いて,血流動態をシミュレートする1次元還元次モデルを開発した。 システムの初期状態を考えると、ネットワークは容器の中心線ノードの圧力と流量を反復的に予測する。 本手法は,様々な解剖学と境界条件からなる生理学的ジオメトリにおいて精度と一般化性を示す。 以上の結果から, 適切なトレーニングデータがあれば, 圧力と流量について2%, 3%以下の誤差が得られることがわかった。 その結果, 提案手法は物理系1次元モデルと比較して優れた性能を示し, 推論時の効率を維持した。

Reduced-order models based on physics are a popular choice in cardiovascular modeling due to their efficiency, but they may experience reduced accuracy when working with anatomies that contain numerous junctions or pathological conditions. We develop one-dimensional reduced-order models that simulate blood flow dynamics using a graph neural network trained on three-dimensional hemodynamic simulation data. Given the initial condition of the system, the network iteratively predicts the pressure and flow rate at the vessel centerline nodes. Our numerical results demonstrate the accuracy and generalizability of our method in physiological geometries comprising a variety of anatomies and boundary conditions. Our findings demonstrate that our approach can achieve errors below 2% and 3% for pressure and flow rate, respectively, provided there is adequate training data. As a result, our method exhibits superior performance compared to physics-based one-dimensional models, while maintaining high efficiency at inference time.
翻訳日:2023-03-14 13:36:59 公開日:2023-03-13
# NeuSE: 物体との連続的空間理解のためのニューラルSE(3)-同変埋め込み

NeuSE: Neural SE(3)-Equivariant Embedding for Consistent Spatial Understanding with Objects ( http://arxiv.org/abs/2303.07308v1 )

ライセンス: Link先を確認
Jiahui Fu, Yilun Du, Kurran Singh, Joshua B. Tenenbaum, and John J. Leonard(参考訳) 本稿では,物体に対するニューラルSE(3)-等価な埋め込みであるNeuSEを紹介し,長期のシーン変化と一貫した空間的理解のためにオブジェクトSLAMをどのようにサポートするかを説明する。 NeuSEは、部分的な物体観測から生成された潜伏物体の埋め込みである。 完全なオブジェクトモデルのためのコンパクトな点クラウドサロゲートとして機能し、物理的な世界のオブジェクトとSE(3)-等角変換しながら、完全な形状情報を符号化する。 NeuSEでは、相対的なフレーム変換は推論された潜在符号から直接引き出すことができる。 提案するSLAMパラダイムは,物体形状やポーズ特性にNeuSEを用い,通常のSLAMシステムと独立に動作させることができる。 一般的なslamポーズグラフ最適化と互換性のあるse(3)カメラポーズ制約を直接推定すると同時に、現実世界の変化に適応する軽量なオブジェクト中心マップも維持する。 提案手法は, 変更対象を特徴とする合成および実世界のシーケンスに基づいて評価され, 共通SLAMパイプラインと独立あるいは共同作業する場合に, 局所化精度と変化対応マッピング能力が改善された。

We present NeuSE, a novel Neural SE(3)-Equivariant Embedding for objects, and illustrate how it supports object SLAM for consistent spatial understanding with long-term scene changes. NeuSE is a set of latent object embeddings created from partial object observations. It serves as a compact point cloud surrogate for complete object models, encoding full shape information while transforming SE(3)-equivariantly in tandem with the object in the physical world. With NeuSE, relative frame transforms can be directly derived from inferred latent codes. Our proposed SLAM paradigm, using NeuSE for object shape and pose characterization, can operate independently or in conjunction with typical SLAM systems. It directly infers SE(3) camera pose constraints that are compatible with general SLAM pose graph optimization, while also maintaining a lightweight object-centric map that adapts to real-world changes. Our approach is evaluated on synthetic and real-world sequences featuring changed objects and shows improved localization accuracy and change-aware mapping capability, when working either standalone or jointly with a common SLAM pipeline.
翻訳日:2023-03-14 13:36:45 公開日:2023-03-13
# 急性脳機能障害予測のためのトランスフォーマーモデル

Transformer Models for Acute Brain Dysfunction Prediction ( http://arxiv.org/abs/2303.07305v1 )

ライセンス: Link先を確認
Brandon Silva, Miguel Contreras, Tezcan Ozrazgat Baslanti, Yuanfang Ren, Guan Ziyuan, Kia Khezeli, Azra Bihorac, Parisa Rashidi(参考訳) 急性脳機能障害(abd, coma, delirium)は、特に高齢者において、icuに多くみられる。 ケア提供者によるabdのマニュアル評価における現在のアプローチは散発的で主観的かもしれない。 したがって、abdの評価と予測を自動化するデータ駆動ロバストなシステムが必要である。 本研究では,HER(Electronic Health Record)データを用いたADBのリアルタイム予測のための機械学習システムの開発を行う。 我々のデータ処理パイプラインは、静的および時間的データの統合と、ABDに関連する機能の抽出を可能にします。 UF Shands HospitalのICUに入院した患者から収集したデータに基づいて,いくつかの最先端のトランスフォーマーモデルとベースライン機械学習モデルをトレーニングした。 本システムの有効性は,脳力の2値分類と多クラス分類(コマ,デリリウム,死,正常)を含む急性脳機能障害に関連する課題に有効であり,我々のLong-former 実装における平均 0.953 の AUROC を達成できることを示す。 そして,本システムは,ISUにおけるADBのリアルタイム予測に利用でき,ABDによるインシデント数を削減できる。 さらに、リアルタイムシステムは、コストを削減し、ICUに滞在する患者の期間を短縮し、関連する患者の死亡率を下げる可能性がある。

Acute brain dysfunctions (ABD), which include coma and delirium, are prevalent in the ICU, especially among older patients. The current approach in manual assessment of ABD by care providers may be sporadic and subjective. Hence, there exists a need for a data-driven robust system automating the assessment and prediction of ABD. In this work, we develop a machine learning system for real-time prediction of ADB using Electronic Health Record (HER) data. Our data processing pipeline enables integration of static and temporal data, and extraction of features relevant to ABD. We train several state-of-the-art transformer models and baseline machine learning models including CatBoost and XGB on the data that was collected from patients admitted to the ICU at UF Shands Hospital. We demonstrate the efficacy of our system for tasks related to acute brain dysfunction including binary classification of brain acuity and multi-class classification (i.e., coma, delirium, death, or normal), achieving a mean AUROC of 0.953 on our Long-former implementation. Our system can then be deployed for real-time prediction of ADB in ICUs to reduce the number of incidents caused by ABD. Moreover, the real-time system has the potential to reduce costs, duration of patients stays in the ICU, and mortality among those afflicted.
翻訳日:2023-03-14 13:36:25 公開日:2023-03-13
# TriDet: 相対境界モデルによる時間的行動検出

TriDet: Temporal Action Detection with Relative Boundary Modeling ( http://arxiv.org/abs/2303.07347v1 )

ライセンス: Link先を確認
Dingfeng Shi, Yujie Zhong, Qiong Cao, Lin Ma, Jia Li, Dacheng Tao(参考訳) 本稿では,時間的行動検出のための一段階フレームワークTriDetを提案する。 既存の手法はビデオのあいまいな動作境界による不正確な境界予測に悩まされることが多い。 そこで本研究では,境界付近の相対確率分布を推定して動作境界をモデル化する新しいトライデントヘッドを提案する。 トリデットの特徴ピラミッドでは,映像特徴に発生する自己注目のランクロス問題を軽減し,異なる時間的粒度にまたがる情報を集約する効率的なスケーラブル粒度知覚(sgp)層を提案する。 TridentヘッドとSGPベースの特徴ピラミッドから恩恵を受け、TriDetは3つの挑戦的なベンチマーク(THUMOS14、HACS、EPIC-KITCHEN 100)で最先端のパフォーマンスを達成した。 例えば、TriDetはTHUMOS14で平均69.3\%のmAPを達成し、以前の最高値を2.5\%で上回ったが、レイテンシは74.6\%でしかなかった。 コードはhttps://github.com/ssste/TriDetにリリースされている。

In this paper, we present a one-stage framework TriDet for temporal action detection. Existing methods often suffer from imprecise boundary predictions due to the ambiguous action boundaries in videos. To alleviate this problem, we propose a novel Trident-head to model the action boundary via an estimated relative probability distribution around the boundary. In the feature pyramid of TriDet, we propose an efficient Scalable-Granularity Perception (SGP) layer to mitigate the rank loss problem of self-attention that takes place in the video features and aggregate information across different temporal granularities. Benefiting from the Trident-head and the SGP-based feature pyramid, TriDet achieves state-of-the-art performance on three challenging benchmarks: THUMOS14, HACS and EPIC-KITCHEN 100, with lower computational costs, compared to previous methods. For example, TriDet hits an average mAP of $69.3\%$ on THUMOS14, outperforming the previous best by $2.5\%$, but with only $74.6\%$ of its latency. The code is released to https://github.com/sssste/TriDet.
翻訳日:2023-03-14 13:30:13 公開日:2023-03-13
# 散逸で安定化した位相エッジ状態の観察

Observation of a topological edge state stabilized by dissipation ( http://arxiv.org/abs/2303.07346v1 )

ライセンス: Link先を確認
Helene Wetter, Michael Fleischhauer, Stefan Linden, Julian Schmitt(参考訳) システムの境界に現れるロバストな状態は、トポロジカルなバンド構造の特徴を構成する。 閉じた系以外では、位相的に保護された状態は自明なバンド構造を持つ系でも起こりうる。 そこで本研究では,非エルミートな一次元格子系における位相的バンド構造の散逸による出現を,予備損失を持つプラズモニック導波路の配列によって実現している。 バンドギャップの中心に存在する位相的エッジ状態の直接的な証拠を得る。 散逸とホッピングのチューニングにより、位相的に異なる領域間の界面状態の形成と破壊が示される。

Robust states emerging at the boundary of a system constitute a hallmark for topological band structures. Other than in closed systems, topologically protected states can occur even in systems with a trivial band structure, if exposed to suitably modulated losses. Here, we study the dissipation-induced emergence of a topological band structure in a non-Hermitian one-dimensional lattice system, realized by arrays of plasmonic waveguides with tailored loss. We obtain direct evidence for a topological edge state that resides in the center of the band gap. By tuning dissipation and hopping, the formation and breakdown of an interface state between topologically distinct regions is demonstrated.
翻訳日:2023-03-14 13:29:51 公開日:2023-03-13
# 拡散モデルによる概念の消去

Erasing Concepts from Diffusion Models ( http://arxiv.org/abs/2303.07345v1 )

ライセンス: Link先を確認
Rohit Gandikota, Joanna Materzynska, Jaden Fiotto-Kaufman, David Bau(参考訳) 近年のテキストと画像の拡散の進展により,モデルの重みから特定の概念を消去する研究が進められている。 安定拡散は、明示的あるいは現実的なアートワークを作るという約束を示す一方で、誤用の可能性についての懸念を提起している。 そこで本稿では,スタイル名のみを考慮し,教師として負の指導を用いて,事前学習した拡散モデルから視覚概念を消去できる微調整手法を提案する。 我々は,性的に明示的な内容を取り除き,その効果を実証する従来の手法と比較し,Safe Latent Diffusionや検閲トレーニングと同等の性能を示す。 芸術的スタイルの除去を評価するため,ネットワークから5人の現代アーティストを消去する実験を行い,除去されたスタイルの人間の知覚を評価するためにユーザスタディを実施している。 従来の手法とは異なり,提案手法では,推定時に出力を変更するのではなく,拡散モデルから概念を永久的に取り除くことができるため,ユーザがモデル重み付けにアクセスしても回避できない。 私たちのコード、データ、結果はhttps://erasing.baulab.info/で閲覧できます。

Motivated by recent advancements in text-to-image diffusion, we study erasure of specific concepts from the model's weights. While Stable Diffusion has shown promise in producing explicit or realistic artwork, it has raised concerns regarding its potential for misuse. We propose a fine-tuning method that can erase a visual concept from a pre-trained diffusion model, given only the name of the style and using negative guidance as a teacher. We benchmark our method against previous approaches that remove sexually explicit content and demonstrate its effectiveness, performing on par with Safe Latent Diffusion and censored training. To evaluate artistic style removal, we conduct experiments erasing five modern artists from the network and conduct a user study to assess the human perception of the removed styles. Unlike previous methods, our approach can remove concepts from a diffusion model permanently rather than modifying the output at the inference time, so it cannot be circumvented even if a user has access to model weights. Our code, data, and results are available at https://erasing.baulab.info/
翻訳日:2023-03-14 13:29:41 公開日:2023-03-13
# 回路複雑性からクリロフ複雑性を構築する

Building Krylov complexity from circuit complexity ( http://arxiv.org/abs/2303.07343v1 )

ライセンス: Link先を確認
Chenwei Lv, Ren Zhang, Qi Zhou(参考訳) クリロフ複雑性は、幅広い非平衡量子力学における作用素成長の新しいプローブとして現れた。 しかしながら、クリャロフ空間における基底状態間の距離の定義は曖昧である。 ここでは、Krylov複雑性は、動的対称性が存在する場合の回路複雑性から厳密に確立できることを示す。 回路複雑性は多次元作用素空間における測地距離を特徴づけるが、クリロフ複雑性は特定の方向に最終作用素の高さを測定する。 このように、回路複雑性の幾何学的表現は、クリロフ空間における基底状態間の距離を曖昧に指定する。 この幾何学的アプローチは時間に依存したリウヴィリアン超作用素にも適用され、単一のクリロフ複雑性がもはや十分ではない。 複数のクリロフの複雑性は、演算子のダイナミクスを完全に記述するために共同で利用することができる。

Krylov complexity has emerged as a new probe of operator growth in a wide range of non-equilibrium quantum dynamics. However, a fundamental issue remains in such studies: the definition of the distance between basis states in Krylov space is ambiguous. Here, we show that Krylov complexity can be rigorously established from circuit complexity when dynamical symmetries exist. Whereas circuit complexity characterizes the geodesic distance in a multi-dimensional operator space, Krylov complexity measures the height of the final operator in a particular direction. The geometric representation of circuit complexity thus unambiguously designates the distance between basis states in Krylov space. This geometric approach also applies to time-dependent Liouvillian superoperators, where a single Krylov complexity is no longer sufficient. Multiple Krylov complexity may be exploited jointly to fully describe operator dynamics.
翻訳日:2023-03-14 13:29:23 公開日:2023-03-13
# アンシラキュービットを伴わない最適並列ワイヤ切断法

Optimal parallel wire cutting without ancilla qubits ( http://arxiv.org/abs/2303.07340v1 )

ライセンス: Link先を確認
Hiroyuki Harada, Kaito Wada, Naoki Yamamoto(参考訳) 回路切断技術は、物理的に利用可能なよりも多くの量子ビットを必要とする量子アルゴリズムを実行するために広く用いられており、元の回路を小さなサブ回路に分解し、サンプリングによって元の回路をシミュレートする。 しかし, サンプリングコストがカット数の増加とともに指数関数的に増加するという必然的な問題に苦しむため, サンプリングコストの小さい分解法を開発することは事実上重要である。 本稿では,複数の量子ビットに並列に作用する同一性チャネルを切断対象とする並列線切断問題に注目した。 以前の2つの研究がある。 ひとつはテレポーテーションベースの手法で、サンプリングコストが最適であることが証明されたancilla qubitsを使用することで、このタスクを実現する。 第2の方法は、古典影の技法を用いて、アンシラキュービットを使わずに問題を解くが、最適なサンプリングコストは得られない。 本稿ではこの問題に対する決定的な解決策を与える。 すなわち、前述した研究と同じ設定で、アンシラキュービットを使わずに最適なパラレルワイヤ切断を開発する。 さらに, 非並列ケースに適用可能なアンシラフリー手法により, 前回の調査で得られたサンプリングコストも向上する。

The circuit cutting techniques are widely used to execute quantum algorithms that require more qubits than physically available; the idea is to decompose the original circuit to smaller sub-circuits that are combined to simulate the original one by sampling. However, they suffer from an inevitable issue that the sampling cost exponentially grows with the number of cuts, and thus it is practically important to develop decomposition methods working with smaller sampling cost. This paper focuses on the parallel wire-cutting problem, meaning that the target to cut is the identity channel acting on multiple qubits in parallel. There are two previous studies. The first one is a teleportation-based method that achieves this task with the use of ancilla qubits, whose sampling cost was proven to be optimal. The second one uses the technique of classical shadow to solve the problem without any ancilla qubits, which however does not achieve the optimal sampling cost. This paper gives a definitive solution to this problem. That is, we develop the optimal parallel wire cutting without ancilla qubits, in the same setup as that taken in the above previous studies. Moreover, the developed ancilla-free method can be applied to the non-parallel case, which also improves the sampling cost obtained in the previous study.
翻訳日:2023-03-14 13:29:11 公開日:2023-03-13
# 事前学習モデルによるクラスインクリメンタルラーニングの再考: 一般化可能性と適応性がすべて必要である

Revisiting Class-Incremental Learning with Pre-Trained Models: Generalizability and Adaptivity are All You Need ( http://arxiv.org/abs/2303.07338v1 )

ライセンス: Link先を確認
Da-Wei Zhou, Han-Jia Ye, De-Chuan Zhan, Ziwei Liu(参考訳) class-incremental learning (cil) は、古いクラスを忘れずに新しいクラスに適応することを目的としている。 従来のcilモデルはスクラッチからトレーニングされ、データが進化するにつれて知識を継続的に獲得します。 近年、事前訓練は大幅に進歩し、巨大な事前訓練モデル(ptm)がcilで利用可能になった。 従来の方法とは対照的に、PTMは一般化可能な埋め込みを持ち、容易に移動できる。 本研究では,CIL を PTM で再検討し,CIL の中核となる要素はモデル更新と知識伝達の一般化性であると主張している。 1)凍結型PTMはCILの汎用的な埋め込みをすでに実現可能であることを最初に明らかにした。 驚くべきことに、PTMの分類器をプロトタイプ機能に継続的に設定する単純なベースライン(SimpleCIL)は、下流タスクのトレーニングをしなくても最先端のタスクに勝てる。 2) 事前学習したデータセットと下流データセットの分布ギャップのため, PTMはモデル適応により適応性を持たせることができる。 本稿では,PTMと適応モデルの組込みを集約したAdapt And Merge (ADAM)を提案する。 ADAMは、任意のパラメータ効率のチューニング手法と直交的に組み合わせることができる一般的なフレームワークであり、PTMの一般化可能性と適応モデルの適応性の利点を持っている。 3) 従来のベンチマークはデータの重複によるPTMの時代には不適切であり,ImageNet-A, ObjectNet, OmniBenchmark, VTABの4つの新しいベンチマークを提案する。 大規模な実験は、統一的かつ簡潔なフレームワークによるADAMの有効性を検証する。

Class-incremental learning (CIL) aims to adapt to emerging new classes without forgetting old ones. Traditional CIL models are trained from scratch to continually acquire knowledge as data evolves. Recently, pre-training has achieved substantial progress, making vast pre-trained models (PTMs) accessible for CIL. Contrary to traditional methods, PTMs possess generalizable embeddings, which can be easily transferred. In this work, we revisit CIL with PTMs and argue that the core factors in CIL are adaptivity for model updating and generalizability for knowledge transferring. 1) We first reveal that frozen PTM can already provide generalizable embeddings for CIL. Surprisingly, a simple baseline (SimpleCIL) which continually sets the classifiers of PTM to prototype features can beat state-of-the-art even without training on the downstream task. 2) Due to the distribution gap between pre-trained and downstream datasets, PTM can be further cultivated with adaptivity via model adapting. We propose ADapt And Merge (ADAM), which aggregates the embeddings of PTM and adapted models for classifier construction. ADAM is a general framework that can be orthogonally combined with any parameter-efficient tuning method, which holds the advantages of PTM's generalizability and adapted model's adaptivity. 3) Additionally, we find previous benchmarks are unsuitable in the era of PTM due to data overlapping and propose four new benchmarks for assessment, namely ImageNet-A, ObjectNet, OmniBenchmark, and VTAB. Extensive experiments validate the effectiveness of ADAM with a unified and concise framework.
翻訳日:2023-03-14 13:28:50 公開日:2023-03-13
# PoseExaminer:人体における分布外ロバストネスの自動検査と形状推定

PoseExaminer: Automated Testing of Out-of-Distribution Robustness in Human Pose and Shape Estimation ( http://arxiv.org/abs/2303.07337v1 )

ライセンス: Link先を確認
Qihao Liu, Adam Kortylewski, Alan Yuille(参考訳) HPS(Human pose and shape)推定法は優れた結果をもたらす。 しかし、現在のHPSベンチマークは主に、トレーニングデータに似たシナリオでモデルをテストするために設計されている。 これにより、観測されたデータがトレーニングデータと大きく異なる場合、実世界のアプリケーションにおいて重要な状況が発生する可能性がある。 したがってHPS法のOODロバスト性を試験・改善することが重要である。 この根本的な問題に対処するために,解釈可能なパラメータを用いて微粒度制御可能なシミュレータを開発し,ポーズや形状,衣服のバリエーションなど,人間のポーズのイメージの多様体を探索する。 本稿では,人間のポーズ画像のパラメータ空間を探索することでHPSアルゴリズムを自動的に診断する,PoseExaminerと呼ばれる学習ベースのテスト手法を提案する。 この高次元パラメータ空間を探索するための戦略は、エージェントが協調してパラメータ空間の異なる部分を探索するマルチエージェント強化学習システムである。 実世界のシナリオには関係しているものの、現在のベンチマークでは見逃されている現在の最先端モデルには、さまざまな制限があることを示します。 例えば、正しく予測されていない現実的な人間のポーズの大きな領域を見つけると同時に、細い体型や体型を持つ人間のパフォーマンスを低下させる。 さらに,posexaminer の故障モードを利用してhps法を微調整することで,標準ベンチマークにおけるロバスト性や性能が大幅に向上することを示した。 コードは研究目的で利用可能である。

Human pose and shape (HPS) estimation methods achieve remarkable results. However, current HPS benchmarks are mostly designed to test models in scenarios that are similar to the training data. This can lead to critical situations in real-world applications when the observed data differs significantly from the training data and hence is out-of-distribution (OOD). It is therefore important to test and improve the OOD robustness of HPS methods. To address this fundamental problem, we develop a simulator that can be controlled in a fine-grained manner using interpretable parameters to explore the manifold of images of human pose, e.g. by varying poses, shapes, and clothes. We introduce a learning-based testing method, termed PoseExaminer, that automatically diagnoses HPS algorithms by searching over the parameter space of human pose images to find the failure modes. Our strategy for exploring this high-dimensional parameter space is a multi-agent reinforcement learning system, in which the agents collaborate to explore different parts of the parameter space. We show that our PoseExaminer discovers a variety of limitations in current state-of-the-art models that are relevant in real-world scenarios but are missed by current benchmarks. For example, it finds large regions of realistic human poses that are not predicted correctly, as well as reduced performance for humans with skinny and corpulent body shapes. In addition, we show that fine-tuning HPS methods by exploiting the failure modes found by PoseExaminer improve their robustness and even their performance on standard benchmarks by a significant margin. The code are available for research purposes.
翻訳日:2023-03-14 13:28:25 公開日:2023-03-13
# mp-former: 画像分割用マスク操縦トランス

MP-Former: Mask-Piloted Transformer for Image Segmentation ( http://arxiv.org/abs/2303.07336v1 )

ライセンス: Link先を確認
Hao Zhang, Feng Li, Huaizhe Xu, Shijia Huang, Shilong Liu, Lionel M. Ni, Lei Zhang(参考訳) 画像セグメンテーションのためのMask2Formerにおけるマスク配置を改善するマスクパイロット変換器を提案する。 この改善は、Mask2Formerが連続するデコーダ層間のマスク予測の不整合に悩まされ、不整合最適化目標とデコーダクエリの低利用につながるという観察に基づいている。 そこで本研究では,マスクの被写体にマスクを装着し,被写体復元のための模型を訓練し,被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体化法を提案する。 マスク・アテンションで使用される予測マスクと比較すると、地平線マスクはパイロットとして機能し、Mask2Formerにおける不正確なマスク予測の負の影響を効果的に軽減する。 この技術に基づいて、我々の \M は3つのイメージセグメンテーションタスク(インスタンス、パノプティクス、セマンティクス)で顕著なパフォーマンス向上を実現し、Cityscapes インスタンスと ResNet-50 バックボーンによるセマンティクスセグメンテーションタスクで$2.3$AP と$+1.6$mIoU が得られる。 また,ade20kでは,resnet-50 と swin-l バックボーンの両方で,トレーニング回数の半数で mask2former を上回り,トレーニング速度を大幅に向上させた。 さらに,本手法では,学習中の計算量が少なく,推論時に余分な計算も行わない。 私たちのコードは \url{https://github.com/IDEA-Research/MP-Former} でリリースされます。

We present a mask-piloted Transformer which improves masked-attention in Mask2Former for image segmentation. The improvement is based on our observation that Mask2Former suffers from inconsistent mask predictions between consecutive decoder layers, which leads to inconsistent optimization goals and low utilization of decoder queries. To address this problem, we propose a mask-piloted training approach, which additionally feeds noised ground-truth masks in masked-attention and trains the model to reconstruct the original ones. Compared with the predicted masks used in mask-attention, the ground-truth masks serve as a pilot and effectively alleviate the negative impact of inaccurate mask predictions in Mask2Former. Based on this technique, our \M achieves a remarkable performance improvement on all three image segmentation tasks (instance, panoptic, and semantic), yielding $+2.3$AP and $+1.6$mIoU on the Cityscapes instance and semantic segmentation tasks with a ResNet-50 backbone. Our method also significantly speeds up the training, outperforming Mask2Former with half of the number of training epochs on ADE20K with both a ResNet-50 and a Swin-L backbones. Moreover, our method only introduces little computation during training and no extra computation during inference. Our code will be released at \url{https://github.com/IDEA-Research/MP-Former}.
翻訳日:2023-03-14 13:27:57 公開日:2023-03-13
# Lite DETR : 効率的なDETR用インターリーブマルチスケールエンコーダ

Lite DETR : An Interleaved Multi-Scale Encoder for Efficient DETR ( http://arxiv.org/abs/2303.07335v1 )

ライセンス: Link先を確認
Feng Li, Ailing Zeng, Shilong Liu, Hao Zhang, Hongyang Li, Lei Zhang, Lionel M. Ni(参考訳) 近年のDetection TRansformer-based (DETR)モデルの性能は顕著である。 その成功はエンコーダにおけるマルチスケール機能融合の再導入なしには達成できない。 しかし、特に75パーセント程度の低レベルの機能において、マルチスケール機能におけるトークンの過剰増加は、非常に非効率であり、DETRモデルの実際の応用を妨げる。 本稿では,Lite DETRを提案する。Lite DETRは,検出ヘッドのGFLOPを,元の性能の99.5%を維持しつつ60.%の効率で削減できる,シンプルで効率的なエンドツーエンドオブジェクト検出フレームワークである。 具体的には,高レベル機能(小解像度特徴マップに対応)と低レベル機能(大解像度特徴マップに対応)を相互に更新する効率的なエンコーダブロックを設計した。 さらに,より信頼性の高い注意重みを予測できるキー認識型変形型注意機能を開発した。 総合的な実験により提案したLite DETRの有効性と効率が検証され、効率的なエンコーダ戦略は既存のDETRベースのモデルでよく一般化できる。 コードは \url{https://github.com/IDEA-Research/Lite-DETR} で入手できる。

Recent DEtection TRansformer-based (DETR) models have obtained remarkable performance. Its success cannot be achieved without the re-introduction of multi-scale feature fusion in the encoder. However, the excessively increased tokens in multi-scale features, especially for about 75\% of low-level features, are quite computationally inefficient, which hinders real applications of DETR models. In this paper, we present Lite DETR, a simple yet efficient end-to-end object detection framework that can effectively reduce the GFLOPs of the detection head by 60\% while keeping 99\% of the original performance. Specifically, we design an efficient encoder block to update high-level features (corresponding to small-resolution feature maps) and low-level features (corresponding to large-resolution feature maps) in an interleaved way. In addition, to better fuse cross-scale features, we develop a key-aware deformable attention to predict more reliable attention weights. Comprehensive experiments validate the effectiveness and efficiency of the proposed Lite DETR, and the efficient encoder strategy can generalize well across existing DETR-based models. The code will be available in \url{https://github.com/IDEA-Research/Lite-DETR}.
翻訳日:2023-03-14 13:27:16 公開日:2023-03-13
# 公衆衛生・疫学研究における目標最大推定の応用--体系的考察

Application of targeted maximum likelihood estimation in public health and epidemiological studies: a systematic review ( http://arxiv.org/abs/2303.07329v1 )

ライセンス: Link先を確認
Matthew J. Smith, Rachael V. Phillips, Miguel Angel Luque-Fernandez, Camille Maringe(参考訳) target maximum likelihood estimation (tmle) 統計データ分析フレームワークは、機械学習、統計理論、統計推論を統合し、様々な統計パラメータと因果パラメータの推定と推論のための最小バイアス、効率的かつ堅牢な戦略を提供する。 近年の方法論的発展の恩恵を受けた疫学的応用を記述・評価した。 われわれはPubMedで,観察研究にTMLEの任意の形態を適用した論文について,系統的な文献レビューを行った。 我々は,疫学の分野,地理的位置,著者の専門知識,TMLE法を時間とともに要約した。 目標学習と因果推論のロードマップを用いて,出版物の方法論的側面を抽出した。 我々はこれらのTMLE結果の文献への貢献を紹介する。 81の出版物のうち25%はカリフォルニア大学バークレー校出身で、このフレームワークはMark van der Laan教授によって最初に開発された。 2022年前半までに、出版物の70%はアメリカ国外から始まり、2021-22年には7つの異なる疫学分野を調査した。 ダブルロバスト性、バイアス低減、モデルミススペクテーションは、研究者をTMLEフレームワークへと導く主要な動機となった。 TMLEの方法論的展開が絶え間なく進展するため,時間を通じて様々な方法論,チュートリアル,ソフトウェア固有の記事が引用された。 TMLEフレームワークの様々な疫学分野への明確な普及傾向と地理的領域の増加傾向がある。 rパッケージの入手、チュートリアル論文の発行、応用出版への方法論専門家の関与は、tmleの利点と採用を理解した研究の数を指数関数的に増加させた。

The Targeted Maximum Likelihood Estimation (TMLE) statistical data analysis framework integrates machine learning, statistical theory, and statistical inference to provide a least biased, efficient and robust strategy for estimation and inference of a variety of statistical and causal parameters. We describe and evaluate the epidemiological applications that have benefited from recent methodological developments. We conducted a systematic literature review in PubMed for articles that applied any form of TMLE in observational studies. We summarised the epidemiological discipline, geographical location, expertise of the authors, and TMLE methods over time. We used the Roadmap of Targeted Learning and Causal Inference to extract key methodological aspects of the publications. We showcase the contributions to the literature of these TMLE results. Of the 81 publications included, 25% originated from the University of California at Berkeley, where the framework was first developed by Professor Mark van der Laan. By the first half of 2022, 70% of the publications originated from outside the United States and explored up to 7 different epidemiological disciplines in 2021-22. Double-robustness, bias reduction and model misspecification were the main motivations that drew researchers towards the TMLE framework. Through time, a wide variety of methodological, tutorial and software-specific articles were cited, owing to the constant growth of methodological developments around TMLE. There is a clear dissemination trend of the TMLE framework to various epidemiological disciplines and to increasing numbers of geographical areas. The availability of R packages, publication of tutorial papers, and involvement of methodological experts in applied publications have contributed to an exponential increase in the number of studies that understood the benefits, and adoption, of TMLE.
翻訳日:2023-03-14 13:26:55 公開日:2023-03-13
# スピン乗法を規定しない変分量子固有解法アルゴリズムによる化学反応の計算解析

Computational analysis of chemical reactions using a variational quantum eigensolver algorithm without specifying spin multiplicity ( http://arxiv.org/abs/2303.05065v2 )

ライセンス: Link先を確認
Soichi Shirai, Hokuto Iwakiri, Keita Kanno, Takahiro Horiba, Keita Omiya, Hirotoshi Hirai and Sho Koh(参考訳) 未知のスピン状態と連動して基底状態ポテンシャルエネルギー面に沿った化学反応の解析は困難であり、電子状態は異なるスピン乗法を用いて数回別々に計算し、最低エネルギー状態を見つける必要がある。 しかし、原理的には、スピン多重度を事前に指定することなく、量子コンピュータを用いた単一の計算だけで基底状態が得られる。 本研究では,変分量子固有解法(VQE)アルゴリズムを用いて,PtCOの基底状態ポテンシャルエネルギー曲線を概念実証として計算した。 この系は、PtとCOの相互作用の結果、一重項のクロスオーバーを示す。 状態ベクトルシミュレータを用いたVQE計算により,結合領域内の一重項状態に収束し,解離限界で三重項状態が得られることがわかった。 実際の量子デバイスを用いた計算は、誤差緩和手法を採用した後、シミュレーションエネルギーの$\pm$2 kcal/mol以内のポテンシャルエネルギーを提供した。 ボンディング領域と解離領域のスピン多重性は、少量のショットであっても明確に区別できる。 本研究の結果から, 量子コンピューティングは, 基底状態のスピン乗数性とパラメータの変動が予め分かっていない系の化学反応を解析するための強力なツールとなる可能性が示唆された。

The analysis of a chemical reaction along the ground state potential energy surface in conjunction with an unknown spin state is challenging because electronic states must be separately computed several times using different spin multiplicities to find the lowest energy state. However, in principle, the ground state could be obtained with just a single calculation using a quantum computer without specifying the spin multiplicity in advance. In the present work, ground state potential energy curves for PtCO were calculated as a proof-of-concept using a variational quantum eigensolver (VQE) algorithm. This system exhibits a singlet-triplet crossover as a consequence of the interaction between Pt and CO. VQE calculations using a statevector simulator were found to converge to a singlet state in the bonding region, while a triplet state was obtained at the dissociation limit. Calculations performed using an actual quantum device provided potential energies within $\pm$2 kcal/mol of the simulated energies after adopting error mitigation techniques. The spin multiplicities in the bonding and dissociation regions could be clearly distinguished even in the case of a small number of shots. The results of this study suggest that quantum computing can be a powerful tool for the analysis of the chemical reactions of systems for which the spin multiplicity of the ground state and variations in this parameter are not known in advance.
翻訳日:2023-03-14 11:19:47 公開日:2023-03-13
# diffusion depth: diffusion denoising approachによる単眼深度推定

DiffusionDepth: Diffusion Denoising Approach for Monocular Depth Estimation ( http://arxiv.org/abs/2303.05021v2 )

ライセンス: Link先を確認
Yiqun Duan, Zheng Zhu, Xianda Guo(参考訳) 単眼深度推定は1枚の2次元画像から画素幅の深度を予測する難しい課題である。 現在の手法は通常、この問題を回帰または分類タスクとしてモデル化する。 単分子深度推定をデノナイズ拡散過程として再構成する新しい手法であるDiffusionDepthを提案する。 モノラルな視覚条件の誘導でランダムな深度分布を深度マップに"デノザイズ"する反復的認知過程を学習する。 この処理は、専用深度エンコーダおよびデコーダによって符号化された潜時空間で実行される。 基底真理(GT)の深さを拡散する代わりに、モデルは自分自身の洗練された深さをランダムな深さ分布に拡散する過程を逆転させることを学ぶ。 この自己拡散の定式化は、GT深度シナリオに生成モデルを適用することの難しさを克服する。 提案手法は,高精度かつ高精度な深度マップを生成するのに優れている深さ推定ステップを段階的に精錬することで,この課題を活用できる。 KITTIとNYU-Depth-V2データセットの実験結果は、シンプルだが効率的な拡散アプローチが、許容可能な推論時間を持つ屋内および屋外の両方のシナリオで最先端のパフォーマンスに達することを示唆している。

Monocular depth estimation is a challenging task that predicts the pixel-wise depth from a single 2D image. Current methods typically model this problem as a regression or classification task. We propose DiffusionDepth, a new approach that reformulates monocular depth estimation as a denoising diffusion process. It learns an iterative denoising process to `denoise' random depth distribution into a depth map with the guidance of monocular visual conditions. The process is performed in the latent space encoded by a dedicated depth encoder and decoder. Instead of diffusing ground truth (GT) depth, the model learns to reverse the process of diffusing the refined depth of itself into random depth distribution. This self-diffusion formulation overcomes the difficulty of applying generative models to sparse GT depth scenarios. The proposed approach benefits this task by refining depth estimation step by step, which is superior for generating accurate and highly detailed depth maps. Experimental results on KITTI and NYU-Depth-V2 datasets suggest that a simple yet efficient diffusion approach could reach state-of-the-art performance in both indoor and outdoor scenarios with acceptable inference time.
翻訳日:2023-03-14 11:19:27 公開日:2023-03-13
# ソーシャルメディア上でのバイラル性の測定と検出:twitterのバイラルツイートを事例として

Measuring and Detecting Virality on Social Media: The Case of Twitter's Viral Tweets Topic ( http://arxiv.org/abs/2303.06120v2 )

ライセンス: Link先を確認
Tu\u{g}rulcan Elmas, Stephane Selim, C\'elia Houssiaux(参考訳) ソーシャルメディアの投稿がバイラルになり、短期間で大勢の人に届く可能性がある。 こうした投稿は、誤解を招くコンテンツを含む場合、大衆の対話を脅かす可能性がある。 以前の研究は、ツイートがバイラルであるかどうかをアノテートして後で自動的に検出する独自の指標を提案した。 しかし、そのような指標はウイルスのツイートを正確に表現するものではないし、偽陽性が多すぎる場合もある。 この作業では、Twitterの"Viral Tweets"トピックによって提供される真実のデータを使用して、現在のメトリクスをレビューし、独自のメトリクスを提案します。 著者のフォロワーに対するリツイートの割合が一定の閾値を超えた場合、ツイートはTwitterによってバイラルに分類される可能性が高い。 この閾値は実験で2.16と判明した。 このルールは、より小さなアカウントを好むが、偽陽性が少ない。 また,F1スコア0.79のツイートを早期に検出するトランスフォーマーモデルを提案する。 コードとツイートidは、https://github.com/tugrulz/viraltweetsで公開されている。

Social media posts may go viral and reach large numbers of people within a short period of time. Such posts may threaten the public dialogue if they contain misleading content, making their early detection highly crucial. Previous works proposed their own metrics to annotate if a tweet is viral or not in order to automatically detect them later. However, such metrics may not accurately represent viral tweets or may introduce too many false positives. In this work, we use the ground truth data provided by Twitter's "Viral Tweets" topic to review the current metrics and also propose our own metric. We find that a tweet is more likely to be classified as viral by Twitter if the ratio of retweets to its author's followers exceeds some threshold. We found this threshold to be 2.16 in our experiments. This rule results in less false positives although it favors smaller accounts. We also propose a transformers-based model to early detect viral tweets which reports an F1 score of 0.79. The code and the tweet ids are publicly available at: https://github.com/tugrulz/ViralTweets
翻訳日:2023-03-14 11:11:34 公開日:2023-03-13
# バッチスタイル標準化による自己指導型学習におけるドメイン不変性の改善

Improving Domain-Invariance in Self-Supervised Learning via Batch Styles Standardization ( http://arxiv.org/abs/2303.06088v2 )

ライセンス: Link先を確認
Marin Scalbert and Maria Vakalopoulou and Florent Couzini\'e-Devy(参考訳) 近年の自己教師付き学習(ssl)の台頭は、限定されたラベル付きデータで学習するための推奨戦略の1つであり、豊富なラベル付きデータによってこれらのモデルが広く使われるようになった。 それらは通常、事前訓練され、微調整され、同じデータ分布、すなわち、分配内設定で評価される。 しかし、Unsupervised Domain Generalization (UDG)が解決しようとしている課題である、アウト・オブ・ディストリビューション評価のシナリオでは、うまく機能しない傾向にある。 本稿では,画像のスタイルをバッチで標準化する新しい手法を提案する。 バッチスタイルの標準化は、フーリエベースの拡張に依存しており、スプリアスな相関が機能に漏れることを防ぐためにsslのドメイン不変性を促進する。 バッチスタイルの標準化とよく知られたコントラストベースのメソッドSimCLRの組み合わせは、CLaSSy$\textbf{C}$ontrastive $\textbf{L}$e$\textbf{a}$rning with $\textbf{S}$tandardized $\textbf{S}$t$\textbf{y}$lesという新しいUDGメソッドにつながる。 CLaSSyは、ドメインラベルに依存しておらず、多数のドメインを扱うためにスケーラブルであるため、以前のメソッドよりも大きなアドバンテージを提供する。 様々なUDGデータセットの実験結果から,既存のUDG法と比較してCLaSSyの優れた性能を示した。 最後に、異なるバックボーンアーキテクチャ(畳み込みベース、トランスフォーマーベース)を考慮して、コントラストベースと非コントラストベースのSSLメソッドであるSWaVとMSNをそれぞれ拡張することで、バッチスタイルの標準化の汎用性を実証する。

The recent rise of Self-Supervised Learning (SSL) as one of the preferred strategies for learning with limited labeled data, and abundant unlabeled data has led to the widespread use of these models. They are usually pretrained, finetuned, and evaluated on the same data distribution, i.e., within an in-distribution setting. However, they tend to perform poorly in out-of-distribution evaluation scenarios, a challenge that Unsupervised Domain Generalization (UDG) seeks to address. This paper introduces a novel method to standardize the styles of images in a batch. Batch styles standardization, relying on Fourier-based augmentations, promotes domain invariance in SSL by preventing spurious correlations from leaking into the features. The combination of batch styles standardization with the well-known contrastive-based method SimCLR leads to a novel UDG method named CLaSSy ($\textbf{C}$ontrastive $\textbf{L}$e$\textbf{a}$rning with $\textbf{S}$tandardized $\textbf{S}$t$\textbf{y}$les). CLaSSy offers serious advantages over prior methods, as it does not rely on domain labels and is scalable to handle a large number of domains. Experimental results on various UDG datasets demonstrate the superior performance of CLaSSy compared to existing UDG methods. Finally, the versatility of the proposed batch styles standardization is demonstrated by extending respectively the contrastive-based and non-contrastive-based SSL methods, SWaV and MSN, while considering different backbone architectures (convolutional-based, transformers-based).
翻訳日:2023-03-14 11:11:17 公開日:2023-03-13
# 動的Y-KD:連続インスタンスセグメンテーションへのハイブリッドアプローチ

Dynamic Y-KD: A Hybrid Approach to Continual Instance Segmentation ( http://arxiv.org/abs/2303.06015v2 )

ライセンス: Link先を確認
Mathieu Pag\'e-Fortin, Brahim Chaib-draa(参考訳) インスタンスセグメンテーションにおけるディープラーニング手法の成功にもかかわらず、これらのモデルは継続的な学習シナリオにおける破滅的な忘れに苦しむ。 本稿では,連続インスタンスセグメンテーションに対する我々の貢献が3倍になる。 まず,教師と学生のネットワーク間で共通の特徴抽出器を共有する知識蒸留戦略であるY-knowledge distillation(Y-KD)を提案する。 教師がY-KDの新しいデータで更新されるにつれて、新しいクラスに特化している新しいモジュールの可塑性が増大する。 第二に、我々のY-KDアプローチは動的アーキテクチャ手法でサポートされており、タスクごとに新しいモジュールを成長させ、それら全てをユニークなインスタンスセグメンテーションヘッドで推論するために使用します。 第三に、チェックポイント平均化を単純な方法として活用して、様々なクラスのパフォーマンス間のトレードオフを手動でバランスさせ、追加コストなしでモデルの振る舞いを制御することで、アプローチを完了します。 これらのコントリビューションは、動的Y-KDネットワークと呼ばれるモデルで統合されています。 本研究では,Pascal-VOCにおける複数ステップおよび複数ステップのシナリオについて広範な実験を行った。 例えば、最近の研究と比較すると、15-1では古いクラスで2.1% mAP、19-1では新しいクラスで7.6% mAP、そして15-5では全てのクラスで共同トレーニングによって得られたmAPの91.5%に達する。

Despite the success of deep learning methods on instance segmentation, these models still suffer from catastrophic forgetting in continual learning scenarios. In this paper, our contributions for continual instance segmentation are threefold. First, we propose the Y-knowledge distillation (Y-KD), a knowledge distillation strategy that shares a common feature extractor between the teacher and student networks. As the teacher is also updated with new data in Y-KD, the increased plasticity results in new modules that are specialized on new classes. Second, our Y-KD approach is supported by a dynamic architecture method that grows new modules for each task and uses all of them for inference with a unique instance segmentation head, which significantly reduces forgetting. Third, we complete our approach by leveraging checkpoint averaging as a simple method to manually balance the trade-off between the performance on the various sets of classes, thus increasing the control over the model's behavior without any additional cost. These contributions are united in our model that we name the Dynamic Y-KD network. We perform extensive experiments on several single-step and multi-steps scenarios on Pascal-VOC, and we show that our approach outperforms previous methods both on past and new classes. For instance, compared to recent work, our method obtains +2.1% mAP on old classes in 15-1, +7.6% mAP on new classes in 19-1 and reaches 91.5% of the mAP obtained by joint-training on all classes in 15-5.
翻訳日:2023-03-14 11:10:46 公開日:2023-03-13
# 多視点3次元知覚のための長期長期核融合の探索

Exploring Recurrent Long-term Temporal Fusion for Multi-view 3D Perception ( http://arxiv.org/abs/2303.05970v2 )

ライセンス: Link先を確認
Chunrui Han, Jianjian Sun, Zheng Ge, Jinrong Yang, Runpei Dong, Hongyu Zhou, Weixin Mao, Yuang Peng, Xiangyu Zhang(参考訳) 長期間の時間的融合は、カメラベースのバードズ・ズ・アイ・ビュー(bev)3d知覚において重要な技術であるがしばしば見過ごされている。 既存の方法はほとんどが並列である。 並列融合は長期的な情報から恩恵を受けるが、融合ウィンドウのサイズが大きくなるにつれて計算とメモリのオーバーヘッドが増大する。 あるいは、BEVFormerはリカレントフュージョンパイプラインを採用して、履歴情報を効率的に統合できるが、より長い時間枠の恩恵を受けられないようにする。 本稿では,LSS法に基づいて構築された,恥ずかしいほど単純な長期再帰型核融合戦略について検討し,両者のメリット,すなわち豊かな長期情報と効率的な核融合パイプラインを享受できることを見出した。 実用的なシナリオにおいて、時々欠落するフレームに対するモデルの堅牢性を改善するために、時間的埋め込みモジュールがさらに提案されている。 このシンプルだが効果的に融合するパイプラインを VideoBEV と呼ぶ。 nuScenesベンチマークの実験結果によると、VideoBEVは、オブジェクト検出(55.4% mAPと62.9% NDS)、セグメンテーション(48.6%の車両mIoU)、トラッキング(54.8% AMOTA)、モーション予測(0.80m minADEと0.463 EPA)など、様々なカメラベースの3D知覚タスクにおいて、主要なパフォーマンスを得る。 コードは利用可能だ。

Long-term temporal fusion is a crucial but often overlooked technique in camera-based Bird's-Eye-View (BEV) 3D perception. Existing methods are mostly in a parallel manner. While parallel fusion can benefit from long-term information, it suffers from increasing computational and memory overheads as the fusion window size grows. Alternatively, BEVFormer adopts a recurrent fusion pipeline so that history information can be efficiently integrated, yet it fails to benefit from longer temporal frames. In this paper, we explore an embarrassingly simple long-term recurrent fusion strategy built upon the LSS-based methods and find it already able to enjoy the merits from both sides, i.e., rich long-term information and efficient fusion pipeline. A temporal embedding module is further proposed to improve the model's robustness against occasionally missed frames in practical scenarios. We name this simple but effective fusing pipeline VideoBEV. Experimental results on the nuScenes benchmark show that VideoBEV obtains leading performance on various camera-based 3D perception tasks, including object detection (55.4% mAP and 62.9% NDS), segmentation (48.6% vehicle mIoU), tracking (54.8% AMOTA), and motion prediction (0.80m minADE and 0.463 EPA). Code will be available.
翻訳日:2023-03-14 11:10:19 公開日:2023-03-13
# Threshold Self-Tuning and Cross-Domain Mixupによるオープンセットドメイン適応の強化

Boosting Open-Set Domain Adaptation with Threshold Self-Tuning and Cross-Domain Mixup ( http://arxiv.org/abs/2303.05933v2 )

ライセンス: Link先を確認
Xinghong Liu, Yi Zhou, Tao Zhou, Jie Qin, Shengcai Liao(参考訳) オープンセットドメイン適応(OSDA)は、ソースとターゲットドメインが共有する共通クラスに属するターゲットサンプルを認識するだけでなく、未知のクラスサンプルを認識することを目的としている。 既存のOSDAメソッドは2つの障害に悩まされている。 まず、一般的なクラスと未知のクラスを分離するほとんどのosdaアプローチには、ハイパーパラメータ$threshold$を手動でチューニングする退屈なプロセスが必要である。 対象領域データがラベルされていない場合、適切なしきい値を決定するのは難しい。 第二に、ほとんどのOSDAメソッドは、一般的なクラスと未知のクラスを区別するためにのみ信頼性値に依存し、限られたソースとターゲットサンプルを使用してモデルをトレーニングする。 本研究は,より連続的な潜在空間における複数の基準の活用が,モデルの性能に有益であることを示す。 本稿では,2つの欠点を克服するために,新しいしきい値の自己チューニングとクロスドメイン・ミックスアップ(TSCM)手法を設計する。 TSCMは、経験的ハイパーパラメータを手動で設定するのではなく、ラベルのないターゲットサンプルを使用して、適切なしきい値を自動的に調整することができる。 提案手法は,信頼度のみではなく,複数の基準を考慮し,対象ドメイン内の共通クラスと未知クラスを分離するために,それ自体が生成するしきい値を使用する。 さらに,osdaシナリオ用に設計されたクロスドメインミックスアップ手法を導入し,より連続的な潜在空間でドメイン不変な特徴を学習する。 総合的な実験により,本手法は様々なベンチマークにおいて,様々な最先端手法と比較して,一貫して優れた性能を達成できることを示した。

Open-set domain adaptation (OSDA) aims to not only recognize target samples belonging to common classes shared by source and target domains but also perceive unknown class samples. Existing OSDA methods suffer from two obstacles. Firstly, a tedious process of manually tuning a hyperparameter $threshold$ is required for most OSDA approaches to separate common and unknown classes. It is difficult to determine a proper threshold when the target domain data is unlabeled. Secondly, most OSDA methods rely only on confidence values to distinguish between common and unknown classes, using limited source and target samples to train models, leading to unsatisfactory performance when the target domain has mostly unknown classes. Our studies demonstrate that exploiting multiple criteria within a more continuous latent space is beneficial for the model's performance. In this paper, we design a novel threshold self-tuning and cross-domain mixup (TSCM) method to overcome the two drawbacks. TSCM can automatically tune a proper threshold utilizing unlabeled target samples rather than manually setting an empirical hyperparameter. Our method considers multiple criteria instead of only the confidence and uses the threshold generated by itself to separate common and unknown classes in the target domain. Moreover, we introduce a cross-domain mixup method designed for OSDA scenarios to learn domain-invariant features in a more continuous latent space. Comprehensive experiments illustrate that our method consistently achieves superior performance on different benchmarks compared with various state-of-the-art methods.
翻訳日:2023-03-14 11:09:50 公開日:2023-03-13
# clinical bertscore:臨床における自動音声認識性能の向上

Clinical BERTScore: An Improved Measure of Automatic Speech Recognition Performance in Clinical Settings ( http://arxiv.org/abs/2303.05737v2 )

ライセンス: Link先を確認
Joel Shor, Ruyue Agnes Bi, Subhashini Venugopalan, Steven Ibara, Roman Goldenberg, Ehud Rivlin(参考訳) 医学的文脈における自動音声認識(ASR)は、時間を節約し、コストを削減し、報告精度を高め、医師のバーンアウトを減らす可能性がある。 しかし、医療業界は医療関連転写ミスを避けることの重要性から、この技術の採用が遅れている。 本研究は,臨床関連ミスを他者よりもペナルティ化するASR尺度であるクリニカルBERTScore(CBERTScore)を提示する。 この尺度は、他の指標(WER, BLUE, METEORなど)と比較して、医学的文章に対する臨床的嗜好とより密接に一致していることが示される。 CTP(Crisian Transcript Preference benchmark)と呼ばれる149のリアルな医療文章に対する13の臨床好みのベンチマークを収集し、CBERTScoreが臨床医の好むものとより密に一致していることを示し、臨床を意識したASR指標をさらに発展させるために、コミュニティのためにベンチマークをリリースする。

Automatic Speech Recognition (ASR) in medical contexts has the potential to save time, cut costs, increase report accuracy, and reduce physician burnout. However, the healthcare industry has been slower to adopt this technology, in part due to the importance of avoiding medically-relevant transcription mistakes. In this work, we present the Clinical BERTScore (CBERTScore), an ASR metric that penalizes clinically-relevant mistakes more than others. We demonstrate that this metric more closely aligns with clinician preferences on medical sentences as compared to other metrics (WER, BLUE, METEOR, etc), sometimes by wide margins. We collect a benchmark of 13 clinician preferences on 149 realistic medical sentences called the Clinician Transcript Preference benchmark (CTP), demonstrate that CBERTScore more closely matches what clinicians prefer, and release the benchmark for the community to further develop clinically-aware ASR metrics.
翻訳日:2023-03-14 11:09:25 公開日:2023-03-13
# プログレッシブ画像圧縮のためのコンテキストベーストライトプレーン符号化

Context-Based Trit-Plane Coding for Progressive Image Compression ( http://arxiv.org/abs/2303.05715v2 )

ライセンス: Link先を確認
Seungmin Jeon, Kwang Pyo Choi, Youngo Park and Chang-Su Kim(参考訳) trit-planeコーディングは、深いプログレッシブな画像圧縮を可能にするが、自己回帰的なコンテキストモデルを使用しない。 本稿では,よりコンパクトにプログレッシブ圧縮を実現するためのコンテキストベーストライトプレーン符号化(ctc)アルゴリズムを提案する。 まず, 潜在要素のトリット確率を正確に推定し, トリット平面をコンパクトに符号化する, コンテキストベースレート低減モジュールを開発した。 第2に,三面体から部分潜在テンソルを精製し,再構成した画像品質を改善するために,文脈に基づく歪み低減モジュールを開発した。 第3に,レートゆがみトレードオフを達成するために,デコーダの再トレーニング方式を提案する。 大規模な実験により、CTCはコダックロスレスデータセット上のBDレートにおいて、ベースライントリトプレーンコーデックを著しく上回るが、時間複雑性はわずかに増大する。 私たちのコードはhttps://github.com/seungminjeon-github/ctcで利用可能です。

Trit-plane coding enables deep progressive image compression, but it cannot use autoregressive context models. In this paper, we propose the context-based trit-plane coding (CTC) algorithm to achieve progressive compression more compactly. First, we develop the context-based rate reduction module to estimate trit probabilities of latent elements accurately and thus encode the trit-planes compactly. Second, we develop the context-based distortion reduction module to refine partial latent tensors from the trit-planes and improve the reconstructed image quality. Third, we propose a retraining scheme for the decoder to attain better rate-distortion tradeoffs. Extensive experiments show that CTC outperforms the baseline trit-plane codec significantly in BD-rate on the Kodak lossless dataset, while increasing the time complexity only marginally. Our codes are available at https://github.com/seungminjeon-github/CTC.
翻訳日:2023-03-14 11:09:01 公開日:2023-03-13
# 計画型強化学習による再生可能電力システムのリアルタイムスケジューリング

Real-time scheduling of renewable power systems through planning-based reinforcement learning ( http://arxiv.org/abs/2303.05205v2 )

ライセンス: Link先を確認
Shaohuai Liu, Jinbo Liu, Weirui Ye, Nan Yang, Guanglun Zhang, Haiwang Zhong, Chongqing Kang, Qirong Jiang, Xuri Song, Fangchun Di, Yang Gao(参考訳) 再生可能エネルギー源の増大は、従来の電力スケジューリングに重大な課題をもたらした。 オペレーターは、再生可能発電の正確な日頭予測を得ることが困難であり、そのため、将来のスケジューリングシステムでは、超短期予測に合わせたリアルタイムスケジューリング決定を行う必要がある。 計算速度の制限により、従来の最適化手法ではこの問題は解決できない。 強化学習(RL)の最近の進歩は、この課題を解決する可能性を示している。 しかし、既存のRL法は制約複雑性、アルゴリズム性能、環境忠実度の観点からは不十分である。 我々は、最先端の強化学習アルゴリズムと実電力グリッド環境に基づく体系的なソリューションを最初に提案する。 提案手法により、ユニットコミットメントや経済派遣を含む発電装置の時間分解調整の計画と微調整が可能となり、電力網の再生可能エネルギー獲得能力が向上する。 適切に訓練されたスケジューリングエージェントは、従来のスケジュールが不正確な日頭予測に依存することに起因する問題である再生可能カーテリーメントと負荷シェディングを大幅に削減する。 高周波制御決定は、実験結果で示されたように、既存のユニットの柔軟性を利用し、ハードウェア変換への電力グリッドの依存を減らし、投資と運用コストを節約する。 本研究は、低炭素・インテリジェント電力システムの推進における強化学習の可能性を示し、持続可能な発電に向けた確かなステップを示す。

The growing renewable energy sources have posed significant challenges to traditional power scheduling. It is difficult for operators to obtain accurate day-ahead forecasts of renewable generation, thereby requiring the future scheduling system to make real-time scheduling decisions aligning with ultra-short-term forecasts. Restricted by the computation speed, traditional optimization-based methods can not solve this problem. Recent developments in reinforcement learning (RL) have demonstrated the potential to solve this challenge. However, the existing RL methods are inadequate in terms of constraint complexity, algorithm performance, and environment fidelity. We are the first to propose a systematic solution based on the state-of-the-art reinforcement learning algorithm and the real power grid environment. The proposed approach enables planning and finer time resolution adjustments of power generators, including unit commitment and economic dispatch, thus increasing the grid's ability to admit more renewable energy. The well-trained scheduling agent significantly reduces renewable curtailment and load shedding, which are issues arising from traditional scheduling's reliance on inaccurate day-ahead forecasts. High-frequency control decisions exploit the existing units' flexibility, reducing the power grid's dependence on hardware transformations and saving investment and operating costs, as demonstrated in experimental results. This research exhibits the potential of reinforcement learning in promoting low-carbon and intelligent power systems and represents a solid step toward sustainable electricity generation.
翻訳日:2023-03-14 11:08:45 公開日:2023-03-13
# 多人数ポーズ予測のための軌道認識体相互作用トランス

Trajectory-Aware Body Interaction Transformer for Multi-Person Pose Forecasting ( http://arxiv.org/abs/2303.05095v2 )

ライセンス: Link先を確認
Xiaogang Peng, Siyuan Mao, Zizhao Wu(参考訳) 多人数のポーズ予測は、特に複雑な群衆シナリオにおけるきめ細かい人体相互作用のモデリングにおいて、依然として困難な問題である。 既存の方法は通常、ポーズのシーケンス全体を時系列として表現するが、骨格の身体部位に基づく人との対話的な影響は見過ごされている。 本稿では,身体部位間相互作用を効果的にモデル化し,多人数ポーズ予測のための新しい軌道認識ボディーインタラクショントランス(tbiformer)を提案する。 具体的には、すべてのポーズシーケンスを多人数のボディパートシーケンスに変換し、ボディセマンティクスに基づく空間的および時間的情報を保持する時間的ボディ分割モジュールを構築する。 そこで,SBI-MSA(Social Body Interaction Self-Attention)モジュールを開発した。 さらに,従来のユークリッド距離に基づく空間符号化とは違って,sbi-msaのための新しい効率的な軌道対応相対位置符号化法を提案する。 CMU-Mocap, MuPoTS-3D, および合成されたデータセット(6~10人)の枠組みを, 短期的・長期的両面において実証的に評価し, 提案手法が最先端の手法を大きく上回ることを示す。 コードは受理次第公開される予定だ。

Multi-person pose forecasting remains a challenging problem, especially in modeling fine-grained human body interaction in complex crowd scenarios. Existing methods typically represent the whole pose sequence as a temporal series, yet overlook interactive influences among people based on skeletal body parts. In this paper, we propose a novel Trajectory-Aware Body Interaction Transformer (TBIFormer) for multi-person pose forecasting via effectively modeling body part interactions. Specifically, we construct a Temporal Body Partition Module that transforms all the pose sequences into a Multi-Person Body-Part sequence to retain spatial and temporal information based on body semantics. Then, we devise a Social Body Interaction Self-Attention (SBI-MSA) module, utilizing the transformed sequence to learn body part dynamics for inter- and intra-individual interactions. Furthermore, different from prior Euclidean distance-based spatial encodings, we present a novel and efficient Trajectory-Aware Relative Position Encoding for SBI-MSA to offer discriminative spatial information and additional interactive clues. On both short- and long-term horizons, we empirically evaluate our framework on CMU-Mocap, MuPoTS-3D as well as synthesized datasets (6 ~ 10 persons), and demonstrate that our method greatly outperforms the state-of-the-art methods. Code will be made publicly available upon acceptance.
翻訳日:2023-03-14 11:08:23 公開日:2023-03-13