このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230315となっている論文です。

PDF登録状況(公開日: 20230315)

TitleAuthorsAbstract論文公表日・翻訳日
# ハイブリッドホジキン・ハクスリー行動電位生成モデルに向けて

Towards an Hybrid Hodgkin-Huxley Action Potential Generation Model ( http://arxiv.org/abs/2304.01346v1 )

ライセンス: Link先を確認
Lautaro Estienne(参考訳) 作用電位の生成に関する数学的モデルは、ニューロンの電気活動の結果となる生理的メカニズムの理解を改善することができる。 このようなモデルでは、膜電位の経験的に得られた関数を含む方程式が通常定義される。 これらのモデルの中で最もよく知られているホジキン・ハクスリーモデル(英語版)は、チャネルに存在する各種類のゲートの開度と閉度でイオンチャネルの伝導度を定義するため、このパラダイムの例である。 これらの機能は、しばしば非常に高価であり、細胞膜の単一チャネルにおける電圧の時間的非依存的な測定を含むため、データが少ない実験室の測定から導かれる必要がある。 本研究では,Hodgkin-Huxleyモデルのパラメトリック関数を,時間関数としての膜電圧と,その電圧を誘導する電流の2つの単純な測定値と,これらの関数を推定するためにDeep Learning法を適用する可能性を検討する。 これは、元々のホジキン・ホクスリー方程式と、訓練に簡単な測定セットを必要とする人工ニューラルネットワークによって構成された、アクションポテンシャル生成のハイブリッドモデルをもたらす。 ホジキン・ハクスリーモデル(hodgkin-huxley model)から生成されたデータを用いて実験を行い、最小データ量で訓練された単純な2層人工ニューラルネットワーク(ann)アーキテクチャを用いて、モデルの速度関数を推定することで、アクションポテンシャル生成の基本特性のいくつかをモデル化できることを実証した。

Mathematical models for the generation of the action potential can improve the understanding of physiological mechanisms that are consequence of the electrical activity in neurons. In such models, some equations involving empirically obtained functions of the membrane potential are usually defined. The best known of these models, the Hodgkin-Huxley model, is an example of this paradigm since it defines the conductances of ion channels in terms of the opening and closing rates of each type of gate present in the channels. These functions need to be derived from laboratory measurements that are often very expensive and produce little data because they involve a time-space-independent measurement of the voltage in a single channel of the cell membrane. In this work, we investigate the possibility of finding the Hodgkin-Huxley model's parametric functions using only two simple measurements (the membrane voltage as a function of time and the injected current that triggered that voltage) and applying Deep Learning methods to estimate these functions. This would result in an hybrid model of the action potential generation composed by the original Hodgkin-Huxley equations and an Artificial Neural Network that requires a small set of easy-to-perform measurements to be trained. Experiments were carried out using data generated from the original Hodgkin-Huxley model, and results show that a simple two-layer artificial neural network (ANN) architecture trained on a minimal amount of data can learn to model some of the fundamental proprieties of the action potential generation by estimating the model's rate functions.
翻訳日:2023-04-16 22:41:44 公開日:2023-03-15
# 商用機器のリアルタイムRFフィンガープリントのためのBluetoothとWiFiデータセット

Bluetooth and WiFi Dataset for Real World RF Fingerprinting of Commercial Devices ( http://arxiv.org/abs/2303.13538v1 )

ライセンス: Link先を確認
Anu Jagannath, Zackary Kane, Jithin Jagannath(参考訳) RFフィンガープリンティングは、RFスペクトルを共有する不正または/または不正なエミッタを特定する物理層セキュリティスキームとして登場している。 しかし、一般にアクセス可能な実世界のデータセットがないため、ほとんどの研究は、実用的な配置設定には適さないsoftware-defined radios (sdr) による合成波形の生成に焦点を当てている。 一方、利用可能な限られたデータセットは、1種類の波形のみを生成するチップセットにのみフォーカスする。 ラップトップやアダプタ、ワイヤレス充電器、raspberry piなど、共通のデュアルバンドアンテナ上で2つのワイヤレス標準(例えばwifiとbluetooth)をサポートする商用オフ・ザ・棚(cots)コンボチップセットが、iotの世界においてユビキタスになってきている。 したがって、現代的なIoT環境に追従するため、異種通信プロトコルを伝達するこれらのコンボチップセットからの排出をキャプチャする、現実世界のオープンデータセットの必要性が高まっている。 この目的のために、我々は2つの異なる時間枠でWiFiとBluetoothを伝送するCOTS IoTチップセットからの既知の最初の排出をキャプチャした。 異なる時間枠はモデルの一般化能力を厳格に評価するために不可欠である。 広く使用するために、72GBデータセット内の各キャプチャは、多様な入力テンソルの長さとフォーマットをサポートするのに十分な長さ(40MSamples)である。 最後に、データセットは、現実世界の設定で遭遇した高信号強度の損失を考慮し、様々な信号パワーでの排出も含んでいる。

RF fingerprinting is emerging as a physical layer security scheme to identify illegitimate and/or unauthorized emitters sharing the RF spectrum. However, due to the lack of publicly accessible real-world datasets, most research focuses on generating synthetic waveforms with software-defined radios (SDRs) which are not suited for practical deployment settings. On other hand, the limited datasets that are available focus only on chipsets that generate only one kind of waveform. Commercial off-the-shelf (COTS) combo chipsets that support two wireless standards (for example WiFi and Bluetooth) over a shared dual-band antenna such as those found in laptops, adapters, wireless chargers, Raspberry Pis, among others are becoming ubiquitous in the IoT realm. Hence, to keep up with the modern IoT environment, there is a pressing need for real-world open datasets capturing emissions from these combo chipsets transmitting heterogeneous communication protocols. To this end, we capture the first known emissions from the COTS IoT chipsets transmitting WiFi and Bluetooth under two different time frames. The different time frames are essential to rigorously evaluate the generalization capability of the models. To ensure widespread use, each capture within the comprehensive 72 GB dataset is long enough (40 MSamples) to support diverse input tensor lengths and formats. Finally, the dataset also comprises emissions at varying signal powers to account for the feeble to high signal strength emissions as encountered in a real-world setting.
翻訳日:2023-03-31 16:37:51 公開日:2023-03-15
# chatgptかグラマーリーか? 文法的誤り訂正ベンチマークによるChatGPTの評価

ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark ( http://arxiv.org/abs/2303.13648v1 )

ライセンス: Link先を確認
Haoran Wu, Wenxuan Wang, Yuxuan Wan, Wenxiang Jiao, Michael Lyu(参考訳) ChatGPTはOpenAIが開発した最先端の人工知能言語モデルである。 本稿では,文法的誤り訂正(GEC)タスク上でChatGPTを評価し,商業GEC製品(Grammarlyなど)や最先端モデル(GECToRなど)と比較する。 CoNLL2014ベンチマークデータセットでテストした結果、ChatGPTは自動評価指標(例えば、$F_{0.5}$スコア)において、特に長文で、ベースラインと同等に動作しないことがわかった。 出力を検査し、ChatGPTが1対1の補正を超えることを確認する。 具体的には、文法的正確性を維持しつつ、特定の句や文構造の表面表現を変更することを好む。 人間の評価はこのことを定量的に確認し、ChatGPTは過補正や誤補正の少ないが過補正の少ないことを示唆している。 これらの結果から,ChatGPTは自動評価指標によって過小評価され,GECにとって有望なツールとなる可能性が示唆された。

ChatGPT is a cutting-edge artificial intelligence language model developed by OpenAI, which has attracted a lot of attention due to its surprisingly strong ability in answering follow-up questions. In this report, we aim to evaluate ChatGPT on the Grammatical Error Correction(GEC) task, and compare it with commercial GEC product (e.g., Grammarly) and state-of-the-art models (e.g., GECToR). By testing on the CoNLL2014 benchmark dataset, we find that ChatGPT performs not as well as those baselines in terms of the automatic evaluation metrics (e.g., $F_{0.5}$ score), particularly on long sentences. We inspect the outputs and find that ChatGPT goes beyond one-by-one corrections. Specifically, it prefers to change the surface expression of certain phrases or sentence structure while maintaining grammatical correctness. Human evaluation quantitatively confirms this and suggests that ChatGPT produces less under-correction or mis-correction issues but more over-corrections. These results demonstrate that ChatGPT is severely under-estimated by the automatic evaluation metrics and could be a promising tool for GEC.
翻訳日:2023-03-31 16:28:49 公開日:2023-03-15
# 高次元応力場に対する確率モデリングと自動機械学習フレームワークの適用

Application of probabilistic modeling and automated machine learning framework for high-dimensional stress field ( http://arxiv.org/abs/2303.16869v1 )

ライセンス: Link先を確認
Lele Luan, Nesar Ramachandra, Sandipp Krishnan Ravi, Anindya Bhaduri, Piyush Pandita, Prasanna Balaprakash, Mihai Anitescu, Changjie Sun, Liping Wang(参考訳) 高度な数学的定式化を含む現代の計算手法は、複雑な物理現象のモデリング、鍵となる特性の予測、設計最適化など、いくつかのタスクを可能にする。 これらのコンピュータモデルの忠実度が高ければ高いほど、最適化のために数百回も問合せしやすくなり、予測精度と精度を損なうため、通常は単純化されたモデルに頼っている。 これに対して、データ駆動サーロゲートモデリング手法は、高価なコンピュータモデルの振る舞いをエミュレートする多くの可能性を示している。 しかし、そのような手法の大きなボトルネックは、高い入力次元を扱うことができないことと比較的大きなデータセットの必要性である。 このような問題に対して、興味の入出力量は高次元のテンソルである。 このような問題に対してよく用いられる代理モデリング手法は、不確実性定量化や統計解析のような他の数値的なタスクの実行を阻害する大量の計算評価のような要求に悩まされる。 本研究では,入力のような高次元画像を高次元あるいはその重要な統計量の出力にマッピングするエンドツーエンドアプローチを提案する。 私たちのアプローチは、3つのステップを実行する2つの主要なフレームワークを使用します。 a) 高次元空間から低次元空間へ入力と出力を減少させる b)低次元空間における入出力関係をモデル化し、 c) マスクとしてドメイン固有の物理的制約を組み込むことができる。 入力次元を減少させるタスクを達成するために、主成分分析を利用する。 a)ベイズハイブリッドモデリング、及び b) DeepHyperのディープニューラルネットワーク。 線形弾性応力場データの問題に対するアプローチの適用性を示す。

Modern computational methods, involving highly sophisticated mathematical formulations, enable several tasks like modeling complex physical phenomenon, predicting key properties and design optimization. The higher fidelity in these computer models makes it computationally intensive to query them hundreds of times for optimization and one usually relies on a simplified model albeit at the cost of losing predictive accuracy and precision. Towards this, data-driven surrogate modeling methods have shown a lot of promise in emulating the behavior of the expensive computer models. However, a major bottleneck in such methods is the inability to deal with high input dimensionality and the need for relatively large datasets. With such problems, the input and output quantity of interest are tensors of high dimensionality. Commonly used surrogate modeling methods for such problems, suffer from requirements like high number of computational evaluations that precludes one from performing other numerical tasks like uncertainty quantification and statistical analysis. In this work, we propose an end-to-end approach that maps a high-dimensional image like input to an output of high dimensionality or its key statistics. Our approach uses two main framework that perform three steps: a) reduce the input and output from a high-dimensional space to a reduced or low-dimensional space, b) model the input-output relationship in the low-dimensional space, and c) enable the incorporation of domain-specific physical constraints as masks. In order to accomplish the task of reducing input dimensionality we leverage principal component analysis, that is coupled with two surrogate modeling methods namely: a) Bayesian hybrid modeling, and b) DeepHyper's deep neural networks. We demonstrate the applicability of the approach on a problem of a linear elastic stress field data.
翻訳日:2023-03-31 15:39:42 公開日:2023-03-15
# プライバシにおける有害ネットワーク効果:ノードベースの侵入に対するグラフ理論モデル

Detrimental Network Effects in Privacy: A Graph-theoretic Model for Node-based Intrusions ( http://arxiv.org/abs/1803.09007v2 )

ライセンス: Link先を確認
Florimond Houssiau, Piotr Sapiezynski, Laura Radaelli, Erez Shmueli, Yves-Alexandre de Montjoye(参考訳) 比例性はデータ保護法の典型のひとつですが、現代のデータコレクションとネットワーク効果の限界を評価するための強固な分析フレームワークが現在欠如しています。 本稿では,ネットワークデータ収集の到達範囲を定量化するためのグラフ理論モデルとノード・エッジ・オブザーバビリティの概念を提案する。 まず、我々のメトリクスに対する閉形式表現を証明し、そのグラフ構造が可観測性に与える影響を定量化する。 第二に、170,000の不正アカウントから、Cambridge Analyticaが68.0MのFacebookプロフィールを収集し、(2)携帯電話ネットワークのノードを0.01\%監視することから、法執行機関が全通信の18.6\%を観察し、(3)スマートフォンの1\%にインストールされたアプリが、近距離追跡によってロンドン人口の半分の位置情報を監視できるようになった。 データ収集機構の到達範囲の定量化は、その比例性を評価する上で不可欠である。

Despite proportionality being one of the tenets of data protection laws, we currently lack a robust analytical framework to evaluate the reach of modern data collections and the network effects at play. We here propose a graph-theoretic model and notions of node- and edge-observability to quantify the reach of networked data collections. We first prove closed-form expressions for our metrics and quantify the impact of the graph's structure on observability. Second, using our model, we quantify how (1) from 270,000 compromised accounts, Cambridge Analytica collected 68.0M Facebook profiles; (2) from surveilling 0.01\% the nodes in a mobile phone network, a law-enforcement agency could observe 18.6\% of all communications; and (3) an app installed on 1\% of smartphones could monitor the location of half of the London population through close proximity tracing. Better quantifying the reach of data collection mechanisms is essential to evaluate their proportionality.
翻訳日:2023-03-25 04:49:18 公開日:2023-03-15
# ウィグナーの友人パラドックスに対する強い非ゴーの定理

A strong no-go theorem on the Wigner's friend paradox ( http://arxiv.org/abs/1907.05607v4 )

ライセンス: Link先を確認
Kok-Wei Bong, An\'ibal Utreras-Alarc\'on, Farzad Ghafari, Yeong-Cherng Liang, Nora Tischler, Eric G. Cavalcanti, Geoff J. Pryde and Howard M. Wiseman(参考訳) 量子論は観測者を含むあらゆるスケールで適用できるのか? この根本的な疑問に対する新しい光は、長年にわたって続いたワイナーの友人パラドックスに対する関心の復活によって最近引き起こされた。 これは、分離されたシステムの(ユニタリ、決定論的)進化と、測定後の(非ユニタリ、確率的)状態更新との調和の難しい量子計測問題に対処する思考実験である。 ここでは、Bruknerが導入した2つの分離された、絡み合った友人によるシナリオに基づいて、量子進化がオブザーバのスケールで制御可能であるなら、'非スーパー決定論'、'ローカリティ'、'オブザーバッドイベントの絶対性'の1つ -- 観測されたすべての事象は、比較的ではない -- が偽でなければならないことを証明している。 このようなシナリオにおけるベル型不等式違反は、これらの3つの仮定の矛盾を示すのに十分なものではないが、量子相関によって破られる理論に依存しない方法で新しい不等式を導出することができる。 これは、光子の経路が観測者と見なされる原理実証実験で証明される。 我々はこの新定理がベルの定理よりも物理的現実に強い制約を与える方法について論じる。

Does quantum theory apply at all scales, including that of observers? New light on this fundamental question has recently been shed through a resurgence of interest in the long-standing Wigner's friend paradox. This is a thought experiment addressing the quantum measurement problem -- the difficulty of reconciling the (unitary, deterministic) evolution of isolated systems and the (non-unitary, probabilistic) state update after a measurement. Here, by building on a scenario with two separated but entangled friends introduced by Brukner, we prove that if quantum evolution is controllable on the scale of an observer, then one of 'No-Superdeterminism', 'Locality' or 'Absoluteness of Observed Events' -- that every observed event exists absolutely, not relatively -- must be false. We show that although the violation of Bell-type inequalities in such scenarios is not in general sufficient to demonstrate the contradiction between those three assumptions, new inequalities can be derived in a theory-independent manner, that are violated by quantum correlations. This is demonstrated in a proof-of-principle experiment where a photon's path is deemed an observer. We discuss how this new theorem places strictly stronger constraints on physical reality than Bell's theorem.
翻訳日:2023-03-25 04:21:41 公開日:2023-03-15
# 一般化クリフォード代数を用いた多重量子計算のためのグラフ計算

A Graphical Calculus for Quantum Computing with Multiple Qudits using Generalized Clifford Algebras ( http://arxiv.org/abs/2103.16081v2 )

ライセンス: Link先を確認
Robert Lin(参考訳) 本研究では,従来の研究で開発された代数的フレームワークを用いて,一般化クリフォード代数を用いたマルチキューディット計算のためのグラフィカル計算を開発した。 我々は、与えられた一般化クリフォード代数の要素、基底状態に対応するグラフィカルプリミティブ、および各キューディットの基底状態への射影に対応するグラフィカルプリミティブから構築された代数式によって定義される固定されたグラフィカルプリミティブの集合からグラフィカル計算を構築する。 我々は、ヤン・バクスター方程式の新しい代数的証明や対応するブレイド群表現の構成など、純粋代数的手法を用いて、グラフィカル計算の多くの性質を確立する。 任意のキュディ次元に適用される我々の代数的証明は、偶数キュディ次元に対する自己双対ブレイド群表現の構成に関するコバネラとオルティスの開問題の解決を可能にする。 私たちはまた、証明の鍵となるブレイド要素のいくつかの新しいアイデンティティも導出します。 物理学の分野では、保存電荷の存在を示すことによって、これらのブレイドのアイデンティティを物理学に結びつける。 さらに, 多くの場合において, 2つの基本ベクトルidの組合せ適用により, 関連するベクトルidの検証を削減できることを示す。 代数的手法を用いて,様々なベクトル状態を効率的に計算する方法を示す。 さらに、量子計算の観点からは、2-局所演算子であることを示すことにより、ブレイド演算子を量子計算に実装することが可能であることを示す。 実際、これらのブレイド元は概クリフォードゲートであり、一般化されたポーリ群を余剰因子 $\zeta$ まで正規化し、これはユニティの原始根の適切な平方根である。

In this work, we develop a graphical calculus for multi-qudit computations with generalized Clifford algebras, using the algebraic framework developed in a previous work. We build our graphical calculus out of a fixed set of graphical primitives defined by algebraic expressions constructed out of elements of a given generalized Clifford algebra, a graphical primitive corresponding to the ground state, and also graphical primitives corresponding to projections onto the ground state of each qudit. We establish many properties of the graphical calculus using purely algebraic methods, including a novel algebraic proof of a Yang-Baxter equation and a construction of a corresponding braid group representation. Our algebraic proof, which applies to arbitrary qudit dimension, also enables a resolution of an open problem of Cobanera and Ortiz on the construction of self-dual braid group representations for even qudit dimension. We also derive several new identities for the braid elements, which are key to our proofs. In terms of physics, we connect these braid identities to physics by showing the presence of a conserved charge. Furthermore, we demonstrate that in many cases, the verification of involved vector identities can be reduced to the combinatorial application of two basic vector identities. We show how to explicitly compute various vector states in an efficient manner using algebraic methods. Additionally, in terms of quantum computation, we demonstrate that it is feasible to envision implementing the braid operators for quantum computation, by showing that they are 2-local operators. In fact, these braid elements are almost Clifford gates, for they normalize the generalized Pauli group up to an extra factor $\zeta$, which is an appropriate square root of a primitive root of unity.
翻訳日:2023-03-25 03:55:01 公開日:2023-03-15
# 検索方法で類似したエクササイズを見つける

Finding Similar Exercises in Retrieval Manner ( http://arxiv.org/abs/2303.11163v1 )

ライセンス: Link先を確認
Tongwen Huang, Xihua Li, Chao Yi, Xuemin Zhao, Yunbo Cao(参考訳) 学生が演習で過ちを犯すと、同じ概念、目的、方法を持つ「類似の演習」によって統合することができる。 一般的に、特定の主題と研究段階において、エクササイズバンクのサイズは数百万から数千万の範囲であり、特定のエクササイズに対して類似したエクササイズを見つける方法が重要な技術的問題となる。 一般的には、さまざまな明示的なラベルをエクササイズに割り当てて、ラベルを問い合わせることができますが、ラベルアノテーションは、正確さと粒度が限定された、時間と労力とコストがかかるため、実現不可能です。 実際には、「類似エクササイズ」は、リコール、ランキング、再ランクの手順に基づく一連の類似エクササイズ(類似エクササイズ)を検索するプロセスとして定義し、それを「textbf{FSE} problem (Finding similar exercises)」と呼ぶ。 さらに,演習の意味情報の包括的表現を表現学習によって獲得した。 合理的なアーキテクチャに加えて,事前学習や教師付き学習から学習する意味情報の学習において,どのようなタスクがより分かりやすいのかについても検討する。 同様の課題に注釈をつけることは困難であり、専門家間のアノテーションの一貫性は低い。 そこで本研究では,低品質アノテートデータの問題を解決するためのソリューションも提供する。 本稿は,他の手法と比較して,現在数百校の日次教育を提供しているアーキテクチャ合理性とアルゴリズム精度の両面で,明らかな優位性を有する。

When students make a mistake in an exercise, they can consolidate it by ``similar exercises'' which have the same concepts, purposes and methods. Commonly, for a certain subject and study stage, the size of the exercise bank is in the range of millions to even tens of millions, how to find similar exercises for a given exercise becomes a crucial technical problem. Generally, we can assign a variety of explicit labels to the exercise, and then query through the labels, but the label annotation is time-consuming, laborious and costly, with limited precision and granularity, so it is not feasible. In practice, we define ``similar exercises'' as a retrieval process of finding a set of similar exercises based on recall, ranking and re-rank procedures, called the \textbf{FSE} problem (Finding similar exercises). Furthermore, comprehensive representation of the semantic information of exercises was obtained through representation learning. In addition to the reasonable architecture, we also explore what kind of tasks are more conducive to the learning of exercise semantic information from pre-training and supervised learning. It is difficult to annotate similar exercises and the annotation consistency among experts is low. Therefore this paper also provides solutions to solve the problem of low-quality annotated data. Compared with other methods, this paper has obvious advantages in both architecture rationality and algorithm precision, which now serves the daily teaching of hundreds of schools.
翻訳日:2023-03-25 03:37:28 公開日:2023-03-15
# マルチエージェント強化学習による量的市場の戦略的取引

Strategic Trading in Quantitative Markets through Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2303.11959v1 )

ライセンス: Link先を確認
Hengxi Zhang, Zhendong Shi, Yuanquan Hu, Wenbo Ding, Ercan E. Kuruoglu, Xiao-Ping Zhang(参考訳) 急速な変動と量的市場の不確実性により、株式取引で利益を得るための適切な措置を講じる方法についての問題は依然として課題となっている。 最適制御のための報酬指向アプローチとしての強化学習(RL)は、このような複雑な金融シナリオにおいて、この戦略的意思決定問題に取り組むための有望な方法として登場した。 本稿では,定比ポートフォリオ保険 (CPPI) と時間不変ポートフォリオ保護 (TIPP) という2つの以前の金融取引戦略をマルチエージェント・ディープ・決定主義的政策勾配 (MADDPG) に統合し,量的市場における戦略的取引を調べるために,CPPI-MADDPG と TIPP-MADDPG という2つの特別に設計されたマルチエージェントRL (MARL) 手法を提案した。 その後、具体的なアプローチを試すために、実際の金融市場において100の異なる株を選択しました。 実験の結果,CPPI-MADDPGとTIPP-MADDPGのアプローチは従来の手法よりも優れていた。

Due to the rapid dynamics and a mass of uncertainties in the quantitative markets, the issue of how to take appropriate actions to make profits in stock trading remains a challenging one. Reinforcement learning (RL), as a reward-oriented approach for optimal control, has emerged as a promising method to tackle this strategic decision-making problem in such a complex financial scenario. In this paper, we integrated two prior financial trading strategies named constant proportion portfolio insurance (CPPI) and time-invariant portfolio protection (TIPP) into multi-agent deep deterministic policy gradient (MADDPG) and proposed two specifically designed multi-agent RL (MARL) methods: CPPI-MADDPG and TIPP-MADDPG for investigating strategic trading in quantitative markets. Afterward, we selected 100 different shares in the real financial market to test these specifically proposed approaches. The experiment results show that CPPI-MADDPG and TIPP-MADDPG approaches generally outperform the conventional ones.
翻訳日:2023-03-25 03:28:59 公開日:2023-03-15
# 空中拡散:拡散モデルを用いた単一画像からの地対空ビューのテキスト変換

Aerial Diffusion: Text Guided Ground-to-Aerial View Translation from a Single Image using Diffusion Models ( http://arxiv.org/abs/2303.11444v1 )

ライセンス: Link先を確認
Divya Kothandaraman, Tianyi Zhou, Ming Lin, Dinesh Manocha(参考訳) 本稿では,テキストガイドを用いた地上画像から空中映像を生成する新しい手法である空中拡散法を提案する。 航空拡散は事前知識のための事前訓練されたテキストイメージ拡散モデルを利用する。 地平線と空中線との領域ギャップに対応する2つの主要な課題に対処し,テキスト画像埋め込み多様体において,その2つの視点は遠く離れている。 提案手法は,事前学習した拡散モデルの微調整に先立って,逆パースペクティブマッピングにインスパイアされたホモグラフィを用いている。 さらに、地上画像に対応するテキストを使用してモデルを微調整することは、地上画像に対して相対的に低いバイアスで地上画像の詳細をキャプチャするのに役立つ。 空中拡散は交代サンプリング戦略を用いて複雑な高次元多様体上の最適解を計算し、高忠実度(w.r.t. ground view)空中画像を生成する。 本研究では,自然,人的行動,屋内シーンなど,さまざまな領域の画像に対して,空中拡散の質と汎用性を示す。 提案手法の有効性を,広範囲な改善と比較により定性的に証明する。 私たちの知る限りでは、航空拡散は教師なしの方法で地対空翻訳を行う最初のアプローチです。

We present a novel method, Aerial Diffusion, for generating aerial views from a single ground-view image using text guidance. Aerial Diffusion leverages a pretrained text-image diffusion model for prior knowledge. We address two main challenges corresponding to domain gap between the ground-view and the aerial view and the two views being far apart in the text-image embedding manifold. Our approach uses a homography inspired by inverse perspective mapping prior to finetuning the pretrained diffusion model. Additionally, using the text corresponding to the ground-view to finetune the model helps us capture the details in the ground-view image at a relatively low bias towards the ground-view image. Aerial Diffusion uses an alternating sampling strategy to compute the optimal solution on complex high-dimensional manifold and generate a high-fidelity (w.r.t. ground view) aerial image. We demonstrate the quality and versatility of Aerial Diffusion on a plethora of images from various domains including nature, human actions, indoor scenes, etc. We qualitatively prove the effectiveness of our method with extensive ablations and comparisons. To the best of our knowledge, Aerial Diffusion is the first approach that performs ground-to-aerial translation in an unsupervised manner.
翻訳日:2023-03-25 03:28:26 公開日:2023-03-15
# AdaOPC: リアルデザインパターンのための自己適応型マスク最適化フレームワーク

AdaOPC: A Self-Adaptive Mask Optimization Framework For Real Design Patterns ( http://arxiv.org/abs/2303.12723v1 )

ライセンス: Link先を確認
Wenqian Zhao, Xufeng Yao, Ziyang Yu, Guojin Chen, Yuzhe Ma, Bei Yu, Martin D.F. Wong(参考訳) 光近接補正(OPC)は、印刷性最適化のための広く使われている解像度向上技術である。 近年、厳密な数値最適化と高速な機械学習は、学問と産業の両方におけるopcの研究の焦点であり、それぞれが堅牢性や効率性の観点から相互補完している。 設計層上のパターン分布を検査し、異なるサブリージョンが異なるパターン複雑性を持つことを示す。 さらに、多くのパターンが繰り返しデザインレイアウトに現れることもわかり、これらのパターンは最適化されたマスクを共有する可能性がある。 これらの特性を活用し,効率向上のための自己適応型OPCフレームワークを提案する。 まず、拡張可能なソルバプールから異なる複雑さのパターンを適応的に選択し、速度/精度の共最適化を行う。 それとは別に、繰り返しパターンに対する最適化マスクの再利用の可能性を証明するとともに、OPCフローをさらに高速化するために、グラフベースの動的パターンライブラリを構築する。 実験の結果,我々のフレームワークは性能と効率の両面で大幅に改善することがわかった。

Optical proximity correction (OPC) is a widely-used resolution enhancement technique (RET) for printability optimization. Recently, rigorous numerical optimization and fast machine learning are the research focus of OPC in both academia and industry, each of which complements the other in terms of robustness or efficiency. We inspect the pattern distribution on a design layer and find that different sub-regions have different pattern complexity. Besides, we also find that many patterns repetitively appear in the design layout, and these patterns may possibly share optimized masks. We exploit these properties and propose a self-adaptive OPC framework to improve efficiency. Firstly we choose different OPC solvers adaptively for patterns of different complexity from an extensible solver pool to reach a speed/accuracy co-optimization. Apart from that, we prove the feasibility of reusing optimized masks for repeated patterns and hence, build a graph-based dynamic pattern library reusing stored masks to further speed up the OPC flow. Experimental results show that our framework achieves substantial improvement in both performance and efficiency.
翻訳日:2023-03-25 03:09:23 公開日:2023-03-15
# EmoWOZにおける感情検出のためのデータ分割の再評価

Reevaluating Data Partitioning for Emotion Detection in EmoWOZ ( http://arxiv.org/abs/2303.13364v1 )

ライセンス: Link先を確認
Moeen Mostafavi, Michael D. Porter(参考訳) 本稿では、対話のための感情ラベルを提供するMultiWOZの拡張であるEmoWozデータセットに焦点を当てる。 MultiWOZは、当初別の目的のために分割され、新しい感情認識の目的を考えると、分布の変化が生じる。 EmoWozの感情タグは非常に不均衡であり、パーティション全体に不均一に分散しているため、サブ最適性能とモデルの比較が不十分である。 この問題に対処し、データセットの分布を改善し、データセットシフトを減らすために、感情タグに基づく階層化サンプリング手法を提案する。 また,感情タグの多い会話(系列)データを扱うための特別な手法を提案する。 提案手法を用いることで,EmoWozをベースとしたモデルの性能が向上し,感情的知能を持つ会話エージェントを訓練するための信頼性が向上する。 将来の研究者は、この新たなパーティショニングを使用して、一貫性と正確なパフォーマンス評価を保証することを推奨します。

This paper focuses on the EmoWoz dataset, an extension of MultiWOZ that provides emotion labels for the dialogues. MultiWOZ was partitioned initially for another purpose, resulting in a distributional shift when considering the new purpose of emotion recognition. The emotion tags in EmoWoz are highly imbalanced and unevenly distributed across the partitions, which causes sub-optimal performance and poor comparison of models. We propose a stratified sampling scheme based on emotion tags to address this issue, improve the dataset's distribution, and reduce dataset shift. We also introduce a special technique to handle conversation (sequential) data with many emotional tags. Using our proposed sampling method, models built upon EmoWoz can perform better, making it a more reliable resource for training conversational agents with emotional intelligence. We recommend that future researchers use this new partitioning to ensure consistent and accurate performance evaluations.
翻訳日:2023-03-25 02:32:48 公開日:2023-03-15
# 視力による軌道予測:サーベイ

Trajectory-Prediction with Vision: A Survey ( http://arxiv.org/abs/2303.13354v1 )

ライセンス: Link先を確認
Apoorv Singh(参考訳) 安全で効率的なルートを計画するには、自動運転車は周囲の他のエージェントの将来の軌道を予測する必要がある。 軌道予測は、最近自動運転車研究コミュニティで注目を集めた非常に困難なタスクである。 軌道予測は、現在の状態と過去の状態から、シーン内のすべての動的エージェントの将来の状態を予測する。 良い予測モデルは、道路上の衝突を防ぐことができ、したがって自動運転車の最終的な目標である衝突速度:数百万マイル毎の衝突。 本研究の目的は, フィールド軌道予測の概観を提供することである。 関連するアルゴリズムを異なるクラスに分類し、研究者が軌道予測研究分野のトレンドを追跡できるようにします。 さらに,軌道予測問題の定式化に必要な背景知識にも触れる。

To plan a safe and efficient route, an autonomous vehicle should anticipate future trajectories of other agents around it. Trajectory prediction is an extremely challenging task which recently gained a lot of attention in the autonomous vehicle research community. Trajectory-prediction forecasts future state of all the dynamic agents in the scene given their current and past states. A good prediction model can prevent collisions on the road, and hence the ultimate goal for autonomous vehicles: Collision rate: collisions per Million miles. The objective of this paper is to provide an overview of the field trajectory-prediction. We categorize the relevant algorithms into different classes so that researchers can follow through the trends in the trajectory-prediction research field. Moreover we also touch upon the background knowledge required to formulate a trajectory-prediction problem.
翻訳日:2023-03-25 02:31:51 公開日:2023-03-15
# フィルタイベントデータによる原始的生産課題の分類

Classification of Primitive Manufacturing Tasks from Filtered Event Data ( http://arxiv.org/abs/2303.09558v1 )

ライセンス: Link先を確認
Laura Duarte, Pedro Neto(参考訳) 協調型ロボットは、人間の活動を支援するために産業にますます存在する。 しかし、人間とロボットの協調プロセスをより効果的にするためには、対処すべき課題がいくつかある。 協調型ロボットシステムは,(1)協調的・補助的行動,(2)実演による学習,(3)共有作業空間における安全手順の活性化など,人間の活動に注意が必要である。 本研究では,ダイナミック・アクティブ・ピクセル・ビジョン・センサ(DAVIS)が捉えた人間の動作イベントデータから,プリミティブ・アセンブリータスクを認識する行動分類システムを提案する。 いくつかのフィルタを比較して、イベントデータノイズを除去する。 タスクパターンは、高度な深層学習と繰り返しネットワークを使用してイベントデータの連続ストリームから分類され、空間的特徴と時間的特徴を分類する。 製造作業データセット(DMT22)では,5人の参加者から5種類の代表的な製造プリミティブ(PickUp, Place, Screw, Hold, Idle)を抽出した。 その結果, 提案したフィルタは記録毎の事象(ノイズ)の約65%を除去し, 学習した被験者の分類精度を99,37 %, 新規被験者の97.08 %とした。 右利きのトレーニングデータのみを用いて,左利きの被験者のデータを分類した。 これらの結果はオブジェクト独立である。

Collaborative robots are increasingly present in industry to support human activities. However, to make the human-robot collaborative process more effective, there are several challenges to be addressed. Collaborative robotic systems need to be aware of the human activities to (1) anticipate collaborative/assistive actions, (2) learn by demonstration, and (3) activate safety procedures in shared workspace. This study proposes an action classification system to recognize primitive assembly tasks from human motion events data captured by a Dynamic and Active-pixel Vision Sensor (DAVIS). Several filters are compared and combined to remove event data noise. Task patterns are classified from a continuous stream of event data using advanced deep learning and recurrent networks to classify spatial and temporal features. Experiments were conducted on a novel dataset, the dataset of manufacturing tasks (DMT22), featuring 5 classes of representative manufacturing primitives (PickUp, Place, Screw, Hold, Idle) from 5 participants. Results show that the proposed filters remove about 65\% of all events (noise) per recording, conducting to a classification accuracy up to 99,37\% for subjects that trained the system and 97.08\% for new subjects. Data from a left-handed subject were successfully classified using only right-handed training data. These results are object independent.
翻訳日:2023-03-20 16:44:32 公開日:2023-03-15
# エピジェネティックスアルゴリズム:染色体の発現を調節する自己強化-アテンション機構

Epigenetics Algorithms: Self-Reinforcement-Attention mechanism to regulate chromosomes expression ( http://arxiv.org/abs/2303.10154v1 )

ライセンス: Link先を確認
Mohamed Djallel Dilmi, Hanene Azzag and Mustapha Lebbah(参考訳) 遺伝的アルゴリズムは、バイオインスパイアされたヒューリスティック手法のよく知られた例である。 自然選択を模倣し、突然変異、交叉、選択などの操作をモデル化する。 エピジェネティクスの制御プロセスに関する最近の発見は、遺伝の遺伝的基盤に加えて、遺伝子発現に影響を及ぼし、改善する変化を含む。 これはエピジェネティックス演算子をモデル化することで遺伝的アルゴリズム(gas)を改善するという問題を引き起こす。 本稿ではDNAメチル化として知られるエピジェネティックス現象を模倣する新しいエピジェネティックスアルゴリズムを提案する。 エピジェネティックスアルゴリズムの斬新さは、主に注意のメカニズムと深層学習の利点を生かしている。 本論文では,提案するエピジェネティックスアルゴリズムが,単純なGAよりも複雑な問題を効率的に解く能力を示すために,理論的議論を展開し,実証研究を行う。例えば,本論文で示す2つの非凸(複数ピーク)最適化問題に直面すると,提案アルゴリズムは優れた性能を示し,局所最適性の欠如を克服し,グローバル最適性を見出すことができることを示す。

Genetic algorithms are a well-known example of bio-inspired heuristic methods. They mimic natural selection by modeling several operators such as mutation, crossover, and selection. Recent discoveries about Epigenetics regulation processes that occur "on top of" or "in addition to" the genetic basis for inheritance involve changes that affect and improve gene expression. They raise the question of improving genetic algorithms (GAs) by modeling epigenetics operators. This paper proposes a new epigenetics algorithm that mimics the epigenetics phenomenon known as DNA methylation. The novelty of our epigenetics algorithms lies primarily in taking advantage of attention mechanisms and deep learning, which fits well with the genes enhancing/silencing concept. The paper develops theoretical arguments and presents empirical studies to exhibit the capability of the proposed epigenetics algorithms to solve more complex problems efficiently than has been possible with simple GAs; for example, facing two Non-convex (multi-peaks) optimization problems as presented in this paper, the proposed epigenetics algorithm provides good performances and shows an excellent ability to overcome the lack of local optimum and thus find the global optimum.
翻訳日:2023-03-20 13:30:35 公開日:2023-03-15
# デコヒーレンスの熱力学

Thermodynamics of decoherence ( http://arxiv.org/abs/2107.14216v2 )

ライセンス: Link先を確認
Maria Popovic, Mark T. Mitchison, and John Goold(参考訳) 純非コヒーレンスの非平衡熱力学について検討する。 純粋なデコヒーレンス過程において、ハミルトニアン系は運動の定数であり、系と周囲の間に直接のエネルギー交換は存在しない。 しかしながら、環境のエネルギーは一般に保存されておらず、この研究において、非コヒーレンス単独の結果として、非自明な熱散逸につながることを示す。 この熱は非常に特徴的な性質を持ち、積分的ゆらぎ関係に従い、初期状態のエネルギー固有化における個体群に関連するエントロピー生成の観点で解釈することができる。 純粋なデコヒーレンスプロセスにおける熱分布は,初期システム-バス相互作用クエンチによる作業の分布と異なることを示す。 代わりに、これは循環過程のワーク分布の混合物に対応し、それぞれが開システムの状態に基づいて条件付けされる。 超低温ガス中の不純物に関する最近の実験に触発され、種選択光学格子の最低帯にある縮退したフェルミガスに浸漬された量子ビットの熱を研究した結果を実証した。

We investigate the nonequilibrium thermodynamics of pure decoherence. In a pure decoherence process, the system Hamiltonian is a constant of motion and there is no direct energy exchange between the system and its surroundings. Nevertheless, the environment's energy is not generally conserved and in this work we show that this leads to nontrivial heat dissipation as a result of decoherence alone. This heat has some very distinctive properties: it obeys an integral fluctuation relation and can be interpreted in terms of the entropy production associated with populations in the energy eigenbasis of the initial state. We show that the heat distribution for a pure decoherence process is different from the distribution of work done by the initial system-bath interaction quench. Instead, it corresponds to a mixture of work distributions of cyclical processes, each conditioned on a state of the open system. Inspired by recent experiments on impurities in ultra-cold gases, we demonstrate our general results by studying the heat generated by the decoherence of a qubit immersed within a degenerate Fermi gas in the lowest band of a species-selective optical lattice.
翻訳日:2023-03-20 11:23:45 公開日:2023-03-15
# 量子重力からの曲線時空におけるQFT:重力成分の適切なWKB分解

QFT in Curved Spacetime from Quantum Gravity: proper WKB decomposition of the gravitational component ( http://arxiv.org/abs/2302.10832v2 )

ライセンス: Link先を確認
Giulia Maniccia and Giovanni Montani and Stefano Antonini(参考訳) 先行研究の再分析から始まり、ボルン=オッペンハイマーアプローチにおける完全な量子重力理論の適切な低エネルギー量子場理論(qft)の限界を構築する。 重力セクターを、真空対角線bianchi i宇宙論によって与えられる古典的背景と、その量子摂動を2つの重力子自由度で表し、さらにテストスカラー場という形で量子物質を含める。 次に、ボルン-オッペンハイマー分離を実装し、重力と物質はそれぞれ「低い」量子成分と「速い」量子成分の役割を担い、プランクパラメータでウェンツェル-クラマーズ-ブリルアン(wkb)展開を行う。 The functional Schr\"odinger evolution for matter is recovered after averaging over quantum gravitational effects, provided that a condition is imposed on the gravitons' wave functional. Such a condition fixes the graviton dynamics and is equivalent to the purely gravitational Wheeler-DeWitt constraint imposed in previous approaches. The main accomplishment of the present work is to clarify that QFT in curved spacetime can be recovered in the low energy limit of quantum gravity only after averaging over the graviton degrees of freedom, in the spirit of effective field theory. Furthermore, it justifies a posteriori the implementation of the gravitational Wheeler-DeWitt equation on the "slow" gravitons' wave functional rather than assuming its validity a priori.

Starting from a re-analysis of previous work, we construct the proper low energy quantum field theory (QFT) limit of a full quantum gravity theory in the Born-Oppenheimer approach. We separate the gravitational sector into a classical background, given by a vacuum diagonal Bianchi I cosmology, and its quantum perturbations represented by the two graviton degrees of freedom; we further include quantum matter in the form of a test scalar field. We then implement a Born-Oppenheimer separation, where the gravitons and matter play the role of "slow" and "fast" quantum components respectively, and perform a Wentzel-Kramers-Brillouin (WKB) expansion in a Planckian parameter. The functional Schr\"odinger evolution for matter is recovered after averaging over quantum gravitational effects, provided that a condition is imposed on the gravitons' wave functional. Such a condition fixes the graviton dynamics and is equivalent to the purely gravitational Wheeler-DeWitt constraint imposed in previous approaches. The main accomplishment of the present work is to clarify that QFT in curved spacetime can be recovered in the low energy limit of quantum gravity only after averaging over the graviton degrees of freedom, in the spirit of effective field theory. Furthermore, it justifies a posteriori the implementation of the gravitational Wheeler-DeWitt equation on the "slow" gravitons' wave functional rather than assuming its validity a priori.
翻訳日:2023-03-19 12:04:06 公開日:2023-03-15
# ZX計算による耐故障性の統一化

Unifying flavors of fault tolerance with the ZX calculus ( http://arxiv.org/abs/2303.08829v1 )

ライセンス: Link先を確認
Hector Bombin, Daniel Litinski, Naomi Nickerson, Fernando Pastawski, and Sam Roberts(参考訳) 基本的なフォールトトレランス特性を共有する量子計算のモデルがいくつか存在する。 この記事では、ZX計算に基づく統一フレームワークでこれらの異なるモデルを提示することで、共通性を明示する。 我々は、最近導入されたフロケ符号のモデルと同様に、回路ベース、計測ベース、融合ベース量子計算を含むトポロジカルフォールトトレランス特異的表面符号のモデルに焦点を当てる。 これらのモデルはすべて、同じ安定化可能なフォールトトレランス構造の異なるフレーバーと見なすことができ、フレーバー間のマッピングを可能にする一連の局所同値変換を通してこれを維持できる。 この統一的な視点は、安定したフォールトトレランスの異なる視点間で進捗を伝達する方法を開拓し、あるモデルに詳しい研究者が容易に他のモデルを理解するのに役立つことを期待する。

There are several models of quantum computation which exhibit shared fundamental fault-tolerance properties. This article makes commonalities explicit by presenting these different models in a unifying framework based on the ZX calculus. We focus on models of topological fault tolerance - specifically surface codes - including circuit-based, measurement-based and fusion-based quantum computation, as well as the recently introduced model of Floquet codes. We find that all of these models can be viewed as different flavors of the same underlying stabilizer fault-tolerance structure, and sustain this through a set of local equivalence transformations which allow mapping between flavors. We anticipate that this unifying perspective will pave the way to transferring progress among the different views of stabilizer fault-tolerance and help researchers familiar with one model easily understand others.
翻訳日:2023-03-17 18:27:31 公開日:2023-03-15
# 機械学習を用いた無線センサネットワーク異常検出:調査

Wireless Sensor Networks anomaly detection using Machine Learning: A Survey ( http://arxiv.org/abs/2303.08823v1 )

ライセンス: Link先を確認
Ahsnaul Haque, Md Naseef-Ur-Rahman Chowdhury, Hamdy Soliman, Mohammad Sahinur Hossen, Tanjim Fatima, and Imtiaz Ahmed(参考訳) 無線センサネットワーク(WSN)は、産業プロセス制御、構造物の構造強度モニタリング、環境モニタリング、国境侵入、IoT(モノのインターネット)、医療などの土木工学アプリケーションなど、様々な土木/軍事アプリケーションにおいて、ますます価値が高まっている。 しかし、wsnsによって生成されたセンシングされたデータは、しばしば騒がしく信頼できないため、異常の検出と診断が困難である。 機械学習(ML)技術は、知覚されたデータの異常なパターンを検出し識別することでこの問題に対処するために広く利用されている。 本稿では,WSN領域におけるデータ異常検出におけるML技術の適用状況について概説する。 まず、WSNの特徴と、WSNにおける異常検出の課題を紹介する。 次に,WSNデータ異常検出に適用された教師なし,教師なし,半教師付き学習など,さまざまなML手法について検討する。 また、異なるMLベースのアプローチとそのパフォーマンス評価指標を比較します。 最後に,WSN が検出したデータ異常検出に ML 技術を適用するためのオープンな研究課題と今後の方向性について論じる。

Wireless Sensor Networks (WSNs) have become increasingly valuable in various civil/military applications like industrial process control, civil engineering applications such as buildings structural strength monitoring, environmental monitoring, border intrusion, IoT (Internet of Things), and healthcare. However, the sensed data generated by WSNs is often noisy and unreliable, making it a challenge to detect and diagnose anomalies. Machine learning (ML) techniques have been widely used to address this problem by detecting and identifying unusual patterns in the sensed data. This survey paper provides an overview of the state of the art applications of ML techniques for data anomaly detection in WSN domains. We first introduce the characteristics of WSNs and the challenges of anomaly detection in WSNs. Then, we review various ML techniques such as supervised, unsupervised, and semi-supervised learning that have been applied to WSN data anomaly detection. We also compare different ML-based approaches and their performance evaluation metrics. Finally, we discuss open research challenges and future directions for applying ML techniques in WSNs sensed data anomaly detection.
翻訳日:2023-03-17 18:27:16 公開日:2023-03-15
# 実際、ベル型不平等の違反を証明しているものは何か?

What in fact proves the violation of the Bell-type inequalities? ( http://arxiv.org/abs/2303.08821v1 )

ライセンス: Link先を確認
Sofia Wechsler(参考訳) A. Peres はスピン一重項状態にある粒子の例を構築した。 彼はCHSHの不等式を取得し、この不等式に違反すると、ある変数がテストされた場合、テストされていない他の変数が定義値を持たないことを示すと結論付けた。 本稿では,CHSH不等式違反の正しい結論が異なることを証明した。 テスト結果の確率の古典的な計算は、コルモゴロフ公理に従い、確率振幅に支配される量子形式論には適さないことが証明された。

A. Peres constructed an example of particles entangled in the state of spin singlet. He claimed to have obtained the CHSH inequality and concluded that the violation of this inequality shows that in a measurement in which some variables are tested, other variables, not tested, have no defined value. In the present paper is proved that the correct conclusion of the violation of the CHSH inequality is different. It is proved that the classical calculus of probabilities of test results, obeying the Kolmogorov axioms, is unfit for the quantum formalism, dominated by probability amplitudes.
翻訳日:2023-03-17 18:27:00 公開日:2023-03-15
# 個人の意識的な経験がエベレットの「多くの世界」をいかに横切るかを決める理論の偽造テスト

Falsifiable Tests for Theories that Govern How an Individual's Conscious Experience Traverses Everett's ''Many-Worlds'' Multiverse ( http://arxiv.org/abs/2303.08820v1 )

ライセンス: Link先を確認
Steven Sagona-Stophel(参考訳) 量子力学におけるエベレットの多世界解釈の中で、個人の意識的な経験がどのように多元宇宙を横断するかを決定する、全く新しい物理法則の領域をテストする、単純な量子光学実験のセットを提案する。 これらの実験は、'observer-specific'参照フレームにおけるボルンルールの例外を暗示している。 これらの実験は読者の皆さんが行う必要があります。 読者であるあなた以外の誰かによって実行された場合、実験を行う人が、量子力学ですでに知られているものとは異なる特別な、興味深い、あるいは異なる結果を見ることになるのを観察します。 私たちの知る限りでは、これは実験が読者であるあなたによって実行され、他の実験者の結果から推測できない場合にのみ意味のある、初めての近代的な実験となるでしょう。 したがって、各個人が自分自身でこのテストを行う必要があるため、可能な限り多くの人が個別に検証できるように、容易に実施可能な実実験のセットを概説する。 この 'observer-specific' ドメイン内にどのような物理法則が存在するのか、特定はしませんが、可能な限り多くの理論をカバーするために、さまざまなテストを考え出します。

We propose a set of simple quantum optics experiments that test for an entirely new domain of physical laws that govern how an individual's conscious experience traverses the multiverse within Everett's many worlds interpretation of quantum mechanics. These experiments imply an exception to the Born rule in a proposed ''observer-specific'' reference frame. These experiments must be done by you, the reader. If it is performed by anyone else, other than you, the reader, you will observe that the person performing the experiment will observe an outcome that is not special, interesting, or different from what is already known about quantum mechanics. To the best of our knowledge, this would be the first ever modern experiment that is only meaningful if the experiment is performed by you, the reader, and cannot be inferred from the results of another experimenter. Therefore, since each individual must perform this test on his or her own, we outline a set of real experiments that can be easily performed such that as many people as possible can individually verify this for themselves. We do not know or specify what specific physical laws exist within this ''observer-specific'' domain, but come up with a number of different tests to cover as many theories as possible.
翻訳日:2023-03-17 18:26:49 公開日:2023-03-15
# ROSE: シンタクスのための神経計算アーキテクチャ

ROSE: A Neurocomputational Architecture for Syntax ( http://arxiv.org/abs/2303.08877v1 )

ライセンス: Link先を確認
Elliot Murphy(参考訳) 脳内の自然言語処理の包括的なモデルでは、表現、操作、構造、エンコーディングの4つのコンポーネントを扱わなければならない。 さらに、これらのコンポーネントがいかに機械的かつ慎重に相互に関連しているかを原則的に説明する必要がある。 以前のモデルでは構造構築と語彙アクセスに関心のある独立した領域を持っていたが、神経の複雑さの異なるスケールを橋渡しすることに関して多くのギャップが残っている。 ニューラル振動が様々な言語過程をインデクシングする方法の既存の説明を拡張することにより、ROSEモデル(Representation, Operation, Structure, Encoding)と呼ばれる構文のためのニューロ計算アーキテクチャを提案する。 ROSEでは、構文の基本データ構造は原子的特徴、心的表現のタイプ(R)であり、単一ユニットとアンサンブルレベルでコード化されている。 これらのユニットをその後の構造構築レベルにアクセスできる操作可能なオブジェクトに変換する基礎計算(O)は、高周波ガンマ活動によって符号化される。 再帰的カテゴリー推論(S)のための低周波同期およびクロス周波数結合符号 低周波結合と位相振幅結合(pSTS-IFGによるデルタ-テータカップリング、IFGによるテータ-ガンマカップリング、概念ハブへのテータ-ガンマカップリング)の離散形式は、これらの構造を異なるワークスペース(E)にエンコードする。 因果接続RからOへの結合はスパイク相/LFP結合、OからSへの接続は位相振幅結合、SからEへの接続は前頭側進行振動系、Eから低レベルへの接続はスパイク-LFP結合の低周波位相リセットである。 ROSEは神経生理学的にもっともらしいメカニズムに依存しており、最近の実験的な研究によって4つのレベルすべてで支持され、自然言語構文の基本的性質である階層的、再帰的構造構築の解剖学的に正確で実現可能な基礎を提供する。

A comprehensive model of natural language processing in the brain must accommodate four components: representations, operations, structures and encoding. It further requires a principled account of how these components mechanistically, and causally, relate to each another. While previous models have isolated regions of interest for structure-building and lexical access, many gaps remain with respect to bridging distinct scales of neural complexity. By expanding existing accounts of how neural oscillations can index various linguistic processes, this article proposes a neurocomputational architecture for syntax, termed the ROSE model (Representation, Operation, Structure, Encoding). Under ROSE, the basic data structures of syntax are atomic features, types of mental representations (R), and are coded at the single-unit and ensemble level. Elementary computations (O) that transform these units into manipulable objects accessible to subsequent structure-building levels are coded via high frequency gamma activity. Low frequency synchronization and cross-frequency coupling code for recursive categorial inferences (S). Distinct forms of low frequency coupling and phase-amplitude coupling (delta-theta coupling via pSTS-IFG; theta-gamma coupling via IFG to conceptual hubs) then encode these structures onto distinct workspaces (E). Causally connecting R to O is spike-phase/LFP coupling; connecting O to S is phase-amplitude coupling; connecting S to E is a system of frontotemporal traveling oscillations; connecting E to lower levels is low-frequency phase resetting of spike-LFP coupling. ROSE is reliant on neurophysiologically plausible mechanisms, is supported at all four levels by a range of recent empirical research, and provides an anatomically precise and falsifiable grounding for the basic property of natural language syntax: hierarchical, recursive structure-building.
翻訳日:2023-03-17 18:18:22 公開日:2023-03-15
# ニューラルアンサンブル探索のためのベイズ二次

Bayesian Quadrature for Neural Ensemble Search ( http://arxiv.org/abs/2303.08874v1 )

ライセンス: Link先を確認
Saad Hamid, Xingchen Wan, Martin J{\o}rgensen, Binxin Ru, Michael Osborne(参考訳) 組立はニューラルネットワークの性能を向上させることができるが、既存のアプローチはアーキテクチャの可能性が分散し、ピークが狭くなると困難である。 さらに、既存の手法は等しく重み付けされたアンサンブルを構築しており、弱いアーキテクチャの障害モードに対して脆弱である可能性が高い。 センセーブリングを概ねアーキテクチャ上の限界と見なすことで、分散した狭いピークを持つ可能性曲面の探索に適したベイズ二次ツールを用いてアンサンブルを構築する。 さらに、結果として生じるアンサンブルは、そのパフォーマンスに相応しい重み付けのアーキテクチャで構成されている。 実験結果から,本手法が最先端のベースラインよりも優れていることを示すとともに,そのコンポーネントが独立に動作することをアブレーション実験により検証する。

Ensembling can improve the performance of Neural Networks, but existing approaches struggle when the architecture likelihood surface has dispersed, narrow peaks. Furthermore, existing methods construct equally weighted ensembles, and this is likely to be vulnerable to the failure modes of the weaker architectures. By viewing ensembling as approximately marginalising over architectures we construct ensembles using the tools of Bayesian Quadrature -- tools which are well suited to the exploration of likelihood surfaces with dispersed, narrow peaks. Additionally, the resulting ensembles consist of architectures weighted commensurate with their performance. We show empirically -- in terms of test likelihood, accuracy, and expected calibration error -- that our method outperforms state-of-the-art baselines, and verify via ablation studies that its components do so independently.
翻訳日:2023-03-17 18:17:47 公開日:2023-03-15
# 不均一システムにおける可搬性向上のための機械学習駆動型適応OpenMP

Machine Learning-Driven Adaptive OpenMP For Portable Performance on Heterogeneous Systems ( http://arxiv.org/abs/2303.08873v1 )

ライセンス: Link先を確認
Giorgis Georgakoudis, Konstantinos Parasyris, Chunhua Liao, David Beckingsale, Todd Gamblin, Bronis de Supinski(参考訳) ハイパフォーマンスコンピューティングシステムを構築する上で、異種性は主要なアーキテクチャ設計の選択肢となっている。 しかし、異質性は実行時のパフォーマンスのポータビリティを実現する上で大きな課題となる。 プログラムを新しい異種プラットフォームに適応させるのは面倒で、開発者は手動で実行パラメータの広大なスペースを探索する必要がある。 これらの課題に対処するために,機械学習による自律的適応のためのOpenMPの新たな拡張を提案する。 私たちのソリューションには、新しい言語構成、コンパイラ変換、ランタイムサポートのセットが含まれています。 本稿では,OpenMPコード領域の複数の異なる変種を柔軟に定義し,適応を可能にするプロデューサ・コンシューマ・パターンを提案する。 これらのリージョンは実行時に透過的にプロファイルされ、最も高速なバリエーションを動的に選択する機械学習モデルの最適化を自律的に学習する。 提案手法は,OpenMPコンパイルの機械学習技術とコード生成機能を活用することで,異種アーキテクチャ上での適応アプリケーションをプログラムするユーザの労力を大幅に削減する。 Clang/LLVMの完全なリファレンス実装を使用して、適応CPU-GPU実行の3つのユースケースを評価する。 HPCプロキシアプリケーションとベンチマークによる実験により、提案された適応OpenMP拡張は、CPUとGPUの様々な異種プラットフォームにおいて、様々な適応可能性のための最適なコード変種を自動的に選択することを示した。

Heterogeneity has become a mainstream architecture design choice for building High Performance Computing systems. However, heterogeneity poses significant challenges for achieving performance portability of execution. Adapting a program to a new heterogeneous platform is laborious and requires developers to manually explore a vast space of execution parameters. To address those challenges, this paper proposes new extensions to OpenMP for autonomous, machine learning-driven adaptation. Our solution includes a set of novel language constructs, compiler transformations, and runtime support. We propose a producer-consumer pattern to flexibly define multiple, different variants of OpenMP code regions to enable adaptation. Those regions are transparently profiled at runtime to autonomously learn optimizing machine learning models that dynamically select the fastest variant. Our approach significantly reduces users' efforts of programming adaptive applications on heterogeneous architectures by leveraging machine learning techniques and code generation capabilities of OpenMP compilation. Using a complete reference implementation in Clang/LLVM we evaluate three use-cases of adaptive CPU-GPU execution. Experiments with HPC proxy applications and benchmarks demonstrate that the proposed adaptive OpenMP extensions automatically choose the best performing code variants for various adaptation possibilities, in several different heterogeneous platforms of CPUs and GPUs.
翻訳日:2023-03-17 18:17:32 公開日:2023-03-15
# 準一次元電子系における面内光電効果の理論

Theory of the in-plane photoelectric effect in quasi-one-dimensional electron systems ( http://arxiv.org/abs/2303.08870v1 )

ライセンス: Link先を確認
S. A. Mikhailov(参考訳) 面内光電効果(IPPE)は、最近発見された[Sci]。 adv。 \textbf{8}, eabi8398 (2022)] 量子現象により、2次元(2d)電子ガスで半導体構造中のテラヘルツ(thz)放射を効率的に検出できる。 ここでは2次元導電路の幅が非常に小さく、逆量子化エネルギーが熱エネルギーよりも大きい準1次元電子系におけるIPPE効果の理論を開発する。 我々は、このシステムの光応答を、THz周波数、制御ゲート電圧、および検出器の幾何学的パラメータの関数として計算する。 電子運動の逆量子化は、thz光子エネルギーが1次元量子化エネルギーよりも小さい場合、光電流の振動ゲート電圧依存性においてそれ自体を表わす。 理論の結果は、III-V構造、シリコンベースの電界効果トランジスタ、新しい2D層状グラフェン関連材料を含む2次元電子ガスを持つ半導体系に適用できる。

The in-plane photoelectric (IPPE) effect is a recently discovered [Sci. Adv. \textbf{8}, eabi8398 (2022)] quantum phenomenon which enables efficient detection of terahertz (THz) radiation in semiconductor structures with a two-dimensional (2D) electron gas. Here we develop a theory of the IPPE effect in quasi-one-dimensional electron systems in which the width of the 2D conducting channel is so small that the transverse quantization energy is larger than the thermal energy. We calculate the THz photoresponse of such a system, as a function of the THz frequency, control gate voltages, and geometrical parameters of the detector. We show that the transverse quantization of the electron motion manifests itself in oscillating gate-voltage dependences of the photocurrent, if the THz photon energy is less than the one-dimensional quantization energy. Results of the theory are applicable to any semiconductor systems with 2D electron gases, including III-V structures, silicon-based field effect transistors, and the novel 2D layered, graphene-related materials.
翻訳日:2023-03-17 18:17:09 公開日:2023-03-15
# EvalAttAI:ロバストおよび非ロバストモデルにおける属性マップ評価のための全体論的アプローチ

EvalAttAI: A Holistic Approach to Evaluating Attribution Maps in Robust and Non-Robust Models ( http://arxiv.org/abs/2303.08866v1 )

ライセンス: Link先を確認
Ian E. Nielsen, Ravi P. Ramachandran, Nidhal Bouaynaya, Hassan M. Fathallah-Shaykh, Ghulam Rasool(参考訳) 研究分野としての説明可能な人工知能の拡張は、機械学習モデルのブラックボックスを可視化し理解するための多くの方法を生み出した。 アトリビューションマップは、モデルに影響を及ぼす入力画像の特定の決定を強調するために一般的に使用される。 一方で,自然騒音や敵対的攻撃に対する機械学習モデルの堅牢性も積極的に検討されている。 本稿では、ロバストニューラルネットワークがより説明しやすいかどうかを調べるために、属性マッピングの評価方法に焦点を当てる。 医用画像の分類を応用してこの問題を考察する。 説明可能性の研究は途方に暮れている。 属性マッピングには多くの方法があるが、それらを評価し、最も良いものを決定する方法に関する現在のコンセンサスはない。 複数のデータセット(自然画像および医用画像)と様々な帰属法について実験した結果,2つの一般的な評価指標である欠失と挿入には固有の限界があり,矛盾する結果が得られることがわかった。 従来の指標の限界に対処する新しい説明可能性忠実度指標(EvalAttAI)を提案する。 新たな評価結果から,変分密度伝搬法を用いたベイズディープニューラルネットワークは,最高の帰属法であるバニラグラディエントを用いた場合,一貫して説明可能であることがわかった。 しかし、一般に、様々なタイプのロバストニューラルネットワークは、より視覚的に妥当な帰属マップを生成するにもかかわらず、説明できないかもしれない。

The expansion of explainable artificial intelligence as a field of research has generated numerous methods of visualizing and understanding the black box of a machine learning model. Attribution maps are generally used to highlight the parts of the input image that influence the model to make a specific decision. On the other hand, the robustness of machine learning models to natural noise and adversarial attacks is also being actively explored. This paper focuses on evaluating methods of attribution mapping to find whether robust neural networks are more explainable. We explore this problem within the application of classification for medical imaging. Explainability research is at an impasse. There are many methods of attribution mapping, but no current consensus on how to evaluate them and determine the ones that are the best. Our experiments on multiple datasets (natural and medical imaging) and various attribution methods reveal that two popular evaluation metrics, Deletion and Insertion, have inherent limitations and yield contradictory results. We propose a new explainability faithfulness metric (called EvalAttAI) that addresses the limitations of prior metrics. Using our novel evaluation, we found that Bayesian deep neural networks using the Variational Density Propagation technique were consistently more explainable when used with the best performing attribution method, the Vanilla Gradient. However, in general, various types of robust neural networks may not be more explainable, despite these models producing more visually plausible attribution maps.
翻訳日:2023-03-17 18:16:52 公開日:2023-03-15
# 弱クライアントを用いた非対称量子セキュアマルチパーティ計算

Asymmetric Quantum Secure Multi-Party Computation With Weak Clients Against Dishonest Majority ( http://arxiv.org/abs/2303.08865v1 )

ライセンス: Link先を確認
Theodoros Kapourniotis, Elham Kashefi, Dominik Leichtle, Luka Music, Harold Ollivier(参考訳) セキュアなマルチパーティ計算(SMPC)プロトコルにより、互いに不信感を持つ複数のパーティが入力の関数をまとめて計算できる。 本稿では,古典的なSMPCを量子SMPCに構成可能かつ統計的に安全な方法で持ち上げるプロトコルを提案する。 従来の量子SMPCプロトコルとは異なり、我々の提案は1つのパーティを除いて、非常に限られた量子資源しか必要とせず、弱いパーティ、すなわちクライアントはX-Y平面で単一量子状態を作成することができる。 新たな量子SMPCプロトコルは、自然にモジュラーな方法で構築され、独立した関心を持つ量子検証のための新しい技術に依存している。 この検証手法では、ブロッホ球面の1つの平面でのみ状態のリモート準備が必要となる。 新しい検証プロトコルのセキュリティを証明する過程で、測定ベースの量子コンピューティングに固有の根本的な不変性を明らかにする。

Secure multi-party computation (SMPC) protocols allow several parties that distrust each other to collectively compute a function on their inputs. In this paper, we introduce a protocol that lifts classical SMPC to quantum SMPC in a composably and statistically secure way, even for a single honest party. Unlike previous quantum SMPC protocols, our proposal only requires very limited quantum resources from all but one party; it suffices that the weak parties, i.e. the clients, are able to prepare single-qubit states in the X-Y plane. The novel quantum SMPC protocol is constructed in a naturally modular way, and relies on a new technique for quantum verification that is of independent interest. This verification technique requires the remote preparation of states only in a single plane of the Bloch sphere. In the course of proving the security of the new verification protocol, we also uncover a fundamental invariance that is inherent to measurement-based quantum computing.
翻訳日:2023-03-17 18:16:28 公開日:2023-03-15
# クラスガイド画像から画像への拡散:クラスラベルを用いたBrightfield画像からの細胞ペイント

Class-Guided Image-to-Image Diffusion: Cell Painting from Brightfield Images with Class Labels ( http://arxiv.org/abs/2303.08863v1 )

ライセンス: Link先を確認
Jan Oscar Cross-Zamirski and Praveen Anand and Guy Williams and Elizabeth Mouchet and Yinhai Wang and Carola-Bibiane Sch\"onlieb(参考訳) クラスラベルの形で無料または安価なメタデータを用いた画像から画像への再構成問題は、生物学的および医学的な画像領域にしばしば現れる。 既存のテキストガイドやスタイル転送によるイメージから画像へのアプローチは、追加情報が離散クラスとして提供されるデータセットには変換されない。 本稿では,イメージ・ツー・イメージとクラス誘導型拡散確率モデルを組み合わせたモデルを導入,実装する。 薬物発見に使用される顕微鏡画像の実際のデータセットに、メタデータラベルを組み込まずにモデルをトレーニングする。 関連ラベルを用いた画像から画像への拡散特性を探索することにより,クラス誘導画像から画像への拡散により,再構成画像の有意義なコンテンツが向上し,非誘導モデルに勝ることを示す。

Image-to-image reconstruction problems with free or inexpensive metadata in the form of class labels appear often in biological and medical image domains. Existing text-guided or style-transfer image-to-image approaches do not translate to datasets where additional information is provided as discrete classes. We introduce and implement a model which combines image-to-image and class-guided denoising diffusion probabilistic models. We train our model on a real-world dataset of microscopy images used for drug discovery, with and without incorporating metadata labels. By exploring the properties of image-to-image diffusion with relevant labels, we show that class-guided image-to-image diffusion can improve the meaningful content of the reconstructed images and outperform the unguided model in useful downstream tasks.
翻訳日:2023-03-17 18:16:12 公開日:2023-03-15
# Rydberg tweezer分子:スピンフォノンの絡み合いとJahn-Teller効果

Rydberg tweezer molecules: Spin-phonon entanglement and Jahn-Teller effect ( http://arxiv.org/abs/2303.08861v1 )

ライセンス: Link先を確認
Matteo Magoni, Radhika Joshi, Igor Lesanovsky(参考訳) 光トウェザーアレイに閉じ込められた原子は、量子コンピュータとシミュレータの実装のためのプラットフォームを構成する。 状態依存的な操作は、2つの原子が高密度電子状態に同時に励起されると生じる静電双極子相互作用を利用して実現される。 これらの相互作用はまた、原子の電子力学と振動運動を結合する状態依存的な機械的力に繋がる。 いわゆるファシリテーション条件下でリドバーグ状態が励起される人工分子系(ライドバーグ・ツイーザー分子)内で、これらのビブロンカップリングを探索する。 この系は、等方三角形と歪んだ三角形状態 (Jahn-Teller regime) の等重重重重重畳の間の構造遷移を行い、マイクロメートル距離でスピンフォノンの絡み合いを示す。 これは、大げさな長さスケールで分子現象を研究するためのrydberg tweezer配列の可能性を強調している。

Atoms confined in optical tweezer arrays constitute a platform for the implementation of quantum computers and simulators. State-dependent operations are realized by exploiting electrostatic dipolar interactions that emerge, when two atoms are simultaneously excited to high-lying electronic states, so-called Rydberg states. These interactions also lead to state-dependent mechanical forces, which couple the electronic dynamics of the atoms to their vibrational motion. We explore these vibronic couplings within an artificial molecular system -- a Rydberg tweezer molecule -- in which Rydberg states are excited under so-called facilitation conditions. This system undergoes a structural transition between an equilateral triangle and an equal-weighted superposition of distorted triangular states (Jahn-Teller regime) exhibiting spin-phonon entanglement on a micrometer distance. This highlights the potential of Rydberg tweezer arrays for the study of molecular phenomena at exaggerated length scales.
翻訳日:2023-03-17 18:15:59 公開日:2023-03-15
# 学習モデルによる計画における構造情報活用の利点について

On the Benefits of Leveraging Structural Information in Planning Over the Learned Model ( http://arxiv.org/abs/2303.08856v1 )

ライセンス: Link先を確認
Jiajun Shen, Kananart Kuwaranancharoen, Raid Ayoub, Pietro Mercati, Shreyas Sundaram(参考訳) モデルに基づく強化学習(RL)は,学習と計画を統合し,近年注目を集めている。 しかし、各状態-作用ペアに対して十分な数のサンプルを得る必要があるため、モデルの学習にはかなりのコスト(サンプルの複雑さの観点から)がかかる。 本稿では,サンプルの複雑性を低減することによるシステム構造情報の活用のメリットについて検討する。 具体的には、遷移確率行列が多くの構造パラメータの既知の関数であり、初期値が未知であるような設定を考える。 次に,環境との相互作用に基づいてパラメータを推定する問題を考察する。 サンプル数の関数として,Q推定値と最適Q値との差を特徴付ける。 分析の結果,モデルの構造的情報を活用することで,サンプルの複雑さを大幅に削減できることがわかった。 本稿では,異種サーバによるキューシステム制御や,確率的グリッドワールドにおける最適経路の探索など,いくつかの問題点を考察した。

Model-based Reinforcement Learning (RL) integrates learning and planning and has received increasing attention in recent years. However, learning the model can incur a significant cost (in terms of sample complexity), due to the need to obtain a sufficient number of samples for each state-action pair. In this paper, we investigate the benefits of leveraging structural information about the system in terms of reducing sample complexity. Specifically, we consider the setting where the transition probability matrix is a known function of a number of structural parameters, whose values are initially unknown. We then consider the problem of estimating those parameters based on the interactions with the environment. We characterize the difference between the Q estimates and the optimal Q value as a function of the number of samples. Our analysis shows that there can be a significant saving in sample complexity by leveraging structural information about the model. We illustrate the findings by considering several problems including controlling a queuing system with heterogeneous servers, and seeking an optimal path in a stochastic windy gridworld.
翻訳日:2023-03-17 18:15:42 公開日:2023-03-15
# PENet: 共同パノプティカルエッジ検出ネットワーク

PENet: A Joint Panoptic Edge Detection Network ( http://arxiv.org/abs/2303.08848v1 )

ライセンス: Link先を確認
Yang Zhou, Giuseppe Loianno(参考訳) 近年,ロボットシステムの状況認識と自律性を高めるために,コンパクトで効率的なシーン理解表現が普及している。 本研究は,汎視的エッジセグメンテーションの概念を概説し,意味的エッジ検出とインスタンスレベルの認識を組み合わせた,コンパクトな汎視的エッジ表現という新たな検出ネットワークPENetを提案する。 タスク間のクロスタスク相関を利用することなく、意味的エッジ、インスタンスセンタ、オフセットフローマップを同時に予測するマルチタスク学習により、ジョイントネットワークを介してこれを得る。 提案手法では,カテゴリ認識とインスタンス認識のセグメンテーションをカプセル化したpanoptic edge detectionに意味的エッジ検出を拡張できる。 提案手法を検証し,実世界の都市景観データセット上での有効性を示す。

In recent years, compact and efficient scene understanding representations have gained popularity in increasing situational awareness and autonomy of robotic systems. In this work, we illustrate the concept of a panoptic edge segmentation and propose PENet, a novel detection network called that combines semantic edge detection and instance-level perception into a compact panoptic edge representation. This is obtained through a joint network by multi-task learning that concurrently predicts semantic edges, instance centers and offset flow map without bounding box predictions exploiting the cross-task correlations among the tasks. The proposed approach allows extending semantic edge detection to panoptic edge detection which encapsulates both category-aware and instance-aware segmentation. We validate the proposed panoptic edge segmentation method and demonstrate its effectiveness on the real-world Cityscapes dataset.
翻訳日:2023-03-17 18:15:26 公開日:2023-03-15
# Kernel法によるギャップ量子ハミルトンの基底状態の学習

Learning ground states of gapped quantum Hamiltonians with Kernel Methods ( http://arxiv.org/abs/2303.08902v1 )

ライセンス: Link先を確認
Clemens Giuliani, Filippo Vicentini, Riccardo Rossi, Giuseppe Carleo(参考訳) 量子ハミルトンの基底状態の近似に対するニューラルネットワークのアプローチは、高非線形最適化問題の数値解を必要とする。 カーネル手法を用いて最適化を容易にする統計的学習手法を提案する。 提案手法はパワー・イテレーションの次のステップを学習するために教師あり学習を用いるパワー・メソッドの近似的な実現法である。 任意のガッピング量子ハミルトニアンの基底状態特性は、教師付き学習が効率的であるという仮定の下で多項式資源で到達できることを示した。 カーネルリッジレグレッション(英語版)を用いて、学習仮定が1次元と2次元の両方で互いに相互作用する多体量子系の基底状態を求める手法を適用し、我々のアプローチの柔軟性を示す数値的な証拠を提供する。

Neural network approaches to approximate the ground state of quantum hamiltonians require the numerical solution of a highly nonlinear optimization problem. We introduce a statistical learning approach that makes the optimization trivial by using kernel methods. Our scheme is an approximate realization of the power method, where supervised learning is used to learn the next step of the power iteration. We show that the ground state properties of arbitrary gapped quantum hamiltonians can be reached with polynomial resources under the assumption that the supervised learning is efficient. Using kernel ridge regression, we provide numerical evidence that the learning assumption is verified by applying our scheme to find the ground states of several prototypical interacting many-body quantum systems, both in one and two dimensions, showing the flexibility of our approach.
翻訳日:2023-03-17 18:09:57 公開日:2023-03-15
# 文脈信頼

Contextual Trust ( http://arxiv.org/abs/2303.08900v1 )

ライセンス: Link先を確認
Ryan Othniel Kearns(参考訳) 信頼は人間生活の重要な側面である。 他人との協力や行動の延期を可能にし、ロマンチックなパートナーや家族、友人との親密な関係に本質的な価値を与えてくれます。 本稿では,哲学的観点から信頼の性質を考察する。 具体的には、信頼を正確な方法で文脈に敏感な状態とみなすことを提案する。 この論文の貢献は3倍である。 まず、個人の信頼は通常行動と文脈に敏感である、という単純な観察をします。 行動感知性(action-sensitivity)とは、特定の行動のみを受託者と受託者との間に信頼が得られることを意味する。 コンテキスト・センシティブ(Context-sensitivity)とは、ある受託者と受託者の間で、同じ行為に関して、ある状況において、他の状況において、信頼を得ることを意味する。 また、信頼者、信頼者、行動の役割を果たすものの種類についても論じます。 第2に,文脈信頼の性質に関する理論を推し進める。 a$ を信頼して$b$ をコンテキスト$c$ で$x$ とすると何を意味するのか? まず、$A$は$B$を$X$とすることで、$A$の終わりの1つへの手段となる。 第二に、$a$ は$b$ のコンテキスト$c$ に関する疑問のない態度を採らなければならない。 この疑わしい態度は、2021年のヌーイエンの態度と似ている。 最後に、コンテキスト信頼が一般的な非対人的設定、特に人工知能(AI)システムにおける信頼の理解にどのように役立つかを検討する。 説明可能な人工知能(XAI)の分野は、不透明な計算モデルにおけるユーザ信頼の問題に最重要事項を割り当てるが、信頼診断や概念的基準を与えることはほとんどない。 モデルの透明性と説明可能性が私たちのコンテキストの構成にうまくマッピングされていることを説明して、コンテキスト信頼がタスクに自然に適合することを提案します。

Trust is an important aspect of human life. It provides instrumental value in allowing us to collaborate on and defer actions to others, and intrinsic value in our intimate relationships with romantic partners, family, and friends. In this paper I examine the nature of trust from a philosophical perspective. Specifically I propose to view trust as a context-sensitive state in a manner that will be made precise. The contribution of this paper is threefold. First, I make the simple observation that an individual's trust is typically both action- and context-sensitive. Action-sensitivity means that trust may obtain between a given truster and trustee for only certain actions. Context-sensitivity means that trust may obtain between a given truster and trustee, regarding the same action, in some conditions and not others. I also opine about what kinds of things may play the role of the truster, trustee, and action. Second, I advance a theory for the nature of contextual trust. I propose that the answer to "What does it mean for $A$ to trust $B$ to do $X$ in context $C$?" has two conditions. First, $A$ must take $B$'s doing $X$ as a means towards one of $A$'s ends. Second, $A$ must adopt an unquestioning attitude concerning $B$'s doing $X$ in context $C$. This unquestioning attitude is similar to the attitude introduced in Nguyen 2021. Finally, we explore how contextual trust can help us make sense of trust in general non-interpersonal settings, notably that of artificial intelligence (AI) systems. The field of Explainable Artificial Intelligence (XAI) assigns paramount importance to the problem of user trust in opaque computational models, yet does little to give trust diagnostic or even conceptual criteria. I propose that contextual trust is a natural fit for the task by illustrating that model transparency and explainability map nicely into our construction of the contexts $C$.
翻訳日:2023-03-17 18:09:45 公開日:2023-03-15
# selfcheckgpt: 生成大言語モデルのためのゼロリソースブラックボックス幻覚検出

SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models ( http://arxiv.org/abs/2303.08896v1 )

ライセンス: Link先を確認
Potsawee Manakul, Adian Liusie, Mark J. F. Gales(参考訳) GPT-3のようなジェネレーティブ・大型言語モデル(LLM)は、様々なユーザー・プロンプトに対して非常に流動的な応答を生成することができる。 しかし、LSMは事実を幻覚させ、その成果に対する信頼を損なう可能性のある非事実的声明を作成することが知られている。 既存のファクトチェックアプローチでは、トークンレベルの出力確率分布(ChatGPTのようなシステムでは利用できない)や、独立した複雑なモジュールを介してインターフェースされる外部データベースへのアクセスが必要になる。 本稿では,外部データベースを使わずに,ブラックボックスモデルのファクトチェックを行うシンプルなサンプリングベースアプローチである"selfcheckgpt"を提案する。 SelfCheckGPT は LLM が与えられた概念の知識を持つならば、サンプル応答は類似し、一貫した事実を含む可能性が高いという単純な考え方を利用する。 しかし、幻覚的な事実の場合、確率的にサンプリングされた反応は互いに発散し、矛盾しがちである。 本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成し,生成したパスの事実を手動で注釈付けする手法を提案する。 私たちはSelfCheckGPTが可能であることを実証します。 一 非事実文及び事実文の検出 ii) 事実性の観点からの序列 提案手法をいくつかの既存ベースラインと比較し,文の幻覚検出では,グレーボックス法に匹敵するAUC-PRスコアが得られたが,SelfCheckGPTは通過事実性評価に最適であることを示す。

Generative Large Language Models (LLMs) such as GPT-3 are capable of generating highly fluent responses to a wide variety of user prompts. However, LLMs are known to hallucinate facts and make non-factual statements which can undermine trust in their output. Existing fact-checking approaches either require access to token-level output probability distribution (which may not be available for systems such as ChatGPT) or external databases that are interfaced via separate, often complex, modules. In this work, we propose "SelfCheckGPT", a simple sampling-based approach that can be used to fact-check black-box models in a zero-resource fashion, i.e. without an external database. SelfCheckGPT leverages the simple idea that if a LLM has knowledge of a given concept, sampled responses are likely to be similar and contain consistent facts. However, for hallucinated facts, stochastically sampled responses are likely to diverge and contradict one another. We investigate this approach by using GPT-3 to generate passages about individuals from the WikiBio dataset, and manually annotate the factuality of the generated passages. We demonstrate that SelfCheckGPT can: i) detect non-factual and factual sentences; and ii) rank passages in terms of factuality. We compare our approach to several existing baselines and show that in sentence hallucination detection, our approach has AUC-PR scores comparable to grey-box methods, while SelfCheckGPT is best at passage factuality assessment.
翻訳日:2023-03-17 18:08:58 公開日:2023-03-15
# coqにおけるオペラの形式化

A Formalization of Operads in Coq ( http://arxiv.org/abs/2303.08894v1 )

ライセンス: Link先を確認
Zachary Flores, Angelo Taranto, Eric Bond, Yakir Forman(参考訳) プログラミング言語における実行の正確性に対する最高レベルの保証を提供するものは何か? この問題に対する私たちの解決策は、プログラミング言語の表記意味論(denotational semantics)が存在する場合、形式化を提供することです。 このような形式化を実現することは、プログラミング言語が正しい構成であることを保証するための金の標準を提供する。 DARPA V-SPELLSプログラムの取り組みとして,オペラッドとして知られる数学的対象を用いたメタ言語の意味論の基盤を提供する。 このオブジェクトは、小さな部品から言語を構築するのに不可欠な合成特性を持っています。 本稿では,証明アシスタントcoqにおける操作の形式化について述べる。 さらに、Coq内での定義は、Coq内で指定されたオブジェクトが操作可能であるという証明を提供することができる。 この研究は、V-SPELLSにおけるメタ言語開発のための公式な数学的基礎を提供する。 私たちの研究は、我々の知る限り、非常に自動化された証明アシスタント内のオペラッドの最初の公式化や、ホモトピー型理論の知識なしに複製できるモデルも提供しています。

What provides the highest level of assurance for correctness of execution within a programming language? One answer, and our solution in particular, to this problem is to provide a formalization for, if it exists, the denotational semantics of a programming language. Achieving such a formalization provides a gold standard for ensuring a programming language is correct-by-construction. In our effort on the DARPA V-SPELLS program, we worked to provide a foundation for the denotational semantics of a meta-language using a mathematical object known as an operad. This object has compositional properties which are vital to building languages from smaller pieces. In this paper, we discuss our formalization of an operad in the proof assistant Coq. Moreover, our definition within Coq is capable of providing proofs that objects specified within Coq are operads. This work within Coq provides a formal mathematical basis for our meta-language development within V-SPELLS. Our work also provides, to our knowledge, the first known formalization of operads within a proof assistant that has significant automation, as well as a model that can be replicated without knowledge of Homotopy Type Theory.
翻訳日:2023-03-17 18:08:29 公開日:2023-03-15
# マルチスケールシステムの閉包に対するマルチフィデリティディープ演算子ネットワークアプローチ

A Multifidelity deep operator network approach to closure for multiscale systems ( http://arxiv.org/abs/2303.08893v1 )

ライセンス: Link先を確認
Shady E. Ahmed, Panos Stinis(参考訳) 射影に基づく還元順序モデル(PROM)は、少数の一般化された(または潜在的な)変数を用いて、マルチスケールシステムの振る舞いを表現することを約束している。 これらの成功にもかかわらず、PROMは、マルチスケールシステムの解決されたスケールと未解決スケール(クロージャ問題として知られる)の間の相互作用の不正な説明のため、不正確さ、不安定性さえも受け入れることができない。 現在の研究では、クロージャを多忠実性問題として解釈し、それに対応するために多忠実深層演算ネットワーク(DeepONet)フレームワークを使用する。 さらに,多相性に基づく閉包の安定性および/または精度を高めるために,結合物理学と機械学習モデルに関する文献から最近開発された「ループ内トレーニング」アプローチを採用する。 その結果, 1次元粘性バーガース方程式の衝撃アドベクションと2次元ナビエ・ストークス方程式の渦融合について検証した。 数値実験により, 補間法と外挿法の両方において, 閉鎖補正されたpromの予測能力が有意な向上を示した。

Projection-based reduced order models (PROMs) have shown promise in representing the behavior of multiscale systems using a small set of generalized (or latent) variables. Despite their success, PROMs can be susceptible to inaccuracies, even instabilities, due to the improper accounting of the interaction between the resolved and unresolved scales of the multiscale system (known as the closure problem). In the current work, we interpret closure as a multifidelity problem and use a multifidelity deep operator network (DeepONet) framework to address it. In addition, to enhance the stability and/or accuracy of the multifidelity-based closure, we employ the recently developed "in-the-loop" training approach from the literature on coupling physics and machine learning models. The resulting approach is tested on shock advection for the one-dimensional viscous Burgers equation and vortex merging for the two-dimensional Navier-Stokes equations. The numerical experiments show significant improvement of the predictive ability of the closure-corrected PROM over the un-corrected one both in the interpolative and the extrapolative regimes.
翻訳日:2023-03-17 18:08:14 公開日:2023-03-15
# ViTO: Vision Transformer-Operator

ViTO: Vision Transformer-Operator ( http://arxiv.org/abs/2303.08891v1 )

ライセンス: Link先を確認
Oded Ovadia, Adar Kahana, Panos Stinis, Eli Turkel, George Em Karniadakis(参考訳) 視覚トランスフォーマーと演算子学習を組み合わせることで,偏微分方程式 (pdes) によって記述される多様な逆問題を解く。 我々のアプローチはViTOと呼ばれ、U-Netベースのアーキテクチャとビジョントランスフォーマーを組み合わせています。 複雑性を増大させる逆PDE問題、すなわち波動方程式、ナビエ・ストークス方程式、ダーシー方程式をViTOを用いて解決する。 逆問題に対する入力データセットが出力よりもかなり粗い解像度である超解像の場合に焦点を当てる。 得られた結果は、精度の点で、主要な演算子ネットワークベンチマークに匹敵するか、上回っている。 さらに、ViTOのアーキテクチャはトレーニング可能なパラメータが少数(主要な競合の10%未満)であり、様々なテストケースで平均5倍以上のパフォーマンス向上を実現している。

We combine vision transformers with operator learning to solve diverse inverse problems described by partial differential equations (PDEs). Our approach, named ViTO, combines a U-Net based architecture with a vision transformer. We apply ViTO to solve inverse PDE problems of increasing complexity, namely for the wave equation, the Navier-Stokes equations and the Darcy equation. We focus on the more challenging case of super-resolution, where the input dataset for the inverse problem is at a significantly coarser resolution than the output. The results we obtain are comparable or exceed the leading operator network benchmarks in terms of accuracy. Furthermore, ViTO`s architecture has a small number of trainable parameters (less than 10% of the leading competitor), resulting in a performance speed-up of over 5x when averaged over the various test cases.
翻訳日:2023-03-17 18:07:56 公開日:2023-03-15
# 条件付きカテゴリー拡散モデルによる確率的セグメンテーション

Stochastic Segmentation with Conditional Categorical Diffusion Models ( http://arxiv.org/abs/2303.08888v1 )

ライセンス: Link先を確認
Lukas Zbinden, Lars Doorenbos, Theodoros Pissas, Raphael Sznitman, Pablo M\'arquez-Neila(参考訳) 深層ニューラルネットワークのおかげで、セマンティックセグメンテーションは近年大きく進歩しているが、画像の内容と正確に一致する単一のセグメンテーション出力を生成するという共通の目的は、医療診断や自律運転のような安全クリティカルな領域には適さないかもしれない。 代わりに、アノテーションマップの真の分布を反映するために、複数の可能な正しいセグメンテーション写像が必要である。 この文脈では、確率的セマンティックセグメンテーション法は、画像が与えられたラベルの条件分布を予測することを学ばなければならないが、これは典型的なマルチモーダル分布、高次元出力空間、限られたアノテーションデータのために難しい。 これらの課題に対処するため,Denoising Diffusion Probabilistic Models に基づくセグメンテーションのための条件カテゴリー拡散モデル (CCDM) を提案する。 本モデルは入力画像に対して条件付けされ,異なる基底的真理のアノテーションから生じるアレエータ的不確実性を考慮した複数のセグメンテーションラベルマップを生成することができる。 実験の結果,ccdmは統計的意味セグメンテーションデータセットであるlidcで最先端のパフォーマンスを達成し,従来のセグメンテーションデータセットでは確立されたベースラインを上回った。

Semantic segmentation has made significant progress in recent years thanks to deep neural networks, but the common objective of generating a single segmentation output that accurately matches the image's content may not be suitable for safety-critical domains such as medical diagnostics and autonomous driving. Instead, multiple possible correct segmentation maps may be required to reflect the true distribution of annotation maps. In this context, stochastic semantic segmentation methods must learn to predict conditional distributions of labels given the image, but this is challenging due to the typically multimodal distributions, high-dimensional output spaces, and limited annotation data. To address these challenges, we propose a conditional categorical diffusion model (CCDM) for semantic segmentation based on Denoising Diffusion Probabilistic Models. Our model is conditioned to the input image, enabling it to generate multiple segmentation label maps that account for the aleatoric uncertainty arising from divergent ground truth annotations. Our experimental results show that CCDM achieves state-of-the-art performance on LIDC, a stochastic semantic segmentation dataset, and outperforms established baselines on the classical segmentation dataset Cityscapes.
翻訳日:2023-03-17 18:07:42 公開日:2023-03-15
# 物理インフォームド機械学習による離散時間非線形フィードバック線形化

Discrete-Time Nonlinear Feedback Linearization via Physics-Informed Machine Learning ( http://arxiv.org/abs/2303.08884v1 )

ライセンス: Link先を確認
Hector Vargas Alvarez, Gianluca Fabiani, Nikolaos Kazantzis, Constantinos Siettos, Ioannis G. Kevrekidis(参考訳) 非線形離散時間力学系のフィードバック線形化のための物理インフォームド機械学習(PIML)方式を提案する。 PIMLは非線形変換則を発見し、ポール配置による安定性を確保する。 非線形変換法則における急勾配の存在下での収束を容易にするために,グリーディ的な訓練手法を提案する。 フィードバック線形化変換則を解析的に導出できるベンチマーク非線形離散写像を用いて,提案するpiml手法の性能を評価する。 提案したPIMLは, 数値近似精度において, 相乗方程式系や領域全体におけるPIMLの実装といった, 電力系列展開の係数を考慮した構成と解法を含む従来の数値実装よりも優れており, PIMLの訓練手順における継続技術の重要性を強調している。

We present a physics-informed machine learning (PIML) scheme for the feedback linearization of nonlinear discrete-time dynamical systems. The PIML finds the nonlinear transformation law, thus ensuring stability via pole placement, in one step. In order to facilitate convergence in the presence of steep gradients in the nonlinear transformation law, we address a greedy-wise training procedure. We assess the performance of the proposed PIML approach via a benchmark nonlinear discrete map for which the feedback linearization transformation law can be derived analytically; the example is characterized by steep gradients, due to the presence of singularities, in the domain of interest. We show that the proposed PIML outperforms, in terms of numerical approximation accuracy, the traditional numerical implementation, which involves the construction--and the solution in terms of the coefficients of a power-series expansion--of a system of homological equations as well as the implementation of the PIML in the entire domain, thus highlighting the importance of continuation techniques in the training procedure of PIML.
翻訳日:2023-03-17 18:07:13 公開日:2023-03-15
# 雑音量子光学回路の最適化における2次高速化

A quadratic speedup in the optimization of noisy quantum optical circuits ( http://arxiv.org/abs/2303.08879v1 )

ライセンス: Link先を確認
Robbe De Prins, Yuan Yao, Anuj Apte and Filippo M. Miatto(参考訳) 光子数分解(PNR)検出器を用いた線形光量子回路は、ガウス的ボソンサンプリング(GBS)と、ゴッテマン・キタエフ・プレスキル(GKP)、猫、NOON状態などの非ガウス的状態の生成に用いられている。 量子コンピューティングや量子力学の多くのスキームにおいて重要である。 PNR検出器を用いた古典的な最適化回路は、指数関数的に大きなヒルベルト空間のため困難であり、状態ベクトルが密度行列に置き換えられるにつれてデコヒーレンスの存在が二次的に困難である。 この問題に対処するために、ノイズのないケースに匹敵する複雑さを伴う検出確率、条件状態(回路パラメトリゼーションに関する勾配も含む)を計算するアルゴリズムのファミリーを導入する。 その結果、同じリソースを使って、これまでの2倍のモードで回路をシミュレートし、最適化することができる。 より正確には、検出モードが$D$および未検出モードが$U$の場合、我々のアルゴリズムの複雑さは$O(M^2 \prod_{i\in U} C_i^2 \prod_{i\in D} C_i)$であり、$O(M^2 \prod_{i \in D\cup U} C_i^2)$である。 特に,本手法では,全モードが検出される場合と同様に,検出確率を計算するための2次高速化を行う。 最後に、これらのアルゴリズムは実装され、オープンソースのフォトニック最適化ライブラリMrMustardで使用できる。

Linear optical quantum circuits with photon number resolving (PNR) detectors are used for both Gaussian Boson Sampling (GBS) and for the preparation of non-Gaussian states such as Gottesman-Kitaev-Preskill (GKP), cat and NOON states. They are crucial in many schemes of quantum computing and quantum metrology. Classically optimizing circuits with PNR detectors is challenging due to their exponentially large Hilbert space, and quadratically more challenging in the presence of decoherence as state vectors are replaced by density matrices. To tackle this problem, we introduce a family of algorithms that calculate detection probabilities, conditional states (as well as their gradients with respect to circuit parametrizations) with a complexity that is comparable to the noiseless case. As a consequence we can simulate and optimize circuits with twice the number of modes as we could before, using the same resources. More precisely, for an $M$-mode noisy circuit with detected modes $D$ and undetected modes $U$, the complexity of our algorithm is $O(M^2 \prod_{i\in U} C_i^2 \prod_{i\in D} C_i)$, rather than $O(M^2 \prod_{i \in D\cup U} C_i^2)$, where $C_i$ is the Fock cutoff of mode $i$. As a particular case, our approach offers a full quadratic speedup for calculating detection probabilities, as in that case all modes are detected. Finally, these algorithms are implemented and ready to use in the open-source photonic optimization library MrMustard.
翻訳日:2023-03-17 18:06:56 公開日:2023-03-15
# 放電シートから抽出した概念に対する教師なしキーフレーズ法の適用

Applying unsupervised keyphrase methods on concepts extracted from discharge sheets ( http://arxiv.org/abs/2303.08928v1 )

ライセンス: Link先を確認
Hoda Memarzadeh, Nasser Ghadiri, Matthias Samwald, Maryam Lotfi Shahreza(参考訳) 貴重な患者情報を含む臨床ノートは、様々な科学的レベルと執筆スタイルを持つ異なる医療提供者によって書かれる。 臨床医や研究者にとって、広範囲の電子カルテを扱う上で必要な情報を理解するのに役立つかもしれない。 それらを標準用語に認識し、マッピングする実体は、臨床ノートの処理における曖昧さを減らすのに不可欠である。 名前付きエンティティ認識とエンティティリンクは、臨床自然言語処理において重要なステップであるが、反復的および低価値な概念の生成をもたらすこともある。 一方、臨床テキストの全ての部分は、患者の状態を予測する上で同じ重要性や内容を共有しない。 その結果、各内容が記録された部分を特定し、臨床文書から意味を抽出するための重要な概念を特定する必要がある。 本研究では,臨床自然言語処理技術を用いて,これらの課題に対処した。 また,キー概念を識別するために,教師なしキー句抽出手法のセットが検証され,評価されている。 臨床概念の大部分がマルチワード式であり,その正確な識別には,ユーザがn-gram範囲を指定する必要があることを考慮し,TF-IDFに基づく表現構造を保存するためのショートカット手法を提案する。 プリプロセッシング法を評価し,その概念を選択するために,トランスフォーマモデルを用いたダウンストリームタスク(マルチプル分類とバイナリ分類)を2種類設計した。 以上の結果から,提案手法とscibertモデルの組み合わせが優れていることを示し,臨床ノートに対する本質的句抽出法の有用性も示唆した。

Clinical notes containing valuable patient information are written by different health care providers with various scientific levels and writing styles. It might be helpful for clinicians and researchers to understand what information is essential when dealing with extensive electronic medical records. Entities recognizing and mapping them to standard terminologies is crucial in reducing ambiguity in processing clinical notes. Although named entity recognition and entity linking are critical steps in clinical natural language processing, they can also result in the production of repetitive and low-value concepts. In other hand, all parts of a clinical text do not share the same importance or content in predicting the patient's condition. As a result, it is necessary to identify the section in which each content is recorded and also to identify key concepts to extract meaning from clinical texts. In this study, these challenges have been addressed by using clinical natural language processing techniques. In addition, in order to identify key concepts, a set of popular unsupervised key phrase extraction methods has been verified and evaluated. Considering that most of the clinical concepts are in the form of multi-word expressions and their accurate identification requires the user to specify n-gram range, we have proposed a shortcut method to preserve the structure of the expression based on TF-IDF. In order to evaluate the pre-processing method and select the concepts, we have designed two types of downstream tasks (multiple and binary classification) using the capabilities of transformer-based models. The obtained results show the superiority of proposed method in combination with SciBERT model, also offer an insight into the efficacy of general extracting essential phrase methods for clinical notes.
翻訳日:2023-03-17 18:00:55 公開日:2023-03-15
# 園芸ロボットの果実完成とポーズ推定を用いたパンオプティカルマッピング

Panoptic Mapping with Fruit Completion and Pose Estimation for Horticultural Robots ( http://arxiv.org/abs/2303.08923v1 )

ライセンス: Link先を確認
Yue Pan, Federico Magistri, Thomas L\"abe, Elias Marks, Claus Smitt, Chris McCool, Jens Behley and Cyrill Stachniss(参考訳) 植物や果実の高分解能モニタリングは、農業の未来において重要な役割を担っている。 正確な3d情報は、自律収穫から正確な収量推定まで、農業における多様なロボット応用への道を開くことができる。 このような3D情報を取得することは、しばしば農業環境が繰り返し、散らかされ、果実や植物の部分的な観察可能性を考慮する必要があるため、簡単ではない。 本稿では,移動ロボットが構築した3次元マルチ解像度マップにおいて,果実の完全な3次元形状とそのポーズを共同で推定する問題に対処する。 そこで本研究では,関心領域を高解像度で表現するオンライン多解像度パノプティカルマッピングシステムを提案する。 本研究では,推定時に使用する一般的な果形表現をオクルージョン認識による微分可能レンダリングパイプラインと共に学習し,部分的な果形観察を完了させ,各果の7つのdofポーズを推定する。 本研究では, 制御環境と商業温室の両方で評価を行った結果, 従来の手法よりも高い完成度とポーズ推定精度が得られ, 完成精度が41%, ポーズ推定精度が52%向上し, 平均0.6sの低推定時間を保ちながら, 推定精度が52%向上した。

Monitoring plants and fruits at high resolution play a key role in the future of agriculture. Accurate 3D information can pave the way to a diverse number of robotic applications in agriculture ranging from autonomous harvesting to precise yield estimation. Obtaining such 3D information is non-trivial as agricultural environments are often repetitive and cluttered, and one has to account for the partial observability of fruit and plants. In this paper, we address the problem of jointly estimating complete 3D shapes of fruit and their pose in a 3D multi-resolution map built by a mobile robot. To this end, we propose an online multi-resolution panoptic mapping system where regions of interest are represented with a higher resolution. We exploit data to learn a general fruit shape representation that we use at inference time together with an occlusion-aware differentiable rendering pipeline to complete partial fruit observations and estimate the 7 DoF pose of each fruit in the map. The experiments presented in this paper, evaluated both in the controlled environment and in a commercial greenhouse, show that our novel algorithm yields higher completion and pose estimation accuracy than existing methods, with an improvement of 41% in completion accuracy and 52% in pose estimation accuracy while keeping a low inference time of 0.6s in average.
翻訳日:2023-03-17 18:00:32 公開日:2023-03-15
# オープン量子システムのための光円錐

Light cones for open quantum systems ( http://arxiv.org/abs/2303.08921v1 )

ライセンス: Link先を確認
S\'ebastien Breteaux, J\'er\'emy Faupin, Marius Lemm, Dong Hao Ou Yang, Israel Michael Sigal, and Jingxuan Zhang(参考訳) 我々はマルコフ開量子力学(moqd)を考える。 このような力学の下で進化する量子状態の支持は、有限エネルギー部分空間において有限速で伝播する。 より正確には、初期量子状態が空間に局在化されているならば、フォン・ノイマン・リンドブラッド方程式の解の有限エネルギー部はエネルギー依存の光円錐の内部で概ね局在化することが証明される。 また、この光円錐の傾斜に対する明示的な上界も得られる。

We consider Markovian open quantum dynamics (MOQD). We show that, up to small-probability tails, the supports of quantum states evolving under such dynamics propagate with finite speed in any finite-energy subspace. More precisely, we prove that if the initial quantum state is localized in space, then any finite-energy part of the solution of the von Neumann-Lindblad equation is approximately localized inside an energy-dependent light cone. We also obtain an explicit upper bound for the slope of this light cone.
翻訳日:2023-03-17 18:00:10 公開日:2023-03-15
# egovit: エゴセントリックなアクション認識のためのピラミッドビデオトランスフォーマー

EgoViT: Pyramid Video Transformer for Egocentric Action Recognition ( http://arxiv.org/abs/2303.08920v1 )

ライセンス: Link先を確認
Chenbin Pan, Zhiqi Zhang, Senem Velipasalar, Yi Xu(参考訳) 手と物体の相互作用を捉えることは、自我中心のビデオから人間の行動を自動的に検出する上で重要である。 本稿では,エゴセントリック動作認識のための動的クラストークン生成器を備えたピラミッドビデオトランスフォーマを提案する。 多様な入力に対してクラストークンと同じ静的埋め込みを用いる従来のビデオトランスフォーマーとは違い,手動インタラクションと関連する動作情報を分析して,各入力ビデオに対してクラストークンを生成する動的クラストークン生成器を提案する。 動的クラストークンは、後続のトランスフォーマー層で他の情報トークンと通信することで、これらの情報をモデル全体に拡散することができる。 動的クラストークンでは、ビデオ間の相違がより顕著になり、モデルが様々な入力を区別するのに役立つ。 さらに、従来のビデオトランスフォーマーは、大量の計算を必要とする時間的特徴をグローバルに探索する。 しかしながら、エゴセントリックなビデオは、しばしば大量の背景遷移を持ち、遠方のフレームに不連続を引き起こす。 この場合、時間的サンプリング率を盲目的に削減することは重要な情報を失うリスクがある。 そこで本研究では,ビデオを短時間のハイレートから長期の低レートまで階層的に処理するためのピラミッドアーキテクチャを提案する。 提案するアーキテクチャでは,モデル性能を犠牲にすることなく,計算コストとメモリ要求を大幅に削減する。 epic-kitchens-100とegtea gaze+データセットで、異なるベースラインビデオトランスフォーマーとの比較を行う。 定量的および定性的な結果から, 提案モデルがエゴセントリック行動認識の性能を効率的に向上できることが示された。

Capturing interaction of hands with objects is important to autonomously detect human actions from egocentric videos. In this work, we present a pyramid video transformer with a dynamic class token generator for egocentric action recognition. Different from previous video transformers, which use the same static embedding as the class token for diverse inputs, we propose a dynamic class token generator that produces a class token for each input video by analyzing the hand-object interaction and the related motion information. The dynamic class token can diffuse such information to the entire model by communicating with other informative tokens in the subsequent transformer layers. With the dynamic class token, dissimilarity between videos can be more prominent, which helps the model distinguish various inputs. In addition, traditional video transformers explore temporal features globally, which requires large amounts of computation. However, egocentric videos often have a large amount of background scene transition, which causes discontinuities across distant frames. In this case, blindly reducing the temporal sampling rate will risk losing crucial information. Hence, we also propose a pyramid architecture to hierarchically process the video from short-term high rate to long-term low rate. With the proposed architecture, we significantly reduce the computational cost as well as the memory requirement without sacrificing from the model performance. We perform comparisons with different baseline video transformers on the EPIC-KITCHENS-100 and EGTEA Gaze+ datasets. Both quantitative and qualitative results show that the proposed model can efficiently improve the performance for egocentric action recognition.
翻訳日:2023-03-17 18:00:00 公開日:2023-03-15
# NMRによる量子熱力学の探索

Exploring quantum thermodynamics with NMR ( http://arxiv.org/abs/2303.08917v1 )

ライセンス: Link先を確認
Carlos H. S. Vieira, Jefferson L. D. de Oliveira, Jonas F. G. Santos, Pedro R. Dieguez, and Roberto M. Serra(参考訳) 量子力学は、非平衡確率的熱力学を、その記述に非古典的特徴が不可欠である小さな量子系に拡張しようとする。 このような研究領域は最近、システムの熱力学の情報的側面とともに、量子特徴の富とパワーを探求することで、有意義な理論的および実験的進歩をもたらしている。 このような調査の関連性は、量子技術デバイスが現在科学技術応用の最前線にあるという事実に関連している。 本稿では、核磁気共鳴法による原理実験を強調する量子熱力学のいくつかの概念について概説する。

Quantum thermodynamics seeks to extend non-equilibrium stochastic thermodynamics to small quantum systems where non-classical features are essential to its description. Such a research area has recently provided meaningful theoretical and experimental advances by exploring the wealth and the power of quantum features along with informational aspects of a system's thermodynamics. The relevance of such investigations is related to the fact that quantum technological devices are currently at the forefront of science and engineering applications. This short review article provides an overview of some concepts in quantum thermodynamics highlighting test-of-principles experiments using nuclear magnetic resonance techniques.
翻訳日:2023-03-17 17:59:17 公開日:2023-03-15
# LRDB: 活動学習環境における長期モデルに基づくLSTM RawデータDNAベースコール

LRDB: LSTM Raw data DNA Base-caller based on long-short term models in an active learning environment ( http://arxiv.org/abs/2303.08915v1 )

ライセンス: Link先を確認
Ahmad Rezaei, Mahdi Taheri, Ali Mahani, Sebastian Magierowski(参考訳) DNA文字を抽出する最初の重要なステップは、電流信号の形でMinIONデバイスの出力データを使用することである。 様々な最先端のベースコールは、このデータを使って入力に基づいてDNA文字を検出する。 本稿では,時間クリティカルなアプリケーションやプライバシを意識した設計,破滅的な忘れ方といった課題において,先行するベース呼び出し者の欠点について論じる。 次に, 論文中の細菌サンプルの読み出し精度(0.35%増加)が向上した, プライベート開発のための軽量オープンソースモデルであるLRDBモデルを提案する。 我々は、トレーニングデータの範囲を制限し、トランスファー学習アルゴリズムの恩恵を受け、重要なアプリケーションでlrdbをアクティブに利用できるようにする。 そのため、新しいDNAサンプル(この場合、細菌サンプル)に適応するためのトレーニング時間を短縮する必要がある。 また、パラメータの少ない場合には精度の低下が無視できるため、ユーザ制約に関してlrdbを変更することができる。 また、15dBノイズインジェクションの精度を約1.439%低下させる耐雑音性の評価を行い, 性能測定結果から, 現在の最先端モデルと比較して中速度範囲でモデルが実行されることが示された。

The first important step in extracting DNA characters is using the output data of MinION devices in the form of electrical current signals. Various cutting-edge base callers use this data to detect the DNA characters based on the input. In this paper, we discuss several shortcomings of prior base callers in the case of time-critical applications, privacy-aware design, and the problem of catastrophic forgetting. Next, we propose the LRDB model, a lightweight open-source model for private developments with a better read-identity (0.35% increase) for the target bacterial samples in the paper. We have limited the extent of training data and benefited from the transfer learning algorithm to make the active usage of the LRDB viable in critical applications. Henceforth, less training time for adapting to new DNA samples (in our case, Bacterial samples) is needed. Furthermore, LRDB can be modified concerning the user constraints as the results show a negligible accuracy loss in case of using fewer parameters. We have also assessed the noise-tolerance property, which offers about a 1.439% decline in accuracy for a 15dB noise injection, and the performance metrics show that the model executes in a medium speed range compared with current cutting-edge models.
翻訳日:2023-03-17 17:59:00 公開日:2023-03-15
# MAtch, eXpand, Improve: 言語知識を用いたゼロショット動作認識のための教師なしファインタニング

MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge ( http://arxiv.org/abs/2303.08914v1 )

ライセンス: Link先を確認
Wei Lin, Leonid Karlinsky, Nina Shvetsova, Horst Possegger, Mateusz Kozinski, Rameswar Panda, Rogerio Feris, Hilde Kuehne, Horst Bischof(参考訳) 大規模ヴィジュアル・ランゲージ(VL)モデルは、視覚とテキストのモダリティの表現の整合に大きな成功を収めている。 これにより、ゼロショット認識、画像生成と編集、その他多くのエキサイティングなタスクが著しく進歩する。 しかしながら、VLモデルはオブジェクトを過剰に表現する傾向があり、動詞にはあまり注意を払わず、最高のゼロショットアクション認識性能のためにビデオデータにさらなるチューニングを必要とする。 これまでの研究は大規模で完全に注釈付けされたデータに依存していたが、本研究では教師なしのアプローチを提案する。 我々は、ラベルなしビデオのコレクションと未ペアアクション辞書を用いて、ゼロショットおよび少数ショットアクション認識のためのVLモデルを適応する。 それに基づいて,大規模言語モデルとvlモデルを用いて,マッチング,テキスト拡張,キャプションによる非ラベルビデオ毎にテキストバッグを構築する。 イメージテキストのバックボーンをビデオデータに適応させるために、これらのバッグをMultiple Instance Learningセットアップで使用します。 非ラベルビデオデータに微調整を施したものの,多数のゼロショットダウンストリームタスクに対して高い転送性を示し,ベースvlモデルの性能を最大14\%向上させ,ゼロショットと少数ショットビデオの両方で完全に教師付きベースラインと比較した。 コードは後に \url{https://github.com/wlin-at/MAXI} でリリースされる。

Large scale Vision-Language (VL) models have shown tremendous success in aligning representations between visual and text modalities. This enables remarkable progress in zero-shot recognition, image generation & editing, and many other exciting tasks. However, VL models tend to over-represent objects while paying much less attention to verbs, and require additional tuning on video data for best zero-shot action recognition performance. While previous work relied on large-scale, fully-annotated data, in this work we propose an unsupervised approach. We adapt a VL model for zero-shot and few-shot action recognition using a collection of unlabeled videos and an unpaired action dictionary. Based on that, we leverage Large Language Models and VL models to build a text bag for each unlabeled video via matching, text expansion and captioning. We use those bags in a Multiple Instance Learning setup to adapt an image-text backbone to video data. Although finetuned on unlabeled video data, our resulting models demonstrate high transferability to numerous unseen zero-shot downstream tasks, improving the base VL model performance by up to 14\%, and even comparing favorably to fully-supervised baselines in both zero-shot and few-shot video recognition transfer. The code will be released later at \url{https://github.com/wlin-at/MAXI}.
翻訳日:2023-03-17 17:58:27 公開日:2023-03-15
# 強相関系に対するトロッタ化meraの収束と量子利用

Convergence and Quantum Advantage of Trotterized MERA for Strongly-Correlated Systems ( http://arxiv.org/abs/2303.08910v1 )

ライセンス: Link先を確認
Qiang Miao and Thomas Barthel(参考訳) 強相関量子多体系は古典的に研究やシミュレーションが難しい。 最近の研究 [arxiv:2108.13401] では、ある種のトロッター回路に拘束されたテンソルを持つマルチスケールエンタングルメント正規化 ansatz (mera) に基づく変分量子固有ソルバ (vqe) を提案した。 ここでは、理論解析を拡張し、異なる初期化と収束スキームをテストし、様々な臨界スピンモデルに対する計算コストのスケーリングを決定し、量子アドバンテージを確立する。 シングルキュービットと2キュービットの回転からなるトロッター回路では、小さな回転角を持つのが実験的に有利である。 平均角度振幅はエネルギーの精度に無視できる効果で大幅に低減できることがわかった。 ベンチマークシミュレーションにより、TMERAテンソルをブロックウォール回路または並列ランダムペア回路として選択すると、非常によく似たエネルギー精度が得られることが示された。

Strongly-correlated quantum many-body systems are difficult to study and simulate classically. Our recent work [arXiv:2108.13401] proposed a variational quantum eigensolver (VQE) based on the multiscale entanglement renormalization ansatz (MERA) with tensors constrained to certain Trotter circuits. Here, we extend the theoretical analysis, testing different initialization and convergence schemes, determining the scaling of computation costs for various critical spin models, and establishing a quantum advantage. For the Trotter circuits being composed of single-qubit and two-qubit rotations, it is experimentally advantageous to have small rotation angles. We find that the average angle amplitude can be reduced substantially with negligible effect on the energy accuracy. Benchmark simulations show that choosing TMERA tensors as brick-wall circuits or parallel random-pair circuits yields very similar energy accuracies.
翻訳日:2023-03-17 17:58:01 公開日:2023-03-15
# 多目的深層強化学習のための潜在条件付き政策勾配

Latent-Conditioned Policy Gradient for Multi-Objective Deep Reinforcement Learning ( http://arxiv.org/abs/2303.08909v1 )

ライセンス: Link先を確認
Takuya Kanazawa and Chetan Gupta(参考訳) 現実の世界におけるシーケンシャルな意思決定は、しばしば矛盾する目標の適切なバランスを見つける必要がある。 一般に、目的間の妥協パターンの異なるパターンを具現化するパレート最適ポリシーが多数存在し、ディープニューラルネットワークを用いてそれらを徹底的に得ることは技術的に困難である。 本研究では,目的の線形スカラー化を必要とせず,1回のトレーニングでパレートセット全体をほぼ取得するために,ポリシー勾配を介して単一のニューラルネットワークを訓練する,新しい多目的強化学習(morl)アルゴリズムを提案する。 提案手法はポリシーネットワークの設計変更を伴わない連続的かつ離散的な行動空間で機能する。 ベンチマーク環境での数値実験により,本手法の実用性と有効性を示す。

Sequential decision making in the real world often requires finding a good balance of conflicting objectives. In general, there exist a plethora of Pareto-optimal policies that embody different patterns of compromises between objectives, and it is technically challenging to obtain them exhaustively using deep neural networks. In this work, we propose a novel multi-objective reinforcement learning (MORL) algorithm that trains a single neural network via policy gradient to approximately obtain the entire Pareto set in a single run of training, without relying on linear scalarization of objectives. The proposed method works in both continuous and discrete action spaces with no design change of the policy network. Numerical experiments in benchmark environments demonstrate the practicality and efficacy of our approach in comparison to standard MORL baselines.
翻訳日:2023-03-17 17:57:45 公開日:2023-03-15
# VVS:無関係フレーム抑圧によるビデオ間検索

VVS: Video-to-Video Retrieval with Irrelevant Frame Suppression ( http://arxiv.org/abs/2303.08906v1 )

ライセンス: Link先を確認
Won Jo, Geuntaek Lim, Gwangjin Lee, Hyunwoo Kim, Byungsoo Ko, and Yukyung Choi(参考訳) コンテンツベースビデオ検索(CBVR)では,大規模コレクションを扱う場合,効率は精度と同じくらい重要である。 このため、いくつかの映像レベルの特徴に基づく研究が活発に行われているが、長大で難解な映像を1つの特徴に埋め込むのが難しいため、フレームレベルの特徴に基づく研究に比べて正確な検索には不十分であることが示されている。 本稿では,無関係フレームの適切な抑制が,映像レベルの特徴ベースアプローチの現在の障害を克服するための手がかりとなることを示す。 さらに,VVS(Video-to-Video Suppression Network)をソリューションとして提案する。 VVSは、どのフレームを削除すべきかを識別するための簡単なイントラクタ除去段階と、残りのフレームをどの程度抑制するかを決定するための抑制重量生成段階とからなるエンドツーエンドのフレームワークである。 この構造は、様々なコンテンツと意味のない情報を持つ未トリミングな動画を効果的に記述することを目的としている。 提案手法はビデオレベルの特徴ベースアプローチにおける最先端の手法であるだけでなく,フレームレベルの特徴ベースアプローチに近い検索能力を有するにもかかわらず,高速な推論時間を有することを示す。

In content-based video retrieval (CBVR), dealing with large-scale collections, efficiency is as important as accuracy. For this reason, several video-level feature-based studies have actively been conducted; nevertheless, owing to the severe difficulty of embedding a lengthy and untrimmed video into a single feature, these studies have shown insufficient for accurate retrieval compared to frame-level feature-based studies. In this paper, we show an insight that appropriate suppression of irrelevant frames can be a clue to overcome the current obstacles of the video-level feature-based approaches. Furthermore, we propose a Video-to-Video Suppression network (VVS) as a solution. The VVS is an end-to-end framework that consists of an easy distractor elimination stage for identifying which frames to remove and a suppression weight generation stage for determining how much to suppress the remaining frames. This structure is intended to effectively describe an untrimmed video with varying content and meaningless information. Its efficacy is proved via extensive experiments, and we show that our approach is not only state-of-the-art in video-level feature-based approaches but also has a fast inference time despite possessing retrieval capabilities close to those of frame-level feature-based approaches.
翻訳日:2023-03-17 17:57:32 公開日:2023-03-15
# PRESTO: 現実的なタスク指向の対話を解析するための多言語データセット

PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented Dialogs ( http://arxiv.org/abs/2303.08954v1 )

ライセンス: Link先を確認
Rahul Goel, Waleed Ammar, Aditya Gupta, Siddharth Vashishtha, Motoki Sano, Faiz Surani, Max Chang, HyunJeong Choe, David Greene, Kyle He, Rattima Nitisaroj, Anna Trukhina, Shachi Paul, Pararth Shah, Rushin Shah and Zhou Yu(参考訳) タスク指向ダイアログに対する研究の関心は、Google Assistant、Alexa、Siriといったシステムが日常的に普及するにつれて高まっている。 しかし、この領域における学術研究の影響は、幅広いユーザー痛点を現実的に捉えるデータセットの欠如によって制限されてきた。 リアルな会話を解析するより困難な側面について研究するために,人間と仮想アシスタントの550k以上の文脈的多言語会話の公開データセットであるprestoを紹介する。 prestoには、ディフルエンシー、コードスイッチ、リビジョンなど、現実世界のnluタスクで発生するさまざまな課題が含まれている。 これは、ユーザの連絡先やリストなどの構造化されたコンテキストを提供する、大規模な人間生成の会話解析データセットである。 我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象がモデル化が困難であることを示し、低リソースのセットアップでさらに顕著である。

Research interest in task-oriented dialogs has increased as systems such as Google Assistant, Alexa and Siri have become ubiquitous in everyday life. However, the impact of academic research in this area has been limited by the lack of datasets that realistically capture the wide array of user pain points. To enable research on some of the more challenging aspects of parsing realistic conversations, we introduce PRESTO, a public dataset of over 550K contextual multilingual conversations between humans and virtual assistants. PRESTO contains a diverse array of challenges that occur in real-world NLU tasks such as disfluencies, code-switching, and revisions. It is the only large scale human generated conversational parsing dataset that provides structured context such as a user's contacts and lists for each example. Our mT5 model based baselines demonstrate that the conversational phenomenon present in PRESTO are challenging to model, which is further pronounced in a low-resource setup.
翻訳日:2023-03-17 17:51:46 公開日:2023-03-15
# Tiny Time-Series Transformer:Deep Model Compressionを用いた天文遷移の低遅延高スループット分類

The Tiny Time-series Transformer: Low-latency High-throughput Classification of Astronomical Transients using Deep Model Compression ( http://arxiv.org/abs/2303.08951v1 )

ライセンス: Link先を確認
Tarek Allam Jr., Julien Peloton, Jason D. McEwen(参考訳) 天文学の新しい黄金時代は、データによって支配されている。 大規模な天文調査は前例のない量の情報を放送しており、データの流出に対処するために現代の科学パイプラインの重要な要素として機械学習を要求している。 Vera C. Rubin ObservatoryのLegiacy Survey of Space and Time(LSST)は、時間領域天文学のためのビッグデータバーを引き上げ、一晩に1000万のアラートを発生させ、調査期間を通じて多くのペタバイトのデータを生成する。 フォローアップ分析のために追加資源を求める時間クリティカルなイベントには,リアルタイムに,かつ堅牢かつ正確に動作可能な高速かつ効率的な分類アルゴリズムが必要である。 このようなデータを扱うためには、最新のハードウェアアクセラレータを利用するツールと組み合わされた最先端のディープラーニングアーキテクチャが不可欠である。 我々は,最新の深層圧縮手法が,分類性能を維持しつつ,モデルサイズを18\times$で削減できることを示す。 また、深層圧縮技術に加えて、ファイルフォーマットの慎重な選択により、推論レイテンシが向上し、アラートのスループットが向上し、ローカル処理に$8\times$、実稼働環境で$$5\times$の順に設定できることを示した。 これを実環境でテストするために、この最適化されたバージョンである t2 を実際の Zwicky Transient Facility (ZTF) 警告データ上でFINKのコミュニティアラートブロッキングシステムにデプロイし、FINK に存在する他の科学モジュールとスループット性能を比較した。 本稿では,LSSTスケール以上のリアルタイム分類における時系列変換器の適合性を強調し,過渡的分類のためのディープラーニングモデルのデプロイ性およびスケーラブル推論を改善するための基本ツールとして,深層モデル圧縮を導入する。

A new golden age in astronomy is upon us, dominated by data. Large astronomical surveys are broadcasting unprecedented rates of information, demanding machine learning as a critical component in modern scientific pipelines to handle the deluge of data. The upcoming Legacy Survey of Space and Time (LSST) of the Vera C. Rubin Observatory will raise the big-data bar for time-domain astronomy, with an expected 10 million alerts per-night, and generating many petabytes of data over the lifetime of the survey. Fast and efficient classification algorithms that can operate in real-time, yet robustly and accurately, are needed for time-critical events where additional resources can be sought for follow-up analyses. In order to handle such data, state-of-the-art deep learning architectures coupled with tools that leverage modern hardware accelerators are essential. We showcase how the use of modern deep compression methods can achieve a $18\times$ reduction in model size, whilst preserving classification performance. We also show that in addition to the deep compression techniques, careful choice of file formats can improve inference latency, and thereby throughput of alerts, on the order of $8\times$ for local processing, and $5\times$ in a live production setting. To test this in a live setting, we deploy this optimised version of the original time-series transformer, t2, into the community alert broking system of FINK on real Zwicky Transient Facility (ZTF) alert data, and compare throughput performance with other science modules that exist in FINK. The results shown herein emphasise the time-series transformer's suitability for real-time classification at LSST scale, and beyond, and introduce deep model compression as a fundamental tool for improving deploy-ability and scalable inference of deep learning models for transient classification.
翻訳日:2023-03-17 17:51:30 公開日:2023-03-15
# ERMを用いたパッチ攻撃に対する認証(マルチ)ロバスト性

Certifiable (Multi)Robustness Against Patch Attacks Using ERM ( http://arxiv.org/abs/2303.08944v1 )

ライセンス: Link先を確認
Saba Ahmadi, Avrim Blum, Omar Montasser, Kevin Stangl(参考訳) テスト時に相手がテストイメージをパッチで操作し、ターゲットの誤分類を誘導するパッチ攻撃を考える。 Patch-Cleanser (Xiang et al. [2022])の最近の攻撃に対する防御について検討する。 Patch-Cleanserアルゴリズムは、"two-mask correctness'プロパティを持つように予測モデルを必要とする。 Xiangらは、トレーニング画像のランダムな位置にあるマスクのペアでトレーニングセットを増強し、拡張データセット上で経験的リスク最小化(ERM)を実行することにより、2マスク操作に対して堅牢な予測モデルを学習する。 しかし、すべての画像上の2マスク操作に対して予測器が完全に正しくないような実現不可能な環境では、ERMが失敗する例を示す。 この課題を克服するために,feigeらによる先行研究に基づいて,erm oracleを用いて,すべての2マスク操作にロバストな予測器を確実に学習する別のアルゴリズムを提案する。 [2015]. また、この結果を複数のグループ設定に拡張し、同時に全てのグループに対してロバスト損失の少ない予測子を学習する。

Consider patch attacks, where at test-time an adversary manipulates a test image with a patch in order to induce a targeted misclassification. We consider a recent defense to patch attacks, Patch-Cleanser (Xiang et al. [2022]). The Patch-Cleanser algorithm requires a prediction model to have a ``two-mask correctness'' property, meaning that the prediction model should correctly classify any image when any two blank masks replace portions of the image. Xiang et al. learn a prediction model to be robust to two-mask operations by augmenting the training set with pairs of masks at random locations of training images and performing empirical risk minimization (ERM) on the augmented dataset. However, in the non-realizable setting when no predictor is perfectly correct on all two-mask operations on all images, we exhibit an example where ERM fails. To overcome this challenge, we propose a different algorithm that provably learns a predictor robust to all two-mask operations using an ERM oracle, based on prior work by Feige et al. [2015]. We also extend this result to a multiple-group setting, where we can learn a predictor that achieves low robust loss on all groups simultaneously.
翻訳日:2023-03-17 17:50:51 公開日:2023-03-15
# 誘導深度マップ超解像のための球面空間特徴分解

Spherical Space Feature Decomposition for Guided Depth Map Super-Resolution ( http://arxiv.org/abs/2303.08942v1 )

ライセンス: Link先を確認
Zixiang Zhao, Jiangshe Zhang, Xiang Gu, Chengli Tan, Shuang Xu, Yulun Zhang, Radu Timofte, Luc Van Gool(参考訳) 誘導深度マップ超解像(GDSR)はマルチモーダル画像処理におけるホットトピックとして,高分解能(HR)RGB画像の付加情報を含む低分解能(LR)深度マップのアップサンプリングを目的としている。 このタスクの重要なステップは、ドメイン共有およびドメインプライベートなRGB/deepth機能を効果的に抽出することです。 さらに、ぼやけたエッジ、ノイズの多い表面、過剰に伝達されたRGBテクスチャという3つの詳細な問題に対処する必要がある。 本稿では,この問題を解決するために,Spherical Space Feature Decomposition Network (SSDNet)を提案する。 RestormerブロックをベースとしたRGB/deepthエンコーダは,モダリティ特性のモデル化に有効である。 そして、抽出された特徴を球面空間にマッピングし、プライベート特徴の分離と共有特徴のアライメントを完了させる。 RGBの共有機能は、GDSRタスクを完了するための奥行き機能と融合している。 その後、より詳細な問題に対処するため、球面コントラスト改善(SCR)モジュールを提案する。 不完全なカテゴリに従って分類されたパッチは、SCRモジュールに入力され、パッチの特徴は、真相に近づき、対照的な学習を通じて、球状特徴空間の対応する不完全なサンプルから押し出される。 広範な実験により,本手法は4つのテストデータセットで最先端の結果を得ることができ,実世界のシーンに一般化できることを示した。 コードはリリースされる。

Guided depth map super-resolution (GDSR), as a hot topic in multi-modal image processing, aims to upsample low-resolution (LR) depth maps with additional information involved in high-resolution (HR) RGB images from the same scene. The critical step of this task is to effectively extract domain-shared and domain-private RGB/depth features. In addition, three detailed issues, namely blurry edges, noisy surfaces, and over-transferred RGB texture, need to be addressed. In this paper, we propose the Spherical Space feature Decomposition Network (SSDNet) to solve the above issues. To better model cross-modality features, Restormer block-based RGB/depth encoders are employed for extracting local-global features. Then, the extracted features are mapped to the spherical space to complete the separation of private features and the alignment of shared features. Shared features of RGB are fused with the depth features to complete the GDSR task. Subsequently, a spherical contrast refinement (SCR) module is proposed to further address the detail issues. Patches that are classified according to imperfect categories are input to the SCR module, where the patch features are pulled closer to the ground truth and pushed away from the corresponding imperfect samples in the spherical feature space via contrastive learning. Extensive experiments demonstrate that our method can achieve state-of-the-art results on four test datasets and can successfully generalize to real-world scenes. Code will be released.
翻訳日:2023-03-17 17:50:28 公開日:2023-03-15
# 人間対話を理解する対話型ドメイン固有対話エージェント

Automated Interactive Domain-Specific Conversational Agents that Understand Human Dialogs ( http://arxiv.org/abs/2303.08941v1 )

ライセンス: Link先を確認
Yankai Zeng and Abhiramon Rajasekharan and Parth Padalkar and Kinjal Basu and Joaqu\'in Arias and Gopal Gupta(参考訳) 機械との人間的なコミュニケーションの実現は、知識表現と推論と自然言語処理の分野において、古典的な挑戦的なトピックである。 これらの大規模言語モデル(llm)は文の意味的意味を真に理解するよりもむしろパターンマッチングに依存している。 その結果、誤った反応が生じる可能性がある。 確実に正しい応答を生成するには、文の意味を「理解」する必要がある。 この"理解"を実現するには、Answer Set Programming(ASP)のようなロジックベースの(常識的な)推論手法が必要である。 本稿では,LLMとASPを利用したAutoConciergeシステムを用いて,制限されたドメインにおける人間の対話を真に"理解"できる対話エージェントを開発する。 AutoConciergeは、地域のレストランに関する特定のドメインアドバイスユーザーに焦点を当てている。 AutoConciergeは、ユーザの発話をインタラクティブに理解し、不足している情報を識別し、自然言語文を通じてユーザに提供を依頼する。 AutoConciergeがすべての情報が受信されたと判断すると、人間のユーザから取得したユーザの嗜好に基づいてレストランのレコメンデーションを計算します。 AutoConciergeは、GPT-3を使って、人間のダイアログを述語に変換し、ダイアログの文の深い構造をキャプチャする、我々のSTARフレームワークをベースにしています。 これらの述語は、コモンセンス推論を実行するためにゴール指向の s(CASP) ASP システムに入力される。 私たちの知る限りでは、AutoConciergeは人間のように現実的に会話し、人間の発話を真に理解した人間に助けを与える、初めての自動会話エージェントです。

Achieving human-like communication with machines remains a classic, challenging topic in the field of Knowledge Representation and Reasoning and Natural Language Processing. These Large Language Models (LLMs) rely on pattern-matching rather than a true understanding of the semantic meaning of a sentence. As a result, they may generate incorrect responses. To generate an assuredly correct response, one has to "understand" the semantics of a sentence. To achieve this "understanding", logic-based (commonsense) reasoning methods such as Answer Set Programming (ASP) are arguably needed. In this paper, we describe the AutoConcierge system that leverages LLMs and ASP to develop a conversational agent that can truly "understand" human dialogs in restricted domains. AutoConcierge is focused on a specific domain-advising users about restaurants in their local area based on their preferences. AutoConcierge will interactively understand a user's utterances, identify the missing information in them, and request the user via a natural language sentence to provide it. Once AutoConcierge has determined that all the information has been received, it computes a restaurant recommendation based on the user-preferences it has acquired from the human user. AutoConcierge is based on our STAR framework developed earlier, which uses GPT-3 to convert human dialogs into predicates that capture the deep structure of the dialog's sentence. These predicates are then input into the goal-directed s(CASP) ASP system for performing commonsense reasoning. To the best of our knowledge, AutoConcierge is the first automated conversational agent that can realistically converse like a human and provide help to humans based on truly understanding human utterances.
翻訳日:2023-03-17 17:50:00 公開日:2023-03-15
# STEM高等教育における3Dプリントバッジによる学生成績の向上とドロップアウト率の低減

Using 3D printed badges to improve student performance and reduce dropout rates in STEM higher education ( http://arxiv.org/abs/2303.08939v1 )

ライセンス: Link先を確認
Ra\'ul Lara-Cabrera and Fernando Ortega and Edgar Talavera and Daniel L\'opez-Fern\'andez(参考訳) 学生のSTEMの過度な困難に対する認識は、モチベーションを低下させ、パフォーマンスに影響を与える。 先行研究によると、ゲーミフィケーション技術の使用は、学習時のエンゲージメント、モチベーション、楽しみを促進する。 バッジは、学生に報酬として与えられる区別であり、よく知られたゲーミフィケーションツールである。 この貢献は、物理的にも仮想的にもバッジを使うことが学生のパフォーマンスを向上し、ドロップアウト率を低下させると仮定している。 この仮説を検証するために、コンピュータサイエンスの学位のデータベースコースに登録した99人の学生を対象にしたケーススタディを行った。 その結果,バッジの使用により学生の成績が向上し,ドロップアウト率も低下した。 しかし、異なる種類のバッジの使用には不可解な違いが見られた。

Students' perception of excessive difficulty in STEM degrees lowers their motivation and therefore affects their performance. According to prior research, the use of gamification techniques promote engagement, motivation and fun when learning. Badges, which are a distinction that is given as a reward to students, are a well-known gamification tool. This contribution hypothesizes that the use of badges, both physical and virtual, improves student performance and reduces dropout rates. To verify that hypothesis, a case study involving 99 students enrolled in a Databases course of computer science degrees was conducted. The results show that the usage of badges improves student performance and reduces dropout rates. However, negligible differences were found between the use of different kind of badges.
翻訳日:2023-03-17 17:49:35 公開日:2023-03-15
# 限界学習は十分だ!

Learning marginals suffices! ( http://arxiv.org/abs/2303.08938v1 )

ライセンス: Link先を確認
Nengkun Yu, Tzu-Chieh Wei(参考訳) 量子複雑性理論は計算機科学以外にも、量子多体系から量子場理論まで、物理学の複数の分野に革命をもたらす可能性がある。 本稿では,量子状態の学習におけるサンプル複雑度と状態の回路複雑度との関係について検討する。 量子状態の回路複雑性は、それを実装するのに必要な量子回路の最小深さを指す。 その結果,回路複雑性の低い量子状態の限界値の学習は状態トモグラフィに十分であり,量子状態トモグラフィのサンプル複雑性の指数的障壁を破ることを示した。 この証明は初等的であり、ガッピング局所ハミルトニアンの量子回路の複雑さと基底状態とを橋渡しすることで、短距離の絡み合いを特徴づける困難を克服する。 私たちの結果は、例えば、マルチキュービットGHZ状態の量子回路の複雑さを正確に解決する。

Beyond computer science, quantum complexity theory can potentially revolutionize multiple branches of physics, ranging from quantum many-body systems to quantum field theory. In this paper, we investigate the relationship between the sample complexity of learning a quantum state and the circuit complexity of the state. The circuit complexity of a quantum state refers to the minimum depth of the quantum circuit necessary to implement it. We show that learning its marginals for the quantum state with low circuit complexity suffices for state tomography, thus breaking the exponential barrier of the sample complexity for quantum state tomography. Our proof is elementary and overcomes difficulties characterizing short-range entanglement by bridging quantum circuit complexity and ground states of gapped local Hamiltonians. Our result, for example, settles the quantum circuit complexity of the multi-qubit GHZ state exactly.
翻訳日:2023-03-17 17:49:22 公開日:2023-03-15
# 時間依存マルコフダイナミクスを雑音量子チャネルに適合させる

Fitting time-dependent Markovian dynamics to noisy quantum channels ( http://arxiv.org/abs/2303.08936v1 )

ライセンス: Link先を確認
Emilio Onorati, Tamara Kohler, Toby S. Cubitt(参考訳) エラーをキャラクタリゼーションし緩和する方法を理解することは、短期アプリケーションのための信頼性の高い量子アーキテクチャを開発する上で重要な課題である。 最近の研究(arxiv:2103.17243)は、検討中の量子演算子のトモグラフィスナップショットのみを必要とする未知のノイズプロセスを分析するための効率的なアルゴリズムセットを提供する。 唯一の仮定は、観測されたチャネルは時間に依存しないマルコフ写像によって近似できるということである。 本稿では、時間に依存しない仮定を引き上げ、一連のスナップショットから時間に依存したジェネレータで雑音のダイナミクスを解析できるスキームの拡張を示す。 したがって、より広い範囲のインスタンスに対する診断ツールを提供し、以前のプロトコルから好まれるすべての機能を継承します。 理論的には、時間依存のマルコフチャネルを特徴付ける問題は何十年もの間、公然とした問題であった。 この研究は、この特徴化問題に厳格に取り組もうというアプローチを与える。

Understanding how to characterise and mitigate errors is a key challenge in developing reliable quantum architecture for near-term applications. Recent work (arXiv:2103.17243) provides an efficient set of algorithms for analysing unknown noise processes requiring only tomographic snapshots of the quantum operator under consideration, without the need of any a-priori information on the noise model, nor necessitating a particular experimental setup. The only assumption made is that the observed channel can be approximated by a time-independent Markovian map, which is a typically reasonable framework when considering short time scales. In this note we lift the time-independent assumption, presenting an extension of the scheme now able to analyse noisy dynamics with time-dependent generators from a sequence of snapshots. We hence provide a diagnostic tool for a wider spectrum of instances while inheriting all the favourable features from the previous protocol. On the theoretical side, the problem of characterising time-dependent Markovian channels has been an open problem for many decades. This work gives an approach to tackle this characterisation problem rigorously.
翻訳日:2023-03-17 17:49:08 公開日:2023-03-15
# 機械学習によるデータ空間セマンティック相互運用性の強化:ビジョン的視点

Enhancing Data Space Semantic Interoperability through Machine Learning: a Visionary Perspective ( http://arxiv.org/abs/2303.08932v1 )

ライセンス: Link先を確認
Zeyd Boukhers and Christoph Lange and Oya Beyan(参考訳) 我々のビジョンペーパーは、機械学習の適用を通じて、データ空間におけるセマンティックインターオペラビリティの未来を改善する計画の概要である。 自己規制された環境のメンバ間でデータ交換を行うデータ空間の利用は、ますます人気が高まっている。 しかしながら、これらの空間におけるメタデータと語彙を管理する現在の手動のプラクティスは、時間がかかり、エラーを起こしやすく、すべての利害関係者のニーズを満たしていない可能性がある。 機械学習のパワーを活用することで、データ空間におけるセマンティック相互運用性を大幅に改善できると考えています。 これはメタデータの自動生成と更新を伴い、様々なサブコミュニティが使用する多様な用語に対応可能な、より柔軟な語彙となる。 データ空間の将来に対する私たちのビジョンは、従来のデータ交換の限界に対処し、コミュニティのすべてのメンバーにとってよりアクセスしやすく、価値のあるデータを提供します。

Our vision paper outlines a plan to improve the future of semantic interoperability in data spaces through the application of machine learning. The use of data spaces, where data is exchanged among members in a self-regulated environment, is becoming increasingly popular. However, the current manual practices of managing metadata and vocabularies in these spaces are time-consuming, prone to errors, and may not meet the needs of all stakeholders. By leveraging the power of machine learning, we believe that semantic interoperability in data spaces can be significantly improved. This involves automatically generating and updating metadata, which results in a more flexible vocabulary that can accommodate the diverse terminologies used by different sub-communities. Our vision for the future of data spaces addresses the limitations of conventional data exchange and makes data more accessible and valuable for all members of the community.
翻訳日:2023-03-17 17:48:48 公開日:2023-03-15
# 参加型AIの設計: 創造的プロフェッショナルの関心と生成型AIへの期待

Designing Participatory AI: Creative Professionals' Worries and Expectations about Generative AI ( http://arxiv.org/abs/2303.08931v1 )

ライセンス: Link先を確認
Nanna Inie, Jeanette Falk, Steven Tanimoto(参考訳) 生成ai、すなわちテキストプロンプトに基づいて視覚または文字のコンテンツを自動的に生成する技術群は、複雑さの飛躍を遂げ、わずか数年で広く利用可能になった。 このような技術は、創造的な分野に大きな混乱をもたらす可能性がある。 本稿では,創造的プロフェッショナルが生成AIをどのように考えるかについて,質的な調査(N$ = 23)の結果を示す。 その結果、これらのAIモデルの進歩は、創造性を定義するものや、創造者がAIを使ってワークフローをサポートすることを想像する方法について、重要な考察を促している。 これらのリフレクションに基づいて、創造的な専門分野における‘textit{participatory AI}’を設計し、創造的なプロフェッショナルを現在のAIと将来的な共存に力づけることを目的とする方法について論じる。

Generative AI, i.e., the group of technologies that automatically generate visual or written content based on text prompts, has undergone a leap in complexity and become widely available within just a few years. Such technologies potentially introduce a massive disruption to creative fields. This paper presents the results of a qualitative survey ($N$ = 23) investigating how creative professionals think about generative AI. The results show that the advancement of these AI models prompts important reflections on what defines creativity and how creatives imagine using AI to support their workflows. Based on these reflections, we discuss how we might design \textit{participatory AI} in the domain of creative expertise with the goal of empowering creative professionals in their present and future coexistence with AI.
翻訳日:2023-03-17 17:48:33 公開日:2023-03-15
# DeblurSR:スパイク表現の下のイベントベースの動き

DeblurSR: Event-Based Motion Deblurring Under the Spiking Representation ( http://arxiv.org/abs/2303.08977v1 )

ライセンス: Link先を確認
Chen Song, Chandrajit Bajaj, Qixing Huang(参考訳) 本稿では,ぼやけた映像をシャープな映像に変換する新しい動きデブラリング手法であるdeblursrを提案する。 DeblurSRはイベントデータを利用して動きのあいまいさを補償し、スパイキング表現を利用してシャープな出力ビデオを時間から強度へのマッピングとしてパラメータ化する。 私たちの重要な貢献であるスパイキング表現(SR)は、生物において生物学的ニューロンがどのように相互に通信するかを決定する神経型原理にインスパイアされています。 スパイクが鋭いエッジを表現できる理由と、スパイクパラメータがニューロモルフィックな視点からどのように解釈されるかについて議論する。 DeblurSRは出力品質が高く、最先端のイベントベースのモーションデブロア法よりも少ない計算資源を必要とする。 さらに,我々のアプローチは,暗黙的神経表現の最近の進歩と相まって,ビデオの超解像まで容易に拡張できることを示した。 DeblurSRの実装と視覚化はhttps://github.com/chensong1995/DeblurSRで公開されている。

We present DeblurSR, a novel motion deblurring approach that converts a blurry image into a sharp video. DeblurSR utilizes event data to compensate for motion ambiguities and exploits the spiking representation to parameterize the sharp output video as a mapping from time to intensity. Our key contribution, the Spiking Representation (SR), is inspired by the neuromorphic principles determining how biological neurons communicate with each other in living organisms. We discuss why the spikes can represent sharp edges and how the spiking parameters are interpreted from the neuromorphic perspective. DeblurSR has higher output quality and requires fewer computing resources than state-of-the-art event-based motion deblurring methods. We additionally show that our approach easily extends to video super-resolution when combined with recent advances in implicit neural representation. The implementation and animated visualization of DeblurSR are available at https://github.com/chensong1995/DeblurSR.
翻訳日:2023-03-17 17:41:32 公開日:2023-03-15
# 分散アンサンブルの最適制御とブロッホ方程式への応用

Optimal control of distributed ensembles with application to Bloch equations ( http://arxiv.org/abs/2303.08974v1 )

ライセンス: Link先を確認
Roman Chertovskih, Nikolay Pogodaev, Maxim Staritsyn, Antonio Pedro Aguiar(参考訳) 自然摂動の存在下でブロッホ方程式の頑健な合成パルスを設計する問題により,一般非線形性能基準付き確率的条件下での抽象的最適アンサンブル制御問題を考察した。 研究中のモデルは、確率測度の空間における線形連続性方程式によって記述される平均場ダイナミクスを扱う。 結果として得られる最適化問題に対して、我々は、駆動ベクトル場の流れの観点から、コスト汎関数の増大の正確な表現を導出する。 正確なインクリメント公式に依拠して、降下法はいかなる内部線探索も含まないように設計されている。 ブロッホ方程式の分散アンサンブルの新しい制御問題を解くために数値解法を適用した。

Motivated by the problem of designing robust composite pulses for Bloch equations in the presence of natural perturbations, we study an abstract optimal ensemble control problem in a probabilistic setting with a general nonlinear performance criterion. The model under study addresses mean-field dynamics described by a linear continuity equation in the space of probability measures. For the resulting optimization problem, we derive an exact representation of the increment of the cost functional in terms of the flow of the driving vector field. Relying on the exact increment formula, a descent method is designed that is free of any internal line search. The numerical method is applied to solve new control problems for distributed ensembles of Bloch equations.
翻訳日:2023-03-17 17:41:15 公開日:2023-03-15
# 効率的な常時オンモデルのためのゲーテッド圧縮層

Gated Compression Layers for Efficient Always-On Models ( http://arxiv.org/abs/2303.08970v1 )

ライセンス: Link先を確認
Haiguang Li, Trausti Thormundsson, Ivan Poupyrev, Nicholas Gillian(参考訳) モバイルと組み込み機械学習の開発者は、正確さを犠牲にしてモデルを積極的に縮小して専用の低消費電力コア上で動作させるという、2つの劣ったオンデバイスデプロイメント戦略と、ニューラルネットワークユニットやメインアプリケーションプロセッサのようなより強力な計算コア上でより大きなモデルを走らせることで、バッテリーを犠牲にする必要がある。 本稿では,既存のニューラルネットワークアーキテクチャをGated Neural Networksに変換するために適用可能な,新しいGated Compression層を提案する。 Gated Neural Networksには、デバイス上のユースケースに優れた複数の特性があり、消費電力を大幅に削減し、精度を高め、不均一な計算コアを活用する。 提案するゲート圧縮層は, 最大96%の負のサンプルを効果的に停止し, 97%の正のサンプルを圧縮し, モデルの精度を維持し, 向上させる。

Mobile and embedded machine learning developers frequently have to compromise between two inferior on-device deployment strategies: sacrifice accuracy and aggressively shrink their models to run on dedicated low-power cores; or sacrifice battery by running larger models on more powerful compute cores such as neural processing units or the main application processor. In this paper, we propose a novel Gated Compression layer that can be applied to transform existing neural network architectures into Gated Neural Networks. Gated Neural Networks have multiple properties that excel for on-device use cases that help significantly reduce power, boost accuracy, and take advantage of heterogeneous compute cores. We provide results across five public image and audio datasets that demonstrate the proposed Gated Compression layer effectively stops up to 96% of negative samples, compresses 97% of positive samples, while maintaining or improving model accuracy.
翻訳日:2023-03-17 17:41:03 公開日:2023-03-15
# 相対座標は ulam の "trick to the train of thought" にとって重要である。

Relative coordinates are crucial for Ulam's "trick to the train of thought" ( http://arxiv.org/abs/2303.08969v1 )

ライセンス: Link先を確認
Weibo Gong, Chirag S. Trasikar and Bradley Zylstra(参考訳) 空間信号処理アルゴリズムは、しばしば画素位置のラベル付けに事前の座標系を用いる。 これらの処理アルゴリズムは外部参照グリッドによって負担され、相対的固有の特徴の取得が困難になる。 これは動物の視覚や認知とは対照的で、動物は外部の座標系なしで特徴を認識する。 視覚信号処理のための座標系に依存しないアルゴリズムは、動物の視覚だけでなく、概念形成にも重要であることを示す。 本稿では,視覚物体の変形伝達実験から始める。 次に,相対座標との変形不変性を実現するアルゴリズムを定式化する。 論文は、一般的な概念形成への含意で締めくくる。

Spatial signal processing algorithms often use pre-given coordinate systems to label pixel positions. These processing algorithms are thus burdened by an external reference grid, making the acquisition of relative, intrinsic features difficult. This is in contrast to animal vision and cognition: animals recognize features without an external coordinate system. We show that a coordinate system-independent algorithm for visual signal processing is not only important for animal vision, but also fundamental for concept formation. In this paper we start with a visual object deformation transfer experiment. We then formulate an algorithm that achieves deformation-invariance with relative coordinates. The paper concludes with implications for general concept formation.
翻訳日:2023-03-17 17:40:45 公開日:2023-03-15
# 接触暗黙的二レベル最適化によるロバストピボット操作

Robust Pivoting Manipulation using Contact Implicit Bilevel Optimization ( http://arxiv.org/abs/2303.08965v1 )

ライセンス: Link先を確認
Yuki Shirai, Devesh K. Jha, Arvind U. Raghunathan(参考訳) 汎用的な操作は、ロボットが新しい物体や環境と対話できることを必要とする。 この要件は、ロボットが物体と環境の物理的性質の不確実性と複雑な摩擦相互作用を推論する必要があるため、操作を極めて困難にする。 本稿では,不確実性の存在下でのピボット操作計画のためのロバスト最適化について検討する。 操作中の物理特性の推定の不正確さを補うために摩擦をいかに活用できるかについて考察する。 ある種の仮定の下では,ピボット操作時の摩擦による安定性マージンの解析式を導出する。 このマージンは、この安定性マージンを最大化し、オブジェクトのいくつかの物理パラメータの不確実性に対する堅牢性を提供する軌道を最適化するために、コンタクト暗黙の2レベル最適化(cibo)フレームワークで使用される。 基礎となる二値最適化問題に関わるいくつかのパラメータについて,安定性マージンの解析を行った。 提案手法は6自由度マニピュレータを用いて複数の物体を操作する方法である。

Generalizable manipulation requires that robots be able to interact with novel objects and environment. This requirement makes manipulation extremely challenging as a robot has to reason about complex frictional interactions with uncertainty in physical properties of the object and the environment. In this paper, we study robust optimization for planning of pivoting manipulation in the presence of uncertainties. We present insights about how friction can be exploited to compensate for inaccuracies in the estimates of the physical properties during manipulation. Under certain assumptions, we derive analytical expressions for stability margin provided by friction during pivoting manipulation. This margin is then used in a Contact Implicit Bilevel Optimization (CIBO) framework to optimize a trajectory that maximizes this stability margin to provide robustness against uncertainty in several physical parameters of the object. We present analysis of the stability margin with respect to several parameters involved in the underlying bilevel optimization problem. We demonstrate our proposed method using a 6 DoF manipulator for manipulating several different objects.
翻訳日:2023-03-17 17:40:35 公開日:2023-03-15
# CS-TGN:時間グラフニューラルネットワークによるコミュニティ検索

CS-TGN: Community Search via Temporal Graph Neural Networks ( http://arxiv.org/abs/2303.08964v1 )

ライセンス: Link先を確認
Farnoosh Hashemi and Ali Behrouz and Milad Rezaei Hajidehi(参考訳) 地域コミュニティの検索は、パーソナライズされたコミュニティ発見を可能にする重要な研究課題であり、World Wide Web、ソーシャルネットワーク、脳ネットワークなど、様々な複雑なネットワークにおける高度なデータ分析をサポートする。 これらのネットワークの進化は、時間的ネットワーク内の地域コミュニティを特定するための最近の研究の動機となっている。 クエリノードがある場合、Community Searchはクエリノードを含む密結合されたサブグラフを見つけることを目的としている。 しかし,時間的ネットワークにおける既存のコミュニティ検索手法には,(1) 現実のネットワークにおいてこれらのパターンに適合しないコミュニティを見つけることができないような,事前定義されたサブグラフパターンを採用すること,(2) 接続のダイナミックさや時間的特性の欠如など,2つの制限がある。 本稿では,データ駆動型コミュニティから学習することで,フレキシブルなコミュニティ構造を捉えることのできるクエリ駆動型時間グラフ畳み込みネットワーク(CS-TGN)を提案する。 CS-TGNはまず、ローカルなクエリ依存構造とネットワークの各スナップショットにグローバルグラフを埋め込んだ上で、コンテキストを考慮したGRUセルを使用してインタラクションのダイナミクスを学習し、時間とともにノードの埋め込みを更新する。 我々は,このモデルをオンライン環境でインタラクティブなコミュニティ検索にどのように利用することができるかを示す。 接地コミュニティを用いた実世界の時間グラフ実験により,得られた解の優れた品質と,時間的およびインタラクティブな静的設定におけるモデルの有効性が検証された。

Searching for local communities is an important research challenge that allows for personalized community discovery and supports advanced data analysis in various complex networks, such as the World Wide Web, social networks, and brain networks. The evolution of these networks over time has motivated several recent studies to identify local communities in temporal networks. Given any query nodes, Community Search aims to find a densely connected subgraph containing query nodes. However, existing community search approaches in temporal networks have two main limitations: (1) they adopt pre-defined subgraph patterns to model communities, which cannot find communities that do not conform to these patterns in real-world networks, and (2) they only use the aggregation of disjoint structural information to measure quality, missing the dynamic of connections and temporal properties. In this paper, we propose a query-driven Temporal Graph Convolutional Network (CS-TGN) that can capture flexible community structures by learning from the ground-truth communities in a data-driven manner. CS-TGN first combines the local query-dependent structure and the global graph embedding in each snapshot of the network and then uses a GRU cell with contextual attention to learn the dynamics of interactions and update node embeddings over time. We demonstrate how this model can be used for interactive community search in an online setting, allowing users to evaluate the found communities and provide feedback. Experiments on real-world temporal graphs with ground-truth communities validate the superior quality of the solutions obtained and the efficiency of our model in both temporal and interactive static settings.
翻訳日:2023-03-17 17:40:19 公開日:2023-03-15
# 対数論と二状態ベクトル形式論

Counterportation and the two-state vector formalism ( http://arxiv.org/abs/2303.08962v1 )

ライセンス: Link先を確認
Justin Dressel, Gregory Reznik and Lev Vaidman(参考訳) ハティム・サリは、伝送路に粒子が存在しない量子状態の転送方法を発見し、これを逆輸送と名付けた。 最近の[H. Salih, Quantum Sci. Technol. 8, 025016 (2023)]では、実装の実行可能な手順を提示している。 アハラノフとヴァイドマンによるプロトコルの修正は、サリーが採用したものであり、対向輸送中に伝送路に光子が存在しないという主張を正当化している。 しかし、この論文には誤りがあると主張する。 通信チャネルにおける光子の存在に関する2状態ベクトル形式記述の妥当性を疑問視する簡易プロトコルの解析は誤りである。

Hatim Salih discovered a method for transferring a quantum state with no particles present in the transmission channel, which he named counterportation. Recently [H. Salih, Quantum Sci. Technol. 8, 025016 (2023)], he presented a feasible procedure for its implementation. The modification of the protocol by Aharonov and Vaidman, adopted by Salih, justifies the claim that no photons were present in the transmission channel during counterportation. We argue, however, that there is an error in this paper. The analysis of a simplified protocol, which questions the validity of the two-state vector formalism description of the photon presence in the communication channel, is incorrect.
翻訳日:2023-03-17 17:39:51 公開日:2023-03-15
# NESS:静的サブグラフからノード埋め込みを学ぶ

NESS: Learning Node Embeddings from Static SubGraphs ( http://arxiv.org/abs/2303.08958v1 )

ライセンス: Link先を確認
Talip Ucar(参考訳) 本稿では,グラフオートエンコーダ(GAE)を用いて静的サブグラフ(NESS)からノード埋め込みをトランスダクティブに学習するフレームワークを提案する。 また,同じ環境下でのコントラスト学習のための新しい手法を提案する。 我々は,GAEを用いた学習において静的部分グラフを用いることで,グラフ全体あるいは確率部分グラフを用いた現在の自動符号化手法と比較して,リンク予測タスクのノード表現を改善することを示した。 nessは2つのステップからなる。 1)データ前処理中にランダムエッジ分割(RES)を用いてトレーニンググラフをサブグラフに分割する 2) 各サブグラフから学習したノード表現を集約し、テスト時にグラフの合同表現を得る。 実験の結果,NESSは広範囲なグラフエンコーダの性能を向上し,複数のベンチマークデータセットのリンク予測のための最先端(SOTA)結果が得られることがわかった。

We present a framework for learning Node Embeddings from Static Subgraphs (NESS) using a graph autoencoder (GAE) in a transductive setting. Moreover, we propose a novel approach for contrastive learning in the same setting. We demonstrate that using static subgraphs during training with a GAE improves node representation for link prediction tasks compared to current autoencoding methods using the entire graph or stochastic subgraphs. NESS consists of two steps: 1) Partitioning the training graph into subgraphs using random edge split (RES) during data pre-processing, and 2) Aggregating the node representations learned from each subgraph to obtain a joint representation of the graph at test time. Our experiments show that NESS improves the performance of a wide range of graph encoders and achieves state-of-the-art (SOTA) results for link prediction on multiple benchmark datasets.
翻訳日:2023-03-17 17:39:38 公開日:2023-03-15
# AIガバナンスユースケースにおけるデータプライバシ・エンハンシング技術との関連性を探る

Exploring the Relevance of Data Privacy-Enhancing Technologies for AI Governance Use Cases ( http://arxiv.org/abs/2303.08956v1 )

ライセンス: Link先を確認
Emma Bluemke, Tantum Collins, Ben Garfinkel, Andrew Trask(参考訳) プライバシ強化技術の開発は、データ交換と分析におけるプライバシとパフォーマンスの間のトレードオフを減らすために大きな進歩を遂げています。 構造化された透明性のための同様のツールは、外部監視、監査、ソース検証などの機能を提供することで、AIガバナンスに役立ちます。 これらの異なるAIガバナンスの目的を、部分的なソリューションやガバナンスの大きなギャップを避けるために、情報フローのシステムとして見るのが有用である。 システム全体を眺めると、これらの異なるAIガバナンスソリューション間の相互運用性の重要性が明確になります。 したがって、これらの標準、監査手順、ソフトウェア、規範が定着する前に、AIガバナンスにおけるこれらの問題をシステムとして見ていくことが極めて重要である。

The development of privacy-enhancing technologies has made immense progress in reducing trade-offs between privacy and performance in data exchange and analysis. Similar tools for structured transparency could be useful for AI governance by offering capabilities such as external scrutiny, auditing, and source verification. It is useful to view these different AI governance objectives as a system of information flows in order to avoid partial solutions and significant gaps in governance, as there may be significant overlap in the software stacks needed for the AI governance use cases mentioned in this text. When viewing the system as a whole, the importance of interoperability between these different AI governance solutions becomes clear. Therefore, it is imminently important to look at these problems in AI governance as a system, before these standards, auditing procedures, software, and norms settle into place.
翻訳日:2023-03-17 17:39:26 公開日:2023-03-15
# 分散データセンターにおけるハードディスクの大規模寿命予測

Large-scale End-of-Life Prediction of Hard Disks in Distributed Datacenters ( http://arxiv.org/abs/2303.08955v1 )

ライセンス: Link先を確認
Rohan Mohapatra, Austin Coursey and Saptarshi Sengupta(参考訳) データセンターは日常的に、安価なハードディスクの増殖に支えられた大量のデータを処理している。 これらのディスクに格納されたデータは、金融や医療、航空宇宙など、さまざまな重要な機能的ニーズに応える。 したがって、ディスクの早期故障とデータの損失は破滅的になる。 障害のリスクを軽減するため、クラウドストレージプロバイダは条件ベースの監視を行い、障害前にハードディスクを置き換える。 ハードディスクドライブの残りの有用寿命を推定することにより、特定の装置の故障を予測し、適切なタイミングで置き換えることができ、運用コストを削減しつつ最大限の利用を確保することができる。 本研究は,カスタマイズされた特徴工学とシーケンス学習者のスイートを組み込んで,重度に歪んだ健康統計データを用いて大規模予測分析を行う。 過去の研究は、LSTMを有用な生活を予測するための優れたアプローチとして用いていることを示唆している。 この目的のために,健康統計系列の理解から得られたコンテキストをエンコーダ・デコーダLSTMモデルを用いて,ディスクが故障する可能性のある日数の出力シーケンスを予測する。 この研究で開発されたモデルは、Backblazeおよび様々なディスクインスタンスから循環したS.M.A.R.T.の10年間の健康データ全体にわたって訓練され、テストされる。 それは、何千ものデバイスで本格的なトレーニングが達成するものに関する知識ギャップを埋め、ディスクメーカー全体にわたって流通しているあらゆる年次健康データにワークフローを拡張しようとする実践者に対して、評価と一般化のための具体的な指標を提供することによって、最先端技術を推進する。 エンコーダ・デコーダLSTMは、RMSEの0.83を、他のシーゲートファミリーのハードドライブに競争力を持たせながら、徹底したセットに投稿した。

On a daily basis, data centers process huge volumes of data backed by the proliferation of inexpensive hard disks. Data stored in these disks serve a range of critical functional needs from financial, and healthcare to aerospace. As such, premature disk failure and consequent loss of data can be catastrophic. To mitigate the risk of failures, cloud storage providers perform condition-based monitoring and replace hard disks before they fail. By estimating the remaining useful life of hard disk drives, one can predict the time-to-failure of a particular device and replace it at the right time, ensuring maximum utilization whilst reducing operational costs. In this work, large-scale predictive analyses are performed using severely skewed health statistics data by incorporating customized feature engineering and a suite of sequence learners. Past work suggests using LSTMs as an excellent approach to predicting remaining useful life. To this end, we present an encoder-decoder LSTM model where the context gained from understanding health statistics sequences aid in predicting an output sequence of the number of days remaining before a disk potentially fails. The models developed in this work are trained and tested across an exhaustive set of all of the 10 years of S.M.A.R.T. health data in circulation from Backblaze and on a wide variety of disk instances. It closes the knowledge gap on what full-scale training achieves on thousands of devices and advances the state-of-the-art by providing tangible metrics for evaluation and generalization for practitioners looking to extend their workflow to all years of health data in circulation across disk manufacturers. The encoder-decoder LSTM posted an RMSE of 0.83 on an exhaustive set while being able to generalize competitively over the other Seagate family hard drives.
翻訳日:2023-03-17 17:39:13 公開日:2023-03-15
# 時間領域シミュレーションのための物理形ニューラルネットワーク : 精度、計算コスト、柔軟性

Physics-Informed Neural Networks for Time-Domain Simulations: Accuracy, Computational Cost, and Flexibility ( http://arxiv.org/abs/2303.08994v1 )

ライセンス: Link先を確認
Jochen Stiasny and Spyros Chatzivasileiadis(参考訳) 電力系統のダイナミクスのシミュレーションは計算コストの高いタスクをもたらす。 発電と需要パターンの不確実性の増加を考慮すると、電力システムの安全性を確保するために数千のシナリオを継続的に評価する必要がある。 物理インフォームドニューラルネットワーク(PINN)は,非線形力学系の計算を劇的に高速化する,有望なソリューションとして最近登場した。 本研究では,負荷変動に対する動的応答に着目し,これらの手法の適用性を検討した。 従来の解法と比較して, PINNは従来の解法に比べて10倍から1000倍高速であることがわかった。 同時に,大規模なステップでも十分に正確で数値的に安定であることが判明した。 そこで本研究では,損失関数に勾配に基づく項を導入することにより,ニューラルネットワーク(NN)トレーニングの新たな正規化を提案する。 dtNNと呼ばれる結果のNNは、NNベースのアプローチの長所と短所に関する包括的な分析、基礎となる物理学の知識がNNのパフォーマンスにどのように影響するか、そしてこれが従来の電力系統力学の解法と比較するのに役立つ。

The simulation of power system dynamics poses a computationally expensive task. Considering the growing uncertainty of generation and demand patterns, thousands of scenarios need to be continuously assessed to ensure the safety of power systems. Physics-Informed Neural Networks (PINNs) have recently emerged as a promising solution for drastically accelerating computations of non-linear dynamical systems. This work investigates the applicability of these methods for power system dynamics, focusing on the dynamic response to load disturbances. Comparing the prediction of PINNs to the solution of conventional solvers, we find that PINNs can be 10 to 1000 times faster than conventional solvers. At the same time, we find them to be sufficiently accurate and numerically stable even for large time steps. To facilitate a deeper understanding, this paper also presents a new regularisation of Neural Network (NN) training by introducing a gradient-based term in the loss function. The resulting NNs, which we call dtNNs, help us deliver a comprehensive analysis about the strengths and weaknesses of the NN based approaches, how incorporating knowledge of the underlying physics affects NN performance, and how this compares with conventional solvers for power system dynamics.
翻訳日:2023-03-17 17:32:58 公開日:2023-03-15
# エルゴード量子過程における大数の法則と中心極限定理

Law of large numbers and central limit theorem for ergodic quantum processes ( http://arxiv.org/abs/2303.08992v1 )

ライセンス: Link先を確認
Lubashan Pathirana and Jeffrey Schenker(参考訳) 離散量子過程は一連の量子演算によって表され、それは必ずしもトレース保存ではない完全正の写像である。 ノイズを伴う量子演算の繰り返しによって得られる量子過程について考察する。 このようなエルゴード量子過程は独立量子過程を一般化する。 そのような過程の一般クラスに対する平衡収束を記述するエルゴードの定理は、Movassagh と Schenker によって最近得られた。 既約条件と混合条件の下で、エルゴード極限の周りのゆらぎを記述する中心極限型定理を得る。

A discrete quantum process is represented by a sequence of quantum operations, which are completely positive maps that are not necessarily trace preserving. We consider quantum processes that are obtained by repeated iterations of a quantum operation with noise. Such ergodic quantum processes generalize independent quantum processes. An ergodic theorem describing convergence to equilibrium for a general class of such processes was recently obtained by Movassagh and Schenker. Under irreducibility and mixing conditions, we obtain a central limit type theorem describing fluctuations around the ergodic limit.
翻訳日:2023-03-17 17:32:38 公開日:2023-03-15
# DeltaScore: 異なる摂動によるストーリ生成の評価

DeltaScore: Evaluating Story Generation with Differentiating Perturbations ( http://arxiv.org/abs/2303.08991v1 )

ライセンス: Link先を確認
Zhuohan Xie, Miao Li, Trevor Cohn and Jey Han Lau(参考訳) 自然言語生成タスクには様々な評価指標が存在するが、一般に人間の判断とよく相関せず、全体の生成品質を評価することを目的としているため、流感や関連性などのきめ細かいストーリーの側面を計測しないため、ストーリー生成には限界がある。 本稿では,きめ細かなストーリーの側面を評価するために摂動を利用したアプローチであるdeltascoreを提案する。 私たちの中核的な考え方は、ストーリーが特定の側面(例えば、流感)でより良く働くと、それが特定の摂動(例えば、タイポの導入)に影響されるという仮説に基づいている。 影響を測定するために,言語モデルを用いて,事前摂動と後摂動の確率差を算出する。 複数のストーリードメインにまたがる最先端のモデルベースおよび従来の類似度に基づくメトリクスに対するデルタスコアの評価を行い、その5つのきめ細かなストーリーの側面における人間の判断との相関について検討した。 その結果, デルタスコアは微粒なストーリー面の評価に優れており, 特定の摂動が多くの面の計測に極めて有効であることがわかった。

Various evaluation metrics exist for natural language generation tasks, but they have limited utility for story generation since they generally do not correlate well with human judgments and do not measure fine-grained story aspects, such as fluency versus relatedness, as they are intended to assess overall generation quality. In this paper, we propose deltascore, an approach that utilizes perturbation to evaluate fine-grained story aspects. Our core idea is based on the hypothesis that the better the story performs in a specific aspect (e.g., fluency), the more it will be affected by a particular perturbation (e.g., introducing typos). To measure the impact, we calculate the likelihood difference between the pre- and post-perturbation stories using a language model. We evaluate deltascore against state-of-the-art model-based and traditional similarity-based metrics across multiple story domains, and investigate its correlation with human judgments on five fine-grained story aspects: fluency, coherence, relatedness, logicality, and interestingness. Our results demonstrate that deltascore performs impressively in evaluating fine-grained story aspects, and we discovered a striking outcome where a specific perturbation appears to be highly effective in measuring most aspects.
翻訳日:2023-03-17 17:32:30 公開日:2023-03-15
# テンソルコア上のSGEMMエミュレーションによる量子回路シミュレーションと自動精密選択

Quantum Circuit Simulation by SGEMM Emulation on Tensor Cores and Automatic Precision Selection ( http://arxiv.org/abs/2303.08989v1 )

ライセンス: Link先を確認
Hiryuki Ootomo, Hidetaka Manabe, Kenji Harada, Rio Yokota(参考訳) 量子回路シミュレーションは、量子アルゴリズムの開発と量子超越性の検証の基礎を提供する。 量子回路シミュレーションの様々な方法のうち、テンソルネットワークの縮小は、より多くの量子ビットをシミュレートする能力により、人気が高まっている。 テンソル収縮中、入力テンソルは行列に変換され、GEMM演算によって計算される。 GEMMスループットはTensor Coresのような混合精度のハードウェアを利用することで向上できるが、実装が簡単で、深い量子回路や大規模な量子回路では不十分である。 TF32 や FP16 Tensor Core を用いても、ラウンドモードを特別に扱った補償和が、SGEMM の FP32 精度を完全に回復できることを示した。 このような手法を量子回路シミュレーションに適用する場合、指数範囲は重要な問題である。 TF32はFP32とほぼ同じ指数域をサポートしているが、FP16はより小さい指数域をサポートしている。 本研究では、入力テンソル要素の指数範囲統計を用いて、GEMMに使用するテンソルコアを選択する。 我々は,Sycamoreの量子回路を含むランダム回路サンプリング(RCS)において,スループットが精度を維持しながら最大1.86倍であることを示す。

Quantum circuit simulation provides the foundation for the development of quantum algorithms and the verification of quantum supremacy. Among the various methods for quantum circuit simulation, tensor network contraction has been increasing in popularity due to its ability to simulate a larger number of qubits. During tensor contraction, the input tensors are reshaped to matrices and computed by a GEMM operation, where these GEMM operations could reach up to 90\% of the total calculation time. GEMM throughput can be improved by utilizing mixed-precision hardware such as Tensor Cores, but straightforward implementation results in insufficient fidelity for deep and large quantum circuits. Prior work has demonstrated that compensated summation with special care of the rounding mode can fully recover the FP32 precision of SGEMM even when using TF32 or FP16 Tensor Cores. The exponent range is a critical issue when applying such techniques to quantum circuit simulation. While TF32 supports almost the same exponent range as FP32, FP16 supports a much smaller exponent range. In this work, we use the exponent range statistics of input tensor elements to select which Tensor Cores we use for the GEMM. We evaluate our method on Random Circuit Sampling (RCS), including Sycamore's quantum circuit, and show that the throughput is 1.86 times higher at maximum while maintaining accuracy.
翻訳日:2023-03-17 17:32:06 公開日:2023-03-15
# RMT-SVDによるDeep Learning Weight Pruning: 精度の向上とオーバーフィッティングの削減

Deep Learning Weight Pruning with RMT-SVD: Increasing Accuracy and Reducing Overfitting ( http://arxiv.org/abs/2303.08986v1 )

ライセンス: Link先を確認
Yitzchak Shmalo, Jonathan Jenkins, Oleksii Krupchytskyi(参考訳) 本研究では,ニューラルネットワークの学習におけるランダム行列理論の応用について述べる。 近年,確率行列理論(RMT)が深層学習における過適合問題に適用されている。 具体的には、深部ニューラルネットワーク(DNN)の重み層のスペクトルをRTTの手法を用いて研究し、理解できることが示されている。 この研究では、これらのRTT技術を用いて、トレーニング中にDNNの重み付け層からどれだけの特異値を取り除くべきかを、特異値分解(SVD)によって決定し、オーバーフィッティングの低減と精度の向上を図る。 MNISTで訓練した単純なDNNモデルについて,その結果を示す。 一般に、これらの手法は、事前訓練されたDNNの任意の全接続層に適用され、DNNの保存と時には精度の向上を図りながら、レイヤー内のパラメータの数を減らすことができる。

In this work, we present some applications of random matrix theory for the training of deep neural networks. Recently, random matrix theory (RMT) has been applied to the overfitting problem in deep learning. Specifically, it has been shown that the spectrum of the weight layers of a deep neural network (DNN) can be studied and understood using techniques from RMT. In this work, these RMT techniques will be used to determine which and how many singular values should be removed from the weight layers of a DNN during training, via singular value decomposition (SVD), so as to reduce overfitting and increase accuracy. We show the results on a simple DNN model trained on MNIST. In general, these techniques may be applied to any fully connected layer of a pretrained DNN to reduce the number of parameters in the layer while preserving and sometimes increasing the accuracy of the DNN.
翻訳日:2023-03-17 17:31:45 公開日:2023-03-15
# スペイン語におけるクロスドメイン感性分類

Cross-domain Sentiment Classification in Spanish ( http://arxiv.org/abs/2303.08985v1 )

ライセンス: Link先を確認
Lautaro Estienne, Matias Vera, Leonardo Rey Vega(参考訳) 感性分類は自然言語処理の分野における基本的な課題であり、非常に重要な学術的・商業的応用を持っている。 それは、製品や映画レビュー、ツイートなど、あるレベルで意見や主観性を含むテキストに存在する感情の程度を自動的に予測することを目的としている。 テキストの異なる領域には、異なる単語や表現が含まれているため、これを実現するのは非常に難しいのです。 さらに、データベースやリソースが不足しているため、英語以外の言語でテキストを書くと、この難しさが増す。 その結果、いくつかのクロスドメインおよびクロス言語技術がこの課題に応用され、結果が改善される。 本研究では,製品レビューの大規模なデータベースを用いて,スペインの異なる領域に一般化する分類システムの能力について検討する。 レビューは7つのラテンアメリカ諸国からmercadolibreのウェブサイトから集められ、大規模でバランスの取れたデータセットの作成を可能にした。 以上の結果から,これらの製品レビューをトレーニングする場合,ドメイン間の一般化は極めて困難であり,事前学習や分類モデルの微調整によって改善可能であることが示唆された。

Sentiment Classification is a fundamental task in the field of Natural Language Processing, and has very important academic and commercial applications. It aims to automatically predict the degree of sentiment present in a text that contains opinions and subjectivity at some level, like product and movie reviews, or tweets. This can be really difficult to accomplish, in part, because different domains of text contains different words and expressions. In addition, this difficulty increases when text is written in a non-English language due to the lack of databases and resources. As a consequence, several cross-domain and cross-language techniques are often applied to this task in order to improve the results. In this work we perform a study on the ability of a classification system trained with a large database of product reviews to generalize to different Spanish domains. Reviews were collected from the MercadoLibre website from seven Latin American countries, allowing the creation of a large and balanced dataset. Results suggest that generalization across domains is feasible though very challenging when trained with these product reviews, and can be improved by pre-training and fine-tuning the classification model.
翻訳日:2023-03-17 17:31:31 公開日:2023-03-15
# ロジスティックLASSO回帰を用いた粒子加速器中断予測

Forecasting Particle Accelerator Interruptions Using Logistic LASSO Regression ( http://arxiv.org/abs/2303.08984v1 )

ライセンス: Link先を確認
Sichen Li, Jochem Snuverink, Fernando Perez-Cruz, Andreas Adelmann(参考訳) インターロックと呼ばれる予期せぬ粒子加速器の割り込みは、必要な安全対策にもかかわらず、突然の運用変更を引き起こす。 これにより、ビームタイムが大幅に減少し、おそらく機器の損傷も生じる。 我々は,paul scherrer institutの高強度陽子加速器複合体において,そのような中断を予測することを目的とした,単純かつ強力なバイナリ分類モデルを提案する。 このモデルは、加速器の不安定状態と安定状態を区別するための統計的2つのサンプルテストに基づいて、最小絶対収縮と選択演算子によってペナルティ化されたロジスティック回帰として定式化されている。 インターロック前にアラームを受信する主な目的は、対策とビーム時間損失の低減である。 これにより、ビーム電流を減少させることでインターロックを回避できるという仮定から、任意の期間における保存ビーム時間を測定するための連続評価指標が開発される。 最高性能のインターロック安定分類器は、ビーム時間を1日に約5分増加させることができる。 ビーム電流の高速調整のための可能な計測器もリストアップして議論する。

Unforeseen particle accelerator interruptions, also known as interlocks, lead to abrupt operational changes despite being necessary safety measures. These may result in substantial loss of beam time and perhaps even equipment damage. We propose a simple yet powerful binary classification model aiming to forecast such interruptions, in the case of the High Intensity Proton Accelerator complex at the Paul Scherrer Institut. The model is formulated as logistic regression penalized by least absolute shrinkage and selection operator, based on a statistical two sample test to distinguish between unstable and stable states of the accelerator. The primary objective for receiving alarms prior to interlocks is to allow for countermeasures and reduce beam time loss. Hence, a continuous evaluation metric is developed to measure the saved beam time in any period, given the assumption that interlocks could be circumvented by reducing the beam current. The best-performing interlock-to-stable classifier can potentially increase the beam time by around 5 min in a day. Possible instrumentation for fast adjustment of the beam current is also listed and discussed.
翻訳日:2023-03-17 17:31:13 公開日:2023-03-15
# 強化データと乗算影響: モデル精度の向上とデータセット強化によるロバスト性

Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness with Dataset Reinforcement ( http://arxiv.org/abs/2303.08983v1 )

ライセンス: Link先を確認
Fartash Faghri, Hadi Pouransari, Sachin Mehta, Mehrdad Farajtabar, Ali Farhadi, Mohammad Rastegari, Oncel Tuzel(参考訳) 我々は,強化データセット上でトレーニングされたモデルアーキテクチャの精度を,ユーザにとって追加のトレーニングコストなしで向上させるように,データセットを改善するための戦略であるデータセット強化を提案する。 本稿では,データ拡張と知識蒸留に基づくデータセット強化戦略を提案する。 提案手法は,CNNモデルおよびトランスフォーマーモデルにまたがる広範囲な解析に基づいて設計され,各種データ拡張を伴う最先端モデルによる蒸留の大規模研究を行う。 ImageNet+と呼ばれるImageNetトレーニングデータセットの強化バージョンと、強化データセットCIFAR-100+、Flowers-102+、Food-101+を作成します。 ImageNet+でトレーニングされたモデルはより正確で堅牢で校正され、下流のタスク(セグメンテーションや検出など)にうまく転送される。 例えば、ResNet-50の精度はImageNet検証セットで1.7%、ImageNetV2で3.5%、ImageNet-Rで10.0%向上している。 ImageNet検証セットのキャリブレーションエラー(ECE)も9.9%削減された。 このバックボーンをMask-RCNNでMS-COCOの物体検出に使用すると、平均精度は0.8%向上する。 MobileNets、ViTs、Swin-Transformersも同様に伸びています。 MobileNetV3とSwin-Tinyでは、ImageNet-R/A/Cの大幅な改善を最大10%改善した。 ImageNet+で事前訓練され、CIFAR-100+、Flowers-102+、Food-101+で微調整されたモデルでは、精度が3.4%向上した。

We propose Dataset Reinforcement, a strategy to improve a dataset once such that the accuracy of any model architecture trained on the reinforced dataset is improved at no additional training cost for users. We propose a Dataset Reinforcement strategy based on data augmentation and knowledge distillation. Our generic strategy is designed based on extensive analysis across CNN- and transformer-based models and performing large-scale study of distillation with state-of-the-art models with various data augmentations. We create a reinforced version of the ImageNet training dataset, called ImageNet+, as well as reinforced datasets CIFAR-100+, Flowers-102+, and Food-101+. Models trained with ImageNet+ are more accurate, robust, and calibrated, and transfer well to downstream tasks (e.g., segmentation and detection). As an example, the accuracy of ResNet-50 improves by 1.7% on the ImageNet validation set, 3.5% on ImageNetV2, and 10.0% on ImageNet-R. Expected Calibration Error (ECE) on the ImageNet validation set is also reduced by 9.9%. Using this backbone with Mask-RCNN for object detection on MS-COCO, the mean average precision improves by 0.8%. We reach similar gains for MobileNets, ViTs, and Swin-Transformers. For MobileNetV3 and Swin-Tiny we observe significant improvements on ImageNet-R/A/C of up to 10% improved robustness. Models pretrained on ImageNet+ and fine-tuned on CIFAR-100+, Flowers-102+, and Food-101+, reach up to 3.4% improved accuracy.
翻訳日:2023-03-17 17:30:55 公開日:2023-03-15
# オープン量子システムの非摂動シミュレーションのための環境の系統的粗粒化

Systematic coarse-graining of environments for the non-perturbative simulation of open quantum systems ( http://arxiv.org/abs/2303.08982v1 )

ライセンス: Link先を確認
Nicola Lorenzoni, Namgee Cho, James Lim, Dario Tamascelli, Susana F. Huelga, Martin B. Plenio(参考訳) 生体分子系の電子振動力学の数値的な記述は、多くの必要な振動モードのために重要な課題を示し、近似の使用を必要とする。 本研究では,モノマー吸収スペクトルに基づく全電子振動結合強度の保存や試験精度などの粗粒環境の基準が,マルチクロモフォリック系における光学応答を正確に記述していないことを示す。 この問題に対処するため,光コヒーレンスの有限寿命を利用して,吸収スペクトルを正確に再現する有効なフォノンスペクトル密度を構築する手法を開発した。 本手法は,非摂動法に関連する計算コストを低減し,完全な環境変動下での光応答のシミュレーションを可能にする。 本手法の有効性を実証するために, 実験により決定した環境スペクトル密度を用いて, モデルマルチクロモフォリックシステムfenna-matthews-olson複合体全体の吸収スペクトルをシミュレートする。

The numerical description of the electron-vibrational dynamics of bio-molecular systems presents significant challenges due to the numerous required vibrational modes, necessitating the use of approximations. In this study, we demonstrate that conventional criteria for coarse-grained environments, such as conserving total electronic-vibrational coupling strength and testing accuracy based on monomer absorption spectra, do not accurately describe optical responses in multi-chromophoric systems. To address this issue, we develop a method that leverages the finite lifetime of optical coherences to construct effective phonon spectral densities that precisely reproduce absorption spectra. Our approach reduces computational costs associated with non-perturbative methods and enables simulation of optical responses under full environmental fluctuations. To demonstrate the efficacy of our method, we apply it to simulate the absorption spectrum of the entire Fenna-Matthews-Olson complex, a model multi-chromophoric system, using an experimentally determined environmental spectral density.
翻訳日:2023-03-17 17:30:28 公開日:2023-03-15
# サンプルごとの不確かさと一貫性の探索による半教師付きアクティブ学習

Active Semi-Supervised Learning by Exploring Per-Sample Uncertainty and Consistency ( http://arxiv.org/abs/2303.08978v1 )

ライセンス: Link先を確認
Jaeseung Lim, Jongkeun Na, Nojun Kwak(参考訳) アクティブラーニング(al)とセミ教師付きラーニング(semi-supervised learning)は、少量のラベル付きデータと大量のラベル付きデータを使用することで、ディープラーニングのコストを下げるために研究されている2つの手法である。 低コストでモデルの精度を向上させるため,ALとSSLを組み合わせたActive Semi-supervised Learning(ASSL)手法を提案する。 ALとSSLのシナジーを最大化するために、ASSLとALの違いに注目した。 ASSLは、トレーニングプロセスにおけるラベルなしデータの使用により、ALよりもダイナミックなモデル更新が伴うため、ラベルなしデータの予測確率の時間的不安定が生じる。 これにより、ASSLにおけるラベルなしデータの真の不確実性を決定するのが難しくなる。 そこで我々は, 指数移動平均 (EMA) や高信頼境界 (UCB) などの手法を用いて強化学習を行った。 さらに,教師なし学習におけるラベル雑音の影響を,弱みと強みの強化ペアを用いて解析した。 不確実性とデータ一貫性の両方を考慮することで、提案するassl法で使用されたデータサンプルを得た。 実験の結果,ASSLはSSLよりも計算効率が約5.3倍向上し,その性能は最先端AL法よりも優れていた。

Active Learning (AL) and Semi-supervised Learning are two techniques that have been studied to reduce the high cost of deep learning by using a small amount of labeled data and a large amount of unlabeled data. To improve the accuracy of models at a lower cost, we propose a method called Active Semi-supervised Learning (ASSL), which combines AL and SSL. To maximize the synergy between AL and SSL, we focused on the differences between ASSL and AL. ASSL involves more dynamic model updates than AL due to the use of unlabeled data in the training process, resulting in the temporal instability of the predicted probabilities of the unlabeled data. This makes it difficult to determine the true uncertainty of the unlabeled data in ASSL. To address this, we adopted techniques such as exponential moving average (EMA) and upper confidence bound (UCB) used in reinforcement learning. Additionally, we analyzed the effect of label noise on unsupervised learning by using weak and strong augmentation pairs to address datainconsistency. By considering both uncertainty and datainconsistency, we acquired data samples that were used in the proposed ASSL method. Our experiments showed that ASSL achieved about 5.3 times higher computational efficiency than SSL while achieving the same performance, and it outperformed the state-of-the-art AL method.
翻訳日:2023-03-17 17:30:09 公開日:2023-03-15
# 非対称受容場における高速高精度物体検出

Fast and Accurate Object Detection on Asymmetrical Receptive Field ( http://arxiv.org/abs/2303.08995v1 )

ライセンス: Link先を確認
Liguo Zhou, Tianhao Lin, Alois Knoll(参考訳) 物体検出は幅広い産業で使われている。 例えば、自動運転では、オブジェクト検出のタスクは、道路のビデオから、事前定義された多数のオブジェクトインスタンスのクラス(車両、歩行者、交通標識など)を、正確かつ効率的に識別し、特定することである。 ロボット工学では、産業ロボットは特定の機械要素を認識する必要がある。 セキュリティ分野では、カメラは人の顔を正確に認識する必要がある。 ディープラーニングの幅広い応用により、オブジェクト検出の精度と効率は大幅に改善されたが、ディープラーニングに基づくオブジェクト検出は依然として課題に直面している。 オブジェクト検出の異なるアプリケーションには、高精度な検出、複数カテゴリのオブジェクト検出、リアルタイム検出、閉塞に対する堅牢性など、さまざまな要件がある。 以上の課題に対処するため,本研究では,一段階および二段階のオブジェクト検出アルゴリズムの進化の観点から,主流オブジェクト検出アルゴリズムの改良と最適化を行う手法について分析する。 さらに,物体検出の精度を受容場の変化の観点から向上させる手法を提案する。 新モデルはオリジナルのYOLOv5(You Look Only Once)をベースとしている。 ヨロフ5の頭部部の構造は、非対称なプーリング層を追加することで変化する。 その結果、アルゴリズムの精度が向上し、速度が確保される。 本稿では, 従来の YOLOv5 モデルと比較し, いくつかのパラメータから解析する。 そして,新しいモデルの評価を4つの状況で示す。 さらに、解決すべき課題と今後の研究の方向性について概要と展望を述べる。

Object detection has been used in a wide range of industries. For example, in autonomous driving, the task of object detection is to accurately and efficiently identify and locate a large number of predefined classes of object instances (vehicles, pedestrians, traffic signs, etc.) from videos of roads. In robotics, the industry robot needs to recognize specific machine elements. In the security field, the camera should accurately recognize each face of people. With the wide application of deep learning, the accuracy and efficiency of object detection have been greatly improved, but object detection based on deep learning still faces challenges. Different applications of object detection have different requirements, including highly accurate detection, multi-category object detection, real-time detection, robustness to occlusions, etc. To address the above challenges, based on extensive literature research, this paper analyzes methods for improving and optimizing mainstream object detection algorithms from the perspective of evolution of one-stage and two-stage object detection algorithms. Furthermore, this article proposes methods for improving object detection accuracy from the perspective of changing receptive fields. The new model is based on the original YOLOv5 (You Look Only Once) with some modifications. The structure of the head part of YOLOv5 is modified by adding asymmetrical pooling layers. As a result, the accuracy of the algorithm is improved while ensuring the speed. The performances of the new model in this article are compared with original YOLOv5 model and analyzed from several parameters. And the evaluation of the new model is presented in four situations. Moreover, the summary and outlooks are made on the problems to be solved and the research directions in the future.
翻訳日:2023-03-17 17:20:27 公開日:2023-03-15
# 生成AIの著作権保護と説明責任:アタック、透かしおよび属性

Copyright Protection and Accountability of Generative AI:Attack, Watermarking and Attribution ( http://arxiv.org/abs/2303.09272v1 )

ライセンス: Link先を確認
Haonan Zhong, Jiamin Chang, Ziyue Yang, Tingmin Wu, Pathum Chamikara Mahawaga Arachchige, Chehara Pathmabandu, Minhui Xue(参考訳) 生成型ai(例えば、生成型adversarial networks - gans)は近年ますます人気が高まっている。 しかし、生成aiは、画像(有毒画像)とモデル(有毒モデル)に関連する知的財産権(ipr)の保護(resp. model accountability)に関する重要な懸念を提起する。 本稿では,gansの著作権保護対策の現状を総合的に概観し,様々なganアーキテクチャにおけるその性能を評価し,その性能と今後の研究方向性に影響を与える要因を明らかにするための評価枠組みを提案する。 以上の結果から,入力画像,モデル透かし,帰属ネットワークに対する現在のITP保護法は,広範囲のGANに対してほぼ十分であることがわかった。 現在のアプローチでは、トレーニングセットに対する堅牢なIPR保護とプロファイランストレースが提供できないため、トレーニングセットの保護に向けてさらなる注意を払わなければならない。

Generative AI (e.g., Generative Adversarial Networks - GANs) has become increasingly popular in recent years. However, Generative AI introduces significant concerns regarding the protection of Intellectual Property Rights (IPR) (resp. model accountability) pertaining to images (resp. toxic images) and models (resp. poisoned models) generated. In this paper, we propose an evaluation framework to provide a comprehensive overview of the current state of the copyright protection measures for GANs, evaluate their performance across a diverse range of GAN architectures, and identify the factors that affect their performance and future research directions. Our findings indicate that the current IPR protection methods for input images, model watermarking, and attribution networks are largely satisfactory for a wide range of GANs. We highlight that further attention must be directed towards protecting training sets, as the current approaches fail to provide robust IPR protection and provenance tracing on training sets.
翻訳日:2023-03-17 15:42:23 公開日:2023-03-15
# デザイン多様性を用いた深層学習における自然画像破損に対するレジリエンスの検討

Exploring Resiliency to Natural Image Corruptions in Deep Learning using Design Diversity ( http://arxiv.org/abs/2303.09283v1 )

ライセンス: Link先を確認
Rafael Rosales, Pablo Munoz, Michael Paulitsch(参考訳) 本稿では,Deep Learning (DL) 画像分類器アンサンブルの自然画像劣化に対する多様性指標,精度,レジリエンスの関係について検討する。 帰属に基づく多様性指標の可能性を検証し、典型的な予測に基づく多様性の既知の精度・多様性トレードオフを改善する。 我々のモチベーションは設計の多様性の分析研究に基づいており、設計選択の多様性が達成されれば、共通の失敗モードの削減が可能であることを示した。 比較ベースラインとしてresnet50を用いて、自然画像の破損に対応するデータセットの分散シフトに対する複数のdlモデルアーキテクチャのレジリエンスを評価する。 学習したモデルアーキテクチャを用いて作成したアンサンブルとニューラルネットワークによる探索手法を比較し,最終アンサンブル精度に対する予測に基づく多様性と帰属に基づく多様性の相関性を評価する。 負相関学習に基づく一連の多様性強制ヒューリスティックスを評価し,自然画像破壊に対する最終アンサンブルレジリエンスを評価し,その結果の予測,活性化,帰属多様性を検証した。 私たちの重要な観察は 1) モデルアーキテクチャは,モデルサイズやモデルの精度よりもレジリエンスに重要である。 2)帰属に基づく多様性は,予測に基づく多様性よりもアンサンブル精度に負の相関が小さい。 3)個人とアンサンブルのバランスのとれた損失関数は,画像の自然破壊に対してよりレジリエントなアンサンブルを生成する。 4) アーキテクチャの多様性は、予測、帰属、アクティベーションといった、調査対象の多様性メトリクスすべてにおいて、より多くの多様性を生み出します。

In this paper, we investigate the relationship between diversity metrics, accuracy, and resiliency to natural image corruptions of Deep Learning (DL) image classifier ensembles. We investigate the potential of an attribution-based diversity metric to improve the known accuracy-diversity trade-off of the typical prediction-based diversity. Our motivation is based on analytical studies of design diversity that have shown that a reduction of common failure modes is possible if diversity of design choices is achieved. Using ResNet50 as a comparison baseline, we evaluate the resiliency of multiple individual DL model architectures against dataset distribution shifts corresponding to natural image corruptions. We compare ensembles created with diverse model architectures trained either independently or through a Neural Architecture Search technique and evaluate the correlation of prediction-based and attribution-based diversity to the final ensemble accuracy. We evaluate a set of diversity enforcement heuristics based on negative correlation learning to assess the final ensemble resilience to natural image corruptions and inspect the resulting prediction, activation, and attribution diversity. Our key observations are: 1) model architecture is more important for resiliency than model size or model accuracy, 2) attribution-based diversity is less negatively correlated to the ensemble accuracy than prediction-based diversity, 3) a balanced loss function of individual and ensemble accuracy creates more resilient ensembles for image natural corruptions, 4) architecture diversity produces more diversity in all explored diversity metrics: predictions, attributions, and activations.
翻訳日:2023-03-17 15:31:06 公開日:2023-03-15
# SpaceFormer:Few-Shot Learningのためのセマンティックおよびターゲットアウェアアテンション

SpatialFormer: Semantic and Target Aware Attentions for Few-Shot Learning ( http://arxiv.org/abs/2303.09281v1 )

ライセンス: Link先を確認
Jinxiang Lai, Siqian Yang, Wenlong Wu, Tao Wu, Guannan Jiang, Xi Wang, Jun Liu, Bin-Bin Gao, Wei Zhang, Yuan Xie, Chengjie Wang(参考訳) 最近のFSL(Few-Shot Learning)手法は,サポートセットとクエリセットの類似性を正確に測定するために,識別的埋め込み機能の生成に重点を置いている。 現在のCNNベースのクロスアテンションアプローチは、サポートとクエリペアの相互意味的な類似領域を強化することによって差別表現を生成する。 しかし、CNN構造は局所的な特徴に基づいて不正確な注意マップを生成し、相互に類似した背景が混乱を引き起こす。 これらの問題を解決するために,より正確な注意領域を生成する新しい空間フォーマ構造を設計した。 従来のTransformerモデリングのインスタンスレベルの類似性とは違い、SpatialFormerでは、ペア入力間のセマンティックレベルの類似性を調べてパフォーマンスを向上させる。 次に,SpatialFormer Semantic Attention (SFSA) とSpatialFormer Target Attention (SFTA) という2つの特定の注意モジュールを導出し,背景の歪みを低減しつつ対象領域を拡大する。 特に、SFSAは、ペア特徴間の同じ意味情報を持つ領域を強調し、SFTAは、ベースカテゴリに類似した新しい特徴の潜在的前景オブジェクト領域を見つける。 広範な実験により,本手法は実効性を示し,マイトショット分類ベンチマークで最新の結果を得ることができた。

Recent Few-Shot Learning (FSL) methods put emphasis on generating a discriminative embedding features to precisely measure the similarity between support and query sets. Current CNN-based cross-attention approaches generate discriminative representations via enhancing the mutually semantic similar regions of support and query pairs. However, it suffers from two problems: CNN structure produces inaccurate attention map based on local features, and mutually similar backgrounds cause distraction. To alleviate these problems, we design a novel SpatialFormer structure to generate more accurate attention regions based on global features. Different from the traditional Transformer modeling intrinsic instance-level similarity which causes accuracy degradation in FSL, our SpatialFormer explores the semantic-level similarity between pair inputs to boost the performance. Then we derive two specific attention modules, named SpatialFormer Semantic Attention (SFSA) and SpatialFormer Target Attention (SFTA), to enhance the target object regions while reduce the background distraction. Particularly, SFSA highlights the regions with same semantic information between pair features, and SFTA finds potential foreground object regions of novel feature that are similar to base categories. Extensive experiments show that our methods are effective and achieve new state-of-the-art results on few-shot classification benchmarks.
翻訳日:2023-03-17 15:30:43 公開日:2023-03-15
# 新しいレンズからの解釈可能性:生医学応用のための成層と領域知識の統合

Interpretability from a new lens: Integrating Stratification and Domain knowledge for Biomedical Applications ( http://arxiv.org/abs/2303.09322v1 )

ライセンス: Link先を確認
Anthony Onoja, Francesco Raimondi(参考訳) バイオメディカル分野における機械学習(ML)技術の利用は、特にCOVID-19パンデミックの余波によって生成される大量のデータによって、ますます重要になっている。 しかし、バイオメディカルデータセットの複雑な性質とブラックボックスMLモデルの使用により、信頼の欠如とドメインの専門家による採用が生じる可能性がある。 これに対し、解釈可能なML(IML)アプローチが開発されているが、バイオメディカルデータセットにおける次元性の呪いは、モデル不安定につながる可能性がある。 本稿では, バイオメディカル問題データセットを k-fold cross-validation (CV) に階層化し, ドメイン知識解釈技術を統合するための新しい計算手法を提案する。 このアプローチはモデルの安定性を改善し、信頼を確立し、トレーニングされたIMLモデルによって生成された結果の説明を提供する。 具体的には、集約された特徴量の重要性のようなモデルの結果は、経路機能強化、薬物ターゲティング、データベースの再利用といった技術を使って、さらなるドメイン知識の解釈に関連付けられる。 さらに、imlフレームワークの選択前後のフォーカスグループディスカッションにエンドユーザと臨床関係者を巻き込むことで、テスト可能な仮説のガイド、パフォーマンスメトリクスの改善、生体医学分野における信頼性と有用性を備えたimlソリューションの構築に役立ちます。 本研究は、複雑なバイオメディカルデータセットの文脈において、AIMソリューションの有効性を高めるために、高度な計算技術とドメイン知識解釈を組み合わせる可能性を強調した。

The use of machine learning (ML) techniques in the biomedical field has become increasingly important, particularly with the large amounts of data generated by the aftermath of the COVID-19 pandemic. However, due to the complex nature of biomedical datasets and the use of black-box ML models, a lack of trust and adoption by domain experts can arise. In response, interpretable ML (IML) approaches have been developed, but the curse of dimensionality in biomedical datasets can lead to model instability. This paper proposes a novel computational strategy for the stratification of biomedical problem datasets into k-fold cross-validation (CVs) and integrating domain knowledge interpretation techniques embedded into the current state-of-the-art IML frameworks. This approach can improve model stability, establish trust, and provide explanations for outcomes generated by trained IML models. Specifically, the model outcome, such as aggregated feature weight importance, can be linked to further domain knowledge interpretations using techniques like pathway functional enrichment, drug targeting, and repurposing databases. Additionally, involving end-users and clinicians in focus group discussions before and after the choice of IML framework can help guide testable hypotheses, improve performance metrics, and build trustworthy and usable IML solutions in the biomedical field. Overall, this study highlights the potential of combining advanced computational techniques with domain knowledge interpretation to enhance the effectiveness of IML solutions in the context of complex biomedical datasets.
翻訳日:2023-03-17 15:22:06 公開日:2023-03-15
# 可変レンズを用いた変圧器の潜時予測

Eliciting Latent Predictions from Transformers with the Tuned Lens ( http://arxiv.org/abs/2303.08112v2 )

ライセンス: Link先を確認
Nora Belrose, Zach Furman, Logan Smith, Danny Halawi, Igor Ostrovsky, Lev McKinney, Stella Biderman, Jacob Steinhardt(参考訳) 反復推論の観点からトランスフォーマーを解析し,モデル予測がレイヤ単位でどのように洗練されるかを理解する。 そのため、凍結事前訓練されたモデルで各ブロックに対するアフィンプローブを訓練し、すべての隠れた状態を語彙上の分布に復号することができる。 我々の方法であるチューニングレンズは、初期の「ロジットレンズ」技術の洗練であり、有用な洞察を得たが、しばしば脆弱である。 我々は,最大20Bパラメータを持つ多種多様な自己回帰言語モデルを用いて,ロジットレンズよりも予測的かつ信頼性が高く,偏りがないことを示す。 因果実験により、調整レンズはモデル自体と同様の機能を使用することを示した。 また,悪意のある入力を高精度に検出するために,潜在予測の軌跡が利用できることも見いだした。 結果の再現に必要なコードは、https://github.com/alignmentresearch/tuned-lensにある。

We analyze transformers from the perspective of iterative inference, seeking to understand how model predictions are refined layer by layer. To do so, we train an affine probe for each block in a frozen pretrained model, making it possible to decode every hidden state into a distribution over the vocabulary. Our method, the tuned lens, is a refinement of the earlier "logit lens" technique, which yielded useful insights but is often brittle. We test our method on various autoregressive language models with up to 20B parameters, showing it to be more predictive, reliable and unbiased than the logit lens. With causal experiments, we show the tuned lens uses similar features to the model itself. We also find the trajectory of latent predictions can be used to detect malicious inputs with high accuracy. All code needed to reproduce our results can be found at https://github.com/AlignmentResearch/tuned-lens.
翻訳日:2023-03-17 11:33:17 公開日:2023-03-15
# VENUS: 量子状態可視化のための幾何学的表現

VENUS: A Geometrical Representation for Quantum State Visualization ( http://arxiv.org/abs/2303.08366v1 )

ライセンス: Link先を確認
Shaolun Ruan, Ribo Yuan, Yong Wang, Yanna Lin, Ying Mao, Weiwen Jiang, Zhepeng Wang, Wei Xu, Qiang Guan(参考訳) 可視化は、量子コンピューティングユーザーが様々な量子コンピューティングアプリケーションで量子状態を調べるのを助ける上で重要な役割を担っている。 その中でもBloch Sphereは、量子振幅を表すために角度を利用する量子状態を示すために広く使われている視覚化である。 しかし、量子エンタングルメントと重ね合わせ(量子コンピューティングの2つの本質的性質)の可視化はサポートできない。 本稿では,量子状態表現のための新しい可視化手法であるVENUSを提案する。 量子コンピューティング特性の数学的基礎に基づく2次元幾何学的形状を明示的に関連付けることにより、VENUSは量子エンタングルメントのための1量子ビットと2量子ビットの両方の量子振幅を効果的に表現する。 また、複数の座標半円を用いて確率分布を自然にエンコードし、量子重ね合わせを直感的に解析する。 VENUSの有用性と有効性を評価するために,2つの優れたケーススタディと詳細な専門家インタビューを行った。 その結果、VENUSは1量子ビットと2量子ビットの量子状態の探索を効果的に行うことができた。

Visualizations have played a crucial role in helping quantum computing users explore quantum states in various quantum computing applications. Among them, Bloch Sphere is the widely-used visualization for showing quantum states, which leverages angles to represent quantum amplitudes. However, it cannot support the visualization of quantum entanglement and superposition, the two essential properties of quantum computing. To address this issue, we propose VENUS, a novel visualization for quantum state representation. By explicitly correlating 2D geometric shapes based on the math foundation of quantum computing characteristics, VENUS effectively represents quantum amplitudes of both the single qubit and two qubits for quantum entanglement. Also, we use multiple coordinated semicircles to naturally encode probability distribution, making the quantum superposition intuitive to analyze. We conducted two well-designed case studies and an in-depth expert interview to evaluate the usefulness and effectiveness of VENUS. The result shows that VENUS can effectively facilitate the exploration of quantum states for the single qubit and two qubits.
翻訳日:2023-03-16 18:27:02 公開日:2023-03-15
# 転移学習に基づく肺音収差の診断と解析

Transfer Learning Based Diagnosis and Analysis of Lung Sound Aberrations ( http://arxiv.org/abs/2303.08362v1 )

ライセンス: Link先を確認
Hafsa Gulzar, Jiyun Li, Arslan Manzoor, Sadaf Rehmat, Usman Amjad and Hadiqa Jalil Khan(参考訳) 膨大な量のデータを収集し分析できるコンピュータシステムの開発により、医療専門家はいくつかの非侵襲的なツールを確立している。 本研究は、聴診器と音声記録ソフトウェアが取得した呼吸音を機械学習で識別する非侵襲的手法の開発を試みるものである。 この研究は、呼吸音を分類するためのcnnベースの訓練と実証を示唆する。 各音声サンプルの視覚的表現を構築し、視覚を効果的に記述するために使用されるような手法を用いて分類のためのリソース識別を可能にする。 我々はMel Frequency Cepstral Coefficients (MFCCs)と呼ばれる手法を用いた。 ここでは、VGG16(Transfer Learning)を介して特徴を検索し分類し、5倍のクロスバリデーションを用いて予測を行う。 様々なデータ分割手法を用いて、呼吸音響データベースは95%の精度、88%の精度、86%のリコールスコア、81%のF1スコアを含む最先端の結果を得た。 icbhiデータセットはモデルのトレーニングとテストに使用される。

With the development of computer -systems that can collect and analyze enormous volumes of data, the medical profession is establishing several non-invasive tools. This work attempts to develop a non-invasive technique for identifying respiratory sounds acquired by a stethoscope and voice recording software via machine learning techniques. This study suggests a trained and proven CNN-based approach for categorizing respiratory sounds. A visual representation of each audio sample is constructed, allowing resource identification for classification using methods like those used to effectively describe visuals. We used a technique called Mel Frequency Cepstral Coefficients (MFCCs). Here, features are retrieved and categorized via VGG16 (transfer learning) and prediction is accomplished using 5-fold cross-validation. Employing various data splitting techniques, Respiratory Sound Database obtained cutting-edge results, including accuracy of 95%, precision of 88%, recall score of 86%, and F1 score of 81%. The ICBHI dataset is used to train and test the model.
翻訳日:2023-03-16 18:26:43 公開日:2023-03-15
# 異種エッジ/fogネットワークを用いた協調学習に向けて

Towards Cooperative Federated Learning over Heterogeneous Edge/Fog Networks ( http://arxiv.org/abs/2303.08361v1 )

ライセンス: Link先を確認
Su Wang, Seyyedali Hosseinalipour, Vaneet Aggarwal, Christopher G. Brinton, David J. Love, Weifeng Su, and Mung Chiang(参考訳) フェデレートラーニング(FL)は、エッジ/フォグネットワーク上で機械学習(ML)モデルをトレーニングするための一般的なテクニックとして推奨されている。 従来のflの実装はネットワーク間協調の可能性をほとんど無視しており、エッジ/fogデバイスやその他のmlに関わるインフラストラクチャを別個の処理要素として扱う。 その結果、flは様々な計算能力、通信リソース、データ品質、プライバシー要求など、ネットワークの不均一性のいくつかの次元に対して脆弱である。 我々は,デバイス間相互作用(d2d)とデバイス間相互作用(d2s)に基づく協調エッジ/fog mlパラダイムである協調連合学習(cfl)を提唱する。 D2DとD2Sの協力を通じて、CFLはモデル/データ/リソースプーリング機構を有効にすることでエッジ/フォグネットワークのネットワーク不均一性を対策し、MLモデルのトレーニング品質とネットワークリソース消費を大幅に改善する。 本稿では,D2DとD2Sの連携の基礎となるコア方法論と,その利点を示す予備実験を提案する。 また,非ラベルデータと異種デバイスプライバシの統合をmlモデルトレーニングに統合するなど,この協調フレームワークによって実現される新しいfl機能についても論じる。 最後に,協調エッジ/fogとflの交点におけるオープン研究の方向性について述べる。

Federated learning (FL) has been promoted as a popular technique for training machine learning (ML) models over edge/fog networks. Traditional implementations of FL have largely neglected the potential for inter-network cooperation, treating edge/fog devices and other infrastructure participating in ML as separate processing elements. Consequently, FL has been vulnerable to several dimensions of network heterogeneity, such as varying computation capabilities, communication resources, data qualities, and privacy demands. We advocate for cooperative federated learning (CFL), a cooperative edge/fog ML paradigm built on device-to-device (D2D) and device-to-server (D2S) interactions. Through D2D and D2S cooperation, CFL counteracts network heterogeneity in edge/fog networks through enabling a model/data/resource pooling mechanism, which will yield substantial improvements in ML model training quality and network resource consumption. We propose a set of core methodologies that form the foundation of D2D and D2S cooperation and present preliminary experiments that demonstrate their benefits. We also discuss new FL functionalities enabled by this cooperative framework such as the integration of unlabeled data and heterogeneous device privacy into ML model training. Finally, we describe some open research directions at the intersection of cooperative edge/fog and FL.
翻訳日:2023-03-16 18:26:26 公開日:2023-03-15
# 金融応用のための効率的でセキュアな連合学習

Efficient and Secure Federated Learning for Financial Applications ( http://arxiv.org/abs/2303.08355v1 )

ライセンス: Link先を確認
Tao Liu, Zhi Wang, Hui He, Wei Shi, Liangliang Lin, Wei Shi, Ran An, Chenhao Li(参考訳) 従来の機械学習(ML)とディープラーニングアプローチでは、顧客の機密情報を外部クレジット局と共有して、プライバシー漏洩のドアを開く予測モデルを生成する必要がある。 この漏洩リスクは、金融機関が協力する上で大きな課題に直面している。 フェデレーション学習(Federated Learning)は、データのプライバシを保護するマシンラーニング設定だが、特に大規模なニューラルネットワークにおいて、フェデレーションシステムのボトルネックとなることが多い。 大きな神経構造の実践的な訓練には,コミュニケーションの数と規模を制限する必要がある。 勾配スパーシフィケーションは通信コストを下げる手段として注目を集めており、重要な勾配のみを更新し、局所的に重要な勾配を蓄積する。 しかし、セキュアアグリゲーションフレームワークはグラデーションスペーシフィケーションを直接使うことはできない。 本稿では,連合学習におけるコミュニケーションコストを削減するための2つのスパーシフィケーション手法を提案する。 1つは、モデルパラメータ更新のための時間変化の階層的スペーシフィケーション法であり、高比のスペーシリティ後のモデル精度を維持する問題の解決である。 単一の通信のコストを大幅に削減することができる。 もう1つは、セキュアアグリゲーションフレームワークにスパーシフィケーションメソッドを適用することである。 プライバシーを保護しながら通信コストを削減するため、暗号化マスクマトリックスを分離する。 実験結果から, スパース率0.01の場合, 従来のフェデレート学習アルゴリズムの約2.9%から18.9%のアップロード通信コストを削減できることがわかった。

The conventional machine learning (ML) and deep learning approaches need to share customers' sensitive information with an external credit bureau to generate a prediction model that opens the door to privacy leakage. This leakage risk makes financial companies face an enormous challenge in their cooperation. Federated learning is a machine learning setting that can protect data privacy, but the high communication cost is often the bottleneck of the federated systems, especially for large neural networks. Limiting the number and size of communications is necessary for the practical training of large neural structures. Gradient sparsification has received increasing attention as a method to reduce communication cost, which only updates significant gradients and accumulates insignificant gradients locally. However, the secure aggregation framework cannot directly use gradient sparsification. This article proposes two sparsification methods to reduce communication cost in federated learning. One is a time-varying hierarchical sparsification method for model parameter update, which solves the problem of maintaining model accuracy after high ratio sparsity. It can significantly reduce the cost of a single communication. The other is to apply the sparsification method to the secure aggregation framework. We sparse the encryption mask matrix to reduce the cost of communication while protecting privacy. Experiments show that under different Non-IID experiment settings, our method can reduce the upload communication cost to about 2.9% to 18.9% of the conventional federated learning algorithm when the sparse rate is 0.01.
翻訳日:2023-03-16 18:26:05 公開日:2023-03-15
# 環内の2種の超低温原子の絡み合った集合スピン状態

Entangled Collective Spin States of Two Species Ultracold atoms in a Ring ( http://arxiv.org/abs/2303.08353v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Opatrn\'y and Kunal K. Das(参考訳) リング状のトラップにおいて、互いに相互作用する2種類の縮退極性超低温原子を、回転のオプションと方位格子で実現できる一般量子ハミルトニアンについて検討する。 我々は、Dicke状態に基づく集合スピン図を用いてスペクトルと状態について検討する。 このシステムはフォン・ノイマンエントロピーによって高次絡み合いを持つ状態を生成することができる。 ハミルトニアンは2つの成分を持ち、回転またはアジムタル格子を介して制御およびスイッチオンできる線型部分と相互作用依存二次部分を持つ。 正確な解は種内および種間相互作用の等しい強さの二次部分に対して見出されるが、一般的には2種の粒子数が異なる。 二次ハミルトニアンの基底状態は2つの種が不均等な数の粒子を持つが、等しくは非縮退する。 我々は、等粒子数からの偏差の絡み合いエントロピーおよび等相互作用強度の仮定から偏差の影響を決定する。 制限ケースは、干渉計で有用性を見出すことができるビームスプリッターとスピンスクイーズの特徴を示す。 フルハミルトニアン状態の密度は、線形極限と二次極限の間に異なる位相遷移の様相を示す。

We study the general quantum Hamiltonian that can be realized with two species of mutually interacting degenerate ultracold atoms in a ring-shaped trap, with the options of rotation and an azimuthal lattice. We examine the spectrum and the states with a collective spin picture in a Dicke state basis. The system can generate states with a high degree of entanglement gauged by the von Neumann entropy. The Hamiltonian has two components, a linear part that can be controlled and switched on via rotation or the azimuthal lattice, and an interaction-dependent quadratic part. Exact solutions are found for the quadratic part for equal strengths of intra-species and the inter-species interactions, but for generally different particle numbers in the two species. The quadratic Hamiltonian has a degenerate ground state when the two species have unequal number of particles, but non-degenerate when equal. We determine the impact on the entanglement entropy of deviations from equal particle numbers as well as deviations from the assumption of equal interaction strengths. Limiting cases are shown to display features of a beam-splitter and spin-squeezing that can find utility in interferometry. The density of states for the full Hamiltonian shows features as of phase transition in varying between linear and quadratic limits.
翻訳日:2023-03-16 18:25:43 公開日:2023-03-15
# 一次元逆場イジングモデルにおける量子コヒーレントな仕事の速度関数の特異点

The singularities of the rate function of quantum coherent work in one-dimensional transverse field Ising model ( http://arxiv.org/abs/2303.08341v1 )

ライセンス: Link先を確認
Bao-Ming Xu and Chao-Quan Wang(参考訳) 量子コヒーレンス(quantum coherence)は、量子多体系のダイナミクスを理解する上で、間違いなく基本的な役割を果たすだろう。 本稿では,コヒーレントギブス状態において初期化される一次元横場量子イジングモデルについて考察する。 横磁場の強さを緩和した後、量子コヒーレンスの効果は量子ワーク分布の速度関数によって研究される。 量子コヒーレンスは、熱ゆらぎによって破壊される量子相転移を回復するだけでなく、静的状態とダイナミクスの両方において全く新しい特異点を生成する。 これらの特異点はスピン偏極の領域境界が突然変化するスピンフリップに根ざしていることを示すことができる。 この研究は、量子臨界現象と量子コヒーレンスとの基本的な関係に新しい光を放つ。

Quantum coherence will undoubtedly play a fundamental role in understanding of the dynamics of quantum many-body systems, thereby to reveal its genuine contribution is of great importance. In this paper, we specialize our discussions to the one-dimensional transverse field quantum Ising model initialized in the coherent Gibbs state. After quenching the strength of the transverse field, the effects of quantum coherence are studied by the rate function of quantum work distribution. We find that quantum coherence not only recovers the quantum phase transition destroyed by thermal fluctuations, but also generates some entirely new singularities both in the static state and dynamics. It can be manifested that these singularities are rooted in spin flips causing the sudden change of the domain boundaries of spin polarization. This work sheds new light on the fundamental connection between quantum critical phenomena and quantum coherence.
翻訳日:2023-03-16 18:25:22 公開日:2023-03-15
# 量子輸送のためのマックスウェルのデーモン

Maxwell's Demon for Quantum Transport ( http://arxiv.org/abs/2303.08326v1 )

ライセンス: Link先を確認
Kangqiao Liu, Masaya Nakagawa, Masahito Ueda(参考訳) マックスウェルの悪魔は量子情報エンジンを構築するのに利用できる。 既存の量子情報エンジンのほとんどは熱揺らぎを利用するが、量子揺らぎを利用する量子情報エンジンは最近議論されている。 本稿では,量子揺らぎを利用して有用な作業の累積記憶と粒子の一方向輸送を実現する,新しい量子情報エンジンを提案する。 提案手法では, 粒子を輸送可能な既存の量子情報エンジンとは対照的に, 提案するエンジンのパワーと速度のあいまいさを排除した熱化を必要としない。 最大到達力と最大速度のトレードオフ関係を見いだす。 また,エンジンサイクルに係わるすべてのエネルギーフローを明らかにすることにより,効率性の向上も提案する。

Maxwell's demon can be utilized to construct quantum information engines. While most of the existing quantum information engines harness thermal fluctuations, quantum information engines that utilize quantum fluctuations have recently been discussed. We propose a new type of genuinely quantum information engine that harnesses quantum fluctuations to achieve cumulative storage of useful work and unidirectional transport of a particle. Our scheme does not require thermalization, which eliminates the ambiguity in evaluating the power and velocity of our proposed engine in contrast to other existing quantum information engines that can transport a particle. We find a tradeoff relationship between the maximum achievable power and the maximum velocity. We also propose an improved definition of efficiency by clarifying all possible energy flows involved in the engine cycle.
翻訳日:2023-03-16 18:25:07 公開日:2023-03-15
# 機械学習のためのデータセット管理プラットフォーム

Dataset Management Platform for Machine Learning ( http://arxiv.org/abs/2303.08301v1 )

ライセンス: Link先を確認
Ze Mao, Yang Xu, Erick Suarez(参考訳) データセット内のデータの品質は、データセットを使ってトレーニングおよび/または評価される機械学習モデルのパフォーマンスに大きな影響を与える可能性がある。 データクリーンアップ、バージョニング、アクセス制御、データセット変換、自動化、完全性、セキュリティなどのタスクを含む効果的なデータセット管理は、機械学習プロセスの効率とスピードを改善するのに役立つ。 現在、エンジニアはデータセットのバージョンの管理や機械学習タスクのためのデータセットの準備にかなりの労力と時間を費やしている。 この開示では、データセットを効果的に管理および使用するためのプラットフォームについて説明する。 この技術はデータセット管理とデータセット変換機構を統合する。 ストレージエンジンはすべてのデータに対して真理の源として機能し、バージョニングやアクセス制御などの処理を行う。 データセット変換メカニズムは、異なる目的のためにデータセット(スナップショット)を生成するための重要な部分である。 前述のテクニックは、トレーニングや機械学習モデルの評価など、さまざまなワークフロー、パイプライン、あるいはデータオーケストレーションのニーズをサポートすることができる。

The quality of the data in a dataset can have a substantial impact on the performance of a machine learning model that is trained and/or evaluated using the dataset. Effective dataset management, including tasks such as data cleanup, versioning, access control, dataset transformation, automation, integrity and security, etc., can help improve the efficiency and speed of the machine learning process. Currently, engineers spend a substantial amount of manual effort and time to manage dataset versions or to prepare datasets for machine learning tasks. This disclosure describes a platform to manage and use datasets effectively. The techniques integrate dataset management and dataset transformation mechanisms. A storage engine is described that acts as a source of truth for all data and handles versioning, access control etc. The dataset transformation mechanism is a key part to generate a dataset (snapshot) to serve different purposes. The described techniques can support different workflows, pipelines, or data orchestration needs, e.g., for training and/or evaluation of machine learning models.
翻訳日:2023-03-16 18:24:57 公開日:2023-03-15
# 低温原子ガス中における光偏光と原子スピンの同時量子スクイーズ

Simultaneous Quantum Squeezing of Light Polarizations and Atomic Spins in a Cold Atomic Gas ( http://arxiv.org/abs/2303.08547v1 )

ライセンス: Link先を確認
Jinzhong Zhu, Yue Mu and Guoxiang Huang(参考訳) 本研究では,2つの偏光成分のプローブレーザパルスと結合した寒冷4レベル原子アンサンブルにおいて,摂動二重電磁誘導透過(deit)による光偏光と原子スピンの同時量子スクイージングを実現する。 我々は、原子とプローブパルスの量子力学を記述したマックスウェル・ハイゼンベルク・ランゲイン方程式から2つの結合量子非線形シュリンガー方程式を導出し、超低速伝播速度と極低出力のベクトル光学ソリトン(VOS)の量子理論を開発する。 VOSの背景に量子ゆらぎを記述する非エルミート固有値問題を解くとともに、得られた全てのゆらぎ固有モード(連続モードと4つのゼロモードを含む)が双正則かつ完全集合であることを示す。 摂動ダイトに寄与する巨大自己およびクロスカー非線形性により,プローブパルスの偏光スクイーズが実現可能であることが判明した。 また、プローブパルスの分極スクイージングとともに、原子スピンのかなりのスクイージングが同時に発生することも判明した。 ここで報告されているコヒーレントプローブパルスのみを用いて光偏光と原子スピンを同時にスクイーズした結果、光と原子アンサンブルの間の量子界面のユニークな性質を明らかにする経路が開かれ、量子情報や精密測定にも応用される。

We present a scheme to realize simultaneous quantum squeezing of light polarizations and atomic spins via a perturbed double electromagnetically induced transparency (DEIT) in a cold four-level atomic ensemble coupled with a probe laser pulse of two polarization components. We derive two coupled quantum nonlinear Schr\"odinger equations from Maxwell-Heisenberg-Langevin equations describing the quantum dynamics of the atoms and the probe pulse, and develop a quantum theory of vector optical soliton (VOS), which have ultraslow propagation velocity and extremely low generation power. We solve the non-Hermitian eigenvalue problem describing the quantum fluctuations on the background of the VOS, and rigorously prove that all fluctuation eigenmodes (including continuous modes and four zero modes) obtained constitute a bi-orthonormal and complete set. We find that, due to the giant self- and cross-Kerr nonlinearities contributed by the perturbed DEIT, a large polarization squeezing of the probe pulse can be realized. We also find that, together with the polarization squeezing of the probe pulses, a significant squeezing of atomic spins also occurs simultaneously. The results of the simultaneous squeezing of light polarizations and atomic spins by using only a coherent probe pulse reported here opens a route for uncovering the unique property of the quantum interface between light and atomic ensembles, and also for applications in quantum information and precision measurement.
翻訳日:2023-03-16 18:18:03 公開日:2023-03-15
# 多結晶Zr組織における線形弾性応力推定のための適応U-Net

Adapting U-Net for linear elastic stress estimation in polycrystal Zr microstructures ( http://arxiv.org/abs/2303.08541v1 )

ライセンス: Link先を確認
J. D. Langcaster, D. S. Balint and M. R. Wenman(参考訳) U-Net畳み込みニューラルネットワークアーキテクチャの変種として, a-Zr(hcp)多結晶結晶粒構造における線形弾性適合応力を推定する手法を提案する。 有限要素法による応力溶接の評価のために, 正則アルファ0.73のVGrainソフトウェアと粒状構造物のランダムな配向, ABAQUSを用いてトレーニングデータを生成した。 最初のデータセットには200のサンプルが含まれ、20のサンプルが検証のためにトレーニングから保持されている。 ネットワークはCPUやGPUを使って約200倍から6000倍のスピードアップを実現し、最大10%の精度で最小限の精度で有限要素解析を行う。 ネットワーク性能は粒状構造規則性やテクスチャと相関せず,任意のZr結晶構造にトレーニングセットを超えたネットワークの一般化を示す。 200と400のサンプルでトレーニングされた場合のパフォーマンスを測定し、データセットのサイズが倍になった場合の精度が約10%向上した。

A variant of the U-Net convolutional neural network architecture is proposed to estimate linear elastic compatibility stresses in a-Zr (hcp) polycrystalline grain structures. Training data was generated using VGrain software with a regularity alpha of 0.73 and uniform random orientation for the grain structures and ABAQUS to evaluate the stress welds using the finite element method. The initial dataset contains 200 samples with 20 held from training for validation. The network gives speedups of around 200x to 6000x using a CPU or GPU, with signifcant memory savings, compared to finite element analysis with a modest reduction in accuracy of up to 10%. Network performance is not correlated with grain structure regularity or texture, showing generalisation of the network beyond the training set to arbitrary Zr crystal structures. Performance when trained with 200 and 400 samples was measured, finding an improvement in accuracy of approximately 10% when the size of the dataset was doubled.
翻訳日:2023-03-16 18:17:36 公開日:2023-03-15
# モンテカルロ力学を用いた箱内ランダムウォークの特異緩和

Singular relaxation of a random walk in a box with a Metropolis Monte Carlo dynamics ( http://arxiv.org/abs/2303.08535v1 )

ライセンス: Link先を確認
Alexei D. Chepelianskii, Satya N. Majumdar, Hendrik Schawe and Emmanuel Trizac(参考訳) 本研究では,一様ランダムジャンプによって動くボックス内の粒子に対応する,モンテカルロアルゴリズムの緩和固有値の解析を行った。 ボックスの外の移動は拒否されます。 長い時間をかけて、システムはボックス内部に均一な平衡確率密度に近づいた。 箱の大きさに匹敵する跳躍長さの場合、緩和固有モードの数は驚くほど小さく、1つか2つである。 これら2つの体制間の遷移の完全な分析記述を提供する。 単一の緩和固有モードしか存在しないとき、初期条件の対称性の適切な選択は局所化減衰を平衡に導く。 この場合、平衡からの偏差は、拒否確率が最大となる箱の端に集中する。 最後に、マスター方程式の緩和解析に加えて、サブリード固有モードを含むマスター方程式の全固有スペクトルについても述べる。

We study analytically the relaxation eigenmodes of a simple Monte Carlo algorithm, corresponding to a particle in a box which moves by uniform random jumps. Moves outside of the box are rejected. At long times, the system approaches the equilibrium probability density, which is uniform inside the box. We show that the relaxation towards this equilibrium is unusual: for a jump length comparable to the size of the box, the number of relaxation eigenmodes can be surprisingly small, one or two. We provide a complete analytic description of the transition between these two regimes. When only a single relaxation eigenmode is present, a suitable choice of the symmetry of the initial conditions gives a localizing decay to equilibrium. In this case, the deviation from equilibrium concentrates at the edges of the box where the rejection probability is maximal. Finally, in addition to the relaxation analysis of the master equation, we also describe the full eigen-spectrum of the master equation including its sub-leading eigen-modes.
翻訳日:2023-03-16 18:17:18 公開日:2023-03-15
# Rashba-Dresselhaus spin-orbit couplingによる非ヘルミタン皮膚効果

Non-Hermitian skin effect induced by Rashba-Dresselhaus spin-orbit coupling ( http://arxiv.org/abs/2303.08483v1 )

ライセンス: Link先を確認
Pavel Kokhanchik, Dmitry Solnyshkov, Guillaume Malpuech(参考訳) 非ヘルミチアンスキン効果(NHSE)を実現する非相互トンネルを持つ1D鎖は、ここ数年でかなりの関心を集めている一方、実空間における実験的な実現は、いくつかの例に限られている。 本研究では,Rashba-Dresshlaussスピン軌道結合と,電子,低温原子,光子,および2つのスピン成分間の寿命不均衡を組み合わせ,非相互性を実現するための新しい一般的な方法を提案する。 我々は,Hermitian Su-Schrieffer-HeegerモデルであるHatano-Nelsonモデルを実現でき,格子を必要とせずに1次元ポテンシャルでNHSEをよく観察できることを示した。 さらに,フォトニック液晶マイクロキャビティの具体例を考慮し,本提案の実現可能性を示す。 このプラットフォームは、マイクロキャビティに外部電圧を印加することでnhseをオン・オフすることができる。

1D chains with non-reciprocal tunneling realizing the non-Hermitian skin effect (NHSE) have attracted considerable interest in the last years whereas their experimental realization in real space remains limited to a few examples. In this work, we propose a new generic way of implementing non-reciprocity based on a combination of the Rashba-Dresshlauss spin-orbit coupling, existing for electrons, cold atoms, and photons, and a lifetime imbalance between two spin components. We show that one can realize the Hatano-Nelson model, the non-Hermitian Su-Schrieffer-Heeger model, and even observe the NHSE in a 1D potential well without the need for a lattice. We further demonstrate the practical feasibility of this proposal by considering the specific example of a photonic liquid crystal microcavity. This platform allows one to switch on and off the NHSE by applying an external voltage to the microcavity.
翻訳日:2023-03-16 18:17:05 公開日:2023-03-15
# 中性子拡散固有値問題を解くためのデータ有効物理形ニューラルネットワークの不確実性解析について

On the uncertainty analysis of the data-enabled physics-informed neural network for solving neutron diffusion eigenvalue problem ( http://arxiv.org/abs/2303.08455v1 )

ライセンス: Link先を確認
Yu Yang, Helin Gong, Qihong Yang, Yangtao Deng, Qiaolin He, Shiquan Zhang(参考訳) 実際の工学実験では、検出器によって得られたデータは必然的にうるさい。 既に提案されているデータ対応物理インフォームドニューラルネットワーク (DEPINN) \citep{DEPINN} について, 先行データがノイズのスケールが異なる場合の中性子拡散固有値問題の計算におけるDEPINNの性能について検討した。 さらに,ノイズの影響を低減し,ノイズ先行データの利用性を向上させるために,革新的区間損失関数を提案し,厳密な数学的証明を与える。 DEPINNのロバスト性は2つの典型的なベンチマーク問題に対して,多数の数値結果を用いて検討し,提案した区間損失関数の有効性を比較検討した。 本稿では, 原子炉物理の実用化に向けた改良型DEPINNの実現可能性を確認する。

In practical engineering experiments, the data obtained through detectors are inevitably noisy. For the already proposed data-enabled physics-informed neural network (DEPINN) \citep{DEPINN}, we investigate the performance of DEPINN in calculating the neutron diffusion eigenvalue problem from several perspectives when the prior data contain different scales of noise. Further, in order to reduce the effect of noise and improve the utilization of the noisy prior data, we propose innovative interval loss functions and give some rigorous mathematical proofs. The robustness of DEPINN is examined on two typical benchmark problems through a large number of numerical results, and the effectiveness of the proposed interval loss function is demonstrated by comparison. This paper confirms the feasibility of the improved DEPINN for practical engineering applications in nuclear reactor physics.
翻訳日:2023-03-16 18:16:48 公開日:2023-03-15
# MAHTM:階層的トランスアクティブマイクログリッドのためのマルチエージェントフレームワーク

MAHTM: A Multi-Agent Framework for Hierarchical Transactive Microgrids ( http://arxiv.org/abs/2303.08447v1 )

ライセンス: Link先を確認
Nicolas Cuadrado, Roberto Gutierrez, Yongli Zhu, Martin Takac(参考訳) 電力網への可変再生可能エネルギーの統合は、エネルギーの可利用性、コストの可利用性、汚染の制御性の間の最適なトレードオフを達成する上で、システムオペレーターに課題を提起している。 本稿では,マイクログリッドにおけるエネルギートランザクションを管理するマルチエージェント強化学習フレームワークを提案する。 すべての利害関係者の利益を享受しながら、カーボンフットプリントを最小化し、利用可能なリソースの使用を最適化することを目指している。 提案されたアーキテクチャはエージェントの3つのレイヤで構成され、それぞれ異なる目的を追求する。 第1層はプロシューマーと消費者で構成され、総エネルギーコストを最小化する。 他の2つの層は、再生可能エネルギーと従来のエネルギーの両方の消費と生産のバランスを保ちながら、炭素の衝突を減らすエネルギー価格を制御する。 この枠組みはエネルギー需要と供給の変動も考慮している。

Integrating variable renewable energy into the grid has posed challenges to system operators in achieving optimal trade-offs among energy availability, cost affordability, and pollution controllability. This paper proposes a multi-agent reinforcement learning framework for managing energy transactions in microgrids. The framework addresses the challenges above: it seeks to optimize the usage of available resources by minimizing the carbon footprint while benefiting all stakeholders. The proposed architecture consists of three layers of agents, each pursuing different objectives. The first layer, comprised of prosumers and consumers, minimizes the total energy cost. The other two layers control the energy price to decrease the carbon impact while balancing the consumption and production of both renewable and conventional energy. This framework also takes into account fluctuations in energy demand and supply.
翻訳日:2023-03-16 18:16:32 公開日:2023-03-15
# Lana: 命令追従と生成のための言語対応ナビゲータ

Lana: A Language-Capable Navigator for Instruction Following and Generation ( http://arxiv.org/abs/2303.08409v1 )

ライセンス: Link先を確認
Xiaohan Wang, Wenguan Wang, Jiayi Shao, Yi Yang(参考訳) 近年、ナビゲーション指示に従うロボットエージェントを含む視覚言語ナビゲーション(VLN)が大きな進歩を見せている。 しかし、既存の文献では命令を行動に解釈することに重点を置いており、「dumb」のウェイフィングエージェントしか提供していない。 本稿では、言語対応ナビゲーションエージェントであるLANAを考案し、人手によるナビゲーションコマンドを実行するだけでなく、人間に経路記述を提供する。 これは1つのモデルで命令の追従と生成を同時に学習することで達成される。 より具体的には、2つのエンコーダをそれぞれ2つのデコーダで構築し、動作予測と命令生成のために共有することにより、クロスタスクの知識を活用し、タスク固有の特性をキャプチャする。 事前学習と微調整を通じて、命令追従と生成の両方を最適化目的として設定する。 我々は、最近の高度なタスク固有のソリューションと比較して、LANAは命令追従と経路記述の両方において、ほぼ半分の複雑さでより良いパフォーマンスが得られることを実証的に検証した。 さらに、言語生成能力が付与されたlanaは、人間の行動を説明し、人間のウェイフィングを支援することができる。 この研究は、より信頼性が高く社会的に知的なナビゲーションロボットの構築に向けた将来の取り組みを促進することが期待されている。

Recently, visual-language navigation (VLN) -- entailing robot agents to follow navigation instructions -- has shown great advance. However, existing literature put most emphasis on interpreting instructions into actions, only delivering "dumb" wayfinding agents. In this article, we devise LANA, a language-capable navigation agent which is able to not only execute human-written navigation commands, but also provide route descriptions to humans. This is achieved by simultaneously learning instruction following and generation with only one single model. More specifically, two encoders, respectively for route and language encoding, are built and shared by two decoders, respectively, for action prediction and instruction generation, so as to exploit cross-task knowledge and capture task-specific characteristics. Throughout pretraining and fine-tuning, both instruction following and generation are set as optimization objectives. We empirically verify that, compared with recent advanced task-specific solutions, LANA attains better performances on both instruction following and route description, with nearly half complexity. In addition, endowed with language generation capability, LANA can explain to humans its behaviors and assist human's wayfinding. This work is expected to foster future efforts towards building more trustworthy and socially-intelligent navigation robots.
翻訳日:2023-03-16 18:16:19 公開日:2023-03-15
# 層状材料を用いた光学系の定常2状態系

Stationary Two-State System in Optics using Layered Materials ( http://arxiv.org/abs/2303.08395v1 )

ライセンス: Link先を確認
Ken-ichi Sasaki(参考訳) グラフェンのような平坦な面にのみ電子が存在する状況で電気力学が量子化されると、マクスウェル方程式の1つがハミルトニアンの局所部分として現れる。 ゲージ不変性の結果、任意の物理的状態は局所ハミルトニアンのゼロエネルギー状態である必要がある。 我々は2つの定常量子状態を構築し、一方は光の散乱と吸収を再現し、他方は古典光学に精通している。 これらの2つの状態はハミルトニアンによって分離され、2つの状態系を形成するが、2つの状態が分離される特別な数の曲面が存在する。 数値は 2/\pi \alpha$ であり、$\pi \alpha$ は単面の吸収確率である。

When electrodynamics is quantized in a situation where the electrons exist only at a flat surface such as graphene, one of the Maxwell equations appears as a local part of the Hamiltonian. As a consequence of gauge invariance, any physical state has to be a zero-energy state of the local Hamiltonian. We construct two stationary quantum states; one reproduces scattering and absorption of light, which is familiar in classical optics and the other is more fundamentally related to photon creation. These two states are inseparable by the Hamiltonian and forming a two-state system, but there is a special number of surfaces for which two states are decoupled. The number is $2/\pi \alpha$ where $\pi \alpha$ is the absorption probability of single surface.
翻訳日:2023-03-16 18:15:57 公開日:2023-03-15
# 拡散モデルを用いたシンボリック音楽の生成

Generating symbolic music using diffusion models ( http://arxiv.org/abs/2303.08385v1 )

ライセンス: Link先を確認
Lilac Atassi(参考訳) 確率論的Denoising Diffusionモデルは単純だが非常に強力な生成モデルとして登場した。 他の生成モデルとは異なり拡散モデルはモード崩壊に苦しむことなく、高品質なサンプルを生成するために識別器を必要としない。 本稿では,二項事前分布を用いてピアノロールを生成する拡散モデルを提案する。 また,モデルを訓練し,サンプルを生成する効率的な方法を提案する。 生成された音楽は、トレーニングピアノロールセグメントの長さまで時間的にコヒーレンスを有する。 このようなモデルが入力でどのように条件付けされ、与えられたメロディの調和、不完全なピアノロールの完成、あるいは与えられた曲のバリエーションの生成に使用できるかを示す。 コードはコミュニティがメソッドの使用と開発を促進するために公開されています。

Probabilistic Denoising Diffusion models have emerged as simple yet very powerful generative models. Diffusion models unlike other generative models do not suffer from mode collapse nor require a discriminator to generate high quality samples. In this paper, we propose a diffusion model that uses a binomial prior distribution to generate piano-rolls. The paper also proposes an efficient method to train the model and generate samples. The generated music has coherence at time scales up to the length of the training piano-roll segments. We show how such a model is conditioned on the input and can be used to harmonize a given melody, complete an incomplete piano-roll or generate a variation of a given piece. The code is shared publicly to encourage the use and development of the method by the community.
翻訳日:2023-03-16 18:15:43 公開日:2023-03-15
# MCR-DL: ディープラーニングのためのミックス・アンド・マッチ通信ランタイム

MCR-DL: Mix-and-Match Communication Runtime for Deep Learning ( http://arxiv.org/abs/2303.08374v1 )

ライセンス: Link先を確認
Quentin Anthony, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He, Aamir Shafi, Mustafa Abduljabbar, Hari Subramoni, Dhabaleswar Panda(参考訳) 近年、多くの最先端のディープラーニング(DL)モデルのトレーニング要件は、単一のプロセッサの計算能力やメモリ能力を超えてスケールし、プロセッサ間の分散を必要としている。 このような大規模モデルのトレーニングには、効率を維持するために高度な並列処理戦略が必要となる。 しかし、このような分散DL並列化戦略は、幅広いメッセージサイズとスケールにわたる集合的およびポイント・ツー・ポイントの通信操作の様々な混合を必要とする。 高度な並列化戦略を用いたモデルの例としては、Deep Learning Recommendation Models (DLRM)やMixture-of-Experts (MoE)がある。 通信ライブラリのパフォーマンスは、異なる通信操作、スケール、メッセージサイズによって大きく異なる。 MCR-DLは,すべてのポイント・ツー・ポイントおよび集合操作をサポートする拡張可能なDL通信フレームワークであり,デッドロックのない特定の操作に対して,動的に混在する通信バックエンドを実現する。 MCR-DLには、与えられた入力テンソルの最良の通信バックエンドを動的に選択するためのチューニングスイートも付属している。 我々は、deepspeed-moeとdlrmを候補dlモデルとして選択し、lassen hpcシステム上で256v100 gpuのds-moeスループットを31%向上させた。 さらに,高密度Megatron-DeepSpeedモデルにおいて20%のスループット向上を実現し,Theta-GPU HPCシステムを用いた32A100 GPU上でのDLRMの25%のスループット向上を実現した。

In recent years, the training requirements of many state-of-the-art Deep Learning (DL) models have scaled beyond the compute and memory capabilities of a single processor, and necessitated distribution among processors. Training such massive models necessitates advanced parallelism strategies to maintain efficiency. However, such distributed DL parallelism strategies require a varied mixture of collective and point-to-point communication operations across a broad range of message sizes and scales. Examples of models using advanced parallelism strategies include Deep Learning Recommendation Models (DLRM) and Mixture-of-Experts (MoE). Communication libraries' performance varies wildly across different communication operations, scales, and message sizes. We propose MCR-DL: an extensible DL communication framework that supports all point-to-point and collective operations while enabling users to dynamically mix-and-match communication backends for a given operation without deadlocks. MCR-DL also comes packaged with a tuning suite for dynamically selecting the best communication backend for a given input tensor. We select DeepSpeed-MoE and DLRM as candidate DL models and demonstrate a 31% improvement in DS-MoE throughput on 256 V100 GPUs on the Lassen HPC system. Further, we achieve a 20% throughput improvement in a dense Megatron-DeepSpeed model and a 25% throughput improvement in DLRM on 32 A100 GPUs with the Theta-GPU HPC system.
翻訳日:2023-03-16 18:15:31 公開日:2023-03-15
# 格子ゲージ理論と物質をシミュレートするフェルミオン量子量子プロセッサ

Fermion-qudit quantum processors for simulating lattice gauge theories with matter ( http://arxiv.org/abs/2303.08683v1 )

ライセンス: Link先を確認
Torsten V. Zache, Daniel Gonz\'alez-Cuadra, and Peter Zoller(参考訳) 素粒子物理学の標準モデルの基礎となる格子ゲージ理論のリアルタイムダイナミクスをシミュレートすることは、量子シミュレータが古典的アプローチよりも実用的な利点を提供できる、非常に難しい問題である。 本研究では,物質場に結合した一般ゲージ理論の動力学を,ハードウェア効率でディジタル的にシミュレートする,完全なRydberg型アーキテクチャを提案する。 参照。 [1] は、非可換ゲージ場が局所的に符号化され時間発展するquditプロセッサが、標準的な量子コンピュータと比較して必要なシミュレーションリソースを大幅に削減することを示した。 ここでは、後者を最近導入されたフェルミオン量子プロセッサ[2]と統合し、ハードウェアレベルでフェルミオン統計を考慮し、ゲージ・マッター相互作用の局所性を保持する量子回路を構築する。 本稿では,2つのパラダイム的高エネルギー現象に着目し,フェミオン量子プロセッサの柔軟性を実証する。 まず,Abelian-Higgsモデルをシミュレーションする資源効率の高いプロトコルを提案する。 そこで, 非アーベルゲージ場で束縛されたフェルミオン性物質を構成するハドロンを調製し, 対応するハドロンテンソルを抽出する方法を示す。 いずれの場合も、必要な資源を推定し、粒子物理学における実験的な関連する量の計算に量子デバイスをどのように利用できるかを示す。

Simulating the real-time dynamics of lattice gauge theories, underlying the Standard Model of particle physics, is a notoriously difficult problem where quantum simulators can provide a practical advantage over classical approaches. In this work, we present a complete Rydberg-based architecture, co-designed to digitally simulate the dynamics of general gauge theories coupled to matter fields in a hardware-efficient manner. Ref. [1] showed how a qudit processor, where non-abelian gauge fields are locally encoded and time-evolved, considerably reduces the required simulation resources compared to standard qubit-based quantum computers. Here we integrate the latter with a recently introduced fermionic quantum processor [2], where fermionic statistics are accounted for at the hardware level, allowing us to construct quantum circuits that preserve the locality of the gauge-matter interactions. We exemplify the flexibility of such a fermion-qudit processor by focusing on two paradigmatic high-energy phenomena. First, we present a resource-efficient protocol to simulate the Abelian-Higgs model, where the dynamics of confinement and string breaking can be investigated. Then, we show how to prepare hadrons made up of fermionic matter constituents bound by non-abelian gauge fields, and show how to extract the corresponding hadronic tensor. In both cases, we estimate the required resources, showing how quantum devices can be used to calculate experimentally-relevant quantities in particle physics.
翻訳日:2023-03-16 18:08:25 公開日:2023-03-15
# UAV支援ネットワークにおけるデータの鮮度に対するマルチエージェント近似最適化

Muti-Agent Proximal Policy Optimization For Data Freshness in UAV-assisted Networks ( http://arxiv.org/abs/2303.08680v1 )

ライセンス: Link先を確認
Mouhamed Naby Ndiaye, El Houcine Bergou, Hajar El Hammouti(参考訳) 無人航空機(uavs)は、無線通信ネットワークにおいて幅広いタスクを実行する有望な技術と見なされている。 本研究では,IoTデバイスが生成するデータを収集するために,UAVのグループの配置を検討する。 具体的には、収集したデータが時間に敏感な場合に注目し、そのタイムラインを維持することが重要である。 我々の目標は、UAVの軌道を最適に設計することであり、グローバル・エイジ・オブ・アップデート(AoU)のような訪問するIoTデバイスのサブセットを最小化することである。 この目的のために,サービス制約の時間的および品質を考慮した混合整数非線形プログラミング (MINLP) として検討した問題を定式化する。 得られた最適化問題を効率的に解決するために、協調型マルチエージェント強化学習(MARL)フレームワークを調査し、人気の高いオンライン強化学習(RL)アルゴリズムに基づくRLアプローチを提案する。 当社のアプローチでは,UAVが集中値関数をトレーニングしながら最適なポリシを学習する,集中型トレーニング分散実行(CTDE)フレームワークを活用している。 シミュレーションの結果, 提案手法は, 従来のオフポリシー強化学習手法と比較して, グローバルaouを少なくとも1/2削減することが示された。

Unmanned aerial vehicles (UAVs) are seen as a promising technology to perform a wide range of tasks in wireless communication networks. In this work, we consider the deployment of a group of UAVs to collect the data generated by IoT devices. Specifically, we focus on the case where the collected data is time-sensitive, and it is critical to maintain its timeliness. Our objective is to optimally design the UAVs' trajectories and the subsets of visited IoT devices such as the global Age-of-Updates (AoU) is minimized. To this end, we formulate the studied problem as a mixed-integer nonlinear programming (MINLP) under time and quality of service constraints. To efficiently solve the resulting optimization problem, we investigate the cooperative Multi-Agent Reinforcement Learning (MARL) framework and propose an RL approach based on the popular on-policy Reinforcement Learning (RL) algorithm: Policy Proximal Optimization (PPO). Our approach leverages the centralized training decentralized execution (CTDE) framework where the UAVs learn their optimal policies while training a centralized value function. Our simulation results show that the proposed MAPPO approach reduces the global AoU by at least a factor of 1/2 compared to conventional off-policy reinforcement learning approaches.
翻訳日:2023-03-16 18:07:59 公開日:2023-03-15
# ターゲットラップ機能によるパブリック検証可能な削除

Publicly-Verifiable Deletion via Target-Collapsing Functions ( http://arxiv.org/abs/2303.08676v1 )

ライセンス: Link先を確認
James Bartusek and Dakshita Khurana and Alexander Poremba(参考訳) 我々は、標準暗号仮定から公に検証可能な削除をサポートする量子暗号システムを構築する。 そこで本研究では,2回目の前画像抵抗が衝突抵抗を弱めるのと同様に,ハッシュ関数の崩壊の弱化としてtarget-collapsingを導入する。 目的分解ハッシュは、[Poremba, ITCS'23]からの推測を証明し、Dual-Regev暗号(およびそれに対応する完全同型暗号)がLWE仮定の下でPVDをサポートすることを示す。 我々はさらに、このフレームワークを利用して、弱い暗号的仮定から公に検証可能な削除を支援する様々なプリミティブを得る。 - 射出片道関数の存在を前提としたPVDへのコミット、あるいはより一般的には、ほぼ規則的な片道関数。 その過程で、ほぼ規則的な一方向関数からターゲットコラプスハッシュ(英語版)を構築できることを実証する。 -PVDによる公開鍵暗号は、射出(またはほぼ規則的な)片道関数のトラップドア付き変種を仮定する。 また,擬似ランダム群行動に基づく [Hhan, Morimae, Yamakawa, Eurocrypt'23] の暗号化方式がPVDであることを示す。 - $x$ with pvd for $x \in \{$attribute-based encryption, quantum full-homomorphic encryption, witness encryption, time-revocable encryption$\}$, assuming $x$ and trapdoored variants of injectionive ( or almost-regular) one-way functions。

We build quantum cryptosystems that support publicly-verifiable deletion from standard cryptographic assumptions. We introduce target-collapsing as a weakening of collapsing for hash functions, analogous to how second preimage resistance weakens collision resistance; that is, target-collapsing requires indistinguishability between superpositions and mixtures of preimages of an honestly sampled image. We show that target-collapsing hashes enable publicly-verifiable deletion (PVD), proving conjectures from [Poremba, ITCS'23] and demonstrating that the Dual-Regev encryption (and corresponding fully homomorphic encryption) schemes support PVD under the LWE assumption. We further build on this framework to obtain a variety of primitives supporting publicly-verifiable deletion from weak cryptographic assumptions, including: - Commitments with PVD assuming the existence of injective one-way functions, or more generally, almost-regular one-way functions. Along the way, we demonstrate that (variants of) target-collapsing hashes can be built from almost-regular one-way functions. - Public-key encryption with PVD assuming trapdoored variants of injective (or almost-regular) one-way functions. We also demonstrate that the encryption scheme of [Hhan, Morimae, and Yamakawa, Eurocrypt'23] based on pseudorandom group actions has PVD. - $X$ with PVD for $X \in \{$attribute-based encryption, quantum fully-homomorphic encryption, witness encryption, time-revocable encryption$\}$, assuming $X$ and trapdoored variants of injective (or almost-regular) one-way functions.
翻訳日:2023-03-16 18:07:41 公開日:2023-03-15
# 反強磁性デルタ鎖の非エルゴード1マグノン磁化ダイナミクス

Non-ergodic one-magnon magnetization dynamics of the antiferromagnetic delta chain ( http://arxiv.org/abs/2303.08638v1 )

ライセンス: Link先を確認
F. Johannesmann, J. Eckseler, H. Schl\"uter, J. Schnack(参考訳) 反強磁性デルタ鎖の1マグノンダイナミクスを、可変平衡のパラダイム的例として検討する。 近接交換相互作用と次ネアレスト交換相互作用の比率に応じて、スピン系は1マグノン空間において平坦なバンドを示す(この場合、平衡は部分的にのみ起こるが、一般のハミルトニアンに一般的に期待される分散バンドで完備であるように見える)。 我々はその現象の分析と数値的洞察を提供する。

We investigate the one-magnon dynamics of the antiferromagnetic delta chain as a paradigmatic example of tunable equilibration. Depending on the ratio of nearest and next-nearest exchange interactions the spin system exhibits a flat band in one-magnon space - in this case equilibration happens only partially, whereas it appears to be complete with dispersive bands as generally expected for generic Hamiltonians. We provide analytical as well as numerical insight into the phenomenon.
翻訳日:2023-03-16 18:07:03 公開日:2023-03-15
# 画像から特徴へ:変分オートエンコーダとドメイン適応による不偏形形態分類

From Images to Features: Unbiased Morphology Classification via Variational Auto-Encoders and Domain Adaptation ( http://arxiv.org/abs/2303.08627v1 )

ライセンス: Link先を確認
Quanfeng Xu, Shiyin Shen, Rafael S. de Souza, Mi Chen, Renhao Ye, Yumei She, Zhu Chen, Emille E. O. Ishida, Alberto Krone-Martins, Rupesh Durgesh(参考訳) 本稿では,変分オートエンコーダ (VAE) と領域適応 (DA) を組み合わせることで,銀河画像の次元化の新たなアプローチを提案する。 本手法の有効性を,Galaxy-Zoo DECaLSプロジェクトの詳細な形態型ラベルを持つ低赤方偏移銀河のサンプルを用いて示す。 我々は,40次元潜伏変数が銀河画像のほとんどの形態的特徴を効果的に再現できることを示す。 本手法の有効性をさらに検証するために,40次元潜伏変数を用いた古典的ランダムフォレスト(rf)分類器を用いて詳細な形態的特徴分類を行った。 このアプローチは、銀河画像上の直接ニューラルネットワークアプリケーションと同様に機能する。 我々は、DECLSとBASS+MzLSの重なり合うフットプリントにおける銀河を用いたDAによるVAEネットワークのチューニングにより、我々のモデルをさらに強化する。 その結果,DAのノイズ抑制により,形態的特徴抽出や分類性能が向上した。 概して、このvaeとdaの組み合わせは、大きな光学探査において画像次元の縮小、欠陥画像の同定、形態分類を達成するために応用することができる。

We present a novel approach for the dimensionality reduction of galaxy images by leveraging a combination of variational auto-encoders (VAE) and domain adaptation (DA). We demonstrate the effectiveness of this approach using a sample of low redshift galaxies with detailed morphological type labels from the Galaxy-Zoo DECaLS project. We show that 40-dimensional latent variables can effectively reproduce most morphological features in galaxy images. To further validate the effectiveness of our approach, we utilised a classical random forest (RF) classifier on the 40-dimensional latent variables to make detailed morphology feature classifications. This approach performs similarly to a direct neural network application on galaxy images. We further enhance our model by tuning the VAE network via DA using galaxies in the overlapping footprint of DECaLS and BASS+MzLS, enabling the unbiased application of our model to galaxy images in both surveys. We observed that noise suppression during DA led to even better morphological feature extraction and classification performance. Overall, this combination of VAE and DA can be applied to achieve image dimensionality reduction, defect image identification, and morphology classification in large optical surveys.
翻訳日:2023-03-16 18:06:54 公開日:2023-03-15
# tsallis $q$-gaussianの特性関数とその計測・計測への応用

Characteristic Function of the Tsallis $q$-Gaussian and Its Applications in Measurement and Metrology ( http://arxiv.org/abs/2303.08615v1 )

ライセンス: Link先を確認
Viktor Witkovsk\'y(参考訳) tsallis $q$-gaussian 分布は標準ガウス分布の強力な一般化であり、非拡張的な統計力学、金融市場、画像処理など様々な分野で広く使われている。 これは$q$-distributionファミリーに属し、非付加エントロピーによって特徴づけられる。 汎用性と実用性のため、$q$-Gaussian は測定モデルの入力量をモデル化するための自然な選択である。 本稿では,独立な$q$-Gauss的確率変数の線形結合の特性関数を提案し,その逆解析法を提案する。 提案手法は,線形計測モデルにおける出力量の確率分布と,計測における不確実性解析の実施を可能にする。

The Tsallis $q$-Gaussian distribution is a powerful generalization of the standard Gaussian distribution and is commonly used in various fields, including non-extensive statistical mechanics, financial markets, and image processing. It belongs to the $q$-distribution family, which is characterized by a non-additive entropy. Due to their versatility and practicality, $q$-Gaussians are a natural choice for modeling input quantities in measurement models. This paper presents the characteristic function of a linear combination of independent $q$-Gaussian random variables and proposes a numerical method for its inversion. The proposed technique enables the assessment of the probability distribution of output quantities in linear measurement models and the conduct of uncertainty analysis in metrology.
翻訳日:2023-03-16 18:06:32 公開日:2023-03-15
# WikiCoder:知識駆動のコードを書くことを学ぶ

WikiCoder: Learning to Write Knowledge-Powered Code ( http://arxiv.org/abs/2303.08574v1 )

ライセンス: Link先を確認
Th\'eo Matricon, Nathana\"el Fijalkow, Ga\"etan Margueritte(参考訳) 数組のインプット・アウトプット・サンプルから,コンピュータ・プログラムの自動生成の問題に取り組む。 この研究の出発点は、多くのアプリケーションにおいて、ソリューションプログラムは例にない外部の知識を使わなければならないという観察である。 本稿では,知識駆動プログラム合成への第一歩について述べる。 WikiCoderは,機械学習型プログラムシンセサイザーの状態を基盤とし,知識グラフを統合するシステムである。 我々は、異なるドメインにまたがる幅広い適用性を示すために評価し、その限界について議論する。 WikiCoderは、知識グラフを使うことで、プログラムシンセサイザーが事前に解決できなかったタスクを解決し、大規模に運用する分野における最近の開発と統合する。

We tackle the problem of automatic generation of computer programs from a few pairs of input-output examples. The starting point of this work is the observation that in many applications a solution program must use external knowledge not present in the examples: we call such programs knowledge-powered since they can refer to information collected from a knowledge graph such as Wikipedia. This paper makes a first step towards knowledge-powered program synthesis. We present WikiCoder, a system building upon state of the art machine-learned program synthesizers and integrating knowledge graphs. We evaluate it to show its wide applicability over different domains and discuss its limitations. WikiCoder solves tasks that no program synthesizers were able to solve before thanks to the use of knowledge graphs, while integrating with recent developments in the field to operate at scale.
翻訳日:2023-03-16 18:06:11 公開日:2023-03-15
# 量子コンピューティングに基づく化学反応ダイナミクスのシミュレーション

Simulation of chemical reaction dynamics based on quantum computing ( http://arxiv.org/abs/2303.08571v1 )

ライセンス: Link先を確認
Qiankun Gong, Qingmin Man, Ye Li, Menghan Dou, Qingchun Wang, Yu-Chun Wu, Guo-Ping Guo(参考訳) 近年、多くの化学系の分子エネルギーは量子コンピュータ上でうまくシミュレーションされ、量子コンピューティングのキラー応用とみなされている。 しかし、分子エネルギーと比較して、反応力学は、特に触媒活性、材料設計において、より基本的な役割を担っている。 ノイズのある中間スケール量子(NISQ)デバイスの能力を制限し、反応力学を直接シミュレートし、反応経路を決定することは依然として課題である。 本稿では,変分量子固有解法(vqe)に基づくab initio分子動力学を用いて,相関サンプリング法を拡張して反応ダイナミクスをシミュレートする。 さらに,この手法を用いてヘッセン行列を計算し,計算資源を評価する。 水素交換反応と二分子求核置換SN2反応をシミュレートして数値解析を行った。 実験結果は、量子コンピューティングの応用のもう一つの重要な拡張である分子構造、性質、反応性を特徴付けることは信頼性が高いことを示唆している。

In recent years, the molecular energies of many chemical systems have been successfully simulated on quantum computers, which is regarded as the killer application of quantum computing. Compared to molecular energy, however, reaction dynamics play a more fundamental role in practical application, especially in catalytic activity, material design. Limited the capabilities of the noisy intermediate scale quantum (NISQ) devices, directly simulating the reaction dynamics and determining reaction pathway remain a challenge. Here, we employ the ab initio molecular dynamics based on the variational quantum eigensolver (VQE) algorithm to simulate reaction dynamics by extending correlated sampling approach. Moreover, we also use this approach to calculate Hessian matrix and evaluate computation resources. We numerically test the approach by simulating hydrogen exchange reaction and bimolecular nucleophilic substitubion SN2 reaction. The test results suggest that it is reliable to characterize the molecular structues, properties, and reactivities, which is another important expansion of the application of quantum computing.
翻訳日:2023-03-16 18:06:00 公開日:2023-03-15
# ジョイントグラフと頂点重要度学習

Joint Graph and Vertex Importance Learning ( http://arxiv.org/abs/2303.08552v1 )

ライセンス: Link先を確認
Benjamin Girault, Eduardo Pavez, Antonio Ortega(参考訳) 本稿では,不規則性に着目したグラフフーリエ変換の観点からグラフ学習の話題を考察し,グラフ信号空間内積を学習し,モデルデータを改善することを目的としている。 組合せラプラシアンアプローチと比較してエッジウェイト上限が小さいグラフを学習する新しい手法を提案する。 実験的に、このアプローチはより解釈可能なモデルを持つ組合せラプラシアンアプローチに比べて多くのスパーサーグラフを生成する。

In this paper, we explore the topic of graph learning from the perspective of the Irregularity-Aware Graph Fourier Transform, with the goal of learning the graph signal space inner product to better model data. We propose a novel method to learn a graph with smaller edge weight upper bounds compared to combinatorial Laplacian approaches. Experimentally, our approach yields much sparser graphs compared to a combinatorial Laplacian approach, with a more interpretable model.
翻訳日:2023-03-16 18:05:43 公開日:2023-03-15
# スパースサブマニフォールド畳み込みニューラルネットワークを用いたニュートリノ望遠鏡のトリガーレベルイベント再構成

Trigger-Level Event Reconstruction for Neutrino Telescopes Using Sparse Submanifold Convolutional Neural Networks ( http://arxiv.org/abs/2303.08812v1 )

ライセンス: Link先を確認
Felix J. Yu, Jeffrey Lazar, Carlos A. Arg\"uelles(参考訳) 畳み込みニューラルネットワーク(CNN)はニュートリノ望遠鏡を含む科学データ分析に広く応用されている。 しかし、これらの実験のデータは、非正則幾何学、スパーシティ、高次元など、cnnに多くの課題をもたらしている。 したがって、cnnはニュートリノ望遠鏡のデータでは極めて非効率であり、情報損失をもたらす重要な前処理を必要とする。 これらの問題の解決策としてスパースサブマニフォールド畳み込み(SSCNN)を提案し、SSCNNイベント再構成性能が従来の機械学習アルゴリズムに匹敵するか否かを示す。 さらに、SSCNNはGPU上の従来のCNNの約16倍の速度で動作します。 このスピードアップの結果、アイスキューブスケールのニュートリノ望遠鏡のトリガーレベルの事象率を処理できることが期待されている。 これらのネットワークは、ニュートリノエネルギーと方向の最初の推定を改善して、より高度な再構築を施したり、興味深い出来事を素早くフォローアップするために警告送信システムにこの情報を提供するために使用できる。

Convolutional neural networks (CNNs) have seen extensive applications in scientific data analysis, including in neutrino telescopes. However, the data from these experiments present numerous challenges to CNNs, such as non-regular geometry, sparsity, and high dimensionality. Consequently, CNNs are highly inefficient on neutrino telescope data, and require significant pre-processing that results in information loss. We propose sparse submanifold convolutions (SSCNNs) as a solution to these issues and show that the SSCNN event reconstruction performance is comparable to or better than traditional and machine learning algorithms. Additionally, our SSCNN runs approximately 16 times faster than a traditional CNN on a GPU. As a result of this speedup, it is expected to be capable of handling the trigger-level event rate of IceCube-scale neutrino telescopes. These networks could be used to improve the first estimation of the neutrino energy and direction to seed more advanced reconstructions, or to provide this information to an alert-sending system to quickly follow-up interesting events.
翻訳日:2023-03-16 18:00:06 公開日:2023-03-15
# リラックスして、どう行くかは問題ではない - マルチタイムスケール行動分析のための新しい自己教師付きアプローチ

Relax, it doesn't matter how you get there: A new self-supervised approach for multi-timescale behavior analysis ( http://arxiv.org/abs/2303.08811v1 )

ライセンス: Link先を確認
Mehdi Azabou, Michael Mendelson, Nauman Ahad, Maks Sorokin, Shantanu Thakoor, Carolina Urzay, Eva L. Dyer(参考訳) 自然行動は複雑で予測不能なダイナミクスから成り、特に未来への多くのステップを予測しようとするときに特にそうである。 制約付きあるいは単純化されたタスクベース条件下での振る舞いの表現にはいくつかの成功例があるが、これらのモデルの多くは自由で自然主義的な設定には適用できない。 本研究では,2つの新しい構成要素を組み合わせた行動のマルチタスク表現学習モデルを開発する。 一 将来の経過とともに行動の分布を予測することを目的とする行動予測目標、及び (ii)短期的・長期的ダイナミックスに対応するために独立した潜在空間を構築するマルチスケールアーキテクチャ。 実環境と地形の異なる現実的ロボットにおける局所的・大域的ダイナミクスの表現を構築できる手法を実証した結果,本手法をmabe 2022マルチエージェント行動チャレンジに適用した。 これらすべてのケースにおいて、我々のモデルは、振る舞いを駆動し、幅広い下流タスクを解決する様々な要因をキャプチャーする表現を構築することができることを示す。

Natural behavior consists of dynamics that are complex and unpredictable, especially when trying to predict many steps into the future. While some success has been found in building representations of behavior under constrained or simplified task-based conditions, many of these models cannot be applied to free and naturalistic settings where behavior becomes increasingly hard to model. In this work, we develop a multi-task representation learning model for behavior that combines two novel components: (i) An action prediction objective that aims to predict the distribution of actions over future timesteps, and (ii) A multi-scale architecture that builds separate latent spaces to accommodate short- and long-term dynamics. After demonstrating the ability of the method to build representations of both local and global dynamics in realistic robots in varying environments and terrains, we apply our method to the MABe 2022 Multi-agent behavior challenge, where our model ranks 1st overall and on all global tasks, and 1st or 2nd on 7 out of 9 frame-level tasks. In all of these cases, we show that our model can build representations that capture the many different factors that drive behavior and solve a wide range of downstream tasks.
翻訳日:2023-03-16 17:59:45 公開日:2023-03-15
# 原子アンサンブル配列におけるライドバーグドレッシングによるスピンスクイーズ

Spin Squeezing by Rydberg Dressing in an Array of Atomic Ensembles ( http://arxiv.org/abs/2303.08805v1 )

ライセンス: Link先を確認
Jacob A. Hines, Shankari V. Rajagopal, Gabriel L. Moreau, Michael D. Wahrman, Neomi A. Lewis, Ognjen Markovi\'c, Monika Schleier-Smith(参考訳) 本稿では,中性原子間の局所的相互作用を光学的に制御する手法であるrydberg dressingを用いて,セシウム原子のスピン配列配列の作成について報告する。 超ポアソン損失を抑制する分光ドレッシングシーケンスによる相互作用のコヒーレンスを最適化する。 これにより、n=200$原子のスクイージングパラメータ$\xi^2 = 0.77(9)$を用いて、標準量子極限以下の位相分散の低減を定量化する。 空間的に分離した3つのアンサンブルを並行してメトロロジーゲインを実現し,ドレッシング光の局所的な強度によりスクイーズ強度を制御した。 本手法は,原子時計のアレイに基づく基礎物理実験の精度の向上と,電磁界の量子強調撮像を可能にするために応用できる。

We report on the creation of an array of spin-squeezed ensembles of cesium atoms via Rydberg dressing, a technique that offers optical control over local interactions between neutral atoms. We optimize the coherence of the interactions by a stroboscopic dressing sequence that suppresses super-Poissonian loss. We thereby prepare squeezed states of $N=200$ atoms with a metrological squeezing parameter $\xi^2 = 0.77(9)$ quantifying the reduction in phase variance below the standard quantum limit. We realize metrological gain across three spatially separated ensembles in parallel, with the strength of squeezing controlled by the local intensity of the dressing light. Our method can be applied to enhance the precision of tests of fundamental physics based on arrays of atomic clocks and to enable quantum-enhanced imaging of electromagnetic fields.
翻訳日:2023-03-16 17:59:21 公開日:2023-03-15
# キャビティ埋め込み2次元moir\'e材料の電子-光子チャーン数

Electron-photon Chern number in cavity-embedded 2D moir\'e materials ( http://arxiv.org/abs/2303.08804v1 )

ライセンス: Link先を確認
Danh-Phuong Nguyen, Geva Arwas, Zuzhang Lin, Wang Yao, Cristiano Ciuti(参考訳) 我々は、2次元材料のトポロジカルな性質を共振および非共鳴電子-光子カップリングのための空洞量子電磁場によってどのように操作できるかを理論的に検討する。 電子と光子の状態のハイブリッド化の度合いでよく定義される空洞型エネルギーミニバンドに対する電子-光子トポロジカルチャーチャーン数について検討する。 オフ共振キャビティモードはキャビティカップリングなしで存在する電子位相位相位相を再正規化することができるが、キャビティモードが電子ミニバンド遷移に共振する場合、新しい高次電子光子チャーン数が出現する。

We explore theoretically how the topological properties of 2D materials can be manipulated by cavity quantum electromagnetic fields for both resonant and off-resonant electron-photon coupling, with a focus on van der Waals moir\'e superlattices. We investigate an electron-photon topological Chern number for the cavity-dressed energy minibands that is well defined for any degree of hybridization of the electron and photon states. While an off-resonant cavity mode can renormalize electronic topological phases that exist without cavity coupling, we show that when the cavity mode is resonant to electronic miniband transitions, new and higher electron-photon Chern numbers can emerge.
翻訳日:2023-03-16 17:59:04 公開日:2023-03-15
# 強弱障害XXZモデルにおける最も遅い、かつ高速な情報スクランブル

Slowest and Fastest Information Scrambling in the Strongly Disordered XXZ Model ( http://arxiv.org/abs/2303.08801v1 )

ライセンス: Link先を確認
Myeonghyeon Kim, Dong-Hee Kim(参考訳) 深部多体局在状態における強弱乱れハイゼンベルクXXZモデルにおいて、時間外順序相関を計算するための摂動法を提案する。 固有状態全体にわたる情報伝達の離散構造を特徴とし,本システムで利用可能な最も遅くて速いスクランブルを表わす厳密な対数上界と下界に閉じ込められた高度に構造化された光円錐を明らかにした。 これらの境界を,最も遅いスクランブルに対して効果的な相互作用の閉形式表現を導出し,最も速いスクランブルに対して半長さの有効モデルを構築することで説明する。 我々は低次の摂動定式化を高次元に拡張し、対数的な上下光円錐が強い障害と弱いホッピングの限界において2次元に持続する可能性を示唆した。

We present a perturbation method to compute the out-of-time-ordered correlator in the strongly disordered Heisenberg XXZ model in the deep many-body localized regime. We characterize the discrete structure of the information propagation across the eigenstates, revealing a highly structured light cone confined by the strictly logarithmic upper and lower bounds representing the slowest and fastest scrambling available in this system. We explain those bounds by deriving the closed-form expression of the effective interaction for the slowest scrambling and by constructing the effective model of a half-length for the fastest scrambling. We extend our lowest-order perturbation formulations to the higher dimensions, proposing that the logarithmic upper and lower light cones may persist in two dimensions in the limit of strong disorder and weak hopping.
翻訳日:2023-03-16 17:58:48 公開日:2023-03-15
# 確率補間体:流れと拡散の統一的枠組み

Stochastic Interpolants: A Unifying Framework for Flows and Diffusions ( http://arxiv.org/abs/2303.08797v1 )

ライセンス: Link先を確認
Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden(参考訳) 本稿では,Albergo & Vanden-Eijnden (2023) で提案されている確率補間フレームワークに基づく生成モデルのクラスを紹介する。 まず、時間依存確率密度関数が2つの任意の密度を正確に有限時間で橋渡しする幅広い時間確率過程を構築する方法を示す。 これらの「確率的補間」は、2つの密度から得られるデータと追加の潜伏変数を組み合わせることで構築され、構成の具体的な詳細を利用して結果の時間依存密度を柔軟に形成することができる。 次に、確率補間体の時間依存密度は、一階の輸送方程式と、波長の拡散を伴うフォッカー・プランク方程式の族を満足することを示し、個々のサンプルの時間発展を考えると、この視点は、確率フロー方程式や可変レベルのノイズを持つ確率微分方程式に基づく決定論的・確率的生成モデルの両方に直ちに結びつくことを示した。 これらのモデルに入るドリフト係数は、単純な二次目的関数のユニークな最小値として特徴づけられる時間依存速度場であり、補間密度のスコアの新しい目的である。 驚くべきことに、これらの二次目的の最小化は確率力学に基づく生成モデルの可能性の制御につながり、それとは対照的に決定論的ダイナミクスに基づく生成モデルは、さらに、目標とモデルの間のフィッシャーの発散を制御する必要がある。 最後に, 補間系生成モデルの確率と交叉エントロピーについて推定器を構築し, それらのモデルが補間体を明示的に最適化する場合, 2つの対象密度間のシュル=オディンガーブリッジを復元することを示す。

We introduce a class of generative models based on the stochastic interpolant framework proposed in Albergo & Vanden-Eijnden (2023) that unifies flow-based and diffusion-based methods. We first show how to construct a broad class of continuous-time stochastic processes whose time-dependent probability density function bridges two arbitrary densities exactly in finite time. These `stochastic interpolants' are built by combining data from the two densities with an additional latent variable, and the specific details of the construction can be leveraged to shape the resulting time-dependent density in a flexible way. We then show that the time-dependent density of the stochastic interpolant satisfies a first-order transport equation as well as a family of forward and backward Fokker-Planck equations with tunable diffusion; upon consideration of the time evolution of an individual sample, this viewpoint immediately leads to both deterministic and stochastic generative models based on probability flow equations or stochastic differential equations with a tunable level of noise. The drift coefficients entering these models are time-dependent velocity fields characterized as the unique minimizers of simple quadratic objective functions, one of which is a new objective for the score of the interpolant density. Remarkably, we show that minimization of these quadratic objectives leads to control of the likelihood for generative models built upon stochastic dynamics; by contrast, we show that generative models based upon a deterministic dynamics must, in addition, control the Fisher divergence between the target and the model. Finally, we construct estimators for the likelihood and the cross-entropy of interpolant-based generative models, and demonstrate that such models recover the Schr\"odinger bridge between the two target densities when explicitly optimizing over the interpolant.
翻訳日:2023-03-16 17:58:32 公開日:2023-03-15
# ハロゲン化ペロブスカイト人工固体を用いたドープモット絶縁体における集合現象のシミュレーション

Halide perovskite artificial solids as a new platform to simulate collective phenomena in doped Mott insulators ( http://arxiv.org/abs/2303.08791v1 )

ライセンス: Link先を確認
Alessandra Milloch, Umberto Filippi, Paolo Franceschini, Michele Galvani, Selene Mor, Stefania Pagliara, Gabriele Ferrini, Francesco Banfi, Massimo Capone, Dmitry Baranov, Liberato Manna, and Claudio Giannetti(参考訳) 相関量子物質の多体理論の予測を制御可能かつ調整可能な方法で検証できる人工プラットフォームである量子シミュレータの開発は、凝縮物質物理学の主要な課題の1つである。 ここでは,ハロゲン化鉛ペロブスカイトナノキューブを用いた人工格子を,相関量子材料の物理をシミュレートし,研究するための新しいプラットフォームとして紹介する。 量子閉じ込め励起子の超高速光注入は、実材料におけるドーピングの役割を担っている。 大規模な光ドーピングにおいて、励起子ガスは励起モット遷移を行い、ハバードモデルで記述された磁場駆動絶縁体-金属遷移を完全に実現していることを示す。 低い光ドーピングでは、長距離相互作用が集合超放射状態の形成を駆動し、それぞれのペロブスカイトナノキューブで生成された励起子の相がコヒーレントにロックされる。 その結果, 時間分解実験は, ドープモット絶縁相から長距離および位相コヒーレント秩序が出現するハバードモデルのパラメータ領域にまたがることを示した。 この物理学は超伝導や電荷密度波などの幅広い種類の現象に関係しており、その性質はハバード模型によって捉えられる。

The development of Quantum Simulators, artificial platforms where the predictions of many-body theories of correlated quantum materials can be tested in a controllable and tunable way, is one of the main challenges of condensed matter physics. Here we introduce artificial lattices made of lead halide perovskite nanocubes as a new platform to simulate and investigate the physics of correlated quantum materials. The ultrafast optical injection of quantum confined excitons plays the role of doping in real materials. We show that, at large photo-doping, the exciton gas undergoes an excitonic Mott transition, which fully realizes the magnetic-field-driven insulator-to-metal transition described by the Hubbard model. At lower photo-doping, the long-range interactions drive the formation of a collective superradiant state, in which the phases of the excitons generated in each single perovskite nanocube are coherently locked. Our results demonstrate that time-resolved experiments span a parameter region of the Hubbard model in which long-range and phase-coherent orders emerge out of a doped Mott insulating phase. This physics is relevant for a broad class of phenomena, such as superconductivity and charge-density waves in correlated materials whose properties are captured by doped Hubbard models.
翻訳日:2023-03-16 17:58:00 公開日:2023-03-15
# ニューラルネットワークを用いた深部校正:オプション価格モデルにおける性能比較

Deep Calibration With Artificial Neural Network: A Performance Comparison on Option Pricing Models ( http://arxiv.org/abs/2303.08760v1 )

ライセンス: Link先を確認
Young Shin Kim, Hyangju Kim, Jaehyung Choi(参考訳) 本稿では,オプション価格モデルのキャリブレーションアルゴリズムのモデルフリーソリューションとして,ニューラルネットワーク(ANN)について検討する。 我々は,2つのよく知られたGARCH型オプション価格モデル(Duan's GARCH)とBlack-Scholesモデルの制限を著しく改善する古典的テンパレート安定GARCH)のパラメータを校正するために,ANNを構築した。 この技術的難しさを緩和するため,モンテカルロシミュレーション(mcs)法で生成されたデータセットを用いてannを訓練し,最適パラメータの校正に適用した。 その結果、ANNアプローチはMCSを一貫して上回り、訓練後より高速な計算時間を生かしていることがわかった。 オプションのギリシア語も議論されている。

This paper explores Artificial Neural Network (ANN) as a model-free solution for a calibration algorithm of option pricing models. We construct ANNs to calibrate parameters for two well-known GARCH-type option pricing models: Duan's GARCH and the classical tempered stable GARCH that significantly improve upon the limitation of the Black-Scholes model but have suffered from computation complexity. To mitigate this technical difficulty, we train ANNs with a dataset generated by Monte Carlo Simulation (MCS) method and apply them to calibrate optimal parameters. The performance results indicate that the ANN approach consistently outperforms MCS and takes advantage of faster computation times once trained. The Greeks of options are also discussed.
翻訳日:2023-03-16 17:57:37 公開日:2023-03-15
# 大規模オープンチャレンジにおけるジェスチャジェネレーションの評価:GENEA Challenge 2022

Evaluating gesture-generation in a large-scale open challenge: The GENEA Challenge 2022 ( http://arxiv.org/abs/2303.08737v1 )

ライセンス: Link先を確認
Taras Kucherenko, Pieter Wolfert, Youngwoo Yoon, Carla Viegas, Teodor Nikolov, Mihail Tsakov, Gustav Eje Henter(参考訳) 本稿では,データ駆動型自動音声ジェスチャー生成のための第2回GENEAチャレンジについて報告する。 参加チームは同じ音声とモーションデータセットを使用してジェスチャ生成システムを構築した。 これらのシステムによって生成された動きは、標準化されたヴィジュアライゼーションパイプラインを使用してビデオにレンダリングされ、クラウドソーシングされた大規模ユーザ研究で評価された。 異なる研究論文を比較する場合とは異なり、結果の相違は方法の違いによってのみ生じ、システム間を直接比較することができる。 データセットは、ディヤドの会話に参加している異なる人の指を含む18時間のフルボディモーションキャプチャに基づいていた。 10チームがフルボディとアッパーボディの2段階にわたる挑戦に参加した。 各階層において、ジェスチャー動作の人間的類似度と、特定の音声信号に対する適切性を評価した。 本評価では, ジェスチャーの適切性から人的類似性を分離し, この分野では困難な問題となっている。 評価結果は革命であり、啓示である。 いくつかの合成条件は、人間のモーションキャプチャーよりも人間に近いと評価されている。 我々の知る限りでは、これはかつて高忠実なアバターで示されたことはない。 一方、すべての合成動作は、元のモーションキャプチャー記録よりも音声に非常に適していないことが判明した。 また, 従来の客観的指標は, 主観的人間的類似度とよく相関しないことがわかった。 例外はFr'echet ジェスチャー距離(FGD)であり、Kendall の Tau ランクの相関は -0.5 である。 チャレンジ結果に基づいて,システム構築と評価のための多数の推奨事項を定式化した。

This paper reports on the second GENEA Challenge to benchmark data-driven automatic co-speech gesture generation. Participating teams used the same speech and motion dataset to build gesture-generation systems. Motion generated by all these systems was rendered to video using a standardised visualisation pipeline and evaluated in several large, crowdsourced user studies. Unlike when comparing different research papers, differences in results are here only due to differences between methods, enabling direct comparison between systems. The dataset was based on 18 hours of full-body motion capture, including fingers, of different persons engaging in a dyadic conversation. Ten teams participated in the challenge across two tiers: full-body and upper-body gesticulation. For each tier, we evaluated both the human-likeness of the gesture motion and its appropriateness for the specific speech signal. Our evaluations decouple human-likeness from gesture appropriateness, which has been a difficult problem in the field. The evaluation results are a revolution, and a revelation. Some synthetic conditions are rated as significantly more human-like than human motion capture. To the best of our knowledge, this has never been shown before on a high-fidelity avatar. On the other hand, all synthetic motion is found to be vastly less appropriate for the speech than the original motion-capture recordings. We also find that conventional objective metrics do not correlate well with subjective human-likeness ratings in this large evaluation. The one exception is the Fr\'echet gesture distance (FGD), which achieves a Kendall's tau rank correlation of around -0.5. Based on the challenge results we formulate numerous recommendations for system building and evaluation.
翻訳日:2023-03-16 17:57:22 公開日:2023-03-15
# シミュレーションデータの後処理による雷雨予報への機械学習アプローチ

A machine-learning approach to thunderstorm forecasting through post-processing of simulation data ( http://arxiv.org/abs/2303.08736v1 )

ライセンス: Link先を確認
Kianusch Vahid Yousefnia, Tobias B\"olle, Isabella Z\"obisch, Thomas Gerz(参考訳) 雷雨は社会や経済に大きな危険をもたらし、信頼できる雷雨予報が求められている。 本研究では,数値気象予測(NWP)データから雷雨の発生を識別するためのフィードフォワードニューラルネットワークモデルであるSALAMAを紹介する。 このモデルは、中央ヨーロッパにおける対流分解アンサンブル予測と雷観測で訓練されている。 NWPデータから抽出され、雷雨発生に関連する画素単位の入力パラメータのみを考慮し、SALAMAは雷雨の発生確率を確実に調整した方法で推定する。 11時間以内のリードタイムでは、対流可能なポテンシャルエネルギーのみに基づく分類よりも優れた予測スキルが得られます。 雷観測とNWPデータとを関連づけた時空間基準を用いて, 熟練した雷雨予測の時間スケールが予測の空間スケールと線形に増加することを示す。

Thunderstorms pose a major hazard to society and economy, which calls for reliable thunderstorm forecasts. In this work, we introduce SALAMA, a feedforward neural network model for identifying thunderstorm occurrence in numerical weather prediction (NWP) data. The model is trained on convection-resolving ensemble forecasts over Central Europe and lightning observations. Given only a set of pixel-wise input parameters that are extracted from NWP data and related to thunderstorm development, SALAMA infers the probability of thunderstorm occurrence in a reliably calibrated manner. For lead times up to eleven hours, we find a forecast skill superior to classification based only on convective available potential energy. Varying the spatiotemporal criteria by which we associate lightning observations with NWP data, we show that the time scale for skillful thunderstorm predictions increases linearly with the spatial scale of the forecast.
翻訳日:2023-03-16 17:56:58 公開日:2023-03-15
# 温原子アンサンブルからの位相を有する4光子グリーンベルガー・ホーン・ゼイリンジャー状態によるベル不平等の紫外化

Violation of Bell inequality by four photon Greenberger Horne Zeilinger state with a phase from a warm atomic ensemble ( http://arxiv.org/abs/2303.08297v1 )

ライセンス: Link先を確認
Jiho Park, Junghee Ryu, Heonoh Kim, and Han Seb Moon(参考訳) greenberger horne zeilinger (ghz) の位相の絡み合った状態は、実用的な応用のために所望の多成分量子状態を実現するのに不可欠である。 本稿では, 87Rb原子の5S1/2 5P3/2 5D5/2遷移において, 固有偏光相関と集合2光子コヒーレンスにより実現された4光子偏光交絡位相GHZ状態を用いて[1]に導入された一般ベル不等式(GBI)の違反を報告する。 位相GHZ状態は、4つの光子の1つの局所位相のみのユニタリ変換によって達成できる。 理論的には、 {\pi}/4 相の GHZ 状態は、パウリ作用素 {\sigma}_x と {\sigma}_y の局所的な測定設定における 2sqrt(2) の GBI の最大違反を与える。 47の標準偏差による位相GHZ状態のGBIの強い違反を実験的に実証した。 位相GHZ状態の絡み合いの証人に加えて、この結果は位相GHZ状態の真の4つの光子絡み合いを表すので、フォトニック量子計算、絡み合い状態からのマジック状態蒸留、原子光子相互作用に基づく量子ネットワークを実現するための新しい資源を提供する。

A Greenberger Horne Zeilinger (GHZ) entangled state with a phase is crucial for realizing desired multipartite quantum states for practical applications. Here, we report violations of the general Bell inequality (GBI) introduced in [1] using the four photon polarization entangled phase GHZ state realized via intrinsic polarization correlation and collective two-photon coherence in the 5S1/2 5P3/2 5D5/2 transition of 87Rb atoms. The phase GHZ state can be achieved by the unitary transformation of only one local phase of the four photons. Theoretically, the GHZ state with the {\pi}/4 phase affords maximal violation of the GBI of 2sqrt(2) at the local measurement settings of the Pauli operators {\sigma}_x and {\sigma}_y. We experimentally demonstrate strong violations of the GBI of the phase-GHZ state by 47 standard deviations. In addition to the entanglement witness for the phase GHZ state, the results represent a genuine four photon entanglement of the phase GHZ state, thereby providing a novel resource for realizing photonic quantum computation, magic state distillation from entangled states, and quantum networks based on atom photon interactions.
翻訳日:2023-03-16 15:16:42 公開日:2023-03-15
# エンタングルメント支援量子リードミューラーテンソル製品コード

Entanglement-assisted Quantum Reed-Muller Tensor Product Codes ( http://arxiv.org/abs/2303.08294v1 )

ライセンス: Link先を確認
Priya J. Nadkarni, Praveen Jayakumar, Arpit Behera and Shayan Srinivasa Garani(参考訳) 本稿では,古典的RM符号からの絡み合い支援(EA)量子ビットリード・ミュラー符号の構成について述べる。 また,CSS 構造を用いて得られた EA RM 符号は,符号速度がゼロで負の触媒速度を持つことを示した。 さらに,これら同じ古典的rm符号をテンソル積符号(tpc)構成を用いて構築したea符号は正の符号化率を有し,正の触媒率を持つea rm tpcのサブクラスを提供し,量子通信に有用なこのコード群に対する超加法性の符号化類似性を確立した。

We present the construction of entanglement-assisted (EA) qubit Reed-Muller (RM) codes from classical RM codes. We show that the EA RM codes obtained using the CSS construction have zero coding rate and negative catalytic rate. We further show that EA codes constructed from these same classical RM codes using the tensor product code (TPC) construction have positive coding rate and provide a subclass of EA RM TPCs that have positive catalytic rate, thus establishing the coding analog of superadditivity for this family of codes, useful towards quantum communications.
翻訳日:2023-03-16 15:16:03 公開日:2023-03-15
# 三重項損失関数に基づく量子対数距離学習モデル

Quantum adversarial metric learning model based on triplet loss function ( http://arxiv.org/abs/2303.08293v1 )

ライセンス: Link先を確認
Yan-Yan Hou, Jian Li, Xiu-Bo Chen, Chong-Qiang Ye(参考訳) メトリック学習は、画像分析と分類において重要な役割を担っており、ますます注目を集めている。 本稿では,三重項損失関数に基づく量子逆距離学習(QAML)モデルを提案し,試料を高次元ヒルベルト空間に埋め込み,三重項損失関数を最小化して最適な計量を求める。 QAMLモデルは、三重項サンプルの重畳状態を構築するために絡み合いと干渉を利用し、サンプル距離を計算するために1つのパラメータ化量子回路しか必要とせず、量子資源の需要を減少させる。 QAMLモデルは敵攻撃に対して脆弱であるため、量子勾配上昇法に基づいて対向サンプル生成戦略を設計し、機能的対向攻撃に対するロバスト性を効果的に改善する。 シミュレーションの結果、QAMLモデルは、MNISTとIrisデータセットのサンプルを効果的に識別でき、一般的な量子メトリック学習よりもロバストネスの精度が高いことが示された。 QAMLモデルは機械学習の基本的な研究課題である。 分類とクラスタリングタスクのサブルーチンとして、QAMLモデルは機械学習における量子的優位性を探究するための道を開く。

Metric learning plays an essential role in image analysis and classification, and it has attracted more and more attention. In this paper, we propose a quantum adversarial metric learning (QAML) model based on the triplet loss function, where samples are embedded into the high-dimensional Hilbert space and the optimal metric is obtained by minimizing the triplet loss function. The QAML model employs entanglement and interference to build superposition states for triplet samples so that only one parameterized quantum circuit is needed to calculate sample distances, which reduces the demand for quantum resources. Considering the QAML model is fragile to adversarial attacks, an adversarial sample generation strategy is designed based on the quantum gradient ascent method, effectively improving the robustness against the functional adversarial attack. Simulation results show that the QAML model can effectively distinguish samples of MNIST and Iris datasets and has higher robustness accuracy over the general quantum metric learning. The QAML model is a fundamental research problem of machine learning. As a subroutine of classification and clustering tasks, the QAML model opens an avenue for exploring quantum advantages in machine learning.
翻訳日:2023-03-16 15:15:44 公開日:2023-03-15
# 持続可能なリサイクル材料を用いたアジャイルマニュファクチャリングにおける機械学習アプローチ

Machine Learning Approaches in Agile Manufacturing with Recycled Materials for Sustainability ( http://arxiv.org/abs/2303.08291v1 )

ライセンス: Link先を確認
Aparna S. Varde, Jianyu Liang(参考訳) 環境に優しい材料科学や製造における持続可能なプロセスを開発することが重要である。 aiは、私たちの提案する機械学習ベースのアプローチを使用して開発されたツールに先立つ以前の研究から明らかなように、この決定支援において重要な役割を果たすことができます。 このようなツールは、計算の見積もりとエキスパートシステムに役立った。 本研究は, リサイクル・再生材料を用いたアジャイル製造における意思決定支援を通じて, 材料科学における環境持続可能性について論じる。 これは、特定の廃棄物ストリームを付加価値製品に変換する安全で責任ある方法です。 本稿では,機械学習モデルを用いて予測分析を行い,製造における意思決定支援を支援することによって,AIにおけるデータ駆動手法を提案する。 これには、材料の熱処理に影響を及ぼすパラメータと特性に影響を与えるパラメータの研究、畳み込みニューラルネットワークによる粒度検出の探索による深層学習、ランダムフォレスト(Random Forests)などの分類器によるフレーズ分画検出の解析などが含まれる。 例えば、ANNは熱処理プロセスであるクエンチ・テンパリング(en:quench tempering)において、微細構造の発生を予測するのに約90%の精度が得られる。 さまざまなコンピュータビジョンモデル(VGG、ResNetなど)を調査して、持続可能なプロセスに適した最適な正確性、効率、堅牢性を見つけること、アジャイル製造における意思決定を支援するために機械学習を使用してドメイン固有のツールを作成すること、リサイクルされた素材の適切な使用と開発製品の有効性を取り入れたメトリクスによる持続可能性への影響を評価すること。 私たちの研究は、スマートマニュファクチャリングのためのグリーン技術に影響を与え、材料科学のためのaiの非常に興味深い領域における関連作業によって動機づけられています。

It is important to develop sustainable processes in materials science and manufacturing that are environmentally friendly. AI can play a significant role in decision support here as evident from our earlier research leading to tools developed using our proposed machine learning based approaches. Such tools served the purpose of computational estimation and expert systems. This research addresses environmental sustainability in materials science via decision support in agile manufacturing using recycled and reclaimed materials. It is a safe and responsible way to turn a specific waste stream to value-added products. We propose to use data-driven methods in AI by applying machine learning models for predictive analysis to guide decision support in manufacturing. This includes harnessing artificial neural networks to study parameters affecting heat treatment of materials and impacts on their properties; deep learning via advances such as convolutional neural networks to explore grain size detection; and other classifiers such as Random Forests to analyze phrase fraction detection. Results with all these methods seem promising to embark on further work, e.g. ANN yields accuracy around 90\% for predicting micro-structure development as per quench tempering, a heat treatment process. Future work entails several challenges: investigating various computer vision models (VGG, ResNet etc.) to find optimal accuracy, efficiency and robustness adequate for sustainable processes; creating domain-specific tools using machine learning for decision support in agile manufacturing; and assessing impacts on sustainability with metrics incorporating the appropriate use of recycled materials as well as the effectiveness of developed products. Our work makes impacts on green technology for smart manufacturing, and is motivated by related work in the highly interesting realm of AI for materials science.
翻訳日:2023-03-16 15:15:14 公開日:2023-03-15
# テキストによる電子健康記録の符号化におけるCNNの妥当性の再検討

Rediscovery of CNN's Versatility for Text-based Encoding of Raw Electronic Health Records ( http://arxiv.org/abs/2303.08290v1 )

ライセンス: Link先を確認
Eunbyeol Cho, Min Jae Lee, Kyunghoon Hur, Jiyoun Kim, Jinsung Yoon, Edward Choi(参考訳) 電子健康記録(EHR)に豊富な情報を最大限に活用することは、医療分野において急速に重要なトピックになりつつある。 最近の研究は、フォームや医療コード標準に関係なく、すべての機能を生のEHRデータに組み込む有望なフレームワークを提示した。 しかし、このフレームワークは、最小限の事前処理で EHR を符号化することのみに焦点を当てており、計算とメモリ使用量の観点から効率的な EHR 表現の学習方法を考えることができない。 本稿では,大容量データを管理可能なサイズに縮小するだけでなく,多種多様な臨床業務を行う患者の中核情報を適切に保存する多目的エンコーダを探索する。 階層的に構成された畳み込みニューラルネットワーク(cnn)は,パラメータが少なく,トレーニング時間が短い場合でも,再構成や予測,生成といったさまざまなタスクにおいて,最先端のモデルを上回ることが多かった。 さらに, EHRデータ固有の階層構造を利用することで, バックボーンモデルや臨床作業のパフォーマンスが向上することが判明した。 本研究の成果を実世界の実践に一般化するための具体的な証拠を提示する。 我々は、多くの設定を探索しながら得られた研究結果に基づいて、エンコーダを構築するための明確なガイドラインを示す。

Making the most use of abundant information in electronic health records (EHR) is rapidly becoming an important topic in the medical domain. Recent work presented a promising framework that embeds entire features in raw EHR data regardless of its form and medical code standards. The framework, however, only focuses on encoding EHR with minimal preprocessing and fails to consider how to learn efficient EHR representation in terms of computation and memory usage. In this paper, we search for a versatile encoder not only reducing the large data into a manageable size but also well preserving the core information of patients to perform diverse clinical tasks. We found that hierarchically structured Convolutional Neural Network (CNN) often outperforms the state-of-the-art model on diverse tasks such as reconstruction, prediction, and generation, even with fewer parameters and less training time. Moreover, it turns out that making use of the inherent hierarchy of EHR data can boost the performance of any kind of backbone models and clinical tasks performed. Through extensive experiments, we present concrete evidence to generalize our research findings into real-world practice. We give a clear guideline on building the encoder based on the research findings captured while exploring numerous settings.
翻訳日:2023-03-16 15:14:46 公開日:2023-03-15
# 超球埋め込みと角型正則化による逆ロバスト性の改善

Improving Adversarial Robustness with Hypersphere Embedding and Angular-based Regularizations ( http://arxiv.org/abs/2303.08289v1 )

ライセンス: Link先を確認
Olukorede Fakorede, Ashutosh Nirala, Modeste Atsague, Jin Tian(参考訳) 敵対的トレーニング(AT)法は、ディープニューラルネットワークに対する敵対的攻撃に対して有効であることが判明した。 ATの多くの派生型が性能向上のために提案されている。 Pang et al. [1] は近年,超球埋め込み (HE) を既存のATプロシージャに組み込むことでロバスト性を高めることが示されている。 既存のATプロシージャはHEフレームワーク用に設計されていないため、HEフレームワークで利用可能な角識別情報を適切に学習することができない。 本稿では,HE フレームワークで利用可能なリッチな角情報を利用する正規化用語で HE を AT に統合することを提案する。 具体的には、angular-atと呼ばれるこのメソッドは、ウェイト機能のコンパクト性とクラス間の分離を明示的に強制するために、正規化項を追加します。 実験の結果,角部ATは対向性をさらに向上することが示された。

Adversarial training (AT) methods have been found to be effective against adversarial attacks on deep neural networks. Many variants of AT have been proposed to improve its performance. Pang et al. [1] have recently shown that incorporating hypersphere embedding (HE) into the existing AT procedures enhances robustness. We observe that the existing AT procedures are not designed for the HE framework, and thus fail to adequately learn the angular discriminative information available in the HE framework. In this paper, we propose integrating HE into AT with regularization terms that exploit the rich angular information available in the HE framework. Specifically, our method, termed angular-AT, adds regularization terms to AT that explicitly enforce weight-feature compactness and inter-class separation; all expressed in terms of angular features. Experimental results show that angular-AT further improves adversarial robustness.
翻訳日:2023-03-16 15:14:23 公開日:2023-03-15
# 変圧器の注意関係

Attention-likelihood relationship in transformers ( http://arxiv.org/abs/2303.08288v1 )

ライセンス: Link先を確認
Valeria Ruscio, Valentino Maiorca, Fabrizio Silvestri(参考訳) 我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。 我々の可能性誘導テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。 広範な実験により、予期せぬトークンはモデルが自身から来る情報、特に上位層での表現を計算するのにあまり関与しないことが明らかになった。 これらの結果は,実世界のシナリオにおけるllmのロバスト性を評価する上で有用である。 完全な再現可能なコードベースはhttps://github.com/flegyas/attentionlikelihood。

We analyze how large language models (LLMs) represent out-of-context words, investigating their reliance on the given context to capture their semantics. Our likelihood-guided text perturbations reveal a correlation between token likelihood and attention values in transformer-based language models. Extensive experiments reveal that unexpected tokens cause the model to attend less to the information coming from themselves to compute their representations, particularly at higher layers. These findings have valuable implications for assessing the robustness of LLMs in real-world scenarios. Fully reproducible codebase at https://github.com/Flegyas/AttentionLikelihood.
翻訳日:2023-03-16 15:14:06 公開日:2023-03-15
# アンシラキュービットを使わずに最適なワイヤ切断法

An alternative approach to optimal wire cutting without ancilla qubits ( http://arxiv.org/abs/2303.08287v1 )

ライセンス: Link先を確認
Edwin Pednault(参考訳) ワイヤカット(Wire cutting)は、小さなサブ回路に量子回路を分割する手法であり、小さなサブ回路の測定から元の回路の観測値を推定することができる。 このような技術は、短期量子デバイスで利用可能な限られた量子ビット数に対する回避策を提供する。 しかし、ワイヤ切断は、所望の量子観測可能量を統計精度の所望のレベルまで推定するために、そのようなサブサーキットの実行回数に乗算係数を導入する。 近年, ワイヤカット数の関数としての乗算因子を最小化するために, アンシラ量子ビットを用いた最適ワイヤカット法が報告されている。 つい最近まで、アンシラを用いなかった最も有名なワイヤカット技術は同じ乗算因子に漸近的に収束したが、少数の切断では著しく悪化した。 この後者の手法は、クリフォード2-設計からランダムにショット単位でサンプリングされる測定と状態準備サブ回路を挿入する必要がある。 本稿では,アンシラ量子ビットによるワイヤ切断と同等の最適乗算係数を実現するサブ回路のペアに対して,アンシラを必要としないワイヤ切断法を提案する。 また, 1次2次設計は, 分解を満足する十分な基礎を提供するが, 2次設計は数学的に必要ではなく, 2次設計よりもかなり小さい分解のために, 代替のユニタリ設計を構築することができることを示した。 論文の公開が間近であったため、同様の結果が公表され、2つのアプローチの比較も含んでいる。

Wire cutting is a technique for partitioning large quantum circuits into smaller subcircuits in such a way that observables for the original circuits can be estimated from measurements on the smaller subcircuits. Such techniques provide workarounds for the limited numbers of qubits that are available on near-term quantum devices. Wire cutting, however, introduces multiplicative factors in the number of times such subcircuits need to be executed in order to estimate desired quantum observables to desired levels of statistical accuracy. An optimal wire-cutting methodology has recently been reported that uses ancilla qubits to minimize the multiplicative factors involved as a function of the number of wire cuts. Until just recently, the best-known wire-cutting technique that did not employ ancillas asymptotically converged to the same multiplicative factors, but performed significantly worse for small numbers of cuts. This latter technique also requires inserting measurement and state-preparation subcircuits that are randomly sampled from Clifford 2-designs on a per-shot basis. This paper presents a modified wire-cutting approach for pairs of subcircuits that achieves the same optimal multiplicative factors as wire cutting aided by ancilla qubits, but without requiring ancillas. The paper also shows that, while unitary 2-designs provide a sufficient basis for satisfying the decomposition, 2-designs are not mathematically necessary and alternative unitary designs can be constructed for the decompositions that are substantially smaller in size than 2-designs. As this paper was just about to be released, a similar result was published, so we also include a comparison of the two approaches.
翻訳日:2023-03-16 15:13:56 公開日:2023-03-15
# 代替燃料車の社会経済状況と空気質指標との連携

Linking Alternative Fuel Vehicles Adoption with Socioeconomic Status and Air Quality Index ( http://arxiv.org/abs/2303.08286v1 )

ライセンス: Link先を確認
Anuradha Singh, Jyoti Yadav, Sarahana Shrestha, Aparna S. Varde(参考訳) 本研究は, 代替燃料車の普及可能性について検討し, それぞれの消費者の社会経済的地位と, 結果の空気質指標への影響を関連づけるものである。 本研究は, 自動車などの代替燃料車の普及に対する適切な政策と, 人口集団の優越性を高めるために, 機械学習技術を活用することを目的としている。 社会経済的データ, 空気質指標, 代替燃料車のデータとの関係をモデル化するために, ピアソン相関係数を配置する。 リニア回帰は、社会経済的要因に基づく代替燃料車の導入による空気質指数の予測モデルを実行するために用いられる。 この仕事は、社会的善のために人工知能を例示する。

This is a study on the potential widespread usage of alternative fuel vehicles, linking them with the socio-economic status of the respective consumers as well as the impact on the resulting air quality index. Research in this area aims to leverage machine learning techniques in order to promote appropriate policies for the proliferation of alternative fuel vehicles such as electric vehicles with due justice to different population groups. Pearson correlation coefficient is deployed in the modeling the relationships between socio-economic data, air quality index and data on alternative fuel vehicles. Linear regression is used to conduct predictive modeling on air quality index as per the adoption of alternative fuel vehicles, based on socio-economic factors. This work exemplifies artificial intelligence for social good.
翻訳日:2023-03-16 15:13:29 公開日:2023-03-15
# 危険で群がった環境でのロボットナビゲーション:人間の嗜好を理解する

Robot Navigation in Risky, Crowded Environments: Understanding Human Preferences ( http://arxiv.org/abs/2303.08284v1 )

ライセンス: Link先を確認
Aamodh Suresh, Angelique Taylor, Laurel D. Riek, Sonia Martinez(参考訳) リスクと混み合った環境(RCE)には、人間によって異なる知覚のリスクと不確実性の抽象的な源が含まれており、様々な行動をもたらす。 このように、CEに展開されたロボットは、他の人間のエージェントの行動を解釈し、そのような環境で行動するために、多様な知覚と計画能力を示す必要がある。 この問題領域を理解するために、我々はRCCにおけるヒューマンパスの選択を探究し、より優れたロボットナビゲーション説明型AI(XAI)の設計を可能にした。 われわれは、新型コロナウイルス(COVID-19)パンデミックによる食料品のショッピングシナリオを新たに作りました。 参加者は、リスクから緊急から安全、リラックスに至るまで、さまざまな経路の選好を示すことが分かりました。 ユーザの意思決定をモデル化するために,CPT(Cumulative Prospect Theory),CVAR(Con Conditional Value at Risk),ER(Prepremed Risk)の3つの一般的なリスクモデルを評価した。 CPTはCVaRやERよりも正確で,CPTがCVaRやERよりも表現力が高く包括的であるという理論的結果の裏付けとなる。 また,リスクと時間的持続性に対する自己評価は,rcesの経路選好と相関しないことが判明した。 最後に,オープンエンド質問の主題分析を行い,ロボットにとって重要な設計洞察を提供する。 そこで本研究では,より優れたナビゲーション説明可能なAI(XAI)の設計を支援するために,人間の行動と知覚に関する斬新で批判的な洞察を提供する。

Risky and crowded environments (RCE) contain abstract sources of risk and uncertainty, which are perceived differently by humans, leading to a variety of behaviors. Thus, robots deployed in RCEs, need to exhibit diverse perception and planning capabilities in order to interpret other human agents' behavior and act accordingly in such environments. To understand this problem domain, we conducted a study to explore human path choices in RCEs, enabling better robotic navigational explainable AI (XAI) designs. We created a novel COVID-19 pandemic grocery shopping scenario which had time-risk tradeoffs, and acquired users' path preferences. We found that participants showcase a variety of path preferences: from risky and urgent to safe and relaxed. To model users' decision making, we evaluated three popular risk models (Cumulative Prospect Theory (CPT), Conditional Value at Risk (CVAR), and Expected Risk (ER). We found that CPT captured people's decision making more accurately than CVaR and ER, corroborating theoretical results that CPT is more expressive and inclusive than CVaR and ER. We also found that people's self assessments of risk and time-urgency do not correlate with their path preferences in RCEs. Finally, we conducted thematic analysis of open-ended questions, providing crucial design insights for robots is RCE. Thus, through this study, we provide novel and critical insights about human behavior and perception to help design better navigational explainable AI (XAI) in RCEs.
翻訳日:2023-03-16 15:13:14 公開日:2023-03-15
# 高画質ビデオ生成のための分解拡散モデル

Decomposed Diffusion Models for High-Quality Video Generation ( http://arxiv.org/abs/2303.08320v1 )

ライセンス: Link先を確認
Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jinren Zhou, Tieniu Tan(参考訳) データポイントに徐々にノイズを付加して前方拡散過程を構築する拡散確率モデル (DPM) は、新しいサンプルを生成するために逆復調過程を学習し、複雑なデータ分布を扱うことを示した。 最近の画像合成の成功にもかかわらず、高次元データ空間のため、ビデオ生成にDPMを適用することは依然として困難である。 従来の方法は標準拡散プロセスを採用しており、同じビデオクリップ内のフレームが独立したノイズで破壊され、コンテンツの冗長性と時間的相関が無視される。 本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。 ノイズ除去パイプラインは、ノイズ分解に適合する2つの協調学習ネットワークを用いる。 各種データセットを用いた実験により, 高品質ビデオ生成において, 提案手法がganベースと拡散ベースの両方の選択肢を上回っていることを確認した。 さらに, 画像拡散モデルの事前学習と, テキスト条件付きビデオ生成の有効性を示す。

A diffusion probabilistic model (DPM), which constructs a forward diffusion process by gradually adding noise to data points and learns the reverse denoising process to generate new samples, has been shown to handle complex data distribution. Despite its recent success in image synthesis, applying DPMs to video generation is still challenging due to the high dimensional data space. Previous methods usually adopt a standard diffusion process, where frames in the same video clip are destroyed with independent noises, ignoring the content redundancy and temporal correlation. This work presents a decomposed diffusion process via resolving the per-frame noise into a base noise that is shared among all frames and a residual noise that varies along the time axis. The denoising pipeline employs two jointly-learned networks to match the noise decomposition accordingly. Experiments on various datasets confirm that our approach, termed as VideoFusion, surpasses both GAN-based and diffusion-based alternatives in high-quality video generation. We further show that our decomposed formulation can benefit from pre-trained image diffusion models and well-support text-conditioned video creation.
翻訳日:2023-03-16 15:06:39 公開日:2023-03-15
# FAQ: Transformer-based Video Object Detectorの機能集約クエリ

FAQ: Feature Aggregated Queries for Transformer-based Video Object Detectors ( http://arxiv.org/abs/2303.08319v1 )

ライセンス: Link先を確認
Yiming Cui(参考訳) ビデオオブジェクト検出は、画像領域でめったに起こらない機能劣化の状況を解決する必要がある。 一つの解決策は、時間的情報を使い、その特徴を隣のフレームから融合させることである。 Transformerベースのオブジェクト検出器は、画像領域のタスクのパフォーマンスが向上し、最近の研究でこれらのメソッドをビデオオブジェクト検出に拡張し始めた。 しかし、既存のトランスフォーマーベースのビデオオブジェクト検出器は、アグリゲーションによるオブジェクトの特徴表現の強化など、古典的なオブジェクト検出器で使用されるものと同じパイプラインに従っている。 本研究では,映像物体検出に関して異なる視点を定めている。 本稿では,トランスフォーマーモデルに対するクエリのアグリゲーションによる品質向上について述べる。 この目的を達成するために、我々はまず、隣接するフレームの特徴に応じて平均的なクエリを重み付けするバニラクエリアグリゲーションモジュールを提案する。 次に、バニラモジュールをより実用的なバージョンに拡張し、入力フレームの特徴に応じてクエリを生成し集約する。 ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。

Video object detection needs to solve feature degradation situations that rarely happen in the image domain. One solution is to use the temporal information and fuse the features from the neighboring frames. With Transformerbased object detectors getting a better performance on the image domain tasks, recent works began to extend those methods to video object detection. However, those existing Transformer-based video object detectors still follow the same pipeline as those used for classical object detectors, like enhancing the object feature representations by aggregation. In this work, we take a different perspective on video object detection. In detail, we improve the qualities of queries for the Transformer-based models by aggregation. To achieve this goal, we first propose a vanilla query aggregation module that weighted averages the queries according to the features of the neighboring frames. Then, we extend the vanilla module to a more practical version, which generates and aggregates queries according to the features of the input frames. Extensive experimental results validate the effectiveness of our proposed methods: On the challenging ImageNet VID benchmark, when integrated with our proposed modules, the current state-of-the-art Transformer-based object detectors can be improved by more than 2.4% on mAP and 4.2% on AP50.
翻訳日:2023-03-16 15:06:20 公開日:2023-03-15
# 社会的影響とタグ関係の連成モデリングによるマイクロビデオタギング

Micro-video Tagging via Jointly Modeling Social Influence and Tag Relation ( http://arxiv.org/abs/2303.08318v1 )

ライセンス: Link先を確認
Xiao Wang, Tian Gan, Yinwei Wei, Jianlong Wu, Dai Meng, Liqiang Nie(参考訳) 過去10年間、さまざまなユーザー生成コンテンツプラットフォームでマイクロビデオが急増している。 我々の統計によると、85.7%のマイクロビデオにはアノテーションがない。 本稿では,タグ付きマイクロビデオのアノテートに焦点をあてる。 既存の手法は、主にビデオコンテンツの分析、ユーザの社会的影響やタグ関係を無視している。 一方、既存のタグ関連構築手法は、性能の不足やタグカバレッジの低下に苦しむ。 社会的影響とタグ関係を共同でモデル化するために、構築された異種ネットワークにおけるリンク予測問題として、マイクロビデオタギングを定式化する。 具体的には、タグ関係(タグオントロジーで表現される)を半教師付きで構築する。 次に,タグ関係,ビデオタグアノテーション,ユーザフォロー関係を組み合わせてネットワークを構築する。 その後、より優れたビデオとタグの表現は、行動拡散モデリングと視覚および言語知識の集約によって導出される。 最後に、このビデオタグネットワークにおいて、各マイクロビデオと全ての候補タグのセマンティックな類似性を算出する。 3つの垂直の産業データセットに関する大規模な実験は、いくつかの最先端ベースラインと比較して、我々のモデルの優位性を検証する。

The last decade has witnessed the proliferation of micro-videos on various user-generated content platforms. According to our statistics, around 85.7\% of micro-videos lack annotation. In this paper, we focus on annotating micro-videos with tags. Existing methods mostly focus on analyzing video content, neglecting users' social influence and tag relation. Meanwhile, existing tag relation construction methods suffer from either deficient performance or low tag coverage. To jointly model social influence and tag relation, we formulate micro-video tagging as a link prediction problem in a constructed heterogeneous network. Specifically, the tag relation (represented by tag ontology) is constructed in a semi-supervised manner. Then, we combine tag relation, video-tag annotation, and user-follow relation to build the network. Afterward, a better video and tag representation are derived through Behavior Spread modeling and visual and linguistic knowledge aggregation. Finally, the semantic similarity between each micro-video and all candidate tags is calculated in this video-tag network. Extensive experiments on industrial datasets of three verticals verify the superiority of our model compared with several state-of-the-art baselines.
翻訳日:2023-03-16 15:05:58 公開日:2023-03-15
# MSF:ポイントクラウドシーケンスからの効率的な3次元物体検出のための運動誘導シーケンスフュージョン

MSF: Motion-guided Sequential Fusion for Efficient 3D Object Detection from Point Cloud Sequences ( http://arxiv.org/abs/2303.08316v1 )

ライセンス: Link先を確認
Chenhang He, Ruihuang Li, Yabin Zhang, Shuai Li, Lei Zhang(参考訳) ポイントクラウドシーケンスは、自動運転のようなアプリケーションの3dオブジェクトを正確に検出するために一般的に使用される。 現在のトップパフォーマンスマルチフレーム検出器は、主に検出・アンド・ヒューズフレームワークに従っており、シーケンスの各フレームから特徴を抽出し、それらを融合して現在のフレーム内のオブジェクトを検出する。 しかし、隣接するフレームは高い相関関係にあるため、必然的に冗長な計算に繋がる。 本稿では,物体の動きの連続性を活かし,現在のフレームにおける物体検出に有用な逐次的文脈を探索する,効率的な動き誘導型シーケンシャル融合(msf)法を提案する。 まず,現在のフレーム上で3次元の提案を生成し,推定速度に基づいて先行するフレームに伝達する。 興味のポイントはシーケンスからプールされ、提案機能としてエンコードされる。 フレーム間における提案機能間の相互作用を容易にするために,新しいBidirectional Feature Aggregation (BiFA) モジュールが提案されている。 さらに,数ミリ秒で数百万の点を処理できるように,ボクセルを用いたサンプリング手法により点雲プーリングを最適化する。 提案手法は、他のマルチフレーム検出器よりも効率が良く、Waymo Open Dataset の LEVEL1 と LEVEL2 の 83.12% と 78.30% の mAP で、精度も向上している。 コードは \url{https://github.com/skyhehe123/MSF} で見ることができる。

Point cloud sequences are commonly used to accurately detect 3D objects in applications such as autonomous driving. Current top-performing multi-frame detectors mostly follow a Detect-and-Fuse framework, which extracts features from each frame of the sequence and fuses them to detect the objects in the current frame. However, this inevitably leads to redundant computation since adjacent frames are highly correlated. In this paper, we propose an efficient Motion-guided Sequential Fusion (MSF) method, which exploits the continuity of object motion to mine useful sequential contexts for object detection in the current frame. We first generate 3D proposals on the current frame and propagate them to preceding frames based on the estimated velocities. The points-of-interest are then pooled from the sequence and encoded as proposal features. A novel Bidirectional Feature Aggregation (BiFA) module is further proposed to facilitate the interactions of proposal features across frames. Besides, we optimize the point cloud pooling by a voxel-based sampling technique so that millions of points can be processed in several milliseconds. The proposed MSF method achieves not only better efficiency than other multi-frame detectors but also leading accuracy, with 83.12% and 78.30% mAP on the LEVEL1 and LEVEL2 test sets of Waymo Open Dataset, respectively. Codes can be found at \url{https://github.com/skyhehe123/MSF}.
翻訳日:2023-03-16 15:05:44 公開日:2023-03-15
# 教師なしビデオオブジェクトセグメンテーションのためのガイドスロット注意

Guided Slot Attention for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2303.08314v1 )

ライセンス: Link先を確認
Minhyeok Lee, Suhwan Cho, Dogyoon Lee, Chaewon Park, Jungho Lee, Sangyoun Lee(参考訳) 教師なしビデオオブジェクトセグメンテーションは、ビデオシーケンスにおいて最も顕著なオブジェクトをセグメンテーションすることを目的としている。 しかし、複雑な背景と複数の前景オブジェクトの存在は、この課題を難しくしている。 To address this issue, we propose a guided slot attention network to reinforce spatial structural information and obtain better foreground--background separation. The foreground and background slots, which are initialized with query guidance, are iteratively refined based on interactions with template information. Furthermore, to improve slot--template interaction and effectively fuse global and local features in the target and reference frames, K-nearest neighbors filtering and a feature aggregation transformer are introduced. 提案モデルは2つの人気のあるデータセットで最先端のパフォーマンスを実現する。 さらに,様々な比較実験による挑戦場面におけるモデルの有効性を示す。

Unsupervised video object segmentation aims to segment the most prominent object in a video sequence. However, the existence of complex backgrounds and multiple foreground objects make this task challenging. To address this issue, we propose a guided slot attention network to reinforce spatial structural information and obtain better foreground--background separation. The foreground and background slots, which are initialized with query guidance, are iteratively refined based on interactions with template information. Furthermore, to improve slot--template interaction and effectively fuse global and local features in the target and reference frames, K-nearest neighbors filtering and a feature aggregation transformer are introduced. The proposed model achieves state-of-the-art performance on two popular datasets. Additionally, we demonstrate the robustness of the proposed model in challenging scenes through various comparative experiments.
翻訳日:2023-03-16 15:05:17 公開日:2023-03-15
# SpaceEvo: 効率的なINT8推論のためのハードウェアフレンドリーな検索スペース設計

SpaceEvo: Hardware-Friendly Search Space Design for Efficient INT8 Inference ( http://arxiv.org/abs/2303.08308v1 )

ライセンス: Link先を確認
Li Lyna Zhang, Xudong Wang, Jiahang Xu, Quanlu Zhang, Yujing Wang, Yuqing Yang, Ningxin Zheng, Ting Cao, Mao Yang(参考訳) ニューラルネットワーク検索(NAS)と量子化の組み合わせは、低FLOPのINT8量子化ニューラルネットワーク(QNN)を自動設計することに成功した。 しかし、NASを直接適用して実世界のデバイスで低レイテンシを実現する正確なQNNモデルを設計すると、性能は低下する。 従来のアート検索空間における演算子と構成(チャネル幅)の選択は、様々な量子化効率をもたらし、INT8推論速度を遅くすることができる。 この課題に対処するため,SpaceEvoは,対象ハードウェアごとに専用の量子化フレンドリな検索空間を設計するための自動手法である。 spaceevoの重要なアイデアは、ハードウェアが予測したオペレータと構成を自動的に検索して、q-tスコアと呼ばれるメトリクスで導かれる検索空間を構築することで、量子化が候補の検索空間とどのように適合するかを定量化することである。 さらに、発見した検索空間に量子化されたスーパーネットをトレーニングし、検索したモデルを余分な再訓練や量子化なしで直接デプロイできるようにしました。 我々のモデルは、様々なレイテンシ制約の下で新しいSOTA INT8の量子化精度を確立し、同じレイテンシ下での先行技術CNNよりも最大10.1%の精度向上を実現した。 多様なエッジデバイスに関する大規模な実験は、SpaceEvoが既存の手動設計の検索スペースを最大2.5倍高速で上回り、同じ精度を実現していることを示している。

The combination of Neural Architecture Search (NAS) and quantization has proven successful in automatically designing low-FLOPs INT8 quantized neural networks (QNN). However, directly applying NAS to design accurate QNN models that achieve low latency on real-world devices leads to inferior performance. In this work, we find that the poor INT8 latency is due to the quantization-unfriendly issue: the operator and configuration (e.g., channel width) choices in prior art search spaces lead to diverse quantization efficiency and can slow down the INT8 inference speed. To address this challenge, we propose SpaceEvo, an automatic method for designing a dedicated, quantization-friendly search space for each target hardware. The key idea of SpaceEvo is to automatically search hardware-preferred operators and configurations to construct the search space, guided by a metric called Q-T score to quantify how quantization-friendly a candidate search space is. We further train a quantized-for-all supernet over our discovered search space, enabling the searched models to be directly deployed without extra retraining or quantization. Our discovered models establish new SOTA INT8 quantized accuracy under various latency constraints, achieving up to 10.1% accuracy improvement on ImageNet than prior art CNNs under the same latency. Extensive experiments on diverse edge devices demonstrate that SpaceEvo consistently outperforms existing manually-designed search spaces with up to 2.5x faster speed while achieving the same accuracy.
翻訳日:2023-03-16 15:05:07 公開日:2023-03-15
# SegPrompt: キドニー石の分類にセグメンテーションマップを用いたディープモデルの改良

SegPrompt: Using Segmentation Map as a Better Prompt to Finetune Deep Models for Kidney Stone Classification ( http://arxiv.org/abs/2303.08303v1 )

ライセンス: Link先を確認
Wei Zhu, Runtao Zhou, Yao Yuan, Campbell Timothy, Rajat Jain, Jiebo Luo(参考訳) 近年,深層学習によって内視鏡画像を用いた腎臓結石分類が促進されている。 しかし、注釈付き訓練データの不足は、訓練モデルの性能と一般化能力を向上させる上で重大な問題となる。 したがって、手元にある限られたデータを完全に活用することが重要です。 本稿では,セグメンテーションマップを2つの側面から活用し,データ不足問題を解決するsegpromptを提案する。 まず、segpromptはセグメンテーションマップを統合し、分類モデルが興味のある領域を認識するように分類訓練を容易にする。 提案手法では,画像とセグメンテーショントークンが相互に相互作用し,セグメンテーションマップ情報を完全に活用することができる。 第二に、セグメンテーションマップを事前訓練された深層モデルのチューニングのプロンプトとして使用することにより、バニラ微調整よりもトレーニング可能なパラメータをはるかに少なくする。 収集した腎臓結石データセットについて広範な実験を行った。 その結果,segpromptはモデルフィッティング能力と一般化能力との間に有利なバランスをとることができ,トレーニングデータに制限のある効果的なモデルへと導かれることがわかった。

Recently, deep learning has produced encouraging results for kidney stone classification using endoscope images. However, the shortage of annotated training data poses a severe problem in improving the performance and generalization ability of the trained model. It is thus crucial to fully exploit the limited data at hand. In this paper, we propose SegPrompt to alleviate the data shortage problems by exploiting segmentation maps from two aspects. First, SegPrompt integrates segmentation maps to facilitate classification training so that the classification model is aware of the regions of interest. The proposed method allows the image and segmentation tokens to interact with each other to fully utilize the segmentation map information. Second, we use the segmentation maps as prompts to tune the pretrained deep model, resulting in much fewer trainable parameters than vanilla finetuning. We perform extensive experiments on the collected kidney stone dataset. The results show that SegPrompt can achieve an advantageous balance between the model fitting ability and the generalization ability, eventually leading to an effective model with limited training data.
翻訳日:2023-03-16 15:04:42 公開日:2023-03-15
# 大規模言語モデルの学習後量子化に関する総合的研究

A Comprehensive Study on Post-Training Quantization for Large Language Models ( http://arxiv.org/abs/2303.08302v1 )

ライセンス: Link先を確認
Zhewei Yao, Cheng Li, Xiaoxia Wu, Stephen Youn, Yuxiong He(参考訳) ポストトレーニング量子化(\ptq)は、最近、大規模言語モデルのメモリ消費と/または計算コストを削減するための妥協手法として示されている。 しかし、異なる量子化スキーム、異なるモデルファミリー、異なる \ptq 法、異なる量子化ビット精度などの影響に関する包括的な研究はいまだに欠落している。 本研究では,これらの部品について,何万ものゼロショット実験を行った。 その結果、(1)細粒度量子化と(naive round-to-nearest量子化ではなく) \ptq法が精度向上のために必要であり、(2)粗粒度量子化の上位ビット(例えば5ビット)は、非常に細粒度量子化(実効ビットは5ビットに近い)の下位ビット(例えば4ビット)よりも強力であることがわかった。 また,本研究で解決されていない将来的な機会とシステムワークの提案を残し,異なるサイズのllmに対して量子化をどのように活用するかを推奨する。

Post-training quantization (\ptq) had been recently shown as a compromising method to reduce the memory consumption and/or compute cost for large language models. However, a comprehensive study about the effect of different quantization schemes, different model families, different \ptq methods, different quantization bit precision, etc, is still missing. In this work, we provide an extensive study on those components over tens of thousands of zero-shot experiments. Our results show that (1) Fine-grained quantization and \ptq methods (instead of naive round-to-nearest quantization) are necessary to achieve good accuracy and (2) Higher bits (e.g., 5 bits) with coarse-grained quantization is more powerful than lower bits (e.g., 4 bits) with very fine-grained quantization (whose effective bits is similar to 5-bits). We also present recommendations about how to utilize quantization for \llms with different sizes, and leave suggestions of future opportunities and system work that are not resolved in this work.
翻訳日:2023-03-16 15:04:24 公開日:2023-03-15
# スマートグリッドの故障診断のための高次元サイバー物理データストリームからの学習

Learning From High-Dimensional Cyber-Physical Data Streams for Diagnosing Faults in Smart Grids ( http://arxiv.org/abs/2303.08300v1 )

ライセンス: Link先を確認
Hossein Hassani and Ehsan Hallaji and Roozbeh Razavi-Far and Mehrdad Saif(参考訳) 故障診断システムの性能は,サイバー物理電力システムにおけるデータ品質に大きく影響する。 これらのシステムは、過剰な計算コストでシステムを過大評価する大量のデータを生成する。 もうひとつの問題は、記録された測定値におけるノイズの存在であり、正確な決定モデルの構築を妨げている。 さらに、診断モデルは、通常と断層分布の学習から逸脱する可能性のある冗長な測定の混合がしばしば提供される。 本稿では,サイバー物理システムにおける上記の課題を緩和する機能工学の影響について述べる。 118バス電力系統におけるデータ駆動故障診断をシミュレートする決定モデルと特徴選択法と次元低減法を組み合わせる。 比較研究は、両方のドメインでいくつかの高度な技術を比較するために有効である。 寸法低減法と特徴選択法を共同で別々に比較する。 最後に, 実験を終了し, 故障診断のためのデータ品質を向上させる設定を提案する。

The performance of fault diagnosis systems is highly affected by data quality in cyber-physical power systems. These systems generate massive amounts of data that overburden the system with excessive computational costs. Another issue is the presence of noise in recorded measurements, which prevents building a precise decision model. Furthermore, the diagnostic model is often provided with a mixture of redundant measurements that may deviate it from learning normal and fault distributions. This paper presents the effect of feature engineering on mitigating the aforementioned challenges in cyber-physical systems. Feature selection and dimensionality reduction methods are combined with decision models to simulate data-driven fault diagnosis in a 118-bus power system. A comparative study is enabled accordingly to compare several advanced techniques in both domains. Dimensionality reduction and feature selection methods are compared both jointly and separately. Finally, experiments are concluded, and a setting is suggested that enhances data quality for fault diagnosis.
翻訳日:2023-03-16 15:04:02 公開日:2023-03-15
# 周波数が0を通過するときの高調波振動子エネルギーの断熱増幅

Adiabatic amplification of the harmonic oscillator energy when the frequency passes through zero ( http://arxiv.org/abs/2303.08299v1 )

ライセンス: Link先を確認
Viktor V. Dodonov and Alexandre V. Dodonov(参考訳) 周波数が時間とともにゆっくりと変化し、ゼロ値を通過するとき、高調波発振器のエネルギーの進化を研究する。 我々は,システムの古典的記述と量子的記述の両方を考える。 ゼロ値を通る単一の周波数通過後、有名なエネルギーと周波数の断熱的不変比(ゼロ周波数は保持しない)が再び再確立されるが、比例係数は初期状態に依存する。 初期状態への依存は、同じエネルギー(特に初期真空状態、フォック状態、熱量子状態)を持つ初期状態の位相平均化後に消失する。 この場合、平均比例係数は常にユニタリよりも大きい。 平均比例係数の具体的値は、ゼロ点付近の時間に依存する周波数依存性のパワー指数に依存する。 特に、平均エネルギーは、周波数が直線的に0である場合に三倍になる。 周波数が1回以上ゼロになった場合、断熱比例係数はゼロ点間の時間間隔の長さに強く依存するため、平均エネルギー挙動はゼロ値を通る多くの通過の後準確率となる。 もともとのボルン・フォックの定理は、周波数が 0 を通過した後は機能しない。 しかし、その一般化は見出され、初期フォック状態は多くのフォック状態の広い重ね合わせとなり、その重みは新しい断熱的な体制では時間に依存しない。 平均エネルギーが3倍になると、初期N番目のフォック状態は、概して6N状態の重ね合わせとなり、非均一に分布する。 初期真空状態と低次フォック状態は、平均エネルギーの低値の初期熱状態と同様に圧縮される。

We study the evolution of the energy of a harmonic oscillator when its frequency slowly varies with time and passes through zero value. We consider both the classical and quantum descriptions of the system. We show that after a single frequency passage through zero value, the famous adiabatic invariant ratio of energy to frequency (which does not hold for zero frequency) is reestablished again, but with the proportionality coefficient dependent on the initial state. The dependence on the initial state disappears after averaging over phases of initial states with the same energy (in particular, for the initial vacuum, Fock and thermal quantum states). In this case, the mean proportionality coefficient is always greater than unity. The concrete value of the mean proportionality coefficient depends on the power index of the frequency dependence on time near zero point. In particular, the mean energy triplicates if the frequency tends to zero linearly. If the frequency attains zero more than once, the adiabatic proportionality coefficient strongly depends on lengths of time intervals between zero points, so that the mean energy behavior turns out quasi-stochastic after many passages through zero value. The original Born-Fock theorem does not work after the frequency passes through zero. However, its generalization is found: the initial Fock state becomes a wide superposition of many Fock states, whose weights do not depend on time in the new adiabatic regime. When the mean energy triplicates, the initial Nth Fock state becomes a superposition of, roughly speaking, 6N states, distributed non-uniformly. The initial vacuum and low-order Fock states become squeezed, as well as initial thermal states with low values of the mean energy.
翻訳日:2023-03-16 15:03:49 公開日:2023-03-15
# 半監督対象検出のためのアクティブ教師

Active Teacher for Semi-Supervised Object Detection ( http://arxiv.org/abs/2303.08348v1 )

ライセンス: Link先を確認
Peng Mi, Jianghang Lin, Yiyi Zhou, Yunhang Shen, Gen Luo, Xiaoshuai Sun, Liujuan Cao, Rongrong Fu, Qiang Xu, Rongrong Ji(参考訳) 本稿では,データ初期化の観点から教師学生の学習について検討し,半教師対象検出(SSOD)のためのActive Teacher(ソースコードは以下の通り)と呼ばれる新しいアルゴリズムを提案する。 active teacherは教師教育の枠組みを反復版に拡張し、ラベルセットが部分的に初期化され、徐々に拡張され、難易度、情報、多様性を含むラベルなし例の3つの重要な要素を評価する。 この設計により、アクティブ教師は、擬似ラベルの品質を改善しながら、限られたラベル情報の効果を最大化することができる。 提案手法の有効性を検証するため,MS-COCOベンチマークで広範な実験を行い,最近提案されたSSOD法との比較を行った。 実験の結果,Active Teacherの性能向上は比較法よりも優れているだけでなく,ベースラインネットワークであるFaster-RCNNが,MS-COCOのラベル付き例の40%よりはるかに少ないラベルで100%教師付き性能を実現できることが示唆された。 さらに,本論文の実験的解析は,実践的応用においてデータアノテーションに有用な経験的知識を提供できると信じている。

In this paper, we study teacher-student learning from the perspective of data initialization and propose a novel algorithm called Active Teacher(Source code are available at: \url{https://github.com/HunterJ-Lin/ActiveTeacher}) for semi-supervised object detection (SSOD). Active Teacher extends the teacher-student framework to an iterative version, where the label set is partially initialized and gradually augmented by evaluating three key factors of unlabeled examples, including difficulty, information and diversity. With this design, Active Teacher can maximize the effect of limited label information while improving the quality of pseudo-labels. To validate our approach, we conduct extensive experiments on the MS-COCO benchmark and compare Active Teacher with a set of recently proposed SSOD methods. The experimental results not only validate the superior performance gain of Active Teacher over the compared methods, but also show that it enables the baseline network, ie, Faster-RCNN, to achieve 100% supervised performance with much less label expenditure, ie 40% labeled examples on MS-COCO. More importantly, we believe that the experimental analyses in this paper can provide useful empirical knowledge for data annotation in practical applications.
翻訳日:2023-03-16 14:58:33 公開日:2023-03-15
# 一度だけスキャンする: 長時間ビデオの高速時間グラウンドのためのエンドツーエンドフレームワーク

Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos ( http://arxiv.org/abs/2303.08345v1 )

ライセンス: Link先を確認
Yulin Pan, Xiangteng He, Biao Gong, Yiliang Lv, Yujun Shen, Yuxin Peng, Deli Zhao(参考訳) video temporal groundingは、クエリ記述にマッチするビデオセグメントをピンポイントすることを目的としている。 短いビデオ(例えば、数分で)の進歩にもかかわらず、長いビデオ(例えば、数時間で)での時間的接地は、まだ初期段階にある。 この課題に対処するため、一般的なプラクティスはスライディングウィンドウを使うことであるが、ウィンドウ内のフレーム数が限られているため、非効率で柔軟性がない。 そこで本研究では,ネットワーク実行時に1時間単位の映像をモデル化できる高速時空間接地のためのエンド・ツー・エンドのフレームワークを提案する。 パイプラインは粗大な方法で定式化され、まず、オーバーラップされていないビデオクリップ(\textit{i.e.}、アンカー)からコンテキスト知識を抽出し、クエリに詳細なコンテンツ知識で応答するアンカーを補う。 パイプライン効率が著しく高いことに加えて,映像全体をモデル化することで,長距離時間相関を捉えることが可能であり,より正確な地盤形成が容易になるというメリットもある。 実験結果から,MAD と Ego4d の長大なビデオデータセットにおいて,本手法は最先端技術よりも優れており,それぞれ高効率で \textbf{14.6$\times$} / \textbf{102.8$\times$} を実現することが示唆された。 コードは \url{https://github.com/afcedf/SOONet.git} でリリースされる。

Video temporal grounding aims to pinpoint a video segment that matches the query description. Despite the recent advance in short-form videos (\textit{e.g.}, in minutes), temporal grounding in long videos (\textit{e.g.}, in hours) is still at its early stage. To address this challenge, a common practice is to employ a sliding window, yet can be inefficient and inflexible due to the limited number of frames within the window. In this work, we propose an end-to-end framework for fast temporal grounding, which is able to model an hours-long video with \textbf{one-time} network execution. Our pipeline is formulated in a coarse-to-fine manner, where we first extract context knowledge from non-overlapped video clips (\textit{i.e.}, anchors), and then supplement the anchors that highly response to the query with detailed content knowledge. Besides the remarkably high pipeline efficiency, another advantage of our approach is the capability of capturing long-range temporal correlation, thanks to modeling the entire video as a whole, and hence facilitates more accurate grounding. Experimental results suggest that, on the long-form video datasets MAD and Ego4d, our method significantly outperforms state-of-the-arts, and achieves \textbf{14.6$\times$} / \textbf{102.8$\times$} higher efficiency respectively. The code will be released at \url{https://github.com/afcedf/SOONet.git}
翻訳日:2023-03-16 14:58:08 公開日:2023-03-15
# Tiny Always-On Ambient Speech Recognition Modelにおける低ランクコンバータ重みの共有

Sharing Low Rank Conformer Weights for Tiny Always-On Ambient Speech Recognition Models ( http://arxiv.org/abs/2303.08343v1 )

ライセンス: Link先を確認
Steven M. Hernandez, Ding Zhao, Shaojin Ding, Antoine Bruguier, Rohit Prabhavalkar, Tara N. Sainath, Yanzhang He, Ian McGraw(参考訳) 機械学習技術の改善は、より大きなモデルとより大きなトレーニングデータセットを使用することで、エキサイティングな新たな機会を提供する。 しかし、これらの新しい機能は、低メモリしか利用できないスマートフォン、ウェアラブル、その他の組み込み環境などの低電力デバイス上で提供される必要がある。 そこで本研究では,モデル品質への影響を最小限に抑えつつ,100万以上のパラメータを持つモデルを必要とするコンフォーマーベース音声認識モデルのモデルサイズを削減する手法を検討する。 このようなモデルにより,低メモリニューラルプロセッサを用いたエッジデバイス上での常時オン環境音声認識を実現することができる。 モデルアーキテクチャのさまざまなレベルでのモデルウェイト再利用を提案する。 (i)完全適合性ブロック層を繰り返すこと。 (ii)層にまたがる特定のコンホメータモジュールの共有。 (iii)適合モジュールごとにサブコンポーネントを共有すること、及び (iv)低位分解後の分解した副成分重みの共有。 モデルの異なるレベルで重みを共有することで、入力に適用される仮想変換の数を増やしながら、完全なモデルインメモリを維持することができる。 一連のアブレーション研究と評価を通じて、重量共有と低ランクアーキテクチャによって、librispeech dev-clean と test-clean はそれぞれ5億ドルのパラメータモデルで 2.84 と 2.94 の wer を達成できることがわかった。

Continued improvements in machine learning techniques offer exciting new opportunities through the use of larger models and larger training datasets. However, there is a growing need to offer these new capabilities on-board low-powered devices such as smartphones, wearables and other embedded environments where only low memory is available. Towards this, we consider methods to reduce the model size of Conformer-based speech recognition models which typically require models with greater than 100M parameters down to just $5$M parameters while minimizing impact on model quality. Such a model allows us to achieve always-on ambient speech recognition on edge devices with low-memory neural processors. We propose model weight reuse at different levels within our model architecture: (i) repeating full conformer block layers, (ii) sharing specific conformer modules across layers, (iii) sharing sub-components per conformer module, and (iv) sharing decomposed sub-component weights after low-rank decomposition. By sharing weights at different levels of our model, we can retain the full model in-memory while increasing the number of virtual transformations applied to the input. Through a series of ablation studies and evaluations, we find that with weight sharing and a low-rank architecture, we can achieve a WER of 2.84 and 2.94 for Librispeech dev-clean and test-clean respectively with a $5$M parameter model.
翻訳日:2023-03-16 14:57:38 公開日:2023-03-15
# videoflow: 時間的手がかりを利用した多フレーム光流推定

VideoFlow: Exploiting Temporal Cues for Multi-frame Optical Flow Estimation ( http://arxiv.org/abs/2303.08340v1 )

ライセンス: Link先を確認
Xiaoyu Shi, Zhaoyang Huang, Weikang Bian, Dasong Li, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li(参考訳) ビデオのための新しい光フロー推定フレームワークであるVideoFlowを紹介する。 2つのフレームから光の流れを推定することを学ぶ従来の方法とは対照的に、videoflowは時間的手がかりを十分に活用してビデオで利用可能な複数のフレームの双方向光フローを同時推定する。 まず、TRiフレーム光フロー(TROF)モジュールを提案し、3フレーム方式で中央フレームの双方向光フローを推定する。 フレームトリプルトの情報は、中心フレームに反復的に融合される。 より多くのフレームを扱うためのTROFを拡張するために,複数のTROFをブリッジし,隣接するTROF間での動作特徴を伝搬するMOPモジュールを提案する。 反復流量推定補正により、個々のTROFに融合した情報をMOPを介して全シーケンスに伝播することができる。 ビデオ情報を効果的に活用することで、VideoFlowは素晴らしいパフォーマンスを示し、すべての公開ベンチマークで1位にランクインする。 Sintelベンチマークでは、最終パスとクリーンパスでビデオFlowは1.649と0.991の平均終点エラー(AEPE)を達成し、最高の結果(FlowFormer++の1.943と1.073)から15.1%と7.6%のエラー削減を達成した。 KITTI-2015ベンチマークでは、VideoFlowがF1-allエラーを3.65%達成し、最高の結果から19.2%エラーを削減した(FlowFormer++の4.52%)。

We introduce VideoFlow, a novel optical flow estimation framework for videos. In contrast to previous methods that learn to estimate optical flow from two frames, VideoFlow concurrently estimates bi-directional optical flows for multiple frames that are available in videos by sufficiently exploiting temporal cues. We first propose a TRi-frame Optical Flow (TROF) module that estimates bi-directional optical flows for the center frame in a three-frame manner. The information of the frame triplet is iteratively fused onto the center frame. To extend TROF for handling more frames, we further propose a MOtion Propagation (MOP) module that bridges multiple TROFs and propagates motion features between adjacent TROFs. With the iterative flow estimation refinement, the information fused in individual TROFs can be propagated into the whole sequence via MOP. By effectively exploiting video information, VideoFlow presents extraordinary performance, ranking 1st on all public benchmarks. On the Sintel benchmark, VideoFlow achieves 1.649 and 0.991 average end-point-error (AEPE) on the final and clean passes, a 15.1% and 7.6% error reduction from the best published results (1.943 and 1.073 from FlowFormer++). On the KITTI-2015 benchmark, VideoFlow achieves an F1-all error of 3.65%, a 19.2% error reduction from the best published result (4.52% from FlowFormer++).
翻訳日:2023-03-16 14:57:16 公開日:2023-03-15
# FactReranker: Fact-guided Reranker for Faithful Radiology Reports Summarization

FactReranker: Fact-guided Reranker for Faithful Radiology Report Summarization ( http://arxiv.org/abs/2303.08335v1 )

ライセンス: Link先を確認
Qianqian Xie, Jinpeng Hu, Jiayu Zhou, Yifan Peng, Fei Wang(参考訳) 自動x線レポート要約は重要な臨床課題であり、生成した要約と基底真理x線学的所見の間の事実的正確性を維持することが重要な課題である。 既存の研究では、CheXBertやRadGraphスコアなどの事実整合性メトリクスを直接最適化するために強化学習を採用している。 しかし, グリーディサーチやビームサーチを用いた復号法は, 最適候補を選定する際の事実整合性を考慮せず, 結果整合性の向上に繋がる。 そこで我々は,提案する2段階要約手法であるfactrerankerを提案する。これは,推定された事実整合性スコアに基づいて,すべての候補から最良要約を選択することを学ぶ最初の試みである。 本稿では、RadGraphスキーマに基づいて、入力医療報告の医療事実、金の要約、および候補要約を抽出し、抽出した医療事実を効率的に組み込んで最適な要約を選択することを提案する。 我々は、事実誘導リランカを事実知識グラフ生成と事実スコアラに分解し、入力されたテキストの医療的事実と金の要約とのマッピングをモデル化できるようにし、推論中に金の要約が観察できない場合でも最適な要約を選択することができる。 また,現実的一貫した候補を選択する際のリランカの能力を測定するためのファクトベースランキング指標(RadMRR)を提案する。 2つのベンチマークデータセットにおける実験結果は,既存の手法と比較して,事実整合性スコアの高い要約生成において,提案手法が優れていることを示す。

Automatic radiology report summarization is a crucial clinical task, whose key challenge is to maintain factual accuracy between produced summaries and ground truth radiology findings. Existing research adopts reinforcement learning to directly optimize factual consistency metrics such as CheXBert or RadGraph score. However, their decoding method using greedy search or beam search considers no factual consistency when picking the optimal candidate, leading to limited factual consistency improvement. To address it, we propose a novel second-stage summarizing approach FactReranker, the first attempt that learns to choose the best summary from all candidates based on their estimated factual consistency score. We propose to extract medical facts of the input medical report, its gold summary, and candidate summaries based on the RadGraph schema and design the fact-guided reranker to efficiently incorporate the extracted medical facts for selecting the optimal summary. We decompose the fact-guided reranker into the factual knowledge graph generation and the factual scorer, which allows the reranker to model the mapping between the medical facts of the input text and its gold summary, thus can select the optimal summary even the gold summary can't be observed during inference. We also present a fact-based ranking metric (RadMRR) for measuring the ability of the reranker on selecting factual consistent candidates. Experimental results on two benchmark datasets demonstrate the superiority of our method in generating summaries with higher factual consistency scores when compared with existing methods.
翻訳日:2023-03-16 14:56:49 公開日:2023-03-15
# DiffBEV:鳥類の視線知覚のための条件拡散モデル

DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception ( http://arxiv.org/abs/2303.08333v1 )

ライセンス: Link先を確認
Jiayu Zou, Zheng Zhu, Yun Ye, Xingang Wang(参考訳) BEVの認識は、自律運転の分野で非常に重要であり、計画、制御、動き予測の基盤となっている。 BEV機能の品質は、BEV知覚の性能に大きく影響する。 しかし、カメラパラメータやLiDARスキャンのノイズを考慮すると、有害ノイズを伴うBEV表現が得られるのが普通である。 拡散モデルには自然にノイズのあるサンプルを理想的なデータに分解する能力があり、拡散モデルを利用してより良いBEV表現を得る動機となる。 本研究では,拡散モデルの可能性を利用して,より包括的なBEV表現を生成するエンドツーエンドフレームワークDiffBEVを提案する。 私たちの知る限りでは、BEVの知覚に拡散モデルを適用するのは初めてです。 実際には,粗いサンプルを発音し,意味的特徴を漸進的に洗練する拡散モデルのトレーニングを指導するために,3種類の条件を設計する。 さらに、クロスアテンションモジュールを使用して、BEV機能と条件拡散モデルのセマンティック内容のコンテキストを融合します。 DiffBEVは、nuScenesデータセット上で25.9%のmIoUを達成する。 複数のベンチマークにおける定量および定性的な結果は、BEVセマンティックセグメンテーションと3Dオブジェクト検出タスクにおけるDiffBEVの有効性を示す。 コードはもうすぐ入手できる。

BEV perception is of great importance in the field of autonomous driving, serving as the cornerstone of planning, controlling, and motion prediction. The quality of the BEV feature highly affects the performance of BEV perception. However, taking the noises in camera parameters and LiDAR scans into consideration, we usually obtain BEV representation with harmful noises. Diffusion models naturally have the ability to denoise noisy samples to the ideal data, which motivates us to utilize the diffusion model to get a better BEV representation. In this work, we propose an end-to-end framework, named DiffBEV, to exploit the potential of diffusion model to generate a more comprehensive BEV representation. To the best of our knowledge, we are the first to apply diffusion model to BEV perception. In practice, we design three types of conditions to guide the training of the diffusion model which denoises the coarse samples and refines the semantic feature in a progressive way. What's more, a cross-attention module is leveraged to fuse the context of BEV feature and the semantic content of conditional diffusion model. DiffBEV achieves a 25.9% mIoU on the nuScenes dataset, which is 6.2% higher than the best-performing existing approach. Quantitative and qualitative results on multiple benchmarks demonstrate the effectiveness of DiffBEV in BEV semantic segmentation and 3D object detection tasks. The code will be available soon.
翻訳日:2023-03-16 14:56:19 公開日:2023-03-15
# 空間時間データオーバーフィッティングによる高画質・高能率ビデオ超解法の実現に向けて

Towards High-Quality and Efficient Video Super-Resolution via Spatial-Temporal Data Overfitting ( http://arxiv.org/abs/2303.08331v1 )

ライセンス: Link先を確認
Gen Li, Jie Ji, Minghai Qin, Wei Niu, Bin Ren, Fatemeh Afghah, Linke Guo, Xiaolong Ma(参考訳) 深層畳み込みニューラルネットワーク(deep convolutional neural network, dnns)は,コンピュータビジョンのさまざまな分野で広く使用されているため,dnnによるビデオ解像度向上能力の活用が,現代の映像配信システムにおいて新たなトレンドとなっている。 ビデオをチャンクに分割し、各チャンクを超高解像度モデルでオーバーフィットさせることで、サーバはビデオをクライアントに送信する前にエンコードする。 しかし、大量のチャンクが良いオーバーフィッティング品質を保証することが期待され、ストレージを大幅に増加させ、データ転送により多くの帯域幅リソースを消費する。 一方で、トレーニング最適化技術によるチャンク数の減少は通常、高いモデルキャパシティを必要とするため、実行速度が大幅に低下する。 そこで本稿では,空間的時間的情報を利用して映像をチャンクに正確に分割し,チャンク数とモデルサイズを最小限に抑える,高品質で効率的な映像解像度アップスケーリングタスクのための新しい手法を提案する。 さらに,本手法をデータ認識合同学習手法により,単一のオーバーフィッティングモデルに進化させ,品質低下によるストレージ要件の低減を図っている。 市販の携帯電話にモデルをデプロイし,実験結果から,映像品質の高いリアルタイムビデオ解像度を実現することを示す。 41.6 PSNRで28fpsのストリーミング速度を実現し、ライブビデオ解像度アップスケールタスクでは14$\times$と2.29dBの高速化を実現した。 私たちのコードは、https://github.com/coulsonlee/STDO-CVPR2023.gitで利用可能です。

As deep convolutional neural networks (DNNs) are widely used in various fields of computer vision, leveraging the overfitting ability of the DNN to achieve video resolution upscaling has become a new trend in the modern video delivery system. By dividing videos into chunks and overfitting each chunk with a super-resolution model, the server encodes videos before transmitting them to the clients, thus achieving better video quality and transmission efficiency. However, a large number of chunks are expected to ensure good overfitting quality, which substantially increases the storage and consumes more bandwidth resources for data transmission. On the other hand, decreasing the number of chunks through training optimization techniques usually requires high model capacity, which significantly slows down execution speed. To reconcile such, we propose a novel method for high-quality and efficient video resolution upscaling tasks, which leverages the spatial-temporal information to accurately divide video into chunks, thus keeping the number of chunks as well as the model size to minimum. Additionally, we advance our method into a single overfitting model by a data-aware joint training technique, which further reduces the storage requirement with negligible quality drop. We deploy our models on an off-the-shelf mobile phone, and experimental results show that our method achieves real-time video super-resolution with high video quality. Compared with the state-of-the-art, our method achieves 28 fps streaming speed with 41.6 PSNR, which is 14$\times$ faster and 2.29 dB better in the live video resolution upscaling tasks. Our codes are available at: https://github.com/coulsonlee/STDO-CVPR2023.git
翻訳日:2023-03-16 14:55:58 公開日:2023-03-15
# 音声スタイルラテント操作によるクロススピーカー感情伝達

Cross-speaker Emotion Transfer by Manipulating Speech Style Latents ( http://arxiv.org/abs/2303.08329v1 )

ライセンス: Link先を確認
Suhee Jo, Younggun Lee, Yookyung Shin, Yeongtae Hwang, Taesu Kim(参考訳) 近年,感情的なテキスト・トゥ・スポーチが著しく進歩している。 しかし、大量のラベル付きデータを必要とするため、簡単にはアクセスできない。 感情的な音声データセットを取得できたとしても、感情の強度を制御するには限界がある。 本研究では,潜伏型空間におけるベクトル演算を用いたクロススピーカー感情伝達と操作の新しい手法を提案する。 少数のラベル付きサンプルのみを活用することで、話者のアイデンティティを失うことなく、読書スタイルの音声から感情的な音声を生成する。 さらに、感情の強さはスカラー値を使って容易に制御でき、ユーザーが音声を操作する直感的な方法を提供する。 実験結果から,提案手法は話者識別を保ちながら,表現性,自然性,制御性の観点から優れた性能が得られることが示された。

In recent years, emotional text-to-speech has shown considerable progress. However, it requires a large amount of labeled data, which is not easily accessible. Even if it is possible to acquire an emotional speech dataset, there is still a limitation in controlling emotion intensity. In this work, we propose a novel method for cross-speaker emotion transfer and manipulation using vector arithmetic in latent style space. By leveraging only a few labeled samples, we generate emotional speech from reading-style speech without losing the speaker identity. Furthermore, emotion strength is readily controllable using a scalar value, providing an intuitive way for users to manipulate speech. Experimental results show the proposed method affords superior performance in terms of expressiveness, naturalness, and controllability, preserving speaker identity.
翻訳日:2023-03-16 14:55:28 公開日:2023-03-15
# FairAdaBN:適応的バッチ正規化による不公平さの軽減と皮膚疾患分類への応用

FairAdaBN: Mitigating unfairness with adaptive batch normalization and its application to dermatological disease classification ( http://arxiv.org/abs/2303.08325v1 )

ライセンス: Link先を確認
Zikang Xu, Shang Zhao, Quan Quan, Qingsong Yao, and S. Kevin Zhou(参考訳) 深層学習は、センシティブな情報や重要な診断決定を含む一方で、医学研究やアプリケーションにおいてますます普及している。 研究者たちは、モデル不公平と呼ばれる異なる階層特性を持つサブグループ間での顕著なパフォーマンス格差を観察し、厳密なアーキテクチャを慎重に設計し、トレーニングの重荷を伴い、一般化を損なうとともに、モデルパフォーマンスと公平性のトレードオフを明らかにする。 そこで本研究では,バッチ正規化を高感度属性に適応させることにより,fairadabnを提案する。 この単純だが効果的な設計は、もともと公平を知らないいくつかの分類バックボーンに適用することができる。 さらに、ミニバッチ上の部分群間の統計的パリティを抑える新しい損失関数を導出し、モデルが相当公正に収束するように促す。 モデル性能と公平性の間のトレードオフを評価するために,fate(fairness-accuracy trade-off efficiency)と呼ばれる新しい指標を提案し,精度低下による正規化フェアネス改善を計算する。 2つの皮膚科学データセットを用いた実験により,提案手法はフェアネス基準とFATEの他の手法よりも優れていた。

Deep learning is becoming increasingly ubiquitous in medical research and applications while involving sensitive information and even critical diagnosis decisions. Researchers observe a significant performance disparity among subgroups with different demographic attributes, which is called model unfairness, and put lots of effort into carefully designing elegant architectures to address unfairness, which poses heavy training burden, brings poor generalization, and reveals the trade-off between model performance and fairness. To tackle these issues, we propose FairAdaBN by making batch normalization adaptive to sensitive attribute. This simple but effective design can be adopted to several classification backbones that are originally unaware of fairness. Additionally, we derive a novel loss function that restrains statistical parity between subgroups on mini-batches, encouraging the model to converge with considerable fairness. In order to evaluate the trade-off between model performance and fairness, we propose a new metric, named Fairness-Accuracy Trade-off Efficiency (FATE), to compute normalized fairness improvement over accuracy drop. Experiments on two dermatological datasets show that our proposed method outperforms other methods on fairness criteria and FATE.
翻訳日:2023-03-16 14:55:18 公開日:2023-03-15
# 不均一6Gネットワークにおけるフェデレーション学習の最適化設計

Optimization Design for Federated Learning in Heterogeneous 6G Networks ( http://arxiv.org/abs/2303.08322v1 )

ライセンス: Link先を確認
Bing Luo, Xiaomin Ouyang, Peng Sun, Pengchao Han, Ningning Ding, Jianwei Huang(参考訳) 5gネットワークの急速な進歩により、数十億ものiot(smart internet of things, スマートモノのインターネット)デバイスと膨大な量のデータがネットワークエッジで生成される。 初期段階でも、6Gネットワークは高度な人工知能(AI)技術を採用して、革新的なアプリケーションやインテリジェントなサービスのために、この貴重なデータを収集、送信、学習することが期待されている。 しかし、従来の機械学習(ML)アプローチでは、データセンタやクラウド内のトレーニングデータを集中化する必要がある。 6GネットワークでユビキタスAIを実現する上で,フェデレーション学習は,プライバシ保護という性質を持った,新たな分散AIパラダイムとして期待されている。 しかし、6Gネットワークにおける有効かつ効率的なFL実装には、いくつかのシステムおよび統計的不均一性の課題がある。 本稿では,インセンティブ機構設計,ネットワークリソース管理,パーソナライズされたモデル最適化という3つの側面から,異質性の課題を効果的に解決できる最適化手法について検討する。 また,今後の研究に向けた課題と今後の方向性について述べる。

With the rapid advancement of 5G networks, billions of smart Internet of Things (IoT) devices along with an enormous amount of data are generated at the network edge. While still at an early age, it is expected that the evolving 6G network will adopt advanced artificial intelligence (AI) technologies to collect, transmit, and learn this valuable data for innovative applications and intelligent services. However, traditional machine learning (ML) approaches require centralizing the training data in the data center or cloud, raising serious user-privacy concerns. Federated learning, as an emerging distributed AI paradigm with privacy-preserving nature, is anticipated to be a key enabler for achieving ubiquitous AI in 6G networks. However, there are several system and statistical heterogeneity challenges for effective and efficient FL implementation in 6G networks. In this article, we investigate the optimization approaches that can effectively address the challenging heterogeneity issues from three aspects: incentive mechanism design, network resource management, and personalized model optimization. We also present some open problems and promising directions for future research.
翻訳日:2023-03-16 14:54:54 公開日:2023-03-15
# 画像検索における高分解能表現学習のための三重項拡張残差ネットワーク

A Triplet-loss Dilated Residual Network for High-Resolution Representation Learning in Image Retrieval ( http://arxiv.org/abs/2303.08398v1 )

ライセンス: Link先を確認
Saeideh Yousefzadeh, Hamidreza Pourreza, Hamidreza Mahyar(参考訳) コンテンツベースの画像検索は、色、形状、空間関係、テクスチャなどの視覚的コンテンツに基づいて、広範囲の画像ギャラリーから画像のサブセットを取得するプロセスである。 ローカライゼーションなどのアプリケーションでは、最初のステップとして画像検索が使用される。 このような場合、トップ検索画像の精度はシステム全体の精度に大きく影響する。 本報告では,トレーニング可能なパラメータが少ない単純な画像検索システムを導入し,トップ検索画像の精度を許容する。 提案手法は三重項損失を有する拡張残差畳み込みニューラルネットワークの利点である。 実験評価により,このモデルでは受容場を拡大することでよりリッチな情報(すなわち高分解能表現)を抽出でき,モデルの奥行きや複雑さを増すことなく画像検索精度を向上させることができた。 抽出された表現のロバスト性を高めるため、本研究は各特徴マップから興味のある候補領域を取得し、その領域に一般化平均プーリングを適用する。 トリプレットベースネットワークにおけるトリプレットの選択がモデルトレーニングに影響するため,トリプレットオンラインマイニング手法を採用する。 本稿では,提案手法の性能を,挑戦的な画像リトライバルデータセットであるrevisited paris6k (rpar) とukbenchの2つの構成で検証した。 実験結果は、RParの媒体では94.54と80.23(平均ランク10の精度)、UKBenchのデータセットでは3.86(ランク4のリコール)の精度を示した。

Content-based image retrieval is the process of retrieving a subset of images from an extensive image gallery based on visual contents, such as color, shape or spatial relations, and texture. In some applications, such as localization, image retrieval is employed as the initial step. In such cases, the accuracy of the top-retrieved images significantly affects the overall system accuracy. The current paper introduces a simple yet efficient image retrieval system with a fewer trainable parameters, which offers acceptable accuracy in top-retrieved images. The proposed method benefits from a dilated residual convolutional neural network with triplet loss. Experimental evaluations show that this model can extract richer information (i.e., high-resolution representations) by enlarging the receptive field, thus improving image retrieval accuracy without increasing the depth or complexity of the model. To enhance the extracted representations' robustness, the current research obtains candidate regions of interest from each feature map and applies Generalized-Mean pooling to the regions. As the choice of triplets in a triplet-based network affects the model training, we employ a triplet online mining method. We test the performance of the proposed method under various configurations on two of the challenging image-retrieval datasets, namely Revisited Paris6k (RPar) and UKBench. The experimental results show an accuracy of 94.54 and 80.23 (mean precision at rank 10) in the RPar medium and hard modes and 3.86 (recall at rank 4) in the UKBench dataset, respectively.
翻訳日:2023-03-16 14:48:28 公開日:2023-03-15
# PR-MCS:多言語画像キャプションのための摂動ロバストメトリック

PR-MCS: Perturbation Robust Metric for MultiLingual Image Captioning ( http://arxiv.org/abs/2303.08389v1 )

ライセンス: Link先を確認
Yongil Kim, Yerin Hwang, Hyeongu Yun, Seunghyun Yoon, Trung Bui, and Kyomin Jung(参考訳) 語彙的摂動に対する脆弱性は、画像キャプションの自動評価指標の重大な弱点である。 本稿では,複数の言語に適用可能な新しい参照フリー画像キャプション指標として,このような摂動に対する堅牢性を示す摂動ロバスト多言語CLIPScore(PR-MCS)を提案する。 摂動ロバスト性を達成するために,CLIPのテキストエンコーダを言語に依存しない方法で微調整し,乱れたテキストと元のテキストを区別する。 PR-MCSのロバスト性を検証するために, 詳細なキャプション, クリティカルオブジェクト, および5言語で3, 000の画像の関連性からなる, きめ細かな評価データセットを提案する。 実験の結果,PR-MCSは5言語すべてで様々な摂動型の語彙ノイズを捕捉する上で,ベースラインの指標よりも有意に優れており,PR-MCSは語彙摂動に対して非常に堅牢であることがわかった。

Vulnerability to lexical perturbation is a critical weakness of automatic evaluation metrics for image captioning. This paper proposes Perturbation Robust Multi-Lingual CLIPScore(PR-MCS), which exhibits robustness to such perturbations, as a novel reference-free image captioning metric applicable to multiple languages. To achieve perturbation robustness, we fine-tune the text encoder of CLIP with our language-agnostic method to distinguish the perturbed text from the original text. To verify the robustness of PR-MCS, we introduce a new fine-grained evaluation dataset consisting of detailed captions, critical objects, and the relationships between the objects for 3, 000 images in five languages. In our experiments, PR-MCS significantly outperforms baseline metrics in capturing lexical noise of all various perturbation types in all five languages, proving that PR-MCS is highly robust to lexical perturbations.
翻訳日:2023-03-16 14:48:00 公開日:2023-03-15
# 幾何学的マッチングによる光流れの再考

Rethinking Optical Flow from Geometric Matching Consistent Perspective ( http://arxiv.org/abs/2303.08384v1 )

ライセンス: Link先を確認
Qiaole Dong and Chenjie Cao and Yanwei Fu(参考訳) 光流量推定は未解決の課題である。 近年の深層学習に基づく光フローモデルは大きな成功を収めている。 しかし、これらのモデルはしばしば標準の光フローデータからネットワークをスクラッチからトレーニングし、画像の特徴にロバストで幾何学的にマッチする能力を制限する。 本稿では,従来の光学的フロー推定に対する再考を提案する。 我々は特に,光学的フロー推定(MatchFlow)のための事前学習タスクとして幾何学的画像マッチング(GIM)を利用する。 したがって、静的シーンのマッチングは、一貫した変位を伴うオブジェクトとシーンのより基本的な特徴相関を学習するのに役立ちます。 具体的には,megadepthで事前学習した四分木注意型ネットワークを用いて,フロー回帰のための粗い特徴抽出を行う。 大規模な実験により、我々のモデルは非常にクロスデータセットの一般化が示される。 Sintel クリーンパスと KITTI テストセットの GMA から 11.5% と 10.1% の誤差削減を実現した。 匿名提出の時点では、matchflow(g)はsintel cleanとfinal passの最先端のパフォーマンスを、同等の計算量とメモリフットプリントを持つ公開アプローチと比較して享受しています。 コードとモデルはhttps://github.com/dqiaole/matchflowでリリースされる。

Optical flow estimation is a challenging problem remaining unsolved. Recent deep learning based optical flow models have achieved considerable success. However, these models often train networks from the scratch on standard optical flow data, which restricts their ability to robustly and geometrically match image features. In this paper, we propose a rethinking to previous optical flow estimation. We particularly leverage Geometric Image Matching (GIM) as a pre-training task for the optical flow estimation (MatchFlow) with better feature representations, as GIM shares some common challenges as optical flow estimation, and with massive labeled real-world data. Thus, matching static scenes helps to learn more fundamental feature correlations of objects and scenes with consistent displacements. Specifically, the proposed MatchFlow model employs a QuadTree attention-based network pre-trained on MegaDepth to extract coarse features for further flow regression. Extensive experiments show that our model has great cross-dataset generalization. Our method achieves 11.5% and 10.1% error reduction from GMA on Sintel clean pass and KITTI test set. At the time of anonymous submission, our MatchFlow(G) enjoys state-of-the-art performance on Sintel clean and final pass compared to published approaches with comparable computation and memory footprint. Codes and models will be released in https://github.com/DQiaole/MatchFlow.
翻訳日:2023-03-16 14:47:42 公開日:2023-03-15
# データベース・アズ・ア・サービスを用いたフェデレーション機械学習におけるデータデカップリング手法の比較評価

Comparative Evaluation of Data Decoupling Techniques for Federated Machine Learning with Database as a Service ( http://arxiv.org/abs/2303.08371v1 )

ライセンス: Link先を確認
Muhammad Jahanzeb Khan, Rui Hu, Mohammad Sadoghi, Dongfang Zhao(参考訳) Federated Learning(FL)は、複数のクライアントが生データを共有せずに、共同で共有モデルを学ぶことができる機械学習アプローチである。 しかし、現在のFLシステムはオールインワンのソリューションを提供しており、科学的応用など特定の領域におけるFLの広範な採用を妨げる可能性がある。 この制限を克服するために、クライアントが特定のデータサブシステムでFLアプリケーションをカスタマイズできるデカップリング手法を提案する。 このアプローチを評価するため,著者らはDDFL(Data-Decoupling Federated Learning)と呼ばれるフレームワークを開発し,データ管理と計算を密結合する最先端のFLシステムと比較した。 様々なデータセットとデータ管理サブシステムに関する大規模な実験により、DDFLはトレーニング時間、推測精度、データベースクエリ時間において同等またはより良いパフォーマンスを達成することが示された。 さらに、DDFLはデータ関連のメトリクスに関してFLアプリケーションをチューニングするオプションをクライアントに提供する。 著者らは、主要なデータベースシステムと統合されたDDFLの詳細な定性分析も提供している。

Federated Learning (FL) is a machine learning approach that allows multiple clients to collaboratively learn a shared model without sharing raw data. However, current FL systems provide an all-in-one solution, which can hinder the wide adoption of FL in certain domains such as scientific applications. To overcome this limitation, this paper proposes a decoupling approach that enables clients to customize FL applications with specific data subsystems. To evaluate this approach, the authors develop a framework called Data-Decoupling Federated Learning (DDFL) and compare it with state-of-the-art FL systems that tightly couple data management and computation. Extensive experiments on various datasets and data management subsystems show that DDFL achieves comparable or better performance in terms of training time, inference accuracy, and database query time. Moreover, DDFL provides clients with more options to tune their FL applications regarding data-related metrics. The authors also provide a detailed qualitative analysis of DDFL when integrated with mainstream database systems.
翻訳日:2023-03-16 14:47:20 公開日:2023-03-15
# 低周波ニューラルフィールドを用いた少数映像合成

Harnessing Low-Frequency Neural Fields for Few-Shot View Synthesis ( http://arxiv.org/abs/2303.08370v1 )

ライセンス: Link先を確認
Liangchen Song, Zhong Li, Xuan Gong, Lele Chen, Zhang Chen, Yi Xu, Junsong Yuan(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成問題においてブレークスルーをもたらした。 位置エンコーディング(P.E.)は、低次元座標を高次元空間にマッピングしてシーンの詳細を再現する、NeRFの印象的な性能をもたらす重要な要素である。 しかし、P.E.の頻度が盲目的に増加すると、再建問題が過小評価されているときに過度に適合する。 我々は、低周波のニューラルフィールドを利用して、高周波のニューラルフィールドを過剰フィッティングから正則化し、少数ショットのビュー合成の問題を解決する。 本稿では,低周波のみのフィールドで再構成し,高周波のフィールドで詳細を仕上げることを提案する。 出力空間を正則化する既存のソリューション (\ie, render image) とは異なり、我々の正則化は入力空間 (\ie, signal frequency) で実行される。 さらに,2次元画像の周波数領域間の一貫性を強要する,数点入力の過剰化を回避するために,周波数をチューニングする簡便な手法を提案する。 入力空間正規化スキームにより,動的シーンの時間次元などの空間的位置を超えた入力に容易に適用できる。 合成データと自然データの両方における最新技術との比較により,提案手法の有効性が検証された。 コードは \href{https://github.com/lsongx/halo}{https://github.com/lsongx/halo} で入手できる。

Neural Radiance Fields (NeRF) have led to breakthroughs in the novel view synthesis problem. Positional Encoding (P.E.) is a critical factor that brings the impressive performance of NeRF, where low-dimensional coordinates are mapped to high-dimensional space to better recover scene details. However, blindly increasing the frequency of P.E. leads to overfitting when the reconstruction problem is highly underconstrained, \eg, few-shot images for training. We harness low-frequency neural fields to regularize high-frequency neural fields from overfitting to better address the problem of few-shot view synthesis. We propose reconstructing with a low-frequency only field and then finishing details with a high-frequency equipped field. Unlike most existing solutions that regularize the output space (\ie, rendered images), our regularization is conducted in the input space (\ie, signal frequency). We further propose a simple-yet-effective strategy for tuning the frequency to avoid overfitting few-shot inputs: enforcing consistency among the frequency domain of rendered 2D images. Thanks to the input space regularizing scheme, our method readily applies to inputs beyond spatial locations, such as the time dimension in dynamic scenes. Comparisons with state-of-the-art on both synthetic and natural datasets validate the effectiveness of our proposed solution for few-shot view synthesis. Code is available at \href{https://github.com/lsongx/halo}{https://github.com/lsongx/halo}.
翻訳日:2023-03-16 14:47:01 公開日:2023-03-15
# 不確実性を考慮した分布拡散による歩行者軌跡予測

Uncertainty-Aware Pedestrian Trajectory Prediction via Distributional Diffusion ( http://arxiv.org/abs/2303.08367v1 )

ライセンス: Link先を確認
Yao Liu, Zesheng Ye, Binghao Li, Lina Yao(参考訳) 人的行動の不確実性と多様性を考慮した生成モデルを用いた歩行者軌跡予測に多大な努力が注がれている。 個人固有の不確実性、例えば目的地の変更は、相互作用する歩行者の動きから生じる複雑なパターンによって隠される。 しかし、潜伏変数ベースの生成モデルは、しばしばそのような不確実性を複雑さと絡み合い、限られた表現性または過信な予測をもたらす。 本研究では,複雑な歩行者の動きを記述した柔軟な分布を暗黙的に導出することにより,これらの2つの要因を個別にモデル化することを提案する。 より具体的には,マルチモーダルトラジェクタを共同で構成する位置分布の十分な統計をパラメータ化する不確実性を考慮した歩行者軌跡予測フレームワークを提案する。 さらに,騒音から歩行者の動きを徐々に復元する消音過程を近似して,これらのパラメータを推定する。 従来の研究とは異なり、予測確率性は明示的な分布に変換され、個人の自己不確実性を示す正確な将来の軌跡を生成するのに容易に用いられる。 さらに、我々のフレームワークは、異なるニューラルネットワークアーキテクチャとの互換性のためにモデルに依存しない。 広く使われているベンチマークにおいて、我々のフレームワークの性能上の利点を実証的に示す。

Tremendous efforts have been devoted to pedestrian trajectory prediction using generative modeling for accommodating uncertainty and multi-modality in human behaviors. An individual's inherent uncertainty, e.g., change of destination, can be masked by complex patterns resulting from the movements of interacting pedestrians. However, latent variable-based generative models often entangle such uncertainty with complexity, leading to either limited expressivity or overconfident predictions. In this work, we propose to separately model these two factors by implicitly deriving a flexible distribution that describes complex pedestrians' movements, whereas incorporating predictive uncertainty of individuals with explicit density functions over their future locations. More specifically, we present an uncertainty-aware pedestrian trajectory prediction framework, parameterizing sufficient statistics for the distributions of locations that jointly comprise the multi-modal trajectories. We further estimate these parameters of interest by approximating a denoising process that progressively recovers pedestrian movements from noise. Unlike prior studies, we translate the predictive stochasticity to the explicit distribution, making it readily used to generate plausible future trajectories indicating individuals' self-uncertainty. Moreover, our framework is model-agnostic for compatibility with different neural network architectures. We empirically show the performance advantages of our framework on widely-used benchmarks, outperforming state-of-the-art in most scenes even with lighter backbones.
翻訳日:2023-03-16 14:46:36 公開日:2023-03-15
# 機械的および周期的整合性損失による生体細胞の不監督輪郭追跡

Unsupervised Contour Tracking of Live Cells by Mechanical and Cycle Consistency Losses ( http://arxiv.org/abs/2303.08364v1 )

ライセンス: Link先を確認
Junbong Jang, Kwonmoo Lee and Tae-Kyun Kim(参考訳) 細胞形態の動的変化を分析することは、幹細胞や転移性癌細胞を含む生体細胞の様々な機能や特性を理解する上で重要である。 この目的のためには、ライブビデオのフレームごとに高度に変形可能な細胞輪郭の全ての点を追跡する必要がある。 輪郭上の局所的な形状やテクスチャは明確ではなく、その動きは複雑であり、しばしば局所輪郭の特徴の伸縮を伴う。 光流や深度集合追跡の先行技術は細胞の流動性のために不適であり、以前の深度輪郭追跡は点対応を考慮していない。 本研究では,交差注意を持つ2つの輪郭間の密接な表現を用いて,セル状(あるいはより一般的に粘弾性材料)輪郭を点対応で追跡する初の深層学習方式を提案する。 輪郭上の高密度なトラッキングポイントを手動でラベル付けするのは現実的ではないため,輪郭トラッカーを訓練するために,機械的および循環的整合性損失からなる教師なし学習を提案する。 点を輪郭に垂直に動かす機械的な損失は効果的に役に立つ。 定量的評価のために,位相コントラストと共焦点蛍光顕微鏡を用いて2つのライブセルデータセットから生細胞の輪郭に沿ってスパーストラッキングポイントをラベル付けした。 輪郭トラッカーは比較手法より定量的に優れ,定性的に有利な結果が得られる。 私たちのコードとデータはhttps://github.com/junbongjang/contour-tracking/で公開されている。

Analyzing the dynamic changes of cellular morphology is important for understanding the various functions and characteristics of live cells, including stem cells and metastatic cancer cells. To this end, we need to track all points on the highly deformable cellular contour in every frame of live cell video. Local shapes and textures on the contour are not evident, and their motions are complex, often with expansion and contraction of local contour features. The prior arts for optical flow or deep point set tracking are unsuited due to the fluidity of cells, and previous deep contour tracking does not consider point correspondence. We propose the first deep learning-based tracking of cellular (or more generally viscoelastic materials) contours with point correspondence by fusing dense representation between two contours with cross attention. Since it is impractical to manually label dense tracking points on the contour, unsupervised learning comprised of the mechanical and cyclical consistency losses is proposed to train our contour tracker. The mechanical loss forcing the points to move perpendicular to the contour effectively helps out. For quantitative evaluation, we labeled sparse tracking points along the contour of live cells from two live cell datasets taken with phase contrast and confocal fluorescence microscopes. Our contour tracker quantitatively outperforms compared methods and produces qualitatively more favorable results. Our code and data are publicly available at https://github.com/JunbongJang/contour-tracking/
翻訳日:2023-03-16 14:46:16 公開日:2023-03-15
# シングルラベルからマルチラベルへの知識蒸留 : 実証的研究

Knowledge Distillation from Single to Multi Labels: an Empirical Study ( http://arxiv.org/abs/2303.08360v1 )

ライセンス: Link先を確認
Youcai Zhang, Yuzhuo Qin, Hengwei Liu, Yanhao Zhang, Yaqian Li, Xiaodong Gu(参考訳) 知識蒸留(KD)はシングルラベル画像分類において広く研究されている。 しかし,マルチラベル分類における有効性は比較的未解明である。 本研究では,まず,ロジットベースおよび特徴ベース手法を含む古典的KD手法のマルチラベル分類への応用について検討する。 本研究は,教師がクラス間類似性情報や正規化効果を学生モデルのトレーニングに提供できないため,ロジットに基づく手法がマルチラベル分類に適していないことを示唆している。 さらに,複数のラベルのコンパクトな情報を同時伝達する上で,特徴ベース手法が困難であることを示す。 これらの制約を考慮し、適切な暗黒知識は分類情報を取り入れ、最終分類結果と高い相関関係を持つべきである。 これらの課題に対処するために,クラス活性化マップ(CAM)に基づく新しい蒸留法を導入する。 幅広い設定で、camsベースの蒸留は一貫して他の方法を上回る。

Knowledge distillation (KD) has been extensively studied in single-label image classification. However, its efficacy for multi-label classification remains relatively unexplored. In this study, we firstly investigate the effectiveness of classical KD techniques, including logit-based and feature-based methods, for multi-label classification. Our findings indicate that the logit-based method is not well-suited for multi-label classification, as the teacher fails to provide inter-category similarity information or regularization effect on student model's training. Moreover, we observe that feature-based methods struggle to convey compact information of multiple labels simultaneously. Given these limitations, we propose that a suitable dark knowledge should incorporate class-wise information and be highly correlated with the final classification results. To address these issues, we introduce a novel distillation method based on Class Activation Maps (CAMs), which is both effective and straightforward to implement. Across a wide range of settings, CAMs-based distillation consistently outperforms other methods.
翻訳日:2023-03-16 14:45:52 公開日:2023-03-15
# DICNet:Double Uncomplete Multi-View Multi-Label 分類のためのディープインスタンスレベルコントラストネットワーク

DICNet: Deep Instance-Level Contrastive Network for Double Incomplete Multi-View Multi-Label Classification ( http://arxiv.org/abs/2303.08358v1 )

ライセンス: Link先を確認
Chengliang Liu, Jie Wen, Xiaoling Luo, Chao Huang, Zhihao Wu, Yong Xu(参考訳) 近年,多視点マルチラベル学習が広範な研究熱意を喚起している。 しかし,データ収集や手動アノテーションの不確実性のため,実世界のマルチビュー・マルチラベル・データは一般的に不完全であり,多ビューの特徴が欠落しているだけでなく,ラベルの完全性も満足できない。 二重不完全多視点マルチラベル分類問題に対処するため,DICNetという深層インスタンスレベルのコントラストネットワークを提案する。 従来の手法とは異なり、DICNetは深層ニューラルネットワークを活用して、浅いレベルの特徴ではなく、サンプルの高レベルなセマンティック表現を活用することに重点を置いています。 まず、重ねられたオートエンコーダを用いて、エンドツーエンドのマルチビュー特徴抽出フレームワークを構築し、サンプルのビュー固有表現を学習する。 さらに,コンセンサス表現能力を向上させるために,複数のビューのコンセンサス情報をよりよく抽出し,マルチビュー重み付き融合モジュールを用いて意味的特徴の識別性を高めるために,エンコーダを誘導する不完全なインスタンスレベルのコントラスト学習方式を導入する。 全体として、DICNetは多視点多ラベルデータの一貫した識別的表現を捉え、欠落したビューや欠落したラベルの負の影響を避けることに長けている。 5つのデータセットで広範な実験を行い、この手法が最先端の他の手法よりも優れていることを検証した。

In recent years, multi-view multi-label learning has aroused extensive research enthusiasm. However, multi-view multi-label data in the real world is commonly incomplete due to the uncertain factors of data collection and manual annotation, which means that not only multi-view features are often missing, and label completeness is also difficult to be satisfied. To deal with the double incomplete multi-view multi-label classification problem, we propose a deep instance-level contrastive network, namely DICNet. Different from conventional methods, our DICNet focuses on leveraging deep neural network to exploit the high-level semantic representations of samples rather than shallow-level features. First, we utilize the stacked autoencoders to build an end-to-end multi-view feature extraction framework to learn the view-specific representations of samples. Furthermore, in order to improve the consensus representation ability, we introduce an incomplete instance-level contrastive learning scheme to guide the encoders to better extract the consensus information of multiple views and use a multi-view weighted fusion module to enhance the discrimination of semantic features. Overall, our DICNet is adept in capturing consistent discriminative representations of multi-view multi-label data and avoiding the negative effects of missing views and missing labels. Extensive experiments performed on five datasets validate that our method outperforms other state-of-the-art methods.
翻訳日:2023-03-16 14:45:36 公開日:2023-03-15
# TCNとTransformerに基づく連続感情認識

Continuous emotion recognition based on TCN and Transformer ( http://arxiv.org/abs/2303.08356v1 )

ライセンス: Link先を確認
Weiwei Zhou, Jiada Lu, Zhaolong Xiong, Weifeng Wang(参考訳) 人間の感情認識は、人間とコンピュータの相互作用において重要な役割を果たす。 本稿では,第5回ワークショップのvalence-arousal (va) estimation challenge, expression (expr) classification challenge, action unit (au) detection challenge, and competition on affective behavior analysis in-the-wild (abaw)について述べる。 具体的には,時間的畳み込みネットワーク(tcn,temporal convolutional network)とトランスフォーマー(transformer)を利用して,連続的感情認識の性能を向上させるマルチモーダル融合モデルを提案する。 本モデルは,感情認識の精度を向上させるため,視覚情報と音声情報を効果的に統合することを目的としている。 一致相関係数(CCC)を用いたモデルの評価

Human emotion recognition plays an important role in human-computer interaction. In this paper, we present our approach to the Valence-Arousal (VA) Estimation Challenge, Expression (Expr) Classification Challenge, and Action Unit (AU) Detection Challenge of the 5th Workshop and Competition on Affective Behavior Analysis in-the-wild (ABAW). Specifically, we propose a novel multi-modal fusion model that leverages Temporal Convolutional Networks (TCN) and Transformer to enhance the performance of continuous emotion recognition. Our model aims to effectively integrate visual and audio information for improved accuracy in recognizing emotions. The model is evaluate with Concordance Correlation Coefficient (CCC)
翻訳日:2023-03-16 14:45:11 公開日:2023-03-15
# 機能学習におけるmixupの利点

The Benefits of Mixup for Feature Learning ( http://arxiv.org/abs/2303.08433v1 )

ライセンス: Link先を確認
Difan Zou, Yuan Cao, Yuanzhi Li, Quanquan Gu(参考訳) 線形補間によってランダムに2つのデータポイントを混合する単純なデータ拡張手法であるMixupは、より高度な一般化を得るために様々なディープラーニングアプリケーションに広く応用されている。 しかし、その効果の理論的根拠はまだ完全には分かっていない。 本稿では,Mixupのメリットを根本的に理解することを目的としている。 まず,異なる線形補間パラメータを特徴量やラベルに用いたMixupは,標準Mixupと同様の性能が得られることを示す。 これは Zhang et al., (2018) における直感的線型性の説明が Mixup の成功を完全に説明していないことを示している。 次に,特徴学習の観点から混合に関する理論的研究を行う。 我々は、特徴雑音データモデルを検討し、Mixupトレーニングが、一般的な特徴(少数のデータに現れる)と組み合わせることで、稀な特徴(少数のデータに現れる)を効果的に学習できることを示す。 対照的に、標準的なトレーニングは共通の特徴のみを学習するが、まれな特徴を学習できないため、一般化性能が悪くなる。 さらに,本理論解析により,Mixup の早期学習段階において,Mixup の利点が主に得られ,Mixup の早期停止が提案されている。 実験により理論的な結果が検証され, 早期混成訓練の有効性が示された。

Mixup, a simple data augmentation method that randomly mixes two data points via linear interpolation, has been extensively applied in various deep learning applications to gain better generalization. However, the theoretical underpinnings of its efficacy are not yet fully understood. In this paper, we aim to seek a fundamental understanding of the benefits of Mixup. We first show that Mixup using different linear interpolation parameters for features and labels can still achieve similar performance to the standard Mixup. This indicates that the intuitive linearity explanation in Zhang et al., (2018) may not fully explain the success of Mixup. Then we perform a theoretical study of Mixup from the feature learning perspective. We consider a feature-noise data model and show that Mixup training can effectively learn the rare features (appearing in a small fraction of data) from its mixture with the common features (appearing in a large fraction of data). In contrast, standard training can only learn the common features but fails to learn the rare features, thus suffering from bad generalization performance. Moreover, our theoretical analysis also shows that the benefits of Mixup for feature learning are mostly gained in the early training phase, based on which we propose to apply early stopping in Mixup. Experimental results verify our theoretical findings and demonstrate the effectiveness of the early-stopped Mixup training.
翻訳日:2023-03-16 14:39:13 公開日:2023-03-15
# ニアリニア量子レギュレータのグローバル最適政策への政策勾配の収束

Policy Gradient Converges to the Globally Optimal Policy for Nearly Linear-Quadratic Regulators ( http://arxiv.org/abs/2303.08431v1 )

ライセンス: Link先を確認
Yinbin Han, Meisam Razaviyayn and Renyuan Xu(参考訳) 意思決定者に部分的な情報を与える非線形制御システムは、様々なアプリケーションで広く使われている。 このような非線形システムの研究の一歩として, ほぼ線形2次制御系における最適政策を見つけるための強化学習手法を検討する。 特に、線形成分と非線形成分を結合し、同じ構造を持つポリシーによって制御される動的システムを考える。 非線形成分が小さなリプシッツ係数を持つカーネルからなると仮定すると、コスト関数の最適化景観を特徴づける。 コスト関数は一般に非凸であるが、大域最適化器の近傍で局所的な強い凸性と滑らか性を確立する。 さらに,これらの特性を利用する初期化機構を提案する。 開発を基盤として,線形レートでグローバルな最適政策に収束することが保証される政策勾配アルゴリズムを設計する。

Nonlinear control systems with partial information to the decision maker are prevalent in a variety of applications. As a step toward studying such nonlinear systems, this work explores reinforcement learning methods for finding the optimal policy in the nearly linear-quadratic regulator systems. In particular, we consider a dynamic system that combines linear and nonlinear components, and is governed by a policy with the same structure. Assuming that the nonlinear component comprises kernels with small Lipschitz coefficients, we characterize the optimization landscape of the cost function. Although the cost function is nonconvex in general, we establish the local strong convexity and smoothness in the vicinity of the global optimizer. Additionally, we propose an initialization mechanism to leverage these properties. Building on the developments, we design a policy gradient algorithm that is guaranteed to converge to the globally optimal policy with a linear rate.
翻訳日:2023-03-16 14:38:50 公開日:2023-03-15
# トランスフォーマー型フュージョンネットワークと動的サンプリングを用いたマルチモーダル表情認識

Multi-Modal Facial Expression Recognition with Transformer-Based Fusion Networks and Dynamic Sampling ( http://arxiv.org/abs/2303.08419v1 )

ライセンス: Link先を確認
Jun-Hwa Kim, Namho Kim, Chee Sun Won(参考訳) 表情認識は、感情検出、メンタルヘルス分析、人間と機械の相互作用といった様々な目的において重要である。 表情認識では、静止画像とともに音声情報を取り入れることで、表情状態のより包括的な理解が可能になる。 本稿では,CVPR 2023におけるABAW(Affective Behavior in the-wild)課題に対するマルチモーダル表情認識手法を提案する。 本稿では,視聴覚情報を融合するmodal fusion module (mfm)を提案する。 モダリティは画像とオーディオであり、特徴はMFMを転送するためにSwin Transformerに基づいて抽出される。 トレーニングデータセットにおけるデータ再サンプリングによるデータセットの不均衡にも対処し,dynmaicデータサンプリングを用いた単一フレームのリッチモーダルを活用することで,パフォーマンスの向上を実現した。

Facial expression recognition is important for various purpose such as emotion detection, mental health analysis, and human-machine interaction. In facial expression recognition, incorporating audio information along with still images can provide a more comprehensive understanding of an expression state. This paper presents the Multi-modal facial expression recognition methods for Affective Behavior in-the-wild (ABAW) challenge at CVPR 2023. We propose a Modal Fusion Module (MFM) to fuse audio-visual information. The modalities used are image and audio, and features are extracted based on Swin Transformer to forward the MFM. Our approach also addresses imbalances in the dataset through data resampling in training dataset and leverages the rich modal in a single frame using dynmaic data sampling, leading to improved performance.
翻訳日:2023-03-16 14:38:37 公開日:2023-03-15
# SymBa: 収束を最適化するフォワードフォワードアルゴリズムによる対称バックプロパゲーションフリーコントラスト学習

SymBa: Symmetric Backpropagation-Free Contrastive Learning with Forward-Forward Algorithm for Optimizing Convergence ( http://arxiv.org/abs/2303.08418v1 )

ライセンス: Link先を確認
Heung-Chang Lee, Jeonggeun Song(参考訳) 本稿では,バックプロパゲーション(BP)よりも生物学的に妥当な学習を実現することを目的とした,SymBaと呼ばれる新しいアルゴリズムを提案する。 このアルゴリズムは、ニューラルネットワークをトレーニングするためのbpフリーな手法であるフォワードフォワード(ff)アルゴリズムに基づいている。 symbaは正と負のサンプルの収束方向の矛盾に起因する非対称勾配の問題に対処することでffアルゴリズムの収束挙動を改善する。 このアルゴリズムは正の損失と負の損失のバランスをとり、性能と収束速度を高める。 さらに、クラス情報を含む固有クラスパターン(ICP)を追加してFFアルゴリズムを変更し、トレーニング中のクラス情報の損失を防止する。 提案アルゴリズムは、脳が情報を学び、処理する方法の理解を深め、より効率的で効率的な人工知能システムを開発する可能性がある。 本稿では,FFアルゴリズムやBPと比較してSymBaアルゴリズムの有効性を示す実験結果を示す。

The paper proposes a new algorithm called SymBa that aims to achieve more biologically plausible learning than Back-Propagation (BP). The algorithm is based on the Forward-Forward (FF) algorithm, which is a BP-free method for training neural networks. SymBa improves the FF algorithm's convergence behavior by addressing the problem of asymmetric gradients caused by conflicting converging directions for positive and negative samples. The algorithm balances positive and negative losses to enhance performance and convergence speed. Furthermore, it modifies the FF algorithm by adding Intrinsic Class Pattern (ICP) containing class information to prevent the loss of class information during training. The proposed algorithm has the potential to improve our understanding of how the brain learns and processes information and to develop more effective and efficient artificial intelligence systems. The paper presents experimental results that demonstrate the effectiveness of SymBa algorithm compared to the FF algorithm and BP.
翻訳日:2023-03-16 14:38:24 公開日:2023-03-15
# 不確実性を考慮した肺結節分節と低信頼領域予測

Lung Nodule Segmentation and Low-Confidence Region Prediction with Uncertainty-Aware Attention Mechanism ( http://arxiv.org/abs/2303.08416v1 )

ライセンス: Link先を確認
Han Yang, Qiuli Wang(参考訳) 放射線医は訓練と臨床経験が異なるため、肺結節に対して様々なセグメンテーションアノテーションを提供し、複数のアノテーション間でセグメンテーションの不確実性を引き起こす可能性がある。 従来の手法は通常、学習対象として単一のアノテーションを選択したり、様々なアノテーションの潜在空間を学習しようとしたりした。 それでも、複数のアノテーションの中で合意や意見の不一致の貴重な情報を無駄にした。 本稿では,アノテーション間のコンセンサスや不一致を利用してセグメンテーションを改善する不確実性意識機構(UAAM)を提案する。 UAAMでは、低信頼(LC)マスクと高信頼(HC)マスクを組み合わせたマルチ信頼マスク(MCM)を提案する。 LCマスクはセグメンテーションの信頼性が低い領域を指し、放射線技師の間でセグメンテーションの選択肢が異なる可能性がある。 UAAMの後、我々はさらに3つのモジュールを含むUncertainty-Guide Segmentation Network (UGS-Net)を設計した。 Uncertainty-Aware Moduleはアノテーションの結合、交差、アノテーションセットの3つの機能を生成する。 最後に、Intersection-Union Constraining Moduleは、最終セグメンテーション、LCマスク、HCマスクの予測のバランスをとるために、3つの特徴間の距離を使用する。 そこで本研究では, ugs-net の肺結節における分節性能を, u-net で分節することが困難である ugs-net の分節性能を試験する lidc-idri の複雑な結節課題を提案する。 実験の結果,本手法はu-netによるセグメンテーションが不十分な結節のセグメンテーション性能を著しく向上できることがわかった。

Radiologists have different training and clinical experiences, so they may provide various segmentation annotations for a lung nodule, which causes segmentation uncertainty among multiple annotations. Conventional methods usually chose a single annotation as the learning target or tried to learn a latent space of various annotations. Still, they wasted the valuable information of consensus or disagreements ingrained in the multiple annotations. This paper proposes an Uncertainty-Aware Attention Mechanism (UAAM), which utilizes consensus or disagreements among annotations to produce a better segmentation. In UAAM, we propose a Multi-Confidence Mask (MCM), which is a combination of a Low-Confidence (LC) Mask and a High-Confidence (HC) Mask. LC mask indicates regions with low segmentation confidence, which may cause different segmentation options among radiologists. Following UAAM, we further design an Uncertainty-Guide Segmentation Network (UGS-Net), which contains three modules:Feature Extracting Module captures a general feature of a lung nodule. Uncertainty-Aware Module produce three features for the annotations' union, intersection, and annotation set. Finally, Intersection-Union Constraining Module use distances between three features to balance the predictions of final segmentation, LC mask, and HC mask. To fully demonstrate the performance of our method, we propose a Complex Nodule Challenge on LIDC-IDRI, which tests UGS-Net's segmentation performance on the lung nodules that are difficult to segment by U-Net. Experimental results demonstrate that our method can significantly improve the segmentation performance on nodules with poor segmentation by U-Net.
翻訳日:2023-03-16 14:38:08 公開日:2023-03-15
# CNNを用いた水田病分類

Rice paddy disease classifications using CNNs ( http://arxiv.org/abs/2303.08415v1 )

ライセンス: Link先を確認
Charles O'Neill(参考訳) 米は世界の食生活において重要な食物であるが、毎年大量の収穫量が病気で失われている。 この問題に対処するため、人々は病気の診断を自動化する方法を模索してきた。 本稿では,病気分類精度がモデルアーキテクチャと一般的なコンピュータビジョン技術の両方にどのように影響するかを分析することにより,これまでのモデリング作業を拡張する。 これにより、より小さなモデルサイズ、最小のGPU、より短いトレーニング時間の制約に対処しながら、精度を最大化する。 従来の最先端モデルでは93%の精度で5つの疾患を予測できたが、10の病クラスで98.7%に改善した。

Rice is a staple food in the world's diet, and yet huge percentages of crop yields are lost each year to disease. To combat this problem, people have been searching for ways to automate disease diagnosis. Here, we extend on previous modelling work by analysing how disease-classification accuracy is sensitive to both model architecture and common computer vision techniques. In doing so, we maximise accuracy whilst working in the constraints of smaller model sizes, minimum GPUs and shorter training times. Whilst previous state-of-the-art models had 93% accuracy only predicting 5 diseases, we improve this to 98.7% using 10 disease classes.
翻訳日:2023-03-16 14:37:38 公開日:2023-03-15
# 効率的な視覚表現学習のための局所バイナリパターンから画素差分ネットワークへ

From Local Binary Patterns to Pixel Difference Networks for Efficient Visual Representation Learning ( http://arxiv.org/abs/2303.08414v1 )

ライセンス: Link先を確認
Zhuo Su and Matti Pietik\"ainen and Li Liu(参考訳) LBPはコンピュータビジョンにおける手作りの機能記述器として成功している。 しかし、深層学習時代には、深層ニューラルネットワーク、特に畳み込みニューラルネットワーク(cnns)は、より識別的で高い表現能力を持つ強力なタスク認識機能を自動的に学習することができる。 このような手作りの機能は、深いコンピュータビジョンモデルを設計する際に安全に無視することができる。 それにもかかわらず、視覚表現学習におけるLBPの好ましい性質のため、効率性、メモリ消費、予測性能の観点から近代的な深層モデルの強化におけるLBPの価値を探求する興味深いトピックが生まれている。 本稿では,LBP機構をCNNモジュールの設計に組み込んで深層モデルを強化することを目的とした,そのような取り組みに関する総合的なレビューを行う。 これまでの成果を振り返って,今後の研究に向けた課題と方向性について述べる。

LBP is a successful hand-crafted feature descriptor in computer vision. However, in the deep learning era, deep neural networks, especially convolutional neural networks (CNNs) can automatically learn powerful task-aware features that are more discriminative and of higher representational capacity. To some extent, such hand-crafted features can be safely ignored when designing deep computer vision models. Nevertheless, due to LBP's preferable properties in visual representation learning, an interesting topic has arisen to explore the value of LBP in enhancing modern deep models in terms of efficiency, memory consumption, and predictive performance. In this paper, we provide a comprehensive review on such efforts which aims to incorporate the LBP mechanism into the design of CNN modules to make deep models stronger. In retrospect of what has been achieved so far, the paper discusses open challenges and directions for future research.
翻訳日:2023-03-16 14:37:27 公開日:2023-03-15
# 非局所性による絡み合い定量化

Entanglement quantification via nonlocality ( http://arxiv.org/abs/2303.08407v1 )

ライセンス: Link先を確認
Yuwei Zhu, Xingjian Zhang, Xiongfeng Ma(参考訳) ベルの不等式違反によって現れる非局所性は、基礎となる系の量子絡み合いを示す。 自然に生じる問題は、ある非局所的な振る舞いに対してどれだけの絡み合いが必要かである。 本稿では,一般化されたクラウザー・ホルン・シモニー・ホルト型ベル不等式を用いた絡み合いの定量化により,この問題を考察する。 本研究は, エンタングルメントと1方向蒸留性エンタングルメントの2つのエンタングルメント測度に着目し, エンタングルメントの希釈と蒸留の関連について検討した。 また,非局所性,絡み合い,測定の不整合性についても検討した。 その結果, 絡み合いと測定不整合性の関係は, 固定された非局所挙動下でのトレードオフではないことがわかった。 さらに,非最大絡み合い状態とヴェルナー状態の2つの現実的なシナリオを検討し,絡み合い定量化結果を適用する。 絡み合い推定のためのベル不等式を最適化することにより, 絡み合い解析結果を得る。

Nonlocality, manifested by the violation of Bell inequalities, indicates quantum entanglement in the underlying system. A natural question that arises is how much entanglement is required for a given nonlocal behavior. In this paper, we explore this question by quantifying entanglement using a family of generalized Clauser-Horne-Shimony-Holt-type Bell inequalities. We focus on two entanglement measures, entanglement of formation and one-way distillable entanglement, which are related to entanglement dilution and distillation, respectively. We also study the interplay among nonlocality, entanglement, and measurement incompatibility. The result reveals that the relationship between entanglement and measurement incompatibility is not simply a trade-off under a fixed nonlocal behavior. In addition, we consider two realistic scenarios non-maximally entangled states and Werner states and apply our entanglement quantification results. By optimizing the Bell inequality for entanglement estimation, we derive analytical results for the entanglement of formation.
翻訳日:2023-03-16 14:37:11 公開日:2023-03-15
# DualFair:コントラスト的自己監督によるグループと個人レベルの公正表現学習

DualFair: Fair Representation Learning at Both Group and Individual Levels via Contrastive Self-supervision ( http://arxiv.org/abs/2303.08403v1 )

ライセンス: Link先を確認
Sungwon Han, Seungeon Lee, Fangzhao Wu, Sundong Kim, Chuhan Wu, Xiting Wang, Xing Xie and Meeyoung Cha(参考訳) アルゴリズムの公平性は、特にミッションクリティカルなWebアプリケーションにおいて、重要な機械学習問題となっている。 この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。 一つのフェアネスを目標とする既存のモデルとは異なり、我々のモデルは2つのフェアネス基準(グループフェアネスと対実フェアネス)を共同で最適化し、グループレベルと個人レベルでより公平な予測を行う。 私たちのモデルは対照的な損失を使って、保護されたグループごとに区別できない埋め込みを生成します。 次に、下流タスクの表現の質を維持するために自己知識蒸留法を使用する。 複数のデータセットに対する広範囲な分析はモデルの妥当性を確認し、さらに2つのフェアネス基準に共同で対処する相乗効果を示す。

Algorithmic fairness has become an important machine learning problem, especially for mission-critical Web applications. This work presents a self-supervised model, called DualFair, that can debias sensitive attributes like gender and race from learned representations. Unlike existing models that target a single type of fairness, our model jointly optimizes for two fairness criteria - group fairness and counterfactual fairness - and hence makes fairer predictions at both the group and individual levels. Our model uses contrastive loss to generate embeddings that are indistinguishable for each protected group, while forcing the embeddings of counterfactual pairs to be similar. It then uses a self-knowledge distillation method to maintain the quality of representation for the downstream tasks. Extensive analysis over multiple datasets confirms the model's validity and further shows the synergy of jointly addressing two fairness criteria, suggesting the model's potential value in fair intelligent Web applications.
翻訳日:2023-03-16 14:36:53 公開日:2023-03-15
# 多視点リモートセンシング画像分割のための入射光変換器

Implicit Ray-Transformers for Multi-view Remote Sensing Image Segmentation ( http://arxiv.org/abs/2303.08401v1 )

ライセンス: Link先を確認
Zipeng Qi, Hao Chen, Chenyang Liu, Zhenwei Shi and Zhengxia Zou(参考訳) 主流のcnnベースのリモートセンシング(rs)イメージセマンティクスセグメンテーションアプローチは、一般的に大量のラベル付きトレーニングデータに依存している。 このようなパラダイムは、シーン内の3d情報を考慮しないため、限定されたラベル付きビューを持つrsマルチビューシーンセグメンテーションの問題に苦しむ。 本稿では,インプリシット・ニューラル・リ表現(INR)に基づく,スパースラベル付きRSシーンセマンティックセマンティックセグメンテーション(100画像あたり4-6ラベルなど)のための「IRT(Implicit Ray-Transformer)」を提案する。 本稿では,タスクに先立ってマルチビューの3d構造を導入する新しい手法について検討する。 提案手法は2段階学習プロセスを含む。 第1段階では,多視点画像に基づくリモートセンシングシーンの色と3次元構造を符号化するために,ニューラルネットワークを最適化する。 第2段階では、ニューラルネットワーク3次元特徴と2次元テクスチャ特徴の関係を利用して、より優れた意味表現を学習するレイ変換器を設計する。 3dプリミティブや2d機能のみを考慮した従来の方法とは異なり,cnnの特徴をサンプル線に沿って異なるポイント特徴にブロードキャストすることにより,さらに2dテクスチャ情報と3dプリミティブを組み込む。 提案手法の有効性を検証するため,Carlaプラットフォームから収集した6つの合成サブデータセットと,Google Mapsから収集した3つの実サブデータセットを含む挑戦的なデータセットを構築した。 実験により,提案手法はCNN法と最先端のINR法を定量的,定性的な尺度で比較した。

The mainstream CNN-based remote sensing (RS) image semantic segmentation approaches typically rely on massive labeled training data. Such a paradigm struggles with the problem of RS multi-view scene segmentation with limited labeled views due to the lack of considering 3D information within the scene. In this paper, we propose ''Implicit Ray-Transformer (IRT)'' based on Implicit Neural Representation (INR), for RS scene semantic segmentation with sparse labels (such as 4-6 labels per 100 images). We explore a new way of introducing multi-view 3D structure priors to the task for accurate and view-consistent semantic segmentation. The proposed method includes a two-stage learning process. In the first stage, we optimize a neural field to encode the color and 3D structure of the remote sensing scene based on multi-view images. In the second stage, we design a Ray Transformer to leverage the relations between the neural field 3D features and 2D texture features for learning better semantic representations. Different from previous methods that only consider 3D prior or 2D features, we incorporate additional 2D texture information and 3D prior by broadcasting CNN features to different point features along the sampled ray. To verify the effectiveness of the proposed method, we construct a challenging dataset containing six synthetic sub-datasets collected from the Carla platform and three real sub-datasets from Google Maps. Experiments show that the proposed method outperforms the CNN-based methods and the state-of-the-art INR-based segmentation methods in quantitative and qualitative metrics.
翻訳日:2023-03-16 14:36:34 公開日:2023-03-15
# 異常検出のための擬似健康生成ネットワークの逆転

Reversing the Abnormal: Pseudo-Healthy Generative Networks for Anomaly Detection ( http://arxiv.org/abs/2303.08452v1 )

ライセンス: Link先を確認
Cosmin I Bercea and Benedikt Wiestler and Daniel Rueckert and Julia A Schnabel(参考訳) 早期かつ正確な疾患検出は患者の管理と治療の成功に不可欠である。 しかし, 医用画像における異常の自動識別は困難である。 従来の方法は、取得が難しい大きなラベル付きデータセットに依存している。 これらの制約を克服するために,我々はPHANES(Pseudo Healthy Generative Network for Anomaly Segmentation)と呼ばれる新しい教師なしアプローチを導入する。 本手法は, 正常な組織を保存し, 異常領域を疑似健康(ph)再構成に置き換える, 異常を逆転する能力を有する。 近年の拡散モデルとは異なり,本手法は学習した雑音分布に頼らず,画像全体にランダムな変化を導入しない。 代わりに、潜在的な生成ネットワークを使用して、可能性のある異常の周りにマスクを作成します。 我々は、T1w脳MRIデータセットの脳梗塞検出におけるPHANESの有効性を実証し、最先端(SOTA)法よりも大幅に改善したことを示す。 提案するフレームワークは, 解釈可能, 高速, 正確な異常分割のための新しい道を開き, 臨床指向のダウンストリームタスクをサポートする可能性を秘めている。

Early and accurate disease detection is crucial for patient management and successful treatment outcomes. However, the automatic identification of anomalies in medical images can be challenging. Conventional methods rely on large labeled datasets which are difficult to obtain. To overcome these limitations, we introduce a novel unsupervised approach, called PHANES (Pseudo Healthy generative networks for ANomaly Segmentation). Our method has the capability of reversing anomalies, i.e., preserving healthy tissue and replacing anomalous regions with pseudo-healthy (PH) reconstructions. Unlike recent diffusion models, our method does not rely on a learned noise distribution nor does it introduce random alterations to the entire image. Instead, we use latent generative networks to create masks around possible anomalies, which are refined using inpainting generative networks. We demonstrate the effectiveness of PHANES in detecting stroke lesions in T1w brain MRI datasets and show significant improvements over state-of-the-art (SOTA) methods. We believe that our proposed framework will open new avenues for interpretable, fast, and accurate anomaly segmentation with the potential to support various clinical-oriented downstream tasks.
翻訳日:2023-03-16 14:30:41 公開日:2023-03-15
# PoseRAC: 繰り返しアクションカウントのためのPose Saliency Transformer

PoseRAC: Pose Saliency Transformer for Repetitive Action Counting ( http://arxiv.org/abs/2303.08450v1 )

ライセンス: Link先を確認
Ziyu Yao, Xuxin Cheng, Yuexian Zou(参考訳) 本稿では,Pose Saliency Representationと呼ばれる新しいアプローチの導入を通じて,反復行動の分野への重要な貢献を示す。 提案手法は, 冗長なフレームではなく2つの姿勢のみを用いて効率よく各動作を表現し, 性能を向上しながら計算コストを大幅に削減する。 さらに,この表現に基づくポーズレベル手法であるponsracを導入することで,トレーニングに敬礼のポーズを注釈するためにponss saliencyアノテーションを用いて,2つの新バージョンデータセットで最先端のパフォーマンスを実現する。 当社の軽量モデルは非常に効率的で、GPUでのトレーニングに15分しか必要とせず、従来の方法に比べて10倍近い速さで推論します。 さらに,従来のトランスRACの0.29に対してOBOの0.56を達成し,従来のトランスRACよりも大幅に改善した。 コードと新しいデータセットは、さらなる研究と実験のためにhttps://github.com/MiracleDance/PoseRACで公開されている。

This paper presents a significant contribution to the field of repetitive action counting through the introduction of a new approach called Pose Saliency Representation. The proposed method efficiently represents each action using only two salient poses instead of redundant frames, which significantly reduces the computational cost while improving the performance. Moreover, we introduce a pose-level method, PoseRAC, which is based on this representation and achieves state-of-the-art performance on two new version datasets by using Pose Saliency Annotation to annotate salient poses for training. Our lightweight model is highly efficient, requiring only 15 minutes for training on a GPU, and infers nearly 10x faster compared to previous methods. In addition, our approach achieves a substantial improvement over the previous state-of-the-art TransRAC, achieving an OBO metric of 0.56 compared to 0.29 of TransRAC. The code and new dataset are available at https://github.com/MiracleDance/PoseRAC for further research and experimentation, making our proposed approach highly accessible to the research community.
翻訳日:2023-03-16 14:30:22 公開日:2023-03-15
# 電子健康記録を用いた乳癌表現型nlpアルゴリズムの組織間比較評価

A Cross-institutional Evaluation on Breast Cancer Phenotyping NLP Algorithms on Electronic Health Records ( http://arxiv.org/abs/2303.08448v1 )

ライセンス: Link先を確認
Sicheng Zhou, Nan Wang, Liwei Wang, Ju Sun, Anne Blaes, Hongfang Liu, Rui Zhang(参考訳) 目的: 臨床大言語モデルの一般化可能性は通常、モデル開発プロセス中に無視される。 本研究は, 乳がん表現型抽出タスクを通して, bertベースの臨床nlpモデルの一般化可能性について検討した。 資料と方法:ミネソタ大学とマヨクリニックの電子健康記録から2名の乳癌患者の臨床コーパスを採取し,同じガイドラインに従って注釈を付した。 臨床用テキストから癌表現型を抽出する3種類のNLPモデル(条件付ランダムフィールド,双方向長期記憶,CancerBERT)を開発した。 モデルは、異なる学習戦略(モデル転送対局所訓練)で異なるテストセット上での一般化性について評価した。 エンティティカバレッジスコアは,モデルパフォーマンスとの関連で評価された。 結果: UMN と MC では, 200 と 161 の臨床文献を手動で注釈した。 両施設のコーパスは, 全体コーパスよりも, 対象エンティティ間の類似性が高いことがわかった。 CancerBERTモデルは、2つの臨床機関と置換テストセットから独立したテストセットの中で最高のパフォーマンスを得た。 ある研究所で開発され、別の研究所でさらに微調整されたガンベルトモデルは、ローカルデータで開発されたモデルと比較して妥当な性能を達成した(micro-f1: 0.925 vs 0.932)。 結論: 結果は, 癌モデルが3種類の臨床nlpモデルの中で, 最高の学習能力と一般化性を示す。 モデルの一般化性はコーパス間の対象エンティティの類似度と相関することが判明した。

Objective: The generalizability of clinical large language models is usually ignored during the model development process. This study evaluated the generalizability of BERT-based clinical NLP models across different clinical settings through a breast cancer phenotype extraction task. Materials and Methods: Two clinical corpora of breast cancer patients were collected from the electronic health records from the University of Minnesota and the Mayo Clinic, and annotated following the same guideline. We developed three types of NLP models (i.e., conditional random field, bi-directional long short-term memory and CancerBERT) to extract cancer phenotypes from clinical texts. The models were evaluated for their generalizability on different test sets with different learning strategies (model transfer vs. locally trained). The entity coverage score was assessed with their association with the model performances. Results: We manually annotated 200 and 161 clinical documents at UMN and MC, respectively. The corpora of the two institutes were found to have higher similarity between the target entities than the overall corpora. The CancerBERT models obtained the best performances among the independent test sets from two clinical institutes and the permutation test set. The CancerBERT model developed in one institute and further fine-tuned in another institute achieved reasonable performance compared to the model developed on local data (micro-F1: 0.925 vs 0.932). Conclusions: The results indicate the CancerBERT model has the best learning ability and generalizability among the three types of clinical NLP models. The generalizability of the models was found to be correlated with the similarity of the target entities between the corpora.
翻訳日:2023-03-16 14:30:01 公開日:2023-03-15
# 弱教師付き病理画像分類のための変分情報ボトルネックによるタスク特異的微調整

Task-specific Fine-tuning via Variational Information Bottleneck for Weakly-supervised Pathology Whole Slide Image Classification ( http://arxiv.org/abs/2303.08446v1 )

ライセンス: Link先を確認
Honglin Li, Chenglu Zhu, Yunlong Zhang, Yuxuan Sun, Zhongyi Shui, Wenwei Kuang, Sunyi Zheng, Lin Yang(参考訳) 複数インスタンス学習 (mil) は、デジタル病理学全体のスライド画像分類 (wsi) において有望な結果を示しているが、gigapixel wsisの計算コストの高い問題やモデルトレーニングのためのサンプルサイズが限られているため、これらのパラダイムは依然として性能と一般化の問題に直面している。 計算問題に対処するため、ほとんどのMILメソッドはImageNetから凍結した事前学習モデルを用いてまず表現を得る。 このプロセスは、大きなドメインギャップによる必須情報を失い、画像レベルのトレーニング時間拡張が欠如しているため、モデルの一般化を妨げる可能性がある。 自己教師あり学習(ssl)は実行可能な表現学習方式を提案するが、sslのタスクに依存しない機能から部分ラベル教師あり学習のタスク固有機能への変換において、下流タスクの改善をさらに検討する必要がある。 計算コストと性能のジレンマを軽減するため,Information Bottleneck理論によって動機付けられた効率的なWSI微調整フレームワークを提案する。 この理論により、フレームワークは、wsiの最小限の統計量を見つけることができるので、wsiレベルの弱いラベルのみに応じて、バックボーンをタスク固有の表現に微調整できる。 さらにWSI-MIL問題を解析し,提案手法を理論的に導出する。 我々のフレームワークは、様々なWSIヘッド上の5つの病理WSIデータセットで評価される。 微調整表現実験の結果,従来の作品に比べて精度と一般化が有意に向上した。 ソースコードはhttps://github.com/invoker-ll/wsi-finetuningで入手できる。

While Multiple Instance Learning (MIL) has shown promising results in digital Pathology Whole Slide Image (WSI) classification, such a paradigm still faces performance and generalization problems due to challenges in high computational costs on Gigapixel WSIs and limited sample size for model training. To deal with the computation problem, most MIL methods utilize a frozen pretrained model from ImageNet to obtain representations first. This process may lose essential information owing to the large domain gap and hinder the generalization of model due to the lack of image-level training-time augmentations. Though Self-supervised Learning (SSL) proposes viable representation learning schemes, the improvement of the downstream task still needs to be further explored in the conversion from the task-agnostic features of SSL to the task-specifics under the partial label supervised learning. To alleviate the dilemma of computation cost and performance, we propose an efficient WSI fine-tuning framework motivated by the Information Bottleneck theory. The theory enables the framework to find the minimal sufficient statistics of WSI, thus supporting us to fine-tune the backbone into a task-specific representation only depending on WSI-level weak labels. The WSI-MIL problem is further analyzed to theoretically deduce our fine-tuning method. Our framework is evaluated on five pathology WSI datasets on various WSI heads. The experimental results of our fine-tuned representations show significant improvements in both accuracy and generalization compared with previous works. Source code will be available at https://github.com/invoker-LL/WSI-finetuning.
翻訳日:2023-03-16 14:29:38 公開日:2023-03-15
# 双方向マッチングに基づく実時間多物体追跡

Real-time Multi-Object Tracking Based on Bi-directional Matching ( http://arxiv.org/abs/2303.08444v1 )

ライセンス: Link先を確認
Huilan Luo, Zehua Zeng(参考訳) 近年、アンカーフリーなオブジェクト検出モデルとマッチングアルゴリズムが組み合わさって、リアルタイムのミューティオブジェクトトラッキングを実現し、高いトラッキング精度を保証している。 しかし、マルチオブジェクト追跡には依然として大きな課題がある。 例えば、ターゲットのほとんどの部分が隠蔽されている場合や、ターゲットが一時的にイメージから消えてしまう場合、既存のトラッキングアルゴリズムのほとんどで割り込みを追跡する。 そこで本研究では,双方向運動予測情報を利用して咬合処理を改善するマルチオブジェクト追跡のための双方向マッチングアルゴリズムを提案する。 マッチングアルゴリズムでは、ストランド領域を使用して、追跡に失敗したオブジェクトを一時的に保存する。 物体が咬合から回復すると、まずストランド領域の物体と照合し、新たなアイデンティティを誤って生成しないようにし、より連続的な軌道を形成する。 実験の結果,オクルージョンの存在下でのマルチオブジェクト追跡性能の向上が期待できることがわかった。 さらに,本研究では,トラッキング精度の確保だけでなく,トレーニング速度の高速化も図っている。 MOT17チャレンジでは、提案アルゴリズムは63.4%のMOTA、55.3%のIDF1、20.1のFPS追跡速度を達成した。

In recent years, anchor-free object detection models combined with matching algorithms are used to achieve real-time muti-object tracking and also ensure high tracking accuracy. However, there are still great challenges in multi-object tracking. For example, when most part of a target is occluded or the target just disappears from images temporarily, it often leads to tracking interruptions for most of the existing tracking algorithms. Therefore, this study offers a bi-directional matching algorithm for multi-object tracking that makes advantage of bi-directional motion prediction information to improve occlusion handling. A stranded area is used in the matching algorithm to temporarily store the objects that fail to be tracked. When objects recover from occlusions, our method will first try to match them with objects in the stranded area to avoid erroneously generating new identities, thus forming a more continuous trajectory. Experiments show that our approach can improve the multi-object tracking performance in the presence of occlusions. In addition, this study provides an attentional up-sampling module that not only assures tracking accuracy but also accelerates training speed. In the MOT17 challenge, the proposed algorithm achieves 63.4% MOTA, 55.3% IDF1, and 20.1 FPS tracking speed.
翻訳日:2023-03-16 14:29:08 公開日:2023-03-15
# 垂直2次元拡散モデルによる3次元イメージングの改良

Improving 3D Imaging with Pre-Trained Perpendicular 2D Diffusion Models ( http://arxiv.org/abs/2303.08440v1 )

ライセンス: Link先を確認
Suhyeon Lee, Hyungjin Chung, Minyoung Park, Jonghyuk Park, Wi-Sun Ryu, Jong Chul Ye(参考訳) 拡散モデルは多くの利点のために画像生成と再構成の一般的なアプローチとなっている。 しかし,拡散型逆問題解法は2次元画像のみを扱う場合が多く,最近になって発表された3D手法も3次元分布を十分に活用していない。 そこで本研究では,2つの垂直2次元拡散モデルを用いて3次元逆問題の解法を提案する。 異なる方向にスライスされた2次元分布の積として3次元データ分布をモデル化することにより,次元の呪いを効果的に解決する。 以上の結果から,MRIZ軸超解像,圧縮センシングMRI,スパースCTなどの3次元医用画像再構成作業に極めて有効であることが示された。 本手法は,医療応用に適した高品質なボクセル容積を生成できる。

Diffusion models have become a popular approach for image generation and reconstruction due to their numerous advantages. However, most diffusion-based inverse problem-solving methods only deal with 2D images, and even recently published 3D methods do not fully exploit the 3D distribution prior. To address this, we propose a novel approach using two perpendicular pre-trained 2D diffusion models to solve the 3D inverse problem. By modeling the 3D data distribution as a product of 2D distributions sliced in different directions, our method effectively addresses the curse of dimensionality. Our experimental results demonstrate that our method is highly effective for 3D medical image reconstruction tasks, including MRI Z-axis super-resolution, compressed sensing MRI, and sparse-view CT. Our method can generate high-quality voxel volumes suitable for medical applications.
翻訳日:2023-03-16 14:28:48 公開日:2023-03-15
# 一般化ディープフェイク検出のためのリアルフェイスファウンデーション表現学習

Real Face Foundation Representation Learning for Generalized Deepfake Detection ( http://arxiv.org/abs/2303.08439v1 )

ライセンス: Link先を確認
Liang Shi, Jie Zhang, Shiguang Shan(参考訳) ディープフェイク技術の出現は、個人のプライバシーと公共の安全に脅威をもたらすため、社会的な問題となっている。 信頼できるディープフェイク検出器を開発することは、現在非常に重要である。 しかし、多数の顔操作アルゴリズムが存在するため、十分な偽の顔を集めることはほぼ不可能であり、既存の検出器があらゆる種類の操作に一般化することは困難である。 そこで,実顔の分布を学習し,実顔分布から逸脱した偽画像を間接的に識別する。 本研究では,大規模実顔データセットから汎用表現を学習し,rffrの分布外の潜在的なアーティファクトを検出することを目的とした,real face foundation representation learning(rffr)を提案する。 具体的には、マスキング画像モデリング(mim)により、実顔データセット上でモデルをトレーニングすることで、フェイクサンプルにモデルを適用する際に、入力顔と再構成された顔との間に不一致が生じる。 この相違により、RFFRに含まれていない低レベルのアーティファクトが明らかになり、RFFRの分布外のあらゆる種類の潜在的なアーティファクトに敏感なディープフェイク検出器の構築が容易になった。 本手法は, クロスマニピュレーション評価において最先端の手法よりも優れており, さらに, RFFRトレーニングのための追加の現実面を導入することにより, さらなる改善が期待できることを示す。

The emergence of deepfake technologies has become a matter of social concern as they pose threats to individual privacy and public security. It is now of great significance to develop reliable deepfake detectors. However, with numerous face manipulation algorithms present, it is almost impossible to collect sufficient representative fake faces, and it is hard for existing detectors to generalize to all types of manipulation. Therefore, we turn to learn the distribution of real faces, and indirectly identify fake images that deviate from the real face distribution. In this study, we propose Real Face Foundation Representation Learning (RFFR), which aims to learn a general representation from large-scale real face datasets and detect potential artifacts outside the distribution of RFFR. Specifically, we train a model on real face datasets by masked image modeling (MIM), which results in a discrepancy between input faces and the reconstructed ones when applying the model on fake samples. This discrepancy reveals the low-level artifacts not contained in RFFR, making it easier to build a deepfake detector sensitive to all kinds of potential artifacts outside the distribution of RFFR. Extensive experiments demonstrate that our method brings about better generalization performance, as it significantly outperforms the state-of-the-art methods in cross-manipulation evaluations, and has the potential to further improve by introducing extra real faces for training RFFR.
翻訳日:2023-03-16 14:28:35 公開日:2023-03-15
# 識別可能な粗-重対応リファインメントによる正確なテンプレートマッチングの学習

Learning Accurate Template Matching with Differentiable Coarse-to-Fine Correspondence Refinement ( http://arxiv.org/abs/2303.08438v1 )

ライセンス: Link先を確認
Zhirui Gao, Renjiao Yi, Zheng Qin, Yunfan Ye, Chenyang Zhu, and Kai Xu(参考訳) テンプレートマッチングはコンピュータビジョンの基本課題であり、何十年も研究されてきた。 異なる部品のポーズを推定し、ロボットの把持などの下流作業を容易にするために、製造産業において重要な役割を担っている。 既存の方法は、テンプレートとソースイメージが異なるモダリティ、散らかった背景、弱いテクスチャを持つ場合に失敗する。 彼らはまた、平面的な工業部品でも一般的に存在するホモグラフによる幾何学的変換を考えることも滅多にない。 そこで本研究では,この課題に対処するために,微分可能な粗さから精細な対応による正確なテンプレートマッチング手法を提案する。 エッジアウェアモジュールを使用して,マスクテンプレートとグレースケールイメージ間のドメインギャップを克服し,堅牢なマッチングを実現する。 変圧器によって提供される新しい構造認識情報に基づいて、粗い対応を用いて初期ワープを推定する。 この初期アライメントは、参照とアライメント画像を用いて精細化ネットワークに渡され、最終的な幾何学的変換を与えるために使用されるサブピクセルレベルの対応を得る。 広範評価の結果,本手法は最先端の手法やベースラインよりも優れており,実データにおいても優れた一般化能力と視覚的可視性が得られることがわかった。

Template matching is a fundamental task in computer vision and has been studied for decades. It plays an essential role in manufacturing industry for estimating the poses of different parts, facilitating downstream tasks such as robotic grasping. Existing methods fail when the template and source images have different modalities, cluttered backgrounds or weak textures. They also rarely consider geometric transformations via homographies, which commonly exist even for planar industrial parts. To tackle the challenges, we propose an accurate template matching method based on differentiable coarse-to-fine correspondence refinement. We use an edge-aware module to overcome the domain gap between the mask template and the grayscale image, allowing robust matching. An initial warp is estimated using coarse correspondences based on novel structure-aware information provided by transformers. This initial alignment is passed to a refinement network using references and aligned images to obtain sub-pixel level correspondences which are used to give the final geometric transformation. Extensive evaluation shows that our method is significantly better than state-of-the-art methods and baselines, providing good generalization ability and visually plausible results even on unseen real data.
翻訳日:2023-03-16 14:28:10 公開日:2023-03-15
# 複素数値ニューラルネットワークを用いた物理インフォームド光カーネル回帰

Physics-Informed Optical Kernel Regression Using Complex-valued Neural Fields ( http://arxiv.org/abs/2303.08435v1 )

ライセンス: Link先を確認
Guojin Chen, Zehua Pei, Haoyu Yang, Yuzhe Ma, Bei Yu, Martin D. F. Wong(参考訳) リソグラフィーは集積回路製造の基本であり、大きな計算オーバーヘッドを必要とする。 機械学習(ML)ベースのリソグラフィーモデルの進歩は、製造プロセスの費用と能力の間のトレードオフを軽減する。 しかし、以前の手法はすべてリソグラフィシステムを画像対画像のブラックボックスマッピングとして捉えており、ネットワークパラメータを利用して大量のマスク対aerialまたはマスク対resist画像ペアからのロートマッピングを学習し、一般化能力に乏しい。 本稿では,厳密なリソグラフィモデルを非パラメトリックマスク操作に分解し,決定要因,瞳孔,リソグラフィ情報を含む光カーネルを学習するMLベースの新しいパラダイムを提案する。 複雑な値のニューラルネットワークを最適化し、座標から光学核回帰を行うことにより、より少ないパラメータの小規模トレーニングデータセットを用いてリソグラフィシステムを高精度に復元し、優れた一般化能力を示す。 実験により、我々のフレームワークはパラメータの31\%を使用し、69$\times$ 平均二乗誤差を1.3$\times$ のスループットで達成できることが示されました。

Lithography is fundamental to integrated circuit fabrication, necessitating large computation overhead. The advancement of machine learning (ML)-based lithography models alleviates the trade-offs between manufacturing process expense and capability. However, all previous methods regard the lithography system as an image-to-image black box mapping, utilizing network parameters to learn by rote mappings from massive mask-to-aerial or mask-to-resist image pairs, resulting in poor generalization capability. In this paper, we propose a new ML-based paradigm disassembling the rigorous lithographic model into non-parametric mask operations and learned optical kernels containing determinant source, pupil, and lithography information. By optimizing complex-valued neural fields to perform optical kernel regression from coordinates, our method can accurately restore lithography system using a small-scale training dataset with fewer parameters, demonstrating superior generalization capability as well. Experiments show that our framework can use 31\% of parameters while achieving 69$\times$ smaller mean squared error with 1.3$\times$ higher throughput than the state-of-the-art.
翻訳日:2023-03-16 14:27:46 公開日:2023-03-15
# deda: 深い方向のアキュムレータ

DeDA: Deep Directed Accumulator ( http://arxiv.org/abs/2303.08434v1 )

ライセンス: Link先を確認
Hang Zhang, Rongguang Wang, Renjiu Hu, Jinwei Zhang, and Jiahao Li(参考訳) 慢性活動性多発性硬化症病変(リム+病変とも呼ばれる)は、定量的感受性マップ上の病変の端に高強度の縁を特徴付けることができる。 これらのリム+病変は幾何学的に単純な構造であり、縁縁の勾配は放射指向であり、リム+(非リム+)病変とは対照的に大きな勾配が観察される。 しかし,近年の研究では,これらの病変の同定性能はデータ量が少なく,高次不均衡のため満足できないことが示されている。 本稿では,単純かつ効果的な画像処理操作であるdeda(deep directed accumulator)を提案し,rim+病変同定のためのニューラルネットワークにドメイン固有誘導バイアス(prior)を注入する新しい展望を提供する。 特徴写像とサンプリンググリッドのセットが与えられたとき、DeDAはアキュムレータ空間を有限間隔に生成し、それに従って特徴値を蓄積する。 このdeda演算は一般化された離散ラドン変換であり、フォワードバックワードニューラルネットワークフレームワーク内のグリッドサンプリングに対する対称演算と見なすことができ、そのプロセスは順序非依存であり、ネイティブcudaプログラミングで効率的に実装できる。 177 rim+ と 3986 rim- lesion のデータセットによる実験結果から、受信機動作特性曲線 (pROC AUC) における部分的(偽陽性率<0.1)領域の改善の10.1%、高精度リコール曲線 (PR AUC) 下の領域の改善の10.2%が、他の最先端手法と比較してそれぞれ達成できることが示された。 ソースコードはhttps://github.com/tinymilky/DeDAで公開されている。

Chronic active multiple sclerosis lesions, also termed as rim+ lesions, can be characterized by a hyperintense rim at the edge of the lesion on quantitative susceptibility maps. These rim+ lesions exhibit a geometrically simple structure, where gradients at the lesion edge are radially oriented and a greater magnitude of gradients is observed in contrast to rim- (non rim+) lesions. However, recent studies have shown that the identification performance of such lesions remains unsatisfied due to the limited amount of data and high class imbalance. In this paper, we propose a simple yet effective image processing operation, deep directed accumulator (DeDA), that provides a new perspective for injecting domain-specific inductive biases (priors) into neural networks for rim+ lesion identification. Given a feature map and a set of sampling grids, DeDA creates and quantizes an accumulator space into finite intervals, and accumulates feature values accordingly. This DeDA operation is a generalized discrete Radon transform and can also be regarded as a symmetric operation to the grid sampling within the forward-backward neural network framework, the process of which is order-agnostic, and can be efficiently implemented with the native CUDA programming. Experimental results on a dataset with 177 rim+ and 3986 rim- lesions show that 10.1% of improvement in a partial (false positive rate<0.1) area under the receiver operating characteristic curve (pROC AUC) and 10.2% of improvement in an area under the precision recall curve (PR AUC) can be achieved respectively comparing to other state-of-the-art methods. The source code is available online at https://github.com/tinymilky/DeDA
翻訳日:2023-03-16 14:27:06 公開日:2023-03-15
# SeqCo-DETR:変圧器を用いた自己監督対象検出のためのシーケンス一貫性トレーニング

SeqCo-DETR: Sequence Consistency Training for Self-Supervised Object Detection with Transformers ( http://arxiv.org/abs/2303.08481v1 )

ライセンス: Link先を確認
Guoqiang Jin, Fan Yang, Mingshan Sun, Ruyi Zhao, Yakun Liu, Wei Li, Tianpeng Bao, Liwei Wu, Xingyu Zeng, Rui Zhao(参考訳) 自己教師付き事前学習とトランスフォーマーベースのネットワークは、オブジェクト検出の性能を大幅に改善した。 しかし、現在の自己教師型オブジェクト検出手法のほとんどは畳み込み型アーキテクチャで構築されている。 オブジェクト検出タスクに対してトランスをベースとした自己教師型手法を設計する場合,トランスフォーマーのシーケンス特性を考慮すべきである。 そこで本研究では,TRアンスフォーマを用いたオブジェクト検出のためのSeqCo-DETRを提案する。 SeqCo-DETRは、入力として異なるイメージビューを持つ変換器の出力シーケンスの差を最小限に抑え、最も関連性の高いシーケンスペアを見つけるためにバイパーティイトマッチングを活用し、シーケンスレベルの自己教師付き表現学習性能を向上させることで、単純だが効果的なプリテキストを定義する。 さらに、シーケンス整合性戦略を組み込んだマスクベースの拡張戦略を提供し、オブジェクト検出タスクのオブジェクトに関するより代表的なコンテキスト情報を抽出する。 提案手法は,MS COCO (45.8 AP) とPASCAL VOC (64.1 AP) を併用し,本手法の有効性を示す。

Self-supervised pre-training and transformer-based networks have significantly improved the performance of object detection. However, most of the current self-supervised object detection methods are built on convolutional-based architectures. We believe that the transformers' sequence characteristics should be considered when designing a transformer-based self-supervised method for the object detection task. To this end, we propose SeqCo-DETR, a novel Sequence Consistency-based self-supervised method for object DEtection with TRansformers. SeqCo-DETR defines a simple but effective pretext by minimizes the discrepancy of the output sequences of transformers with different image views as input and leverages bipartite matching to find the most relevant sequence pairs to improve the sequence-level self-supervised representation learning performance. Furthermore, we provide a mask-based augmentation strategy incorporated with the sequence consistency strategy to extract more representative contextual information about the object for the object detection task. Our method achieves state-of-the-art results on MS COCO (45.8 AP) and PASCAL VOC (64.1 AP), demonstrating the effectiveness of our approach.
翻訳日:2023-03-16 14:20:22 公開日:2023-03-15
# 自律ロボットのロバスト検証のためのベイズ学習

Bayesian Learning for the Robust Verification of Autonomous Robots ( http://arxiv.org/abs/2303.08476v1 )

ライセンス: Link先を確認
Xingyu Zhao, Simos Gerasimou, Radu Calinescu, Calum Imrie, Valentin Robu, David Flynn(参考訳) 我々は,不確実な環境で重要な任務を遂行する自律ロボットの実行時検証を可能にする,新しいベイズ学習フレームワークを開発した。 本フレームワークは,検証されたロボットシステムの事前知識と観察を活用し,事象発生率の予測値の範囲を学習する。 システム運用中に定期的に観測されるイベントと、破滅的な障害や困難なワンオフタスクの完了といった特異なイベントの両方をサポートします。 さらに、学習したイベントレート範囲を用いて連続時間マルコフモデルをアレンジし、これらのモデルに定量的な検証を適用し、キーシステム特性の変動の予測間隔を計算する。 これらの間隔は多くの実世界の系に内在する不確実性を反映しており、パラメトリック不確実性の下での量的性質の堅牢な検証を可能にする。 提案手法を,水中インフラ検査・補修のための自律型ロボットミッションの検証事例に適用する。

We develop a novel Bayesian learning framework that enables the runtime verification of autonomous robots performing critical missions in uncertain environments. Our framework exploits prior knowledge and observations of the verified robotic system to learn expected ranges of values for the occurrence rates of its events. We support both events observed regularly during system operation, and singular events such as catastrophic failures or the completion of difficult one-off tasks. Furthermore, we use the learnt event-rate ranges to assemble interval continuous-time Markov models, and we apply quantitative verification to these models to compute expected intervals of variation for key system properties. These intervals reflect the uncertainty intrinsic to many real-world systems, enabling the robust verification of their quantitative properties under parametric uncertainty. We apply the proposed framework to the case study of verification of an autonomous robotic mission for underwater infrastructure inspection and repair.
翻訳日:2023-03-16 14:20:01 公開日:2023-03-15
# ビデオにおける人文推定のための相互情報に基づく時間差分学習

Mutual Information-Based Temporal Difference Learning for Human Pose Estimation in Video ( http://arxiv.org/abs/2303.08475v1 )

ライセンス: Link先を確認
Runyang Feng, Yixing Gao, Xueqing Ma, Tze Ho Elden Tse, Hyung Jin Chang(参考訳) 多フレーム人間のポーズ推定には時間モデリングが不可欠である。 既存のほとんどの手法では、光学的流れや変形可能な畳み込みを用いてフルスペクトル運動場を予測し、近くの人や背景など多くの無関係な手がかりを生じる可能性がある。 特に複雑な時空間相互作用において、意味のある動きの前兆を発掘するためのさらなる努力がなければ、その結果は最適以下である。 一方,時間差は,ポーズ推定に有用であるが十分に活用されていない代表的動作情報を符号化する能力を有する。 本稿では,フレーム間の時間的差異を利用して動的文脈をモデル化し,相互情報を客観的に係合し,有用な動き情報の絡み合いを容易にする,新しい多フレーム人格推定フレームワークを提案する。 具体的には,多段階特徴差分列に基づくインクリメンタルなカスケード学習を行う多段階時間差分エンコーダを設計し,情報的動作表現を導出する。 さらに,実動特徴の有益・無音成分を明示的に定義し,それらの相互情報を最小化することにより,識別的タスク関連動作信号を把握できる相互情報の観点から表現不等角化モジュールを提案する。 これにより、ベンチマークデータセットHiEve上のCrowd Pose Estimation in Complex Events Challengeの1位にランクインし、3つのベンチマークであるPoseTrack2017、PoseTrack2018、PoseTrack21で最先端のパフォーマンスを達成することができます。

Temporal modeling is crucial for multi-frame human pose estimation. Most existing methods directly employ optical flow or deformable convolution to predict full-spectrum motion fields, which might incur numerous irrelevant cues, such as a nearby person or background. Without further efforts to excavate meaningful motion priors, their results are suboptimal, especially in complicated spatiotemporal interactions. On the other hand, the temporal difference has the ability to encode representative motion information which can potentially be valuable for pose estimation but has not been fully exploited. In this paper, we present a novel multi-frame human pose estimation framework, which employs temporal differences across frames to model dynamic contexts and engages mutual information objectively to facilitate useful motion information disentanglement. To be specific, we design a multi-stage Temporal Difference Encoder that performs incremental cascaded learning conditioned on multi-stage feature difference sequences to derive informative motion representation. We further propose a Representation Disentanglement module from the mutual information perspective, which can grasp discriminative task-relevant motion signals by explicitly defining useful and noisy constituents of the raw motion features and minimizing their mutual information. These place us to rank No.1 in the Crowd Pose Estimation in Complex Events Challenge on benchmark dataset HiEve, and achieve state-of-the-art performance on three benchmarks PoseTrack2017, PoseTrack2018, and PoseTrack21.
翻訳日:2023-03-16 14:19:48 公開日:2023-03-15
# 合成3次元シーングラフを用いた教師なし交通シーン生成

Unsupervised Traffic Scene Generation with Synthetic 3D Scene Graphs ( http://arxiv.org/abs/2303.08473v1 )

ライセンス: Link先を確認
Artem Savkin, Rachid Ellouze, Nassir Navab, Federico Tombari(参考訳) コンピュータグラフィックスによって駆動される画像合成は最近驚くべき現実主義を達成したが、この方法で生成された合成画像データは、実世界データに関して大きな領域ギャップを示している。 これは、ニューラルネットワークのトレーニングに合成データを活用する上で重要な側面である、自律運転シナリオに特に当てはまる。 本稿では,トラヒックシーン画像を直接レンダリングすることなく合成するドメイン不変シーン表現に基づく手法を提案する。 具体的には、合成シーングラフを内部表現として、現実的なトラフィックシーン合成のための教師なしニューラルネットワークアーキテクチャを導入します。 シーンに関する空間情報を含む合成シーングラフを強化し,シーン操作によるアプローチの有効性を示す。

Image synthesis driven by computer graphics achieved recently a remarkable realism, yet synthetic image data generated this way reveals a significant domain gap with respect to real-world data. This is especially true in autonomous driving scenarios, which represent a critical aspect for overcoming utilizing synthetic data for training neural networks. We propose a method based on domain-invariant scene representation to directly synthesize traffic scene imagery without rendering. Specifically, we rely on synthetic scene graphs as our internal representation and introduce an unsupervised neural network architecture for realistic traffic scene synthesis. We enhance synthetic scene graphs with spatial information about the scene and demonstrate the effectiveness of our approach through scene manipulation.
翻訳日:2023-03-16 14:19:22 公開日:2023-03-15
# 誰が担当してるの? 会話ロボットにおける意思決定要素の役割と責任

Who's in Charge? Roles and Responsibilities of Decision-Making Components in Conversational Robots ( http://arxiv.org/abs/2303.08470v1 )

ライセンス: Link先を確認
Pierre Lison and Casey Kennington(参考訳) 対話型ロボットのためのソフトウェアアーキテクチャは通常、複数のモジュールで構成され、それぞれが特定の処理タスクや機能のために設計されている。 これらのモジュールのいくつかは、ロボットが現在の状況で実行すべき次のアクションを決定するために開発されている。 これらの行動は、前進したり、物体をつかんだりといった物理的な動きに関係するが、人間のユーザへの質問など、コミュニケーション的な行為に対応することもある。 本稿では,人間とロボットのインタラクションプラットフォームにおける決定モジュールの組織化について考察する。 モジュールアーキテクチャとエンド・ツー・エンドアーキテクチャの相対的な利点と限界について議論し、エンド・ツー・エンドのアプローチが人気が高まっているにもかかわらず、モジュールアーキテクチャは、人間のユーザーと協調して複雑なタスクを実行するように設計された会話型ロボットを開発する際にも望ましいと論じる。 また,ほとんどの実践的なHRIアーキテクチャは,開発者がシステムの‘コマンドセンタ’をどこに配置するかによって,ロボット中心か対話中心かの傾向を示す。 これらのデザイン選択は、いくつかのアプリケーション領域で正当化されるかもしれないが、ロボットが柔軟に物理的な動きや会話の振る舞いを解き放つ能力を制限する。 我々は,「アクションマネージャ」と「インタラクションマネージャ」を平等な足場に置くアーキテクチャが,将来の人間とロボットのインタラクションシステムにとって最善の道筋となると論じている。

Software architectures for conversational robots typically consist of multiple modules, each designed for a particular processing task or functionality. Some of these modules are developed for the purpose of making decisions about the next action that the robot ought to perform in the current context. Those actions may relate to physical movements, such as driving forward or grasping an object, but may also correspond to communicative acts, such as asking a question to the human user. In this position paper, we reflect on the organization of those decision modules in human-robot interaction platforms. We discuss the relative benefits and limitations of modular vs. end-to-end architectures, and argue that, despite the increasing popularity of end-to-end approaches, modular architectures remain preferable when developing conversational robots designed to execute complex tasks in collaboration with human users. We also show that most practical HRI architectures tend to be either robot-centric or dialogue-centric, depending on where developers wish to place the ``command center'' of their system. While those design choices may be justified in some application domains, they also limit the robot's ability to flexibly interleave physical movements and conversational behaviours. We contend that architectures placing ``action managers'' and ``interaction managers'' on an equal footing may provide the best path forward for future human-robot interaction systems.
翻訳日:2023-03-16 14:19:11 公開日:2023-03-15
# テキストベース人物再同定のための偽陽性例のマイニング

Mining False Positive Examples for Text-Based Person Re-identification ( http://arxiv.org/abs/2303.08466v1 )

ライセンス: Link先を確認
Wenhao Xu, Zhiyin Shao, Changxing Ding(参考訳) テキストベースの人物再識別(ReID)は,対象人物の画像をテキスト記述に基づいて大規模人物画像データベースから識別することを目的としている。 しかし、モーダル間の大きなギャップのため、テキストベースのReIDは依然として難しい問題である。 既存の手法の多くは、一致した単語領域対がもたらす類似性に大きく依存するが、決定的な役割を果たす可能性のある単語領域対を無視する。 そこで我々は,この問題を解決するために,共同最適化型マルチブランチアーキテクチャを用いた偽陽性例(MFPE)を提案する。 MFPEには、ミスマッチした単語領域ペアの役割を強調する偽陽性マイニング(FPM)ブランチを含む3つのブランチが含まれている。 さらに、MFPEは、一致した単語領域対と一致しない単語領域対の類似度スコアのギャップを増大させるために、相互可逆損失を微妙に設計する。 CUHK-PEDESに関する大規模な実験は、MFPEの優れた効果を示す。 私たちのコードはhttps://github.com/xx-adeline/mfpeでリリースしています。

Text-based person re-identification (ReID) aims to identify images of the targeted person from a large-scale person image database according to a given textual description. However, due to significant inter-modal gaps, text-based person ReID remains a challenging problem. Most existing methods generally rely heavily on the similarity contributed by matched word-region pairs, while neglecting mismatched word-region pairs which may play a decisive role. Accordingly, we propose to mine false positive examples (MFPE) via a jointly optimized multi-branch architecture to handle this problem. MFPE contains three branches including a false positive mining (FPM) branch to highlight the role of mismatched word-region pairs. Besides, MFPE delicately designs a cross-relu loss to increase the gap of similarity scores between matched and mismatched word-region pairs. Extensive experiments on CUHK-PEDES demonstrate the superior effectiveness of MFPE. Our code is released at https://github.com/xx-adeline/MFPE.
翻訳日:2023-03-16 14:18:48 公開日:2023-03-15
# 共起問題:時間的行動局在のための学習行動関係

Co-Occurrence Matters: Learning Action Relation for Temporal Action Localization ( http://arxiv.org/abs/2303.08463v1 )

ライセンス: Link先を確認
Congqi Cao, Yizhe Wang, Yue Lu, Xin Zhang and Yanning Zhang(参考訳) 時間的行動ローカライゼーション(TAL)は、その大きな応用可能性のために一般的な課題である。 この分野での既存の作品は、主に2つの弱点に苦しめられている: (1) 彼らはしばしばマルチラベルのケースを無視し、時間的モデリングにのみ焦点を合わせている。 2) クラスラベルのセマンティック情報を無視し,視覚情報のみを使用する。 これらの問題を解決するために、アクション間の共起関係を明示的にモデル化する新しい共起関係モジュール(CORM)を提案する。 視覚的情報に加えて、クラスラベルの意味的埋め込みを利用して共起関係をモデル化する。 CORMはプラグアンドプレイ方式で動作し、既存のシーケンスモデルに簡単に組み込むことができる。 視覚的・意味的共起性を考慮した多ラベル関係モデリング能力を実現する。 一方、TALの既存のデータセットは、常に低セマンティックなアトミックアクションに焦点を当てている。 そこで我々は,UCF-Crimeデータセットをフレームレベルでアノテートし,異なるイベントのセマンティックオーバーラップを考慮し,高セマンティックなアクションに焦点を当てた,挑戦的なマルチラベルデータセットUCF-Crime-TALを構築した。 一般的なtalデータセットである \textit{i.e.}, multithumos,tsu,および新たに提案されたutf-crime-talの広範な実験により,提案するcormの有効性が検証された。

Temporal action localization (TAL) is a prevailing task due to its great application potential. Existing works in this field mainly suffer from two weaknesses: (1) They often neglect the multi-label case and only focus on temporal modeling. (2) They ignore the semantic information in class labels and only use the visual information. To solve these problems, we propose a novel Co-Occurrence Relation Module (CORM) that explicitly models the co-occurrence relationship between actions. Besides the visual information, it further utilizes the semantic embeddings of class labels to model the co-occurrence relationship. The CORM works in a plug-and-play manner and can be easily incorporated with the existing sequence models. By considering both visual and semantic co-occurrence, our method achieves high multi-label relationship modeling capacity. Meanwhile, existing datasets in TAL always focus on low-semantic atomic actions. Thus we construct a challenging multi-label dataset UCF-Crime-TAL that focuses on high-semantic actions by annotating the UCF-Crime dataset at frame level and considering the semantic overlap of different events. Extensive experiments on two commonly used TAL datasets, \textit{i.e.}, MultiTHUMOS and TSU, and our newly proposed UCF-Crime-TAL demenstrate the effectiveness of the proposed CORM, which achieves state-of-the-art performance on these datasets.
翻訳日:2023-03-16 14:18:31 公開日:2023-03-15
# 量子コンピュータを用いた予熱シミュレーション

Simulating prethermalization using near-term quantum computers ( http://arxiv.org/abs/2303.08461v1 )

ライセンス: Link先を確認
Yilun Yang, Arthur Christianen, Sandra Coll-Vinent, Vadim Smelyanskiy, Mari Carmen Ba\~nuls, Thomas E. O'Brien, Dominik S. Wild, and J. Ignacio Cirac(参考訳) 量子シミュレーションは、量子コンピュータの最も有望な科学的応用の1つである。 しかし、現在のデバイスにおけるデコヒーレンスやノイズのため、従来のコンピュータでは難解な方法でデジタル量子シミュレーションを行うことは困難である。 本研究では,近距離ディジタル量子コンピュータ上でのダイナミクスと平衡特性を探索するための実験プロトコルを提案する。 本研究の重要な要素として,ハミルトニアン進化の比較的粗いトロッター分解であっても熱化を研究することが可能であることを示す。 ステップサイズはトロッター誤差の厳密なバインドを許容するには大きすぎるが、フロッケ系の以前の結果に従ってシステムが予熱するのを観察した。 動力学は、トロッター化の基盤となるモデルの熱化と長い時間によく似ている。 我々は,生存確率の測定と再スケーリングに基づく誤差軽減手法の開発により,このアプローチの適用範囲を広げる。 本手法の有効性を実証するため,2次元XYモデルに適用し,超伝導量子デバイスにおける現実的なノイズパラメータによる性能検証を行った。 本提案は, 凝縮物質物理学における関連する問題に対する量子的優位性を実現するための経路を提供する。

Quantum simulation is one of the most promising scientific applications of quantum computers. Due to decoherence and noise in current devices, it is however challenging to perform digital quantum simulation in a regime that is intractable with classical computers. In this work, we propose an experimental protocol for probing dynamics and equilibrium properties on near-term digital quantum computers. As a key ingredient of our work, we show that it is possible to study thermalization even with a relatively coarse Trotter decomposition of the Hamiltonian evolution of interest. Even though the step size is too large to permit a rigorous bound on the Trotter error, we observe that the system prethermalizes in accordance with previous results for Floquet systems. The dynamics closely resemble the thermalization of the model underlying the Trotterization up to long times. We extend the reach of our approach by developing an error mitigation scheme based on measurement and rescaling of survival probabilities. To demonstrate the effectiveness of the entire protocol, we apply it to the two-dimensional XY model and numerically verify its performance with realistic noise parameters for superconducting quantum devices. Our proposal thus provides a route to achieving quantum advantage for relevant problems in condensed matter physics.
翻訳日:2023-03-16 14:18:05 公開日:2023-03-15
# リカレントニューラルネットワークを用いた太陽光発電システムのハイブリッド物理確率予測

Hybrid-Physical Probabilistic Forecasting for a Set of Photovoltaic Systems using Recurrent Neural Networks ( http://arxiv.org/abs/2303.08459v1 )

ライセンス: Link先を確認
Pierrick Bruneau, David Fiorelli, Christian Braun, Daniel Koster(参考訳) PhotoVoltaic (PV) システムによって出力される電力の日内正確な予測は、エネルギー分配グリッドの動作を改善するために重要である。 自己回帰リカレントニューラルモデルを用いて,数値天気予報(NWP)によって供給されるPV性能モデルを用いて,決定論的日内予測を改善することを目的としたハイブリッド物理モデルについて述べる。 本提案では,当初小売部門で用いられていたニューラルモデルを用いて,新たなガウス出力分布を開示する。 我々は,多くのモデル変種と文献の代替品を実験的に比較し,最も優れた変種作業の構成要素が,NWP駆動のPV性能モデルベースラインに対して7.54%のスキルスコアに達するための相乗効果を示す。

Accurate intra-day forecasts of the power output by PhotoVoltaic (PV) systems are critical to improve the operation of energy distribution grids. We describe a hybrid-physical model, which aims at improving deterministic intra-day forecasts, issued by a PV performance model fed by Numerical Weather Predictions (NWP), by using them as covariates in the context of an autoregressive recurrent neural model. Our proposal repurposes a neural model initially used in the retail sector, and discloses a novel truncated Gaussian output distribution. We experimentally compare many model variants to alternatives from the literature, and an ablation study shows that the components in the best performing variant work synergistically to reach a skill score of 7.54% with respect to the NWP-driven PV performance model baseline.
翻訳日:2023-03-16 14:17:46 公開日:2023-03-15
# 測度に関する統計的学習--持続性図への応用

Statistical learning on measures: an application to persistence diagrams ( http://arxiv.org/abs/2303.08456v1 )

ライセンス: Link先を確認
Olympio Hacquard (LMO, DATASHAPE)(参考訳) 有限次元ユークリッド空間にデータを持つ代わりに、コンパクト空間 $\mathcal{x}$ 上の測度を観測する二元教師付き学習分類問題を考える。 形式的には、$D_N = (\mu_1, Y_1), \ldots, (\mu_N, Y_N)$ ここで、$\mu_i$は$\mathcal{X}$、$Y_i$は$\{0, 1\}$のラベルである。 基本分類子の集合 $\mathcal{f}$ が $\mathcal{x}$ で与えられると、対応する分類子を測度の空間に構築する。 我々は、この新しい分類器のラデマッハ複雑性の上限を上下に与え、それは単に$\mathcal{f}$ のクラスに対応する量で表現できる。 測度 $\mu_i$ が有限集合上で一様であれば、この分類タスクはマルチインスタンス学習問題に沸騰する。 しかし、このアプローチは、私たちが対処できる入力データの柔軟性と多様性をより高めます。 このようなフレームワークには多くの可能なアプリケーションがあるが、この研究は永続性ダイアグラムと呼ばれるトポロジカルディスクリプタによるデータの分類に重点を置いている。 これらの対象は $\mathbb{R}^2$ 上の離散測度であり、各点の座標は位相的特徴が存在するスケールの範囲に対応する。 我々は,いくつかの尺度分類器を提示し,パーシステンス・ダイアグラムの様々な設定において,ヒューリスティックかつ理論的に優れた分類性能を実現する方法を示す。

We consider a binary supervised learning classification problem where instead of having data in a finite-dimensional Euclidean space, we observe measures on a compact space $\mathcal{X}$. Formally, we observe data $D_N = (\mu_1, Y_1), \ldots, (\mu_N, Y_N)$ where $\mu_i$ is a measure on $\mathcal{X}$ and $Y_i$ is a label in $\{0, 1\}$. Given a set $\mathcal{F}$ of base-classifiers on $\mathcal{X}$, we build corresponding classifiers in the space of measures. We provide upper and lower bounds on the Rademacher complexity of this new class of classifiers that can be expressed simply in terms of corresponding quantities for the class $\mathcal{F}$. If the measures $\mu_i$ are uniform over a finite set, this classification task boils down to a multi-instance learning problem. However, our approach allows more flexibility and diversity in the input data we can deal with. While such a framework has many possible applications, this work strongly emphasizes on classifying data via topological descriptors called persistence diagrams. These objects are discrete measures on $\mathbb{R}^2$, where the coordinates of each point correspond to the range of scales at which a topological feature exists. We will present several classifiers on measures and show how they can heuristically and theoretically enable a good classification performance in various settings in the case of persistence diagrams.
翻訳日:2023-03-16 14:17:31 公開日:2023-03-15
# coordfill:パラメータ付き座標クエリによる高分解能画像インパインティング

CoordFill: Efficient High-Resolution Image Inpainting via Parameterized Coordinate Querying ( http://arxiv.org/abs/2303.08524v1 )

ライセンス: Link先を確認
Weihuang Liu, Xiaodong Cun, Chi-Man Pun, Menghan Xia, Yong Zhang, Jue Wang(参考訳) Image Inpaintingは、入力の欠落した穴を埋めることを目的としている。 高解像度画像に対して,(1)大きな受信フィールドを扱う必要がある,という2つの理由から,この課題を効率的に解決することは困難である。 2)一般エンコーダ及びデコーダネットワークは、画像マトリックスの形態により、多数の背景画素を同期的に合成する。 本稿では,近年の連続的暗黙表現の発展により,上記の制約を初めて破ろうとしている。 本稿では,FFC(Fast Fourier Convolution)に基づくパラメータ生成ネットワークを用いて,分解画像のダウンサンプリングと符号化を行い,各空間パッチの空間適応パラメータを生成する。 そして、これらのパラメータを一連の多層パーセプトロン(MLP)の重みとバイアスとみなし、入力は符号化された連続座標であり、出力は合成された色値である。 提案手法により,高解像度画像のみを比較的低解像度で符号化し,受信場を拡大する。 次に、連続位置符号化は、高分解能で座標を再サンプリングすることにより、フォトリアリスティックな高周波テクスチャを合成するのに役立つ。 また,本フレームワークでは,欠落画素の座標を並列にのみ問合せすることが可能であり,従来の手法よりも効率的な解が得られる。 実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$\times$2048の画像をリアルタイムに処理し,4096$\times$4096の画像を処理可能であることがわかった。 コードはhttps://github.com/nifangbaage/coordfill。

Image inpainting aims to fill the missing hole of the input. It is hard to solve this task efficiently when facing high-resolution images due to two reasons: (1) Large reception field needs to be handled for high-resolution image inpainting. (2) The general encoder and decoder network synthesizes many background pixels synchronously due to the form of the image matrix. In this paper, we try to break the above limitations for the first time thanks to the recent development of continuous implicit representation. In detail, we down-sample and encode the degraded image to produce the spatial-adaptive parameters for each spatial patch via an attentional Fast Fourier Convolution(FFC)-based parameter generation network. Then, we take these parameters as the weights and biases of a series of multi-layer perceptron(MLP), where the input is the encoded continuous coordinates and the output is the synthesized color value. Thanks to the proposed structure, we only encode the high-resolution image in a relatively low resolution for larger reception field capturing. Then, the continuous position encoding will be helpful to synthesize the photo-realistic high-frequency textures by re-sampling the coordinate in a higher resolution. Also, our framework enables us to query the coordinates of missing pixels only in parallel, yielding a more efficient solution than the previous methods. Experiments show that the proposed method achieves real-time performance on the 2048$\times$2048 images using a single GTX 2080 Ti GPU and can handle 4096$\times$4096 images, with much better performance than existing state-of-the-art methods visually and numerically. The code is available at: https://github.com/NiFangBaAGe/CoordFill.
翻訳日:2023-03-16 14:10:54 公開日:2023-03-15
# UPRISE: ゼロショット評価を改善するユニバーサルプロンプト検索

UPRISE: Universal Prompt Retrieval for Improving Zero-Shot Evaluation ( http://arxiv.org/abs/2303.08518v1 )

ライセンス: Link先を確認
Daixuan Cheng, Shaohan Huang, Junyu Bi, Yuefeng Zhan, Jianfeng Liu, Yujing Wang, Hao Sun, Furu Wei, Denvy Deng, Qi Zhang(参考訳) 大きな言語モデル(LLM)はその優れた能力で人気があるが、モデル固有の微調整やタスク固有のプロンプトエンジニアリングの必要性は、その一般化を妨げる可能性がある。 本稿では,与えられたゼロショットタスク入力のプロンプトを自動的に取得する軽量で多目的なレトリバーをチューニングするUPRISE(Universal Prompt Retrieval for Improving zero-Shot Evaluation)を提案する。 具体的には、クロスタスクおよびクロスモデルシナリオにおいて普遍性を実証する: 検索者は多様なタスクセットに基づいてチューニングされるが、見知らぬタスクタイプでテストされる; 小さな凍結LDM, GPT-Neo-2.7Bを使用して、検索をチューニングするが、BLOOM-7.1B, OPT-66B, GPT3-175B など、はるかに大きなスケールで検索する。 さらに, UPRISEはChatGPT実験において幻覚障害を緩和し, 最強のLDMでも改善する可能性が示唆された。

Large Language Models (LLMs) are popular for their impressive abilities, but the need for model-specific fine-tuning or task-specific prompt engineering can hinder their generalization. We propose UPRISE (Universal Prompt Retrieval for Improving zero-Shot Evaluation), which tunes a lightweight and versatile retriever that automatically retrieves prompts for a given zero-shot task input. Specifically, we demonstrate universality in a cross-task and cross-model scenario: the retriever is tuned on a diverse set of tasks, but tested on unseen task types; we use a small frozen LLM, GPT-Neo-2.7B, for tuning the retriever, but test the retriever on different LLMs of much larger scales, such as BLOOM-7.1B, OPT-66B and GPT3-175B. Additionally, we show that UPRISE mitigates the hallucination problem in our experiments with ChatGPT, suggesting its potential to improve even the strongest LLMs.
翻訳日:2023-03-16 14:10:27 公開日:2023-03-15
# 観測データによる公正なオフポリティ学習

Fair Off-Policy Learning from Observational Data ( http://arxiv.org/abs/2303.08516v1 )

ライセンス: Link先を確認
Dennis Frauen, Valentyn Melnychuk, Stefan Feuerriegel(参考訳) 企業や組織は、法的、倫理的、社会的要求を満たすために、アルゴリズムによる意思決定が公平であることを保証する必要がある。 例えば、自動雇用における意思決定は、性別や人種に関して差別してはならない。 これを達成するために、先行研究は機械学習の予測におけるアルゴリズム的公平性を保証するためのアプローチに貢献しているが、比較的少ない労力で決定モデルのアルゴリズム的公平性、特にオフポリシー学習に焦点を当てている。 本稿では,フェアネスの異なる概念の下で観察データから決定規則を学習し,異なる-潜在的に偏りのある-行動ポリシーの下で観察データが収集されたことを明示的に仮定する。 このために、我々はまず、非政治学習のための異なる公正概念を定式化する。 次に,このような公平性概念の下で最適な政策を学ぶための機械学習手法を提案する。 具体的には,有限サンプルから推定可能な非拘束学習目標にフェアネス概念を再構成する。 ここでは、機械学習を活用して、データの公正な表現に制約された目的を最小化し、結果のポリシーが私たちの公正な概念を満たすようにします。 さらに,このフレームワークの有限サンプルバージョンに対する一般化境界という形での理論的保証も提供する。 シミュレーションデータと実世界データの両方を用いて, 広範囲な数値実験を行い, フレームワークの有効性を実証する。 その結果,公平性が確保される幅広い実践的応用において,アルゴリズムによる意思決定が可能となった。

Businesses and organizations must ensure that their algorithmic decision-making is fair in order to meet legislative, ethical, and societal demands. For example, decision-making in automated hiring must not discriminate with respect to gender or race. To achieve this, prior research has contributed approaches that ensure algorithmic fairness in machine learning predictions, while comparatively little effort has focused on algorithmic fairness in decision models, specifically off-policy learning. In this paper, we propose a novel framework for fair off-policy learning: we learn decision rules from observational data under different notions of fairness, where we explicitly assume that observational data were collected under a different -- potentially biased -- behavioral policy. For this, we first formalize different fairness notions for off-policy learning. We then propose a machine learning approach to learn optimal policies under these fairness notions. Specifically, we reformulate the fairness notions into unconstrained learning objectives that can be estimated from finite samples. Here, we leverage machine learning to minimize the objective constrained on a fair representation of the data, so that the resulting policies satisfy our fairness notions. We further provide theoretical guarantees in form of generalization bounds for the finite-sample version of our framework. We demonstrate the effectiveness of our framework through extensive numerical experiments using both simulated and real-world data. As a result, our work enables algorithmic decision-making in a wide array of practical applications where fairness must ensured.
翻訳日:2023-03-16 14:10:05 公開日:2023-03-15
# iris認識のためのディープラーニング

Deep Learning for Iris Recognition: A Review ( http://arxiv.org/abs/2303.08514v1 )

ライセンス: Link先を確認
Yimin Yin, Siliang He, Renye Zhang, Hongli Chang, Xu Han, Jinghua Zhang(参考訳) iris認識は、その安定性とプライバシで知られている安全な生体認証技術である。 2つの虹彩は1人の生涯を通して同一でほとんど変化しないため、虹彩認識は他の生体認証法よりも信頼性が高く、外部要因の影響を受けにくいと考えられている。 従来の機械学習ベースの虹彩認識方法とは異なり、ディープラーニング技術は機能工学に頼らず、優れたパフォーマンスを誇っている。 本稿では,深層学習に基づく虹彩認識の展開を要約するために120の関連論文を収集した。 まず,虹彩認識の背景と本調査の動機と貢献について紹介する。 次に,虹彩認識に広く用いられている共通データセットを提案する。 その後、識別、セグメンテーション、プレゼンテーションアタック検出、ローカライゼーションなど、ディープラーニング技術に基づく虹彩認識のプロセスにおける重要なタスクを要約する。 最後に,虹彩認識の課題と可能性について論じる。 本稿では,ディープラーニングに基づく虹彩認識の研究を包括的に見ていく。

Iris recognition is a secure biometric technology known for its stability and privacy. With no two irises being identical and little change throughout a person's lifetime, iris recognition is considered more reliable and less susceptible to external factors than other biometric recognition methods. Unlike traditional machine learning-based iris recognition methods, deep learning technology does not rely on feature engineering and boasts excellent performance. This paper collects 120 relevant papers to summarize the development of iris recognition based on deep learning. We first introduce the background of iris recognition and the motivation and contribution of this survey. Then, we present the common datasets widely used in iris recognition. After that, we summarize the key tasks involved in the process of iris recognition based on deep learning technology, including identification, segmentation, presentation attack detection, and localization. Finally, we discuss the challenges and potential development of iris recognition. This review provides a comprehensive sight of the research of iris recognition based on deep learning.
翻訳日:2023-03-16 14:09:44 公開日:2023-03-15
# 深層学習を用いたセンチネル2MSIと国勢調査データからの都市人口成長のマッピング:ルワンダ・キガリを事例として

Mapping Urban Population Growth from Sentinel-2 MSI and Census Data Using Deep Learning: A Case Study in Kigali, Rwanda ( http://arxiv.org/abs/2303.08511v1 )

ライセンス: Link先を確認
Sebastian Hafner, Stefanos Georganos, Theodomir Mugiraneza, Yifang Ban(参考訳) サハラ以南のアフリカにおける都市人口増加の傾向をよりよく理解するには、高品質な時空間人口推定が必要である。 リモートセンシングと深層学習の併用は人口分布推定に有望な結果を得たが、現在の研究のほとんどは、単日国勢調査から得られた詳細な空間予測に焦点を当てており、時間的分析を無視している。 本研究では,短時間で時間的人口動態を解明する深層学習変化検出技術の評価に焦点をあてる。 変化検出のためのpcc法が個々の地図の誤差を伝播させることが知られているので,エンドツーエンドの人口増加マッピング法を提案する。 具体的には、Sentinel-2 MSIデータを用いた人口マッピングタスクで事前訓練されたResNetエンコーダを、シームズネットワークに組み込んだ。 シームズ・ネットワークは人口変化を正確に予測するために国勢調査レベルで訓練された。 提案手法の有効性は,2016-2020年にルワンダのキガリで,バイタイムのSentinel-2データを用いて実証された。 pccと比較すると、シャムゼネットワークは国勢調査レベルでの人口変化予測の誤りを大幅に削減した。 これらの結果から,将来のリモートセンシングによる人口成長地図の作成が期待できる。

To better understand current trends of urban population growth in Sub-Saharan Africa, high-quality spatiotemporal population estimates are necessary. While the joint use of remote sensing and deep learning has achieved promising results for population distribution estimation, most of the current work focuses on fine-scale spatial predictions derived from single date census, thereby neglecting temporal analyses. In this work, we focus on evaluating how deep learning change detection techniques can unravel temporal population dynamics at short intervals. Since Post-Classification Comparison (PCC) methods for change detection are known to propagate the error of the individual maps, we propose an end-to-end population growth mapping method. Specifically, a ResNet encoder, pretrained on a population mapping task with Sentinel-2 MSI data, was incorporated into a Siamese network. The Siamese network was trained at the census level to accurately predict population change. The effectiveness of the proposed method is demonstrated in Kigali, Rwanda, for the time period 2016-2020, using bi-temporal Sentinel-2 data. Compared to PCC, the Siamese network greatly reduced errors in population change predictions at the census level. These results show promise for future remote sensing-based population growth mapping endeavors.
翻訳日:2023-03-16 14:09:28 公開日:2023-03-15
# 開量子系における浮動小数点解析力学

Floquet nonadiabatic dynamics in open quantum systems ( http://arxiv.org/abs/2303.08501v1 )

ライセンス: Link先を確認
Vahid Mosallanejad, Yu Wang, Jingqi Chen, Wenjie Dou(参考訳) ボルン・オッペンハイマー(BO)近似は、多くの物理・化学系における分子動力学の理解を形作っている。 しかし、特に強い光-物質相互作用を考慮した場合、BO近似を超えなければならないケースは多い。 フロッケ理論は時間周期量子システムを扱う強力なツールを提供する。 本稿では,フロッケ非断熱力学の最近の展開を概観し,特にオープン量子系に焦点をあてた。 まず、Floquet Liouville von-Neumann (LvN) 方程式を示す。 次に、Floquet演算子をリアルタイムオブザーバブルに接続する方法を示す。 開量子系における周期駆動時の力学の扱いにおけるフロケ量子マスター方程式の導出について概説する。 さらに、Floquet混合量子古典リウヴィル方程式(QCLE)について、電子核力学の結合を扱う。 最後に、FQCLEを古典的マスター方程式(CME)に埋め込んで、オープン量子系におけるFloquet nonadiabatic dynamicsを扱う。 定式化は、軌道に基づく動的アプローチを開発するための一般的なプラットフォームである。 例えば、Floquet QCLE と Floquet CME が、ローレンツ力と表面ホッピングアルゴリズムを備えたランゲヴィン力学にどのように実装できるかを示す。

The Born-Oppenheimer (BO) approximation has shaped our understanding on molecular dynamics microscopically in many physical and chemical systems. However, there are many cases that we must go beyond the BO approximation, particularly when strong light-matter interactions are considered. Floquet theory offers a powerful tool to treat time-periodic quantum systems. In this overview, we briefly review recent developments on Floquet nonadiabatic dynamics, with a special focus on open quantum systems. We first present the general Floquet Liouville von-Neumann (LvN) equation. We then show how to connect Floquet operators to real time observables. We proceed to outline the derivation of the Floquet quantum master equation in treating the dynamics under periodic driving in open quantum systems. We further present the Floquet mixed quantum classical Liouville equation (QCLE) to deal with coupled electron-nuclear dynamics. Finally, we embed FQCLE into a classical master equation (CME) to deal with Floquet nonadiabatic dynamics in open quantum systems. The formulations are general platforms for developing trajectory based dynamical approaches. As an example, we show how Floquet QCLE and Floquet CME can be implemented into a Langevin dynamics with Lorentz force and surface hopping algorithms.
翻訳日:2023-03-16 14:09:05 公開日:2023-03-15
# the devil's advocate:拡散モデルを用いた爆発不能データの幻想を破る

The Devil's Advocate: Shattering the Illusion of Unexploitable Data using Diffusion Models ( http://arxiv.org/abs/2303.08500v1 )

ライセンス: Link先を確認
Hadi M. Dolatabadi, Sarah Erfani, Christopher Leckie(参考訳) 機械学習モデルの活用から個人情報を保護することが最重要である。 近年、アベイラビリティ・アタックは、ニューラルネットワークをトレーニングするためのデータの不正使用に対して、追加の保護層を提供することを約束している。 これらの手法は、ニューラルネットワークが保護されたデータから有意義なパターンを抽出できないように、データのクリーン化に不可避なノイズを加えることを目的としている。 本稿では,このようなアプローチに対する強力な対策として,探索不能なデータが錯覚にしかならないことを示す。 特に,拡散モデルのパワーを活用し,慎重に設計された復調処理により,データ保護摂動の混乱を解消できることを示す。 我々はアルゴリズムを厳密に分析し、必要な分極の量がデータ保護摂動の大きさと直接関係があることを理論的に証明する。 AVATARと呼ばれる我々のアプローチは、様々なシナリオにおける最近のアベイラビリティアタックに対して最先端のパフォーマンスを提供し、敵の訓練よりも優れています。 われわれの調査結果は、個人データの公開不能化に関するさらなる研究を求めている。

Protecting personal data against the exploitation of machine learning models is of paramount importance. Recently, availability attacks have shown great promise to provide an extra layer of protection against the unauthorized use of data to train neural networks. These methods aim to add imperceptible noise to clean data so that the neural networks cannot extract meaningful patterns from the protected data, claiming that they can make personal data "unexploitable." In this paper, we provide a strong countermeasure against such approaches, showing that unexploitable data might only be an illusion. In particular, we leverage the power of diffusion models and show that a carefully designed denoising process can defuse the ramifications of the data-protecting perturbations. We rigorously analyze our algorithm, and theoretically prove that the amount of required denoising is directly related to the magnitude of the data-protecting perturbations. Our approach, called AVATAR, delivers state-of-the-art performance against a suite of recent availability attacks in various scenarios, outperforming adversarial training. Our findings call for more research into making personal data unexploitable, showing that this goal is far from over.
翻訳日:2023-03-16 14:08:45 公開日:2023-03-15
# BEVHeight: 視覚に基づく3Dオブジェクト検出のためのロバストフレームワーク

BEVHeight: A Robust Framework for Vision-based Roadside 3D Object Detection ( http://arxiv.org/abs/2303.08498v1 )

ライセンス: Link先を確認
Lei Yang, Kaicheng Yu, Tao Tang, Jun Li, Kun Yuan, Li Wang, Xinyu Zhang, Peng Chen(参考訳) 最近の自律走行システムは、自走車センサーの認識方法の開発に重点を置いているが、人々は視覚範囲を超えて知覚能力を拡張するために、インテリジェントな路面カメラを活用する別のアプローチを見過ごす傾向がある。 最先端の視覚中心の鳥の目視検出手法は, 路面カメラの性能に劣ることがわかった。 これは、車と地面の深度差が急速に縮み、距離が大きくなるときにカメラセンターの深度を回復することに主に焦点が当てられているためである。 本稿では,BEVHeightと呼ばれるシンプルで効果的な手法を提案し,この問題に対処する。 本質的には、画素幅の深さを予測する代わりに、距離に依存しない定式化を実現し、カメラのみの知覚法の最適化プロセスを容易にする。 道路カメラの3D検出ベンチマークでは、従来の視覚中心の手法をはるかに上回っている。 コードは {\url{https://github.com/ADLab-AutoDrive/BEVHeight}}で公開されている。

While most recent autonomous driving system focuses on developing perception methods on ego-vehicle sensors, people tend to overlook an alternative approach to leverage intelligent roadside cameras to extend the perception ability beyond the visual range. We discover that the state-of-the-art vision-centric bird's eye view detection methods have inferior performances on roadside cameras. This is because these methods mainly focus on recovering the depth regarding the camera center, where the depth difference between the car and the ground quickly shrinks while the distance increases. In this paper, we propose a simple yet effective approach, dubbed BEVHeight, to address this issue. In essence, instead of predicting the pixel-wise depth, we regress the height to the ground to achieve a distance-agnostic formulation to ease the optimization process of camera-only perception methods. On popular 3D detection benchmarks of roadside cameras, our method surpasses all previous vision-centric methods by a significant margin. The code is available at {\url{https://github.com/ADLab-AutoDrive/BEVHeight}}.
翻訳日:2023-03-16 14:08:24 公開日:2023-03-15
# 新型コロナウイルスによるCTスキャン検出のためのトリックの強力なベースラインとバグ

Strong Baseline and Bag of Tricks for COVID-19 Detection of CT Scans ( http://arxiv.org/abs/2303.08490v1 )

ライセンス: Link先を確認
Chih-Chung Hsu, Chih-Yu Jian, Chia-Ming Lee, Chi-Han Tsai, and Sheng-Chieh Dai(参考訳) 本稿では,肺CT画像解析におけるディープラーニングモデルの適用について検討する。 従来のディープラーニングフレームワークは、スライス数の変化とCT画像の解像度によって互換性の問題に直面する。 一般に、個々のスライスを予測してマージして最終的な結果を得るが、この方法はスライス的な特徴学習に欠け、結果として性能が低下する。 そこで本研究では,ctデータセット毎に不確定なスライスを効果的に除去し,モデルの性能を向上させる新しいスライス選択法を提案する。 さらに、スライス特徴訓練に従来的で効率的なバックボーンモデルを用いた空間スライス特徴学習(SSFL)手法を導入するとともに、専用分類モデルを用いて、訓練された新型コロナウイルスおよび非新型コロナウイルスの分類モデルから1次元データを抽出する。 これらの実験ステップを活用し、チャネルマージのための1次元特徴と複数のスライスを統合し、分類に2次元畳み込みニューラルネットワーク(cnn)モデルを用いる。 上記の手法に加えて,様々な高性能分類モデルを検討し,最終的に有望な結果を得る。

This paper investigates the application of deep learning models for lung Computed Tomography (CT) image analysis. Traditional deep learning frameworks encounter compatibility issues due to variations in slice numbers and resolutions in CT images, which stem from the use of different machines. Commonly, individual slices are predicted and subsequently merged to obtain the final result; however, this approach lacks slice-wise feature learning and consequently results in decreased performance. We propose a novel slice selection method for each CT dataset to address this limitation, effectively filtering out uncertain slices and enhancing the model's performance. Furthermore, we introduce a spatial-slice feature learning (SSFL) technique\cite{hsu2022} that employs a conventional and efficient backbone model for slice feature training, followed by extracting one-dimensional data from the trained model for COVID and non-COVID classification using a dedicated classification model. Leveraging these experimental steps, we integrate one-dimensional features with multiple slices for channel merging and employ a 2D convolutional neural network (CNN) model for classification. In addition to the aforementioned methods, we explore various high-performance classification models, ultimately achieving promising results.
翻訳日:2023-03-16 14:08:08 公開日:2023-03-15
# フェアネスは自動化できるか? フェアネスアウェアオートmlのガイドラインと機会

Can Fairness be Automated? Guidelines and Opportunities for Fairness-aware AutoML ( http://arxiv.org/abs/2303.08485v1 )

ライセンス: Link先を確認
Hilde Weerts, Florian Pfisterer, Matthias Feurer, Katharina Eggensperger, Edward Bergman, Noor Awad, Joaquin Vanschoren, Mykola Pechenizkiy, Bernd Bischl, Frank Hutter(参考訳) 自動機械学習(AutoML)の分野は、機械学習(ML)システムの開発を自動化し、プロセスを加速し、初心者の障壁を減らす技術を導入している。 しかし、MLモデルから導かれる決定は、我々の社会において不公平さを再現、増幅、あるいは導入し、個人(グループの)に害を与えます。 これに対し、研究者たちは公正度と予測性能を共同で最適化し、公正度に関連する害を軽減するAutoMLシステムを提案し始めている。 しかし、公平性は複雑で本質的に学際的な主題であり、単に最適化問題として捉えるだけでは副作用がある。 本研究は、フェアネスを意識したAutoMLの限界に対する認識を高めるとともに、フェアネス研究のツールとしてのAutoMLの可能性に注意を払うことを目的としている。 本稿では,フェアネス関連害の発生方法と,それに伴うフェアネス対応オートmlの設計への影響について概観する。 フェアネスは自動化できないが、フェアネスを意識したAutoMLは、ML実践者のツールボックスにおいて重要な役割を果たす。 我々は、この方向における今後の作業に対するいくつかのオープン技術的課題を強調する。 さらに,公平な作業で直面する課題に対処するために,よりユーザ中心の支援システムの開発を提唱する。

The field of automated machine learning (AutoML) introduces techniques that automate parts of the development of machine learning (ML) systems, accelerating the process and reducing barriers for novices. However, decisions derived from ML models can reproduce, amplify, or even introduce unfairness in our societies, causing harm to (groups of) individuals. In response, researchers have started to propose AutoML systems that jointly optimize fairness and predictive performance to mitigate fairness-related harm. However, fairness is a complex and inherently interdisciplinary subject, and solely posing it as an optimization problem can have adverse side effects. With this work, we aim to raise awareness among developers of AutoML systems about such limitations of fairness-aware AutoML, while also calling attention to the potential of AutoML as a tool for fairness research. We present a comprehensive overview of different ways in which fairness-related harm can arise and the ensuing implications for the design of fairness-aware AutoML. We conclude that while fairness cannot be automated, fairness-aware AutoML can play an important role in the toolbox of an ML practitioner. We highlight several open technical challenges for future work in this direction. Additionally, we advocate for the creation of more user-centered assistive systems designed to tackle challenges encountered in fairness work.
翻訳日:2023-03-16 14:07:47 公開日:2023-03-15
# 感度アウェアビジュアルパラメーター効率チューニング

Sensitivity-Aware Visual Parameter-Efficient Tuning ( http://arxiv.org/abs/2303.08566v1 )

ライセンス: Link先を確認
Haoyu He, Jianfei Cai, Jing Zhang, Dacheng Tao, Bohan Zhuang(参考訳) 視覚パラメータ効率チューニング(vpet)は、事前訓練されたビジョンモデルを下流タスクに適応させるために、完全な微調整のための強力な代替手段となっている。 しかし、既存のvpet法は、人間のヒューリスティックのみに依存して異なるタスク間で同じ位置にトレーニング可能なパラメータを導入し、ドメイン間隙を無視する。 そこで本研究では,学習可能なパラメータをタスク固有の重要な位置に適応的に割り当てる,感性を考慮した視覚的パラメータ効率調整(SPT)方式を提案する。 具体的には、SPTはまず、データ依存的な方法でタスクのチューニングを必要とするセンシティブなパラメータを素早く識別する。 次に、SPTは、例えばLoRAやAdapterといった既存の構造的チューニング手法を利用して、予め定義されたしきい値を超えている重み行列の表現能力をさらに強化し、選択された感度的パラメータ(非構造的チューニング)を直接調整する。 例えば、sptは事前訓練されたvit-b/16バックボーンを4.2%、top-1精度を1.4%改善し、それぞれfgvcベンチマークとvtab-1kベンチマークでsof性能に到達した。 ソースコードはhttps://github.com/ziplab/spt

Visual Parameter-Efficient Tuning (VPET) has become a powerful alternative for full fine-tuning so as to adapt pre-trained vision models to downstream tasks, which only tunes a small number of parameters while freezing the vast majority ones to ease storage burden and optimization difficulty. However, existing VPET methods introduce trainable parameters to the same positions across different tasks depending solely on human heuristics and neglect the domain gaps. To this end, we study where to introduce and how to allocate trainable parameters by proposing a novel Sensitivity-aware visual Parameter-efficient Tuning (SPT) scheme, which adaptively allocates trainable parameters to task-specific important positions given a desired tunable parameter budget. Specifically, our SPT first quickly identifies the sensitive parameters that require tuning for a given task in a data-dependent way. Next, our SPT further boosts the representational capability for the weight matrices whose number of sensitive parameters exceeds a pre-defined threshold by utilizing any of the existing structured tuning methods, e.g., LoRA or Adapter, to replace directly tuning the selected sensitive parameters (unstructured tuning) under the budget. Extensive experiments on a wide range of downstream recognition tasks show that our SPT is complementary to the existing VPET methods and largely boosts their performance, e.g., SPT improves Adapter with supervised pre-trained ViT-B/16 backbone by 4.2% and 1.4% mean Top-1 accuracy, reaching SOTA performance on FGVC and VTAB-1k benchmarks, respectively. Source code is at https://github.com/ziplab/SPT
翻訳日:2023-03-16 14:02:24 公開日:2023-03-15
# mga : テキスト案内知識変換による医療ジェネラリストエージェント

MGA: Medical generalist agent through text-guided knowledge transformation ( http://arxiv.org/abs/2303.08562v1 )

ライセンス: Link先を確認
Weijian Huang, Hao Yang, Cheng Li, Mingtong Dai, Rui Yang, Shanshan Wang(参考訳) マルチモーダル表現法は、マルチドメインデータからより堅牢な特徴を抽出することにより、医療応用における高度な性能を実現している。 しかし、既存の手法では、通常、下流タスクのために追加のブランチを訓練する必要があるため、臨床応用におけるモデルの複雑さが増大し、追加の人為的帰納バイアスがもたらされる可能性がある。 さらに、臨床報告に埋め込まれた豊富な臨床知識を活用する研究はほとんどない。 そこで本研究では,臨床報告の知識転換を通じて,3種類の共通臨床課題に対処できる新しい医療ジェネリストエージェントであるMGAを提案する。 既存のメソッドとは異なり、MGAは対応するアノテーションが欠けている場合に特定の下流ブランチなしで、さまざまなタスクに容易に適応できる。 さらに重要なことに、我々は医療専門家の言語指導を伝達媒体として使用し、エージェントの行動を誘導する最初の試みである。 提案手法は,MIMIC-CXR,CheXpert,MIMIC-CXR-JPG,MIMIC-CXR-MSの4つのオープンソースデータセット上に実装されている。 その結果,提案したMGAの有効性が検証された。 コードは、https://github.com/SZUHvern/MGAで入手できる。

Multi-modal representation methods have achieved advanced performance in medical applications by extracting more robust features from multi-domain data. However, existing methods usually need to train additional branches for downstream tasks, which may increase the model complexities in clinical applications as well as introduce additional human inductive bias. Besides, very few studies exploit the rich clinical knowledge embedded in clinical daily reports. To this end, we propose a novel medical generalist agent, MGA, that can address three kinds of common clinical tasks via clinical reports knowledge transformation. Unlike the existing methods, MGA can easily adapt to different tasks without specific downstream branches when their corresponding annotations are missing. More importantly, we are the first attempt to use medical professional language guidance as a transmission medium to guide the agent's behavior. The proposed method is implemented on four well-known X-ray open-source datasets, MIMIC-CXR, CheXpert, MIMIC-CXR-JPG, and MIMIC-CXR-MS. Promising results are obtained, which validate the effectiveness of our proposed MGA. Code is available at: https://github.com/SZUHvern/MGA
翻訳日:2023-03-16 14:01:53 公開日:2023-03-15
# 大型の言語モデルは、あまり良くない情報エクストラクタだが、ハードサンプルのための良いリランカだ!

Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples! ( http://arxiv.org/abs/2303.08559v1 )

ライセンス: Link先を確認
Yubo Ma, Yixin Cao, YongChing Hong, Aixin Sun(参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。 しかし、それらが情報抽出(IE)タスクの競合的数ショットソルバであり、微調整された小さな事前学習言語モデル(SLM)を超越するか否かは未解決のままである。 本稿は, LLM と SLM の強みを組み合わせた実効的かつ経済的な IE システムへのアプローチを検討することを目的としている。 3つのIEタスクにまたがる8つのデータセットに関する広範な実験を通して、LLMは、ほとんどの設定で不満足な性能と高いレイテンシと予算要件を考えると、一般的には有効でないことを示す。 しかし, LLM は SLM を十分に補完し, SLM が抱えるハードサンプルを効果的に解決できることを示す。 そこで本研究では,slmがフィルタとして,llmがリランクとして機能する適応型フィルタ・then-rerankパラダイムを提案する。 LLMを用いてSLMが特定したサンプルのごく一部を再現することにより,各IEタスクにおける有望な改善(2.1% F1ゲイン)を実現し,時間と費用を許容できる。

Large Language Models (LLMs) have made remarkable strides in various tasks. However, whether they are competitive few-shot solvers for information extraction (IE) tasks and surpass fine-tuned small Pre-trained Language Models (SLMs) remains an open problem. This paper aims to provide a thorough answer to this problem, and moreover, to explore an approach towards effective and economical IE systems that combine the strengths of LLMs and SLMs. Through extensive experiments on eight datasets across three IE tasks, we show that LLMs are not effective few-shot information extractors in general, given their unsatisfactory performance in most settings and the high latency and budget requirements. However, we demonstrate that LLMs can well complement SLMs and effectively solve hard samples that SLMs struggle with. Building on these findings, we propose an adaptive filter-then-rerank paradigm, in which SLMs act as filters and LLMs act as rerankers. By utilizing LLMs to rerank a small portion of difficult samples identified by SLMs, our preliminary system consistently achieves promising improvements (2.1% F1-gain on average) on various IE tasks, with acceptable cost of time and money.
翻訳日:2023-03-16 14:01:34 公開日:2023-03-15
# クロスショット画像認識のための深層学習 : サーベイ

Deep Learning for Cross-Domain Few-Shot Visual Recognition: A Survey ( http://arxiv.org/abs/2303.08557v1 )

ライセンス: Link先を確認
Huali Xu, Shuaifeng Zhi, Shuzhou Sun, Vishal M. Patel, Li Liu(参考訳) ディープラーニングは大量のラベル付きデータを持つコンピュータビジョンにおいて非常に成功したが、ラベル付きトレーニングデータに苦戦している。 これを解決するために、FSL(Few-shot Learning)が提案されているが、全てのサンプル(ソースとターゲットタスクデータを含む、ターゲットタスクがソースからの事前の知識で実行される)は、実世界の厳密な仮定である同じドメインから来ていると仮定する。 この制限を緩和するため、異なるドメインやラベル空間からのソースとターゲットデータを可能にするため、クロスドメイン・ショットラーニング(CDFSL)が注目されている。 本報告では,CDFSLのセットアップと難易度から,FSLよりもはるかに少ない注目を受けてきたCDFSLの総合的なレビューを行う。 本論文はCDFSLの研究を行う人々のためのポジションペーパーとチュートリアルとして機能することを期待している。 このレビューはまずCDFSLの定義と関連する問題を紹介し、続いて科学的な問題と課題について述べる。 その後、既存の文献から検証されたCDFSLアプローチの包括的なレビューと、厳密な分類に基づく詳細な記述が提示される。 さらに,cdfslの今後の展望について概説し,問題点の設定,応用,理論を概説する。

Deep learning has been highly successful in computer vision with large amounts of labeled data, but struggles with limited labeled training data. To address this, Few-shot learning (FSL) is proposed, but it assumes that all samples (including source and target task data, where target tasks are performed with prior knowledge from source ones) are from the same domain, which is a stringent assumption in the real world. To alleviate this limitation, Cross-domain few-shot learning (CDFSL) has gained attention as it allows source and target data from different domains and label spaces. This paper provides a comprehensive review of CDFSL at the first time, which has received far less attention than FSL due to its unique setup and difficulties. We expect this paper to serve as both a position paper and a tutorial for those doing research in CDFSL. This review first introduces the definition of CDFSL and the issues involved, followed by the core scientific question and challenge. A comprehensive review of validated CDFSL approaches from the existing literature is then presented, along with their detailed descriptions based on a rigorous taxonomy. Furthermore, this paper outlines and discusses several promising directions of CDFSL that deserve further scientific investigation, covering aspects of problem setups, applications and theories.
翻訳日:2023-03-16 14:01:08 公開日:2023-03-15
# 正規表現のプロセス解釈のイメージは、バイシミュレーション崩壊下で閉じていない

The Image of the Process Interpretation of Regular Expressions is Not Closed under Bisimulation Collapse ( http://arxiv.org/abs/2303.08553v1 )

ライセンス: Link先を確認
Clemens Grabmayer(参考訳) milner's process semantics (1984) の正規表現の公理化と表現可能性問題は、デッドロック 0 と空のステップ~1 を持つ式の全クラスでは困難であることが判明した。 我々は、0 が利用可能になったときに 1 の追加の存在から生じる現象を報告し、この困難に焦点をあてる重要な理由について報告する。 ウィットにとって、1自由正規表現の解釈は二乗の崩壊下で閉じられているが、任意の正規表現の解釈はそうではない。 1-自由正規表現のプロセスグラフ解釈は、二相崩壊下で保存されるループの存在と除去性 LEE を満たす。 リーのこれらの特徴は、1自由正規表現に対する方程式証明系が完備であること、およびプロセスグラフが1自由正規表現の解釈と双類似であるかどうかを多項式時間で決定可能であることを示すために適用された。 正規表現の解釈は一般には LEE の性質を満たすものではないが、LEE は 1-遷移を持つグラフ(これはオートマチックのサイレントステップに似ている)の洗練された解釈によって復元可能であることを示す。 これはリーが一般の公理化や表現可能性問題にも期待できることを示唆している。 プロセスグラフの「to」の性質は、1-transitions と LEE を持つプロセスグラフに洗練され、バイシミュレーションの崩壊の下では保存されない。 リーを満たす2つの1-遷移を持つ10-バーテックスグラフを提供し、精細性を維持しつつ2つの相似頂点を互いに崩壊させることができないようにする。 このことは、正規表現のプロセス解釈のイメージがバイシミュレーション崩壊の下で閉じていないことを意味する。

Axiomatization and expressibility problems for Milner's process semantics (1984) of regular expressions modulo bisimilarity have turned out to be difficult for the full class of expressions with deadlock 0 and empty step~1. We report on a phenomenon that arises from the added presence of 1 when 0 is available, and that brings a crucial reason for this difficulty into focus. To wit, while interpretations of 1-free regular expressions are closed under bisimulation collapse, this is not the case for the interpretations of arbitrary regular expressions. Process graph interpretations of 1-free regular expressions satisfy the loop existence and elimination property LEE, which is preserved under bisimulation collapse. These features of LEE were applied for showing that an equational proof system for 1-free regular expressions modulo bisimilarity is complete, and that it is decidable in polynomial time whether a process graph is bisimilar to the interpretation of a 1-free regular expression. While interpretations of regular expressions do not satisfy the property LEE in general, we show that LEE can be recovered by refined interpretations as graphs with 1-transitions refined interpretations with 1-transitions (which are similar to silent steps for automata). This suggests that LEE can be expedient also for the general axiomatization and expressibility problems. But a new phenomenon emerges that needs to be addressed: the property of a process graph `to can be refined into a process graph with 1-transitions and with LEE' is not preserved under bisimulation collapse. We provide a 10-vertex graph with two 1-transitions that satisfies LEE, and in which a pair of bisimilar vertices cannot be collapsed on to each other while preserving the refinement property. This implies that the image of the process interpretation of regular expressions is not closed under bisimulation collapse.
翻訳日:2023-03-16 14:00:46 公開日:2023-03-15
# ナレッジグラフによる認知的意味コミュニケーションシステム:原理,実装,性能評価

Cognitive Semantic Communication Systems Driven by Knowledge Graph: Principle, Implementation, and Performance Evaluation ( http://arxiv.org/abs/2303.08546v1 )

ライセンス: Link先を確認
Fuhui Zhou and Yihao Li and Ming Xu and Lu Yuan and Qihui Wu and Rose Qingyang Hu and Naofal Al-Dhahir(参考訳) 意味コミュニケーションはシャノン限界を突破する有望な技術として考えられている。 しかし,意味的推論や意味的誤り訂正は十分に研究されていない。 さらに,既存のセマンティック通信フレームワークの誤り訂正手法は説明不能で柔軟性に乏しいため,達成可能な性能が制限される。 本稿では,この問題を解決するために,知識グラフを用いてセマンティックコミュニケーションシステムの開発を行う。 2つの認知意味コミュニケーションフレームワークが単一ユーザおよび複数ユーザ通信シナリオに対して提案されている。 さらに,意味情報検出のための単純,汎用,解釈可能な意味的アライメントアルゴリズムを提案する。 さらに,推論規則を知識グラフからマイニングすることにより,効果的な意味補正アルゴリズムを提案する。 さらに、事前学習したモデルを微調整して意味情報を復元する。 マルチユーザ認識型セマンティックコミュニケーションシステムにおいて,ソースと目的地の知識レベルを一致させることで,異なるユーザのメッセージを識別するメッセージ回復アルゴリズムを提案する。 データ圧縮率と通信信頼性の観点から,提案したシングルユーザとマルチユーザ認知型セマンティックコミュニケーションシステムの方が,ベンチマーク通信システムよりも優れていることを示す。 最後に,ソフトウェアで構築した無線プロトタイプシステムを用いて,現実的な認知的意味コミュニケーションシステムを提案する。

Semantic communication is envisioned as a promising technique to break through the Shannon limit. However, semantic inference and semantic error correction have not been well studied. Moreover, error correction methods of existing semantic communication frameworks are inexplicable and inflexible, which limits the achievable performance. In this paper, to tackle this issue, a knowledge graph is exploited to develop semantic communication systems. Two cognitive semantic communication frameworks are proposed for the single-user and multiple-user communication scenarios. Moreover, a simple, general, and interpretable semantic alignment algorithm for semantic information detection is proposed. Furthermore, an effective semantic correction algorithm is proposed by mining the inference rule from the knowledge graph. Additionally, the pre-trained model is fine-tuned to recover semantic information. For the multi-user cognitive semantic communication system, a message recovery algorithm is proposed to distinguish messages of different users by matching the knowledge level between the source and the destination. Extensive simulation results conducted on a public dataset demonstrate that our proposed single-user and multi-user cognitive semantic communication systems are superior to benchmark communication systems in terms of the data compression rate and communication reliability. Finally, we present realistic single-user and multi-user cognitive semantic communication systems results by building a software-defined radio prototype system.
翻訳日:2023-03-16 14:00:13 公開日:2023-03-15
# 顔行動単位検出のための特徴融合を組み合わせた局所的知覚と関係学習

Local Region Perception and Relationship Learning Combined with Feature Fusion for Facial Action Unit Detection ( http://arxiv.org/abs/2303.08545v1 )

ライセンス: Link先を確認
Jun Yu, Renda Li, Zhongpeng Cai, Gongpeng Zhao, Guochen Xie, Jichao Zhu, Wangyuan Zhu(参考訳) ヒトの感情行動分析は、ヒトとコンピュータの相互作用(HCI)システムにおいて重要な役割を果たす。 本稿では, CVPR 2023 Competition on Affective Behavior Analysis in-wild (ABAW) について紹介する。 単段学習型AU検出フレームワークを提案する。 具体的には,au検出に関連する顔局所特徴を効果的に抽出するために,局所知覚モジュールを用いて異なるauの特徴を効果的に抽出する。 一方、グラフニューラルネットワークに基づく関係学習モジュールを用いて、AU間の関係を捉える。 また、ターゲット顔の全体的な特徴がAU検出に与える影響を考慮し、特徴融合モジュールを用いて、バックボーンネットワークによって抽出された特徴情報と、関係学習モジュールによって抽出されたAU特徴情報を融合させる。 また,モデルの性能をさらに向上させるために,サンプリング手法,データ拡張手法,後処理戦略も採用した。

Human affective behavior analysis plays a vital role in human-computer interaction (HCI) systems. In this paper, we introduce our submission to the CVPR 2023 Competition on Affective Behavior Analysis in-the-wild (ABAW). We propose a single-stage trained AU detection framework. Specifically, in order to effectively extract facial local region features related to AU detection, we use a local region perception module to effectively extract features of different AUs. Meanwhile, we use a graph neural network-based relational learning module to capture the relationship between AUs. In addition, considering the role of the overall feature of the target face on AU detection, we also use the feature fusion module to fuse the feature information extracted by the backbone network and the AU feature information extracted by the relationship learning module. We also adopted some sampling methods, data augmentation techniques and post-processing strategies to further improve the performance of the model.
翻訳日:2023-03-16 13:59:56 公開日:2023-03-15
# ダイヤモンド積層スパースオートエンコーダアンサンブルモデルによる運動障害者の健康モニタリング

Health Monitoring of Movement Disorder Subject based on Diamond Stacked Sparse Autoencoder Ensemble Model ( http://arxiv.org/abs/2303.08538v1 )

ライセンス: Link先を確認
Likun Tang, Jie Ma, Yongming Li(参考訳) 慢性疾患の健康モニタリングは運動障害の患者にとって非常に重要である。 ウェアラブルセンサーを用いた人間の運動障害から収集したデータの機械学習に基づく処理は、現在健康モニタリングに有効な方法である。 しかし、ウェアラブルセンサシステムは高品質で大量のデータを得ることが困難であり、診断精度の要求を満たすことはできない。 さらに,既存の機械学習手法ではこの問題をうまく扱えない。 機能学習は機械学習の鍵となる。 そこで本論文では,ダイヤモンド積層スパースオートエンコーダアンサンブルモデル(DsaeEM)に基づく運動障害の健康モニタリングについて述べる。 このアルゴリズムには2つの主要なコンポーネントがある。 まず、機能拡張はFSSAE(Feature-embedded stacked sparse autoencoder)を用いて設計される。 第2に、拡張された特徴間の冗長性を除去する特徴低減機構を設計する。 この機構は、L1正規化特徴減算アルゴリズムと改良された多様体次元減少アルゴリズムを含む。 本稿では,ダイヤモンドのような特徴学習機構として,機能拡張と機能縮小機構の組み合わせについて述べる。 この手法は、いくつかの最先端のアルゴリズムと2つのデータセットで実験的に検証される。 その結果,提案アルゴリズムの精度は高いことがわかった。 そこで本研究では,慢性疾患の認識に有効な特徴学習アルゴリズムを開発した。

The health monitoring of chronic diseases is very important for people with movement disorders because of their limited mobility and long duration of chronic diseases. Machine learning-based processing of data collected from the human with movement disorders using wearable sensors is an effective method currently available for health monitoring. However, wearable sensor systems are difficult to obtain high-quality and large amounts of data, which cannot meet the requirement for diagnostic accuracy. Moreover, existing machine learning methods do not handle this problem well. Feature learning is key to machine learning. To solve this problem, a health monitoring of movement disorder subject based on diamond stacked sparse autoencoder ensemble model (DsaeEM) is proposed in this paper. This algorithm has two major components. First, feature expansion is designed using feature-embedded stacked sparse autoencoder (FSSAE). Second, a feature reduction mechanism is designed to remove the redundancy among the expanded features. This mechanism includes L1 regularized feature-reduction algorithm and the improved manifold dimensionality reduction algorithm. This paper refers to the combined feature expansion and feature reduction mechanism as the diamond-like feature learning mechanism. The method is experimentally verified with several state of art algorithms and on two datasets. The results show that the proposed algorithm has higher accuracy apparently. In conclusion, this study developed an effective and feasible feature-learning algorithm for the recognition of chronic diseases.
翻訳日:2023-03-16 13:59:42 公開日:2023-03-15
# Watch or Listen:視覚的破壊モデリングと信頼性検査によるロバストな音声認識

Watch or Listen: Robust Audio-Visual Speech Recognition with Visual Corruption Modeling and Reliability Scoring ( http://arxiv.org/abs/2303.08536v1 )

ライセンス: Link先を確認
Joanna Hong, Minsu Kim, Jeongsoo Choi, Yong Man Ro(参考訳) 本稿では,音声入力と視覚入力の両方が破損したマルチモーダル入力汚職状況下でのAVSR(Audio-Visual Speech Recognition)について述べる。 これまでの研究は、クリーンな視覚入力とクリーンな視覚入力の可用性を仮定して、破損したオーディオ入力をどのように補完するかに焦点を当ててきた。 しかし、実生活では、クリーンな視覚入力は必ずしもアクセス可能ではなく、口唇領域やノイズによっても破壊される。 そこで,本稿では,従来のAVSRモデルは,ユニモーダルモデルと比較して,マルチモーダルな入力ストリームや音声,視覚的入力の破損に対して頑健ではないことを示す。 次に,ロバストなavsrモデルを開発するために,マルチモーダル入力破壊モデルを設計する。 最後に、劣化したマルチモーダル入力に対して堅牢な新しいAVSRフレームワーク、すなわちAudio-Visual Reliability Scoring Module (AV-RelScore)を提案する。 AV-RelScoreは、どの入力モーダルストリームが信頼できるかを決定することができ、予測においてより信頼性の高いストリームを利用することもできる。 提案手法の有効性を,一般的なベンチマークデータベース LRS2 と LRS3 の総合的な実験により評価した。 また, AV-RelScore で得られた信頼性スコアは, 破損の程度をよく反映し, モデルが信頼性のあるマルチモーダル表現に焦点をあてることも示す。

This paper deals with Audio-Visual Speech Recognition (AVSR) under multimodal input corruption situations where audio inputs and visual inputs are both corrupted, which is not well addressed in previous research directions. Previous studies have focused on how to complement the corrupted audio inputs with the clean visual inputs with the assumption of the availability of clean visual inputs. However, in real life, clean visual inputs are not always accessible and can even be corrupted by occluded lip regions or noises. Thus, we firstly analyze that the previous AVSR models are not indeed robust to the corruption of multimodal input streams, the audio and the visual inputs, compared to uni-modal models. Then, we design multimodal input corruption modeling to develop robust AVSR models. Lastly, we propose a novel AVSR framework, namely Audio-Visual Reliability Scoring module (AV-RelScore), that is robust to the corrupted multimodal inputs. The AV-RelScore can determine which input modal stream is reliable or not for the prediction and also can exploit the more reliable streams in prediction. The effectiveness of the proposed method is evaluated with comprehensive experiments on popular benchmark databases, LRS2 and LRS3. We also show that the reliability scores obtained by AV-RelScore well reflect the degree of corruption and make the proposed model focus on the reliable multimodal representations.
翻訳日:2023-03-16 13:59:24 公開日:2023-03-15
# MRGAN360:360度画像の残差予測のための多段階連続生成逆数ネットワーク

MRGAN360: Multi-stage Recurrent Generative Adversarial Network for 360 Degree Image Saliency Prediction ( http://arxiv.org/abs/2303.08525v1 )

ライセンス: Link先を確認
Pan Gao, Xinlang Chen, Rong Quan, Wei Xiang(参考訳) 没入的でインタラクティブな体験を提供する能力のおかげで、消費者や産業アプリケーションでは360度画像コンテンツの利用が急速に増加している。 平面2d画像と比較すると、360度画像のサリエンシー予測は高解像度と球面観察範囲のためより困難である。 現在、全方位画像(ODI)の高性能なサリエンシ予測モデルは、CNNの優れた特徴表現能力の恩恵を受けるため、より深いあるいはより広い畳み込みニューラルネットワーク(CNN)に依存している。 本稿では,人間の視覚認知過程,すなわち人間の視覚的シーンに対する認識が,複数の解析段階によって常に達成されることに着想を得て,MRGAN360と呼ばれるODIのための多段階反復生成対向ネットワークを提案する。 各段階で、予測モデルは、元の画像と前のステージの出力を入力として、より正確な唾液マップを出力する。 我々は,隣接予測段階間の再帰的ニューラルネットワークを用いて相関関係をモデル化し,各段階の終端の判別器を用いて,出力サリエンシーマップを監督する。 さらに,計算コストの低い軽量アーキテクチャを実現するために,各ステージ間で重みを共有している。 提案モデルが予測精度とモデルサイズの両方において最先端モデルよりも優れていることを示すために,広範な実験を行った。

Thanks to the ability of providing an immersive and interactive experience, the uptake of 360 degree image content has been rapidly growing in consumer and industrial applications. Compared to planar 2D images, saliency prediction for 360 degree images is more challenging due to their high resolutions and spherical viewing ranges. Currently, most high-performance saliency prediction models for omnidirectional images (ODIs) rely on deeper or broader convolutional neural networks (CNNs), which benefit from CNNs' superior feature representation capabilities while suffering from their high computational costs. In this paper, inspired by the human visual cognitive process, i.e., human being's perception of a visual scene is always accomplished by multiple stages of analysis, we propose a novel multi-stage recurrent generative adversarial networks for ODIs dubbed MRGAN360, to predict the saliency maps stage by stage. At each stage, the prediction model takes as input the original image and the output of the previous stage and outputs a more accurate saliency map. We employ a recurrent neural network among adjacent prediction stages to model their correlations, and exploit a discriminator at the end of each stage to supervise the output saliency map. In addition, we share the weights among all the stages to obtain a lightweight architecture that is computationally cheap. Extensive experiments are conducted to demonstrate that our proposed model outperforms the state-of-the-art model in terms of both prediction accuracy and model size.
翻訳日:2023-03-16 13:59:00 公開日:2023-03-15
# Aerial-Ground Person Re-ID

Aerial-Ground Person Re-ID ( http://arxiv.org/abs/2303.08597v1 )

ライセンス: Link先を確認
Huy Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes(参考訳) 人は複数の重複しないカメラで人と再識別します。 飛行中のプラットフォームを監視に展開する一方で、既存の人物のre-IDベンチマークは地上でのマッチングと空中のマッチングに非常に限定的な取り組みに重点を置いている。 そこで我々は,航空カメラと地上カメラをまたいで,人物のリIDマッチングを行う新しいベンチマークデータセットAG-ReIDを提案する。 データセットには、388のアイデンティティの21,983のイメージと、各IDに対する15のソフト属性が含まれている。 データは、高度15~45mのUAVと、大学のキャンパスで地上のCCTVカメラによって収集されました。 我々のデータセットは、カメラ間で人物の外観が著しく異なるため、人物のリIDに対する新たな視点課題を提示している。 本稿では,この課題に対処するために,ソフト属性を用いたリIDモデルのトレーニングを指導するための説明可能なアルゴリズムを提案する。 地上人物再ID課題に対する提案手法の有効性を示す実験を行った。 データセットが公開され、ベースラインコードがオープンソース化され、この分野の研究が促進される。

Person re-ID matches persons across multiple non-overlapping cameras. Despite the increasing deployment of airborne platforms in surveillance, current existing person re-ID benchmarks' focus is on ground-ground matching and very limited efforts on aerial-aerial matching. We propose a new benchmark dataset - AG-ReID, which performs person re-ID matching in a new setting: across aerial and ground cameras. Our dataset contains 21,983 images of 388 identities and 15 soft attributes for each identity. The data was collected by a UAV flying at altitudes between 15 to 45 meters and a ground-based CCTV camera on a university campus. Our dataset presents a novel elevated-viewpoint challenge for person re-ID due to the significant difference in person appearance across these cameras. We propose an explainable algorithm to guide the person re-ID model's training with soft attributes to address this challenge. Experiments demonstrate the efficacy of our method on the aerial-ground person re-ID task. The dataset will be published and the baseline codes will be open-sourced to facilitate research in this area.
翻訳日:2023-03-16 13:52:31 公開日:2023-03-15
# fastinst: リアルタイムインスタンスセグメンテーションのための単純なクエリベースモデル

FastInst: A Simple Query-Based Model for Real-Time Instance Segmentation ( http://arxiv.org/abs/2303.08594v1 )

ライセンス: Link先を確認
Junjie He, Pengyu Li, Yifeng Geng, Xuansong Xie(参考訳) インスタンスセグメンテーションにおける近年の注目は、クエリベースのモデルに焦点を当てている。 非最大抑制(nms)とエンドツーエンドであるにもかかわらず、高精度リアルタイムベンチマークにおけるこれらのモデルの優位性はよく示されていない。 本稿では,効率的なインスタンスセグメンテーションアルゴリズム設計におけるクエリベースモデルの可能性を示す。 リアルタイムインスタンスセグメンテーションのための、シンプルで効果的なクエリベースのフレームワークであるfastinstを提案する。 FastInstはリアルタイムな速度(すなわち32.5 FPS)で実行でき、ベルやホイッスルなしでCOCOテストデブ上で40以上のAP(すなわち40.5 AP)を出力する。 具体的には、FastInstは、最近導入されたMask2Formerのメタアーキテクチャに従う。 その重要な設計には、インスタンスアクティベーション誘導クエリ、デュアルパス更新ストラテジー、そして、より軽いピクセルデコーダ、より少ないトランスフォーマーデコーダレイヤの使用を可能にし、パフォーマンスを向上できるグランド・トゥルーションマスクガイド学習が含まれる。 実験によれば、fastinstはスピードと正確性の両方において、強い畳み込みのベースラインを含む最先端のリアルタイムシステムよりも優れています。 コードはhttps://github.com/junjiehe96/FastInst にある。

Recent attention in instance segmentation has focused on query-based models. Despite being non-maximum suppression (NMS)-free and end-to-end, the superiority of these models on high-accuracy real-time benchmarks has not been well demonstrated. In this paper, we show the strong potential of query-based models on efficient instance segmentation algorithm designs. We present FastInst, a simple, effective query-based framework for real-time instance segmentation. FastInst can execute at a real-time speed (i.e., 32.5 FPS) while yielding an AP of more than 40 (i.e., 40.5 AP) on COCO test-dev without bells and whistles. Specifically, FastInst follows the meta-architecture of recently introduced Mask2Former. Its key designs include instance activation-guided queries, dual-path update strategy, and ground truth mask-guided learning, which enable us to use lighter pixel decoders, fewer Transformer decoder layers, while achieving better performance. The experiments show that FastInst outperforms most state-of-the-art real-time counterparts, including strong fully convolutional baselines, in both speed and accuracy. Code can be found at https://github.com/junjiehe96/FastInst .
翻訳日:2023-03-16 13:51:54 公開日:2023-03-15
# スピンの非可換回転の同時最小ノイズ推定

Simultaneous minimal-noise estimation of noncommuting rotations of a spin ( http://arxiv.org/abs/2303.08591v1 )

ライセンス: Link先を確認
Jakub Czartowski, Karol \.Zyczkowski, Daniel Braun(参考訳) 2スピン圧縮状態を用いてスピンの回転を測定するために,$\text{SU}(1,1)$インターフェロメトリのアナログを提案する。 最大スクイージングの回転角の推定におけるハイゼンベルク限界の到達可能性を示した。 固定されたスクイーズ方向と強度について、量子フィッシャー情報の二次スケーリングの観点から、古典境界上のすべての赤道回転軸(およびそれゆえ非可換回転)に対する感度の同時優位を示す。 以上の結果から,同じ最適化初期状態を持つx$-y$-planeにおける任意の方向の磁場を測定する方法が得られた。

We propose an analogue of $\text{SU}(1,1)$ interferometry to measure rotation of a spin by using two-spin squeezed states. Attainability of the Heisenberg limit for the estimation of the rotation angle is demonstrated for maximal squeezing. For a fixed squeezing direction and strength a simultaneous advantage in sensitivity for all equatorial rotation axes (and hence non-commuting rotations) over the classical bound is shown in terms of quadratic scaling of the quantum Fisher information. Our results provide a method for measuring magnetic fields in any direction in the $x$-$y$-plane with the same optimized initial state.
翻訳日:2023-03-16 13:51:32 公開日:2023-03-15
# GANsformerの調査:現状画像生成モデルの再現性の検討

Investigating GANsformer: A Replication Study of a State-of-the-Art Image Generation Model ( http://arxiv.org/abs/2303.08577v1 )

ライセンス: Link先を確認
Giorgia Adorni, Felix Boelter, Stefano Carlo Lambertenghi(参考訳) 生成モデリングによる画像生成の分野は,近年広く議論されている。 既存のイメージのスケールアップ、インテリアデザインシーンや製品、あるいは人間の顔といった既存のオブジェクトの作成、転送学習プロセスの実現など、さまざまなアプリケーションで使用できる。 この文脈では、generative adversarial networks (gans) は、上の目標を達成するgoodfellowらによる論文"generative adversarial nets"で最初に登場した、広く研究された機械学習フレームワークのクラスである。 本稿では,Hudson と Zitnick の "Generative Adversarial Transformers" で提案した GAN ネットワークの新しいバリエーション GANformer を再現し,評価する。 本研究の目的は,本論文で提示した手法を再現し,原著の成果を再現し,著者の主張にコメントすることであった。 リソースと時間制限のため、ネットワークのトレーニング時間、データセットタイプ、サイズを制限しなければなりませんでした。 本研究は,提案したGANformerモデルの両方のバリエーションを再現し,著者と結果の相違を見出した。 さらに、コードで利用可能な公開手法と実装方法の相違により、提示された手順の2つの未公表のバリエーションを研究できるようになった。

The field of image generation through generative modelling is abundantly discussed nowadays. It can be used for various applications, such as up-scaling existing images, creating non-existing objects, such as interior design scenes, products or even human faces, and achieving transfer-learning processes. In this context, Generative Adversarial Networks (GANs) are a class of widely studied machine learning frameworks first appearing in the paper "Generative adversarial nets" by Goodfellow et al. that achieve the goal above. In our work, we reproduce and evaluate a novel variation of the original GAN network, the GANformer, proposed in "Generative Adversarial Transformers" by Hudson and Zitnick. This project aimed to recreate the methods presented in this paper to reproduce the original results and comment on the authors' claims. Due to resources and time limitations, we had to constrain the network's training times, dataset types, and sizes. Our research successfully recreated both variations of the proposed GANformer model and found differences between the authors' and our results. Moreover, discrepancies between the publication methodology and the one implemented, made available in the code, allowed us to study two undisclosed variations of the presented procedures.
翻訳日:2023-03-16 13:50:16 公開日:2023-03-15
# テキスト誘導拡散画像スタイル転送のためのゼロショットコントラスト損失

Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style Transfer ( http://arxiv.org/abs/2303.08622v1 )

ライセンス: Link先を確認
Serin Yang, Hyunmin Hwang, Jong Chul Ye(参考訳) 拡散モデルはテキスト誘導型画像スタイル転送において大きな可能性を示しているが、その確率的な性質から、スタイル変換とコンテンツ保存のトレードオフがある。 既存の方法は、拡散モデルや追加のニューラルネットワークの計算コストのかかる微調整を必要とする。 そこで本研究では,追加の微調整や補助ネットワークを必要としない拡散モデルに対するゼロショットコントラスト損失を提案する。 予め訓練した拡散モデルにおいて,生成したサンプルとオリジナル画像の埋め込みのパッチワイド・コントラストの損失を利用して,ゼロショットでソース画像と同じ意味的内容の画像を生成できる。 提案手法は,画像のスタイル変換だけでなく,画像から画像への翻訳や操作においても,既存の手法よりも優れており,追加のトレーニングも必要としない。 提案手法の有効性を実験的に検証した。

Diffusion models have shown great promise in text-guided image style transfer, but there is a trade-off between style transformation and content preservation due to their stochastic nature. Existing methods require computationally expensive fine-tuning of diffusion models or additional neural network. To address this, here we propose a zero-shot contrastive loss for diffusion models that doesn't require additional fine-tuning or auxiliary networks. By leveraging patch-wise contrastive loss between generated samples and original image embeddings in the pre-trained diffusion model, our method can generate images with the same semantic content as the source image in a zero-shot manner. Our approach outperforms existing methods while preserving content and requiring no additional training, not only for image style transfer but also for image-to-image translation and manipulation. Our experimental results validate the effectiveness of our proposed method.
翻訳日:2023-03-16 13:43:06 公開日:2023-03-15
# 顔表情認識を支援する大規模未ラベル顔の探索

Exploring Large-scale Unlabeled Faces to Enhance Facial Expression Recognition ( http://arxiv.org/abs/2303.08617v1 )

ライセンス: Link先を確認
Jun Yu, Zhongpeng Cai, Renda Li, Gongpeng Zhao, Guochen Xie, Jichao Zhu, Wangyuan Zhu(参考訳) 顔表情認識(FER)はコンピュータビジョンにおいて重要な課題であり、人間とコンピュータのインタラクション、インテリジェントセキュリティ、感情分析、その他の分野に広く応用されている。 しかし、FERデータセットの限られたサイズは、表現認識モデルの一般化能力を制限し、非効率なモデル性能をもたらす。 この問題に対処するために,ラベルのない顔データを用いて表現認識モデルを効果的に訓練する半教師付き学習フレームワークを提案する。 提案手法は動的しきい値モジュール (\textbf{DTM}) を用いて、信頼度を適応的に調整し、顔認識(FR)データをフル活用して擬似ラベルを生成することにより、表情をモデル化するモデルの能力を向上させる。 ABAW5 EXPRタスクでは,オフィシャル検証セットにおいて優れた結果を得た。

Facial Expression Recognition (FER) is an important task in computer vision and has wide applications in human-computer interaction, intelligent security, emotion analysis, and other fields. However, the limited size of FER datasets limits the generalization ability of expression recognition models, resulting in ineffective model performance. To address this problem, we propose a semi-supervised learning framework that utilizes unlabeled face data to train expression recognition models effectively. Our method uses a dynamic threshold module (\textbf{DTM}) that can adaptively adjust the confidence threshold to fully utilize the face recognition (FR) data to generate pseudo-labels, thus improving the model's ability to model facial expressions. In the ABAW5 EXPR task, our method achieved excellent results on the official validation set.
翻訳日:2023-03-16 13:42:51 公開日:2023-03-15
# 情報獲得にインセンティブを与える学習:主エージェントモデルに適合する適切なスコアリングルール

Learning to Incentivize Information Acquisition: Proper Scoring Rules Meet Principal-Agent Model ( http://arxiv.org/abs/2303.08613v1 )

ライセンス: Link先を確認
Siyu Chen, Jibang Wu, Yifan Wu, Zhuoran Yang(参考訳) そこで本研究では,校長がエージェントを雇って情報収集を行うインセンティブ化情報取得問題について検討する。 このような問題は、プリンシパルとエージェントの間のスタックルバーグゲームとしてモデル化され、プリンシパルは支払いを規定するスコアリングルールを宣言し、次にエージェントは自身の利益を最大化し、情報を報告する努力レベルを選択する。 我々は,このような問題のオンライン設定をプリンシパルの観点から検討し,戦略エージェントと繰り返し対話することで最適なスコアリングルールを設計する。 我々は、ucbアルゴリズム(auer et al., 2002)をモデルに合わせた、実証可能なサンプル効率的なアルゴリズムを設計し、t$イテレーション後にサブリニア$t^{2/3}$-regretを達成する。 本アルゴリズムは,主役の最適利益に対する微妙な推定手順と,所望のエージェントの行動にインセンティブを与える保守的な補正手法を特徴とする。 さらに、私たちの後悔の限界の重要な特徴は、それが環境の状態の数から独立していることです。

We study the incentivized information acquisition problem, where a principal hires an agent to gather information on her behalf. Such a problem is modeled as a Stackelberg game between the principal and the agent, where the principal announces a scoring rule that specifies the payment, and then the agent then chooses an effort level that maximizes her own profit and reports the information. We study the online setting of such a problem from the principal's perspective, i.e., designing the optimal scoring rule by repeatedly interacting with the strategic agent. We design a provably sample efficient algorithm that tailors the UCB algorithm (Auer et al., 2002) to our model, which achieves a sublinear $T^{2/3}$-regret after $T$ iterations. Our algorithm features a delicate estimation procedure for the optimal profit of the principal, and a conservative correction scheme that ensures the desired agent's actions are incentivized. Furthermore, a key feature of our regret bound is that it is independent of the number of states of the environment.
翻訳日:2023-03-16 13:42:36 公開日:2023-03-15
# イベントポラリティによる高速オートフォーカスの改善

Improving Fast Auto-Focus with Event Polarity ( http://arxiv.org/abs/2303.08611v1 )

ライセンス: Link先を確認
Yuhan Bao, Lei Sun, Yuqin Ma, Diyang Gu, Kaiwei Wang(参考訳) 悪条件下での迅速かつ正確なオートフォーカスは、いまだに大変な作業である。 本論文は,従来のフレームベースカメラではマッチしない暗くダイナミックなシーンにおいて,高速で高精度なオートフォーカスを特徴とする,極性に基づくイベントカメラオートフォーカスアルゴリズムを提案する。 具体的には、焦点焦点における事象極性間の対称的関係について検討し、焦点焦点過程におけるイベントカメラの原理と撮像モデルに基づいて、事象に基づく焦点評価関数を提案する。 パブリックEDAデータセットに関する総合的な実験は、モデルの堅牢性を示している。 さらに、我々の自作高速集中プラットフォーム上で、焦点深が1度未満の正確な焦点は0.004秒以内に達成される。 データセットとコードは公開される予定だ。

Fast and accurate auto-focus in adverse conditions remains an arduous task. The paper presents a polarity-based event camera auto-focus algorithm featuring high-speed, precise auto-focus in dark, dynamic scenes that conventional frame-based cameras cannot match. Specifically, the symmetrical relationship between the event polarities in focusing is investigated, and the event-based focus evaluation function is proposed based on the principles of the event cameras and the imaging model in the focusing process. Comprehensive experiments on the public EAD dataset show the robustness of the model. Furthermore, precise focus with less than one depth of focus is achieved within 0.004 seconds on our self-built high-speed focusing platform. The dataset and code will be made publicly available.
翻訳日:2023-03-16 13:42:14 公開日:2023-03-15
# P\'{o}lya-Gamma Augmentation を用いたダイアログ検索モデルの校正と不確かさについて

On the Calibration and Uncertainty with P\'{o}lya-Gamma Augmentation for Dialog Retrieval Models ( http://arxiv.org/abs/2303.08606v1 )

ライセンス: Link先を確認
Tong Ye, Shijing Si, Jianzong Wang, Ning Cheng, Zhitao Li, Jing Xiao(参考訳) 深いニューラル検索モデルは、そのパワーを十分に実証しているが、予測の信頼性を推定することは依然として難しい。 ほとんどのダイアログ応答検索モデルは、ある質問にどの程度関連があるかという応答に対して単一のスコアを出力する。 しかし、ディープニューラルネットワークのキャリブレーションの悪さは、信頼性の低い予測が常にユーザの判断を誤ったように、シングルスコアに対して様々な不確実性をもたらす。 これらの課題を解明するために、決定論的深層ニューラルネットワークにガウス過程層を追加し、P\'{o}lya-Gamma拡張によるトラクタブル後部推論の共役性を取り戻す対話応答検索モデルのための効率的なキャリブレーションと不確実性推定フレームワークPG-DRRを提案する。 最後に、PG-DRRは、$R_{10}@1$とMAP性能を維持しながら、ドメイン内のデータセットと分散シフトタスクにおいて、最も低い経験的校正誤差(ECE)を達成する。

Deep neural retrieval models have amply demonstrated their power but estimating the reliability of their predictions remains challenging. Most dialog response retrieval models output a single score for a response on how relevant it is to a given question. However, the bad calibration of deep neural network results in various uncertainty for the single score such that the unreliable predictions always misinform user decisions. To investigate these issues, we present an efficient calibration and uncertainty estimation framework PG-DRR for dialog response retrieval models which adds a Gaussian Process layer to a deterministic deep neural network and recovers conjugacy for tractable posterior inference by P\'{o}lya-Gamma augmentation. Finally, PG-DRR achieves the lowest empirical calibration error (ECE) in the in-domain datasets and the distributional shift task while keeping $R_{10}@1$ and MAP performance.
翻訳日:2023-03-16 13:42:04 公開日:2023-03-15
# RICO: 室内のコンポジションレコンストラクションの非可観測化

RICO: Regularizing the Unobservable for Indoor Compositional Reconstruction ( http://arxiv.org/abs/2303.08605v1 )

ライセンス: Link先を確認
Zizhang Li, Xiaoyang Lyu, Yuanyuan Ding, Mengmeng Wang, Yiyi Liao, Yong Liu(参考訳) 近年,多視点再構成に神経暗示面が普及している。 シーン編集や操作などの実践的な応用を容易にするために、全体論的な視点ではなく、オブジェクト-構成的再構成のためのセマンティックマスクを入力してフレームワークを拡張した作品もある。 もっともらしい乱れを実現するが、通常は部分的に観察される屋内シーンの処理では性能が著しく低下する。 本稿では,室内構成再構成のための観測不能領域を定式化することにより,これに対処するためのricoを提案する。 我々のキーとなる考え方は、まず隠蔽された背景の滑らかさを規則化し、その後、対象と背景の関係に基づいて、観測不能領域における前景オブジェクトの再構築をガイドすることである。 特に,オクルードされた背景パッチの幾何学的滑らかさを定式化する。 背景面の改善により、符号付き距離関数とオブジェクトの逆レンダリング深度は、背景範囲内でそれらをバインドするように最適化できる。 大規模実験により,人工的および実世界の室内シーンにおける他の手法を上回り,提案手法の有効性を実証した。

Recently, neural implicit surfaces have become popular for multi-view reconstruction. To facilitate practical applications like scene editing and manipulation, some works extend the framework with semantic masks input for the object-compositional reconstruction rather than the holistic perspective. Though achieving plausible disentanglement, the performance drops significantly when processing the indoor scenes where objects are usually partially observed. We propose RICO to address this by regularizing the unobservable regions for indoor compositional reconstruction. Our key idea is to first regularize the smoothness of the occluded background, which then in turn guides the foreground object reconstruction in unobservable regions based on the object-background relationship. Particularly, we regularize the geometry smoothness of occluded background patches. With the improved background surface, the signed distance function and the reversedly rendered depth of objects can be optimized to bound them within the background range. Extensive experiments show our method outperforms other methods on synthetic and real-world indoor scenes and prove the effectiveness of proposed regularizations.
翻訳日:2023-03-16 13:41:45 公開日:2023-03-15
# パリティアーキテクチャにおけるコード変形の一定深さ

Constant Depth Code Deformations in the Parity Architecture ( http://arxiv.org/abs/2303.08602v1 )

ライセンス: Link先を確認
Anette Messinger, Michael Fellner, Wolfgang Lechner(参考訳) 本稿では,任意の量子状態を一定回路深さで符号化・復号するプロトコルを,測定値,局所的近距離演算,単一量子ビット演算のみを用いて提案する。 この手順は通常、同時キュービット測定の2次オーバーヘッドを必要とするが、コード変形によるパリティ符号化における論理的マルチキュービットゲートの単純かつ低深さの実装を可能にする。 量子ゲートやアルゴリズムのより効率的な実装を実現するために、このような符号化と復号方式を用いて、基礎となるコードのサイズと形状を柔軟に変化させる方法について論じる。 提案手法をQAOAに適用し, 局所ゲートを用いたパリティ符号化を使わずに, 標準の非局所的なQAOAアプローチと同じ最適化性能で, 一定の深度実装を実現する。 さらに,本手法は,測定を行う際に,量子フーリエ変換の実装の深さを2倍に低減できることを示す。

We present a protocol to encode and decode arbitrary quantum states in the parity architecture with constant circuit depth using measurements, local nearest-neighbor and single-qubit operations only. While this procedure typically requires a quadratic overhead of simultaneous qubit measurements, it allows for a simple and low-depth implementation of logical multi-qubit gates in the parity encoding via code deformation. We discuss how such encoding and decoding schemes can be used to flexibly change the size and shape of the underlying code to enable a more efficient implementation of quantum gates or algorithms. We apply the new findings to the QAOA which leads to a constant depth implementation using local gates at the same optimization performance as the standard, potentially non-local, QAOA approach without the parity encoding. Furthermore, we show that our method can reduce the depth of implementing the quantum Fourier transform by a factor of two when allowing measurements.
翻訳日:2023-03-16 13:41:15 公開日:2023-03-15
# GCRE-GPT : 比較関係抽出のための生成モデル

GCRE-GPT: A Generative Model for Comparative Relation Extraction ( http://arxiv.org/abs/2303.08601v1 )

ライセンス: Link先を確認
Yequan Wang, Hengran Zhang, Aixin Sun, Xuying Meng(参考訳) 比較テキストが与えられた場合、比較関係抽出は、比較対象(2つのカメラ)と比較対象(画像品質)を抽出することを目的としている。 抽出された比較関係は、さらなる意見分析の基礎を形成し、このタスクをシーケンスラベリングタスクとして定式化し、ターゲットとアスペクトを抽出する。 しかし、テキストから比較関係を直接抽出することはできない。 本稿では,生成モデルを用いて,高い精度で比較関係を直接抽出できることを示す。 GPT-2に基づくGCRE-GPT(Generation-based Comparison Relation Extractor)を提案する。 実験結果から,2つのデータセットに対して,モデル名の精度が得られた。

Given comparative text, comparative relation extraction aims to extract two targets (\eg two cameras) in comparison and the aspect they are compared for (\eg image quality). The extracted comparative relations form the basis of further opinion analysis.Existing solutions formulate this task as a sequence labeling task, to extract targets and aspects. However, they cannot directly extract comparative relation(s) from text. In this paper, we show that comparative relations can be directly extracted with high accuracy, by generative model. Based on GPT-2, we propose a Generation-based Comparative Relation Extractor (GCRE-GPT). Experiment results show that \modelname achieves state-of-the-art accuracy on two datasets.
翻訳日:2023-03-16 13:40:59 公開日:2023-03-15
# mseg3d: 自動運転のためのマルチモーダル3dセマンティクスセグメンテーション

MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving ( http://arxiv.org/abs/2303.08600v1 )

ライセンス: Link先を確認
Jiale Li, Hang Dai, Hao Han, Yong Ding(参考訳) LiDARとカメラは、自律運転における3Dセマンティックセグメンテーションのための2つのモダリティである。 広汎なlidarのみの手法は,レーザ点不足による小・遠方の物体のセグメンテーションの低下に苦しむが,ロバストなマルチモーダル溶液は未検討であり,モダリティの不均一性,センサ領域の制限,マルチモーダルデータ拡張の3つの重要な本質的困難について検討する。 本稿では,モーダル内特徴抽出とモーダル間特徴融合を併用したマルチモーダル3次元意味セグメンテーションモデル(mseg3d)を提案する。 MSeg3Dのマルチモーダル融合は、幾何に基づく特徴融合GF-Phase、クロスモーダル特徴完備化、およびすべての可視点における意味に基づく特徴融合SF-Phaseからなる。 マルチモーダルデータ拡張は、LiDARポイントクラウドとマルチカメライメージに非対称変換を個別に適用することで再活性化され、多様化された拡張変換によるモデルトレーニングの恩恵を受ける。 MSeg3Dは、nuScenes、Waymo、SemanticKITTIデータセットに関する最先端の結果を達成する。 故障するマルチカメラ入力とマルチフレームのクラウド入力では、MSeg3Dはロバスト性を示し、LiDARのみのベースラインを改善する。 我々のコードは \url{https://github.com/jialeli1/lidarseg3d} で公開されている。

LiDAR and camera are two modalities available for 3D semantic segmentation in autonomous driving. The popular LiDAR-only methods severely suffer from inferior segmentation on small and distant objects due to insufficient laser points, while the robust multi-modal solution is under-explored, where we investigate three crucial inherent difficulties: modality heterogeneity, limited sensor field of view intersection, and multi-modal data augmentation. We propose a multi-modal 3D semantic segmentation model (MSeg3D) with joint intra-modal feature extraction and inter-modal feature fusion to mitigate the modality heterogeneity. The multi-modal fusion in MSeg3D consists of geometry-based feature fusion GF-Phase, cross-modal feature completion, and semantic-based feature fusion SF-Phase on all visible points. The multi-modal data augmentation is reinvigorated by applying asymmetric transformations on LiDAR point cloud and multi-camera images individually, which benefits the model training with diversified augmentation transformations. MSeg3D achieves state-of-the-art results on nuScenes, Waymo, and SemanticKITTI datasets. Under the malfunctioning multi-camera input and the multi-frame point clouds input, MSeg3D still shows robustness and improves the LiDAR-only baseline. Our code is publicly available at \url{https://github.com/jialeli1/lidarseg3d}.
翻訳日:2023-03-16 13:40:48 公開日:2023-03-15
# 信頼できる対話応答検索のためのガウス過程による効率的な不確かさ推定

Efficient Uncertainty Estimation with Gaussian Process for Reliable Dialog Response Retrieval ( http://arxiv.org/abs/2303.08599v1 )

ライセンス: Link先を確認
Tong Ye, Zhitao Li, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) ディープニューラルネットワークは検索ベースの対話システムにおいて顕著な性能を発揮してきたが、校正が不十分であることが示されている。 モンテカルロ・ドロップアウトやアンサンブルのような基本的なキャリブレーション手法はうまく調整できるが、これらの方法はトレーニングや推論の段階で時間を要する。 これらの課題に対処するために,ガウスプロセス層とBERTアーキテクチャ上の焦点損失を利用して高品質なニューラルランク付けを実現する,BERTに基づく会話探索のための効率的な不確実性校正フレームワークGPF-BERTを提案する。 本手法の有効性を検証するために広範な実験を行った。 基本的な校正法と比較して、GPF-BERTは3つのドメイン内のデータセットと分散シフトタスクにおいて、最も低い経験的校正誤差(ECE)を達成し、ほとんどの場合、R_{10}@1$とMAPのパフォーマンスは最高である。 時間消費に関しては、GPF-BERTは8$\times$ speedupです。

Deep neural networks have achieved remarkable performance in retrieval-based dialogue systems, but they are shown to be ill calibrated. Though basic calibration methods like Monte Carlo Dropout and Ensemble can calibrate well, these methods are time-consuming in the training or inference stages. To tackle these challenges, we propose an efficient uncertainty calibration framework GPF-BERT for BERT-based conversational search, which employs a Gaussian Process layer and the focal loss on top of the BERT architecture to achieve a high-quality neural ranker. Extensive experiments are conducted to verify the effectiveness of our method. In comparison with basic calibration methods, GPF-BERT achieves the lowest empirical calibration error (ECE) in three in-domain datasets and the distributional shift tasks, while yielding the highest $R_{10}@1$ and MAP performance on most cases. In terms of time consumption, our GPF-BERT has an 8$\times$ speedup.
翻訳日:2023-03-16 13:40:20 公開日:2023-03-15
# Web検索エンジンからのエビデンス収集のための自動クエリ生成

Automated Query Generation for Evidence Collection from Web Search Engines ( http://arxiv.org/abs/2303.08652v1 )

ライセンス: Link先を確認
Nestor Prieto-Chavana, Julie Weeds, David Weir(参考訳) インターネット上で情報を探すことで、いわゆる事実を確認できることが広く受け入れられている。 このプロセスでは、事実に基づいて検索クエリを定式化し、検索エンジンに提示するファクトチェックが必要である。 そして、決定が下される前に、検索結果に関連し、信じがたい節を識別する必要がある。 このプロセスは、多くのニュースやメディア機関の副編集者によって毎日行われる。 ここでは,問合せ生成の最初のステップである問合せ生成の自動化が可能かどうかを問う。 人的専門家の定式化と類似した事実文に基づいて,検索クエリを自動的に定式化できるだろうか? 本稿では,テキストの類似性,および検索エンジンから返される関連文書の類似性について考察する。 まず,390件の事実文と関連する人文検索クエリと検索結果を含む中規模のエビデンス収集データセットを紹介する。 そこで本研究では,事前学習された大言語モデル(llms)に基づくルールベースおよび自動テキスト生成手法を用いて,クエリ生成について検討する。 これらの手法は異なる利点を有しており、実際に優れた性能を持つハイブリッドアプローチを提案する。

It is widely accepted that so-called facts can be checked by searching for information on the Internet. This process requires a fact-checker to formulate a search query based on the fact and to present it to a search engine. Then, relevant and believable passages need to be identified in the search results before a decision is made. This process is carried out by sub-editors at many news and media organisations on a daily basis. Here, we ask the question as to whether it is possible to automate the first step, that of query generation. Can we automatically formulate search queries based on factual statements which are similar to those formulated by human experts? Here, we consider similarity both in terms of textual similarity and with respect to relevant documents being returned by a search engine. First, we introduce a moderate-sized evidence collection dataset which includes 390 factual statements together with associated human-generated search queries and search results. Then, we investigate generating queries using a number of rule-based and automatic text generation methods based on pre-trained large language models (LLMs). We show that these methods have different merits and propose a hybrid approach which has superior performance in practice.
翻訳日:2023-03-16 13:33:18 公開日:2023-03-15
# 表面電子のリドバーグ状態に基づく制御なしゲート

Controlled-NOT gate based on the Rydberg states of surface electrons ( http://arxiv.org/abs/2303.08650v1 )

ライセンス: Link先を確認
Jun Wang, Wan-Ting He, Cong-Wei Lu, Yang-Yang Wang, Qing Ai, Hai-Bo Wang(参考訳) 長いコヒーレンス時間と簡単な操作のため、表面電子(se)は量子計算のための完全な2次元プラットフォームを提供する。 本研究では,4レベルse rydberg構造に2量子ビット系を符号化することにより,制御なし(cnot)ゲートを実現するためのスキームを理論的に提示する。 状態移動は、高励起状態の狭いエネルギー空間のために望ましくない遷移を避けるために中間レベルによって達成される。 運転場のラビ周波数は中間レベルのない直接運転方式よりも大きく、状態移動を加速する。 2つの外部電磁界でSEを同時に駆動することにより、電磁誘導透過(EIT)効果における暗黒状態を利用して、最も散逸した状態の人口を抑制し、散逸に対する堅牢性を高める。 提案手法の精度は, 実験可能なパラメータで0.999を超える。

Due to the long coherence time and easy manipulation, the surface electrons (SE) provide a perfect two-dimensional platform for quantum computation. In this work, we theoretically present a scheme to realize the controlled-NOT (CNOT) gate, by encoding the two-qubit system in the four-level SE Rydberg structure. The state transfer is achieved by an intermediate level to avoid the undesirable transitions due to the narrow energy space of the highly-excited states. The Rabi frequency of the driving field is larger than the direct-driving scheme without the intermediate level and thus accelerates the state transfer. By simultaneously driving the SE with two external electromagnetic fields, we utilize the dark state in the electromagnetically induced transparency (EIT) effect to suppress the population of the most dissipative state and increase the robustness against dissipation. The fidelity of our scheme exceeds 0.999 with experimentally-achievable parameters.
翻訳日:2023-03-16 13:33:02 公開日:2023-03-15
# 画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデル

An End-to-End Multi-Task Learning Model for Image-based Table Recognition ( http://arxiv.org/abs/2303.08648v1 )

ライセンス: Link先を確認
Nam Tuan Ly and Atsuhiro Takasu(参考訳) 画像に基づくテーブル認識は、テーブルスタイルの多様性とテーブル構造の複雑さのために難しい課題である。 従来の手法のほとんどは、問題をテーブル構造認識とセルコンテント認識という2つの別々のサブプロブレムに分割する非エンドツーエンドのアプローチに焦点を合わせており、2つの別々のシステムを使って各サブプロブレムを独立して解決しようとする。 本稿では,画像に基づくテーブル認識のためのエンドツーエンドマルチタスク学習モデルを提案する。 提案モデルは、1つの共有エンコーダ、1つの共有デコーダ、3つの分離デコーダで構成され、テーブル構造認識、セル検出、セルコンテント認識の3つのサブタスクの学習に用いられる。 システム全体を簡単に訓練し、エンドツーエンドのアプローチで推測することができる。 実験では,FinTabNetとPubTabNetの2つの大規模データセットを用いて提案モデルの性能を評価する。 実験結果から,提案モデルがすべてのベンチマークデータセットにおいて最先端の手法より優れていることが示された。

Image-based table recognition is a challenging task due to the diversity of table styles and the complexity of table structures. Most of the previous methods focus on a non-end-to-end approach which divides the problem into two separate sub-problems: table structure recognition; and cell-content recognition and then attempts to solve each sub-problem independently using two separate systems. In this paper, we propose an end-to-end multi-task learning model for image-based table recognition. The proposed model consists of one shared encoder, one shared decoder, and three separate decoders which are used for learning three sub-tasks of table recognition: table structure recognition, cell detection, and cell-content recognition. The whole system can be easily trained and inferred in an end-to-end approach. In the experiments, we evaluate the performance of the proposed model on two large-scale datasets: FinTabNet and PubTabNet. The experiment results show that the proposed model outperforms the state-of-the-art methods in all benchmark datasets.
翻訳日:2023-03-16 13:32:48 公開日:2023-03-15
# HFGD: セマンティックセグメンテーションのための高レベル特徴ガイドデコーダ

HFGD: High-level Feature Guided Decoder for Semantic Segmentation ( http://arxiv.org/abs/2303.08646v1 )

ライセンス: Link先を確認
Ye Huang, Di Kang, Shenghua Gao, Wen Li, Lixin Duan(参考訳) resnetやswin-transformerといったセマンティックセグメンテーションのバックボーンは、機能エンコーディングのために複数のステージを持つ。 単にバックボーンの初期から高分解能の低レベルフィーチャーマップを使用して低解像度の高レベルフィーチャーマップを直接洗練することは、低解像度のフィーチャーマップアップサンプリングの一般的なプラクティスである。 しかし、低レベルの特徴の表現力は一般的に高レベルな特徴よりも悪く、その結果「ノイズ」を導入する。 この問題に対処するために,分離された高レベル機能を用いて低レベル機能とアップサンプリングプロセスをガイドする高レベル特徴ガイドデコーダ(HFGD)を提案する。 具体的には、注意深く設計された停止勾配演算とクラスカーネルによってガイダンスが実現される。 現在、クラスカーネルはハイレベルな機能のみに対応し、アップサンプリングヘッドで再利用され、アップサンプリングヘッドのトレーニングプロセスがガイドされる。 HFGDは非常に効率的で効果的であり、機能マップを2の未確認出力ストライド(OS)にアップサンプリングし、精度を向上することができる。 HFGDは、小さなFLOPを持ついくつかのベンチマークデータセット(Pascal Context、COCOStuff164k、Cityscapesなど)で最先端のパフォーマンスを示す。 完全なコードはhttps://github.com/edwardyehuang/HFGD.gitで入手できる。

Commonly used backbones for semantic segmentation, such as ResNet and Swin-Transformer, have multiple stages for feature encoding. Simply using high-resolution low-level feature maps from the early stages of the backbone to directly refine the low-resolution high-level feature map is a common practice of low-resolution feature map upsampling. However, the representation power of the low-level features is generally worse than high-level features, thus introducing ``noise" to the upsampling refinement. To address this issue, we proposed High-level Feature Guided Decoder (HFGD), which uses isolated high-level features to guide low-level features and upsampling process. Specifically, the guidance is realized through carefully designed stop gradient operations and class kernels. Now the class kernels co-evolve only with the high-level features and are reused in the upsampling head to guide the training process of the upsampling head. HFGD is very efficient and effective that can also upsample the feature maps to a previously unseen output stride (OS) of 2 and still obtain accuracy gain. HFGD demonstrates state-of-the-art performance on several benchmark datasets (e.g. Pascal Context, COCOStuff164k and Cityscapes) with small FLOPs. The full code will be available at https://github.com/edwardyehuang/HFGD.git.
翻訳日:2023-03-16 13:32:29 公開日:2023-03-15
# RGI : グラフ上の自己教師型学習のための正規化グラフ情報マックス

RGI : Regularized Graph Infomax for self-supervised learning on graphs ( http://arxiv.org/abs/2303.08644v1 )

ライセンス: Link先を確認
Oscar Pina and Ver\'onica Vilaplana(参考訳) グラフ表現学習における広範なアノテーションの必要性を回避するソリューションとして,自己教師付き学習が注目されている。 グラフレベルのグローバルビューを用いた従来の研究とは対照的に,ノードレベルのローカルビューとグローバルビューの相互情報を最大化することにより,グラフニューラルネットワークエンコーダをトレーニングするグラフ上でのノードレベルの自己教師型学習のための,シンプルかつ効果的なフレームワークである。 表現の共分散行列を規則化しながら、ビュー間の予測可能性を促進する。 したがって、RGIは非競合的であり、複雑な非対称アーキテクチャやトレーニングトリックに依存しず、拡張フリーであり、2つの分岐アーキテクチャに依存しない。 一般的なグラフベンチマークでトランスダクティブとインダクティブの両方の設定でrgiを実行し、単純さに関わらず最先端のパフォーマンスを達成できることを示しています。

Self-supervised learning is gaining considerable attention as a solution to avoid the requirement of extensive annotations in representation learning on graphs. We introduce \textit{Regularized Graph Infomax (RGI)}, a simple yet effective framework for node level self-supervised learning on graphs that trains a graph neural network encoder by maximizing the mutual information between node level local and global views, in contrast to previous works that employ graph level global views. The method promotes the predictability between views while regularizing the covariance matrices of the representations. Therefore, RGI is non-contrastive, does not depend on complex asymmetric architectures nor training tricks, is augmentation-free and does not rely on a two branch architecture. We run RGI on both transductive and inductive settings with popular graph benchmarks and show that it can achieve state-of-the-art performance regardless of its simplicity.
翻訳日:2023-03-16 13:32:06 公開日:2023-03-15
# 風に吹く:静止画の人間のシネマグラフのサイクルネット

Blowing in the Wind: CycleNet for Human Cinemagraphs from Still Images ( http://arxiv.org/abs/2303.08639v1 )

ライセンス: Link先を確認
Hugo Bertiche, Niloy J. Mitra, Kuldeep Kulkarni, Chun-Hao Paul Huang, Tuanfeng Y. Wang, Meysam Madadi, Sergio Escalera and Duygu Ceylan(参考訳) シネマグラフ(cinemagraphs)は、静止画に微妙な動きを加えることで作られた短いループビデオである。 この種のメディアは人気があり、熱心だ。 しかし、シネマグラフの自動生成は未熟な分野であり、現在のソリューションはアーティストによる退屈な低レベルのマニュアル作成を必要とする。 本稿では,1枚のRGB画像から人間のシネマグラフを自動生成する手法を提案する。 我々は,風の下で着飾った人間の文脈でこの問題を調査した。 提案手法の核となるのが,対象ループ持続時間に対してループシネマグラフを生成する新しいサイクリックニューラルネットワークである。 実データ収集の問題を回避すべく,画像正規空間で作業することで,合成データ上で衣料運動のダイナミクスを学習し,実データに一般化できることを実証する。 合成データと実データの両方で本手法を評価し, 単一のRGB画像から, 説得力のある, もっともらしいシネマグラフを作成できることを実証した。

Cinemagraphs are short looping videos created by adding subtle motions to a static image. This kind of media is popular and engaging. However, automatic generation of cinemagraphs is an underexplored area and current solutions require tedious low-level manual authoring by artists. In this paper, we present an automatic method that allows generating human cinemagraphs from single RGB images. We investigate the problem in the context of dressed humans under the wind. At the core of our method is a novel cyclic neural network that produces looping cinemagraphs for the target loop duration. To circumvent the problem of collecting real data, we demonstrate that it is possible, by working in the image normal space, to learn garment motion dynamics on synthetic data and generalize to real data. We evaluate our method on both synthetic and real data and demonstrate that it is possible to create compelling and plausible cinemagraphs from single RGB images.
翻訳日:2023-03-16 13:31:49 公開日:2023-03-15
# ポイント・クラウドの品質評価:トランスフォーマティブ・アーキテクチャを用いた新しいノーリファレンス・アプローチ

Quality evaluation of point clouds: a novel no-reference approach using transformer-based architecture ( http://arxiv.org/abs/2303.08634v1 )

ライセンス: Link先を確認
Marouane Tliba, Aladine Chetouani, Giuseppe Valenzise and Frederic Dufaux(参考訳) 没入的体験への関心が高まり、point cloudは誕生し、3dメディアを代表する最初の選択肢として広く採用された。 取得からレンダリングまでの3Dコンテンツに影響を与えるいくつかの歪みに加えて、従来の通信システム上でのボリュームコンテンツの効率的な伝送は、提供された知覚品質を犠牲にしている。 このような劣化の大きさを推定するために、品質指標を利用することは避けられない解決策となった。 本研究では,広範囲な事前処理を必要とせず,全点クラウド上で直接動作し,送信レベルとレンダリングレベルの両方をリアルタイムに評価できる新しい非参照品質指標を提案する。 そこで我々は,基本特徴抽出から深部表現モデリングまで,幾何情報と色情報の最適な組み合わせを多段階に保ちながら,局所的なセマンティック親和性の最適集合を学習するために,主にクロスアテンション層とセルフアテンション層からなる新しいモデル設計を用いる。

With the increased interest in immersive experiences, point cloud came to birth and was widely adopted as the first choice to represent 3D media. Besides several distortions that could affect the 3D content spanning from acquisition to rendering, efficient transmission of such volumetric content over traditional communication systems stands at the expense of the delivered perceptual quality. To estimate the magnitude of such degradation, employing quality metrics became an inevitable solution. In this work, we propose a novel deep-based no-reference quality metric that operates directly on the whole point cloud without requiring extensive pre-processing, enabling real-time evaluation over both transmission and rendering levels. To do so, we use a novel model design consisting primarily of cross and self-attention layers, in order to learn the best set of local semantic affinities while keeping the best combination of geometry and color information in multiple levels from basic features extraction to deep representation modeling.
翻訳日:2023-03-16 13:31:35 公開日:2023-03-15
# 生体医用単細胞画像における複数事例学習モデルの画素レベル説明

Pixel-Level Explanation of Multiple Instance Learning Models in Biomedical Single Cell Images ( http://arxiv.org/abs/2303.08632v1 )

ライセンス: Link先を確認
Ario Sadafi, Oleksandra Adonkina, Ashkan Khakzar, Peter Lienemann, Rudolf Matthias Hehr, Daniel Rueckert, Nassir Navab, Carsten Marr(参考訳) 臨床診断におけるコンピュータ支援診断システムにおける説明可能性の重要性 アテンションプールによる複数のインスタンス学習は、インスタンスレベルの説明可能性を提供するが、多くの臨床応用では、より深いピクセルレベルの説明が望ましいが、今のところ欠けている。 本研究では,複数のインスタンス学習モデル(gradcam, layer-wise associated propagation (lrp), information bottleneck attribution (iba), inputiba)の4つの帰属法を用いて,複数のインスタンス学習モデルを説明する。 この方法では、患者の血液スメアから血液がんを診断するタスクのためのピクセルレベルの説明を導出することができる。 急性骨髄性白血病の2つのデータセットを100万以上の単細胞画像を用いて研究し、各属性法が、白血球の異なる性質に着目した複数インスタンス学習アーキテクチャでどのように機能するかを観察した。 さらに、アトリビューションマップと医療専門家の注釈を比較し、モデルの意思決定が人間の標準とどのように異なるかを確認する。 本研究は,複数のインスタンス学習モデルにピクセルレベルの説明可能性を導入するという課題に対処し,臨床医がコンピュータ支援診断システムから意思決定をよりよく理解し,信頼する上での洞察を提供する。

Explainability is a key requirement for computer-aided diagnosis systems in clinical decision-making. Multiple instance learning with attention pooling provides instance-level explainability, however for many clinical applications a deeper, pixel-level explanation is desirable, but missing so far. In this work, we investigate the use of four attribution methods to explain a multiple instance learning models: GradCAM, Layer-Wise Relevance Propagation (LRP), Information Bottleneck Attribution (IBA), and InputIBA. With this collection of methods, we can derive pixel-level explanations on for the task of diagnosing blood cancer from patients' blood smears. We study two datasets of acute myeloid leukemia with over 100 000 single cell images and observe how each attribution method performs on the multiple instance learning architecture focusing on different properties of the white blood single cells. Additionally, we compare attribution maps with the annotations of a medical expert to see how the model's decision-making differs from the human standard. Our study addresses the challenge of implementing pixel-level explainability in multiple instance learning models and provides insights for clinicians to better understand and trust decisions from computer-aided diagnosis systems.
翻訳日:2023-03-16 13:31:18 公開日:2023-03-15
# 滑らかなQ-ラーニング

Smoothed Q-learning ( http://arxiv.org/abs/2303.08631v1 )

ライセンス: Link先を確認
David Barber(参考訳) 強化学習では、Q学習アルゴリズムは最適解に確実に収束する。 しかし、他の例が示しているように、qラーニングは価値を過大評価することができ、従って役に立たない状態の探索に長時間を費やすことになる。 二重Q-ラーニング(Double Q-learning)は、いくつかの過大評価問題を緩和する、確実な収束の代替手段である。 そこで本研究では,最大演算を平均値で置き換える代替アルゴリズムを導入することにより,予測過剰を軽減しつつ標準q-learningと類似した収束を保ちながら実現可能なオフポリシーアルゴリズムを提案する。

In Reinforcement Learning the Q-learning algorithm provably converges to the optimal solution. However, as others have demonstrated, Q-learning can also overestimate the values and thereby spend too long exploring unhelpful states. Double Q-learning is a provably convergent alternative that mitigates some of the overestimation issues, though sometimes at the expense of slower convergence. We introduce an alternative algorithm that replaces the max operation with an average, resulting also in a provably convergent off-policy algorithm which can mitigate overestimation yet retain similar convergence as standard Q-learning.
翻訳日:2023-03-16 13:30:55 公開日:2023-03-15
# 基底モデルとしてのハイパー矩形の解釈可能なアンサンブル

Interpretable Ensembles of Hyper-Rectangles as Base Models ( http://arxiv.org/abs/2303.08625v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov and Lev V. Utkin(参考訳) 基本モデル (hrbm) として一様生成する軸平行超矩形を持つ超単純アンサンブルモデルを提案する。 HRBMは、閉じた矩形と角の2種類が研究されている。 HRBMの背景にある主な考え方は、各矩形内外のトレーニング例を考慮し数えることである。 HRBMを勾配押し上げ機(GBM)に組み込むことが提案されている。 HRBMの単純さにもかかわらず、これらの単純なベースモデルによって、効果的なアンサンブルベースのモデルを構築し、過度な適合を避けることができることがわかった。 GBMの各イテレーションで明示的な方法で修正できるアンサンブルベースモデルの最適正規化パラメータを計算するための簡単な方法を考える。 さらに、標準L1およびL2正規化に加えて、「ステップハイトペナルティ」と呼ばれる新たな正規化が研究されている。 良く知られた手法であるshapを用いたアンサンブルに基づくモデル予測解釈に対する極めて単純なアプローチを提案する。 HRBMを用いたGBMは,ブラックボックスモデルを説明するための解釈可能なモデルのセットを拡張するモデルであると考えられる。 実データセットを用いた数値実験では、回帰問題と分類問題のためのHRBMを用いたGBMを提案する。 実験では、提案したSHAP修正の計算効率も説明できる。 GBMをHRBMで実装するアルゴリズムのコードも公開されている。

A new extremely simple ensemble-based model with the uniformly generated axis-parallel hyper-rectangles as base models (HRBM) is proposed. Two types of HRBMs are studied: closed rectangles and corners. The main idea behind HRBM is to consider and count training examples inside and outside each rectangle. It is proposed to incorporate HRBMs into the gradient boosting machine (GBM). Despite simplicity of HRBMs, it turns out that these simple base models allow us to construct effective ensemble-based models and avoid overfitting. A simple method for calculating optimal regularization parameters of the ensemble-based model, which can be modified in the explicit way at each iteration of GBM, is considered. Moreover, a new regularization called the "step height penalty" is studied in addition to the standard L1 and L2 regularizations. An extremely simple approach to the proposed ensemble-based model prediction interpretation by using the well-known method SHAP is proposed. It is shown that GBM with HRBM can be regarded as a model extending a set of interpretable models for explaining black-box models. Numerical experiments with real datasets illustrate the proposed GBM with HRBMs for regression and classification problems. Experiments also illustrate computational efficiency of the proposed SHAP modifications. The code of proposed algorithms implementing GBM with HRBM is publicly available.
翻訳日:2023-03-16 13:30:43 公開日:2023-03-15
# 2成分測定による信号再構成の学習

Learning to Reconstruct Signals From Binary Measurements ( http://arxiv.org/abs/2303.08691v1 )

ライセンス: Link先を確認
Juli\'an Tachella and Laurent Jacques(参考訳) 教師なし学習の最近の進歩は、ノイズと不完全な線形測定のみから信号を再構成する学習の可能性を強調している。 これらの手法は、地上の真実データがほとんど得られず、入手が難しい、医学的、科学的な画像やセンシングにおいて重要な役割を担っている。 しかし実際には、測定はノイズが多く不完全であるだけでなく、定量化されている。 ここでは,二進法からの学習の極端な事例を考察し,不完全二進法データからの信号集合の同定に必要な測定回数について,必要十分条件を提示する。 以上の結果は,2値測定からの信号回復に関する既存の境界を補完するものである。 さらに,学習のためのバイナリデータのみを必要とするssbmと名づけた,新しい自己教師付き学習手法を提案する。 我々は,SSBMが教師付き学習と同等に行う実データセットを用いた一連の実験で示し,広いマージンで固定ウェーブレットベースでスパース再構成法より優れることを示した。

Recent advances in unsupervised learning have highlighted the possibility of learning to reconstruct signals from noisy and incomplete linear measurements alone. These methods play a key role in medical and scientific imaging and sensing, where ground truth data is often scarce or difficult to obtain. However, in practice, measurements are not only noisy and incomplete but also quantized. Here we explore the extreme case of learning from binary observations and provide necessary and sufficient conditions on the number of measurements required for identifying a set of signals from incomplete binary data. Our results are complementary to existing bounds on signal recovery from binary measurements. Furthermore, we introduce a novel self-supervised learning approach, which we name SSBM, that only requires binary data for training. We demonstrate in a series of experiments with real datasets that SSBM performs on par with supervised learning and outperforms sparse reconstruction methods with a fixed wavelet basis by a large margin.
翻訳日:2023-03-16 13:25:36 公開日:2023-03-15
# 適応型深層モデルに基づく強化学習のための局所的忘れるリプレイバッファ

Replay Buffer With Local Forgetting for Adaptive Deep Model-Based Reinforcement Learning ( http://arxiv.org/abs/2303.08690v1 )

ライセンス: Link先を確認
Ali Rahimi-Kalahroudi, Janarthanan Rajendran, Ida Momennejad, Harm van Seijen, Sarath Chandar(参考訳) 神経科学における重要な行動特性の1つは、研究対象(げっ歯類か人間か)が、モデルに基づく学習が環境の局所的な変化に効果的な適応を示すかどうかを決定することである。 しかし、強化学習において、最近の研究により、現代の深層モデルに基づく強化学習(MBRL)法はそのような変化に不適応であることが示されている。 このミスマッチの1つの説明として、MBRL法は典型的には1つのタスクを念頭においてサンプル効率で設計され、学習の世界モデルと計画ルーチンの両方の観点から、効果的適応の要件は著しく高い。 特に難しい要件の1つは、学習された世界モデルは、状態空間の関連部分を通して十分に正確でなければならないことである。 これは、破滅的な忘れによるディープラーニングベースの世界モデルにとって難しいことです。 リプレイバッファは破滅的なリプレーングの影響を緩和するが、従来のファーストインファーストリプレイバッファは、古いデータを維持するために効果的な適応を阻害する。 そこで本研究では,従来のリプレイバッファの単純な変更により,この制限を克服できることを示す。 新たに観測されたサンプルの局所的近傍からバッファからのみを除去することにより、状態空間全体の精度を維持するとともに、報酬関数の変化に効果的に適応できるディープワールドモデルを構築することができる。 従来のDyna手法の深部バージョンや,PlaNetやDreamerV2といった最近の手法に,我々のリプレイバッファ変動を適用して,深部モデルに基づく手法が環境の局所的な変化に効果的に適応できることを実証した。

One of the key behavioral characteristics used in neuroscience to determine whether the subject of study -- be it a rodent or a human -- exhibits model-based learning is effective adaptation to local changes in the environment. In reinforcement learning, however, recent work has shown that modern deep model-based reinforcement-learning (MBRL) methods adapt poorly to such changes. An explanation for this mismatch is that MBRL methods are typically designed with sample-efficiency on a single task in mind and the requirements for effective adaptation are substantially higher, both in terms of the learned world model and the planning routine. One particularly challenging requirement is that the learned world model has to be sufficiently accurate throughout relevant parts of the state-space. This is challenging for deep-learning-based world models due to catastrophic forgetting. And while a replay buffer can mitigate the effects of catastrophic forgetting, the traditional first-in-first-out replay buffer precludes effective adaptation due to maintaining stale data. In this work, we show that a conceptually simple variation of this traditional replay buffer is able to overcome this limitation. By removing only samples from the buffer from the local neighbourhood of the newly observed samples, deep world models can be built that maintain their accuracy across the state-space, while also being able to effectively adapt to changes in the reward function. We demonstrate this by applying our replay-buffer variation to a deep version of the classical Dyna method, as well as to recent methods such as PlaNet and DreamerV2, demonstrating that deep model-based methods can adapt effectively as well to local changes in the environment.
翻訳日:2023-03-16 13:25:19 公開日:2023-03-15
# Panoptic One-Click Segmentation: 農業データへの適用

Panoptic One-Click Segmentation: Applied to Agricultural Data ( http://arxiv.org/abs/2303.08689v1 )

ライセンス: Link先を確認
Patrick Zimmer, Michael Halstead, Chris McCool(参考訳) 雑草管理において、精密農業は除草剤の使用を大幅に減らし、経済的および生態学的利益をもたらす。 重要な要素は、イメージデータからすべての植物を発見および分割する能力である。 現代のインスタンスセグメンテーション技術ではこれを実現することができるが、そのようなシステムの訓練には大量のハンドラベリングデータが必要である。 弱い教師の訓練はラベル付けの労力とコストを大幅に削減するのに役立ちます。 クリック入力から擬似ラベルを生成するための,効率的かつ正確なオフラインツールであるパン光学ワンクリックセグメンテーションを提案する。 本手法は,すべてのNオブジェクトを独立に反復する従来の手法と比較して,シーン内のNオブジェクトの画素単位の位置を共同で推定する。 パン光学的ワンクリックセグメンテーションの手法をトレーニングするために、データの10%しか使わずに68.1%と68.8%は、砂糖ビートとトウモロコシの画像データに対する結合(IoU)上のオブジェクトの交差を平均し、訓練の約12倍の速度で従来のワンクリック手法に匹敵するパフォーマンスを提供する。 残りの90%のデータのクリックから擬似ラベルを生成することで,本システムの適用性を示す。 これらの擬似ラベルは、半教師付きでMask R-CNNを訓練するために使用され、それぞれサトウキビとトウモロコシのデータに対して9.4ポイントと7.9ポイントの絶対性能(平均前景IoU)を向上させる。 最後に,従来のアプローチよりもメリットを概説するアノテーションでは,クリックの欠落を回収できることを示す。

In weed control, precision agriculture can help to greatly reduce the use of herbicides, resulting in both economical and ecological benefits. A key element is the ability to locate and segment all the plants from image data. Modern instance segmentation techniques can achieve this, however, training such systems requires large amounts of hand-labelled data which is expensive and laborious to obtain. Weakly supervised training can help to greatly reduce labelling efforts and costs. We propose panoptic one-click segmentation, an efficient and accurate offline tool to produce pseudo-labels from click inputs which reduces labelling effort. Our approach jointly estimates the pixel-wise location of all N objects in the scene, compared to traditional approaches which iterate independently through all N objects; this greatly reduces training time. Using just 10% of the data to train our panoptic one-click segmentation approach yields 68.1% and 68.8% mean object intersection over union (IoU) on challenging sugar beet and corn image data respectively, providing comparable performance to traditional one-click approaches while being approximately 12 times faster to train. We demonstrate the applicability of our system by generating pseudo-labels from clicks on the remaining 90% of the data. These pseudo-labels are then used to train Mask R-CNN, in a semi-supervised manner, improving the absolute performance (of mean foreground IoU) by 9.4 and 7.9 points for sugar beet and corn data respectively. Finally, we show that our technique can recover missed clicks during annotation outlining a further benefit over traditional approaches.
翻訳日:2023-03-16 13:24:48 公開日:2023-03-15
# 多視点投影と方向整合性を用いた弱教師付き単眼3次元物体検出

Weakly Supervised Monocular 3D Object Detection using Multi-View Projection and Direction Consistency ( http://arxiv.org/abs/2303.08686v1 )

ライセンス: Link先を確認
Runzhou Tao, Wencheng Han, Zhongying Qiu, Cheng-zhong Xu and Jianbing Shen(参考訳) モノキュラーな3dオブジェクト検出は、その簡単な応用のために自動運転の主流となっている。 顕著な利点は、推論中にLiDARポイントクラウドを必要としないことである。 しかし、現在のほとんどの方法は、トレーニングフェーズで使用される基底真理のラベル付けに3dポイントクラウドデータに依存している。 このトレーニングと推論の不整合により、大規模なフィードバックデータの利用が難しくなり、データ収集費用が増加する。 このギャップを埋めるために,画像に2dラベルのみを付けてモデルを訓練できる,新しい弱教師付き単眼3次元異物検出法を提案する。 具体的には、このタスクにおける3種類の一貫性、すなわち投影、多視点および方向の一貫性を探求し、これらの構成に基づいて弱い教師付きアーキテクチャを設計する。 さらに,本課題では,正確な回転方向予測のためのモデルガイドとして,新しい2次元方向ラベル法を提案する。 実験により, 弱教師付き手法は, 完全教師付き手法と同等の性能が得られることを示した。 事前学習法として使用する場合,本モデルは1/33次元ラベルで対応する完全教師付きベースラインを大幅に上回ることができる。 https://github.com/weakmono3d/weakmono3d

Monocular 3D object detection has become a mainstream approach in automatic driving for its easy application. A prominent advantage is that it does not need LiDAR point clouds during the inference. However, most current methods still rely on 3D point cloud data for labeling the ground truths used in the training phase. This inconsistency between the training and inference makes it hard to utilize the large-scale feedback data and increases the data collection expenses. To bridge this gap, we propose a new weakly supervised monocular 3D objection detection method, which can train the model with only 2D labels marked on images. To be specific, we explore three types of consistency in this task, i.e. the projection, multi-view and direction consistency, and design a weakly-supervised architecture based on these consistencies. Moreover, we propose a new 2D direction labeling method in this task to guide the model for accurate rotation direction prediction. Experiments show that our weakly-supervised method achieves comparable performance with some fully supervised methods. When used as a pre-training method, our model can significantly outperform the corresponding fully-supervised baseline with only 1/3 3D labels. https://github.com/weakmono3d/weakmono3d
翻訳日:2023-03-16 13:24:13 公開日:2023-03-15
# トークンスカラー化による視覚変換器の効率化

Making Vision Transformers Efficient from A Token Sparsification View ( http://arxiv.org/abs/2303.08685v1 )

ライセンス: Link先を確認
Shuning Chang, Pichao Wang, Ming Lin, Fan Wang, David Junhao Zhang, Rong Jin, Mike Zheng Shou(参考訳) トークン数に対する二次計算の複雑さは、視覚変換器(ViT)の実用的応用を制限する。 いくつかの研究は、効率的なViTを実現するために冗長トークンをプルークすることを提案する。 しかし これらの手法は一般に (i)劇的な精度低下。 (ii)局所視覚変換器の応用難しさ、及び (iii)ダウンストリームタスクのための非汎用ネットワーク。 本研究では,効率的なグローバル・ローカル・ビジョン・トランスフォーマーのための新しいセマンティック・トークンViT (STViT) を提案する。 セマンティックトークンはクラスタセンターを表し、画像トークンを空間にプールすることで初期化され、グローバルまたはローカルなセマンティック情報を適応的に表現することができる。 クラスタ特性のため、グローバルビジョントランスフォーマーとローカルビジョントランスフォーマーの両方において、いくつかのセマンティックトークンは広大なイメージトークンと同じ効果を実現できる。 例えば、DeiT-(Tiny,Small,Base)上の16のセマンティックトークンは、100%以上の推論速度の改善と60%近いFLOPの削減で同じ精度を達成することができる。 画像分類における大きな成功に加え、我々はこの手法をビデオ認識にも拡張する。 さらに,STViTに基づく詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,従来のトークンスカラー化手法では無力な下流タスクに対して機能する。 実験により,本手法は対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できることがわかった。

The quadratic computational complexity to the number of tokens limits the practical applications of Vision Transformers (ViTs). Several works propose to prune redundant tokens to achieve efficient ViTs. However, these methods generally suffer from (i) dramatic accuracy drops, (ii) application difficulty in the local vision transformer, and (iii) non-general-purpose networks for downstream tasks. In this work, we propose a novel Semantic Token ViT (STViT), for efficient global and local vision transformers, which can also be revised to serve as backbone for downstream tasks. The semantic tokens represent cluster centers, and they are initialized by pooling image tokens in space and recovered by attention, which can adaptively represent global or local semantic information. Due to the cluster properties, a few semantic tokens can attain the same effect as vast image tokens, for both global and local vision transformers. For instance, only 16 semantic tokens on DeiT-(Tiny,Small,Base) can achieve the same accuracy with more than 100% inference speed improvement and nearly 60% FLOPs reduction; on Swin-(Tiny,Small,Base), we can employ 16 semantic tokens in each window to further speed it up by around 20% with slight accuracy increase. Besides great success in image classification, we also extend our method to video recognition. In addition, we design a STViT-R(ecover) network to restore the detailed spatial information based on the STViT, making it work for downstream tasks, which is powerless for previous token sparsification methods. Experiments demonstrate that our method can achieve competitive results compared to the original networks in object detection and instance segmentation, with over 30% FLOPs reduction for backbone.
翻訳日:2023-03-16 13:23:54 公開日:2023-03-15
# RSFNet:地域別カラーフィルタを用いたホワイトボックス画像修正手法

RSFNet: A White-Box Image Retouching Approach using Region-Specific Color Filters ( http://arxiv.org/abs/2303.08682v1 )

ライセンス: Link先を確認
Wenqi Ouyang, Yi Dong, Peiran Ren, Xiaoyang Kang, Xin Xu, Xuansong Xie(参考訳) 画像のリタッチは、写真の視覚的魅力を高める重要な側面である。 ユーザーは共通の審美的嗜好を共有することが多いが、個々の嗜好に応じて修正方法が異なる場合がある。 したがって、満足度の高い結果を生成し、ユーザが都合よく画像を編集できるホワイトボックスアプローチが必要である。 最近のホワイトボックスリタッチは、画像レベルのフィルタ引数を提供するがきめ細かいリタッチはできないカスケードグローバルフィルタに依存している。 対照的に、カラー主義者は通常、分割・コンカレントアプローチを使用し、Davinci Resolveのような伝統的なツールを使用する際に、地域固有のきめ細かい拡張を実行する。 我々はこの知見をもとに,並列領域特異的フィルタを用いた写真リタッチのためのホワイトボックスフレームワークrsfnetを開発した。 我々のモデルはフィルタの引数(飽和、コントラスト、色調)と各フィルタの領域の注意マップを同時に生成する。 フィルタをカスケードする代わりに、RCFNetはフィルタの線形和を使い、より多様なフィルタークラスを訓練しやすくする。 この実験により,RCFNetは審美的魅力とユーザ利便性を向上し,編集可能なホワイトボックスリタッチを実現することができた。

Retouching images is an essential aspect of enhancing the visual appeal of photos. Although users often share common aesthetic preferences, their retouching methods may vary based on their individual preferences. Therefore, there is a need for white-box approaches that produce satisfying results and enable users to conveniently edit their images simultaneously. Recent white-box retouching methods rely on cascaded global filters that provide image-level filter arguments but cannot perform fine-grained retouching. In contrast, colorists typically use a divide-and-conquer approach, performing a series of region-specific fine-grained enhancements when using traditional tools like Davinci Resolve. We draw on this insight to develop a white-box framework for photo retouching using parallel region-specific filters, called RSFNet. Our model generates filter arguments (e.g., saturation, contrast, hue) and attention maps of regions for each filter simultaneously. Instead of cascading filters, RSFNet employs linear summations of filters, allowing for a more diverse range of filter classes that can be trained more easily. Our experiments demonstrate that RSFNet achieves state-of-the-art results, offering satisfying aesthetic appeal and greater user convenience for editable white-box retouching.
翻訳日:2023-03-16 13:23:25 公開日:2023-03-15
# ビジュアルプロンプトに基づく個人化フェデレーション学習

Visual Prompt Based Personalized Federated Learning ( http://arxiv.org/abs/2303.08678v1 )

ライセンス: Link先を確認
Guanghao Li, Wansen Wu, Yan Sun, Li Shen, Baoyuan Wu, Dacheng Tao(参考訳) 分散学習の一般的なパラダイムとして、パーソナライズド・フェデレーション・ラーニング(PFL)では、パーソナライズされたモデルが、すべての分散クライアントからの知識を利用することで、一般化能力と堅牢性を向上させることができる。 既存のpflアルゴリズムの多くは、パーソナライズされたレイヤ分割、モデル正規化、モデルの補間など、モデル中心の方法でパーソナライズに取り組む。 本稿では、画像分類タスクのための新しいpflフレームワークpfedptを提案する。これは、パーソナライズされた視覚的プロンプトを利用して、クライアントのローカルデータ分布情報を暗黙的に表現し、その情報をアグリゲーションモデルに提供し、分類タスクを支援する。 具体的には、pfedptトレーニングの各ラウンドにおいて、各クライアントはローカルデータ分散に関連するローカルパーソナライズされたプロンプトを生成する。 そして、生データと視覚的プロンプトからなる入力に基づいて局所モデルを訓練し、そのプロンプトに含まれる分布情報を学習する。 モデルテスト中、集約されたモデルは、プロンプトに基づいてデータ分布の事前知識を取得し、アグリゲーションモデルの適応的な微調整として、異なるクライアントでのモデル性能を改善することができる。 さらに、視覚プロンプトは、既存のflメソッドのクライアントにパーソナライズを実装し、パフォーマンスを向上させるための直交メソッドとして追加することができる。 CIFAR10とCIFAR100データセットの実験では、pFedPTは様々な設定でいくつかの最先端(SOTA)PFLアルゴリズムより優れていた。

As a popular paradigm of distributed learning, personalized federated learning (PFL) allows personalized models to improve generalization ability and robustness by utilizing knowledge from all distributed clients. Most existing PFL algorithms tackle personalization in a model-centric way, such as personalized layer partition, model regularization, and model interpolation, which all fail to take into account the data characteristics of distributed clients. In this paper, we propose a novel PFL framework for image classification tasks, dubbed pFedPT, that leverages personalized visual prompts to implicitly represent local data distribution information of clients and provides that information to the aggregation model to help with classification tasks. Specifically, in each round of pFedPT training, each client generates a local personalized prompt related to local data distribution. Then, the local model is trained on the input composed of raw data and a visual prompt to learn the distribution information contained in the prompt. During model testing, the aggregated model obtains prior knowledge of the data distributions based on the prompts, which can be seen as an adaptive fine-tuning of the aggregation model to improve model performances on different clients. Furthermore, the visual prompt can be added as an orthogonal method to implement personalization on the client for existing FL methods to boost their performance. Experiments on the CIFAR10 and CIFAR100 datasets show that pFedPT outperforms several state-of-the-art (SOTA) PFL algorithms by a large margin in various settings.
翻訳日:2023-03-16 13:23:04 公開日:2023-03-15
# 低分解能顔認識のためのアイデンティティ保存知識蒸留

Identity-Preserving Knowledge Distillation for Low-resolution Face Recognition ( http://arxiv.org/abs/2303.08665v1 )

ライセンス: Link先を確認
Yuhang Lu, Touradj Ebrahimi(参考訳) 低分解能顔認識(LRFR)は,現代の深層顔認識システムにおいて難しい問題となっている。 既存の手法は主に高解像度(hr)画像からの事前情報を活用し、顔の詳細を超高解像度技術で再構成するか、統一された特徴空間を学習する。 本稿では,低解像度(lr)画像の低周波成分に格納された識別情報にネットワークを集中させる新しい手法を提案する。 クロスレゾリューション知識蒸留パラダイムを学習フレームワークとして最初に採用する。 アイデンティティ保存ネットワーク、WaveResNet、ウェーブレット類似性損失は、低周波の詳細をキャプチャして性能を高めるように設計されている。 最後に、よりリアルなLRトレーニングデータをシミュレートするために、画像劣化モデルを考案する。 その結果,提案手法は様々な画像解像度において,ベースラインモデルや他の最先端手法よりも一貫して優れていた。

Low-resolution face recognition (LRFR) has become a challenging problem for modern deep face recognition systems. Existing methods mainly leverage prior information from high-resolution (HR) images by either reconstructing facial details with super-resolution techniques or learning a unified feature space. To address this issue, this paper proposes a novel approach which enforces the network to focus on the discriminative information stored in the low-frequency components of a low-resolution (LR) image. A cross-resolution knowledge distillation paradigm is first employed as the learning framework. An identity-preserving network, WaveResNet, and a wavelet similarity loss are then designed to capture low-frequency details and boost performance. Finally, an image degradation model is conceived to simulate more realistic LR training data. Consequently, extensive experimental results show that the proposed method consistently outperforms the baseline model and other state-of-the-art methods across a variety of image resolutions.
翻訳日:2023-03-16 13:22:38 公開日:2023-03-15
# 運動セマンティクスと幾何の残留知覚を伴う皮膚運動再ターゲティング

Skinned Motion Retargeting with Residual Perception of Motion Semantics & Geometry ( http://arxiv.org/abs/2303.08658v1 )

ライセンス: Link先を確認
Jiaxu Zhang, Junwu Weng, Di Kang, Fang Zhao, Shaoli Huang, Xuefei Zhe, Linchao Bao, Ying Shan, Jue Wang and Zhigang Tu(参考訳) 良好な運動再ターゲティングは、骨格と形状の幾何レベルの両方のソース・ターゲットの違いを合理的に考慮せずには到達できない。 本研究では、2つのニューラル修飾モジュールに依存する新しいResidual RETargeting Network (R2ET) 構造を提案し、ターゲットの骨格と形状に徐々に適合するようにソースの動きを調整する。 特に、ソースモーションセマンティクスを保存するためにスケルトン対応モジュールが導入されている。 形状認識モジュールは、ターゲット文字のジオメトリを知覚し、相互接続と接触の欠如を減らすように設計されている。 動きのセマンティクスと幾何を明示的にモデル化した距離に基づく損失により、これらの2つのモジュールは、原運動の残留運動変化を学習し、後処理なしで単一の推論で可塑性再ターゲット運動を生成することができる。 これら2つの修正のバランスをとるために、さらに、それらの間の線形補間を行うためのバランスゲートを提示する。 公開データセットMixamoでの大規模な実験により、我々のR2ETは最先端のパフォーマンスを達成し、動きのセマンティクスの保存と相互接続の減衰のバランスが良好であることを実証した。 コードはhttps://github.com/kebii/r2etで入手できる。

A good motion retargeting cannot be reached without reasonable consideration of source-target differences on both the skeleton and shape geometry levels. In this work, we propose a novel Residual RETargeting network (R2ET) structure, which relies on two neural modification modules, to adjust the source motions to fit the target skeletons and shapes progressively. In particular, a skeleton-aware module is introduced to preserve the source motion semantics. A shape-aware module is designed to perceive the geometries of target characters to reduce interpenetration and contact-missing. Driven by our explored distance-based losses that explicitly model the motion semantics and geometry, these two modules can learn residual motion modifications on the source motion to generate plausible retargeted motion in a single inference without post-processing. To balance these two modifications, we further present a balancing gate to conduct linear interpolation between them. Extensive experiments on the public dataset Mixamo demonstrate that our R2ET achieves the state-of-the-art performance, and provides a good balance between the preservation of motion semantics as well as the attenuation of interpenetration and contact-missing. Code is available at https://github.com/Kebii/R2ET.
翻訳日:2023-03-16 13:22:24 公開日:2023-03-15
# 2次元カメラを用いた人体骨格電位からの経済的四元数抽出

Economical Quaternion Extraction from a Human Skeletal Pose Estimate using 2-D Cameras ( http://arxiv.org/abs/2303.08657v1 )

ライセンス: Link先を確認
Sriram Radhakrishna, Adithya Balasubramanyam(参考訳) 本稿では, 2次元カメラフレームから四元数を抽出し, 人体の骨格ポーズを推定する新しいアルゴリズムを提案する。 ポーズ推定の問題は、通常3次元空間における点測定のための深度とユークリッド距離を得るために、ステレオカメラと慣性測定ユニットの使用によって取り組まれる。 しかし、これらのデバイスの使用には、高い信号処理遅延とかなりの金銭的コストが伴う。 人間のポーズ推定のための知覚パイプラインを構築するためのフレームワークであるmediapipeを使用することで、提案アルゴリズムは、人間の物体の画像を5ミリ秒未満のレイテンシでキャプチャする2次元フレームから四元数を抽出すると同時に、単一のカメラフレームと一般的に計算資源の可用性が低いエッジに配置することができる。 このアルゴリズムは、資金の障壁を回避し、制御システムを設計するロボット研究者のアクセシビリティを向上させる。

In this paper, we present a novel algorithm to extract a quaternion from a two dimensional camera frame for estimating a contained human skeletal pose. The problem of pose estimation is usually tackled through the usage of stereo cameras and intertial measurement units for obtaining depth and euclidean distance for measurement of points in 3D space. However, the usage of these devices comes with a high signal processing latency as well as a significant monetary cost. By making use of MediaPipe, a framework for building perception pipelines for human pose estimation, the proposed algorithm extracts a quaternion from a 2-D frame capturing an image of a human object at a sub-fifty millisecond latency while also being capable of deployment at edges with a single camera frame and a generally low computational resource availability, especially for use cases involving last-minute detection and reaction by autonomous robots. The algorithm seeks to bypass the funding barrier and improve accessibility for robotics researchers involved in designing control systems.
翻訳日:2023-03-16 13:22:00 公開日:2023-03-15
# ニューラルネットワークによる教師なし領域適応のための一般化保証の実際

Practicality of generalization guarantees for unsupervised domain adaptation with neural networks ( http://arxiv.org/abs/2303.08720v1 )

ライセンス: Link先を確認
Adam Breitholtz and Fredrik D. Johansson(参考訳) 一般化を理解することは、特にデプロイメントがデータドメインのシフトを意味する場合、マシンラーニングモデルを確実に設計し、デプロイする上で重要である。 このような領域適応問題に対して、計算可能かつ厳密な一般化境界を求める。 これらのデシデラタに到達できれば、バウンダリはデプロイメントにおける適切なパフォーマンスの保証となる。 しかしながら、ディープニューラルネットワークが選択のモデルであるアプリケーションでは、これらを満たす結果の導出は未解決の課題のままである。 本研究では,深層ニューラルネットワークが好まれる領域適応画像分類タスクにおいて,デシラタを満たす可能性のある文献から既存の境界を評価する。 すべての境界は空で、特にこれらの項が領域シフトの測度と相互作用する場合、サンプル一般化項は観測されたゆるさの大部分を占める。 これを克服し、最も厳しい結果に到達するために、各境界と最近のデータ依存型PAC-Bayes分析を組み合わせ、保証を大幅に改善する。 ドメインオーバーラップを仮定すると、以前の作業の重み付け拡張が最も厳密な推定可能な境界を提供する。 最後に,どの用語が境界を支配するかを調べ,さらなる改善の可能な方向を特定する。

Understanding generalization is crucial to confidently engineer and deploy machine learning models, especially when deployment implies a shift in the data domain. For such domain adaptation problems, we seek generalization bounds which are tractably computable and tight. If these desiderata can be reached, the bounds can serve as guarantees for adequate performance in deployment. However, in applications where deep neural networks are the models of choice, deriving results which fulfill these remains an unresolved challenge; most existing bounds are either vacuous or has non-estimable terms, even in favorable conditions. In this work, we evaluate existing bounds from the literature with potential to satisfy our desiderata on domain adaptation image classification tasks, where deep neural networks are preferred. We find that all bounds are vacuous and that sample generalization terms account for much of the observed looseness, especially when these terms interact with measures of domain shift. To overcome this and arrive at the tightest possible results, we combine each bound with recent data-dependent PAC-Bayes analysis, greatly improving the guarantees. We find that, when domain overlap can be assumed, a simple importance weighting extension of previous work provides the tightest estimable bound. Finally, we study which terms dominate the bounds and identify possible directions for further improvement.
翻訳日:2023-03-16 13:14:56 公開日:2023-03-15
# Re-ReND:デバイス間のNeRFのリアルタイムレンダリング

Re-ReND: Real-time Rendering of NeRFs across Devices ( http://arxiv.org/abs/2303.08717v1 )

ライセンス: Link先を確認
Sara Rojas, Jesus Zarzar, Juan Camilo Perez, Artsiom Sanakoyeu, Ali Thabet, Albert Pumarola, and Bernard Ghanem(参考訳) 本稿では,リソース制約のあるデバイス上で,予め訓練したニューラルレージアンスフィールド(NeRF)をリアルタイムにレンダリングするための新しい手法を提案する。 本稿では,デバイス間のNeRFのリアルタイムレンダリングを可能にするRe-ReNDを提案する。 Re-ReNDは、NeRFを標準グラフィックスパイプラインで効率的に処理できる表現に変換することで、リアルタイムのパフォーマンスを実現するように設計されている。 提案手法は,学習した密度をメッシュに抽出してNeRFを蒸留し,学習した色情報をシーンの光場を表す行列に分解する。 因子化は、フィールドが安価なMLPのない行列乗法によってクエリされることを意味し、一方、光フィールドを使うことで、照度場を使用する場合、数百のクエリに対して、フィールドを単一の時間でクエリすることでピクセルをレンダリングすることができる。 提案した表現はフラグメントシェーダを使って実装できるため、標準的なラスタライズフレームワークと直接統合することができる。 当社のフレキシブルな実装は、NeRFを低メモリでリアルタイムにレンダリングすることができ、モバイルやAR/VRヘッドセットなど、幅広いリソース制約のあるデバイス上で使用することができます。 特筆すべきは、re-rendは品質の低下を知覚することなく、レンダリング速度を2.6倍以上向上できることだ。

This paper proposes a novel approach for rendering a pre-trained Neural Radiance Field (NeRF) in real-time on resource-constrained devices. We introduce Re-ReND, a method enabling Real-time Rendering of NeRFs across Devices. Re-ReND is designed to achieve real-time performance by converting the NeRF into a representation that can be efficiently processed by standard graphics pipelines. The proposed method distills the NeRF by extracting the learned density into a mesh, while the learned color information is factorized into a set of matrices that represent the scene's light field. Factorization implies the field is queried via inexpensive MLP-free matrix multiplications, while using a light field allows rendering a pixel by querying the field a single time-as opposed to hundreds of queries when employing a radiance field. Since the proposed representation can be implemented using a fragment shader, it can be directly integrated with standard rasterization frameworks. Our flexible implementation can render a NeRF in real-time with low memory requirements and on a wide range of resource-constrained devices, including mobiles and AR/VR headsets. Notably, we find that Re-ReND can achieve over a 2.6-fold increase in rendering speed versus the state-of-the-art without perceptible losses in quality.
翻訳日:2023-03-16 13:14:17 公開日:2023-03-15
# ResDiff:超解像のためのCNNと拡散モデルの組み合わせ

ResDiff: Combining CNN and Diffusion Model for Image Super-Resolution ( http://arxiv.org/abs/2303.08714v1 )

ライセンス: Link先を確認
Shuyao Shang, Zhengyang Shan, Guangxing Liu, Jinglin Zhang(参考訳) 単純な畳み込みニューラルネットワーク(cnn)が主低周波コンテンツを復元できるため、拡散確率モデル(dpm)を直接画像の超解像に適応することは無駄である。 そこで,Single Image Super-Resolution (SISR)のための残像構造に基づく拡散確率モデルResDiffを提案する。 ResDiffは、一次低周波成分を復元するCNNと、地上構造画像とCNN予測画像の間の残差を予測するDPMを組み合わせる。 MR画像を直接HR空間へ誘導する拡散法とは対照的に、ResDiffはCNNの初期予測を利用して、HR空間とCNN予測空間の間の残留空間に向けてノイズを誘導し、生成プロセスを加速するだけでなく、優れたサンプル品質を得る。 また, 周波数領域に基づくcnnの損失関数を導入し, 復元を容易にするとともに, 周波数領域誘導拡散をdpm向けに設計した。 複数のベンチマークデータセットに関する広範な実験により、ResDiffはモデル収束時間、より優れた生成品質、より多様なサンプルの観点から、従来の拡散ベースの手法よりも優れていることが示された。

Adapting the Diffusion Probabilistic Model (DPM) for direct image super-resolution is wasteful, given that a simple Convolutional Neural Network (CNN) can recover the main low-frequency content. Therefore, we present ResDiff, a novel Diffusion Probabilistic Model based on Residual structure for Single Image Super-Resolution (SISR). ResDiff utilizes a combination of a CNN, which restores primary low-frequency components, and a DPM, which predicts the residual between the ground-truth image and the CNN-predicted image. In contrast to the common diffusion-based methods that directly use LR images to guide the noise towards HR space, ResDiff utilizes the CNN's initial prediction to direct the noise towards the residual space between HR space and CNN-predicted space, which not only accelerates the generation process but also acquires superior sample quality. Additionally, a frequency-domain-based loss function for CNN is introduced to facilitate its restoration, and a frequency-domain guided diffusion is designed for DPM on behalf of predicting high-frequency details. The extensive experiments on multiple benchmark datasets demonstrate that ResDiff outperforms previous diffusion-based methods in terms of shorter model convergence time, superior generation quality, and more diverse samples.
翻訳日:2023-03-16 13:13:49 公開日:2023-03-15
# Gated Swin Transformer によるマルチ露光HDR合成

Multi-Exposure HDR Composition by Gated Swin Transformer ( http://arxiv.org/abs/2303.08704v1 )

ライセンス: Link先を確認
Rui Zhou, Yan Niu(参考訳) 様々な露光で撮影された完全なアライメント画像のシーケンスを用いて、ダイナミックレンジの限られたセンサによるハイダイナミックレンジ(hdr)イメージングにアプローチする大きな可能性を示した。 しかし、シーンオブジェクトやカメラの大きな動きの存在下では、誤アライメントはほぼ避けられず、悪名高い「幽霊」のアーティファクトにつながる。 さらに、暗い領域のノイズや明るい領域の彩度などの要因も、局所像の詳細をHDR画像に満たさない可能性がある。 本稿では,Swin Transformerに基づく新しいマルチ露光融合モデルを提案する。 特に,特徴抽出層に統合された特徴選択ゲートを設計し,外乱検出とHDR画像合成のブロックを行う。 局所的な細部を適切に整列し,適切に露光した領域で再構築するために,自己認識機構を用いて露光空間ピラミッドの長距離文脈依存性を利用する。 様々なベンチマークデータセットで、広範囲な数値的および視覚的な評価が行われている。 実験により,本モデルでは,高効率化を図りながら,現在のマルチ露光HDR画像モデルと同等の精度が得られた。

Fusing a sequence of perfectly aligned images captured at various exposures, has shown great potential to approach High Dynamic Range (HDR) imaging by sensors with limited dynamic range. However, in the presence of large motion of scene objects or the camera, mis-alignment is almost inevitable and leads to the notorious ``ghost'' artifacts. Besides, factors such as the noise in the dark region or color saturation in the over-bright region may also fail to fill local image details to the HDR image. This paper provides a novel multi-exposure fusion model based on Swin Transformer. Particularly, we design feature selection gates, which are integrated with the feature extraction layers to detect outliers and block them from HDR image synthesis. To reconstruct the missing local details by well-aligned and properly-exposed regions, we exploit the long distance contextual dependency in the exposure-space pyramid by the self-attention mechanism. Extensive numerical and visual evaluation has been conducted on a variety of benchmark datasets. The experiments show that our model achieves the accuracy on par with current top performing multi-exposure HDR imaging models, while gaining higher efficiency.
翻訳日:2023-03-16 13:13:27 公開日:2023-03-15
# 異常な弱値はコヒーレンスを必要とする

Anomalous weak values require coherence ( http://arxiv.org/abs/2303.08700v1 )

ライセンス: Link先を確認
Rafael Wagner and Ernesto F. Galv\~ao(参考訳) 量子力学的弱値 $a_w=\left\langle {\phi}|a|\psi \right \rangle / \left\langle \phi | \psi \right\rangle$ of an observable $a$ および pre- and post-selected states $\vert \psi\rangle, \vert \phi \rangle$ に関連する測定可能な量である。 a$の固有値の範囲外にある異常な弱値の意味とメトロロジー利用について多くの議論がなされている。 異常な弱値には$\vert\psi \rangle と \vert \phi \rangle$ の両方のコヒーレンスが必要であることを示した。 また、異常$A_w$が一般化された文脈性の証人である条件も提示する。

The quantum mechanical weak value $A_w=\left\langle {\phi}|A|\psi \right \rangle / \left\langle \phi | \psi \right\rangle$ of an observable $A$ is a measurable quantity associated with an observable $A$ and pre- and post-selected states $\vert \psi\rangle, \vert \phi \rangle$. Much has been discussed about the meaning and metrological uses of anomalous weak values, lying outside of the range of eigenvalues of $A$. We show that anomalous weak values require that both $\vert\psi \rangle, \vert \phi \rangle$ display coherence in the eigenbasis of $A$. We also present conditions under which anomalous $A_w$ are witnesses of generalized contextuality.
翻訳日:2023-03-16 13:13:07 公開日:2023-03-15
# 線形ネットワークにおける隠れ非n-局所性

Hidden Non n-locality In Linear Networks ( http://arxiv.org/abs/2303.08699v1 )

ライセンス: Link先を確認
Kaushiki Mukherjee, Soma Mandal, Tapaswini Patro and Nirman Ganguly(参考訳) 本研究は, 独立情報源を持つ線形ネットワークにおける非局所性を隠蔽する研究である。 ベル非局所性の一般的なパラダイムでは、適切な局所フィルタリング操作の適用後にのみ非局所性を示す状態があり、古典的通信(SLOCC)を補助する特別な確率的局所的操作が存在する。 本研究では,非n-局所性を隠蔽する概念を導入する。 この概念はバイローカルネットワークを使って詳細に説明されている。 隠れた非二局所性と非三局所性の例を示し、そこでは、あるソースが混合二量子分離状態の分散であっても、非二局所性が観察されることに非常に興味深いことに気付く。 さらに、ブロッホ-ファノ分解(bloch-fano decomposition)の観点で、隠れた非双局所性を示すためには、2つの状態(ソースによって使用される)のうちの1つが非nullブロッホベクトルを持つ必要があると推測する。

We study here a hitherto unexplored line of research, namely an investigation which reveals hidden nonlocality in a linear network with independent sources. In the usual paradigm of Bell nonlocality, there are certain states which exhibit nonlocality only after the application of suitable local filtering operations, which in turn are some special stochastic local operations assisted with classical communication (SLOCC). In the present work, we introduce the notion of hidden non n-locality. The notion is detailed using a bilocal network. We provide instances of hidden non bilocality and non trilocality, where we notice quite intriguingly that non bilocality is observed even when one of the sources distributes a mixed two-qubit separable state. Furthermore a characterization of hidden non bilocality is also provided in terms of the Bloch-Fano decomposition, wherein we conjecture that to witness hidden non bilocality, one of the two states (used by the sources) must have non-null Bloch vectors
翻訳日:2023-03-16 13:12:43 公開日:2023-03-15
# トランスダクティブゼロショット学習のための双方向分布アライメント

Bi-directional Distribution Alignment for Transductive Zero-Shot Learning ( http://arxiv.org/abs/2303.08698v1 )

ライセンス: Link先を確認
Zhicai Wang, Yanbin Hao, Tingting Mu, Ouxiang Li, Shuo Wang, Xiangnan He(参考訳) ゼロショット学習(ZSL)がドメインシフトの問題に深刻な障害を負うことはよく知られている。 トランスダクティブZSL (TZSL) は、未確認クラスから未実装の例を使用することで、この問題を改善しようとしているが、それでも高いレベルの分散シフトがある。 本研究では,視覚空間と補助空間の配置アライメントの強化によりシフトを大幅に改善する新しいtzslモデル(bi-vaegan)を提案する。 モデル設計の重要な提案は,(1)双方向分布アライメント,(2)単純かつ効果的なl_2ノルム型特徴正規化アプローチ,(3)より洗練された非seenクラス事前推定手法である。 4つのデータセットを用いたベンチマーク評価において、Bi-VAEGANは、標準および一般化されたTZSL設定の両方の下で、芸術の新たな状態を達成する。 コードはhttps://github.com/Zhicaiwww/Bi-VAEGANで見つけることができる。

It is well-known that zero-shot learning (ZSL) can suffer severely from the problem of domain shift, where the true and learned data distributions for the unseen classes do not match. Although transductive ZSL (TZSL) attempts to improve this by allowing the use of unlabelled examples from the unseen classes, there is still a high level of distribution shift. We propose a novel TZSL model (named as Bi-VAEGAN), which largely improves the shift by a strengthened distribution alignment between the visual and auxiliary spaces. The key proposal of the model design includes (1) a bi-directional distribution alignment, (2) a simple but effective L_2-norm based feature normalization approach, and (3) a more sophisticated unseen class prior estimation approach. In benchmark evaluation using four datasets, Bi-VAEGAN achieves the new state of the arts under both the standard and generalized TZSL settings. Code could be found at https://github.com/Zhicaiwww/Bi-VAEGAN
翻訳日:2023-03-16 13:12:22 公開日:2023-03-15
# Mirror: データクエリ、要約、可視化のための自然言語インターフェース

Mirror: A Natural Language Interface for Data Querying, Summarization, and Visualization ( http://arxiv.org/abs/2303.08697v1 )

ライセンス: Link先を確認
Canwen Xu and Julian McAuley and Penghan Wang(参考訳) 大規模言語モデルを活用したデータ探索と分析のためのオープンソースプラットフォームであるmirrorを提案する。 Mirrorはデータベースをクエリするための直感的な自然言語インターフェースを提供し、実行可能SQLコマンドを自動的に生成して関連するデータを取得し、自然言語で要約する。 さらに、生成されたsqlコマンドのプレビューと手作業による編集も可能で、クエリの正確性が保証される。 mirrorはデータの理解を容易にするためにビジュアライゼーションも生成する。 柔軟性と人間の入力を念頭に置いて設計されたmirrorは、経験豊富なデータアナリストと、データから洞察を得ようとする非技術専門家の両方に適している。

We present Mirror, an open-source platform for data exploration and analysis powered by large language models. Mirror offers an intuitive natural language interface for querying databases, and automatically generates executable SQL commands to retrieve relevant data and summarize it in natural language. In addition, users can preview and manually edit the generated SQL commands to ensure the accuracy of their queries. Mirror also generates visualizations to facilitate understanding of the data. Designed with flexibility and human input in mind, Mirror is suitable for both experienced data analysts and non-technical professionals looking to gain insights from their data.
翻訳日:2023-03-16 13:12:05 公開日:2023-03-15
# RefiNeRF: カメラパラメータが不一致または欠落した動的ニューラル放射場をモデル化する

RefiNeRF: Modelling dynamic neural radiance fields with inconsistent or missing camera parameters ( http://arxiv.org/abs/2303.08695v1 )

ライセンス: Link先を確認
Shuja Khalid, Frank Rudzicz(参考訳) 新規なビュー合成(nvs)は、限られた入力画像からシーンの新しいビューを合成することを含むコンピュータビジョンにおける挑戦的なタスクである。 neural radiance fields (nerf) はこの問題に対処するための強力なアプローチとして登場したが、それらは camera \textit{intrinsic} と \textit{extrinsic} パラメータの正確な知識を必要とする。 伝統的に、カメラパラメータを抽出するためにStructure-from-motion (SfM) とMulti-view stereo (MVS) アプローチが用いられてきたが、これらの手法は信頼性が低く、場合によっては失敗する可能性がある。 本稿では,NVIDIA動的シーンデータセットなどの動的データセットからの非ポーズ画像を利用して,データから直接カメラパラメータを学習する手法を提案する。 我々のアプローチは非常に拡張性が高く、最小限の変更で既存のNeRFアーキテクチャに統合できる。 静的および動的シーンにおける本手法の有効性を実証し,従来のSfMおよびMVS手法よりも優れていることを示す。 このメソッドのコードは \href{https://github.com/redacted/refinerf}{https://github.com/redacted/refinerf} で公開されている。 提案手法は,nvsの精度とロバスト性を向上させるための新しい方向性を提供し,コンピュータビジョンやグラフィックスの幅広い応用に有用なツールになることを期待している。

Novel view synthesis (NVS) is a challenging task in computer vision that involves synthesizing new views of a scene from a limited set of input images. Neural Radiance Fields (NeRF) have emerged as a powerful approach to address this problem, but they require accurate knowledge of camera \textit{intrinsic} and \textit{extrinsic} parameters. Traditionally, structure-from-motion (SfM) and multi-view stereo (MVS) approaches have been used to extract camera parameters, but these methods can be unreliable and may fail in certain cases. In this paper, we propose a novel technique that leverages unposed images from dynamic datasets, such as the NVIDIA dynamic scenes dataset, to learn camera parameters directly from data. Our approach is highly extensible and can be integrated into existing NeRF architectures with minimal modifications. We demonstrate the effectiveness of our method on a variety of static and dynamic scenes and show that it outperforms traditional SfM and MVS approaches. The code for our method is publicly available at \href{https://github.com/redacted/refinerf}{https://github.com/redacted/refinerf}. Our approach offers a promising new direction for improving the accuracy and robustness of NVS using NeRF, and we anticipate that it will be a valuable tool for a wide range of applications in computer vision and graphics.
翻訳日:2023-03-16 13:11:54 公開日:2023-03-15
# SpiderMesh: RGB-Tセマンティックセグメンテーションのための空間対応需要誘導型再帰型メッシュ

SpiderMesh: Spatial-aware Demand-guided Recursive Meshing for RGB-T Semantic Segmentation ( http://arxiv.org/abs/2303.08692v1 )

ライセンス: Link先を確認
Siqi Fan, Zhe Wang, Yan Wang, Jingjing Liu(参考訳) 都市景観理解におけるセマンティックセグメンテーションでは、RGBカメラだけでは、特に困難な照明条件において、明確な全体的トポロジを捉えることができないことが多い。 サーマル信号は、低画質のRGB画像において、ぼやけた領域の輪郭ときめ細かなテクスチャを照らすための情報付加チャネルである。 RGB-Tセグメンテーション(熱)セグメンテーションを念頭に置いて、既存の手法では単純なパッシブチャネル/空間的な融合を相互相互作用に用いたり、曖昧な境界線を重ラベル付けしてきたりする。 空間対応需要誘導型再帰型メッシュ(SpiderMesh)フレームワークを提案する。 1) 需要誘導対象マスキングアルゴリズムにより,光学的障害領域における不適切な文脈意味を積極的に補償する。 2)マルチモーダルなセマンティクス機能を再帰的メッシュで洗練し,ピクセルレベルのセマンティクス解析性能を向上させる。 さらに,非対称データ拡張手法であるm-cutoutを導入することで,半教師付き学習でrgb-tラベルを十分に活用できる。 MFNetとPST900データセットに関する大規模な実験は、SpiderMeshが標準RGB-Tセグメンテーションベンチマークで新しい最先端のパフォーマンスを達成することを示した。

For semantic segmentation in urban scene understanding, RGB cameras alone often fail to capture a clear holistic topology, especially in challenging lighting conditions. Thermal signal is an informative additional channel that can bring to light the contour and fine-grained texture of blurred regions in low-quality RGB image. Aiming at RGB-T (thermal) segmentation, existing methods either use simple passive channel/spatial-wise fusion for cross-modal interaction, or rely on heavy labeling of ambiguous boundaries for fine-grained supervision. We propose a Spatial-aware Demand-guided Recursive Meshing (SpiderMesh) framework that: 1) proactively compensates inadequate contextual semantics in optically-impaired regions via a demand-guided target masking algorithm; 2) refines multimodal semantic features with recursive meshing to improve pixel-level semantic analysis performance. We further introduce an asymmetric data augmentation technique M-CutOut, and enable semi-supervised learning to fully utilize RGB-T labels only sparsely available in practical use. Extensive experiments on MFNet and PST900 datasets demonstrate that SpiderMesh achieves new state-of-the-art performance on standard RGB-T segmentation benchmarks.
翻訳日:2023-03-16 13:11:28 公開日:2023-03-15
# オートエンコーダを用いた植物プランクトン寄生虫検出に向けて

Towards Phytoplankton Parasite Detection Using Autoencoders ( http://arxiv.org/abs/2303.08744v1 )

ライセンス: Link先を確認
Simon Bilik, Daniel Baktrakhanov, Tuomas Eerola, Lumi Haraguchi, Kaisa Kraft, Silke Van den Wyngaert, Jonna Kangas, Conny Sj\"oqvist, Karin Madsen, Lasse Lensu, Heikki K\"alvi\"ainen, Karel Horak(参考訳) 植物プランクトン寄生虫は、主に未熟な微生物成分であり、植物プランクトン・ブルーム・ダイナミクスに潜在的に重要な生態的影響がある。 水生生態系のモニタリングにおいて,植物プランクトンと寄生虫の相互作用を統合する方法の改善が必要である。 自動撮像装置は通常大量の植物プランクトン画像データを生成するが、異常な植物プランクトンデータの発生は稀である。 そこで本研究では,オリジナルおよび自動エンコーダ再構成標本の類似性に基づく教師なし異常検出システムを提案する。 このアプローチにより,9種の植物プランクトン種において総F1スコア0.75に達することができ,種特異的な微調整によりさらに改善することができた。 提案手法はより高速なr-cnnベースの物体検出器と比較された。 この指導的アプローチとプランクトン種および異常を訓練したモデルにより、我々は最高F1スコア0.86に達することができた。 しかし、未知の異常も検出できるため、教師なしのアプローチはより普遍的であり、常に十分な量で利用できないような注釈付き異常データを必要としない。 他の研究では、非プランクトン粒子や気泡検出の観点からプランクトン異常検出を扱っているが、本論文は、植物プランクトン寄生虫や感染症を考慮に入れた自動異常検出に焦点を当てたものである。

Phytoplankton parasites are largely understudied microbial components with a potentially significant ecological impact on phytoplankton bloom dynamics. To better understand their impact, we need improved detection methods to integrate phytoplankton parasite interactions in monitoring aquatic ecosystems. Automated imaging devices usually produce high amount of phytoplankton image data, while the occurrence of anomalous phytoplankton data is rare. Thus, we propose an unsupervised anomaly detection system based on the similarity of the original and autoencoder-reconstructed samples. With this approach, we were able to reach an overall F1 score of 0.75 in nine phytoplankton species, which could be further improved by species-specific fine-tuning. The proposed unsupervised approach was further compared with the supervised Faster R-CNN based object detector. With this supervised approach and the model trained on plankton species and anomalies, we were able to reach the highest F1 score of 0.86. However, the unsupervised approach is expected to be more universal as it can detect also unknown anomalies and it does not require any annotated anomalous data that may not be always available in sufficient quantities. Although other studies have dealt with plankton anomaly detection in terms of non-plankton particles, or air bubble detection, our paper is according to our best knowledge the first one which focuses on automated anomaly detection considering putative phytoplankton parasites or infections.
翻訳日:2023-03-16 13:05:48 公開日:2023-03-15
# 3次元CTスキャンによるCOVID-19重症度予測のための2次元CNNと3次元CNNの融合法

2D and 3D CNN-Based Fusion Approach for COVID-19 Severity Prediction from 3D CT-Scans ( http://arxiv.org/abs/2303.08740v1 )

ライセンス: Link先を確認
Fares Bougourzi and Fadi Dornaika and Amir Nakib and Cosimo Distante and Abdelmalik Taleb-Ahmed(参考訳) 2019年後半にCovid-19が登場して以来、Covid-19は人工知能(AI)コミュニティの活発な研究トピックとなっている。 最も興味深いAIトピックの1つは、医療画像のCovid-19分析である。 CT-Scan Imagingは、この病気の最も有益なツールである。 この研究は、Covid-19 Severity Predictionの第3回COV19Dコンペティションの一部である。 このコンペの前のバージョンで示された検証結果とテスト結果の間の大きなギャップに対処するため、2dと3d cnnの予測を組み合わせることを提案した。 2D CNN アプローチでは,2B-InceptResnet アーキテクチャは肺分画とCTスキャンの全スライス感染の2つの経路から構成される。 それぞれのパスは、ImageNet上でトレーニング済みのConvLayerとInception-ResNetで構成されている。 3D CNN方式では,Stem,4つの3D-ResNet層,分類ヘッド層,決定層からなるハイブリッドDeCoVNetアーキテクチャを提案する。 提案手法は,Covid-19重症度予測のための第3回COV19Dコンペティションのバリデーションデータのベースラインアプローチを36%向上させた。

Since the appearance of Covid-19 in late 2019, Covid-19 has become an active research topic for the artificial intelligence (AI) community. One of the most interesting AI topics is Covid-19 analysis of medical imaging. CT-scan imaging is the most informative tool about this disease. This work is part of the 3nd COV19D competition for Covid-19 Severity Prediction. In order to deal with the big gap between the validation and test results that were shown in the previous version of this competition, we proposed to combine the prediction of 2D and 3D CNN predictions. For the 2D CNN approach, we propose 2B-InceptResnet architecture which consists of two paths for segmented lungs and infection of all slices of the input CT-scan, respectively. Each path consists of ConvLayer and Inception-ResNet pretrained model on ImageNet. For the 3D CNN approach, we propose hybrid-DeCoVNet architecture which consists of four blocks: Stem, four 3D-ResNet layers, Classification Head and Decision layer. Our proposed approaches outperformed the baseline approach in the validation data of the 3nd COV19D competition for Covid-19 Severity Prediction by 36%.
翻訳日:2023-03-16 13:05:23 公開日:2023-03-15
# 三角形ネットワークにおける非局所相関の検出

Detecting Nontrilocal Correlations In Triangle Networks ( http://arxiv.org/abs/2303.08739v1 )

ライセンス: Link先を確認
Kaushiki Mukherjee(参考訳) 量子ネットワークと独立したソースの相関は、そのような相関の非局所性が固定された局所的な入力シナリオで証明できるという意味で、全く新しい非古典性の形式を示す。 M.O.Renouらによる先駆的な研究以前、[1] ではそのようなネットワーク相関の非局所的特徴は標準ベル非局所性に直接帰結していた。 [1]において、著者らは、非局所性はベル-CHSH非局所性から導出できない三角形ネットワーク相関の最初の例をいくつか提示した。 今のところ、このようなシナリオの完全な特徴付けはまだ提供されていない。 本研究は、ソース独立仮定の下での三角形ネットワークにおける固定局所的測定によって生じる相関を特徴付ける。 正確に言うと、基準の集合はベル型不等式(英語版)の形でフレーム化され、それぞれが必ずしも三局所相関によって満たされる。 集合から少なくとも1つの基準の量子違反を解析し、量子三角形ネットワークにおける非局所性(非局所性)を検出するための一連の基準の有用性を指摘する。 興味深いことに、局所積状態基底の測定は、いくつかの量子ネットワークで非局所相関を生成するのに十分であることがわかった。 n が有限である任意の n-辺ポリゴンにおける相関を示すためのフレームワークの一般化とともに、検出基準の雑音耐性について論じる。

Correlations in quantum networks with independent sources exhibit a completely novel form of nonclassicality in the sense that the nonlocality of such correlations can be demonstrated in fixed local input scenarios. Before the pioneering work by M.O.Renou, et al., in [1], the nonlocal feature of such network correlations was directly attributable to standard Bell nonlocality. In [1], the authors provided some of the first examples of triangle network correlations, whose nonlocality cannot be deduced from Bell-CHSH nonlocality. To date, a complete characterization of such scenarios is yet to be provided. Present work characterizes correlations arising due to fixed local measurements in a triangle network under a source independence assumptions. Precisely speaking, a set of criteria is framed in the form of Bell-type inequalities, each of which is necessarily satisfied by trilocal correlations. Possible quantum violation of at least one criterion from the set is analyzed, which in turn points out the utility of the set of criteria to detect nonlocality (nontrilocality) in quantum triangle networks. Interestingly, measurement on a local product state basis turns out to be sufficient to generate nontrilocal correlations in some quantum networks. Noise tolerance of the detection criteria is discussed followed by a generalization of the framework for demonstrating correlations in any n-sided polygon where n is finite.
翻訳日:2023-03-16 13:05:05 公開日:2023-03-15
# 量子密度行列とその用途

The Quantum Density Matrix and its many uses ( http://arxiv.org/abs/2303.08738v1 )

ライセンス: Link先を確認
Apoorva D. Patel(参考訳) 量子密度行列は古典的な確率分布の概念を量子論に一般化する。 これは量子状態の完全な記述とそれから抽出できる観測可能な量を与える。 その数学的構造は、量子相関の理解、量子カオスの図解化、量子状態トモグラフィの効率的なノイズ量子システムのためのソフトウェアシミュレータの開発などに応用されている。

The quantum density matrix generalises the classical concept of probability distribution to quantum theory. It gives the complete description of a quantum state as well as the observable quantities that can be extracted from it. Its mathematical structure is described, with applications to understanding quantum correlations, illustrating quantum chaos and its unravelling, and developing software simulators for noisy quantum systems with efficient quantum state tomography.
翻訳日:2023-03-16 13:04:42 公開日:2023-03-15
# 遺伝性骨盤痛・穿刺障害に対するインターネット治療の個別化効果予測:多変量決定木モデルの開発と内部検証

Predicting Individualized Effects of Internet-Based Treatment for Genito-Pelvic Pain/Penetration Disorder: Development and Internal Validation of a Multivariable Decision Tree Model ( http://arxiv.org/abs/2303.08732v1 )

ライセンス: Link先を確認
Anna-Carlotta Zarski, Mathias Harrer, Paula Kuper, Antonia A. Sprenger, Matthias Berking, David Daniel Ebert(参考訳) Genito-Pelvic Pain/Penetration-Disorder (GPPPD) は一般的な疾患であるが,日常治療では稀である。 前回の研究では、gpppdの症状はインターネットベースの心理的介入を用いて効果的に治療できることが示されている。 しかし、非対応は最先端の治療に共通しており、どの患者集団がインターネットベースの介入から最も利益を得られると期待されているかは明らかではない。 多変量予測モデルは、不均一な治療効果の予測因子を同定し、最も期待される利点を持つ治療を割り当てるためにますます使われている。 本研究では,gpppd症状の多次元複合スコアに対するインターネットベース治療の効果を予測する多変量決定木モデルを開発し,内部検証を行った。 インターネットによる介入をウェイトリスト制御群(N=200)と比較したランダム化制御試験のデータを用いて,モデルベース再帰分割を用いた決定木モデルを開発した。 モデル性能は、見かけとブートストラップのバイアス補正性能を調べて評価した。 最後のpruned decision treeは、1つの分割変数であるjoint dyadic copingで構成され、2つの応答クラスタが出現した。 dyadic coping (n$33; $d$=0.12; 95% ci: -0.57-0.80; 95%ci: 0.68-1.32; $n$=167) の患者では効果が認められなかったが、ベースラインでのdyadic copingが高い患者には大きな効果 (d$=1.00; 95%ci: 0.68-1.32; $n$=167) が予測された。 ブートストラップバイアス補正性能はR^2$=27.74%(RMSE=13.22)であった。

Genito-Pelvic Pain/Penetration-Disorder (GPPPD) is a common disorder but rarely treated in routine care. Previous research documents that GPPPD symptoms can be treated effectively using internet-based psychological interventions. However, non-response remains common for all state-of-the-art treatments and it is unclear which patient groups are expected to benefit most from an internet-based intervention. Multivariable prediction models are increasingly used to identify predictors of heterogeneous treatment effects, and to allocate treatments with the greatest expected benefits. In this study, we developed and internally validated a multivariable decision tree model that predicts effects of an internet-based treatment on a multidimensional composite score of GPPPD symptoms. Data of a randomized controlled trial comparing the internet-based intervention to a waitlist control group (N =200) was used to develop a decision tree model using model-based recursive partitioning. Model performance was assessed by examining the apparent and bootstrap bias-corrected performance. The final pruned decision tree consisted of one splitting variable, joint dyadic coping, based on which two response clusters emerged. No effect was found for patients with low dyadic coping ($n$=33; $d$=0.12; 95% CI: -0.57-0.80), while large effects ($d$=1.00; 95%CI: 0.68-1.32; $n$=167) are predicted for those with high dyadic coping at baseline. The bootstrap-bias-corrected performance of the model was $R^2$=27.74% (RMSE=13.22).
翻訳日:2023-03-16 13:04:36 公開日:2023-03-15
# より堅牢な意思決定のためのブリッジ適応管理と強化学習

Bridging adaptive management and reinforcement learning for more robust decisions ( http://arxiv.org/abs/2303.08731v1 )

ライセンス: Link先を確認
Melissa Chapman, Lily Xu, Marcus Lapeyrolerie, Carl Boettiger(参考訳) チェスの卓越したグランドマスターから、高度なヘルスケア決定を伝えるまで、人工知能の新しい手法は、多様で高次元で不確実な状況において、複雑で戦略的決定を行う能力がますます高まっている。 しかし、これらの手法は環境システムの不確実性が高い環境管理のための堅牢な戦略を創出するのに役立ちますか。 本稿では,人工知能のサブフィールドである強化学習が,適応型環境管理と同様のレンズを通して意思決定問題にどのようにアプローチするかを考察する。 古典的最適化手法が難解であっても,強化学習(rl)がエビデンスを損なう適応的管理判断を改善する可能性について検討する。 例えば、モデルフリーのdeep rlは、モデルが識別できない場合でも定量的な決定戦略を特定するのに役立つ。 最後に,環境領域における適応管理問題に強化学習を適用する際に生じる技術的・社会的問題について議論する。 我々の合成は,環境管理とコンピュータ科学が,経験に基づく意思決定の実践,約束,周辺について相互に学習できることを示唆する。

From out-competing grandmasters in chess to informing high-stakes healthcare decisions, emerging methods from artificial intelligence are increasingly capable of making complex and strategic decisions in diverse, high-dimensional, and uncertain situations. But can these methods help us devise robust strategies for managing environmental systems under great uncertainty? Here we explore how reinforcement learning, a subfield of artificial intelligence, approaches decision problems through a lens similar to adaptive environmental management: learning through experience to gradually improve decisions with updated knowledge. We review where reinforcement learning (RL) holds promise for improving evidence-informed adaptive management decisions even when classical optimization methods are intractable. For example, model-free deep RL might help identify quantitative decision strategies even when models are nonidentifiable. Finally, we discuss technical and social issues that arise when applying reinforcement learning to adaptive management problems in the environmental domain. Our synthesis suggests that environmental management and computer science can learn from one another about the practices, promises, and perils of experience-based decision-making.
翻訳日:2023-03-16 13:04:02 公開日:2023-03-15
# diffusionad: 異常検出のための弁別拡散

DiffusionAD: Denoising Diffusion for Anomaly Detection ( http://arxiv.org/abs/2303.08730v1 )

ライセンス: Link先を確認
Hui Zhang, Zheng Wang, Zuxuan Wu, Yu-Gang Jiang(参考訳) 異常検出は、実世界の産業生産のニーズを満たすための顕著な効果と効率のために広く適用されている。 異常検出のための新しいパイプラインである diffusionad を導入する。 我々は, 異常検出を‘noise-to-norm’パラダイムとみなし, 異常を問合せ画像とその不完全近似の不整合として識別する。 我々のパイプラインは、ノイズの多いクエリ画像から異常領域を復元し、通常の領域を変更せずにこれを実現する。 DiffusionADには分別サブネットワークとセグメンテーションサブネットワークがあり、複雑な後処理ステップを必要とせずに、直感的な異常検出とローカライゼーションをエンドツーエンドで提供する。 興味深いことに、このフレームワークは、一般的な拡散法よりも数十倍から数百倍高速な1つの拡散逆プロセスステップで満足できる性能を提供する。 VisA や DAGM などの標準および挑戦的なベンチマークに対する広範な評価は、DiffusionAD が現在の最先端パラダイムより優れており、提案されたパイプラインの有効性と一般化性を示していることを示している。

Anomaly detection is widely applied due to its remarkable effectiveness and efficiency in meeting the needs of real-world industrial manufacturing. We introduce a new pipeline, DiffusionAD, to anomaly detection. We frame anomaly detection as a ``noise-to-norm'' paradigm, in which anomalies are identified as inconsistencies between a query image and its flawless approximation. Our pipeline achieves this by restoring the anomalous regions from the noisy corrupted query image while keeping the normal regions unchanged. DiffusionAD includes a denoising sub-network and a segmentation sub-network, which work together to provide intuitive anomaly detection and localization in an end-to-end manner, without the need for complicated post-processing steps. Remarkably, during inference, this framework delivers satisfactory performance with just one diffusion reverse process step, which is tens to hundreds of times faster than general diffusion methods. Extensive evaluations on standard and challenging benchmarks including VisA and DAGM show that DiffusionAD outperforms current state-of-the-art paradigms, demonstrating the effectiveness and generalizability of the proposed pipeline.
翻訳日:2023-03-16 13:03:44 公開日:2023-03-15
# DACOS - コードスメルのマニュアルアノテーション付きデータセット

DACOS-A Manually Annotated Dataset of Code Smells ( http://arxiv.org/abs/2303.08729v1 )

ライセンス: Link先を確認
Himesh Nandani, Mootez Saad, Tushar Sharma(参考訳) 研究者は、多くのコードの臭いの主観性に対抗するために、コードの臭い検出に機械学習技術を適用する。 このようなアプローチでは、トレーニングとベンチマークのために、大規模な手動のアノテートデータセットが必要です。 既存の文献にはいくつかのデータセットがあるが、サイズは小さく、より重要なのは、主観的なコードスニペットに集中しないことだ。 本稿では,5,192個のコードスニペットに対して10,267個のアノテーションを含む手動注釈付きデータセットであるDACOSを提案する。 データセットは、多面的な抽象化、複雑なメソッド、長いパラメータリストの3種類のコードの臭いをターゲットとしている。 データセットは2つのフェーズで作成されます。 第1フェーズは、臭いを検出するために使用されるメトリクスのしきい値を決定することで、潜在的に主観的なコードスニペットを特定するのに役立ちます。 第2フェーズでは、潜在的な主観的なスニペットに対するアノテーションを収集する。 また、第1フェーズで特定された閾値を使用して、確実に良質で確実に臭いスニペットを含む拡張データセットDACOSXも提供します。 私たちは、アノテーションがスニペットを1つずつ見てマークし、提供されたアノテーションを記録するのを助けるWebアプリケーションであるTagManを開発した。 私たちはデータセットとwebアプリケーションをパブリックアクセス可能にします。 このデータセットは、臭い検出技術に取り組んでいる研究者が関連する、コンテキスト対応の機械学習モデルを構築するのに役立つ。

Researchers apply machine-learning techniques for code smell detection to counter the subjectivity of many code smells. Such approaches need a large, manually annotated dataset for training and benchmarking. Existing literature offers a few datasets; however, they are small in size and, more importantly, do not focus on the subjective code snippets. In this paper, we present DACOS, a manually annotated dataset containing 10,267 annotations for 5,192 code snippets. The dataset targets three kinds of code smells at different granularity: multifaceted abstraction, complex method, and long parameter list. The dataset is created in two phases. The first phase helps us identify the code snippets that are potentially subjective by determining the thresholds of metrics used to detect a smell. The second phase collects annotations for potentially subjective snippets. We also offer an extended dataset DACOSX that includes definitely benign and definitely smelly snippets by using the thresholds identified in the first phase. We have developed TagMan, a web application to help annotators view and mark the snippets one-by-one and record the provided annotations. We make the datasets and the web application accessible publicly. This dataset will help researchers working on smell detection techniques to build relevant and context-aware machine-learning models.
翻訳日:2023-03-16 13:03:22 公開日:2023-03-15
# 背景問題:ドメイン機能による分散検出の強化

Background Matters: Enhancing Out-of-distribution Detection with Domain Features ( http://arxiv.org/abs/2303.08727v1 )

ライセンス: Link先を確認
Choubo Ding, Guansong Pang, Chunhua Shen(参考訳) アウトオブディストリビューション(ood)入力の検出は、オープンワールドシナリオにおけるディープニューラルネットワーク分類器のデプロイの安全性を確保するための主要なタスクである。 OODサンプルは任意の分布から抽出することができ、前景のセマンティック特徴(例えば、果物分類における車両画像対IDサンプル)や背景ドメイン特徴(例えば、音声認識におけるテクスチャ画像対IDサンプル)など、様々な次元における分布内IDデータからの偏差を示すことができる。 既存の手法では、ドメイン機能などの他の次元を無視しながら、セマンティックな特徴に基づいたoodサンプルの検出に重点を置いている。 本稿では,OOD検出におけるドメインの特徴の重要性を考察し,それを活用して意味機能に基づくOOD検出手法を提案する。 そこで本研究では,IDトレーニングサンプルからドメイン特徴を学習可能な新しい汎用フレームワークを提案する。このフレームワークでは,既存の意味特徴に基づくOOD検出手法をシームレスに組み合わせて,意味領域とドメイン領域の両方から分布内特徴をシームレスに学習することができる。 大規模な実験は我々のアプローチが示す 1) 多様なドメイン特徴を持つ多種多様なOODデータセット上での4種類の最先端(SotA)OOD検出手法の性能を大幅に向上させることができる。 2) これらのベンチマークで新しいSotA性能を実現する。

Detecting out-of-distribution (OOD) inputs is a principal task for ensuring the safety of deploying deep-neural-network classifiers in open-world scenarios. OOD samples can be drawn from arbitrary distributions and exhibit deviations from in-distribution (ID) data in various dimensions, such as foreground semantic features (e.g., vehicle images vs. ID samples in fruit classification) and background domain features (e.g., textural images vs. ID samples in object recognition). Existing methods focus on detecting OOD samples based on the semantic features, while neglecting the other dimensions such as the domain features. This paper considers the importance of the domain features in OOD detection and proposes to leverage them to enhance the semantic-feature-based OOD detection methods. To this end, we propose a novel generic framework that can learn the domain features from the ID training samples by a dense prediction approach, with which different existing semantic-feature-based OOD detection methods can be seamlessly combined to jointly learn the in-distribution features from both the semantic and domain dimensions. Extensive experiments show that our approach 1) can substantially enhance the performance of four different state-of-the-art (SotA) OOD detection methods on multiple widely-used OOD datasets with diverse domain features, and 2) achieves new SotA performance on these benchmarks.
翻訳日:2023-03-16 13:03:00 公開日:2023-03-15
# 人工的影響:AI駆動による説得の分析

Artificial Influence: An Analysis Of AI-Driven Persuasion ( http://arxiv.org/abs/2303.08721v1 )

ライセンス: Link先を確認
Matthew Burtell and Thomas Woodside(参考訳) 説得は、人間であることの意味の重要な側面であり、ビジネス、政治、その他の努力の中心である。 人工知能(AI)の進歩は、人間が製品を購入したり、ビデオを見たり、検索結果をクリックしたりできるAIシステムを生み出している。 明確に設計されていないシステムでさえ、実際にそうする可能性がある。 将来的には、ますます人為的なAIシステムがユーザとの継続的な関係を形成し、説得力を高めていくだろう。 本稿では、説得型AIシステムの不確実性について検討する。 我々は、AIが説得力のバランスを変え、パーソナライズされた説得を大規模に展開し、誤情報キャンペーンをパワーとし、人間が自身の言論を形作る方法を変えることによって、説得との関係や見解を質的に変化させる方法を検討する。 我々は、AIによる説得と人間による説得との違いを考察する。 ユビキタスで高説得力のあるAIシステムは、私たちの情報環境を大きく変えて、私たちの将来の人間のコントロールを失うのに寄与する、と警告する。 対応として、AIによる説得に対する潜在的な反応として、禁止、AIエージェントの識別、真正なAI、法的治療について検討する。 我々は、これらのソリューションはいずれも気密ではないと結論し、個人や政府は説得力のあるaiの最も有害な効果を守るために積極的な措置を講じる必要があると結論づけた。

Persuasion is a key aspect of what it means to be human, and is central to business, politics, and other endeavors. Advancements in artificial intelligence (AI) have produced AI systems that are capable of persuading humans to buy products, watch videos, click on search results, and more. Even systems that are not explicitly designed to persuade may do so in practice. In the future, increasingly anthropomorphic AI systems may form ongoing relationships with users, increasing their persuasive power. This paper investigates the uncertain future of persuasive AI systems. We examine ways that AI could qualitatively alter our relationship to and views regarding persuasion by shifting the balance of persuasive power, allowing personalized persuasion to be deployed at scale, powering misinformation campaigns, and changing the way humans can shape their own discourse. We consider ways AI-driven persuasion could differ from human-driven persuasion. We warn that ubiquitous highlypersuasive AI systems could alter our information environment so significantly so as to contribute to a loss of human control of our own future. In response, we examine several potential responses to AI-driven persuasion: prohibition, identification of AI agents, truthful AI, and legal remedies. We conclude that none of these solutions will be airtight, and that individuals and governments will need to take active steps to guard against the most pernicious effects of persuasive AI.
翻訳日:2023-03-16 13:02:35 公開日:2023-03-15
# plex: ロボット操作の事前訓練のために利用可能なデータを最大限に活用する

PLEX: Making the Most of the Available Data for Robotic Manipulation Pretraining ( http://arxiv.org/abs/2303.08789v1 )

ライセンス: Link先を確認
Garrett Thomas, Ching-An Cheng, Ricky Loynd, Vibhav Vineet, Mihai Jalobeanu, Andrey Kolobov(参考訳) ロボット操作の一般的な鍵はリッチな表現だが、既存のモデルアーキテクチャは学習するために大量のデータを必要とする。 残念ながら、さまざまなアノテートタスクのための専門家による視覚運動のデモという形で提供される理想的なロボット操作トレーニングデータはほとんどない。 本研究では,タスクに依存しないビズモータ軌道から学習するトランスフォーマーベースのアーキテクチャであるPLEXを提案する。 plexの背景にある重要な洞察は、観察と行動を伴う軌道が潜在的な特徴空間を誘導し、ロボットにタスクに依存しない操作ルーチンを実行するように訓練するのに役立つことである。 ロボット操作を事前学習するほとんどの作業とは対照的に、plexは観察的な表現ではなく、汎用的なセンサーモブターのマルチタスクポリシーを学習する。 また, PLEX変換器の相対的位置エンコーディングにより, 人為的な実演から学習する際のデータ効率が向上することを示した。 実験は、meta-world-v2ベンチマークにおける\apprの一般化を示し、ロボスイート環境での最先端のパフォーマンスを確立する。

A rich representation is key to general robotic manipulation, but existing model architectures require a lot of data to learn it. Unfortunately, ideal robotic manipulation training data, which comes in the form of expert visuomotor demonstrations for a variety of annotated tasks, is scarce. In this work we propose PLEX, a transformer-based architecture that learns from task-agnostic visuomotor trajectories accompanied by a much larger amount of task-conditioned object manipulation videos -- a type of robotics-relevant data available in quantity. The key insight behind PLEX is that the trajectories with observations and actions help induce a latent feature space and train a robot to execute task-agnostic manipulation routines, while a diverse set of video-only demonstrations can efficiently teach the robot how to plan in this feature space for a wide variety of tasks. In contrast to most works on robotic manipulation pretraining, PLEX learns a generalizable sensorimotor multi-task policy, not just an observational representation. We also show that using relative positional encoding in PLEX's transformers further increases its data efficiency when learning from human-collected demonstrations. Experiments showcase \appr's generalization on Meta-World-v2 benchmark and establish state-of-the-art performance in challenging Robosuite environments.
翻訳日:2023-03-16 12:55:57 公開日:2023-03-15
# 単一スケッチを用いた物体位置決め用視覚変換器におけるクエリ誘導注意

Query-guided Attention in Vision Transformers for Localizing Objects Using a Single Sketch ( http://arxiv.org/abs/2303.08784v1 )

ライセンス: Link先を確認
Aditay Tripathi, Anand Mishra, Anirban Chakraborty(参考訳) 本研究では,対象画像上の同一オブジェクトのすべてのインスタンスをローカライズすることを目的として,対象オブジェクトの粗手描画を行った場合の,自然画像上のスケッチベースオブジェクトローカライズの問題について検討する。 この問題は、手描きスケッチの抽象的な性質、スケッチのスタイルや質のバリエーション、スケッチと自然画像の間に存在する大きな領域ギャップなどによって証明される。 これらの課題を軽減するため、既存の作品では、画像機能にクエリ情報を組み込むための注意に基づくフレームワークが提案されている。 しかし、これらの作業では、画像機能がすでに独立して学習された後にクエリ機能が組み込まれ、アライメントが不十分になる。 対照的に,画像エンコーダの各ブロックの後にクロスアテンションを用いてクエリ条件付き画像の特徴を学習し,クエリ・スケッチとの整合性が向上するスケッチガイド型視覚トランスコーダを提案する。 さらに、デコーダの出力時に、オブジェクトとスケッチの特徴を洗練して、関連するオブジェクトの表現をスケッチクエリに近づけ、ローカライゼーションを改善する。 提案手法は,本手法で学習した対象画像の特徴を問合せに認識するため,訓練中に見えない対象カテゴリにも一般化する。 我々のローカライゼーションフレームワークは、トレーニング可能な新規スケッチ融合戦略により、複数のスケッチクエリを利用することもできる。 モデルは、QuickDraw!とSketchyデータセットのスケッチクエリを使用して、公開オブジェクト検出ベンチマーク、すなわちMS-COCOの画像に基づいて評価される。 既存のローカライズ手法と比較して、提案されたアプローチでは、quickdraw!とsketchyデータセットからのスケッチクエリを使用して、視認されたオブジェクトのマップがそれぞれ6.6\%$と8.0\%$改善され、トレーニング中に‘unseen’となる大きなオブジェクトに対して12.2\%$改善される。

In this work, we investigate the problem of sketch-based object localization on natural images, where given a crude hand-drawn sketch of an object, the goal is to localize all the instances of the same object on the target image. This problem proves difficult due to the abstract nature of hand-drawn sketches, variations in the style and quality of sketches, and the large domain gap existing between the sketches and the natural images. To mitigate these challenges, existing works proposed attention-based frameworks to incorporate query information into the image features. However, in these works, the query features are incorporated after the image features have already been independently learned, leading to inadequate alignment. In contrast, we propose a sketch-guided vision transformer encoder that uses cross-attention after each block of the transformer-based image encoder to learn query-conditioned image features leading to stronger alignment with the query sketch. Further, at the output of the decoder, the object and the sketch features are refined to bring the representation of relevant objects closer to the sketch query and thereby improve the localization. The proposed model also generalizes to the object categories not seen during training, as the target image features learned by our method are query-aware. Our localization framework can also utilize multiple sketch queries via a trainable novel sketch fusion strategy. The model is evaluated on the images from the public object detection benchmark, namely MS-COCO, using the sketch queries from QuickDraw! and Sketchy datasets. Compared with existing localization methods, the proposed approach gives a $6.6\%$ and $8.0\%$ improvement in mAP for seen objects using sketch queries from QuickDraw! and Sketchy datasets, respectively, and a $12.2\%$ improvement in AP@50 for large objects that are `unseen' during training.
翻訳日:2023-03-16 12:55:33 公開日:2023-03-15
# 光トワイザーにおけるアンチトラップライドバーグ状態の再捕獲確率

Recapture Probability for anti-trapped Rydberg states in optical tweezers ( http://arxiv.org/abs/2303.08783v1 )

ライセンス: Link先を確認
R.J.P.T. de Keijzer, O. Tse, S.J.J.M.F. Kokkelmans(参考訳) 中性原子量子コンピュータでは、量子ビットは光ツイーザーに閉じ込められた個々の中性原子である。 rydberg状態への励起は、マルチ量子ビット量子ゲートに基づく絡み合い手順の基礎を形成する。 しかし、これらのリドベルグ原子はしばしばアンチトラップであり、デコヒーレンスと原子損失をもたらす。 本研究では,レーザートラップのオンオフとオフを区別して,反トラッピング損失率の量子力学的記述を行い,リドバーグ励起後の再捕獲確率を決定する。 Strontium-88システムでは、波動関数がトラップを外すのに必要な十分な時間(30$\mu$s、Strontium-88システム)があることが分かりました。 したがって、トラップを装着した場合でも、原子間の重要な絡み合い操作を行う場合に、$\approx$100%再捕獲確率が期待できる。 ボソニックストロンチウム88原子を持つ2次元ラジアルトラップの場合、完全な再捕獲が達成できる時間は、トラップのオン・オフと同等の大きさであることが判明した。

In a neutral atom quantum computer, the qubits are individual neutral atoms trapped in optical tweezers. Excitations to Rydberg states form the basis for the entanglement procedure that is at the basis of multi-qubit quantum gates. However, these Rydberg atoms are often anti-trapped, leading to decoherence and atom loss. In this work, we give a quantum mechanical description of the anti-trapping loss rates and determine the recapture probability after Rydberg excitation, distinguishing between having the laser traps turned on and off. We find that there is ample time ($\approx$ 30 $\mu$s, in a Strontium-88 system) needed for the wave functions to expand out off the trap. Therefore, even with traps on, $\approx$ 100% recapture probabilities can be expected for times in which significant entanglement operations between atoms can be performed. We find that for 2D radial traps with bosonic Strontium-88 atoms, the time in which perfect recapture can be achieved, is of the same order of magnitude for traps on, and off.
翻訳日:2023-03-16 12:54:55 公開日:2023-03-15
# 自律飛行のための完全なニューロモルフィックビジョンと制御

Fully neuromorphic vision and control for autonomous drone flight ( http://arxiv.org/abs/2303.08778v1 )

ライセンス: Link先を確認
Federico Paredes-Vall\'es, Jesse Hagenaars, Julien Dupeyroux, Stein Stroobants, Yingfu Xu, Guido de Croon(参考訳) 生物学的センシングと処理は非同期でスパースであり、低遅延でエネルギー効率の良い知覚と行動をもたらす。 ロボット工学において、イベントベースのビジョンとスパイキングニューラルネットワークのためのニューロモルフィックハードウェアは、同様の特性を示すことを約束する。 しかし、ロボットの実装は、現在の組み込みニューロモルフィックプロセッサのネットワークサイズとスパイクニューラルネットワークのトレーニングの困難のために、低次元の感覚入力と運動動作を持つ基本的なタスクに限定されている。 ここでは、自律飛行ドローンを制御するための、初めて完全にニューロモルフィックな視覚制御パイプラインを示す。 具体的には、高次元の生のイベントベースカメラデータを受け入れ、自律的な視覚ベースの飛行を行うための低レベル制御アクションを出力するスパイクニューラルネットワークを訓練する。 ネットワークの視覚部分は5つの層と28.8kニューロンで構成され、生のイベントをエゴモーションの推定にマッピングし、実際のイベントデータに基づく自己教師型学習で訓練される。 制御部は、1つの復号層で構成され、ドローンシミュレータで進化的アルゴリズムで学習される。 ロボット実験は、完全に学習されたニューロモルフィックパイプラインのシミュレートから現実への移行に成功したことを示す。 ドローンは、異なるエゴモーションのセットポイントを正確に追跡でき、ホバリング、着陸、横方向の操作が可能で、同時にヨーイングしながらも$\unicode{x2014}$evenで操作できる。 ニューロモルフィックパイプラインはIntelのLoihiニューロモルフィックプロセッサ上で動作し、実行周波数は200Hzであり、推論あたり27$\unicode{x00b5}$Jしか使用していない。 これらの結果は、より小型でインテリジェントなロボットを実現するためのニューロモルフィックセンシングと処理の可能性を示している。

Biological sensing and processing is asynchronous and sparse, leading to low-latency and energy-efficient perception and action. In robotics, neuromorphic hardware for event-based vision and spiking neural networks promises to exhibit similar characteristics. However, robotic implementations have been limited to basic tasks with low-dimensional sensory inputs and motor actions due to the restricted network size in current embedded neuromorphic processors and the difficulties of training spiking neural networks. Here, we present the first fully neuromorphic vision-to-control pipeline for controlling a freely flying drone. Specifically, we train a spiking neural network that accepts high-dimensional raw event-based camera data and outputs low-level control actions for performing autonomous vision-based flight. The vision part of the network, consisting of five layers and 28.8k neurons, maps incoming raw events to ego-motion estimates and is trained with self-supervised learning on real event data. The control part consists of a single decoding layer and is learned with an evolutionary algorithm in a drone simulator. Robotic experiments show a successful sim-to-real transfer of the fully learned neuromorphic pipeline. The drone can accurately follow different ego-motion setpoints, allowing for hovering, landing, and maneuvering sideways$\unicode{x2014}$even while yawing at the same time. The neuromorphic pipeline runs on board on Intel's Loihi neuromorphic processor with an execution frequency of 200 Hz, spending only 27 $\unicode{x00b5}$J per inference. These results illustrate the potential of neuromorphic sensing and processing for enabling smaller, more intelligent robots.
翻訳日:2023-03-16 12:54:36 公開日:2023-03-15
# クロスバリデーションリスク推定を用いたモデル選択による学習の分布自由逸脱境界

Distribution-free Deviation Bounds of Learning via Model Selection with Cross-validation Risk Estimation ( http://arxiv.org/abs/2303.08777v1 )

ライセンス: Link先を確認
Diego Marcondes and Cl\'audia Peixoto(参考訳) リスク推定とモデル選択のためのクロスバリデーション技術は、統計学や機械学習で広く利用されている。 しかし, クロスバリデーションリスク推定を用いたモデル選択による学習の理論的特性の理解は, 広く利用されている中では極めて低い。 本稿では,古典的統計学習理論における一般的な系統的学習枠組みとして,クロス評価リスク推定を用いたモデル選択による学習を行い,vc次元の観点から分布自由偏差境界を確立し,結果の詳細な証明を行い,有界損失関数と非有界損失関数の両方を考察する。 また,モデル選択による学習の逸脱限界が,仮説全体の経験的リスク最小化による学習よりも厳密な条件を推定し,いくつかの事例で経験的に観察されるモデル選択フレームワークの性能向上を支援する。

Cross-validation techniques for risk estimation and model selection are widely used in statistics and machine learning. However, the understanding of the theoretical properties of learning via model selection with cross-validation risk estimation is quite low in face of its widespread use. In this context, this paper presents learning via model selection with cross-validation risk estimation as a general systematic learning framework within classical statistical learning theory and establishes distribution-free deviation bounds in terms of VC dimension, giving detailed proofs of the results and considering both bounded and unbounded loss functions. We also deduce conditions under which the deviation bounds of learning via model selection are tighter than that of learning via empirical risk minimization in the whole hypotheses space, supporting the better performance of model selection frameworks observed empirically in some instances.
翻訳日:2023-03-16 12:54:07 公開日:2023-03-15
# gpt-4技術報告

GPT-4 Technical Report ( http://arxiv.org/abs/2303.08774v1 )

ライセンス: Link先を確認
OpenAI(参考訳) 本稿では,画像とテキストの入力を受け付け,テキスト出力を生成する大規模マルチモーダルモデルgpt-4の開発について報告する。 多くの実世界のシナリオでは人間よりも能力は低いが、GPT-4は様々な専門的、学術的なベンチマークで人間レベルのパフォーマンスを示しており、試験受験者の上位10%のスコアで模擬試験に合格している。 GPT-4は、文書内の次のトークンを予測するために事前訓練されたトランスフォーマーベースのモデルである。 トレーニング後のアライメントプロセスは,実効性と所望の行動への順応性の向上をもたらす。 このプロジェクトのコアコンポーネントは、幅広いスケールで予測可能な振る舞いをするインフラストラクチャと最適化手法の開発だった。 これにより、GPT-4の1/1000分の1以下のモデルに基づいて、GPT-4の性能のいくつかの側面を正確に予測できる。

We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer-based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4's performance based on models trained with no more than 1/1,000th the compute of GPT-4.
翻訳日:2023-03-16 12:53:52 公開日:2023-03-15
# 安定拡散による画像操作のための高個人化テキスト埋め込み

Highly Personalized Text Embedding for Image Manipulation by Stable Diffusion ( http://arxiv.org/abs/2303.08767v1 )

ライセンス: Link先を確認
Inhwa Han, Serin Yang, Taesung Kwon, Jong Chul Ye(参考訳) 拡散モデルは画像生成と操作において優れた性能を示すが、固有の確率性は画像の内容とアイデンティティの保存と操作の課題を示す。 DreamBoothやTextual Inversionといった以前のアプローチでは、コンテンツを維持するためのモデルや潜在表現のパーソナライゼーションが提案されていたが、複数の参照イメージへの依存と複雑なトレーニングは実用性を制限する。 本稿では、パーソナライズとコンテンツ操作のためのCLIP埋め込み空間を分解し、高度にパーソナライズされた(HiPer)テキスト埋め込みを用いたパーソナライズへのシンプルかつ高効率なアプローチを提案する。 本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。 多様な対象テキストを用いた実験により,様々なタスクにまたがって,高度にパーソナライズされ,複雑な意味的画像編集を実現することを実証した。 本研究で提示されるテキスト埋め込み空間の新たな理解は、様々なタスクにまたがるさらなる研究を促す可能性があると考えている。

Diffusion models have shown superior performance in image generation and manipulation, but the inherent stochasticity presents challenges in preserving and manipulating image content and identity. While previous approaches like DreamBooth and Textual Inversion have proposed model or latent representation personalization to maintain the content, their reliance on multiple reference images and complex training limits their practicality. In this paper, we present a simple yet highly effective approach to personalization using highly personalized (HiPer) text embedding by decomposing the CLIP embedding space for personalization and content manipulation. Our method does not require model fine-tuning or identifiers, yet still enables manipulation of background, texture, and motion with just a single image and target text. Through experiments on diverse target texts, we demonstrate that our approach produces highly personalized and complex semantic image edits across a wide range of tasks. We believe that the novel understanding of the text embedding space presented in this work has the potential to inspire further research across various tasks.
翻訳日:2023-03-16 12:53:40 公開日:2023-03-15
# 急性期脳梗塞患者の梗塞領域分画に対する4次元CT灌流の有用性

Exploiting 4D CT Perfusion for segmenting infarcted areas in patients with suspected acute ischemic stroke ( http://arxiv.org/abs/2303.08757v1 )

ライセンス: Link先を確認
Luca Tomasetti, Kjersti Engan, Liv Jorunn H{\o}llesli, Kathinka D{\ae}hli Kurz, Mahdieh Khanmohammadi(参考訳) 急性虚血性脳卒中(AIS)患者の虚血領域(コアとペナムブラ)の精密かつ迅速な予測法は、診断と治療計画の改善において重要な役割を担っている。 CTスキャンはAISを疑う患者の早期評価における主要な指標の1つである。 CT Perfusion (CTP) は脳卒中の位置, 重症度, および虚血性病変の容積を決定する一次評価としてしばしば用いられる。 現在のctpの自動セグメンテーション手法は、従来は放射線科医の視覚評価に使用されていた3dカラーマップを入力として使用していた。 また、生のctpデータを2d+time入力としてスライスバイスライスベースで使用し、ボリューム上の空間情報を無視する。 本稿では,4次元CTP全体を入力として活用し,時空間情報を完全に活用する方法について検討する。 これにより,新しい4次元畳み込み層を提案する。 3つのグループに分けた152人のローカルデータセットを用いた包括的実験により,提案手法は他の手法よりも精度の高い結果が得られた。 ペナムブラ領域とコア領域はそれぞれ0.70と0.45のDice係数を得る。 コードはhttps://github.com/biomedical-data- analysis-laboratory/4d-mj-net.gitで入手できる。

Precise and fast prediction methods for ischemic areas (core and penumbra) in acute ischemic stroke (AIS) patients are of significant clinical interest: they play an essential role in improving diagnosis and treatment planning. Computed Tomography (CT) scan is one of the primary modalities for early assessment in patients with suspected AIS. CT Perfusion (CTP) is often used as a primary assessment to determine stroke location, severity, and volume of ischemic lesions. Current automatic segmentation methods for CTP mostly use already processed 3D color maps conventionally used for visual assessment by radiologists as input. Alternatively, the raw CTP data is used on a slice-by-slice basis as 2D+time input, where the spatial information over the volume is ignored. In this paper, we investigate different methods to utilize the entire 4D CTP as input to fully exploit the spatio-temporal information. This leads us to propose a novel 4D convolution layer. Our comprehensive experiments on a local dataset comprised of 152 patients divided into three groups show that our proposed models generate more precise results than other methods explored. A Dice Coefficient of 0.70 and 0.45 is achieved for penumbra and core areas, respectively. The code is available on https://github.com/Biomedical-Data-Analysis-Laboratory/4D-mJ-Net.git.
翻訳日:2023-03-16 12:53:19 公開日:2023-03-15
# 作業のウィグナー準確率分布

A Wigner quasiprobability distribution of work ( http://arxiv.org/abs/2303.08755v1 )

ライセンス: Link先を確認
Federico Cerisola, Franco Mayo, Augusto J. Roncaglia(参考訳) 本稿では,Wigner関数に基づく作業の準確率分布について紹介する。 この構成は、システムを量子測定装置に結合することにより、孤立したシステム上での作業がコヒーレントに測定できるという考えに基づいている。 このようにして、作業の準確率分布を装置のウィグナー関数を用いて定義することができる。 この準分配は作業統計の情報を含み、明確な運用定義も保持する。 さらに,エネルギー固有バシスにおける量子コヒーレンスの存在は,ネガティビティや干渉縞といったウィグナー関数における非古典性に関連する特性の出現と関係していることを示した。 一方、この準確率分布から、作業の標準的な2点測定確率分布と、コヒーレンスを持つ初期状態の平均エネルギーの差を求めることは容易である。

In this article we introduce a quasiprobability distribution of work that is based on the Wigner function. This construction rests on the idea that the work done on an isolated system can be coherently measured by coupling the system to a quantum measurement apparatus. In this way, a quasiprobability distribution of work can be defined in terms of the Wigner function of the apparatus. This quasidistribution contains the information of the work statistics and also holds a clear operational definition. Moreover, it is shown that the presence of quantum coherence in the energy eigenbasis is related with the appearance of characteristics related to non-classicality in the Wigner function such as negativity and interference fringes. On the other hand, from this quasiprobability distribution it is straightforward to obtain the standard two-point measurement probability distribution of work and also the difference in average energy for initial states with coherences.
翻訳日:2023-03-16 12:52:56 公開日:2023-03-15
# 高分解能空中画像用カスケードズームイン検出器

Cascaded Zoom-in Detector for High Resolution Aerial Images ( http://arxiv.org/abs/2303.08747v1 )

ライセンス: Link先を確認
Akhil Meethal, Eric Granger, Marco Pedersoli(参考訳) 空中画像中の物体を検出することは、通常、高解像度画像上に均一に分散された混み合った小さな物体からなるため、難しい。 密度クロッピングは、密集した小さな物体領域を高分解能で抽出処理するこの小さな物体検出を改善するために広く用いられる方法である。 しかし、これは通常、他の学習可能なコンポーネントを追加して行われ、標準検出プロセスよりもトレーニングと推論を複雑にする。 本稿では,密度誘導型学習と推論のために検出器自体を再利用する,効率的なカスケード型ズームイン検出器を提案する。 トレーニング中、密度作物が配置され、新しいクラスとしてラベル付けされ、トレーニングデータセットの強化に使用される。 推論中、密度作物はまず基底クラスオブジェクトとともに検出され、次に第2段階の推論のために入力される。 このアプローチはどんな検出器にも容易に統合でき、空中画像検出で一般的な一様収穫法のような標準検出プロセスに大きな変化は生じない。 VisDroneとDOTAデータセットの空中画像による実験結果から,提案手法の利点が検証された。 提案するcz検出器は、visdroneデータセット上の均一なクロッピングおよび他の密度クロッピング法に対する最先端の結果も提供し、小さなオブジェクトの検出マップを3ポイント以上増加させる。

Detecting objects in aerial images is challenging because they are typically composed of crowded small objects distributed non-uniformly over high-resolution images. Density cropping is a widely used method to improve this small object detection where the crowded small object regions are extracted and processed in high resolution. However, this is typically accomplished by adding other learnable components, thus complicating the training and inference over a standard detection process. In this paper, we propose an efficient Cascaded Zoom-in (CZ) detector that re-purposes the detector itself for density-guided training and inference. During training, density crops are located, labeled as a new class, and employed to augment the training dataset. During inference, the density crops are first detected along with the base class objects, and then input for a second stage of inference. This approach is easily integrated into any detector, and creates no significant change in the standard detection process, like the uniform cropping approach popular in aerial image detection. Experimental results on the aerial images of the challenging VisDrone and DOTA datasets verify the benefits of the proposed approach. The proposed CZ detector also provides state-of-the-art results over uniform cropping and other density cropping methods on the VisDrone dataset, increasing the detection mAP of small objects by more than 3 points.
翻訳日:2023-03-16 12:52:46 公開日:2023-03-15
# DeepMIM: マスク画像モデリングのためのDeep Supervision

DeepMIM: Deep Supervision for Masked Image Modeling ( http://arxiv.org/abs/2303.08817v1 )

ライセンス: Link先を確認
Sucheng Ren,Fangyun Wei,Samuel Albanie,Zheng Zhang,Han Hu(参考訳) 深層監視はニューラルネットワークの中間的特徴に対する追加の監督を伴うが、学習の困難さを著しく軽減し、バニラトレーニングによる勾配消失を回避するなどの最適化を容易化するため、深層学習初期の画像分類において広く用いられていた。 それにもかかわらず、正規化技術と残差接続の出現により、画像分類の深い監督は徐々に廃止されていった。 本稿では,視覚トランスフォーマー(vit)をマスク・アンド・予測方式で事前学習するマスク画像モデリング(mim)の深い監督について再検討する。 実験的に、深い監督によってより浅い層がより意味のある表現を学習し、モデルの収束を加速し、注意の多様性を増大させることがわかった。 DeepMIMと呼ばれる私たちのアプローチは、各レイヤの表現能力を著しく向上させます。 さらに、DeepMIMは多くのMIMモデルと互換性があり、様々なリコンストラクションターゲットがある。 例えば、ViT-Bを使用すると、ImageNet上でDeepMIMは84.2のトップ-1の精度を達成し、MAEを+0.6で上回る。 DeepMIMとより強力なトークン化CLIPを組み合わせることで、画像分類(ImageNet-1Kの85.6トップ-1精度、MaE-CLIP+0.8パフォーマンス)、オブジェクト検出(COCOの52.8 APbox)、セマンティックセグメンテーション(ADE20Kの53.1 mIoU)など、さまざまなダウンストリームタスクにおける最先端のパフォーマンスを実現する。 コードとモデルはhttps://github.com/OliverRensu/DeepMIM.comで入手できる。

Deep supervision, which involves extra supervisions to the intermediate features of a neural network, was widely used in image classification in the early deep learning era since it significantly reduces the training difficulty and eases the optimization like avoiding gradient vanish over the vanilla training. Nevertheless, with the emergence of normalization techniques and residual connection, deep supervision in image classification was gradually phased out. In this paper, we revisit deep supervision for masked image modeling (MIM) that pre-trains a Vision Transformer (ViT) via a mask-and-predict scheme. Experimentally, we find that deep supervision drives the shallower layers to learn more meaningful representations, accelerates model convergence, and expands attention diversities. Our approach, called DeepMIM, significantly boosts the representation capability of each layer. In addition, DeepMIM is compatible with many MIM models across a range of reconstruction targets. For instance, using ViT-B, DeepMIM on MAE achieves 84.2 top-1 accuracy on ImageNet, outperforming MAE by +0.6. By combining DeepMIM with a stronger tokenizer CLIP, our model achieves state-of-the-art performance on various downstream tasks, including image classification (85.6 top-1 accuracy on ImageNet-1K, outperforming MAE-CLIP by +0.8), object detection (52.8 APbox on COCO) and semantic segmentation (53.1 mIoU on ADE20K). Code and models are available at https://github.com/OliverRensu/DeepMIM.
翻訳日:2023-03-16 12:47:17 公開日:2023-03-15
# 一般化線形デュリングバンディットに対するボルダ後悔最小化

Borda Regret Minimization for Generalized Linear Dueling Bandits ( http://arxiv.org/abs/2303.08816v1 )

ライセンス: Link先を確認
Yue Wu and Tao Jin and Hao Lou and Farzad Farnoud and Quanquan Gu(参考訳) デュエルバンディットは、レコメンデーションシステムやランキングのような機械学習アプリケーションで広く使われている優先的なフィードバックをモデル化するために広く使われている。 本稿では,ボルダの残忍度を最小化しつつ,最も高いボルダスコアの項目を識別することを目的とした,デュエルバンディットに対するボルダ後悔最小化問題について検討する。 本稿では,既存のモデルの多くをカバーする新しい表現力に富んだ一般化線形デュリングバンディットモデルを提案する。 驚いたことに、ボルダの後悔の最小化問題は、次数$\Omega(d^{2/3} T^{2/3})$、$d$は文脈ベクトルの次元、$T$は時間地平線であることを示すため、困難であることが判明した。 下界を得るために、ほぼ一致した後悔の上界$\tilde{O}(d^{2/3} T^{2/3})$を持つ探索列コミット型アルゴリズムを提案する。 K$のアイテム/アームの数が小さい場合、我々のアルゴリズムは、ハイパーパラメータの適切な選択で小さな後悔$\tilde{O}( (d \log K)^{1/3} T^{2/3})$を達成することができる。 また, 合成データと実世界のシミュレーション環境の両方について実験を行い, 理論解析を裏付ける実験を行った。

Dueling bandits are widely used to model preferential feedback that is prevalent in machine learning applications such as recommendation systems and ranking. In this paper, we study the Borda regret minimization problem for dueling bandits, which aims to identify the item with the highest Borda score while minimizing the cumulative regret. We propose a new and highly expressive generalized linear dueling bandits model, which covers many existing models. Surprisingly, the Borda regret minimization problem turns out to be difficult, as we prove a regret lower bound of order $\Omega(d^{2/3} T^{2/3})$, where $d$ is the dimension of contextual vectors and $T$ is the time horizon. To attain the lower bound, we propose an explore-then-commit type algorithm, which has a nearly matching regret upper bound $\tilde{O}(d^{2/3} T^{2/3})$. When the number of items/arms $K$ is small, our algorithm can achieve a smaller regret $\tilde{O}( (d \log K)^{1/3} T^{2/3})$ with proper choices of hyperparameters. We also conduct empirical experiments on both synthetic data and a simulated real-world environment, which corroborate our theoretical analysis.
翻訳日:2023-03-16 12:46:43 公開日:2023-03-15
# パスとしてのレーングラフ:オンラインレーングラフ構築のための連続保存パスワイズモデリング

Lane Graph as Path: Continuity-preserving Path-wise Modeling for Online Lane Graph Construction ( http://arxiv.org/abs/2303.08815v1 )

ライセンス: Link先を確認
Bencheng Liao, Shaoyu Chen, Bo Jiang, Tianheng Cheng, Qian Zhang, Wenyu Liu, Chang Huang, Xinggang Wang(参考訳) オンラインレーングラフの構築は、自動運転において有望だが挑戦的なタスクである。 従来の方法は、通常、レーングラフをピクセルまたはピースレベルでモデル化し、レーングラフをピクセル単位またはセグメント単位の接続で復元し、レーンの連続性を壊す。 人間のドライバーは車線ではなく、連続した経路と完全な経路に焦点を合わせ、運転する。 自動運転車は軌道計画のために車線グラフからの経路特定ガイダンスも必要である。 我々は、交通の流れを示す経路がレーングラフの原始であると主張する。 そこで本研究では,レーンの連続性をよく保ち,計画のための交通情報をエンコードする新しいパスワイズ方式でレーングラフをモデル化することを提案する。 本稿では,パスに基づくオンラインレーングラフ構築手法であるLaneGAPを提案し,パスをエンドツーエンドで学習し,Path2Graphアルゴリズムを用いてレーングラフを復元する。 従来の画素法やピース法よりもLaneGAPの方が質的に定量的に優れていることを示す。 LaneGAPは様々な交通状況に対処できる。 コードとモデルは将来の研究を促進するために \url{https://github.com/hustvl/lanegap}でリリースされる。

Online lane graph construction is a promising but challenging task in autonomous driving. Previous methods usually model the lane graph at the pixel or piece level, and recover the lane graph by pixel-wise or piece-wise connection, which breaks down the continuity of the lane. Human drivers focus on and drive along the continuous and complete paths instead of considering lane pieces. Autonomous vehicles also require path-specific guidance from lane graph for trajectory planning. We argue that the path, which indicates the traffic flow, is the primitive of the lane graph. Motivated by this, we propose to model the lane graph in a novel path-wise manner, which well preserves the continuity of the lane and encodes traffic information for planning. We present a path-based online lane graph construction method, termed LaneGAP, which end-to-end learns the path and recovers the lane graph via a Path2Graph algorithm. We qualitatively and quantitatively demonstrate the superiority of LaneGAP over conventional pixel-based and piece-based methods. Abundant visualizations show LaneGAP can cope with diverse traffic conditions. Code and models will be released at \url{https://github.com/hustvl/LaneGAP} for facilitating future research.
翻訳日:2023-03-16 12:46:15 公開日:2023-03-15
# biformer:biレベルルーティングを考慮した視覚トランスフォーマー

BiFormer: Vision Transformer with Bi-Level Routing Attention ( http://arxiv.org/abs/2303.08810v1 )

ライセンス: Link先を確認
Lei Zhu and Xinjiang Wang and Zhanghan Ke and Wayne Zhang and Rynson Lau(参考訳) 視覚変換器のコアビルディングブロックとしての注目は、長距離依存を捉える強力なツールである。 しかし、このようなパワーはコストがかかり、全ての空間的な場所をまたいだペアワイズトークンの相互作用が計算されるため、計算負荷とメモリフットプリントが増大する。 一連の研究は、局所窓や軸線、拡張窓などの注意操作を制限するなど、手作りでコンテンツに依存しない空間を注意に向けることでこの問題を緩和しようとしている。 これらのアプローチとは対照的に、コンテンツ認識を伴うより柔軟な計算の割り当てを可能にするために、バイレベルルーティングによる新しいダイナミックスパースアテンションを提案する。 具体的には、クエリにおいて、無関係なキー値対をまず粗い領域レベルでフィルタリングし、残った候補領域(\ie, routed region)の結合にきめ細かなトークン対注意を適用する。 提案手法は,GPU に親しみやすい行列乗算のみを伴いながら,計算とメモリの両方を節約する。 提案された双方向ルーティングアテンションによって構築され、BiFormerと呼ばれる新しい汎用ビジョントランスフォーマーが提示される。 BiFormerは、他の無関係なトークンに気を散らさずに、関連するトークンの小さなサブセットに出席するので、特に高密度予測タスクにおいて、優れたパフォーマンスと高い計算効率の両方を享受できる。 画像分類,オブジェクト検出,セマンティックセグメンテーションなどのコンピュータビジョンタスクにおける実験結果から,設計の有効性が検証された。 コードは \url{https://github.com/rayleizhu/BiFormer} で入手できる。

As the core building block of vision transformers, attention is a powerful tool to capture long-range dependency. However, such power comes at a cost: it incurs a huge computation burden and heavy memory footprint as pairwise token interaction across all spatial locations is computed. A series of works attempt to alleviate this problem by introducing handcrafted and content-agnostic sparsity into attention, such as restricting the attention operation to be inside local windows, axial stripes, or dilated windows. In contrast to these approaches, we propose a novel dynamic sparse attention via bi-level routing to enable a more flexible allocation of computations with content awareness. Specifically, for a query, irrelevant key-value pairs are first filtered out at a coarse region level, and then fine-grained token-to-token attention is applied in the union of remaining candidate regions (\ie, routed regions). We provide a simple yet effective implementation of the proposed bi-level routing attention, which utilizes the sparsity to save both computation and memory while involving only GPU-friendly dense matrix multiplications. Built with the proposed bi-level routing attention, a new general vision transformer, named BiFormer, is then presented. As BiFormer attends to a small subset of relevant tokens in a \textbf{query adaptive} manner without distraction from other irrelevant ones, it enjoys both good performance and high computational efficiency, especially in dense prediction tasks. Empirical results across several computer vision tasks such as image classification, object detection, and semantic segmentation verify the effectiveness of our design. Code is available at \url{https://github.com/rayleizhu/BiFormer}.
翻訳日:2023-03-16 12:45:57 公開日:2023-03-15
# 音声文に基づく教師なし選挙区パーシングへのカスケードと直接的アプローチ

Cascading and Direct Approaches to Unsupervised Constituency Parsing on Spoken Sentences ( http://arxiv.org/abs/2303.08809v1 )

ライセンス: Link先を確認
Yuan Tseng, Cheng-I Lai, Hung-yi Lee(参考訳) 教師なし解析に関する過去の作業は、書式に制約されている。 本稿では,未ラベルの音声文と未ペアのテキストデータを用いた教師なし音声補聴に関する最初の研究について述べる。 目標は、各ノードが構成要素に対応する音声のスパンであるように、音声文の階層的構文構造を構成構文解析ツリーの形式で決定することである。 我々は,(1)教師なし自動音声認識(ASR)モデルと教師なし構文解析器をカスケードして,ASR文字のパースツリーを得る,(2)教師なし構文解析器を単語レベルの連続表現で直接訓練する,の2つのアプローチを比較した。 これは、まず発話を単語レベルセグメントのシーケンスに分割し、セグメント内で自己教師付き音声表現を集約してセグメント埋め込みを得る。 非ペアテキストのパーサを別々にトレーニングし、推論のためにasrの書き起こしに直接適用することで、教師なし構文解析のより良い結果が得られることが分かりました。 さらに, 精度の高いセグメンテーションだけでは, 音声文を正確に解析するのに十分である可能性が示唆された。 最後に、直接的アプローチは、明示的な帰納的バイアスを伴わずに、頭頭と頭の両方の言語で正しく頭指向性を学ぶことができることを示す。

Past work on unsupervised parsing is constrained to written form. In this paper, we present the first study on unsupervised spoken constituency parsing given unlabeled spoken sentences and unpaired textual data. The goal is to determine the spoken sentences' hierarchical syntactic structure in the form of constituency parse trees, such that each node is a span of audio that corresponds to a constituent. We compare two approaches: (1) cascading an unsupervised automatic speech recognition (ASR) model and an unsupervised parser to obtain parse trees on ASR transcripts, and (2) direct training an unsupervised parser on continuous word-level speech representations. This is done by first splitting utterances into sequences of word-level segments, and aggregating self-supervised speech representations within segments to obtain segment embeddings. We find that separately training a parser on the unpaired text and directly applying it on ASR transcripts for inference produces better results for unsupervised parsing. Additionally, our results suggest that accurate segmentation alone may be sufficient to parse spoken sentences accurately. Finally, we show the direct approach may learn head-directionality correctly for both head-initial and head-final languages without any explicit inductive bias.
翻訳日:2023-03-16 12:45:24 公開日:2023-03-15
# メッシュの逆襲:rgbビデオによる高速で効率的な人間の再構築

Mesh Strikes Back: Fast and Efficient Human Reconstruction from RGB videos ( http://arxiv.org/abs/2303.08808v1 )

ライセンス: Link先を確認
Rohit Jena, Pratik Chaudhari, James Gee, Ganesh Iyer, Siddharth Choudhary, Brandon M. Smith(参考訳) 単眼のRGBビデオからの人間の再構築と合成は、衣服、オクルージョン、テクスチャの不連続性、シャープネス、フレーム固有のポーズの変化など、難しい問題である。 メッシュベースの表現では、RGB、シルエット、キーポイントのみから複雑な衣服やテクスチャをキャプチャできないという前提で、遅延レンダリング、NeRF、暗黙の手法が採用されている。 SMPL+Dメッシュを最適化し,RGB画像,バイナリシルエット,スパース2Dキーポイントのみを用いて,効率的な多面的テクスチャ表現を行うことにより,この基本的な前提に反する視点を提供する。 実験により,我々の手法は,メッシュ方式の視覚的包絡よりも幾何的細部を捉えることができることが示された。 目立たない望ましくないアーティファクトを導入するnrf法と比較して,新しいポーズ合成における競合的な新しい視点合成と改善を示す。 SMPL+Dモデルに対する解空間を微分可能レンダリングと組み合わせることで、計算、トレーニング時間(最大24倍)、推論時間(最大192倍)の劇的な高速化が得られる。 そこで本手法は,NeRF法を高速に初期化することができる。

Human reconstruction and synthesis from monocular RGB videos is a challenging problem due to clothing, occlusion, texture discontinuities and sharpness, and framespecific pose changes. Many methods employ deferred rendering, NeRFs and implicit methods to represent clothed humans, on the premise that mesh-based representations cannot capture complex clothing and textures from RGB, silhouettes, and keypoints alone. We provide a counter viewpoint to this fundamental premise by optimizing a SMPL+D mesh and an efficient, multi-resolution texture representation using only RGB images, binary silhouettes and sparse 2D keypoints. Experimental results demonstrate that our approach is more capable of capturing geometric details compared to visual hull, mesh-based methods. We show competitive novel view synthesis and improvements in novel pose synthesis compared to NeRF-based methods, which introduce noticeable, unwanted artifacts. By restricting the solution space to the SMPL+D model combined with differentiable rendering, we obtain dramatic speedups in compute, training times (up to 24x) and inference times (up to 192x). Our method therefore can be used as is or as a fast initialization to NeRF-based methods.
翻訳日:2023-03-16 12:45:02 公開日:2023-03-15
# ポストホックな説明の理解:アンカーの場合

Understanding Post-hoc Explainers: The Case of Anchors ( http://arxiv.org/abs/2303.08806v1 )

ライセンス: Link先を確認
Gianluigi Lopardo, Frederic Precioso, Damien Garreau(参考訳) 多くのシナリオにおいて、機械学習モデルの解釈可能性は非常に必要だが難しいタスクである。 このようなモデルの個々の予測を説明するため、局所モデルに依存しないアプローチが提案されている。 しかし、説明を生成するプロセスは、ユーザにとって、説明すべき予測と同じくらい謎めいたものになり得る。 さらに、解釈可能性法は理論的な保証を欠くことが多く、単純なモデルに対するそれらの振る舞いはしばしば不明である。 説明者が最先端のモデルで期待通りに振る舞うことを保証することは不可能ではないが、少なくともすべてがシンプルで既に解釈可能なモデルで機能することを保証することはできる。 本稿では,Anchors(Ribeiro et al., 2018)の理論的解析について述べる。テキスト分類器の判断を説明するために,少数の単語をハイライトする一般的な規則に基づく解釈法である。 アルゴリズムを定式化し有用な洞察を提供した後、TF-IDFベクトル化の上に線形テキスト分類器を用いた場合、Anchorが有意義な結果をもたらすことを数学的に示す。 分析フレームワークは,理論的基礎に基づく新しい説明可能性手法の開発に有効であると考えている。

In many scenarios, the interpretability of machine learning models is a highly required but difficult task. To explain the individual predictions of such models, local model-agnostic approaches have been proposed. However, the process generating the explanations can be, for a user, as mysterious as the prediction to be explained. Furthermore, interpretability methods frequently lack theoretical guarantees, and their behavior on simple models is frequently unknown. While it is difficult, if not impossible, to ensure that an explainer behaves as expected on a cutting-edge model, we can at least ensure that everything works on simple, already interpretable models. In this paper, we present a theoretical analysis of Anchors (Ribeiro et al., 2018): a popular rule-based interpretability method that highlights a small set of words to explain a text classifier's decision. After formalizing its algorithm and providing useful insights, we demonstrate mathematically that Anchors produces meaningful results when used with linear text classifiers on top of a TF-IDF vectorization. We believe that our analysis framework can aid in the development of new explainability methods based on solid theoretical foundations.
翻訳日:2023-03-16 12:44:39 公開日:2023-03-15
# 異種リソース間の効率的なai誘導シミュレーションワークフローを実現するクラウドサービス

Cloud Services Enable Efficient AI-Guided Simulation Workflows across Heterogeneous Resources ( http://arxiv.org/abs/2303.08803v1 )

ライセンス: Link先を確認
Logan Ward, J. Gregory Pauloski, Valerie Hayot-Sasson, Ryan Chard, Yadu Babuji, Ganesh Sivaraman, Sutanay Choudhury, Kyle Chard, Rajeev Thakur, Ian Foster(参考訳) 機械学習とシミュレーションを融合するアプリケーションは、例えば、高並列スーパーコンピュータで動作するシミュレーションコードや、特別なアクセラレータ上でAIトレーニングと推論タスクなど、複数のコンピューティングリソースの使用の恩恵を受けることができる。 本稿では、このような異種システムに2つのAI誘導シミュレーションワークフローをデプロイした経験を紹介する。 当社のアプローチのユニークな側面は、クラウドホスト型管理サービスを使用して、クロスリソース認証と認証、FaaS(Function-as-a-service)関数呼び出し、データ転送の困難な側面を管理することです。 これらの手法は,資源間の直接接続に依存するシステムと性能的に同等であることを示す。 我々は、FaaSシステムとデータ転送機能と、マネージャやワーカー間の参照データによるデータ転送システムと、データ転送レイテンシを隠蔽するユーザ設定可能なステアリングアルゴリズムを統合することで、同等性を実現する。 この使いやすさにより、計算科学における異種資源の日常的な活用が期待できる。

Applications that fuse machine learning and simulation can benefit from the use of multiple computing resources, with, for example, simulation codes running on highly parallel supercomputers and AI training and inference tasks on specialized accelerators. Here, we present our experiences deploying two AI-guided simulation workflows across such heterogeneous systems. A unique aspect of our approach is our use of cloud-hosted management services to manage challenging aspects of cross-resource authentication and authorization, function-as-a-service (FaaS) function invocation, and data transfer. We show that these methods can achieve performance parity with systems that rely on direct connection between resources. We achieve parity by integrating the FaaS system and data transfer capabilities with a system that passes data by reference among managers and workers, and a user-configurable steering algorithm to hide data transfer latencies. We anticipate that this ease of use can enable routine use of heterogeneous resources in computational science.
翻訳日:2023-03-16 12:44:20 公開日:2023-03-15
# SpaCyを用いた効果的なメールスパム分類モデルの構築

Building an Effective Email Spam Classification Model with spaCy ( http://arxiv.org/abs/2303.08792v1 )

ライセンス: Link先を確認
Kazem Taghandiki(参考訳) 今日では、Gmail、Outlook、AOL Mailなどのメールサービスを使って、できるだけ早く互いにコミュニケーションし、情報や公式の手紙を送ることができる。 スパムメールやジャンクメールはこの種のコミュニケーションにとって大きな課題であり、通常はボットネットが広告や個人情報を大量に盗む目的で送っている。 毎日不要なスパムメールを受け取ると、受信箱のフォルダーがいっぱいになる。 したがって、スパム検出は基本的な課題であり、クラスタリングやテキスト分類手法を用いてスパムを検出するために多くの研究がなされている。 本稿では,Pythonの自然言語処理ライブラリであるpaCyと3つの機械学習アルゴリズムであるNaive Bayes(NB),Decision Tree C45,Multilayer Perceptron(MLP)を用いて,Gmailサービスから収集したスパムメールを検出する。 スパム検出における多層パーセプトロン(MLP)アルゴリズムの精度(96%)が観察された。

Today, people use email services such as Gmail, Outlook, AOL Mail, etc. to communicate with each other as quickly as possible to send information and official letters. Spam or junk mail is a major challenge to this type of communication, usually sent by botnets with the aim of advertising, harming and stealing information in bulk to different people. Receiving unwanted spam emails on a daily basis fills up the inbox folder. Therefore, spam detection is a fundamental challenge, so far many works have been done to detect spam using clustering and text categorisation methods. In this article, the author has used the spaCy natural language processing library and 3 machine learning (ML) algorithms Naive Bayes (NB), Decision Tree C45 and Multilayer Perceptron (MLP) in the Python programming language to detect spam emails collected from the Gmail service. Observations show the accuracy rate (96%) of the Multilayer Perceptron (MLP) algorithm in spam detection.
翻訳日:2023-03-16 12:43:52 公開日:2023-03-15
# Ins-ATP:高出力顕微鏡画像による有機物ATPの深部推定

Ins-ATP: Deep Estimation of ATP for Organoid Based on High Throughput Microscopic Images ( http://arxiv.org/abs/2303.06796v2 )

ライセンス: Link先を確認
Xuesheng Bian, Cheng Wang, Shuting Chen, Weiquan Liu, Sen Xu, Jinxin Zhu, Rugang Wang, Zexin Chen, Min Huang, Gang Li(参考訳) アデノシン三リン酸(ATP、Adenosine triphosphate)は、高エネルギーのリン酸化合物である。 ATPは生物学における細胞生存性を評価するための重要なバイオマーカーである。 研究者はATPバイオルミネッセンス(ATP bioluminescence)を用いて、薬物の効果を評価する。 しかし、ATP生物発光にはいくつかの制限があり、信頼性の低い薬物スクリーニング結果をもたらす。 ATPバイオルミネッセンスの性能はオルガノイドの細胞溶解を引き起こすため、服薬後の長期生存率の変化を観察することは不可能である。 ATPバイオルミネッセンスの欠点を克服するため,高出力顕微鏡画像に基づく非侵襲的組織型ATP推定モデルであるIns-ATPを提案する。 Ins-ATPは、高出力の顕微鏡画像からオルガノイドのATPを直接推定するので、オルガノイドの薬物反応には影響しない。 したがって、オルガノイドのATP変化は長い間観察され、より安定した結果が得られる。 実験の結果,Ins-ATPによるATP推定はATP生物発光によるATP推定とよく一致していることがわかった。 特に、Ins-ATPの予測は、異なる薬物の有効性評価実験においてATP生物発光によって測定された結果と一致している。

Adenosine triphosphate (ATP) is a high-energy phosphate compound and the most direct energy source in organisms. ATP is an essential biomarker for evaluating cell viability in biology. Researchers often use ATP bioluminescence to measure the ATP of organoid after drug to evaluate the drug efficacy. However, ATP bioluminescence has some limitations, leading to unreliable drug screening results. Performing ATP bioluminescence causes cell lysis of organoids, so it is impossible to observe organoids' long-term viability changes after medication continually. To overcome the disadvantages of ATP bioluminescence, we propose Ins-ATP, a non-invasive strategy, the first organoid ATP estimation model based on the high-throughput microscopic image. Ins-ATP directly estimates the ATP of organoids from high-throughput microscopic images, so that it does not influence the drug reactions of organoids. Therefore, the ATP change of organoids can be observed for a long time to obtain more stable results. Experimental results show that the ATP estimation by Ins-ATP is in good agreement with those determined by ATP bioluminescence. Specifically, the predictions of Ins-ATP are consistent with the results measured by ATP bioluminescence in the efficacy evaluation experiments of different drugs.
翻訳日:2023-03-16 10:45:43 公開日:2023-03-15
# 非IIDデータによるフェデレーション学習の安定化と改善とクライアントドロップアウト

Stabilizing and Improving Federated Learning with Non-IID Data and Client Dropout ( http://arxiv.org/abs/2303.06314v2 )

ライセンス: Link先を確認
Jian Xu, Meiling Yang, Wenbo Ding, Shao-Lun Huang(参考訳) ラベル分布スキュー誘導データヘテロジェニーティは,ユーザプライバシを保護しながら,特に分散データソース上での協調モデルトレーニングのために開発されたフェデレーション学習におけるモデル性能を制限する重要な障害であることが示されている。 この課題は、参加するクライアントが不安定な状況にあり、頻繁にドロップアウトする場合にさらに深刻になる可能性がある。 従来の研究と経験的観察から,分類作業用分類器ヘッドはラベルスキューに敏感であり,FedAvgの不安定な性能は,主に異なるクラスにわたる不均衡なトレーニングサンプルにあることが示された。 バイアス付き分類器ヘッドは、特徴表現の学習にも影響を与える。 したがって、より良いグローバルモデルを構築する上で、バランスの取れた分類器ヘッドを維持することが重要である。 そこで本研究では,クロスエントロピー損失を計算するための事前校正ソフトマックス関数と,エッジデバイスに軽量でグローバルモデルアグリゲーションが容易なローカルトレーニングを再バランスするプロトタイプベースの機能拡張スキームを導入することで,シンプルで効果的なフレームワークを提案する。 非IIDデータとクライアントドロップアウトの存在下での既存のベースラインに対するモデル性能の改善は、ベンチマーク分類タスクに関する広範な実験によって実証される。

The label distribution skew induced data heterogeniety has been shown to be a significant obstacle that limits the model performance in federated learning, which is particularly developed for collaborative model training over decentralized data sources while preserving user privacy. This challenge could be more serious when the participating clients are in unstable circumstances and dropout frequently. Previous work and our empirical observations demonstrate that the classifier head for classification task is more sensitive to label skew and the unstable performance of FedAvg mainly lies in the imbalanced training samples across different classes. The biased classifier head will also impact the learning of feature representations. Therefore, maintaining a balanced classifier head is of significant importance for building a better global model. To this end, we propose a simple yet effective framework by introducing a prior-calibrated softmax function for computing the cross-entropy loss and a prototype-based feature augmentation scheme to re-balance the local training, which are lightweight for edge devices and can facilitate the global model aggregation. The improved model performance over existing baselines in the presence of non-IID data and client dropout is demonstrated by conducting extensive experiments on benchmark classification tasks.
翻訳日:2023-03-16 10:45:04 公開日:2023-03-15
# 解釈可能なアウトリー・サマリゼーション

Interpretable Outlier Summarization ( http://arxiv.org/abs/2303.06261v2 )

ライセンス: Link先を確認
Yu Wang, Lei Cao, Yizhou Yan, Samuel Madden(参考訳) 異常検出は、金融詐欺の防止、ネットワーク侵入の防御、差し迫ったデバイス障害の検出など、実際のアプリケーションにおいて極めて重要である。 外乱検出結果の評価における人的労力を削減し、効果的に外乱検出結果を実行可能な洞察に変換するため、ユーザは外乱検出結果のサブグループの解釈可能な要約を自動的に生成するシステムをしばしば期待する。 残念ながら、今のところそのようなシステムは存在しない。 このギャップを埋めるために,人間の理解可能なルールのコンパクトな集合を学習し,異常検出結果の要約と説明を行うSTAIRを提案する。 これらのルールを生成するために古典的な決定木アルゴリズムを使用する代わりに、STAIRは最小限の複雑さを持つ少数のルールを生成するために新しい最適化目標を提案する。 階段の学習アルゴリズムは、大きなルールを反復的に分割し、各イテレーションでこの目標を最大化するために最適なルールを生成する。 さらに, 単純な規則で要約し難い高次元, 複雑なデータセットを効果的に扱うために, L-STAIRと呼ばれる局所化STAIRアプローチを提案する。 データ局所性を考慮に入れ、同時にデータを分割し、各パーティションのローカライズされたルールセットを学ぶ。 多くの外れ値ベンチマークデータセットに関する実験により、stairは外れ値検出結果を要約するのに必要となるルールの複雑さを大幅に削減し、決定木法と比較して人間が理解し、評価しやすいことを示した。

Outlier detection is critical in real applications to prevent financial fraud, defend network intrusions, or detecting imminent device failures. To reduce the human effort in evaluating outlier detection results and effectively turn the outliers into actionable insights, the users often expect a system to automatically produce interpretable summarizations of subgroups of outlier detection results. Unfortunately, to date no such systems exist. To fill this gap, we propose STAIR which learns a compact set of human understandable rules to summarize and explain the anomaly detection results. Rather than use the classical decision tree algorithms to produce these rules, STAIR proposes a new optimization objective to produce a small number of rules with least complexity, hence strong interpretability, to accurately summarize the detection results. The learning algorithm of STAIR produces a rule set by iteratively splitting the large rules and is optimal in maximizing this objective in each iteration. Moreover, to effectively handle high dimensional, highly complex data sets which are hard to summarize with simple rules, we propose a localized STAIR approach, called L-STAIR. Taking data locality into consideration, it simultaneously partitions data and learns a set of localized rules for each partition. Our experimental study on many outlier benchmark datasets shows that STAIR significantly reduces the complexity of the rules required to summarize the outlier detection results, thus more amenable for humans to understand and evaluate, compared to the decision tree methods.
翻訳日:2023-03-16 10:44:41 公開日:2023-03-15
# 一般化量子部分空間による誤差軽減のためのハードウェア制御不完全化の活用

Leveraging hardware-control imperfections for error mitigation via generalized quantum subspace ( http://arxiv.org/abs/2303.07660v2 )

ライセンス: Link先を確認
Yasuhiro Ohkura and Suguru Endo and Takahiko Satoh and Rodney Van Meter and Nobuyuki Yoshioka(参考訳) 完全なフォールトトレランスのない量子コンピューティングの時代には、量子デバイスの計算能力を高めるために、量子誤差緩和技術によってノイズ効果を抑制することが不可欠である。 最も効果的なノイズ非依存誤り緩和スキームの1つは一般化量子部分空間展開(gse)法であり、量子部分空間展開の枠組みの下で様々な緩和アルゴリズムを統合する。 具体的には、GSE法のサブクラスであるフォールト・サブスペース法は、異なるノイズレベルを持つ量子状態のコピーを含む誤差緩和量子状態を構築する。 しかし、実験的な側面から、シミュレーション結果の誤差を効率的に抑えるために、ノイズを確実に増幅する方法を決定することは容易ではない。 本研究では,ハードウェア指向のノイズを故意に増幅し,アイデンティティの挿入によるノイズの増大,クロストークの利用,ノイズチャネルの確率的実装という,フォールト・サブスペース法の可能性を検討する。 本提案の妥当性は,ibm quantumで利用可能な量子デバイスにおけるノイズパラメータを反映した数値シミュレーションと,実験の両方を通じて実証する。

In the era of quantum computing without full fault-tolerance, it is essential to suppress noise effects via the quantum error mitigation techniques to enhance the computational power of the quantum devices. One of the most effective noise-agnostic error mitigation schemes is the generalized quantum subspace expansion (GSE) method, which unifies various mitigation algorithms under the framework of the quantum subspace expansion. Specifically, the fault-subspace method, a subclass of GSE method, constructs an error-mitigated quantum state with copies of quantum states with different noise levels. However, from the experimental aspect, it is nontrivial to determine how to reliably amplify the noise so that the error in the simulation result is efficiently suppressed. In this work, we explore the potential of the fault-subspace method by leveraging the hardware-oriented noise: intentional amplification of the decoherence, noise boost by insertion of identity, making use of crosstalk, and probabilistic implementation of noise channel. We demonstrate the validity of our proposals via both numerical simulations with the noise parameters reflecting those in quantum devices available via IBM Quantum, and also experiments performed therein.
翻訳日:2023-03-16 10:37:40 公開日:2023-03-15
# 実験固体力学における機械学習の最近の進歩と応用

Recent Advances and Applications of Machine Learning in Experimental Solid Mechanics: A Review ( http://arxiv.org/abs/2303.07647v2 )

ライセンス: Link先を確認
Hanxun Jin, Enrui Zhang, Horacio D. Espinosa(参考訳) 長年にわたり、実験的な固体力学は自然および新規物質の力学特性を特徴づけ、理解する上で重要な役割を担ってきた。 機械学習(ML)の最近の進歩は、実験設計、データ分析、不確実性定量化、逆問題など、この分野に新たな機会をもたらす。 この新興分野における近年の論文の数が爆発的に増えているため、実験固体力学における最近のML応用の包括的かつ最新のレビューを行うのは時期尚早である。 本稿では、まず、このレビューに係わる共通MLアルゴリズムと用語の概要を説明し、物理インフォームドおよび物理ベースのML手法に重点を置いている。 次に, 破壊力学, バイオメカニクス, ナノ・マイクロメカニクス, 建築材料, 2次元材料など, 従来および新興の実験力学分野における最近のML応用について概説する。 最後に,MLを多モードおよび多忠実な実験データセットに適用する現在の課題を強調し,今後の研究方向性を提案する。 このレビューは、MLメソッドの使用に関する貴重な洞察と、固体力学の研究者が実験に組み込むための様々な例を提供することを目的としている。

For many decades, experimental solid mechanics has played a crucial role in characterizing and understanding the mechanical properties of natural and novel materials. Recent advances in machine learning (ML) provide new opportunities for the field, including experimental design, data analysis, uncertainty quantification, and inverse problems. As the number of papers published in recent years in this emerging field is exploding, it is timely to conduct a comprehensive and up-to-date review of recent ML applications in experimental solid mechanics. Here, we first provide an overview of common ML algorithms and terminologies that are pertinent to this review, with emphasis placed on physics-informed and physics-based ML methods. Then, we provide thorough coverage of recent ML applications in traditional and emerging areas of experimental mechanics, including fracture mechanics, biomechanics, nano- and micro-mechanics, architected materials, and 2D material. Finally, we highlight some current challenges of applying ML to multi-modality and multi-fidelity experimental datasets and propose several future research directions. This review aims to provide valuable insights into the use of ML methods as well as a variety of examples for researchers in solid mechanics to integrate into their experiments.
翻訳日:2023-03-16 10:37:23 公開日:2023-03-15
# Architext: 言語駆動生成アーキテクチャ設計

Architext: Language-Driven Generative Architecture Design ( http://arxiv.org/abs/2303.07519v2 )

ライセンス: Link先を確認
Theodoros Galanos, Antonios Liapis and Georgios N. Yannakakis(参考訳) アーキテクチャ設計は、幅広い分野、技術、プロプライエタリなデザインソフトウェア、専門知識、そしてほぼ無限の制約を含む非常に複雑なプラクティスである。 直感的でアクセシブルでスケーラブルな設計プロセスを実現することは、パフォーマンス駆動で持続可能な設計への重要なステップです。 そこで本研究では,新しい意味生成支援ツールであるarchitextを紹介する。 Architextは、大規模な言語モデルに入力として与えられる自然言語プロンプトのみを持つ設計生成を可能にする。 我々は,1億2000万から60億のパラメータを含む事前学習された言語モデルの意味的精度と多様性に着目し,Architextの下流タスク性能の詳細な定量的評価を行う。 Architextモデルは、特定の設計タスクを学習し、有効な住宅レイアウトを100%近い速度で生成することができる。 大きなモデル(gpt-j)では、さまざまなプロンプトカテゴリで25%から80%以上という、印象的な精度を実現している。 私たちは、このエキサイティングなデザイン研究領域で実験を刺激したいと考えている、微調整Architextモデルと合成データセットをオープンソースにしています。

Architectural design is a highly complex practice that involves a wide diversity of disciplines, technologies, proprietary design software, expertise, and an almost infinite number of constraints, across a vast array of design tasks. Enabling intuitive, accessible, and scalable design processes is an important step towards performance-driven and sustainable design for all. To that end, we introduce Architext, a novel semantic generation assistive tool. Architext enables design generation with only natural language prompts, given to large-scale Language Models, as input. We conduct a thorough quantitative evaluation of Architext's downstream task performance, focusing on semantic accuracy and diversity for a number of pre-trained language models ranging from 120 million to 6 billion parameters. Architext models are able to learn the specific design task, generating valid residential layouts at a near 100% rate. Accuracy shows great improvement when scaling the models, with the largest model (GPT-J) yielding impressive accuracy ranging between 25% to over 80% for different prompt categories. We open source the finetuned Architext models and our synthetic dataset, hoping to inspire experimentation in this exciting area of design research.
翻訳日:2023-03-16 10:37:00 公開日:2023-03-15
# 被害者モデル情報に逆例を適用できるか?

Can Adversarial Examples Be Parsed to Reveal Victim Model Information? ( http://arxiv.org/abs/2303.07474v2 )

ライセンス: Link先を確認
Yuguang Yao, Jiancheng Liu, Yifan Gong, Xiaoming Liu, Yanzhi Wang, Xue Lin, Sijia Liu(参考訳) 最先端機械学習(ML)モデル、特にディープニューラルネットワーク(DNN)の誤予測を引き起こす可能性のある、知覚不能なイメージ摂動を生成するために、多くの逆襲攻撃法が開発されている。 敵の攻撃に関する激しい研究にもかかわらず、敵の攻撃でもたらされた「アルカナ」を明らかにするための努力はほとんど行われなかった。 本研究では、データ固有の敵インスタンスから、データに依存しない被害者モデル(VM)情報(MLモデルやDNNの特徴)を推測できるかどうかを問う。 これは、攻撃中に隠されたVM情報の観点から'arcana'を明らかにするタスクです。 我々は,VMのモデル属性のクラス(アーキテクチャタイプ,カーネルサイズ,アクティベーション関数,重量空間)を,このVMから生成された攻撃インスタンスに正しく割り当てる,教師付き学習によるモデル解析にアプローチする。 135の犠牲者モデル(5つのアーキテクチャタイプ、3つのカーネルサイズ設定、3つのアクティベーション関数タイプ、3つのウェイト空間比)から生成された7種類の攻撃タイプに対する敵攻撃のデータセットを収集します。 本稿では, 単純な教師付きモデル解析ネットワーク(MPN)が, 攻撃設定がトレーニング設定(即ち, 分布内一般化評価)と一致している場合, 未知の敵攻撃からVM属性を推測できることを示す。 また,敵の攻撃からのvm解析の実現可能性や,解析性能のトレーニングや評価要因の影響を正当化するための広範な実験も実施する(例えば,アウトオブディストリビューション評価における一般化課題)。 さらに、提案したMPNを用いて、トランスファー攻撃からソースVM属性を解明し、モデル解析とアタック転送可能性の間の潜在的な接続に光を当てる方法について述べる。

Numerous adversarial attack methods have been developed to generate imperceptible image perturbations that can cause erroneous predictions of state-of-the-art machine learning (ML) models, in particular, deep neural networks (DNNs). Despite intense research on adversarial attacks, little effort was made to uncover 'arcana' carried in adversarial attacks. In this work, we ask whether it is possible to infer data-agnostic victim model (VM) information (i.e., characteristics of the ML model or DNN used to generate adversarial attacks) from data-specific adversarial instances. We call this 'model parsing of adversarial attacks' - a task to uncover 'arcana' in terms of the concealed VM information in attacks. We approach model parsing via supervised learning, which correctly assigns classes of VM's model attributes (in terms of architecture type, kernel size, activation function, and weight sparsity) to an attack instance generated from this VM. We collect a dataset of adversarial attacks across 7 attack types generated from 135 victim models (configured by 5 architecture types, 3 kernel size setups, 3 activation function types, and 3 weight sparsity ratios). We show that a simple, supervised model parsing network (MPN) is able to infer VM attributes from unseen adversarial attacks if their attack settings are consistent with the training setting (i.e., in-distribution generalization assessment). We also provide extensive experiments to justify the feasibility of VM parsing from adversarial attacks, and the influence of training and evaluation factors in the parsing performance (e.g., generalization challenge raised in out-of-distribution evaluation). We further demonstrate how the proposed MPN can be used to uncover the source VM attributes from transfer attacks, and shed light on a potential connection between model parsing and attack transferability.
翻訳日:2023-03-16 10:36:41 公開日:2023-03-15
# mp-former: 画像分割用マスク操縦トランス

MP-Former: Mask-Piloted Transformer for Image Segmentation ( http://arxiv.org/abs/2303.07336v2 )

ライセンス: Link先を確認
Hao Zhang, Feng Li, Huaizhe Xu, Shijia Huang, Shilong Liu, Lionel M. Ni, Lei Zhang(参考訳) 画像セグメンテーションのためのMask2Formerにおけるマスク配置を改善するマスクパイロット変換器を提案する。 この改善は、Mask2Formerが連続するデコーダ層間のマスク予測の不整合に悩まされ、不整合最適化目標とデコーダクエリの低利用につながるという観察に基づいている。 そこで本研究では,マスクの被写体にマスクを装着し,被写体復元のための模型を訓練し,被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体化法を提案する。 マスク・アテンションで使用される予測マスクと比較すると、地平線マスクはパイロットとして機能し、Mask2Formerにおける不正確なマスク予測の負の影響を効果的に軽減する。 この技術に基づいて、我々の \M は3つのイメージセグメンテーションタスク(インスタンス、パノプティクス、セマンティクス)で顕著なパフォーマンス向上を実現し、Cityscapes インスタンスと ResNet-50 バックボーンによるセマンティクスセグメンテーションタスクで$2.3$AP と$+1.6$mIoU が得られる。 また,ade20kでは,resnet-50 と swin-l バックボーンの両方で,トレーニング回数の半数で mask2former を上回り,トレーニング速度を大幅に向上させた。 さらに,本手法では,学習中の計算量が少なく,推論時に余分な計算も行わない。 私たちのコードは \url{https://github.com/IDEA-Research/MP-Former} でリリースされます。

We present a mask-piloted Transformer which improves masked-attention in Mask2Former for image segmentation. The improvement is based on our observation that Mask2Former suffers from inconsistent mask predictions between consecutive decoder layers, which leads to inconsistent optimization goals and low utilization of decoder queries. To address this problem, we propose a mask-piloted training approach, which additionally feeds noised ground-truth masks in masked-attention and trains the model to reconstruct the original ones. Compared with the predicted masks used in mask-attention, the ground-truth masks serve as a pilot and effectively alleviate the negative impact of inaccurate mask predictions in Mask2Former. Based on this technique, our \M achieves a remarkable performance improvement on all three image segmentation tasks (instance, panoptic, and semantic), yielding $+2.3$AP and $+1.6$mIoU on the Cityscapes instance and semantic segmentation tasks with a ResNet-50 backbone. Our method also significantly speeds up the training, outperforming Mask2Former with half of the number of training epochs on ADE20K with both a ResNet-50 and a Swin-L backbones. Moreover, our method only introduces little computation during training and no extra computation during inference. Our code will be released at \url{https://github.com/IDEA-Research/MP-Former}.
翻訳日:2023-03-16 10:36:07 公開日:2023-03-15
# 無用な絡み合わせによる蒸留可能な絡み合わせと量子容量の推定

Estimate distillable entanglement and quantum capacity by squeezing useless entanglement ( http://arxiv.org/abs/2303.07228v2 )

ライセンス: Link先を確認
Chengkai Zhu, Chenghong Zhu, Xin Wang(参考訳) 量子情報処理では絡み合い蒸留が重要である。 しかし、蒸留可能な絡み合いとその密接に関連する重要な量であるノイズのある量子チャネルの量子容量を推定することは依然として困難である。 本研究では, 蒸留可能な絡み合いや量子容量に対して, それぞれの寄与が無視されるであろう状態や量子チャネル内の不要な絡み合いを絞り込むことにより, 両量を評価する手法を提案する。 まず,対象状態と自由状態の集合の間の最小分岐を定量化するために,資源の逆分岐と呼ばれる一般資源測度を考える。 次に, エンタングルメントの逆マックス関係エントロピーを導入し, 蒸留性エンタングルメント上の効率的に計算可能な上界を確立する。 また、資源の逆分散を量子チャネルに拡張し、量子容量上の上限を導出する。 さらに, 脱分極や振幅減衰などの実用的な雑音下での最大絡合状態の浄化について検討し, また, 一方向蒸留可能な絡合状態の推定における改善点を確立する。 我々のバウンダリはまた、パウリチャネルやランダム混合ユニタリチャネルを含む量子ビット量子チャネルの量子容量を評価するための有用なベンチマークも提供する。

Entanglement distillation is crucial in quantum information processing. But it remains challenging to estimate the distillable entanglement and its closely related essential quantity, the quantum capacity of a noisy quantum channel. In this work, we propose methods for evaluating both quantities by squeezing out useless entanglement within a state or a quantum channel, whose contributions are expected to be ignored for the distillable entanglement or the quantum capacity, respectively. We first consider a general resource measure called the reverse divergence of resources to quantify the minimum divergence between a target state and the set of free states. We then introduce the reverse max-relative entropy of entanglement and apply it to establish efficiently computable upper bounds on the distillable entanglement. We also extend the reverse divergence of resources to quantum channels and derive upper bounds on the quantum capacity. We further apply our method to investigate purifying the maximally entangled states under practical noises, such as depolarizing and amplitude damping noises, and notably establish improvements in estimating the one-way distillable entanglement. Our bounds also offer useful benchmarks for evaluating the quantum capacities of qubit quantum channels of interest, including the Pauli channels and the random mixed unitary channels.
翻訳日:2023-03-16 10:35:06 公開日:2023-03-15
# 心血管イベント検出のための自己監督型総合検査室進歩事前訓練モデル

Self-supervised based general laboratory progress pretrained model for cardiovascular event detection ( http://arxiv.org/abs/2303.06980v2 )

ライセンス: Link先を確認
Li-Chin Chen, Kuo-Hsuan Hung, Yi-Ju Tseng, Hsin-Yao Wang, Tse-Min Lu, Wei-Chieh Huang, Yu Tsao(参考訳) 定期的な監視は、循環器疾患の管理に不可欠である。 稀な疾患や特定の疾患に対する患者の採用は、患者の大きさやエピソード的観察によって制限されることが多い。 しかしこれらのデータは、その不規則さ、時間性、不在感、および疎遠さで悪名高い。 本研究は, 自己教師型学習(SSL)と移動学習を利用して, 上記の障壁を克服し, 心臓血管実験室パラメータの患者進行傾向を有意な症例から, 稀な, 特定の心血管イベント検出に移行した。 高血圧症患者(まだ糖尿病患者)を用いた総合検査前トレーニングモデル(glp)をプレトレーニングし,その臨床経過を経皮的冠動脈インターベンション患者における標的血管再血管化(tvr)の検出に移管した。 GLPは補間データを利用した2段階のトレーニングプロセスを採用し、SSLの性能を高めた。 プレトレーニング後,TVR予測のために微調整を行った。 提案された2段階のトレーニングプロセスはSSLを上回った。 glpで処理すると、その分類は、平均精度で 0.63 から 0.90 に向上した。 従来のGLP処理と比較して,全ての指標が有意に優れていた(p < 0.01)。 この表現は、アルゴリズム機構と多種多様なデータ分布傾向とは無関係に、明確な分離性を示した。 本手法は, 既往例から小規模症例への循環器検査の進展傾向を効果的に伝達し, エピソード観察を伴わずに心血管イベントのリスク評価を支援する効果を示す。 このアプローチを他の検査や疾患にも拡張する可能性は有望です。

Regular surveillance is an indispensable aspect of managing cardiovascular disorders. Patient recruitment for rare or specific diseases is often limited due to their small patient size and episodic observations, whereas prevalent cases accumulate longitudinal data easily due to regular follow-ups. These data, however, are notorious for their irregularity, temporality, absenteeism, and sparsity. In this study, we leveraged self-supervised learning (SSL) and transfer learning to overcome the above-mentioned barriers, transferring patient progress trends in cardiovascular laboratory parameters from prevalent cases to rare or specific cardiovascular events detection. We pretrained a general laboratory progress (GLP) pretrain model using hypertension patients (who were yet to be diabetic), and transferred their laboratory progress trend to assist in detecting target vessel revascularization (TVR) in percutaneous coronary intervention patients. GLP adopted a two-stage training process that utilized interpolated data, enhancing the performance of SSL. After pretraining GLP, we fine-tuned it for TVR prediction. The proposed two-stage training process outperformed SSL. Upon processing by GLP, the classification demonstrated a marked improvement, increasing from 0.63 to 0.90 in averaged accuracy. All metrics were significantly superior (p < 0.01) to the performance of prior GLP processing. The representation displayed distinct separability independent of algorithmic mechanisms, and diverse data distribution trend. Our approach effectively transferred the progression trends of cardiovascular laboratory parameters from prevalent cases to small-numbered cases, thereby demonstrating its efficacy in aiding the risk assessment of cardiovascular events without limiting to episodic observation. The potential for extending this approach to other laboratory tests and diseases is promising.
翻訳日:2023-03-16 10:34:33 公開日:2023-03-15
# DR2: ブラインド顔修復のための拡散型ロバスト劣化再検討

DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration ( http://arxiv.org/abs/2303.06885v2 )

ライセンス: Link先を確認
Zhixin Wang, Xiaoyun Zhang, Ziying Zhang, Huangjie Zheng, Mingyuan Zhou, Ya Zhang, Yanfeng Wang(参考訳) ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成するが、より複雑なケースは現実世界で起こりうる。 この仮定と実際の劣化のギャップは、成果物がしばしば出力で観察される復元性能を損なう。 しかし、トレーニングデータに実際のケースをカバーするためのあらゆる種類の劣化を含めることは、高価で不可能である。 このロバスト性問題に対処するために,まず劣化した画像を粗いが劣化不変な予測に変換する拡散ベースロバスト劣化除去器(dr2)を提案する。 DR2は, 良好な拡散確率モデルを用いて, 様々な種類の劣化がガウス雑音に繋がるノイズ状態に拡散し, 反復分解ステップを通じて意味情報をキャプチャする。 その結果、dr2は共通の劣化(ぼかし、リサイズ、ノイズ、圧縮など)に対して堅牢であり、拡張モジュールの異なる設計と互換性がある。 様々な環境での実験によって、我々のフレームワークは、高度に分解された合成および実世界のデータセットで最先端のメソッドよりも優れています。

Blind face restoration usually synthesizes degraded low-quality data with a pre-defined degradation model for training, while more complex cases could happen in the real world. This gap between the assumed and actual degradation hurts the restoration performance where artifacts are often observed in the output. However, it is expensive and infeasible to include every type of degradation to cover real-world cases in the training data. To tackle this robustness issue, we propose Diffusion-based Robust Degradation Remover (DR2) to first transform the degraded image to a coarse but degradation-invariant prediction, then employ an enhancement module to restore the coarse prediction to a high-quality image. By leveraging a well-performing denoising diffusion probabilistic model, our DR2 diffuses input images to a noisy status where various types of degradation give way to Gaussian noise, and then captures semantic information through iterative denoising steps. As a result, DR2 is robust against common degradation (e.g. blur, resize, noise and compression) and compatible with different designs of enhancement modules. Experiments in various settings show that our framework outperforms state-of-the-art methods on heavily degraded synthetic and real-world datasets.
翻訳日:2023-03-16 10:34:03 公開日:2023-03-15
# Open-Vocabulary Segmentation and Detection のための簡易フレームワーク

A Simple Framework for Open-Vocabulary Segmentation and Detection ( http://arxiv.org/abs/2303.08131v2 )

ライセンス: Link先を確認
Hao Zhang, Feng Li, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianfeng Gao, Jianwei Yang, Lei Zhang(参考訳) 異なるセグメンテーションと検出データセットから共同で学習する,単純なopen-vocabulary segmentation and detection frameworkである \ourmodel{} を提案する。 語彙と注釈の粒度のギャップを埋めるために,まず事前学習されたテキストエンコーダを導入し,視覚概念を2つのタスクにエンコードし,それらの共通意味空間を学習する。 これにより、セグメンテーションタスクのみをトレーニングした相手と比較すると、合理的な結果が得られる。 タスクの差分処理 - セグメンテーションでは、前景オブジェクトと背景オブジェクトの両方のマスクを抽出する必要があるが、検出は単に前景を気にするだけである。 これらの問題に対処するために,前景/後景と条件付きマスクデコードとの干渉を低減し,与えられた箱のマスク生成を支援するデコードを提案する。 そこで本研究では,COCOとObjects365を併用した簡単なエンコーダデコーダモデルを開発した。 プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。 具体的には、Open-vocabularyインスタンスとpanopticセグメンテーションを5つのデータセットで比較し、同様の設定でLVISとODinWでオープン-vocabulary検出を行うというこれまでの作業を上回っている。 特定のタスクに移行すると,COCOとADE20Kの単眼セグメンテーションとADE20KとCityscapesのインスタンスセグメンテーションのための新しいSoTAを実現する。 最後に,有理モデル{} はセグメンテーションと検出に関する共同トレーニングの可能性を初めて探求し,オープンワールドにおける両タスクの単一モデル開発のための強力なベースラインとして受け取れることを期待する。

We present \ourmodel{}, a simple Open-vocabulary Segmentation and Detection framework that jointly learns from different segmentation and detection datasets. To bridge the gap of vocabulary and annotation granularity, we first introduce a pre-trained text encoder to encode all the visual concepts in two tasks and learn a common semantic space for them. This gives us reasonably good results compared with the counterparts trained on segmentation task only. To further reconcile them, we locate two discrepancies: $i$) task discrepancy -- segmentation requires extracting masks for both foreground objects and background stuff, while detection merely cares about the former; $ii$) data discrepancy -- box and mask annotations are with different spatial granularity, and thus not directly interchangeable. To address these issues, we propose a decoupled decoding to reduce the interference between foreground/background and a conditioned mask decoding to assist in generating masks for given boxes. To this end, we develop a simple encoder-decoder model encompassing all three techniques and train it jointly on COCO and Objects365. After pre-training, our model exhibits competitive or stronger zero-shot transferability for both segmentation and detection. Specifically, \ourmodel{} beats the state-of-the-art method for open-vocabulary instance and panoptic segmentation across 5 datasets, and outperforms previous work for open-vocabulary detection on LVIS and ODinW under similar settings. When transferred to specific tasks, our model achieves new SoTA for panoptic segmentation on COCO and ADE20K, and instance segmentation on ADE20K and Cityscapes. Finally, we note that \ourmodel{} is the first to explore the potential of joint training on segmentation and detection, and hope it can be received as a strong baseline for developing a single model for both tasks in open world.
翻訳日:2023-03-16 10:27:19 公開日:2023-03-15
# 固定専門家アドバイザを用いた帯域情報理論レグレクト境界

Information-Theoretic Regret Bounds for Bandits with Fixed Expert Advice ( http://arxiv.org/abs/2303.08102v2 )

ライセンス: Link先を確認
Khaled Eldowa, Nicol\`o Cesa-Bianchi, Alberto Maria Metelli, Marcello Restelli(参考訳) 我々は,専門家が修正され,行動に関する既知の分布が存在する場合に,専門家のアドバイスにより,バンディットの問題を調査する。 先行分析を改良した結果,後悔は専門家間の類似性を測定する情報理論量によって制御されることがわかった。 いくつかの自然の特殊ケースでは、専門家が十分に類似しているならば、任意に0に近づくことができるEXP4の最初の後悔境界が得られる。 別のアルゴリズムでは、kl-ダイバージェンスの観点から専門家間の類似性を記述する別のバウンドを提供し、ある場合においてこのバウンドが exp4 のバウンドよりも小さいことを示す。 さらに、ある専門家のクラスに対して、分析したアルゴリズムがほぼ最適であることを示す下限を提供する。

We investigate the problem of bandits with expert advice when the experts are fixed and known distributions over the actions. Improving on previous analyses, we show that the regret in this setting is controlled by information-theoretic quantities that measure the similarity between experts. In some natural special cases, this allows us to obtain the first regret bound for EXP4 that can get arbitrarily close to zero if the experts are similar enough. While for a different algorithm, we provide another bound that describes the similarity between the experts in terms of the KL-divergence, and we show that this bound can be smaller than the one of EXP4 in some cases. Additionally, we provide lower bounds for certain classes of experts showing that the algorithms we analyzed are nearly optimal in some cases.
翻訳日:2023-03-16 10:26:41 公開日:2023-03-15
# エイリアスフリー共振器:ポリノミアル活性化によるフラクショナルシフト不変性

Alias-Free Convnets: Fractional Shift Invariance via Polynomial Activations ( http://arxiv.org/abs/2303.08085v2 )

ライセンス: Link先を確認
Hagay Michaeli, Tomer Michaeli, Daniel Soudry(参考訳) CNNは翻訳に不変であると考えられているが、最近の研究では、ダウンサンプリング層に由来するエイリアス効果のため、そうではないことが示されている。 エイリアスを防止するための既存のアーキテクチャソリューションは、これらの効果を解決しないため部分的である。 本稿では,ダウンサンプリング層と非線形層の両方に対処する拡張アンチエイリアス手法を提案する。 提案モデルは整数および分数(すなわちサブピクセル)変換に対して不変であり、従って逆変換に対するロバスト性の観点から他のシフト不変法よりも優れていることを示す。

Although CNNs are believed to be invariant to translations, recent works have shown this is not the case, due to aliasing effects that stem from downsampling layers. The existing architectural solutions to prevent aliasing are partial since they do not solve these effects, that originate in non-linearities. We propose an extended anti-aliasing method that tackles both downsampling and non-linear layers, thus creating truly alias-free, shift-invariant CNNs. We show that the presented model is invariant to integer as well as fractional (i.e., sub-pixel) translations, thus outperforming other shift-invariant methods in terms of robustness to adversarial translations.
翻訳日:2023-03-16 10:26:27 公開日:2023-03-15
# 力場構築によるODEスタイル生成拡散モデルの解釈

Interpretable ODE-style Generative Diffusion Model via Force Field Construction ( http://arxiv.org/abs/2303.08063v2 )

ライセンス: Link先を確認
Weiyang Jin and Yongpei Zhu and Yuxi Peng(参考訳) しばらくの間、研究者は生成拡散モデルと数理物理学の深い関係を確立する方法の開発に注力してきた。 これまでの努力にもかかわらず、進歩は単一の専門的な方法の追求に限定されてきた。 拡散モデルの解釈可能性を高め, 新たな研究方向を探るためには, 統一ode型生成拡散モデルを確立することが不可欠である。 このようなモデルは物理モデルからインスピレーションを得て、明確な幾何学的意味を持つべきである。 本稿では, 数学的観点から, ode型生成拡散モデルの構築に適した様々な物理モデルを特定することを目的とする。 そして、これらのモデルを統一した手法にまとめる。 さらに,本手法によって同定された理論モデルを用いて,新しい拡散モデル手法を開発し,実験を行うケーススタディを実施している。 CIFAR-10の実験は、我々のアプローチの有効性を実証した。 画像生成速度に関して非常に熟練した結果を得る計算フレームワークを構築し,インセプションスコアとfidスコアの両方において優れた性能を示す追加モデルを構築した。 これらの結果は拡散モデルの発展における本手法の意義を浮き彫りにするものである。

For a considerable time, researchers have focused on developing a method that establishes a deep connection between the generative diffusion model and mathematical physics. Despite previous efforts, progress has been limited to the pursuit of a single specialized method. In order to advance the interpretability of diffusion models and explore new research directions, it is essential to establish a unified ODE-style generative diffusion model. Such a model should draw inspiration from physical models and possess a clear geometric meaning. This paper aims to identify various physical models that are suitable for constructing ODE-style generative diffusion models accurately from a mathematical perspective. We then summarize these models into a unified method. Additionally, we perform a case study where we use the theoretical model identified by our method to develop a range of new diffusion model methods, and conduct experiments. Our experiments on CIFAR-10 demonstrate the effectiveness of our approach. We have constructed a computational framework that attains highly proficient results with regards to image generation speed, alongside an additional model that demonstrates exceptional performance in both Inception score and FID score. These results underscore the significance of our method in advancing the field of diffusion models.
翻訳日:2023-03-16 10:26:14 公開日:2023-03-15
# マルチモデルアクティブラーニングによる統計ハードウェア設計

Statistical Hardware Design With Multi-model Active Learning ( http://arxiv.org/abs/2303.08054v2 )

ライセンス: Link先を確認
Alireza Ghaffari, Masoud Asgharian, Yvon Savaria(参考訳) 現代の社会に貢献する多くの新しいアプリケーションが複雑化するにつれ、効率的なコンピューティングプラットフォームを設計する必要がある。 しかし、効率的なハードウェアの設計は、複数のパラメータとその相互作用を扱う複雑な多目的問題である。 ハードウェア設計には多数のパラメータや目的があるので、可能な組み合わせをすべて合成することは、最適解を見つけるための実現可能な方法ではない。 この問題に取り組むための有望なアプローチは、望ましいハードウェア性能の統計的モデリングである。 本稿では,この問題を解決するためのモデルベースアクティブラーニング手法を提案する。 提案手法はベイズモデルを用いてハードウェア性能の様々な側面を特徴付ける。 また、より正確なモデルを作成するために、トランスファー学習とガウス回帰ブートストラップ技術とアクティブラーニングを併用しています。 提案手法は,設計空間探索と性能予測を同時に行うのに十分な精度のハードウェアモデルを提供する。 提案手法は,FPGAターゲット用マイクロアーキテクチャ設計やOpenCLカーネルなど,様々なハードウェア構成のための設計空間探索と性能予測を行う。 実験により,提案する統計モデルの予測力を維持しつつ,性能モデル作成に必要なサンプル数が大幅に減少することを示した。 例えば、性能予測設定では、提案手法はモデルを作成するのに65%のサンプルが必要であり、設計空間探索設定では、提案手法は50未満のサンプルを探索することで最適なパラメータ設定を見つけることができる。

With the rising complexity of numerous novel applications that serve our modern society comes the strong need to design efficient computing platforms. Designing efficient hardware is, however, a complex multi-objective problem that deals with multiple parameters and their interactions. Given that there are a large number of parameters and objectives involved in hardware design, synthesizing all possible combinations is not a feasible method to find the optimal solution. One promising approach to tackle this problem is statistical modeling of a desired hardware performance. Here, we propose a model-based active learning approach to solve this problem. Our proposed method uses Bayesian models to characterize various aspects of hardware performance. We also use transfer learning and Gaussian regression bootstrapping techniques in conjunction with active learning to create more accurate models. Our proposed statistical modeling method provides hardware models that are sufficiently accurate to perform design space exploration as well as performance prediction simultaneously. We use our proposed method to perform design space exploration and performance prediction for various hardware setups, such as micro-architecture design and OpenCL kernels for FPGA targets. Our experiments show that the number of samples required to create performance models significantly reduces while maintaining the predictive power of our proposed statistical models. For instance, in our performance prediction setting, the proposed method needs 65% fewer samples to create the model, and in the design space exploration setting, our proposed method can find the best parameter settings by exploring less than 50 samples.
翻訳日:2023-03-16 10:25:57 公開日:2023-03-15
# スパース潜点拡散モデルによる制御可能なメッシュ生成

Controllable Mesh Generation Through Sparse Latent Point Diffusion Models ( http://arxiv.org/abs/2303.07938v2 )

ライセンス: Link先を確認
Zhaoyang Lyu, Jinyi Wang, Yuwei An, Ya Zhang, Dahua Lin, Bo Dai(参考訳) メッシュ生成は、コンピュータグラフィックスや仮想コンテンツを含む様々なアプリケーションにおいて大きな価値があるが、メッシュの生成モデルの設計は、その不規則なデータ構造と、同じカテゴリのメッシュの一貫性のないトポロジーのために困難である。 本研究では,メッシュ生成のための新しいスパース潜点拡散モデルを設計する。 私たちの重要な洞察は、ポイントクラウドをメッシュの中間表現と見なし、代わりにポイントクラウドの分布をモデル化することです。 メッシュはShape as Points (SAP)のような技術を通じてポイントクラウドから生成することができるが、メッシュを直接生成する際の課題は、効果的に回避できる。 メッシュ生成手法の効率性と制御性を高めるために,2つのDDPMをそれぞれスパース潜在点の空間で訓練し,これらの潜在点の位置と特徴の分布をモデル化する,ポイント意味的特徴を持つスパース潜在点の集合に,さらにポイント雲を符号化することを提案する。 この潜伏空間におけるサンプリングは、密度の高い雲を直接サンプリングするよりも高速である。 さらに、スパースな潜在ポイントは、生成されたメッシュの全体構造と局所的な詳細の両方を明示的に制御することもできます。 提案したスパース遅延点拡散モデルを用いてShapeNetデータセットを用いて大規模な実験を行い,既存の手法と比較して生成品質と制御性において優れた性能が得られることを示した。

Mesh generation is of great value in various applications involving computer graphics and virtual content, yet designing generative models for meshes is challenging due to their irregular data structure and inconsistent topology of meshes in the same category. In this work, we design a novel sparse latent point diffusion model for mesh generation. Our key insight is to regard point clouds as an intermediate representation of meshes, and model the distribution of point clouds instead. While meshes can be generated from point clouds via techniques like Shape as Points (SAP), the challenges of directly generating meshes can be effectively avoided. To boost the efficiency and controllability of our mesh generation method, we propose to further encode point clouds to a set of sparse latent points with point-wise semantic meaningful features, where two DDPMs are trained in the space of sparse latent points to respectively model the distribution of the latent point positions and features at these latent points. We find that sampling in this latent space is faster than directly sampling dense point clouds. Moreover, the sparse latent points also enable us to explicitly control both the overall structures and local details of the generated meshes. Extensive experiments are conducted on the ShapeNet dataset, where our proposed sparse latent point diffusion model achieves superior performance in terms of generation quality and controllability when compared to existing methods.
翻訳日:2023-03-16 10:25:36 公開日:2023-03-15
# 2次元拡散モデルにロバストテキスト-3次元生成のための3次元一貫性を知らせる

Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D Generation ( http://arxiv.org/abs/2303.07937v2 )

ライセンス: Link先を確認
Junyoung Seo, Wooseok Jang, Min-Seop Kwak, Jaehoon Ko, Hyeonsu Kim, Junho Kim, Jin-Hwa Kim, Jiyoung Lee, Seungryong Kim(参考訳) テキスト対3d生成は、前訓練されたテキスト対2d拡散モデルを用いてゼロショット設定で神経放射場(nerf)を最適化する手法であるスコア蒸留の出現により、近年急速に進歩している。 しかし, 2次元拡散モデルにおける3次元認識の欠如は, スコア蒸留法による3次元シーンの再構成を不安定にする。 そこで本研究では,事前学習した2次元拡散モデルに3次元認識を組み込んだ新しいフレームワークである3dfuseを提案する。 まず,与えられたテキストプロンプトの粗い3次元構造を構築し,拡散モデルの条件として投影された視点特異的深度マップを用いた。 さらに,ロバストな生成のための粗い3次元構造内の誤差や空間性を扱う2次元拡散モデルの学習を可能にするトレーニング戦略と,シーンのすべての視点において意味的一貫性を確保する手法を導入する。 我々の枠組みは, 先行技術の限界を超え, 2次元拡散モデルの3次元整合生成に大きな影響を与える。

Text-to-3D generation has shown rapid progress in recent days with the advent of score distillation, a methodology of using pretrained text-to-2D diffusion models to optimize neural radiance field (NeRF) in the zero-shot setting. However, the lack of 3D awareness in the 2D diffusion models destabilizes score distillation-based methods from reconstructing a plausible 3D scene. To address this issue, we propose 3DFuse, a novel framework that incorporates 3D awareness into pretrained 2D diffusion models, enhancing the robustness and 3D consistency of score distillation-based methods. We realize this by first constructing a coarse 3D structure of a given text prompt and then utilizing projected, view-specific depth map as a condition for the diffusion model. Additionally, we introduce a training strategy that enables the 2D diffusion model learns to handle the errors and sparsity within the coarse 3D structure for robust generation, as well as a method for ensuring semantic consistency throughout all viewpoints of the scene. Our framework surpasses the limitations of prior arts, and has significant implications for 3D consistent generation of 2D diffusion models.
翻訳日:2023-03-16 10:25:12 公開日:2023-03-15
# 確率的拡散モデルのための一般化スケール空間特性

Generalised Scale-Space Properties for Probabilistic Diffusion Models ( http://arxiv.org/abs/2303.07900v2 )

ライセンス: Link先を確認
Pascal Peter(参考訳) 確率的拡散モデルは、ディープラーニングコミュニティで人気が高まっている。 応用分野の広い入力画像の学習分布から説得力のあるサンプルを生成する。 もともとこれらのアプローチはドリフト拡散過程から動機づけられていたが、これらの起源は近年の実践指向の出版物ではあまり注目されなかった。 確率的拡散モデルについて, スケール空間研究の観点から検討し, 進化する確率分布のスケール空間特性を一般化した。 さらに,深層学習とモデルに基づく世界におけるドリフト拡散の物理コア概念の解釈の類似性と相違について論じる。 そこで本研究では,オサムシスフィルタと確率拡散の関係について検討する。

Probabilistic diffusion models enjoy increasing popularity in the deep learning community. They generate convincing samples from a learned distribution of input images with a wide field of practical applications. Originally, these approaches were motivated from drift-diffusion processes, but these origins find less attention in recent, practice-oriented publications. We investigate probabilistic diffusion models from the viewpoint of scale-space research and show that they fulfil generalised scale-space properties on evolving probability distributions. Moreover, we discuss similarities and differences between interpretations of the physical core concept of drift-diffusion in the deep learning and model-based world. To this end, we examine relations of probabilistic diffusion to osmosis filters.
翻訳日:2023-03-16 10:24:51 公開日:2023-03-15
# AutoEnsemble:イメージラベルを用いたセマンティックセグメンテーションのための自動アンサンブル検索フレームワーク

AutoEnsemble: Automated Ensemble Search Framework for Semantic Segmentation Using Image Labels ( http://arxiv.org/abs/2303.07898v2 )

ライセンス: Link先を確認
Erik Ostrowski and Muhammad Shafique(参考訳) 最先端のセマンティクスセグメンテーションネットワークを現実世界で採用する上で重要なボトルネックは、トレーニングラベルの可用性である。 標準的なセマンティクスセグメンテーションネットワークは、最先端の予測品質に達するために大量のピクセル単位で注釈付きラベルを必要とする。 したがって、いくつかの作品は画像レベルのアノテーションだけで訓練されたセマンティックセグメンテーションネットワークに焦点を当てている。 しかし、最先端の成果をより詳細に調べると、平均的な予測品質では互いに非常に近いが、異なるアプローチは異なるクラスでより優れた性能を示し、他のクラスでは低い品質を提供する。 この問題に対処するため,我々は,クラスレベルでの異なるセグメンテーション手法の集合に対して,"pseudo-labels"のアンサンブルを用いた,新しいフレームワークであるautoensembleを提案する。 Pseudo-labelsは、最終的なセグメンテーションモデルをトレーニングするために使用される画像レベルのセグメンテーションフレームワークのピクセルワイズ予測である。 擬似ラベルは複数のセグメンテーション手法の強い点をシームレスに組み合わせて予測精度を向上させる。 AutoEnsembleのコンポーネントよりも2.4%改善しています。 画像レベルのセマンティックセグメンテーションのための最先端フレームワークに対するAutoEnsembleの有効性を示すために、徹底的な分析を行った。

A key bottleneck of employing state-of-the-art semantic segmentation networks in the real world is the availability of training labels. Standard semantic segmentation networks require massive pixel-wise annotated labels to reach state-of-the-art prediction quality. Hence, several works focus on semantic segmentation networks trained with only image-level annotations. However, when scrutinizing the state-of-the-art results in more detail, we notice that although they are very close to each other on average prediction quality, different approaches perform better in different classes while providing low quality in others. To address this problem, we propose a novel framework, AutoEnsemble, which employs an ensemble of the "pseudo-labels" for a given set of different segmentation techniques on a class-wise level. Pseudo-labels are the pixel-wise predictions of the image-level semantic segmentation frameworks used to train the final segmentation model. Our pseudo-labels seamlessly combine the strong points of multiple segmentation techniques approaches to reach superior prediction quality. We reach up to 2.4% improvement over AutoEnsemble's components. An exhaustive analysis was performed to demonstrate AutoEnsemble's effectiveness over state-of-the-art frameworks for image-level semantic segmentation.
翻訳日:2023-03-16 10:24:41 公開日:2023-03-15
# 1つのスカラーは必要なすべて -- 単分子自己スーパービジョンを用いた絶対深度推定

One scalar is all you need -- absolute depth estimation using monocular self-supervision ( http://arxiv.org/abs/2303.07662v2 )

ライセンス: Link先を確認
Alexandra Dana, Nadav Carmel, Amit Shomer, Ofer Manela and Tomer Peleg(参考訳) 自己教師付き単眼深度推定器は、画像のみを用いて訓練または微調整が可能で、地上の深度データがないため精度がよい。 しかし、これらの推定器は深度スケールの固有の曖昧さに悩まされ、適用性が著しく制限される。 本研究では,画像のみからなる新たに収集したターゲットデータセットの自己スーパービジョンを用いて訓練した深度推定器に,地中深度で収集した既存のソースデータセットから深度スケールを転送する手法を提案する。 射影幾何学に基づく自己スーパービジョンは、地対深度と線形に相関する予測深度をもたらすことを示す。 さらに、この関係の線形性は、2つの異なる(実または合成)ソースとターゲットドメインからのイメージを共同でトレーニングする場合にも保持される。 この観測された特性を利用し、単一のグローバルスカラーを用いて、ソースドメインからの画像の奥行きと地表面の関係をモデル化する。 次に,推定された大域的スケーリング係数を用いて,対象領域からの画像の奥行きを推定し,この2領域間の奥行き移動を行う。 提案手法は,対象とするKITTIデータセットとDDADデータセットで評価され,他の実あるいは合成ソースデータセットでは,視野,他の画像スタイル,構造的内容がより大きい。 提案手法は,VKITTIデータセットやvKITTI2データセットを使用しなくても,KITTI上での競合精度を実現し,実データと合成データの両方を用いてDDAD上で高い精度を実現する。

Self-supervised monocular depth estimators can be trained or fine-tuned on new scenes using only images and no ground-truth depth data, achieving good accuracy. However, these estimators suffer from the inherent ambiguity of the depth scale, significantly limiting their applicability. In this work, we present a method for transferring the depth-scale from existing source datasets collected with ground-truth depths to depth estimators that are trained using self-supervision on a newly collected target dataset consisting of images only, solving a significant limiting factor. We show that self-supervision based on projective geometry results in predicted depths that are linearly correlated with their ground-truth depths. Moreover, the linearity of this relationship also holds when jointly training on images from two different (real or synthetic) source and target domains. We utilize this observed property and model the relationship between the ground-truth and the predicted up-to-scale depths of images from the source domain using a single global scalar. Then, we scale the predicted up-to-scale depths of images from the target domain using the estimated global scaling factor, performing depth-scale transfer between the two domains. This suggested method was evaluated on the target KITTI and DDAD datasets, while using other real or synthetic source datasets, that have a larger field-of-view, other image style or structural content. Our approach achieves competitive accuracy on KITTI, even without using the specially tailored vKITTI or vKITTI2 datasets, and higher accuracy on DDAD, when using both real or synthetic source datasets.
翻訳日:2023-03-16 10:24:23 公開日:2023-03-15