このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220922となっている論文です。

PDF登録状況(公開日: 20220922)

TitleAuthorsAbstract論文公表日・翻訳日
# デジタル教育プラットフォームにおける新しい学習評価指標

New Metrics for Learning Evaluation in Digital Education Platforms ( http://arxiv.org/abs/2006.14711v2 )

ライセンス: Link先を確認
Gabriel Leit\~ao, Juan Colonna, Edwin Monteiro, Elaine Oliveira, Raimundo Barreto(参考訳) 教育に応用された技術は、いつでもどこでも学習対象にアクセスしやすくすることで、大きな利益をもたらし、課題を克服することができる。 しかし、適切な計画と学習方法を必要とするため、技術だけでは不十分である。 技術の利用は、特に学習が起こっているかどうかを決定する上で問題となることがある。 さらに、もし学習が起こらなかったら、テクノロジーは学習の欠如を緩和する方法を決定するのを難しくする。 本稿では,技術系教育プラットフォームのコンテンツに対する学生の理解度を測定するための新しい指標について述べる。 いくつかのメトリクスは"as is"という文献から取り出され、一部は少し修正され、その他は追加された。 この仮説は、ヒット/エラーの数だけをカウントし、学習の他の側面を考慮しないので、従来のスコアリングのみに注目すべきではない、というものです。 我々は,高校生の授業で実施される評価にすべての指標を適用し,いくつかの指標を組み合わせることで非常に有用な情報を得ることができる指標とともに,特定の事例を示す。 提案手法は,学生が獲得した内容の理解度を測定するとともに,教師が学生の弱点を測定することを約束している。

Technology applied in education can provide great benefits and overcome challenges by facilitating access to learning objects anywhere and anytime. However, technology alone is not enough, since it requires suitable planning and learning methodologies. Using technology can be problematic, especially in determining whether learning has occurred or not. Futhermore, if learning has not occured, technology can make it difficult to determine how to mitigate this lack of learning. This paper presents a set of new metrics for measuring student's acquired understanding of a content in technology-based education platforms. Some metrics were taken from the literature "as is", some were modified slighty, while others were added. The hypothesis is that we should not only focus on traditional scoring, because it only counts the number of hits/errors and does not consider any other aspect of learning. We applied all metrics to an assessment conducted in a high school class in which we show specific cases, along with metrics, where very useful information can be obtained from by combining several metrics. We conclude that the proposed metrics are promising for measuring student's acquired understanding of a content, as well as for teachers to measure student's weaknesses.
翻訳日:2023-05-12 19:35:25 公開日:2022-09-22
# ナイフに関するフォーク: 刑事司法のアルゴリズム的リスク評価ツールにおける予測上の矛盾

Forks Over Knives: Predictive Inconsistency in Criminal Justice Algorithmic Risk Assessment Tools ( http://arxiv.org/abs/2012.00289v2 )

ライセンス: Link先を確認
Travis Greene, Galit Shmueli, Jan Fell, Ching-Fu Lin, Han-Wei Liu(参考訳) ビッグデータとアルゴリズムによるリスク予測ツールは、人間のバイアスと意思決定の不整合を減らすことによって刑事司法システムを改善することを約束する。 しかし、これらの社会技術ツールの開発、テスト、デプロイにおいて、異なる、等しく調整可能な選択は、同じ個人に対して予測されるリスクスコアを異にする可能性がある。 機械学習、統計学、社会学、犯罪学、法学、哲学、経済学から様々な視点を合成し、この現象を予測的矛盾として概念化する。 本稿では,アルゴリズム的リスク評価ツールの開発と展開の異なる段階における予測的不整合の源泉について述べる。 しかし、多様で多様な社会では、予測的不整合を完全に排除することは期待してはならない。 代わりに, アルゴリズムリスク予測ツールの法的, 政治的, 科学的正当性を高めるために, 個人レベルでの予測不整合の定量化, 再現可能な多元的, 仕様的曲線解析を可能にするために, 適切かつ合理的な"フォークパス"を同定し, 文書化する。

Big data and algorithmic risk prediction tools promise to improve criminal justice systems by reducing human biases and inconsistencies in decision making. Yet different, equally-justifiable choices when developing, testing, and deploying these sociotechnical tools can lead to disparate predicted risk scores for the same individual. Synthesizing diverse perspectives from machine learning, statistics, sociology, criminology, law, philosophy and economics, we conceptualize this phenomenon as predictive inconsistency. We describe sources of predictive inconsistency at different stages of algorithmic risk assessment tool development and deployment and consider how future technological developments may amplify predictive inconsistency. We argue, however, that in a diverse and pluralistic society we should not expect to completely eliminate predictive inconsistency. Instead, to bolster the legal, political, and scientific legitimacy of algorithmic risk prediction tools, we propose identifying and documenting relevant and reasonable "forking paths" to enable quantifiable, reproducible multiverse and specification curve analyses of predictive inconsistency at the individual level.
翻訳日:2023-04-22 12:17:49 公開日:2022-09-22
# ニューラルワード埋め込みを用いた百科事典知識を用いたアンハリックテキストクラスタリング

Amharic Text Clustering Using Encyclopedic Knowledge with Neural Word Embedding ( http://arxiv.org/abs/2105.00809v2 )

ライセンス: Link先を確認
Dessalew Yohannes and Yeregal Assabie(参考訳) このデジタル時代、ほとんどの分野において、人々は異なる自然言語で文書形式で表現された情報を生成する自動システムを使っている。 その結果、これらの文書を見つけ、整理し、分析するためのより良いソリューションに対する関心が高まっている。 本稿では,ニューラルワード埋め込みを用いた百科事典知識(ek)を用いて,アンモリックテキスト文書を集積するシステムを提案する。 ekは関連する概念の表現を可能にし、神経語埋め込みは関連性のコンテキストを扱うことができる。 クラスタリングプロセスの間、すべてのテキストドキュメントは前処理段階を通過する。 EKと単語埋め込みモデルとのマッピングにより、各文書からリッチテキスト文書の特徴を抽出する。 TF-IDF重みベクトルが生成した。 最後に、一般的な球面K平均アルゴリズムを用いて文書をクラスタリングする。 提案システムは、アムハーリックテキストコーパスとアムハーリックウィキペディアデータを用いてテストされている。 実験の結果,文書クラスタリングにおける単語埋め込みによるEKの使用は,EKのみの使用よりも平均精度を向上させることがわかった。 さらに、クラスのサイズを変えることは、精度に重大な影響を及ぼす。

In this digital era, almost in every discipline people are using automated systems that generate information represented in document format in different natural languages. As a result, there is a growing interest towards better solutions for finding, organizing and analyzing these documents. In this paper, we propose a system that clusters Amharic text documents using Encyclopedic Knowledge (EK) with neural word embedding. EK enables the representation of related concepts and neural word embedding allows us to handle the contexts of the relatedness. During the clustering process, all the text documents pass through preprocessing stages. Enriched text document features are extracted from each document by mapping with EK and word embedding model. TF-IDF weighted vector of enriched feature was generated. Finally, text documents are clustered using popular spherical K-means algorithm. The proposed system is tested with Amharic text corpus and Amharic Wikipedia data. Test results show that the use of EK with word embedding for document clustering improves the average accuracy over the use of only EK. Furthermore, changing the size of the class has a significant effect on accuracy.
翻訳日:2023-04-06 00:17:00 公開日:2022-09-22
# 量子誤差緩和の基礎的限界

Fundamental limits of quantum error mitigation ( http://arxiv.org/abs/2109.04457v5 )

ライセンス: Link先を確認
Ryuji Takagi and Suguru Endo and Shintaro Minagawa and Mile Gu(参考訳) 近い将来の量子デバイスにおけるエラーの必然的な蓄積は、実用的な量子利点をもたらす上で重要な障害であり、様々な量子エラー緩和法の開発を動機付けている。 ここでは, サンプリングオーバーヘッドの関数として, 誤差軽減アルゴリズムが計算誤差を低減する方法に関する基礎的境界を導出する。 我々の境界は、一般的なエラー軽減プロトコルクラスに普遍的な性能制限を課す。 これらの手法を用いて,(1)回路の局所偏極雑音を緩和するための一定の計算精度を保証するサンプリングオーバーヘッドが,一般の誤差低減プロトコルの回路深さと指数関数的にスケールすること,(2)局所偏極雑音を任意の量子ビット数で緩和する幅広い戦略の確率的誤差キャンセルの最適性を示す。 この結果は、与えられた量子誤差緩和戦略が最適であるときと、改善の余地があるときを特定する手段を提供する。

The inevitable accumulation of errors in near-future quantum devices represents a key obstacle in delivering practical quantum advantages, motivating the development of various quantum error-mitigation methods. Here, we derive fundamental bounds concerning how error-mitigation algorithms can reduce the computation error as a function of their sampling overhead. Our bounds place universal performance limits on a general error-mitigation protocol class. We use them to show (1) that the sampling overhead that ensures a certain computational accuracy for mitigating local depolarizing noise in layered circuits scales exponentially with the circuit depth for general error-mitigation protocols and (2) the optimality of probabilistic error cancellation among a wide class of strategies in mitigating the local dephasing noise on an arbitrary number of qubits. Our results provide a means to identify when a given quantum error-mitigation strategy is optimal and when there is potential room for improvement.
翻訳日:2023-03-15 18:17:06 公開日:2022-09-22
# ヌル・デウィット検出器間の共形真空からの絡み合い

Entanglement harvesting from conformal vacuums between two Unruh-DeWitt detectors moving along null paths ( http://arxiv.org/abs/2112.01308v2 )

ライセンス: Link先を確認
Subhajit Barman, Dipankar Barman, Bibhas Ranjan Majhi(参考訳) 1+1)$次元シュワルツシルトと空間平坦なFLRW時空が共形平坦であることはよく知られている。 本研究では、2つのUnruh-DeWitt検出器間の時空における共形場真空からの絡み合いを調べた。 1+1)$次元シュワルツシルト時空において、我々は調査のためにブールウェアとウンルー真空を検討した。 この分析において、絡み合いの収穫は、$(1+1)$次元シュワルツシルトと$(1+3)$次元ド・ジッター時空において可能であるが、検出器が同じ出力するヌル軌道に沿って移動するとき、同じパラメータ集合に対して$(1+1)$次元ド・ジッター背景では不可能である。 BoulwareとUnruhの真空の質的な結果も同様である。 さらに,検出器の2つのヌルパス間の距離$d$に依存し,パラメータ値にもよるが,影点や領域の絡み合いが成立する可能性が示唆された。 また、相互情報は、d$ in $(1+1)$ dimensional schwarzschild と de sitter の時空に依存しないが、周期的に$(1+3)$ dimensional de sitter の背景に依存することも観察する。 また、収穫した絡み合いの起源についても解明する。

It is well-known that the $(1+1)$ dimensional Schwarzschild and spatially flat FLRW spacetimes are conformally flat. This work examines entanglement harvesting from the conformal field vacuums in these spacetimes between two Unruh-DeWitt detectors, moving along outgoing null trajectories. In $(1+1)$ dimensional Schwarzschild spacetime, we considered the Boulware and Unruh vacuums for our investigations. In this analysis, one observes that while entanglement harvesting is possible in $(1+1)$ dimensional Schwarzschild and $(1+3)$ dimensional de Sitter spacetimes, it is not possible in the $(1+1)$ dimensional de Sitter background for the same set of parameters when the detectors move along the same outgoing null trajectory. The qualitative results from the Boulware and the Unruh vacuums are alike. Furthermore, we observed that the concurrence depends on the distance $d$ between the two null paths of the detectors periodically, and depending on the parameter values, there could be entanglement harvesting shadow points or regions. We also observe that the mutual information does not depend on $d$ in $(1+1)$ dimensional Schwarzschild and de Sitter spacetimes but periodically depends on it in $(1+3)$ dimensional de Sitter background. We also provide elucidation on the origin of the harvested entanglement.
翻訳日:2023-03-06 02:21:46 公開日:2022-09-22
# シングルショット量子測定による量子多体状態のスケッチ

Single-shot quantum measurements sketch quantum many-body states ( http://arxiv.org/abs/2203.01348v3 )

ライセンス: Link先を確認
Jia-Bao Wang, Yi Zhang(参考訳) 量子測定は、多くの微小な自由度からなる量子システムに対する我々の目である。 しかし、量子測定の本質的な不確かさと指数関数的に大きいヒルベルト空間は、測定結果の単純な解釈に自然な障壁をもたらす。 本稿では, 測定結果に基づく非線形「測定エネルギー」と, 最大推定値(最大推定値)を効率よく抽出し, 非可換可観測値の整合と量子測定値からより多くの値を得るための反復的有効ハミルトニアン手法を提案する。 煙管シグネチャが欠如していたランダムな長距離フェルミオンモデルとキタエフ量子スピン液体モデルに対して,我々の視点の汎用性と精度を示す。 本研究は非線形作用素ハミルトニアンの概念や親ハミルトニアン再構成のような応用への道を開く。

Quantum measurements are our eyes to the quantum systems consisting of a multitude of microscopic degrees of freedom. However, the intrinsic uncertainty of quantum measurements and the exponentially large Hilbert space pose natural barriers to simple interpretations of the measurement outcomes. We propose a nonlinear "measurement energy" based upon the measurement outcomes and an iterative effective-Hamiltonian approach to extract the most probable states (maximum likelihood estimates) in an efficient and general fashion, thus reconciling the non-commuting observables and getting more out of the quantum measurements. We showcase the versatility and accuracy of our perspective on random long-range fermion models and Kitaev quantum spin liquid models, where smoking-gun signatures were lacking. Our study also paves the way towards concepts such as nonlinear-operator Hamiltonian and applications such as parent Hamiltonian reconstruction.
翻訳日:2023-02-23 07:41:47 公開日:2022-09-22
# ゆらぎ定理からの量子アルゴリズム:熱状態合成

Quantum algorithms from fluctuation theorems: Thermal-state preparation ( http://arxiv.org/abs/2203.08882v2 )

ライセンス: Link先を確認
Zoe Holmes, Gopikrishnan Muraleedharan, Rolando D. Somma, Yigit Subasi, Burak \c{S}ahino\u{g}lu(参考訳) ゆらぎ定理は、熱平衡における量子系の性質と、2つの量子系をハミルトニアン$H_0$と$H_1=H_0+V$で接続する非平衡過程における仕事分布の対応を与える。 これらの定理に基づいて、逆温度$\beta \ge 0$でのH_1$の熱状態の浄化を、温度$H_0$の浄化から開始する量子アルゴリズムを提案する。 量子アルゴリズムの複雑さは、あるユニタリの使用数によって与えられるもので、$\tilde {\cal O}(e^{\beta (\Delta \! A- w_l)/2})$, where $\Delta \! A$は$H_1$と$H_0,$と$w_l$の間の自由エネルギー差であり、ワークディストリビューションの特性と近似エラー$\epsilon>0$に依存するワークカットである。 非平衡過程が自明であれば、この複雑さは$\beta \|V\|$で指数関数的であり、$\|V\|$は$V$のスペクトルノルムである。 これは、$\|v\|\ll \|h_1\|$という方法で、複雑性指数的に$\beta \|h_1\|$を持つ以前の量子アルゴリズムの大幅な改善を表している。 $\epsilon$ の複雑性の依存性は、量子系の構造によって異なる。 一般に1/\epsilon$で指数関数化できるが、1/\epsilon$は$h_0$、$h_1$は通勤、多項式は$/\epsilon$は$h_0$、$h_1$はローカルスピン系である。 システムを平衡から追い出すユニタリを適用することで、$w_l$の値を増やし、さらに複雑さを向上させることができる。 この目的のために, 異なる非平衡ユニタリ過程を用いて, 横磁場イジングモデルの熱状態を作成するための複雑さを分析し, 大幅な複雑性改善を見いだす。

Fluctuation theorems provide a correspondence between properties of quantum systems in thermal equilibrium and a work distribution arising in a non-equilibrium process that connects two quantum systems with Hamiltonians $H_0$ and $H_1=H_0+V$. Building upon these theorems, we present a quantum algorithm to prepare a purification of the thermal state of $H_1$ at inverse temperature $\beta \ge 0$ starting from a purification of the thermal state of $H_0$. The complexity of the quantum algorithm, given by the number of uses of certain unitaries, is $\tilde {\cal O}(e^{\beta (\Delta \! A- w_l)/2})$, where $\Delta \! A$ is the free-energy difference between $H_1$ and $H_0,$ and $w_l$ is a work cutoff that depends on the properties of the work distribution and the approximation error $\epsilon>0$. If the non-equilibrium process is trivial, this complexity is exponential in $\beta \|V\|$, where $\|V\|$ is the spectral norm of $V$. This represents a significant improvement of prior quantum algorithms that have complexity exponential in $\beta \|H_1\|$ in the regime where $\|V\|\ll \|H_1\|$. The dependence of the complexity in $\epsilon$ varies according to the structure of the quantum systems. It can be exponential in $1/\epsilon$ in general, but we show it to be sublinear in $1/\epsilon$ if $H_0$ and $H_1$ commute, or polynomial in $1/\epsilon$ if $H_0$ and $H_1$ are local spin systems. The possibility of applying a unitary that drives the system out of equilibrium allows one to increase the value of $w_l$ and improve the complexity even further. To this end, we analyze the complexity for preparing the thermal state of the transverse field Ising model using different non-equilibrium unitary processes and see significant complexity improvements.
翻訳日:2023-02-21 22:50:52 公開日:2022-09-22
# 発展途上国のショッピングにソーシャルコマースを使う意図に影響を及ぼす要因:オマーンを事例として

Determinants Influencing Intention to Use Social Commerce for Shopping in developing countries: A Case Study of Oman ( http://arxiv.org/abs/2210.08961v1 )

ライセンス: Link先を確認
Shamma Al Harizi, Maryam Al Areimi, Abdul. Khalique Shaikh(参考訳) ソーシャルメディアは、日々の商品の購入に関する行動を含め、個人の生活に大きな影響を与えてきた。 本研究は,オマニ国民が商品をソーシャルコマースで入手する意図に影響を及ぼす要因について考察した。 研究者は202人の参加者を調査し、技術受容モデルを用いて理論的枠組みを構築した。 データ収集は適切な検査機構を用いて統計的に分析した。 cronbach の alpha や多重線形回帰を含む統計的手法は信頼性と仮説テストに利用された。 収集したデータを分析し, 仮説を検証した結果, 社会商取引の有用性, 楽しさ, 使いやすさがオマニ国民のショッピングにソーシャル商取引を利用する意図に肯定的な影響を及ぼすことが明らかとなった。 独立変数は、商品にソーシャルコマースを利用する意図に統計的に有意な影響を与えており、これは、買い物にソーシャルコマースを利用する顧客に対する変動の69.9%を説明している。

Social media has had a significant impact on our individual lives, including our behavior regarding the purchasing of daily products. This study investigates the factors influencing Omani nationals' intentions to obtain products via social commerce. The researcher surveyed 202 participants and utilized the Technology Acceptance Model to develop the theoretical framework. The data collection was analyzed statistically using an appropriate testing mechanism. Statistical methods, including Cronbach's alpha and multiple linear regression, were utilized for reliability and hypotheses testing. After analyzing the collected data and testing the hypotheses, the findings indicated that perceived usefulness, enjoyment, and ease of use of social commerce affect positively on Omani nationals' intentions to utilize social commerce for shopping. The independent variables had a statistically significant impact on the intention to use social commerce shopping for products; these explain 69.9% of the variation on customers intention to utilize social commerce for shopping.
翻訳日:2023-02-19 11:44:57 公開日:2022-09-22
# 持続可能なビジネス開発を支援する全国スマートキャンパスの構築:エコシステムアプローチ

Building a National Smart Campus to support sustainable business development: An ecosystem approach ( http://arxiv.org/abs/2209.13613v1 )

ライセンス: Link先を確認
Larry Abdullai, Jari Porras and Sanaul Haque(参考訳) 大学はグローバルデジタル化のトレンドに応えて、キャンパスや都市をスマートにしようとしている。 しかし、スマートキャンパスの研究、開発、イノベーションサービスの持続可能性の影響は、中小企業など他の関連ステークホルダーに及ばないままである。 フィンランド国立スマートキャンパスプロジェクトは、SCエコシステムを組織し、8つのSCが協力して、企業や社会に悲惨なサービスを提供することで、このギャップを埋めようとしている。 本研究は,SC生態系の持続可能性への影響を最大化するために,SCの課題を特定し,他の利害関係者を特定するためのステップバイステップガイドを提供し,SCエコシステムのRDIを用いて認識された持続可能性への影響を事例として示す。 予備調査の結果, 大学・産業生態系開発への障壁が示唆された。 (i)アクター間の共有目標(すなわち価値提案)の明確さの欠如 (二)大学RDIプロセスにおける利害関係者の関与 最後に、フィンランドの中小企業の持続的発展を支援するためのSCサービスの収束と持続可能性を促進するために、高等教育機関に考え方転換をもたらすSCエコシステムモデルを提案する。

Universities are racing towards making their campuses and cities smart in response to the global digitalization trend. However, the sustainability impact of Smart Campus research, development, and innovation services on other relevant stakeholders such as the small and medium-sized businesses, remain under-investigated. The Finnish National Smart Campus project seeks to bridge this gap by orchestrating a SC ecosystem where eight SC collaborate to bring trailblazing services to businesses and society. To maximize the sustainability impact of the SC ecosystem, this study used a participatory workshop to identify the challenges of SC, provide a step-by-step guide on how to identify other relevant stakeholders, and ascertain the perceived sustainability impact using one of the SC ecosystems RDIs as a case study. The preliminary results revealed that barriers to university-industry ecosystem development include (i), the lack of clarity in the shared goals (i.e., value proposition) between actors and (ii), weak stakeholder involvement in university RDI processes. Finally, this paper proposed a SC ecosystem model which offers a mindset shift for higher educational institutions in promoting the convergence of SC services and sustainability to support the sustainable development of Finnish-based SMEs.
翻訳日:2023-02-19 11:24:57 公開日:2022-09-22
# GPT-3型チャットボットを応用したプロンプト設計の探索--メカニカル・トルクのメンタル・ウェルビング・ケーススタディ

Exploring The Design of Prompts For Applying GPT-3 based Chatbots: A Mental Wellbeing Case Study on Mechanical Turk ( http://arxiv.org/abs/2209.11344v1 )

ライセンス: Link先を確認
Harsh Kumar, Ilya Musabirov, Jiakai Shi, Adele Lauzon, Kwan Kiu Choy, Ofek Gross, Dana Kulzhabayeva, Joseph Jay Williams(参考訳) GPT-3のような大型言語モデルは、HCIデザイナーや研究者が特定のアプリケーションのためにより人間らしく便利なチャットボットを作れる可能性を持っている。 しかし、これらのチャットボットの実現可能性を評価し、特定のタスクに対してGPT-3を最適化するプロンプトを設計することは困難である。 GPT-3を簡単な5分間のチャットボットに適用して,これらの質問に対処するケーススタディを提案する。 メカニカル・トルコの945人の参加者によるランダムな要因分析実験を行い、チャットボットを初期化するための3次元のプロンプト設計(アイデンティティ、意図、行動)を検証し、会話の量的および質的な分析とチャットボットのユーザ知覚を示す。 我々は、他のhciデザイナーや研究者が、このケーススタディに基づいて、gpt-3ベースのチャットボットを特定のタスクに適用し、プロンプトデザインやプロンプトデザインの評価に使用するメソッドを構築・拡張できることを期待している。

Large-Language Models like GPT-3 have the potential to enable HCI designers and researchers to create more human-like and helpful chatbots for specific applications. But evaluating the feasibility of these chatbots and designing prompts that optimize GPT-3 for a specific task is challenging. We present a case study in tackling these questions, applying GPT-3 to a brief 5-minute chatbot that anyone can talk to better manage their mood. We report a randomized factorial experiment with 945 participants on Mechanical Turk that tests three dimensions of prompt design to initialize the chatbot (identity, intent, and behaviour), and present both quantitative and qualitative analyses of conversations and user perceptions of the chatbot. We hope other HCI designers and researchers can build on this case study, for other applications of GPT-3 based chatbots to specific tasks, and build on and extend the methods we use for prompt design, and evaluation of the prompt design.
翻訳日:2023-02-19 11:20:41 公開日:2022-09-22
# 学習と教育におけるソーシャルメディアの影響--書誌分析に基づく引用分析

The Impact of Social Media in Learning and Teaching: A Bibliometric-based Citation Analysis ( http://arxiv.org/abs/2209.11284v1 )

ライセンス: Link先を確認
Abdul Shaikh, Saqib Ali and Ramla Al-Maamari(参考訳) 本稿では,文献を体系的にレビューし,文献分析による学習と教育におけるソーシャルメディアの影響について述べる。 レビューの目的は、現在の文学の進化を地図化し、最も影響力のある雑誌、著者、記事の観点で知識の主要な情報源を特定することである。 スコパスデータベースから選択された最も関連性の高い50項目から,詳細な引用分析を行った。 本研究は,学習・研究に関わるソーシャルメディア研究の総合的理論的基礎を探究し,論文や論文で主要な知識源を特定し,この4年間における引用分析による研究動向を明らかにした。 引用データの解析により,国際経営学ジャーナルは,学習・教育研究におけるソーシャルメディアにおける主要な雑誌であることが示された。 著者のアブドゥッラー・Z(Abdullah Z)は、出版物の総数、総引用数、h指数の点でこの分野の主著とされ、最も引用された記事はBaaran S.とBapitha Lによって執筆された。

This paper presents the results of a systematic review of the literature on the impact of social media in learning and teaching through bibliometric based Citation analysis. The objective of the review was to map the evolution of the current literature and identify the leading sources of knowledge in terms of the most influential journals, authors, and articles. From a total of 50 top most relevant articles selected from the Scopus database, a detailed citation analysis was conducted. The study explored the overall theoretical foundation of social media research involving in learning and studying and identified the leading sources of knowledge in terms of and papers and revealed research trends over the last four years by citation analysis. The analysis of citation data showed that International Journal of Management Education is the leading journal in social media in learning and teaching research. Author Abdullah Z was found to be the leading author in this field in terms of a total number of publications, total citations, and h index, while the most cited article was authored by Baaran S. and by Bapitha L. The contribution of this study is to clearly outline the current state of knowledge regarding social media in learning and teaching services in the literature.
翻訳日:2023-02-19 11:20:20 公開日:2022-09-22
# quechuaをナレッジグラフで最終ユーザーに近づける

Getting Quechua Closer to Final Users through Knowledge Graphs ( http://arxiv.org/abs/2208.12608v2 )

ライセンス: Link先を確認
Elwin Huaman and Jorge Luis Huaman and Wendi Huaman(参考訳) ケチュア語とケチュア語の知識は世界中の何百万もの人々、特に南米のいくつかの国に集まっている。 残念ながら、Quechuaコミュニティで利用可能なリソースはごくわずかで、主にPDF形式で保存されている。 本稿では, ケチュアの知識グラフを, ケチュアのコミュニティ, 研究者, 技術開発者に近づける試みとして構想し, 作成する。 現在、Quechua Knowledge Graphには553636のトリプルが格納されており、Web上でアクセス可能で、マシンで検索可能で、ユーザがキュレートできる。 Quechua Knowledge Graphのデプロイを紹介するために、ユースケースと今後の作業について説明する。

Quechua language and Quechua knowledge gather millions of people around the world, especially in several countries in South America. Unfortunately, there are only a few resources available to Quechua communities, and they are mainly stored in PDF format. In this paper, the Quechua Knowledge Graph is envisioned and generated as an effort to get Quechua closer to the Quechua communities, researchers, and technology developers. Currently, there are 553636 triples stored in the Quechua Knowledge Graph, which is accessible on the Web, retrievable by machines, and curated by users. To showcase the deployment of the Quechua Knowledge Graph, use cases and future work are described.
翻訳日:2023-02-19 10:44:19 公開日:2022-09-22
# 量子軌道における対称性破壊と散逸凍結の一般性について

On the generality of symmetry breaking and dissipative freezing in quantum trajectories ( http://arxiv.org/abs/2204.06585v4 )

ライセンス: Link先を確認
Joseph Tindall, Dieter Jaksch and Carlos S\'anchez Mu\~noz(参考訳) 近年、強い対称性を持つ開量子系を含むいくつかの研究は、マスター方程式のモンテカルロの全ての個々の軌道が、長期の極限で凍結する特定の対称性セクターを動的に選択することを観察している。 この現象を散逸凍結(dissipative freezing)と呼び、この問題に関していくつかの単純な数学的観点を提示することにより、いくつかの例外を除いて、開放系に強い対称性が存在することの一般的な結果であると主張する。 いくつかの例システムを用いて、これらの議論を説明し、オフ対角対称セクタにおけるリウビリアンのスペクトル特性と凍結に要する時間との関係を明らかにする。 純粋に想像上の固有値を持つ固有モードがこれらのセクタに現れる極限の場合、凍結は起こらない。 このようなモードは、システムの対称性セクター間の情報とコヒーレンスを保存することを示し、非定常性や同期のような現象を引き起こす。 単一の量子軌道のレベルでの凍結の欠如は、これらのトレースレスモードをシンプルで計算効率良く識別する方法を提供する。

Recently, several studies involving open quantum systems which possess a strong symmetry have observed that every individual trajectory in the Monte Carlo unravelling of the master equation will dynamically select a specific symmetry sector to freeze into in the long-time limit. This phenomenon has been termed dissipative freezing, and in this paper we argue, by presenting several simple mathematical perspectives on the problem, that it is a general consequence of the presence of a strong symmetry in an open system with only a few exceptions. Using a number of example systems we illustrate these arguments, uncovering an explicit relationship between the spectral properties of the Liouvillian in off-diagonal symmetry sectors and the time it takes for freezing to occur. In the limiting case that eigenmodes with purely imaginary eigenvalues are manifest in these sectors, freezing fails to occur. Such modes indicate the preservation of information and coherences between symmetry sectors of the system and can lead to phenomena such as non-stationarity and synchronisation. The absence of freezing at the level of a single quantum trajectory provides a simple, computationally efficient way of identifying these traceless modes.
翻訳日:2023-02-17 02:37:41 公開日:2022-09-22
# 準粒子トンネルによる高インピーダンスマイクロ波モードの量子バス工学

Quantum bath engineering of a high impedance microwave mode through quasiparticle tunneling ( http://arxiv.org/abs/2204.08701v2 )

ライセンス: Link先を確認
Gianluca Aiello, Mathieu F\'echant, Alexis Morvan, Julien Basset, Marco Aprili, Julien Gabelli, J\'er\^ome Est\`eve(参考訳) マイクロ波量子光学における散逸工学の新しいアプローチを示す。 単一モードの場合、散逸は通常量子ジャンプに対応し、光子は1つずつ失われる。 ここでは、簡単なdc電圧で1ジャンプあたりの損失光子の最小数を2つ(またはそれ以上)に調整することができる。 その結果、異なる量子状態は異なる散逸を経験する。 因果性は、州が異なるエネルギーシフトを経験する必要があることを意味する。 これらのラムシフトの測定は、高非線形浴結合状態における単一量子状態に対するクラマース・クロニッヒ関係の予測とよく一致している。 この研究は、ジョセフソン効果に頼ることなく、回路QEDにおける量子状態操作の新しい可能性を開く。

We demonstrate a new approach to dissipation engineering in microwave quantum optics. For a single mode, dissipation usually corresponds to quantum jumps, where photons are lost one by one. Here, we are able to tune the minimal number of lost photons per jump to be two (or more) with a simple dc voltage. As a consequence, different quantum states experience different dissipation. Causality implies that the states must also experience different energy shifts. Our measurements of these Lamb shifts are in good agreement with the predictions of the Kramers-Kronig relations for single quantum states in a regime of highly non-linear bath coupling. This work opens new possibilities for quantum state manipulation in circuit QED, without relying on the Josephson effect.
翻訳日:2023-02-16 08:55:21 公開日:2022-09-22
# フォック状態に基づくポインター状態に対する弱強測定遷移の一般化

General approach of weak-to-strong measurement transition for Fock-state-based pointer states ( http://arxiv.org/abs/2205.00732v2 )

ライセンス: Link先を確認
Yusuf Turek, Janarbek Yuanbek, Ahmad Abliz(参考訳) フォン・ノイマンの射影的強い測定からアハルノフの弱い測定への遷移は、最近大きな注目を集め、理論的、実験的となった。 本研究では,フォック状態に基づくポインタ状態の弱-強測定遷移を記述するための一般的な手法を提案し,コヒーレントポインタ状態の場合を詳細に解析する。 また,トラップイオンを用いた測定手法の実現の可能性についても論じる。

The transition from von Neumann's projective strong measurement to Aharonov's weak measurement has recently received large attention, theoretical and experimental. In this work, we present a general approach to describe the weak-to-strong measurement transition for Fock-state-based pointer pointer states, and analyze in some details the case of coherent pointer states. A possible realization of our measurement scheme using trapped ions is also discussed.
翻訳日:2023-02-14 20:52:33 公開日:2022-09-22
# トポロジカル秩序を持つランダムスピン鎖における量子情報拡散

Quantum information spreading in random spin chains with topological order ( http://arxiv.org/abs/2205.03008v3 )

ライセンス: Link先を確認
Takahiro Orito, Yoshihito Kuno, Ikuo Ichinose(参考訳) 近年、多体系における量子情報の拡散とスクランブルが関心を集めている。 演算子に基づく絡み合いエントロピー(EE)に基づくTMI(Tripartite mutual information)は,その測定に有効なツールである。 本稿では,非自明な位相特性の変化に伴う相転移を示すランダムスピン鎖について検討する。 彼らの相図には、2種類の多体局在状態(MBL)と、2つのMBL状態に介在する1つの熱化状態がある。 EEとTMIのクエンチダイナミクスは、量子情報のエンコーディングに関する重要な視点を提供する興味深い振る舞いを示す。 特に、モデルの1つは自己双対であるが、TMIによって測定された情報はこの自己双対を尊重しない。 この現象を安定化器の空間構造の観点から検討する。 一般に、量子ビット系に対応する位相図の知識は、その系に広がる量子情報の性質を理解するのに有用である。 本研究と投影計測のランダム回路とトポロジカル・マヨラナ量子メモリとの接続について述べる。

Quantum information spreading and scrambling in many-body systems attract interests these days. Tripartite mutual information (TMI) based on operator-based entanglement entropy (EE) is an efficient tool for measuring them. In this paper, we study random spin chains that exhibit phase transitions accompanying nontrivial change in topological properties. In their phase diagrams, there are two types of many-body localized (MBL) states and one thermalized regime intervening these two MBL states. Quench dynamics of the EE and TMI display interesting behaviors providing essential perspective concerning encoding of quantum information. In particular, one of the models is self-dual, but information spreading measured by the TMI does not respect this self-duality. We investigate this phenomenon from the viewpoint of spatial structure of the stabilizers. In general, we find that knowledge of phase diagram corresponding to qubit system is useful for understanding nature of quantum information spreading in that system. Connection between the present work and random circuit of projective measurements and also topological Majorana quantum memory is remarked.
翻訳日:2023-02-14 03:44:40 公開日:2022-09-22
# マルチパーティイトチャネル集合体

Multipartite channel assemblages ( http://arxiv.org/abs/2205.05033v2 )

ライセンス: Link先を確認
Micha{\l} Banacki, Ravishankar Ramanathan and Pawe{\l} Horodecki(参考訳) 量子後ステアリングに関する最近の研究に動機づけられ,多成分非シグナリングチャネルアセンブラの概念を導入することにより,二成分チャネルステアリングの概念を一般化した。 まず,二成分の場合以外では,チャネル集合の無信号記述と量子記述は一致しないことを示す。 choi-jamio{\l}kowski同型を用いて、これらの集合のクラスを完全に特徴付けし、この特徴付けを用いて、すべての無信号チャネル集合の組内の量子チャネル集合の極値化に十分な条件を与える。 最後に、特定のサブシステムのみが無署名制約に従う、チャンネルステアリングの緩和バージョンを紹介し、議論する。 この後者の非対称なシナリオでは、一般的な符号なしの盗聴者に対して安全である完全鍵ビットを証明できる可能性を示す。

Motivated by the recent studies on post-quantum steering, we generalize the notion of bipartite channel steering by introducing the concept of multipartite no-signaling channel assemblages. We first show that beyond the bipartite case, the no-signaling and quantum descriptions of channel assemblages do not coincide. Using the Choi-Jamio{\l}kowski isomorphism, we present a complete characterization of these classes of assemblages and use this characterization to provide sufficient conditions for extremality of quantum channel assemblages within the set of all no-signaling channel assemblages. Finally, we introduce and discuss a relaxed version of channel steering where only certain subsystems obey the no-signaling constraints. In this latter asymmetric scenario we show the possibility of certifying a perfect key bit that is secure against a general no-signaling eavesdropper.
翻訳日:2023-02-13 17:32:50 公開日:2022-09-22
# 波動-粒子双対性、不確かさ原理、位相空間、ミクロ状態のハイライト関係

Highlighting relations between Wave-particle duality, Uncertainty principle, Phase space and Microstates ( http://arxiv.org/abs/2205.08538v2 )

ライセンス: Link先を確認
Ravo Tokiniaina Ranaivoson, Voriraza S\'eraphin Hejesoa, Raoelina Andriambololona, Nirina Gilbert Rasolofoson, Hanitriarivo Rakotoson, Jacqueline Rabesahala Raoelina Andriambololona, Lala Rarivomanantsoa, Naivo Rabesiranana(参考訳) 波動粒子の双対性はしばしば、2000年以上の尋問の後、光の性質を知るために見つかった、現代的で満足のいく答えと見なされる。 これは物質粒子や他の放射線の性質に関する量子物理学の解でもある。 本研究の目的は, 歴史的, 哲学的, 科学的観点からこの波動粒子双対性の概念を解析し, その関係性, 不確実性原理, 位相空間とミクロ状態の概念を統計力学で考察し, 考察することである。 これらの関係は、物理学・数学・歴史哲学の両方の観点から説明され分析される。 特に、位相空間とミクロ状態の概念は、波動粒子の双対性の発見よりずっと前に古典物理学で既に導入されたが、それらの正しい理解は量子物理学なしでは達成できないことが強調されている。 しかし、逆に、不確実性原理、位相空間、微小状態との関係は、この双対性をより深く理解し、より適切な説明に役立つことも示されている。

The wave-particle duality is often considered as the modern and satisfactory answer that man found in searching to know the nature of light after more than 2000 years of questioning. It is also the answer given by quantum physics concerning the nature of matter particles and any other radiations. The aim of this work is to perform an analysis of this concept of wave-particle duality from a historical, philosophical and scientific point of view and to study and discuss about the relations which exist between it, the uncertainty principle and the concepts of phase space and microstates considered in statistical mechanics. These relations will be described and analyzed both from a physico-mathematical and historico-philosophical perspective. It is, in particular, highlighted that while the concepts of phase space and microstates were already introduced in classical physics long before the discovery of the wave-particle duality, a correct understanding of them cannot be achieved without quantum physics. But conversely, it is also shown that the relations of the wave-particle duality with uncertainty principle, phase space and microstates that are highlighted can help in a deeper understanding and more adequate description of this duality.
翻訳日:2023-02-12 21:08:00 公開日:2022-09-22
# 多重アクセスチャネルの相関支援和容量の分離について

On the separation of correlation-assisted sum capacities of multiple access channels ( http://arxiv.org/abs/2205.13538v2 )

ライセンス: Link先を確認
Akshay Seshadri, Felix Leditzky, Vikesh Siddhu, Graeme Smith(参考訳) チャネルの容量は、チャネルを通じて情報が漸近的に忠実に送信できる最大レートを特徴付ける。 複数の送信機と単一受信機を持つチャネルでは、理論上は総和容量を計算できるが、非凸最適化が関与しているため実際は困難である。 本研究では,非ローカルゲームから得られるマルチアクセスチャネル群(MAC)の総容量について検討する。 この族内の任意のMACに対して、送り手間の任意の相関の集合からの補助を許すとき、ゲームの性質にのみ依存する和率の上限を得る。 このアプローチは、送信者が古典的、量子的、あるいは無シグナリング関係のような異なる相関の集合を共有することを許されたときの和容量の分離を証明するために用いられる。 また、特定の非局所ゲームを構築し、非凸最適化の緩和による和容量の有界化のアプローチが任意にゆるやかな境界を与えることを示す。 この問題に対する潜在的な解決に向けて、我々はまず相互情報に対するリプシッツ的性質を証明する。 リプシッツ連続関数を最適化するための既存のアルゴリズムの修正を用いて、任意の2次元MACの和容量を準多項式時間で固定加算精度に計算可能であることを示す。 入力アルファベットの1つがサイズ2の2次元MACのファミリーの和容量を効率よく計算することで,本手法を実証する。 さらに,本アルゴリズムでは,対流緩和を用いた場合よりも高い精度で和を計算できることを示す。

The capacity of a channel characterizes the maximum rate at which information can be transmitted through the channel asymptotically faithfully. For a channel with multiple senders and a single receiver, computing its sum capacity is possible in theory, but challenging in practice because of the nonconvex optimization involved. In this work, we study the sum capacity of a family of multiple access channels (MACs) obtained from nonlocal games. For any MAC in this family, we obtain an upper bound on the sum rate that depends only on the properties of the game when allowing assistance from an arbitrary set of correlations between the senders. This approach can be used to prove separations between sum capacities when the senders are allowed to share different sets of correlations, such as classical, quantum or no-signalling correlations. We also construct a specific nonlocal game to show that the approach of bounding the sum capacity by relaxing the nonconvex optimization can give arbitrarily loose bounds. Towards a potential solution to this problem, we first prove a Lipschitz-like property for the mutual information. Using a modification of existing algorithms for optimizing Lipschitz-continuous functions, we then show that it is possible to compute the sum capacity of an arbitrary two-sender MAC to a fixed additive precision in quasi-polynomial time. We showcase our method by efficiently computing the sum capacity of a family of two-sender MACs for which one of the input alphabets has size two. Furthermore, we demonstrate with an example that our algorithm may compute the sum capacity to a higher precision than using the convex relaxation.
翻訳日:2023-02-11 16:28:53 公開日:2022-09-22
# 完全超絡みグリーンバーガー・ホーネ・ザイリンガー状態解析による分極と時間-双対超絡みの解析

Complete hyperentangled Greenberger-Horne-Zeilinger state analysis for polarization and time-bin hyperentanglement ( http://arxiv.org/abs/2206.02469v2 )

ライセンス: Link先を確認
Zhi Zeng(参考訳) 本稿では,超エンタングルグリーンベルガー・ホーン・サイアリンガー(ghz)状態の2段階の分極と時間-ビン度を完全解析するための効率的なスキームを提案する。 まず、キャビティアシスト相互作用により構築された制御位相フリップ(cpf)ゲートを用いて、偏光ghz状態を完全に非破壊的に区別する。 その後、保存された偏光絡みを用いて時間ビンGHZ状態を分析する。 CPFゲートと自己アシスト機構の助けを借りて、我々のスキームは完全なN-光子超共役GHZ状態解析に直接一般化することができ、超共役に基づく量子通信に潜在的に応用できるかもしれない。

We present an efficient scheme for the complete analysis of hyperentangled Greenberger-Horne-Zeilinger (GHZ) state in polarization and time-bin degrees of freedom with two steps. First, the polarization GHZ state is distinguished completely and nondestructively, resorting to the controlled phase flip (CPF) gate constructed by the cavity-assisted interaction. Subsequently, the time-bin GHZ state is analyzed by using the preserved polarization entanglement. With the help of CPF gate and self-assisted mechanism, our scheme can be directly generalized to the complete N-photon hyperentangled GHZ state analysis, and it may have potential applications in the hyperentanglement-based quantum communication.
翻訳日:2023-02-10 09:40:54 公開日:2022-09-22
# 場に見えない量子ビットの時間変調によるキャビティ内の真空からの光子の生成

Generation of photons from vacuum in cavity via time-modulation of a qubit invisible to the field ( http://arxiv.org/abs/2206.05863v2 )

ライセンス: Link先を確認
M V S de Paula, W W T Sinesio, A V Dodonov(参考訳) 本研究では, 量子系の時間変調による真空からの光子生成を, アシラ量子サブシステムを介して間接的に空洞場に結合する手法を提案する。 人工2レベル原子(t-qubit と呼ぶ)に変調を施す場合の最も単純な場合について考察し, アンシラは空洞と t-qubit の両方に双極子相互作用を介して結合された静止量子ビットである。 その結果,t-量子ビットが空洞とキャビティの両方から遠くずれている場合でも,少数の光子を持つ三成分の絡み合い状態が共振変調によりシステム基底状態から生成できることが判明した。 数値シミュレーションにより近似解析結果を検証し、真空からの光子生成が共通散逸機構の存在下で持続することを示す。

We propose a scheme for generation of photons from vacuum due to time-modulation of a quantum system coupled indirectly to the cavity field through some ancilla quantum subsystem. We consider the simplest case when the modulation is applied to an artificial 2-level atom (we call t-qubit), while the ancilla is a stationary qubit coupled via the dipole interaction both to the cavity and t-qubit. We find that tripartite entangled states with a small number of photons can be generated from the system ground state under resonant modulations, even when the t-qubit is far detuned from both the ancilla and the cavity, provided its bare and modulation frequencies are properly adjusted as function of other system parameters. We attest our approximate analytic results by numeric simulations and show that photon generation from vacuum persists in the presence of common dissipation mechanisms.
翻訳日:2023-02-09 12:53:35 公開日:2022-09-22
# 超平面格子上の不均一自由フェルミオンの絡み合い

Entanglement of inhomogeneous free fermions on hyperplane lattices ( http://arxiv.org/abs/2206.06509v2 )

ライセンス: Link先を確認
Pierre-Antoine Bernard, Nicolas Cramp\'e, Rafael I. Nepomechie, Gilles Parez, Lo\"ic Poulain d'Andecy, Luc Vinet(参考訳) 我々は,隣接サイト間のホッピング強度を制御する$d(d-1)/2$連続パラメータを持つ$(d-1)$-次元格子上の自由フェルミオンの不均質モデルを導入する。 このモデルを正確に解いて、固有函数がクラトチョーク多項式の多次元一般化によって与えられることを見つける。 我々は, 切り刻まれた相関行列に通勤するフン作用素を構築し, 幅広いパラメータに対して, エンタングルメントエントロピーをD=2,3,4$で数値計算する。 d=2$の場合、エントロピーのエントロピーに対するサブリーディングの寄与の振動を観察し、正確な表現を予想する。 d>2$ では、パラメータに非自明な依存を持つ絡み合いエントロピーの領域法則の対数的違反を見つける。

We introduce an inhomogeneous model of free fermions on a $(D-1)$-dimensional lattice with $D(D-1)/2$ continuous parameters that control the hopping strength between adjacent sites. We solve this model exactly, and find that the eigenfunctions are given by multidimensional generalizations of Krawtchouk polynomials. We construct a Heun operator that commutes with the chopped correlation matrix, and compute the entanglement entropy numerically for $D=2,3,4$, for a wide range of parameters. For $D=2$, we observe oscillations in the sub-leading contribution to the entanglement entropy, for which we conjecture an exact expression. For $D>2$, we find logarithmic violations of the area law for the entanglement entropy with nontrivial dependence on the parameters.
翻訳日:2023-02-09 12:19:24 公開日:2022-09-22
# 境界近傍の絡み合いにおけるパリティ効果とO(1)の普遍項

Parity effects and universal terms of O(1) in the entanglement near a boundary ( http://arxiv.org/abs/2206.14781v2 )

ライセンス: Link先を確認
Henning Schl\"omer, Chunyu Tan, Stephan Haas, Hubert Saleur(参考訳) 境界が存在する場合、格子モデルにおける絡み合いエントロピーはサブシステムの長さ(パリティ)の振動を示すことが知られているが、辺からの距離が増すにつれてゼロに崩壊する。 この論文では、サブシステムが境界から始まり不純物で終わると、エンタングルメント(および電荷変動)の振動は、距離とともに減衰せず、普遍的な特徴を示す。 これらの振動は、1つの修正リンク(共形欠陥)または2つの連続修正リンク(関連欠陥)を持つXX鎖の場合、数値的にも解析的にも詳細に研究する。 次に, 金属鉛と結合したSSHモデルとして解釈し, 拡張不純物の場合へ解析を一般化する。 この文脈では、パリティ効果は非自明な位相位相の存在の観点から解釈することができる。

In the presence of boundaries, the entanglement entropy in lattice models is known to exhibit oscillations with the (parity of the) length of the subsystem, which however decay to zero with increasing distance from the edge. We point out in this article that, when the subsystem starts at the boundary and ends at an impurity, oscillations of the entanglement (as well as of charge fluctuations) appear which do not decay with distance, and which exhibit universal features. We study these oscillations in detail for the case of the XX chain with one modified link (a conformal defect) or two successive modified links (a relevant defect), both numerically and analytically. We then generalize our analysis to the case of extended (conformal) impurities, which we interpret as SSH models coupled to metallic leads. In this context, the parity effects can be interpreted in terms of the existence of non-trivial topological phases.
翻訳日:2023-02-07 07:18:37 公開日:2022-09-22
# 量子系における励起状態の反重力現象について

On anti-gravitational phenomenon of excited states in quantum systems ( http://arxiv.org/abs/2206.15456v2 )

ライセンス: Link先を確認
Lijia Jiang and Jun-Hui Zheng(参考訳) 重力は、全ての物と質量やエネルギーの間の魅力的な相互作用であり、巨視的なスケールでの物体の動きに影響を与え、宇宙の大規模構造を決定すると信じられている。 従来の認識とは対照的に、ここでは重力反発は量子系においてもユビキタスであり、閉じ込められた系の重力場に対する(位相的に)励起状態における粒子の位置の異常な応答である。 この反重力現象は、量子状態の直交性から受け継いだ「量子状態排除」と呼ばれる原理によって生じることが証明される。 さらに、膨張する空間において、この重力異常は励起状態の量子物質が空間よりも高速に膨張し、空間の境界付近で観測可能な量子物質が蓄積されることを予測している。 これらの特異な現象は、ボース・アインシュタイン凝縮とソリトンを用いて超低温原子実験でシミュレートすることができる。 量子系における加速膨張現象は、真空状態がトポロジカルな欠陥を伴う励起であるかもしれない宇宙の進化を理解するために新しい光を放つ。

It is common belief that gravity is an attractive interaction between all things with mass or energy, affecting the motion of objects at the macroscopic scale and determining the large-scale structure of the universe. Contrary to the conventional cognition, here we reveal that gravitational repulsion is also ubiquitous in quantum systems -- the anomalous response of the position of the particles at (topologically) excited states to the gravitational field in confined systems. We prove that this anti-gravitational phenomenon results from a principle called `quantum-state exclusion' inherited from the orthogonality of quantum states. We further predict that, in an inflating space, this gravitational anomaly may cause quantum matter in excited states to expand even faster than space, leading to an observable accumulation of quantum matter near the boundary of the space. These unique phenomena can be simulated in ultracold atom experiments by using Bose-Einstein condensates with solitons. The accelerating expansion phenomenon in quantum systems also sheds new light on understanding the evolution of the universe, where the vacuum state may also be an excitation with topological defects.
翻訳日:2023-02-07 04:34:17 公開日:2022-09-22
# shor型誤り訂正のための適応型シンドローム測定

Adaptive syndrome measurements for Shor-style error correction ( http://arxiv.org/abs/2208.05601v2 )

ライセンス: Link先を確認
Theerapat Tansuwannont, Kenneth R. Brown(参考訳) Shor fault-tolerant error correct (FTEC) 方式では, ゲート故障によるエラーの伝播を防止するために, 猫の状態に用意されたトランスバーサルゲートとアンシラキュービットを用いる。 最大で$t$の誤差を補正できる安定化コードの場合、従来のShorスキームは、症候群が連続して$t+1$の回数を繰り返すまでシンドローム測定を行うことで、アシラ準備と測定障害を処理し、最悪の場合、$(t+1)^2$の計測を必要とする。 本研究では,適応型シンドローム計測手法を用いてshor ftecスキームを改善する。 特に,本プロトコルは,連続する2ラウンドの症候群の差から得られる情報に基づいて,誤り訂正のためのシンドロームを決定する。 FTECの強い条件を満たすプロトコルは、$(t+3)^2/4-1$の計測を必要とせず、任意の安定化符号に適用できる。 従来の手法と比較して,我々の適応測定手法は,大きな$t$制限の4倍の耐故障閾値を増大させることができると推定した。 また,弱いFTEC条件を満たす誤り訂正やフラグFTECも提案する。

The Shor fault-tolerant error correction (FTEC) scheme uses transversal gates and ancilla qubits prepared in the cat state in syndrome extraction circuits to prevent propagation of errors caused by gate faults. For a stabilizer code that can correct up to $t$ errors, the traditional Shor scheme handles ancilla preparation and measurement faults by performing syndrome measurements until the syndromes are repeated $t+1$ times in a row; in the worst-case scenario, $(t+1)^2$ rounds of measurements are required. In this work, we improve the Shor FTEC scheme using an adaptive syndrome measurement technique. In particular, our protocols determine a syndrome for error correction based on information from the differences of syndromes obtained from any two consecutive rounds. Our protocol that satisfies the strong FTEC conditions requires no more than $(t+3)^2/4-1$ rounds of measurements and is applicable to any stabilizer code. Compared to the traditional method, we estimate that our adaptive measurement method could increase the fault-tolerant threshold by a factor of 4 in the large $t$ limit. We also extend our ideas to error correction satisfying the weak FTEC conditions and flag FTEC.
翻訳日:2023-01-31 21:17:33 公開日:2022-09-22
# ウレホログラフィーの探索

Exploring uberholography ( http://arxiv.org/abs/2208.07387v2 )

ライセンス: Link先を確認
Dmitry S. Ageev(参考訳) 本稿では,異なる境界フラクタル構造におけるホログラフィック量子誤差補正符号特性について検討する。 我々は、カントール型集合、熱状態、および$T\overline{T}$-deformed conformal field theoryの高次元におけるこれらの構造に対応するバーホログラフィックバルク再構成の異なる例を構築し、探索する。 この文脈で自然に生じる特別な境界のため、系次元の成長がカントール集合の役割をいかに強調するかを示す。

In this paper, we study the holographic quantum error correcting code properties in different boundary fractal-like structures. We construct and explore different examples of the uberholographic bulk reconstruction corresponding to these structures in higher dimensions for Cantor-like sets, thermal states and $T\overline{T}$-deformed conformal field theories. We show how the growth of the system dimension emphasizes the role of the Cantor set, due to the special bound naturally arising in this context.
翻訳日:2023-01-31 01:30:28 公開日:2022-09-22
# Werner States の拡張性

Extendibility of Werner States ( http://arxiv.org/abs/2208.13743v2 )

ライセンス: Link先を確認
D\'avid Jakab and Adrian Solymos and Zolt\'an Zimbor\'as(参考訳) ヴェルナー状態の両側対称拡張可能性問題について検討する。 これらの状態のユニタリ対称性と拡張可能性シナリオの固有二成分置換対称性の相互作用により、この問題を高対称スピンモデルハミルトンの基底状態問題にマッピングすることができる。 su(d) の表現論、特にリトルウッド-リヒャルソン分解におけるヤングダイアグラムの優位秩序に関連する結果を利用して、解析的にこの基底状態問題を解く。 その結果、任意の拡張サイズと局所次元に対するヴェルナー状態の拡張性に必要な十分条件が得られる。 興味深いことに、拡張可能な状態の範囲は両辺の拡張サイズの間の非自明なトレードオフを持つ。 このようなトレードオフが存在しない等方性状態の両側拡張性問題と比較する。

We investigate the two-sided symmetric extendibility problem of Werner states. The interplay of the unitary symmetry of these states and the inherent bipartite permutation symmetry of the extendibility scenario allows us to map this problem into the ground state problem of a highly symmetric spin-model Hamiltonian. We solve this ground state problem analytically by utilizing the representation theory of SU(d), in particular a result related to the dominance order of Young diagrams in Littlewood-Richarson decompositions. As a result, we obtain necessary and sufficient conditions for the extendibility of Werner states for arbitrary extension size and local dimension. Interestingly, the range of extendible states has a non-trivial trade-off between the extension sizes on the two sides. We compare our result with the two-sided extendibility problem of isotropic states, where there is no such trade-off.
翻訳日:2023-01-28 14:33:28 公開日:2022-09-22
# 半導体$\delta$-layer系における導電性とサイズ量子化効果

Conductivity and size quantization effects in semiconductor $\delta$-layer systems ( http://arxiv.org/abs/2209.06959v2 )

ライセンス: Link先を確認
Juan P. Mendez and Denis Mamaluy(参考訳) 本稿では、2つの半導体系の伝導バンド構造と伝導特性に関するオープン・システム量子力学的3次元実空間研究を行い、その超越性および量子コンピューティング応用に興味深い:シリコン中のリン$\delta$-layersとそれに対応する$\delta$-layer tunnel junctions。 導電率に対するサイズ量子化効果を評価するために、トランジスタで使用されるナノスケール有限幅構造と、典型的には実験的に知られている無限幅構造である。 w<10$~nm幅のデバイスでは量子化効果は強く、伝播モードの数は導電性だけでなく、現在の電子状態の特徴的な空間分布を決定することが示されている。 W>10$~nmの場合、量子化効果は事実上消滅し、導電性は無限大のデバイス値に傾向にある。 トンネル接合では、強い伝導帯量子化のため、2つの異なる導電性規則が予測される。

We present an open-system quantum-mechanical 3D real-space study of the conduction band structure and conductive properties of two semiconductor systems, interesting for their beyond-Moore and quantum computing applications: phosphorus $\delta$-layers in silicon and the corresponding $\delta$-layer tunnel junctions. In order to evaluate size quantization effects on the conductivity, we consider two principal cases: nanoscale finite-width structures, used in transistors, and infinitely-wide structures, electrical properties of which are typically known experimentally. For devices widths $W<10$~nm, quantization effects are strong and it is shown that the number of propagating modes determines not only the conductivity, but the distinctive spatial distribution of the current-carrying electron states. For $W>10$~nm, the quantization effects practically vanish and the conductivity tends to the infinitely-wide device values. For tunnel junctions, two distinct conductivity regimes are predicted due to the strong conduction band quantization.
翻訳日:2023-01-26 16:41:55 公開日:2022-09-22
# マイクロカノニカル熱純量子法のための量子アルゴリズム

Quantum algorithm for the microcanonical Thermal Pure Quantum method ( http://arxiv.org/abs/2209.10199v2 )

ライセンス: Link先を確認
Kaito Mizukami and Akihisa Koga(参考訳) 本稿では,近年開発された量子特異値変換法と組み合わせることで,有限温度における熱力学量の評価に有利な,ミクロカノニカル熱純量子(tpq)法のための量子アルゴリズムを提案する。 量子系の基底エネルギーが既に正確に得られている場合、ハミルトニアンの複数の積は効率的に実現され、低温のTPQ状態は量子計算で体系的に構築される。

We present a quantum algorithm for the microcanonical thermal pure quantum (TPQ) method, which has an advantage in evaluating thermodynamic quantities at finite temperatures, by combining with some recently developed techniques derived from quantum singular value transformation. When the ground energy of quantum systems has already been obtained precisely, the multiple products of the Hamiltonian are efficiently realized and the TPQ states at low temperatures are systematically constructed in quantum computations.
翻訳日:2023-01-25 20:55:42 公開日:2022-09-22
# ゼロ知識への可能性を考慮した量子局所検証

Making Quantum Local Verifiers Simulable with Potential Applications to Zero-Knowledge ( http://arxiv.org/abs/2209.10798v1 )

ライセンス: Link先を確認
Lijie Chen and Ramis Movassagh(参考訳) 最近、ChenとMovassaghは、有名な古典メルクル木の量子アナログである量子メルクル木を提案した。 量子状態のコミットメントに対する簡潔な検証プロトコルを提供する。 彼らは半正直なプローバーに対するセキュリティを証明しただけだったが、一般のセキュリティを推測した。 提案された量子メルクル木を用いて、彼らは確率的にチェック可能な証明(PCPs)に基づく、キリアンのNPの簡潔な引数の量子アナログを与えた。 キリアンの議論のよい特徴は、基礎となるPCPがゼロ知識であれば、NPのゼロ知識簡潔な引数に拡張できることである。 したがって、自然な疑問は、chen と movassagh のゼロ知識による量子簡潔な議論もできるかどうかである。 この仕事はこの問題に進展をもたらす。 ブロードベントとグリロの最近の結果を一般化し、任意の局所量子検証器を完全性と健全性の小さな減少でシミュレートできることを示した。 おおまかに言えば、局所量子検証器は、正の場合、検証器の局所的なビューを実際の量子証明を知らずに計算でき、古典的なゼロ知識PCPの量子アナログと見なすことができる。 したがって、Chen と Movassagh の簡潔な量子論証をシミュレート可能な局所検証器に適用することは、確かにゼロ知識である。

Recently Chen and Movassagh proposed the quantum Merkle tree, which is a quantum analogue of the well-known classical Merkle tree. It gives a succinct verification protocol for quantum state commitment. Although they only proved security against semi-honest provers, they conjectured its general security. Using the proposed quantum Merkle tree, they gave a quantum analogue of Kilian's succinct argument for NP, which is based on probabilistically checkable proofs (PCPs). A nice feature of Kilian's argument is that it can be extended to a zero-knowledge succinct argument for NP, if the underlying PCP is zero-knowledge. Hence, a natural question is whether one can also make the quantum succinct argument by Chen and Movassagh zero-knowledge as well. This work makes progress on this problem. We generalize the recent result of Broadbent and Grilo to show that any local quantum verifier can be made simulable with a minor reduction in completeness and soundness. Roughly speaking, a local quantum verifier is simulable if in the yes case, the local views of the verifier can be computed without knowing the actual quantum proof; it can be seen as the quantum analogue of the classical zero-knowledge PCPs. Hence we conjecture that applying the proposed succinct quantum argument of Chen and Movassagh to a simulable local verifier is indeed zero-knowledge.
翻訳日:2023-01-25 18:16:47 公開日:2022-09-22
# 1+1次元における量子色力学の量子シミュレーションの準備: (II)単一バリオン$\beta$-Decayをリアルタイムに

Preparations for Quantum Simulations of Quantum Chromodynamics in 1+1 Dimensions: (II) Single-Baryon $\beta$-Decay in Real Time ( http://arxiv.org/abs/2209.10781v1 )

ライセンス: Link先を確認
Roland C. Farrell, Ivan A. Chernyshev, Sarah J. M. Powell, Nikita A. Zemlevskiy, Marc Illa and Martin J. Savage(参考訳) 1次元の2相格子理論におけるハドロンと原子核の実時間弱崩壊の量子シミュレーションのための枠組みを提案する。 標準模型の1世代は、ジョルダン・ウィグナー変換を通じてスピン作用素に写像した後、空間格子サイトあたり16 qubitsを必要とする。 量子色力学とフレーバー交換弱い相互作用の両方がダイナミクスに含まれており、後者は4フェルミ効果作用素である。 この格子理論に時間的発展をもたらす量子回路が開発され、1つの格子上の1バリオンの$\beta$-decayをシミュレートするためにQuantinuumの20量子ビットトラップイオン系上で動作している。 これらのシミュレーションには初期状態の準備が含まれており、1つの時間ステップと2つの時間ステップの両方で実行される。 このタイプの格子理論の潜在的な固有誤差補正特性を議論し、ニュートリノマヨラナ質量項によって誘導される核の$0\nu\beta\beta$-decayをシミュレートするために必要とされる格子ハミルトンを導く。

A framework for quantum simulations of real-time weak decays of hadrons and nuclei in a 2-flavor lattice theory in one spatial dimension is presented. A single generation of the Standard Model is found to require 16 qubits per spatial lattice site after mapping to spin operators via the Jordan-Wigner transformation. Both quantum chromodynamics and flavor-changing weak interactions are included in the dynamics, the latter through four-Fermi effective operators. Quantum circuits which implement time evolution in this lattice theory are developed and run on Quantinuum's H1-1 20-qubit trapped ion system to simulate the $\beta$-decay of a single baryon on one lattice site. These simulations include the initial state preparation and are performed for both one and two Trotter time steps. The potential intrinsic error-correction properties of this type of lattice theory are discussed and the leading lattice Hamiltonian required to simulate $0\nu\beta\beta$-decay of nuclei induced by a neutrino Majorana mass term is provided.
翻訳日:2023-01-25 18:16:22 公開日:2022-09-22
# スーパーチャネルの量子回路シミュレーション

Quantum circuit simulation of superchannels ( http://arxiv.org/abs/2209.10756v1 )

ライセンス: Link先を確認
K. Wang and D.-S. Wang(参考訳) 量子シミュレーションは、量子コンピューティングのパワーを示す中心的な分野の一つである。 近年、量子超チャネルの理論的枠組みが発展し、量子チャネルの拡張として広く応用されている。 本研究ではスーパーチャネルの量子回路シミュレーションタスクについて検討する。 本研究では,極端スーパーチャネルの和への凸分解に基づく量子スーパーチャネルシミュレーションアルゴリズムを開発し,回路コストを低減できる。 量子ビット超チャネルを高精度に数値シミュレーションし,現在の実験プラットフォームに適用できることを示す。

Quantum simulation is one of the central discipline to demonstrate the power of quantum computing. In recent years, the theoretical framework of quantum superchannels has been developed and applied widely as the extension of quantum channels. In this work, we study the quantum circuit simulation task of superchannels. We develop a quantum superchannel simulation algorithm based on the convex decomposition into sum of extreme superchannels, which can reduce the circuit cost. We demonstrate the algorithm by numerical simulation of qubit superchannels with high accuracy, making it applicable to current experimental platforms.
翻訳日:2023-01-25 18:16:02 公開日:2022-09-22
# 低周波光機械的冷却と慣性センシング

Optomechanical cooling and inertial sensing at low frequencies ( http://arxiv.org/abs/2209.10746v1 )

ライセンス: Link先を確認
Yanqi Zhang, Adam Hines, Dalziel Wilson, and Felipe Guzman(参考訳) 本稿では,低周波数域において高い感度と大きなダイナミックレンジを実現するための慣性センサ設計を提案する。 光キャビティ読み出しシステムとモノリシックなメカニカル共振器を組み合わせることで高い加速感度が得られる。 高感度ヘテロダイン干渉計は、低剛性共振器のための広いダイナミックレンジで試験質量を同時に監視する。 強度変調レーザーを用いた放射圧相互作用により、光フィードバック冷却により帯域幅が調整される。 フィードバックシステムの伝達ゲインを分析し、達成可能な最低冷却温度に向けてシステムのパラメータを最適化する。 慣性センサを実用化するために,低光出力で動作しながら冷却効率を向上させるカスケード冷却機構を提案する。 システム全体のレイアウトは、コンパクトで軽量な統合設計を提供する。

An inertial sensor design is proposed in this paper to achieve high sensitivity and large dynamic range in the sub-Hz frequency regime. High acceleration sensitivity is obtained by combining optical cavity readout systems with monolithically fabricated mechanical resonators. A high-sensitivity heterodyne interferometer simultaneously monitors the test mass with an extensive dynamic range for low-stiffness resonators. The bandwidth is tuned by optical feedback cooling to the test mass via radiation pressure interaction using an intensity-modulated laser. The transfer gain of the feedback system is analyzed to optimize system parameters towards the minimum cooling temperature that can be achieved. To practically implement the inertial sensor, we propose a cascaded cooling mechanism to improve cooling efficiency while operating at low optical power levels. The overall system layout presents an integrated design that is compact and lightweight.
翻訳日:2023-01-25 18:15:54 公開日:2022-09-22
# 臨界に基づく量子メトロロジーとデコヒーレンス

Criticality-Based Quantum Metrology in the Presence of Decoherence ( http://arxiv.org/abs/2209.10731v1 )

ライセンス: Link先を確認
Wan-Ting He, Cong-Wei Lu, Yi-Xuan Yao, Hai-Yuan Zhu, Qing Ai(参考訳) 量子気象学は、測定精度を向上させるために量子資源を使用することを目的としている。 量子臨界は新規で効率的な資源として提示されている。 一般に、臨界に基づく量子距離論のプロトコルはデコヒーレンスなしで機能する。 本稿では,QPTに近づくときの雑音の存在下で,逆分散の発散特性が実際に実現可能であるか,という課題に対処する。 量子ラビモデル(qrm)を例として,逆分散の解析結果を得る。 逆分散はノイズにより時間内に収束する可能性があることを示す。 臨界点に近づくと、最大反転分散は指数値-1.2で、絶対値がノイズフリーの場合、すなわち2.1の値よりも小さいことを示します。 また,緩和速度と温度に対する最大逆変分率のゆらぎ依存性も観察した。 メロジの精度はノイズに非常に敏感であるため,初期状態でのスクイーズ操作を行い,デコヒーレンス下での精度を向上させることを提案する。 さらに, 2光子緩和の影響を受け, 臨界に基づくメロロジーについても検討した。 単光子緩和とは対照的に、反転分散の量子力学は完全に異なる挙動を示す。 異なる非次元結合強度に対する再スケール時間に関して、同じ周波数で振動することはない。 驚くべきことに、最大逆分散は依然としてエネルギーギャップに対するパワーロー依存を示すが、指数は正であり、無次元結合強度に依存する。 この観察は、臨界度が2光子緩和の存在下での精度を弱める可能性を示唆している。 2光子緩和によって導入された非線形性によってよく説明できる。

Quantum metrology aims to use quantum resources to improve the precision of measurement. Quantum criticality has been presented as a novel and efficient resource. Generally, protocols of criticality-based quantum metrology often work without decoherence. In this paper, we address the issue whether the divergent feature of the inverted variance is indeed realizable in the presence of noise when approaching the QPT. Taking the quantum Rabi model (QRM) as an example, we obtain the analytical result for the inverted variance. We show that the inverted variance may be convergent in time due to the noise. When approaching the critical point, the maximum inverted variance demonstrates a power-law increase with the exponent -1.2, of which the absolute value is smaller than that for the noise-free case, i.e., 2. We also observe a power-law dependence of the maximum inverted variance on the relaxation rate and the temperature. Since the precision of the metrology is very sensitive to the noise, as a remedy, we propose performing the squeezing operation on the initial state to improve the precision under decoherence. In addition, we also investigate the criticality-based metrology under the influence of the two-photon relaxation. Contrary to the single-photon relaxation, the quantum dynamics of the inverted variance shows a completely-different behavior. It does not oscillate with the same frequency with respect to the re-scaled time for different dimensionless coupling strengths. Strikingly, although the maximum inverted variance still manifests a power-law dependence on the energy gap, the exponent is positive and depends on the dimensionless coupling strength. This observation implies that the criticality may not enhance but weaken the precision in the presence of two-photon relaxation. It can be well described by the non-linearity introduced by the two-photon relaxation.
翻訳日:2023-01-25 18:15:39 公開日:2022-09-22
# ベル計測による演算子サイズ評価のための量子アルゴリズム

Quantum algorithm for evaluating operator size with Bell measurements ( http://arxiv.org/abs/2209.10724v1 )

ライセンス: Link先を確認
Xi-Dan Hu, Tong Luo, and Dan-Bo Zhang(参考訳) 演算子サイズの成長は、量子力学における作用素の揺らぎを記述し、量子カオスを特徴づける重要な物理概念として際立っている。 量子コンピュータ上で直接の演算子サイズを測定するためのスキームはまだ存在しない。 本稿では,ベル計測に基づく演算子サイズとその分布を直接測定する量子アルゴリズムを提案する。 このアルゴリズムはスピン鎖を用いて検証し, トロタライズ誤差と量子ノイズの影響を解析した。 演算子サイズの成長の飽和は、量子カオスそのものに起因するか、量子ノイズの結果であることが明らかとなり、量子可積分系とカオス系の区別がノイズ量子プロセッサ上で困難になる。 それにもかかわらず、誤差緩和はノイズの影響を効果的に低減し、量子カオスシステムの識別性を回復することが判明した。 提案手法は,雑音量子コンピュータ上での量子カオスを,オペレータサイズの増大を測定することで検証するための,実現可能なプロトコルを提供する。

Operator size growth describes the scrambling of operators in quantum dynamics and stands out as an essential physical concept for characterizing quantum chaos. Important as it is, a scheme for direct measuring operator size on a quantum computer is still absent. Here, we propose a quantum algorithm for direct measuring the operator size and its distribution based on Bell measurement. The algorithm is verified with spin chains and meanwhile, the effects of Trotterization error and quantum noise are analyzed. It is revealed that saturation of operator size growth can be due to quantum chaos itself or be a consequence of quantum noises, which make a distinction between quantum integrable and chaotic systems difficulty on noisy quantum processors. Nevertheless, it is found that the error mitigation will effectively reduce the influence of noise, so as to restore the distinguishability of quantum chaotic systems. Our work provides a feasible protocol for investigating quantum chaos on noisy quantum computers by measuring operator size growth.
翻訳日:2023-01-25 18:14:54 公開日:2022-09-22
# CERNビームラインにおける量子強化学習のためのハイブリッドアクター・クリティックアルゴリズム

Hybrid actor-critic algorithm for quantum reinforcement learning at CERN beam lines ( http://arxiv.org/abs/2209.11044v1 )

ライセンス: Link先を確認
Michael Schenk, El\'ias F. Combarro, Michele Grossi, Verena Kain, Kevin Shing Bruce Li, Mircea-Marian Popa, Sofia Vallecorsa(参考訳) 量子ボルツマンマシン (qbm) を用いた自由エネルギー型強化学習 (ferl) は, 古典的q-ラーニングに比べて, 離散的状態動作空間環境において, 学習効率が有意に向上することを示した。 本稿では,ferlアプローチを多次元連続状態動作空間環境に拡張し,より広い範囲の実世界アプリケーションへの扉を開く。 まず,自由エネルギーに基づくq-learningを離散的行動空間に対して検討するが,連続状態空間と経験リプレイがサンプル効率に与える影響について検討する。 第2のステップでは、古典的アクターネットワークとQBMベースの批評家を組み合わせたDeep Deterministic Policy Gradientアルゴリズムに基づいて、連続状態アクション空間に対するハイブリッドアクター批判スキームを開発した。 シミュレーションおよびD波量子アニールハードウェアを用いて得られた量子アニールの結果について考察し,古典的強化学習法と比較した。 使用した環境は、欧州原子力研究機構(CERN)の既存の粒子加速器ビームラインを表している。 中でも、advanced plasma wakefield experiment(awake)の実際の電子線上でのハイブリッドアクタ-クリティック剤の評価を行う。

Free energy-based reinforcement learning (FERL) with clamped quantum Boltzmann machines (QBM) was shown to significantly improve the learning efficiency compared to classical Q-learning with the restriction, however, to discrete state-action space environments. In this paper, the FERL approach is extended to multi-dimensional continuous state-action space environments to open the doors for a broader range of real-world applications. First, free energy-based Q-learning is studied for discrete action spaces, but continuous state spaces and the impact of experience replay on sample efficiency is assessed. In a second step, a hybrid actor-critic scheme for continuous state-action spaces is developed based on the Deep Deterministic Policy Gradient algorithm combining a classical actor network with a QBM-based critic. The results obtained with quantum annealing, both simulated and with D-Wave quantum annealing hardware, are discussed, and the performance is compared to classical reinforcement learning methods. The environments used throughout represent existing particle accelerator beam lines at the European Organisation for Nuclear Research (CERN). Among others, the hybrid actor-critic agent is evaluated on the actual electron beam line of the Advanced Plasma Wakefield Experiment (AWAKE).
翻訳日:2023-01-25 18:08:30 公開日:2022-09-22
# 非確率ハミルトニアンによる量子アニールの破滅的失敗とデコヒーレンスによる回避

Catastrophic failure of quantum annealing owing to non-stoquastic Hamiltonian and its avoidance by decoherence ( http://arxiv.org/abs/2209.10983v1 )

ライセンス: Link先を確認
Takashi Imoto and Yuichiro Matsuzaki(参考訳) 量子アニール (QA) は、イジング・ハミルトンの基底状態に解が埋め込まれた組合せ最適化問題を解くための有望な方法である。 この方法は、ドライバー・ハミルトンと問題・ハミルトンの2種類のハミルトニアンを用いる。 ドライバハミルトニアンから問題ハミルトニアンへの十分に遅い変化の後、解に対応する対象基底状態を得ることができる。 ドライバーハミルトニアンにおける非確率項の含意は、QAの効率を高めると考えられている。 一方, 脱コヒーレンスをQAの主な障害と見なしている。 ここでは、非確率的ハミルトニアンがQAの破滅的な失敗に繋がることを示す一方、ある種のデコヒーレンスプロセスはそのような失敗を避けるために用いられる。 より具体的には、ハミルトニアンに反強磁性相互作用(つまり典型的な非強磁性項)を含む場合、特定のケースに対して無限に長いアニーリング時間でもターゲット基底状態を作ることができない。 この例では、対称性のため、ハミルトニアンはブロック対角化され、QAの間に交差が起こり、基底状態探索が完全に失敗する。 さらに,ある種類のデコヒーレンスを加えると,これらのケースに対して,QA後の基底状態が得られることを示す。 これは、孤立量子系に対称性が存在する場合でも、環境が対称性を破るからである。 直感的な逆の結果は、QAの基本的なメカニズムについて深い洞察を与えてくれる。

Quantum annealing (QA) is a promising method for solving combinatorial optimization problems whose solutions are embedded into a ground state of the Ising Hamiltonian. This method employs two types of Hamiltonians: a driver Hamiltonian and a problem Hamiltonian. After a sufficiently slow change from the driver Hamiltonian to the problem Hamiltonian, we can obtain the target ground state that corresponds to the solution. The inclusion of non-stoquastic terms in the driver Hamiltonian is believed to enhance the efficiency of the QA. Meanwhile, decoherence is regarded as of the main obstacles for QA. Here, we present examples showing that non-stoaquastic Hamiltonians can lead to catastrophic failure of QA, whereas a certain decoherence process can be used to avoid such failure. More specifically, when we include anti-ferromagnetic interactions (i.e., typical non-stoquastic terms) in the Hamiltonian, we are unable to prepare the target ground state even with an infinitely long annealing time for some specific cases. In our example, owing to a symmetry, the Hamiltonian is block-diagonalized, and a crossing occurs during the QA, which leads to a complete failure of the ground-state search. Moreover, we show that, when we add a certain type of decoherence, we can obtain the ground state after QA for these cases. This is because, even when symmetry exists in isolated quantum systems, the environment breaks the symmetry. Our counter intuitive results provide a deep insight into the fundamental mechanism of QA.
翻訳日:2023-01-25 18:08:09 公開日:2022-09-22
# 純ボソニック拡張による絡み合い検出

Detecting entanglement by pure bosonic extension ( http://arxiv.org/abs/2209.10934v1 )

ライセンス: Link先を確認
Xuanran Zhu, Chao Zhang, Chenfeng Cao, Youning Li, Bei Zeng(参考訳) 量子エンタングルメントの検出と定量化は、量子情報理論における中心的な課題である。 エンタングルメントの相対エントロピー(REE)は、エンタングルメントを測定するための最も有名な量の一つであり、他の多くの分野で様々な応用がある。 REEの下限を計算するためのよく研究された効率的なアプローチは、正部分変換(PPT)基準である。 しかし、これは有界絡み領域で失敗する。 本研究では,分離可能集合を階層構造によって外部から特徴づける$k$-symmetric/bosonic拡張の実現可能性を大幅に改善するために,pure bosonic extensionという手法を用いた。 この方法に基づき、k$-ボソニック拡張可能集合の境界を効率的に近似し、所望のreeの下限を得ることができる。 例えば、QETLABの対称拡張関数のような半定値計画法と比較して、我々のアルゴリズムはより大きい単一粒子次元とずっと大きい$k$をサポートできる。

Detecting and quantifying quantum entanglement is a central task in quantum information theory. Relative entropy of entanglement (REE) is one of the most famous quantities for measuring entanglement and has various applications in many other fields. One well-studied and efficient approach for calculating the lower bound of REE is the positive partial transpose (PPT) criterion. But it fails in the bound entangled area. In this work, we use a method called pure bosonic extension to significantly improve the feasibility of $k$-symmetric/bosonic extensions which characterize the separable set from outside by a hierarchy structure. Based on this method, we can efficiently approximate the boundaries of $k$-bosonic extendible sets and obtain the desired lower bound of REE. Compared to the Semi-Definite Programming method, for example, the symmetric extension function in QETLAB, our algorithm can support much larger single particle dimensions and much larger $k$.
翻訳日:2023-01-25 18:07:21 公開日:2022-09-22
# 不規則フェルミ系におけるLoschmidtエコーと動的量子相転移の理論

Theory of the Loschmidt echo and dynamical quantum phase transitions in disordered Fermi systems ( http://arxiv.org/abs/2209.10895v1 )

ライセンス: Link先を確認
Tuomas I. Vanhala and Teemu Ojanen(参考訳) 本研究では,非相互作用型強乱フェルミ系におけるロスシュミットエコーと動的相転移の理論をクエンチ後に展開する。 有限系では、ロスシュミットエコーはランダムポテンシャル実現に依存する複素時間平面内の零点を表示する。 特筆すべきは、零点が熱力学極限における2D多様体を形成することであり、1D系では非定型であり、鋭く定義された臨界時間で実軸を横切ることである。 この動的相転移は、ロスシュミット行列の最小固有値の分布関数の遷移として理解でき、有限サイズのスケーリング理論を展開できることを示した。 期待に反して、混乱系における動的相転移の概念は、平衡アンダーソン局在化遷移とは分離される。 本研究は,無秩序系および非無秩序多元系におけるクエンチダイナミクスの著しい質的差異を浮き彫りにした。

In this work we develop the theory of the Loschmidt echo and dynamical phase transitions in non-interacting strongly disordered Fermi systems after a quench. In finite systems the Loschmidt echo displays zeros in the complex time plane that depend on the random potential realization. Remarkably, the zeros coalesce to form a 2D manifold in the thermodynamic limit, atypical for 1D systems, crossing the real axis at a sharply-defined critical time. We show that this dynamical phase transition can be understood as a transition in the distribution function of the smallest eigenvalue of the Loschmidt matrix, and develop a finite-size scaling theory. Contrary to expectations, the notion of dynamical phase transitions in disordered systems becomes decoupled from the equilibrium Anderson localization transition. Our results highlight the striking qualitative differences of quench dynamics in disordered and non-disordered many-fermion systems.
翻訳日:2023-01-25 18:06:33 公開日:2022-09-22
# 開量子系のサンプリング複雑性について

On the sampling complexity of open quantum systems ( http://arxiv.org/abs/2209.10870v1 )

ライセンス: Link先を確認
Isobel A. Aloisio, Gregory A. L. White, Charles D. Hill, Kavan Modi(参考訳) オープン量子系は物理科学においてユビキタスであり、化学、凝縮物質物理学、物質科学、光学など多くの分野に広く応用されている。 驚くべきことではないが、効率的なシミュレーションには大きな関心がある。 しかし、直接古典シミュレーションは、実効次元が指数関数的に増大する環境との結合によって急速に困難になる。 量子コンピュータはこれらの複雑なダイナミクスをモデル化できるのか? この質問に答える最初のステップは、このタスクの計算複雑性を理解することである。 本稿では,プロセステンソルフレームワークとして知られる計算モデルを用いて,プロセスの時間的複雑さを多体状態の空間的複雑さにマッピングする。 これにより、動的サンプリング問題として、オープン量子システムのシミュレーション複雑性を探索することができる。環境に結合されたシステムは、連続したポイントで、マルチタイム相関にアクセスすることができる。 多重時間サンプリングの複雑さは、それ自体で重要かつ興味深い問題であり、マスター方程式の複雑性と確率写像を特別な場合として含む。 この結果から, 量子確率過程の複雑さが, 動力学のマスター方程式の族に付随する複雑性にどのように対応するかが示唆された。 本稿では,マルチタイムサンプリングが古典的に難しい多体状態からのサンプリングと同じくらい複雑である解析例と数値例の両方を示す。 これはまた、対応するマスター方程式の族が古典的に困難であることを意味する。 この結果は、量子力学の理解において量子コンピュータが果たす役割を強調し、複雑性理論の観点からオープン量子システムを研究するための道を開いた。

Open quantum systems are ubiquitous in the physical sciences, with widespread applications in the areas of chemistry, condensed matter physics, material science, optics, and many more. Not surprisingly, there is significant interest in their efficient simulation. However, direct classical simulation quickly becomes intractable with coupling to an environment whose effective dimension grows exponentially. This raises the question: can quantum computers help model these complex dynamics? A first step in answering this question requires understanding the computational complexity of this task. Here, we map the temporal complexity of a process to the spatial complexity of a many-body state using a computational model known as the process tensor framework. With this, we are able to explore the simulation complexity of an open quantum system as a dynamic sampling problem: a system coupled to an environment can be probed at successive points in time -- accessing multi-time correlations. The complexity of multi-time sampling, which is an important and interesting problem in its own right, contains the complexity of master equations and stochastic maps as a special case. Our results show how the complexity of the underlying quantum stochastic process corresponds to the complexity of the associated family of master equations for the dynamics. We present both analytical and numerical examples whose multi-time sampling is as complex as sampling from a many-body state that is classically hard. This also implies that the corresponding family of master equations are classically hard. Our results pave the way for studying open quantum systems from a complexity-theoretic perspective, highlighting the role quantum computers will play in our understanding of quantum dynamics.
翻訳日:2023-01-25 18:06:20 公開日:2022-09-22
# 地平線の波動における対数的災害とストークス現象

Logarithmic catastrophes and Stokes's phenomenon in waves at horizons ( http://arxiv.org/abs/2209.11148v1 )

ライセンス: Link先を確認
L. M. Farrell and C. J. Howls and D. H. J. O'Dell(参考訳) 事象の地平線付近に伝播する波は対数相特異点やコースティックなど興味深い特徴を示す。 ボース=アインシュタイン凝縮系において,初等励起がボゴリューボフ分散関係に従う音響的地平線を考える。 ハミルトン光線理論では、解は地平線付近で破れたピッチフォーク分岐を受けており、従って関連する波動構造がパーシー関数によって与えられることを期待するかもしれない。 しかし、波動関数は実際には対数相項で補足されるエアリー型関数であり、これは新しいタイプの波動災害である。 同様の波動関数はジェットエンジンからの空気音響流や、紫外線中のローレンツ対称性に違反する分散を含む場合の重力地平線にも生じる。 提案手法は, 指数座標を用いて波動関数の積分表現の挙動を解析する点で, 前者とは異なる。 これにより、水平線で相互作用する複数の実波と複素波とそれに伴う因果関係を解消する純粋にサドルポイント展開に基づく解析をもたらす枝の異なる処理が可能となる。 地平線はストークス面の物理的表現であり、波の生ずる場所を示すものであり、地平線と因果線は一般に一致しない。

Waves propagating near an event horizon display interesting features including logarithmic phase singularities and caustics. We consider an acoustic horizon in a flowing Bose-Einstein condensate where the elementary excitations obey the Bogoliubov dispersion relation. In the hamiltonian ray theory the solutions undergo a broken pitchfork bifurcation near the horizon and one might therefore expect the associated wave structure to be given by a Pearcey function, this being the universal wave function that dresses catastrophes with two control parameters. However, the wave function is in fact an Airy-type function supplemented by a logarithmic phase term, a novel type of wave catastrophe. Similar wave functions arise in aeroacoustic flows from jet engines and also gravitational horizons if dispersion which violates Lorentz symmetry in the UV is included. The approach we take differs from previous authors in that we analyze the behaviour of the integral representation of the wave function using exponential coordinates. This allows for a different treatment of the branches that gives rise to an analysis based purely on saddlepoint expansions, which resolve the multiple real and complex waves that interact at the horizon and its companion caustic. We find that the horizon is a physical manifestation of a Stokes surface, marking the place where a wave is born, and that the horizon and the caustic do not in general coincide: the finite spatial region between them delineates a broadened horizon.
翻訳日:2023-01-25 17:59:54 公開日:2022-09-22
# ツイスト, 凝縮, 反射によるトポロジカルキャラクタリゼーション

Topological Characterization with a Twist, Condensation, and Reflection ( http://arxiv.org/abs/2209.11126v1 )

ライセンス: Link先を確認
Tushar Pandey, Eugene Dumitrescu(参考訳) その強靭性にもかかわらず、トポロジカル量子物質の実現と制御は、現在進行中の壮大な挑戦である。 将来的には、量子アルゴリズムで使われる前にトポロジカルな基板をまず証明するためにロバストなキャラクタリゼーションプロトコルが必要となる。 我々は、論理過程の忠実性を評価する実験的な近・中期プロトコルを提供することで、この大きな課題に貢献する。 これを実現するために、ツイストされた$\mathbb{z}_{n=2,4}$ゲージ理論における論理作用素とanyonic quasiparticle excitationsを調べる。 有限のツイストを拡張することは、イジング計算をそれ自身で行うという有望なルートであり、非コンパクトなツイストは以前の論理作用素を融合させ、ツイストされた量子ビット符号をもたらす。 このコードは論理的な$Y$と$X$エラーの2倍と3倍のコード距離で有名だ。 次に,$\mathbb{Z}_4$ double semion condensation の分解特性について検討し,誤差補正アルゴリズムを提案する。 この理解に基づいて、$\mathbb{Z}_4$ 位相準粒子反射法および散乱プロトコルを示す。 このプロトコルはシステムのトポロジー特性を推論し、インタフェース化されたトポロジーコードの性能と寿命の高レベルな指標として機能する。 私たちの論理および散乱プロトコルは、多くの物理キュービットが論理キュービットをほとんどエンコードしない、短期のデバイスに適している。 凝縮共役クラス内の粒子のトポロジカルライフタイムは、以前は合成およびヘテロ構造の凝縮マター実験で考慮されていたが、合成、量子ビット、自然発生のトポロジカルオーダーをまたいだパフォーマンスメトリックとして機能する。

Despite its putative robustness, the realization of and control over topological quantum matter is an ongoing grand challenge. Looking forward, robust characterization protocols are needed to first certify topological substrates before they are utilized in quantum algorithms. We contribute to this grand challenge by providing a series of experimentally accessible near- and medium-term protocols assessing the fidelity of logical processes. To do so we examine logical operators and anyonic quasiparticle excitations in twisted $\mathbb{Z}_{N=2,4}$ gauge theories. Extending the finite twist, a promising route to Ising computing in its own right, to a non-contractible twist fuses prior logical operators together and results in a twisted qubit code. The code is notable for a doubled and tripled code distance for logical $Y$ and $X$ errors respectively. Next, we review the deconfinement properties of a $\mathbb{Z}_4$ double semion condensation and provide an error correction algorithm. Based on this understanding we then present a $\mathbb{Z}_4$ topological quasiparticle reflectometry and scattering protocol. The protocol infers the topological properties of the system and serves as a high-level metric for the performance and lifetime of the interfaced topological codes. Our logical and scattering protocols are suitable for near-term devices where many physical qubits encode few logical qubits. The topological lifetime of a particle within a condensate conjugacy class, previously considered in fabricated and hetero-structured condensed-matter experiments, serves as a unifying performance metric across synthetic, qubit-based, and naturally occurring topological order.
翻訳日:2023-01-25 17:59:32 公開日:2022-09-22
# 多重光検出による量子照明

Quantum illumination with multiplexed photodetection ( http://arxiv.org/abs/2209.11117v1 )

ライセンス: Link先を確認
Hao Yang, Nigam Samantaray, and John Jeffers(参考訳) 物体検出に光の量子状態を用いることの利点は、しばしば同時測定と最適測定を使用するスキームで強調される。 本稿では、この利点を維持できる非同値および非最適測定に基づく理論的かつ実験的に実現可能な量子照明スキームについて述べる。 特に, 量子照明過程におけるプローブ信号として, マルチクリック2モード圧縮真空状態について検討した。 マルチクリックヘラルドに関連する条件付き信号強度の増大は、単一の検出器ヘラルド信号よりも大きい。 以上の結果から, 外部条件を損なう場合, 複数クリック計測により, 対象物の存在を早期に明らかにできることがわかった。 モンテカルロシミュレーションに基づくシーケンシャルショット計測によりこれを実証する。

The advantages of using quantum states of light for object detection are often highlighted in schemes that use simultaneous and optimal measurements. Here, we describe a theoretical but experimentally realizable quantum illumination scheme based on non-simultaneous and non-optimal measurements which can maintain this advantage. In particular, we examine the multi-click heralded two mode squeezed vacuum state as a probe signal in a quantum illumination process. The increase in conditioned signal intensity associated with multi-click heralding is greater than that from a single detector-heralded signal. Our results show, for lossy external conditions, the presence of the target object can be revealed earlier using multi-click measurements. We demonstrate this through sequential shot measurements based on Monte-Carlo simulation.
翻訳日:2023-01-25 17:58:24 公開日:2022-09-22
# 量子ビット数の大きい開量子系における驚くべきスペクトルギャップとエントロピー減衰推定

Surprising Spectral Gap and Entropy Decay Estimates in Open Quantum Systems with a Large Number of Qubits ( http://arxiv.org/abs/2209.11099v1 )

ライセンス: Link先を確認
Yidong Chen and Marius Junge(参考訳) 量子情報科学における大きな課題の1つは、多数の量子ビットでシステムを制御することである。 現実的な量子系は環境と相互作用するので、デコヒーレンスに関する定量的な推定が重要である。 開量子系の時間発展は、環境自由度を追跡しボルンマルコフ近似を行うことで得られるリンドブラジアンによってモデル化できる。 本稿では、n-量子ビット上の$\mathfrak{su}(2)$の表現によって与えられる、非常に単純な開システムのスペクトルギャップと修正対数ソボレフ定数について研究する。 我々の例は、散逸的な量子チャーチ・チューリングの論文 arXiv:1105.3986 に許容できるリンドブラディアン類に属する。 さらに、私たちの例はdavies generatorsとしても書けます。 さらに、主な例は有限温度における次元依存スペクトルギャップである。 これは arXiv:1409.3435 のデイビーズ発生器のクラスを補完するものであり、そこでは局所的なスペクトル推定が自動的に大域的なものである。

One of the major challenges in quantum information science is to control systems with a large number of qubits. Since any realistic quantum system interacts with the environment, it is important to have quantitative estimates on decoherence. The time evolution of an open quantum system can be modeled by a Lindbladian obtained by tracing out the environment degrees of freedom and performing a Born-Markov approximation. In this paper we study the spectral gap and modified logarithmic Sobolev constant of some very simple open systems given by a representation of $\mathfrak{su}(2)$ on N-qubits. Our examples fall into the class of Lindbladians admissible to the dissipative quantum Church-Turing thesis arXiv:1105.3986. In addition, our examples can also be written as Davies generators. Moreover, the main example has a dimension-dependent spectral gap at finite temperature. This is complementary to the class of Davies generators in arXiv:1409.3435, where local spectral estimates automatically imply global ones.
翻訳日:2023-01-25 17:58:17 公開日:2022-09-22
# Aharonov-Bohm効果のゲージ独立記述

Gauge independent description of Aharonov-Bohm Effect ( http://arxiv.org/abs/2209.11091v1 )

ライセンス: Link先を確認
Xiang Li, Thors Hans Hansson, and Wei Ku(参考訳) アハロノフ・ボーム効果(Aharonov-Bohm effect、AB)は、荷電粒子の波動関数における測定可能な位相シフトを意味する純粋量子効果であり、粒子への領域 \textit{in Accessible} にある磁束を囲む。 古典的には、ローレンツ力は粒子の位置の磁場のみに依存するため、そのような非局所効果は不可能であるように見える。 量子力学において、ハミルトニアン方程式、すなわちシュル・オーディンガー方程式は、粒子による電流と電磁ベクトルポテンシャル$\mathbf{A}$の間の局所的な結合を持ち、有限磁場を持つ領域の向こうの空間全体に広がる。 これは時として、量子力学において $\mathbf{a}$ は、ある意味では、ゲージ依存であるにもかかわらず、$\mathbf {b}$ よりも「基礎的」であることを意味すると解釈されることがある。 ここで、一般的な証明に続いていくつかの例があるので、分離された系全体の量子作用の一部として含まれている限り、ゲージ不変量 $\mathbf{b}$ 体のみを考えることで、ab効果が完全に説明できることを示す。 ゲージ不変量の定式化の価格は、局所性を諦めなければならない -- 粒子のab相は、粒子に到達できない領域における$\mathbf{b}$ の場に対する作用の変化から生じる。

The Aharonov-Bohm (AB) effect is a pure quantum effect that implies a measurable phase shift in the wave function for a charged particle that encircles a magnetic flux located in a region \textit{inaccessible} to the particle. Classically, such a non-local effect appears to be impossible since the Lorentz force depends on only the magnetic field at the location of the particle. In quantum mechanics, the Hamiltonian, and thus the Schr\"odinger equation, has a local coupling between the current due to the particle, and the electromagnetic vector potential $\mathbf{A}$, which extends to the entire space beyond the region with finite magnetic field. This has sometimes been interpreted as meaning that in quantum mechanics $\mathbf{A}$ is in some sense more "fundamental" than $\mathbf {B}$ in spite of the former being gauge dependent, and thus unobservable. Here we shall, with a general proof followed by a few examples, demonstrate that the AB-effect can be fully accounted for by considering only the gauge invariant $\mathbf{B}$ field, as long as it is included as part of the quantum action of the entire isolated system. The price for the gauge invariant formulation is that we must give up locality -- the AB-phase for the particle will arise from the change in the action for the $\mathbf{B}$ field in the region inaccessible to the particle.
翻訳日:2023-01-25 17:58:01 公開日:2022-09-22
# 変分テンソルネットワーク量子回路を用いた画像分類の実際

A practical overview of image classification with variational tensor-network quantum circuits ( http://arxiv.org/abs/2209.11058v1 )

ライセンス: Link先を確認
Diego Guala, Shaoming Zhang, Esther Cruz, Carlos A. Riofr\'io, Johannes Klepsch, and Juan Miguel Arrazola(参考訳) 量子機械学習のための回路設計は、まだまだ難しい課題だ。 異なる分野にわたるテンソルネットワークの適用と、古典的な機械学習の文脈における新しい存在に触発されて、変分回路を設計するための1つの方法は、テンソルネットワークを基盤とする回路アーキテクチャである。 本稿では,テンソルネットワーク量子回路とシミュレーションにおける実装方法について概説する。 これは、現在の量子デバイスで利用可能な回路よりも量子ビットの回路を評価するために使用される技術である。 次に,量子コンピュータの微分プログラミングのためのオープンソースのpythonライブラリであるpennylaneを用いて,様々なテンソルネットワーク量子回路をシミュレートすることにより,計算要件と応用の可能性を説明する。 最後に、これらの回路をますます複雑な画像処理タスクに適用する方法を示し、産業関連機械学習タスクに適用可能な回路設計のためのフレキシブルな手法の概要を述べる。

Circuit design for quantum machine learning remains a formidable challenge. Inspired by the applications of tensor networks across different fields and their novel presence in the classical machine learning context, one proposed method to design variational circuits is to base the circuit architecture on tensor networks. Here, we comprehensively describe tensor-network quantum circuits and how to implement them in simulations. This includes leveraging circuit cutting, a technique used to evaluate circuits with more qubits than those available on current quantum devices. We then illustrate the computational requirements and possible applications by simulating various tensor-network quantum circuits with PennyLane, an open-source python library for differential programming of quantum computers. Finally, we demonstrate how to apply these circuits to increasingly complex image processing tasks, completing this overview of a flexible method to design circuits that can be applied to industrially-relevant machine learning tasks.
翻訳日:2023-01-25 17:57:20 公開日:2022-09-22
# 量子関数の原子欠陥の改ざん

Taming Atomic Defects for Quantum Functions ( http://arxiv.org/abs/2209.11053v1 )

ライセンス: Link先を確認
Saban M. Hus and An-Ping Li(参考訳) 単一原子は基本量子関数を利用する理想的なシステムを提供する。 電子はエネルギー準位とスピンの性質がよく定義されている。 さらに重要なのは、特定の同位体(例えば$^{12}$C)に対して、全ての原子は同じである。 これは、マクロサイズの量子システムでは達成できない完全な均一性を生み出す。 しかし、個々の原子を磁気的または光学的な手段で捕獲し、ナノケルビンの範囲の温度まで冷やすのは非常に難しい作業である。 一方、単一原子(単一欠陥)の対向は、より良くなければ原子ベースの量子システムに匹敵するかもしれない。 これらの欠陥は量子欠陥とも呼ばれ、単一原子の好ましいエネルギー、スピン、均一性を持ち、精密に調整されたレーザーの助けなしにその位置に留まる。 使用可能な同位体の数は設定されているが、欠陥と宿主物質の組み合わせは事実上無限であり、正確に設計され制御された量子システムを作る柔軟性がある。 さらに、これらの欠陥を量子世界のために和らげることにより、超高密度電子デバイスや精密製造といった形態の古典世界への転換の機会をもたらす。 本研究では,走査型トンネル顕微鏡(STM)による個々の欠陥の生成と操作を正確に制御する最近の研究について紹介する。 また、量子情報処理や超感度センサなどの量子情報科学(QIS)アプリケーションのための新しいシステムを開発するために、これらの機能を利用するための経路についても論じる。

Single atoms provide an ideal system for utilizing fundamental quantum functions. Their electrons have well-defined energy levels and spin properties. Even more importantly, for a given isotope -- say, $^{12}$C -- all the atoms are identical. This creates a perfect uniformity that is impossible to achieve in macroscopic-size quantum systems. However, herding individual atoms is a very difficult task that requires trapping them with magnetic or optical means and cooling them down to temperatures in the nanokelvin range. On the other hand, the counterpart of single atoms -- the single defects -- may be as good as atom-based quantum systems if not better. These defects, also referred as quantum defects, possess the favorable energy, spin, and uniformity properties of single atoms and remain in their place without the help of precisely tuned lasers. While the number of usable isotopes is set, the combinations of defects and their host material are practically limitless, giving us the flexibility to create precisely designed and controlled quantum systems. Furthermore, as we tame these defects for the quantum world, we bring about transformative opportunities to the classical world in forms such as ultradense electronic devices and precise manufacturing. In this research insight, we introduce some of our recent work on precisely controlled creation and manipulation of individual defects with a scanning tunneling microscope (STM). We also discuss possible pathways for utilizing these capabilities for the development of novel systems for Quantum Information Science (QIS) applications such as quantum information processing and ultrasensitive sensors.
翻訳日:2023-01-25 17:57:04 公開日:2022-09-22
# エネルギー固有状態の自己相似性

Self-Similarity Among Energy Eigenstates ( http://arxiv.org/abs/2209.11256v1 )

ライセンス: Link先を確認
Zhelun Zhang, Zhenduo Wang, Biao Wu(参考訳) 量子系において、異なるエネルギー固有状態は異なる性質や特徴を持ち、異なる群に分割する分類器を定義することができる。 エネルギーシェル内の各エネルギー固有状態の比率$[E_{c}-\Delta E/2,E_{c}+\Delta E/2]$は、シェル内の固有状態の数が統計的に十分大きい限り、幅$\Delta E$またはPlanck定数$\hbar$で不変である。 このようなエネルギー固有状態の自己相似性は全ての量子系において一般的な特徴であり、円ビリヤード、ダブルトップモデル、キックローター、ハイゼンベルクxxzモデルなど様々な量子系で数値的に示される。

In a quantum system, different energy eigenstates have different properties or features, allowing us define a classifier to divide them into different groups. We find that the ratio of each type of energy eigenstates in an energy shell $[E_{c}-\Delta E/2,E_{c}+\Delta E/2]$ is invariant with changing width $\Delta E$ or Planck constant $\hbar$ as long as the number of eigenstates in the shell is statistically large enough. We give an argument that such self-similarity in energy eigenstates is a general feature for all quantum systems, which is further illustrated numerically with various quantum systems, including circular billiard, double top model, kicked rotor, and Heisenberg XXZ model.
翻訳日:2023-01-25 17:51:00 公開日:2022-09-22
# 対称性と場テンソルネットワーク状態

Symmetries and field tensor network states ( http://arxiv.org/abs/2209.11253v1 )

ライセンス: Link先を確認
Albert Gasull, Antoine Tilloy, J. Ignacio Cirac, and Germ\'an Sierra(参考訳) フィールドテンソルネットワーク状態(fTNS)と呼ばれる臨界スピン系のテンソルネットワーク状態のクラスにおける物理空間と仮想空間の対称性表現の相互作用について検討する。 これらは構成による無限次元テンソルネットワークであり、仮想空間は共形場理論(cft)によって記述される。 物理指標上の対称性を、仮想空間上の対応するCFT電流を持つ可換体として表すことができる。 この仮想空間表現を研究することで、行列積状態に対する対称性を保護した位相秩序の分類と同様に、状態の臨界対称性が保護された位相的性質を知ることができる。 これを解析的に導出して、事前定義された対称性に関してマゼンダー・ゴッシュ点の2つの基底状態の位相的性質を保護した臨界対称性を導出する。

We study the interplay between symmetry representations of the physical and virtual space on the class of tensor network states for critical spins systems known as field tensor network states (fTNS). These are by construction infinite dimensional tensor networks whose virtual space is described by a conformal field theory (CFT). We can represent a symmetry on the physical index as a commutator with the corresponding CFT current on the virtual space. By then studying this virtual space representation we can learn about the critical symmetry protected topological properties of the state, akin to the classification of symmetry protected topological order for matrix product states. We use this to analytically derive the critical symmetry protected topological properties of the two ground states of the Majumdar-Ghosh point with respect to the previously defined symmetries.
翻訳日:2023-01-25 17:50:43 公開日:2022-09-22
# 断熱量子回路におけるノイズ・ディテールトレードオフの探索

Navigating the noise-depth tradeoff in adiabatic quantum circuits ( http://arxiv.org/abs/2209.11245v1 )

ライセンス: Link先を確認
Daniel Azses, Maxime Dupont, Bram Evert, Matthew J. Reagor, Emanuele G. Dalla Torre(参考訳) 断熱量子アルゴリズムは、所望の解に自明な状態をゆっくりと発展させることで計算問題を解決する。 理想的な量子コンピュータでは、解の質は回路深さの増加とともに単調に向上する。 対照的に、現在のノイズの多いコンピュータの深さの増加はより多くのノイズをもたらし、最終的には計算上の優位性を損なう。 最善のソリューションを提供する最適な回路深度は何か? ここでは、1次元量子イジングモデルの常磁性と強磁性の基底状態の間を補間する断熱回路を調査してこの問題に対処する。 我々は、回路深さ$N$と雑音強度$\sigma$の関数として、欠陥密度$d$によって最終的な出力の品質を特徴づける。 d$ は単純形式 $d_\mathrm{ideal}+d_\mathrm{noise}$ でよく記述されており、理想的な場合 $d_\mathrm{ideal}\sim N^{-1/2}$ は Kibble-Zurek 機構によって制御され、ノイズコントリビューションは $d_\mathrm{noise}\sim N\sigma^2$ となる。 欠陥の数を最小化する最適なステップ数は$\sim\sigma^{-4/3}$となる。 このアルゴリズムを雑音超伝導量子プロセッサに実装し,回路の深さに対する欠陥密度の依存性が予測される非単調な挙動に従い,ノイズシミュレーションとよく一致することを示す。 我々の研究により、量子デバイスを効率的にベンチマークし、その効果的なノイズ強度を抽出できる。

Adiabatic quantum algorithms solve computational problems by slowly evolving a trivial state to the desired solution. On an ideal quantum computer, the solution quality improves monotonically with increasing circuit depth. By contrast, increasing the depth in current noisy computers introduces more noise and eventually deteriorates any computational advantage. What is the optimal circuit depth that provides the best solution? Here, we address this question by investigating an adiabatic circuit that interpolates between the paramagnetic and ferromagnetic ground states of the one-dimensional quantum Ising model. We characterize the quality of the final output by the density of defects $d$, as a function of the circuit depth $N$ and noise strength $\sigma$. We find that $d$ is well-described by the simple form $d_\mathrm{ideal}+d_\mathrm{noise}$, where the ideal case $d_\mathrm{ideal}\sim N^{-1/2}$ is controlled by the Kibble-Zurek mechanism, and the noise contribution scales as $d_\mathrm{noise}\sim N\sigma^2$. It follows that the optimal number of steps minimizing the number of defects goes as $\sim\sigma^{-4/3}$. We implement this algorithm on a noisy superconducting quantum processor and find that the dependence of the density of defects on the circuit depth follows the predicted non-monotonous behavior and agrees well with noisy simulations. Our work allows one to efficiently benchmark quantum devices and extract their effective noise strength $\sigma$.
翻訳日:2023-01-25 17:50:32 公開日:2022-09-22
# ガッピングシステムの熱前化と局所ロバスト性

Prethermalization and the local robustness of gapped systems ( http://arxiv.org/abs/2209.11242v1 )

ライセンス: Link先を確認
Chao Yin, Andrew Lucas(参考訳) 予熱は、任意の空間次元において小さな摂動を受ける局所的な多体量子系の一般的な性質であることを示す。 より正確には、$H_0$ をハミルトニアンで空間的に局所な$d$空間次元、ギャップ$\Delta$ を多体スペクトルとする;$V$ を局所項の和からなる空間的に局所なハミルトニアンとし、それぞれが$\epsilon \ll \Delta$ で有界である。 このとき、量子力学が$H_0$の低エネルギー部分空間に制限されるという近似は、局所作用素の相関関数において、任意の$a<1/(2d-1)$に対して拡張指数時間スケール$\tau \sim \exp[(\Delta/\epsilon)^a]$に対して正確である。 この結果は摂動がギャップを閉じるかどうかには依存しない。 これは、$h_0$ が整数値スペクトルを持つモデルの事前熱量化に関する以前の厳密な結果を大幅に拡張する。 低エネルギー部分空間における量子シミュレーションのロバスト性、一般摂動を受けるガッピング系における`scarring'(強熱相関関数)の存在、位相秩序を持つ非フラストレーションフリーガッピング相における量子情報のロバスト性について考察する。

We prove that prethermalization is a generic property of gapped local many-body quantum systems, subjected to small perturbations, in any spatial dimension. More precisely, let $H_0$ be a Hamiltonian, spatially local in $d$ spatial dimensions, with a gap $\Delta$ in the many-body spectrum; let $V$ be a spatially local Hamiltonian consisting of a sum of local terms, each of which is bounded by $\epsilon \ll \Delta$. Then, the approximation that quantum dynamics is restricted to the low-energy subspace of $H_0$ is accurate, in the correlation functions of local operators, for stretched exponential time scale $\tau \sim \exp[(\Delta/\epsilon)^a]$ for any $a<1/(2d-1)$. This result does not depend on whether the perturbation closes the gap. It significantly extends previous rigorous results on prethermalization in models where $H_0$ had an integer-valued spectrum. We infer the robustness of quantum simulation in low-energy subspaces, the existence of ``scarring" (strongly athermal correlation functions) in gapped systems subject to generic perturbations, and the robustness of quantum information in non-frustration-free gapped phases with topological order.
翻訳日:2023-01-25 17:50:02 公開日:2022-09-22
# 有限次元の量子論は有限記憶を持つすべての一般過程を説明できない

Quantum theory in finite dimension cannot explain every general process with finite memory ( http://arxiv.org/abs/2209.11225v1 )

ライセンス: Link先を確認
Marco Fanizza, Josep Lumbreras, Andreas Winter(参考訳) 有限メモリによって生成される確率過程の最大のクラスは、適切な一般化確率論(GPT)において、逐次測定によって生成される観測の系列である。 これらは、可能な線形写像の集合の下で進化する有限次元メモリと、メモリ状態の線形関数によって決定される結果の確率から構成される。 そのようなモデルの例は古典的な隠れマルコフ過程によって与えられ、メモリ状態は確率分布であり、各ステップでは非負行列に従って進化し、隠れ量子マルコフ過程ではメモリ状態は有限次元量子状態であり、各ステップでは完全に正の写像に従って進化する。 ここでは、有限次元の説明を認める過程の集合が古典的確率または量子力学の観点から説明できる必要はないことを示す。 ウィットは、明示的に与えられた GPT の力学によって明確に定義された有限次元の説明を持つ過程の族を示すが、量子は認めず、従って有限次元では古典的ではない。 さらに、Fox, Rubin, Dharmadikari および Nadkarni が無限次元マルコフ連鎖の関数として導入した例を含む古典的有限次元実現を容認しない量子過程と量子トリット上の量子過程の族を示し、また、古典的モデルの量子過程のノイズのあるバージョンを実現するためのメモリサイズを低くする。

Arguably, the largest class of stochastic processes generated by means of a finite memory consists of those that are sequences of observations produced by sequential measurements in a suitable generalized probabilistic theory (GPT). These are constructed from a finite-dimensional memory evolving under a set of possible linear maps, and with probabilities of outcomes determined by linear functions of the memory state. Examples of such models are given by classical hidden Markov processes, where the memory state is a probability distribution, and at each step it evolves according to a non-negative matrix, and hidden quantum Markov processes, where the memory state is a finite dimensional quantum state, and at each step it evolves according to a completely positive map. Here we show that the set of processes admitting a finite-dimensional explanation do not need to be explainable in terms of either classical probability or quantum mechanics. To wit, we exhibit families of processes that have a finite-dimensional explanation, defined manifestly by the dynamics of explicitly given GPT, but that do not admit a quantum, and therefore not even classical, explanation in finite dimension. Furthermore, we present a family of quantum processes on qubits and qutrits that do not admit a classical finite-dimensional realization, which includes examples introduced earlier by Fox, Rubin, Dharmadikari and Nadkarni as functions of infinite dimensional Markov chains, and lower bound the size of the memory of a classical model realizing a noisy version of the qubit processes.
翻訳日:2023-01-25 17:49:22 公開日:2022-09-22
# X$状態のオープン量子系力学:突然の死と突然の誕生の絡み合い

Open quantum system dynamics of $X$-states: Entanglement sudden death and sudden birth ( http://arxiv.org/abs/2209.11190v1 )

ライセンス: Link先を確認
Nikhitha Nunavath, Sandeep Mishra and Anirban Pathak(参考訳) 真空浴と相互作用する2つの空間的に分離された量子ビットからなる物理系において,最大非局所混合状態 (MNMS) と最大絡み合った混合状態 (MEMS) の2つの特定のサブクラスの絡み合いの起源を解析的に検討した。 絡み合い突然死(ESD)と絡み合い突然死(ESB)の現象は観察されるが,2つの光子コヒーレンス状態と1つの光子コヒーレンス状態の場合,ESDとESBの特徴が異なることが判明した。 エンタングルメントダイナミクスにおける初期コヒーレンスの役割について検討した。 さらに, 位相減衰, 振幅減衰, RTN雑音の異なる環境騒音下でのMNMSとMEMSの絡み合いのダイナミクスを, 減衰と絡み合いの回復に関して解析した。 単一光子コヒーレンス状態は、量子情報処理タスクの実践的実装のための技術開発において、そのような状態の使用性を示す絡み合いの突然の死に対してより強固であることが観察されている。

The origin of disentanglement for two specific sub-classes of $X$-states namely maximally nonlocal mixed states (MNMSs) and maximally entangled mixed states (MEMSs) is investigated analytically for a physical system consisting of two spatially separated qubits interacting with a common vacuum bath. The phenomena of entanglement sudden death (ESD) and the entanglement sudden birth (ESB) are observed, but the characteristics of ESD and ESB are found to be different for the case of two photon coherence and single photon coherence states. The role played by initial coherence for the underlying entanglement dynamics is investigated. Further, the entanglement dynamics of MNMSs and MEMSs under different environmental noises namely phase damping, amplitude damping and RTN noise with respect to the decay and revival of entanglement is analyzed. It's observed that the single photon coherence states are more robust against the sudden death of entanglement indicating the usability of such states in the development of technologies for the practical implementation of quantum information processing tasks.
翻訳日:2023-01-25 17:48:21 公開日:2022-09-22
# SimuShips -- 高精度アノテーションを用いた船舶検出のための高分解能シミュレーションデータセット

SimuShips -- A High Resolution Simulation Dataset for Ship Detection with Precise Annotations ( http://arxiv.org/abs/2211.05237v1 )

ライセンス: Link先を確認
Minahil Raza, Hanna Prokopova, Samir Huseynzade, Sepinoud Azimi and Sebastien Lafond(参考訳) 障害物検出は、自律海洋表面容器(AMSV)の基本機能である。 最先端の障害物検出アルゴリズムは畳み込みニューラルネットワーク(CNN)に基づいている。 CNNは高い検出精度と高速な検出速度を提供するが、トレーニングには膨大な量のデータを必要とする。 特に、ドメイン固有のデータセットが利用可能であることは、障害検出の課題である。 オンサイト実験の難しさは、海洋データセットの収集を制限する。 オンサイト操作を実行するロジスティックコストのため、シミュレーションツールはデータ収集の安全でコスト効率の良い代替手段を提供する。 本研究では,海上環境のためのシミュレーションベースデータセットであるSimuShipsを紹介する。 我々のデータセットは9471の高解像度画像(1920x1080)で構成されており、幅広い障害物タイプ、大気および照明条件、閉塞、スケール、可視比の変動を含む。 私たちはバウンディングボックスという形でアノテーションを提供します。 さらに, YOLOv5を用いて実験を行い, シミュレーションデータの有効性を検証した。 実画像とシミュレーション画像の組み合わせにより,全クラスのリコールが2.9%向上することを示す。

Obstacle detection is a fundamental capability of an autonomous maritime surface vessel (AMSV). State-of-the-art obstacle detection algorithms are based on convolutional neural networks (CNNs). While CNNs provide higher detection accuracy and fast detection speed, they require enormous amounts of data for their training. In particular, the availability of domain-specific datasets is a challenge for obstacle detection. The difficulty in conducting onsite experiments limits the collection of maritime datasets. Owing to the logistic cost of conducting on-site operations, simulation tools provide a safe and cost-efficient alternative for data collection. In this work, we introduce SimuShips, a publicly available simulation-based dataset for maritime environments. Our dataset consists of 9471 high-resolution (1920x1080) images which include a wide range of obstacle types, atmospheric and illumination conditions along with occlusion, scale and visible proportion variations. We provide annotations in the form of bounding boxes. In addition, we conduct experiments with YOLOv5 to test the viability of simulation data. Our experiments indicate that the combination of real and simulated images improves the recall for all classes by 2.9%.
翻訳日:2023-01-25 17:41:28 公開日:2022-09-22
# 時空間分割のための不均一リカレントスパイクニューラルネットワーク

Heterogeneous Recurrent Spiking Neural Network for Spatio-Temporal Classification ( http://arxiv.org/abs/2211.04297v1 )

ライセンス: Link先を確認
Biswadeep Chakraborty and Saibal Mukhopadhyay(参考訳) スパイキングニューラルネットワークは、人工知能の第3波の脳にインスパイアされた学習モデルとしてしばしば評価される。 教師付きバックプロパゲーションで訓練された最近のSNNは、ディープネットワークに匹敵する分類精度を示しているが、教師なし学習ベースのSNNの性能は依然としてかなり低い。 本稿では,RGB (KTH, UCF11, UCF101) とイベントベースデータセット (DVS128 Gesture) 上での映像活動認識タスクの時空間分類のための教師なし学習を用いたヘテロジニアスリカレントスパイクニューラルネットワーク (HRSNN) を提案する。 HRSNNの重要な特徴は、HRSNNの繰り返し層が、発火/発火ダイナミクスの異なる異種ニューロンで構成され、各シナプスの学習ダイナミクスの異なる異種スパイク時間依存塑性(STDP)によって訓練されていることである。 アーキテクチャにおける不均一性と学習方法の新しい組み合わせは、現在の均質なスパイクニューラルネットワークよりも優れていることを示す。 さらに、HRSNNは、最先端のバックプロパゲーション訓練を受けた教師付きSNNと同等の性能を達成できるが、少ない計算(少ないニューロンと疎結合)と少ないトレーニングデータで実現できることを示す。

Spiking Neural Networks are often touted as brain-inspired learning models for the third wave of Artificial Intelligence. Although recent SNNs trained with supervised backpropagation show classification accuracy comparable to deep networks, the performance of unsupervised learning-based SNNs remains much lower. This paper presents a heterogeneous recurrent spiking neural network (HRSNN) with unsupervised learning for spatio-temporal classification of video activity recognition tasks on RGB (KTH, UCF11, UCF101) and event-based datasets (DVS128 Gesture). The key novelty of the HRSNN is that the recurrent layer in HRSNN consists of heterogeneous neurons with varying firing/relaxation dynamics, and they are trained via heterogeneous spike-time-dependent-plasticity (STDP) with varying learning dynamics for each synapse. We show that this novel combination of heterogeneity in architecture and learning method outperforms current homogeneous spiking neural networks. We further show that HRSNN can achieve similar performance to state-of-the-art backpropagation trained supervised SNN, but with less computation (fewer neurons and sparse connection) and less training data.
翻訳日:2023-01-25 17:41:14 公開日:2022-09-22
# 完全順序と相対エントロピー崩壊率

Complete order and relative entropy decay rates ( http://arxiv.org/abs/2209.11684v1 )

ライセンス: Link先を確認
Li Gao, Marius Junge, Nicholas LaRacuente, Haojian Li(参考訳) 量子マルコフ半群の完全修飾対数ソボレフ定数は、その完全有界混合時間の逆数によって有界であることを示す。 これは、完全修正された対数ソボレフ定数は、次元や指数の対数として定数までのスペクトルギャップに匹敵することを意味する。 古典的な生死過程の量子バージョンは、この境界がきついことを示している。 このような推定は一般フォン・ノイマン代数上のgsn対称量子マルコフ半群に対して得られる。 応用として、コンパクト多様体上の h\"ormander system によって与えられるすべての部分ラプラシアンは、すべての行列値関数に対して一様修正された対数ソボレフ不等式を満たす。

We prove that the complete modified log-Sobolev constant of a quantum Markov semigroup is bounded by the inverse of its completely bounded mixing time. This implies that the complete modified log-Sobolev constant is comparable to spectral gap up to a constant as logarithm of dimension or index. The quantum version of a classical birth-death process shows that this bound is tight. Such an estimate is obtained for GNS-symmetric quantum Markov semigroups on general von Neumann algebras. As an application, we obtain that every sub-Laplacian given by a H\"ormander system on a compact manifold satisfies a uniform modified log-Sobolev inequality for all matrix-valued functions.
翻訳日:2023-01-25 17:40:40 公開日:2022-09-22
# $\delta$-layer接合のトンネル速度に及ぼす欠陥の影響

Influence of imperfections on tunneling rate in $\delta$-layer junctions ( http://arxiv.org/abs/2209.11343v1 )

ライセンス: Link先を確認
Juan P. Mendez and Shashank Misra and Denis Mamaluy(参考訳) 走査型トンネル顕微鏡を用いた半導体中のドーパントの原子的精密配置は、平面ドーパントベースのデバイスを作成するために使われ、新しい古典的あるいは量子コンピューティングの概念を探索することができる。 ドーパントの形状はサブナノメータ精度で定義できるが、トンネル速度の決定には不完全さが重要な役割を果たす。 そこで本研究では, シリコンのリン系$\delta$-layerトンネル接合における異なる不完全性の影響について検討する。 その結果, トンネル間隙における荷電不純物は, 比較的大きなトンネル間隙であっても, トンネル間隙内の1つの荷電不純物によって1桁以上のトンネル間隙が変化することがわかった。 また, トンネル速度は不純物の電荷サインに強く依存していることが明らかとなった。

The atomically precise placement of dopants in semiconductors using scanning tunneling microscopes has been used to create planar dopant-based devices, enabling the exploration of novel classical or quantum computing concepts, which often require precise control over tunneling rates in their operation. While the geometry of the dopants can be defined to sub-nanometer precision, imperfections can still play a significant role in determining the tunneling rates. Here, we investigate the influence of different imperfections in phosphorous $\delta$-layer tunnel junctions in silicon: variations of $\delta$-layer thickness and tunnel gap width, interface roughness, and charged impurities. It is found that while most of the imperfections moderately affect the tunneling rate, a single charged impurity in the tunnel gap can alter the tunneling rate by more than an order of magnitude, even for relatively large tunnel gaps. Moreover, it is also revealed that the tunneling rate strongly depends on the electrical charge sign of the impurity.
翻訳日:2023-01-25 17:40:12 公開日:2022-09-22
# ハイブリッドシステムにおける量子インデックス探索のための反復量子ビット管理

Iterative Qubits Management for Quantum Index Searching in a Hybrid System ( http://arxiv.org/abs/2209.11329v1 )

ライセンス: Link先を確認
Wenrui Mu, Ying Mao, Long Cheng, Qingle Wang, Weiwen Jiang, Pin-Yu Chen(参考訳) 量子コンピューティングシステムの最近の進歩は大きな注目を集めている。 IBM、Amazon、IonQといった商用企業は、ノイズの多い中間スケールの量子コンピュータへのアクセスを提供し始めている。 研究者や起業家は、量子スピードアップを達成するためにアプリケーションをデプロイしようと試みる。 グローバーのアルゴリズムと量子位相推定は、そのようなスピードアップの可能性を持つ多くのアプリケーションの基盤である。 これらのアルゴリズムは理論的には素晴らしい性能を得られるが、既存の量子デバイスにそれらをデプロイすることは難しい課題である。 例えば、量子位相推定には余分な量子ビットと多数の制御された演算が必要であるが、これは低量子ビットでノイズの多いハードウェアのため実用的ではない。 そこで本研究では,量子古典ハイブリッドシステムにおけるインデックス探索と計数を目的とした iqucs を提案する。 IQuCSはGroverのアルゴリズムに基づいている。 問題のサイズの観点からは、結果を分析し、不可能なデータポイントを反復的にフィルタリングしようとする。 削減されたデータセットは次のイテレーションで量子コンピュータに供給される。 問題サイズの削減により、IQuCSは反復的にキュービットを減らし、共有コンピューティング環境の可能性を秘めている。 我々はQiskitでIQuCSを実装し、集中的な実験を行う。 その結果、キュービットの消費を最大66.2%削減できることが示されている。

Recent advances in quantum computing systems attract tremendous attention. Commercial companies, such as IBM, Amazon, and IonQ, have started to provide access to noisy intermediate-scale quantum computers. Researchers and entrepreneurs attempt to deploy their applications that aim to achieve a quantum speedup. Grover's algorithm and quantum phase estimation are the foundations of many applications with the potential for such a speedup. While these algorithms, in theory, obtain marvelous performance, deploying them on existing quantum devices is a challenging task. For example, quantum phase estimation requires extra qubits and a large number of controlled operations, which are impractical due to low-qubit and noisy hardware. To fully utilize the limited onboard qubits, we propose IQuCS, which aims at index searching and counting in a quantum-classical hybrid system. IQuCS is based on Grover's algorithm. From the problem size perspective, it analyzes results and tries to filter out unlikely data points iteratively. A reduced data set is fed to the quantum computer in the next iteration. With a reduction in the problem size, IQuCS requires fewer qubits iteratively, which provides the potential for a shared computing environment. We implement IQuCS with Qiskit and conduct intensive experiments. The results demonstrate that it reduces qubits consumption by up to 66.2%.
翻訳日:2023-01-25 17:39:54 公開日:2022-09-22
# 早期フォールトトレラント量子コンピュータにおけるアルゴリズムの堅牢性証明について

On proving the robustness of algorithms for early fault-tolerant quantum computers ( http://arxiv.org/abs/2209.11322v1 )

ライセンス: Link先を確認
Rutuja Kshirsagar, Amara Katabarwa, Peter D. Johnson(参考訳) 量子コンピューティング分野の希望は、量子アーキテクチャがスケールアップでき、フォールトトレラントな量子コンピューティングを実現することである。 エンジニアリング上の課題のため、このような"cheap"エラー訂正は数十年先になる可能性がある。 一方、我々は「コストのかかる」エラー修正の時代、あるいは早期のフォールトトレラント量子コンピューティングを予想する。 コストのかかる誤り訂正は、エラーを起こしやすい量子計算の解決を必要とするかもしれない。 これにより、ある程度の誤差にロバストな量子アルゴリズムの開発と、エラーが存在する場合にその性能を分析する方法が動機付けられる。 本稿では,位相推定のタスクに対するランダム化アルゴリズムを導入し,その性能を2つの単純な雑音モデルで解析する。 いずれの場合も、この分析はノイズしきい値につながり、アルゴリズムで使用するサンプル数を増やすことで、任意の精度を達成することができる。 この一般解析の応用として, 最大回路深度の最大比と, 性能保証が保たれるようなデファッショニングスケールを算出した。 そこで,本アルゴリズムは,回路深度の0.916倍以下であれば,任意に高い確率で実現可能であることを計算した。

The hope of the quantum computing field is that quantum architectures are able to scale up and realize fault-tolerant quantum computing. Due to engineering challenges, such "cheap" error correction may be decades away. In the meantime, we anticipate an era of "costly" error correction, or early fault-tolerant quantum computing. Costly error correction might warrant settling for error-prone quantum computations. This motivates the development of quantum algorithms which are robust to some degree of error as well as methods to analyze their performance in the presence of error. We introduce a randomized algorithm for the task of phase estimation and give an analysis of its performance under two simple noise models. In both cases the analysis leads to a noise threshold, below which arbitrarily high accuracy can be achieved by increasing the number of samples used in the algorithm. As an application of this general analysis, we compute the maximum ratio of the largest circuit depth and the dephasing scale such that performance guarantees hold. We calculate that the randomized algorithm can succeed with arbitrarily high probability as long as the required circuit depth is less than 0.916 times the dephasing scale.
翻訳日:2023-01-25 17:39:36 公開日:2022-09-22
# アナログ重力におけるシンプレクティック回路、絡み合い、および刺激されたホーキング放射

Symplectic circuits, entanglement, and stimulated Hawking radiation in analog gravity ( http://arxiv.org/abs/2209.11317v1 )

ライセンス: Link先を確認
Anthony J. Brady, Ivan Agullo, Dimitrios Kranas(参考訳) ブラックホールによる対生成 a l\'a ホーキングやホワイトホールアナログ事象地平線などのアナログ重力における多重モード散乱事象を解析するための便利な解析ツール(ガウス形式)と図形(シンプレクティック回路)を導入する。 この図は散乱動力学、特に直接解析の結果が単純でなく、代わりに数値シミュレーションに依存するような環境では、貴重な解である。 特にホーキング過程が古典的(例:熱雑音)と非古典的(例:単一モードのスクイズド真空)入力状態によって刺激された場合、例えば、最初のスクイーズが絡み合いの生成を増強し、初期熱揺らぎが出力の絡み合いに与える影響を克服できることを示す。 そこで,本研究では,ホーキング対間の量子相関の減衰について検討する。 私たちが採用する手法は、光学アナログやボース=アインシュタイン凝縮体で生成されるアナログ地平線のような(ガウス)ボソニック量子系のアナログ重力設定に適用でき、これらの領域において非常に有用である。 これらの手法の適用性を示すために, 対の白色黒孔アナログを含む光学系に対して動作させることにより, 従来の解析を拡張した [Phys. Rev. Lett. 128, 091301 (2022)]。

We introduce a convenient set of analytical tools (the Gaussian formalism) and diagrams (symplectic circuits) to analyze multi-mode scattering events in analog gravity, such as pair-creation a l\'a Hawking by black hole and white hole analog event horizons. The diagrams prove to be valuable ansatzes for the scattering dynamics, especially in settings where direct analytic results are not straightforward and one must instead rely on numerical simulations. We use these tools to investigate entanglement generation in single- and multi-horizon scenarios, in particular when the Hawking process is stimulated with classical (e.g., thermal noise) and non-classical (e.g., single-mode squeezed vacuum) input states -- demonstrating, for instance, that initial squeezing can enhance the production of entanglement and overcome the deleterious effects that initial thermal fluctuations have on the output entanglement. To make further contact with practical matters, we examine how attenuation degrades quantum correlations between Hawking pairs. The techniques that we employ are generally applicable to analog gravity setups of (Gaussian) bosonic quantum systems, such as analog horizons produced in optical analogs and in Bose-Einstein condensates, and should be of great utility in these domains. We show the applicability of these techniques by putting them in action for an optical system containing a pair white-black hole analog, extending our previous analysis of [Phys. Rev. Lett. 128, 091301 (2022)].
翻訳日:2023-01-25 17:39:20 公開日:2022-09-22
# 非相互作用型xor量子斜め移動:最適プロトコルとその実験的実装

Non-interactive XOR quantum oblivious transfer: optimal protocols and their experimental implementations ( http://arxiv.org/abs/2209.11300v1 )

ライセンス: Link先を確認
Lara Stroh, Nikola Horov\'a, Robert St\'arek, Ittoop V. Puthoor, Michal Mi\v{c}uda, Miloslav Du\v{s}ek, and Erika Andersson(参考訳) Oblivious Transfer (OT) は重要な暗号プリミティブである。 マルチパーティ計算は、OTをビルディングブロックとして実現することができる。 XORoblivious Transfer (XOT) は送信側 Alice が2ビットを持つ変種であり、受信側 Bob が第1ビット、第2ビット、またはその XOR を取得する。 ボブはそれ以上学ぶべきではないし、アリスはボブが学んだことを学ぶべきではない。 情報理論セキュリティを備えた完全な量子OTは不可能であることが知られている。 対称的純粋状態を用いた非相互作用量子xotプロトコルにおける非拘束的不正当事者に対する最小の不正確率を判定し、古典的プロトコルを上回る最適なプロトコルを提案する。 また、Bobが量子状態の送信者になり、Aliceがそれを計測する受信機になるように、AliceからBobへの不愉快な転送を実装しながら、このプロトコルを"逆"する。 双方の確率は、逆のプロトコルと同じです。 我々は,逆プロトコルと逆プロトコルの両方を光学的に実装し,逆プロトコルの実装が容易であることを指摘した。

Oblivious transfer (OT) is an important cryptographic primitive. Any multi-party computation can be realised with OT as building block. XOR oblivious transfer (XOT) is a variant where the sender Alice has two bits, and a receiver Bob obtains either the first bit, the second bit, or their XOR. Bob should not learn anything more than this, and Alice should not learn what Bob has learnt. Perfect quantum OT with information-theoretic security is known to be impossible. We determine the smallest possible cheating probabilities for unrestricted dishonest parties in non-interactive quantum XOT protocols using symmetric pure states, and present an optimal protocol, which outperforms classical protocols. We also "reverse" this protocol, so that Bob becomes sender of a quantum state and Alice the receiver who measures it, while still implementing oblivious transfer from Alice to Bob. Cheating probabilities for both parties stay the same as for the unreversed protocol. We optically implemented both the unreversed and the reversed protocols, and cheating strategies, noting that the reversed protocol is easier to implement.
翻訳日:2023-01-25 17:38:51 公開日:2022-09-22
# 神経リアプノフ制御

Neural Lyapunov Control ( http://arxiv.org/abs/2005.00611v4 )

ライセンス: Link先を確認
Ya-Chien Chang, Nima Roohi, Sicun Gao(参考訳) 本稿では,非線形制御問題に対する制御ポリシとニューラルネットワークのリアプノフ関数の学習方法を提案する。 このフレームワークは、制御とリアプノフ関数を見つけようとする学習者と、学習者が迅速にソリューションへ導くための反例を見つけるファルシファイアで構成される。 この手続きは、反例が見つからなかった場合に終了し、制御された非線形系は確実に安定である。 このアプローチは、リアプノフ制御設計のプロセスを大幅に単純化し、エンドツーエンドの正確性を保証するとともに、LQRやSOS/SDPといった既存の手法よりもはるかに大きなアトラクション領域を得ることができる。 本研究では,新しい手法が制御問題に対する高品質な解を得る方法を示す。

We propose new methods for learning control policies and neural network Lyapunov functions for nonlinear control problems, with provable guarantee of stability. The framework consists of a learner that attempts to find the control and Lyapunov functions, and a falsifier that finds counterexamples to quickly guide the learner towards solutions. The procedure terminates when no counterexample is found by the falsifier, in which case the controlled nonlinear system is provably stable. The approach significantly simplifies the process of Lyapunov control design, provides end-to-end correctness guarantee, and can obtain much larger regions of attraction than existing methods such as LQR and SOS/SDP. We show experiments on how the new methods obtain high-quality solutions for challenging control problems.
翻訳日:2022-12-07 22:43:49 公開日:2022-09-22
# モデル性能の解釈可能なメタ測定

Interpretable Meta-Measure for Model Performance ( http://arxiv.org/abs/2006.02293v2 )

ライセンス: Link先を確認
Alicja Gosiewska and Katarzyna Wo\'znica and Przemys{\l}aw Biecek(参考訳) モデル性能評価のためのベンチマークは、機械学習において重要な役割を果たす。 しかし、新しいベンチマークを記述し作成する方法は確立されていない。 さらに、最も一般的なベンチマークでは、いくつかの制限を共有するパフォーマンス指標を使用します。 例えば、2つのモデルの性能差は確率論的解釈がなく、それらが大きな改善を示すかどうかを示す基準点がなく、データセット間の違いを比較するのは意味がない。 本稿では,elo-based prediction power (epp) という新しいメタスコア評価手法を提案する。 eppスコアの違いは確率論的解釈を持ち、データセット間で直接比較することができる。さらに、ロジスティック回帰に基づく設計により、逸脱度統計に基づくランキング適合度の評価が可能になる。 本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。 さらに,ベンチマークの統一的な記述を行うための統一ベンチマークオントロジーを提案する。

Benchmarks for the evaluation of model performance play an important role in machine learning. However, there is no established way to describe and create new benchmarks. What is more, the most common benchmarks use performance measures that share several limitations. For example, the difference in performance for two models has no probabilistic interpretation, there is no reference point to indicate whether they represent a significant improvement, and it makes no sense to compare such differences between data sets. We introduce a new meta-score assessment named Elo-based Predictive Power (EPP) that is built on top of other performance measures and allows for interpretable comparisons of models. The differences in EPP scores have a probabilistic interpretation and can be directly compared between data sets, furthermore, the logistic regression-based design allows for an assessment of ranking fitness based on a deviance statistic. We prove the mathematical properties of EPP and support them with empirical results of a large scale benchmark on 30 classification data sets and a real-world benchmark for visual data. Additionally, we propose a Unified Benchmark Ontology that is used to give a uniform description of benchmarks.
翻訳日:2022-11-25 23:45:55 公開日:2022-09-22
# bluetoothのリアルタイムrf指紋認証のための埋め込み型注意深層学習

Embedding-Assisted Attentional Deep Learning for Real-World RF Fingerprinting of Bluetooth ( http://arxiv.org/abs/2210.02897v1 )

ライセンス: Link先を確認
Anu Jagannath and Jithin Jagannath(参考訳) スケーラブルで計算効率の良いフレームワークは、現実世界のbluetoothデバイスを指紋化するように設計されている。 実際のBluetoothデバイスの指紋認証に適した埋め込み型注意フレームワーク(Mbed-ATN)を提案する。 その一般化能力は異なる設定で解析され、サンプル長とアンチエイリアスデシメーションの効果が示される。 埋め込みモジュールは、高次元3次元入力テンソルをATNモジュールによるさらなる処理のために1D特徴ベクトルにマッピングする次元還元ユニットとして機能する。 さらに,この分野での先行研究と異なり,モデルの複雑さを綿密に評価し,異なる時間枠と実験環境下で収集した実世界のBluetoothデータセットを用いて指紋認証機能をテストする。 Mbed-ATN アーキテクチャでは M=10 kS と M=100 kS の入力サンプル長で Oracle とは対照的に,メモリ使用量が 7.3x と 65.2x より少ない。 さらに、提案されたMbed-ATNでは、Oracleと比較して16.9倍のFLOPと7.5倍のトレーニング可能なパラメータが示される。 最後に,Mbed-ATN フレームワークは, アンチエイリアスデシメーションおよび1MS の入力サンプル長が大きい場合, 5.32倍のTPR, 37.9%の誤報, 6.74倍の精度が得られることを示した。

A scalable and computationally efficient framework is designed to fingerprint real-world Bluetooth devices. We propose an embedding-assisted attentional framework (Mbed-ATN) suitable for fingerprinting actual Bluetooth devices. Its generalization capability is analyzed in different settings and the effect of sample length and anti-aliasing decimation is demonstrated. The embedding module serves as a dimensionality reduction unit that maps the high dimensional 3D input tensor to a 1D feature vector for further processing by the ATN module. Furthermore, unlike the prior research in this field, we closely evaluate the complexity of the model and test its fingerprinting capability with real-world Bluetooth dataset collected under a different time frame and experimental setting while being trained on another. Our study reveals 7.3x and 65.2x lesser memory usage with Mbed-ATN architecture in contrast to Oracle at input sample lengths of M=10 kS and M=100 kS respectively. Further, the proposed Mbed-ATN showcases 16.9X fewer FLOPs and 7.5x lesser trainable parameters when compared to Oracle. Finally, we show that when subject to anti-aliasing decimation and at greater input sample lengths of 1 MS, the proposed Mbed-ATN framework results in a 5.32x higher TPR, 37.9% fewer false alarms, and 6.74x higher accuracy under the challenging real-world setting.
翻訳日:2022-10-09 17:21:50 公開日:2022-09-22
# 無線スペクトルのクラスタリングのための自己教師付き学習

Self-supervised Learning for Clustering of Wireless Spectrum Activity ( http://arxiv.org/abs/2210.02899v1 )

ライセンス: Link先を確認
Ljupcho Milosheski, Gregor Cerar, Bla\v{z} Bertalani\v{c}, Carolina Fortuna and Mihael Mohor\v{c}i\v{c}(参考訳) 近年, 異常検出, 変調分類, 技術分類, デバイスフィンガープリントなど, 認知無線ネットワークにおける領域関連問題における機械学習技術を含む無線スペクトルデータの処理に関する研究が盛んに行われている。 ほとんどのソリューションはラベル付きデータに基づいており、制御された方法で作成され、教師付き学習アプローチで処理される。 スペクトルデータのラベル付けは面倒で高価なプロセスであり、教師付きアプローチを使うことの主な欠点の1つである。 本稿では,実世界非ラベルデータを用いたスペクトル活動の探索のために,自己教師あり学習を提案する。 提案手法は,抽出した特徴量やクラスタリング性能に優れた性能が得られることを示す。 特徴ベクトルのサイズを2桁(3601から20まで)削減するとともに,評価基準を2倍から2.5倍に短縮し,視覚的評価によってサポートした。 15日間の連続狭帯域スペクトルセンシングデータを用いて、スペクトルスライスのうち17%は、または非常に弱い透過を含まず、36%はIEEE 802.15.4を含み、26%は既存のIEEE 802.15.4とLoRAとプロプライエタリなアクティビティを含まず、12%は背景ノイズの変化するLoRAを含み、9%は、LoRAとプロプライエタリな透過を代表している。

In recent years, much work has been done on processing of wireless spectral data involving machine learning techniques in domain-related problems for cognitive radio networks, such as anomaly detection, modulation classification, technology classification and device fingerprinting. Most of the solutions are based on labeled data, created in a controlled manner and processed with supervised learning approaches. Labeling spectral data is a laborious and expensive process, being one of the main drawbacks of using supervised approaches. In this paper, we introduce self-supervised learning for exploring spectral activities using real-world, unlabeled data. We show that the proposed model achieves superior performance regarding the quality of extracted features and clustering performance. We achieve reduction of the feature vectors size by 2 orders of magnitude (from 3601 to 20), while improving performance by 2 to 2.5 times across the evaluation metrics, supported by visual assessment. Using 15 days of continuous narrowband spectrum sensing data, we found that 17% of the spectrogram slices contain no or very weak transmissions, 36% contain mostly IEEE 802.15.4, 26% contain coexisting IEEE 802.15.4 with LoRA and proprietary activity, 12% contain LoRA with variable background noise and 9% contain only dotted activity, representing LoRA and proprietary transmissions.
翻訳日:2022-10-09 17:21:27 公開日:2022-09-22
# Equitable Marketplaceのメカニズム設計

Equitable Marketplace Mechanism Design ( http://arxiv.org/abs/2209.15418v1 )

ライセンス: Link先を確認
Kshama Dwarakanath, Svitlana S Vyetrenko, Tucker Balch(参考訳) 我々は、多様な取引戦略と目的を持つトレーダーが居住する取引市場を考える。 マーケットプレースでは、サプライヤーが商品をリストアップし、買い手と売り手のマッチングを容易にする。 その見返りとして、このようなマーケットプレイスは通常、取引を促進するための手数料を請求する。 この作業の目標は、すべてのトレーダーに平等で利益を上げつつ、同時に(課金手数料から)市場に利益をもたらすマーケットプレイスのダイナミックな料金スケジュールを設計することである。 取引業者は、手数料スケジュールに戦略を適応させるため、利益と公平性の重み付き最適化目標を用いて、市場手数料スケジュールとこの料金スケジュールに適合する取引戦略を同時に学習するための強化学習フレームワークを提案する。 提案手法を、さまざまなタイプの投資家、特に市場メーカーと消費者投資家との模擬株式交換で詳細に説明した。 さまざまな投資家クラスで公平性の重み付けが変わると、学習交換手数料のスケジュールが投資家クラスを最も重み付けていることが分かる。 さらに、均等市場機構設計の一般的な枠組みを踏まえて、模擬取引所から観測された知見について考察する。

We consider a trading marketplace that is populated by traders with diverse trading strategies and objectives. The marketplace allows the suppliers to list their goods and facilitates matching between buyers and sellers. In return, such a marketplace typically charges fees for facilitating trade. The goal of this work is to design a dynamic fee schedule for the marketplace that is equitable and profitable to all traders while being profitable to the marketplace at the same time (from charging fees). Since the traders adapt their strategies to the fee schedule, we present a reinforcement learning framework for simultaneously learning a marketplace fee schedule and trading strategies that adapt to this fee schedule using a weighted optimization objective of profits and equitability. We illustrate the use of the proposed approach in detail on a simulated stock exchange with different types of investors, specifically market makers and consumer investors. As we vary the equitability weights across different investor classes, we see that the learnt exchange fee schedule starts favoring the class of investors with the highest weight. We further discuss the observed insights from the simulated stock exchange in light of the general framework of equitable marketplace mechanism design.
翻訳日:2022-10-09 17:20:00 公開日:2022-09-22
# 暗号通貨のログリターン予測:LASSO-VARと感性アプローチ

Forecasting Cryptocurrencies Log-Returns: a LASSO-VAR and Sentiment Approach ( http://arxiv.org/abs/2210.00883v1 )

ライセンス: Link先を確認
Federico D'Amario, Milos Ciganovic(参考訳) 暗号通貨は、その破壊的な可能性と前例のないリターンの報告により、最近トレンドとなっている。 さらに、多くの分野におけるソーシャルメディアの予測力、具体的には金融市場や経済学に対する認識が高まった。 本稿では,TwitterとRedditの感情の予測力と,Google Trendsインデックスとボリュームを利用して,10の暗号通貨のログリターンを予測する。 具体的には、bitcoin$、$ethereum$、$tether$、$binance coin$、$litecoin$、$enjin coin$、$horizen$、$namecoin$、$peercoin$、$feathercoin$を検討します。 2018年1月から2022年1月までの日次データを用いたLASSO-VARの性能評価を行った。 30日間の再帰的な予測では、実際のシリーズの正しい方向を50%以上取り出すことができる。 この結果と主要なベンチマークを比較し,平均方向精度(MDA)を10%改善する。 感情変数と注意変数を予測変数として使用すると、MDAでは予測精度が大幅に向上するが、ルート平均正方形誤差は高くない。 高次元VARに対するポストダブルなLASSO選択を用いたグランガー因果性試験を行った。 結果、ソーシャルメディアの感情から暗号通貨のリターンまで「因果性」は示さない

Cryptocurrencies have become a trendy topic recently, primarily due to their disruptive potential and reports of unprecedented returns. In addition, academics increasingly acknowledge the predictive power of Social Media in many fields and, more specifically, for financial markets and economics. In this paper, we leverage the predictive power of Twitter and Reddit sentiment together with Google Trends indexes and volume to forecast the log returns of ten cryptocurrencies. Specifically, we consider $Bitcoin$, $Ethereum$, $Tether$, $Binance Coin$, $Litecoin$, $Enjin Coin$, $Horizen$, $Namecoin$, $Peercoin$, and $Feathercoin$. We evaluate the performance of LASSO-VAR using daily data from January 2018 to January 2022. In a 30 days recursive forecast, we can retrieve the correct direction of the actual series more than 50% of the time. We compare this result with the main benchmarks, and we see a 10% improvement in Mean Directional Accuracy (MDA). The use of sentiment and attention variables as predictors increase significantly the forecast accuracy in terms of MDA but not in terms of Root Mean Squared Errors. We perform a Granger causality test using a post-double LASSO selection for high-dimensional VARs. Results show no "causality" from Social Media sentiment to cryptocurrencies returns
翻訳日:2022-10-09 17:19:42 公開日:2022-09-22
# 自然言語定義のためのアンタングル表現の学習

Learning Disentangled Representations for Natural Language Definitions ( http://arxiv.org/abs/2210.02898v1 )

ライセンス: Link先を確認
Danilo S. Carvalho (1), Giangiacomo Mercatali (1), Yingji Zhang (1), Andre Freitas (1 and 2) ((1) Department of Computer Science, University of Manchester, United Kingdom, (2) Idiap Research Institute, Switzerland)(参考訳) 自然言語処理における解釈性、意味制御、下流タスク性能を向上させる上で、ニューラルモデルのエンコーディングの解消は基本的な側面である。 現在、ほとんどの解離法は教師なし、あるいは既知の生成因子を持つ合成データセットに依存している。 テキストデータの連続的な構文的・意味的規則性は、構造的バイアスと生成的要因の両方をモデルに提供するのに有効である。 本稿では,文タイプ,定義文の代用的・意味的に密接なカテゴリに存在する意味構造を用いて,変形型オートエンコーダを訓練し,不連続表現を学習する。 実験の結果,提案モデルは,複数の定性的・定量的指標において教師なしベースラインよりも優れており,また,定義モデリングの下流タスクにおける結果も向上していることがわかった。

Disentangling the encodings of neural models is a fundamental aspect for improving interpretability, semantic control and downstream task performance in Natural Language Processing. Currently, most disentanglement methods are unsupervised or rely on synthetic datasets with known generative factors. We argue that recurrent syntactic and semantic regularities in textual data can be used to provide the models with both structural biases and generative factors. We leverage the semantic structures present in a representative and semantically dense category of sentence types, definitional sentences, for training a Variational Autoencoder to learn disentangled representations. Our experimental results show that the proposed model outperforms unsupervised baselines on several qualitative and quantitative benchmarks for disentanglement, and it also improves the results in the downstream task of definition modeling.
翻訳日:2022-10-09 17:10:02 公開日:2022-09-22
# あなたの予測はエネルギー技術者より賢いか? 電力価格予測を深く掘り下げる

Is your forecaster smarter than an energy engineer: a deep dive into electricity price forecasting ( http://arxiv.org/abs/2209.13411v1 )

ライセンス: Link先を確認
Maria Margarida Mascarenhas and Hussain Kazmi(参考訳) 電力価格予測の分野は、新しいより正確な予測モデルの開発など、ここ数年で大きな進歩を遂げている。 これらのモデルは、先述したデータにおける統計的関係を利用して未来を予測するが、これらのモデルを説明する分析は乏しく、重要なインフラにおける実際の適用性を制限する。 本稿では,ベルギーの電力市場のデータを用いて,その予測が訓練された限られた状況よりも一般的な環境で信頼できるかどうかを理解するために,最先端の予測モデルについて検討する。 モデルが極端な状況下で予測が不十分であったり、現実と矛盾していたりした場合、これらの予測が下流の意思決定活動で使用される現実世界では信頼できない。 我々の結果は、概して十分正確であるにもかかわらず、最先端の予測でさえ現実と整合性を維持することに苦戦していることを示している。

The field of electricity price forecasting has seen significant advances in the last years, including the development of new, more accurate forecast models. These models leverage statistical relationships in previously observed data to predict the future; however, there is a lack of analysis explaining these models, which limits their real world applicability in critical infrastructure. In this paper, using data from the Belgian electricity markets, we explore a state-of-the-art forecasting model to understand if its predictions can be trusted in more general settings than the limited context it is trained in. If the model produces poor predictions in extreme conditions or if its predictions are inconsistent with reality, it cannot be relied upon in real-world where these forecasts are used in downstream decision-making activities. Our results show that, despite being largely accurate enough in general, even state of the art forecasts struggle with remaining consistent with reality.
翻訳日:2022-10-02 23:14:51 公開日:2022-09-22
# ビジュアルテキスト分析パイプラインにおける不確かさの特徴

Characterizing Uncertainty in the Visual Text Analysis Pipeline ( http://arxiv.org/abs/2209.13498v1 )

ライセンス: Link先を確認
Pantea Haghighatkhah and Mennatallah El-Assady and Jean-Daniel Fekete and Narges Mahyar and Carita Paradis and Vasiliki Simaki and Bettina Speckmann(参考訳) 現在のビジュアルテキスト分析アプローチは高度な処理パイプラインに依存している。 このようなパイプラインの各ステップは、前ステップから不確実性を増幅する可能性がある。 結果の理解性と相互運用性を確保するため、出力だけでなく、パイプライン内での不確実性も明確に伝達することが最重要となる。 本稿では,視覚的テキスト解析パイプラインに沿った不確実性の源を特徴付ける。 ラベル付け、モデリング、分析の3段階において、6つの情報源を特定し、それらが生成する不確実性の種類とどのように伝播するかについて議論する。

Current visual text analysis approaches rely on sophisticated processing pipelines. Each step of such a pipeline potentially amplifies any uncertainties from the previous step. To ensure the comprehensibility and interoperability of the results, it is of paramount importance to clearly communicate the uncertainty not only of the output but also within the pipeline. In this paper, we characterize the sources of uncertainty along the visual text analysis pipeline. Within its three phases of labeling, modeling, and analysis, we identify six sources, discuss the type of uncertainty they create, and how they propagate.
翻訳日:2022-10-02 23:13:08 公開日:2022-09-22
# デッドバンドにおけるAMTデータ処理のための深層学習に基づくシュフェリクス認識

Deep learning based sferics recognition for AMT data processing in the dead band ( http://arxiv.org/abs/2209.13647v1 )

ライセンス: Link先を確認
Enhua Jiang, Rujun Chen, Xinming Wu, Jianxin Liu, Debin Zhu and Weiqiang Liu(参考訳) AMT (Audio magnetotellurics) の音波データ処理では、ある時間帯における干渉信号の欠如は、一般的にATTデッドバンドのエネルギー不足を招き、信頼できない比抵抗推定を引き起こす。 本研究では,冗長に記録されたデータからのsferic信号を自動的に認識し,比抵抗推定を補償する深層畳み込みニューラルネットワーク(cnn)を提案する。 中国本土の異なる地域から取得したノイズ分率に対して異なる信号のフィールド時系列データを用いてcnnを訓練する。 CNNモデルパラメータを最適化しながら、ランダムにトレーニングサンプル(ランダムデータ拡張)を生成する訓練戦略を提案する。 トレーニング損失が収束するまで、トレーニングプロセスとデータ生成を停止します。 さらに,重み付き二項クロスエントロピー損失関数を用いてサンプル不均衡問題を解き,ネットワークの最適化,複数の合理的指標を用いたネットワーク性能評価,モデルハイパーパラメータの最適選択のためのアブレーション実験を行った。 広範囲のフィールドデータ応用により,我々の訓練したcnnは,継続インピーダンス推定のために雑音時系列からのsferic信号をロバストに認識できることを示した。 その後の処理結果から,本手法はS/Nを大幅に改善し,デッドバンドのエネルギー不足を効果的に解決できることが示された。 従来のsferic compensation法と比較して,より滑らかで合理的な比抵抗位相曲線と非分極位相テンソルを生成し,高周波比抵抗の急降下の推定誤差と位相反転の異常挙動を補正し,最終的に真の浅層比抵抗構造を復元することができる。

In the audio magnetotellurics (AMT) sounding data processing, the absence of sferic signals in some time ranges typically results in a lack of energy in the AMT dead band, which may cause unreliable resistivity estimate. We propose a deep convolutional neural network (CNN) to automatically recognize sferic signals from redundantly recorded data in a long time range and use them to compensate for the resistivity estimation. We train the CNN by using field time series data with different signal to noise rations that were acquired from different regions in mainland China. To solve the potential overfitting problem due to the limited number of sferic labels, we propose a training strategy that randomly generates training samples (with random data augmentations) while optimizing the CNN model parameters. We stop the training process and data generation until the training loss converges. In addition, we use a weighted binary cross-entropy loss function to solve the sample imbalance problem to better optimize the network, use multiple reasonable metrics to evaluate network performance, and carry out ablation experiments to optimally choose the model hyperparameters. Extensive field data applications show that our trained CNN can robustly recognize sferic signals from noisy time series for subsequent impedance estimation. The subsequent processing results show that our method can significantly improve S/N and effectively solve the problem of lack of energy in dead band. Compared to the traditional processing method without sferic compensation, our method can generate a smoother and more reasonable apparent resistivity-phase curves and depolarized phase tensor, correct the estimation error of sudden drop of high-frequency apparent resistivity and abnormal behavior of phase reversal, and finally better restore the real shallow subsurface resistivity structure.
翻訳日:2022-10-02 23:12:59 公開日:2022-09-22
# ガウス過程による最適停止

Optimal Stopping with Gaussian Processes ( http://arxiv.org/abs/2209.14738v1 )

ライセンス: Link先を確認
Kshama Dwarakanath, Danial Dervovic, Peyman Tavallali, Svitlana S Vyetrenko, Tucker Balch(参考訳) 本稿では,特定用途の金融市場における時系列の最適停止を高速に近似するガウス過程に基づく新しいアルゴリズムを提案する。 金融時系列で一般に示される構造的性質(平均回帰傾向など)はガウス過程モデルや深いガウス過程モデルの利用を可能にし、最適な停止値関数や方針を解析的に評価できることを示した。 さらに, 最適停止解析により価格モデルを伝播することにより, 値関数の不確かさを定量化する。 提案手法をサンプリングベースの手法と対比し,現在文献で最先端であると考えられる深層学習ベースのベンチマークと比較した。 当社のアルゴリズム群は、日内および終末の株式資産価格を含む3つの歴史的時系列データセットと、米国の毎日の利回り曲線率のベンチマークを上回ります。

We propose a novel group of Gaussian Process based algorithms for fast approximate optimal stopping of time series with specific applications to financial markets. We show that structural properties commonly exhibited by financial time series (e.g., the tendency to mean-revert) allow the use of Gaussian and Deep Gaussian Process models that further enable us to analytically evaluate optimal stopping value functions and policies. We additionally quantify uncertainty in the value function by propagating the price model through the optimal stopping analysis. We compare and contrast our proposed methods against a sampling-based method, as well as a deep learning based benchmark that is currently considered the state-of-the-art in the literature. We show that our family of algorithms outperforms benchmarks on three historical time series datasets that include intra-day and end-of-day equity asset prices as well as the daily US treasury yield curve rates.
翻訳日:2022-10-02 23:05:33 公開日:2022-09-22
# 深層学習と統計量に基づく多段階大規模セグメント計算フレームワーク

Multistage Large Segment Imputation Framework Based on Deep Learning and Statistic Metrics ( http://arxiv.org/abs/2209.11766v1 )

ライセンス: Link先を確認
JinSheng Yang, YuanHai Shao, ChunNa Li, Wensi Wang(参考訳) 欠損値は非常に一般的な問題であり、センサーでは避けられない問題であり、研究者は特にディープラーニングモデルにおいて、価値計算の欠如を何度も試みてきた。 しかし、実際のセンサデータでは、特定のデータ分布とデータ周期が考慮されないため、異なるセンサに対する適切な評価指標とモデルを選択することは困難である。 この問題に対処するため,本研究では,値インプテーションの欠落に対して適応性のある深層学習に基づく多段階インプテーションフレームワークを提案する。 このモデルでは,データ分布の低次および高次統計量の混合測定指標と,従来の平均二乗誤差よりも適応的かつ効果的であるデータ計算性能指標の新たな視点を示す。 多段階の計算戦略と動的データ長をデータ周期の計算プロセスに導入する。 異なる種類のセンサデータを用いた実験の結果,多段階インプテーション戦略と混合指数は良好であり,特に大きなセグメントインプテーション問題において,値インプテーションの欠落の影響がある程度改善されていることがわかった。 コードと実験結果はGitHubにアップロードされている。

Missing value is a very common and unavoidable problem in sensors, and researchers have made numerous attempts for missing value imputation, particularly in deep learning models. However, for real sensor data, the specific data distribution and data periods are rarely considered, making it difficult to choose the appropriate evaluation indexes and models for different sensors. To address this issue, this study proposes a multistage imputation framework based on deep learning with adaptability for missing value imputation. The model presents a mixture measurement index of low- and higher-order statistics for data distribution and a new perspective on data imputation performance metrics, which is more adaptive and effective than the traditional mean squared error. A multistage imputation strategy and dynamic data length are introduced into the imputation process for data periods. Experimental results on different types of sensor data show that the multistage imputation strategy and the mixture index are superior and that the effect of missing value imputation has been improved to some extent, particularly for the large segment imputation problem. The codes and experimental results have been uploaded to GitHub.
翻訳日:2022-09-27 16:52:01 公開日:2022-09-22
# A.I. Locked-In問題に関する事例報告 : 現代のNLPとの社会的懸念

A Case Report On The "A.I. Locked-In Problem": social concerns with modern NLP ( http://arxiv.org/abs/2209.12687v1 )

ライセンス: Link先を確認
Yoshija Walter(参考訳) 現代のNLPモデルは、前者よりも会話エージェントとして優れている。 recurrent neural networks (rnns) と特にlong- short term memory (lstm) 機能により、エージェントはセマンティックコンテンツに関する情報の保存と使用をより良くすることができる。 OpenAIによる GPT-3 のような大規模言語モデル (LLM) は、物語の構築と追跡が可能であることが知られており、それによってシステムは、行先でペルソナを採用し、それらを適応し、会話のストーリーで一緒に遊ぶことができる。 しかし、gpt-3による実践的な実験は、これらの現代のnlpシステムには繰り返し問題があり、物語の中で「行き詰まる」ことができ、さらなる会話、即席実行、コマンドが無駄になることを示している。 これは"locked-in problem"と呼ばれ、実験的なケースレポートで例示され、その後、この問題に付随する実用的および社会的懸念が続く。

Modern NLP models are becoming better conversational agents than their predecessors. Recurrent Neural Networks (RNNs) and especially Long-Short Term Memory (LSTM) features allow the agent to better store and use information about semantic content, a trend that has become even more pronounced with the Transformer Models. Large Language Models (LLMs) such as GPT-3 by OpenAI have become known to be able to construct and follow a narrative, which enables the system to adopt personas on the go, adapt them and play along in conversational stories. However, practical experimentation with GPT-3 shows that there is a recurring problem with these modern NLP systems, namely that they can "get stuck" in the narrative so that further conversations, prompt executions or commands become futile. This is here referred to as the "Locked-In Problem" and is exemplified with an experimental case report, followed by practical and social concerns that are accompanied with this problem.
翻訳日:2022-09-27 16:40:38 公開日:2022-09-22
# ProDesign: 効率的かつ効率的なタンパク質設計を目指して

ProDesign: Toward effective and efficient protein design ( http://arxiv.org/abs/2209.12643v1 )

ライセンス: Link先を確認
Zhangyang Gao, Cheng Tan, Stan Z. Li(参考訳) 所望の構造に折りたたむタンパク質配列を効果的に効率的に設計する方法? 近年、構造ベースのタンパク質設計が注目されているが、表現的特徴の欠如と自己回帰的配列デコーダにより、精度と効率を同時に向上できる方法はほとんどない。 これらの問題に対処するために,prodesignを提案する。prodesignは,新規な残基フェアチュレータとprognn層を含み,タンパク質配列をワンショットで生成し,回復性が向上する。 実験により、プロデザインはcath 4.2で51.66\%回復し、推論速度は自己回帰の競合相手の70倍速くなることが示された。 さらに、ProDesignはTS50とTS500でそれぞれ58.72\%と60.42\%のリカバリスコアを達成した。 種々のタンパク質の特徴とモデル設計の役割を明らかにするため、包括的アブレーション研究を行い、さらなる単純化と改善を促した。

How to design protein sequences folding into the desired structures effectively and efficiently? Structure-based protein design has attracted increasing attention in recent years; however, few methods can simultaneously improve the accuracy and efficiency due to the lack of expressive features and autoregressive sequence decoder. To address these issues, we propose ProDesign, which contains a novel residue featurizer and ProGNN layers to generate protein sequences in a one-shot way with improved recovery. Experiments show that ProDesign could achieve 51.66\% recovery on CATH 4.2, while the inference speed is 70 times faster than the autoregressive competitors. In addition, ProDesign achieves 58.72\% and 60.42\% recovery scores on TS50 and TS500, respectively. We conduct comprehensive ablation studies to reveal the role of different types of protein features and model designs, inspiring further simplification and improvement.
翻訳日:2022-09-27 15:23:45 公開日:2022-09-22
# DFX: トランスフォーマーベースのテキスト生成を高速化する低レイテンシマルチFPGAアプライアンス

DFX: A Low-latency Multi-FPGA Appliance for Accelerating Transformer-based Text Generation ( http://arxiv.org/abs/2209.10797v1 )

ライセンス: Link先を確認
Seongmin Hong, Seungjae Moon, Junsoo Kim, Sungjae Lee, Minsub Kim, Dongsoo Lee, Joo-Young Kim(参考訳) Transformerは、データセンターの自然言語処理(NLP)サービスに広く使用されているディープラーニング言語モデルである。 トランスモデルのうち、生成前学習トランス(gpt)はテキスト生成において顕著な性能を発揮しており、要約段階で大きな入力コンテキストの処理を必要とする自然言語生成(nlg)と、同時に1つの単語を生成する生成ステージがある。 従来のGPUのようなプラットフォームは、要約段階における大きな入力の並列処理に特化しているが、そのシーケンシャルな特徴から生成段階において性能は著しく低下する。 したがって、テキスト生成のシーケンシャルな特性に起因する遅延に対処するためには、効率的なハードウェアプラットフォームが必要である。 本稿では,GPT-2モデル推論をエンド・ツー・エンドで行うマルチFPGA加速度アプライアンスであるDFXについて述べる。 DFXは、モデル並列性と最適化されたデータフローを使用して、デバイス間で高速な同時ワークロード実行を実現する。 計算コアはカスタム命令で動作し、GPT-2操作をエンドツーエンドで提供する。 提案するハードウェアアーキテクチャを,Xilinx Alveo U280 FPGA上で実装し,高帯域メモリ(HBM)の全チャネルと計算資源の最大数を高いハードウェア効率に活用する。 DFXは最新のGPT-2モデルで4つのNVIDIA V100 GPU上で5.58倍のスピードアップと3.99倍のエネルギー効率を達成する。 DFXはGPUアプライアンスよりも8.21倍コスト効率が高く、クラウドデータセンタのテキスト生成ワークロードに対して有望なソリューションであることを示唆している。

Transformer is a deep learning language model widely used for natural language processing (NLP) services in datacenters. Among transformer models, Generative Pre-trained Transformer (GPT) has achieved remarkable performance in text generation, or natural language generation (NLG), which needs the processing of a large input context in the summarization stage, followed by the generation stage that produces a single word at a time. The conventional platforms such as GPU are specialized for the parallel processing of large inputs in the summarization stage, but their performance significantly degrades in the generation stage due to its sequential characteristic. Therefore, an efficient hardware platform is required to address the high latency caused by the sequential characteristic of text generation. In this paper, we present DFX, a multi-FPGA acceleration appliance that executes GPT-2 model inference end-to-end with low latency and high throughput in both summarization and generation stages. DFX uses model parallelism and optimized dataflow that is model-and-hardware-aware for fast simultaneous workload execution among devices. Its compute cores operate on custom instructions and provide GPT-2 operations end-to-end. We implement the proposed hardware architecture on four Xilinx Alveo U280 FPGAs and utilize all of the channels of the high bandwidth memory (HBM) and the maximum number of compute resources for high hardware efficiency. DFX achieves 5.58x speedup and 3.99x energy efficiency over four NVIDIA V100 GPUs on the modern GPT-2 model. DFX is also 8.21x more cost-effective than the GPU appliance, suggesting that it is a promising solution for text generation workloads in cloud datacenters.
翻訳日:2022-09-26 17:33:20 公開日:2022-09-22
# マルチエージェントナビゲーションのための環境最適化

Environment Optimization for Multi-Agent Navigation ( http://arxiv.org/abs/2209.11279v1 )

ライセンス: Link先を確認
Zhan Gao and Amanda Prorok(参考訳) 従来のマルチエージェントナビゲーションアルゴリズムの設計手法は、エージェントの性能に空間的制約が明らかに影響しているにもかかわらず、環境を固定的な制約と見なしている。 しかし、改善された環境レイアウトと構造を手作業で設計することは非効率であり、潜在的に高価である。 本研究の目的は,エージェントの性能と環境コストを考慮に入れたシステムレベルの最適化問題において,環境を決定変数として考えることである。 まず,新しい環境最適化問題を提案する。 完全性を保証しながら環境が変化しうる条件(すなわち、すべてのエージェントが航法目標に達する)を形式的証明を通して示します。 我々のソリューションはモデルなし強化学習アプローチを活用する。 幅広い実装シナリオに対応するため、オンラインとオフラインの両方の最適化と、離散環境と連続環境の両方の表現を含む。 数値結果は我々の理論的知見と一致し、アプローチを検証する。

Traditional approaches to the design of multi-agent navigation algorithms consider the environment as a fixed constraint, despite the obvious influence of spatial constraints on agents' performance. Yet hand-designing improved environment layouts and structures is inefficient and potentially expensive. The goal of this paper is to consider the environment as a decision variable in a system-level optimization problem, where both agent performance and environment cost can be accounted for. We begin by proposing a novel environment optimization problem. We show, through formal proofs, under which conditions the environment can change while guaranteeing completeness (i.e., all agents reach their navigation goals). Our solution leverages a model-free reinforcement learning approach. In order to accommodate a broad range of implementation scenarios, we include both online and offline optimization, and both discrete and continuous environment representations. Numerical results corroborate our theoretical findings and validate our approach.
翻訳日:2022-09-26 17:32:52 公開日:2022-09-22
# 潜時空間によるデータシフトによる脳波表現のロバスト性評価と不確かさ解析

Assessing Robustness of EEG Representations under Data-shifts via Latent Space and Uncertainty Analysis ( http://arxiv.org/abs/2209.11233v1 )

ライセンス: Link先を確認
Neeraj Wagh, Jionghao Wei, Samarth Rawal, Brent M. Berry, Yogatheesan Varatharajah(参考訳) バイオメディシンにおける大規模データセットの最近の利用は、複数の医療応用のための表現学習手法の開発にインスピレーションを与えている。 予測性能の進歩にもかかわらず、そのような方法の臨床的有用性は実世界のデータに曝されることによって制限される。 本稿では,外部データへのアクセスを前提にせずに,デプロイ中の潜在的な落とし穴を検出するモデル診断手法を開発した。 具体的には、データ変換による電気生理学的信号(EEG)の現実的なデータシフトのモデル化に焦点をあて、従来のタスクベース評価を分析により拡張する。 a) モデルの潜伏空間と b) これらの変換の下での予測の不確実性 大規模臨床脳波を用いて,複数の脳波特徴エンコーダと2つの臨床関連下流課題について実験を行った。 この実験結果から,提案したデータシフトによる遅延空間の整合性とモデル不確実性の測定は,展開時の性能劣化を予測できる可能性が示唆された。

The recent availability of large datasets in bio-medicine has inspired the development of representation learning methods for multiple healthcare applications. Despite advances in predictive performance, the clinical utility of such methods is limited when exposed to real-world data. Here we develop model diagnostic measures to detect potential pitfalls during deployment without assuming access to external data. Specifically, we focus on modeling realistic data shifts in electrophysiological signals (EEGs) via data transforms, and extend the conventional task-based evaluations with analyses of a) model's latent space and b) predictive uncertainty, under these transforms. We conduct experiments on multiple EEG feature encoders and two clinically relevant downstream tasks using publicly available large-scale clinical EEGs. Within this experimental setting, our results suggest that measures of latent space integrity and model uncertainty under the proposed data shifts may help anticipate performance degradation during deployment.
翻訳日:2022-09-26 17:26:07 公開日:2022-09-22
# 深層強化学習による組織設計のためのエネルギー効率の高い熱処理の計算的発見

Computational Discovery of Energy-Efficient Heat Treatment for Microstructure Design using Deep Reinforcement Learning ( http://arxiv.org/abs/2209.11259v1 )

ライセンス: Link先を確認
Jaber R. Mianroodi, Nima H. Siboni, Dierk Raabe(参考訳) 深層強化学習(drl)は、構造に敏感でエネルギー効率のよい、自律的に最適化された独自の熱処理プロセスを開発するために用いられる。 従来の教師付き機械学習とは異なり、DRLはデータのみからの静的ニューラルネットワークトレーニングを頼らず、学習エージェントは報酬とペナルティ要素に基づいた最適なソリューションを自律的に開発する。 本手法では,drlエージェントの環境として温度依存性のアレン・カーン・モデルを用い,経験を積んで自律的な意思決定を行うモデル・ワールドとして機能する。 DRLアルゴリズムのエージェントは、合金の熱処理のモデル炉としてシステムの温度を制御している。 相の所望の微細構造に基づいて, 組織目標を定義する。 トレーニング後、エージェントは様々な初期ミクロ構造状態の温度時間プロファイルを生成し、最終的な望まれるミクロ構造状態に達する。 生成した熱処理プロファイルの性能と物理的意味について詳細に検討する。 特に、様々な初期条件から所望の微細構造に達する温度を制御することができる。 種々の条件に対処するエージェントのこの能力は、初期組成がバッチからバッチに変化しうるリサイクル指向の熱処理プロセス設計や、エネルギー効率の高い熱処理の設計にも利用することができる。 この仮説をテストするために、総消費エネルギーに対するペナルティのないエージェントは、エネルギーコストを考えるエージェントと比較される。 最適な温度時間プロファイルを求めるための追加基準として、エネルギーコストペナルティが課される。

Deep Reinforcement Learning (DRL) is employed to develop autonomously optimized and custom-designed heat-treatment processes that are both, microstructure-sensitive and energy efficient. Different from conventional supervised machine learning, DRL does not rely on static neural network training from data alone, but a learning agent autonomously develops optimal solutions, based on reward and penalty elements, with reduced or no supervision. In our approach, a temperature-dependent Allen-Cahn model for phase transformation is used as the environment for the DRL agent, serving as the model world in which it gains experience and takes autonomous decisions. The agent of the DRL algorithm is controlling the temperature of the system, as a model furnace for heat-treatment of alloys. Microstructure goals are defined for the agent based on the desired microstructure of the phases. After training, the agent can generate temperature-time profiles for a variety of initial microstructure states to reach the final desired microstructure state. The agent's performance and the physical meaning of the heat-treatment profiles generated are investigated in detail. In particular, the agent is capable of controlling the temperature to reach the desired microstructure starting from a variety of initial conditions. This capability of the agent in handling a variety of conditions paves the way for using such an approach also for recycling-oriented heat treatment process design where the initial composition can vary from batch to batch, due to impurity intrusion, and also for the design of energy-efficient heat treatments. For testing this hypothesis, an agent without penalty on the total consumed energy is compared with one that considers energy costs. The energy cost penalty is imposed as an additional criterion on the agent for finding the optimal temperature-time profile.
翻訳日:2022-09-26 17:25:53 公開日:2022-09-22
# 人的支援の最小化: 深層強化学習のための1つのデモ

Minimizing Human Assistance: Augmenting a Single Demonstration for Deep Reinforcement Learning ( http://arxiv.org/abs/2209.11275v1 )

ライセンス: Link先を確認
Abraham George, Alison Bartsch, and Amir Barati Farimani(参考訳) 強化学習における人間の実演の使用は、エージェントのパフォーマンスを著しく改善することが証明されている。 しかし、人間の手作業によるモデルへの要求は、強化学習の目的に対してやや反則的である。 本稿では,RL学習を支援するために,簡単なバーチャルリアリティーシミュレーションを通じて収集した単一の人間の例を用いて,学習過程における人間の関与を最小限に抑えつつ,パフォーマンス上の優位性を保ちつつ,人間の関与を最小化しようとする。 提案手法は,Deep Deterministic Policy Gradients and Hindsight Experience Replay (DDPG + HER)と組み合わせることで,単純なタスクのトレーニング時間を大幅に改善し,DDPG + HERだけでは解決できない複雑なタスク(ブロックスタック)をエージェントが解決できるようにする。 このモデルは、人間の1つの例を使って、この重要なトレーニングアドバンテージを達成し、1分以内の入力を必要とする。

The use of human demonstrations in reinforcement learning has proven to significantly improve agent performance. However, any requirement for a human to manually 'teach' the model is somewhat antithetical to the goals of reinforcement learning. This paper attempts to minimize human involvement in the learning process while still retaining the performance advantages by using a single human example collected through a simple-to-use virtual reality simulation to assist with RL training. Our method augments a single demonstration to generate numerous human-like demonstrations that, when combined with Deep Deterministic Policy Gradients and Hindsight Experience Replay (DDPG + HER), significantly improve training time on simple tasks and allows the agent to solve a complex task (block stacking) that DDPG + HER alone cannot solve. The model achieves this significant training advantage using a single human example, requiring less than a minute of human input.
翻訳日:2022-09-26 17:25:26 公開日:2022-09-22
# 見逃すデータを再考する - Aleatoric Uncertainty-Aware Recommendation

Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation ( http://arxiv.org/abs/2209.11679v1 )

ライセンス: Link先を確認
Chenxu Wang, Fuli Feng, Yang Zhang, Qifan Wang, Xunhan Hu, Xiangnan He(参考訳) 歴史的相互作用はリコメンダモデルトレーニングのデフォルトの選択肢であり、通常は高い疎性を示す。 標準的な選択は、欠落したデータを負のトレーニングサンプルとして扱い、観察したインタラクションとともにユーザとテーマのペア間のインタラクションの確率を見積もることである。 このような方法では、潜在的な相互作用はトレーニング中に必然的に誤ってラベル付けされるため、モデルの忠実度が損なわれる。 本研究では,失明データ固有のランダム性を記述したアレータティック不確実性の新しい視点から,誤ラベル問題について検討する。 ランダム性は、単に相互作用の可能性を超越し、アレタリック不確実性モデリングを受け入れることを促す。 そこで本研究では,新しい不確実性推定モデルと通常のレコメンデータモデルを組み合わせた,新しいAleatoric Uncertainty-aware Recommendation(AUR)フレームワークを提案する。 aleatoric uncertaintyの理論によれば、私たちは推定子を学ぶための新しい推奨目標を導出する。 誤記の可能性はペアの可能性を反映しているため、aurは不確実性に応じて推奨を行い、全体的なパフォーマンスを犠牲にすることなく、人気度の低いアイテムの推奨性能を改善することが示されている。 行列因子化(MF)、LightGCN、VAEの3つの代表的な推奨モデル上でAURをインスタンス化する。 2つの実世界のデータセットの大規模な結果は、AUR w.r.t.のより優れた推奨結果、特にロングテールアイテムの有効性を検証する。

Historical interactions are the default choice for recommender model training, which typically exhibit high sparsity, i.e., most user-item pairs are unobserved missing data. A standard choice is treating the missing data as negative training samples and estimating interaction likelihood between user-item pairs along with the observed interactions. In this way, some potential interactions are inevitably mislabeled during training, which will hurt the model fidelity, hindering the model to recall the mislabeled items, especially the long-tail ones. In this work, we investigate the mislabeling issue from a new perspective of aleatoric uncertainty, which describes the inherent randomness of missing data. The randomness pushes us to go beyond merely the interaction likelihood and embrace aleatoric uncertainty modeling. Towards this end, we propose a new Aleatoric Uncertainty-aware Recommendation (AUR) framework that consists of a new uncertainty estimator along with a normal recommender model. According to the theory of aleatoric uncertainty, we derive a new recommendation objective to learn the estimator. As the chance of mislabeling reflects the potential of a pair, AUR makes recommendations according to the uncertainty, which is demonstrated to improve the recommendation performance of less popular items without sacrificing the overall performance. We instantiate AUR on three representative recommender models: Matrix Factorization (MF), LightGCN, and VAE from mainstream model architectures. Extensive results on two real-world datasets validate the effectiveness of AUR w.r.t. better recommendation results, especially on long-tail items.
翻訳日:2022-09-26 17:08:10 公開日:2022-09-22
# T2FPV: 現実世界の歩行者軌道から高忠実なファーストパーソンビューデータセットを構築する

T2FPV: Constructing High-Fidelity First-Person View Datasets From Real-World Pedestrian Trajectories ( http://arxiv.org/abs/2209.11294v1 )

ライセンス: Link先を確認
Benjamin Stoler, Meghdeep Jana, Soonmin Hwang, Jean Oh(参考訳) 歩行者の動きを予測することは、混雑した環境で相互作用する社会的に認識されたロボットを開発するのに不可欠である。 社会的インタラクション設定の自然な視点はエゴセントリックな視点であるが、軌道予測における既存の作業の大部分は、トップダウン軌道空間において純粋に研究されている。 T2FPVは、実世界のトップダウントラジェクトリデータセットが与えられた高忠実なファーストパーソンビューデータセットを構築する方法であり、ETH/UCYの歩行者データセットを用いて、対話する歩行者の自我中心の視覚データを生成する。 筆者らは,ETH/UCYデータセットで使用される鳥眼ビューの仮定,すなわち,エージェントが現場の全員を完璧な情報で観察でき,一対一の視点では保持できないことを報告した。 実感レベルの異なる既存の軌道予測手法を評価したところ、変位誤差はトップダウンの完全情報設定に比べて356%増大した。 一人称視点軌跡予測の研究を促進するため,我々のT2FPV-ETHデータセットとソフトウェアツールをリリースする。

Predicting pedestrian motion is essential for developing socially-aware robots that interact in a crowded environment. While the natural visual perspective for a social interaction setting is an egocentric view, the majority of existing work in trajectory prediction has been investigated purely in the top-down trajectory space. To support first-person view trajectory prediction research, we present T2FPV, a method for constructing high-fidelity first-person view datasets given a real-world, top-down trajectory dataset; we showcase our approach on the ETH/UCY pedestrian dataset to generate the egocentric visual data of all interacting pedestrians. We report that the bird's-eye view assumption used in the original ETH/UCY dataset, i.e., an agent can observe everyone in the scene with perfect information, does not hold in the first-person views; only a fraction of agents are fully visible during each 20-timestep scene used commonly in existing work. We evaluate existing trajectory prediction approaches under varying levels of realistic perception -- displacement errors suffer a 356% increase compared to the top-down, perfect information setting. To promote research in first-person view trajectory prediction, we release our T2FPV-ETH dataset and software tools.
翻訳日:2022-09-26 17:07:08 公開日:2022-09-22
# 単一圧縮光場測定による高速不等式推定

Fast Disparity Estimation from a Single Compressed Light Field Measurement ( http://arxiv.org/abs/2209.11342v1 )

ライセンス: Link先を確認
Emmanuel Martinez, Edwin Vargas and Henry Arguello(参考訳) 光場からの豊富な空間的および角的情報により、複数の異なる推定手法の開発が可能となった。 しかし、光フィールドの取得には高いストレージと処理コストが必要であり、実用化にはこの技術の使用が制限される。 これらの欠点を克服するために、圧縮センシング(CS)理論は、光アーキテクチャの開発で単一の符号付き光場測定ができるようになった。 この測定は、高い計算コストを必要とする最適化アルゴリズムまたはディープニューラルネットワークを使用してデコードされる。 圧縮光場からの不均一性推定を行う従来の手法は、まず光場全体を回復し、次に後処理のステップを必要とするため、長い時間を要する。 対照的に,本研究では,従来の手法で要求される回復ステップを省略し,単一の圧縮測定値から高速な不均一性推定を提案する。 具体的には,単一符号化光フィールドスナップショットと畳み込みニューラルネットワーク(cnn)を取得するための光学アーキテクチャを共同で最適化し,異種マップを推定することを提案する。 提案手法は, 深層学習手法を用いて再構成した光場と同等の差分マップを推定する。 さらに, 提案手法は, 再構成光場からの距離を推定する最良の手法よりも, トレーニングや推論において20倍高速である。

The abundant spatial and angular information from light fields has allowed the development of multiple disparity estimation approaches. However, the acquisition of light fields requires high storage and processing cost, limiting the use of this technology in practical applications. To overcome these drawbacks, the compressive sensing (CS) theory has allowed the development of optical architectures to acquire a single coded light field measurement. This measurement is decoded using an optimization algorithm or deep neural network that requires high computational costs. The traditional approach for disparity estimation from compressed light fields requires first recovering the entire light field and then a post-processing step, thus requiring long times. In contrast, this work proposes a fast disparity estimation from a single compressed measurement by omitting the recovery step required in traditional approaches. Specifically, we propose to jointly optimize an optical architecture for acquiring a single coded light field snapshot and a convolutional neural network (CNN) for estimating the disparity maps. Experimentally, the proposed method estimates disparity maps comparable with those obtained from light fields reconstructed using deep learning approaches. Furthermore, the proposed method is 20 times faster in training and inference than the best method that estimates the disparity from reconstructed light fields.
翻訳日:2022-09-26 17:06:45 公開日:2022-09-22
# Swin2SR:圧縮画像超解像再生用SwingV2変換器

Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and Restoration ( http://arxiv.org/abs/2209.11345v1 )

ライセンス: Link先を確認
Marcos V. Conde, Ui-Jin Choi, Maxime Burchi, Radu Timofte(参考訳) 圧縮は、ストリーミングサービス、バーチャルリアリティ、ビデオゲームなどの帯域限定システムを通じて、画像やビデオの効率的な伝送と保存において重要な役割を果たす。 しかし、圧縮は必然的にアーティファクトにつながり、元の情報が失われ、視覚品質が著しく低下する可能性がある。 これらの理由から,圧縮画像の品質向上が研究テーマとなっている。 ほとんどの最先端の画像復元手法は畳み込みニューラルネットワークに基づいているが、SwinIRのような他のトランスフォーマーベースの手法では、これらのタスクで素晴らしいパフォーマンスを示している。 本稿では,画像超解像におけるSwinIRの改良,特に圧縮入力シナリオについて,新しいSwin Transformer V2について検討する。 この手法を用いることで、トレーニング不安定性、事前トレーニングと微調整の解決ギャップ、データへの飢餓といった、トランスフォーマービジョンモデルのトレーニングに対処できる。 JPEG圧縮アーティファクトの除去,画像超解像(古典的および軽量),圧縮画像超解像の3つの代表的な課題について実験を行った。 実験の結果,Swin2SRはSwinIRのトレーニングコンバージェンスと性能を向上し,AIM 2022 Challenge on Super-Resolution of Compressed Image and Videoの上位5のソリューションであることがわかった。

Compression plays an important role on the efficient transmission and storage of images and videos through band-limited systems such as streaming services, virtual reality or videogames. However, compression unavoidably leads to artifacts and the loss of the original information, which may severely degrade the visual quality. For these reasons, quality enhancement of compressed images has become a popular research topic. While most state-of-the-art image restoration methods are based on convolutional neural networks, other transformers-based methods such as SwinIR, show impressive performance on these tasks. In this paper, we explore the novel Swin Transformer V2, to improve SwinIR for image super-resolution, and in particular, the compressed input scenario. Using this method we can tackle the major issues in training transformer vision models, such as training instability, resolution gaps between pre-training and fine-tuning, and hunger on data. We conduct experiments on three representative tasks: JPEG compression artifacts removal, image super-resolution (classical and lightweight), and compressed image super-resolution. Experimental results demonstrate that our method, Swin2SR, can improve the training convergence and performance of SwinIR, and is a top-5 solution at the "AIM 2022 Challenge on Super-Resolution of Compressed Image and Video".
翻訳日:2022-09-26 17:06:29 公開日:2022-09-22
# メタグラディエンスにおけるバイアス分散トレードオフの検討

An Investigation of the Bias-Variance Tradeoff in Meta-Gradients ( http://arxiv.org/abs/2209.11303v1 )

ライセンス: Link先を確認
Risto Vuorio, Jacob Beck, Shimon Whiteson, Jakob Foerster, Gregory Farquhar(参考訳) meta-gradientsは強化学習(rl)アルゴリズムのメタパラメータを最適化するための一般的なアプローチを提供する。 メタ勾配の推定はこれらのメタアルゴリズムの性能の中心であり,MAML型短水平メタRL問題の設定において研究されている。 この文脈において、先行研究は、RL目標のヘシアンの推定を調査するとともに、サンプリング補正を行うことにより、事前適応行動へのクレジット割り当ての問題に取り組む。 しかし,例えばdiceとその変種によって実装されたヘッセン推定は,常にバイアスを増加させ,メタ次数推定にもばらつきを加えることができることを示した。 一方、メタ勾配推定は、完全内部最適化軌道によるバックプロパゲーションが実現不可能である重要なロングホリゾン設定では、あまり研究されていない。 本稿では, 乱れた逆伝播とサンプリング補正から生じるバイアスとばらつきのトレードオフについて検討するとともに, 最近普及している長軸メタラーニングの代替戦略である進化戦略との比較を行った。 この偏差空間の点を暗黙的に選択する以前の研究は、偏差と分散の源を歪め、既存の推定器を互いに関連付ける経験的研究を提示する。

Meta-gradients provide a general approach for optimizing the meta-parameters of reinforcement learning (RL) algorithms. Estimation of meta-gradients is central to the performance of these meta-algorithms, and has been studied in the setting of MAML-style short-horizon meta-RL problems. In this context, prior work has investigated the estimation of the Hessian of the RL objective, as well as tackling the problem of credit assignment to pre-adaptation behavior by making a sampling correction. However, we show that Hessian estimation, implemented for example by DiCE and its variants, always adds bias and can also add variance to meta-gradient estimation. Meanwhile, meta-gradient estimation has been studied less in the important long-horizon setting, where backpropagation through the full inner optimization trajectories is not feasible. We study the bias and variance tradeoff arising from truncated backpropagation and sampling correction, and additionally compare to evolution strategies, which is a recently popular alternative strategy to long-horizon meta-learning. While prior work implicitly chooses points in this bias-variance space, we disentangle the sources of bias and variance and present an empirical study that relates existing estimators to each other.
翻訳日:2022-09-26 16:59:18 公開日:2022-09-22
# StyleTime: 合成時系列生成のためのスタイル転送

StyleTime: Style Transfer for Synthetic Time Series Generation ( http://arxiv.org/abs/2209.11306v1 )

ライセンス: Link先を確認
Yousef El-Laham, Svitlana Vyetrenko(参考訳) ニューラルスタイル転送は、ある画像の芸術的な「スタイル」を別の画像の「コンテンツ」に組み込むことができる強力なコンピュータビジョン技術である。 このアプローチの背後にある理論は、画像のスタイルがその特徴のグラム行列によって表されるという仮定に依存しており、通常は事前訓練された畳み込みニューラルネットワーク(例えばVGG-19)から抽出される。 2次元画像のスタイルの概念は1次元時系列のスタイルの概念と似ていないので、この考え方は直接時系列のスタイル化に拡張するものではない。 そこで本研究では,合成データ生成と拡張を目的とした時系列スタイル転送の新しい定式化を提案する。 本稿では,時系列リアリズム特性に直接関係する時系列のスタイル化機能の概念を導入し,特徴抽出手法を明示的特徴抽出手法を用いて,ある時系列の基盤となる内容(トレンド)を他の時系列のスタイル(分配特性)と組み合わせた新しいスタイル化アルゴリズムであるStyleTimeを提案する。 さらに,評価指標について検討し,既存の最先端の時系列生成と拡張スキームとの比較を行った。 提案手法の有効性を検証するため,データ拡張の手段としてスタイリング合成データを用い,複数の予測タスクにおける繰り返しニューラルネットワークモデルの性能向上を図る。

Neural style transfer is a powerful computer vision technique that can incorporate the artistic "style" of one image to the "content" of another. The underlying theory behind the approach relies on the assumption that the style of an image is represented by the Gram matrix of its features, which is typically extracted from pre-trained convolutional neural networks (e.g., VGG-19). This idea does not straightforwardly extend to time series stylization since notions of style for two-dimensional images are not analogous to notions of style for one-dimensional time series. In this work, a novel formulation of time series style transfer is proposed for the purpose of synthetic data generation and enhancement. We introduce the concept of stylized features for time series, which is directly related to the time series realism properties, and propose a novel stylization algorithm, called StyleTime, that uses explicit feature extraction techniques to combine the underlying content (trend) of one time series with the style (distributional properties) of another. Further, we discuss evaluation metrics, and compare our work to existing state-of-the-art time series generation and augmentation schemes. To validate the effectiveness of our methods, we use stylized synthetic data as a means for data augmentation to improve the performance of recurrent neural network models on several forecasting tasks.
翻訳日:2022-09-26 16:58:56 公開日:2022-09-22
# 空中画像における爆弾クレーター検出のための深部ドメイン適応

Deep Domain Adaptation for Detecting Bomb Craters in Aerial Images ( http://arxiv.org/abs/2209.11299v1 )

ライセンス: Link先を確認
Marco Geiger, Dominik Martin, Niklas K\"uhl(参考訳) 空襲の余波は、壊滅的な出来事の後数十年にわたって見ることができる。 UXO(Unexploded Ordnance)は、人間の生命と環境にとって重大な危険である。 戦時画像の評価を通じて、専門家はダッドの発生を推測することができる。 現在の手動解析プロセスは高価で時間を要するため、深層学習による爆弾クレーターの自動検出はUXO処理を改善するための有望な方法である。 しかし、これらの方法は大量の手動のトレーニングデータを必要とする。 この研究は、月面画像による領域適応を利用して、限られた訓練データの制約下での深層学習による自動爆弾クレーター検出の問題に対処する。 本論文は, 限られた訓練データを用いて, 爆弾クレーターの自動検出のための解法を提供し, (2) ドメイン適応のための合成画像の利用の有用性と課題を実証することにより, アカデミアと実践の両方に寄与する。

The aftermath of air raids can still be seen for decades after the devastating events. Unexploded ordnance (UXO) is an immense danger to human life and the environment. Through the assessment of wartime images, experts can infer the occurrence of a dud. The current manual analysis process is expensive and time-consuming, thus automated detection of bomb craters by using deep learning is a promising way to improve the UXO disposal process. However, these methods require a large amount of manually labeled training data. This work leverages domain adaptation with moon surface images to address the problem of automated bomb crater detection with deep learning under the constraint of limited training data. This paper contributes to both academia and practice (1) by providing a solution approach for automated bomb crater detection with limited training data and (2) by demonstrating the usability and associated challenges of using synthetic images for domain adaptation.
翻訳日:2022-09-26 16:42:58 公開日:2022-09-22
# futh-net: 空中ビデオ分類における時間的関係と全体的特徴の融合

FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial Video Classification ( http://arxiv.org/abs/2209.11316v1 )

ライセンス: Link先を確認
Pu Jin, Lichao Mou, Yuansheng Hua, Gui-Song Xia, Xiao Xiang Zhu(参考訳) 無人航空機(uavs)は、低コストと高速移動性のため、データ取得に広く利用されている。 空撮ビデオの増加に伴い、これらのビデオを自動解析する需要は急増している。 これを達成するために、現在の研究は主に空間次元と時間次元の両方に沿って畳み込みを伴う全体像の抽出に焦点を当てている。 しかし、これらの手法は小さな時間受容場によって制限され、複雑なダイナミクスを記述するのに重要な長期的な時間依存を十分に捉えることができない。 本稿では,futh-netと呼ばれる新しい深層ニューラルネットワークを提案する。 さらに、より識別的な映像表現を実現するために、新しい融合モジュールにおける多スケールな時間関係により、総括的特徴を洗練する。 より具体的には、FuTH-Netは、(1)フレームの外観と短期の時間的変動の両方の一般的な特徴を学習するための全体論的表現経路、(2)任意のフレーム間のマルチスケールの時間的関係を捕捉し、長期の時間的依存関係を提供する時間的関係経路である。 その後、2つの経路から得られた2つの特徴を時空間的に統合する新しい融合モジュールが提案された。 本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。 これは、異なる認識タスク(イベント分類と人間の行動認識)における有効性と優れた一般化能力を示す。 さらなる研究を容易にするために、コードはhttps://gitlab.lrz.de/ai4eo/reasoning/futh-netでリリースします。

Unmanned aerial vehicles (UAVs) are now widely applied to data acquisition due to its low cost and fast mobility. With the increasing volume of aerial videos, the demand for automatically parsing these videos is surging. To achieve this, current researches mainly focus on extracting a holistic feature with convolutions along both spatial and temporal dimensions. However, these methods are limited by small temporal receptive fields and cannot adequately capture long-term temporal dependencies which are important for describing complicated dynamics. In this paper, we propose a novel deep neural network, termed FuTH-Net, to model not only holistic features, but also temporal relations for aerial video classification. Furthermore, the holistic features are refined by the multi-scale temporal relations in a novel fusion module for yielding more discriminative video representations. More specially, FuTH-Net employs a two-pathway architecture: (1) a holistic representation pathway to learn a general feature of both frame appearances and shortterm temporal variations and (2) a temporal relation pathway to capture multi-scale temporal relations across arbitrary frames, providing long-term temporal dependencies. Afterwards, a novel fusion module is proposed to spatiotemporal integrate the two features learned from the two pathways. Our model is evaluated on two aerial video classification datasets, ERA and Drone-Action, and achieves the state-of-the-art results. This demonstrates its effectiveness and good generalization capacity across different recognition tasks (event classification and human action recognition). To facilitate further research, we release the code at https://gitlab.lrz.de/ai4eo/reasoning/futh-net.
翻訳日:2022-09-26 16:42:42 公開日:2022-09-22
# 低解像度赤外線カメラを用いたプライバシー保護者検出

Privacy-Preserving Person Detection Using Low-Resolution Infrared Cameras ( http://arxiv.org/abs/2209.11335v1 )

ライセンス: Link先を確認
Thomas Dubail, Fidel Alejandro Guerrero Pe\~na, Heitor Rapela Medeiros, Masih Aminbeidokhti, Eric Granger, Marco Pedersoli(参考訳) インテリジェントな建物の管理においては,照明,換気,暖房の効率向上,コスト削減,快適性向上のために,部屋内の人数や場所を知ることが重要である。 これは一般的に、部屋の天井に設置された小型の組み込みデバイスと、各人の身元を隠蔽する低解像度赤外線カメラを使用することで達成される。 しかし、正確な検出のためには、最先端のディープラーニングモデルは、大きな注釈付き画像データセットを使用して教師付きトレーニングを必要とする。 本稿では,低解像度赤外線画像に基づく人物検出に適したコスト効率の手法を検討する。 その結果,このような画像では,高い検出精度を保ちながら,監視や計算の量を削減できることがわかった。 画像中の各人のバウンディングボックスアノテーションを必要とする単発検出器から、人を含むことなく、アノテーションのコストや計算コストの低いモデルにおいてかなりの節約が可能となる、ラベルのないイメージのみに依存する自動エンコーダへ移行する。 低解像度赤外線画像を用いた2つのトップビューデータセットに対して,これらの実験結果を検証した。

In intelligent building management, knowing the number of people and their location in a room are important for better control of its illumination, ventilation, and heating with reduced costs and improved comfort. This is typically achieved by detecting people using compact embedded devices that are installed on the room's ceiling, and that integrate low-resolution infrared camera, which conceals each person's identity. However, for accurate detection, state-of-the-art deep learning models still require supervised training using a large annotated dataset of images. In this paper, we investigate cost-effective methods that are suitable for person detection based on low-resolution infrared images. Results indicate that for such images, we can reduce the amount of supervision and computation, while still achieving a high level of detection accuracy. Going from single-shot detectors that require bounding box annotations of each person in an image, to auto-encoders that only rely on unlabelled images that do not contain people, allows for considerable savings in terms of annotation costs, and for models with lower computational costs. We validate these experimental findings on two challenging top-view datasets with low-resolution infrared images.
翻訳日:2022-09-26 16:42:15 公開日:2022-09-22
# UNav: 盲人・低視力者のためのインフラストラクチャ非依存型視覚ベースナビゲーションシステム

UNav: An Infrastructure-Independent Vision-Based Navigation System for People with Blindness and Low vision ( http://arxiv.org/abs/2209.11336v1 )

ライセンス: Link先を確認
Anbang Yang, Mahya Beheshti, Todd E Hudson, Rajesh Vedanthan, Wachara Riewpaiboon, Pattanasak Mongkolwat, Chen Feng and John-Ross Rizzo(参考訳) 視覚ベースのローカライズアプローチは、ロボティクスからアシスト技術に至るまで、無数のユースケースで新たに出現するナビゲーションパイプラインの基盤となっている。 センサーベースのソリューションと比較して、ビジョンベースのローカライズには事前にインストールされたセンサーインフラストラクチャを必要としない。 本稿では,視覚障害者のためのナビゲーション支援という,視覚に基づく特定のユースケースのための新しいローカライゼーションパイプラインを提案する。 モバイルアプリケーション上でエンドユーザが取得したクエリ画像に対して、パイプラインは視覚的位置認識(VPR)アルゴリズムを利用して、ターゲット空間の参照画像データベースに類似した画像を見つける。 これらの類似画像の位置情報は、重み付き平均法を用いてエンドユーザーの位置を推定する下流タスクと、エンドユーザーの方向を推定するパースペクティブnポイント(pnp)アルゴリズムで利用される。 さらに、旅先と目的地を含むナビゲーション可能な地図に基づいて最短経路を計算するために、Dijkstraのアルゴリズムを実装した。 ローカライゼーションとナビゲーションに使用されるトポロジカルマップは、画像列から構築された3D再構成スパースマップを、対応する2Dフロアプランに投影するカスタマイズされたグラフィカルユーザインタフェースを用いて構築される。 マップ構築に使用されるシーケンスイメージは、事前マッピングステップで収集したり、パブリックデータベースや市民科学を通じて収集することができる。 エンド・ツー・エンドのシステムは、カスタムモバイルアプリケーションをホストするカメラを備えたインターネットアクセス可能なデバイスにインストールすることができる。 評価目的では,複雑な病院環境においてマッピングと局所化が検討された。 評価結果は,焦点距離などのカメラ固有のパラメータを知らずに,平均誤差が1m未満で局所化できることを示す。

Vision-based localization approaches now underpin newly emerging navigation pipelines for myriad use cases from robotics to assistive technologies. Compared to sensor-based solutions, vision-based localization does not require pre-installed sensor infrastructure, which is costly, time-consuming, and/or often infeasible at scale. Herein, we propose a novel vision-based localization pipeline for a specific use case: navigation support for end-users with blindness and low vision. Given a query image taken by an end-user on a mobile application, the pipeline leverages a visual place recognition (VPR) algorithm to find similar images in a reference image database of the target space. The geolocations of these similar images are utilized in downstream tasks that employ a weighted-average method to estimate the end-user's location and a perspective-n-point (PnP) algorithm to estimate the end-user's direction. Additionally, this system implements Dijkstra's algorithm to calculate a shortest path based on a navigable map that includes trip origin and destination. The topometric map used for localization and navigation is built using a customized graphical user interface that projects a 3D reconstructed sparse map, built from a sequence of images, to the corresponding a priori 2D floor plan. Sequential images used for map construction can be collected in a pre-mapping step or scavenged through public databases/citizen science. The end-to-end system can be installed on any internet-accessible device with a camera that hosts a custom mobile application. For evaluation purposes, mapping and localization were tested in a complex hospital environment. The evaluation results demonstrate that our system can achieve localization with an average error of less than 1 meter without knowledge of the camera's intrinsic parameters, such as focal length.
翻訳日:2022-09-26 16:41:56 公開日:2022-09-22
# 絵画のスキャンパス予測のためのドメイン適応型ディープラーニングソリューション

A domain adaptive deep learning solution for scanpath prediction of paintings ( http://arxiv.org/abs/2209.11338v1 )

ライセンス: Link先を確認
Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Alessandro Bruno(参考訳) 文化遺産の理解と保存は社会にとって重要な課題であり、そのアイデンティティの基本的側面を表している。 絵画は文化遺産の重要な部分を占め、継続的な研究の対象となっている。 しかし、絵画を知覚する方法は、いわゆるhvs(human vision system)の行動と厳密に関連している。 本稿では,一定数の絵画の視覚体験における視聴者の眼球運動分析に焦点をあてる。 より詳しくは、人間の視覚的注意を予測するための新しいアプローチを導入し、シーンの基本的な理解を含む、人間の認知機能に影響を与え、それを絵に拡張する。 提案する新しいアーキテクチャは、画像を取り込んで、視聴者の注意を引く可能性の高いポイントのシーケンスであるscanpathを返す。 FCNN(Fully Convolutional Neural Network, 完全畳み込みニューラルネットワーク)を用いて, 異なるチャネル選択とソフトArgmaxモジュールを利用する。 また,学習可能なガウス分布をネットワークボトルネックに組み込んで,自然シーン画像における視覚的注意プロセスのバイアスをシミュレートする。 さらに,異なる領域間(自然画像,絵画など)のシフトの影響を低減するため,勾配逆分類器を用いて,他の領域から教師なしの一般特徴を学習するようモデルに促す。 その結果,既存の最先端モデルよりも精度と効率が優れていた。

Cultural heritage understanding and preservation is an important issue for society as it represents a fundamental aspect of its identity. Paintings represent a significant part of cultural heritage, and are the subject of study continuously. However, the way viewers perceive paintings is strictly related to the so-called HVS (Human Vision System) behaviour. This paper focuses on the eye-movement analysis of viewers during the visual experience of a certain number of paintings. In further details, we introduce a new approach to predicting human visual attention, which impacts several cognitive functions for humans, including the fundamental understanding of a scene, and then extend it to painting images. The proposed new architecture ingests images and returns scanpaths, a sequence of points featuring a high likelihood of catching viewers' attention. We use an FCNN (Fully Convolutional Neural Network), in which we exploit a differentiable channel-wise selection and Soft-Argmax modules. We also incorporate learnable Gaussian distributions onto the network bottleneck to simulate visual attention process bias in natural scene images. Furthermore, to reduce the effect of shifts between different domains (i.e. natural images, painting), we urge the model to learn unsupervised general features from other domains using a gradient reversal classifier. The results obtained by our model outperform existing state-of-the-art ones in terms of accuracy and efficiency.
翻訳日:2022-09-26 16:41:27 公開日:2022-09-22
# 深部開集合検出のための表現のOracle解析

Oracle Analysis of Representations for Deep Open Set Detection ( http://arxiv.org/abs/2209.11350v1 )

ライセンス: Link先を確認
Risheek Garrepalli, Alan Fern, Thomas G. Dietterich(参考訳) 新たなクラスを実行時に検出する問題は、Open Set Detection &として知られており、医療アプリケーションや自動運転など、さまざまな現実世界のアプリケーションにおいて重要である。 深層学習の文脈における開集合検出には2つの課題がある。 (i)入力された画像を、外れ値を検出するのに十分な情報を含む潜在表現にマッピングし、 (ii) この情報を潜在表現から抽出し, 異常を識別する異常スコアリング関数を学習しなければならない。 深部異常検出法の研究はゆっくりと進んでいる。 一つの理由は、ほとんどの論文が新しい表現学習技術と新しい異常スコアリングアプローチを同時に導入しているからかもしれない。 本研究の目的は,表現学習と異常スコアリングの有効性を別々に測定する方法を提供することにより,この方法論を改善することである。 この研究は2つの方法論的な貢献をする。 1つ目は、学習した潜在表現で利用可能な情報を定量化するOracleの異常検出の概念を導入することである。 もうひとつはOracle表現学習の導入で,正確な異常検出に十分な表現が保証されている。 これら2つのテクニックは、研究者が学習した表現の品質と異常スコアリング機構のパフォーマンスを分離し、システムのデバッグと改善を可能にする。 この手法はまた、より優れた異常スコアリング機構により、オープンカテゴリ検出がどの程度改善できるかの上限を提供する。 2つのオラクルの組み合わせは、どんなオープンカテゴリ検出方法でも達成できる性能の上限を与えます。 本書では,これら2つのoracleテクニックを紹介し,いくつかの主要なオープンカテゴリ検出手法に適用して,その有用性を示す。

The problem of detecting a novel class at run time is known as Open Set Detection & is important for various real-world applications like medical application, autonomous driving, etc. Open Set Detection within context of deep learning involves solving two problems: (i) Must map the input images into a latent representation that contains enough information to detect the outliers, and (ii) Must learn an anomaly scoring function that can extract this information from the latent representation to identify the anomalies. Research in deep anomaly detection methods has progressed slowly. One reason may be that most papers simultaneously introduce new representation learning techniques and new anomaly scoring approaches. The goal of this work is to improve this methodology by providing ways of separately measuring the effectiveness of the representation learning and anomaly scoring. This work makes two methodological contributions. The first is to introduce the notion of Oracle anomaly detection for quantifying the information available in a learned latent representation. The second is to introduce Oracle representation learning, which produces a representation that is guaranteed to be sufficient for accurate anomaly detection. These two techniques help researchers to separate the quality of the learned representation from the performance of the anomaly scoring mechanism so that they can debug and improve their systems. The methods also provide an upper limit on how much open category detection can be improved through better anomaly scoring mechanisms. The combination of the two oracles gives an upper limit on the performance that any open category detection method could achieve. This work introduces these two oracle techniques and demonstrates their utility by applying them to several leading open category detection methods.
翻訳日:2022-09-26 16:41:08 公開日:2022-09-22
# エピソード知識グラフによるエージェントインタラクションの評価

Evaluating Agent Interactions Through Episodic Knowledge Graphs ( http://arxiv.org/abs/2209.11746v1 )

ライセンス: Link先を確認
Selene B\'aez Santamar\'ia, Piek Vossen, Thomas Baier(参考訳) オープンドメインにおける会話エージェント(マルチモーダル)を評価するための,eKG(epsodic Knowledge Graphs)に基づく新しい手法を提案する。 このグラフは会話中に生の信号を解釈することで生成され、時間とともに知識の蓄積を捉えることができる。 得られたグラフの構造と意味解析を適用し,その特性を質的尺度に変換する。 これらの尺度を,会話エージェントによく用いられる既存の自動評価指標と手作業による評価指標と比較する。 我々の知識グラフに基づく評価は,インタラクションやエージェントの行動に対する質的な洞察を提供する。

We present a new method based on episodic Knowledge Graphs (eKGs) for evaluating (multimodal) conversational agents in open domains. This graph is generated by interpreting raw signals during conversation and is able to capture the accumulation of knowledge over time. We apply structural and semantic analysis of the resulting graphs and translate the properties into qualitative measures. We compare these measures with existing automatic and manual evaluation metrics commonly used for conversational agents. Our results show that our Knowledge-Graph-based evaluation provides more qualitative insights into interaction and the agent's behavior.
翻訳日:2022-09-26 13:59:02 公開日:2022-09-22
# カバレッジ正規化によるスケーラブルガウスプロセスハイパーパラメータ最適化

Scalable Gaussian Process Hyperparameter Optimization via Coverage Regularization ( http://arxiv.org/abs/2209.11280v1 )

ライセンス: Link先を確認
Killian Wood, Alec M. Dunton, Amanda Muyskens, Benjamin W. Priest(参考訳) ガウス過程(英: Gaussian process、GP)は、ベイズ非パラメトリックモデルであり、その正確さとネイティブ不確実性定量化(UQ)のために様々な用途で人気がある。 GPハイパーパラメータのチューニングは、予測精度と不確実性の妥当性を保証するために重要である。 さらに、大規模データセット上でのGPのトレーニングは、非常に活発な研究領域であり、従来の最大極大ハイパーパラメータトレーニングでは、共分散行列を形成するために二次記憶を必要とする。 拡張性のあるハイパーパラメータチューニング問題に対処するため,予測の不確実性の堅牢性を改善するために,Maternカーネルのスムーズネスと長大パラメータを推定するアルゴリズムを提案する。 超パラメータ推定アルゴリズムmuygpsによる計算フレームワークにおける共形予測アルゴリズムと類似した新しい損失関数を用いて、数値実験で示されるような高い拡張性を維持しつつ、残余の最大化よりもuqを改善した。

Gaussian processes (GPs) are Bayesian non-parametric models popular in a variety of applications due to their accuracy and native uncertainty quantification (UQ). Tuning GP hyperparameters is critical to ensure the validity of prediction accuracy and uncertainty; uniquely estimating multiple hyperparameters in, e.g. the Matern kernel can also be a significant challenge. Moreover, training GPs on large-scale datasets is a highly active area of research: traditional maximum likelihood hyperparameter training requires quadratic memory to form the covariance matrix and has cubic training complexity. To address the scalable hyperparameter tuning problem, we present a novel algorithm which estimates the smoothness and length-scale parameters in the Matern kernel in order to improve robustness of the resulting prediction uncertainties. Using novel loss functions similar to those in conformal prediction algorithms in the computational framework provided by the hyperparameter estimation algorithm MuyGPs, we achieve improved UQ over leave-one-out likelihood maximization while maintaining a high degree of scalability as demonstrated in numerical experiments.
翻訳日:2022-09-26 13:54:43 公開日:2022-09-22
# MRI画像とディープニューラルネットワークを用いたアルツハイマー病の自動検出

Automated detection of Alzheimer disease using MRI images and deep neural networks- A review ( http://arxiv.org/abs/2209.11282v1 )

ライセンス: Link先を確認
Narotam Singh, Patteshwari.D, Neha Soni and Amita Kapoor(参考訳) アルツハイマー病の早期発見は、介入の展開と疾患進行の鈍化に不可欠である。 機械学習とディープラーニングのアルゴリズムは、アルツハイマーの自動検出の構築を目的として、過去10年間に数多く研究されてきた。 データ強化技術と高度なディープラーニングアーキテクチャの進歩がこの分野で新たなフロンティアを開拓し、研究は急速に進められている。 本研究の目的は、アルツハイマー病診断のためのディープラーニングモデルに関する最近の研究の概要を提供することである。 多数のデータソース,ニューラルネットワークアーキテクチャ,一般的な評価尺度の分類に加えて,実装と再現性も分類する。 我々の目標は、関心のある研究者が最新の開発に追随し、以前の調査をベンチマークとして再現することを支援することである。 また,本研究の今後の方向性についても述べる。

Early detection of Alzheimer disease is crucial for deploying interventions and slowing the disease progression. A lot of machine learning and deep learning algorithms have been explored in the past decade with the aim of building an automated detection for Alzheimer. Advancements in data augmentation techniques and advanced deep learning architectures have opened up new frontiers in this field, and research is moving at a rapid speed. Hence, the purpose of this survey is to provide an overview of recent research on deep learning models for Alzheimer disease diagnosis. In addition to categorizing the numerous data sources, neural network architectures, and commonly used assessment measures, we also classify implementation and reproducibility. Our objective is to assist interested researchers in keeping up with the newest developments and in reproducing earlier investigations as benchmarks. In addition, we also indicate future research directions for this topic.
翻訳日:2022-09-26 13:53:20 公開日:2022-09-22
# XF2T:低リソース言語のための言語間ファクトテキスト生成

XF2T: Cross-lingual Fact-to-Text Generation for Low-Resource Languages ( http://arxiv.org/abs/2209.11252v1 )

ライセンス: Link先を確認
Shivprasad Sagare, Tushar Abhishek, Bhavyajeet Singh, Anubhav Sharma, Manish Gupta, Vasudeva Varma(参考訳) 複数のビジネスシナリオでは、構造化された入力データから記述可能な人間可読テキストを自動生成する必要がある。 そのため、サッカーレポート、天気・財務報告、医療報告、人物の伝記など、さまざまな下流業務のために、実話生成システムが開発されている。 残念なことに、f2t(fact-to-text)生成に関する以前の研究は、主に英語に焦点を当ててきた。 つい最近になって、複数の言語にまたがる言語間でのファクト・トゥ・テキスト(XF2T)問題と、8つの言語のためのデータセットであるXALIGNが提案された。 しかしながら、実際のXF2T生成問題に関する厳密な研究は行われていない。 我々はXALIGNデータセットを拡張し、Punjabi、Malayalam、Assamese、Oriyaの4つの言語に注釈付きデータを追加します。 我々は、XALIGNV2と呼ばれる拡張多言語データセット上で、人気のあるTransformerベースのテキスト生成モデルを用いて広範な研究を行う。 さらに, 事前学習, 事実認識埋め込み, 構造認識入力エンコーディングなど, 様々なテキスト生成手法の性能について検討した。 広範な実験により,構造認識型入力エンコーディングを用いたファクトアウェア埋め込みを用いた多言語mt5モデルが,12言語平均で最高の結果をもたらすことが示された。 私たちはコード、データセット、モデルを公開し、この重要な領域でさらなる研究を進めるのに役立つことを期待しています。

Multiple business scenarios require an automated generation of descriptive human-readable text from structured input data. Hence, fact-to-text generation systems have been developed for various downstream tasks like generating soccer reports, weather and financial reports, medical reports, person biographies, etc. Unfortunately, previous work on fact-to-text (F2T) generation has focused primarily on English mainly due to the high availability of relevant datasets. Only recently, the problem of cross-lingual fact-to-text (XF2T) was proposed for generation across multiple languages alongwith a dataset, XALIGN for eight languages. However, there has been no rigorous work on the actual XF2T generation problem. We extend XALIGN dataset with annotated data for four more languages: Punjabi, Malayalam, Assamese and Oriya. We conduct an extensive study using popular Transformer-based text generation models on our extended multi-lingual dataset, which we call XALIGNV2. Further, we investigate the performance of different text generation strategies: multiple variations of pretraining, fact-aware embeddings and structure-aware input encoding. Our extensive experiments show that a multi-lingual mT5 model which uses fact-aware embeddings with structure-aware input encoding leads to best results on average across the twelve languages. We make our code, dataset and model publicly available, and hope that this will help advance further research in this critical area.
翻訳日:2022-09-26 13:51:53 公開日:2022-09-22
# nlpにおける忠実なモデル説明に向けて:調査

Towards Faithful Model Explanation in NLP: A Survey ( http://arxiv.org/abs/2209.11326v1 )

ライセンス: Link先を確認
Qing Lyu, Marianna Apidianaki, Chris Callison-Burch(参考訳) エンドツーエンドのNLPアーキテクチャは理解が難しいことで知られており、近年ではモデル説明可能性への多くの取り組みが生まれている。 モデル説明の基本的な原理は忠実性であり、モデル予測の背後にある推論過程を正確に表現すべきである。 本調査はまず,忠実性の定義と評価,説明可能性の意義について考察した。 次に, 類似性手法, モデル内部構造の解析, バックプロパゲーションに基づく手法, 反ファクト介入, 自己探索モデルという5つのカテゴリに分類して, 忠実な説明の最近の進歩を紹介する。 各カテゴリは、その代表的な研究、利点、欠点で説明される。 最後に, これらの手法の共通性や限界について考察し, 忠実な説明可能性に向けた今後の取り組みの方向性を考察する。 解釈可能性の研究に興味のある研究者にとって、この調査は地域を網羅的に網羅し、さらなる探索の基盤となる。 自身のモデルをもっとよく理解したいユーザのために、この調査は、最も適切な説明方法を選択するための入門マニュアルになります。

End-to-end neural NLP architectures are notoriously difficult to understand, which gives rise to numerous efforts towards model explainability in recent years. An essential principle of model explanation is Faithfulness, i.e., an explanation should accurately represent the reasoning process behind the model's prediction. This survey first discusses the definition and evaluation of Faithfulness, as well as its significance for explainability. We then introduce the recent advances in faithful explanation by grouping approaches into five categories: similarity methods, analysis of model-internal structures, backpropagation-based methods, counterfactual intervention, and self-explanatory models. Each category will be illustrated with its representative studies, advantages, and shortcomings. Finally, we discuss all the above methods in terms of their common virtues and limitations, and reflect on future work directions towards faithful explainability. For researchers interested in studying interpretability, this survey will offer an accessible and comprehensive overview of the area, laying the basis for further exploration. For users hoping to better understand their own models, this survey will be an introductory manual helping with choosing the most suitable explanation method(s).
翻訳日:2022-09-26 13:51:33 公開日:2022-09-22
# 頭頸部癌に対する総腫瘍量自動分割の指導下での無再発生存予測

Recurrence-free Survival Prediction under the Guidance of Automatic Gross Tumor Volume Segmentation for Head and Neck Cancers ( http://arxiv.org/abs/2209.11268v1 )

ライセンス: Link先を確認
Kai Wang, Yunxiang Li, Michael Dohopolski, Tao Peng, Weiguo Lu, You Zhang, Jing Wang(参考訳) 頭頸部癌(hnc)患者の管理において, がん再発予測の精度は, 治療成績とqolを向上させる可能性を有するパーソナライズド・マネジメント・プランの設計において, 医師を支援する上で非常に重要である。 本稿では,hnc患者の術前ポジトロンct(pet/ct)スキャンを併用した自動原発性腫瘍(gtvp)とリンパ節分画法(gtvn)を開発した。 分枝腫瘍容積から放射線学的特徴を抽出し,ct,pet,臨床モデルから予測結果を融合したマルチモダリティ腫瘍再発無生存予測モデルを構築した。 我々は,MICCAI 2022 HEADとneCK Tumorのセグメンテーションと結果予測(HECKTOR)データセットを用いて5倍のクロスバリデーションを行い,評価を行った。 実験コホートのアンサンブル予測結果は, GTVpとGTVnセグメンテーションのDiceスコア0.77, 0.73, RFS予測のCインデックス値0.67をそれぞれ達成した。 コードは公開されている(https://github.com/wangkaiwan/HECKTOR-2022-AIRT)。 私たちのチームの名前はAIRTです。

For Head and Neck Cancers (HNC) patient management, automatic gross tumor volume (GTV) segmentation and accurate pre-treatment cancer recurrence prediction are of great importance to assist physicians in designing personalized management plans, which have the potential to improve the treatment outcome and quality of life for HNC patients. In this paper, we developed an automated primary tumor (GTVp) and lymph nodes (GTVn) segmentation method based on combined pre-treatment positron emission tomography/computed tomography (PET/CT) scans of HNC patients. We extracted radiomics features from the segmented tumor volume and constructed a multi-modality tumor recurrence-free survival (RFS) prediction model, which fused the prediction results from separate CT radiomics, PET radiomics, and clinical models. We performed 5-fold cross-validation to train and evaluate our methods on the MICCAI 2022 HEad and neCK TumOR segmentation and outcome prediction challenge (HECKTOR) dataset. The ensemble prediction results on the testing cohort achieved Dice scores of 0.77 and 0.73 for GTVp and GTVn segmentation, respectively, and a C-index value of 0.67 for RFS prediction. The code is publicly available (https://github.com/wangkaiwan/HECKTOR-2022-AIRT). Our team's name is AIRT.
翻訳日:2022-09-26 13:46:17 公開日:2022-09-22
# 機能的接続を用いた脳障害診断のためのマルチスケールアトラスによる階層型グラフ畳み込みネットワーク

Hierarchical Graph Convolutional Network Built by Multiscale Atlases for Brain Disorder Diagnosis Using Functional Connectivity ( http://arxiv.org/abs/2209.11232v1 )

ライセンス: Link先を確認
Mianxin Liu, Han Zhang, Feng Shi, and Dinggang Shen(参考訳) 機能的磁気共鳴イメージング(fMRI)による機能的接続ネットワーク(FCN)データは、脳疾患の診断にますます利用されている。 しかし、ある空間スケールで単一の脳解析アトラスを用いてFCNを構築するための最先端の研究は、階層的な方法で異なる空間スケールにわたる機能的相互作用を無視した。 本研究では,脳疾患診断のためのマルチスケールFCN解析を行うための新しい枠組みを提案する。 まず,マルチスケールfcnsの計算に,高度に定義されたマルチスケールアトラスを用いた。 そこで我々は,マルチスケールアトラスの領域間の生物学的に有意な脳階層的関係を利用して,複数の空間的スケール,すなわち「アトラス誘導プール」を行う。 そこで本研究では,マルチスケールfcnsから診断情報を総合的に抽出するために,グラフ畳み込みとatlas誘導プールの積層層上に構築したマルチスケールアトラス型階層型グラフ畳み込みネットワーク(mahgcn)を提案する。 1792人の脳画像データを用いた実験では、アルツハイマー病(ad)、adの病期(軽度認知障害(mci))、自閉症スペクトラム障害(asd)の診断において、それぞれ88.9%、78.6%、72.7%の精度で提案手法の有効性が示された。 これらの結果から,提案手法の他の競合手法に対する大きな利点が示された。 本研究は、深層学習によって強化された安静状態fmriを用いた脳障害診断の実現可能性を示すだけでなく、多脳階層における機能的相互作用は、脳障害の神経病理をよりよく理解するために、深層学習ネットワークアーキテクチャに探索および統合する価値があることを強調する。

Functional connectivity network (FCN) data from functional magnetic resonance imaging (fMRI) is increasingly used for the diagnoses of brain disorders. However, state-of-the-art studies used to build the FCN using a single brain parcellation atlas at a certain spatial scale, which largely neglected functional interactions across different spatial scales in hierarchical manners. In this study, we propose a novel framework to perform multiscale FCN analysis for brain disorder diagnosis. We first use a set of well-defined multiscale atlases to compute multiscale FCNs. Then, we utilize biologically meaningful brain hierarchical relationships among the regions in multiscale atlases to perform nodal pooling across multiple spatial scales, namely "Atlas-guided Pooling". Accordingly, we propose a Multiscale-Atlases-based Hierarchical Graph Convolutional Network (MAHGCN), built on the stacked layers of graph convolution and the atlas-guided pooling, for a comprehensive extraction of diagnostic information from multiscale FCNs. Experiments on neuroimaging data from 1792 subjects demonstrate the effectiveness of our proposed method in the diagnoses of Alzheimer's disease (AD), the prodromal stage of AD (i.e., mild cognitive impairment [MCI]), as well as autism spectrum disorder (ASD), with accuracy of 88.9%, 78.6%, and 72.7% respectively. All results show significant advantages of our proposed method over other competing methods. This study not only demonstrates the feasibility of brain disorder diagnosis using resting-state fMRI empowered by deep learning, but also highlights that the functional interactions in the multiscale brain hierarchy are worth being explored and integrated into deep learning network architectures for better understanding the neuropathology of brain disorders.
翻訳日:2022-09-26 13:44:20 公開日:2022-09-22
# メタヒューリスティックスを用いたFPGAベースのCNN加速器の最適化

Optimization of FPGA-based CNN Accelerators Using Metaheuristics ( http://arxiv.org/abs/2209.11272v1 )

ライセンス: Link先を確認
Sadiq M. Sait, Aiman El-Maleh, Mohammad Altakrouri, and Ahmad Shawahna(参考訳) 近年、畳み込みニューラルネットワーク(CNN)は、これまで不可能だった多くの分野や精度で、問題を解決する能力を示している。 しかし、これは広範な計算要求が伴うため、一般的なCPUは所望のリアルタイム性能を提供できなかった。 同時にFPGAは、CNN推論の加速への関心が高まっている。 これは、異なるレベルの並列性を持つカスタムデザインを作成できる能力のためである。 さらにFPGAは、GPUよりもワット当たりの性能が優れている。 FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することだ。 しかし、CNNアーキテクチャの複雑さの増大により、ターゲットFPGAデバイスで利用可能なリソースを最適化し、最適なパフォーマンスを提供するのがより困難になる。 本稿では、利用可能なFPGAリソースを分割してMulti-CLPアクセラレータを設計するためにメタヒューリスティックスを利用するCNNアクセラレータと、それに伴う自動設計手法を提案する。 具体的には、シミュレーションアニーリング (SA) とタブサーチ (TS) アルゴリズムを用いて、所定のターゲットFPGAデバイス上で最適な性能を達成するために、必要なCLPの数とそれぞれの構成を求める。 ここでは、デジタル信号プロセッサ、ブロックRAM、オフチップメモリ帯域幅など、重要な仕様とハードウェアリソースに焦点を当てている。 4つの有名なベンチマークcnnを用いた実験結果と比較を行い,提案手法が有望であり有望であることを示す。 SA-/TSベースのMulti-CLPは、Xilinx VC707とVC709のFPGAボード上のAlexNet、SqueezeNet 1.1、VGGNet、GoogLeNetアーキテクチャの高速化において、最先端のSingle-/Multi-CLPアプローチよりも1.31倍のスループットを実現している。

In recent years, convolutional neural networks (CNNs) have demonstrated their ability to solve problems in many fields and with accuracy that was not possible before. However, this comes with extensive computational requirements, which made general CPUs unable to deliver the desired real-time performance. At the same time, FPGAs have seen a surge in interest for accelerating CNN inference. This is due to their ability to create custom designs with different levels of parallelism. Furthermore, FPGAs provide better performance per watt compared to GPUs. The current trend in FPGA-based CNN accelerators is to implement multiple convolutional layer processors (CLPs), each of which is tailored for a subset of layers. However, the growing complexity of CNN architectures makes optimizing the resources available on the target FPGA device to deliver optimal performance more challenging. In this paper, we present a CNN accelerator and an accompanying automated design methodology that employs metaheuristics for partitioning available FPGA resources to design a Multi-CLP accelerator. Specifically, the proposed design tool adopts simulated annealing (SA) and tabu search (TS) algorithms to find the number of CLPs required and their respective configurations to achieve optimal performance on a given target FPGA device. Here, the focus is on the key specifications and hardware resources, including digital signal processors, block RAMs, and off-chip memory bandwidth. Experimental results and comparisons using four well-known benchmark CNNs are presented demonstrating that the proposed acceleration framework is both encouraging and promising. The SA-/TS-based Multi-CLP achieves 1.31x - 2.37x higher throughput than the state-of-the-art Single-/Multi-CLP approaches in accelerating AlexNet, SqueezeNet 1.1, VGGNet, and GoogLeNet architectures on the Xilinx VC707 and VC709 FPGA boards.
翻訳日:2022-09-26 13:36:29 公開日:2022-09-22
# カプセルネットワークを用いた教師なし視覚表現のコントラスト学習

Capsule Network based Contrastive Learning of Unsupervised Visual Representations ( http://arxiv.org/abs/2209.11276v1 )

ライセンス: Link先を確認
Harsh Panwar, Ioannis Patras(参考訳) カプセルネットワークは過去10年で著しく進歩し、同値な性質のため、様々なタスクで伝統的なcnnを上回っている。 物体の大きさと方向の両方の情報を提供するベクターi/oを使用することで、マルチクラス画像分類のような視覚的表現タスクのための教師なし学習環境においてカプセルネットワークを使用する可能性は非常に大きい。 本稿では,新しいアーキテクチャ,トレーニング,テストアルゴリズムとの対比損失を用いた,シームズスタイルのカプセルネットワークであるContrastive Capsule(CoCa)モデルを提案する。 教師なし画像分類cifar-10データセットのモデルを評価し,70.50%のtop-1テスト精度と98.10%のtop-5テスト精度を達成する。 効率的なアーキテクチャのため、我々のモデルは、教師なし学習と教師なし学習の両方において、現在のSOTAの31倍のパラメータと71倍のFLOPを持つ。

Capsule Networks have shown tremendous advancement in the past decade, outperforming the traditional CNNs in various task due to it's equivariant properties. With the use of vector I/O which provides information of both magnitude and direction of an object or it's part, there lies an enormous possibility of using Capsule Networks in unsupervised learning environment for visual representation tasks such as multi class image classification. In this paper, we propose Contrastive Capsule (CoCa) Model which is a Siamese style Capsule Network using Contrastive loss with our novel architecture, training and testing algorithm. We evaluate the model on unsupervised image classification CIFAR-10 dataset and achieve a top-1 test accuracy of 70.50% and top-5 test accuracy of 98.10%. Due to our efficient architecture our model has 31 times less parameters and 71 times less FLOPs than the current SOTA in both supervised and unsupervised learning.
翻訳日:2022-09-26 13:35:21 公開日:2022-09-22
# チャネルチューニングによるエッジ指向インプシットニューラル表現

Edge-oriented Implicit Neural Representation with Channel Tuning ( http://arxiv.org/abs/2209.11697v1 )

ライセンス: Link先を確認
Wonjoon Chang, Dahee Kwon, Bumjin Park(参考訳) 離散格子形式ではなく連続関数として画像を表現した入射神経表現は、画像処理に広く用いられている。 優れた結果にもかかわらず、画像のエッジのような特定の信号の明確な形状の復元には依然として制限が残っている。 本稿では,暗黙の表現を訓練するための画像の勾配を計算するグラディエント・マグニチュード調整アルゴリズムを提案する。 さらに,勾配情報(エッジ指向モジュール)を適合させることで,鮮明なエッジで画像を再構成できるエッジ指向表現ネットワーク(eoren)を提案する。 さらに、所定の信号の分布を調整するためにチャネルチューニングモジュールを追加し、適応勾配の慢性的な問題を解決する。 2つのモジュールのバックプロパゲーションパスを分離することで、EoRENは勾配の役割を妨げることなく、画像の真の色を学ぶことができる。 我々は,複雑な信号の再構成を行い,定量的な結果によってモデル全体の再構築能力を示すことを定性的に示す。

Implicit neural representation, which expresses an image as a continuous function rather than a discrete grid form, is widely used for image processing. Despite its outperforming results, there are still remaining limitations on restoring clear shapes of a given signal such as the edges of an image. In this paper, we propose Gradient Magnitude Adjustment algorithm which calculates the gradient of an image for training the implicit representation. In addition, we propose Edge-oriented Representation Network (EoREN) that can reconstruct the image with clear edges by fitting gradient information (Edge-oriented module). Furthermore, we add Channel-tuning module to adjust the distribution of given signals so that it solves a chronic problem of fitting gradients. By separating backpropagation paths of the two modules, EoREN can learn true color of the image without hindering the role for gradients. We qualitatively show that our model can reconstruct complex signals and demonstrate general reconstruction ability of our model with quantitative results.
翻訳日:2022-09-26 13:34:29 公開日:2022-09-22
# ProgPrompt: 大規模言語モデルを用いたロボットタスク計画の生成

ProgPrompt: Generating Situated Robot Task Plans using Large Language Models ( http://arxiv.org/abs/2209.11302v1 )

ライセンス: Link先を確認
Ishika Singh, Valts Blukis, Arsalan Mousavian, Ankit Goyal, Danfei Xu, Jonathan Tremblay, Dieter Fox, Jesse Thomason, Animesh Garg(参考訳) タスク計画には、ロボットが行動する必要がある世界に関する無数のドメイン知識を定義する必要がある。 その取り組みを改善するために、大きな言語モデル(LLM)を使用してタスク計画中の潜在的な次のアクションをスコアし、追加のドメイン情報を持たない自然言語で命令されたアクションシーケンスを直接生成することができる。 しかし、そのような方法は、スコアリングのために可能なすべての次のステップを列挙するか、または現在の文脈で特定のロボットにできないアクションを含む自由形式のテキストを生成する必要がある。 本稿では,プログラム型LCMプロンプト構造を用いて,位置環境,ロボット機能,タスク間で計画生成機能を実現する。 私たちの重要な洞察は、環境内で利用可能なアクションとオブジェクトのプログラムライクな仕様をllmに促し、実行可能なプログラムを例示することにあります。 我々は,アブレーション実験を通じて,迅速な構造と生成制約に関する具体的な推奨を行い,仮想家庭作業における技術成功率を実証し,テーブルトップタスクのための物理ロボットアームに本手法を展開する。 Progprompt.github.io

Task planning can require defining myriad domain knowledge about the world in which a robot needs to act. To ameliorate that effort, large language models (LLMs) can be used to score potential next actions during task planning, and even generate action sequences directly, given an instruction in natural language with no additional domain information. However, such methods either require enumerating all possible next steps for scoring, or generate free-form text that may contain actions not possible on a given robot in its current context. We present a programmatic LLM prompt structure that enables plan generation functional across situated environments, robot capabilities, and tasks. Our key insight is to prompt the LLM with program-like specifications of the available actions and objects in an environment, as well as with example programs that can be executed. We make concrete recommendations about prompt structure and generation constraints through ablation experiments, demonstrate state of the art success rates in VirtualHome household tasks, and deploy our method on a physical robot arm for tabletop tasks. Website at progprompt.github.io
翻訳日:2022-09-26 13:27:54 公開日:2022-09-22
# FusionVAE:RGB画像融合のための階層的変分オートエンコーダ

FusionVAE: A Deep Hierarchical Variational Autoencoder for RGB Image Fusion ( http://arxiv.org/abs/2209.11277v1 )

ライセンス: Link先を確認
Fabian Duffhauss, Ngo Anh Vien, Hanna Ziesche, Gerhard Neumann(参考訳) センサフュージョンは多くのコンピュータビジョンタスクの性能を大幅に向上させることができる。 しかし、従来の融合アプローチはデータ駆動ではなく、事前の知識を活用できないか、特定のデータセットの規則性を見つけることができないか、あるいは単一のアプリケーションに限定される。 我々は、多くの融合タスクの基盤となるFusionVAEと呼ばれる新しい階層的変動オートエンコーダを提示することで、この欠点を克服する。 提案手法では,複数ノイズ,閉鎖,あるいは部分的な入力画像のみを条件とした多様な画像サンプルを生成することができる。 我々は,fusionvaeの条件付き対数類似度に対する変分下界の導出と最適化を行う。 モデルの融合能力を徹底的に評価するために,一般的なコンピュータビジョンデータセットに基づく画像融合のための3つの新しいデータセットを構築した。 本研究では,FusionVAEが融合タスクに関連する集約情報の表現を学習していることを示す。 その結果,従来の手法よりも優れた手法が得られた。 さらに,異なる設計選択の利点と欠点について述べる。

Sensor fusion can significantly improve the performance of many computer vision tasks. However, traditional fusion approaches are either not data-driven and cannot exploit prior knowledge nor find regularities in a given dataset or they are restricted to a single application. We overcome this shortcoming by presenting a novel deep hierarchical variational autoencoder called FusionVAE that can serve as a basis for many fusion tasks. Our approach is able to generate diverse image samples that are conditioned on multiple noisy, occluded, or only partially visible input images. We derive and optimize a variational lower bound for the conditional log-likelihood of FusionVAE. In order to assess the fusion capabilities of our model thoroughly, we created three novel datasets for image fusion based on popular computer vision datasets. In our experiments, we show that FusionVAE learns a representation of aggregated information that is relevant to fusion tasks. The results demonstrate that our approach outperforms traditional methods significantly. Furthermore, we present the advantages and disadvantages of different design choices.
翻訳日:2022-09-26 13:27:35 公開日:2022-09-22
# モバイルデバイス上での人間活動認識のための軽量トランス

Lightweight Transformers for Human Activity Recognition on Mobile Devices ( http://arxiv.org/abs/2209.11750v1 )

ライセンス: Link先を確認
Sannara EK, Fran\c{c}ois Portet, Philippe Lalanda(参考訳) モバイルデバイス上のヒューマンアクティビティ認識(HAR)は、ユーザの慣性測定ユニット(IMU)が生成したデータから学習した軽量ニューラルネットワークで実現可能であることが示されている。 例えば、HARのほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)やLong Short-Term Memory(LSTM)、あるいは2つの組み合わせを使って、最先端の結果とリアルタイムのパフォーマンスを実現している。 近年、言語処理領域とビジョン領域におけるトランスフォーマーアーキテクチャは、古典的アーキテクチャよりも最先端の技術を押し進めている。 しかし、そのようなトランスフォーマーアーキテクチャは計算資源において重厚であり、広範コンピューティング領域で見られるHARの組み込みアプリケーションには適していない。 本研究では,モバイル機器に組込まれているicmの領域に特化してきた,軽量でセンサ指向のトランスフォーマーアーキテクチャであるhuman activity recognition transformer (hart)を提案する。 HARタスクに対するいくつかの公開データセットによる実験により、HARTはFLOPS(FLoating-point Operations Per Second)とパラメータを減らし、現在の最先端結果を上回っていることが示された。 さらに,異種環境における各種アーキテクチャの性能評価を行い,様々なセンシングデバイスや体上位置において,モデルがよりよく一般化できることを示す。

Human Activity Recognition (HAR) on mobile devices has shown to be achievable with lightweight neural models learned from data generated by the user's inertial measurement units (IMUs). Most approaches for instanced-based HAR have used Convolutional Neural Networks (CNNs), Long Short-Term Memory (LSTMs), or a combination of the two to achieve state-of-the-art results with real-time performances. Recently, the Transformers architecture in the language processing domain and then in the vision domain has pushed further the state-of-the-art over classical architectures. However, such Transformers architecture is heavyweight in computing resources, which is not well suited for embedded applications of HAR that can be found in the pervasive computing domain. In this study, we present Human Activity Recognition Transformer (HART), a lightweight, sensor-wise transformer architecture that has been specifically adapted to the domain of the IMUs embedded on mobile devices. Our experiments on HAR tasks with several publicly available datasets show that HART uses fewer FLoating-point Operations Per Second (FLOPS) and parameters while outperforming current state-of-the-art results. Furthermore, we present evaluations across various architectures on their performances in heterogeneous environments and show that our models can better generalize on different sensing devices or on-body positions.
翻訳日:2022-09-26 13:27:02 公開日:2022-09-22
# 視覚トランスフォーマーを用いた大腸内視鏡像の検出

Colonoscopy Landmark Detection using Vision Transformers ( http://arxiv.org/abs/2209.11304v1 )

ライセンス: Link先を確認
Aniruddha Tamhane and Tse'ela Mida and Erez Posner and Moshe Bouhnik(参考訳) 大腸内視鏡は,大腸および直腸のポリープ,憩室,大腸構造の狭さなどの異常を検査するために,日常的な外来手術である。 臨床医のかなりの時間は、大腸内視鏡手術中に撮影された後、医療記録の維持やさらなる調査に費やされる。 このステップの自動化は、時間を節約し、プロセスの効率を改善する。 本研究では,120本の大腸内視鏡的ビデオと2416枚のスナップショットのデータセットを収集し,専門家が注釈を付けている。 さらに,大腸内視鏡検査で得られた画像から,重要な解剖学的ランドマーク(虫垂,回盲部弁,盲腸,直腸反射)を同定する,視覚変換器を用いた新しいランドマーク検出アルゴリズムを開発した。 本アルゴリズムは,前処理時に適応ガンマ補正を行い,全画像の輝度を一定に維持する。 次に、特徴抽出バックボーンとして視覚変換器と完全に接続されたネットワークベース分類器ヘッドを使用して、与えられたフレームを4つのクラスに分類する。 同様にトレーニングされたResNet-101とConvNext-Bのバックボーンと、ViT-B/16のバックボーンを比較した。 テストデータセットのスナップショットに視覚変換器のバックボーンで82%の精度を報告した。

Colonoscopy is a routine outpatient procedure used to examine the colon and rectum for any abnormalities including polyps, diverticula and narrowing of colon structures. A significant amount of the clinician's time is spent in post-processing snapshots taken during the colonoscopy procedure, for maintaining medical records or further investigation. Automating this step can save time and improve the efficiency of the process. In our work, we have collected a dataset of 120 colonoscopy videos and 2416 snapshots taken during the procedure, that have been annotated by experts. Further, we have developed a novel, vision-transformer based landmark detection algorithm that identifies key anatomical landmarks (the appendiceal orifice, ileocecal valve/cecum landmark and rectum retroflexion) from snapshots taken during colonoscopy. Our algorithm uses an adaptive gamma correction during preprocessing to maintain a consistent brightness for all images. We then use a vision transformer as the feature extraction backbone and a fully connected network based classifier head to categorize a given frame into four classes: the three landmarks or a non-landmark frame. We compare the vision transformer (ViT-B/16) backbone with ResNet-101 and ConvNext-B backbones that have been trained similarly. We report an accuracy of 82% with the vision transformer backbone on a test dataset of snapshots.
翻訳日:2022-09-26 13:26:42 公開日:2022-09-22
# MLGWSC-1:初の機械学習重力波探索モックデータチャレンジ

MLGWSC-1: The first Machine Learning Gravitational-Wave Search Mock Data Challenge ( http://arxiv.org/abs/2209.11146v1 )

ライセンス: Link先を確認
Marlin B. Sch\"afer, Ond\v{r}ej Zelenka, Alexander H. Nitz, He Wang, Shichao Wu, Zong-Kuan Guo, Zhoujian Cao, Zhixiang Ren, Paraskevi Nousi, Nikolaos Stergioulas, Panagiotis Iosif, Alexandra E. Koloniari, Anastasios Tefas, Nikolaos Passalis, Francesco Salemi, Gabriele Vedovato, Sergey Klimenko, Tanmaya Mishra, Bernd Br\"ugmann, Elena Cuoco, E. A. Huerta, Chris Messenger, Frank Ohme(参考訳) 第1回機械学習重力波探索モックデータチャレンジ(MLGWSC-1)の結果を示す。 この課題のために、参加するグループは、より現実的な雑音に埋め込まれた複雑さと持続期間が増大する二元ブラックホールの融合から重力波信号を特定する必要があった。 4つのデータセットの最終段階では、O3a観測ランからの真のノイズと、プレセッション効果と高次モードを含む20秒までの信号が含まれていた。 提案する6種類の入力アルゴリズムの平均感度距離と実行時間について,参加者が未知の1ヶ月間のテストデータから導出する。 このうち4つは機械学習アルゴリズムである。 最適な機械学習に基づくアルゴリズムは、月に1回の偽アラームレート(FAR)で擬似ガウス雑音に対して、マッチングフィルタリングに基づく生産分析の敏感な距離の95%を最大で達成できることがわかった。 対照的に、実際のノイズに関しては、機械学習の検索で70%を達成した。 高いFARでは、センシティブな距離の違いは、一部のデータセットで月に$\geq 200$という従来の検索アルゴリズムよりも優れた機械学習が提案されるポイントまで縮小する。 この結果から,現在の機械学習検索アルゴリズムは限られたパラメータ領域においてすでに十分敏感である可能性が示唆された。 最先端技術を改善するために、機械学習アルゴリズムは、信号の検出と、その妥当性をモデル化された検索が計算的に高価なパラメータ空間の領域に拡張することのできる、偽アラームレートを低減する必要がある。 我々の発見に基づいて、我々は、重力波信号検出において、機械学習検索を貴重なツールに高めるのに最も重要な研究領域のリストをまとめる。

We present the results of the first Machine Learning Gravitational-Wave Search Mock Data Challenge (MLGWSC-1). For this challenge, participating groups had to identify gravitational-wave signals from binary black hole mergers of increasing complexity and duration embedded in progressively more realistic noise. The final of the 4 provided datasets contained real noise from the O3a observing run and signals up to a duration of 20 seconds with the inclusion of precession effects and higher order modes. We present the average sensitivity distance and runtime for the 6 entered algorithms derived from 1 month of test data unknown to the participants prior to submission. Of these, 4 are machine learning algorithms. We find that the best machine learning based algorithms are able to achieve up to 95% of the sensitive distance of matched-filtering based production analyses for simulated Gaussian noise at a false-alarm rate (FAR) of one per month. In contrast, for real noise, the leading machine learning search achieved 70%. For higher FARs the differences in sensitive distance shrink to the point where select machine learning submissions outperform traditional search algorithms at FARs $\geq 200$ per month on some datasets. Our results show that current machine learning search algorithms may already be sensitive enough in limited parameter regions to be useful for some production settings. To improve the state-of-the-art, machine learning algorithms need to reduce the false-alarm rates at which they are capable of detecting signals and extend their validity to regions of parameter space where modeled searches are computationally expensive to run. Based on our findings we compile a list of research areas that we believe are the most important to elevate machine learning searches to an invaluable tool in gravitational-wave signal detection.
翻訳日:2022-09-23 14:57:11 公開日:2022-09-22
# サンプリングはスコアを学ぶのと同じくらい簡単:最小データ仮定を持つ拡散モデルの理論

Sampling is as easy as learning the score: theory for diffusion models with minimal data assumptions ( http://arxiv.org/abs/2209.11215v1 )

ライセンス: Link先を確認
Sitan Chen, Sinho Chewi, Jerry Li, Yuanzhi Li, Adil Salim, Anru R. Zhang(参考訳) dall$\cdot$e 2 のような大規模実世界生成モデルのバックボーンを構成するdirising diffusion probabilistic models (ddpms) のようなスコアベース生成モデル (sgm) に対する理論的収束保証を提供する。 我々の主な成果は、正確なスコア推定を仮定すると、そのようなSGMは事実上あらゆる現実的なデータ分布から効率的にサンプリングできるということである。 先行研究とは対照的に,(1)l^2$-accurateスコア推定($l^\infty$-accurateではなく)を保持,(2)実質的な非log-concavityを妨げる制限的機能不等式条件を必要とせず,(3)すべての関連する問題パラメータにおいて多項式的にスケールし,(4)ランジュバン拡散の離散化に関する最先端の複雑性保証を一致させる。 我々はこれをSGMの実証的成功の強い理論的正当化と見なしている。 また,臨界減衰ランゲヴィン拡散(CLD)に基づくSGMについても検討した。 従来の知見とは対照的に,cldの使用はsgmの複雑さを減少させないことを示す。

We provide theoretical convergence guarantees for score-based generative models (SGMs) such as denoising diffusion probabilistic models (DDPMs), which constitute the backbone of large-scale real-world generative models such as DALL$\cdot$E 2. Our main result is that, assuming accurate score estimates, such SGMs can efficiently sample from essentially any realistic data distribution. In contrast to prior works, our results (1) hold for an $L^2$-accurate score estimate (rather than $L^\infty$-accurate); (2) do not require restrictive functional inequality conditions that preclude substantial non-log-concavity; (3) scale polynomially in all relevant problem parameters; and (4) match state-of-the-art complexity guarantees for discretization of the Langevin diffusion, provided that the score error is sufficiently small. We view this as strong theoretical justification for the empirical success of SGMs. We also examine SGMs based on the critically damped Langevin diffusion (CLD). Contrary to conventional wisdom, we provide evidence that the use of the CLD does not reduce the complexity of SGMs.
翻訳日:2022-09-23 14:56:46 公開日:2022-09-22
# ベイズ階層モデルのシミュレーションに基づく推定とモデル不特定化の検証

Simulation-based inference of Bayesian hierarchical models while checking for model misspecification ( http://arxiv.org/abs/2209.11057v1 )

ライセンス: Link先を確認
Florent Leclercq(参考訳) 本稿では,ベイズ階層モデル(bhms)の一般クラスのシミュレーションベース推論(sbi)を行うための最近の手法的進歩について述べる。 我々のアプローチは2段階の枠組みに基づいている。 まず、BHMの第2層として現れる潜伏関数を推論し、モデルの誤識別を診断する。 次に、信頼されたモデルのターゲットパラメータをSBIを介して推論する。 第1ステップで使用されるシミュレーションは、第2ステップに必要なスコア圧縮のためにリサイクルされる。 概念実証として,ロトカ・ボルテラ方程式上に構築され,複雑な観測過程を含む捕食者モデルに適用する。

This paper presents recent methodological advances to perform simulation-based inference (SBI) of a general class of Bayesian hierarchical models (BHMs), while checking for model misspecification. Our approach is based on a two-step framework. First, the latent function that appears as second layer of the BHM is inferred and used to diagnose possible model misspecification. Second, target parameters of the trusted model are inferred via SBI. Simulations used in the first step are recycled for score compression, which is necessary to the second step. As a proof of concept, we apply our framework to a prey-predator model built upon the Lotka-Volterra equations and involving complex observational processes.
翻訳日:2022-09-23 14:55:16 公開日:2022-09-22
# 動的システムの離散化としてのバニラフィードフォワードニューラルネットワーク

Vanilla feedforward neural networks as a discretization of dynamic systems ( http://arxiv.org/abs/2209.10909v1 )

ライセンス: Link先を確認
Yifei Duan, Li'ang Li, Guanghua Ji and Yongqiang Cai(参考訳) 深層学習は、データ科学と自然科学の分野に多大な応用をもたらした。 ディープニューラルネットワークを動的システムにリンクする研究もあるが、ネットワーク構造は残留ネットワークに限定されている。 残留ネットワークは動的システムの数値的な離散化と見なせることが知られている。 本稿では,従来のネットワーク構造に戻り,バニラフィードフォワードネットワークが,ネットワーク幅が入力と出力の次元に等しい動的システムの数値的離散化であることも証明する。 この証明は, 漏洩ReLU関数の特性と, 微分方程式を解くスプリッティング法の数値解法に基づく。 我々の結果は、フィードフォワードニューラルネットワークの近似特性を理解するための新しい視点を提供することができる。

Deep learning has made significant applications in the field of data science and natural science. Some studies have linked deep neural networks to dynamic systems, but the network structure is restricted to the residual network. It is known that residual networks can be regarded as a numerical discretization of dynamic systems. In this paper, we back to the classical network structure and prove that the vanilla feedforward networks could also be a numerical discretization of dynamic systems, where the width of the network is equal to the dimension of the input and output. Our proof is based on the properties of the leaky-ReLU function and the numerical technique of splitting method to solve differential equations. Our results could provide a new perspective for understanding the approximation properties of feedforward neural networks.
翻訳日:2022-09-23 14:53:45 公開日:2022-09-22
# 回転操作のトリガと制御のための深層強化学習による小型空中ロボットの逆着陸

Inverted Landing in a Small Aerial Robot via Deep Reinforcement Learning for Triggering and Control of Rotational Maneuvers ( http://arxiv.org/abs/2209.11043v1 )

ライセンス: Link先を確認
Bryan Habas, Jack W. Langelaan, Bo Cheng(参考訳) 高速で堅牢な逆着陸は、特に船上でのセンシングと計算に完全に依存しながら、空中ロボットにとって難しい偉業である。 それにもかかわらず、この偉業はコウモリ、ハエ、ミツバチなどの生物学的チラシによって定期的に行われる。 これまでの研究では、一連の視覚手がかりと運動行動との直接的な因果関係を特定し、この挑戦的なエアロバティックな操作を小型の空中ロボットで信頼できる実行を可能にした。 本研究では、まずDeep Reinforcement Learningと物理シミュレーションを用いて、任意のアプローチ条件から始まる頑健な逆着陸のための一般的な最適制御ポリシーを得る。 この最適化された制御ポリシーは、システムの観測空間から回転操作のトリガーと制御を含む運動指令行動空間への計算効率のよいマッピングを提供する。 これは、大きさや方向によって異なる幅広い接近飛行速度でシステムを訓練することで達成された。 次に,シミュレーションにおけるロボットの慣性パラメータを変化させ,ドメインランダム化による学習方針のsim-to-real転送と実験的検証を行った。 実験により, 着地堅牢性を大幅に向上させるいくつかの要因と, 逆着陸成功を決定づける主要なメカニズムを同定した。 本研究で開発された学習フレームワークは, 騒音センサデータの利用, 様々な方向の面への着地, 動的に動く面への着地など, より困難な課題を解決するために一般化されることを期待している。

Inverted landing in a rapid and robust manner is a challenging feat for aerial robots, especially while depending entirely on onboard sensing and computation. In spite of this, this feat is routinely performed by biological fliers such as bats, flies, and bees. Our previous work has identified a direct causal connection between a series of onboard visual cues and kinematic actions that allow for reliable execution of this challenging aerobatic maneuver in small aerial robots. In this work, we first utilized Deep Reinforcement Learning and a physics-based simulation to obtain a general, optimal control policy for robust inverted landing starting from any arbitrary approach condition. This optimized control policy provides a computationally-efficient mapping from the system's observational space to its motor command action space, including both triggering and control of rotational maneuvers. This was done by training the system over a large range of approach flight velocities that varied with magnitude and direction. Next, we performed a sim-to-real transfer and experimental validation of the learned policy via domain randomization, by varying the robot's inertial parameters in the simulation. Through experimental trials, we identified several dominant factors which greatly improved landing robustness and the primary mechanisms that determined inverted landing success. We expect the learning framework developed in this study can be generalized to solve more challenging tasks, such as utilizing noisy onboard sensory data, landing on surfaces of various orientations, or landing on dynamically-moving surfaces.
翻訳日:2022-09-23 14:53:33 公開日:2022-09-22
# 自己教師付き表現を用いたクロスドメイン音声活動検出

Cross-domain Voice Activity Detection with Self-Supervised Representations ( http://arxiv.org/abs/2209.11061v1 )

ライセンス: Link先を確認
Sina Alisamir, Fabien Ringeval, Francois Portet(参考訳) 音声活動検出(VAD)は、今日の多くの音声ベースアプリケーションにとって必要な第一歩である音声信号の音声セグメントを検出することを目的としている。 現在の最先端の手法は、メルフィルタバンク(mfbs)などの音響的特徴を直接活用するニューラルネットワークのトレーニングに焦点を当てている。 このような手法は、音響が影響を受ける新しい領域に適応するために追加の正規化ステップを必要とするが、これは単にスピーカー、マイク、環境の変化によるものである。 さらに、この正規化ステップは、通常、新しいドメインで利用可能なデータ量に非常に影響を受けやすいなど、特定の制限を持つ、かなり初歩的な方法である。 そこで我々は,クラウドソースの共通音声コーパスを利用して,自己監視学習(SSL)に基づく表現が,複数のドメインにまたがる発話の文脈的表現によって計算されるため,異なるドメインに適応可能であることを示す。 SSL表現は、手作りの表現(MFB)や既製のVADに基づくシステムよりも優れた結果が得られる。

Voice Activity Detection (VAD) aims at detecting speech segments on an audio signal, which is a necessary first step for many today's speech based applications. Current state-of-the-art methods focus on training a neural network exploiting features directly contained in the acoustics, such as Mel Filter Banks (MFBs). Such methods therefore require an extra normalisation step to adapt to a new domain where the acoustics is impacted, which can be simply due to a change of speaker, microphone, or environment. In addition, this normalisation step is usually a rather rudimentary method that has certain limitations, such as being highly susceptible to the amount of data available for the new domain. Here, we exploited the crowd-sourced Common Voice (CV) corpus to show that representations based on Self-Supervised Learning (SSL) can adapt well to different domains, because they are computed with contextualised representations of speech across multiple domains. SSL representations also achieve better results than systems based on hand-crafted representations (MFBs), and off-the-shelf VADs, with significant improvement in cross-domain settings.
翻訳日:2022-09-23 14:53:08 公開日:2022-09-22
# 軌道サンプリングによるニューラルネットワークアンサンブルの訓練

Training neural network ensembles via trajectory sampling ( http://arxiv.org/abs/2209.11116v1 )

ライセンス: Link先を確認
Jamie F. Mair, Dominic C. Rose, Juan P. Garrahan(参考訳) 機械学習では、ニューラルネットワークアンサンブル(nnes)への新たな関心があり、予測は単一の大きなモデルではなく、さまざまな小さなモデルの集合から得られる。 ここでは,確率系における希少な軌跡の研究から,NNEの定義と訓練方法を示す。 モデルパラメータの軌跡を,単純かつ離散的な時間で定義し,これらの軌跡を時間分解損失に偏らし,過度パラメータとして作用する適切なカウントフィールドによって制御することにより,NNEを訓練する。 簡単な教師付き学習課題に対して,本手法の有効性を実証する。 従来の勾配法と比較して,軌道サンプリング手法の潜在的な利点について考察する。

In machine learning, there is renewed interest in neural network ensembles (NNEs), whereby predictions are obtained as an aggregate from a diverse set of smaller models, rather than from a single larger model. Here, we show how to define and train a NNE using techniques from the study of rare trajectories in stochastic systems. We define an NNE in terms of the trajectory of the model parameters under a simple, and discrete in time, diffusive dynamics, and train the NNE by biasing these trajectories towards a small time-integrated loss, as controlled by appropriate counting fields which act as hyperparameters. We demonstrate the viability of this technique on a range of simple supervised learning tasks. We discuss potential advantages of our trajectory sampling approach compared with more conventional gradient based methods.
翻訳日:2022-09-23 14:52:35 公開日:2022-09-22
# 産業プロセスのモニタリングと制御のための最新の機械学習ツール:調査

Modern Machine Learning Tools for Monitoring and Control of Industrial Processes: A Survey ( http://arxiv.org/abs/2209.11123v1 )

ライセンス: Link先を確認
R. Bhushan Gopaluni, Aditya Tulsyan, Benoit Chachuat, Biao Huang, Jong Min Lee, Faraz Amjad, Seshu Kumar Damarla, Jong Woo Kim, Nathan P. Lawrence(参考訳) 過去10年間で、産業データの増加、計算能力の大幅な向上、機械学習における大きな理論的進歩が見られた。 これにより、大規模な非線形監視および制御問題にモダンな機械学習ツールを使用する機会が開ける。 この記事では、プロセス産業におけるアプリケーションに関する最近の結果について調査する。

Over the last ten years, we have seen a significant increase in industrial data, tremendous improvement in computational power, and major theoretical advances in machine learning. This opens up an opportunity to use modern machine learning tools on large-scale nonlinear monitoring and control problems. This article provides a survey of recent results with applications in the process industry.
翻訳日:2022-09-23 14:52:20 公開日:2022-09-22
# アルミニウム抽出プロセスにおける未知物理モデリングのための新しい補正源項アプローチ

A novel corrective-source term approach to modeling unknown physics in aluminum extraction process ( http://arxiv.org/abs/2209.10861v1 )

ライセンス: Link先を確認
Haakon Robinson, Erlend Lundby, Adil Rasheed, Jan Tommy Gravdahl(参考訳) データの可用性が高まるにつれて、モデリングや制御といった分野に現代的な機械学習手法を適用することへの関心が爆発的に高まっている。 しかし、このようなブラックボックスモデルの柔軟性と驚くほどの精度にもかかわらず、それらを信頼することは困難である。 この2つのアプローチを組み合わせるための最近の取り組みは、たとえ一般化しても柔軟なモデルを開発することを目的としています。 本研究では,データ駆動モデルを用いて不特定物理モデルを修正する補正元項アプローチ(CoSTA)について検討する。 これにより,基礎となる問題の物理が十分に理解されていない場合でも,正確な予測を行うモデルの開発が可能になる。 アルミニウム電解セルにおけるhall-h\'eroult過程のモデル化にcostaを適用する。 本手法は精度と予測安定性を両立させ,より信頼性の高いモデルとなることを示す。

With the ever-increasing availability of data, there has been an explosion of interest in applying modern machine learning methods to fields such as modeling and control. However, despite the flexibility and surprising accuracy of such black-box models, it remains difficult to trust them. Recent efforts to combine the two approaches aim to develop flexible models that nonetheless generalize well; a paradigm we call Hybrid Analysis and modeling (HAM). In this work we investigate the Corrective Source Term Approach (CoSTA), which uses a data-driven model to correct a misspecified physics-based model. This enables us to develop models that make accurate predictions even when the underlying physics of the problem is not well understood. We apply CoSTA to model the Hall-H\'eroult process in an aluminum electrolysis cell. We demonstrate that the method improves both accuracy and predictive stability, yielding an overall more trustworthy model.
翻訳日:2022-09-23 14:46:19 公開日:2022-09-22
# EPIC TTSモデル:テキスト音声モデルの特徴付けに関する実証解析

EPIC TTS Models: Empirical Pruning Investigations Characterizing Text-To-Speech Models ( http://arxiv.org/abs/2209.10890v1 )

ライセンス: Link先を確認
Perry Lam, Huayun Zhang, Nancy F. Chen, Berrak Sisman(参考訳) ニューラルモデルは過パラメータ化されていることが知られており、近年の研究により、スパーステキスト音声(TTS)モデルは高密度モデルより優れていることが示されている。 他の領域ではスパース法が多数提案されているが、TSに適用されることは稀である。 この研究では、パフォーマンスとモデルの複雑さに関して、選択したスパーステクニックの特徴は何ですか? tacotron2のベースラインと5つのテクニックを適用した結果を比較した。 次に,モデルサイズとトレーニング時間を報告しながら,自然性,知性,韻律の要因を通して性能を評価する。 先行研究の補完として,訓練前後のプルーニングは訓練後のプルーニングと同じような性能を達成でき,より高速なトレーニングが可能であり,同時に全ニューロンの除去はパラメータの除去よりもはるかに性能を低下させる。 われわれの知る限りでは、これは音声合成における空間的パラダイムを比較する最初の作品である。

Neural models are known to be over-parameterized, and recent work has shown that sparse text-to-speech (TTS) models can outperform dense models. Although a plethora of sparse methods has been proposed for other domains, such methods have rarely been applied in TTS. In this work, we seek to answer the question: what are the characteristics of selected sparse techniques on the performance and model complexity? We compare a Tacotron2 baseline and the results of applying five techniques. We then evaluate the performance via the factors of naturalness, intelligibility and prosody, while reporting model size and training time. Complementary to prior research, we find that pruning before or during training can achieve similar performance to pruning after training and can be trained much faster, while removing entire neurons degrades performance much more than removing parameters. To our best knowledge, this is the first work that compares sparsity paradigms in text-to-speech synthesis.
翻訳日:2022-09-23 14:46:07 公開日:2022-09-22
# ビザンチン分散学習の効率化

Making Byzantine Decentralized Learning Efficient ( http://arxiv.org/abs/2209.10931v1 )

ライセンス: Link先を確認
Sadegh Farhadkhani, Rachid Guerraoui, Nirupam Gupta, L\^e Nguy\^en Hoang, Rafael Pinot, John Stephan(参考訳) 分散sgd(d-sgd)は重学習タスクを複数のマシン(つまりノード)に分散し、ノード毎のワークロードをシステムのサイズで効果的に分割する。 しかし、一握りの \emph{byzantine} ノード(つまり、誤った振る舞い)が学習手順全体を危うくすることができる。 この脆弱性は、システムが \emph{asynchronous} であるときにさらに増幅される。 ビザンチンのレジリエンスをD-SGDに導くアプローチが提案されているが、これは分散化の利点を否定する点までプロセスの効率に大きな影響を及ぼす。 emph{can decentralized learningは、Byzantineのレジリエンスとノード毎のワークロード削減を同時に享受しますか? そこで我々は,D-SGDの計算効率を損なうことなく,ビザンチンのレジリエンスを確実にする「newalgorithm{}」を提案する。 本質的に、 \newalgorithm{} は \emph{polyak's momentum} を用いて局所更新のばらつきを減少させることでビザンチンノードの影響を弱める。 次に、"em signed echo broadcast} と "em closest-neighbor averaging} スキームによってノード間の協調を確立することにより、ビザンチンノード間のオーバーヘッドを分散しながら、ビザンチンノードを効果的に許容する。 本アルゴリズムの正確性を示すために,運動量を用いて生じる非マルコフモデルドリフトを考慮に入れた,新しい関数 {\em lyapunov {\displaystyle {\em lyapunov}} を導入し,解析する。 また,複数の画像分類タスクにおける実験を通して,newalgorithm{}の有効性を示す。

Decentralized-SGD (D-SGD) distributes heavy learning tasks across multiple machines (a.k.a., {\em nodes}), effectively dividing the workload per node by the size of the system. However, a handful of \emph{Byzantine} (i.e., misbehaving) nodes can jeopardize the entire learning procedure. This vulnerability is further amplified when the system is \emph{asynchronous}. Although approaches that confer Byzantine resilience to D-SGD have been proposed, these significantly impact the efficiency of the process to the point of even negating the benefit of decentralization. This naturally raises the question: \emph{can decentralized learning simultaneously enjoy Byzantine resilience and reduced workload per node?} We answer positively by proposing \newalgorithm{} that ensures Byzantine resilience without losing the computational efficiency of D-SGD. Essentially, \newalgorithm{} weakens the impact of Byzantine nodes by reducing the variance in local updates using \emph{Polyak's momentum}. Then, by establishing coordination between nodes via {\em signed echo broadcast} and a {\em nearest-neighbor averaging} scheme, we effectively tolerate Byzantine nodes whilst distributing the overhead amongst the non-Byzantine nodes. To demonstrate the correctness of our algorithm, we introduce and analyze a novel {\em Lyapunov function} that accounts for the {\em non-Markovian model drift} arising from the use of momentum. We also demonstrate the efficiency of \newalgorithm{} through experiments on several image classification tasks.
翻訳日:2022-09-23 14:45:49 公開日:2022-09-22
# EventNet:EEGのイベントを検出する

EventNet: Detecting Events in EEG ( http://arxiv.org/abs/2209.11007v1 )

ライセンス: Link先を確認
Nick Seeuws, Maarten De Vos, Alexander Bertrand(参考訳) 神経学者はしばしば脳波を分析する際に様々な「興味のある出来事」を求める。 このタスクでそれらをサポートするために、様々な機械学習ベースのアルゴリズムが開発された。 これらのアルゴリズムのほとんどは、この問題を分類として扱い、信号セグメントを独立に処理し、時間的依存を無視する。 推論時には、予測された各セグメントのラベルを処理して実際のイベントを検出する必要がある。 本稿では,ディープラーニングに基づくエンドツーエンドのイベント検出手法(eventnet)を提案する。イベントを学習対象として直接扱うことで,モデル出力をイベントに変換するアドホックなポストプロセッシングスキームを廃止する。 EventNetと最先端のアーティファクトとてんかん発作検出の2つのイベントタイプを比較した。 eventnetは両方のイベントタイプを検出することでパフォーマンスが向上している。 これらの結果は、アドホックな後処理を使わずに、イベントを直接学習対象として扱う能力を示している。 当社のイベント検出フレームワークは,ディープラーニングバックボーンがタスク固有の機能に依存しないため,信号処理における他のイベント検出問題にも容易に拡張することができます。

Neurologists are often looking for various "events of interest" when analyzing EEG. To support them in this task various machine-learning-based algorithms have been developed. Most of these algorithms treat the problem as classification, thereby independently processing signal segments and ignoring temporal dependencies inherent to events of varying duration. At inference time, the predicted labels for each segment then have to be post processed to detect the actual events. We propose an end-to-end event detection approach (EventNet), based on deep learning, that directly works with events as learning targets, stepping away from ad-hoc postprocessing schemes to turn model outputs into events. We compare EventNet with a state-of-the-art approach for artefact and and epileptic seizure detection, two event types with highly variable durations. EventNet shows improved performance in detecting both event types. These results show the power of treating events as direct learning targets, instead of using ad-hoc postprocessing to obtain them. Our event detection framework can easily be extended to other event detection problems in signal processing, since the deep learning backbone does not depend on any task-specific features.
翻訳日:2022-09-23 14:45:19 公開日:2022-09-22
# 制約クラスタリングに関する文献的考察

A Bibliographic View on Constrained Clustering ( http://arxiv.org/abs/2209.11125v1 )

ライセンス: Link先を確認
Ludmila Kuncheva, Francis Williams, Samuel Hennessey(参考訳) Web-of-Science上の制約付きクラスタリングに関するキーワード検索は、3000ドキュメント未満で返される。 それらを自動的に分析し、183の論文の書誌を編集し、そのトピックと実験的な研究に基づいてより詳細に分析した。 本稿では,パレート分析による地域とそのサブトピックの一般的な傾向を引用数と出版年を用いて示す。 利用可能なソフトウェアをリストアップし、参照コレクションの実験セクションを分析する。 大規模な比較実験の欠如が明らかとなった。 私たちがレビューしたトピックの中で、ディープラーニング、アクティブラーニング、アンサンブル学習と並んで、アプリケーション研究が最も豊富だった。

A keyword search on constrained clustering on Web-of-Science returned just under 3,000 documents. We ran automatic analyses of those, and compiled our own bibliography of 183 papers which we analysed in more detail based on their topic and experimental study, if any. This paper presents general trends of the area and its sub-topics by Pareto analysis, using citation count and year of publication. We list available software and analyse the experimental sections of our reference collection. We found a notable lack of large comparison experiments. Among the topics we reviewed, applications studies were most abundant recently, alongside deep learning, active learning and ensemble learning.
翻訳日:2022-09-23 14:44:51 公開日:2022-09-22
# 量子埋め込みの構造学習

Structure Learning of Quantum Embeddings ( http://arxiv.org/abs/2209.11144v1 )

ライセンス: Link先を確認
Massimiliano Incudini, Francesco Martini and Alessandra Di Pierro(参考訳) データ表現は、機械学習手法において最重要である。 カーネルメソッドは特徴表現を強化するために使われ、より一般化できる。 量子カーネルは量子システムのヒルベルト空間で古典データを効率的にエンコードする複雑な変換を実装し、指数関数的なスピードアップさえも生み出す。 しかし、量子埋め込みとして使用できる適切なパラメトリック量子回路を選択するには、データの事前知識が必要である。 本稿では,回路の構造を最適化し,ゲートのジェネレータ,角度(データポイントに依存している),および様々なゲートが作用するキュービットを変化させる組合せ最適化手法により,最適な量子埋め込みを自動的に選択するアルゴリズムを提案する。 組合せ最適化は計算コストが高いため,平均付近のカーネル行列係数の指数関数的集中に基づく基準を導入し,性能の悪い解の任意に多い部分を即座に破棄する。 勾配に基づく最適化(トレーニング可能な量子カーネルなど)とは対照的に、我々のアプローチは建設によってバレン高原の影響を受けない。 我々は、ランダムに生成されたPQCに対する我々のアプローチの性能向上を示すために、人工データセットと実世界のデータセットの両方を用いてきた。 また,局所探索,シミュレートアニーリング,遺伝的アルゴリズムなど様々な最適化アルゴリズムの効果を比較し,アルゴリズムの選択が結果に大きく影響していることを示した。

The representation of data is of paramount importance for machine learning methods. Kernel methods are used to enrich the feature representation, allowing better generalization. Quantum kernels implement efficiently complex transformation encoding classical data in the Hilbert space of a quantum system, resulting in even exponential speedup. However, we need prior knowledge of the data to choose an appropriate parametric quantum circuit that can be used as quantum embedding. We propose an algorithm that automatically selects the best quantum embedding through a combinatorial optimization procedure that modifies the structure of the circuit, changing the generators of the gates, their angles (which depend on the data points), and the qubits on which the various gates act. Since combinatorial optimization is computationally expensive, we have introduced a criterion based on the exponential concentration of kernel matrix coefficients around the mean to immediately discard an arbitrarily large portion of solutions that are believed to perform poorly. Contrary to the gradient-based optimization (e.g. trainable quantum kernels), our approach is not affected by the barren plateau by construction. We have used both artificial and real-world datasets to demonstrate the increased performance of our approach with respect to randomly generated PQC. We have also compared the effect of different optimization algorithms, including greedy local search, simulated annealing, and genetic algorithms, showing that the algorithm choice largely affects the result.
翻訳日:2022-09-23 14:44:42 公開日:2022-09-22
# 量子信号処理によるハイゼンベルク限界量子メトロロジー

Beyond Heisenberg Limit Quantum Metrology through Quantum Signal Processing ( http://arxiv.org/abs/2209.11207v1 )

ライセンス: Link先を確認
Yulong Dong, Jonathan Gross, Murphy Yuezhen Niu(参考訳) 絡み合いやコヒーレンスといったメトロロジーにおける量子効果を活用することで、感度を高めたパラメータを測定することができる。 しかし、時間依存ノイズはそのようなハイゼンベルク制限増幅を妨害することができる。 本稿では,これらの現実的な雑音による制約を克服するために,量子信号処理フレームワークに基づく量子メソロジー法を提案する。 提案アルゴリズムは, 時間依存誤差を受けやすいゲートパラメータ $\varphi$~(single-qubit Z phase) と, 時間依存誤差のないターゲットゲートパラメータ $\theta$~(swap-angle between |10> and |01> states) を分離する。 本手法は,超伝導量子ビット実験において,標準偏差の10^{-4}=ラジアンを$\theta$で学習し,既存の代替スキームを2桁の精度で上回っている。 また、高速フーリエ変換と逐次位相差による学習時間依存ゲートパラメータのロバスト性の向上を示す。 理論的にも数値的にも、回路深度の関数として最適なメトロロジー分散スケーリングの興味深い遷移が存在することを、漸近的前処理である $d \ll 1/\theta$ to heisenberg limit $d \to \infty$ から証明する。 驚くべきことに、前漸近法では、時間に敏感なパラメータである $\varphi$ に対する推定のばらつきは、深さの関数である asymptotic heisenberg limit よりも速く、$\text{var}(\hat{\varphi})\approx 1/d^4$ である。 我々の研究は、実験室の量子コンピュータに実用的な応用を実証する最初の量子信号処理アルゴリズムである。

Leveraging quantum effects in metrology such as entanglement and coherence allows one to measure parameters with enhanced sensitivity. However, time-dependent noise can disrupt such Heisenberg-limited amplification. We propose a quantum-metrology method based on the quantum-signal-processing framework to overcome these realistic noise-induced limitations in practical quantum metrology. Our algorithm separates the gate parameter $\varphi$~(single-qubit Z phase) that is susceptible to time-dependent error from the target gate parameter $\theta$~(swap-angle between |10> and |01> states) that is largely free of time-dependent error. Our method achieves an accuracy of $10^{-4}$ radians in standard deviation for learning $\theta$ in superconducting-qubit experiments, outperforming existing alternative schemes by two orders of magnitude. We also demonstrate the increased robustness in learning time-dependent gate parameters through fast Fourier transformation and sequential phase difference. We show both theoretically and numerically that there is an interesting transition of the optimal metrology variance scaling as a function of circuit depth $d$ from the pre-asymptotic regime $d \ll 1/\theta$ to Heisenberg limit $d \to \infty$. Remarkably, in the pre-asymptotic regime our method's estimation variance on time-sensitive parameter $\varphi$ scales faster than the asymptotic Heisenberg limit as a function of depth, $\text{Var}(\hat{\varphi})\approx 1/d^4$. Our work is the first quantum-signal-processing algorithm that demonstrates practical application in laboratory quantum computers.
翻訳日:2022-09-23 14:43:56 公開日:2022-09-22
# 差別的なプライバシには真実がある - プライベートラーニングにおける投票漏洩について

In Differential Privacy, There is Truth: On Vote Leakage in Ensemble Private Learning ( http://arxiv.org/abs/2209.10732v1 )

ライセンス: Link先を確認
Jiaqi Wang, Roei Schuster, Ilia Shumailov, David Lie, Nicolas Papernot(参考訳) 機密データから学ぶ場合、トレーニングアルゴリズムがプライバシの懸念に対処するように注意する必要がある。 PATE(Panonical Private Aggregation of Teacher Ensembles)は、投票機構を介して教師モデルの(おそらく分散した)コレクションの予測を集約することにより、出力ラベルを算出する。 このメカニズムは、教師のトレーニングデータに関して、差分プライバシーを保証するためにノイズを追加する。 本研究では、PATE予測を確率的にするこのノイズの使用により、機密情報の新たな漏洩が可能となることを観察する。 この確率性を利用して、教師が提出した投票の高忠実度ヒストグラムを抽出する。 これらのヒストグラムから、相手は人種、性別、年齢などの入力の繊細な属性を学習することができる。 この攻撃は、差分プライバシーの保証に直接違反するわけではないが、明らかにプライバシーの規範と期待に反し、差分プライバシーを得るために挿入されるノイズなしでは不可能である。 実際、矛盾するプライバシーを提供するためにノイズが増えると、この攻撃はより簡単になります。 これは、差別的なプライバシーをパナセアとして扱うのではなく、プライバシーを公平に考慮する将来の作業を促進することを願っている。

When learning from sensitive data, care must be taken to ensure that training algorithms address privacy concerns. The canonical Private Aggregation of Teacher Ensembles, or PATE, computes output labels by aggregating the predictions of a (possibly distributed) collection of teacher models via a voting mechanism. The mechanism adds noise to attain a differential privacy guarantee with respect to the teachers' training data. In this work, we observe that this use of noise, which makes PATE predictions stochastic, enables new forms of leakage of sensitive information. For a given input, our adversary exploits this stochasticity to extract high-fidelity histograms of the votes submitted by the underlying teachers. From these histograms, the adversary can learn sensitive attributes of the input such as race, gender, or age. Although this attack does not directly violate the differential privacy guarantee, it clearly violates privacy norms and expectations, and would not be possible at all without the noise inserted to obtain differential privacy. In fact, counter-intuitively, the attack becomes easier as we add more noise to provide stronger differential privacy. We hope this encourages future work to consider privacy holistically rather than treat differential privacy as a panacea.
翻訳日:2022-09-23 14:36:57 公開日:2022-09-22
# 動的システムのモデリングのためのグラフニューラル・オードの誘導バイアスの強化

Enhancing the Inductive Biases of Graph Neural ODE for Modeling Dynamical Systems ( http://arxiv.org/abs/2209.10740v1 )

ライセンス: Link先を確認
Suresh Bishnoi, Ravinder Bhattoo, Sayan Ranu, and N. M. Anoop Krishnan(参考訳) ラグランジアンニューラルネットワーク(lnn)やハミルトニアンニューラルネットワーク(hnn)のような物理学に基づく帰納バイアスを持つニューラルネットワークは、強い帰納バイアスを符号化することで物理システムのダイナミクスを学ぶ。 あるいは、適切なインダクティブバイアスを持つニューラルodeも同様のパフォーマンスを示すことが示されている。 しかし、これらのモデルが粒子ベースのシステムに適用されると、自然界ではトランスダクティブであり、従って大きなシステムサイズには一般化しない。 本稿では,動的システムの時間進化を学習するためのグラフベースニューラルODE,GNODEを提案する。 さらに,gnodeの性能に対する異なる帰納的バイアスの役割を慎重に分析する。 我々は,LNNやHNNと同様,制約を明示的に符号化することで,GNODEのトレーニング効率と性能を大幅に向上させることができることを示す。 我々の実験はまた、モデルの最終性能に関するニュートンの第3法則のような帰納的バイアスの付加価値も評価した。 これらのバイアスを誘発することで、エネルギー違反とロールアウトエラーの両方の観点から、モデルの性能を桁違いに向上できることを実証する。 興味深いことに、GNODEは最も効果的なインダクティブバイアス、すなわちMCGNODEで訓練され、LNNとHNNのグラフバージョン、すなわちラグランジアングラフネットワーク(LGN)とハミルトングラフネットワーク(HGN)を、振り子系において4桁のエネルギー違反誤差で上回り、スプリング系では2桁の精度で処理する。 これらの結果から, エネルギー保存型ニューラルネットワークを用いた競合性能は, 適切な帰納バイアスを誘導することにより, NODEベースのシステムに対して得られることが示唆された。

Neural networks with physics based inductive biases such as Lagrangian neural networks (LNN), and Hamiltonian neural networks (HNN) learn the dynamics of physical systems by encoding strong inductive biases. Alternatively, Neural ODEs with appropriate inductive biases have also been shown to give similar performances. However, these models, when applied to particle based systems, are transductive in nature and hence, do not generalize to large system sizes. In this paper, we present a graph based neural ODE, GNODE, to learn the time evolution of dynamical systems. Further, we carefully analyse the role of different inductive biases on the performance of GNODE. We show that, similar to LNN and HNN, encoding the constraints explicitly can significantly improve the training efficiency and performance of GNODE significantly. Our experiments also assess the value of additional inductive biases, such as Newtons third law, on the final performance of the model. We demonstrate that inducing these biases can enhance the performance of model by orders of magnitude in terms of both energy violation and rollout error. Interestingly, we observe that the GNODE trained with the most effective inductive biases, namely MCGNODE, outperforms the graph versions of LNN and HNN, namely, Lagrangian graph networks (LGN) and Hamiltonian graph networks (HGN) in terms of energy violation error by approx 4 orders of magnitude for a pendulum system, and approx 2 orders of magnitude for spring systems. These results suggest that competitive performances with energy conserving neural networks can be obtained for NODE based systems by inducing appropriate inductive biases.
翻訳日:2022-09-23 14:36:35 公開日:2022-09-22
# 気分はどうですか。 オフロード車両トラバーサビリティのための自己教師付きコストマップ学習

How Does It Feel? Self-Supervised Costmap Learning for Off-Road Vehicle Traversability ( http://arxiv.org/abs/2209.10788v1 )

ライセンス: Link先を確認
Mateo Guaman Castro, Samuel Triest, Wenshan Wang, Jason M. Gregory, Felix Sanchez, John G. Rogers III, Sebastian Scherer(参考訳) オフロード環境における地形トラバーサビリティの推定には、ロボットとこれらの地形との複雑な相互作用のダイナミクスに関する推論が必要である。 しかし、正確な物理モデルの構築や、これらの相互作用のために教師付き方法でモデルを学ぶための情報ラベルの作成は困難である。 本研究では,外来環境情報と固有地形相互作用フィードバックを自己管理的に組み合わせて,トラバーサビリティのコストマップを予測する手法を提案する。 さらに,コストマップ予測パイプラインにロボットの速度を組み込む新しい手法を提案する。 本手法は,大規模・自律型全地形車両 (atv) における複数の短時間・大規模ナビゲーションタスクで検証し,個別の大型地上ロボットへの統合が容易であることを示す。 短時間のナビゲーションの結果から、学習したコストマップを使うことで、よりスムースなナビゲーションが可能になり、ロボットがロボットと草や砂利といった異なる地形の相互作用をより詳細に理解できるようになります。 大規模ナビゲーション試験の結果,400mから3150mまでの課題オフロードコースにおいて,居住ベースのナビゲーションベースラインと比較して,介入回数を最大57%削減できることが分かった。

Estimating terrain traversability in off-road environments requires reasoning about complex interaction dynamics between the robot and these terrains. However, it is challenging to build an accurate physics model, or create informative labels to learn a model in a supervised manner, for these interactions. We propose a method that learns to predict traversability costmaps by combining exteroceptive environmental information with proprioceptive terrain interaction feedback in a self-supervised manner. Additionally, we propose a novel way of incorporating robot velocity in the costmap prediction pipeline. We validate our method in multiple short and large-scale navigation tasks on a large, autonomous all-terrain vehicle (ATV) on challenging off-road terrains, and demonstrate ease of integration on a separate large ground robot. Our short-scale navigation results show that using our learned costmaps leads to overall smoother navigation, and provides the robot with a more fine-grained understanding of the interactions between the robot and different terrain types, such as grass and gravel. Our large-scale navigation trials show that we can reduce the number of interventions by up to 57% compared to an occupancy-based navigation baseline in challenging off-road courses ranging from 400 m to 3150 m.
翻訳日:2022-09-23 14:36:02 公開日:2022-09-22
# ロボット制御のためのロバスト予測:ゲーム理論的アプローチ

Robust Forecasting for Robotic Control: A Game-Theoretic Approach ( http://arxiv.org/abs/2209.10802v1 )

ライセンス: Link先を確認
Shubhankar Agarwal, David Fridovich-Keil, Sandeep P. Chinchali(参考訳) 現代のロボットは、現実世界で最適な決定を下すために正確な予測を必要とする。 例えば、自動運転車は安全な軌道を計画するために他のエージェントの将来の行動を正確に予測する必要がある。 現在の手法は、未来を正確に予測するために歴史的時系列に大きく依存している。 しかしながら、観測された歴史に完全に依存することは、ノイズによって破損したり、外れ値を持つか、または全ての可能な結果を完全に表現できないため、問題となる。 この問題を解決するために,ロボット制御のためのロバストな予測を生成する新しいフレームワークを提案する。 今後の予測に影響を与える現実的な要因をモデル化するために,ロボットの究極の制御コストを高めるために,過去の時系列を摂動する敵の概念を導入する。 具体的には、この相互作用をロボットの予測と仮想敵とのゼロサムの2人プレイゲームとしてモデル化する。 提案するゲームは,グラデーションに基づく最適化手法を用いて局所nash平衡に解くことができることを示す。 さらに,本手法で学習した予測者は,実世界のレーン変更データに対して,ベースラインよりも30.14%高い性能を示す。

Modern robots require accurate forecasts to make optimal decisions in the real world. For example, self-driving cars need an accurate forecast of other agents' future actions to plan safe trajectories. Current methods rely heavily on historical time series to accurately predict the future. However, relying entirely on the observed history is problematic since it could be corrupted by noise, have outliers, or not completely represent all possible outcomes. To solve this problem, we propose a novel framework for generating robust forecasts for robotic control. In order to model real-world factors affecting future forecasts, we introduce the notion of an adversary, which perturbs observed historical time series to increase a robot's ultimate control cost. Specifically, we model this interaction as a zero-sum two-player game between a robot's forecaster and this hypothetical adversary. We show that our proposed game may be solved to a local Nash equilibrium using gradient-based optimization techniques. Furthermore, we show that a forecaster trained with our method performs 30.14% better on out-of-distribution real-world lane change data than baselines.
翻訳日:2022-09-23 14:35:41 公開日:2022-09-22
# 非平滑複合非凸凹極小最適化

Nonsmooth Composite Nonconvex-Concave Minimax Optimization ( http://arxiv.org/abs/2209.10825v1 )

ライセンス: Link先を確認
Jiajin Li, Linglingzhi Zhu and Anthony Man-Cho So(参考訳) nonconvex-concave minimax最適化は、データ分散に堅牢な学習、非可逆的損失による学習、敵対的学習など、機械学習に大きな関心を集めている。 しかしながら、既存のほとんどの研究は、スムーズな設定でしか適用できないグラデーション・ディフレッシュ・アセット(GDA)の変種に焦点を当てている。 本稿では、最小化の変数における非滑らかな合成構造を目的関数が享受し、最大化の変数において凹凸となるミニマックス問題の族を考える。 複合構造を十分に活用することにより,滑らかな近位線形降下法 (\textit{smoothed} plda) アルゴリズムを提案し,滑らかな設定下での平滑化 gda~\cite{zhang2020single} のそれと一致する$\mathcal{o}(\epsilon^{-4})$ の反復複雑性を確立する。 さらに、目的関数が片面のクルディカ-\L{}ojasiewicz条件を指数$\theta \in (0,1)$で満たすという軽微な仮定の下では、反復複雑性をさらに$\mathcal{O}(\epsilon^{-2\max\{2\theta,1\}})$に改善することができる。 我々の知る限りでは、このアルゴリズムは非滑らかな非凸凸凸問題に対する最初の証明可能なアルゴリズムであり、最適な反復複雑性である$\mathcal{o}(\epsilon^{-2})$ if $\theta \in (0,1/2]$ を達成することができる。 副産物として,異なる定常性の概念を議論し,それらの関係を定量的に明らかにした。 実験により,変動正規化ワッサースタイン分布にロバストな最適化問題に対して提案する平滑化pldaの有効性を示す。

Nonconvex-concave minimax optimization has received intense interest in machine learning, including learning with robustness to data distribution, learning with non-decomposable loss, adversarial learning, to name a few. Nevertheless, most existing works focus on the gradient-descent-ascent (GDA) variants that can only be applied in smooth settings. In this paper, we consider a family of minimax problems whose objective function enjoys the nonsmooth composite structure in the variable of minimization and is concave in the variables of maximization. By fully exploiting the composite structure, we propose a smoothed proximal linear descent ascent (\textit{smoothed} PLDA) algorithm and further establish its $\mathcal{O}(\epsilon^{-4})$ iteration complexity, which matches that of smoothed GDA~\cite{zhang2020single} under smooth settings. Moreover, under the mild assumption that the objective function satisfies the one-sided Kurdyka-\L{}ojasiewicz condition with exponent $\theta \in (0,1)$, we can further improve the iteration complexity to $\mathcal{O}(\epsilon^{-2\max\{2\theta,1\}})$. To the best of our knowledge, this is the first provably efficient algorithm for nonsmooth nonconvex-concave problems that can achieve the optimal iteration complexity $\mathcal{O}(\epsilon^{-2})$ if $\theta \in (0,1/2]$. As a byproduct, we discuss different stationarity concepts and clarify their relationships quantitatively, which could be of independent interest. Empirically, we illustrate the effectiveness of the proposed smoothed PLDA in variation regularized Wasserstein distributionally robust optimization problems.
翻訳日:2022-09-23 14:35:26 公開日:2022-09-22
# Frank-Wolfeとしてのブースティング

Boosting as Frank-Wolfe ( http://arxiv.org/abs/2209.10831v1 )

ライセンス: Link先を確認
Ryotaro Mitsuboshi, Kohei Hatano, Eiji Takimoto(参考訳) LPBoost、ERLPBoost、C-ERLPBoostなどの強化アルゴリズムは、$\ell_1$-norm正規化でソフトマージン最適化問題を解決することを目指している。 LPBoost は、実際に $\epsilon$-approximate の解に急速に収束するが、最悪の場合、$m$がサンプルサイズである$\Omega(m)$の反復をとることが知られている。 一方、ERLPBoost と C-ERLPBoost は$O(\frac{1}{\epsilon^2} \ln \frac{m}{\nu})$反復の $\epsilon$-approximate 解に収束することが保証される。 しかし、反復毎の計算はLPBoostに比べて非常に高い。 この問題に対処するため,フランク=ウルフアルゴリズムと任意の二次アルゴリズムを組み合わせた汎用的なブースティング手法を提案し,反復的に一方を他方に切り替える。 ERLPBoost や C-ERLPBoost と同じ収束保証を維持していることを示す。 実際に改善するために任意の二次アルゴリズムを組み込むことができる。 このスキームは、ソフトマージン最適化のためのブースティングアルゴリズムの統一的なビューに由来する。 具体的には, LPBoost, ERLPBoost, C-ERLPBoostがFrank-Wolfeアルゴリズムの例であることを示す。 実データセットでの実験では,提案手法のインスタンスの1つが二次アルゴリズムのより良い更新を活用し,lpboostと互換性のある処理を行う。

Some boosting algorithms, such as LPBoost, ERLPBoost, and C-ERLPBoost, aim to solve the soft margin optimization problem with the $\ell_1$-norm regularization. LPBoost rapidly converges to an $\epsilon$-approximate solution in practice, but it is known to take $\Omega(m)$ iterations in the worst case, where $m$ is the sample size. On the other hand, ERLPBoost and C-ERLPBoost are guaranteed to converge to an $\epsilon$-approximate solution in $O(\frac{1}{\epsilon^2} \ln \frac{m}{\nu})$ iterations. However, the computation per iteration is very high compared to LPBoost. To address this issue, we propose a generic boosting scheme that combines the Frank-Wolfe algorithm and any secondary algorithm and switches one to the other iteratively. We show that the scheme retains the same convergence guarantee as ERLPBoost and C-ERLPBoost. One can incorporate any secondary algorithm to improve in practice. This scheme comes from a unified view of boosting algorithms for soft margin optimization. More specifically, we show that LPBoost, ERLPBoost, and C-ERLPBoost are instances of the Frank-Wolfe algorithm. In experiments on real datasets, one of the instances of our scheme exploits the better updates of the secondary algorithm and performs comparably with LPBoost.
翻訳日:2022-09-23 14:34:48 公開日:2022-09-22
# 病原性発見のための構造ガイドマニフォールド

Structure Guided Manifolds for Discovery of Disease Characteristics ( http://arxiv.org/abs/2209.11015v1 )

ライセンス: Link先を確認
Siyu Liu, Linfeng Liu, Fatima Nasrallah, Craig Engstrom, Stuart Crozier, Shekhar Chandra(参考訳) 医用画像解析において、多くの疾患の微妙な視覚的特徴は、特にペアデータがないために識別が困難である。 例えば、軽度アルツハイマー病(AD)では、純粋な画像データから脳組織萎縮を観察することは困難である。 本研究は、微妙な疾患の特徴を発見・可視化するための弱い教師付きスタイルベースのフレームワークである病的発見GAN(DiDiGAN)を提示する。 ディディガンはadとcnの視覚特性の疾患多様体を学習し、この多様体からサンプリングされたスタイルコードは解剖学的構造である「ブループリント」に課され、ペアドadとcn磁気共鳴画像(mri)を合成する。 DiDiGANは、生成したADとCNの非相転移を抑えるために、サイクル一貫性とアンチエイリアシングによる構造的制約を活用し、解剖学的対応を強制する。 アルツハイマー病神経画像イニシアチブ(ADNI)データセットで試験したところ、DiDiGANはADスキャンとCNスキャンを併用することにより、主要なAD特性(海馬容積、心室拡張、皮質構造の萎縮)を示した。 定性的な結果は自動脳容積分析によって裏付けられ、脳組織構造の系統的一対の縮小も測定された。

In medical image analysis, the subtle visual characteristics of many diseases are challenging to discern, particularly due to the lack of paired data. For example, in mild Alzheimer's Disease (AD), brain tissue atrophy can be difficult to observe from pure imaging data, especially without paired AD and Cognitively Normal ( CN ) data for comparison. This work presents Disease Discovery GAN ( DiDiGAN), a weakly-supervised style-based framework for discovering and visualising subtle disease features. DiDiGAN learns a disease manifold of AD and CN visual characteristics, and the style codes sampled from this manifold are imposed onto an anatomical structural "blueprint" to synthesise paired AD and CN magnetic resonance images (MRIs). To suppress non-disease-related variations between the generated AD and CN pairs, DiDiGAN leverages a structural constraint with cycle consistency and anti-aliasing to enforce anatomical correspondence. When tested on the Alzheimer's Disease Neuroimaging Initiative ( ADNI) dataset, DiDiGAN showed key AD characteristics (reduced hippocampal volume, ventricular enlargement, and atrophy of cortical structures) through synthesising paired AD and CN scans. The qualitative results were backed up by automated brain volume analysis, where systematic pair-wise reductions in brain tissue structures were also measured
翻訳日:2022-09-23 14:29:06 公開日:2022-09-22
# サンプルが少ないバイオメトリックモデルに対するプライバシ攻撃: 複数のモデルのアウトプットを組み込む

Privacy Attacks Against Biometric Models with Fewer Samples: Incorporating the Output of Multiple Models ( http://arxiv.org/abs/2209.11020v1 )

ライセンス: Link先を確認
Sohaib Ahmad, Benjamin Fuller, Kaleel Mahmood(参考訳) 認証システムは、敵がターゲットの機械学習モデルの逆を近似できるモデル反転攻撃に対して脆弱である。 生体モデルはこのタイプの攻撃の第一候補である。 これは、生体認証モデルを反転させることで、攻撃者が生体認証システムに現実的な生体認証入力を生成できるためである。 モデル反転攻撃の成功における主な制約の1つは、必要なトレーニングデータ量である。 本研究では,虹彩と顔面生体計測システムに着目し,必要なトレーニングデータ量を大幅に削減する新しい手法を提案する。 複数のモデルの出力を活用することで、虹彩データにはAhmadとFullerのトレーニングセットサイズ(IJCB 2020)の1/10、顔データにはMai et al.(Pattern Analysis and Machine Intelligence 2019)のトレーニングセットサイズ(IJCB 2020)の1/1000のモデルインバージョンアタックを実行できます。 我々は,新しい攻撃手法をアライメント損失を伴う構造化ランダムと表現する。 我々の攻撃はブラックボックスであり、ターゲットのニューラルネットワークの重み、寸法、出力ベクトルの値の知識を必要としない。 このアライメント損失の汎用性を示すため,バイオメトリックスデータ上でのアライメント推論(Shokri et al., IEEE S&P 2017)にアタック・フレームワークを適用した。 虹彩の場合、分類ネットワークに対する会員推測攻撃は52%から62%に改善される。

Authentication systems are vulnerable to model inversion attacks where an adversary is able to approximate the inverse of a target machine learning model. Biometric models are a prime candidate for this type of attack. This is because inverting a biometric model allows the attacker to produce a realistic biometric input to spoof biometric authentication systems. One of the main constraints in conducting a successful model inversion attack is the amount of training data required. In this work, we focus on iris and facial biometric systems and propose a new technique that drastically reduces the amount of training data necessary. By leveraging the output of multiple models, we are able to conduct model inversion attacks with 1/10th the training set size of Ahmad and Fuller (IJCB 2020) for iris data and 1/1000th the training set size of Mai et al. (Pattern Analysis and Machine Intelligence 2019) for facial data. We denote our new attack technique as structured random with alignment loss. Our attacks are black-box, requiring no knowledge of the weights of the target neural network, only the dimension, and values of the output vector. To show the versatility of the alignment loss, we apply our attack framework to the task of membership inference (Shokri et al., IEEE S&P 2017) on biometric data. For the iris, membership inference attack against classification networks improves from 52% to 62% accuracy.
翻訳日:2022-09-23 14:28:42 公開日:2022-09-22
# コンピュータビジョン研究論文のメディア考古学を探究する

Attention is All They Need: Exploring the Media Archaeology of the Computer Vision Research Paper ( http://arxiv.org/abs/2209.11200v1 )

ライセンス: Link先を確認
Samuel Goree, Gabriel Appleby, David Crandall, Norman Su(参考訳) ディープラーニングの成功は、コンピュータビジョンを含むコンピュータ科学の多くの分野の急速な変化と成長につながった。 本研究では, メディア考古学の観点から研究論文の数字と表を分析し, コンピュータビジョン研究論文自体を通して, この成長が与える影響について検討する。 我々は,コンピュータビジョン,グラフィックス,ビジュアライゼーション,そして10年間の視覚会議論文の計算分析にまたがるベテラン研究者とのインタビューを通じて,調査の土台を築いた。 本分析では, 広告, 測定, 普及にともなう「貢献」の要素に着目した。 我々は、これらの要素はそれぞれコンピュータビジョンの環境によって形作られ、形作られ、最終的にそのコモディティ化に寄与していると主張している。 本研究を通じて,研究論文とより広範な社会技術出版システムの設計をめぐる今後の議論のモチベーションを模索する。

The success of deep learning has led to the rapid transformation and growth of many areas of computer science, including computer vision. In this work, we examine the effects of this growth through the computer vision research paper itself by analyzing the figures and tables in research papers from a media archaeology perspective. We ground our investigation both through interviews with veteran researchers spanning computer vision, graphics and visualization, and computational analysis of a decade of vision conference papers. Our analysis focuses on elements with roles in advertising, measuring and disseminating an increasingly commodified "contribution." We argue that each of these elements has shaped and been shaped by the climate of computer vision, ultimately contributing to that commodification. Through this work, we seek to motivate future discussion surrounding the design of the research paper and the broader socio-technical publishing system.
翻訳日:2022-09-23 14:28:16 公開日:2022-09-22
# UniColor: Transformerを使ったマルチモーダルカラー化のための統一フレームワーク

UniColor: A Unified Framework for Multi-Modal Colorization with Transformer ( http://arxiv.org/abs/2209.11223v1 )

ライセンス: Link先を確認
Zhitong Huang, Nanxuan Zhao, Jing Liao(参考訳) 我々は,UniColorを統一したフレームワークとして,無条件と条件の両方,例えばストローク,例示,テキスト,さらにはそれらを組み合わせて色付けする手法を提案する。 条件毎に異なるモデルを学習する代わりに、様々な条件を1つのモデルに組み込む2段階のカラー化フレームワークを導入する。 第一段階では、マルチモーダル条件はヒントポイントの共通表現に変換される。 特に,テキストをヒントポイントに変換するCLIPに基づく新しい手法を提案する。 第2段階では,Chroma-VQGANとHybrid-Transformerで構成されるTransformerベースのネットワークを提案し,ヒント点に条件付き多彩で高品質なカラー化結果を生成する。 質的・定量的比較により,本手法はすべての制御モダリティにおいて最先端の手法よりも優れており,これまで実現できなかったマルチモーダルカラー化が可能となった。 さらに,自動カラー化,ハイブリッド制御カラー化,局所再カラー化,反復カラー編集など,実運用における統一フレームワークの有効性を示す対話型インターフェースを設計した。 私たちのコードとモデルはhttps://luckyhzt.github.io/unicolorで利用可能です。

We propose the first unified framework UniColor to support colorization in multiple modalities, including both unconditional and conditional ones, such as stroke, exemplar, text, and even a mix of them. Rather than learning a separate model for each type of condition, we introduce a two-stage colorization framework for incorporating various conditions into a single model. In the first stage, multi-modal conditions are converted into a common representation of hint points. Particularly, we propose a novel CLIP-based method to convert the text to hint points. In the second stage, we propose a Transformer-based network composed of Chroma-VQGAN and Hybrid-Transformer to generate diverse and high-quality colorization results conditioned on hint points. Both qualitative and quantitative comparisons demonstrate that our method outperforms state-of-the-art methods in every control modality and further enables multi-modal colorization that was not feasible before. Moreover, we design an interactive interface showing the effectiveness of our unified framework in practical usage, including automatic colorization, hybrid-control colorization, local recolorization, and iterative color editing. Our code and models are available at https://luckyhzt.github.io/unicolor.
翻訳日:2022-09-23 14:28:01 公開日:2022-09-22
# CNSRC2022のSpeakinシステム記述

The SpeakIn System Description for CNSRC2022 ( http://arxiv.org/abs/2209.10846v1 )

ライセンス: Link先を確認
Yu Zheng, Yihao Chen, Jinghan Peng, Yajun Zhang, Min Liu, Minqiang Xu(参考訳) 本稿では,CN-Celeb Speaker Recognition Challenge 2022(CNSRC 2022)の課題に対する話者検証システムについて述べる。 この課題には、話者検証(SV)と話者検索(SR)という2つのタスクが含まれる。 SVタスクは固定トラックとオープントラックの2つのトラックを含む。 固定軌道では、トレーニングセットとしてCN-Celeb.Tのみを使用しました。 SVタスクとSRタスクのオープントラックのために、私たちはオープンソースのオーディオデータを追加しました。 ResNetベース、RepVGGベース、TDNNベースのアーキテクチャがこの課題のために開発された。 グローバル統計プーリング構造とMQMHAプーリング構造を用いて、時間をかけてフレームレベルの特徴を集約し、発話レベルの表現を得た。 我々は,AM-Softmax と AAM-Softmax と Sub-Center 法を併用して埋め込みの分類を行った。 また,大マージンファインチューニング戦略を用いてモデル性能をさらに向上した。 バックエンドではSub-MeanとAS-Normが使用された。 SVタスク固定軌道では,本システムは5つのモデルの融合であり,SVタスクオープントラックでは2つのモデルが融合された。 そして、SRタスクで1つのシステムを使用しました。 私たちのアプローチは優れたパフォーマンスをもたらし、svタスクのオープントラックでは第1位、svタスクの固定トラックでは第2位、srタスクでは第3位となる。

This report describes our speaker verification systems for the tasks of the CN-Celeb Speaker Recognition Challenge 2022 (CNSRC 2022). This challenge includes two tasks, namely speaker verification(SV) and speaker retrieval(SR). The SV task involves two tracks: fixed track and open track. In the fixed track, we only used CN-Celeb.T as the training set. For the open track of the SV task and SR task, we added our open-source audio data. The ResNet-based, RepVGG-based, and TDNN-based architectures were developed for this challenge. Global statistic pooling structure and MQMHA pooling structure were used to aggregate the frame-level features across time to obtain utterance-level representation. We adopted AM-Softmax and AAM-Softmax combined with the Sub-Center method to classify the resulting embeddings. We also used the Large-Margin Fine-Tuning strategy to further improve the model performance. In the backend, Sub-Mean and AS-Norm were used. In the SV task fixed track, our system was a fusion of five models, and two models were fused in the SV task open track. And we used a single system in the SR task. Our approach leads to superior performance and comes the 1st place in the open track of the SV task, the 2nd place in the fixed track of the SV task, and the 3rd place in the SR task.
翻訳日:2022-09-23 14:27:41 公開日:2022-09-22
# MnTTS:モンゴル語テキスト音声合成データセットと伴奏ベースライン

MnTTS: An Open-Source Mongolian Text-to-Speech Synthesis Dataset and Accompanied Baseline ( http://arxiv.org/abs/2209.10848v1 )

ライセンス: Link先を確認
Yifan Hu, Pengkai Yin, Rui Liu, Feilong Bao and Guanglai Gao(参考訳) 本稿では,世界中の1000万人以上が話す低リソース言語であるモンゴル語のための高品質なオープンソーステキスト音声合成データセットについて紹介する。 MnTTSと名付けられたこのデータセットは、22歳のモンゴル人プロのアナウンサーが録音した約8時間の音声記録で構成されている。 これは、学界と産業の両方でモンゴルのttsアプリケーションを促進するために開発された最初の公開データセットである。 本稿では,データセット開発手順を説明することによって経験を共有し,課題に直面する。 データセットの信頼性を示すために、FastSpeech2モデルとHiFi-GANボコーダに基づく強力な非自己回帰ベースラインシステムを構築し、主観的平均世論スコア(MOS)とリアルタイム因子(RTF)メトリクスを用いて評価した。 評価結果から,我々のデータセットでトレーニングした強力なベースラインシステムは,約3.30\times10^{-1}$のMOSを4以上,RTFを約3。 データセット、トレーニングレシピ、事前トレーニングされたTSモデルは、自由に利用できる。

This paper introduces a high-quality open-source text-to-speech (TTS) synthesis dataset for Mongolian, a low-resource language spoken by over 10 million people worldwide. The dataset, named MnTTS, consists of about 8 hours of transcribed audio recordings spoken by a 22-year-old professional female Mongolian announcer. It is the first publicly available dataset developed to promote Mongolian TTS applications in both academia and industry. In this paper, we share our experience by describing the dataset development procedures and faced challenges. To demonstrate the reliability of our dataset, we built a powerful non-autoregressive baseline system based on FastSpeech2 model and HiFi-GAN vocoder, and evaluated it using the subjective mean opinion score (MOS) and real time factor (RTF) metrics. Evaluation results show that the powerful baseline system trained on our dataset achieves MOS above 4 and RTF about $3.30\times10^{-1}$, which makes it applicable for practical use. The dataset, training recipe, and pretrained TTS models are freely available \footnote{\label{github}\url{https://github.com/walker-hyf/MnTTS}}.
翻訳日:2022-09-23 14:27:21 公開日:2022-09-22
# バランスの取れた数に対するオーバー・ザ・エア計算

Over-the-Air Computation over Balanced Numerals ( http://arxiv.org/abs/2209.11004v1 )

ライセンス: Link先を確認
Alphan Sahin and Rui Yang(参考訳) 本研究では,連続的な値の勾配集計を実現するためのOAC方式を提案する。 実数値パラメータの集合の平均は、対応する数字の平均を用いておおよそ計算できることが示され、この数値はバランスの取れた数系に基づいて得られる。 この性質を用いることで、提案されたスキームは局所勾配を数値集合に符号化する。 次に、数値を用いて、活性化直交周波数分割多重化(OFDM)サブキャリアの位置を決定する。 チャネルインバージョンによる正確なサンプルレベルの時間同期、チャネル推定オーバーヘッド、電力不安定性を排除するために、提案手法はエッジサーバ(ES)では非コヒーレント受信機を使用し、エッジデバイス(ED)では事前等化を使用できない。 最後に,提案手法の理論的平均二乗誤差(MSE)性能を導出し,フェデレートエッジ学習(FEEL)の性能を示す。

In this study, a digital over-the-air computation (OAC) scheme for achieving continuous-valued gradient aggregation is proposed. It is shown that the average of a set of real-valued parameters can be calculated approximately by using the average of the corresponding numerals, where the numerals are obtained based on a balanced number system. By using this property, the proposed scheme encodes the local gradients into a set of numerals. It then determines the positions of the activated orthogonal frequency division multiplexing (OFDM) subcarriers by using the values of the numerals. To eliminate the need for a precise sample-level time synchronization, channel estimation overhead, and power instabilities due to the channel inversion, the proposed scheme also uses a non-coherent receiver at the edge server (ES) and does not utilize a pre-equalization at the edge devices (EDs). Finally, the theoretical mean squared error (MSE) performance of the proposed scheme is derived and its performance for federated edge learning (FEEL) is demonstrated.
翻訳日:2022-09-23 14:27:00 公開日:2022-09-22
# 線形演算子の固有値問題の解法のための電力法・逆電力法・シフト逆電力法ニューラルネットワーク

Power Method, Inverse Power Method and Shifted Inverse Power Method Neural Networks for Solving Eigenvalue Problems of Linear Operators ( http://arxiv.org/abs/2209.11134v1 )

ライセンス: Link先を確認
Qihong Yang, Yangtao Deng, Yu Yang, Qiaolin He, Shiquan Zhang(参考訳) 本稿では,主固有値,最小固有値,最小零固有値の3つの固有値問題を解くために,パワー法,逆パワー法ニューラルネットワーク(pmnn),逆パワー法ニューラルネットワーク(ipmnn),シフト逆パワー法ニューラルネットワーク(sipmnn)とパワー法を組み合わせた3つの逆パワー法ニューラルネットワーク(sipmnn)を提案する。 従来の手法と類似した精神を持つが、違いは、自動微分(ad)によって実現される微分演算子、ニューラルネットワークが学習した固有関数、特殊に定義された損失関数を最適化した反復である。 本手法の適用性と精度を,高次元におけるいくつかの数値例で検証する。 多次元問題に対する本手法により得られた数値結果は, 固有値および固有関数近似を精度良く提供できることを示す。

In this article, we propose three methods Power Method Neural Network (PMNN), Inverse Power Method Neural Networ (IPMNN) and Shifted Inverse Power Method Neural Network (SIPMNN) combined with power method, inverse power method and shifted inverse power method to solve eigenvalue problems with the dominant eigenvalue, the smallest eigenvalue and the smallest zero eigenvalue, respectively. The methods share similar spirits with traditional methods, but the differences are the differential operator realized by Automatic Differentiation (AD), the eigenfunction learned by the neural network and the iterations implemented by optimizing the specially defined loss function. We examine the applicability and accuracy of our methods in several numerical examples in high dimensions. Numerical results obtained by our methods for multidimensional problems show that our methods can provide accurate eigenvalue and eigenfunction approximations.
翻訳日:2022-09-23 14:26:44 公開日:2022-09-22
# マルチステージマルチコードVQ-VAEによる高性能ニューラルネットワークTTS

A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS ( http://arxiv.org/abs/2209.10887v1 )

ライセンス: Link先を確認
Haohan Guo, Fenglong Xie, Frank K. Soong, Xixin Wu, Helen Meng(参考訳) 本稿では,高性能ニューラルネットワークtts合成のためのマルチステージマルチコードブック(msmc)手法を提案する。 ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,複数の段階の音声訓練データのメルスペクトルを,時間分解能の異なるMSMC表現(MSMCR)に段階的にダウンサンプリングして符号化し,複数のVQコードブックで定量化する。 マルチステージ予測器は,MSE (Mean Square Error) と "triplet loss" の併用損失を最小化することにより,入力テキストシーケンスを MSMCR に徐々にマッピングするように訓練される。 合成において、ニューラルボコーダは予測されたmsmcrを最終音声波形に変換する。 提案手法は,女性話者による16時間の英語ttsデータベースを用いて訓練およびテストを行った。 提案したTSは、MOSスコアが4.41で、MOSが3.62でベースラインを上回っている。 パラメータがはるかに少ないttsのコンパクト版は、高いmosスコアを保持することができる。 アブレーション研究では、複数のステージと複数のコードブックが高いTS性能を達成するのに有効であることが示されている。

We propose a Multi-Stage, Multi-Codebook (MSMC) approach to high-performance neural TTS synthesis. A vector-quantized, variational autoencoder (VQ-VAE) based feature analyzer is used to encode Mel spectrograms of speech training data by down-sampling progressively in multiple stages into MSMC Representations (MSMCRs) with different time resolutions, and quantizing them with multiple VQ codebooks, respectively. Multi-stage predictors are trained to map the input text sequence to MSMCRs progressively by minimizing a combined loss of the reconstruction Mean Square Error (MSE) and "triplet loss". In synthesis, the neural vocoder converts the predicted MSMCRs into final speech waveforms. The proposed approach is trained and tested with an English TTS database of 16 hours by a female speaker. The proposed TTS achieves an MOS score of 4.41, which outperforms the baseline with an MOS of 3.62. Compact versions of the proposed TTS with much less parameters can still preserve high MOS scores. Ablation studies show that both multiple stages and multiple codebooks are effective for achieving high TTS performance.
翻訳日:2022-09-23 14:20:10 公開日:2022-09-22
# 並列レーティングデータと反対称ツインニューラルネットワークを用いたTS音声刺激のペアワイズ選好予測

Predicting pairwise preferences between TTS audio stimuli using parallel ratings data and anti-symmetric twin neural networks ( http://arxiv.org/abs/2209.11003v1 )

ライセンス: Link先を確認
Cassia Valentini-Botinhao, Manuel Sam Ribeiro, Oliver Watts, Korin Richmond, Gustav Eje Henter(参考訳) 主観的聴力テストの結果を自動的に予測することは難しい課題である。 好みが聞き手間で一致していても、評価は人によって異なる場合がある。 先行研究は、個々の刺激に対する聞き手の評価(意見スコア)の予測に重点を置いてきたが、同一テキストに対して2つの音声刺激を与えられた主観的嗜好の予測をより簡単なタスクに焦点をあてている。 本稿では、対対称双対ニューラルネットワークに基づくモデルを提案し、波形のペアとそれに対応する選好スコアに基づいて学習する。 注意と繰り返されるニューラルネットの両方を探索し、ペア内の刺激が時間的整合性がないという事実を考察する。 大規模なトレーニングセットを得るために,MUSHRAテストから聴取者の評価を,ペア内の刺激が他よりも高く評価された頻度を反映した値に変換する。 具体的には、異なる話者のデータから構築された異なるTSシステムを含む5年間のMUSHRA評価から得られたデータの性能を評価する。 MOSスコアの予測を訓練した最先端モデルと比較した。

Automatically predicting the outcome of subjective listening tests is a challenging task. Ratings may vary from person to person even if preferences are consistent across listeners. While previous work has focused on predicting listeners' ratings (mean opinion scores) of individual stimuli, we focus on the simpler task of predicting subjective preference given two speech stimuli for the same text. We propose a model based on anti-symmetric twin neural networks, trained on pairs of waveforms and their corresponding preference scores. We explore both attention and recurrent neural nets to account for the fact that stimuli in a pair are not time aligned. To obtain a large training set we convert listeners' ratings from MUSHRA tests to values that reflect how often one stimulus in the pair was rated higher than the other. Specifically, we evaluate performance on data obtained from twelve MUSHRA evaluations conducted over five years, containing different TTS systems, built from data of different speakers. Our results compare favourably to a state-of-the-art model trained to predict MOS scores.
翻訳日:2022-09-23 14:19:49 公開日:2022-09-22
# U$^2$-net を用いたDice Loss関数によるCTベースエアウェイセグメンテーション

A CT-Based Airway Segmentation Using U$^2$-net Trained by the Dice Loss Function ( http://arxiv.org/abs/2209.10796v1 )

ライセンス: Link先を確認
Kunpeng Wang, Yuexi Dong, Yunpu Zeng, Zhichun Ye and Yangzhe Wang(参考訳) 胸部CT検査による気道分画は肺疾患の診断において重要な役割を担っている。 U-netアーキテクチャに基づくコンピュータ支援エアウェイセグメンテーションは、手動セグメンテーションよりも効率的で正確である。 本稿では,Dice損失関数でトレーニングされたU$^2$-netを用いて,ATM'22で提供される299のトレーニングCTスキャンに基づいて,多地点CTスキャンから気道木をモデル化する。 トレーニングから導出された唾液度確率マップを検証データに適用し、対応する気道木を抽出する。 観測の結果, 細分化された気道木の大部分は, 精度と接続性の観点から良好に振る舞うことがわかった。 非気道領域のラベル付けや除去などのリファインメントを、得られた気道ツリーモデルに適用し、バイナリー結果の最大の構成要素を表示する。

Airway segmentation from chest computed tomography scans has played an essential role in the pulmonary disease diagnosis. The computer-assisted airway segmentation based on the U-net architecture is more efficient and accurate compared to the manual segmentation. In this paper we employ the U$^2$-net trained by the Dice loss function to model the airway tree from the multi-site CT scans based on 299 training CT scans provided by the ATM'22. The derived saliency probability map from the training is applied to the validation data to extract the corresponding airway trees. The observation shows that the majority of the segmented airway trees behave well from the perspective of accuracy and connectivity. Refinements such as non-airway regions labeling and removing are applied to certain obtained airway tree models to display the largest component of the binary results.
翻訳日:2022-09-23 14:19:05 公開日:2022-09-22
# 3D PET/CTによる頭頸部腫瘍郭清

Automated head and neck tumor segmentation from 3D PET/CT ( http://arxiv.org/abs/2209.10809v1 )

ライセンス: Link先を確認
Andriy Myronenko, Md Mahfuzur Rahman Siddiquee, Dong Yang, Yufan He, Daguang Xu(参考訳) 頭頸部腫瘍セグメンテーションチャレンジ(HECKTOR)2022は、3D CTとPET画像から腫瘍とリンパ節のセグメンテーションのソリューションを比較するためのプラットフォームを提供する。 本稿では,HECKTOR 2022セグメンテーションタスクに対する解法について述べる。 すべての画像を共通の解像度に再サンプリングし、頭と首の領域をトリミングし、MONAIからSegResNetセマンティックセグメンテーションネットワークをトレーニングします。 5倍のクロスバリデーションを使用して、最適なモデルチェックポイントを選択します。 最後の応募は3ランから15モデルのアンサンブルである。 我々のソリューション(チーム名NVAUTO)は、総合ダイススコア0.78802のHECKTOR22チャレンジリーダーボードで1位を獲得しました。

Head and neck tumor segmentation challenge (HECKTOR) 2022 offers a platform for researchers to compare their solutions to segmentation of tumors and lymph nodes from 3D CT and PET images. In this work, we describe our solution to HECKTOR 2022 segmentation task. We re-sample all images to a common resolution, crop around head and neck region, and train SegResNet semantic segmentation network from MONAI. We use 5-fold cross validation to select best model checkpoints. The final submission is an ensemble of 15 models from 3 runs. Our solution (team name NVAUTO) achieves the 1st place on the HECKTOR22 challenge leaderboard with an aggregated dice score of 0.78802.
翻訳日:2022-09-23 14:18:50 公開日:2022-09-22
# CONE: 長時間ビデオの時間的接地のための効率的な粗面と有限面のアライメントフレームワーク

CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding ( http://arxiv.org/abs/2209.10918v1 )

ライセンス: Link先を確認
Zhijian Hou, Wanjun Zhong, Lei Ji, Difei Gao, Kun Yan, Wing-Kwong Chan, Chong-Wah Ngo, Zheng Shou, Nan Duan(参考訳) ビデオ時間グラウンド(VTG)は、自然言語(NL)の記述に従って、未トリミングビデオ中の時間モーメントをローカライズする。 実世界のアプリケーションは、絶え間ないビデオストリームを提供するため、長大ビデオの時間的グラウンド化の要求が高まるため、(1)長大ビデオ長は、サンプルレートを低下させることなく動画全体を処理し難くし、(2)正確なマルチモーダルアライメントは、モーメント候補の数が増えるにつれてより困難である。 これらの課題に対処するため,我々は,長い形式の映像入力を高い推論速度で柔軟に処理し,より効率的なウィンドウ中心の粗モダルアライメントフレームワークであるconanを提案する。 具体的には、スライディングウィンドウアプローチにより、長いビデオを候補ウィンドウに動的にスライスする。 ウィンドウを中心に、コーン(1)は、コントラスト学習を通じてウィンドウ間意味分散を学習し、nlクエリに関連する候補ウィンドウを予めフィルタすることにより推論を高速化し、(2)コントラスト視覚テキスト事前学習モデルの強力なマルチモーダルアライメント能力を利用してウィンドウ内候補モーメントランキングを行う。 ロングビデオ用の2つの大規模なVTGベンチマークの大規模な実験は、一貫してパフォーマンスが大幅に向上し(MADは3.13%から6.87%、Ego4d-NLQは10.46%から13.46%)、CONEは両方のデータセットでSOTA結果を達成する。 Ego4d-NLQ では2倍,MAD では15倍,CONE ではSOTA 性能を維持しながら推論速度は2倍向上する。

Video temporal grounding (VTG) targets to localize temporal moments in an untrimmed video according to a natural language (NL) description. Since real-world applications provide a never-ending video stream, it raises demands for temporal grounding for long-form videos, which leads to two major challenges: (1) the long video length makes it difficult to process the entire video without decreasing sample rate and leads to high computational burden; (2) the accurate multi-modal alignment is more challenging as the number of moment candidates increases. To address these challenges, we propose CONE, an efficient window-centric COarse-to-fiNE alignment framework, which flexibly handles long-form video inputs with higher inference speed, and enhances the temporal grounding via our novel coarse-to-fine multi-modal alignment framework. Specifically, we dynamically slice the long video into candidate windows via a sliding window approach. Centering at windows, CONE (1) learns the inter-window (coarse-grained) semantic variance through contrastive learning and speeds up inference by pre-filtering the candidate windows relevant to the NL query, and (2) conducts intra-window (fine-grained) candidate moments ranking utilizing the powerful multi-modal alignment ability of a contrastive vision-text pre-trained model. Extensive experiments on two large-scale VTG benchmarks for long videos consistently show a substantial performance gain (from 3.13% to 6.87% on MAD and from 10.46% to 13.46% on Ego4d-NLQ) and CONE achieves the SOTA results on both datasets. Analysis reveals the effectiveness of components and higher efficiency in long video grounding as our system improves the inference speed by 2x on Ego4d-NLQ and 15x on MAD while keeping the SOTA performance of CONE.
翻訳日:2022-09-23 14:18:38 公開日:2022-09-22
# CNNを用いた肺CT画像からのCOVID-19検出と解析

COVID-19 Detection and Analysis From Lung CT Images using Novel Channel Boosted CNNs ( http://arxiv.org/abs/2209.10963v1 )

ライセンス: Link先を確認
Saddam Hussain Khan(参考訳) 2019年12月、中国・武漢の世界的なパンデミック(covid-19)が人間生活と世界経済に影響を及ぼした。 したがって, その拡散を制御するには効率的な診断システムが必要である。 しかし、自動診断システムは、限られた量のラベル付きデータ、小さなコントラスト変動、感染と背景の間の構造的類似性で課題を提起する。 そこで本研究では,2相ディープ畳み込みニューラルネットワーク(CNN)を用いた診断システムを提案する。 第1フェーズでは、新たにSqueezed and Boosted (SB) と拡張畳み込み型Split-Transform-Merge (STM) ブロックを組み込んだ新しいSB-STM-BRNet CNNが提案されている。 新しいSTMブロックはマルチパス領域平滑化と境界操作を実行し、小さなコントラストの変化とグローバルなCOVID-19パターンの学習に役立った。 さらに,STMブロックのSBとTransfer Learningの概念を用いて,新型コロナウイルス特異的画像と健康画像のテクスチャ変化を学習する。 第2段階では、covid-19感染地域を特定し分析するために、covid-19-cb-reseg segmentation cnnに新型コロナウイルス感染の画像が提供される。 提案したCOVID-CB-RESegは、各エンコーダおよびデコーダブロックの補助チャネルを用いて、地域均質性、異質性操作、チャネルブースティングを用いて、新型コロナウイルス感染領域の低照度と境界を同時に学習する。 提案した診断システムは、精度が98.21 %、Fスコアが98.24%、Dice similarityが96.40 %、IOUが98.85 %である。 提案する診断システムは、迅速かつ正確なcovid-19診断に対する放射線科医の判断を強化し、負担を軽減する。

In December 2019, the global pandemic COVID-19 in Wuhan, China, affected human life and the worldwide economy. Therefore, an efficient diagnostic system is required to control its spread. However, the automatic diagnostic system poses challenges with a limited amount of labeled data, minor contrast variation, and high structural similarity between infection and background. In this regard, a new two-phase deep convolutional neural network (CNN) based diagnostic system is proposed to detect minute irregularities and analyze COVID-19 infection. In the first phase, a novel SB-STM-BRNet CNN is proposed, incorporating a new channel Squeezed and Boosted (SB) and dilated convolutional-based Split-Transform-Merge (STM) block to detect COVID-19 infected CT lungs images. The new STM blocks performed multi-path region-smoothing and boundary operations, which helped to learn minor contrast variation and global COVID-19 specific patterns. Furthermore, the diverse boosted channels are achieved using the SB and Transfer Learning concepts in STM blocks to learn texture variation between COVID-19-specific and healthy images. In the second phase, COVID-19 infected images are provided to the novel COVID-CB-RESeg segmentation CNN to identify and analyze COVID-19 infectious regions. The proposed COVID-CB-RESeg methodically employed region-homogeneity, heterogeneity operations, and channel boosting using auxiliary channels in each encoder and decoder block to simultaneously learn the low illumination and boundaries of the COVID-19 infected region. The proposed diagnostic system yields good performance in terms of accuracy: 98.21 %, F-score: 98.24%, Dice Similarity: 96.40 %, and IOU: 98.85 % for the COVID-19 infected region. The proposed diagnostic system would reduce the burden and strengthen the radiologist's decision for a fast and accurate COVID-19 diagnosis.
翻訳日:2022-09-23 14:17:55 公開日:2022-09-22
# DLUNet:マルチ組織セグメンテーションのための半教師付き学習ベースデュアルライトUNet

DLUNet: Semi-supervised Learning based Dual-Light UNet for Multi-organ Segmentation ( http://arxiv.org/abs/2209.10984v1 )

ライセンス: Link先を確認
Haoran Lai and Tao Wang and Shuoling Zhou(参考訳) 腹部多臓器の手動的根拠は労働集約的である。 ctデータをフル活用するために,半教師付き学習型デュアルライトunetを開発した。 トレーニングフェーズでは、2つの軽量ユニセットで構成され、一貫した学習を用いてラベルとラベルなしデータを同時に活用する。 さらに,計算コストを低減すべく,分離可能な畳み込みと残留畳み込みを導入した。 さらに, 性能向上のためにロバストなセグメンテーション損失を適用した。 推論フェーズでは、軽量なUNetのみを使用し、低コストでGPUメモリ使用率が低下する。 この検証セットにおける平均 dsc は 0.8718 である。 コードはhttps://github.com/laihaoran/semi-supervisednnunetで入手できる。

The manual ground truth of abdominal multi-organ is labor-intensive. In order to make full use of CT data, we developed a semi-supervised learning based dual-light UNet. In the training phase, it consists of two light UNets, which make full use of label and unlabeled data simultaneously by using consistent-based learning. Moreover, separable convolution and residual concatenation was introduced light UNet to reduce the computational cost. Further, a robust segmentation loss was applied to improve the performance. In the inference phase, only a light UNet is used, which required low time cost and less GPU memory utilization. The average DSC of this method in the validation set is 0.8718. The code is available in https://github.com/laihaoran/Semi-SupervisednnUNet.
翻訳日:2022-09-23 14:17:19 公開日:2022-09-22
# リアルなライダーをシミュレートする学習

Learning to Simulate Realistic LiDARs ( http://arxiv.org/abs/2209.10986v1 )

ライセンス: Link先を確認
Benoit Guillard, Sai Vemprala, Jayesh K. Gupta, Ondrej Miksik, Vibhav Vineet, Pascal Fua, Ashish Kapoor(参考訳) 現実的なセンサーのシミュレーションは、しばしば手作りのセンサー設計、シーン特性、物理モデリングを含む、自律システムにおけるデータ生成の難しい部分である。 そこで本研究では,リアルlidarセンサのデータ駆動シミュレーションのためのパイプラインを提案する。 実データセットから直接,RGB画像とレイドロップやポイント毎のインテンシティといった対応するLiDAR特徴とのマッピングを学習するモデルを提案する。 本モデルでは透明表面上の落下点や反射材料の強度リターンといった現実的な効果をエンコードできることを示す。 本モデルでは,市販のシミュレータソフトウェアで提供されるnaively raycasted point cloudsに適用すると,実際のlidarセンサにマッチするシーンの外観に基づいて強度を予測し,ポイントの除去によりデータを強化する。 我々は2つの異なるLiDARセンサのモデルを学習し、それに従ってシミュレーションされたLiDARデータを改善する。 車両セグメンテーションのサンプルタスクを通して,本手法によるシミュレーション点雲の強化により,下流作業性能が向上することを示す。

Simulating realistic sensors is a challenging part in data generation for autonomous systems, often involving carefully handcrafted sensor design, scene properties, and physics modeling. To alleviate this, we introduce a pipeline for data-driven simulation of a realistic LiDAR sensor. We propose a model that learns a mapping between RGB images and corresponding LiDAR features such as raydrop or per-point intensities directly from real datasets. We show that our model can learn to encode realistic effects such as dropped points on transparent surfaces or high intensity returns on reflective materials. When applied to naively raycasted point clouds provided by off-the-shelf simulator software, our model enhances the data by predicting intensities and removing points based on the scene's appearance to match a real LiDAR sensor. We use our technique to learn models of two distinct LiDAR sensors and use them to improve simulated LiDAR data accordingly. Through a sample task of vehicle segmentation, we show that enhancing simulated point clouds with our technique improves downstream task performance.
翻訳日:2022-09-23 14:17:08 公開日:2022-09-22
# MUI-TARE: 初期位置不明の多エージェント協調探索

MUI-TARE: Multi-Agent Cooperative Exploration with Unknown Initial Position ( http://arxiv.org/abs/2209.10775v1 )

ライセンス: Link先を確認
Jingtian Yan, Xingqiao Lin, Zhongqiang Ren, Shiqi Zhao, Jieqiong Yu, Chao Cao, Peng Yin, Ji Zhang, and Sebastian Scherer(参考訳) エージェントの初期位置が不明な有界3次元環境のマルチエージェント探索は難しい課題である。 エージェントが構築したサブマップを堅牢にマージするだけでなく、迅速に環境を探索する必要がある。 攻撃的戦略は、重複が検出されたときに異なるエージェントによって構築された2つのサブマップをマージするので、重複が偽陽性で検出されたため、誤ったマージにつながる可能性があり、したがって堅牢ではない。 保守的な戦略は、あるエージェントに対して、マージ前に他のエージェントの歴史的な軌道の過度な量を再検討するように指示し、同じスペースの繰り返しの探索によって探索効率を低下させる。 サブマップマージと探索効率のロバストさをインテリジェントにバランスさせるために,サブマップマージプロセスの品質指標に基づいて,あるエージェントに対して,別のエージェントの軌道を \emph{adaptive} で繰り返すことができるライダーベースのマルチエージェント探索手法を開発した。 さらに,最近の単一エージェント階層的探索戦略を複数のエージェントに拡張し,統合されたサブマップを持つエージェントの探索を計画し,探索効率をさらに向上させる。 実験の結果,提案手法は平均値のベースラインよりも最大50倍効率が高く,サブマップを頑健にマージすることがわかった。

Multi-agent exploration of a bounded 3D environment with unknown initial positions of agents is a challenging problem. It requires quickly exploring the environments as well as robustly merging the sub-maps built by the agents. We take the view that the existing approaches are either aggressive or conservative: Aggressive strategies merge two sub-maps built by different agents together when overlap is detected, which can lead to incorrect merging due to the false-positive detection of the overlap and is thus not robust. Conservative strategies direct one agent to revisit an excessive amount of the historical trajectory of another agent for verification before merging, which can lower the exploration efficiency due to the repeated exploration of the same space. To intelligently balance the robustness of sub-map merging and exploration efficiency, we develop a new approach for lidar-based multi-agent exploration, which can direct one agent to repeat another agent's trajectory in an \emph{adaptive} manner based on the quality indicator of the sub-map merging process. Additionally, our approach extends the recent single-agent hierarchical exploration strategy to multiple agents in a \emph{cooperative} manner by planning for agents with merged sub-maps together to further improve exploration efficiency. Our experiments show that our approach is up to 50\% more efficient than the baselines on average while merging sub-maps robustly.
翻訳日:2022-09-23 14:10:31 公開日:2022-09-22
# sr-gcl: コントラスト学習におけるグローバルコンテキスト強化によるセッションベースレコメンデーション

SR-GCL: Session-Based Recommendation with Global Context Enhanced Augmentation in Contrastive Learning ( http://arxiv.org/abs/2209.10807v1 )

ライセンス: Link先を確認
Eunkyu Oh, Taehun Kim, Minsoo Kim, Yunhu Ji, Sushil Khyalia(参考訳) セッションベースのレコメンデーションは、進行中のセッションに基づいて、ユーザの次の振る舞いを予測することを目的としている。 前回の作品では、セッションをアイテムのシーケンスの可変長としてモデル化し、個々のアイテムと集約されたセッションの両方の表現を学ぶ。 最近の研究は、セッションをグラフ構造化データにモデル化することで、複雑なアイテム遷移と依存関係をキャプチャするための注意機構を備えたグラフニューラルネットワークを適用している。 しかしながら、セッション内の疎い監視信号やノイズの多い相互作用といったデータと学習方法論の観点では、依然として根本的な課題に直面しており、サブ最適パフォーマンスにつながります。 本稿では,セッションベース推薦のための新しいコントラスト学習フレームワークSR-GCLを提案する。 コントラスト学習の重要な構成要素として,最初のセッションのセマンティクスを維持しつつ,2つのグローバルコンテキスト拡張データ拡張手法を提案する。 2つの実世界のEコマースデータセットに対する広範な実験結果は、他の最先端手法と比較して、SR-GCLの優位性を示している。

Session-based recommendations aim to predict the next behavior of users based on ongoing sessions. The previous works have been modeling the session as a variable-length of a sequence of items and learning the representation of both individual items and the aggregated session. Recent research has applied graph neural networks with an attention mechanism to capture complicated item transitions and dependencies by modeling the sessions into graph-structured data. However, they still face fundamental challenges in terms of data and learning methodology such as sparse supervision signals and noisy interactions in sessions, leading to sub-optimal performance. In this paper, we propose SR-GCL, a novel contrastive learning framework for a session-based recommendation. As a crucial component of contrastive learning, we propose two global context enhanced data augmentation methods while maintaining the semantics of the original session. The extensive experiment results on two real-world E-commerce datasets demonstrate the superiority of SR-GCL as compared to other state-of-the-art methods.
翻訳日:2022-09-23 14:10:06 公開日:2022-09-22
# 医療におけるプロセスモデリングとコンフォーマンスチェック:新型コロナのケーススタディ

Process Modeling and Conformance Checking in Healthcare: A COVID-19 Case Study ( http://arxiv.org/abs/2209.10897v1 )

ライセンス: Link先を確認
Elisabetta Benevento, Marco Pegoraro, Mattia Antoniazzi, Harry H. Beyel, Viki Peeva, Paul Balfanz, Wil M.P. van der Aalst, Lukas Martin, Gernot Marx(参考訳) プロセスマイニングの分野は、医療分野への応用が成功した実績があります。 このような研究分野において,ドイツのユニクリニック・アーヘン病院の集中治療室(icu)病棟について事例研究を行った。 本研究の目的は,covid-19患者に対する臨床ガイドラインを表わす規範モデルの開発と,そのガイドラインに対する観察行動(病院情報システムに記録されている)の遵守度の分析である。 本研究は、適合性検査技術を用いて、新型コロナウイルス患者のケア過程を解析し、臨床ガイドラインの主な逸脱を浮き彫りにすることができることを示す。 その結果、医師はプロセスを改善し、サービス品質と患者満足度を確保するのに有用な指標が得られた。 結果のモデルをオープンソースBPMNファイルとして共有しています。

The discipline of process mining has a solid track record of successful applications to the healthcare domain. Within such research space, we conducted a case study related to the Intensive Care Unit (ICU) ward of the Uniklinik Aachen hospital in Germany. The aim of this work is twofold: developing a normative model representing the clinical guidelines for the treatment of COVID-19 patients, and analyzing the adherence of the observed behavior (recorded in the information system of the hospital) to such guidelines. We show that, through conformance checking techniques, it is possible to analyze the care process for COVID-19 patients, highlighting the main deviations from the clinical guidelines. The results provide physicians with useful indications for improving the process and ensuring service quality and patient satisfaction. We share the resulting model as an open-source BPMN file.
翻訳日:2022-09-23 14:09:53 公開日:2022-09-22
# 不均一自律ロボットの能力とスキルモデル

A Capability and Skill Model for Heterogeneous Autonomous Robots ( http://arxiv.org/abs/2209.10900v1 )

ライセンス: Link先を確認
Luis Miguel Vieira da Silva, Aljosha K\"ocher, Alexander Fay(参考訳) 不均一な自律ロボットのチームは、様々な複雑なタスクの促進により、ますます重要になる。 このような異種ロボットには、各ロボットが提供する機能を記述する一貫した方法がない。 製造分野では、能力モデリングは異なる機械によって提供される意味論的関数をモデル化するための有望なアプローチであると考えられている。 この貢献は、生産から自律ロボットの分野へ能力モデルを適用・拡張する方法を調査し、そのような能力モデルへのアプローチを提示している。

Teams of heterogeneous autonomous robots become increasingly important due to their facilitation of various complex tasks. For such heterogeneous robots, there is currently no consistent way of describing the functions that each robot provides. In the field of manufacturing, capability modeling is considered a promising approach to semantically model functions provided by different machines. This contribution investigates how to apply and extend capability models from manufacturing to the field of autonomous robots and presents an approach for such a capability model.
翻訳日:2022-09-23 14:09:41 公開日:2022-09-22
# マルチエージェント環境における学習エージェントの開発・評価・スケーリング

Developing, Evaluating and Scaling Learning Agents in Multi-Agent Environments ( http://arxiv.org/abs/2209.10958v1 )

ライセンス: Link先を確認
Ian Gemp, Thomas Anthony, Yoram Bachrach, Avishkar Bhoopchand, Kalesha Bullard, Jerome Connor, Vibhavari Dasagi, Bart De Vylder, Edgar Duenez-Guzman, Romuald Elie, Richard Everett, Daniel Hennes, Edward Hughes, Mina Khan, Marc Lanctot, Kate Larson, Guy Lever, Siqi Liu, Luke Marris, Kevin R. McKee, Paul Muller, Julien Perolat, Florian Strub, Andrea Tacchetti, Eugene Tarassov, Zhe Wang, Karl Tuyls(参考訳) deepmindのgame theory & multi-agentチームは、計算近似からゲーム理論の基本概念、リッチな空間環境における社会的ジレンマのシミュレーション、難しいチームコーディネーションタスクにおける3次元ヒューマノイドのトレーニングまで、マルチエージェント学習のいくつかの側面を研究している。 私たちのグループの重要な目的は、DeepMindで利用可能なリソースと専門知識を使って、複雑な環境でマルチエージェントシステムを探索し、これらのベンチマークを使用して理解を深めることです。 ここでは,我々のチームの最近の成果を要約し,マルチエージェント研究における多くの重要なオープン課題を浮き彫りにする分類法を紹介する。

The Game Theory & Multi-Agent team at DeepMind studies several aspects of multi-agent learning ranging from computing approximations to fundamental concepts in game theory to simulating social dilemmas in rich spatial environments and training 3-d humanoids in difficult team coordination tasks. A signature aim of our group is to use the resources and expertise made available to us at DeepMind in deep reinforcement learning to explore multi-agent systems in complex environments and use these benchmarks to advance our understanding. Here, we summarise the recent work of our team and present a taxonomy that we feel highlights many important open challenges in multi-agent research.
翻訳日:2022-09-23 14:09:34 公開日:2022-09-22
# オントロジ・リシェーピングを用いた知識グラフを用いた問合せに基づく産業分析

Query-based Industrial Analytics over Knowledge Graphs with Ontology Reshaping ( http://arxiv.org/abs/2209.11089v1 )

ライセンス: Link先を確認
Zhuoxun Zheng, Baifan Zhou, Dongzhuoran Zhou, Gong Cheng, Ernesto Jim\'enez-Ruiz, Ahmet Soylu, Evgeny Kharlamo(参考訳) 機器診断や異常検出を含む産業分析は、異種生産データの統合に大きく依存している。 データフォーマットとしての知識グラフ(KG)と統一データスキーマとしてのオントロジーは、高品質なデータ統合を提供し、データを交換し、その上で分析アプリケーションを階層化する便利な方法である。 しかし、それらと産業データとの間の高度なミスマッチのオントロジーの貧弱な設計は、産業分析の採用とスケーラビリティを阻害する品質の低いKGを自然に引き起こす。 実際、このようなKGは、ユーザのためのクエリを書くためのトレーニング時間を大幅に増加させ、冗長な情報のために大量のストレージを消費し、メンテナンスと更新が困難である。 この問題に対処するために,オントロジをKGスキーマに変換するオントロジ変換手法を提案する。 このポスターでは、現在進行中の研究の予備的な議論を行い、Boschの実際の業界データに関する豊富なSPARQLクエリを用いて我々のアプローチを評価し、その結果について論じます。

Industrial analytics that includes among others equipment diagnosis and anomaly detection heavily relies on integration of heterogeneous production data. Knowledge Graphs (KGs) as the data format and ontologies as the unified data schemata are a prominent solution that offers high quality data integration and a convenient and standardised way to exchange data and to layer analytical applications over it. However, poor design of ontologies of high degree of mismatch between them and industrial data naturally lead to KGs of low quality that impede the adoption and scalability of industrial analytics. Indeed, such KGs substantially increase the training time of writing queries for users, consume high volume of storage for redundant information, and are hard to maintain and update. To address this problem we propose an ontology reshaping approach to transform ontologies into KG schemata that better reflect the underlying data and thus help to construct better KGs. In this poster we present a preliminary discussion of our on-going research, evaluate our approach with a rich set of SPARQL queries on real-world industry data at Bosch and discuss our findings.
翻訳日:2022-09-23 14:09:22 公開日:2022-09-22
# 視覚クアドロレータナビゲーションのための並列強化学習シミュレーション

Parallel Reinforcement Learning Simulation for Visual Quadrotor Navigation ( http://arxiv.org/abs/2209.11094v1 )

ライセンス: Link先を確認
Jack Saunders, Sajad Saeedi, Wenbin Li(参考訳) 強化学習(Reinforcement Learning、RL)は、ロボットに物理的な世界の中をナビゲートするように教えるエージェントベースのアプローチである。 rlのデータ収集は大変な作業であり、実世界の実験は危険である。 シミュレータは、より迅速でコスト効率の良い方法でトレーニングデータの収集を容易にする。 しかし、rlはエージェントが単純なタスクで巧みになるためにかなりの数のシミュレーションステップを頻繁に必要とします。 これはrlベースの視覚四角形ナビゲーションの分野において一般的な問題であり、状態次元は一般的に非常に大きく、動的モデルは複雑である。 さらに、画像のレンダリングやエージェントの物理的特性の取得は、計算コストがかかる。 そこで本研究では,AirSim上に構築された並列学習を効率的に行うシミュレーションフレームワークを提案する。 このフレームワークに基づいてApe-Xは、多数のネットワークコンピュータを利用するためにAirSim環境の分散トレーニングを組み込むように修正されている。 実験により、上記のフレームワークと74のエージェントと2つのネットワークコンピュータを使用して、トレーニング時間を3.9時間から11分に短縮することができた。 プロジェクトに関するgithubリポジトリやビデオを含む詳細はhttps://sites.google.com/view/prl4airsim/home.comで確認できます。

Reinforcement learning (RL) is an agent-based approach for teaching robots to navigate within the physical world. Gathering data for RL is known to be a laborious task, and real-world experiments can be risky. Simulators facilitate the collection of training data in a quicker and more cost-effective manner. However, RL frequently requires a significant number of simulation steps for an agent to become skilful at simple tasks. This is a prevalent issue within the field of RL-based visual quadrotor navigation where state dimensions are typically very large and dynamic models are complex. Furthermore, rendering images and obtaining physical properties of the agent can be computationally expensive. To solve this, we present a simulation framework, built on AirSim, which provides efficient parallel training. Building on this framework, Ape-X is modified to incorporate decentralised training of AirSim environments to make use of numerous networked computers. Through experiments we were able to achieve a reduction in training time from 3.9 hours to 11 minutes using the aforementioned framework and a total of 74 agents and two networked computers. Further details including a github repo and videos about our project, PRL4AirSim, can be found at https://sites.google.com/view/prl4airsim/home
翻訳日:2022-09-23 14:09:04 公開日:2022-09-22
# 模擬物体軌道とプレグラフからのデキスタスマニピュレーションの学習

Learning Dexterous Manipulation from Exemplar Object Trajectories and Pre-Grasps ( http://arxiv.org/abs/2209.11221v1 )

ライセンス: Link先を確認
Sudeep Dasari, Abhinav Gupta, Vikash Kumar(参考訳) さまざまなオブジェクトによる多様なデクスターな操作の動作を学ぶことは、まだ大きな課題です。 ポリシー学習手法はこの問題に対処するための強力な手段を提供するが、それらはタスクごとのエンジニアリングとアルゴリズムのチューニングを必要とする。 本稿では,タスク固有の推論やハイパーパラメータチューニングを必要とせず,多様なデクスタース操作行動を生成するpgdm(pre-grasp informed dexterous manipulation)フレームワークを開発することにより,これらの制約を回避しようとする。 PGDMの中核は、よく知られたロボット構造であるプレグラス(即ち、オブジェクトの相互作用のための手動準備)である。 この単純なプリミティブは、複雑な操作行動を取得するための効率的な探索戦略を誘導するのに十分である。 これらの主張を徹底的に検証するために、複数のオブジェクトとデキスタスマニピュレータ上で定義された50の多様な操作タスクのベンチマークであるTCDMを紹介する。 TCDMのタスクは、様々なソース(アニメーター、人間の振る舞いなど)からの典型的なオブジェクトトラジェクトリを使用して、タスクごとのエンジニアリングや監督なしに自動的に定義される。 実験の結果,PGDMの探索戦略は驚くほど単純な成分(シングルプレグレープポーズ)によって引き起こされるものであり,従来の手法と同等であり,高いタスク毎の機能/リワードエンジニアリング,専門家の監督,ハイパーパラメータチューニングが必要であった。 アニメーション、トレーニングされたポリシー、プロジェクトコードについては、https://pregrasps.github.io/を参照してください。

Learning diverse dexterous manipulation behaviors with assorted objects remains an open grand challenge. While policy learning methods offer a powerful avenue to attack this problem, they require extensive per-task engineering and algorithmic tuning. This paper seeks to escape these constraints, by developing a Pre-Grasp informed Dexterous Manipulation (PGDM) framework that generates diverse dexterous manipulation behaviors, without any task-specific reasoning or hyper-parameter tuning. At the core of PGDM is a well known robotics construct, pre-grasps (i.e. the hand-pose preparing for object interaction). This simple primitive is enough to induce efficient exploration strategies for acquiring complex dexterous manipulation behaviors. To exhaustively verify these claims, we introduce TCDM, a benchmark of 50 diverse manipulation tasks defined over multiple objects and dexterous manipulators. Tasks for TCDM are defined automatically using exemplar object trajectories from various sources (animators, human behaviors, etc.), without any per-task engineering and/or supervision. Our experiments validate that PGDM's exploration strategy, induced by a surprisingly simple ingredient (single pre-grasp pose), matches the performance of prior methods, which require expensive per-task feature/reward engineering, expert supervision, and hyper-parameter tuning. For animated visualizations, trained policies, and project code, please refer to: https://pregrasps.github.io/
翻訳日:2022-09-23 14:08:45 公開日:2022-09-22
# homophoneが真実を語る: speech2vecの現実チェック

Homophone Reveals the Truth: A Reality Check for Speech2Vec ( http://arxiv.org/abs/2209.10791v1 )

ライセンス: Link先を確認
Guangyu Chen(参考訳) 意味的情報を持つ音声単語埋め込みの生成は興味深い話題である。 テキストベースの埋め込みと比較すると、よりリッチな情報を提供し、ASRや音声翻訳システムを改善するのに有用な音声的特徴と意味的特徴の両方をカバーしている。 本稿では,本分野における基礎研究の真正性,すなわちSpeech2Vecについて検討する。 まず,Speech2Vecの著者がリリースした音声埋め込みをチェックするために,ホモフォンによる検査手法を提案する。 これらの埋め込みがSpeech2Vecモデルによって生成されるという兆候はない。 さらに、語彙構成のさらなる分析を通じて、テキストベースのモデルがこれらの埋め込みを構成すると疑う。 最後に,本論文における公式コードと最適設定を参照して,Speech2Vecモデルを再現する。 実験の結果、このモデルは効果的なセマンティック埋め込みを学習できなかった。 単語類似性ベンチマークでは、MENでは0.08、WS-353-SIMテストでは0.15の相関スコアが与えられ、元の論文より0.5以上低い。 データとコードは利用可能です。

Generating spoken word embeddings that possess semantic information is a fascinating topic. Compared with text-based embeddings, they cover both phonetic and semantic characteristics, which can provide richer information and are potentially helpful for improving ASR and speech translation systems. In this paper, we review and examine the authenticity of a seminal work in this field: Speech2Vec. First, a homophone-based inspection method is proposed to check the speech embeddings released by the author of Speech2Vec. There is no indication that these embeddings are generated by the Speech2Vec model. Moreover, through further analysis of the vocabulary composition, we suspect that a text-based model fabricates these embeddings. Finally, we reproduce the Speech2Vec model, referring to the official code and optimal settings in the original paper. Experiments showed that this model failed to learn effective semantic embeddings. In word similarity benchmarks, it gets a correlation score of 0.08 in MEN and 0.15 in WS-353-SIM tests, which is over 0.5 lower than those described in the original paper. Our data and code are available.
翻訳日:2022-09-23 14:08:19 公開日:2022-09-22
# 制御可能なアクセントテキスト音声合成

Controllable Accented Text-to-Speech Synthesis ( http://arxiv.org/abs/2209.10804v1 )

ライセンス: Link先を確認
Rui Liu, Berrak Sisman, Guanglai Gao, Haizhou Li(参考訳) accented text-to-speech (tts) 合成は、標準バージョン (l1) の変種としてアクセント (l2) を持つ音声を生成する。 音韻レンダリングと韻律パターンの両方においてL2がL1とは異なるため、TS合成の上昇は困難である。 また、発話中のアクセント強度の制御に対する簡単な解決策はない。 本研究では、推論中にアクセントとその強度を制御できるニューラルネットワークTSアーキテクチャを提案する。 これは3つの新しいメカニズムによって達成される。 1)アクセント分散適応器は,ピッチ,エネルギー,持続時間という3つの韻律制御因子により,複雑なアクセント分散をモデル化する。 2)アクセント強度を定量化するアクセント強度モデリング戦略 3) TTSシステムに期待するアクセント強度を微細なレベルでレンダリングさせるための一貫性制約モジュール。 実験により,提案システムはアクセントレンダリングと強度制御の観点から,ベースラインモデルよりも優れた性能が得られることが示された。 我々の知る限り、これは明示的な強度制御を伴うアクセント付きTS合成の最初の研究である。

Accented text-to-speech (TTS) synthesis seeks to generate speech with an accent (L2) as a variant of the standard version (L1). Accented TTS synthesis is challenging as L2 is different from L1 in both in terms of phonetic rendering and prosody pattern. Furthermore, there is no easy solution to the control of the accent intensity in an utterance. In this work, we propose a neural TTS architecture, that allows us to control the accent and its intensity during inference. This is achieved through three novel mechanisms, 1) an accent variance adaptor to model the complex accent variance with three prosody controlling factors, namely pitch, energy and duration; 2) an accent intensity modeling strategy to quantify the accent intensity; 3) a consistency constraint module to encourage the TTS system to render the expected accent intensity at a fine level. Experiments show that the proposed system attains superior performance to the baseline models in terms of accent rendering and intensity control. To our best knowledge, this is the first study of accented TTS synthesis with explicit intensity control.
翻訳日:2022-09-23 14:08:03 公開日:2022-09-22
# mini-ELSA: 産業用Edge Lightweight Searchable Attributeベースの暗号化における、機械学習による空間効率の向上

mini-ELSA: using Machine Learning to improve space efficiency in Edge Lightweight Searchable Attribute-based encryption for Industry 4.0 ( http://arxiv.org/abs/2209.10896v1 )

ライセンス: Link先を確認
Jawhara Aljabri, Anna Lito Michala, Jeremy Singer, Ioannis Vourganas(参考訳) 以前の研究で、産業用4.0、特に産業用IoTアプリケーションをサポートするために、Edge Lightweight Searchable Attributeベースの暗号化(ELSA)法が提案された。 本稿では,エッジでの実行に適した機械学習(ML)メソッドを統合することにより,ルックアップテーブルのサイズを最小化し,データレコードを要約することにより,ELSAの改善を目指す。 この統合は、さらなる処理に付加価値を評価することによって、不要なデータのレコードを削除する。 これにより、エッジアーキテクチャのメリットを最大限に活用して、ルックアップテーブルサイズ、クラウドストレージ、ネットワークトラフィックの両方を最小化することが可能になります。 我々は、よく知られた発電所のデータセット上で、ミニELSA拡張手法を実証した。 その結果,ストレージ要件を21%削減し,実行時間を1.27倍改善した。

In previous work a novel Edge Lightweight Searchable Attribute-based encryption (ELSA) method was proposed to support Industry 4.0 and specifically Industrial Internet of Things applications. In this paper, we aim to improve ELSA by minimising the lookup table size and summarising the data records by integrating Machine Learning (ML) methods suitable for execution at the edge. This integration will eliminate records of unnecessary data by evaluating added value to further processing. Thus, resulting in the minimization of both the lookup table size, the cloud storage and the network traffic taking full advantage of the edge architecture benefits. We demonstrate our mini-ELSA expanded method on a well-known power plant dataset. Our results demonstrate a reduction of storage requirements by 21% while improving execution time by 1.27x.
翻訳日:2022-09-23 14:02:06 公開日:2022-09-22
# 視覚に基づく深層強化学習のための自己指導手法を用いた視覚変換器の事前学習

Pretraining the Vision Transformer using self-supervised methods for vision based Deep Reinforcement Learning ( http://arxiv.org/abs/2209.10901v1 )

ライセンス: Link先を確認
Manuel Goul\~ao and Arlindo L. Oliveira(参考訳) Vision Transformerアーキテクチャは、いくつかのベンチマークで畳み込みベースのネットワークを廃止したコンピュータビジョン(CV)分野での競争力を示している。 それでも、畳み込みニューラルネットワーク(CNN)は強化学習における表現モジュールの優先的なアーキテクチャである。 本研究では,最先端の自己監視手法を用いて視覚トランスフォーマーを事前訓練し,このトレーニングフレームワークによるデータ効率の向上を評価する。 tov-vicreg という自己教師付き学習手法を提案し,時間順検証タスクを付加することで観測間の時間的関係をよりよく把握できるようにvicregを拡張した。 さらに,Atariゲームを用いたエンコーダのサンプル効率評価を行った。 以上の結果から,TOV-VICRegで事前訓練したビジョントランスフォーマーは,他の自己監督手法よりも優れているが,それでもCNNの克服に苦慮していることがわかった。 それでも、我々は100kステップの評価を行う10のゲームのうち2つのゲームでCNNを上回りました。 最終的に、ディープラーニング学習(DRL)におけるこのようなアプローチが、自然言語処理やコンピュータビジョンに見られるような、新たなレベルのパフォーマンスを達成するための鍵となると信じています。 ソースコードは、https://github.com/mgoulao/TOV-VICRegで入手できる。

The Vision Transformer architecture has shown to be competitive in the computer vision (CV) space where it has dethroned convolution-based networks in several benchmarks. Nevertheless, Convolutional Neural Networks (CNN) remain the preferential architecture for the representation module in Reinforcement Learning. In this work, we study pretraining a Vision Transformer using several state-of-the-art self-supervised methods and assess data-efficiency gains from this training framework. We propose a new self-supervised learning method called TOV-VICReg that extends VICReg to better capture temporal relations between observations by adding a temporal order verification task. Furthermore, we evaluate the resultant encoders with Atari games in a sample-efficiency regime. Our results show that the vision transformer, when pretrained with TOV-VICReg, outperforms the other self-supervised methods but still struggles to overcome a CNN. Nevertheless, we were able to outperform a CNN in two of the ten games where we perform a 100k steps evaluation. Ultimately, we believe that such approaches in Deep Reinforcement Learning (DRL) might be the key to achieving new levels of performance as seen in natural language processing and computer vision. Source code will be available at: https://github.com/mgoulao/TOV-VICReg
翻訳日:2022-09-23 14:01:51 公開日:2022-09-22
# CAMRIの損失:精度を犠牲にすることなく特定のクラスのリコールを改善する

CAMRI Loss: Improving Recall of a Specific Class without Sacrificing Accuracy ( http://arxiv.org/abs/2209.10920v1 )

ライセンス: Link先を確認
Daiki Nishiyama, Kazuto Fukuchi, Youhei Akimoto, Jun Sakuma(参考訳) 実世界のマルチクラス分類モデルの応用では、重要なクラス(例えば、停止記号)の誤分類は他のクラス(例えば、速度制限)よりも著しく有害である。 本稿では,クロスエントロピー損失を用いた場合と同様の精度を維持しつつ,重要なクラスのリコールを改善することができる損失関数を提案する。 私たちの目的のためには、重要なクラスの分離を他のクラスよりも良くする必要があります。 しかしながら、クロスエントロピー損失に対してクラス感受性のペナルティを与える既存の方法は、分離を改善しない。 一方、特徴ベクトルと各特徴に対応する最後の完全連結層の重みベクトルとの角度にマージンを与える方法は、分離を改善することができる。 そこで本研究では,重要なクラスに対してのみマージンを設定することで,重要なクラスの分離を改善することができる損失関数であるCAMRI(Class-sensitive Additive Angular Margin Loss)を提案する。 camriの損失は、その角度にペナルティを加えることにより、特徴空間の重要なクラス周辺のマージンにより、他のクラスと比較して重要なクラスの特徴と重みの間の角度のばらつきを減少させることが期待されている。 加えて、重要なクラスのみに課せられるペナルティは、他のクラスの分離を犠牲にすることはほとんどない。 CIFAR-10, GTSRB, AwA2の実験により, 提案手法は精度を犠牲にすることなく, 最大9%のリコール改善が可能であることを示した。

In real-world applications of multi-class classification models, misclassification in an important class (e.g., stop sign) can be significantly more harmful than in other classes (e.g., speed limit). In this paper, we propose a loss function that can improve the recall of an important class while maintaining the same level of accuracy as the case using cross-entropy loss. For our purpose, we need to make the separation of the important class better than the other classes. However, existing methods that give a class-sensitive penalty for cross-entropy loss do not improve the separation. On the other hand, the method that gives a margin to the angle between the feature vectors and the weight vectors of the last fully connected layer corresponding to each feature can improve the separation. Therefore, we propose a loss function that can improve the separation of the important class by setting the margin only for the important class, called Class-sensitive Additive Angular Margin Loss (CAMRI Loss). CAMRI loss is expected to reduce the variance of angles between features and weights of the important class relative to other classes due to the margin around the important class in the feature space by adding a penalty to the angle. In addition, concentrating the penalty only on the important classes hardly sacrifices the separation of the other classes. Experiments on CIFAR-10, GTSRB, and AwA2 showed that the proposed method could improve up to 9% recall improvement on cross-entropy loss without sacrificing accuracy.
翻訳日:2022-09-23 14:01:30 公開日:2022-09-22
# XClusters: 説明可能性優先のクラスタリング

XClusters: Explainability-first Clustering ( http://arxiv.org/abs/2209.10956v1 )

ライセンス: Link先を確認
Hyunseung Hwang, Steven Euijong Whang(参考訳) 本稿では,クラスタリングにおいて説明可能性が第一級市民となる,説明可能性優先クラスタリングの問題について検討する。 以前のクラスタリングアプローチでは、説明に決定木を使用しているが、クラスタリングが完了した後のみである。 これとは対照的に,決定木の性能とサイズがクラスタリング結果に影響を及ぼすようなクラスタリングと決定木トレーニングを行う。 クラスタリングと説明の属性は別物だと仮定していますが、これは必要ありません。 対象関数がモノトニック関数の差であるようなモノトニック最適化が問題であることを示す。 そこで我々は,クラスタの歪みと決定木の説明可能性のバランスを導く最適なパラメータを見つけるための効率的な分岐結合アルゴリズムを提案する。 実験の結果,本手法はフレームワークに適合するクラスタリングの説明可能性を向上させることができることがわかった。

We study the problem of explainability-first clustering where explainability becomes a first-class citizen for clustering. Previous clustering approaches use decision trees for explanation, but only after the clustering is completed. In contrast, our approach is to perform clustering and decision tree training holistically where the decision tree's performance and size also influence the clustering results. We assume the attributes for clustering and explaining are distinct, although this is not necessary. We observe that our problem is a monotonic optimization where the objective function is a difference of monotonic functions. We then propose an efficient branch-and-bound algorithm for finding the best parameters that lead to a balance of cluster distortion and decision tree explainability. Our experiments show that our method can improve the explainability of any clustering that fits in our framework.
翻訳日:2022-09-23 14:01:04 公開日:2022-09-22
# 近位点模倣学習

Proximal Point Imitation Learning ( http://arxiv.org/abs/2209.10968v1 )

ライセンス: Link先を確認
Luca Viano and Angeliki Kamoutsi and Gergely Neu and Igor Krawczuk and Volkan Cevher(参考訳) この研究は、制限的コヒーレンス仮定を伴わない線形関数近似による無限水平模倣学習(IL)のための厳密な効率を保証する新しいアルゴリズムを開発する。 まず,問題のminimax定式化から始めて,最適化,特にppm(proximal-point method)とdual smoothing(オンラインおよびオフラインil)による古典的ツールの活用方法について概説する。 PPMのおかげで、以前の文献に現れるオンラインILのネストされたポリシー評価やコスト更新を避けることができる。 特に、コストとq関数の両方に対して単一の凸と滑らかな目的を最適化することで、従来の交互更新を廃止する。 非現実的に解くと、最適化誤差は回復したポリシーの最適化性に関連づける。 付加的なボーナスとして、PPMをエキスパートポリシーを中心点とする二重平滑化として再解釈することにより、必要な専門家軌道の理論的保証を享受するオフラインILアルゴリズムを得る。 最後に,線形およびニューラルネット機能近似の実証的な性能を実現する。

This work develops new algorithms with rigorous efficiency guarantees for infinite horizon imitation learning (IL) with linear function approximation without restrictive coherence assumptions. We begin with the minimax formulation of the problem and then outline how to leverage classical tools from optimization, in particular, the proximal-point method (PPM) and dual smoothing, for online and offline IL, respectively. Thanks to PPM, we avoid nested policy evaluation and cost updates for online IL appearing in the prior literature. In particular, we do away with the conventional alternating updates by the optimization of a single convex and smooth objective over both cost and Q-functions. When solved inexactly, we relate the optimization errors to the suboptimality of the recovered policy. As an added bonus, by re-interpreting PPM as dual smoothing with the expert policy as a center point, we also obtain an offline IL algorithm enjoying theoretical guarantees in terms of required expert trajectories. Finally, we achieve convincing empirical performance for both linear and neural network function approximation.
翻訳日:2022-09-23 14:00:50 公開日:2022-09-22
# 逆強化学習における複数の専門家の識別可能性と一般化可能性

Identifiability and generalizability from multiple experts in Inverse Reinforcement Learning ( http://arxiv.org/abs/2209.10974v1 )

ライセンス: Link先を確認
Paul Rolland, Luca Viano, Norman Schuerhoff, Boris Nikolov, Volkan Cevher(参考訳) 強化学習(Reinforcement Learning, RL)は、与えられた環境における報酬関数からエージェントを訓練することを目的としているが、逆強化学習(IRL)は専門家の行動を観察することから報酬関数を回復しようとする。 一般に、様々な報酬関数が同じ最適ポリシーにつながることが知られており、したがってIRLは不定義である。 しかし (Cao et al., 2021) は、異なる割引要因を持つ2人以上の専門家を観察したり、異なる環境で行動する場合、報酬関数は一定の条件下で一定まで特定できることを示した。 この作業は、ランク条件に基づいて表型MDPの複数の専門家による同等の識別可能性のステートメントを示すことから始まり、容易に検証でき、必要であることが示される。 その結果を様々なシナリオに拡張し、例えば、報酬関数が与えられた特徴の線形結合として表現できる場合や、近似遷移行列へのアクセスがある場合の報酬識別性を特徴付ける。 報酬が特定できない場合でも、与えられた環境における複数の専門家のデータによって、新しい環境における最適なエージェントを一般化し、訓練することができる場合に特徴付ける条件を提供する。 報酬の識別性と一般化性に関する理論的結果は,様々な数値実験で検証された。

While Reinforcement Learning (RL) aims to train an agent from a reward function in a given environment, Inverse Reinforcement Learning (IRL) seeks to recover the reward function from observing an expert's behavior. It is well known that, in general, various reward functions can lead to the same optimal policy, and hence, IRL is ill-defined. However, (Cao et al., 2021) showed that, if we observe two or more experts with different discount factors or acting in different environments, the reward function can under certain conditions be identified up to a constant. This work starts by showing an equivalent identifiability statement from multiple experts in tabular MDPs based on a rank condition, which is easily verifiable and is shown to be also necessary. We then extend our result to various different scenarios, i.e., we characterize reward identifiability in the case where the reward function can be represented as a linear combination of given features, making it more interpretable, or when we have access to approximate transition matrices. Even when the reward is not identifiable, we provide conditions characterizing when data on multiple experts in a given environment allows to generalize and train an optimal agent in a new environment. Our theoretical results on reward identifiability and generalizability are validated in various numerical experiments.
翻訳日:2022-09-23 14:00:35 公開日:2022-09-22
# 制約学習による最適化による反事実説明

Counterfactual Explanations Using Optimization With Constraint Learning ( http://arxiv.org/abs/2209.10997v1 )

ライセンス: Link先を確認
Donato Maragno, Tabea E. R\"ober, Ilker Birbil(参考訳) カウンターファクトの説明は、機械学習コミュニティから注目を集めている多くの解釈可能性技術の1つである。 モデル予測をユーザにとってより賢明にするためのポテンシャルは、貴重であると考えられる。 実際の採用を増やすために、反事実的な説明を遵守すべきいくつかの基準が文献に提示された。 制約学習を用いた最適化(CE-OCL)を用いて,これらすべての基準に対処し,さらなる拡張の余地を許容する汎用的かつ柔軟なアプローチを提案する。 具体的には,制約学習フレームワークを用いた制約学習フレームワークを用いて,対実的説明を生成する方法と,このフレームワークのコンポーネントが基準に容易に対応できる方法について論じる。 また,データ多様体の近さと多様性に対処するための2つの新しいモデリング手法を提案する。 CE-OCLをいくつかのデータセットでテストし,その結果をケーススタディで示す。 現在の最先端の手法と比較すると、CE-OCLはより柔軟性があり、関連する作業で提案されたいくつかの評価指標に関して総合的に優れた性能を持つ。

Counterfactual explanations embody one of the many interpretability techniques that receive increasing attention from the machine learning community. Their potential to make model predictions more sensible to the user is considered to be invaluable. To increase their adoption in practice, several criteria that counterfactual explanations should adhere to have been put forward in the literature. We propose counterfactual explanations using optimization with constraint learning (CE-OCL), a generic and flexible approach that addresses all these criteria and allows room for further extensions. Specifically, we discuss how we can leverage an optimization with constraint learning framework for the generation of counterfactual explanations, and how components of this framework readily map to the criteria. We also propose two novel modeling approaches to address data manifold closeness and diversity, which are two key criteria for practical counterfactual explanations. We test CE-OCL on several datasets and present our results in a case study. Compared against the current state-of-the-art methods, CE-OCL allows for more flexibility and has an overall superior performance in terms of several evaluation metrics proposed in related work.
翻訳日:2022-09-23 14:00:12 公開日:2022-09-22
# コンピューティングとネットワーク収束オーケストレーションにおける強化学習

Reinforcement Learning in Computing and Network Convergence Orchestration ( http://arxiv.org/abs/2209.10753v1 )

ライセンス: Link先を確認
Aidong Yang, Mohan Wu, Boquan Cheng, Xiaozhou Ye, Ye Ouyang(参考訳) コンピューティングパワーがデジタルエコノミー時代の中核的な生産性を増すにつれ、ネットワークリソースとコンピューティングリソースを動的にスケジュールし、ユーザのニーズに応じて割り当てるCNC(Computer and Network Convergence)の概念が提案され、広く注目されている。 タスクの特性に基づいて、ネットワークオーケストレーションプレーンは、タスクを適切な計算ノードに柔軟にデプロイし、計算ノードへのパスを配置する必要があります。 これは、リソーススケジューリングとパスアレンジメントを含むオーケストレーションの問題です。 CNCは比較的新しく,本論文ではCNCに関するいくつかの研究と応用について概説する。 そこで我々は,コンピュータリソースやネットワークリソースを柔軟に割り当て,スケジュールする,最初の試みである強化学習(RL)を用いたCNCオーケストレーション手法を設計する。 高い利益と低レイテンシを目標としています 一方で,マルチファクタを用いて最適化目標を決定し,コストや利益,レイテンシ,システムの過負荷といったさまざまな側面から,オーケストレーション戦略を最適化できるようにしています。 提案手法は, グリーディ法, ランダム選択法, バランスドリソース法よりも高い利益と低レイテンシを実現できることを示す。 RLがCNCオーケストレーションに適していることを実証する。 本稿では,CNCオーケストレーションにおけるRLアプリケーションについて述べる。

As computing power is becoming the core productivity of the digital economy era, the concept of Computing and Network Convergence (CNC), under which network and computing resources can be dynamically scheduled and allocated according to users' needs, has been proposed and attracted wide attention. Based on the tasks' properties, the network orchestration plane needs to flexibly deploy tasks to appropriate computing nodes and arrange paths to the computing nodes. This is a orchestration problem that involves resource scheduling and path arrangement. Since CNC is relatively new, in this paper, we review some researches and applications on CNC. Then, we design a CNC orchestration method using reinforcement learning (RL), which is the first attempt, that can flexibly allocate and schedule computing resources and network resources. Which aims at high profit and low latency. Meanwhile, we use multi-factors to determine the optimization objective so that the orchestration strategy is optimized in terms of total performance from different aspects, such as cost, profit, latency and system overload in our experiment. The experiments shows that the proposed RL-based method can achieve higher profit and lower latency than the greedy method, random selection and balanced-resource method. We demonstrate RL is suitable for CNC orchestration. This paper enlightens the RL application on CNC orchestration.
翻訳日:2022-09-23 13:59:19 公開日:2022-09-22
# 機械学習を用いた一般的なヒト疾患の予測

Common human diseases prediction using machine learning based on survey data ( http://arxiv.org/abs/2209.10750v1 )

ライセンス: Link先を確認
Jabir Al Nahian, Abu Kaisar Mohammad Masum, Sheikh Abujar, Md. Jueal Mia(参考訳) この時代には、医学的治療の重点として、病気から遠ざかる瞬間がやって来た。 印象的なものでしたが、病気を検出するために開発された複数のテクニックがあります。 このとき、covid-19、正常インフルエンザ、片頭痛、肺疾患、心臓病、腎臓病、糖尿病、胃疾患、胃疾患、骨疾患、自閉症は、非常に一般的な疾患である。 本分析では,疾患症状を分析し,その症状に基づいて疾患予測を行った。 我々は様々な症状を調査し,その課題を完了させるために人から調査を受けた。 モデルの訓練にはいくつかの分類アルゴリズムが採用されている。 さらに、モデルの性能を測定するために性能評価行列を用いる。 最後に,部分分類器が他の部分を上回ることを発見した。

In this era, the moment has arrived to move away from disease as the primary emphasis of medical treatment. Although impressive, the multiple techniques that have been developed to detect the diseases. In this time, there are some types of diseases COVID-19, normal flue, migraine, lung disease, heart disease, kidney disease, diabetics, stomach disease, gastric, bone disease, autism are the very common diseases. In this analysis, we analyze disease symptoms and have done disease predictions based on their symptoms. We studied a range of symptoms and took a survey from people in order to complete the task. Several classification algorithms have been employed to train the model. Furthermore, performance evaluation matrices are used to measure the model's performance. Finally, we discovered that the part classifier surpasses the others.
翻訳日:2022-09-23 13:51:26 公開日:2022-09-22
# メモリ効率の良いディープニューラルネットワークトレーニングのためのネスティングフォワード自動微分

Nesting Forward Automatic Differentiation for Memory-Efficient Deep Neural Network Training ( http://arxiv.org/abs/2209.10778v1 )

ライセンス: Link先を確認
Cong Guo, Yuxian Qiu, Jingwen Leng, Chen Zhang, Ying Cao, Quanlu Zhang, Yunxin Liu, Fan Yang, Minyi Guo(参考訳) アクティベーション関数は要素的な数学的関数であり、ディープニューラルネットワーク(DNN)において重要な役割を果たす。 DNNの精度を向上させるために多くの新規で洗練されたアクティベーション関数が提案されているが、バックプロパゲーションを伴うトレーニングプロセスでは大量のメモリを消費する。 本研究では,メモリ効率の高いDNNトレーニングのための要素単位のアクティベーション機能として,ネストフォワード自動微分(フォワードAD)を提案する。 静的計算グラフと動的計算グラフをサポートするtensorflowとpytorchという2つのディープラーニングフレームワークに、ネステッドフォワードアドをデプロイしました。 評価の結果,Nested Forward-ADはメモリフットプリントをベースラインモデルよりも最大1.97倍削減し,同じメモリ削減比で再計算性能を20%向上させることがわかった。

An activation function is an element-wise mathematical function and plays a crucial role in deep neural networks (DNN). Many novel and sophisticated activation functions have been proposed to improve the DNN accuracy but also consume massive memory in the training process with back-propagation. In this study, we propose the nested forward automatic differentiation (Forward-AD), specifically for the element-wise activation function for memory-efficient DNN training. We deploy nested Forward-AD in two widely-used deep learning frameworks, TensorFlow and PyTorch, which support the static and dynamic computation graph, respectively. Our evaluation shows that nested Forward-AD reduces the memory footprint by up to 1.97x than the baseline model and outperforms the recomputation by 20% under the same memory reduction ratio.
翻訳日:2022-09-23 13:51:15 公開日:2022-09-22
# ヘテロジニアス環境におけるモデルクラスタリングと学習のためのワンショットフェデレート学習

One-Shot Federated Learning for Model Clustering and Learning in Heterogeneous Environments ( http://arxiv.org/abs/2209.10866v1 )

ライセンス: Link先を確認
Aleksandar Armacki, Dragana Bajovic, Dusan Jakovetic, Soummya Kar(参考訳) 異種環境におけるフェデレーション学習のためのコミュニケーション効率の良い手法を提案する。 システムの不均一性は、K$の異なるデータ分散の存在によって反映され、各ユーザは、K$の分布のうちの1つからデータをサンプリングする。 提案手法は,ユーザとサーバ間の通信ラウンドを1回だけ必要とし,通信コストを大幅に削減する。 さらに,提案手法は,サンプルサイズ,すなわち,同一データ分布を持つユーザに属するすべてのデータポイントを学習することによって達成されるmse保証と一致する最適な平均二乗誤差(mse)率を達成することにより,異種環境における強力な学習保証を提供する。 注目すべきは、これは基礎となる分布や真の分布数さえも必要とせずに達成されることである。 数値実験により,提案手法の性能について考察した。

We propose a communication efficient approach for federated learning in heterogeneous environments. The system heterogeneity is reflected in the presence of $K$ different data distributions, with each user sampling data from only one of $K$ distributions. The proposed approach requires only one communication round between the users and server, thus significantly reducing the communication cost. Moreover, the proposed method provides strong learning guarantees in heterogeneous environments, by achieving the optimal mean-squared error (MSE) rates in terms of the sample size, i.e., matching the MSE guarantees achieved by learning on all data points belonging to users with the same data distribution, provided that the number of data points per user is above a threshold that we explicitly characterize in terms of system parameters. Remarkably, this is achieved without requiring any knowledge of the underlying distributions, or even the true number of distributions $K$. Numerical experiments illustrate our findings and underline the performance of the proposed method.
翻訳日:2022-09-23 13:51:00 公開日:2022-09-22
# 測地ガウス保存流による正規化フローをモンジュマップに変換する

Turning Normalizing Flows into Monge Maps with Geodesic Gaussian Preserving Flows ( http://arxiv.org/abs/2209.10873v1 )

ライセンス: Link先を確認
Guillaume Morel (IMT Atlantique - ITI), Lucas Drumetz (Lab-STICC\_OSE, IMT Atlantique - MEE), Nicolas Courty (IRISA, UBS), Fran\c{c}ois Rousseau (IMT Atlantique - ITI, LaTIM)(参考訳) 正規化フロー(NF)は、複雑な密度をモデル化するために、表現性とトラクタビリティをトレードオフできる強力な可能性ベースの生成モデルである。 現在確立された研究経路は最適輸送(OT)を活用し、ソースとターゲットの分布の最小限の労力でMongeマップを探す。 本稿では,brenier の極分解定理に基づいて,訓練された nf を最終密度を変化させることなくより ot 効率の高いバージョンに変換する手法を提案する。 私たちは、ソースと最終密度の間のotコストを最小化するソース(ガウス分布)の再配置を学習することによって、そうする。 さらに、オイラー方程式による体積保存微分同相の空間における測地線上の推定モンジュ写像に至る経路をさらに制約する。 提案手法は, モデル性能に影響を与えることなく, 既存モデルのotコストを低減したスムースフローを実現する。

Normalizing Flows (NF) are powerful likelihood-based generative models that are able to trade off between expressivity and tractability to model complex densities. A now well established research avenue leverages optimal transport (OT) and looks for Monge maps, i.e. models with minimal effort between the source and target distributions. This paper introduces a method based on Brenier's polar factorization theorem to transform any trained NF into a more OT-efficient version without changing the final density. We do so by learning a rearrangement of the source (Gaussian) distribution that minimizes the OT cost between the source and the final density. We further constrain the path leading to the estimated Monge map to lie on a geodesic in the space of volume-preserving diffeomorphisms thanks to Euler's equations. The proposed method leads to smooth flows with reduced OT cost for several existing models without affecting the model performance.
翻訳日:2022-09-23 13:50:42 公開日:2022-09-22
# スケールデータ構造保存による非負行列分解

Non-Negative Matrix Factorization with Scale Data Structure Preservation ( http://arxiv.org/abs/2209.10881v1 )

ライセンス: Link先を確認
Rachid Hedjam, Abdelhamid Abdesselam, Abderrahmane Rahiche, Mohamed Cheriet(参考訳) 本稿では,データ表現と次元縮小のために設計された非負行列分解法に属するモデルについて述べる。 データポジニティ特性の保存に加えて、行列因子化の間、データの構造の保存も目標としている。 この考え方は、NMFコスト関数に、元のデータポイントと変換されたデータポイントのペアの類似度行列のスケール関係を課すペナルティ項を追加することである。 新しいモデルの解決策は、係数行列の新しいパラメータ化された更新スキームを導出することであり、クラスタリングや分類に使用する場合の削減データの品質を向上させることができる。 提案手法は, 既存のnmfに基づくアルゴリズムと, 実時間データセットに適用した多様体学習に基づくアルゴリズムと比較した。 その結果,提案アルゴリズムの有効性が示された。

The model described in this paper belongs to the family of non-negative matrix factorization methods designed for data representation and dimension reduction. In addition to preserving the data positivity property, it aims also to preserve the structure of data during matrix factorization. The idea is to add, to the NMF cost function, a penalty term to impose a scale relationship between the pairwise similarity matrices of the original and transformed data points. The solution of the new model involves deriving a new parametrized update scheme for the coefficient matrix, which makes it possible to improve the quality of reduced data when used for clustering and classification. The proposed clustering algorithm is compared to some existing NMF-based algorithms and to some manifold learning-based algorithms when applied to some real-life datasets. The obtained results show the effectiveness of the proposed algorithm.
翻訳日:2022-09-23 13:50:27 公開日:2022-09-22
# 直交モーメントを用いた等価ニューラルネットワークの学習不変表現

Learning Invariant Representations for Equivariant Neural Networks Using Orthogonal Moments ( http://arxiv.org/abs/2209.10944v1 )

ライセンス: Link先を確認
Jaspreet Singh, Chandan Singh(参考訳) 標準畳み込みニューラルネットワーク(CNN)の畳み込み層は、翻訳と等価である。 しかし、畳み込み層と完全連結層は他のアフィン幾何変換に同変あるいは不変ではない。 近年,従来のCNN層を同変畳み込み,プーリング,バッチ正規化層に置き換えた新しいCNNクラスが提案されている。 等価ニューラルネットワークにおける最終的な分類層は、回転、反射、変換などの異なるアフィン幾何変換に不変であり、畳み込みを用いたフィルタ応答の空間的寸法をなくすか、フィルタ応答より平均を取るかのいずれかでスカラー値を得る。 本研究では,全連結層における回転,反射,変換に関する大域的不変性を符号化する有効な手段として,関数の高次統計量を与える直交モーメントを統合することを提案する。 その結果、ネットワークの中間層は同変となり、分類層は不変となる。 最も広く使われているツェルニケ、擬ツェルニケ、直交フーリエ・メルリンモーメントはこの目的のために考えられている。 本研究の有効性は,グループ同変CNN(G-CNN)の回転MNISTおよびCIFAR10データセット上に,不変遷移層と完全連結層を統合して評価する。

The convolutional layers of standard convolutional neural networks (CNNs) are equivariant to translation. However, the convolution and fully-connected layers are not equivariant or invariant to other affine geometric transformations. Recently, a new class of CNNs is proposed in which the conventional layers of CNNs are replaced with equivariant convolution, pooling, and batch-normalization layers. The final classification layer in equivariant neural networks is invariant to different affine geometric transformations such as rotation, reflection and translation, and the scalar value is obtained by either eliminating the spatial dimensions of filter responses using convolution and down-sampling throughout the network or average is taken over the filter responses. In this work, we propose to integrate the orthogonal moments which gives the high-order statistics of the function as an effective means for encoding global invariance with respect to rotation, reflection and translation in fully-connected layers. As a result, the intermediate layers of the network become equivariant while the classification layer becomes invariant. The most widely used Zernike, pseudo-Zernike and orthogonal Fourier-Mellin moments are considered for this purpose. The effectiveness of the proposed work is evaluated by integrating the invariant transition and fully-connected layer in the architecture of group-equivariant CNNs (G-CNNs) on rotated MNIST and CIFAR10 datasets.
翻訳日:2022-09-23 13:44:55 公開日:2022-09-22
# google coralベースのエッジコンピューティングパーソナライズと分析手法の併用によるエッジコンピューティングパーソナライズ

Google Coral-based edge computing person reidentification using human parsing combined with analytical method ( http://arxiv.org/abs/2209.11024v1 )

ライセンス: Link先を確認
Nikita Gabdullin and Anton Raskovalov(参考訳) 人物再識別(re-ID)は、科学と社会保障の重要性から、コンピュータビジョンの最も重要な応用分野の一つになりつつある。 カメラシステムのサイズと規模が大きいため、分析の少なくとも一部をカメラで行うことができるエッジコンピューティングのre-IDアプリケーションを開発することは有益である。 しかし、従来のre-IDは、エッジコンピューティングでは容易に適用できない深層学習(DL)の計算要求モデルに大きく依存している。 本稿では,解析的特徴抽出とランキングスキームを組み合わさった最近提案されたre-ID手法を適用し,エッジコンピューティングのre-IDに適合する。 まず、ResNet101、ResNet18、MobileNetV2、OSNetのバックボーンを使用するパーサを比較し、十分な精度で、コンパクトなバックボーンを使用して解析を行うことができることを示す。 次に、Google Coral Dev Boardのテンソル処理ユニット(TPU)にパーサを転送し、ポータブルエッジコンピューティングのre-IDステーションとして機能することを示す。 また、Coral CPU上でのre-ID手法の分析部分を実装し、完全なre-IDサイクルを実現する。 定量的解析のために、パーサバックボーンに依存するGPUとCoral TPUの推論速度、解析マスク、再ID精度を比較した。 また,携帯端末のメモリおよびストレージ空間に関する既知の制限を考慮したre-IDにおけるエッジコンピューティングの応用シナリオについても論じる。

Person reidentification (re-ID) is becoming one of the most significant application areas of computer vision due to its importance for science and social security. Due to enormous size and scale of camera systems it is beneficial to develop edge computing re-ID applications where at least part of the analysis could be performed by the cameras. However, conventional re-ID relies heavily on deep learning (DL) computationally demanding models which are not readily applicable for edge computing. In this paper we adapt a recently proposed re-ID method that combines DL human parsing with analytical feature extraction and ranking schemes to be more suitable for edge computing re-ID. First, we compare parsers that use ResNet101, ResNet18, MobileNetV2, and OSNet backbones and show that parsing can be performed using compact backbones with sufficient accuracy. Second, we transfer parsers to tensor processing unit (TPU) of Google Coral Dev Board and show that it can act as a portable edge computing re-ID station. We also implement the analytical part of re-ID method on Coral CPU to ensure that it can perform a complete re-ID cycle. For quantitative analysis we compare inference speed, parsing masks, and re-ID accuracy on GPU and Coral TPU depending on parser backbone. We also discuss possible application scenarios of edge computing in re-ID taking into account known limitations mainly related to memory and storage space of portable devices.
翻訳日:2022-09-23 13:44:36 公開日:2022-09-22
# MIDM:Exemplar-based Image Translationのためのインターリーブ拡散モデルマッチング

MIDMs: Matching Interleaved Diffusion Models for Exemplar-based Image Translation ( http://arxiv.org/abs/2209.11047v1 )

ライセンス: Link先を確認
Junyoung Seo, Gyuseong Lee, Seokju Cho, Jiyoung Lee, Seungryong Kim(参考訳) 本稿では,MIDM(Matched Interleaved diffusion Model)と呼ばれる画像翻訳手法を提案する。 このタスクの既存のメソッドのほとんどはganベースのマッチング・ザンジェネレーションフレームワークとして定式化された。 しかし、このフレームワークでは、スケッチや写真など、クロスドメイン間のセマンティックマッチングの難しさによって引き起こされるエラーを生成ステップに容易に伝播することができ、結果として結果が劣化する。 GANの欠点を克服する拡散モデルの成功により、これらの制限を克服するために拡散モデルが組み込まれている。 具体的には、中間ワープを反復的にノージングプロセスに供給し、それを除いて変換画像を生成することで、潜在空間におけるクロスドメインマッチングと拡散ステップをインターリーブする拡散ベースのマッチング・アンド・ジェネレーションフレームワークを定式化する。 さらに, 拡散過程の信頼性を向上させるため, 周期整合性を用いた信頼度認識プロセスを構築し, 翻訳中の信頼区間のみを考える。 実験結果から,MIDMは最先端の手法よりも可塑性画像を生成することがわかった。

We present a novel method for exemplar-based image translation, called matching interleaved diffusion models (MIDMs). Most existing methods for this task were formulated as GAN-based matching-then-generation framework. However, in this framework, matching errors induced by the difficulty of semantic matching across cross-domain, e.g., sketch and photo, can be easily propagated to the generation step, which in turn leads to degenerated results. Motivated by the recent success of diffusion models overcoming the shortcomings of GANs, we incorporate the diffusion models to overcome these limitations. Specifically, we formulate a diffusion-based matching-and-generation framework that interleaves cross-domain matching and diffusion steps in the latent space by iteratively feeding the intermediate warp into the noising process and denoising it to generate a translated image. In addition, to improve the reliability of the diffusion process, we design a confidence-aware process using cycle-consistency to consider only confident regions during translation. Experimental results show that our MIDMs generate more plausible images than state-of-the-art methods.
翻訳日:2022-09-23 13:44:11 公開日:2022-09-22
# 公共インフラの視覚検査における説明可能性を利用したモデル支援ラベリング

Model-Assisted Labeling via Explainability for Visual Inspection of Civil Infrastructures ( http://arxiv.org/abs/2209.11159v1 )

ライセンス: Link先を確認
Klara Janouskova, Mattia Rigotti, Ioana Giurgiu, Cristiano Malossi(参考訳) ビジュアルセグメンテーションのための画像のラベル付けは、特に土木工学のような専門的なアノテータによってラベルを提供するアプリケーションドメインにおいて、コストがかかる作業である。 本稿では,土木インフラの視覚検査のための欠陥分割において,専門家の注釈者と注釈すべきデータとの貴重なインタラクションを活用するための帰属法を提案する。 具体的には、分類器を訓練して欠陥を検知し、帰属法や逆行法と組み合わせて分類出力に対応するセグメンテーションマスクを生成し、洗練する。 これらはアアシストラベリングフレームワーク内で使用され、アノテータが提案のセグメンテーションマスクとして、それらを受け入れ、拒絶し、修正することを決め、対話は弱いラベルとしてログされ、さらに分類器を洗練させる。 橋梁の自動視覚検査から得られた実世界のデータセットに適用することにより,提案手法は,故障の手動アノテーションと比較して,注釈者の時間を50%以上節約できる。

Labeling images for visual segmentation is a time-consuming task which can be costly, particularly in application domains where labels have to be provided by specialized expert annotators, such as civil engineering. In this paper, we propose to use attribution methods to harness the valuable interactions between expert annotators and the data to be annotated in the case of defect segmentation for visual inspection of civil infrastructures. Concretely, a classifier is trained to detect defects and coupled with an attribution-based method and adversarial climbing to generate and refine segmentation masks corresponding to the classification outputs. These are used within an assisted labeling framework where the annotators can interact with them as proposal segmentation masks by deciding to accept, reject or modify them, and interactions are logged as weak labels to further refine the classifier. Applied on a real-world dataset resulting from the automated visual inspection of bridges, our proposed method is able to save more than 50\% of annotators' time when compared to manual annotation of defects.
翻訳日:2022-09-23 13:43:50 公開日:2022-09-22
# get3d:画像から学ぶ高品質な3dテクスチャ形状の生成モデル

GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images ( http://arxiv.org/abs/2209.11163v1 )

ライセンス: Link先を確認
Jun Gao, Tianchang Shen, Zian Wang, Wenzheng Chen, Kangxue Yin, Daiqing Li, Or Litany, Zan Gojcic, Sanja Fidler(参考訳) いくつかの業界が巨大な3Dバーチャルワールドのモデリングに向かっている中、3Dコンテンツの量、品質、多様性の面でスケール可能なコンテンツ作成ツールの必要性が顕在化しつつある。 本研究の目的は,3次元レンダリングエンジンで直接使用可能なテクスチャメッシュを合成し,下流アプリケーションで即座に使用可能な高性能な3次元生成モデルをトレーニングすることである。 3D生成モデリングに関する以前の研究は、幾何学的詳細を欠いているか、生成できるメッシュトポロジーに制限があるか、一般的にテクスチャをサポートしていないか、合成プロセスでニューラルレンダラーを利用するかのいずれかであった。 本研究では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを持つExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。 我々は,2次元画像コレクションからモデルをトレーニングするために,微分可能曲面モデリング,微分可能レンダリング,および2次元生成逆ネットワークの最近の成功を橋渡しする。 GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。

As several industries are moving towards modeling massive 3D virtual worlds, the need for content creation tools that can scale in terms of the quantity, quality, and diversity of 3D content is becoming evident. In our work, we aim to train performant 3D generative models that synthesize textured meshes which can be directly consumed by 3D rendering engines, thus immediately usable in downstream applications. Prior works on 3D generative modeling either lack geometric details, are limited in the mesh topology they can produce, typically do not support textures, or utilize neural renderers in the synthesis process, which makes their use in common 3D software non-trivial. In this work, we introduce GET3D, a Generative model that directly generates Explicit Textured 3D meshes with complex topology, rich geometric details, and high-fidelity textures. We bridge recent success in the differentiable surface modeling, differentiable rendering as well as 2D Generative Adversarial Networks to train our model from 2D image collections. GET3D is able to generate high-quality 3D textured meshes, ranging from cars, chairs, animals, motorbikes and human characters to buildings, achieving significant improvements over previous methods.
翻訳日:2022-09-23 13:43:30 公開日:2022-09-22
# 注意機構を用いたDCNN画像分類器の視覚的説明学習

Learning Visual Explanations for DCNN-Based Image Classifiers Using an Attention Mechanism ( http://arxiv.org/abs/2209.11189v1 )

ライセンス: Link先を確認
Ioanna Gkartzonika, Nikolaos Gkalelis, Vasileios Mezaris(参考訳) 本稿では,L-CAM-FmとL-CAM-Imgと呼ばれる,深層畳み込みニューラルネットワーク(DCNN)画像分類のための2つの学習ベースeXplainable AI(XAI)手法を提案する。 どちらの手法も、元の(凍結した)DCNNに挿入される注意機構を使用し、最後の畳み込み層の特徴写像からクラス活性化マップ(CAM)を導出するように訓練されている。 トレーニング中、CAMを特徴マップ(L-CAM-Fm)または入力画像(L-CAM-Img)に適用し、注意機構にDCNNの結果を説明する画像領域を学習させる。 ImageNet上での実験評価により,提案手法は推論段階で1回の前方通過を必要としながら,競合する結果が得られることが示された。 さらに,学習した分類器に影響を及ぼす可能性のあるデータセットバイアスを含む分類誤りの原因を理解するために,総合的な定性分析を行う。

In this paper two new learning-based eXplainable AI (XAI) methods for deep convolutional neural network (DCNN) image classifiers, called L-CAM-Fm and L-CAM-Img, are proposed. Both methods use an attention mechanism that is inserted in the original (frozen) DCNN and is trained to derive class activation maps (CAMs) from the last convolutional layer's feature maps. During training, CAMs are applied to the feature maps (L-CAM-Fm) or the input image (L-CAM-Img) forcing the attention mechanism to learn the image regions explaining the DCNN's outcome. Experimental evaluation on ImageNet shows that the proposed methods achieve competitive results while requiring a single forward pass at the inference stage. Moreover, based on the derived explanations a comprehensive qualitative analysis is performed providing valuable insight for understanding the reasons behind classification errors, including possible dataset biases affecting the trained classifier.
翻訳日:2022-09-23 13:43:07 公開日:2022-09-22
# fusionrcnn: 2段階3d物体検出のためのライダーカメラ融合

FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection ( http://arxiv.org/abs/2209.10733v1 )

ライセンス: Link先を確認
Xinli Xu, Shaocong Dong, Lihe Ding, Jie Wang, Tingfa Xu, Jianan Li(参考訳) 多センサを用いた3次元物体検出は、自律走行とロボット工学の正確かつ信頼性の高い認識システムに不可欠である。 既存の3D検出器は、LiDAR点雲にのみ依存した2段階のパラダイムを採用して精度を著しく向上させる。 しかし,特に遠方の点において点雲の幅が広くなり,LiDARのみの精細化モジュールがオブジェクトの正確な認識と位置決定を困難にしているため,この問題に対処するため,関心領域の点雲とカメライメージを効果的に融合するFusionRCNNという,新しい多モード2段階アプローチを提案する。 FusionRCNNは、LiDARからのスパース幾何学情報とカメラからの密集テクスチャ情報の両方を統一的な注意機構で適応的に統合する。 具体的には、まずRoIPoolingを利用して、RoI抽出ステップで提案された提案の中から生点をサンプリングして、設定した点を取得し、次に、モダリティ内自己アテンションを利用してドメイン固有の機能を強化し、よく設計されたクロスアテンションによって2つのモダリティから情報を取り出す。FusionRCNNは基本的にプラグアンドプレイであり、アーキテクチャ上のほとんど変更のない異なるワンステージメソッドをサポートする。 KITTI と Waymo ベンチマークの大規模な実験により,本手法は一般的な検出器の性能を大幅に向上させることが示された。 コードは間もなくhttps://github.com/xxlbigbrother/Fusion-RCNN.comでリリースされる。

3D object detection with multi-sensors is essential for an accurate and reliable perception system of autonomous driving and robotics. Existing 3D detectors significantly improve the accuracy by adopting a two-stage paradigm which merely relies on LiDAR point clouds for 3D proposal refinement. Though impressive, the sparsity of point clouds, especially for the points far away, making it difficult for the LiDAR-only refinement module to accurately recognize and locate objects.To address this problem, we propose a novel multi-modality two-stage approach named FusionRCNN, which effectively and efficiently fuses point clouds and camera images in the Regions of Interest(RoI). FusionRCNN adaptively integrates both sparse geometry information from LiDAR and dense texture information from camera in a unified attention mechanism. Specifically, it first utilizes RoIPooling to obtain an image set with a unified size and gets the point set by sampling raw points within proposals in the RoI extraction step; then leverages an intra-modality self-attention to enhance the domain-specific features, following by a well-designed cross-attention to fuse the information from two modalities.FusionRCNN is fundamentally plug-and-play and supports different one-stage methods with almost no architectural changes. Extensive experiments on KITTI and Waymo benchmarks demonstrate that our method significantly boosts the performances of popular detectors.Remarkably, FusionRCNN significantly improves the strong SECOND baseline by 6.14% mAP on Waymo, and outperforms competing two-stage approaches. Code will be released soon at https://github.com/xxlbigbrother/Fusion-RCNN.
翻訳日:2022-09-23 13:34:42 公開日:2022-09-22
# マルチパレット表現に基づくベクトルグラフ文書のカラーレコメンデーション

Color Recommendation for Vector Graphic Documents based on Multi-Palette Representation ( http://arxiv.org/abs/2209.10820v1 )

ライセンス: Link先を確認
Qianru Qiu, Xueting Wang, Mayu Otani, Yuki Iwazaki(参考訳) ベクトルグラフィック文書は、画像、形状、テキストなど、複数の視覚要素を提供する。 複数の視覚要素に対して適切な色を選択することは、アマチュアとプロのデザイナーにとって難しいが重要な課題である。 すべての要素に対して単一の色パレットを作成する代わりに、グラフィック文書内の各視覚要素から複数の色パレットを抽出し、それらをカラーシーケンスに組み合わせます。 カラーシーケンス補完のためのマスクカラーモデルを提案し,マルチパレットのカラーコンテキストに基づく特定色を高い確率で推奨する。 ベクターグラフィック文書の大規模データセット上で,モデルをトレーニングし,カラーレコメンデーションシステムを構築する。 提案したカラーレコメンデーション手法は,カラー予測の定量的および定性的な評価と,プロのデザイナーから肯定的なフィードバックを受けたカラーレコメンデーションシステムにより,他の最先端手法よりも優れていた。

Vector graphic documents present multiple visual elements, such as images, shapes, and texts. Choosing appropriate colors for multiple visual elements is a difficult but crucial task for both amateurs and professional designers. Instead of creating a single color palette for all elements, we extract multiple color palettes from each visual element in a graphic document, and then combine them into a color sequence. We propose a masked color model for color sequence completion and recommend the specified colors based on color context in multi-palette with high probability. We train the model and build a color recommendation system on a large-scale dataset of vector graphic documents. The proposed color recommendation method outperformed other state-of-the-art methods by both quantitative and qualitative evaluations on color prediction and our color recommendation system received positive feedback from professional designers in an interview study.
翻訳日:2022-09-23 13:34:11 公開日:2022-09-22
# 物理インタラクション:物理によるハンドオブジェクトインタラクションの再構築

Physical Interaction: Reconstructing Hand-object Interactions with Physics ( http://arxiv.org/abs/2209.10833v1 )

ライセンス: Link先を確認
Haoyu Hu, Xinyu Yi, Hao Zhang, Jun-Hai Yong, Feng Xu(参考訳) 単一視点による物体間相互作用の再構築は, 閉塞による観察不足により困難である。 本稿では,復元のあいまいさを解消する物理に基づく手法を提案する。 まず、観測されていない接触を回復するだけでなく、妥当な接触力も解決する、手持ち物体の力に基づく動的モデルを提案する。 次に, 動力学的信頼度と接触力とを組み合わせ, 静的およびすべり接触運動の連成モデルとして信頼性に基づくスライド防止手法を提案する。 定性的および定量的実験により、提案手法は物理的に可塑性およびより正確な手-物体の相互作用を再構築し、単一のRGBDセンサでリアルタイムに可塑性接触力を推定することを示した。

Single view-based reconstruction of hand-object interaction is challenging due to the severe observation missing caused by occlusions. This paper proposes a physics-based method to better solve the ambiguities in the reconstruction. It first proposes a force-based dynamic model of the in-hand object, which not only recovers the unobserved contacts but also solves for plausible contact forces. Next, a confidence-based slide prevention scheme is proposed, which combines both the kinematic confidences and the contact forces to jointly model static and sliding contact motion. Qualitative and quantitative experiments show that the proposed technique reconstructs both physically plausible and more accurate hand-object interaction and estimates plausible contact forces in real-time with a single RGBD sensor.
翻訳日:2022-09-23 13:33:54 公開日:2022-09-22
# rgb画像からのアイデンティティアウェアハンドメッシュ推定とパーソナライズ

Identity-Aware Hand Mesh Estimation and Personalization from RGB Images ( http://arxiv.org/abs/2209.10840v1 )

ライセンス: Link先を確認
Deying Kong, Linguang Zhang, Liangjian Chen, Haoyu Ma, Xiangyi Yan, Shanlin Sun, Xingwei Liu, Kun Han, Xiaohui Xie(参考訳) モノクロRGB画像から3Dハンドメッシュを再構成することは、AR/VR分野における巨大な応用の可能性から、注目を集めている。 ほとんどの最先端のメソッドは匿名でこのタスクに取り組みます。 具体的には、ユーザが連続記録セッションで変更されていない実アプリケーションで実際に利用可能であっても、被写体の同一性は無視される。 本稿では,本論文の内在的な形状パラメータで表される識別情報を組み込む,アイデンティティ対応の手メッシュ推定モデルを提案する。 提案するアイデンティティ認識モデルと,対象を匿名に扱うベースラインを比較することで,アイデンティティ情報の重要性を実証する。 さらに,被検体が見当たらないユースケースに対処するために,被検体のいくつかのラベルのないrgb画像のみを用いて固有形状パラメータを校正する新しいパーソナライズパイプラインを提案する。 2つの大規模公開データセットの実験により,提案手法の最先端性能が検証された。

Reconstructing 3D hand meshes from monocular RGB images has attracted increasing amount of attention due to its enormous potential applications in the field of AR/VR. Most state-of-the-art methods attempt to tackle this task in an anonymous manner. Specifically, the identity of the subject is ignored even though it is practically available in real applications where the user is unchanged in a continuous recording session. In this paper, we propose an identity-aware hand mesh estimation model, which can incorporate the identity information represented by the intrinsic shape parameters of the subject. We demonstrate the importance of the identity information by comparing the proposed identity-aware model to a baseline which treats subject anonymously. Furthermore, to handle the use case where the test subject is unseen, we propose a novel personalization pipeline to calibrate the intrinsic shape parameters using only a few unlabeled RGB images of the subject. Experiments on two large scale public datasets validate the state-of-the-art performance of our proposed method.
翻訳日:2022-09-23 13:33:41 公開日:2022-09-22
# 機能プールの非相関バッグを用いた効率的なCNN

Efficient CNN with uncorrelated Bag of Features pooling ( http://arxiv.org/abs/2209.10865v1 )

ライセンス: Link先を確認
Firas Laakom, Jenni Raitoharju, Alexandros Iosifidis and Moncef Gabbouj(参考訳) CNNの性能は優れているが、計算能力の低いデバイスにデプロイすることは、通常計算コストが高いため、依然として制限されている。 複雑化の大きな原因の1つは、畳み込み層と完全に接続された層との間の接続であり、通常は多くのパラメータを必要とする。 この問題を軽減するため、最近 bag of features (bof) pooling が提案されている。 BoFは、入力のヒストグラム表現のコンパイルに使用される辞書を学習する。 本稿では,学習辞書の項目が冗長でないことを保証することにより,その効率を高めるため,bofプール上に構築する手法を提案する。 そこで本研究では,より多様で豊かな辞書を学習するために,標準損失を補完する辞書の対関係に基づいて,モデルを明示的に規則化する追加の損失項を提案する。 提案された戦略はbofの効率的な変種をもたらし、追加のパラメータなしで性能をさらに向上させる。

Despite the superior performance of CNN, deploying them on low computational power devices is still limited as they are typically computationally expensive. One key cause of the high complexity is the connection between the convolution layers and the fully connected layers, which typically requires a high number of parameters. To alleviate this issue, Bag of Features (BoF) pooling has been recently proposed. BoF learns a dictionary, that is used to compile a histogram representation of the input. In this paper, we propose an approach that builds on top of BoF pooling to boost its efficiency by ensuring that the items of the learned dictionary are non-redundant. We propose an additional loss term, based on the pair-wise correlation of the items of the dictionary, which complements the standard loss to explicitly regularize the model to learn a more diverse and rich dictionary. The proposed strategy yields an efficient variant of BoF and further boosts its performance, without any additional parameters.
翻訳日:2022-09-23 13:33:27 公開日:2022-09-22
# AcroFOD:クロスドメインFew-shotオブジェクト検出のための適応的手法

AcroFOD: An Adaptive Method for Cross-domain Few-shot Object Detection ( http://arxiv.org/abs/2209.10904v1 )

ライセンス: Link先を確認
Yipeng Gao, Lingxiao Yang, Yunmu Huang, Song Xie, Shiyong Li, Wei-shi Zheng(参考訳) ドメインシフトの下では、クロスドメインの少数ショットオブジェクト検出は、いくつかの注釈付きターゲットデータで対象ドメイン内のオブジェクト検出器を適応することを目的としている。 1) 対象ドメインデータに高度に不十分な点,(2)不適切な増幅対象サンプルによる過度適応や誤解を招く点,の2つが課題である。 これらの課題に対処するために,2つの部分からなる適応手法を提案する。 まず,対象サンプルと類似した拡張データを選択するための適応最適化戦略を提案する。 具体的には,対象特徴分布から大きく逸脱する拡張候補を初期においてフィルタリングする。 第2に,データ制限をさらに緩和するために,画像と背景の混在を利用した拡張データの多様性と合理性を高めるために,マルチレベルドメイン認識データ拡張を提案する。 実験により,提案手法が複数のベンチマークにおいて最先端の性能を実現することを示す。

Under the domain shift, cross-domain few-shot object detection aims to adapt object detectors in the target domain with a few annotated target data. There exists two significant challenges: (1) Highly insufficient target domain data; (2) Potential over-adaptation and misleading caused by inappropriately amplified target samples without any restriction. To address these challenges, we propose an adaptive method consisting of two parts. First, we propose an adaptive optimization strategy to select augmented data similar to target samples rather than blindly increasing the amount. Specifically, we filter the augmented candidates which significantly deviate from the target feature distribution in the very beginning. Second, to further relieve the data limitation, we propose the multi-level domain-aware data augmentation to increase the diversity and rationality of augmented data, which exploits the cross-image foreground-background mixture. Experiments show that the proposed method achieves state-of-the-art performance on multiple benchmarks.
翻訳日:2022-09-23 13:33:12 公開日:2022-09-22
# DRKF: 画像マッチングにおける回転不変性向上のための蒸留カーネル核融合

DRKF: Distilled Rotated Kernel Fusion for Efficiently Boosting Rotation Invariance in Image Matching ( http://arxiv.org/abs/2209.10907v1 )

ライセンス: Link先を確認
Chao Li, Jiancheng Cai, Ranran Huang, Xinmin Liu(参考訳) 既存の学習ベースの画像マッチングパイプラインのほとんどは、繰り返しテクスチャや視点の変化などに対して堅牢な機能検出や記述子のために設計されており、回転不変性にはほとんど注意が払われていない。 結果として、これらのアプローチは、キーポイントの向き予測が欠如しているため、データにかなりのレベルの回転が存在する状況において、手作りアルゴリズムに比べて性能が劣ることを示している。 この問題を効率的に解決するために, 余分な計算コストを伴わずに回転ロバスト性を向上させるための知識蒸留法を提案する。 具体的には, 基本モデルに基づいて, 蒸留パイプラインの教師として採用されるMOFA(Multi-Oriented Feature Aggregation)を提案する。 さらに、回転核融合(RKF)を学生モデルの各畳み込みカーネルに適用し、回転不変の特徴の学習を容易にする。 実験の結果, 提案手法は, 様々な回転の下で, 推定段階で追加コストを必要とせずに, 有効に一般化できることがわかった。

Most existing learning-based image matching pipelines are designed for better feature detectors and descriptors which are robust to repeated textures, viewpoint changes, etc., while little attention has been paid to rotation invariance. As a consequence, these approaches usually demonstrate inferior performance compared to the handcrafted algorithms in circumstances where a significant level of rotation exists in data, due to the lack of keypoint orientation prediction. To address the issue efficiently, an approach based on knowledge distillation is proposed for improving rotation robustness without extra computational costs. Specifically, based on the base model, we propose Multi-Oriented Feature Aggregation (MOFA), which is subsequently adopted as the teacher in the distillation pipeline. Moreover, Rotated Kernel Fusion (RKF) is applied to each convolution kernel of the student model to facilitate learning rotation-invariant features. Eventually, experiments show that our proposals can generalize successfully under various rotations without additional costs in the inference stage.
翻訳日:2022-09-23 13:32:57 公開日:2022-09-22
# MGTR: Transformer を用いた相互注視検出

MGTR: End-to-End Mutual Gaze Detection with Transformer ( http://arxiv.org/abs/2209.10930v1 )

ライセンス: Link先を確認
Hang Guo, Zhengxi Hu, Jingtai Liu(参考訳) 人間同士の視線や相互視線は、日々の対話において至るところで見られ、相互視線を検出することは、人間の社会的場面を理解する上で非常に重要である。 現在の相互視線検出法は,2段階のパイプラインによって推論速度が制限され,第2段階の性能が第1段階の影響を受ける2段階の手法に重点を置いている。 本稿では,Mutual Gaze TRansformer (MGTR) と呼ばれる新しい一段階の相互視線検出フレームワークを提案し,エンドツーエンドで相互視線検出を行う。 MGTRは、相互の視線インスタンストリプルを設計することにより、人間の頭の境界ボックスを検知し、グローバル画像情報に基づいて相互の視線関係を同時に推論し、プロセス全体をシンプルに合理化する。 2つの相互視線データセットによる実験結果から,本手法は性能を損なうことなく相互視線検出を高速化できることが示された。 アブレーション研究は、MGTRの異なるコンポーネントが画像内の異なるレベルの意味情報をキャプチャできることを示している。 コードはhttps://github.com/Gmbition/MGTRで入手できる。

People's looking at each other or mutual gaze is ubiquitous in our daily interactions, and detecting mutual gaze is of great significance for understanding human social scenes. Current mutual gaze detection methods focus on two-stage methods, whose inference speed is limited by the two-stage pipeline and the performance in the second stage is affected by the first one. In this paper, we propose a novel one-stage mutual gaze detection framework called Mutual Gaze TRansformer or MGTR to perform mutual gaze detection in an end-to-end manner. By designing mutual gaze instance triples, MGTR can detect each human head bounding box and simultaneously infer mutual gaze relationship based on global image information, which streamlines the whole process with simplicity. Experimental results on two mutual gaze datasets show that our method is able to accelerate mutual gaze detection process without losing performance. Ablation study shows that different components of MGTR can capture different levels of semantic information in images. Code is available at https://github.com/Gmbition/MGTR
翻訳日:2022-09-23 13:32:39 公開日:2022-09-22
# プレトレーニングLDMからより良いサンプルを選択する:質問生成を事例として

Selecting Better Samples from Pre-trained LLMs: A Case Study on Question Generation ( http://arxiv.org/abs/2209.11000v1 )

ライセンス: Link先を確認
Xingdi Yuan, Tong Wang, Yen-Hsiang Wang, Emery Fine, Rania Abdelghani, Pauline Lucas, H\'el\`ene Sauz\'eon and Pierre-Yves Oudeyer(参考訳) 近年,Large Language Models (LLMs) は自然言語生成に顕著な進歩を見せている。 生成の多様性を改善する一般的な方法は、モデルから複数のアウトプットをサンプリングすることだ。 しかし、これらの確率的サンプルから最良の出力を選択するための単純で堅牢な方法がない。 質問生成の文脈におけるケーススタディとして、LLM生成候補から高品質な質問を選択するための2つのプロンプトベースのアプローチを提案する。 私たちの方法は制約の下で機能する 1)ブラックボックス(修正不能)質問生成モデル、及び 2) 人間のアノテーションによる参照へのアクセスの欠如 -- どちらも、LLMの現実的なデプロイの現実的な制限です。 人的評価だけでなく自動的な評価によって,我々の手法が欲求生成よりも高い品質の質問を効果的に選択できることを実証的に実証する。

Large Language Models (LLMs) have in recent years demonstrated impressive prowess in natural language generation. A common practice to improve generation diversity is to sample multiple outputs from the model. However, there lacks a simple and robust way of selecting the best output from these stochastic samples. As a case study framed in the context of question generation, we propose two prompt-based approaches to selecting high-quality questions from a set of LLM-generated candidates. Our method works under the constraints of 1) a black-box (non-modifiable) question generation model and 2) lack of access to human-annotated references -- both of which are realistic limitations for real-world deployment of LLMs. With automatic as well as human evaluations, we empirically demonstrate that our approach can effectively select questions of higher qualities than greedy generation.
翻訳日:2022-09-23 13:26:07 公開日:2022-09-22
# ニューラルベース手法による英語翻訳品質評価へのアプローチ

Approaching English-Polish Machine Translation Quality Assessment with Neural-based Methods ( http://arxiv.org/abs/2209.11016v1 )

ライセンス: Link先を確認
Artur Nowakowski(参考訳) 本稿では,poleval 2021タスク2: 翻訳品質評価指標の評価への貢献について述べる。 課題の非盲目版と盲目版の両方における翻訳品質評価のための事前学習言語モデルと最先端フレームワークを用いた実験について述べる。 私たちのソリューションは、非盲目バージョンで2位、盲目バージョンで3位でした。

This paper presents our contribution to the PolEval 2021 Task 2: Evaluation of translation quality assessment metrics. We describe experiments with pre-trained language models and state-of-the-art frameworks for translation quality assessment in both nonblind and blind versions of the task. Our solutions ranked second in the nonblind version and third in the blind version.
翻訳日:2022-09-23 13:25:55 公開日:2022-09-22
# monobyte: モノリンガルなバイトレベルの言語モデルのプール

MonoByte: A Pool of Monolingual Byte-level Language Models ( http://arxiv.org/abs/2209.11035v1 )

ライセンス: Link先を確認
Hugo Abonizio, Leandro Rodrigues de Souza, Roberto Lotufo, Rodrigo Nogueira(参考訳) 多言語および単言語コーパスで事前訓練されたモデルのゼロショットクロスリンガル能力は、この興味深い実験結果を説明するために多くの仮説を提起している。 しかし、事前学習のコストのため、ほとんどの研究はトークン化、コーパスサイズ、計算予算の選択などの事前学習方法論が異なるかもしれない公開モデルを使用している。 研究者が自身のモデルを事前訓練する場合、しばしば制約された予算の下で行うことができ、結果として得られるモデルはSOTAモデルに比べて大幅に性能が低下する可能性がある。 これらの実験的な違いは、これらのモデルの言語間能力の性質に関する様々な矛盾した結論を導いた。 このトピックをさらに研究するため,我々は,計算予算(v100では420日相当)とコーパスがオリジナルのbertの4倍大きい,同じ構成で厳密に事前学習された10の単言語バイトレベルモデルをリリースした。 トークンを含まないため、未知のトークン埋め込みの問題は排除され、研究者は異なるスクリプトを持つ言語で幅広い言語間実験を行えるようになった。 さらに,不自然言語テキストに事前学習された2つのモデルをリリースし,健全性チェック実験に利用可能である。 qaタスクとnliタスクの実験は、我々の単言語モデルが多言語モデルとの競合性能を達成することを示し、したがって言語モデルにおける言語間伝達可能性の理解を強化するのに役立ちます。

The zero-shot cross-lingual ability of models pretrained on multilingual and even monolingual corpora has spurred many hypotheses to explain this intriguing empirical result. However, due to the costs of pretraining, most research uses public models whose pretraining methodology, such as the choice of tokenization, corpus size, and computational budget, might differ drastically. When researchers pretrain their own models, they often do so under a constrained budget, and the resulting models might underperform significantly compared to SOTA models. These experimental differences led to various inconsistent conclusions about the nature of the cross-lingual ability of these models. To help further research on the topic, we released 10 monolingual byte-level models rigorously pretrained under the same configuration with a large compute budget (equivalent to 420 days on a V100) and corpora that are 4 times larger than the original BERT's. Because they are tokenizer-free, the problem of unseen token embeddings is eliminated, thus allowing researchers to try a wider range of cross-lingual experiments in languages with different scripts. Additionally, we release two models pretrained on non-natural language texts that can be used in sanity-check experiments. Experiments on QA and NLI tasks show that our monolingual models achieve competitive performance to the multilingual one, and hence can be served to strengthen our understanding of cross-lingual transferability in language models.
翻訳日:2022-09-23 13:25:50 公開日:2022-09-22
# プロンプトなしの効率的なファウショット学習

Efficient Few-Shot Learning Without Prompts ( http://arxiv.org/abs/2209.11055v1 )

ライセンス: Link先を確認
Lewis Tunstall, Nils Reimers, Unso Eun Seo Jo, Luke Bates, Daniel Korat, Moshe Wasserblat, Oren Pereg(参考訳) 近年,PEFT(パラメータ効率のよい微調整)やPET(パターンエクスプロイトトレーニング)といったいくつかの手法がラベルスカース設定において顕著な成果を上げている。 しかし、手作業によるプロンプトから高い変動があり、高い精度を達成するために10億パラメータの言語モデルを必要とするため、採用は困難である。 これらの欠点に対処するために,文変換器(st)の短時間微調整のための効率的かつ即席の枠組みであるsetfit(sentence transformer fine-tuning)を提案する。 SetFitは、少数のテキストペアで事前訓練されたSTを、対照的なシームズ方式で微調整する。 得られたモデルはリッチテキスト埋め込みを生成するために使用され、分類ヘッドのトレーニングに使用される。 この単純なフレームワークはプロンプトや動詞化を必要とせず、既存の手法よりも桁違いに少ないパラメータで高い精度を達成する。 私たちの実験では、setfitはペフトやペットのテクニックに匹敵する結果を得ています。 また、ST本体を切り替えるだけで、SetFitを多言語設定に適用できることを示す。 私たちのコードはhttps://github.com/huggingface/setfitで、データセットはhttps://huggingface.co/setfitで利用可能です。

Recent few-shot methods, such as parameter-efficient fine-tuning (PEFT) and pattern exploiting training (PET), have achieved impressive results in label-scarce settings. However, they are difficult to employ since they are subject to high variability from manually crafted prompts, and typically require billion-parameter language models to achieve high accuracy. To address these shortcomings, we propose SetFit (Sentence Transformer Fine-tuning), an efficient and prompt-free framework for few-shot fine-tuning of Sentence Transformers (ST). SetFit works by first fine-tuning a pretrained ST on a small number of text pairs, in a contrastive Siamese manner. The resulting model is then used to generate rich text embeddings, which are used to train a classification head. This simple framework requires no prompts or verbalizers, and achieves high accuracy with orders of magnitude less parameters than existing techniques. Our experiments show that SetFit obtains comparable results with PEFT and PET techniques, while being an order of magnitude faster to train. We also show that SetFit can be applied in multilingual settings by simply switching the ST body. Our code is available at https://github.com/huggingface/setfit and our datasets at https://huggingface.co/setfit .
翻訳日:2022-09-23 13:25:26 公開日:2022-09-22
# 会話のプロンプト:どのようにダイアログモデルを制御するか?

Prompting for a conversation: How to control a dialog model? ( http://arxiv.org/abs/2209.11068v1 )

ライセンス: Link先を確認
Josef Valvoda, Yimai Fang, David Vandyke(参考訳) ダイアログモデリングは難しいトレードオフに直面します。 モデルは大量のテキストでトレーニングされるが、その応答はダイアログエージェントの望ましいスコープとスタイルに制限される必要がある。 前者を達成するために使用されるデータセットは後者と互換性がないため、事前学習されたダイアログモデルはより小さなキュレートされたデータセットで微調整される。 しかし、微調整のプロセスは、多様な応答を発生させる能力を損なうため、最終的には会話相手を退屈にしてしまう。 本稿では,上記のトレードオフを緩和できるかどうかを検討する。 具体的には、すべてのクエリに対して単一のプロンプトをトレーニングするのではなく、クエリにプロンプトを条件付けする実験を行う。 事前学習した言語モデルの凍結が表現性を維持するという直感に従えば、微調整に比べて、より高いBLEUスコアを達成でき、応答の多様性と新規性を大幅に向上させることができることが分かる。

Dialog modelling faces a difficult trade-off. Models are trained on a large amount of text, yet their responses need to be limited to a desired scope and style of a dialog agent. Because the datasets used to achieve the former contain language that is not compatible with the latter, pre-trained dialog models are fine-tuned on smaller curated datasets. However, the fine-tuning process robs them of the ability to produce diverse responses, eventually reducing them to dull conversation partners. In this paper we investigate if prompting can mitigate the above trade-off. Specifically, we experiment with conditioning the prompt on the query, rather than training a single prompt for all queries. By following the intuition that freezing the pre-trained language model will conserve its expressivity, we find that compared to fine-tuning, prompting can achieve a higher BLEU score and substantially improve the diversity and novelty of the responses.
翻訳日:2022-09-23 13:25:03 公開日:2022-09-22
# 健康情報の衝突検出のための事前学習言語モデルの検討

Scope of Pre-trained Language Models for Detecting Conflicting Health Information ( http://arxiv.org/abs/2209.11102v1 )

ライセンス: Link先を確認
Joseph Gatto, Madhusudan Basak, Sarah M. Preum(参考訳) 現在、健康情報のニーズを満たすためにオンラインプラットフォームを利用する人が増えている。 したがって、矛盾するテキストの健康情報を識別することは、安全にとって重要な課題となっている。 健康アドバイスデータは、ある診断の文脈で正確である情報が、別の診断の文脈で矛盾する可能性があるというユニークな課題を提起する。 例えば、糖尿病や高血圧に苦しむ人は、しばしば食生活で相反する健康アドバイスを受ける。 これにより、コンテキスト化されたユーザー固有の健康アドバイスを提供する技術の必要性が高まる。 文脈化されたアドバイスへの重要なステップは、健康アドバイスステートメントを比較し、それらがどのように矛盾しているかを検出する能力である。 これがHCD(Health conflict detection)の課題である。 2つの健康アドバイスを与えられたHCDの目標は、紛争の種類を検出し分類することである。 それは挑戦的な仕事です。 (i)紛争を自動的に識別し分類するには、テキストの意味をより深く理解する必要がある。 (ii)利用可能なデータ量は極めて限られている。 本研究では,事前学習された言語モデルの文脈でhcdを初めて研究する。 DeBERTa-v3 は全ての実験において平均 F1 スコア 0.68 で最高の性能を示した。 さらに、異なるコンフリクトタイプに起因する課題と、コンフリクト固有のセマンティクスに対するモデルの理解を改善するための合成データについても検討する。 最後に、実際の健康紛争を収集することの難しさを強調し、既存のhcdデータセットを拡張するための人工データ拡張手法を提案する。 私たちのHCDトレーニングデータセットは、既存のHCDデータセットよりも2倍以上大きく、Githubで公開されています。

An increasing number of people now rely on online platforms to meet their health information needs. Thus identifying inconsistent or conflicting textual health information has become a safety-critical task. Health advice data poses a unique challenge where information that is accurate in the context of one diagnosis can be conflicting in the context of another. For example, people suffering from diabetes and hypertension often receive conflicting health advice on diet. This motivates the need for technologies which can provide contextualized, user-specific health advice. A crucial step towards contextualized advice is the ability to compare health advice statements and detect if and how they are conflicting. This is the task of health conflict detection (HCD). Given two pieces of health advice, the goal of HCD is to detect and categorize the type of conflict. It is a challenging task, as (i) automatically identifying and categorizing conflicts requires a deeper understanding of the semantics of the text, and (ii) the amount of available data is quite limited. In this study, we are the first to explore HCD in the context of pre-trained language models. We find that DeBERTa-v3 performs best with a mean F1 score of 0.68 across all experiments. We additionally investigate the challenges posed by different conflict types and how synthetic data improves a model's understanding of conflict-specific semantics. Finally, we highlight the difficulty in collecting real health conflicts and propose a human-in-the-loop synthetic data augmentation approach to expand existing HCD datasets. Our HCD training dataset is over 2x bigger than the existing HCD dataset and is made publicly available on Github.
翻訳日:2022-09-23 13:24:46 公開日:2022-09-22
# 省力化による解釈可能な潜在対話行動の学習

Learning Interpretable Latent Dialogue Actions With Less Supervision ( http://arxiv.org/abs/2209.11128v1 )

ライセンス: Link先を確認
Vojt\v{e}ch Hude\v{c}ek and Ond\v{r}ej Du\v{s}ek(参考訳) 本稿では,対話行動を表す離散的潜在変数を用いたタスク指向対話のモデル化を行うための新しいアーキテクチャを提案する。 本モデルは,変化型リカレントニューラルネットワーク(VRNN)に基づいており,意味情報の明示的なアノテーションを必要としない。 従来の作業と異なり,システムとユーザを別々にモデル化し,データベース・クエリ・モデリングを行い,容易に解釈可能なアクション・潜在変数を生成しながら,タスク指向の対話に適用する。 本稿では,3つのデータセットにおけるパープレキシティとBLEUの点からみると,従来の手法よりも精度が低いことを示し,専門家のアノテーションを必要とせずに対話の成功を測定する手法を提案する。 最後に,システムの動作に関して潜在変数の意味を説明する新しい方法を提案する。

We present a novel architecture for explainable modeling of task-oriented dialogues with discrete latent variables to represent dialogue actions. Our model is based on variational recurrent neural networks (VRNN) and requires no explicit annotation of semantic information. Unlike previous works, our approach models the system and user turns separately and performs database query modeling, which makes the model applicable to task-oriented dialogues while producing easily interpretable action latent variables. We show that our model outperforms previous approaches with less supervision in terms of perplexity and BLEU on three datasets, and we propose a way to measure dialogue success without the need for expert annotation. Finally, we propose a novel way to explain semantics of the latent variables with respect to system actions.
翻訳日:2022-09-23 13:24:23 公開日:2022-09-22
# ユーザ・イン・ザ・ループによるKG生成のオントロジー・リフォーミングに向けて:ボッシュ溶接への適用

Towards Ontology Reshaping for KG Generation with User-in-the-Loop: Applied to Bosch Welding ( http://arxiv.org/abs/2209.11067v1 )

ライセンス: Link先を確認
Dongzhuoran Zhou, Baifan Zhou, Jieying Chen, Gong Cheng, Egor V. Kostylev, Evgeny Kharlamov(参考訳) 知識グラフ(KG)は幅広い用途で使われている。 KG生成の自動化は、産業におけるデータ量と多様性のために非常に望ましい。 KG生成の1つの重要なアプローチは、生データを与えられたKGスキーマ、すなわちドメインオントロジーにマッピングし、オントロジーに従ってエンティティとプロパティを構築することである。 しかし、そのようなオントロジーの自動生成は要求され、既存の解はしばしば満足できない。 重要な課題は、2つのオントロジエンジニアリングの原則である知識指向とデータ指向のトレードオフである。 前者はオントロジーがドメインの一般的な知識をモデル化すべきだと定め、後者はデータ固有性を反映してユーザビリティを確保することを強調する。 この課題は、与えられたドメインオントロジーをKGスキーマとして機能する小さなオントロジーに変換するプロセスを自動化するオントロジー再構成方式によって解決される。 ドメインオントロジーは知識指向に設計でき、KGスキーマはデータの特異性をカバーする。 さらに、このアプローチでは、ループにユーザの好みを含めるオプションも可能です。 オントロジー・リフォーミングに関する現在進行中の研究を実証し,実産業データを用いた評価を行い,有望な結果を得た。

Knowledge graphs (KG) are used in a wide range of applications. The automation of KG generation is very desired due to the data volume and variety in industries. One important approach of KG generation is to map the raw data to a given KG schema, namely a domain ontology, and construct the entities and properties according to the ontology. However, the automatic generation of such ontology is demanding and existing solutions are often not satisfactory. An important challenge is a trade-off between two principles of ontology engineering: knowledge-orientation and data-orientation. The former one prescribes that an ontology should model the general knowledge of a domain, while the latter one emphasises on reflecting the data specificities to ensure good usability. We address this challenge by our method of ontology reshaping, which automates the process of converting a given domain ontology to a smaller ontology that serves as the KG schema. The domain ontology can be designed to be knowledge-oriented and the KG schema covers the data specificities. In addition, our approach allows the option of including user preferences in the loop. We demonstrate our on-going research on ontology reshaping and present an evaluation using real industrial data, with promising results.
翻訳日:2022-09-23 13:23:57 公開日:2022-09-22
# olives dataset:目のセマンティクスを調べるための眼科ラベル

OLIVES Dataset: Ophthalmic Labels for Investigating Visual Eye Semantics ( http://arxiv.org/abs/2209.11195v1 )

ライセンス: Link先を確認
Mohit Prabhushankar, Kiran Kokilepersaud, Yash-yee Logan, Stephanie Trejo Corona, Ghassan AlRegib, and Charles Wykoff(参考訳) 眼球の臨床診断は、スカラー臨床ラベル、ベクトル化バイオマーカー、二次元眼底画像、三次元光コヒーレンス・トモグラフィー(OCT)スキャンなど多彩なデータモダリティを用いて行われる。 臨床医は、糖尿病網膜症(DR)や糖尿病黄斑浮腫(DME)などの眼疾患の診断と治療に利用可能なすべてのデータモダリティを使用する。 眼科領域における機械学習アルゴリズムの使用は、治療期間を通じて関連するすべてのデータ間の関係と相互作用を研究する必要がある。 既存のデータセットは、データの提供もデータモダリティ間の明示的な関係モデリングも考慮しないという点で制限されている。 本稿では,上記の制限に対処した視覚視覚セマンティクス(olives)データセットを調査するための眼科ラベルを紹介する。 これは、臨床ラベル、バイオマーカーラベル、疾患ラベル、および関連する臨床試験からの時系列患者の治療情報を含む、OCTおよび近赤外ファンドの最初のデータセットである。 データセットは、少なくとも49個のOCTスキャンを含む1268個の近赤外画像と16個のバイオマーカーと4つの臨床ラベルとDRまたはDMEの疾患診断からなる。 合計で96個の目のデータが少なくとも2年間の平均で、それぞれの目は平均66週と7回の注射で治療されている。 眼科学データのためのOLIVESデータセットの有用性をベンチマークし、医用画像解析におけるコアおよび新興機械学習パラダイムのベンチマークと具体的な研究指針を提供する。

Clinical diagnosis of the eye is performed over multifarious data modalities including scalar clinical labels, vectorized biomarkers, two-dimensional fundus images, and three-dimensional Optical Coherence Tomography (OCT) scans. Clinical practitioners use all available data modalities for diagnosing and treating eye diseases like Diabetic Retinopathy (DR) or Diabetic Macular Edema (DME). Enabling usage of machine learning algorithms within the ophthalmic medical domain requires research into the relationships and interactions between all relevant data over a treatment period. Existing datasets are limited in that they neither provide data nor consider the explicit relationship modeling between the data modalities. In this paper, we introduce the Ophthalmic Labels for Investigating Visual Eye Semantics (OLIVES) dataset that addresses the above limitation. This is the first OCT and near-IR fundus dataset that includes clinical labels, biomarker labels, disease labels, and time-series patient treatment information from associated clinical trials. The dataset consists of 1268 near-IR fundus images each with at least 49 OCT scans, and 16 biomarkers, along with 4 clinical labels and a disease diagnosis of DR or DME. In total, there are 96 eyes' data averaged over a period of at least two years with each eye treated for an average of 66 weeks and 7 injections. We benchmark the utility of OLIVES dataset for ophthalmic data as well as provide benchmarks and concrete research directions for core and emerging machine learning paradigms within medical image analysis.
翻訳日:2022-09-23 13:18:20 公開日:2022-09-22
# VToonify:制御可能な高解像度画像スタイル転送

VToonify: Controllable High-Resolution Portrait Video Style Transfer ( http://arxiv.org/abs/2209.11224v1 )

ライセンス: Link先を確認
Shuai Yang, Liming Jiang, Ziwei Liu, Chen Change Loy(参考訳) 高品質なポートレートビデオの生成は、コンピュータグラフィックスとビジョンにおいて重要かつ望ましいタスクである。 強力なStyleGAN上に構築された一連のポートレート画像トーン化モデルが提案されているが、これらの画像指向手法は、固定フレームサイズ、顔アライメントの要件、非顔的詳細の欠如、時間的不整合など、ビデオに適用する場合に明らかな制限がある。 本稿では,新しいVToonifyフレームワークを導入することで,高精細度高精細度映像の転送を実現する。 具体的には、vtoonifyはstyleganの中・高分解能のレイヤーを利用して、エンコーダによって抽出されたマルチスケールのコンテンツ特徴に基づいて高品質のポートレートをレンダリングし、フレームの詳細をよりよく保存する。 結果として生じる完全畳み込みアーキテクチャは、入力として可変サイズのビデオの非整合顔を受け入れ、出力に自然な動きを持つ完全な顔領域に寄与する。 我々のフレームワークは、既存のStyleGANベースの画像トーン化モデルと互換性があり、それらをビデオトーン化に拡張し、色と強度の柔軟なスタイル制御のためにこれらのモデルの魅力的な特徴を継承する。 本研究は,Toonify と DualStyleGAN をベースとした2種類のVToonify を,コレクションベースおよび模範的なポートレートビデオスタイルの転送を行う。 提案するvtoonifyフレームワークが,従来手法と比較して,フレキシブルなスタイル制御による高品質・時限コヒーレントなポートレートビデオの生成に有効であることを示す。

Generating high-quality artistic portrait videos is an important and desirable task in computer graphics and vision. Although a series of successful portrait image toonification models built upon the powerful StyleGAN have been proposed, these image-oriented methods have obvious limitations when applied to videos, such as the fixed frame size, the requirement of face alignment, missing non-facial details and temporal inconsistency. In this work, we investigate the challenging controllable high-resolution portrait video style transfer by introducing a novel VToonify framework. Specifically, VToonify leverages the mid- and high-resolution layers of StyleGAN to render high-quality artistic portraits based on the multi-scale content features extracted by an encoder to better preserve the frame details. The resulting fully convolutional architecture accepts non-aligned faces in videos of variable size as input, contributing to complete face regions with natural motions in the output. Our framework is compatible with existing StyleGAN-based image toonification models to extend them to video toonification, and inherits appealing features of these models for flexible style control on color and intensity. This work presents two instantiations of VToonify built upon Toonify and DualStyleGAN for collection-based and exemplar-based portrait video style transfer, respectively. Extensive experimental results demonstrate the effectiveness of our proposed VToonify framework over existing methods in generating high-quality and temporally-coherent artistic portrait videos with flexible style controls.
翻訳日:2022-09-23 13:17:54 公開日:2022-09-22
# AIR-JPMC@SMM4H'22:複数のBERTモデルを用いたつぶやきにおける自己申告された親密なパートナー暴力の分類

AIR-JPMC@SMM4H'22: Classifying Self-Reported Intimate Partner Violence in Tweets with Multiple BERT-based Models ( http://arxiv.org/abs/2209.10763v1 )

ライセンス: Link先を確認
Alec Candidato, Akshat Gupta, Xiaomo Liu, Sameena Shah(参考訳) 本稿では,smm4h 2022-shared task on the classification of self-reported companion violence on twitter (英語) について述べる。 このタスクの目的は、あるツイートの内容が、親密なパートナー暴力で自分の経験を報告した人物を正確に判断することであった。 提出されたシステムは、検証データセット上の各F1スコアによって重み付けされた5つのRoBERTaモデルのアンサンブルである。 このシステムはベースラインよりも13%向上し、共有タスク全体において最高の性能を発揮した。

This paper presents our submission for the SMM4H 2022-Shared Task on the classification of self-reported intimate partner violence on Twitter (in English). The goal of this task was to accurately determine if the contents of a given tweet demonstrated someone reporting their own experience with intimate partner violence. The submitted system is an ensemble of five RoBERTa models each weighted by their respective F1-scores on the validation data-set. This system performed 13% better than the baseline and was the best performing system overall for this shared task.
翻訳日:2022-09-23 13:16:06 公開日:2022-09-22
# 深層学習に基づく電子商取引有機検索トラフィック改善のためのページ作成

Deep Learning Based Page Creation for Improving E-Commerce Organic Search Traffic ( http://arxiv.org/abs/2209.10792v1 )

ライセンス: Link先を確認
Cheng Jie, Da Xu, Zigeng Wang, Wei Shen(参考訳) オーガニック検索はeコマース企業の総トラフィックの大部分を占めている。 企業の有機検索チャネルへの露出を拡大する一つのアプローチは、顧客の意図を幅広くカバーしたランディングページを作成することである。 本稿では,トランスフォーマー言語モデルに基づく有機チャネルページ管理システムについて紹介する。 私たちのシステムは、何百万もの新しいランディングページの作成とデプロイのプロセスをうまく処理します。 我々は,最先端言語表現学習手法の実世界性能を提示し,議論し,それらを生産最適化ソリューションとして見出す方法を明らかにする。

Organic search comprises a large portion of the total traffic for e-commerce companies. One approach to expand company's exposure on organic search channel lies on creating landing pages having broader coverage on customer intentions. In this paper, we present a transformer language model based organic channel page management system aiming at increasing prominence of the company's overall clicks on the channel. Our system successfully handles the creation and deployment process of millions of new landing pages. We show and discuss the real-world performances of state-of-the-art language representation learning method, and reveal how we find them as the production-optimal solutions.
翻訳日:2022-09-23 13:15:51 公開日:2022-09-22
# 条件付きマスキング言語モデルによるニューラルマシン翻訳のための意味論的一貫したデータ拡張

Semantically Consistent Data Augmentation for Neural Machine Translation via Conditional Masked Language Model ( http://arxiv.org/abs/2209.10875v1 )

ライセンス: Link先を確認
Qiao Cheng, Jin Huang, Yitao Duan(参考訳) 本稿では,言語内および言語間のセマンティック一貫性を高めるニューラルマシン翻訳のための新しいデータ拡張手法を提案する。 本手法は条件付きマスキング言語モデル(cmlm, conditional masked language model)に基づくものである。 CMLMは文脈依存の単語分布を生成するための優れた手法であることを示す。 特に,CMLMは置換時にソースとターゲットの両方に条件付けすることで意味的一貫性を保てることを示す。 さらに,多様性を高めるために,単語を語彙上の確率分布に置き換えるデータ拡張のためのソフトワード置換という概念を取り入れた。 異なるスケールの4つの翻訳データセットの実験は、全体的なソリューションがより現実的なデータ拡張とより良い翻訳品質をもたらすことを示している。 提案手法は, 強靭かつ最近の研究と比較して常に最高の性能を達成し, ベースライン上の最大1.90 BLEU点の改善をもたらす。

This paper introduces a new data augmentation method for neural machine translation that can enforce stronger semantic consistency both within and across languages. Our method is based on Conditional Masked Language Model (CMLM) which is bi-directional and can be conditional on both left and right context, as well as the label. We demonstrate that CMLM is a good technique for generating context-dependent word distributions. In particular, we show that CMLM is capable of enforcing semantic consistency by conditioning on both source and target during substitution. In addition, to enhance diversity, we incorporate the idea of soft word substitution for data augmentation which replaces a word with a probabilistic distribution over the vocabulary. Experiments on four translation datasets of different scales show that the overall solution results in more realistic data augmentation and better translation quality. Our approach consistently achieves the best performance in comparison with strong and recent works and yields improvements of up to 1.90 BLEU points over the baseline.
翻訳日:2022-09-23 13:15:34 公開日:2022-09-22
# 否定的な例からコヒーレンスで書くことを学ぶ

Learning to Write with Coherence From Negative Examples ( http://arxiv.org/abs/2209.10922v1 )

ライセンス: Link先を確認
Seonil Son, Jaeseo Lim, Youwon Jang, Jaeyoung Lee, Byoung-Tak Zhang(参考訳) コヒーレンス(Coherence)は,文章の質を決定する重要な要因のひとつだ。 本稿では,ニューラルエンコーダ・デコーダ自然言語生成(NLG)モデルに対する記述関連性(WR)学習手法を提案する。 wr損失は文脈のベクトル表現を後退させ、生成した文は負と対比して正継続へ向く。 提案手法は,コモンセンス自然言語推論(NLI)コーパスに基づくテキスト継続タスクにおいて,不可能な継続を避けることにより,コヒーレンスをより良くモデル化する手法を示す。 人的評価におけるアプローチの選好は,コヒーレンス改善における手法の有効性を示す。

Coherence is one of the critical factors that determine the quality of writing. We propose writing relevance (WR) training method for neural encoder-decoder natural language generation (NLG) models which improves coherence of the continuation by leveraging negative examples. WR loss regresses the vector representation of the context and generated sentence toward positive continuation by contrasting it with the negatives. We compare our approach with Unlikelihood (UL) training in a text continuation task on commonsense natural language inference (NLI) corpora to show which method better models the coherence by avoiding unlikely continuations. The preference of our approach in human evaluation shows the efficacy of our method in improving coherence.
翻訳日:2022-09-23 13:15:11 公開日:2022-09-22
# Covid-19ワクチンを用いたソーシャルメディア投稿の感情分析のためのテキストオーバーサンプリングによるドメイン固有トランスフォーマーモデルの適応

Adaptation of domain-specific transformer models with text oversampling for sentiment analysis of social media posts on Covid-19 vaccines ( http://arxiv.org/abs/2209.10966v1 )

ライセンス: Link先を確認
Anmol Bansal, Arjun Choudhry, Anubhav Sharma, Seba Susan(参考訳) コビッドウイルスは世界中に広がり、その急増に対応するためにいくつかのワクチンが開発されている。 ソーシャルメディア投稿からワクチンに関連する正しい感情を特定するために、Covid-19ワクチンに関連するツイートに対して、さまざまな最先端の事前訓練されたトランスフォーマーモデルを微調整する。 具体的には、最近導入された最先端の事前訓練型トランスフォーマーモデルRoBERTa、XLNet、BERTと、Covid-19のツイートで事前トレーニングされたドメイン固有トランスフォーマーモデルCT-BERT、BERTweetを使用する。 特に,肯定的,否定的,中立的な感情クラス間でのクラス分散が不均衡である小さなサンプルデータセットについて,言語モデルに基づくオーバーサンプリング技術(lmote)を用いたオーバーサンプリングによるテキスト拡張の選択肢について検討する。 本研究は,事前学習されたトランスフォーマーモデルの微調整に使用される不均衡な小標本データセットに対するテキストオーバーサンプリングの適合性,および分類タスクにおけるドメイン固有トランスフォーマーモデルの有用性について概説する。

Covid-19 has spread across the world and several vaccines have been developed to counter its surge. To identify the correct sentiments associated with the vaccines from social media posts, we fine-tune various state-of-the-art pre-trained transformer models on tweets associated with Covid-19 vaccines. Specifically, we use the recently introduced state-of-the-art pre-trained transformer models RoBERTa, XLNet and BERT, and the domain-specific transformer models CT-BERT and BERTweet that are pre-trained on Covid-19 tweets. We further explore the option of text augmentation by oversampling using Language Model based Oversampling Technique (LMOTE) to improve the accuracies of these models, specifically, for small sample datasets where there is an imbalanced class distribution among the positive, negative and neutral sentiment classes. Our results summarize our findings on the suitability of text oversampling for imbalanced small sample datasets that are used to fine-tune state-of-the-art pre-trained transformer models, and the utility of domain-specific transformer models for the classification task.
翻訳日:2022-09-23 13:14:58 公開日:2022-09-22
# CMGAN: モノラル音声強調のためのコンバータベースメトリックGAN

CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement ( http://arxiv.org/abs/2209.11112v1 )

ライセンス: Link先を確認
Sherif Abdulatif, Ruizhe Cao, Bin Yang(参考訳) 畳み込み拡張変換器 (Conformer) は、局所的およびグローバルな依存関係の両方をキャプチャできる自動音声認識 (ASR) や音声分離など、様々な言語領域のアプリケーションで最近提案されている。 本稿では、時間周波数(TF)領域における音声強調(SE)のためのコンストラクタに基づく計量生成逆ネットワーク(CMGAN)を提案する。 ジェネレータは、2段コンバータブロックを用いて、時間および周波数依存性の両方をモデル化する。 そして、デコーダは、推定をマグニチュードマスクデコーダブランチに分離し、望ましくない歪みと複雑な精細ブランチをフィルタリングし、マグニチュード推定をさらに改善し、位相情報を暗黙的に強化する。 さらに、対応する評価スコアに対して、ジェネレータを最適化することにより、メトリックミスマッチを緩和するメトリック判別器を含む。 目的的,主観的な評価は,CMGANが3つの音声強調タスク(デノイング,デノベーション,超解像)における最先端手法と比較して優れた性能を示すことを示す。 例えば、Voice Bank+DEMANDデータセットの定量化分析では、CMGANは、マージンが3.41のPSSQと11.10dBのSSNRよりも優れている。

Convolution-augmented transformers (Conformers) are recently proposed in various speech-domain applications, such as automatic speech recognition (ASR) and speech separation, as they can capture both local and global dependencies. In this paper, we propose a conformer-based metric generative adversarial network (CMGAN) for speech enhancement (SE) in the time-frequency (TF) domain. The generator encodes the magnitude and complex spectrogram information using two-stage conformer blocks to model both time and frequency dependencies. The decoder then decouples the estimation into a magnitude mask decoder branch to filter out unwanted distortions and a complex refinement branch to further improve the magnitude estimation and implicitly enhance the phase information. Additionally, we include a metric discriminator to alleviate metric mismatch by optimizing the generator with respect to a corresponding evaluation score. Objective and subjective evaluations illustrate that CMGAN is able to show superior performance compared to state-of-the-art methods in three speech enhancement tasks (denoising, dereverberation and super-resolution). For instance, quantitative denoising analysis on Voice Bank+DEMAND dataset indicates that CMGAN outperforms various previous models with a margin, i.e., PESQ of 3.41 and SSNR of 11.10 dB.
翻訳日:2022-09-23 13:09:29 公開日:2022-09-22
# Amortized Variational Inference: toward the Mathematical Foundation and Review

Amortized Variational Inference: Towards the Mathematical Foundation and Review ( http://arxiv.org/abs/2209.10888v1 )

ライセンス: Link先を確認
Ankush Ganguly, Sanjana Jain, and Ukrit Watchareeruetai(参考訳) 変分推論(VI)の中核となる原理は、複雑な後続確率密度の統計的推論問題をトラクタブルな最適化問題に変換することである。 この特性により、VIは複数のサンプリングベース技術よりも高速になる。 しかし、従来のVIアルゴリズムは大規模データセットには拡張性がなく、最適化プロセスを再実行することなく容易に境界外データポイントを推測できない。 確率的、ブラックボックス、そして償却されたVIのようなこの分野の最近の発展は、これらの問題に対処するのに役立っている。 生成的モデリングタスクは、パラメータ化関数を用いて近似後続密度パラメータを学習するため、その効率と拡張性にアモータイズVIを広く利用している。 本稿では,様々なVI技法の数学的基礎を概観し,VIの解釈の基礎となるものについて述べる。 さらに, 償却ギャップ, 一般化問題, 不整合表現学習, 後方崩壊など, 償却viの諸問題に対処した最近の傾向について概説する。 最後に、VI 最適化を改善するための交互分散手法を解析する。

The core principle of Variational Inference (VI) is to convert the statistical inference problem of computing complex posterior probability densities into a tractable optimization problem. This property enables VI to be faster than several sampling-based techniques. However, the traditional VI algorithm is not scalable to large data sets and is unable to readily infer out-of-bounds data points without re-running the optimization process. Recent developments in the field, like stochastic-, black box- and amortized-VI, have helped address these issues. Generative modeling tasks nowadays widely make use of amortized VI for its efficiency and scalability, as it utilizes a parameterized function to learn the approximate posterior density parameters. With this paper, we review the mathematical foundations of various VI techniques to form the basis for understanding amortized VI. Additionally, we provide an overview of the recent trends that address several issues of amortized VI, such as the amortization gap, generalization issues, inconsistent representation learning, and posterior collapse. Finally, we analyze alternate divergence measures that improve VI optimization.
翻訳日:2022-09-23 13:07:54 公開日:2022-09-22
# 学習した最適化をよく見る - 安定性、ロバスト性、帰納バイアス

A Closer Look at Learned Optimization: Stability, Robustness, and Inductive Biases ( http://arxiv.org/abs/2209.11208v1 )

ライセンス: Link先を確認
James Harrison, Luke Metz, Jascha Sohl-Dickstein(参考訳) 学習されたオプティマイザ(オプティマイザとして機能するように訓練されたニューラルネットワーク)は、機械学習モデルのトレーニングを劇的に加速する可能性がある。 しかし、膨大な計算コストで何千ものタスクをメタトレーニングした場合でも、blackboxは、メタトレーニングセットと異なり、タスクに適用する際の安定性や一般化に苦慮することが多いことを学習した。 本稿では,最適化アルゴリズムのインダクティブバイアスと安定性特性を調べるために動的システムのツールを使用し,ブラックボックスオプティマイザのインダクティブバイアスの設計にその結果を応用する。 我々の研究は、トレーニングダイナミクスの固有値の観点から、最適化が安定である条件を特徴付けるノイズ2次モデルから始まります。 次に、学習したオプティマイザのアーキテクチャとメタトレーニング手順に簡単な修正を加え、安定性を改善し、オプティマイザの帰納バイアスを改善する。 その結果得られた学習オプティマイザを、さまざまなニューラルネットワークトレーニングタスクに適用し、最適化パフォーマンスとメタトレーニング速度に関して、学習オプティマイザの現在の状況 -- 適合オプティマイザの計算オーバーヘッド -- を上回り、メタトレーニングされたタスクとははるかに異なるタスクに一般化することが可能になります。

Learned optimizers -- neural networks that are trained to act as optimizers -- have the potential to dramatically accelerate training of machine learning models. However, even when meta-trained across thousands of tasks at huge computational expense, blackbox learned optimizers often struggle with stability and generalization when applied to tasks unlike those in their meta-training set. In this paper, we use tools from dynamical systems to investigate the inductive biases and stability properties of optimization algorithms, and apply the resulting insights to designing inductive biases for blackbox optimizers. Our investigation begins with a noisy quadratic model, where we characterize conditions in which optimization is stable, in terms of eigenvalues of the training dynamics. We then introduce simple modifications to a learned optimizer's architecture and meta-training procedure which lead to improved stability, and improve the optimizer's inductive bias. We apply the resulting learned optimizer to a variety of neural network training tasks, where it outperforms the current state of the art learned optimizer -- at matched optimizer computational overhead -- with regard to optimization performance and meta-training speed, and is capable of generalization to tasks far different from those it was meta-trained on.
翻訳日:2022-09-23 13:07:35 公開日:2022-09-22
# ボクセル予測を超える不確実性:信頼できる脳病変の特定

Beyond Voxel Prediction Uncertainty: Identifying brain lesions you can trust ( http://arxiv.org/abs/2209.10877v1 )

ライセンス: Link先を確認
Benjamin Lambert, Florence Forbes, Senan Doyle, Alan Tucholka and Michel Dojat(参考訳) ディープニューラルネットワークは、3D医療画像の自動分割におけるゴールドスタンダードのアプローチとなっている。 臨床医の完全受け入れは、提供された結果に対する理解可能な不確実性評価の欠如によって妨げられている。 モンテカルロのドロップアウトのような不確実性を定量化するためのほとんどのアプローチは、ボクセルレベルでの予測の不確実性のある種の尺度に制限する。 真の医学的不確実性とは明確に関連しないが、ほとんどの関心対象(例えば脳病変)は単に個々の不確実性の総和や平均に還元できないボクセルのグループで構成されているため、臨床的には満足できない。 本研究では,モンテカルロのドロップアウトモデルの出力から学習した,革新的なグラフニューラルネットワークアプローチを用いて,ボクセルによる評価を超えることを提案する。 このネットワークは、エントロピー、分散、モデルの信頼という、ボクセルの不確実性の3つの推定器の融合を可能にし、その形状や大きさに関わらず、あらゆる病変に適用することができる。 多発性硬化症病変のセグメンテーションにおける不確実性評価に対するアプローチの優位性を示す。

Deep neural networks have become the gold-standard approach for the automated segmentation of 3D medical images. Their full acceptance by clinicians remains however hampered by the lack of intelligible uncertainty assessment of the provided results. Most approaches to quantify their uncertainty, such as the popular Monte Carlo dropout, restrict to some measure of uncertainty in prediction at the voxel level. In addition not to be clearly related to genuine medical uncertainty, this is not clinically satisfying as most objects of interest (e.g. brain lesions) are made of groups of voxels whose overall relevance may not simply reduce to the sum or mean of their individual uncertainties. In this work, we propose to go beyond voxel-wise assessment using an innovative Graph Neural Network approach, trained from the outputs of a Monte Carlo dropout model. This network allows the fusion of three estimators of voxel uncertainty: entropy, variance, and model's confidence; and can be applied to any lesion, regardless of its shape or size. We demonstrate the superiority of our approach for uncertainty estimate on a task of Multiple Sclerosis lesions segmentation.
翻訳日:2022-09-23 13:07:09 公開日:2022-09-22
# ブラインドハイパースペクトルアンミキシングのためのエントロピー的Descent Archetypal解析

Entropic Descent Archetypal Analysis for Blind Hyperspectral Unmixing ( http://arxiv.org/abs/2209.11002v1 )

ライセンス: Link先を確認
Alexandre Zouaoui (1), Gedeon Muhawenayo (1), Behnood Rasti (2), Jocelyn Chanussot (1) and Julien Mairal (1) ((1) Thoth, Inria, UGA, CNRS, Grenoble INP, LJK, (2) HZDR)(参考訳) 本稿では, 終端部材の線形混合を前提とした, ブラインドハイパースペクトルアンミキシングのためのアーチティパル解析に基づく新しいアルゴリズムを提案する。 原型分析はこのタスクの自然な定式化である。 この方法は純粋なピクセル(すなわち1つの材料を含むピクセル)の存在を必要とせず、代わりに、元のハイパースペクトル画像に存在するいくつかのピクセルの凸結合としてエンドメンバーを表現する。 我々のアプローチはエントロピー勾配降下戦略を利用する。 (i)従来の古型分析アルゴリズムよりも高スペクトルアンミキシングのより良い解を提供し、 (ii)効率的なgpu実装につながる。 アルゴリズムの単一インスタンスの実行は高速であるため,計算複雑性を合理的に保ちつつ,ハイパーパラメータ選択にロバストな手法を実現する適切なモデル選択手順とともに,センシング機構を提案する。 6つの標準実データセットを用いて、我々の手法は最先端の行列分解や最近のディープラーニング手法よりも優れていることを示す。 また、オープンソースのPyTorch実装も提供しています。

In this paper, we introduce a new algorithm based on archetypal analysis for blind hyperspectral unmixing, assuming linear mixing of endmembers. Archetypal analysis is a natural formulation for this task. This method does not require the presence of pure pixels (i.e., pixels containing a single material) but instead represents endmembers as convex combinations of a few pixels present in the original hyperspectral image. Our approach leverages an entropic gradient descent strategy, which (i) provides better solutions for hyperspectral unmixing than traditional archetypal analysis algorithms, and (ii) leads to efficient GPU implementations. Since running a single instance of our algorithm is fast, we also propose an ensembling mechanism along with an appropriate model selection procedure that make our method robust to hyper-parameter choices while keeping the computational complexity reasonable. By using six standard real datasets, we show that our approach outperforms state-of-the-art matrix factorization and recent deep learning methods. We also provide an open-source PyTorch implementation: https://github.com/inria-thoth/EDAA.
翻訳日:2022-09-23 13:06:49 公開日:2022-09-22
# オフロード無人地上車両の不確実性認識モデル

Uncertainty-aware Perception Models for Off-road Autonomous Unmanned Ground Vehicles ( http://arxiv.org/abs/2209.11115v1 )

ライセンス: Link先を確認
Zhaoyuan Yang, Yewteck Tan, Shiraj Sen, Johan Reimann, John Karigiannis, Mohammed Yousefhussien, Nurali Virani(参考訳) オフロード自律無人地上車両(UGV)は、遠隔地で重要な物資を供給し、マッピングと監視を支援し、競争環境における戦闘者を支援するために、軍用および商業用途のために開発されている。 オフロード環境の複雑さと地形、照明条件、昼と季節の変化のため、環境を知覚するために使用されるモデルは、多くの入力変数を扱う必要がある。 現在のデータセットは、季節、場所、セマンティッククラス、および日時における多様性の欠如のオフロード自律ナビゲーションのための知覚モデルをトレーニングするために使用されています。 1つのデータセットでトレーニングされたモデルは、入力分布のドリフトにより、他のオフロードナビゲーションデータセットや新しいロケーションに一般化できないという仮説をテストする。 さらに,複数のデータセットを組み合わせてセマンティックセグメンテーションに基づく環境認識モデルをトレーニングする方法を検討した。 我々は,不確実性定量化のためのMasksemblesアプローチをセマンティックセグメンテーションタスクに拡張し,モンテカルロ・ドロップアウトや標準ベースラインと比較する。 最後に、新たなテスト環境でugvプラットフォームから収集したデータに対するアプローチをテストする。 本研究では,不確実な定量化を伴う知覚モデルをUGV上に展開し,オンライン認識とナビゲーションタスクを支援することを実証する。

Off-road autonomous unmanned ground vehicles (UGVs) are being developed for military and commercial use to deliver crucial supplies in remote locations, help with mapping and surveillance, and to assist war-fighters in contested environments. Due to complexity of the off-road environments and variability in terrain, lighting conditions, diurnal and seasonal changes, the models used to perceive the environment must handle a lot of input variability. Current datasets used to train perception models for off-road autonomous navigation lack of diversity in seasons, locations, semantic classes, as well as time of day. We test the hypothesis that model trained on a single dataset may not generalize to other off-road navigation datasets and new locations due to the input distribution drift. Additionally, we investigate how to combine multiple datasets to train a semantic segmentation-based environment perception model and we show that training the model to capture uncertainty could improve the model performance by a significant margin. We extend the Masksembles approach for uncertainty quantification to the semantic segmentation task and compare it with Monte Carlo Dropout and standard baselines. Finally, we test the approach against data collected from a UGV platform in a new testing environment. We show that the developed perception model with uncertainty quantification can be feasibly deployed on an UGV to support online perception and navigation tasks.
翻訳日:2022-09-23 13:06:06 公開日:2022-09-22
# テキスト・画像生成のための拡散モデルの実装と実験

Implementing and Experimenting with Diffusion Models for Text-to-Image Generation ( http://arxiv.org/abs/2209.10948v1 )

ライセンス: Link先を確認
Robin Zbinden(参考訳) 近年の深層学習の進歩を生かして、現在、テキスト・ツー・イメージ生成モデルは一般大衆の注目を集めるメリットがある。 これらのモデルのうちの2つ、DALL-E 2 と Imagen は、画像の単純なテキスト記述から高写実性画像を生成することができることを示した。 拡散モデルと呼ばれる新しい画像生成手法に基づき、テキストから画像へのモデルは、人間の想像力が唯一の限界である多くの異なるタイプの高解像度画像を生成することができる。 しかし、これらのモデルはトレーニングするために必要な膨大な計算資源と、インターネットから収集した膨大なデータセットを扱う必要がある。 さらに、コードベースもモデルもリリースされていない。 その結果、AIコミュニティはこれらの最先端モデルを試すことができず、その結果の再現が複雑になるが不可能ではない。 この論文では、まずこれらのモデルが使用する様々なアプローチやテクニックをレビューし、それからテキスト・ツー・イメージ・モデルの独自の実装を提案する。 dall-e 2を高度に活用し, 計算コストの増大に対応するため, 若干の修正を行った。 したがって、これらのモデルに何ができるかを理解するために、特に低リソース体制で実験する機会があります。 特に, DALL-E 2 の著者が行ったものよりも, アブレーション研究を含む追加的および詳細な分析を行った。 さらに、拡散モデルでは、いわゆる誘導法を用いて生成プロセスを支援する。 画像品質を改善するために,他のガイダンス手法と併用して利用できる新しいガイダンス手法を提案する。 最後に、本モデルが生成する画像の品質は、最先端のテキスト対画像モデルの大幅なトレーニングコストを維持することなく、かなり良好である。

Taking advantage of the many recent advances in deep learning, text-to-image generative models currently have the merit of attracting the general public attention. Two of these models, DALL-E 2 and Imagen, have demonstrated that highly photorealistic images could be generated from a simple textual description of an image. Based on a novel approach for image generation called diffusion models, text-to-image models enable the production of many different types of high resolution images, where human imagination is the only limit. However, these models require exceptionally large amounts of computational resources to train, as well as handling huge datasets collected from the internet. In addition, neither the codebase nor the models have been released. It consequently prevents the AI community from experimenting with these cutting-edge models, making the reproduction of their results complicated, if not impossible. In this thesis, we aim to contribute by firstly reviewing the different approaches and techniques used by these models, and then by proposing our own implementation of a text-to-image model. Highly based on DALL-E 2, we introduce several slight modifications to tackle the high computational cost induced. We thus have the opportunity to experiment in order to understand what these models are capable of, especially in a low resource regime. In particular, we provide additional and analyses deeper than the ones performed by the authors of DALL-E 2, including ablation studies. Besides, diffusion models use so-called guidance methods to help the generating process. We introduce a new guidance method which can be used in conjunction with other guidance methods to improve image quality. Finally, the images generated by our model are of reasonably good quality, without having to sustain the significant training costs of state-of-the-art text-to-image models.
翻訳日:2022-09-23 13:00:30 公開日:2022-09-22
# ポアソンフロー生成モデル

Poisson Flow Generative Models ( http://arxiv.org/abs/2209.11178v1 )

ライセンス: Link先を確認
Yilun Xu, Ziming Liu, Max Tegmark, Tommi Jaakkola(参考訳) 我々は,高次元半球上の一様分布を任意のデータ分布にマッピングする新しい「ポアソンフロー」生成モデル(PFGM)を提案する。 データポイントを、追加次元のz$で拡張された空間におけるz=0$ハイパープレーン上の電荷として解釈し、高次元の電場(ポアソン方程式の解の勾配)を生成する。 これらの電荷が電界線に沿って上向きに流れると、z=0$平面における初期分布は半径 r$ の半球上の分布に変換され、r \to\infty$ の極限で一様になる。 単射変換を学ぶために、拡張空間における正規化場を推定する。 サンプリングのために、物理的に意味のある追加次元によって固定された後方ODEを考案する:サンプルは、$z$が0になったときに、未拡張のデータ多様体にぶつかる。 実験的に、PFGMはCIFAR-10上の正規化フローモデルのうち、現在の最先端の性能を達成し、インセプションスコアは9.68ドル、FIDスコアは2.48ドルである。 また、最新のSDEアプローチと同等に機能し、画像生成タスクで10\times$から20 \times$Acceleratorを提供する。 さらに、PFGMはより弱いネットワークアーキテクチャにおける推定誤差に寛容であり、オイラー法におけるステップサイズに頑健である。 コードはhttps://github.com/newbeeer/poisson_flowで入手できる。

We propose a new "Poisson flow" generative model (PFGM) that maps a uniform distribution on a high-dimensional hemisphere into any data distribution. We interpret the data points as electrical charges on the $z=0$ hyperplane in a space augmented with an additional dimension $z$, generating a high-dimensional electric field (the gradient of the solution to Poisson equation). We prove that if these charges flow upward along electric field lines, their initial distribution in the $z=0$ plane transforms into a distribution on the hemisphere of radius $r$ that becomes uniform in the $r \to\infty$ limit. To learn the bijective transformation, we estimate the normalized field in the augmented space. For sampling, we devise a backward ODE that is anchored by the physically meaningful additional dimension: the samples hit the unaugmented data manifold when the $z$ reaches zero. Experimentally, PFGM achieves current state-of-the-art performance among the normalizing flow models on CIFAR-10, with an Inception score of $9.68$ and a FID score of $2.48$. It also performs on par with the state-of-the-art SDE approaches while offering $10\times $ to $20 \times$ acceleration on image generation tasks. Additionally, PFGM appears more tolerant of estimation errors on a weaker network architecture and robust to the step size in the Euler method. The code is available at https://github.com/Newbeeer/poisson_flow .
翻訳日:2022-09-23 13:00:00 公開日:2022-09-22
# Deep Lake:ディープラーニングのためのレイクハウス

Deep Lake: a Lakehouse for Deep Learning ( http://arxiv.org/abs/2209.10785v1 )

ライセンス: Link先を確認
Sasun Hambardzumyan, Abhinav Tuli, Levon Ghukasyan, Fariz Rahman, Hrant Topchyan, David Isayan, Mikayel Harutyunyan, Tatevik Hakobyan, Ivo Stranic, Davit Buniatyan(参考訳) 従来のデータレイクは、時間旅行、SQLクエリの実行、ACIDトランザクションによるデータの取り込み、クラウドストレージ上のペタバイト規模のデータセットの可視化を可能にする、分析ワークロードのための重要なデータインフラストラクチャを提供する。 これにより、データサイロを分解し、データ駆動による意思決定をアンロックし、運用効率を向上し、コストを削減できる。 しかし、ディープラーニングが一般的な分析ワークフローを引き継ぐにつれ、自然言語処理(NLP)、オーディオ処理、コンピュータビジョン、非タブラルデータセットを含むアプリケーションでは、従来のデータレイクは役に立たない。 本稿では,Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスであるDeep Lakeを紹介する。 deep lakeは、画像、ビデオ、アノテーションなどの複雑なデータを表データだけでなく、テンソル形式で保存し、ネットワーク越しに高速にデータをストリームする。 (a)テンソルクエリ言語。 (b)ブラウザ内可視化エンジン又は (c)GPU利用を犠牲にすることなく、ディープラーニングフレームワーク。 Deep Lakeに格納されているデータセットは、PyTorch、TensorFlow、JAXからアクセスでき、多数のMLOpsツールと統合できる。

Traditional data lakes provide critical data infrastructure for analytical workloads by enabling time travel, running SQL queries, ingesting data with ACID transactions, and visualizing petabyte-scale datasets on cloud storage. They allow organizations to break down data silos, unlock data-driven decision-making, improve operational efficiency, and reduce costs. However, as deep learning takes over common analytical workflows, traditional data lakes become less useful for applications such as natural language processing (NLP), audio processing, computer vision, and applications involving non-tabular datasets. This paper presents Deep Lake, an open-source lakehouse for deep learning applications developed at Activeloop. Deep Lake maintains the benefits of a vanilla data lake with one key difference: it stores complex data, such as images, videos, annotations, as well as tabular data, in the form of tensors and rapidly streams the data over the network to (a) Tensor Query Language, (b) in-browser visualization engine, or (c) deep learning frameworks without sacrificing GPU utilization. Datasets stored in Deep Lake can be accessed from PyTorch, TensorFlow, JAX, and integrate with numerous MLOps tools.
翻訳日:2022-09-23 12:59:14 公開日:2022-09-22
# 移動ロボットの視覚異常検出における課題

Challenges in Visual Anomaly Detection for Mobile Robots ( http://arxiv.org/abs/2209.10995v1 )

ライセンス: Link先を確認
Dario Mantegazza, Alessandro Giusti, Luca M. Gambardella, Andrea Rizzoli and J\'er\^ome Guzzi(参考訳) 視覚に基づく自律移動ロボットの異常検出の課題について考察する。 関連する視覚異常を分類し,教師なしの深層学習法でどのように検出できるかを考察する。 我々は、このタスク用に特別に構築された、最先端のアプローチをテストする新しいデータセットを提案し、最終的に実際のシナリオでのデプロイメントについて議論する。

We consider the task of detecting anomalies for autonomous mobile robots based on vision. We categorize relevant types of visual anomalies and discuss how they can be detected by unsupervised deep learning methods. We propose a novel dataset built specifically for this task, on which we test a state-of-the-art approach; we finally discuss deployment in a real scenario.
翻訳日:2022-09-23 12:58:54 公開日:2022-09-22
# ニューラルコンビネーション最適化はどの程度優れているか?

How Good Is Neural Combinatorial Optimization? ( http://arxiv.org/abs/2209.10913v1 )

ライセンス: Link先を確認
Shengcai Liu, Yu Zhang, Ke Tang, Xin Yao(参考訳) 組合せ最適化(co)問題に取り組む従来の解法は通常、人間の専門家によって設計される。 近年、深層学習、特に深層強化学習を利用して、coの効果的な解法を自動的に学習することへの関心が高まっている。 新たなパラダイムはNeural Combinatorial Optimization(NCO)と呼ばれる。 しかしながら、他のアプローチに対するNCOの利点と欠点は、経験的あるいは理論的に十分に研究されていない。 本研究では,NCOソルバと代替ソルバの総合比較研究について述べる。 具体的には, テストベッド問題としてトラベリングセールスマン問題を考慮し, 有効性, 効率性, 安定性, スケーラビリティ, 一般化能力の5つの側面から解法の性能を評価する。 以上の結果から, NCO アプローチで学習した解法は, 従来の解法には及ばないことが明らかとなった。 前者の潜在的な利点は、十分なトレーニングインスタンスが利用可能であれば、小さな問題インスタンスにおいて、より優れた時間とエネルギー効率が得られることである。 この取り組みがNCOの強みと弱みをよりよく理解し、他のアプローチに対するNCOアプローチをさらにベンチマークするための包括的な評価プロトコルを提供することを期待しています。

Traditional solvers for tackling combinatorial optimization (CO) problems are usually designed by human experts. Recently, there has been a surge of interest in utilizing Deep Learning, especially Deep Reinforcement Learning, to automatically learn effective solvers for CO. The resultant new paradigm is termed Neural Combinatorial Optimization (NCO). However, the advantages and disadvantages of NCO over other approaches have not been well studied empirically or theoretically. In this work, we present a comprehensive comparative study of NCO solvers and alternative solvers. Specifically, taking the Traveling Salesman Problem as the testbed problem, we assess the performance of the solvers in terms of five aspects, i.e., effectiveness, efficiency, stability, scalability and generalization ability. Our results show that in general the solvers learned by NCO approaches still fall short of traditional solvers in nearly all these aspects. A potential benefit of the former would be their superior time and energy efficiency on small-size problem instances when sufficient training instances are available. We hope this work would help better understand the strengths and weakness of NCO, and provide a comprehensive evaluation protocol for further benchmarking NCO approaches against other approaches.
翻訳日:2022-09-23 12:58:48 公開日:2022-09-22
# コネクテッドカーにおけるコンセンサスに基づく分散連合学習の強化

Enhanced Decentralized Federated Learning based on Consensus in Connected Vehicles ( http://arxiv.org/abs/2209.10722v1 )

ライセンス: Link先を確認
Xiaoyan Liu, Zehui Dong, Zhiwei Xu, Siyuan Liu, Jie Tian(参考訳) 連結車両に関する先進的な研究は、最近、V2Xネットワークと機械学習(ML)ツールの統合と分散意思決定を目標にしている。 フェデレーション・ラーニング(FL)は、V2Xネットワークの車両を含む分散システムにおける機械学習(ML)モデルをトレーニングするための新しいパラダイムとして登場した。 トレーニングデータをサーバに共有してアップロードする代わりに、モデルパラメータ(ニューラルネットワークの重みやバイアスなど)の更新は、ローカル学習者として機能する多数の相互接続された車両に適用される。 これらの利点にもかかわらず、既存のアプローチの制限は、ローカルパラメータの集約と融合のためのサーバに依存する集中的な最適化であり、単一の障害点の欠点と、V2Xネットワークサイズを増やすためのスケーリングの問題に繋がる。 一方、インテリジェントな輸送シナリオでは、搭載センサーから収集されたデータは冗長であり、集約のパフォーマンスが低下する。 これらの課題に対処するため,ネットワーク上でのフェデレーション学習に取り組み,学習品質を向上させるために,分散データ処理の新たなアイデアを探求し,ネットワーク内車両のためのフェデレーション学習フレームワークC-DFL(Consensus based Decentralized Federated Learning)を導入する。 C-DFLの性能を評価するため,C-DFLは従来手法よりも優れた性能を示した。

Advanced researches on connected vehicles have recently targeted to the integration of vehicle-to-everything (V2X) networks with Machine Learning (ML) tools and distributed decision making. Federated learning (FL) is emerging as a new paradigm to train machine learning (ML) models in distributed systems, including vehicles in V2X networks. Rather than sharing and uploading the training data to the server, the updating of model parameters (e.g., neural networks' weights and biases) is applied by large populations of interconnected vehicles, acting as local learners. Despite these benefits, the limitation of existing approaches is the centralized optimization which relies on a server for aggregation and fusion of local parameters, leading to the drawback of a single point of failure and scaling issues for increasing V2X network size. Meanwhile, in intelligent transport scenarios, data collected from onboard sensors are redundant, which degrades the performance of aggregation. To tackle these problems, we explore a novel idea of decentralized data processing and introduce a federated learning framework for in-network vehicles, C-DFL(Consensus based Decentralized Federated Learning), to tackle federated learning on connected vehicles and improve learning quality. Extensive simulations have been implemented to evaluate the performance of C-DFL, that demonstrates C-DFL outperforms the performance of conventional methods in all cases.
翻訳日:2022-09-23 12:57:40 公開日:2022-09-22
# 実世界ナビゲーションのためのリアルタイム注意を伴う学習モデル予測コントローラ

Learning Model Predictive Controllers with Real-Time Attention for Real-World Navigation ( http://arxiv.org/abs/2209.10780v1 )

ライセンス: Link先を確認
Xuesu Xiao, Tingnan Zhang, Krzysztof Choromanski, Edward Lee, Anthony Francis, Jake Varley, Stephen Tu, Sumeet Singh, Peng Xu, Fei Xia, Sven Mikael Persson, Dmitry Kalashnikov, Leila Takayama, Roy Frostig, Jie Tan, Carolina Parada, Vikas Sindhwani(参考訳) 何十年にもわたる研究にもかかわらず、既存のナビゲーションシステムは、乱雑な家庭環境や人里離れた公共空間などにおいて、現実世界の課題に直面している。 そこで本研究では,模擬学習の利点とモデル予測制御(MPC)によるシステム制約の頑健な処理を組み合わせた,暗黙的な制御ポリシーのクラスを提案する。 performer-mpcと呼ばれるこのアプローチでは、視覚コンテキスト埋め込みによってパラメータ化された学習コスト関数を使用する。 我々はコスト関数を共同で訓練し、それに依存するコントローラを構築し、対応する双方向最適化問題を効果的に解決する。 その結果,実世界の異なるシナリオにおいて,望ましいナビゲーション行動のエキスパート・デモをいくつか活用することにより,mpcの標準性能が向上することを示す。 標準的なMPCポリシーと比較して、Performer-MPCは乱雑な環境で達成した目標を40%以上達成し、人間の周りを移動する際の社会的指標を65%以上向上させる。

Despite decades of research, existing navigation systems still face real-world challenges when deployed in the wild, e.g., in cluttered home environments or in human-occupied public spaces. To address this, we present a new class of implicit control policies combining the benefits of imitation learning with the robust handling of system constraints from Model Predictive Control (MPC). Our approach, called Performer-MPC, uses a learned cost function parameterized by vision context embeddings provided by Performers -- a low-rank implicit-attention Transformer. We jointly train the cost function and construct the controller relying on it, effectively solving end-to-end the corresponding bi-level optimization problem. We show that the resulting policy improves standard MPC performance by leveraging a few expert demonstrations of the desired navigation behavior in different challenging real-world scenarios. Compared with a standard MPC policy, Performer-MPC achieves >40% better goal reached in cluttered environments and >65% better on social metrics when navigating around humans.
翻訳日:2022-09-23 12:57:16 公開日:2022-09-22
# SCALES: 公正原則から制約付き意思決定へ

SCALES: From Fairness Principles to Constrained Decision-Making ( http://arxiv.org/abs/2209.10860v1 )

ライセンス: Link先を確認
Sreejith Balakrishnan, Jianxin Bi, Harold Soh(参考訳) 本稿では、確立された公正性原理をCMDP(Constraint Markov Decision Process)に基づく共通表現に変換する一般的なフレームワークであるSCALESを提案する。 因果言語の助けを借りて、我々のフレームワークは意思決定の手順(手続き的公平性)と意思決定の結果(対外公平性)の両方に制約を課すことができます。 具体的には,高名なフェアネス原理を,ユーティリティコンポーネント,非causalコンポーネント,あるいはscales-cmdpの因果コンポーネントとして符号化可能であることを示す。 シミュレーションされた医療シナリオと実世界のCompASデータセットを含むケーススタディを用いてSCALESを説明する。 実験は,単一ステップと逐次的な意思決定シナリオにおいて,代替的公平性原則を具現化する公正なポリシを生成することを実証する。

This paper proposes SCALES, a general framework that translates well-established fairness principles into a common representation based on the Constraint Markov Decision Process (CMDP). With the help of causal language, our framework can place constraints on both the procedure of decision making (procedural fairness) as well as the outcomes resulting from decisions (outcome fairness). Specifically, we show that well-known fairness principles can be encoded either as a utility component, a non-causal component, or a causal component in a SCALES-CMDP. We illustrate SCALES using a set of case studies involving a simulated healthcare scenario and the real-world COMPAS dataset. Experiments demonstrate that our framework produces fair policies that embody alternative fairness principles in single-step and sequential decision-making scenarios.
翻訳日:2022-09-23 12:56:57 公開日:2022-09-22
# STING:GANを用いた自己注意型時系列インプットネットワーク

STING: Self-attention based Time-series Imputation Networks using GAN ( http://arxiv.org/abs/2209.10801v1 )

ライセンス: Link先を確認
Eunkyu Oh, Taehun Kim, Yunhu Ji, Sushil Khyalia(参考訳) 時系列データは現実世界のアプリケーションにおいてユビキタスである。 しかしながら、最も一般的な問題の1つは、時系列データがデータ収集プロセスの本質的な性質によって値が失われる可能性があることである。 したがって、多変量(相関)時系列データからの欠落値を暗示することは、正確なデータ駆動決定をしながら予測性能を向上させることが不可欠である。 従来の計算処理では、欠落した値を削除するか、平均/ゼロに基づいてそれを埋める。 近年のディープニューラルネットワークに基づく研究は顕著な成果を上げているが、多変量時系列の複雑な生成過程を捉えるには限界がある。 本稿では,SING(Self-attention based Time-Series Imputation Networks using GAN)と呼ばれる多変量時系列データに対する新しい計算手法を提案する。 時系列の潜在表現を学習するために,生成型逆ネットワークと双方向リカレントニューラルネットワークを活用する。 さらに,系列全体の重み付き相関を捉え,無関係な相関による潜在的なバイアスを回避するための新しい注意機構を提案する。 実世界の3つのデータセットによる実験結果から,SINGは既存の最先端手法よりも計算精度が優れており,その精度も向上していることがわかった。

Time series data are ubiquitous in real-world applications. However, one of the most common problems is that the time series data could have missing values by the inherent nature of the data collection process. So imputing missing values from multivariate (correlated) time series data is imperative to improve a prediction performance while making an accurate data-driven decision. Conventional works for imputation simply delete missing values or fill them based on mean/zero. Although recent works based on deep neural networks have shown remarkable results, they still have a limitation to capture the complex generation process of the multivariate time series. In this paper, we propose a novel imputation method for multivariate time series data, called STING (Self-attention based Time-series Imputation Networks using GAN). We take advantage of generative adversarial networks and bidirectional recurrent neural networks to learn latent representations of the time series. In addition, we introduce a novel attention mechanism to capture the weighted correlations of the whole sequence and avoid potential bias brought by unrelated ones. Experimental results on three real-world datasets demonstrate that STING outperforms the existing state-of-the-art methods in terms of imputation accuracy as well as downstream tasks with the imputed values therein.
翻訳日:2022-09-23 12:50:36 公開日:2022-09-22
# 概念活性化領域:概念に基づく説明のための一般化された枠組み

Concept Activation Regions: A Generalized Framework For Concept-Based Explanations ( http://arxiv.org/abs/2209.11222v1 )

ライセンス: Link先を確認
Jonathan Crabb\'e and Mihaela van der Schaar(参考訳) 概念に基づく説明は、ユーザーが指定した概念のレンズを通してディープニューラルネットワーク(dnn)の予測を理解することができる。 既存の手法では、概念を説明する例はDNNの潜伏空間の固定方向にマッピングされていると仮定している。 これが真であれば、概念はその方向を向いた概念活性化ベクトル(cav)によって表現することができる。 本研究では,DNNの潜伏空間内の異なるクラスタに概念例を分散させることにより,この仮定を緩和することを提案する。 各概念は、これらのクラスタを含むDNNの潜在空間の領域で表現され、概念活性化領域(concept activation region, CAR)と呼ばれる。 このアイデアを形式化するために、カーネルトリックとサポートベクトル分類器に基づくCAV形式の拡張を導入する。 このカーフォーマリズムは、グローバルな概念に基づく説明と、局所的な概念に基づく特徴の重要性をもたらす。 我々は、ラジアルカーネルで構築されたCAR説明が潜在空間等長の下で不変であることを証明する。 このようにして、CARは同じ幾何学を持つ潜在空間に同じ説明を割り当てる。 さらに,CARは,(1)DNNの潜伏空間における概念の散らばり方,(2)人間の概念アノテーションに近い世界的説明,(3)概念を有意義に関連づける概念的特徴の重要性について,より正確な説明を提供することを実証的に示す。 最後に、我々はCARを用いて、DNNが前立腺がんグレーティングシステムのような既知の科学的概念を自律的に再発見できることを示す。

Concept-based explanations permit to understand the predictions of a deep neural network (DNN) through the lens of concepts specified by users. Existing methods assume that the examples illustrating a concept are mapped in a fixed direction of the DNN's latent space. When this holds true, the concept can be represented by a concept activation vector (CAV) pointing in that direction. In this work, we propose to relax this assumption by allowing concept examples to be scattered across different clusters in the DNN's latent space. Each concept is then represented by a region of the DNN's latent space that includes these clusters and that we call concept activation region (CAR). To formalize this idea, we introduce an extension of the CAV formalism that is based on the kernel trick and support vector classifiers. This CAR formalism yields global concept-based explanations and local concept-based feature importance. We prove that CAR explanations built with radial kernels are invariant under latent space isometries. In this way, CAR assigns the same explanations to latent spaces that have the same geometry. We further demonstrate empirically that CARs offer (1) more accurate descriptions of how concepts are scattered in the DNN's latent space; (2) global explanations that are closer to human concept annotations and (3) concept-based feature importance that meaningfully relate concepts with each other. Finally, we use CARs to show that DNNs can autonomously rediscover known scientific concepts, such as the prostate cancer grading system.
翻訳日:2022-09-23 12:50:16 公開日:2022-09-22
# 不整合によるフェアロバスト能動的学習

Fair Robust Active Learning by Joint Inconsistency ( http://arxiv.org/abs/2209.10729v1 )

ライセンス: Link先を確認
Tsung-Han Wu, Shang-Tse Chen, Winston H. Hsu(参考訳) フェアアクティブラーニング(Fair Active Learning, FAL)は、アクティブラーニング技術を利用して、限られたデータで高いモデル性能を達成し、センシティブなグループ(性別など)間の公平性を達成する。 しかし、さまざまな安全クリティカルな機械学習アプリケーションに不可欠な敵攻撃の影響はまだFALでは対処されていない。 そこで本研究では,従来のFALと対角的堅牢性を統合したFAL(Fair Robust Active Learning)を提案する。 FRALは、良質なデータに対する等化性能と、グループ間の敵対的攻撃に対する等化ロバスト性を共同で達成するために、アクティブな学習技術を活用するためにMLモデルを必要とする。 この新たな課題では、従来のFAL手法は一般に計算負荷と非効率という問題に直面している。 そこで我々は,JIN(Joint Inconsistency)による簡易かつ効果的なFRAL戦略を開発した。 ラベル付けのための不利なグループの性能と堅牢性を向上できるサンプルを効率よく見つけるために,本手法では,良性サンプルと逆性サンプルと,標準モデルとロバストモデルとの整合性を予測する。 多様なデータセットとセンシティブなグループによる広範囲な実験により,本手法は良質なサンプルでより公平なパフォーマンスを実現するだけでなく,既存のアクティブラーニングやfalベースラインと比較してホワイトボックスpgd攻撃下でも公平な堅牢性が得られることが示された。 FRALは、バイオメトリックスシステムにおける、安全で堅牢なML研究や顔認識などの応用を開発するための、新たな道を開くことを楽観視しています。

Fair Active Learning (FAL) utilized active learning techniques to achieve high model performance with limited data and to reach fairness between sensitive groups (e.g., genders). However, the impact of the adversarial attack, which is vital for various safety-critical machine learning applications, is not yet addressed in FAL. Observing this, we introduce a novel task, Fair Robust Active Learning (FRAL), integrating conventional FAL and adversarial robustness. FRAL requires ML models to leverage active learning techniques to jointly achieve equalized performance on benign data and equalized robustness against adversarial attacks between groups. In this new task, previous FAL methods generally face the problem of unbearable computational burden and ineffectiveness. Therefore, we develop a simple yet effective FRAL strategy by Joint INconsistency (JIN). To efficiently find samples that can boost the performance and robustness of disadvantaged groups for labeling, our method exploits the prediction inconsistency between benign and adversarial samples as well as between standard and robust models. Extensive experiments under diverse datasets and sensitive groups demonstrate that our method not only achieves fairer performance on benign samples but also obtains fairer robustness under white-box PGD attacks compared with existing active learning and FAL baselines. We are optimistic that FRAL would pave a new path for developing safe and robust ML research and applications such as facial attribute recognition in biometrics systems.
翻訳日:2022-09-23 12:48:55 公開日:2022-09-22
# IntereStyle:ロバストスタイルGANインバージョンのための関心領域のエンコード

IntereStyle: Encoding an Interest Region for Robust StyleGAN Inversion ( http://arxiv.org/abs/2209.10811v1 )

ライセンス: Link先を確認
Seungjun Moon, GyeongMoon Park(参考訳) 近年、実世界の画像の操作は、実世界の画像を潜在空間に埋め込む生成的逆ネットワーク(gans)と対応するエンコーダの開発とともに、高度に精巧化されている。 しかし、歪みと知覚のトレードオフのため、GANのエンコーダの設計は依然として難しい課題である。 本稿では,既存のエンコーダが興味領域,例えば人間の顔領域だけでなく,背景パターンや障害物といった非興味領域においても歪みを低減しようとしていることを指摘する。 しかし、実世界の画像の最も興味のない領域のほとんどは、生成モデルによって理想的に再構築できない分布外領域(ood)にある。 さらに、興味領域と重なり合う非関心領域は、例えば、顔領域と重なり合うマイクを白ひげに逆転させるなど、興味領域の本来の特徴を具現化することができることを実証的に見出した。 その結果、知覚品質を維持しながら画像全体の歪みを小さくすることは極めて困難である。 このトレードオフを克服するため,我々は,関心領域に着目してエンコーディングを容易にする,単純かつ効果的なエンコーダトレーニングスキームである interestyle を提案する。 IntereStyleはエンコーダを操り、興味のある領域と興味のない領域のエンコードを切り離す。 この目的のために,不利な領域の情報を反復的にフィルタリングし,不利な領域の悪影響を規制する。 既存の最先端エンコーダと比較して,IntereStyleは歪みの低減と知覚品質の向上を実現している。 特に,本モデルでは画像の特徴を頑健に保存し,頑健な画像編集とスタイル混合の結果を示す。 レビューの後、トレーニング済みのモデルでコードをリリースします。

Recently, manipulation of real-world images has been highly elaborated along with the development of Generative Adversarial Networks (GANs) and corresponding encoders, which embed real-world images into the latent space. However, designing encoders of GAN still remains a challenging task due to the trade-off between distortion and perception. In this paper, we point out that the existing encoders try to lower the distortion not only on the interest region, e.g., human facial region but also on the uninterest region, e.g., background patterns and obstacles. However, most uninterest regions in real-world images are located at out-of-distribution (OOD), which are infeasible to be ideally reconstructed by generative models. Moreover, we empirically find that the uninterest region overlapped with the interest region can mangle the original feature of the interest region, e.g., a microphone overlapped with a facial region is inverted into the white beard. As a result, lowering the distortion of the whole image while maintaining the perceptual quality is very challenging. To overcome this trade-off, we propose a simple yet effective encoder training scheme, coined IntereStyle, which facilitates encoding by focusing on the interest region. IntereStyle steers the encoder to disentangle the encodings of the interest and uninterest regions. To this end, we filter the information of the uninterest region iteratively to regulate the negative impact of the uninterest region. We demonstrate that IntereStyle achieves both lower distortion and higher perceptual quality compared to the existing state-of-the-art encoders. Especially, our model robustly conserves features of the original images, which shows the robust image editing and style mixing results. We will release our code with the pre-trained model after the review.
翻訳日:2022-09-23 12:48:25 公開日:2022-09-22
# pact: 自己回帰型ロボット訓練のための知覚行動因果トランスフォーマ

PACT: Perception-Action Causal Transformer for Autoregressive Robotics Pre-Training ( http://arxiv.org/abs/2209.11133v1 )

ライセンス: Link先を確認
Rogerio Bonatti, Sai Vemprala, Shuang Ma, Felipe Frujeri, Shuhang Chen, Ashish Kapoor(参考訳) ロボットは長年、モジュールと接続が従来のものであれ学習ベースであれ、人間の専門知識や事前知識を必要とする複雑なシステムアーキテクチャに根ざした分野だった。 大規模な事前学習型言語モデルにインスパイアされた本研究は、与えられたロボット上の複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。 本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。 時間とともに状態や行動の自己回帰予測を通じて、我々のモデルは特定のロボットの動作や動作を暗黙的に符号化する。 実験では,移動エージェントの領域に着目し,このロボット固有の表現が単一出発点として機能し,安全なナビゲーション,局所化,マッピングなどの異なるタスクを実現できることを示す。 我々は、LiDARセンサーを知覚入力(MuSHR)として使用する車輪付きロボットと、一対一のRGB画像(Habitat)を用いたシミュレーションエージェントの2つの形態因子を評価する。 提案手法では,事前学習したモデル上で小さなタスク固有のネットワークを微調整することで,すべてのタスクに対して1つのモデルをスクラッチから同時にトレーニングするのに比べ,パフォーマンスが大幅に向上することを示す。 タスク間で共通の良質な表現を共有することで、全体のモデルのキャパシティを低くし、そのようなシステムのリアルタイムデプロイメントを高速化できます。

Robotics has long been a field riddled with complex systems architectures whose modules and connections, whether traditional or learning-based, require significant human expertise and prior knowledge. Inspired by large pre-trained language models, this work introduces a paradigm for pre-training a general purpose representation that can serve as a starting point for multiple tasks on a given robot. We present the Perception-Action Causal Transformer (PACT), a generative transformer-based architecture that aims to build representations directly from robot data in a self-supervised fashion. Through autoregressive prediction of states and actions over time, our model implicitly encodes dynamics and behaviors for a particular robot. Our experimental evaluation focuses on the domain of mobile agents, where we show that this robot-specific representation can function as a single starting point to achieve distinct tasks such as safe navigation, localization and mapping. We evaluate two form factors: a wheeled robot that uses a LiDAR sensor as perception input (MuSHR), and a simulated agent that uses first-person RGB images (Habitat). We show that finetuning small task-specific networks on top of the larger pretrained model results in significantly better performance compared to training a single model from scratch for all tasks simultaneously, and comparable performance to training a separate large model for each task independently. By sharing a common good-quality representation across tasks we can lower overall model capacity and speed up the real-time deployment of such systems.
翻訳日:2022-09-23 12:42:31 公開日:2022-09-22
# layer freezing & data sieving: スパーストレーニングのための汎用フレームワークの欠片

Layer Freezing & Data Sieving: Missing Pieces of a Generic Framework for Sparse Training ( http://arxiv.org/abs/2209.11204v1 )

ライセンス: Link先を確認
Geng Yuan, Yanyu Li, Sheng Li, Zhenglun Kong, Sergey Tulyakov, Xulong Tang, Yanzhi Wang, Jian Ren(参考訳) 近年,エッジデバイス上での効率的なディープラーニングのパラダイムとしてスパーストレーニングが登場している。 現在の研究は主に、モデルのスパーシティをさらに増やすことで、トレーニングコストの削減に尽力している。 しかし、スパルシティーの増大は必然的に極めて高いスパルシティーレベルで高い精度の劣化をもたらすため、必ずしも理想的ではない。 本稿は,精度を維持しつつスパーストレーニングコストを効果的かつ効率的に削減するための他の方法を検討することを目的とする。 そこで本研究では,レイヤ凍結とデータシービングという2つの手法について検討する。 まず、層凍結アプローチは密集したモデルトレーニングと微調整で成功を収めているが、スパーストレーニング領域では採用されていない。 それにもかかわらず、スパーストレーニングのユニークな特徴は層凍結技術の導入を妨げる可能性がある。 そこで,少人数の学習における層凍結技術の適用可能性と可能性を分析し,かなりのトレーニングコスト削減の可能性を見いだした。 第2に、データセット効率のトレーニングのためのデータシービング手法を提案し、トレーニングプロセス全体を通して部分的なデータセットのみを使用することで、トレーニングコストをさらに削減する。 どちらの手法もスパーストレーニングアルゴリズムにうまく組み込まれ、汎用的なフレームワークを形成することができることを示す。 我々の広範な実験により、SpFDEはトレーニングコストを大幅に削減すると同時に、重み空間、層凍結、データセットシービングの3次元から精度を保っている。

Recently, sparse training has emerged as a promising paradigm for efficient deep learning on edge devices. The current research mainly devotes efforts to reducing training costs by further increasing model sparsity. However, increasing sparsity is not always ideal since it will inevitably introduce severe accuracy degradation at an extremely high sparsity level. This paper intends to explore other possible directions to effectively and efficiently reduce sparse training costs while preserving accuracy. To this end, we investigate two techniques, namely, layer freezing and data sieving. First, the layer freezing approach has shown its success in dense model training and fine-tuning, yet it has never been adopted in the sparse training domain. Nevertheless, the unique characteristics of sparse training may hinder the incorporation of layer freezing techniques. Therefore, we analyze the feasibility and potentiality of using the layer freezing technique in sparse training and find it has the potential to save considerable training costs. Second, we propose a data sieving method for dataset-efficient training, which further reduces training costs by ensuring only a partial dataset is used throughout the entire training process. We show that both techniques can be well incorporated into the sparse training algorithm to form a generic framework, which we dub SpFDE. Our extensive experiments demonstrate that SpFDE can significantly reduce training costs while preserving accuracy from three dimensions: weight sparsity, layer freezing, and dataset sieving.
翻訳日:2022-09-23 12:42:03 公開日:2022-09-22
# NamedMask: 補完ファンデーションモデルからセグメントを蒸留する

NamedMask: Distilling Segmenters from Complementary Foundation Models ( http://arxiv.org/abs/2209.11228v1 )

ライセンス: Link先を確認
Gyungin Shin, Weidi Xie, Samuel Albanie(参考訳) この研究の目的は、トレーニング中にピクセルレベルのラベルにアクセスすることなく、画像の領域を分割して名前付けることである。 この課題に対処するために,2つの基礎モデルの相補的強度を蒸留してセグメンタを構築する。 最初のCLIP(Radford et al. 2021)では、画像コンテンツに名前を割り当てる機能があるが、アクセス可能なオブジェクト構造の表現がない。 二つ目はDINO(Caron et al. 2021)で、オブジェクトの空間的範囲を捉えているが、オブジェクト名の知識は持っていない。 本手法は,クリップを用いて画像のカテゴリ別アーカイブを構築することから始まる。 これらの画像は、DINOからブートストラップされたカテゴリ非依存のサルエント物体検出器で擬似ラベリングされ、CLIPアーカイブラベルを使用してカテゴリ特異的セグメンタによって精製される。 改良マスクの高品質化により,これらのアーカイブ上で適切なデータ拡張で訓練された標準的なセグメンテーションアーキテクチャが,単一オブジェクトおよび複数オブジェクトの画像に対して印象的なセグメンテーション能力を実現することを示す。 その結果,提案した NamedMask は,VOC2012,COCO,大規模画像Net-S データセットを含む5つのベンチマークにおいて,先行研究に対して好意的に動作することがわかった。

The goal of this work is to segment and name regions of images without access to pixel-level labels during training. To tackle this task, we construct segmenters by distilling the complementary strengths of two foundation models. The first, CLIP (Radford et al. 2021), exhibits the ability to assign names to image content but lacks an accessible representation of object structure. The second, DINO (Caron et al. 2021), captures the spatial extent of objects but has no knowledge of object names. Our method, termed NamedMask, begins by using CLIP to construct category-specific archives of images. These images are pseudo-labelled with a category-agnostic salient object detector bootstrapped from DINO, then refined by category-specific segmenters using the CLIP archive labels. Thanks to the high quality of the refined masks, we show that a standard segmentation architecture trained on these archives with appropriate data augmentation achieves impressive semantic segmentation abilities for both single-object and multi-object images. As a result, our proposed NamedMask performs favourably against a range of prior work on five benchmarks including the VOC2012, COCO and large-scale ImageNet-S datasets.
翻訳日:2022-09-23 12:41:43 公開日:2022-09-22
# INFINITY: グラフテキスト相互変換のためのシンプルで効果的な教師なしフレームワーク

INFINITY: A Simple Yet Effective Unsupervised Framework for Graph-Text Mutual Conversion ( http://arxiv.org/abs/2209.10754v1 )

ライセンス: Link先を確認
Yi Xu, Luoyi Fu, Zhouhan Lin, Jiexing Qi, Xinbing Wang(参考訳) グラフ・ツー・テキスト(G2T)生成とテキスト・ツー・グラフ(T2G)トリプル抽出は知識グラフの構築と適用に不可欠な2つのタスクである。 既存の教師なしアプローチは、グラフテキスト並列データの使用を避けるため、2つのタスクを共同学習するのに適している。 しかし、これらは複数のモジュールで構成されており、トレーニングプロセスではエンティティ情報と関係型の両方を必要とする。 この目的のために、外部アノテーションツールや追加の並列情報を必要としない、シンプルで効果的な教師なしアプローチであるINFINITYを提案する。 完全に教師なしのグラフテキスト相互変換を初めて達成する。 具体的には、ININITYは、G2TとT2Gの両方を2方向シーケンス生成タスクとして扱う。 その後、新しいバックトランスレーションベースのフレームワークが設計され、連続合成並列データを自動的に生成する。 ソーステキストから構造情報を持つ合理的なグラフシーケンスを得るために、ININITYは報酬強化最大可能性の利点を生かして報酬ベースのトレーニング損失を採用する。 INFINITYは、完全に教師なしのフレームワークとして、G2TおよびT2Gタスクの最先端のベースラインを上回ることを実証的に検証している。

Graph-to-text (G2T) generation and text-to-graph (T2G) triple extraction are two essential tasks for constructing and applying knowledge graphs. Existing unsupervised approaches turn out to be suitable candidates for jointly learning the two tasks due to their avoidance of using graph-text parallel data. However, they are composed of multiple modules and still require both entity information and relation type in the training process. To this end, we propose INFINITY, a simple yet effective unsupervised approach that does not require external annotation tools or additional parallel information. It achieves fully unsupervised graph-text mutual conversion for the first time. Specifically, INFINITY treats both G2T and T2G as a bidirectional sequence generation task by fine-tuning only one pretrained seq2seq model. A novel back-translation-based framework is then designed to automatically generate continuous synthetic parallel data. To obtain reasonable graph sequences with structural information from source texts, INFINITY employs reward-based training loss by leveraging the advantage of reward augmented maximum likelihood. As a fully unsupervised framework, INFINITY is empirically verified to outperform state-of-the-art baselines for G2T and T2G tasks.
翻訳日:2022-09-23 12:41:20 公開日:2022-09-22
# 情報最小化に基づく教師なし文埋め込み学習のためのコントラスト学習モデル

An Information Minimization Based Contrastive Learning Model for Unsupervised Sentence Embeddings Learning ( http://arxiv.org/abs/2209.10951v1 )

ライセンス: Link先を確認
Shaobin Chen, Jie Zhou, Yuling Sun, and Liang He(参考訳) 教師なし文埋め込み 学習は、最近、正のペアを類似させ、負のペアを分離する対照的な学習方法(SimCSEなど)によって支配されている。 コントラスト操作は、正のインスタンス間の相互情報の最大化によって可能な限り多くの情報を保持することを目的としており、文の埋め込みにおいて冗長な情報をもたらす。 そこで本研究では,情報最小化に基づくコントラスト学習(informin-cl)モデルを提案し,相互情報の最大化と,教師なし文表現学習におけるポジティブインスタンス間の情報エントロピーの最小化により,有用な情報を保持し,冗長な情報を破棄する。 具体的には、情報最小化は単純なコントラストと再構成の目的によって達成できる。 再構成操作は、他の正のインスタンスを介して正のインスタンスを再構成し、正のインスタンス間の情報エントロピーを最小化する。 我々は、教師付きタスクと教師なしタスク(意味的テキスト類似性)を含む14の下流タスクでモデルを評価する。 広範な実験結果から,informin-clは最先端のパフォーマンスを得ることができた。

Unsupervised sentence embeddings learning has been recently dominated by contrastive learning methods (e.g., SimCSE), which keep positive pairs similar and push negative pairs apart. The contrast operation aims to keep as much information as possible by maximizing the mutual information between positive instances, which leads to redundant information in sentence embedding. To address this problem, we present an information minimization based contrastive learning (InforMin-CL) model to retain the useful information and discard the redundant information by maximizing the mutual information and minimizing the information entropy between positive instances meanwhile for unsupervised sentence representation learning. Specifically, we find that information minimization can be achieved by simple contrast and reconstruction objectives. The reconstruction operation reconstitutes the positive instance via the other positive instance to minimize the information entropy between positive instances. We evaluate our model on fourteen downstream tasks, including both supervised and unsupervised (semantic textual similarity) tasks. Extensive experimental results show that our InforMin-CL obtains a state-of-the-art performance.
翻訳日:2022-09-23 12:41:03 公開日:2022-09-22
# スパイクニューラルネットワークのための時空間拡散注意法

A Spatial-channel-temporal-fused Attention for Spiking Neural Networks ( http://arxiv.org/abs/2209.10837v1 )

ライセンス: Link先を確認
Wuque Cai, Hongze Sun, Rui Liu, Yan Cui, Jun Wang, Yang Xia, Dezhong Yao, and Daqing Guo(参考訳) スパイクニューラルネットワーク(SNN)は脳の計算戦略を模倣し、時空間情報処理においてかなりの能力を示す。 人間の知覚に不可欠な要素として、視覚注意は生物視覚系におけるサルエント領域の動的選択過程を指す。 視覚的注意のメカニズムはコンピュータビジョンにおいて大きな成功を収めてきたが、SNNに導入されることはほとんどない。 そこで本研究では,SNNを誘導し,歴史的に蓄積した空間チャネル情報を利用して,対象領域を効果的に捕捉する空間チャネル融合型アテンション(SCTFA)モジュールを提案する。 3つのイベントストリームデータセット(DVS Gesture, SL-Animals-DVS, MNIST-DVS)の体系的評価により, SCTFAモジュール(SCTFA-SNN)を用いたSNNが, 劣化した注目モジュールを持つベースラインSNN(BL-SNN)および他の2つのSNNモデルよりも大幅に優れているだけでなく, 既存の最先端手法との競争精度も向上することを示した。 さらに,SCTFA-SNNモデルではノイズに強い頑健性,不完全データに優れた安定性を示し,複雑性と効率性を維持した。 これらの結果は、脳の認知機構を適切に組み込むことが、SNNの能力を高めるための有望なアプローチをもたらすことを示唆している。

Spiking neural networks (SNNs) mimic brain computational strategies, and exhibit substantial capabilities in spatiotemporal information processing. As an essential factor for human perception, visual attention refers to the dynamic selection process of salient regions in biological vision systems. Although mechanisms of visual attention have achieved great success in computer vision, they are rarely introduced into SNNs. Inspired by experimental observations on predictive attentional remapping, we here propose a new spatial-channel-temporal-fused attention (SCTFA) module that can guide SNNs to efficiently capture underlying target regions by utilizing historically accumulated spatial-channel information. Through a systematic evaluation on three event stream datasets (DVS Gesture, SL-Animals-DVS and MNIST-DVS), we demonstrate that the SNN with the SCTFA module (SCTFA-SNN) not only significantly outperforms the baseline SNN (BL-SNN) and other two SNN models with degenerated attention modules, but also achieves competitive accuracy with existing state-of-the-art methods. Additionally, our detailed analysis shows that the proposed SCTFA-SNN model has strong robustness to noise and outstanding stability to incomplete data, while maintaining acceptable complexity and efficiency. Overall, these findings indicate that appropriately incorporating cognitive mechanisms of the brain may provide a promising approach to elevate the capability of SNNs.
翻訳日:2022-09-23 12:40:43 公開日:2022-09-22
# テキスト分類変換器の注意に基づく解釈性の向上

Improving Attention-Based Interpretability of Text Classification Transformers ( http://arxiv.org/abs/2209.10876v1 )

ライセンス: Link先を確認
Nikolaos Mylonas, Ioannis Mollas, Grigorios Tsoumakas(参考訳) トランスフォーマーはNLPで広く使われ、常に最先端のパフォーマンスを実現している。 これは、単語間の豊かな言語関係をモデル化できる、注意に基づくアーキテクチャのためである。 しかし、トランスは解釈が難しい。 ヘイトスピーチ検出やバイオメディシンといった、人間の生活が影響を受ける領域におけるモデルにとって、その決定に推論を提供できることは重要な特性である。 変圧器がこれらの分野で広く使われるようになると、それに合わせた解釈可能性技術の必要性が生じる。 本研究では,テキスト分類におけるトランスフォーマに対する注意に基づく解釈手法の有効性について検討した。 文献における注意に基づく解釈に懸念があるにもかかわらず,適切な設定をすれば,最新技術に匹敵する結果が得られるタスクに注意が向けられるだけでなく,より速く,環境に親しみやすいことが分かる。 新機能の重要度基準を用いる一連の実験で、我々の主張を検証する。

Transformers are widely used in NLP, where they consistently achieve state-of-the-art performance. This is due to their attention-based architecture, which allows them to model rich linguistic relations between words. However, transformers are difficult to interpret. Being able to provide reasoning for its decisions is an important property for a model in domains where human lives are affected, such as hate speech detection and biomedicine. With transformers finding wide use in these fields, the need for interpretability techniques tailored to them arises. The effectiveness of attention-based interpretability techniques for transformers in text classification is studied in this work. Despite concerns about attention-based interpretations in the literature, we show that, with proper setup, attention may be used in such tasks with results comparable to state-of-the-art techniques, while also being faster and friendlier to the environment. We validate our claims with a series of experiments that employ a new feature importance metric.
翻訳日:2022-09-23 12:40:11 公開日:2022-09-22
# 不変アライメントによる等変変換

Equivariant Transduction through Invariant Alignment ( http://arxiv.org/abs/2209.10926v1 )

ライセンス: Link先を確認
Jennifer C. White, Ryan Cotterell(参考訳) 構成的に一般化する能力は、有限個の単語だけで人間の言語で構築できる潜在的に無限個の文を理解するための鍵となる。 SCAN (Lake and Baroni, 2018)は、この特性をテストするために特別に提案されたタスクである。 従来の研究は、SCAN(Gordon et al., 2020)に有用な帰納バイアスを自然にエンコードするグループ同変ニューラルネットワークを用いて、印象的な実験結果を達成した。 これに触発されて,グループ不変のハードアライメント機構を組み込んだ新しいグループ同変アーキテクチャを提案する。 我々のネットワークの構造は, 既存の群同値アプローチよりも強い同分散特性を発現できることを見出した。 また,SCANタスクにおいて,従来のグループ同変ネットワークよりも優れていた。 以上より,様々なニューラルアーキテクチャにグループ等価性を統合することは有益である可能性が示唆され,そのようなアーキテクチャの理論的特性を慎重に分析する価値が示された。

The ability to generalize compositionally is key to understanding the potentially infinite number of sentences that can be constructed in a human language from only a finite number of words. Investigating whether NLP models possess this ability has been a topic of interest: SCAN (Lake and Baroni, 2018) is one task specifically proposed to test for this property. Previous work has achieved impressive empirical results using a group-equivariant neural network that naturally encodes a useful inductive bias for SCAN (Gordon et al., 2020). Inspired by this, we introduce a novel group-equivariant architecture that incorporates a group-invariant hard alignment mechanism. We find that our network's structure allows it to develop stronger equivariance properties than existing group-equivariant approaches. We additionally find that it outperforms previous group-equivariant networks empirically on the SCAN task. Our results suggest that integrating group-equivariance into a variety of neural architectures is a potentially fruitful avenue of research, and demonstrate the value of careful analysis of the theoretical properties of such architectures.
翻訳日:2022-09-23 12:39:57 公開日:2022-09-22
# CCR:連続性、一貫性、可逆性を備えた顔画像編集

CCR: Facial Image Editing with Continuity, Consistency and Reversibility ( http://arxiv.org/abs/2209.10734v1 )

ライセンス: Link先を確認
Nan Yang, Xin Luan, Huidi Jia, Zhi Han and Yandong Tang(参考訳) シーケンシャルな顔画像編集には、不連続な編集、一貫性のない編集、不可逆的な編集という3つの問題がある。 不連続編集は、現在の編集が以前に編集された属性を保持できないことである。 一貫性のない編集では、属性の編集順序を交換しても結果が変わらない。 不可逆編集とは、特にシーケンシャルな顔画像編集において、顔画像の操作が不可逆であることを意味する。 本研究では,連続性,一貫性,可逆性という3つの概念と対応する定義を提示する。 そこで我々は,連続性,一貫性,可逆性を編集するための新しいモデルを提案する。 モデルの連続性、一貫性、可逆性を決定するのに十分な基準が定義される。 大規模定性的かつ定量的な実験結果から提案したモデルの有効性を検証し、連続的かつ一貫した可逆的編集モデルにより、顔認証を維持しながらより柔軟な編集機能を有することを示す。 さらに,提案した定義とモデルがマルチメディア処理に広く,有望な応用をもたらすと考えられる。 コードとデータはhttps://github.com/mickoluan/ccrで入手できる。

Three problems exist in sequential facial image editing: incontinuous editing, inconsistent editing, and irreversible editing. Incontinuous editing is that the current editing can not retain the previously edited attributes. Inconsistent editing is that swapping the attribute editing orders can not yield the same results. Irreversible editing means that operating on a facial image is irreversible, especially in sequential facial image editing. In this work, we put forward three concepts and corresponding definitions: editing continuity, consistency, and reversibility. Then, we propose a novel model to achieve the goal of editing continuity, consistency, and reversibility. A sufficient criterion is defined to determine whether a model is continuous, consistent, and reversible. Extensive qualitative and quantitative experimental results validate our proposed model and show that a continuous, consistent and reversible editing model has a more flexible editing function while preserving facial identity. Furthermore, we think that our proposed definitions and model will have wide and promising applications in multimedia processing. Code and data are available at https://github.com/mickoluan/CCR.
翻訳日:2022-09-23 12:39:39 公開日:2022-09-22
# 足踏み圧に基づく霧検出のための多段階時空間学習

Multi-level Adversarial Spatio-temporal Learning for Footstep Pressure based FoG Detection ( http://arxiv.org/abs/2209.10770v1 )

ライセンス: Link先を確認
Kun Hu, Shaohui Mei, Wei Wang, Kaylena A. Ehgoetz Martens, Liang Wang, Simon J.G. Lewis, David D. Feng, Zhiyong Wang(参考訳) 歩行の凍結(FoG)はパーキンソン病の最も一般的な症状の1つであり、世界中の何百万人もの人に影響を及ぼす中枢神経系の神経変性疾患である。 FoGの処理品質を向上させるために,コンピュータ支援によるFoG検出・定量化ツールの開発がますます重要になっている。 運動パターンを非侵襲的に収集する技術として、圧力感受性歩行マットから得られる足踏み圧力シーケンスは、診療所や家庭環境においてFoGを評価する絶好の機会となる。 本研究では,FoG検出を逐次モデリングタスクとして定式化し,複数のレベルのFoGパターンを学習するために,新たなディープラーニングアーキテクチャであるAdversarial Spatio-temporal Network (ASTN)を提案する。 主観非依存のFoG表現を得るために,多段階の主観的判別器を導入し,高い対象間分散による過度な適合リスクの低減に寄与する。 その結果、見えない被験者に対して堅牢なFoG検出が可能となった。 提案手法は、既存の多くの深層建築と統合できるため、他のシナリオからの主観的臨床研究の改善にも重点を置いている。 我々の知る限り、これは足踏み圧力に基づくFoG検出の最初の研究の1つであり、ASTNを利用するアプローチは、主観非依存表現を追求する最初のディープニューラルネットワークアーキテクチャである。 21名の被験者から採取した393の試験結果から,AUC 0.85を用いたFoG検出のためのASTNの有効性が示された。

Freezing of gait (FoG) is one of the most common symptoms of Parkinson's disease, which is a neurodegenerative disorder of the central nervous system impacting millions of people around the world. To address the pressing need to improve the quality of treatment for FoG, devising a computer-aided detection and quantification tool for FoG has been increasingly important. As a non-invasive technique for collecting motion patterns, the footstep pressure sequences obtained from pressure sensitive gait mats provide a great opportunity for evaluating FoG in the clinic and potentially in the home environment. In this study, FoG detection is formulated as a sequential modelling task and a novel deep learning architecture, namely Adversarial Spatio-temporal Network (ASTN), is proposed to learn FoG patterns across multiple levels. A novel adversarial training scheme is introduced with a multi-level subject discriminator to obtain subject-independent FoG representations, which helps to reduce the over-fitting risk due to the high inter-subject variance. As a result, robust FoG detection can be achieved for unseen subjects. The proposed scheme also sheds light on improving subject-level clinical studies from other scenarios as it can be integrated with many existing deep architectures. To the best of our knowledge, this is one of the first studies of footstep pressure-based FoG detection and the approach of utilizing ASTN is the first deep neural network architecture in pursuit of subject-independent representations. Experimental results on 393 trials collected from 21 subjects demonstrate encouraging performance of the proposed ASTN for FoG detection with an AUC 0.85.
翻訳日:2022-09-23 12:39:20 公開日:2022-09-22
# メモリ拡張グラフニューラルネットワーク:神経科学の展望

Memory-Augmented Graph Neural Networks: A Neuroscience Perspective ( http://arxiv.org/abs/2209.10818v1 )

ライセンス: Link先を確認
Guixiang Ma, Vy Vo, Theodore Willke, Nesreen K. Ahmed(参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク、レコメンダシステム、生物学、化学など、データがグラフとして表現される多くの領域で広く使用されている。 近年、GNNの表現力に大きな関心が寄せられている。 多くのアプリケーションでGNNが実現した有望な実証結果にもかかわらず、いくつかのタスクのパフォーマンスを妨げているGNNにはいくつかの制限が存在することが示されている。 例えば、gnnはノードの機能を主にローカル情報に基づいて更新するので、グラフ内のノード間の長距離依存関係をキャプチャする表現力は限られている。 GNNのいくつかの制限に対処するため、最近のいくつかの研究は、関連するタスクにおける表現力を改善するために、メモリで強化されたGNNを探索し始めた。 本稿では,メモリ拡張GNNの既存の文献を包括的にレビューする。 我々は、生物学的脳に複数の記憶システムとメカニズムを確立した心理学と神経科学のレンズを通してこれらの研究をレビューする。 本稿では、メモリGNNの動作の分類法と、メモリメカニズムを比較するための一連の基準を提案する。 また、これらの作品の限界に関する批判的な議論も行っています。 最後に,この領域の課題と今後の方向性について論じる。

Graph neural networks (GNNs) have been extensively used for many domains where data are represented as graphs, including social networks, recommender systems, biology, chemistry, etc. Recently, the expressive power of GNNs has drawn much interest. It has been shown that, despite the promising empirical results achieved by GNNs for many applications, there are some limitations in GNNs that hinder their performance for some tasks. For example, since GNNs update node features mainly based on local information, they have limited expressive power in capturing long-range dependencies among nodes in graphs. To address some of the limitations of GNNs, several recent works started to explore augmenting GNNs with memory for improving their expressive power in the relevant tasks. In this paper, we provide a comprehensive review of the existing literature of memory-augmented GNNs. We review these works through the lens of psychology and neuroscience, which has established multiple memory systems and mechanisms in biological brains. We propose a taxonomy of the memory GNN works, as well as a set of criteria for comparing the memory mechanisms. We also provide critical discussions on the limitations of these works. Finally, we discuss the challenges and future directions for this area.
翻訳日:2022-09-23 12:33:46 公開日:2022-09-22
# 保証付き密度比推定によるバッチベイズ最適化

Batch Bayesian optimisation via density-ratio estimation with guarantees ( http://arxiv.org/abs/2209.10715v1 )

ライセンス: Link先を確認
Rafael Oliveira, Louis Tiao and Fabio Ramos(参考訳) ベイズ最適化(bo)アルゴリズムは高価なブラックボックス関数を含むアプリケーションで顕著な成功を示している。 従来BOは、ガウス過程のような、取得関数と先行関数によるクエリポイントの有用性を推定するシーケンシャルな意思決定プロセスとして設定されてきた。 しかし近年、密度比推定(BORE)によるBOの再構成により、取得関数を確率的二項分類器として再解釈することができ、関数を明示的に優先する必要がなくなり、スケーラビリティが向上した。 本稿では,BOREの後悔とアルゴリズムの拡張に関する理論的解析を行い,不確実性の推定を改良した。 また,BOREを近似ベイズ推論として再キャストすることにより,バッチ最適化設定に自然に拡張可能であることを示す。 得られたアルゴリズムは理論的な性能保証を備えており、一連の実験で他のBOベースラインに対して評価される。

Bayesian optimisation (BO) algorithms have shown remarkable success in applications involving expensive black-box functions. Traditionally BO has been set as a sequential decision-making process which estimates the utility of query points via an acquisition function and a prior over functions, such as a Gaussian process. Recently, however, a reformulation of BO via density-ratio estimation (BORE) allowed reinterpreting the acquisition function as a probabilistic binary classifier, removing the need for an explicit prior over functions and increasing scalability. In this paper, we present a theoretical analysis of BORE's regret and an extension of the algorithm with improved uncertainty estimates. We also show that BORE can be naturally extended to a batch optimisation setting by recasting the problem as approximate Bayesian inference. The resulting algorithm comes equipped with theoretical performance guarantees and is assessed against other batch BO baselines in a series of experiments.
翻訳日:2022-09-23 12:32:39 公開日:2022-09-22
# 一般のニューラルネットワーク学習者

A Generalist Neural Algorithmic Learner ( http://arxiv.org/abs/2209.11142v1 )

ライセンス: Link先を確認
Borja Ibarz, Vitaly Kurin, George Papamakarios, Kyriacos Nikiforou, Mehdi Bennani, R\'obert Csord\'as, Andrew Dudzik, Matko Bo\v{s}njak, Alex Vitvitskyi, Yulia Rubanova, Andreea Deac, Beatrice Bevilacqua, Yaroslav Ganin, Charles Blundell, Petar Veli\v{c}kovi\'c(参考訳) ニューラルアルゴリズム推論の基盤は、特に分布から一般化する方法で、アルゴリズム的なタスクを解く能力である。 近年、この分野の方法論的改善が急増しているが、主に専門モデルの構築に焦点を当てている。 スペシャリストモデルは、単一のアルゴリズムか、同じ制御フローバックボーンを持つアルゴリズムの集合のみを神経的に実行することができる。 ここでは、ソート、検索、動的プログラミング、パス探索、幾何といった、幅広いアルゴリズムを実行することができる単一のグラフニューラルネットワークプロセッサである、ジェネラリストニューラルネットワーク学習器を構築することに重点を置く。 我々はCLRSベンチマークを利用して、認識領域における最近の成功と同様に、一般のアルゴリズム学習者が知識を取り入れることで構築できることを実証的に示す。 つまり、シングルタスク環境でそれらをうまく実行できる限り、マルチタスクで効果的にアルゴリズムを学習することが可能である。 そこで本研究では,CLRSよりも入力表現,トレーニング機構,プロセッサアーキテクチャを改良し,従来の技術に比べて平均20%以上のパフォーマンス向上を実現した。 次に、これらの改善を活用するマルチタスク学習者の徹底的なアブレーションを行う。 本結果は,専門モデルによる知識を効果的に取り入れた一般学習者を示す。

The cornerstone of neural algorithmic reasoning is the ability to solve algorithmic tasks, especially in a way that generalises out of distribution. While recent years have seen a surge in methodological improvements in this area, they mostly focused on building specialist models. Specialist models are capable of learning to neurally execute either only one algorithm or a collection of algorithms with identical control-flow backbone. Here, instead, we focus on constructing a generalist neural algorithmic learner -- a single graph neural network processor capable of learning to execute a wide range of algorithms, such as sorting, searching, dynamic programming, path-finding and geometry. We leverage the CLRS benchmark to empirically show that, much like recent successes in the domain of perception, generalist algorithmic learners can be built by "incorporating" knowledge. That is, it is possible to effectively learn algorithms in a multi-task manner, so long as we can learn to execute them well in a single-task regime. Motivated by this, we present a series of improvements to the input representation, training regime and processor architecture over CLRS, improving average single-task performance by over 20% from prior art. We then conduct a thorough ablation of multi-task learners leveraging these improvements. Our results demonstrate a generalist learner that effectively incorporates knowledge captured by specialist models.
翻訳日:2022-09-23 12:32:24 公開日:2022-09-22
# DRAMA:運転におけるリスクローカライゼーションとキャプション

DRAMA: Joint Risk Localization and Captioning in Driving ( http://arxiv.org/abs/2209.10767v1 )

ライセンス: Link先を確認
Srikanth Malla, Chiho Choi, Isht Dwivedi, Joon Hee Choi, Jiachen Li(参考訳) 安全クリティカルな自動化システムにおける状況認識の機能を考えると、運転シーンにおけるリスクの認識とその説明可能性は、自律運転および協調運転において特に重要である。 本稿では,運転場面における共同リスク局在の新たな研究方向と,そのリスク説明を自然言語記述として提案する。 標準ベンチマークの欠如により,東京で収集した17,785台のインタラクティブ運転シナリオからなる大規模データセットである drama (driving risk assessment mechanism with a captioning module) を収集した。 本研究のドラマデータセットは,様々な視覚キャプション機能の評価に使用可能なマルチレベル質問に対して,クローズド・オープン・エンドの応答を利用した自由形式の言語記述として,視覚キャプションの目的を達成するために,関連する重要物体の運転リスクに関するビデオおよびオブジェクトレベルの質問を収容する。 さらなる研究のために、このデータをコミュニティに公開しています。 DRAMAを用いて,対話型運転シナリオにおける共同リスクローカライゼーションとキャプションの複数の側面を探索する。 特に,様々なマルチタスク予測アーキテクチャをベンチマークし,共同リスクローカライゼーションとリスクキャプションの詳細な分析を行う。 データセットはhttps://usa.honda-ri.com/dramaで利用可能である。

Considering the functionality of situational awareness in safety-critical automation systems, the perception of risk in driving scenes and its explainability is of particular importance for autonomous and cooperative driving. Toward this goal, this paper proposes a new research direction of joint risk localization in driving scenes and its risk explanation as a natural language description. Due to the lack of standard benchmarks, we collected a large-scale dataset, DRAMA (Driving Risk Assessment Mechanism with A captioning module), which consists of 17,785 interactive driving scenarios collected in Tokyo, Japan. Our DRAMA dataset accommodates video- and object-level questions on driving risks with associated important objects to achieve the goal of visual captioning as a free-form language description utilizing closed and open-ended responses for multi-level questions, which can be used to evaluate a range of visual captioning capabilities in driving scenarios. We make this data available to the community for further research. Using DRAMA, we explore multiple facets of joint risk localization and captioning in interactive driving scenarios. In particular, we benchmark various multi-task prediction architectures and provide a detailed analysis of joint risk localization and risk captioning. The data set is available at https://usa.honda-ri.com/drama
翻訳日:2022-09-23 12:31:40 公開日:2022-09-22
# ジェネリックデータのための高次マルチビュークラスタリング

High-order Multi-view Clustering for Generic Data ( http://arxiv.org/abs/2209.10838v1 )

ライセンス: Link先を確認
Erlin Pan, Zhao Kang(参考訳) グラフベースのマルチビュークラスタリングは、ほとんどの非グラフアプローチよりも優れたパフォーマンスを達成している。 しかし、多くの現実のシナリオでは、データのグラフ構造が与えられず、初期グラフの品質が劣っている。 さらに、既存の手法は複雑な内在的相互作用を特徴付ける高次近傍情報を無視している。 これらの問題に対処するために、汎用データのトポロジ構造情報を調べるために、高次マルチビュークラスタリング(HMvC)というアプローチを導入する。 まず、属性付きグラフデータと非グラフデータの処理を単一のフレームワークで統一する構造情報を符号化するためにグラフフィルタリングを適用する。 第二に、無限次固有関係を利用して学習したグラフを豊かにする。 第3に,様々な視点の一貫性と補完的情報を探索するために,コンセンサスグラフを実現するための適応グラフ融合機構を提案する。 非グラフデータと有意グラフデータの両方における総合的な実験結果は、ディープラーニング法を含む様々な最先端技術に対して、この手法の優れた性能を示している。

Graph-based multi-view clustering has achieved better performance than most non-graph approaches. However, in many real-world scenarios, the graph structure of data is not given or the quality of initial graph is poor. Additionally, existing methods largely neglect the high-order neighborhood information that characterizes complex intrinsic interactions. To tackle these problems, we introduce an approach called high-order multi-view clustering (HMvC) to explore the topology structure information of generic data. Firstly, graph filtering is applied to encode structure information, which unifies the processing of attributed graph data and non-graph data in a single framework. Secondly, up to infinity-order intrinsic relationships are exploited to enrich the learned graph. Thirdly, to explore the consistent and complementary information of various views, an adaptive graph fusion mechanism is proposed to achieve a consensus graph. Comprehensive experimental results on both non-graph and attributed graph data show the superior performance of our method with respect to various state-of-the-art techniques, including some deep learning methods.
翻訳日:2022-09-23 12:31:15 公開日:2022-09-22
# ガウス分布としての回転物体の検出とその3次元一般化

Detecting Rotated Objects as Gaussian Distributions and Its 3-D Generalization ( http://arxiv.org/abs/2209.10839v1 )

ライセンス: Link先を確認
Xue Yang, Gefan Zhang, Xiaojiang Yang, Yue Zhou, Wentao Wang, Jin Tang, Tao He, Junchi Yan(参考訳) 既存の検出手法では、パラメータ化バウンディングボックス(BBox)を用いて(水平)物体をモデル化・検出し、回転対象に対して追加の回転角パラメータを用いる。 このようなメカニズムは、特に高いIoU(例えば0.75)を用いた高精度検出において、回転検出に有効な回帰損失を構築する上で、基本的な制限があると主張する。 代わりに、回転対象をガウス分布としてモデル化する。 直接の利点は、KLD(Kulback-Leibler Divergence)のような2つのガウス間の距離に関する新たな回帰損失が、既存の手法ではうまく扱えない実際の検出性能指標を適切に整合させることができることである。 さらに、2つのボトルネック、すなわち境界の不連続性と正方形問題も消滅する。 また,より効率的なガウス計量に基づくラベル割り当て戦略を提案し,性能を向上する。 興味深いことに、ガウスに基づくKLD損失下でのBBoxパラメータの勾配を解析することにより、これらのパラメータは解釈可能な物理的意味で動的に更新され、特に高精度検出における我々のアプローチの有効性を説明するのに役立つ。 提案手法を2-Dから3-Dに拡張し,方向推定を行うアルゴリズムを設計し,12の公開データセット(2-D/3-D,空中/テキスト/顔画像)に対して,その優位性を示した。

Existing detection methods commonly use a parameterized bounding box (BBox) to model and detect (horizontal) objects and an additional rotation angle parameter is used for rotated objects. We argue that such a mechanism has fundamental limitations in building an effective regression loss for rotation detection, especially for high-precision detection with high IoU (e.g. 0.75). Instead, we propose to model the rotated objects as Gaussian distributions. A direct advantage is that our new regression loss regarding the distance between two Gaussians e.g. Kullback-Leibler Divergence (KLD), can well align the actual detection performance metric, which is not well addressed in existing methods. Moreover, the two bottlenecks i.e. boundary discontinuity and square-like problem also disappear. We also propose an efficient Gaussian metric-based label assignment strategy to further boost the performance. Interestingly, by analyzing the BBox parameters' gradients under our Gaussian-based KLD loss, we show that these parameters are dynamically updated with interpretable physical meaning, which help explain the effectiveness of our approach, especially for high-precision detection. We extend our approach from 2-D to 3-D with a tailored algorithm design to handle the heading estimation, and experimental results on twelve public datasets (2-D/3-D, aerial/text/face images) with various base detectors show its superiority.
翻訳日:2022-09-23 12:30:59 公開日:2022-09-22
# ディグ:人間の体の上に暗黙の衣服を描く

DIG: Draping Implicit Garment over the Human Body ( http://arxiv.org/abs/2209.10845v1 )

ライセンス: Link先を確認
Ren Li, Beno\^it Guillard, Edoardo Remelli, Pascal Fua(参考訳) 既存のデータ駆動方式では、ポーズづけされた人体の上に衣服を描くことは効果的であるが、任意のトポロジーの衣服を扱うことはできず、通常はエンドツーエンドの区別ができない。 そこで本研究では,これらの制約に対処するために,衣服を暗黙の面で表現し,物体モデルの形状やポーズパラメータを条件としたスキンフィールドを学習する,エンドツーエンドの微分可能パイプラインを提案する。 身体装具の相互接続やアーティファクトを制限するため,トレーニングデータの解釈・認識前処理戦略と,衣服をドレーピングしながら自己切断を罰する新たなトレーニング損失を提案する。 本手法は,最先端の手法に対して,衣服の復元や変形に対して,より正確な結果が得られることを実証する。 さらに,本手法では, 画像観察から身体と衣服のパラメータを復元することが可能であり, 従来の作業ではできなかったことが確認できた。

Existing data-driven methods for draping garments over posed human bodies, despite being effective, cannot handle garments of arbitrary topology and are typically not end-to-end differentiable. To address these limitations, we propose an end-to-end differentiable pipeline that represents garments using implicit surfaces and learns a skinning field conditioned on shape and pose parameters of an articulated body model. To limit body-garment interpenetrations and artifacts, we propose an interpretation-aware pre-processing strategy of training data and a novel training loss that penalizes self-intersections while draping garments. We demonstrate that our method yields more accurate results for garment reconstruction and deformation with respect to state-of-the-art methods. Furthermore, we show that our method, thanks to its end-to-end differentiability, allows to recover body and garments parameters jointly from image observations, something that previous work could not do.
翻訳日:2022-09-23 12:30:31 公開日:2022-09-22
# WeLM: 中国語の読みやすい事前学習型言語モデル

WeLM: A Well-Read Pre-trained Language Model for Chinese ( http://arxiv.org/abs/2209.10372v2 )

ライセンス: Link先を確認
Hui Su, Xiao Zhou, Houjing Yu, Yuwen Chen, Zilin Zhu, Yang Yu, Jie Zhou(参考訳) 自己教師付き学習で事前学習された大規模言語モデルは、幅広いタスクで印象的なゼロショット一般化能力を示している。 本稿では,ゼロショットや少数ショットのデモンストレーションによって,さまざまなタスクをシームレスに実行できる中国語用事前学習型言語モデルwelmを提案する。 WeLMは、幅広いトピックをカバーする高品質なコーパスを「読む」ことで、10Bパラメータで訓練されている。 WeLMには様々なドメインや言語に関する幅広い知識が備わっている。 18の単言語(中国語)タスクでは、WeLMは既存のトレーニング済みモデルと同じようなサイズで大幅に性能を上回り、最大25倍の性能を持つ。 WeLMはまた、30言語で事前訓練された既存の多言語言語モデルよりも優れた、多言語およびコードスイッチング理解において強力な能力を示している。 さらに,マルチプロンプトトレーニングによる中国語と微調整 welm の教師付きデータセット群に対して,人間によるプロンプトを収集した。 得られたモデルは、目に見えないタスクの種類を強く一般化し、ゼロショット学習において教師なしの WeLM よりも優れる。 最後に, WeLMは意思決定を自己から説明し, 調整する基本的なスキルを持っていることを実証し, 今後の研究に期待できる方向を示す。 私たちのモデルはhttps://welm.weixin.qq.com/docs/api/から適用できます。

Large Language Models pre-trained with self-supervised learning have demonstrated impressive zero-shot generalization capabilities on a wide spectrum of tasks. In this work, we present WeLM: a well-read pre-trained language model for Chinese that is able to seamlessly perform different types of tasks with zero or few-shot demonstrations. WeLM is trained with 10B parameters by "reading" a curated high-quality corpus covering a wide range of topics. We show that WeLM is equipped with broad knowledge on various domains and languages. On 18 monolingual (Chinese) tasks, WeLM can significantly outperform existing pre-trained models with similar sizes and match the performance of models up to 25 times larger. WeLM also exhibits strong capabilities in multi-lingual and code-switching understanding, outperforming existing multilingual language models pre-trained on 30 languages. Furthermore, We collected human-written prompts for a large set of supervised datasets in Chinese and fine-tuned WeLM with multi-prompted training. The resulting model can attain strong generalization on unseen types of tasks and outperform the unsupervised WeLM in zero-shot learning. Finally, we demonstrate that WeLM has basic skills at explaining and calibrating the decisions from itself, which can be promising directions for future research. Our models can be applied from https://welm.weixin.qq.com/docs/api/.
翻訳日:2022-09-23 12:24:50 公開日:2022-09-22
# 離散的アクター批判の再考

Revisiting Discrete Soft Actor-Critic ( http://arxiv.org/abs/2209.10081v2 )

ライセンス: Link先を確認
Haibin Zhou, Zichuan Lin, Junyou Li, Deheng Ye, Qiang Fu, Wei Yang(参考訳) 本研究では,ソフトアクター・クリティック(SAC)の連続的な行動空間から離散的な行動空間への適応について検討する。 我々はバニラSACを再検討し、個別設定に適用した場合のQ値の過小評価と性能不安定問題を詳細に理解する。 そこで本研究では,エントロピーペナルティとq-clipを用いた二重平均q-learningを提案する。 アタリゲームや大規模なMOBAゲームなど、離散的なアクション空間を持つ典型的なベンチマーク実験により、提案手法の有効性が示された。 私たちのコードは:https://github.com/coldsummerday/Revisiting-Discrete-SACです。

We study the adaption of soft actor-critic (SAC) from continuous action space to discrete action space. We revisit vanilla SAC and provide an in-depth understanding of its Q value underestimation and performance instability issues when applied to discrete settings. We thereby propose entropy-penalty and double average Q-learning with Q-clip to address these issues. Extensive experiments on typical benchmarks with discrete action space, including Atari games and a large-scale MOBA game, show the efficacy of our proposed method. Our code is at:https://github.com/coldsummerday/Revisiting-Discrete-SAC.
翻訳日:2022-09-23 12:24:28 公開日:2022-09-22
# コントラスト判別器を用いた音声変換のためのスターガンのブースティング

Boosting Star-GANs for Voice Conversion with Contrastive Discriminator ( http://arxiv.org/abs/2209.10088v2 )

ライセンス: Link先を確認
Shijing Si, Jianzong Wang, Xulong Zhang, Xiaoyang Qu, Ning Cheng and Jing Xiao(参考訳) StarGAN-VCのような並列でないマルチドメイン音声変換法は多くのシナリオで広く応用されている。 しかしながら、これらのモデルのトレーニングは通常、複雑な敵ネットワークアーキテクチャのため、課題となる。 そこで本研究では,最先端のコントラスト学習手法を活用し,効率的なシャムネットワーク構造をスターガン判別器に組み込む。 我々の手法はSimSiam-StarGAN-VCと呼ばれ、トレーニング安定性を高め、トレーニングプロセスにおける差別者の過剰適合を効果的に防止する。 我々は、Voice Conversion Challenge (VCC 2018)データセットと、我々のフレームワークの性能を検証するためのユーザスタディの実験を行っている。 実験の結果,SimSiam-StarGAN-VCは既存のStarGAN-VC法よりも客観的,主観的両指標で優れていた。

Nonparallel multi-domain voice conversion methods such as the StarGAN-VCs have been widely applied in many scenarios. However, the training of these models usually poses a challenge due to their complicated adversarial network architectures. To address this, in this work we leverage the state-of-the-art contrastive learning techniques and incorporate an efficient Siamese network structure into the StarGAN discriminator. Our method is called SimSiam-StarGAN-VC and it boosts the training stability and effectively prevents the discriminator overfitting issue in the training process. We conduct experiments on the Voice Conversion Challenge (VCC 2018) dataset, plus a user study to validate the performance of our framework. Our experimental results show that SimSiam-StarGAN-VC significantly outperforms existing StarGAN-VC methods in terms of both the objective and subjective metrics.
翻訳日:2022-09-23 12:24:20 公開日:2022-09-22
# NeRF-SOS: 複雑な実世界シーンからの任意の視点で自己組織化されたオブジェクトセグメンテーション

NeRF-SOS: Any-View Self-supervised Object Segmentation from Complex Real-World Scenes ( http://arxiv.org/abs/2209.08776v3 )

ライセンス: Link先を確認
Zhiwen Fan, Peihao Wang, Yifan Jiang, Xinyu Gong, Dejia Xu, Zhangyang Wang(参考訳) 神経容積表現は、マルチレイヤー・パーセプトロン(mlps)は、明示的な3次元の監督なしに、シーンの幾何学と外観を表現するためにマルチビュー・キャリブレーション画像で最適化できる可能性を示している。 オブジェクトのセグメンテーションは、学習したradianceフィールドに基づいて多くの下流アプリケーションを強化することができる。 しかし、複雑な現実世界のシーンにおける関心領域を定義するために手作りのセグメンテーションを導入することは、ビューアノテーション毎に取得するので、簡単でコストがかかる。 本稿では,複雑な現実世界のシーンに対するNeRFを用いた自己教師型学習の探索を行う。 我々のフレームワークであるNeRF with Self-supervised Object Segmentation NeRF-SOSは、オブジェクトのセグメンテーションとニューラルラディアンスフィールドを結合して、シーン内の任意のビューでオブジェクトをセグメンテーションする。 nerf-sosは、外観と幾何学の両方のレベルで新しい協調的なコントラスト損失を提案することで、コンパクトな幾何認識セグメンテーションクラスタを密度場と自己教師付き2次元視覚特徴から蒸留することを推奨する。 自己教師対象セグメンテーションフレームワークは、写真リアルなレンダリング結果と、屋内および屋外の両方のシナリオに対する説得力のあるセグメンテーションマップをもたらす様々なNeRFモデルに適用することができる。 LLFF, Tank & Temple, BlendedMVSデータセットの広範囲な結果は、NeRF-SOSの有効性を検証する。 他の2Dベースのセルフ教師付きベースラインを一貫して上回り、既存の教師付きマスクよりも細かなセマンティクスマスクを予測する。 コードは、https://github.com/VITA-Group/NeRF-SOSで入手できる。

Neural volumetric representations have shown the potential that Multi-layer Perceptrons (MLPs) can be optimized with multi-view calibrated images to represent scene geometry and appearance, without explicit 3D supervision. Object segmentation can enrich many downstream applications based on the learned radiance field. However, introducing hand-crafted segmentation to define regions of interest in a complex real-world scene is non-trivial and expensive as it acquires per view annotation. This paper carries out the exploration of self-supervised learning for object segmentation using NeRF for complex real-world scenes. Our framework, called NeRF with Self-supervised Object Segmentation NeRF-SOS, couples object segmentation and neural radiance field to segment objects in any view within a scene. By proposing a novel collaborative contrastive loss in both appearance and geometry levels, NeRF-SOS encourages NeRF models to distill compact geometry-aware segmentation clusters from their density fields and the self-supervised pre-trained 2D visual features. The self-supervised object segmentation framework can be applied to various NeRF models that both lead to photo-realistic rendering results and convincing segmentation maps for both indoor and outdoor scenarios. Extensive results on the LLFF, Tank & Temple, and BlendedMVS datasets validate the effectiveness of NeRF-SOS. It consistently surpasses other 2D-based self-supervised baselines and predicts finer semantics masks than existing supervised counterparts. Code is available at: https://github.com/VITA-Group/NeRF-SOS.
翻訳日:2022-09-23 12:24:06 公開日:2022-09-22
# Bias at a Second Glance: A Deep Dive into Bias for German Educational Peer-Review Data Modeling

Bias at a Second Glance: A Deep Dive into Bias for German Educational Peer-Review Data Modeling ( http://arxiv.org/abs/2209.10335v2 )

ライセンス: Link先を確認
Thiemo Wambsganss, Vinitra Swamy, Roman Rietsche, Tanja K\"aser(参考訳) 自然言語処理(nlp)は、教育応用への適応性を高めるためにますます活用されている。 しかし、最近の研究は、事前訓練された言語モデルにおける様々なバイアスを強調している。 既存の研究では異なる領域のバイアスを調査しているが、教育用コーパスや多言語コーパスのきめ細かな分析には限界がある。 本研究では,5年以上にわたって学生から収集された9,165のドイツ語ピアレビューコーパスを用いて,テキスト間のバイアスと複数のアーキテクチャを解析した。 特に,我々のコーパスには,ピアレビュー受取者からの有益性,品質,重要側面評価などのラベルと,属性が含まれている。 我々は,(1)収集したコーパスをクラスタラベルと関連づけた上で,単語埋め込みアソシエーションテスト(WEAT)解析を行い,(2)最もよく訓練されたドイツ語モデル(T5,BERT,GPT-2)とGloVe埋め込み,(3)収集したデータセットの微調整後の言語モデルについて検討した。 初期の期待とは対照的に,収集したコーパスは共起解析やGloVe埋め込みにおいて多くのバイアスを示さないことがわかった。 しかしながら、事前訓練されたドイツの言語モデルは、概念的、人種的、性別的なバイアスを生じさせ、ピアレビューデータの微調整中に概念的、人種的軸間のバイアスに大きな変化をもたらす。 本研究では,新たなデータセットによる第4次国連持続可能性目標(品質教育)への貢献,自然言語教育データにおけるバイアスの理解,教育課題に対する言語モデルのバイアスを克服しない可能性について検討する。

Natural Language Processing (NLP) has become increasingly utilized to provide adaptivity in educational applications. However, recent research has highlighted a variety of biases in pre-trained language models. While existing studies investigate bias in different domains, they are limited in addressing fine-grained analysis on educational and multilingual corpora. In this work, we analyze bias across text and through multiple architectures on a corpus of 9,165 German peer-reviews collected from university students over five years. Notably, our corpus includes labels such as helpfulness, quality, and critical aspect ratings from the peer-review recipient as well as demographic attributes. We conduct a Word Embedding Association Test (WEAT) analysis on (1) our collected corpus in connection with the clustered labels, (2) the most common pre-trained German language models (T5, BERT, and GPT-2) and GloVe embeddings, and (3) the language models after fine-tuning on our collected data-set. In contrast to our initial expectations, we found that our collected corpus does not reveal many biases in the co-occurrence analysis or in the GloVe embeddings. However, the pre-trained German language models find substantial conceptual, racial, and gender bias and have significant changes in bias across conceptual and racial axes during fine-tuning on the peer-review data. With our research, we aim to contribute to the fourth UN sustainability goal (quality education) with a novel dataset, an understanding of biases in natural language education data, and the potential harms of not counteracting biases in language models for educational tasks.
翻訳日:2022-09-23 12:23:34 公開日:2022-09-22
# 分散型車両コーディネーション:バークレーのdeepdriveドローンデータセット

Decentralized Vehicle Coordination: The Berkeley DeepDrive Drone Dataset ( http://arxiv.org/abs/2209.08763v2 )

ライセンス: Link先を確認
Fangyu Wu, Dequan Wang, Minjune Hwang, Chenhui Hao, Jiawei Lu, Jiamu Zhang, Christopher Chou, Trevor Darrell, Alexandre Bayen(参考訳) 分散マルチエージェント計画はロボット工学における重要な研究分野である。 この分野における興味深く影響力のある応用は、非構造道路環境における分散車両調整である。 例えば、交差点では、中央コーディネータが存在しない場合、交差する複数の車両を分離することは困難である。 我々は、車両がそのような非構造環境をナビゲートするためには、運転者は近くの運転者が観察する暗黙の「社会的礼儀」を理解し、従わなければならないという常識から学ぶ。 この暗黙の駆動プロトコルを研究するために、Berkeley DeepDrive Droneデータセットを収集します。 データセットには 1)非構造運転を記録した空中映像のセット 2)車両検出モデルの訓練のための画像とアノテーションの収集、 3) 典型的な使い方を図解するための開発スクリプトのキット。 このデータセットは、人間のドライバーが採用する分散マルチエージェント計画の研究や、リモートセンシング設定におけるコンピュータビジョンの二次的関心事に主に関心があると考えている。

Decentralized multiagent planning has been an important field of research in robotics. An interesting and impactful application in the field is decentralized vehicle coordination in understructured road environments. For example, in an intersection, it is useful yet difficult to deconflict multiple vehicles of intersecting paths in absence of a central coordinator. We learn from common sense that, for a vehicle to navigate through such understructured environments, the driver must understand and conform to the implicit "social etiquette" observed by nearby drivers. To study this implicit driving protocol, we collect the Berkeley DeepDrive Drone dataset. The dataset contains 1) a set of aerial videos recording understructured driving, 2) a collection of images and annotations to train vehicle detection models, and 3) a kit of development scripts for illustrating typical usages. We believe that the dataset is of primary interest for studying decentralized multiagent planning employed by human drivers and, of secondary interest, for computer vision in remote sensing settings.
翻訳日:2022-09-23 12:23:03 公開日:2022-09-22
# デジタルヒューマンヘッドの知覚品質評価

Perceptual Quality Assessment for Digital Human Heads ( http://arxiv.org/abs/2209.09489v2 )

ライセンス: Link先を確認
Zicheng Zhang, Yingjie Zhou, Wei Sun, Xiongkuo Min, Guangtao Zhai(参考訳) デジタル人間はこの10年間でますます研究の関心を惹きつけており、その生成、表現、レンダリング、アニメーションは大量の努力に費やされている。 しかし、デジタル人間の品質評価は遅れている。 そこで、デジタル品質評価の課題に取り組むために、3次元(3d)スキャンされたデジタルヒューマンヘッド(dhhs)のための、最初の大規模品質評価データベースを提案する。 構築されたデータベースは、55の参照DHHと1,540の歪んだDHHと、主観的知覚評価からなる。 そこで,DHHsの視覚的品質を評価するために,簡易かつ効果的な全参照投影法を提案する。 プリトレーニングされたスウィントランスを階層的特徴抽出に利用し、マルチヘッドアテンションモジュールを特徴融合に利用する。 実験の結果,提案手法は,DHHsに対して有効なFR-IQA指標を提供することのできる,主流FR指標の最先端性能を示すことがわかった。

Digital humans are attracting more and more research interest during the last decade, the generation, representation, rendering, and animation of which have been put into large amounts of effort. However, the quality assessment of digital humans has fallen behind. Therefore, to tackle the challenge of digital human quality assessment issues, we propose the first large-scale quality assessment database for three-dimensional (3D) scanned digital human heads (DHHs). The constructed database consists of 55 reference DHHs and 1,540 distorted DHHs along with the subjective perceptual ratings. Then, a simple yet effective full-reference (FR) projection-based method is proposed to evaluate the visual quality of DHHs. The pretrained Swin Transformer tiny is employed for hierarchical feature extraction and the multi-head attention module is utilized for feature fusion. The experimental results reveal that the proposed method exhibits state-of-the-art performance among the mainstream FR metrics, which can provide an effective FR-IQA index for DHHs.
翻訳日:2022-09-23 12:22:49 公開日:2022-09-22
# KXNet: Blind Super-Resolutionのためのモデル駆動型ディープニューラルネットワーク

KXNet: A Model-Driven Deep Neural Network for Blind Super-Resolution ( http://arxiv.org/abs/2209.10305v2 )

ライセンス: Link先を確認
Jiahong Fu, Hong Wang, Qi Xie, Qian Zhao, Deyu Meng, and Zongben Xu(参考訳) 現在のディープラーニングベースの手法は、ブラインドシングルイメージスーパーレゾリューション(sisr)タスクで有望な性能を得ているが、その大部分はヒューリスティックなネットワークアーキテクチャの構築に重点を置いており、ぼやけたカーネルとハイレゾリューション(hr)イメージの間の物理生成メカニズムの明示的な埋め込みに重点を置いていない。 そこで本研究では,視覚障害者のためのモデル駆動型深層ニューラルネットワークであるkxnetを提案する。 具体的には,従来のsisrモデルを解くために,単純なイエト効率の反復アルゴリズムを提案する。 そして、関連する反復ステップを対応するネットワークモジュールに展開することで、自然にkxnetを構築する。 提案されたKXNetの主な特異性は、学習プロセス全体が、このSISRタスクの根底にある固有の物理的メカニズムと完全に明示的に統合されていることである。 これにより、学習されたぼかしカーネルは明確な物理パターンを有し、ぼかしカーネルとHR画像の相互反復プロセスは、KXNetを正しい方向に進化させるように音で導くことができる。 合成データと実データに関する広範囲な実験により,現在の最先端のブラインド sisr 法以上の精度と汎用性が実証された。 コードはhttps://github.com/jiahong-fu/kxnet。

Although current deep learning-based methods have gained promising performance in the blind single image super-resolution (SISR) task, most of them mainly focus on heuristically constructing diverse network architectures and put less emphasis on the explicit embedding of the physical generation mechanism between blur kernels and high-resolution (HR) images. To alleviate this issue, we propose a model-driven deep neural network, called KXNet, for blind SISR. Specifically, to solve the classical SISR model, we propose a simple-yet-effective iterative algorithm. Then by unfolding the involved iterative steps into the corresponding network module, we naturally construct the KXNet. The main specificity of the proposed KXNet is that the entire learning process is fully and explicitly integrated with the inherent physical mechanism underlying this SISR task. Thus, the learned blur kernel has clear physical patterns and the mutually iterative process between blur kernel and HR image can soundly guide the KXNet to be evolved in the right direction. Extensive experiments on synthetic and real data finely demonstrate the superior accuracy and generality of our method beyond the current representative state-of-the-art blind SISR methods. Code is available at: https://github.com/jiahong-fu/KXNet.
翻訳日:2022-09-23 12:22:31 公開日:2022-09-22
# Gemino:ビデオ会議のための実用的でロバストなニューラル圧縮

Gemino: Practical and Robust Neural Compression for Video Conferencing ( http://arxiv.org/abs/2209.10507v2 )

ライセンス: Link先を確認
Vibhaalakshmi Sivaraman, Pantea Karimi, Vedantha Venkatapathy, Mehrdad Khani, Sadjad Fouladi, Mohammad Alizadeh, Fr\'edo Durand, Vivienne Sze(参考訳) ビデオ会議システムは、現在のビデオコーデックが極端に低ビットレートで動作できないため、ネットワーク状態が悪化するとユーザエクスペリエンスが低下する。 近年,顔のランドマーク情報などの各フレームのスパース表現を用いて,非常に低ビットレートでの音声ヘッドビデオの再構成が提案されている。 しかし、これらの手法は、呼び出しの途中で大きな動きや閉塞を伴うシナリオにおいて貧弱な再構成をもたらし、より高い解像度にスケールしない。 我々は,新しい高周波数条件超解像パイプラインに基づくビデオ会議用ニューラル圧縮システムgeminoを設計した。 Geminoは、単一の高解像度参照画像から抽出された情報に基づいて、高周波の詳細(皮膚のテクスチャ、毛髪など)を高めながら、ターゲットフレームの非常に低解像度バージョンをアップサンプリングする。 私たちは、異なる解像度でモデルの異なるコンポーネントを実行し、720pに匹敵する解像度にスケールできるマルチスケールアーキテクチャを使用し、モデルをパーソナライズして各人の特定の詳細を学習し、低ビットレートでより優れた忠実度を実現します。 我々は,webrtc のオープンソース python 実装である aiortc 上で gemino を実装し,a100 gpu 上で 1024x1024 の動画をリアルタイムに動作させ,従来のビデオコーデックの2.9倍の低ビットレートを実現している。

Video conferencing systems suffer from poor user experience when network conditions deteriorate because current video codecs simply cannot operate at extremely low bitrates. Recently, several neural alternatives have been proposed that reconstruct talking head videos at very low bitrates using sparse representations of each frame such as facial landmark information. However, these approaches produce poor reconstructions in scenarios with major movement or occlusions over the course of a call, and do not scale to higher resolutions. We design Gemino, a new neural compression system for video conferencing based on a novel high-frequency-conditional super-resolution pipeline. Gemino upsamples a very low-resolution version of each target frame while enhancing high-frequency details (e.g., skin texture, hair, etc.) based on information extracted from a single high-resolution reference image. We use a multi-scale architecture that runs different components of the model at different resolutions, allowing it to scale to resolutions comparable to 720p, and we personalize the model to learn specific details of each person, achieving much better fidelity at low bitrates. We implement Gemino atop aiortc, an open-source Python implementation of WebRTC, and show that it operates on 1024x1024 videos in real-time on a A100 GPU, and achieves 2.9x lower bitrate than traditional video codecs for the same perceptual quality.
翻訳日:2022-09-23 12:22:07 公開日:2022-09-22
# 経験過程に対するインスタンス依存一様尾辺

Instance-dependent uniform tail bounds for empirical processes ( http://arxiv.org/abs/2209.10053v2 )

ライセンス: Link先を確認
Sohail Bahmani(参考訳) 検討されたクラスにおける最悪のケース偏差ではなく、関数の個々の偏差の観点から、関数のクラスによってインデックス付けされた経験的過程の均一なテールを定式化する。 テール境界は、標準のジェネリック連鎖引数に最初の「定義」ステップを導入することによって確立される。 結果として得られるテールバウンドは、主な複雑性成分であり、拡張された関数クラスに対するtalagrandの$\gamma$ functionalの変形であり、適切なノルムの適切なスケールバージョンによって測定されるインスタンス依存の偏差項を持つ。 これらの用語は、関連する累積生成関数に基づいて定式化された係数を用いて表される。 また、関数クラスが与えられた(指数型)オルリッツ空間にあるとき、上記の係数についてより明示的な近似を与える。

We formulate a uniform tail bound for empirical processes indexed by a class of functions, in terms of the individual deviations of the functions rather than the worst-case deviation in the considered class. The tail bound is established by introducing an initial "deflation" step to the standard generic chaining argument. The resulting tail bound has a main complexity component, a variant of Talagrand's $\gamma$ functional for the deflated function class, as well as an instance-dependent deviation term, measured by an appropriately scaled version of a suitable norm. Both of these terms are expressed using certain coefficients formulated based on the relevant cumulant generating functions. We also provide more explicit approximations for the mentioned coefficients, when the function class lies in a given (exponential type) Orlicz space.
翻訳日:2022-09-23 12:21:40 公開日:2022-09-22