このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201122となっている論文です。

PDF登録状況(公開日: 20201122)

TitleAuthorsAbstract論文公表日・翻訳日
# ほぼ公共の量子コイン

Almost Public Quantum Coins ( http://arxiv.org/abs/2002.12438v3 )

ライセンス: Link先を確認
Amit Behera, Or Sattath(参考訳) 量子マネースキームでは、銀行はユーザーが偽造できないお金を発行できる。 紙幣の紙幣と同様に、ほとんどの量子マネースキームは各通貨状態に対してユニークなシリアル番号を割り当て、量子マネーの利用者のプライバシーを侵害する可能性がある。 しかし、従来の通貨貨幣方式と同様に、量子コイン方式では、全ての通貨状態は互いに正確なコピーであり、ユーザーにとってより良いプライバシーレベルを提供する。 量子マネースキーム(quantum money scheme)は、プライベート(プライベート)、すなわち、銀行だけがマネーステートやパブリックを検証できる、すなわち誰でも検証できる。 そこで本研究では,ji,liu,song (crypto'18) による一方向関数の存在に基づいて存在することが知られている任意のプライベート量子コインスキームを,公開量子コインスキームによく似たスキームへ持ち上げる手法を提案する。 新しいコインの検証は、ユーザーが既に持っているコインと比較し、プロジェクターを対称部分空間に使用することによって行われる。 この作品以前には公的な貨幣計画が知られていなかった。 これはまた、公的な量子マネースキームに非常に近い最初の構成であり、標準仮定に基づいて確実に安全である。 moscaとstebila 2010によるプライベートな量子通貨スキームでインスタンス化されるとき、持ち上げテクニックは、非効率で無条件にセキュアな公共量子マネースキームに非常に近い最初の構成となる。

In a quantum money scheme, a bank can issue money that users cannot counterfeit. Similar to bills of paper money, most quantum money schemes assign a unique serial number to each money state, thus potentially compromising the privacy of the users of quantum money. However in a quantum coins scheme, just like the traditional currency coin scheme, all the money states are exact copies of each other, providing a better level of privacy for the users. A quantum money scheme can be private, i.e., only the bank can verify the money states, or public, meaning anyone can verify. In this work, we propose a way to lift any private quantum coin scheme -- which is known to exist based on the existence of one-way functions, due to Ji, Liu, and Song (CRYPTO'18) -- to a scheme that closely resembles a public quantum coin scheme. Verification of a new coin is done by comparing it to the coins the user already possesses, by using a projector on to the symmetric subspace. No public coin scheme was known prior to this work. It is also the first construction that is very close to a public quantum money scheme and is provably secure based on standard assumptions. The lifting technique when instantiated with the private quantum coins scheme, due to Mosca and Stebila 2010, gives rise to the first construction that is very close to an inefficient unconditionally secure public quantum money scheme.
翻訳日:2023-06-01 12:17:02 公開日:2020-11-22
# 関数反転のための高量子時間空間トレードオフ

Tight Quantum Time-Space Tradeoffs for Function Inversion ( http://arxiv.org/abs/2006.05650v2 )

ライセンス: Link先を確認
Kai-Min Chung, Siyao Guo, Qipeng Liu, Luowen Qian(参考訳) 関数逆転では、関数 $f: [N] \mapsto [N]$ が与えられます。 これは、暗号、データ構造、通信複雑性、回路下限と深いつながりを持つ、よく研究された問題である。 量子環境におけるこの問題の調査は、Nayebi, Aaronson, Belovs, Trevisan (2015) によって始められ、古典的アドバイスに対するランダムな置換に対して$ST^2 = \tilde\Omega(N)$の低い境界を証明した。 Hhan, Xgawa, and Yamakawa (2019), and Chung, Liao, and Qian (2019) による最近の研究はランダム関数と量子アドバイスの議論を拡張したが、下限は $ST^2 = \tilde\Omega(N)$ のままである。 この研究では、量子アドバイスでさえも、ランダム関数を逆転させるアルゴリズムには$ST + T^2 = \tilde\Omega(N)$が必要であることを証明している。 これはグロバーの探索が$S = \tilde O(\sqrt{N})$に対して最適であることを示し、量子アドバイスでさえグロバーの探索に対する実質的なスピードアップを除外する。 我々の境界に対するさらなる改良は、コリガン・ギブスとkogan (2019) が示したように、新しい古典回路の下限を意味する。 この結果を証明するために,量子時空間下界を確立するための汎用フレームワークを開発した。 さらに,Yaoのボックス問題とソルト暗号に対する量子時空間下界の証明によって,我々のフレームワークのパワーを実証する。

In function inversion, we are given a function $f: [N] \mapsto [N]$, and want to prepare some advice of size $S$, such that we can efficiently invert any image in time $T$. This is a well studied problem with profound connections to cryptography, data structures, communication complexity, and circuit lower bounds. Investigation of this problem in the quantum setting was initiated by Nayebi, Aaronson, Belovs, and Trevisan (2015), who proved a lower bound of $ST^2 = \tilde\Omega(N)$ for random permutations against classical advice, leaving open an intriguing possibility that Grover's search can be sped up to time $\tilde O(\sqrt{N/S})$. Recent works by Hhan, Xagawa, and Yamakawa (2019), and Chung, Liao, and Qian (2019) extended the argument for random functions and quantum advice, but the lower bound remains $ST^2 = \tilde\Omega(N)$. In this work, we prove that even with quantum advice, $ST + T^2 = \tilde\Omega(N)$ is required for an algorithm to invert random functions. This demonstrates that Grover's search is optimal for $S = \tilde O(\sqrt{N})$, ruling out any substantial speed-up for Grover's search even with quantum advice. Further improvements to our bounds would imply new classical circuit lower bounds, as shown by Corrigan-Gibbs and Kogan (2019). To prove this result, we develop a general framework for establishing quantum time-space lower bounds. We further demonstrate the power of our framework by proving quantum time-space lower bounds for Yao's box problem and salted cryptography.
翻訳日:2023-05-16 03:00:00 公開日:2020-11-22
# 集合駆動型光ナノアンテナ

Collectively Driven Optical Nanoantennas ( http://arxiv.org/abs/2006.13007v2 )

ライセンス: Link先を確認
Jian Wen Choong, Nikita Nefedkin, and Alex Krasnok(参考訳) 光ナノアンテナ、すなわち局所光または導波路モードを自由に伝播する場に変換する要素は、現代のナノフォトニクスにとって不可欠な構成要素である。 光アンテナはディッケ超放射効果、すなわち量子源の集団自発放出を引き起こすことが示されている。 しかし、指向性、効率性、パーセル効果などのアンテナ性能に対するコヒーレント励起の影響はほとんど解明されていない。 本稿では,量子モデルに基づく全波数値シミュレーションを用いて,コヒーレント励起によりアンテナ多極の制御,非放射状態のオンデマンド励起,指向性の向上,アンテナ放射効率の向上が期待できることを示す。 この集合励起は、量子図形の非ゼロ双極子モーメントを持つ状態に対応し、量子相はよく定義される。 この研究の結果、量子エミッタの集合的な位相が光ナノアンテナを制御し、超高性能なナノフォトニクスデバイスに集合的な励起を使用する方法が導かれるという、別の自由度がもたらされた。 周波数範囲に依存しない議論を行うため,全誘電体設計を考慮し,無次元単位を用いる。

Optical nanoantennas, i.e., elements transforming localized light or waveguide modes into freely propagating fields and vice versa, are vital components for modern nanophotonics. Optical antennas have been demonstrated to cause the Dicke superradiance effect, i.e., collective spontaneous emission of quantum sources. However, the impact of coherent excitation on the antenna performance, such as directivity, efficiency, and Purcell effect, remains mostly unexplored. Herein, using full-wave numerical simulations backed by a quantum model, we unveil that coherent excitation allows controlling antenna multipoles, on-demand excitation of nonradiative states, enhanced directivity and improves antenna radiation efficiency. This collective excitation corresponds to the states with nonzero dipole moment in the quantum picture, where the quantum phase is well defined. The results of this work bring another degree of freedom - the collective phase of an ensemble of quantum emitters - to control optical nanoantennas and, as such, pave the way to the use of collective excitations for nanophotonic devices with superb performance. To make the discussion independent of the frequency range, we consider the all-dielectric design and use dimensionless units.
翻訳日:2023-05-13 04:41:04 公開日:2020-11-22
# ジグザグ光学格子におけるスピンレス$p$軌道フェルミオンの位相位相

Topological phases of spinless $p$-orbital fermions in zigzag optical lattices ( http://arxiv.org/abs/2007.16057v2 )

ライセンス: Link先を確認
Gaoyong Sun, Wen-Long You and Tao Zhou(参考訳) 実験 [St-Jean {\it et al} に動機づけられた。 自然光子です ポラリトンマイクロピラーのジグザグ鎖における集合光子モードを持つ位相相上の651 (2017)] では、スピンレス$p$軌道間ホッピングと、ジグザグ光学格子における$p_x$と$p_y$バンド間の反発相互作用について研究する。 zigzag光学格子中のスピンレス$p$-バンドフェルミオンは、局所ホッピングの存在下で相互作用するsu-schrieffer-heegerモデルと効果的な横磁場イジングモデルを模倣できることを示した。 解析的および数値的にモデルの基底状態相と量子相転移を論じる。 この研究は、トポロジカル位相と光学格子における多体系のクエンチダイナミクスをシミュレートする単純なスキームを提供する。

Motivated by the experiment [St-Jean {\it et al}., Nature Photon. {\bf 11}, 651 (2017)] on topological phases with collective photon modes in a zigzag chain of polariton micropillars, we study spinless $p$-orbital fermions with local interorbital hoppings and repulsive interactions between $p_x$ and $p_y$ bands in zigzag optical lattices. We show that spinless $p$-band fermions in zigzag optical lattices can mimic the interacting Su-Schrieffer-Heeger model and the effective transverse field Ising model in the presence of local hoppings. We analytically and numerically discuss the ground-state phases and quantum phase transitions of the model. This work provides a simple scheme to simulate topological phases and the quench dynamics of many-body systems in optical lattices.
翻訳日:2023-05-07 12:42:49 公開日:2020-11-22
# 正方形格子における時間反転対称性の破れ

Time-reversal symmetry breaking in a square lattice ( http://arxiv.org/abs/2009.10001v3 )

ライセンス: Link先を確認
Kevin Jimenez and Jose Reslen(参考訳) 2次元系のバルク伝導度は、強いスピン軌道相互作用と強い格子ポテンシャルの存在下で量子干渉効果が時間-逆対称性を損なうと仮定する。 本研究は非線形応答系を探索するために直接対角化法により行われる。 このシステムは電界の強度に依存する量子化された導電率を示し、特定の条件下ではゼロ電界における導電限界は非有界値を示す。

The bulk conductivity of a two-dimensional system is studied assuming that quantum interference effects break time-reversal symmetry in the presence of strong spin-orbit interaction and strong lattice potential. The study is carried out by direct diagonalization in order to explore the nonlinear-response regime. The system displays a quantized conductivity that depends on the intensity of the electric field and under specific conditions the conductivity limit at zero electric field shows a nonvanishing value.
翻訳日:2023-05-01 11:09:18 公開日:2020-11-22
# 最適反復数をもつ$n$量子ビットに対するGroverの探索アルゴリズム

Grover's search algorithm for $n$ qubits with optimal number of iterations ( http://arxiv.org/abs/2011.04051v2 )

ライセンス: Link先を確認
Simanraj Sadana(参考訳) グローバーの探索アルゴリズムを用いて、$M$のターゲットを$N$のデータベースから検索する成功確率は、オラクルの合成操作の繰り返し回数とグローバーの拡散操作に大きく依存する。 必要なイテレーション数は、大きな$n$に対して$\mathcal{o}(\sqrt{n})$となるが、$\sqrt{m/n}$が小さくない場合、アsymptoteは最適なイテレーション数を示す良い指標ではない。 探索の成功確率(目標状態を検出する可能性)のしきい値が設定された反復の正確な数を決定するためのスキームがアルゴリズムの有効性に不可欠である。 本研究は, 1 ドル= 1 のleq m \leq n$ を対象とする,n$-qubit grover の探索アルゴリズムを構成するための一般的なスキームと,検索成功のための最適なイテレーション数を求める手順について述べる。 また、与えられた$n$ と $m$ に対して、アルゴリズムの成功確率に上限があることも示されている。

The success probability of a search of $M$ targets from a database of size $N$, using Grover's search algorithm depends critically on the number of iterations of the composite operation of the oracle followed by Grover's diffusion operation. Although the required number of iterations scales as $\mathcal{O}(\sqrt{N})$ for large $N$, the asymptote is not a good indicator of the optimal number of iterations when $\sqrt{M/N}$ is not small. A scheme for the determination of the exact number of iterations, subject to a threshold set for the success probability of the search (probability of detecting the target state(s)), is crucial for the efficacy of the algorithm. In this work, a general scheme for the construction of $n$-qubit Grover's search algorithm with $1 \leq M \leq N$ target states is presented, along with the procedure to find the optimal number of iterations for a successful search. It is also shown that for given $N$ and $M$, there is an upper-bound on the success probability of the algorithm.
翻訳日:2023-04-24 23:19:22 公開日:2020-11-22
# capstoneプロジェクトコース用ルーブリックスの開発 : 教員と学生の視点から

Development of Rubrics for Capstone Project Courses: Perspectives from Teachers and Students ( http://arxiv.org/abs/2011.11035v1 )

ライセンス: Link先を確認
Rex P. Bringula(参考訳) 本研究は, 立石プロジェクトコースの公平で, 適切で, かつ, 有意な評価ツールの開発を試みた。 この目標に向けて、ルーブリックの概念に基づく新しい評価器が提案された。 新しい機器が有効で公平であることを保証するため、計算機科学科の学部や学生(コンピュータ科学と情報技術)との会合が連続して行われた。 この研究には8人の教員と10人の学生が参加した。 楽器の最終的なバージョンは、教員や学生との一連の慎重に検討された後に完成した。 教員や学生は以前のものよりも新しい楽器を公平に感じた。 最終楽器はこの学期に配備されるため、その強みと弱みは現時点では分かっていない。 今後の研究の方向性を示す。

This study attempted to develop fair, relevant, and content-valid assessment tools for capstone project courses. Toward this goal, new rating instruments based on the concept of rubrics were proposed. To ensure that the new instruments were valid and fair, several meetings with faculty and students of the computing science departments (i.e., Computer Science and Information Technology) were successively conducted. Eight faculty members and 10 students participated in the study. The final versions of the instruments were completed after a series of careful deliberations with faculty and students. Faculty and students perceived the new instruments fairer than the previous ones. Since the final instruments will be deployed this semester, their strengths and weaknesses are not yet known at this time. Directions for future research are presented.
翻訳日:2023-04-23 11:12:48 公開日:2020-11-22
# フィリピンにおける情報技術研究の誰がソーシャル・ネットワーク分析を行うのか

Who's Who in the Information Technology Research in the Philippines A Social Network Analysis ( http://arxiv.org/abs/2011.11033v1 )

ライセンス: Link先を確認
Rex Bringula, Ma. Carmela Racelis, Rey C. Rodrigueza(参考訳) 本研究はフィリピンの2つの計算学会が発表した会議論文を報告する。 この目的に向けて,全国it教育会議とフィリピン計算学会会議の公開会議はすべて,ソーシャルネットワーク分析を用いて収集,分析された。 調査の結果、カンファレンスには18年間に793の論文が発表されていることが明らかになった。 平均して、両会議は毎年27の論文を提出した。 私立高等教育機関は、デ・ラ・サール大学がリストの上位にある研究生産学校のリストを支配した。 フィリピン・ディリマン大学の研究者は39の出版物と「algorithm」が最も研究されているトピックである。 研究者は2人から3人からなる小さなチームで働く傾向がある。 研究の意義と限界も示されている。

This study reported the conference papers presented conducted by the two computing societies in the Philippines. Toward this goal, all published conference proceedings from the National Conference of IT Education and Philippine Computing Society Conference were gathered and analyzed using social network analysis. The findings of the study disclosed that there are 733 papers presented in the conference for the span of 18 years. On the average, both conferences had 27 papers presented annually. Private higher education institutions dominated the list of research productive schools where De La Salle University tops the list. A researcher in the University of the Philippines-Diliman is the most prolific researcher with 39 publications and "algorithm" was the most researched topic. Researchers tend to work in small team consisting of 2 to 3 members. Implications and limitations of the study are also presented.
翻訳日:2023-04-23 11:12:35 公開日:2020-11-22
# 高次元の高次位相状態の構築

Constructing higher-order topological states in higher dimension ( http://arxiv.org/abs/2011.11027v1 )

ライセンス: Link先を確認
Yao Wang, Yongguan Ke, Yi-Jun Chang, Yong-Heng Lu, Jun Gao, Chaohong Lee, Xian-Min Jin(参考訳) ベリー位相の一般化としての高次位相は膨大な量の研究を引き寄せている。 しかし、高次位相相をサポートする現在の理論モデルは、格子を低次元から高次元に拡張する場合、低次位相相と高次位相相の間の接続を与えることができない。 本稿では,一次元格子のエッジ状態から構築した位相的コーナー状態を提案し,実験的に示す。 2次元正方格子は、各方向のカップリングの独立な空間変調を所有し、各方向のエッジ状態の組み合わせは、2次元格子の高階位相角状態に到達し、低次元格子と高次元格子の位相位相の接続を明らかにする。 さらに, 2次元格子の位相角状態はベクトルチャーン数を特徴とする4次元位相位相相からの次元還元と見なすことができ, 2つの変調位相をオーブリー・アンドレ・ハーパーモデルにおいて合成次元として考えることができる。 我々の研究は、格子次元を破る位相位相への理解を深め、高次元構造における高次元位相を構成する有望なツールを提供する。

Higher-order topological phase as a generalization of Berry phase attracts an enormous amount of research. The current theoretical models supporting higher-order topological phases, however, cannot give the connection between lower and higher-order topological phases when extending the lattice from lower to higher dimensions. Here, we theoretically propose and experimentally demonstrate a topological corner state constructed from the edge states in one dimensional lattice. The two-dimensional square lattice owns independent spatial modulation of coupling in each direction, and the combination of edge states in each direction come up to the higher-order topological corner state in two-dimensional lattice, revealing the connection of topological phase in lower and higher dimensional lattices. Moreover, the topological corner states in two-dimensional lattice can also be viewed as the dimension-reduction from a four-dimensional topological phase characterized by vector Chern number, considering two modulation phases as synthetic dimensions in Aubry-Andre-Harper model discussed as example here. Our work deeps the understanding to topological phases breaking through the lattice dimension, and provides a promising tool constructing higher topological phases in higher dimensional structures.
翻訳日:2023-04-23 11:12:25 公開日:2020-11-22
# 新型コロナウイルス感染拡大に伴うソーシャルメディアの危機プロセスとメンタルヘルスの進化の追跡

Tracking the evolution of crisis processes and mental health on social media during the COVID-19 pandemic ( http://arxiv.org/abs/2011.11024v1 )

ライセンス: Link先を確認
Antonela Tommasel, Daniela Godoy, Juan Manuel Rodriguez(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは社会のあらゆる側面に影響を与えており、健康上の危険をもたらすだけでなく、公共の秩序や政府、メンタルヘルスにも課題をもたらしている。 さらに、世界中の人々がソーシャルメディアを使って自分の考えや関心を大規模に表現するのは、歴史上初めてである。 本研究は,危機対応と回復の段階を社会学的問題として,精神言語学的分析の観点からよく知られた危機ステージモデルを運用することを目的とする。 2020年3月から8月にかけてアルゼンチンで収集された大量のtwitterデータをもとに,ソーシャルメディア投稿における言語の違いに関するテーマ分析を行い,危機の異なる段階とその対応を示す指標について考察する。 この分析は、時間を通してのメンタルヘルスの会話の時間的頻度の研究と組み合わせられた。 アルゼンチンのケーススタディの他に、提案手法と分析はあらゆる公共の大規模データに適用できる。 このアプローチは、危機の異なる段階で監視し、最終的に介入することを目的とした公衆衛生政策の設計に対する洞察を与え、それによって人口に対する有害なメンタルヘルス効果を改善することができる。

The COVID-19 pandemic has affected all aspects of society, not only bringing health hazards, but also posing challenges to public order, governments and mental health. Moreover, it is the first one in history in which people from around the world uses social media to massively express their thoughts and concerns. This study aims at examining the stages of crisis response and recovery as a sociological problem by operationalizing a well-known model of crisis stages in terms of a psycho-linguistic analysis. Based on a large collection of Twitter data spanning from March to August 2020 in Argentina, we present a thematic analysis on the differences in language used in social media posts, and look at indicators that reveal the different stages of a crisis and the country response thereof. The analysis was combined with a study of the temporal prevalence of mental health conversations across the time span. Beyond the Argentinian case-study, the proposed approach and analyses can be applied to any public large-scale data. This approach can provide insights for the design of public health politics oriented to monitor and eventually intervene during the different stages of a crisis, and thus improve the adverse mental health effects on the population.
翻訳日:2023-04-23 11:12:06 公開日:2020-11-22
# コヒーレント光子を用いたオンデマンド量子相関制御

On-demand quantum correlation control using coherent photons ( http://arxiv.org/abs/2011.10945v1 )

ライセンス: Link先を確認
B. S. Ham(参考訳) 過去数十年間、量子情報科学の潜在的な応用のために量子絡み合いが集中的に研究されてきた。 非局所相関については集中的な研究が進んでいるが、絡み合い自体の基本的な理解は依然として限られている。 ここでは、確率的光子対に基づく反相関(HOM dip)と呼ばれる反相関の量子的特徴を基礎物理学で解析し、コヒーレント光を用いた新しいオンデマンド光子対生成法と比較する。 HOMディップ測定においてg^((1))相関が存在しない理由の基本物理は答えられ、マクロ量子エンタングルメント世代に対して新しいコヒーレンス量子物理学が提案されている。

Over the last several decades, quantum entanglement has been intensively studied for potential applications in quantum information science. Although intensive studies have progressed for nonlocal correlation, fundamental understanding of entanglement itself is still limited. Here, the quantum feature of anticorrelation, the so-called HOM dip, based on probabilistic entangled photon pairs is analyzed for its fundamental physics and compared with a new method of on-demand entangled photon pair generations using coherent light. The fundamental physics why there is no g^((1)) correlation in HOM dip measurements is answered, and new coherence quantum physics is proposed for macroscopic quantum entanglement generations.
翻訳日:2023-04-23 11:11:09 公開日:2020-11-22
# 完全Stern-Gerlach干渉計の実現:量子重力実験に向けて

Realization of a complete Stern-Gerlach interferometer: Towards a test of quantum gravity ( http://arxiv.org/abs/2011.10928v1 )

ライセンス: Link先を確認
Yair Margalit, Or Dobkowski, Zhifan Zhou, Omer Amit, Yonathan Japha, Samuel Moukouri, Daniel Rohrlich, Anupam Mazumdar, Sougato Bose, Carsten Henkel, Ron Folman(参考訳) 1世紀前に発見されたstern-gerlach効果は、量子力学のパラダイムとなった。 驚くべきことに、マグネットから勾配に露出した原子を自由に伝播させる当初の計画が完全にコヒーレントな量子過程であるという証拠はほとんどない。 具体的には、何十年も前に計画されていたフルループのStern-Gerlach干渉計は実現されていない。 さらに、いくつかの理論的研究は、そのような干渉計がなぜ非常に難しいのかを説明している。 ここでは、従来の理論解析で記述された厳密な制約下でのコヒーレント動作を保証する、高精度な磁場に基づく最初のフルループ・スターン・ゲラッハ干渉計の実現に関する詳細な説明を提供する。 磁気勾配に対するこの高いレベルの制御を達成することは、量子力学と重力のインターフェースを探索するなど、技術および基本的な応用を促進することが期待されている。 ここで説明される実験的な実現は1つの原子に対するものであるが、将来の課題は1つのスピンでドープされたマクロな物体を利用することで得られる。 具体的には、このような実験は原則として実現可能であることを示し、新しい基本プローブの時代への扉を開く。

The Stern-Gerlach effect, discovered a century ago, has become a paradigm of quantum mechanics. Surprisingly there has been little evidence that the original scheme with freely propagating atoms exposed to gradients from macroscopic magnets is a fully coherent quantum process. Specifically, no full-loop Stern-Gerlach interferometer has been realized with the scheme as envisioned decades ago. Furthermore, several theoretical studies have explained why such an interferometer is a formidable challenge. Here we provide a detailed account of the first full-loop Stern-Gerlach interferometer realization, based on highly accurate magnetic fields, originating from an atom chip, that ensure coherent operation within strict constraints described by previous theoretical analyses. Achieving this high level of control over magnetic gradients is expected to facilitate technological as well as fundamental applications, such as probing the interface of quantum mechanics and gravity. While the experimental realization described here is for a single atom, future challenges would benefit from utilizing macroscopic objects doped with a single spin. Specifically, we show that such an experiment is in principle feasible, opening the door to a new era of fundamental probes.
翻訳日:2023-04-23 11:10:56 公開日:2020-11-22
# 標準量子力学の開始時からの不可分性

Indistinguishability right from the start in standard quantum mechanics ( http://arxiv.org/abs/2011.10903v1 )

ライセンス: Link先を確認
F. Holik, J. P. Jorge, C. Massri(参考訳) 我々は、準集合理論に訴えて、開始時から不明瞭性を仮定する標準的な量子力学の再構築について論じる。 構成の基本的な側面を思い出し、元の定式化のいくつかの改善を導入した後、量子論の解釈のためのいくつかの結論を抽出する。

We discuss a reconstruction of standard quantum mechanics assuming indistinguishability right from the start, by appealing to quasi-set theory. After recalling the fundamental aspects of the construction and introducing some improvements in the original formulation, we extract some conclusions for the interpretation of quantum theory.
翻訳日:2023-04-23 11:10:04 公開日:2020-11-22
# バングラデシュの女性農家の農業用モバイルアプリケーション開発価値の測定

Measuring Bangladeshi Female Farmers' Values for Agriculture Mobile Applications Development ( http://arxiv.org/abs/2012.01268v1 )

ライセンス: Link先を確認
Rifat Ara Shams, Mojtaba Shahin, Gillian Oliver, Waqar Hussain, Harsha Perera, Arif Nurwidyantoro, Jon Whittle(参考訳) 日常生活におけるモバイルアプリケーション(アプリ)の普遍性は、アプリがユーザの価値観を反映すべきという衝動を提起する。 しかし、通常、ユーザの価値はアプリ開発において考慮されない。 したがって、ユーザの不満や否定的な社会経済的結果には大きな可能性がある。 アプリの価値を認識する最初のステップは、それらの価値が何であるかを知ることであり、それがバングラデシュで実施されたこの研究の目的であった。 私たちの焦点は田舎の女性、特に女性農家でした。 本研究の基礎はシュワルツの普遍的人間価値理論であり,関連する調査機器であるポートレート価値アンケート(pvq)を用いた。 バングラデシュの女性農夫193名を対象に調査を行ったところ,コンフォーマルティと安全が最重要視され,パワー,ヘドニズム,刺激が最重要視された。 この発見は、この市場向けの農業アプリを開発する際に、開発者が考慮するのに役立つだろう。 さらに、私たちが使用した方法論は、他のコミュニティにおけるアプリのユーザ価値を引き出すためのモデルを提供します。

The ubiquity of mobile applications (apps) in daily life raises the imperative that the apps should reflect users' values. However, users' values are not usually taken into account in app development. Thus there is significant potential for user dissatisfaction and negative socio-economic consequences. To be cognizant of values in apps, the first step is to find out what those values are, and that was the objective of this study conducted in Bangladesh. Our focus was on rural women, specifically female farmers. The basis for our study was Schwartz's universal human values theory, and we used an associated survey instrument, the Portrait Values Questionnaire (PVQ). Our survey of 193 Bangladeshi female farmers showed that Conformity and Security were regarded as the most important values, while Power, Hedonism, and Stimulation were the least important. This finding would be helpful for developers to take into account when developing agriculture apps for this market. In addition, the methodology we used provides a model to follow to elicit the values of apps' users in other communities.
翻訳日:2023-04-23 11:02:18 公開日:2020-11-22
# フォトニックシステムにおけるアナログタイムマシン

Analogue time machine in a photonic system ( http://arxiv.org/abs/2011.11114v1 )

ライセンス: Link先を確認
D. D. Solnyshkov, G. Malpuech(参考訳) アナログ物理学は、色力学、事象の地平線、ビッグバン、宇宙の膨張などの問題にうまく取り組んだ。 本稿では,同軸ビーム近似に基づく「時間機」のためのフォトニックモデルシステムを提案する。 本システムにおいて,閉時間様曲線とよく知られた祖父パラドックスが実験的に研究できることを示す。 量子力学においてノヴィコフの自己矛盾原理がハイゼンベルクの不確実性原理によってどのように実現されるかを示す。

Analogue physics has successfully tackled the problems of chromodynamics, event horizons, Big Bang and Universe expansion, and many others. Here, we suggest a photonic model system for a "time machine" based on the paraxial beam approximation. We demonstrate how the closed time-like curves and the well-known grandfather paradox can be studied experimentally in this system. We show how the Novikov's self-consistency principle is realized in quantum mechanics thanks to the Heisenberg's uncertainty principle.
翻訳日:2023-04-23 11:02:02 公開日:2020-11-22
# フォトニック結晶空洞に結合したナノダイヤモンドの単一窒素空洞中心の光物理

Photophysics of single nitrogen-vacancy centers in nanodiamonds coupled to photonic crystal cavities ( http://arxiv.org/abs/2011.11111v1 )

ライセンス: Link先を確認
Philip P. J. Schrinner, Jan Olthaus, Doris E. Reiter, Carsten Schuck(参考訳) 負電荷状態にあるダイヤモンド中の窒素空孔中心は、単一光子エミッタを必要とする量子光学実験の候補となる。 NV中心の重要な利点は、室温でも高い明るさと光安定性である。 工学 光学共振器を用いたnv中心の放射特性は、量子技術の適用要件を満たすために広く研究されているアプローチであるが、非放射減衰経路への影響はまだ理解されていない。 本稿では,1次元フォトニック結晶キャビティに結合したナノダイヤモンド中の単一NV中心の内部量子効率を変化させる。 本研究では,3つの独立した計測手法を用いてパーセルの増強を評価し,共焦点顕微鏡で高励起パワーで自己相関測定を行う。 3レベルモデルを用いることで、セットアップ効率、個々の遷移率、したがってシステムの内部量子効率を抽出できる。 その結果, パーセル効果による放射減衰速度の増大は, キャビティ結合nv中心において90%の量子効率をもたらすことがわかった。 本研究は、ナノスケールの単一光子源を高い繰り返し速度で動作可能な内部量子効率で実現することを促進する。

The nitrogen vacancy center in diamond in its negative charge state is a promising candidate for quantum optic experiments that require single photon emitters. Important benefits of the NV center are its high brightness and photo-stability, even at room temperature. Engineering the emission properties of NV centers with optical resonators is a widely followed approach to meet the requirements for quantum technological applications, but the effect on non-radiative decay paths is yet to be understood. Here we report on modifying the internal quantum efficiency of a single NV center in a nanodiamond coupled to a 1D photonic crystal cavity. We assess the Purcell enhancement via three independent measurement techniques and perform autocorrelation measurements at elevated excitation powers in confocal microscopy. Employing a three-level model allows us to extract the setup efficiency, individual transition rates and thus the internal quantum efficiency of our system. Combining our results, we find that the enhancement of the radiative decay rate via the Purcell effect results in an internal quantum efficiency of 90 % for cavity-coupled NV centers. Our findings will facilitate the realization of nano-scale single photon sources with near-unity internal quantum efficiencies operating at high repetition rates.
翻訳日:2023-04-23 11:01:46 公開日:2020-11-22
# AIと自動化はどのように社会や都市を変えるのか?

How will AI and automation transform society and cities? ( http://arxiv.org/abs/2011.11095v1 )

ライセンス: Link先を確認
Gevorg Yeghikyan(参考訳) AIが社会に与える影響に関する不安や議論の高まりを背景に、本稿では、現在の資本主義エリートと新興の「創造的階級」(R&D科学者、エンジニア、ビジネス開発者など)の新たな社会的対立を引き起こすAIと自動化の構造可能性と、この対立が社会的な緊張を生み出し、都市空間を変革する方法について考察します。 17世紀から18世紀にかけてのヨーロッパにおける貴族階級と新興ブルジョワジーの間の構造的に類似した対立から、この紛争が当時の都市の社会的、空間的、権力的景観や都市地理学の現在の動向に与えた影響を考察し、生産・消費経済の変化に伴う都市転換の展望について概説する。

Against the backdrop of rising anxiety and discussions on the impact of AI on society, I explore in this article the structural possibilities of AI and automation triggering a new social conflict between the current capitalist elites and the emerging "creative class" (R&D scientists, engineers, business developers, etc.), and how this conflict can produce social tensions and transform urban space. By drawing insights from a structurally similar conflict in 17-18th century Europe between the aristocracy and the emerging bourgeoisie, the impact of this conflict on the social, spatial, and power landscapes in cities of that time, as well as current trends in urban geography, this article outlines the prospects of urban transformations under changing production and consumption economies.
翻訳日:2023-04-23 11:01:17 公開日:2020-11-22
# 量子機械学習のためのans\"{a}tzeの図式設計と研究

Diagrammatic Design and Study of Ans\"{a}tze for Quantum Machine Learning ( http://arxiv.org/abs/2011.11073v1 )

ライセンス: Link先を確認
Richie Yeung(参考訳) 量子機械学習(qml)の人気が高まる中、パラメータ化された量子回路(一般にはans\"{a}tze")の一般採用ファミリーを効果的に単純化する手法を開発することが重要である。 この論文は、QML ans\"{a}tze で推論するための図式技法の使用の先駆者である。 一般に使用されるqml ans\"{a}tzeをダイアグラム形式に変換し、これらのゲートの通勤方法の完全な説明を与え、回路の解析と単純化をより容易にする。 さらに,層状ans\"{a}tzeにおける周期性現象の解析や,qmlで一般的に使用される回路のクラスを単純化するために,cnotと位相ガジェットの相互作用の組合せ記述を利用する。

Given the rising popularity of quantum machine learning (QML), it is important to develop techniques that effectively simplify commonly adopted families of parameterised quantum circuits (commonly known as ans\"{a}tze). This thesis pioneers the use of diagrammatic techniques to reason with QML ans\"{a}tze. We take commonly used QML ans\"{a}tze and convert them to diagrammatic form and give a full description of how these gates commute, making the circuits much easier to analyse and simplify. Furthermore, we leverage a combinatorial description of the interaction between CNOTs and phase gadgets to analyse a periodicity phenomenon in layered ans\"{a}tze and also to simplify a class of circuits commonly used in QML.
翻訳日:2023-04-23 11:01:00 公開日:2020-11-22
# センシング:方程式1

Sensing: Equation One ( http://arxiv.org/abs/2011.11043v1 )

ライセンス: Link先を確認
Dmitry Budker and Mikhail G. Kozlov(参考訳) スピン投影ノイズはスピンベースの磁力計の感度の限界を設定し、パリティおよび時間反転非分散双極子モーメントを探索する実験を行う。 この極限は普遍的適用可能性を持つように見える単純な方程式によって記述される。

Spin projection noise sets a limit for the sensitivity of spin-based magnetometers and experiments searching for parity- and time-reversal-invariance-violating dipole moments. The limit is described by a simple equation that appears to have universal applicability.
翻訳日:2023-04-23 10:59:45 公開日:2020-11-22
# タスクと言語間のゼロショット学習のためのパラメータ空間因子化

Parameter Space Factorization for Zero-Shot Learning across Tasks and Languages ( http://arxiv.org/abs/2001.11453v3 )

ライセンス: Link先を確認
Edoardo M. Ponti, Ivan Vuli\'c, Ryan Cotterell, Marinela Parovic, Roi Reichart and Anna Korhonen(参考訳) NLPタスクと言語変種の組み合わせのほとんどは、注釈付きデータのあいまいさのため、教師付きトレーニングのドメイン例を欠いている。 ニューラルモデルは、利用可能なデータとタスク言語の組み合わせから低リソースデータまで、サンプル効率のよい一般化を実現するにはどうすればよいのか? 本研究では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。 この空間は各言語と各タスクの潜在変数に分解できると仮定する。 変動推論によるタスク言語の組み合わせのデータに基づいて,そのような潜在変数の後方を推定する。 これにより、予測時に見当たらない組み合わせのゼロショット分類が可能になる。 例えば、ベトナムにおける名前付きエンティティ認識(ner)と、wolofにおけるpart-of-speech(pos)タグのトレーニングデータから、wolofにおけるnerの正確な予測を行うことができる。 特に,4大陸と11家族の33の言語をタイプ学的に多種多様なサンプルを用いて実験し,そのモデルが最先端のゼロショット言語間移動法と同等あるいは優れた結果をもたらすことを示す。 さらに,近似ベイズモデル平均化はより滑らかな予測分布となり,エントロピーは精度と逆相関することを示した。 したがって、提案フレームワークは予測の不確かさの堅牢な推定も提供する。 私たちのコードはgithub.com/cambridgeltl/parameter-factorizationにあります

Most combinations of NLP tasks and language varieties lack in-domain examples for supervised training because of the paucity of annotated data. How can neural models make sample-efficient generalizations from task-language combinations with available data to low-resource ones? In this work, we propose a Bayesian generative model for the space of neural parameters. We assume that this space can be factorized into latent variables for each language and each task. We infer the posteriors over such latent variables based on data from seen task-language combinations through variational inference. This enables zero-shot classification on unseen combinations at prediction time. For instance, given training data for named entity recognition (NER) in Vietnamese and for part-of-speech (POS) tagging in Wolof, our model can perform accurate predictions for NER in Wolof. In particular, we experiment with a typologically diverse sample of 33 languages from 4 continents and 11 families, and show that our model yields comparable or better results than state-of-the-art, zero-shot cross-lingual transfer methods. Moreover, we demonstrate that approximate Bayesian model averaging results in smoother predictive distributions, whose entropy inversely correlates with accuracy. Hence, the proposed framework also offers robust estimates of prediction uncertainty. Our code is located at github.com/cambridgeltl/parameter-factorization
翻訳日:2023-01-05 12:11:40 公開日:2020-11-22
# 教師なしマルチクラスドメイン適応:理論,アルゴリズム,実践

Unsupervised Multi-Class Domain Adaptation: Theory, Algorithms, and Practice ( http://arxiv.org/abs/2002.08681v2 )

ライセンス: Link先を確認
Yabin Zhang, Bin Deng, Hui Tang, Lei Zhang, and Kui Jia(参考訳) 本稿では,学習目的が経験的にのみ動機づけられた最近のアルゴリズムの基盤となる,教師なしマルチクラスドメイン適応(マルチクラスUDA)の形式性について検討する。 マルチクラス分類における絶対マージン違反を集約することで, MCSDの偏差が示され, 提案したMCSDは, いずれかのマルチクラスのスコアリング仮説間の関係を完全に特徴づけることができる。 mcsdをドメイン間距離の尺度として用いることで、多クラスudaにバインドされた新しいドメイン適応法を開発し、そのデータ依存的、おそらくほぼ正しいバウンドも開発し、ソース領域とターゲットドメインをまたいだ条件的特徴分布を調整するために、逆学習目標を自然に提案する。 その結果,マルチクラスドメイン逆学習ネットワーク(mcdalnets)のアルゴリズムフレームワークが開発され,サロゲート学習目標による異なるインスタンス化が,最近普及した手法と一致するか,あるいは類似しているかのいずれかとなり,その実用的効果を(部分的に)強調する。 また,多クラスudaの同一理論に基づいて,新しいアルゴリズムであるドメイン対称ネットワーク(symmnets)を導入し,ドメイン混乱と識別の新たな逆戦略を特徴付ける。 SymmNetsは、クローズドセット、部分セット、オープンセット UDA のいずれかの問題設定下で同じように動作する単純な拡張を提供する。 我々は、McDalNetsと新しく導入されたSymNetsの異なるアルゴリズムを比較するために、慎重に実験研究を行う。 実験は理論解析を検証し,提案するsymmnetの有効性を示す。 さらに、実装コードを公開しました。

In this paper, we study the formalism of unsupervised multi-class domain adaptation (multi-class UDA), which underlies a few recent algorithms whose learning objectives are only motivated empirically. Multi-Class Scoring Disagreement (MCSD) divergence is presented by aggregating the absolute margin violations in multi-class classification, and this proposed MCSD is able to fully characterize the relations between any pair of multi-class scoring hypotheses. By using MCSD as a measure of domain distance, we develop a new domain adaptation bound for multi-class UDA; its data-dependent, probably approximately correct bound is also developed that naturally suggests adversarial learning objectives to align conditional feature distributions across source and target domains. Consequently, an algorithmic framework of Multi-class Domain-adversarial learning Networks (McDalNets) is developed, and its different instantiations via surrogate learning objectives either coincide with or resemble a few recently popular methods, thus (partially) underscoring their practical effectiveness. Based on our identical theory for multi-class UDA, we also introduce a new algorithm of Domain-Symmetric Networks (SymmNets), which is featured by a novel adversarial strategy of domain confusion and discrimination. SymmNets affords simple extensions that work equally well under the problem settings of either closed set, partial, or open set UDA. We conduct careful empirical studies to compare different algorithms of McDalNets and our newly introduced SymmNets. Experiments verify our theoretical analysis and show the efficacy of our proposed SymmNets. In addition, we have made our implementation code publicly available.
翻訳日:2022-12-30 06:22:51 公開日:2020-11-22
# ジェネレーティブ・ディバイサル・ネットワークを用いた連続的評価介入の効果の推定

Estimating the Effects of Continuous-valued Interventions using Generative Adversarial Networks ( http://arxiv.org/abs/2002.12326v2 )

ライセンス: Link先を確認
Ioana Bica, James Jordon, Mihaela van der Schaar(参考訳) 観察データから離散的介入の効果を推定する問題に多くの注意が払われているが、服用パラメータに関連する治療などの連続的介入の設定において、比較的少ない作業がなされている。 本稿では,gans(generative adversarial networks)フレームワークの修正により,この問題に取り組む。 我々のモデルであるSCIGANは柔軟であり、いくつかの異なる継続的な介入に対する対実的な結果の同時推定が可能である。 鍵となるアイデアは、大幅に修正されたGANモデルを使用して、反ファクト結果の生成を学習し、次に標準教師付き手法を用いて推論モデルを学ぶために使用し、新しいサンプルに対してこれらの反ファクト結果を予測することである。 継続的介入に移行することでもたらされる課題に対処するために、私たちは差別者のための新しいアーキテクチャを提案します。 さらに、GANフレームワークと階層型識別器の使用を支援する理論的結果を提供する。 実験部では,連続介入設定に使用する半合成データシミュレーションを新たに導入し,既存のベンチマークモデルに対する改善を実証する。

While much attention has been given to the problem of estimating the effect of discrete interventions from observational data, relatively little work has been done in the setting of continuous-valued interventions, such as treatments associated with a dosage parameter. In this paper, we tackle this problem by building on a modification of the generative adversarial networks (GANs) framework. Our model, SCIGAN, is flexible and capable of simultaneously estimating counterfactual outcomes for several different continuous interventions. The key idea is to use a significantly modified GAN model to learn to generate counterfactual outcomes, which can then be used to learn an inference model, using standard supervised methods, capable of estimating these counterfactuals for a new sample. To address the challenges presented by shifting to continuous interventions, we propose a novel architecture for our discriminator - we build a hierarchical discriminator that leverages the structure of the continuous intervention setting. Moreover, we provide theoretical results to support our use of the GAN framework and of the hierarchical discriminator. In the experiments section, we introduce a new semi-synthetic data simulation for use in the continuous intervention setting and demonstrate improvements over the existing benchmark models.
翻訳日:2022-12-28 07:47:21 公開日:2020-11-22
# 神経nlpの解釈における因果的調停分析 : 性バイアスの場合

Causal Mediation Analysis for Interpreting Neural NLP: The Case of Gender Bias ( http://arxiv.org/abs/2004.12265v2 )

ライセンス: Link先を確認
Jesse Vig, Sebastian Gehrmann, Yonatan Belinkov, Sharon Qian, Daniel Nevo, Simas Sakenis, Jason Huang, Yaron Singer, Stuart Shieber(参考訳) 自然言語処理におけるニューラルモデル解釈の一般的な手法は、その構造と振舞いの両方を調べるが、両方ではない。 因果媒介分析理論を基礎として,モデルのどの部分がその行動に因果的に関係しているかを解釈する手法を提案する。 これにより、入力から出力へ情報を流れるメカニズムを、仲介者として知られる様々なモデルコンポーネントを通して分析することができる。 本手法は,事前学習されたトランスフォーマー言語モデルにおけるジェンダーバイアスの分析に応用する。 本研究では、モデルが性バイアスに敏感であることを評価するために、3つのデータセットにまたがる性バイアスを媒介する役割について検討する。 私たちの調停分析は ジェンダーバイアスの影響が (i)ばらばらで、ネットワークのごく一部に集中している。 二 異なる構成要素により増幅又は抑制された相乗効果 (iii)入力から直接流れ、媒介者を通して間接的に流れる効果に分解可能である。

Common methods for interpreting neural models in natural language processing typically examine either their structure or their behavior, but not both. We propose a methodology grounded in the theory of causal mediation analysis for interpreting which parts of a model are causally implicated in its behavior. It enables us to analyze the mechanisms by which information flows from input to output through various model components, known as mediators. We apply this methodology to analyze gender bias in pre-trained Transformer language models. We study the role of individual neurons and attention heads in mediating gender bias across three datasets designed to gauge a model's sensitivity to gender bias. Our mediation analysis reveals that gender bias effects are (i) sparse, concentrated in a small part of the network; (ii) synergistic, amplified or repressed by different components; and (iii) decomposable into effects flowing directly from the input and indirectly through the mediators.
翻訳日:2022-12-09 13:28:13 公開日:2020-11-22
# ヒストグラム重み付けによる機械学習の分類能力の拡張

Extending machine learning classification capabilities with histogram reweighting ( http://arxiv.org/abs/2004.14341v3 )

ライセンス: Link先を確認
Dimitrios Bachtis, Gert Aarts, Biagio Lucini(参考訳) 本稿では,モンテカルロヒストグラム再重み付けを用いて機械学習手法の予測を外挿する手法を提案する。 本手法では,畳み込みニューラルネットワークの出力を統計的システムの観測可能として扱い,パラメータ空間における連続範囲の補間を可能にする。 2次元イジングモデルにおける位相遷移を用いた提案手法について述べる。 ニューラルネットワークの出力を順序パラメータとして解釈することにより、システム内の既知の可観測物との接続を調査し、そのスケーリング挙動を調べる。 臨界指数と臨界温度の正確な推定値を得るニューラルネットワークから導出される量に基づいて有限サイズスケーリング解析を行う。 本手法は, 順序パラメータを含まない物理システムにおける機械学習による精度測定の精度向上と, パラメータ空間の領域での直接サンプリングが不可能な精度向上を実現する。

We propose the use of Monte Carlo histogram reweighting to extrapolate predictions of machine learning methods. In our approach, we treat the output from a convolutional neural network as an observable in a statistical system, enabling its extrapolation over continuous ranges in parameter space. We demonstrate our proposal using the phase transition in the two-dimensional Ising model. By interpreting the output of the neural network as an order parameter, we explore connections with known observables in the system and investigate its scaling behaviour. A finite size scaling analysis is conducted based on quantities derived from the neural network that yields accurate estimates for the critical exponents and the critical temperature. The method improves the prospects of acquiring precision measurements from machine learning in physical systems without an order parameter and those where direct sampling in regions of parameter space might not be possible.
翻訳日:2022-12-08 14:44:57 公開日:2020-11-22
# MOPO:モデルに基づくオフラインポリシー最適化

MOPO: Model-based Offline Policy Optimization ( http://arxiv.org/abs/2005.13239v6 )

ライセンス: Link先を確認
Tianhe Yu, Garrett Thomas, Lantao Yu, Stefano Ermon, James Zou, Sergey Levine, Chelsea Finn, Tengyu Ma(参考訳) オフライン強化学習(英語版) (rl) は、以前に収集された大量のデータから完全に学習ポリシーの問題を指す。 この問題設定は、コストや危険なアクティブな探索なしに、このようなデータセットを使用してポリシーを取得することを約束する。 しかし、オフラインのトレーニングデータと学習方針が訪れた状態との分散的な変化のため、これも困難である。 最近の大きな進歩にもかかわらず、最も成功した先行手法はモデルフリーであり、データのサポートにポリシーを制約し、目に見えない状態への一般化を妨げている。 本稿では,既存のモデルベースrlアルゴリズムが,モデルフリーのアプローチに比べてオフライン設定ですでに大きな利益を上げていることを最初に観察する。 しかし、オンライン設定用に設計された標準モデルベースのrlメソッドは、オフライン設定の分散シフト問題を避けるための明示的なメカニズムを提供していない。 そこで本研究では,既存のモデルに基づくrl法を,ダイナミクスの不確実性によって人為的にペナルティを課すことで修正する手法を提案する。 理論的には、このアルゴリズムは真のmdpの下でポリシーの戻り値の下限を最大化する。 また、バッチデータのサポートを離れるリスクとゲインの間のトレードオフを特徴付ける。 我々のアルゴリズムであるモデルベースオフラインポリシー最適化(MOPO)は、既存のオフラインRLベンチマークにおいて、標準モデルベースRLアルゴリズムと従来の最先端モデルなしオフラインRLアルゴリズムよりも優れており、異なるタスクのために収集されたデータから一般化する必要のある2つの困難な継続的制御タスクである。 コードはhttps://github.com/tianheyu927/mopoで入手できる。

Offline reinforcement learning (RL) refers to the problem of learning policies entirely from a large batch of previously collected data. This problem setting offers the promise of utilizing such datasets to acquire policies without any costly or dangerous active exploration. However, it is also challenging, due to the distributional shift between the offline training data and those states visited by the learned policy. Despite significant recent progress, the most successful prior methods are model-free and constrain the policy to the support of data, precluding generalization to unseen states. In this paper, we first observe that an existing model-based RL algorithm already produces significant gains in the offline setting compared to model-free approaches. However, standard model-based RL methods, designed for the online setting, do not provide an explicit mechanism to avoid the offline setting's distributional shift issue. Instead, we propose to modify the existing model-based RL methods by applying them with rewards artificially penalized by the uncertainty of the dynamics. We theoretically show that the algorithm maximizes a lower bound of the policy's return under the true MDP. We also characterize the trade-off between the gain and risk of leaving the support of the batch data. Our algorithm, Model-based Offline Policy Optimization (MOPO), outperforms standard model-based RL algorithms and prior state-of-the-art model-free offline RL algorithms on existing offline RL benchmarks and two challenging continuous control tasks that require generalizing from data collected for a different task. The code is available at https://github.com/tianheyu927/mopo.
翻訳日:2022-11-28 07:53:51 公開日:2020-11-22
# 複合回転に基づく補助タスクによるマイズショット学習の改善

Improving Few-Shot Learning using Composite Rotation based Auxiliary Task ( http://arxiv.org/abs/2006.15919v2 )

ライセンス: Link先を確認
Pratik Mazumder, Pravendra Singh and Vinay P. Namboodiri(参考訳) 本稿では,複合回転に基づく補助タスクを用いて,少数ショットの分類性能を向上させる手法を提案する。 少数の分類法は、多数のトレーニングサンプルを持つクラスと少ないトレーニングサンプルを持つクラスでうまく機能するニューラルネットワークを作成することを目的としている。 彼らは、ネットワークが非常に一般的な高度に差別的な特徴を生み出すことを可能にする技術を採用している。 一般的に、ネットワークが生成する機能の品質と汎用性が向上すればするほど、マイナショット学習におけるネットワークのパフォーマンスが向上する。 本手法は,自己監督型補助タスクを用いてネットワークを訓練し,そのような機能を実現することを目的とする。 提案する複合回転型補助タスクは,画像内のパッチの回転(内回転)と画像全体の回転(外回転)という2つのレベルで回転を行い,修正された画像に16の回転クラスのうち1つを割り当てる。 次に,合成回転予測タスクと元の分類タスクを同時に訓練し,数発の分類性能向上に役立つ高品質な汎用特徴をネットワークに学習させる。 提案手法は,複数のベンチマークデータセットにおいて,既存の数ショット学習手法よりも優れた性能を示す。

In this paper, we propose an approach to improve few-shot classification performance using a composite rotation based auxiliary task. Few-shot classification methods aim to produce neural networks that perform well for classes with a large number of training samples and classes with less number of training samples. They employ techniques to enable the network to produce highly discriminative features that are also very generic. Generally, the better the quality and generic-nature of the features produced by the network, the better is the performance of the network on few-shot learning. Our approach aims to train networks to produce such features by using a self-supervised auxiliary task. Our proposed composite rotation based auxiliary task performs rotation at two levels, i.e., rotation of patches inside the image (inner rotation) and rotation of the whole image (outer rotation) and assigns one out of 16 rotation classes to the modified image. We then simultaneously train for the composite rotation prediction task along with the original classification task, which forces the network to learn high-quality generic features that help improve the few-shot classification performance. We experimentally show that our approach performs better than existing few-shot learning methods on multiple benchmark datasets.
翻訳日:2022-11-15 14:49:52 公開日:2020-11-22
# InfoMax-GAN:情報最大化とコントラスト学習による逆画像生成の改善

InfoMax-GAN: Improved Adversarial Image Generation via Information Maximization and Contrastive Learning ( http://arxiv.org/abs/2007.04589v6 )

ライセンス: Link先を確認
Kwot Sin Lee, Ngoc-Trung Tran, Ngai-Man Cheung(参考訳) Generative Adversarial Networks (GANs) は、多くのジェネレーティブモデリングアプリケーションに基本であるが、多くの問題に悩まされている。 本研究では,gansにおける2つの根本的な問題である判別器の破滅的な忘れ方と生成器のモード崩壊を同時に緩和する原則的枠組みを提案する。 比較学習と相互情報最大化アプローチをgansに採用し,改善の源泉を理解するために広範な分析を行う。 提案手法はGANトレーニングを著しく安定化させ,同じトレーニングと評価条件下での5つのデータセット間の画像合成におけるGAN性能を向上する。 特に、最先端のSSGANと比較して、我々のアプローチは顔などの画像領域の性能が劣るものではなく、性能が大幅に向上する。 私たちのアプローチは、実装が簡単で実用的です。それは、1つの補助目的のみを含み、計算コストが低く、ハイパーパラメータチューニングなしで、幅広いトレーニング設定とデータセットで堅牢に実行します。 再現性のために、私たちのコードはMimicryで利用可能です。

While Generative Adversarial Networks (GANs) are fundamental to many generative modelling applications, they suffer from numerous issues. In this work, we propose a principled framework to simultaneously mitigate two fundamental issues in GANs: catastrophic forgetting of the discriminator and mode collapse of the generator. We achieve this by employing for GANs a contrastive learning and mutual information maximization approach, and perform extensive analyses to understand sources of improvements. Our approach significantly stabilizes GAN training and improves GAN performance for image synthesis across five datasets under the same training and evaluation conditions against state-of-the-art works. In particular, compared to the state-of-the-art SSGAN, our approach does not suffer from poorer performance on image domains such as faces, and instead improves performance significantly. Our approach is simple to implement and practical: it involves only one auxiliary objective, has a low computational cost, and performs robustly across a wide range of training settings and datasets without any hyperparameter tuning. For reproducibility, our code is available in Mimicry: https://github.com/kwotsin/mimicry.
翻訳日:2022-11-12 03:03:37 公開日:2020-11-22
# 幾何正規化オートエンコーダを用いた拡張可能・可逆多様体学習

Extendable and invertible manifold learning with geometry regularized autoencoders ( http://arxiv.org/abs/2007.07142v2 )

ライセンス: Link先を確認
Andr\'es F. Duque, Sacha Morin, Guy Wolf, Kevin R. Moon(参考訳) データ探索における基本的な課題は、データの内在的幾何学を捉える単純化された低次元表現を抽出することである。 このタスクに対する一般的なアプローチは、多様体学習にカーネルメソッドを使用する。 しかし、これらの手法は通常、固定入力データの埋め込みしか提供せず、新しいデータポイントに拡張できない。 オートエンコーダも最近、表現学習に人気がある。 しかし、新しいデータと可逆性(すなわち潜在表現から元の特徴を再構築する)の両方に拡張可能な特徴抽出子を自然に計算する一方で、カーネルベースの多様体学習と比較して、グローバルな内在幾何学に従う能力は限られている。 オートエンコーダのボトルネックに幾何正規化項を組み込むことにより,両手法を統合する新しい手法を提案する。 我々の正規化は、最近提案されたPHATE可視化法から拡散ポテンシャル距離に基づいており、学習された潜在表現は、多様体学習アルゴリズムと同様、本質的なデータ幾何に従うことを奨励する一方で、新しいデータへの忠実な拡張と、潜在座標から元の特徴空間におけるデータの再構成を可能にする。 我々は,本手法を,主要なカーネル手法とオートエンコーダモデルと比較し,本質的な構造保存,サンプル拡張,再構成の利点の質的かつ定量的な証拠を提供する。 本手法はビッグデータアプリケーションに容易に実装できるが,他の手法は限定的である。

A fundamental task in data exploration is to extract simplified low dimensional representations that capture intrinsic geometry in data, especially for faithfully visualizing data in two or three dimensions. Common approaches to this task use kernel methods for manifold learning. However, these methods typically only provide an embedding of fixed input data and cannot extend to new data points. Autoencoders have also recently become popular for representation learning. But while they naturally compute feature extractors that are both extendable to new data and invertible (i.e., reconstructing original features from latent representation), they have limited capabilities to follow global intrinsic geometry compared to kernel-based manifold learning. We present a new method for integrating both approaches by incorporating a geometric regularization term in the bottleneck of the autoencoder. Our regularization, based on the diffusion potential distances from the recently-proposed PHATE visualization method, encourages the learned latent representation to follow intrinsic data geometry, similar to manifold learning algorithms, while still enabling faithful extension to new data and reconstruction of data in the original feature space from latent coordinates. We compare our approach with leading kernel methods and autoencoder models for manifold learning to provide qualitative and quantitative evidence of our advantages in preserving intrinsic structure, out of sample extension, and reconstruction. Our method is easily implemented for big-data applications, whereas other methods are limited in this regard.
翻訳日:2022-11-10 13:48:28 公開日:2020-11-22
# 長期視覚認識のためのバランス付きメタソフトマックス

Balanced Meta-Softmax for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2007.10740v3 )

ライセンス: Link先を確認
Jiawei Ren, Cunjun Yu, Shunan Sheng, Xiao Ma, Haiyu Zhao, Shuai Yi, Hongsheng Li(参考訳) 深い分類器は視覚認識で大きな成功を収めた。 しかし、実世界のデータは自然に長い距離を置き、トレーニングとテストディストリビューションのミスマッチにつながる。 本稿では,ほとんどの分類タスクで用いられているソフトマックス関数が,長い尾の配置の下で偏りのある勾配推定を与えることを示す。 本稿では,Softmax のエレガントな非バイアス拡張である Balanced Softmax を提案する。 理論的には、多重クラスソフトマックス回帰に対する一般化を導出し、損失が境界を最小化することを示す。 さらに,Ba balanced Meta-Softmaxを導入し,相補的なMeta Smplerを用いて最適なクラスサンプル率を推定し,長期学習を改善する。 実験では,Quaird Meta-Softmaxが視覚認識とインスタンスセグメンテーションの両タスクにおいて,最先端の長期分類ソリューションより優れていることを示した。

Deep classifiers have achieved great success in visual recognition. However, real-world data is long-tailed by nature, leading to the mismatch between training and testing distributions. In this paper, we show that the Softmax function, though used in most classification tasks, gives a biased gradient estimation under the long-tailed setup. This paper presents Balanced Softmax, an elegant unbiased extension of Softmax, to accommodate the label distribution shift between training and testing. Theoretically, we derive the generalization bound for multiclass Softmax regression and show our loss minimizes the bound. In addition, we introduce Balanced Meta-Softmax, applying a complementary Meta Sampler to estimate the optimal class sample rate and further improve long-tailed learning. In our experiments, we demonstrate that Balanced Meta-Softmax outperforms state-of-the-art long-tailed classification solutions on both visual recognition and instance segmentation tasks.
翻訳日:2022-11-08 03:53:38 公開日:2020-11-22
# 副次的事象抽出のための深層学習アプローチと臨床テキストからの食事補助の表示

Deep Learning Approaches for Extracting Adverse Events and Indications of Dietary Supplements from Clinical Text ( http://arxiv.org/abs/2009.07780v2 )

ライセンス: Link先を確認
Yadan Fan, Sicheng Zhou, Yifan Li, Rui Zhang(参考訳) 本研究の目的は、深層学習モデルを用いて、臨床テキストにおける食事サプリメント(DS)の使用に関する安全性シグナルを抽出できることを実証することである。 この研究で2つの課題が実行された。 名前付きエンティティ認識 (ner) タスクでは, bi-lstm-crf (bidirectional long-term-term-memory conditional random fields) と bert (bidirectional encoder representations from transformers) モデルを訓練し,crfモデルと比較した。 関係抽出(re)タスクでは、注意に基づくbi-lstmとcnn(convolutional neural network)を含む2つのディープラーニングモデルとランダムフォレストモデルをトレーニングし、dsと事象の関係を正(すなわち、適応)、負(すなわち、悪事象)、関連しない3つのクラスに分類した。 NER と RE は,DS の有害事象や徴候の発見に 88 DS に言及した臨床記録にさらに適用され,DS の知識ベースと比較された。 NERタスクでは、深層学習モデルはCRFよりも優れたパフォーマンスを達成し、F1スコアは0.860を超えた。 注意に基づくbi-lstmモデルは,関係抽出タスクにおいて,f1得点0.893。 ディープラーニングモデルによって生成されたDSイベントペアとDSとイベントの知識ベースを比較すると、既知のペアと未知のペアの両方が見つかった。 深層学習モデルは臨床ノートにおける有害事象の検出とdsの適応が可能であり、ds使用の安全性をモニターする大きな可能性を秘めている。

The objective of our work is to demonstrate the feasibility of utilizing deep learning models to extract safety signals related to the use of dietary supplements (DS) in clinical text. Two tasks were performed in this study. For the named entity recognition (NER) task, Bi-LSTM-CRF (Bidirectional Long-Short-Term-Memory Conditional Random Fields) and BERT (Bidirectional Encoder Representations from Transformers) models were trained and compared with CRF model as a baseline to recognize the named entities of DS and Events from clinical notes. In the relation extraction (RE) task, two deep learning models, including attention-based Bi-LSTM and CNN (Convolutional Neural Network), and a random forest model were trained to extract the relations between DS and Events, which were categorized into three classes: positive (i.e., indication), negative (i.e., adverse events), and not related. The best performed NER and RE models were further applied on clinical notes mentioning 88 DS for discovering DS adverse events and indications, which were compared with a DS knowledge base. For the NER task, deep learning models achieved a better performance than CRF, with F1 scores above 0.860. The attention-based Bi-LSTM model performed the best in the relation extraction task, with the F1 score of 0.893. When comparing DS event pairs generated by the deep learning models with the knowledge base for DS and Event, we found both known and unknown pairs. Deep learning models can detect adverse events and indication of DS in clinical notes, which hold great potential for monitoring the safety of DS use.
翻訳日:2022-10-18 00:30:04 公開日:2020-11-22
# スケーラブルな自己教師付きグラフ表現学習のためのサブグラフコントラスト

Sub-graph Contrast for Scalable Self-Supervised Graph Representation Learning ( http://arxiv.org/abs/2009.10273v3 )

ライセンス: Link先を確認
Yizhu Jiao, Yun Xiong, Jiawei Zhang, Yao Zhang, Tianqi Zhang, Yangyong Zhu(参考訳) 近年,グラフ表現学習が注目されている。 既存のグラフニューラルネットワークは、計算量やメモリコストが限られているため、完全なグラフデータで供給される。 したがって、大規模なグラフデータにリッチな情報をキャプチャすることは、依然として大きな課題です。 さらに,これらの手法は主に教師あり学習に重点を置いており,実世界では入手が難しいノードラベル情報に強く依存している。 教師なしのネットワーク埋め込みアプローチでは、ノード近接度を過大評価し、学習された表現は下流のアプリケーションタスクで直接使用できない。 近年、自己指導型学習は、前述の問題に対処するための潜在的な解決策を提供する。 しかし、既存の自己監督型ワークは完全なグラフデータでも動作し、相互情報に基づく損失項を定義する際に、グローバルまたは非常に局所的な(1ホップ近傍)グラフ構造に適合するようにバイアスを受ける。 本稿では,中央ノードとそのサンプルサブグラフ間の強い相関を利用して,部分グラフコントラストを用いた新しい自己教師付き表現学習法,すなわち \textsc{subg-con} を提案する。 入力グラフデータを完全に学習する代わりに、新しいデータ拡張戦略を用いて、オリジナルのグラフからサンプリングされたグラフに基づいて定義された対照的な損失によってノード表現を学習する。 既存のグラフ表現学習アプローチと比較すると、 \textsc{Subg-Con} は、より弱い監視要件、モデル学習のスケーラビリティ、並列化において、顕著なパフォーマンス上の優位性を持っている。 従来のグラフ表現学習と最先端のグラフ表現学習の両アプローチを、異なる領域の複数の実世界の大規模ベンチマークデータセットで比較し、我々の作業の有効性と効率性を検証する。

Graph representation learning has attracted lots of attention recently. Existing graph neural networks fed with the complete graph data are not scalable due to limited computation and memory costs. Thus, it remains a great challenge to capture rich information in large-scale graph data. Besides, these methods mainly focus on supervised learning and highly depend on node label information, which is expensive to obtain in the real world. As to unsupervised network embedding approaches, they overemphasize node proximity instead, whose learned representations can hardly be used in downstream application tasks directly. In recent years, emerging self-supervised learning provides a potential solution to address the aforementioned problems. However, existing self-supervised works also operate on the complete graph data and are biased to fit either global or very local (1-hop neighborhood) graph structures in defining the mutual information based loss terms. In this paper, a novel self-supervised representation learning method via Subgraph Contrast, namely \textsc{Subg-Con}, is proposed by utilizing the strong correlation between central nodes and their sampled subgraphs to capture regional structure information. Instead of learning on the complete input graph data, with a novel data augmentation strategy, \textsc{Subg-Con} learns node representations through a contrastive loss defined based on subgraphs sampled from the original graph instead. Compared with existing graph representation learning approaches, \textsc{Subg-Con} has prominent performance advantages in weaker supervision requirements, model learning scalability, and parallelization. Extensive experiments verify both the effectiveness and the efficiency of our work compared with both classic and state-of-the-art graph representation learning approaches on multiple real-world large-scale benchmark datasets from different domains.
翻訳日:2022-10-15 21:40:46 公開日:2020-11-22
# Unscented Kalman Filter を用いた深部畳み込みニューラルネットワークを用いた解剖学的Cine Long-axis MRI 画像からの完全自動左房分割

Fully Automated Left Atrium Segmentation from Anatomical Cine Long-axis MRI Sequences using Deep Convolutional Neural Network with Unscented Kalman Filter ( http://arxiv.org/abs/2009.13627v2 )

ライセンス: Link先を確認
Xiaoran Zhang and Michelle Noga and David Glynn Martin and Kumaradevan Punithakumar(参考訳) 本研究は, 深部畳み込みニューラルネットワークとベイズフィルタを用いて, 日常的な血管長軸磁気共鳴画像列から左房セグメンテーションを完全自動化する手法を提案する。 提案手法は,3種類の長軸配列と3種類の畳み込みニューラルネットワークモデルを自動的に検出する分類ネットワークと,左心房を規定する無感覚カルマンフィルタリング(UKF)から構成される。 提案手法では,すべての長軸シーケンスタイプを訓練し,予測する代わりに,まず画像シーケンスタイプを2,3,4チャンバービューとして識別し,その特定のシーケンスタイプに対して訓練されたニューラルネットワークに基づいて予測を行う。 データセットは振り返りに取得され、地上真理マニュアルのセグメンテーションは専門家の放射線技師によって提供された。 ニューラルネットに基づく分類とセグメンテーションに加えて、別のニューラルネットがトレーニングされ、UKFを用いたさらなる処理のために画像シーケンスの選択に使用される。 時間変化角周波数の循環力学モデルがUKFで導入され、画像スキャン時の心臓運動の変動を特徴付ける。 提案手法は,20,40,60,80の患者から取得した画像を用いて,異なる量のトレーニングデータを別々に訓練し,評価した。 新たに20人の患者から取得した各チャンバー群の画像数に等しい1515枚以上の画像から、提案したモデルが、80人の患者のデータセットを用いてトレーニングした場合、それぞれ94.1%、93.7%、90.1%の平均Dice係数値を上回った。

This study proposes a fully automated approach for the left atrial segmentation from routine cine long-axis cardiac magnetic resonance image sequences using deep convolutional neural networks and Bayesian filtering. The proposed approach consists of a classification network that automatically detects the type of long-axis sequence and three different convolutional neural network models followed by unscented Kalman filtering (UKF) that delineates the left atrium. Instead of training and predicting all long-axis sequence types together, the proposed approach first identifies the image sequence type as to 2, 3 and 4 chamber views, and then performs prediction based on neural nets trained for that particular sequence type. The datasets were acquired retrospectively and ground truth manual segmentation was provided by an expert radiologist. In addition to neural net based classification and segmentation, another neural net is trained and utilized to select image sequences for further processing using UKF to impose temporal consistency over cardiac cycle. A cyclic dynamic model with time-varying angular frequency is introduced in UKF to characterize the variations in cardiac motion during image scanning. The proposed approach was trained and evaluated separately with varying amount of training data with images acquired from 20, 40, 60 and 80 patients. Evaluations over 1515 images with equal number of images from each chamber group acquired from an additional 20 patients demonstrated that the proposed model outperformed state-of-the-art and yielded a mean Dice coefficient value of 94.1%, 93.7% and 90.1% for 2, 3 and 4-chamber sequences, respectively, when trained with datasets from 80 patients.
翻訳日:2022-10-13 22:35:14 公開日:2020-11-22
# 2つのリンクの物語:テキスト-SQL構文解析のためのスキーマリンクと構造リンクの動的ゲーティング

A Tale of Two Linkings: Dynamically Gating between Schema Linking and Structural Linking for Text-to-SQL Parsing ( http://arxiv.org/abs/2009.14809v2 )

ライセンス: Link先を確認
Sanxing Chen, Aidan San, Xiaodong Liu, Yangfeng Ji(参考訳) Text-to-SQLセマンティックパーシングでは、生成されたSQLクエリの正しいエンティティ(テーブルと列)を選択することは極めて重要で難しい。 この課題に対処するために、明示的なNLの言及をデータベースにリンクするスキーマリンクと、出力SQLのエンティティとデータベーススキーマの構造的関係をリンクする構造リンクという2つのリンクプロセスを定式化します。 直感的には,これら2つのリンクプロセスの有効性は生成するエンティティによって変化するため,ゲーティング機構を用いて,それらを動的に選択する手法を提案する。 提案手法を2つのグラフニューラルネットワークに基づくセマンティックパーサとBERT表現と統合することにより,課題となるスパイダーデータセットのパース精度が大幅に向上したことを示す。 解析の結果,提案手法は複雑なSQLクエリを生成する際にモデル出力の構造を向上し,より説明可能な予測を提供する。

In Text-to-SQL semantic parsing, selecting the correct entities (tables and columns) for the generated SQL query is both crucial and challenging; the parser is required to connect the natural language (NL) question and the SQL query to the structured knowledge in the database. We formulate two linking processes to address this challenge: schema linking which links explicit NL mentions to the database and structural linking which links the entities in the output SQL with their structural relationships in the database schema. Intuitively, the effectiveness of these two linking processes changes based on the entity being generated, thus we propose to dynamically choose between them using a gating mechanism. Integrating the proposed method with two graph neural network-based semantic parsers together with BERT representations demonstrates substantial gains in parsing accuracy on the challenging Spider dataset. Analyses show that our proposed method helps to enhance the structure of the model output when generating complicated SQL queries and offers more explainable predictions.
翻訳日:2022-10-12 23:37:17 公開日:2020-11-22
# コミュニケーション学習による人的データのない新しいグリフの生成

Generating Novel Glyph without Human Data by Learning to Communicate ( http://arxiv.org/abs/2010.04402v2 )

ライセンス: Link先を確認
Seung-won Park(参考訳) 本稿では,トレーニングデータなしで新しいグリフを生成するシステムであるneural glyphを提案する。 生成器と分類器は、視覚的シンボルを媒介として通信するように訓練され、生成器は固有のシンボルのセットを作成するように強制される。 提案手法は人造グリフに類似したグリフであり,既存のグリフの視覚的外観は書面によるコミュニケーションの制約に起因していると考えられる。 このフレームワークを実現する重要なトリックが説明され、コードが利用可能になる。

In this paper, we present Neural Glyph, a system that generates novel glyph without any training data. The generator and the classifier are trained to communicate via visual symbols as a medium, which enforces the generator to come up with a set of distinctive symbols. Our method results in glyphs that resemble the human-made glyphs, which may imply that the visual appearances of existing glyphs can be attributed to constraints of communication via writing. Important tricks that enable this framework are described and the code is made available.
翻訳日:2022-10-09 04:30:04 公開日:2020-11-22
# 対向ロバスト性のための留意力とデータ駆動決定力について

On the Power of Abstention and Data-Driven Decision Making for Adversarial Robustness ( http://arxiv.org/abs/2010.06154v2 )

ライセンス: Link先を確認
Maria-Florina Balcan and Avrim Blum and Dravyansh Sharma and Hongyang Zhang(参考訳) 我々は、敵が任意の量ではなく制限された方向にデータポイントを摂動できる特徴空間攻撃を正式に定義する。 攻撃を小さなランダムな部分空間に制限することにより、小さな入力運動を大きな特徴運動にマッピングする非Lipschitzネットワークに対してクリーンな抽象化を提供する。 この設定ではできないものよりも、断定能力を持つ分類器の方が確実に強力であることを示す。 具体的には、自然データがどんなにうまく処理されていようとも、許容できない分類器はそのような敵に倒される。 しかし, クラスが特徴空間において合理的に分離され, 特徴空間の次元が高い場合に, 性能が良好であるパラメータ化アルゴリズムを提案する。 さらに,データ駆動法を用いてアルゴリズムパラメータの設定を行い,強い理論的保証を伴い精度と回避トレードオフを最適化する。 本理論は, コントラスト学習の手法に直接的な応用を行い, 教師付きと自己教師付きの両方の設定において, ごく少量の回避で高い頑健な精度を得るためのアルゴリズムの能力を実証した。 この結果から, 対向防御条件下での引き起こされたトレードオフに対する最初の証明可能な最適化が得られた。

We formally define a feature-space attack where the adversary can perturb datapoints by arbitrary amounts but in restricted directions. By restricting the attack to a small random subspace, our model provides a clean abstraction for non-Lipschitz networks which map small input movements to large feature movements. We prove that classifiers with the ability to abstain are provably more powerful than those that cannot in this setting. Specifically, we show that no matter how well-behaved the natural data is, any classifier that cannot abstain will be defeated by such an adversary. However, by allowing abstention, we give a parameterized algorithm with provably good performance against such an adversary when classes are reasonably well-separated in feature space and the dimension of the feature space is high. We further use a data-driven method to set our algorithm parameters to optimize over the accuracy vs. abstention trade-off with strong theoretical guarantees. Our theory has direct applications to the technique of contrastive learning, where we empirically demonstrate the ability of our algorithms to obtain high robust accuracy with only small amounts of abstention in both supervised and self-supervised settings. Our results provide a first formal abstention-based gap, and a first provable optimization for the induced trade-off in an adversarial defense setting.
翻訳日:2022-10-07 23:10:45 公開日:2020-11-22
# morshed: 行動意思決定者を相互依存システムへのより良いセキュリティ投資へと導く

Morshed: Guiding Behavioral Decision-Makers towards Better Security Investment in Interdependent Systems ( http://arxiv.org/abs/2011.06933v2 )

ライセンス: Link先を確認
Mustafa Abdallah, Daniel Woods, Parinaz Naghizadeh, Issa Khalil, Timothy Cason, Shreyas Sundaram, Saurabh Bagchi(参考訳) 相互依存型システムにおける人的意思決定の行動バイアスをモデル化し,そのような行動バイアスが,非行動的(合理的)意思決定と比較して資源配分の最適なパターンにつながることを示す。 本研究は,145人の被験者を対象に,このような行動バイアスモデルが存在することの実証的証拠を提供する。 次に,複数ラウンドで意思決定を行うための3つの学習手法を提案する。 我々は,複数の相互依存型実世界システムを通じて意思決定モデルの利点を説明し,防御者が行動的である場合と比較して利得のレベルを定量化する。 また,異なる攻撃モデルに対する学習手法の利点を示す。 システムパラメータの違いが,行動意思決定によるセキュリティ結果の最適化度に及ぼす影響を明らかにする。

We model the behavioral biases of human decision-making in securing interdependent systems and show that such behavioral decision-making leads to a suboptimal pattern of resource allocation compared to non-behavioral (rational) decision-making. We provide empirical evidence for the existence of such behavioral bias model through a controlled subject study with 145 participants. We then propose three learning techniques for enhancing decision-making in multi-round setups. We illustrate the benefits of our decision-making model through multiple interdependent real-world systems and quantify the level of gain compared to the case in which the defenders are behavioral. We also show the benefit of our learning techniques against different attack models. We identify the effects of different system parameters on the degree of suboptimality of security outcomes due to behavioral decision-making.
翻訳日:2022-09-26 07:45:12 公開日:2020-11-22
# オンラインコンテンツにおけるプロパガンダ分類のためのクロスドメイン学習

Cross-Domain Learning for Classifying Propaganda in Online Contents ( http://arxiv.org/abs/2011.06844v2 )

ライセンス: Link先を確認
Liqiang Wang, Xiaoyu Shen, Gerard de Melo, Gerhard Weikum(参考訳) ニュースやソーシャルメディアでは、操作性偏光コンテンツの増加に伴い、このようなプロパガンダの検出がコンテンツ分析の新しい課題として注目されている。 以前の作業は、同じドメインからのトレーニングデータによる教師付き学習に重点を置いてきた。 しかし、プロパガンダは微妙で進化し続けるため、手動による識別と適切なラベル付けが要求される。 その結果、トレーニングデータは大きなボトルネックになります。 本稿では,このボトルネックに対処し,ニュースやつぶやきのラベル付き文書や文をベースとしたクロスドメイン学習の手法を提案する。 我々はクロスドメイン学習を用いて,情報的特徴を考案し,プロパガンダラベリングのための各種分類器を構築する。 提案手法の有効性を実証し,トランスファーステップのソースとターゲットの様々な構成における困難と限界を明らかにする。 さらに,様々な特徴の影響を解析し,プロパガンダの有意な指標を特徴付ける。

As news and social media exhibit an increasing amount of manipulative polarized content, detecting such propaganda has received attention as a new task for content analysis. Prior work has focused on supervised learning with training data from the same domain. However, as propaganda can be subtle and keeps evolving, manual identification and proper labeling are very demanding. As a consequence, training data is a major bottleneck. In this paper, we tackle this bottleneck and present an approach to leverage cross-domain learning, based on labeled documents and sentences from news and tweets, as well as political speeches with a clear difference in their degrees of being propagandistic. We devise informative features and build various classifiers for propaganda labeling, using cross-domain learning. Our experiments demonstrate the usefulness of this approach, and identify difficulties and limitations in various configurations of sources and targets for the transfer step. We further analyze the influence of various features, and characterize salient indicators of propaganda.
翻訳日:2022-09-26 00:02:42 公開日:2020-11-22
# 医用画像セグメンテーションにおける高レベル事前損失関数の検討

High-level Prior-based Loss Functions for Medical Image Segmentation: A Survey ( http://arxiv.org/abs/2011.08018v2 )

ライセンス: Link先を確認
Rosana El Jurdi, Caroline Petitjean, Paul Honeine, Veronika Cheplygina, Fahed Abdallah(参考訳) 現在、深層畳み込みニューラルネットワーク(cnns)は、様々な画像モードやタスクにわたって、教師付き医用画像セグメンテーションにおける技術性能の状態を実証している。 初期の成功にもかかわらず、セグメンテーションネットワークは依然として解剖学的に異常なセグメンテーションを生成し、オブジェクト境界付近に穴や不正確さがある。 この効果を緩和するために、最近の研究は、解剖学的に妥当なセグメンテーションを強制するために空間情報や事前知識を取り入れることに焦点を当てている。 画像セグメンテーションにおける事前知識の統合が、古典的な最適化アプローチにおける新しいトピックではない場合、このトピックに関する文献が示すように、CNNベースの画像セグメンテーションの傾向が増している。 本調査では,損失関数のレベルに埋め込まれたハイレベル事前に焦点をあてる。 対象の形状,大きさ,トポロジ,地域間制約など,前者の性質に応じて項目を分類する。 我々は、現在のアプローチの強みと限界を強調し、事前の損失の設計と統合に関する課題と最適化戦略について議論し、今後の研究方向性を導き出す。

Today, deep convolutional neural networks (CNNs) have demonstrated state of the art performance for supervised medical image segmentation, across various imaging modalities and tasks. Despite early success, segmentation networks may still generate anatomically aberrant segmentations, with holes or inaccuracies near the object boundaries. To mitigate this effect, recent research works have focused on incorporating spatial information or prior knowledge to enforce anatomically plausible segmentation. If the integration of prior knowledge in image segmentation is not a new topic in classical optimization approaches, it is today an increasing trend in CNN based image segmentation, as shown by the growing literature on the topic. In this survey, we focus on high level prior, embedded at the loss function level. We categorize the articles according to the nature of the prior: the object shape, size, topology, and the inter-regions constraints. We highlight strengths and limitations of current approaches, discuss the challenge related to the design and the integration of prior-based losses, and the optimization strategies, and draw future research directions.
翻訳日:2022-09-24 23:49:58 公開日:2020-11-22
# 説得的対話理解:ベースラインと否定的結果

Persuasive Dialogue Understanding: the Baselines and Negative Results ( http://arxiv.org/abs/2011.09954v2 )

ライセンス: Link先を確認
Hui Chen, Deepanway Ghosal, Navonil Majumder, Amir Hussain, Soujanya Poria(参考訳) 説得は、説得者の戦略を含む一連の説得的なメッセージを通じて人の意見と行動を形成することを目的としている。 説得的対話システムへの応用の可能性から,近年,説得的戦略認識の課題が注目されている。 対話システムにおけるユーザ意図認識の従来の手法では、会話履歴における文脈をモデル化するためにrecurrent neural network(rnn)やconvolutional neural network(cnn)を採用している。 本稿では,コンディショナルランダムフィールド(CRF)と組み合わされたトランスフォーマーベースのアプローチの限界を,説得的戦略認識の課題として示す。 このモデルでは,話者間および話者内コンテキスト意味的特徴とラベル依存性を活用して認識を改善する。 広範囲なハイパーパラメータの最適化にもかかわらず、このアーキテクチャはベースラインメソッドを上回ってはいない。 2つの否定的な結果が得られます。 第一に、CRFは説得力のあるラベル依存をキャプチャできない。例えば、説得力のある対話における戦略は、名前付きエンティティ認識(NER)やPOS(Part-of-speech)タグ付けのような厳密な文法や規則に従わないからである。 第2に、スクラッチから訓練されたトランスコーダは、長期短期記憶(lstm)よりも説得対話においてシーケンシャル情報をキャプチャする能力が低い。 これをバニラトランスエンコーダがシーケンス要素の相対的な位置情報を効率的に考慮しない理由としている。

Persuasion aims at forming one's opinion and action via a series of persuasive messages containing persuader's strategies. Due to its potential application in persuasive dialogue systems, the task of persuasive strategy recognition has gained much attention lately. Previous methods on user intent recognition in dialogue systems adopt recurrent neural network (RNN) or convolutional neural network (CNN) to model context in conversational history, neglecting the tactic history and intra-speaker relation. In this paper, we demonstrate the limitations of a Transformer-based approach coupled with Conditional Random Field (CRF) for the task of persuasive strategy recognition. In this model, we leverage inter- and intra-speaker contextual semantic features, as well as label dependencies to improve the recognition. Despite extensive hyper-parameter optimizations, this architecture fails to outperform the baseline methods. We observe two negative results. Firstly, CRF cannot capture persuasive label dependencies, possibly as strategies in persuasive dialogues do not follow any strict grammar or rules as the cases in Named Entity Recognition (NER) or part-of-speech (POS) tagging. Secondly, the Transformer encoder trained from scratch is less capable of capturing sequential information in persuasive dialogues than Long Short-Term Memory (LSTM). We attribute this to the reason that the vanilla Transformer encoder does not efficiently consider relative position information of sequence elements.
翻訳日:2022-09-23 20:25:30 公開日:2020-11-22
# 3Dボックスプリミティブを用いたマルチプレーンプログラム誘導

Multi-Plane Program Induction with 3D Box Priors ( http://arxiv.org/abs/2011.10007v2 )

ライセンス: Link先を確認
Yikai Li, Jiayuan Mao, Xiuming Zhang, William T. Freeman, Joshua B. Tenenbaum, Noah Snavely, Jiajun Wu(参考訳) 画像の理解と編集には2つの重要な側面がある: 正規表現のモデリング、2次元平面におけるプログラムのようなテクスチャやパターン、シーンにおけるこれらの平面の3dポーズ。 画像が1つの可視2次元平面を含むと仮定した画像に基づくプログラム合成の以前の作業とは異なり、複数の2次元平面、平面の位置と向き、およびカメラパラメータの繰り返し構造を同時にモデル化するプログラムのようなシーン表現を1つの画像から推定するbpi(box program induction)を提案する。 我々のモデルは、画像が3Dで内側のビューまたは外側のビューをキャプチャする、というボックスを事前に仮定する。 ニューラルネットワークを使って、消失点やワイヤーフレーム線などの視覚的な手がかりを推論し、検索ベースのアルゴリズムをガイドし、画像を説明するプログラムを見つける。 このような全体的で構造化されたシーン表現は、欠落したピクセルの表示、カメラパラメータの変更、画像内容の補間といった3d対応のインタラクティブな画像編集操作を可能にする。

We consider two important aspects in understanding and editing images: modeling regular, program-like texture or patterns in 2D planes, and 3D posing of these planes in the scene. Unlike prior work on image-based program synthesis, which assumes the image contains a single visible 2D plane, we present Box Program Induction (BPI), which infers a program-like scene representation that simultaneously models repeated structure on multiple 2D planes, the 3D position and orientation of the planes, and camera parameters, all from a single image. Our model assumes a box prior, i.e., that the image captures either an inner view or an outer view of a box in 3D. It uses neural networks to infer visual cues such as vanishing points, wireframe lines to guide a search-based algorithm to find the program that best explains the image. Such a holistic, structured scene representation enables 3D-aware interactive image editing operations such as inpainting missing pixels, changing camera parameters, and extrapolate the image contents.
翻訳日:2022-09-23 20:15:31 公開日:2020-11-22
# 機械学習とシミュレーションによる救急部門における患者フローのモデル化

Modeling patient flow in the emergency department using machine learning and simulation ( http://arxiv.org/abs/2012.01192v1 )

ライセンス: Link先を確認
Emad Alenany, Abdessamad Ait El Cadi(参考訳) 近年,機械学習(ML)とシミュレーションの組み合わせが注目されている。 本稿では,緊急部(ED)内の患者フローを改善するため,シミュレーションにおけるMLの新たな適用法を提案する。 実際の ED シミュレーションモデルを用いて,患者を ED から退院させる効果を定量的に評価し,患者が ED から入院するまでの期間 (LOS) と退院までの時間 (DTDT) を推定した。 MLモデルでは,患者年齢,到着日,到着時刻,トリアージレベルを含む6つの特徴のセットを用いてトレーニングを行った。 予測モデルは決定木 (DT) モデルを用い, 履歴データを用いてトレーニングした結果, 75%の精度が得られた。 DTから抽出されたルールのセットはシミュレーションモデル内でコーディングされる。 患者が自由なベッドに入る確率を考慮し、患者はED内の群集を緩和するために、EDから患者ユニットへと引き抜かれる。 使用済みのポリシーと特定のEDリソースを追加することで、それぞれ LOS と DTDT の 9.39% と 8.18% の削減が達成される。

Recently, the combination of machine learning (ML) and simulation is gaining a lot of attention. This paper presents a novel application of ML within the simulation to improve patient flow within an emergency department (ED). An ML model used within a real ED simulation model to quantify the effect of detouring a patient out of the ED on the length of stay (LOS) and door-to-doctor time (DTDT) as a response to the prediction of patient admission to the hospital from the ED. The ML model trained using a set of six features including the patient age, arrival day, arrival hour of the day, and the triage level. The prediction model used a decision tree (DT) model, which is trained using historical data achieves a 75% accuracy. The set of rules extracted from the DT are coded within the simulation model. Given a certain probability of free inpatient beds, the predicted admitted patient is then pulled out from the ED to inpatient units to alleviate the crowding within the ED. The used policy combined with adding specific ED resources achieve 9.39% and 8.18% reduction in LOS and DTDT, respectively.
翻訳日:2022-09-22 12:27:12 公開日:2020-11-22
# マルチアームバンディットアルゴリズムの計算広告への応用

Applying Multi-armed Bandit Algorithms to Computational Advertising ( http://arxiv.org/abs/2011.10919v1 )

ライセンス: Link先を確認
Kazem Jahanbakhsh(参考訳) 過去20年にわたり、計算広告の分野で幅広い産業研究が行われてきた。 本稿では,webユーザに対して最も高いコンバージョン率で最適な広告/オファーを識別・表示するための,各種オンライン学習アルゴリズムの性能について検討する。 我々は、機械学習の古典的なパラダイムであるマルチアームバンディット問題として、広告選択問題を定式化する。 我々は、機械学習、データマイニング、確率、統計を応用して、アドテック分野のビッグデータを分析し、効率的な広告選択戦略を考案してきた。 本稿は、2011年から2015年までの計算広告分野における我々の発見について紹介する。

Over the last two decades, we have seen extensive industrial research in the area of computational advertising. In this paper, our goal is to study the performance of various online learning algorithms to identify and display the best ads/offers with the highest conversion rates to web users. We formulate our ad-selection problem as a Multi-Armed Bandit problem which is a classical paradigm in Machine Learning. We have been applying machine learning, data mining, probability, and statistics to analyze big data in the ad-tech space and devise efficient ad selection strategies. This article highlights some of our findings in the area of computational advertising from 2011 to 2015.
翻訳日:2022-09-22 12:26:36 公開日:2020-11-22
# 乳癌予測のためのデータマイニング技術

Data Mining Techniques in Predicting Breast Cancer ( http://arxiv.org/abs/2011.11088v1 )

ライセンス: Link先を確認
Hamza Saad and Nagendra Nagarur(参考訳) 背景と目的:全がんの23%を占める乳癌は、認識と治療が不十分なため、発展途上国のコミュニティを脅かしている。 早期診断は疾患の治療に大いに役立ちます。 本研究は, 乳癌に対する予測プロセスの改善と主な原因の抽出を目的としたものである。 材料と方法: この疾患に感染した臨床段階において,130人の女性の8つの属性に基づいてデータを収集した。 データマイニングは臨床段階に基づいて病気を予測するために6つのアルゴリズムを適用した。 全てのアルゴリズムは精度が高いが、決定木は各リーフノードからルールを構築するために使用される決定木の最も高い精度図を提供する。 重要な変数を抽出し、病気を予測するための最終ルールをサポートするために適用されるランキング変数。 結果: 適用アルゴリズムは,それぞれ異なる精度で高い予測値を得た。 ルール 1, 3, 4, 5 および 9 は、重要なルールとして確認される純粋なサブセットを提供する。 5つの入力変数だけがルールの構築に寄与したが、すべての変数が大きな影響を与えるわけではない。 結論: 腫瘍の大きさは、重要な影響で全ての規則を構築する上で重要な役割を果たす。 遺伝, 乳房側, 更年期状態の変数は解析に重大な影響を与えるが, データ解析の異なる戦略を用いて注目すべき発見を検討することができる。

Background and Objective: Breast cancer, which accounts for 23% of all cancers, is threatening the communities of developing countries because of poor awareness and treatment. Early diagnosis helps a lot in the treatment of the disease. The present study conducted in order to improve the prediction process and extract the main causes impacted the breast cancer. Materials and Methods: Data were collected based on eight attributes for 130 Libyan women in the clinical stages infected with this disease. Data mining was used by applying six algorithms to predict disease based on clinical stages. All the algorithms gain high accuracy, but the decision tree provides the highest accuracy-diagram of decision tree utilized to build rules from each leafnode. Ranking variables applied to extract significant variables and support final rules to predict disease. Results: All applied algorithms were gained a high prediction with different accuracies. Rules 1, 3, 4, 5 and 9 provided a pure subset to be confirmed as significant rules. Only five input variables contributed to building rules, but not all variables have a significant impact. Conclusion: Tumor size plays a vital role in constructing all rules with a significant impact. Variables of inheritance, breast side and menopausal status have an insignificant impact in analysis, but they may consider remarkable findings using a different strategy of data analysis.
翻訳日:2022-09-22 12:25:46 公開日:2020-11-22
# 2次元および3次元機械学習のための微分計算幾何学

Differentiable Computational Geometry for 2D and 3D machine learning ( http://arxiv.org/abs/2011.11134v1 )

ライセンス: Link先を確認
Yuanxin Zhong(参考訳) 幾何学的プリミティブを持つ機械学習アルゴリズムの成長に伴い、微分可能な幾何学演算子を持つ高効率ライブラリが望まれる。 線形や多角形といった幾何学的プリミティブのための微分可能演算子の実装を積んだ最適化可能な幾何アルゴリズムライブラリ(DGAL)を提案する。 このライブラリは、GPUをサポートするヘッダのみのテンプレートC++ライブラリである。 ライブラリの内部設計を議論し,その性能を他の実装とともにいくつかのタスクで評価する。

With the growth of machine learning algorithms with geometry primitives, a high-efficiency library with differentiable geometric operators are desired. We present an optimized Differentiable Geometry Algorithm Library (DGAL) loaded with implementations of differentiable operators for geometric primitives like lines and polygons. The library is a header-only templated C++ library with GPU support. We discuss the internal design of the library and benchmark its performance on some tasks with other implementations.
翻訳日:2022-09-22 12:25:07 公開日:2020-11-22
# 第3回ArchEdgeワークショップ:効率的なディープニューラルネットワークの設計空間を探る

Third ArchEdge Workshop: Exploring the Design Space of Efficient Deep Neural Networks ( http://arxiv.org/abs/2011.10912v1 )

ライセンス: Link先を確認
Fuxun Yu, Dimitrios Stamoulis, Di Wang, Dimitrios Lymberopoulos, Xiang Chen(参考訳) 本稿では,効率的な深層ニューラルネットワーク(dnn)の設計空間探索に関する現在進行中の研究の概要について述べる。 具体的には,(1)静的アーキテクチャ設計効率と(2)動的モデル実行効率の2つの側面について述べる。 静的アーキテクチャ設計では、既存のエンドツーエンドハードウェアモデリングの前提とは違って、GPUコアレベルでフルスタックプロファイリングを行い、DNN設計の精度とレイテンシのトレードオフを改善する。 DNNチャネルレベルでモデル冗長性に取り組む以前の作業とは異なり、動的モデル実行では、実行時に動的にトラバースされるDNN特徴写像の新たな次元を探索する。 最後に、今後数年で研究が注目されるであろういくつかのオープン質問を取り上げる。

This paper gives an overview of our ongoing work on the design space exploration of efficient deep neural networks (DNNs). Specifically, we cover two aspects: (1) static architecture design efficiency and (2) dynamic model execution efficiency. For static architecture design, different from existing end-to-end hardware modeling assumptions, we conduct full-stack profiling at the GPU core level to identify better accuracy-latency trade-offs for DNN designs. For dynamic model execution, different from prior work that tackles model redundancy at the DNN-channels level, we explore a new dimension of DNN feature map redundancy to be dynamically traversed at runtime. Last, we highlight several open questions that are poised to draw research attention in the next few years.
翻訳日:2022-09-22 12:19:27 公開日:2020-11-22
# 銀行ローン予測のためのスマートコントラクトシステムを用いたディープラーニングモデルの学習のための分散集約機構

A decentralized aggregation mechanism for training deep learning models using smart contract system for bank loan prediction ( http://arxiv.org/abs/2011.10981v1 )

ライセンス: Link先を確認
Pratik Ratadiya, Khushi Asawa, Omkar Nikhal(参考訳) データプライバシと共有は、データモデリングのために複雑なディープラーニングベースのシステムを構築しようとする場合、常に重要な問題である。 データを物理的にマージする必要がなく、複数のノードにまたがるデータから恩恵を受ける分散型アプローチの促進は、活発な研究の領域であった。 本稿では,スマートコントラクトシステムを用いてディープラーニングアーキテクチャをトレーニングする場合に,分散データセットのメリットを享受するソリューションを提案する。 具体的には,ブロックチェーン上でのローカルANNモデルから得られた中間表現を集約する機構を提案する。 ローカルモデルのトレーニングは、それぞれのデータに基づいて行われる。 これらから派生した中間表現は、ホストノード上で組み合わせて訓練することで、より正確なシステムを得るのに役立つ。 連合学習は、主に複数のノードに分散されているサンプルの数と同じデータの特徴を扱うが、ここでは、同じ数のサンプルを扱うが、それらの機能は複数のノードに分散している。 我々は、個人の個人的詳細とその銀行固有の詳細が同じ場所では利用できない銀行ローン予測のタスクについて検討する。 集約機構は,既存の分散データに対して,実際のデータ値の共有や結合を必要とせずにモデルをトレーニングするのに役立つ。 得られたパフォーマンスは個々のノードのそれよりも優れており、集中型データセットのそれと同等であるため、我々のテクニックを他のアーキテクチャやタスクに拡張する上では強力なケースになります。 このソリューションは、垂直分割されたデータでディープラーニングモデルをトレーニングしたい組織に応用されている。

Data privacy and sharing has always been a critical issue when trying to build complex deep learning-based systems to model data. Facilitation of a decentralized approach that could take benefit from data across multiple nodes while not needing to merge their data contents physically has been an area of active research. In this paper, we present a solution to benefit from a distributed data setup in the case of training deep learning architectures by making use of a smart contract system. Specifically, we propose a mechanism that aggregates together the intermediate representations obtained from local ANN models over a blockchain. Training of local models takes place on their respective data. The intermediate representations derived from them, when combined and trained together on the host node, helps to get a more accurate system. While federated learning primarily deals with the same features of data where the number of samples being distributed on multiple nodes, here we are dealing with the same number of samples but with their features being distributed on multiple nodes. We consider the task of bank loan prediction wherein the personal details of an individual and their bank-specific details may not be available at the same place. Our aggregation mechanism helps to train a model on such existing distributed data without having to share and concatenate together the actual data values. The obtained performance, which is better than that of individual nodes, and is at par with that of a centralized data setup makes a strong case for extending our technique across other architectures and tasks. The solution finds its application in organizations that want to train deep learning models on vertically partitioned data.
翻訳日:2022-09-22 12:18:18 公開日:2020-11-22
# オントロジー埋め込みを用いた遺伝子発現データ解析における構造誘導バイアス

Using ontology embeddings for structural inductive bias in gene expression data analysis ( http://arxiv.org/abs/2011.10998v1 )

ライセンス: Link先を確認
Maja Tr\k{e}bacz, Zohreh Shams, Mateja Jamnik, Paul Scherer, Nikola Simidjievski, Helena Andres Terre, Pietro Li\`o(参考訳) がん患者の遺伝子発現レベルに基づいて、診断、生存分析、治療計画を改善することができる。 しかし、このデータは患者1人あたり20000以上の遺伝子の発現値を含み、データセット内のサンプル数が少ないため、非常に高次元である。 そこで本研究では, オントロジからの遺伝子に関する事前生物学的知識を機械学習システムに組み込んで, 遺伝子発現データから患者の分類作業を行う。 オントロジー埋め込みを用いて、遺伝子間のセマンティックな類似性を捉え、グラフ畳み込みネットワークを誘導し、ネットワーク接続を分散させる。 このアプローチは,高次元の低サンプルデータから臨床目標を予測するためのアドバンテージを提供する。

Stratifying cancer patients based on their gene expression levels allows improving diagnosis, survival analysis and treatment planning. However, such data is extremely highly dimensional as it contains expression values for over 20000 genes per patient, and the number of samples in the datasets is low. To deal with such settings, we propose to incorporate prior biological knowledge about genes from ontologies into the machine learning system for the task of patient classification given their gene expression data. We use ontology embeddings that capture the semantic similarities between the genes to direct a Graph Convolutional Network, and therefore sparsify the network connections. We show this approach provides an advantage for predicting clinical targets from high-dimensional low-sample data.
翻訳日:2022-09-22 12:17:53 公開日:2020-11-22
# 分散深層強化学習の概要

Distributed Deep Reinforcement Learning: An Overview ( http://arxiv.org/abs/2011.11012v1 )

ライセンス: Link先を確認
Mohammad Reza Samsami, Hossein Alimadad(参考訳) 深層強化学習(DRL)は非常に活発な研究分野である。 しかしながら、いくつかの技術的および科学的問題に対処する必要があり、その中にはデータの非効率性、探索-探索トレードオフ、マルチタスク学習について言及できる。 そのため、DRLの分散変更が導入され、多くのマシンで同時に動作可能なエージェントが導入された。 本稿では,DRLにおける分散アプローチの役割について調査する。 我々は、分散メソッドをdrlでどのように使用できるかに大きな影響を与える重要な研究成果を研究することにより、この分野の状況を概観する。 我々は、強化学習アルゴリズムにおけるイノベーションの側面ではなく、分散学習の観点からこれらの論文を概観する。 また,これらの手法を異なるタスクで評価し,その性能を一つのアクターと学習者エージェントで比較する。

Deep reinforcement learning (DRL) is a very active research area. However, several technical and scientific issues require to be addressed, amongst which we can mention data inefficiency, exploration-exploitation trade-off, and multi-task learning. Therefore, distributed modifications of DRL were introduced; agents that could be run on many machines simultaneously. In this article, we provide a survey of the role of the distributed approaches in DRL. We overview the state of the field, by studying the key research works that have a significant impact on how we can use distributed methods in DRL. We choose to overview these papers, from the perspective of distributed learning, and not the aspect of innovations in reinforcement learning algorithms. Also, we evaluate these methods on different tasks and compare their performance with each other and with single actor and learner agents.
翻訳日:2022-09-22 12:17:39 公開日:2020-11-22
# 環境センサを用いた行動分類のための自己教師あり変圧器

Self-Supervised Transformers for Activity Classification using Ambient Sensors ( http://arxiv.org/abs/2011.12137v1 )

ライセンス: Link先を確認
Luke Hicks, Ariel Ruiz-Garcia, Vasile Palade, Ibrahim Almakky(参考訳) 高齢化へのケアの提供は厄介な作業であり、平均寿命が増加し続けるにつれて、高齢者のケアを必要とする人が急速に増えている。 本稿では,トランスフォーマーニューラルネットワークを用いた環境センサ環境における居住者の活動の分類手法を提案する。 また、コントラスト損失を使わずに、自己教師付きでトランスフォーマーを事前訓練する手法をハイブリッドオートエンコーダ分類モデルとして提案する。 この研究の社会的影響は、アプローチの幅広い利点と、人間の行動の遷移を特定する次のステップによって考慮されている。 近年,医療施設におけるデータ収集のためのセンサ技術の統合が進みつつある。 これにより、アクティビティ認識や異常検出など、さまざまな面で機械学習を活用できるようになる。 医療環境の敏感さから,現在の研究で用いられるデータ収集手法は,画像ベースの行動認識用カメラや活動追跡用ウェアラブルなど,高齢者ケア業界に侵入性があると考えられるが,近年では,データ収集への住民の関心の欠如により,これらの手法の使用がデータ品質の低下につながることが示されている。 これにより、バイナリPIR運動、家電の接続、電気と水の計測といった環境センサーに焦点が当てられた。 環境データ収集において一貫性を持つことで、データの質がかなり信頼性が高くなり、精度が向上した分類を行う機会が提示される。 そこで本研究では,環境センサデータを用いて人間の行動の分類に深層学習を利用する最適な方法を見出した。

Providing care for ageing populations is an onerous task, and as life expectancy estimates continue to rise, the number of people that require senior care is growing rapidly. This paper proposes a methodology based on Transformer Neural Networks to classify the activities of a resident within an ambient sensor based environment. We also propose a methodology to pre-train Transformers in a self-supervised manner, as a hybrid autoencoder-classifier model instead of using contrastive loss. The social impact of the research is considered with wider benefits of the approach and next steps for identifying transitions in human behaviour. In recent years there has been an increasing drive for integrating sensor based technologies within care facilities for data collection. This allows for employing machine learning for many aspects including activity recognition and anomaly detection. Due to the sensitivity of healthcare environments, some methods of data collection used in current research are considered to be intrusive within the senior care industry, including cameras for image based activity recognition, and wearables for activity tracking, but recent studies have shown that using these methods commonly result in poor data quality due to the lack of resident interest in participating in data gathering. This has led to a focus on ambient sensors, such as binary PIR motion, connected domestic appliances, and electricity and water metering. By having consistency in ambient data collection, the quality of data is considerably more reliable, presenting the opportunity to perform classification with enhanced accuracy. Therefore, in this research we looked to find an optimal way of using deep learning to classify human activity with ambient sensor data.
翻訳日:2022-09-22 12:17:10 公開日:2020-11-22
# 映像強調と動作認識のための学習可能なサンプリング3次元畳み込み

Learnable Sampling 3D Convolution for Video Enhancement and Action Recognition ( http://arxiv.org/abs/2011.10974v1 )

ライセンス: Link先を確認
Shuyang Gu, Jianmin Bao, Dong Chen(参考訳) ビデオエンハンスメントとアクション認識の重要な課題は、隣接するフレームから有用な情報を融合することだ。 最近の研究は、時間情報を融合する前に隣接するフレーム間の正確な対応を確立することを示唆している。 しかし、生成された結果は対応推定の品質に大きく依存する。 本稿では,よりロバストな解法を提案する: \emph{sampling and fusing multi-level features} 近傍のフレームをまたいで結果を生成する。 このアイデアに基づいて,3次元畳み込みの能力,すなわち学習可能な3次元畳み込み(\emph{LS3D-Conv})を改善するための新しいモジュールを導入する。 3次元畳み込みに学習可能な2次元オフセットを追加し,フレーム間の空間的特徴マップ上の位置をサンプリングする。 オフセットは特定のタスクで学習できる。 emph{LS3D-Conv}は、既存の3Dネットワークの3D畳み込みレイヤを柔軟に置き換えて、新しいアーキテクチャを入手することができる。 ビデオ補間,ビデオスーパーレゾリューション,ビデオデノイジング,アクション認識の実験により,本手法の有効性が示された。

A key challenge in video enhancement and action recognition is to fuse useful information from neighboring frames. Recent works suggest establishing accurate correspondences between neighboring frames before fusing temporal information. However, the generated results heavily depend on the quality of correspondence estimation. In this paper, we propose a more robust solution: \emph{sampling and fusing multi-level features} across neighborhood frames to generate the results. Based on this idea, we introduce a new module to improve the capability of 3D convolution, namely, learnable sampling 3D convolution (\emph{LS3D-Conv}). We add learnable 2D offsets to 3D convolution which aims to sample locations on spatial feature maps across frames. The offsets can be learned for specific tasks. The \emph{LS3D-Conv} can flexibly replace 3D convolution layers in existing 3D networks and get new architectures, which learns the sampling at multiple feature levels. The experiments on video interpolation, video super-resolution, video denoising, and action recognition demonstrate the effectiveness of our approach.
翻訳日:2022-09-22 12:11:57 公開日:2020-11-22
# SAMA-VTOL:リモートセンシングデータ収集のための無人航空機システム

SAMA-VTOL: A new unmanned aircraft system for remotely sensed data collection ( http://arxiv.org/abs/2011.11007v1 )

ライセンス: Link先を確認
Mohammad R. Bayanlou, Mehdi Khoshboresh-Masouleh(参考訳) 近年、無人航空機システム(uass)は、建物損傷の監視、考古学的地図作成、植生のモニタリングなど、様々な用途で頻繁に使用されている。 本稿では,SAMA-VTOLと呼ばれる頑健な測光ミッションにおいて,最先端の垂直離着陸UASを提案する。 本研究では,SAMA-VTOLの正光発生能について検討した。 主な段階は、設計、構築、実験シナリオなどである。 まず,設計とビルドに関する簡単な説明を紹介する。 次に, 地上制御点を最小にし, 正確な直交写真を生成する実験を行った。 処理ステップは、カメラキャリブレーションとモデル生成を備えた自動空中三角測量を含む。 この点において、Pix4Dmapperソフトウェアは画像のオリエント化、点雲の生成、デジタル表面モデルの作成、正光モザイクの生成に使用された。 26.3ヘクタールをカバーした実験結果から, 眼窩運動負荷時のSAMA-VTOLが良好であったことが示唆された。

In recent years, unmanned aircraft systems (UASs) are frequently used in many different applications of photogrammetry such as building damage monitoring, archaeological mapping and vegetation monitoring. In this paper, a new state-of-the-art vertical take-off and landing fixed-wing UAS is proposed to robust photogrammetry missions, called SAMA-VTOL. In this study, the capability of SAMA-VTOL is investigated for generating orthophoto. The major stages are including designing, building and experimental scenario. First, a brief description of design and build is introduced. Next, an experiment was done to generate accurate orthophoto with minimum ground control points requirements. The processing step, which includes automatic aerial triangulation with camera calibration and model generation. In this regard, the Pix4Dmapper software was used to orientate the images, produce point clouds, creating digital surface model and generating orthophoto mosaic. Experimental results based on the test area covering 26.3 hectares indicate that our SAMA-VTOL performs well in the orthophoto mosaic task.
翻訳日:2022-09-22 12:11:38 公開日:2020-11-22
# 3次元脳腫瘍セグメンテーションのための効率的な埋め込みネットワーク

Efficient embedding network for 3D brain tumor segmentation ( http://arxiv.org/abs/2011.11052v1 )

ライセンス: Link先を確認
Hicham Messaoudi, Ahror Belaid, Mohamed Lamine Allaoui, Ahcene Zetout, Mohand Said Allili, Souhil Tliba, Douraied Ben Salem, Pierre-Henri Conze(参考訳) 深層学習による3D医療画像処理は、データ不足に悩まされている。 したがって、この分野での研究は、非常に大きなデータセットが存在する2次元自然画像解析に関する研究に比べて限定される。 その結果、強力で効率的な2次元畳み込みニューラルネットワークが開発・訓練されている。 本稿では,脳腫瘍の3次元的セマンティックセグメンテーションを目的とした2次元分類網の性能伝達手法について検討する。 符号化ブランチの一部として効率の良いネットモデルを組み込んだ非対称なU-Netネットワークを提案する。 入力データが3Dの場合、エンコーダの第1層は、効率の良いNetネットワークの入力に適合するために、第3次元の削減に費やされる。 BraTS 2020チャレンジの検証とテストデータに関する実験結果から,提案手法が有望な性能を達成することを示す。

3D medical image processing with deep learning greatly suffers from a lack of data. Thus, studies carried out in this field are limited compared to works related to 2D natural image analysis, where very large datasets exist. As a result, powerful and efficient 2D convolutional neural networks have been developed and trained. In this paper, we investigate a way to transfer the performance of a two-dimensional classiffication network for the purpose of three-dimensional semantic segmentation of brain tumors. We propose an asymmetric U-Net network by incorporating the EfficientNet model as part of the encoding branch. As the input data is in 3D, the first layers of the encoder are devoted to the reduction of the third dimension in order to fit the input of the EfficientNet network. Experimental results on validation and test data from the BraTS 2020 challenge demonstrate that the proposed method achieve promising performance.
翻訳日:2022-09-22 12:11:01 公開日:2020-11-22
# RNNP:ロバストなFew-Shot学習アプローチ

RNNP: A Robust Few-Shot Learning Approach ( http://arxiv.org/abs/2011.11067v1 )

ライセンス: Link先を確認
Pratik Mazumder, Pravendra Singh, Vinay P. Namboodiri(参考訳) いくつかの例から学ぶことは、訓練分類器の重要な実践的側面である。 様々な作品がこの点をよく研究している。 しかしながら、既存のアプローチはすべて、提供されたサンプルが常に正しくラベル付けされていると仮定している。 これは特に、クラウドベースのラベリングサービスを使用する現在のラベリング技術を考える場合、強い仮定である。 我々は、新しい頑健な数発学習アプローチを提案することでこの問題に対処する。 提案手法は,いくつかの例から頑健なプロトタイプを生成することに依存する。 具体的には,各クラスのサポート例からハイブリッド機能を生成することで,クラスプロトタイプを改良する。 改良されたプロトタイプは、クエリイメージをよりよく分類するのに役立ちます。 提案手法は, 最寄りのプロトタイプベース評価手順を用いてロバスト化を行う, マイズショット学習手法の評価フェーズを置き換えることができる。 本手法は,標準のmini-ImageNetとhered-ImageNetデータセットを用いて評価する。 少人数クラスのサポート例において,様々なラベル破壊率を用いて実験を行った。 ラベルノイズの存在下での顕著な性能劣化に苦しむ広範に使われている少数ショット学習法に対して,大幅な改善が得られた。 最後に,本手法を検証するために広範囲なアブレーション実験を行った。

Learning from a few examples is an important practical aspect of training classifiers. Various works have examined this aspect quite well. However, all existing approaches assume that the few examples provided are always correctly labeled. This is a strong assumption, especially if one considers the current techniques for labeling using crowd-based labeling services. We address this issue by proposing a novel robust few-shot learning approach. Our method relies on generating robust prototypes from a set of few examples. Specifically, our method refines the class prototypes by producing hybrid features from the support examples of each class. The refined prototypes help to classify the query images better. Our method can replace the evaluation phase of any few-shot learning method that uses a nearest neighbor prototype-based evaluation procedure to make them robust. We evaluate our method on standard mini-ImageNet and tiered-ImageNet datasets. We perform experiments with various label corruption rates in the support examples of the few-shot classes. We obtain significant improvement over widely used few-shot learning methods that suffer significant performance degeneration in the presence of label noise. We finally provide extensive ablation experiments to validate our method.
翻訳日:2022-09-22 12:10:38 公開日:2020-11-22
# 局所的および大域的な制約を伴うエンドツーエンドの微分可能な6dofオブジェクトポーズ推定

End-to-End Differentiable 6DoF Object Pose Estimation with Local and Global Constraints ( http://arxiv.org/abs/2011.11078v1 )

ライセンス: Link先を確認
Anshul Gupta, Joydeep Medhi, Aratrik Chattopadhyay, Vikram Gupta(参考訳) 単一のRGB画像からオブジェクトの6DoFのポーズを推定することは重要な課題だが、特に重閉塞下では難しい。 最近のアプローチでは、エンドツーエンドのパイプラインをトレーニングすることで、2段階のアプローチが改善されている。 本稿では,局所制約を統合するためのペアワイズ特徴抽出法と,改良された6DoFオブジェクトポーズ推定のためのグローバル制約を統合するためのトリプル正規化を提案する。 拡張性の向上と相まって,挑戦的なオクルージョン型linemodデータセット上での最先端の成果を達成し,以前の状態よりも9%向上し,linemodデータセット上での競合的な結果を得る。

Inferring the 6DoF pose of an object from a single RGB image is an important but challenging task, especially under heavy occlusion. While recent approaches improve upon the two stage approaches by training an end-to-end pipeline, they do not leverage local and global constraints. In this paper, we propose pairwise feature extraction to integrate local constraints, and triplet regularization to integrate global constraints for improved 6DoF object pose estimation. Coupled with better augmentation, our approach achieves state of the art results on the challenging Occlusion Linemod dataset, with a 9% improvement over the previous state of the art, and achieves competitive results on the Linemod dataset.
翻訳日:2022-09-22 12:10:07 公開日:2020-11-22
# 実nvpによる合成異常値を用いた高密度オープンセット認識

Dense open-set recognition with synthetic outliers generated by Real NVP ( http://arxiv.org/abs/2011.11094v1 )

ライセンス: Link先を確認
Matej Grci\'c, Petra Bevandi\'c and Sini\v{s}a \v{S}egvi\'c(参考訳) 今日の深層モデルは、訓練分布に属さない入力を検出することができないことが多い。 これは、医療や自動運転など、多くの重要なアプリケーション分野において破滅的な結果をもたらす可能性のある、自信のない誤った予測をもたらす。 興味深いことに、差別モデルと生成モデルの両方が同様に影響を受けているようだ。 したがって、この脆弱性は重要な研究課題である。 我々は,共同学習型合成外乱器を用いた識別訓練に基づく外乱検出手法を検討する。 訓練分布の境界でデータポイントを生成するために共同で訓練されたrnvpモデルをサンプリングして合成異常値を得る。 本手法は,同時セマンティックセグメンテーションと高密度外乱検出に適応可能であることを示す。 本稿では,cifar-10の画像分類実験と,既存の3つのデータセット(streethazards,wd-pascal,fishyscapes lost & found)と1つのコントリビュートデータセットのセマンティックセグメンテーション実験について述べる。 私たちのモデルは、フォワードパスを1回だけ生成しながらも、芸術の状況に関して競争的に機能します。

Today's deep models are often unable to detect inputs which do not belong to the training distribution. This gives rise to confident incorrect predictions which could lead to devastating consequences in many important application fields such as healthcare and autonomous driving. Interestingly, both discriminative and generative models appear to be equally affected. Consequently, this vulnerability represents an important research challenge. We consider an outlier detection approach based on discriminative training with jointly learned synthetic outliers. We obtain the synthetic outliers by sampling an RNVP model which is jointly trained to generate datapoints at the border of the training distribution. We show that this approach can be adapted for simultaneous semantic segmentation and dense outlier detection. We present image classification experiments on CIFAR-10, as well as semantic segmentation experiments on three existing datasets (StreetHazards, WD-Pascal, Fishyscapes Lost & Found), and one contributed dataset. Our models perform competitively with respect to the state of the art despite producing predictions with only one forward pass.
翻訳日:2022-09-22 12:09:53 公開日:2020-11-22
# 異常検出のための多分解能知識蒸留

Multiresolution Knowledge Distillation for Anomaly Detection ( http://arxiv.org/abs/2011.11108v1 )

ライセンス: Link先を確認
Mohammadreza Salehi, Niousha Sadjadi, Soroosh Baselizadeh, Mohammad Hossein Rohban, Hamid R. Rabiee(参考訳) 教師なし表現学習は、画像における異常検出/局所化の重要な要素であることが証明されている。 そのような表現を学ぶための課題は2つある。 まず、サンプルサイズは従来の手法でリッチな一般化可能な表現を学ぶのに十分な大きさではない。 第二に、通常のサンプルのみがトレーニングで利用できるが、学習された特徴は通常のサンプルと異常なサンプルとを区別するべきである。 本稿では、ImageNetで事前訓練された各種ネットワークの「蒸留」機能を用いて、両方の問題に対処する簡易なクローンネットワークを提案する。 入力データから専門家とクローンネットワークの中間アクティベーション値の差を利用して異常の検出と局所化を行う。 蒸留における複数の中間的ヒントを考慮すると,最終層活性化値のみを利用する場合に比べ,専門家の知識と識別上の相違点の活用性が向上することを示す。 特に、従来の手法は正確な異常な位置決めに失敗するか、高価な地域ベースの訓練を必要とする。 対照的に,特別なあるいは集中的なトレーニング手順は不要であり,異常領域の局在化のための新しい枠組みに解釈可能性アルゴリズムを組み込む。 MNIST, F-MNIST, CIFAR-10, MVTecAD, Retinal-OCTのSOTA法と, 異常検出とローカライゼーションの両方に関する2つの医学的データセットを比較し, 比較検討を行った。

Unsupervised representation learning has proved to be a critical component of anomaly detection/localization in images. The challenges to learn such a representation are two-fold. Firstly, the sample size is not often large enough to learn a rich generalizable representation through conventional techniques. Secondly, while only normal samples are available at training, the learned features should be discriminative of normal and anomalous samples. Here, we propose to use the "distillation" of features at various layers of an expert network, pre-trained on ImageNet, into a simpler cloner network to tackle both issues. We detect and localize anomalies using the discrepancy between the expert and cloner networks' intermediate activation values given the input data. We show that considering multiple intermediate hints in distillation leads to better exploiting the expert's knowledge and more distinctive discrepancy compared to solely utilizing the last layer activation values. Notably, previous methods either fail in precise anomaly localization or need expensive region-based training. In contrast, with no need for any special or intensive training procedure, we incorporate interpretability algorithms in our novel framework for the localization of anomalous regions. Despite the striking contrast between some test datasets and ImageNet, we achieve competitive or significantly superior results compared to the SOTA methods on MNIST, F-MNIST, CIFAR-10, MVTecAD, Retinal-OCT, and two Medical datasets on both anomaly detection and localization.
翻訳日:2022-09-22 12:09:35 公開日:2020-11-22
# 積層グラフフィルタ

Stacked Graph Filter ( http://arxiv.org/abs/2011.10988v1 )

ライセンス: Link先を確認
Hoang NT and Takanori Maehara and Tsuyoshi Murata(参考訳) グラフ信号処理の観点からグラフ畳み込みネットワーク(GCN)について検討し,完全連結重み付き学習グラフフィルタとトレーニング可能な多項式係数との差に対処する。 学習可能な多項式パラメータでグラフフィルタを積み重ねることで、高度に適応的で堅牢な頂点分類モデルを構築することができる。 ここでの処理は、既存の頂点分類モデルにおける低周波(あるいは同値な高ホモフィリー)仮定を緩和し、スペクトル特性の観点からよりユビキタスな解となる。 実験では,1つのハイパーパラメータ設定のみを用いることで,周波数スペクトルにまたがるほとんどのベンチマークデータセットに対して強い結果が得られる。

We study Graph Convolutional Networks (GCN) from the graph signal processing viewpoint by addressing a difference between learning graph filters with fully connected weights versus trainable polynomial coefficients. We find that by stacking graph filters with learnable polynomial parameters, we can build a highly adaptive and robust vertex classification model. Our treatment here relaxes the low-frequency (or equivalently, high homophily) assumptions in existing vertex classification models, resulting a more ubiquitous solution in terms of spectral properties. Empirically, by using only one hyper-parameter setting, our model achieves strong results on most benchmark datasets across the frequency spectrum.
翻訳日:2022-09-22 12:09:09 公開日:2020-11-22
# 公正誘導SMTによる決定木とランダム森林の変形

Fairness-guided SMT-based Rectification of Decision Trees and Random Forests ( http://arxiv.org/abs/2011.11001v1 )

ライセンス: Link先を確認
Jiang Zhang, Ivan Beschastnikh, Sergey Mechtaev, Abhik Roychoudhury(参考訳) データ駆動意思決定は、さまざまな機械学習モデルの人気で注目を集めている。 残念ながら、機械学習トレーニングで使用される実生活データは人間のバイアスを捉え、結果として学習されたモデルは不公平な意思決定につながる可能性がある。 本稿では,決定木と無作為林に対するこの問題に対する解決策を提供する。 我々のアプローチでは、決定木やランダムフォレストを特定のデータセット、公正基準、繊細な属性に関して公正なものに変換する。 私たちのアプローチに基づいて構築された \emph{FairRepair} ツールは、従来のプログラムの自動修復技術にインスパイアされています。 SMTソルバを使用して、決定ツリー内のどのパスで結果が反転してモデルの公平性を改善するかを決定する。 カリフォルニア大学アーバイン校の有名な成人データセットの実験では、FairRepairがリアルな決定木やランダムな森林にスケールすることを示した。 さらに、FairRepairは修理の健全性と完全性に関する正式な保証を提供する。 フェアネスガイドによる修復手法は、所定の(公正な)データセットから得られた決定木やランダムな森林を修復するので、組織内の意思決定におけるバイアスを特定し、修正する上で役立ちます。

Data-driven decision making is gaining prominence with the popularity of various machine learning models. Unfortunately, real-life data used in machine learning training may capture human biases, and as a result the learned models may lead to unfair decision making. In this paper, we provide a solution to this problem for decision trees and random forests. Our approach converts any decision tree or random forest into a fair one with respect to a specific data set, fairness criteria, and sensitive attributes. The \emph{FairRepair} tool, built based on our approach, is inspired by automated program repair techniques for traditional programs. It uses an SMT solver to decide which paths in the decision tree could have their outcomes flipped to improve the fairness of the model. Our experiments on the well-known adult dataset from UC Irvine demonstrate that FairRepair scales to realistic decision trees and random forests. Furthermore, FairRepair provides formal guarantees about soundness and completeness of finding a repair. Since our fairness-guided repair technique repairs decision trees and random forests obtained from a given (unfair) data-set, it can help to identify and rectify biases in decision-making in an organisation.
翻訳日:2022-09-22 12:08:58 公開日:2020-11-22
# AST-GCN:トラフィック予測のための時空間グラフ畳み込みネットワーク

AST-GCN: Attribute-Augmented Spatiotemporal Graph Convolutional Network for Traffic Forecasting ( http://arxiv.org/abs/2011.11004v1 )

ライセンス: Link先を確認
Jiawei Zhu, Chao Tao, Hanhan Deng, Ling Zhao, Pu Wang, Tao Lin, Haifeng Li(参考訳) 交通予測はインテリジェント交通分野における基本的な課題である。 正確な予測は、過去の交通流情報に依存するだけでなく、気象条件や周囲のPOI分布など、さまざまな外部要因の影響も考慮する必要がある。 近年,グラフ畳み込みネットワークとリカレントニューラルネットワークを統合した時空間モデルが交通予測研究のホットスポットとなり,大きな進展を遂げている。 しかし、外部要因を統合する作品はほとんどない。 そこで,外的要因の導入は,トラフィック予測における時空間精度の向上と解釈可能性の向上を前提として,属性強化時空間グラフ畳み込みネットワーク(AST-GCN)を提案する。 外部因子を動的属性および静的属性としてモデル化し、それらの因子を時空間グラフ畳み込みモデルにエンコードして統合する属性拡張単位を設計する。 実データを用いた実験では,トラヒック予測手法と比較して,トラヒック予測タスクの外部情報を考慮した場合の有効性を示す。 さらに,異なる属性拡張方式と予測水平設定の下では,AST-GCNの予測精度はベースラインの予測精度よりも高い。

Traffic forecasting is a fundamental and challenging task in the field of intelligent transportation. Accurate forecasting not only depends on the historical traffic flow information but also needs to consider the influence of a variety of external factors, such as weather conditions and surrounding POI distribution. Recently, spatiotemporal models integrating graph convolutional networks and recurrent neural networks have become traffic forecasting research hotspots and have made significant progress. However, few works integrate external factors. Therefore, based on the assumption that introducing external factors can enhance the spatiotemporal accuracy in predicting traffic and improving interpretability, we propose an attribute-augmented spatiotemporal graph convolutional network (AST-GCN). We model the external factors as dynamic attributes and static attributes and design an attribute-augmented unit to encode and integrate those factors into the spatiotemporal graph convolution model. Experiments on real datasets show the effectiveness of considering external information on traffic forecasting tasks when compared to traditional traffic prediction methods. Moreover, under different attribute-augmented schemes and prediction horizon settings, the forecasting accuracy of the AST-GCN is higher than that of the baselines.
翻訳日:2022-09-22 12:08:39 公開日:2020-11-22
# 分類器とクラスタのネットワークによる予測プロセスマイニング:PEDFモデル

Predictive process mining by network of classifiers and clusterers: the PEDF model ( http://arxiv.org/abs/2011.11136v1 )

ライセンス: Link先を確認
Amir Mohammad Esmaieeli Sikaroudi, Md Habibor Rahman(参考訳) 本研究では,イベントログから学習し,システムの将来イベントを予測するモデルを提案する。 提案するPEDFモデルは、イベントのシーケンス、期間、追加機能に基づいて学習する。 PEDFモデルは、標準的なクラスタと分類器で構成されるネットワークで構築されており、モデルを反復的に更新する柔軟性が高い。 このモデルはログファイルから2つのデータセット、すなわち遷移差、累積的特徴を抽出する必要がある。 モデルには1つのメモリ層があり、各トランジションは現在のイベントと前のイベントの両方に依存する。 提案モデルの性能を評価するため, 繰り返しニューラルネットワークと逐次予測モデルとの比較を行い, それらの性能を比較検討した。 イベントログ予測モデルの性能指標が不足しているため、3つの尺度が提案されている。

In this research, a model is proposed to learn from event log and predict future events of a system. The proposed PEDF model learns based on events' sequences, durations, and extra features. The PEDF model is built by a network made of standard clusterers and classifiers, and it has high flexibility to update the model iteratively. The model requires to extract two sets of data from log files i.e., transition differences, and cumulative features. The model has one layer of memory which means that each transition is dependent on both the current event and the previous event. To evaluate the performance of the proposed model, it is compared to the Recurrent Neural Network and Sequential Prediction models, and it outperforms them. Since there is missing performance measure for event log prediction models, three measures are proposed.
翻訳日:2022-09-22 12:08:07 公開日:2020-11-22
# 深層学習を用いたSAR画像からのロバスト非教師小面積変化検出

Robust Unsupervised Small Area Change Detection from SAR Imagery Using Deep Learning ( http://arxiv.org/abs/2011.11005v1 )

ライセンス: Link先を確認
Xinzheng Zhang, Hang Su, Ce Zhang, Xiaowei Gu, Xiaoheng Tan, Peter M. Atkinson(参考訳) 合成開口レーダ(SAR)による小面積変化検出は非常に難しい課題である。 本稿では, 深層学習を用いた多時間SAR画像からの小さな領域変化検出のための頑健な教師なし手法を提案する。 まず、局所的・空間的均質な情報を利用してスペックルノイズを効果的に抑制し、エッジを強化する差分画像(DI)を生成するマルチスケールスーパーピクセル再構成法を開発した。 第2に、DIの画素を並列クラスタリング戦略で変化、変化、中間クラスに分割するために、2段階中心拘束型ファジィc平均クラスタリングアルゴリズムを提案する。 最初の2つのクラスに属するイメージパッチを擬似ラベルトレーニングサンプルとして構築し、中間クラスのイメージパッチをテストサンプルとして扱う。 最後に、畳み込みウェーブレットニューラルネットワーク(CWNN)を設計し、テストサンプルを変更または変更なしのクラスに分類し、深い畳み込み生成敵ネットワーク(DCGAN)と組み合わせて擬似ラベルトレーニングサンプル内の変更クラス数を増やすように訓練する。 4つの実SARデータセットの数値実験は、提案手法の有効性とロバスト性を実証し、小面積変化検出のための99.61%の精度を達成した。

Small area change detection from synthetic aperture radar (SAR) is a highly challenging task. In this paper, a robust unsupervised approach is proposed for small area change detection from multi-temporal SAR images using deep learning. First, a multi-scale superpixel reconstruction method is developed to generate a difference image (DI), which can suppress the speckle noise effectively and enhance edges by exploiting local, spatially homogeneous information. Second, a two-stage centre-constrained fuzzy c-means clustering algorithm is proposed to divide the pixels of the DI into changed, unchanged and intermediate classes with a parallel clustering strategy. Image patches belonging to the first two classes are then constructed as pseudo-label training samples, and image patches of the intermediate class are treated as testing samples. Finally, a convolutional wavelet neural network (CWNN) is designed and trained to classify testing samples into changed or unchanged classes, coupled with a deep convolutional generative adversarial network (DCGAN) to increase the number of changed class within the pseudo-label training samples. Numerical experiments on four real SAR datasets demonstrate the validity and robustness of the proposed approach, achieving up to 99.61% accuracy for small area change detection.
翻訳日:2022-09-22 12:07:18 公開日:2020-11-22
# プログラムのような深層生成モデルを学ぶ: フリーカテゴリを優先する

Learning a Deep Generative Model like a Program: the Free Category Prior ( http://arxiv.org/abs/2011.11063v1 )

ライセンス: Link先を確認
Eli Sennesh(参考訳) 人間は他のほとんどの動物の認知能力を超え、概念を言葉に「チャンク」し、その言葉を組み合わせて概念を結合する能力を持つ。 このプロセスでは、「有限手段の無限利用」を行い、新しい概念を素早く学習し、互いに概念をネストすることができる。 プログラムの誘導と合成は、人工知能の基礎理論の中心に留まっているが、最近になって、プログラム学習をベンチマークタスク自体として利用しようとするコミュニティが前進した。 したがって、認知科学のコミュニティは、脳が普遍的なコンピュータと同等のシミュレーションと推論能力を持っているなら、シリアライズされた象徴的な表現を使わなければならないとしばしば考えてきた。 ここでは、この仮定に直面し、構成性がネットワーク構造を通して表現される対例、すなわち、プログラムよりも前の自由圏を提供する。 我々は、ニューラルネットワークが確率的プログラムのプリミティブとしてどのように機能するかを示す。 プログラム構造とモデルパラメータの両方をエンドツーエンドで学習する。

Humans surpass the cognitive abilities of most other animals in our ability to "chunk" concepts into words, and then combine the words to combine the concepts. In this process, we make "infinite use of finite means", enabling us to learn new concepts quickly and nest concepts within each-other. While program induction and synthesis remain at the heart of foundational theories of artificial intelligence, only recently has the community moved forward in attempting to use program learning as a benchmark task itself. The cognitive science community has thus often assumed that if the brain has simulation and reasoning capabilities equivalent to a universal computer, then it must employ a serialized, symbolic representation. Here we confront that assumption, and provide a counterexample in which compositionality is expressed via network structure: the free category prior over programs. We show how our formalism allows neural networks to serve as primitives in probabilistic programs. We learn both program structure and model parameters end-to-end.
翻訳日:2022-09-22 09:09:52 公開日:2020-11-22
# 時間信号分類のための非自律方程式発見法

A non-autonomous equation discovery method for time signal classification ( http://arxiv.org/abs/2011.11096v1 )

ライセンス: Link先を確認
Ryeongkyung Yoon, Harish S. Bhat, Braxton Osting(参考訳) 無限層極限におけるある種のニューラルネットワークアーキテクチャは、非線形微分方程式の系につながる。 このアイデアを動機として,非自律力学方程式に基づく時間信号解析フレームワークを開発した。 時間進化型隠れ変数を管理する力学系において,時間信号は強制関数であると見なす。 方程式発見と同様に、力学系は関数の辞書を用いて表現され、その係数はデータから学習される。 この枠組みは時間信号分類問題に適用される。 随伴法を用いて勾配を効率的に計算する方法を示し、動的システムからの手法を適用して分類器の安定性を確立する。 提案手法は,合成データと実データの両方において,競合する手法よりも桁違いに少ないパラメータを用いるが,同等の精度が得られることを示す。 基底真理ベクトル場はしばしば多項式であるが、フーリエ辞書が最良の結果をもたらすことを一貫して見出している。 また,提案手法が位相像の形でグラフィカルな解釈性をもたらすことを示す。

Certain neural network architectures, in the infinite-layer limit, lead to systems of nonlinear differential equations. Motivated by this idea, we develop a framework for analyzing time signals based on non-autonomous dynamical equations. We view the time signal as a forcing function for a dynamical system that governs a time-evolving hidden variable. As in equation discovery, the dynamical system is represented using a dictionary of functions and the coefficients are learned from data. This framework is applied to the time signal classification problem. We show how gradients can be efficiently computed using the adjoint method, and we apply methods from dynamical systems to establish stability of the classifier. Through a variety of experiments, on both synthetic and real datasets, we show that the proposed method uses orders of magnitude fewer parameters than competing methods, while achieving comparable accuracy. We created the synthetic datasets using dynamical systems of increasing complexity; though the ground truth vector fields are often polynomials, we find consistently that a Fourier dictionary yields the best results. We also demonstrate how the proposed method yields graphical interpretability in the form of phase portraits.
翻訳日:2022-09-22 09:09:36 公開日:2020-11-22
# Cryo-ZSSR:深層学習に基づくマルチイメージ超解像

Cryo-ZSSR: multiple-image super-resolution based on deep internal learning ( http://arxiv.org/abs/2011.11020v1 )

ライセンス: Link先を確認
Qinwen Huang, Ye Zhou, Xiaochen Du, Reed Chen, Jianyou Wang, Cynthia Rudin, Alberto Bartesaghi(参考訳) 単粒子核電子顕微鏡(cryo-em)は、タンパク質や高分子錯体を原子近傍の分解能で可視化できる新しいイメージングモードである。 試料の放射線損傷を防ぐために使用される低電子線線は、ノイズのパワーが信号のパワーの100倍大きい画像をもたらす。 低snrを克服するために、数日間のデータ収集で取得した数十万の粒子投射を3dで平均して興味の構造を決定する。 一方、ニューラルネットワークに基づく最近の画像超解像(SR)技術は、自然画像におけるアートパフォーマンスの状況を示している。 これらの進歩に基づいて、低SNR条件下での動作に特化した深層学習に基づくマルチイメージSRアルゴリズムを提案する。 本手法はcryo-em映画の内部画像統計を活用し,実地データによる訓練を必要としない。 アポフェリチンの単一粒子データセットに適用すると、SRマイクログラフから得られる3次元構造の分解能が、イメージングシステムによって課される限界を超えることが示される。 その結果,低倍率画像と画像srの組み合わせは,解像度を犠牲にすることなくcryo-emデータ収集を高速化できる可能性が示唆された。

Single-particle cryo-electron microscopy (cryo-EM) is an emerging imaging modality capable of visualizing proteins and macro-molecular complexes at near-atomic resolution. The low electron-doses used to prevent sample radiation damage, result in images where the power of the noise is 100 times greater than the power of the signal. To overcome the low-SNRs, hundreds of thousands of particle projections acquired over several days of data collection are averaged in 3D to determine the structure of interest. Meanwhile, recent image super-resolution (SR) techniques based on neural networks have shown state of the art performance on natural images. Building on these advances, we present a multiple-image SR algorithm based on deep internal learning designed specifically to work under low-SNR conditions. Our approach leverages the internal image statistics of cryo-EM movies and does not require training on ground-truth data. When applied to a single-particle dataset of apoferritin, we show that the resolution of 3D structures obtained from SR micrographs can surpass the limits imposed by the imaging system. Our results indicate that the combination of low magnification imaging with image SR has the potential to accelerate cryo-EM data collection without sacrificing resolution.
翻訳日:2022-09-22 09:09:20 公開日:2020-11-22
# 暗記によるドメイン間一般化:ニューラルドプリケート質問検出における近隣住民の検討

Cross-Domain Generalization Through Memorization: A Study of Nearest Neighbors in Neural Duplicate Question Detection ( http://arxiv.org/abs/2011.11090v1 )

ライセンス: Link先を確認
Yadollah Yaghoobzadeh, Alexandre Rochette and Timothy J. Hazen(参考訳) 重複質問検出(DQD)は,コミュニティと自動質問応答システムの効率化に重要である。 残念ながら、ドメイン内の教師付きデータの収集には時間と費用がかかり、ドメイン間でアノテーションを活用する能力は最小限です。 本研究では,dqdにおけるクロスドメイン一般化のために,ニューラル表現を活用し,最近傍の研究を行う。 まず、音源と対象領域の質問対をリッチな表現空間にエンコードし、次にk-nearest近傍検索に基づく手法を用いて、隣人のラベルと距離をランク付けする。 stackexchange、spring、quoraといったさまざまなクロスドメインシナリオにおいて、この方法の堅牢なパフォーマンスを観察し、複数のケースでクロスエントロピー分類を上回っています。

Duplicate question detection (DQD) is important to increase efficiency of community and automatic question answering systems. Unfortunately, gathering supervised data in a domain is time-consuming and expensive, and our ability to leverage annotations across domains is minimal. In this work, we leverage neural representations and study nearest neighbors for cross-domain generalization in DQD. We first encode question pairs of the source and target domain in a rich representation space and then using a k-nearest neighbour retrieval-based method, we aggregate the neighbors' labels and distances to rank pairs. We observe robust performance of this method in different cross-domain scenarios of StackExchange, Spring and Quora datasets, outperforming cross-entropy classification in multiple cases.
翻訳日:2022-09-22 09:08:59 公開日:2020-11-22
# タスク中心の語彙学習を組織化するための分布意味論の活用

Employing distributional semantics to organize task-focused vocabulary learning ( http://arxiv.org/abs/2011.11115v1 )

ライセンス: Link先を確認
Haemanth Santhi Ponnusamy, Detmar Meurers(参考訳) 学習者は、興味のある本を読むために、体系的に準備できるだろうか? 本稿では,分散意味論や形態的クラスタリング,エクササイズ生成などの計算言語手法をグラフベース学習モデルと組み合わせて,概念的かつ実践的に解答する方法について検討する。 学習者は,高度に構造化された学習者モデルとネットワーク解析の概念に基づいて,対象の語彙空間を効率的に探索する。 対象語彙空間の中心にある単語に焦点を当てた本書から生成されたマルチギャップ学習活動を実践する。 このように、このアプローチは計算言語的手法とネットワーク分析の概念と学習システムドメインのユニークな組み合わせを提供し、個々の学習者のタスクベース学習目標の達成を支援する。

How can a learner systematically prepare for reading a book they are interested in? In this paper,we explore how computational linguistic methods such as distributional semantics, morphological clustering, and exercise generation can be combined with graph-based learner models to answer this question both conceptually and in practice. Based on the highly structured learner model and concepts from network analysis, the learner is guided to efficiently explore the targeted lexical space. They practice using multi-gap learning activities generated from the book focused on words that are central to the targeted lexical space. As such the approach offers a unique combination of computational linguistic methods with concepts from network analysis and the tutoring system domain to support learners in achieving their individual, reading task-based learning goals.
翻訳日:2022-09-22 09:08:45 公開日:2020-11-22
# 人間-AIインタラクションにおける解釈可能性尺度のベイズ的考察

A Bayesian Account of Measures of Interpretability in Human-AI Interaction ( http://arxiv.org/abs/2011.10920v1 )

ライセンス: Link先を確認
Sarath Sreedharan, Anagha Kulkarni, Tathagata Chakraborti, David E. Smith and Subbarao Kambhampati(参考訳) 解釈可能なエージェントの振る舞いを設計するための既存のアプローチは、分離時の解釈可能性の異なる尺度を考える。 本稿では、現実世界における人間認識エージェントの設計と展開において、解釈可能性の概念は、多くの考慮事項の1つにすぎず、孤立的に開発された技術は、一緒に考えるときに有用である2つの重要な特性を欠いていることを実証する。 1) 相互に競合する財産を扱うこと,及び 2) 人間の行動がただ一つの特定の形で解釈されるだけの世界ではない。 この目的のために、既存の文献で研究されている解釈可能な行動の3つの例、すなわち、説明可能性、正当性、予測可能性について検討し、これら全ての行動が共に有意義にモデル化できる修正モデルを提案する。 この統合モデルによる興味深い結果を強調し、ユーザー調査の結果を通じて、なぜこの修正が必要なのかを動機付けます。

Existing approaches for the design of interpretable agent behavior consider different measures of interpretability in isolation. In this paper we posit that, in the design and deployment of human-aware agents in the real world, notions of interpretability are just some among many considerations; and the techniques developed in isolation lack two key properties to be useful when considered together: they need to be able to 1) deal with their mutually competing properties; and 2) an open world where the human is not just there to interpret behavior in one specific form. To this end, we consider three well-known instances of interpretable behavior studied in existing literature -- namely, explicability, legibility, and predictability -- and propose a revised model where all these behaviors can be meaningfully modeled together. We will highlight interesting consequences of this unified model and motivate, through results of a user study, why this revision is necessary.
翻訳日:2022-09-22 09:08:10 公開日:2020-11-22
# ビデオのシングルショットアクター・アクション検出に$\colon$の提案は必要ない

We don't Need Thousand Proposals$\colon$ Single Shot Actor-Action Detection in Videos ( http://arxiv.org/abs/2011.10927v1 )

ライセンス: Link先を確認
Aayush J Rana, Yogesh S Rawat(参考訳) ssa2dは,映像中のアクタ動作検出のための,単純かつ効果的なエンドツーエンドのディープネットワークである。 既存の手法では、検出された提案に基づいてアクションを推定し、次いで非最大抑圧のような後処理を行う。 性能面では有効であるが、これらの手法は数千の提案に対して高いメモリ要求を伴う高密度映像シーンのスケーラビリティに限界をもたらす。 我々は、提案が不要な異なる観点から、この問題を解決することを提案する。 ssa2dは統合ネットワークであり、シングルショットでピクセルレベルのアクター-アクション検出を行い、検出されたアクターの各ピクセルにアクションラベルを割り当てる。 SSA2Dには2つの利点がある。 1)提案や後処理が不要な完全畳み込みネットワークであり,メモリと時間効率を両立させる。 2) シーン内に存在する俳優数に依存しないメモリ要件であるため, 密集した映像シーンに容易に拡張できる。 提案手法をアクタ・アクション・データセット(a2d)とビデオ・オブジェクト・リレーション(vidor)データセットで評価し,複数のアクタにおけるその効果と映像における行動検出について検証した。 SSA2Dは推論時に、同等の性能(時にはより良い)で11倍高速で、以前の処理に比べてネットワークパラメータが少ない。

We propose SSA2D, a simple yet effective end-to-end deep network for actor-action detection in videos. The existing methods take a top-down approach based on region-proposals (RPN), where the action is estimated based on the detected proposals followed by post-processing such as non-maximal suppression. While effective in terms of performance, these methods pose limitations in scalability for dense video scenes with a high memory requirement for thousands of proposals. We propose to solve this problem from a different perspective where we don't need any proposals. SSA2D is a unified network, which performs pixel level joint actor-action detection in a single-shot, where every pixel of the detected actor is assigned an action label. SSA2D has two main advantages: 1) It is a fully convolutional network which does not require any proposals and post-processing making it memory as well as time efficient, 2) It is easily scalable to dense video scenes as its memory requirement is independent of the number of actors present in the scene. We evaluate the proposed method on the Actor-Action dataset (A2D) and Video Object Relation (VidOR) dataset, demonstrating its effectiveness in multiple actors and action detection in a video. SSA2D is 11x faster during inference with comparable (sometimes better) performance and fewer network parameters when compared with the prior works.
翻訳日:2022-09-22 09:07:19 公開日:2020-11-22
# Angular Embedding: 新しいAngular Robust主成分分析

Angular Embedding: A New Angular Robust Principal Component Analysis ( http://arxiv.org/abs/2011.11013v1 )

ライセンス: Link先を確認
Shenglan Liu, Yang Yu(参考訳) 機械学習において広く用いられている手法として、主成分分析(PCA)は次元の減少に優れた特性を示す。 PCAは、多くのRobust PCA(RPCA)バージョンによって改善されている、アウトレーヤに敏感である、という深刻な問題である。 しかし、既存の最先端のRPCAアプローチは、非イテレーティブな方法で容易に外れ値を取り除いたり許容したりすることはできない。 この問題に対処するために,大規模データや高次元データのために改良された角密度に基づいて,簡単なRPCAアプローチを定式化するAngular Embedding (AE)を提案する。 さらに、大規模なアウトレーラを持つデータを扱うためにトリミングされたAE(TAE)を導入する。 ベクトルレベルまたは画素レベルのアウトリーチを持つ合成および実世界のデータセットに対する大規模な実験は、提案されたAE/TAEが最先端のRPCAベースの手法より優れていることを示す。

As a widely used method in machine learning, principal component analysis (PCA) shows excellent properties for dimensionality reduction. It is a serious problem that PCA is sensitive to outliers, which has been improved by numerous Robust PCA (RPCA) versions. However, the existing state-of-the-art RPCA approaches cannot easily remove or tolerate outliers by a non-iterative manner. To tackle this issue, this paper proposes Angular Embedding (AE) to formulate a straightforward RPCA approach based on angular density, which is improved for large scale or high-dimensional data. Furthermore, a trimmed AE (TAE) is introduced to deal with data with large scale outliers. Extensive experiments on both synthetic and real-world datasets with vector-level or pixel-level outliers demonstrate that the proposed AE/TAE outperforms the state-of-the-art RPCA based methods.
翻訳日:2022-09-22 09:01:47 公開日:2020-11-22
# 非相関半ペアサブスペース学習

Uncorrelated Semi-paired Subspace Learning ( http://arxiv.org/abs/2011.11124v1 )

ライセンス: Link先を確認
Li Wang, Lei-Hong Zhang, Chungen Shen, and Ren-Cang Li(参考訳) 多くの実世界のアプリケーションで多視点データセットが収集され,従来の一視点学習法よりも既存の多視点学習法の方が学習性能が向上している。 しかし、これらのマルチビュー学習の手法のほとんどは、各インスタンスでビューが失われず、すべてのビューからのすべてのデータポイントが完全にペアリングされなければならないという仮定に基づいている。 したがって、ペアのないデータを処理できないが、学習プロセスから完全に無視できる。 しかし、ペアデータよりもペアデータの方が現実に豊富であり、単にペアデータのすべてがリソースの膨大な浪費を無視するだけである。 本稿では,非相関的特徴の学習を成功させる多くの既存の著作に動機づけられた,半ペア化部分空間学習による非相関的特徴の学習に着目する。 具体的には,半ペアデータに多くの実績のある学習基準を自然に統合できる汎用的非相関多視点サブスペース学習フレームワークを提案する。 フレームワークの柔軟性を示すために,教師なし学習と教師なし学習の両方のための5つの新しいセミペアモデルをインスタンス化する。 また、結果の最適化問題を解決するために逐次交互近似法(SAA)を設計し、必要に応じて強力なKrylov部分空間投影法と組み合わせることができる。 マルチビュー特徴抽出とマルチモダリティ分類の大規模な実験結果から,提案モデルがベースラインに比較して高い性能を示した。

Multi-view datasets are increasingly collected in many real-world applications, and we have seen better learning performance by existing multi-view learning methods than by conventional single-view learning methods applied to each view individually. But, most of these multi-view learning methods are built on the assumption that at each instance no view is missing and all data points from all views must be perfectly paired. Hence they cannot handle unpaired data but ignore them completely from their learning process. However, unpaired data can be more abundant in reality than paired ones and simply ignoring all unpaired data incur tremendous waste in resources. In this paper, we focus on learning uncorrelated features by semi-paired subspace learning, motivated by many existing works that show great successes of learning uncorrelated features. Specifically, we propose a generalized uncorrelated multi-view subspace learning framework, which can naturally integrate many proven learning criteria on the semi-paired data. To showcase the flexibility of the framework, we instantiate five new semi-paired models for both unsupervised and semi-supervised learning. We also design a successive alternating approximation (SAA) method to solve the resulting optimization problem and the method can be combined with the powerful Krylov subspace projection technique if needed. Extensive experimental results on multi-view feature extraction and multi-modality classification show that our proposed models perform competitively to or better than the baselines.
翻訳日:2022-09-22 09:00:53 公開日:2020-11-22
# 教師から逃れる:新しい自己監督的アプローチによるBYOLの理解

Run Away From your Teacher: Understanding BYOL by a Novel Self-Supervised Approach ( http://arxiv.org/abs/2011.10944v1 )

ライセンス: Link先を確認
Haizhou Shi, Dongliang Luo, Siliang Tang, Jian Wang, Yueting Zhuang(参考訳) 最近、新たに提案された自己教師型フレームワークBootstrap Your Own Latent (BYOL)は、対照的な学習フレームワークにおける負のサンプルの必要性に真剣に挑戦している。 BYOLは、負のサンプルを完全に破棄し、トレーニング目標の崩壊を防ぐ手段がないにもかかわらず、魅力的に機能する。 本稿では,本提案する自己指導型学習フレームワークであるRun Away from your Teacher (RAFT) の視点からBYOLを理解することを提案する。 RAFTは2つの目標を同時に最適化する。 (i)同一データの2つのビューを類似の表現に合わせること。 (ii) BYOLがそれに向かって走っているのではなく、モデルの平均教師(MT、歴史モデルの指数的な移動平均)から逃げること。 RAFTの第2項は、表現の崩壊を明示的に防ぎ、RAFTをより概念的に信頼性の高いフレームワークにする。 CIFAR10上でRAFTの基本的なベンチマークを行い,本手法の有効性を検証した。 さらに,ある条件下ではBYOLはRAFTと等価であり,BYOLの対直観的成功の確実な推論を提供する。

Recently, a newly proposed self-supervised framework Bootstrap Your Own Latent (BYOL) seriously challenges the necessity of negative samples in contrastive learning frameworks. BYOL works like a charm despite the fact that it discards the negative samples completely and there is no measure to prevent collapse in its training objective. In this paper, we suggest understanding BYOL from the view of our proposed interpretable self-supervised learning framework, Run Away From your Teacher (RAFT). RAFT optimizes two objectives at the same time: (i) aligning two views of the same data to similar representations and (ii) running away from the model's Mean Teacher (MT, the exponential moving average of the history models) instead of BYOL's running towards it. The second term of RAFT explicitly prevents the representation collapse and thus makes RAFT a more conceptually reliable framework. We provide basic benchmarks of RAFT on CIFAR10 to validate the effectiveness of our method. Furthermore, we prove that BYOL is equivalent to RAFT under certain conditions, providing solid reasoning for BYOL's counter-intuitive success.
翻訳日:2022-09-22 09:00:28 公開日:2020-11-22
# 人間の類似性判断と心理的埋め込みによるイメージネットの充実

Enriching ImageNet with Human Similarity Judgments and Psychological Embeddings ( http://arxiv.org/abs/2011.11015v1 )

ライセンス: Link先を確認
Brett D. Roads, Bradley C. Love(参考訳) オブジェクト認識の進歩の一部は、高品質なデータセットと関連するベンチマークが利用可能であることによる。 しかし、ILSVRCのようなこれらのベンチマークは比較的タスク固有であり、クラスラベルの予測に重点を置いている。 人間の知覚と推論のタスク汎用能力を具現化した公開データセットを提案する。 ImageNet(ImageNet-HSJ)のHuman similarity Judgments拡張は、ILSVRC検証セットを補完する人間の類似性判定で構成されている。 新しいデータセットは、教師なし学習アルゴリズムの評価を含む、さまざまなタスクおよびパフォーマンスメトリクスをサポートする。 類似性判定を直接用いたり、類似性判定に基づいて訓練された心理学的埋め込みを用いて評価を行う。 この埋め込み空間は、人間の判断に基づく以前の取り組みよりも桁違いに多くの点(すなわち画像)を含む。 5万枚の画像集合へのスケーリングは、変分ベイズ推論とモデルアンサンブルを用いて最も不確実な埋め込み空間のアスペクトをサンプリングする選択的サンプリングプロセスによって可能となった。 この方法論的な革新は、スケーリングを可能にするだけでなく、必要なサンプリングに集中することで、ソリューションの品質を向上させる必要がある。 ImageNet-HSJの有用性を実証するために、我々は類似度評価と埋め込み空間を用いて、複数の人気モデルが人間の類似度判定にどの程度うまく適合しているかを評価する。 1つの発見は、タスク固有のベンチマークでより良いパフォーマンスを示すより複雑なモデルは、人間の意味判断に適合しないということである。 人間の類似性判断に加えて、事前訓練された心理埋め込みと変分埋め込みを推測するためのコードも公開されている。 総じて、imagenet-hsjアセットは内部表現の評価とより人間的なモデルの開発をサポートする。

Advances in object recognition flourished in part because of the availability of high-quality datasets and associated benchmarks. However, these benchmarks---such as ILSVRC---are relatively task-specific, focusing predominately on predicting class labels. We introduce a publicly-available dataset that embodies the task-general capabilities of human perception and reasoning. The Human Similarity Judgments extension to ImageNet (ImageNet-HSJ) is composed of human similarity judgments that supplement the ILSVRC validation set. The new dataset supports a range of task and performance metrics, including the evaluation of unsupervised learning algorithms. We demonstrate two methods of assessment: using the similarity judgments directly and using a psychological embedding trained on the similarity judgments. This embedding space contains an order of magnitude more points (i.e., images) than previous efforts based on human judgments. Scaling to the full 50,000 image set was made possible through a selective sampling process that used variational Bayesian inference and model ensembles to sample aspects of the embedding space that were most uncertain. This methodological innovation not only enables scaling, but should also improve the quality of solutions by focusing sampling where it is needed. To demonstrate the utility of ImageNet-HSJ, we used the similarity ratings and the embedding space to evaluate how well several popular models conform to human similarity judgments. One finding is that more complex models that perform better on task-specific benchmarks do not better conform to human semantic judgments. In addition to the human similarity judgments, pre-trained psychological embeddings and code for inferring variational embeddings are made publicly available. Collectively, ImageNet-HSJ assets support the appraisal of internal representations and the development of more human-like models.
翻訳日:2022-09-22 08:59:33 公開日:2020-11-22
# 生成的対向重積オートエンコーダ

Generative Adversarial Stacked Autoencoders ( http://arxiv.org/abs/2011.12236v1 )

ライセンス: Link先を確認
Ariel Ruiz-Garcia, Ibrahim Almakky, Vasile Palade, Luke Hicks(参考訳) 画像生成タスクにおいてGAN(Generative Adversarial Networks)が主流となっている。 彼らの成功は、ミニマックスゼロサムゲームで競うジェネレータgと判別器dという2つのモデルを採用したトレーニングレジームに起因している。 それでもganはハイパーパラメータやパラメータ初期化に敏感であるためトレーニングが難しく、勾配や非コンバージェンス、モードの崩壊が失われることが多く、ジェネレータは異なるバリエーションのサンプルを作成できない。 そこで本研究では,新しい生成的可逆加重畳み込みオートエンコーダ(gasca)モデルと生成可逆可逆漸進学習アルゴリズムを提案する。 トレーニングアプローチは,バニラ関節訓練よりも復元誤差が有意に低い画像を生成する。

Generative Adversarial Networks (GANs) have become predominant in image generation tasks. Their success is attributed to the training regime which employs two models: a generator G and discriminator D that compete in a minimax zero sum game. Nonetheless, GANs are difficult to train due to their sensitivity to hyperparameter and parameter initialisation, which often leads to vanishing gradients, non-convergence, or mode collapse, where the generator is unable to create samples with different variations. In this work, we propose a novel Generative Adversarial Stacked Convolutional Autoencoder(GASCA) model and a generative adversarial gradual greedy layer-wise learning algorithm de-signed to train Adversarial Autoencoders in an efficient and incremental manner. Our training approach produces images with significantly lower reconstruction error than vanilla joint training.
翻訳日:2022-09-22 08:59:07 公開日:2020-11-22
# ps-devcem:弱ラベルデータに基づくビデオカプセル内視鏡の病理センシティブ深層学習モデル

PS-DeVCEM: Pathology-sensitive deep learning model for video capsule endoscopy based on weakly labeled data ( http://arxiv.org/abs/2011.12957v1 )

ライセンス: Link先を確認
A. Mohammed, I. Farup, M. Pedersen, S. Yildirim, and {\O} Hovde(参考訳) 本稿では, ビデオカプセル内視鏡(VCE)データを用いて, フレームレベルの異常検出と異なる大腸疾患の多ラベル分類を行うための新しい病理モデル(PS-DeVCEM)を提案する。 提案するモデルは,いくつかの疾患に起因する大腸の明らかな多様性の鍵となる課題に対処できる。 我々のモデルは、注目に基づく深層多元学習によって駆動され、フレーム単位の詳細なアノテーションの代わりにビデオラベルを用いて、弱いラベル付きデータに対してエンドツーエンドで訓練される。 空間的特徴と時間的特徴はそれぞれResNet50と残長短期記憶ブロック(残留LSTM)を介して得られる。 さらに、学習した時間的注意モジュールは、最終ラベル予測に各フレームの重要性を提供する。 さらに,病理学のクラス間の距離を最大化する自己超越法を開発した。 筆者らが提案した弱教師付き学習モデルによる定性的および定量的実験により,3つの最先端ビデオ解析手法と比較して,F1スコアの到達精度が61.6%,55.1%に向上したことを示す。 また,訓練中にフレームアノテーション情報を使わずに,病理でフレームを時間的にローカライズする能力を示す。 さらに,ビデオラベルのみのVCEデータセットを収集し,注釈付けを行った。 データセットには455の短いビデオセグメントと28,304フレーム、14種類の大腸疾患とアーティファクトが含まれている。 このパブリッシュをサポートするデータセットとコードは、私たちのホームページで公開されます。

We propose a novel pathology-sensitive deep learning model (PS-DeVCEM) for frame-level anomaly detection and multi-label classification of different colon diseases in video capsule endoscopy (VCE) data. Our proposed model is capable of coping with the key challenge of colon apparent heterogeneity caused by several types of diseases. Our model is driven by attention-based deep multiple instance learning and is trained end-to-end on weakly labeled data using video labels instead of detailed frame-by-frame annotation. The spatial and temporal features are obtained through ResNet50 and residual Long short-term memory (residual LSTM) blocks, respectively. Additionally, the learned temporal attention module provides the importance of each frame to the final label prediction. Moreover, we developed a self-supervision method to maximize the distance between classes of pathologies. We demonstrate through qualitative and quantitative experiments that our proposed weakly supervised learning model gives superior precision and F1-score reaching, 61.6% and 55.1%, as compared to three state-of-the-art video analysis methods respectively. We also show our model's ability to temporally localize frames with pathologies, without frame annotation information during training. Furthermore, we collected and annotated the first and largest VCE dataset with only video labels. The dataset contains 455 short video segments with 28,304 frames and 14 classes of colorectal diseases and artifacts. Dataset and code supporting this publication will be made available on our home page.
翻訳日:2022-09-22 08:58:52 公開日:2020-11-22
# ディープニューラルネットワークにおける感情色関連の研究

Investigating Emotion-Color Association in Deep Neural Networks ( http://arxiv.org/abs/2011.11058v1 )

ライセンス: Link先を確認
Shivi Gupta, Shashi Kant Gupta(参考訳) ディープニューラルネットワーク(DNN)によって学習された表現は、霊長類の脳で測定された神経反応と人間の類似性判定によって示された心理的表現と非常によく相関していることがわかった。 一方、過去の研究では、特定の色が人間の特定の感情に関連があることが示されている。 ディープニューラルネットワークもこの行動を学ぶのか? 本研究では,DNNがイメージ刺激の暗黙的関連,特にイメージ刺激の感情色関連を学習できるかを検討する。 私たちの研究は2つに分けて行われた。 まず,特定感情誘発画像の色彩選択を被験者に依頼した強制コリン決定タスクに対して,人間の反応を収集した。 次に、ニューラルネットワーク上のこの決定タスクを、画像の深度表現(オブジェクト分類タスクで訓練されたDNNを用いて抽出)とタスクで使用される色の画像との類似性を用いてモデル化した。 その結果,本モデルは2つの決定確率の間にファジィ線形関係を示した。 これは2つの興味深い発見をもたらす。 1.ディープニューラルネットワークで学習した表現は、実際に感情と色彩の関連を示すことができる 2.感情と色彩の関連性はランダムではなく,認知現象を伴う。 最後に、この方法が感情分類タスクにおいて、特にモデルをトレーニングするサンプルが極めて少ない場合に役に立つことも示します。 この分析は、感情-色関係を研究する心理学者や、機械の感情知能をモデル化したり、ディープニューラルネットワークによって学習された表現を研究する人工知能研究者と関係がある。

It has been found that representations learned by Deep Neural Networks (DNNs) correlate very well to neural responses measured in primates' brains and psychological representations exhibited by human similarity judgment. On another hand, past studies have shown that particular colors can be associated with specific emotion arousal in humans. Do deep neural networks also learn this behavior? In this study, we investigate if DNNs can learn implicit associations in stimuli, particularly, an emotion-color association between image stimuli. Our study was conducted in two parts. First, we collected human responses on a forced-choice decision task in which subjects were asked to select a color for a specified emotion-inducing image. Next, we modeled this decision task on neural networks using the similarity between deep representation (extracted using DNNs trained on object classification tasks) of the images and images of colors used in the task. We found that our model showed a fuzzy linear relationship between the two decision probabilities. This results in two interesting findings, 1. The representations learned by deep neural networks can indeed show an emotion-color association 2. The emotion-color association is not just random but involves some cognitive phenomena. Finally, we also show that this method can help us in the emotion classification task, specifically when there are very few examples to train the model. This analysis can be relevant to psychologists studying emotion-color associations and artificial intelligence researchers modeling emotional intelligence in machines or studying representations learned by deep neural networks.
翻訳日:2022-09-22 08:52:29 公開日:2020-11-22
# マルチモーダル核融合のためのヒエラチカルデルタアテンション法

Hierachical Delta-Attention Method for Multimodal Fusion ( http://arxiv.org/abs/2011.10916v1 )

ライセンス: Link先を確認
Kunjal Panchal(参考訳) 視覚と言語学において、主な入力モダリティは表情、発話パターン、発話された単語である。 あらゆる1つの表現モード(視覚、言語、音声)の分析に関する問題は、多くの文脈情報が失われる可能性があることである。 これにより、研究者は複数のモダリティを検査し、相互依存と状況の時間的文脈を深く理解し、表現を分析する。 この研究は、異なるモダリティ内および異なるモダリティ間の長距離依存関係の保存を試みており、リカレントネットワークの使用によってボトルネック化され、デルタアテンションの概念を追加して、モダリティ毎の局所的な差異に注目して、異なる人の慣用的な同期を捉える。 我々は,すべての局所ニュアンスとグローバルコンテキストを融合させるために,これらのデルタ・アタッチド・モダリティを通じて表現される感情の全体像を得るためのクロスアテンション融合手法を検討する。 注意の付加は、マルチモーダル核融合分野において新しく、現在、注意機構のどの段階を使うべきかについて精査されており、ほぼ半分のパラメータを持つ現在の最先端技術に近い、全体およびクラスごとの分類において、競争の正確性を達成する。

In vision and linguistics; the main input modalities are facial expressions, speech patterns, and the words uttered. The issue with analysis of any one mode of expression (Visual, Verbal or Vocal) is that lot of contextual information can get lost. This asks researchers to inspect multiple modalities to get a thorough understanding of the cross-modal dependencies and temporal context of the situation to analyze the expression. This work attempts at preserving the long-range dependencies within and across different modalities, which would be bottle-necked by the use of recurrent networks and adds the concept of delta-attention to focus on local differences per modality to capture the idiosyncrasy of different people. We explore a cross-attention fusion technique to get the global view of the emotion expressed through these delta-self-attended modalities, in order to fuse all the local nuances and global context together. The addition of attention is new to the multi-modal fusion field and currently being scrutinized for on what stage the attention mechanism should be used, this work achieves competitive accuracy for overall and per-class classification which is close to the current state-of-the-art with almost half number of parameters.
翻訳日:2022-09-22 08:52:06 公開日:2020-11-22
# 異なる言語の類似性を決定する手書き数字の集合的クラスタリング

Agglomerative Clustering of Handwritten Numerals to Determine Similarity of Different Languages ( http://arxiv.org/abs/2012.07599v1 )

ライセンス: Link先を確認
Md. Rahat-uz-Zaman and Shadmaan Hye(参考訳) 異なる言語の手書き数字には様々な特徴がある。 抽出した数字の特徴を解析することにより,言語間の類似度と相違度を測定することができる。 手書きの数字データセットは、異なる地域の多くの有名な言語で利用可能である。 本稿では,複数の言語で手書きの数字データセットを収集する。 次に、各手書き数字の同時性を決定し比較することで、それらの記述言語間の類似性を見つける。 これは、どの言語が同じまたは隣り合う親言語を持っているかを見つけるのに役立つ。 まず、2つの数字画像の類似度尺度をシャムネットワークで構築する。 第2に、シームズネットワークと置換類似性平均化技術を用いた新しいランダムサンプルの助けを借りて、数値データセットの類似性を決定する。 最後に、各データセットの類似性に基づいて集約クラスタリングが行われる。 このクラスタリング技術は、データセットの非常に興味深い特性を示しています。 本論文の特長は,データセットの地域的類似性である。 クラスタを解析することにより、どの言語が類似した地域に由来するかを容易に特定できる。

Handwritten numerals of different languages have various characteristics. Similarities and dissimilarities of the languages can be measured by analyzing the extracted features of the numerals. Handwritten numeral datasets are available and accessible for many renowned languages of different regions. In this paper, several handwritten numeral datasets of different languages are collected. Then they are used to find the similarity among those written languages through determining and comparing the similitude of each handwritten numerals. This will help to find which languages have the same or adjacent parent language. Firstly, a similarity measure of two numeral images is constructed with a Siamese network. Secondly, the similarity of the numeral datasets is determined with the help of the Siamese network and a new random sample with replacement similarity averaging technique. Finally, an agglomerative clustering is done based on the similarities of each dataset. This clustering technique shows some very interesting properties of the datasets. The property focused in this paper is the regional resemblance of the datasets. By analyzing the clusters, it becomes easy to identify which languages are originated from similar regions.
翻訳日:2022-09-22 08:51:42 公開日:2020-11-22
# 携帯電話による凍結部画像を用いた深層学習モデルは基底細胞癌を効果的に検出する

Deep learning model trained on mobile phone-acquired frozen section images effectively detects basal cell carcinoma ( http://arxiv.org/abs/2011.11081v1 )

ライセンス: Link先を確認
Junli Cao, B.S., Junyan Wu, M.S., Jing W. Zhang, M.D., Ph.D., Jay J. Ye, M.D., Ph.D., Limin Yu, M.D., M.S(参考訳) 背景: 凍結部を用いた基底細胞癌のマージン評価は, 術中診断の一般的な課題である。 しばしば直進するが、組織に基底細胞癌が存在するか、存在しないかの決定は、しばしば困難である。 携帯電話が取得した凍結部画像に基づいて学習したディープラーニングモデルが,将来の展開に十分な性能を持つかどうかを考察する。 材料と方法: 基底細胞癌マージンに対する凍結切片の1万2100枚と41枚 (1241枚) を携帯電話を用いて取得した。 写真は100倍(目標の10倍)で撮影された。 画像は4032 x 3024ピクセルの解像度から576 x 432ピクセルの解像度に縮小された。 モデルトレーニングには意味セグメンテーションアルゴリズムのdeeplab v3とxception backboneが使用された。 結果: モデルは入力として画像を使用し, 同一次元の予測の2次元と白の出力を生成し, 基底細胞癌と判定された領域は黒色で表示された。 基底細胞癌では、全画素数の0.5%を超える白色画素の出力は陽性とみなされる。 テストセットでは、レシーバ演算子曲線の0.99、画素レベルでの高精度リコール曲線の0.97の曲線の領域を達成する。 スライドレベルでの分類精度は96%であった。 結論: 携帯電話画像を用いた深層学習モデルは, 良好な性能特性を示し, 凍結部分解釈をリアルタイムに支援するための携帯電話アプリとしての展開の可能性を示す。

Background: Margin assessment of basal cell carcinoma using the frozen section is a common task of pathology intraoperative consultation. Although frequently straight-forward, the determination of the presence or absence of basal cell carcinoma on the tissue sections can sometimes be challenging. We explore if a deep learning model trained on mobile phone-acquired frozen section images can have adequate performance for future deployment. Materials and Methods: One thousand two hundred and forty-one (1241) images of frozen sections performed for basal cell carcinoma margin status were acquired using mobile phones. The photos were taken at 100x magnification (10x objective). The images were downscaled from a 4032 x 3024 pixel resolution to 576 x 432 pixel resolution. Semantic segmentation algorithm Deeplab V3 with Xception backbone was used for model training. Results: The model uses an image as input and produces a 2-dimensional black and white output of prediction of the same dimension; the areas determined to be basal cell carcinoma were displayed with white color, in a black background. Any output with the number of white pixels exceeding 0.5% of the total number of pixels is deemed positive for basal cell carcinoma. On the test set, the model achieves area under curve of 0.99 for receiver operator curve and 0.97 for precision-recall curve at the pixel level. The accuracy of classification at the slide level is 96%. Conclusions: The deep learning model trained with mobile phone images shows satisfactory performance characteristics, and thus demonstrates the potential for deploying as a mobile phone app to assist in frozen section interpretation in real time.
翻訳日:2022-09-22 08:51:30 公開日:2020-11-22
# ポイントクラウドDNNにおけるNudgeアタック

Nudge Attacks on Point-Cloud DNNs ( http://arxiv.org/abs/2011.11637v1 )

ライセンス: Link先を確認
Yiren Zhao, Ilia Shumailov, Robert Mullins and Ross Anderson(参考訳) 自動運転のような安全クリティカルなアプリケーションにおける3dポイントクラウドデータの広範な適応は、敵対的なサンプルを真の脅威にする。 ポイントクラウドに対する既存の敵対的な攻撃は高い成功率を達成したが、多くのポイントを修正している。 本稿では,入力点の雲の数点のみを摂動させる一連の攻撃を探索し,それらをヌッジ攻撃と呼ぶ。 我々は,最新のポイントクラウドDNNの結果を無効にすることができることを示す。 ホワイトボックスとグレーボックスのシナリオでの有効性を示す2つの変種(勾配ベースと決定ベース)を提示する。 我々の広範囲な実験は、数点または1点の点を点-クラウド入力全体から変更することにより、ターゲットと未ターゲットの対向点雲の両方を生成するのに効果的であることを示した。 一つのポイントで12~80%のケースで予測を確実に抑制できるのに対して、10ポイントでは37~95%に増やすことができます。 最後に、このような攻撃に対する防御の可能性について議論し、その限界を探る。

The wide adaption of 3D point-cloud data in safety-critical applications such as autonomous driving makes adversarial samples a real threat. Existing adversarial attacks on point clouds achieve high success rates but modify a large number of points, which is usually difficult to do in real-life scenarios. In this paper, we explore a family of attacks that only perturb a few points of an input point cloud, and name them nudge attacks. We demonstrate that nudge attacks can successfully flip the results of modern point-cloud DNNs. We present two variants, gradient-based and decision-based, showing their effectiveness in white-box and grey-box scenarios. Our extensive experiments show nudge attacks are effective at generating both targeted and untargeted adversarial point clouds, by changing a few points or even a single point from the entire point-cloud input. We find that with a single point we can reliably thwart predictions in 12--80% of cases, whereas 10 points allow us to further increase this to 37--95%. Finally, we discuss the possible defenses against such attacks, and explore their limitations.
翻訳日:2022-09-22 08:51:09 公開日:2020-11-22
# 局所的な線形埋め込みとその変数:チュートリアルと調査

Locally Linear Embedding and its Variants: Tutorial and Survey ( http://arxiv.org/abs/2011.10925v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) これはLocally Linear Embedding (LLE)とその変種に関するチュートリアルおよび調査論文である。 lle の概念は埋め込み空間における多様体の局所構造に適合する。 本稿では、まずLLE、カーネルLLE、逆LLE、およびLLEとの融合について述べる。 次に,線形再構成,固有関数,カーネルマッピングを用いたサンプルの埋め込みについて述べる。 ストリーミングデータの埋め込みについて、インクリメンタルLLEを説明する。 Nystrom近似と局所線型ランドマークを用いたランドマークLLE法をビッグデータ埋め込みに応用した。 本稿では, 残差, Procrustes 統計, 保存地区誤差, 局所地区選択を用いて, 近隣住民のパラメータ選択手法を提案する。 その後、監視型LLE(SLLE)、拡張型SLLE、SLLEプロジェクション、確率型SLLE、教師付きLLE(Hilbert-Schmidt独立基準を用いた)、半監督型LLEを解説した。 最小二乗問題とペナルティ関数を用いたロバストLLE法も、外周と雑音の存在下での埋め込みのために導入されている。 次に、lle と isomap (isolle)、主成分分析、フィッシャー判別分析、判別lle、isotop を含む他の多様体学習法との融合について紹介する。 最後に, 距離, 復元重量, 埋込量を調整した重み付きLLEについて解説し, 変形分散データに対する重み付きLLE, 発生確率を用いた重み付きLLE, 重み調整によるSLLE, 修正LLE, 反復LLEについて述べる。

This is a tutorial and survey paper for Locally Linear Embedding (LLE) and its variants. The idea of LLE is fitting the local structure of manifold in the embedding space. In this paper, we first cover LLE, kernel LLE, inverse LLE, and feature fusion with LLE. Then, we cover out-of-sample embedding using linear reconstruction, eigenfunctions, and kernel mapping. Incremental LLE is explained for embedding streaming data. Landmark LLE methods using the Nystrom approximation and locally linear landmarks are explained for big data embedding. We introduce the methods for parameter selection of number of neighbors using residual variance, Procrustes statistics, preservation neighborhood error, and local neighborhood selection. Afterwards, Supervised LLE (SLLE), enhanced SLLE, SLLE projection, probabilistic SLLE, supervised guided LLE (using Hilbert-Schmidt independence criterion), and semi-supervised LLE are explained for supervised and semi-supervised embedding. Robust LLE methods using least squares problem and penalty functions are also introduced for embedding in the presence of outliers and noise. Then, we introduce fusion of LLE with other manifold learning methods including Isomap (i.e., ISOLLE), principal component analysis, Fisher discriminant analysis, discriminant LLE, and Isotop. Finally, we explain weighted LLE in which the distances, reconstruction weights, or the embeddings are adjusted for better embedding; we cover weighted LLE for deformed distributed data, weighted LLE using probability of occurrence, SLLE by adjusting weights, modified LLE, and iterative LLE.
翻訳日:2022-09-22 08:50:51 公開日:2020-11-22
# 言語データの標準化:フランス語のアノテートのための方法とツール

Standardizing linguistic data: method and tools for annotating (pre-orthographic) French ( http://arxiv.org/abs/2011.11074v1 )

ライセンス: Link先を確認
Simon Gabay (UNIGE), Thibault Cl\'erice (ENC), Jean-Baptiste Camps (ENC), Jean-Baptiste Tanguy (SU), Matthias Gille-Levenson (ENS Lyon)(参考訳) 様々な時代の大きなコーパスの発達に伴い、言語アノテーション(例えば、レムマ、POSタグ、形態的アノテーション)を標準化し、ダイアクロニックな変化にもかかわらず生成されたデータの相互運用性を高めることが重要となる。 本稿では,(アノテーションの原則を提案することによって)方法論的に,技術的に(必要な訓練データと関連するモデルを作成することによって)近代フランス語(16~18世紀)のための言語タグの生成を記述し,現代フランス語,特に中世フランス語の既存の標準を可能な限り考慮し,その両方について述べる。

With the development of big corpora of various periods, it becomes crucial to standardise linguistic annotation (e.g. lemmas, POS tags, morphological annotation) to increase the interoperability of the data produced, despite diachronic variations. In the present paper, we describe both methodologically (by proposing annotation principles) and technically (by creating the required training data and the relevant models) the production of a linguistic tagger for (early) modern French (16-18th c.), taking as much as possible into account already existing standards for contemporary and, especially, medieval French.
翻訳日:2022-09-22 08:50:21 公開日:2020-11-22
# video semnet: メモリ提示型ビデオセマンティクスネットワーク

Video SemNet: Memory-Augmented Video Semantic Network ( http://arxiv.org/abs/2011.10909v1 )

ライセンス: Link先を確認
Prashanth Vijayaraghavan, Deb Roy(参考訳) ストーリーはアイデア、経験、社会的、文化的価値を伝える非常に魅力的な媒体です。 物語は物語の具体的な表現であり、それを聴衆の知識に変える。 本稿では,視覚メディアの低レベルのデータ表現と意味的側面のギャップを埋めることにより,映画におけるナラティブ要素を捉えるための機械学習手法を提案する。 本稿では、意味記述子をエンコードし、ビデオの埋め込みを学ぶために、ビデオセマンティックネットワーク(Video SemNet)を提案する。 モデルは2つの主要なコンポーネントを使用します。 (i)意味記述子の潜在埋め込みを学習する神経意味学習者、及び (ii)ビデオから特定のセマンティックパターンを保持し記憶するメモリモジュール。 モデルの変種から得られた映像表現を2つのタスクで評価する。 (a)ジャンルの予測及び (b)IMDBレーティング予測。 本モデルは,それぞれ0.72と0.63の重み付きf-1スコアでジャンルやimdbの評価を予測できることを実証する。 その結果,モデルの表現力と,観客のエンゲージメントを測定するための表現能力が示唆された。

Stories are a very compelling medium to convey ideas, experiences, social and cultural values. Narrative is a specific manifestation of the story that turns it into knowledge for the audience. In this paper, we propose a machine learning approach to capture the narrative elements in movies by bridging the gap between the low-level data representations and semantic aspects of the visual medium. We present a Memory-Augmented Video Semantic Network, called Video SemNet, to encode the semantic descriptors and learn an embedding for the video. The model employs two main components: (i) a neural semantic learner that learns latent embeddings of semantic descriptors and (ii) a memory module that retains and memorizes specific semantic patterns from the video. We evaluate the video representations obtained from variants of our model on two tasks: (a) genre prediction and (b) IMDB Rating prediction. We demonstrate that our model is able to predict genres and IMDB ratings with a weighted F-1 score of 0.72 and 0.63 respectively. The results are indicative of the representational power of our model and the ability of such representations to measure audience engagement.
翻訳日:2022-09-22 08:50:09 公開日:2020-11-22
# クロスモーダルグラウンドと交互学習による言語誘導ナビゲーション

Language-guided Navigation via Cross-Modal Grounding and Alternate Adversarial Learning ( http://arxiv.org/abs/2011.10972v1 )

ライセンス: Link先を確認
Weixia Zhang, Chao Ma, Qi Wu and Xiaokang Yang(参考訳) 新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、与えられた言語命令に従って、見えない写真リアリスティックな環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。 VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。 訓練と推論の間の行動選択の不一致のため、模倣学習のみに基づくエージェントはうまく動作しない。 トレーニングプロセス中に予測された確率分布から次のアクションをサンプリングすることで、エージェントは環境からの多様な経路を探索でき、高い成功率が得られる。 それにもかかわらず、訓練過程の最短航路が提示されることなく、エージェントは予想外の長い経路を通って目標地点に到着することができる。 これらの課題を克服するために,2つの相補的な注意機構から構成されるクロスモーダルグラウンドモジュールを設計し,テキストと視覚の対応性を追跡する能力に優れたエージェントを装備する。 そこで我々は,模倣と探索の学習スキームを再帰的に交換し,学習と推論の相違を狭めることを提案する。 さらに,この2つの学習手法の利点を,敵対的学習を通じて活用する。 Room-to-Room(R2R)ベンチマークデータセットの大規模な実験結果から,提案手法が一般化され,先行技術と相補的であることが示された。 提案手法は, 有効性と効率性の観点から, 最先端手法に対して良好に機能する。

The emerging vision-and-language navigation (VLN) problem aims at learning to navigate an agent to the target location in unseen photo-realistic environments according to the given language instruction. The main challenges of VLN arise mainly from two aspects: first, the agent needs to attend to the meaningful paragraphs of the language instruction corresponding to the dynamically-varying visual environments; second, during the training process, the agent usually imitate the shortest-path to the target location. Due to the discrepancy of action selection between training and inference, the agent solely on the basis of imitation learning does not perform well. Sampling the next action from its predicted probability distribution during the training process allows the agent to explore diverse routes from the environments, yielding higher success rates. Nevertheless, without being presented with the shortest navigation paths during the training process, the agent may arrive at the target location through an unexpected longer route. To overcome these challenges, we design a cross-modal grounding module, which is composed of two complementary attention mechanisms, to equip the agent with a better ability to track the correspondence between the textual and visual modalities. We then propose to recursively alternate the learning schemes of imitation and exploration to narrow the discrepancy between training and inference. We further exploit the advantages of both these two learning schemes via adversarial learning. Extensive experimental results on the Room-to-Room (R2R) benchmark dataset demonstrate that the proposed learning scheme is generalized and complementary to prior arts. Our method performs well against state-of-the-art approaches in terms of effectiveness and efficiency.
翻訳日:2022-09-22 08:49:53 公開日:2020-11-22