このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200425となっている論文です。

PDF登録状況(公開日: 20200425)

TitleAuthorsAbstract論文公表日・翻訳日
# 圧電光学結晶を用いた3次元マイクロ波空洞からテレコムへの波長変換

Wavelength transduction from a 3D microwave cavity to telecom using piezoelectric optomechanical crystals ( http://arxiv.org/abs/2002.00471v2 )

ライセンス: Link先を確認
H. Ramp, T.J. Clark, B.D. Hauer, C. Doolin, K.C. Balram, K. Srinivasan, J.P. Davis(参考訳) 電子レンジから光への変換は、電子光学系のランドマークとしてキャビティ・オプトメカニクス・コミュニティから大きな関心を集めている。 この書簡では、高周波の機械的運動とマイクロ波空洞を初めて組み合わせた新しいトランスデューサを示す。 このシステムは3Dマイクロ波キャビティと、マイクロ波電界最大値に配置されたガリウムヒ素光学結晶で構成されている。 これにより、マイクロ波空洞は圧電効果によって光学結晶中のギガヘルツ周波数の機械的呼吸モードを活性化し、テレコム光学モードで読み出すことができる。 ガリウムヒ素オプテメカニカル結晶は、かつて希釈冷凍機で機械的基底状態に冷却されていたため、低ノイズマイクロ波-テレコム変換に好適な候補である。 さらに、3Dマイクロ波キャビティアーキテクチャは自然に超伝導量子ビットへ拡張し、ハイブリッド量子システムを作成することができる。

Microwave to optical transduction has received a great deal of interest from the cavity optomechanics community as a landmark application for electro-optomechanical systems. In this Letter, we demonstrate a novel transducer that combines high-frequency mechanical motion and a microwave cavity for the first time. The system consists of a 3D microwave cavity and a gallium arsenide optomechanical crystal, which has been placed in the microwave electric field maximum. This allows the microwave cavity to actuate the gigahertz-frequency mechanical breathing mode in the optomechanical crystal through the piezoelectric effect, which is then read out using a telecom optical mode. The gallium arsenide optomechanical crystal is a good candidate for low-noise microwave-to-telecom transduction, as it has been previously cooled to the mechanical ground state in a dilution refrigerator. Moreover, the 3D microwave cavity architecture can naturally be extended to couple to superconducting qubits and to create hybrid quantum systems.
翻訳日:2023-06-05 00:17:45 公開日:2020-04-25
# 多層量子探索とnpのbqpへの包含

Multi-layer quantum search and inclusion of NP into BQP ( http://arxiv.org/abs/2004.11347v2 )

ライセンス: Link先を確認
Shan Jin, Xiaoting Wang, Bo Li(参考訳) 本稿では,Groverのアルゴリズムを指数的に高速化する多層量子探索法を提案する。 直接応用として、任意のNP問題は多項式ゲートの複雑さのみを持つ量子回路上で効率的に解ける。 特に、このような多層探索は指数関数的なスピードアップでファクタリング問題を解き、ショアのアルゴリズムの代替となる。 以上の結果から,量子回路の指数的高速化は至るところで行われており,Groverの探索はより強力であることがわかった。 単一層クエリの2次最適性に矛盾はなく、Groverの探索の大きな可能性は、そのような多層探索設計によって完全に解放される。

In this work, we present a multi-layer quantum search method that generates an exponential speedup of the standard Grover's algorithm. As direct applications, any NP problems can be solved efficiently on a quantum circuit with only polynomial gate complexity. In particular, such multi-layer search can solve the factoring problem with an exponential speedup, providing an alternative to Shor's algorithm. Our results show that the exponential speedup of quantum circuits is ubiquitous, and Grover's search is much more powerful than that has been demonstrated. With no contradiction to the quadratic optimality of single-layer query complexity, the great potential of Grover's search is fully released by such multi-layer search design.
翻訳日:2023-05-22 08:20:33 公開日:2020-04-25
# 自然時間としての量子力学

Quantum Mechanics as Naturalized Time ( http://arxiv.org/abs/2004.12052v1 )

ライセンス: Link先を確認
Zachary D. Walton, Bernard S. McNamara, Tommaso Toffoli(参考訳) それぞれの質問を明確にするための2つのトピック(量子力学と時間経過)をまとめる。 具体的には、量子力学の形式論が「時間経過とは何か」という問いへの答えを与えると主張する。

We bring together two topics (quantum mechanics and time passage) with the goal of clarifying questions about each. Specifically, we claim that the formalism of quantum mechanics provides an answer to the question: "What is time passage?".
翻訳日:2023-05-22 04:08:38 公開日:2020-04-25
# E-Recruitment システムの分析と欠点:知識の不完全性と限定領域被覆に対処する意味論的アプローチに向けて

Analysis & Shortcomings of E-Recruitment Systems: Towards a Semantics-based Approach Addressing Knowledge Incompleteness and Limited Domain Coverage ( http://arxiv.org/abs/2004.12034v1 )

ライセンス: Link先を確認
M. Maree, A. Kmail, M. Belkhatir(参考訳) インターネットの急速な発展により、e-recruitmentと人的資源管理の新しい手法が導入された。 これらの手法は,自然言語処理ツールや意味論的手法を取り入れることで,従来の採用手順の限界を体系的に解決することを目的としている。 この文脈では、求職者の履歴書(通常、.pdf、.doc、.rtfなどの異なるフォーマットで自由テキストの非構造化文書としてアップロードされる)は、職業分類やセマンティクスベースの技術などの追加リソースによって強化された従来のキーワードベースのモデルを使用してマッチング・スクリーニングされる。 これらの手法を採用することで、従来の採用方法や候補者選定方法に必要なコスト、時間、労力を減らすことができる。 しかし、スキルギャップ、すなわち応募履歴書や求人ポストにおける関連するスキルを正確に検出し抽出する傾向、応募履歴書にエンコードされた隠れた意味的次元は依然としてe-recruitmentシステムにとって大きな障害となっている。 これは、現在のe-recruitmentシステムによって利用されるリソースが汎用的なドメインに依存しないソースから得られるため、知識の不完全さとドメインカバレッジの欠如に起因している。 本稿では,最先端のe-recruitmentアプローチを概観し,この分野の最近の進歩について述べる。 マルチコラボレーティブな意味資源、特徴抽出技術、スキル関連尺度を用いて、現在の欠点に対処するe-recruitmentフレームワークについて詳述する。 提案手法のインスタンス化と2つの雇用ポータルからの実世界の採用データセットを用いた実験的検証を行い,提案手法の有効性を示す。

The rapid development of the Internet has led to introducing new methods for e-recruitment and human resources management. These methods aim to systematically address the limitations of conventional recruitment procedures through incorporating natural language processing tools and semantics-based methods. In this context, for a given job post, applicant resumes (usually uploaded as free-text unstructured documents in different formats such as .pdf, .doc, or .rtf) are matched/screened out using the conventional keyword-based model enriched by additional resources such as occupational categories and semantics-based techniques. Employing these techniques has proved to be effective in reducing the cost, time, and efforts required in traditional recruitment and candidate selection methods. However, the skill gap, i.e. the propensity to precisely detect and extract relevant skills in applicant resumes and job posts, and the hidden semantic dimensions encoded in applicant resumes still form a major obstacle for e-recruitment systems. This is due to the fact that resources exploited by current e-recruitment systems are obtained from generic domain-independent sources, therefore resulting in knowledge incompleteness and the lack of domain coverage. In this paper, we review state-of-the-art e-recruitment approaches and highlight recent advancements in this domain. An e-recruitment framework addressing current shortcomings through the use of multiple cooperative semantic resources, feature extraction techniques and skill relatedness measures is detailed. An instantiation of the proposed framework is proposed and an experimental validation using a real-world recruitment dataset from two employment portals demonstrates the effectiveness of the proposed approach.
翻訳日:2023-05-22 04:07:55 公開日:2020-04-25
# q-変形量子系の自己局在ソリトン

Self-localized Solitons of a q-Deformed Quantum System ( http://arxiv.org/abs/2005.04082v1 )

ライセンス: Link先を確認
Cihan Bayindir and Azmi Ali Altintas and Fatih Ozaydin(参考訳) 純粋な数学的興味の他に、q-変形は様々な物理現象のモデリングと解釈を約束する。 本稿では, 非線形schr\"{o}dinger方程式 (nlse) の自局在ソリトン解の存在と性質を, q 変形ローゼンモースポテンシャルを用いて数値的に検討する。 ペトヴィアシュヴィリ法(Petviashvili method, PM)を実装することにより、NLSE の 1 と 2 つのソリトン解を q-変形ローゼン・モースポテンシャルで得られる。 これらのソリトンの時間的挙動と安定性を調べるため、フーリエスペクトル法を4^{th}$次ルンゲ・クッタ時間積分器で実装する。 自己局在型ソリトンと2つのソリトンは安定であり、脈動挙動とソリトン波形のサイドローブの微妙な変化に束縛されている。 さらに, 雑音下でのソリトン安定性とロバスト性について検討した。 q変形ローゼンモース電位でnlseのフレーム内でモデル化された正弦波の単色波場はカオス波場となり、ノイズによる変調不安定性によりローグ振動を示すが、q変形ローゼンモース電位を持つnlseの自己局在ソリトンはノイズの影響下で安定かつ頑健である。 また,savitzky-golayフィルタを用いて除音処理を行った後,ソリトンプロファイルを再構成できることを示した。

Beyond a pure mathematical interest, q-deformation is promising for the modeling and interpretation of various physical phenomena. In this paper, we numerically investigate the existence and properties of the self-localized soliton solutions of the nonlinear Schr\"{o}dinger equation (NLSE) with a q-deformed Rosen-Morse potential. By implementing a Petviashvili method (PM), we obtain the self-localized one and two soliton solutions of the NLSE with a q-deformed Rosen-Morse potential. In order to investigate the temporal behavior and stabilities of these solitons, we implement a Fourier spectral method with a $4^{th}$ order Runge-Kutta time integrator. We observe that the self-localized one and two solitons are stable and remain bounded with a pulsating behavior and minor changes in the sidelobes of the soliton waveform. Additionally, we investigate the stability and robustness of these solitons under noisy perturbations. A sinusoidal monochromatic wave field modeled within the frame of the NLSE with a q-deformed Rosen-Morse potential turns into a chaotic wavefield and exhibits rogue oscillations due to modulation instability triggered by noise, however, the self-localized solitons of the NLSE with a q-deformed Rosen-Morse potential are stable and robust under the effect of noise. We also show that soliton profiles can be reconstructed after a denoising process performed using a Savitzky-Golay filter.
翻訳日:2023-05-22 04:02:35 公開日:2020-04-25
# インターネットと人間のインフラ:HavanaのStreetNetからの教訓

Internet-human infrastructures: Lessons from Havana's StreetNet ( http://arxiv.org/abs/2004.12207v1 )

ライセンス: Link先を確認
Abigail Z. Jacobs and Michaelanne Dye(参考訳) 本稿では,キューバのハバナにおいて,コミュニティが運営するイントラネットであるstreetnet (snet) を基盤とするヒューマンインフラストラクチャを理解するための混合手法を提案する。 我々は、エスノグラフィー研究とソーシャルネットワークと組織の研究を橋渡しし、ハバナのSNETの構造に権力が組み込まれている方法を理解する。 snetのヒューマンインフラストラクチャを定量的かつ定性的にパッケージングすることによって、分散インフラストラクチャが、そのインフラストラクチャ内に分散する不平等の構造的側面を必ずしも組み込む方法を明らかにする。 ネットワークの伝統的な技術的測定は、結果としてネットワークを形成する社会的、組織的、空間的、技術的制約を反映するが、エスノグラフィーはこれらの隠れたサポート関係のテクスチャと役割を明らかにするのに役立つ。 これらの視点を融合することにより、分散インフラの成長と維持におけるネットワークの役割の理解に寄与し、インターネットやWWWを含むより大規模で複雑なインターネット・ヒューマン・インフラストラクチャを理解するための新たなアプローチを明らかにする。

We propose a mixed-methods approach to understanding the human infrastructure underlying StreetNet (SNET), a distributed, community-run intranet that serves as the primary 'Internet' in Havana, Cuba. We bridge ethnographic studies and the study of social networks and organizations to understand the way that power is embedded in the structure of Havana's SNET. By quantitatively and qualitatively unpacking the human infrastructure of SNET, this work reveals how distributed infrastructure necessarily embeds the structural aspects of inequality distributed within that infrastructure. While traditional technical measurements of networks reflect the social, organizational, spatial, and technical constraints that shape the resulting network, ethnographies can help uncover the texture and role of these hidden supporting relationships. By merging these perspectives, this work contributes to our understanding of network roles in growing and maintaining distributed infrastructures, revealing new approaches to understanding larger, more complex Internet-human infrastructures---including the Internet and the WWW.
翻訳日:2023-05-22 04:01:47 公開日:2020-04-25
# 大面積原子干渉計用バイセレクティブパルス

Bi-selective pulses for large-area atom interferometry ( http://arxiv.org/abs/2004.12147v1 )

ライセンス: Link先を確認
Jack Saywell, Max Carey, Ilya Kuprov and Tim Freegarde(参考訳) 本稿では,波束運動量差の増大に伴いその忠実性を維持する大運動量移動原子干渉計の「ミラー」パルスの増倍設計について述べる。 これらのバイセレクティブパルスは、進化するバイモーダル運動量分布に最適な制御法を用いて調整され、より高い干渉面積と慣性測定感度を許容し、高rabi周波数や拡張周波数チャープを必要としない。 実験的に検証されたモデルを用いて,レーザー冷却原子試料の1$$85}$Rbのラマン転移を1$\mu$Kで刺激した原子インターフェロメトリへのパルス設計の適用をシミュレーションした。 ウェーブパックが42個の光子反動モーメントで分離された後、我々のパルスは90%のサージコントラストを維持し、断熱的なラピッドパスと従来の$\pi$パルスではコントラストは10%未満である。 さらに、これらのパルスが、他のブロードバンドパルススキームを制限する有害な非共鳴励起を抑制するためにどのように適応するかを示す。

We present designs for the augmentation 'mirror' pulses of large-momentum-transfer atom interferometers that maintain their fidelity as the wavepacket momentum difference is increased. These bi-selective pulses, tailored using optimal control methods to the evolving bi-modal momentum distribution, should allow greater interferometer areas and hence increased inertial measurement sensitivity, without requiring elevated Rabi frequencies or extended frequency chirps. Using an experimentally validated model, we have simulated the application of our pulse designs to large-momentum-transfer atom interferometry using stimulated Raman transitions in a laser-cooled atomic sample of $^{85}$Rb at 1 $\mu$K. After the wavepackets have separated by 42 photon recoil momenta, our pulses maintain a fringe contrast of 90% whereas, for adiabatic rapid passage and conventional $\pi$ pulses, the contrast is less than 10%. Furthermore, we show how these pulses may be adapted to suppress the detrimental off-resonant excitation that limits other broadband pulse schemes.
翻訳日:2023-05-22 04:00:53 公開日:2020-04-25
# 新型コロナウイルスのロックダウンが不幸せ、孤独、退屈に与える影響をGoogle Trendsで評価

Assessing the impact of the coronavirus lockdown on unhappiness, loneliness, and boredom using Google Trends ( http://arxiv.org/abs/2004.12129v1 )

ライセンス: Link先を確認
Abel Brodeur, Andrew E. Clark, Sarah Fleche and Nattavudh Powdthavee(参考訳) 新型コロナウイルス(covid-19)のパンデミックにより、多くの政府がロックダウンを実施している。 ロックダウンはウイルスの拡散を抑えるのに役立つ可能性があるが、人口の健康に重大な被害をもたらす可能性がある。 この調査は、Google Trendsのデータと、ヨーロッパとアメリカで実装されたロックダウンが、幸福なトピック検索用語の変更につながったかどうかをテストする。 ロックダウンの因果効果を評価するために異なる方法を用いることで,欧米におけるボアドムの探索強度が大幅に向上することがわかった。 また、孤独、心配、悲しみの検索が大幅に増加した一方で、ストレス、自殺、離婚の検索も減少しています。 以上の結果から,人々のメンタルヘルスはロックダウンの影響を強く受けている可能性が示唆された。

The COVID-19 pandemic has led many governments to implement lockdowns. While lockdowns may help to contain the spread of the virus, it is possible that substantial damage to population well-being will result. This study relies on Google Trends data and tests whether the lockdowns implemented in Europe and America led to changes in well-being related topic search terms. Using different methods to evaluate the causal effects of lockdown, we find a substantial increase in the search intensity for boredom in Europe and the US. We also found a significant increase in searches for loneliness, worry and sadness, while searches for stress, suicide and divorce on the contrary fell. Our results suggest that people's mental health may have been severely affected by the lockdown.
翻訳日:2023-05-22 04:00:31 公開日:2020-04-25
# 弱結合ハイブリッドシステムにおけるトルク誘起分散読み出し

Torque-induced dispersive readout in a weakly coupled hybrid system ( http://arxiv.org/abs/2004.12114v1 )

ライセンス: Link先を確認
Vahram L. Grigoryan, and Ke Xia(参考訳) 分散状態における弱結合量子ビットの量子状態読み出し機構を提案する。 ハイブリッドシステムは、マイクロ波キャビティ内の強磁性絶縁体と超伝導量子ビットからなる。 強磁性絶縁体磁化にトルクを課し、異常点に至る系の減衰を補償することにより、測定感度の向上を実現する。 提案した機械は、キャビティの伝送または磁気材料のFMR信号を介して量子状態を測定することができる。

We propose a quantum state readout mechanism of a weakly coupled qubit in dispersive regime. The hybrid system consists of ferromagnetic insulator and a superconducting qubit in a microwave cavity. The enhancement of the measurement sensitivity is achieved by exerting torque on the ferromagnetic insulator magnetization, which compensates the damping of the system leading to an exceptional point. The proposed machanism allows to measure the qubit state either via the transmission of the cavity or the FMR signal of the magnetic material.
翻訳日:2023-05-22 04:00:05 公開日:2020-04-25
# 非マルコフ量子ジャンプの拡散極限

Diffusive limit of non-Markovian quantum jumps ( http://arxiv.org/abs/2004.12072v1 )

ライセンス: Link先を確認
Kimmo Luoma, Walter T. Strunz and Jyrki Piilo(参考訳) オープン量子系力学の確率的記述に対する2つの長期的問題を解決する。 まず、射影ヒルベルト空間における非マルコフ量子状態拡散と非マルコフ量子ジャンプに対応する古典的確率過程を求める。 第二に、非マルコフ量子ジャンプの拡散極限は、非マルコフ量子状態拡散と一致するように、射影的ヒルベルト空間上で取ることができることを示す。 しかし、ヒルベルト空間上の同じ極限は、非マルコフ量子拡散 (non-markovian quantum diffusion) と呼ばれる、全く新しい拡散的拡大をもたらす。 さらに,非マルコフ量子ジャンプと非マルコフ量子拡散の応用性を,カーネル平滑化法を用いて拡張し,その使用法を単純化した。 最後に,これら3つの方法すべてを用いて非マルコフ系における2レベル2原子駆動の研究を行い,実験結果の適用性を示す。

We solve two long standing problems for stochastic descriptions of open quantum system dynamics. First, we find the classical stochastic processes corresponding to non-Markovian quantum state diffusion and non-Markovian quantum jumps in projective Hilbert space. Second, we show that the diffusive limit of non-Markovian quantum jumps can be taken on the projective Hilbert space in such a way that it coincides with non-Markovian quantum state diffusion. However, the very same limit taken on the Hilbert space leads to a completely new diffusive unraveling, which we call non-Markovian quantum diffusion. Further, we expand the applicability of non-Markovian quantum jumps and non-Markovian quantum diffusion by using a kernel smoothing technique allowing a significant simplification in their use. Lastly, we demonstrate the applicability of our results by studying a driven dissipative two level atom in a non-Markovian regime using all of the three methods.
翻訳日:2023-05-22 03:59:56 公開日:2020-04-25
# 過去の絵画:絵画のタイムラプス映像を合成する

Painting Many Pasts: Synthesizing Time Lapse Videos of Paintings ( http://arxiv.org/abs/2001.01026v2 )

ライセンス: Link先を確認
Amy Zhao, Guha Balakrishnan, Kathleen M. Lewis, Fr\'edo Durand, John V. Guttag, Adrian V. Dalca(参考訳) 我々は,ある絵画がどう作られたかを示すタイムラプス映像を合成する,新しいビデオ合成タスクを導入する。 アーティストはブラシ、ストローク、カラーのユニークな組み合わせを使って絵を描く。 多くの場合、特定の絵画を作成する多くの方法があります。 私たちの目標は、この豊富な可能性をつかむことを学ぶことです。 長期ビデオの配信を作成することは、学習に基づくビデオ合成手法の課題である。 本稿では,完成した絵画の1つのイメージを与えられた場合,絵画過程のステップを反復的に合成する確率モデルを提案する。 本稿では,このモデルを畳み込みニューラルネットワークとして実装し,絵画時間経過の限られたデータセットから学習できる新しいトレーニング手法を提案する。 我々は,このモデルを用いて多くの時間ステップをサンプリングし,長期の確率的映像合成を可能にすることを実証する。 ビデオWebサイトから収集したデジタルおよび水彩画について,本手法の評価を行い,実際のアーティストが制作したタイムラプスビデオに類似した合成ビデオを見出した。 私たちのコードはhttps://xamyzhao.github.io/timecraftで利用可能です。

We introduce a new video synthesis task: synthesizing time lapse videos depicting how a given painting might have been created. Artists paint using unique combinations of brushes, strokes, and colors. There are often many possible ways to create a given painting. Our goal is to learn to capture this rich range of possibilities. Creating distributions of long-term videos is a challenge for learning-based video synthesis methods. We present a probabilistic model that, given a single image of a completed painting, recurrently synthesizes steps of the painting process. We implement this model as a convolutional neural network, and introduce a novel training scheme to enable learning from a limited dataset of painting time lapses. We demonstrate that this model can be used to sample many time steps, enabling long-term stochastic video synthesis. We evaluate our method on digital and watercolor paintings collected from video websites, and show that human raters find our synthetic videos to be similar to time lapse videos produced by real artists. Our code is available at https://xamyzhao.github.io/timecraft.
翻訳日:2023-01-14 12:59:15 公開日:2020-04-25
# 4次元ダイナミック医療画像のための時空間体積補間ネットワーク

A Spatiotemporal Volumetric Interpolation Network for 4D Dynamic Medical Image ( http://arxiv.org/abs/2002.12680v2 )

ライセンス: Link先を確認
Yuyu Guo, Lei Bi, Euijoon Ahn, Dagan Feng, Qian Wang and Jinman Kim(参考訳) ダイナミック・メディカル・イメージングは通常、大きな放射線量と長い画像走査時間と再構成時間のため、用途で制限される。 既存の方法では、取得した画像ボリューム間のボリュームを補間することにより、動的シーケンスの削減を試みる。 しかし、これらの手法は2次元画像に制限されているか、あるいは画像ボリュームシーケンス間の動きの大きなバリエーションをサポートできない。 本稿では,4次元ダイナミック医療画像のための時空間体積補間ネットワーク(SVIN)を提案する。 1つは3d畳み込みニューラルネットワーク(cnn)を利用して2画像ボリュームから時空間運動場を導出する時空間間補間ネットワーク、もう1つは導出運動場を用いて画像ボリュームを補間するシーケンシャルボリューム的補間ネットワーク、および機能器官構造における周期的運動周期を特徴付ける新しい回帰ベースモジュールである。 また,体積の大きな解剖学的動きを捉えるための適応型マルチスケールアーキテクチャも導入する。 実験の結果,svinは容積画像をサポートするために拡張された時空間医療補間法や自然映像補間法よりも優れていた。 我々のアブレーション研究は、我々の運動ネットワークが最先端の教師なし医療登録法と比較して大きな機能的運動を表現できたことをさらに実証した。

Dynamic medical imaging is usually limited in application due to the large radiation doses and longer image scanning and reconstruction times. Existing methods attempt to reduce the dynamic sequence by interpolating the volumes between the acquired image volumes. However, these methods are limited to either 2D images and/or are unable to support large variations in the motion between the image volume sequences. In this paper, we present a spatiotemporal volumetric interpolation network (SVIN) designed for 4D dynamic medical images. SVIN introduces dual networks: first is the spatiotemporal motion network that leverages the 3D convolutional neural network (CNN) for unsupervised parametric volumetric registration to derive spatiotemporal motion field from two-image volumes; the second is the sequential volumetric interpolation network, which uses the derived motion field to interpolate image volumes, together with a new regression-based module to characterize the periodic motion cycles in functional organ structures. We also introduce an adaptive multi-scale architecture to capture the volumetric large anatomy motions. Experimental results demonstrated that our SVIN outperformed state-of-the-art temporal medical interpolation methods and natural video interpolation methods that have been extended to support volumetric images. Our ablation study further exemplified that our motion network was able to better represent the large functional motion compared with the state-of-the-art unsupervised medical registration methods.
翻訳日:2022-12-28 02:39:43 公開日:2020-04-25
# 複数の配送場所を有する生涯多エージェント経路探索問題に対するジョブアサインメント・ヒューリスティック

A Job-Assignment Heuristic for Lifelong Multi-Agent Path Finding Problem with Multiple Delivery Locations ( http://arxiv.org/abs/2003.07108v2 )

ライセンス: Link先を確認
Fatih Semiz and Faruk Polat(参考訳) 本稿では,複数のジョブ割り当てヒューリスティックスを提案し,低コストなソリューションを作成し,その中の最高の実行方法を決定する。

In this paper we proposed multiple job-assignment heuristics to generate low-total-cost solutions and determine the best performing method amongst them.
翻訳日:2022-12-23 03:51:29 公開日:2020-04-25
# Geometric Relation based Augmentation を用いた OCT 画像からの網膜領域分割

Pathological Retinal Region Segmentation From OCT Images Using Geometric Relation Based Augmentation ( http://arxiv.org/abs/2003.14119v3 )

ライセンス: Link先を確認
Dwarikanath Mahapatra, Behzad Bozorgtabar, Jean-Philippe Thiran and Ling Shao(参考訳) 医用画像分割はコンピュータ診断にとって重要な課題である。 大規模なデータセットに対するpixelwiseの手動アノテーションは、高度な専門知識と時間がかかります。 従来のデータ拡張は、トレーニングセットの基本的な分布を完全に表現しないため、異なるソースから取得した画像でテストした場合、モデルの堅牢性に影響を与える。 先行研究は、異なる解剖学的ラベル間の幾何学的関係を無視するデータ拡張のために合成画像を活用する。 本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法の改善を提案する。 潜在空間変数サンプリングはベース画像から多様な画像を生成することができ、ロバスト性が向上する。 本手法により生成された拡張画像から,網膜光コヒーレンス断層撮影(OCT)画像のセグメンテーション性能を高めるためにセグメンテーションネットワークを訓練する。 提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。 アブレーション研究と視覚分析は、幾何学と多様性を統合する利点も示している。

Medical image segmentation is an important task for computer aided diagnosis. Pixelwise manual annotations of large datasets require high expertise and is time consuming. Conventional data augmentations have limited benefit by not fully representing the underlying distribution of the training set, thus affecting model robustness when tested on images captured from different sources. Prior work leverages synthetic images for data augmentation ignoring the interleaved geometric relationship between different anatomical labels. We propose improvements over previous GAN-based medical image synthesis methods by jointly encoding the intrinsic relationship of geometry and shape. Latent space variable sampling results in diverse generated images from a base image and improves robustness. Given those augmented images generated by our method, we train the segmentation network to enhance the segmentation performance of retinal optical coherence tomography (OCT) images. The proposed method outperforms state-of-the-art segmentation methods on the public RETOUCH dataset having images captured from different acquisition procedures. Ablation studies and visual analysis also demonstrate benefits of integrating geometry and diversity.
翻訳日:2022-12-18 01:41:48 公開日:2020-04-25
# エンターメントコーン埋め込みを用いた階層画像分類

Hierarchical Image Classification using Entailment Cone Embeddings ( http://arxiv.org/abs/2004.03459v2 )

ライセンス: Link先を確認
Ankit Dhall, Anastasia Makarova, Octavian Ganea, Dario Pavllo, Michael Greeff, Andreas Krause(参考訳) 画像分類は広く研究されてきたが、伝統的な画像ラベルペア以外の非従来的、外部的な指導を訓練に使用する作業は限られている。 本稿では,クラスラベルに埋め込まれた意味階層の情報を活用する手法を提案する。 まずラベル階層の知識を任意のCNNベースの分類器に注入し、画像からの視覚的セマンティクスと組み合わせた外部意味情報の活用が全体的な性能を高めることを実証的に示す。 この方向に一歩進んでいくと、ユークリッドと双曲幾何学の両方が支配する順序保存埋め込みを用いてラベルとラベルと画像の相互作用をより明確にモデル化し、それらを階層的な画像分類と表現学習に合わせる。 階層型ETHECデータセット上のすべてのモデルを実証的に検証する。

Image classification has been studied extensively, but there has been limited work in using unconventional, external guidance other than traditional image-label pairs for training. We present a set of methods for leveraging information about the semantic hierarchy embedded in class labels. We first inject label-hierarchy knowledge into an arbitrary CNN-based classifier and empirically show that availability of such external semantic information in conjunction with the visual semantics from images boosts overall performance. Taking a step further in this direction, we model more explicitly the label-label and label-image interactions using order-preserving embeddings governed by both Euclidean and hyperbolic geometries, prevalent in natural language, and tailor them to hierarchical image classification and representation learning. We empirically validate all the models on the hierarchical ETHEC dataset.
翻訳日:2022-12-17 09:27:43 公開日:2020-04-25
# 創発的言語一般化と獲得速度は構成性に結びついていない

Emergent Language Generalization and Acquisition Speed are not tied to Compositionality ( http://arxiv.org/abs/2004.03420v2 )

ライセンス: Link先を確認
Eugene Kharitonov and Marco Baroni(参考訳) ニューラルエージェントが結合タスクを解くために通信する際に現れる離散言語の研究は、しばしば構成構造の証拠を探す。 このことは、そのような構造がエージェントによって言語をより早く取得し、より一般化できることを期待している。 これらの有益性は構成性にのみゆるく結びついている。 2つの実験において、非構成言語は、そのタスクによって、構成言語と同等かそれ以上の一般化性能と獲得速度を示すことを示した。 この分野のさらなる研究は、構成性から何の利益が期待できるか、そして後者がどのようにそれらに結びつくかを明確にする必要がある。

Studies of discrete languages emerging when neural agents communicate to solve a joint task often look for evidence of compositional structure. This stems for the expectation that such a structure would allow languages to be acquired faster by the agents and enable them to generalize better. We argue that these beneficial properties are only loosely connected to compositionality. In two experiments, we demonstrate that, depending on the task, non-compositional languages might show equal, or better, generalization performance and acquisition speed than compositional ones. Further research in the area should be clearer about what benefits are expected from compositionality, and how the latter would lead to them.
翻訳日:2022-12-15 22:53:51 公開日:2020-04-25
# 2つのツールキットの物語 第3報:HIVE-COTE v1.0の使用と性能について

A tale of two toolkits, report the third: on the usage and performance of HIVE-COTE v1.0 ( http://arxiv.org/abs/2004.06069v2 )

ライセンス: Link先を確認
Anthony Bagnall, Michael Flynn, James Large, Jason Lines and Matthew Middlehurst(参考訳) Hierarchical Vote Collective of Transformation-based Ensembles (HIVE-COTE) は時系列分類のための異種メタアンサンブルである。 2016年に最初に提案されて以来、アルゴリズムにはいくつかのマイナーな変更があり、2つのオープンソースリポジトリで利用可能な構成可能でスケーラブルで使いやすいバージョンがある。 本稿では,最新の安定hive-coteであるバージョン1.0の概要と,オリジナルとの違いについて述べる。 分類器の使用方法に関するウォークスルーガイドを提供し,その予測性能と資源利用に関する広範な実験評価を行う。 HIVE-COTEの性能を最近提案した3つのアルゴリズムと比較する。

The Hierarchical Vote Collective of Transformation-based Ensembles (HIVE-COTE) is a heterogeneous meta ensemble for time series classification. Since it was first proposed in 2016, the algorithm has undergone some minor changes and there is now a configurable, scalable and easy to use version available in two open source repositories. We present an overview of the latest stable HIVE-COTE, version 1.0, and describe how it differs to the original. We provide a walkthrough guide of how to use the classifier, and conduct extensive experimental evaluation of its predictive performance and resource usage. We compare the performance of HIVE-COTE to three recently proposed algorithms.
翻訳日:2022-12-13 23:26:23 公開日:2020-04-25
# 移動しながら考える - 同時制御による深層強化学習

Thinking While Moving: Deep Reinforcement Learning with Concurrent Control ( http://arxiv.org/abs/2004.06089v4 )

ライセンス: Link先を確認
Ted Xiao, Eric Jang, Dmitry Kalashnikov, Sergey Levine, Julian Ibarz, Karol Hausman, Alexander Herzog(参考訳) 本研究は,ロボットが以前の動作を継続しながら次の動作を決定する場合など,制御システムの時間的進化とともに,ポリシーからアクションをサンプリングする必要がある状況下で強化学習を研究する。 人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。 このような並列制御問題に対するアルゴリズム的フレームワークを開発するために,ベルマン方程式の連続的な定式化から始めて,システムの遅延に気付く方法でそれらを識別する。 既存のバリューベース深層強化学習アルゴリズムへの単純なアーキテクチャ拡張によって、この新しいタイプの近似動的プログラミング手法をインスタンス化する。 提案手法は,シミュレーションによるベンチマークタスクと,ロボットが「移動しながら考える」必要がある大規模ロボット把持タスクについて評価する。

We study reinforcement learning in settings where sampling an action from the policy must be done concurrently with the time evolution of the controlled system, such as when a robot must decide on the next action while still performing the previous action. Much like a person or an animal, the robot must think and move at the same time, deciding on its next action before the previous one has completed. In order to develop an algorithmic framework for such concurrent control problems, we start with a continuous-time formulation of the Bellman equations, and then discretize them in a way that is aware of system delays. We instantiate this new class of approximate dynamic programming methods via a simple architectural extension to existing value-based deep reinforcement learning algorithms. We evaluate our methods on simulated benchmark tasks and a large-scale robotic grasping task where the robot must "think while moving".
翻訳日:2022-12-13 23:09:30 公開日:2020-04-25
# ヒンディー語とパンジャービ語におけるオーソグラフィシュワのグラファイム・ツー・フォネム変換の監督

Supervised Grapheme-to-Phoneme Conversion of Orthographic Schwas in Hindi and Punjabi ( http://arxiv.org/abs/2004.10353v2 )

ライセンス: Link先を確認
Aryaman Arora, Luke Gessler, Nathan Schneider(参考訳) Hindi grapheme-to-phoneme (G2P) 変換は、正書法で表される schwa が発音されるか、未発音(削除)されるかという例外を除いて、ほとんど自明である。 従来の研究は、韻律や音声分析を用いて、規則に基づく方法でシュワの削除を予測しようと試みてきた。 我々は、ヒンディー語に対する最初の統計シュワッチ削除分類器を提示する。これは、入力として正書法のみに依存し、以前のアプローチを上回っている。 様々なオンライン辞書から抽出した発音レキシコンを用いて学習した。 我々の最高のヒンディー語モデルは、芸術的パフォーマンスの状態を達成し、また、近縁な言語であるパンジャービにおいて、変更することなく優れたパフォーマンスを達成する。

Hindi grapheme-to-phoneme (G2P) conversion is mostly trivial, with one exception: whether a schwa represented in the orthography is pronounced or unpronounced (deleted). Previous work has attempted to predict schwa deletion in a rule-based fashion using prosodic or phonetic analysis. We present the first statistical schwa deletion classifier for Hindi, which relies solely on the orthography as the input and outperforms previous approaches. We trained our model on a newly-compiled pronunciation lexicon extracted from various online dictionaries. Our best Hindi model achieves state of the art performance, and also achieves good performance on a closely related language, Punjabi, without modification.
翻訳日:2022-12-10 18:04:40 公開日:2020-04-25
# クエンテーションパーシングのための合成対実参照文字列と意味のある評価のための再学習と外サンプルデータの重要性:GROBID,GIANT,Colaを用いた実験

Synthetic vs. Real Reference Strings for Citation Parsing, and the Importance of Re-training and Out-Of-Sample Data for Meaningful Evaluations: Experiments with GROBID, GIANT and Cora ( http://arxiv.org/abs/2004.10410v2 )

ライセンス: Link先を確認
Mark Grennan, Joeran Beel(参考訳) クエンテーション解析、特にディープニューラルネットワークでは、利用可能なデータセットは通常、数千のトレーニングインスタンスのみを含むため、トレーニングデータの不足に悩まされる。 手作業による引用文字列のラベリングは非常に時間を要するため、合成的に生成されたトレーニングデータが解決策になり得る。 しかし、現在、合成された参照文字列が引用解析のための機械学習アルゴリズムの訓練に適しているかどうかは不明である。 確認するために、条件付きランダムフィールドを使用するGrobidをトレーニングします。 a)「現実」の書誌学と人為的な参照文字列 b) GIANTデータセットから合成された参照文字列。 合成および有機参照文字列は共にグロビッドの訓練に等しく適している(f1 = 0.74)。 また、Grobidの再訓練は、合成データと実データの両方(F1では30%以上)のパフォーマンスに顕著な影響を与えている。 トレーニング中に可能な限り多くのラベル付きフィールドを持つことで、評価データ(+13.5% F1)でこれらのフィールドが利用できない場合でも、有効性が向上する。 合成データは(深い)引用解析モデルの訓練に適していると結論づける。 さらに,今後の参照パーサの評価において,学習データに類似した評価データと異質な評価データの両方を,より有意義な評価に使用するべきであることを示唆する。

Citation parsing, particularly with deep neural networks, suffers from a lack of training data as available datasets typically contain only a few thousand training instances. Manually labelling citation strings is very time-consuming, hence synthetically created training data could be a solution. However, as of now, it is unknown if synthetically created reference-strings are suitable to train machine learning algorithms for citation parsing. To find out, we train Grobid, which uses Conditional Random Fields, with a) human-labelled reference strings from 'real' bibliographies and b) synthetically created reference strings from the GIANT dataset. We find that both synthetic and organic reference strings are equally suited for training Grobid (F1 = 0.74). We additionally find that retraining Grobid has a notable impact on its performance, for both synthetic and real data (+30% in F1). Having as many types of labelled fields as possible during training also improves effectiveness, even if these fields are not available in the evaluation data (+13.5% F1). We conclude that synthetic data is suitable for training (deep) citation parsing models. We further suggest that in future evaluations of reference parsers both evaluation data similar and dissimilar to the training data should be used for more meaningful evaluations.
翻訳日:2022-12-10 17:48:38 公開日:2020-04-25
# 非凸領域の微分方程式に対するニューラルネットワーク解:スリットウェルマイクロ流体デバイスにおける電場を解く

Neural Network Solutions to Differential Equations in Non-Convex Domains: Solving the Electric Field in the Slit-Well Microfluidic Device ( http://arxiv.org/abs/2004.12235v1 )

ライセンス: Link先を確認
Martin Magill and Andrew M. Nagel and Hendrick W. de Haan(参考訳) 微分方程式を解くニューラルネットワーク法は、スリットウェルマイクロ流体装置の電位と対応する電場を近似するために用いられる。 装置の形状は凸でないため、ニューラルネットワーク法を用いて解くのが難しい問題である。 この手法を検証するために、ニューラルネットワーク解を有限要素法を用いて得られた参照解と比較する。 トレーニング中に明示的に強制されない重要な物理的不変量(空間対称性と電気フラックスの保存)をニューラルネットワークがいかにうまく回復するかを測定するための追加メトリクスが提示される。 最後に,応用別妥当性試験として,ニューラルネットワーク電場を粒子シミュレーションに組み込む。 都合のよいことに、ニューラルネットワークのトレーニングに使用される同じ損失関数は、ここで検討した指標のいずれかで測定されたように、ネットワークの真のエラーの信頼できる推定子でもあるようだ。 すべての測定値において、ディープニューラルネットワークは、計算コストによって正規化されても、浅いニューラルネットワークを著しく上回っている。 以上より, 粒子シミュレーションなどの物理計算において, ニューラルネットワーク法が適用可能な精度の解を確実に生成できることが示唆された。

The neural network method of solving differential equations is used to approximate the electric potential and corresponding electric field in the slit-well microfluidic device. The device's geometry is non-convex, making this a challenging problem to solve using the neural network method. To validate the method, the neural network solutions are compared to a reference solution obtained using the finite element method. Additional metrics are presented that measure how well the neural networks recover important physical invariants that are not explicitly enforced during training: spatial symmetries and conservation of electric flux. Finally, as an application-specific test of validity, neural network electric fields are incorporated into particle simulations. Conveniently, the same loss functional used to train the neural networks also seems to provide a reliable estimator of the networks' true errors, as measured by any of the metrics considered here. In all metrics, deep neural networks significantly outperform shallow neural networks, even when normalized by computational cost. Altogether, the results suggest that the neural network method can reliably produce solutions of acceptable accuracy for use in subsequent physical computations, such as particle simulations.
翻訳日:2022-12-09 22:21:45 公開日:2020-04-25
# 深部光子マッピング

Deep Photon Mapping ( http://arxiv.org/abs/2004.12069v1 )

ライセンス: Link先を確認
Shilin Zhu, Zexiang Xu, Henrik Wann Jensen, Hao Su, Ravi Ramamoorthi(参考訳) 近年,深層学習に基づくデノイジング手法がモンテカルロの低サンプル数レンダリングを劇的に改善している。 これらのアプローチは経路追跡を目標としており、光子マッピングが選択方法である因果関係のような難解な光輸送効果をシミュレートするには理想的ではない。 しかし、光子マッピングは高品質な再構成を達成するために非常に多くのトレース光子を必要とする。 本稿では,素粒子レンダリングのための最初の深層学習に基づく手法を開発し,全ての素粒子レンダリング法の中核である光子密度推定に焦点をあてた。 我々は、カーネル関数を予測するために新しいディープニューラルネットワークをトレーニングし、シェーディングポイントでの光子寄与を集約する。 我々のネットワークは個々の光子を光子当たりの特徴にエンコードし、それらをシェーディングポイントの近傍に集約して光子ローカルコンテキストベクトルを構築し、光子毎および光子ローカルコンテキスト特徴からカーネル関数を推測する。 このネットワークは、従来の多くのフォトンマッピング法(カーネル密度推定器を単純に交換することで)に組み込むのが容易であり、コースティックスのような複雑なグローバル照明効果を、従来のフォトンマッピング法よりも桁違いに少ないフォトンで高品質に再構成することができる。

Recently, deep learning-based denoising approaches have led to dramatic improvements in low sample-count Monte Carlo rendering. These approaches are aimed at path tracing, which is not ideal for simulating challenging light transport effects like caustics, where photon mapping is the method of choice. However, photon mapping requires very large numbers of traced photons to achieve high-quality reconstructions. In this paper, we develop the first deep learning-based method for particle-based rendering, and specifically focus on photon density estimation, the core of all particle-based methods. We train a novel deep neural network to predict a kernel function to aggregate photon contributions at shading points. Our network encodes individual photons into per-photon features, aggregates them in the neighborhood of a shading point to construct a photon local context vector, and infers a kernel function from the per-photon and photon local context features. This network is easy to incorporate in many previous photon mapping methods (by simply swapping the kernel density estimator) and can produce high-quality reconstructions of complex global illumination effects like caustics with an order of magnitude fewer photons compared to previous photon mapping methods.
翻訳日:2022-12-09 22:21:28 公開日:2020-04-25
# 都市異常分析 : 記述・検出・予測

Urban Anomaly Analytics: Description, Detection, and Prediction ( http://arxiv.org/abs/2004.12094v1 )

ライセンス: Link先を確認
Mingyang Zhang, Tong Li, Yue Yu, Yong Li, Pan Hui, Yu Zheng(参考訳) 都市異常は、適切に扱わなければ、生命や財産が失われる可能性がある。 早期の異常を自動で警告したり、発生前の異常を予測したりすることは、人口にとって大きな価値がある。 近年,都市ビッグデータと機械学習アルゴリズムを用いて都市異常を自動的に検出・予測するデータ駆動型都市異常解析フレームワークが作成されている。 本研究では,都市異常解析に関する最新研究を総合的に概観する。 まず、交通異常、予期せぬ群衆、環境異常、個人の異常という4つの主要なタイプの都市異常の概要を示す。 次に,軌道,旅行記録,CDR,都市センサ,イベント記録,環境データ,ソーシャルメディア,監視カメラなど,多様なデバイスから得られるさまざまな種類の都市データセットを要約する。 その後,都市異常の検出と予測手法に関する包括的調査を行った。 最後に、研究課題とオープン問題について論じる。

Urban anomalies may result in loss of life or property if not handled properly. Automatically alerting anomalies in their early stage or even predicting anomalies before happening are of great value for populations. Recently, data-driven urban anomaly analysis frameworks have been forming, which utilize urban big data and machine learning algorithms to detect and predict urban anomalies automatically. In this survey, we make a comprehensive review of the state-of-the-art research on urban anomaly analytics. We first give an overview of four main types of urban anomalies, traffic anomaly, unexpected crowds, environment anomaly, and individual anomaly. Next, we summarize various types of urban datasets obtained from diverse devices, i.e., trajectory, trip records, CDRs, urban sensors, event records, environment data, social media and surveillance cameras. Subsequently, a comprehensive survey of issues on detecting and predicting techniques for urban anomalies is presented. Finally, research challenges and open problems as discussed.
翻訳日:2022-12-09 22:21:06 公開日:2020-04-25
# 再構成・ラスタライズ・バックプロップ:単一画像からの高密度形状とポーズ推定

Reconstruct, Rasterize and Backprop: Dense shape and pose estimation from a single image ( http://arxiv.org/abs/2004.12232v1 )

ライセンス: Link先を確認
Aniket Pokale, Aditya Aggarwal, K. Madhava Krishna(参考訳) 本稿では,1枚の画像から6-DoFポーズとともに高密度物体再構成を行うシステムを提案する。 高忠実度再構築に向けて、最近のいくつかのアプローチでは、暗黙的な表面表現とディープニューラルネットワークを活用して、1つの画像からオブジェクトの3Dメッシュを推定している。 しかし、このようなアプローチはすべて物体の形状だけを復元するものであり、その復元はしばしば標準的なフレームで行われ、下流ロボットの作業には適さない。 この目的のために, 微分可能レンダリング(特にラスタライズ)の最近の進歩を利用して, カメラフレームの3次元再構成によりループを閉じる。 提案手法は,従来の手法に比べて有意に低いポーズ推定誤差を達成し,画像から高密度な物体形状やポーズを復元できることを実証する。 この結果をさらに(オフラインで)設定に拡張し、密度の高いモノクロオブジェクト中心のエゴモーション推定システムを示す。

This paper presents a new system to obtain dense object reconstructions along with 6-DoF poses from a single image. Geared towards high fidelity reconstruction, several recent approaches leverage implicit surface representations and deep neural networks to estimate a 3D mesh of an object, given a single image. However, all such approaches recover only the shape of an object; the reconstruction is often in a canonical frame, unsuitable for downstream robotics tasks. To this end, we leverage recent advances in differentiable rendering (in particular, rasterization) to close the loop with 3D reconstruction in camera frame. We demonstrate that our approach---dubbed reconstruct, rasterize and backprop (RRB) achieves significantly lower pose estimation errors compared to prior art, and is able to recover dense object shapes and poses from imagery. We further extend our results to an (offline) setup, where we demonstrate a dense monocular object-centric egomotion estimation system.
翻訳日:2022-12-09 22:20:53 公開日:2020-04-25
# アクティブ音声認証

Active Voice Authentication ( http://arxiv.org/abs/2004.12071v1 )

ライセンス: Link先を確認
Zhong Meng, M Umair Bin Altaf, Biing-Hwang (Fred) Juang(参考訳) アクティブ認証(active authentication)は、認証されたサービスへのアクセスやデバイスの使用をリアルタイムまたはほぼリアルタイムに監視するために、バイオメトリックインジケータを継続的にテストする、新しいアイデンティティ検証モードを指す。 これは、パスワードのような検証トークン形式で1つのテストを実行する従来の認証システムとは対照的である。 アクティブボイス認証(ava)では、音声は生体認証のモダリティである。 本稿では,従来の短い音声検査信号を用いて,信頼性の高い話者検証を可能にする手法について述べる。 これらのテクニックには、極めて短いトレーニングとテスト要件に適したモデル適応と最小検証誤差(MVE)トレーニングが含まれる。 このシステムを開発するために25人の話者のデータベースが記録される。 本データセットのオフライン評価では, モデル構成によって平均ウィンドウベース等角誤差率3~4%を達成し, 音声データの1秒間のみが認証決定に使用されることを考えると注目すべきである。 NIST SRE 2001 Datasetでは、テストセグメントの持続時間が1秒である場合、i-vectorよりも3.88%の絶対的なゲインを提供する。 リアルタイムのデモシステムはMicrosoft Surface Proで実装されている。

Active authentication refers to a new mode of identity verification in which biometric indicators are continuously tested to provide real-time or near real-time monitoring of an authorized access to a service or use of a device. This is in contrast to the conventional authentication systems where a single test in form of a verification token such as a password is performed. In active voice authentication (AVA), voice is the biometric modality. This paper describes an ensemble of techniques that make reliable speaker verification possible using unconventionally short voice test signals. These techniques include model adaptation and minimum verification error (MVE) training that are tailored for the extremely short training and testing requirements. A database of 25 speakers is recorded for developing this system. In our off-line evaluation on this dataset, the system achieves an average windowed-based equal error rates of 3-4% depending on the model configuration, which is remarkable considering that only 1 second of voice data is used to make every single authentication decision. On the NIST SRE 2001 Dataset, the system provides a 3.88% absolute gain over i-vector when the duration of test segment is 1 second. A real-time demonstration system has been implemented on Microsoft Surface Pro.
翻訳日:2022-12-09 22:19:52 公開日:2020-04-25
# 分子モデルとシミュレーションのための深層学習の展望

A Perspective on Deep Learning for Molecular Modeling and Simulations ( http://arxiv.org/abs/2004.13011v1 )

ライセンス: Link先を確認
Jun Zhang, Yao-Kun Lei, Zhen Zhang, Junhan Chang, Maodong Li, Xu Han, Lijiang Yang, Yi Isaac Yang and Yi Qin Gao(参考訳) 深層学習は科学の多くの領域を変えつつあり、分子システムをモデル化する大きな可能性を持っている。 しかし、コンピュータビジョンや自然言語処理におけるディープラーニングの成熟した展開とは異なり、分子モデリングやシミュレーションにおけるその開発はまだ初期段階にある。 これらの違いに着目し、分子物理学の観点から従来のディープラーニングモデルの限界を初めてレビューし、分子モデリングとディープラーニングのインターフェイスにおける関連する技術的進歩をまとめました。 私たちは単に、より複雑なニューラルネットワークモデルだけに焦点を当てるのではなく、現代のディープラーニングの背後にある理論とアイデアを強調します。 これらのアイデアを分子モデルに変換することで、新たな機会が生まれることを期待しています。 そこで我々は,教師なしから教師なし,強化学習まで,いくつかの代表的な応用を要約し,深層学習の新たな潮流との関係について考察した。 最後に,分子深部モデリングの現在の枠組みにおける既存の問題に対処するための有望な方向性を概観する。

Deep learning is transforming many areas in science, and it has great potential in modeling molecular systems. However, unlike the mature deployment of deep learning in computer vision and natural language processing, its development in molecular modeling and simulations is still at an early stage, largely because the inductive biases of molecules are completely different from those of images or texts. Footed on these differences, we first reviewed the limitations of traditional deep learning models from the perspective of molecular physics, and wrapped up some relevant technical advancement at the interface between molecular modeling and deep learning. We do not focus merely on the ever more complex neural network models, instead, we emphasize the theories and ideas behind modern deep learning. We hope that transacting these ideas into molecular modeling will create new opportunities. For this purpose, we summarized several representative applications, ranging from supervised to unsupervised and reinforcement learning, and discussed their connections with the emerging trends in deep learning. Finally, we outlook promising directions which may help address the existing issues in the current framework of deep molecular modeling.
翻訳日:2022-12-09 22:19:08 公開日:2020-04-25
# 責任安全ルールのモニタリングによる検索ベーステストケース生成

Search-based Test-Case Generation by Monitoring Responsibility Safety Rules ( http://arxiv.org/abs/2005.00326v1 )

ライセンス: Link先を確認
Mohammad Hekmatnejad, Bardh Hoxha and Georgios Fainekos(参考訳) サイバー物理システム(CPS)としての自動車両(AV)の安全性は、構成モジュール(ソフトウェアとハードウェア)の安全性と厳密な統合に依存している。 ディープラーニングは、AVにおける知覚、予測、意思決定に使用される主要なテクニックの1つである。 予測と意思決定の正確さは、基礎となるディープラーニングのトレーニングに使用されるテストに大きく依存する。 本研究では,シミュレーションに基づく運転テストデータのスクリーニングと分類を行う手法を提案する。 本手法は, 評価試験データの生成と選択を自動で行う手法である, モニタリングとファルシフィケーション技術に基づく。 責任感性安全性(Responsibility Sensitive Safety, RSS)ルールを基準として, RSSの仮定を満たさないランダムテストのフィルタリングを行った。 したがって、残りのテストは、制御された車両がその環境に安全に反応しない運転シナリオをカバーする。 本フレームワークは,S-TALIROおよびSim-ATAVツールとともに配布されている。

The safety of Automated Vehicles (AV) as Cyber-Physical Systems (CPS) depends on the safety of their consisting modules (software and hardware) and their rigorous integration. Deep Learning is one of the dominant techniques used for perception, prediction, and decision making in AVs. The accuracy of predictions and decision-making is highly dependant on the tests used for training their underlying deep-learning. In this work, we propose a method for screening and classifying simulation-based driving test data to be used for training and testing controllers. Our method is based on monitoring and falsification techniques, which lead to a systematic automated procedure for generating and selecting qualified test data. We used Responsibility Sensitive Safety (RSS) rules as our qualifier specifications to filter out the random tests that do not satisfy the RSS assumptions. Therefore, the remaining tests cover driving scenarios that the controlled vehicle does not respond safely to its environment. Our framework is distributed with the publicly available S-TALIRO and Sim-ATAV tools.
翻訳日:2022-12-09 22:18:50 公開日:2020-04-25
# 演奏パワーロー分布におけるユーザの特徴付けを伴うセッションベースの楽曲推薦手法

A session-based song recommendation approach involving user characterization along the play power-law distribution ( http://arxiv.org/abs/2004.13007v1 )

ライセンス: Link先を確認
Diego S\'anchez-Moreno, Vivian F. L\'opez Batista, M. Dolores Mu\~noz Vicente, Ana B. Gil Gonz\'alez and Mar\'ia N. Moreno-Garc\'ia(参考訳) 近年、音楽ストリーミングプラットフォームは、これらのシステムがユーザに提供する膨大な数の曲によって、非常に人気が高まっている。 この巨大な可用性は、ユーザーが好きな音楽を選ぶのに役立つレコメンデーションメカニズムを組み込む必要があることを意味する。 しかし、音楽分野における信頼性の高いレコメンデータシステムの開発には、多くの問題を扱うことが必要であり、その一部は汎用的で、文献で広く研究されているものもあれば、この応用領域に特有なものもあるため、あまり知られていないものもある。 本研究は,灰色シープユーザの管理と暗黙的な評価の獲得という,あまり注目されていない2つの重要な課題に焦点を当てている。 最初のものは通常、取得が難しいコンテンツ情報に頼ることで対処される。 もう1つの欠点は、明示的な評価を収集する障害がある場合に生じるスパーシティ問題に関連している。 本研究では,ユーザのストリーミングセッションに基づく推奨アプローチによって,参照される欠点に対処する。 本手法は,ユーザの聴取行動を表すよく知られたパワーロー確率分布の管理を目的とした。 本提案では,グレーシープ問題に対処する手順の複雑さを低減しつつ,協調フィルタリング手法の信頼性を向上させる。

In recent years, streaming music platforms have become very popular mainly due to the huge number of songs these systems make available to users. This enormous availability means that recommendation mechanisms that help users to select the music they like need to be incorporated. However, developing reliable recommender systems in the music field involves dealing with many problems, some of which are generic and widely studied in the literature, while others are specific to this application domain and are therefore less well-known. This work is focused on two important issues that have not received much attention: managing gray-sheep users and obtaining implicit ratings. The first one is usually addressed by resorting to content information that is often difficult to obtain. The other drawback is related to the sparsity problem that arises when there are obstacles to gather explicit ratings. In this work, the referred shortcomings are addressed by means of a recommendation approach based on the users' streaming sessions. The method is aimed at managing the well-known power-law probability distribution representing the listening behavior of users. This proposal improves the recommendation reliability of collaborative filtering methods while reducing the complexity of the procedures used so far to deal with the gray-sheep problem.
翻訳日:2022-12-09 22:18:34 公開日:2020-04-25
# 多型資源配分の確率的シリアルメカニズム

Probabilistic Serial Mechanism for Multi-Type Resource Allocation ( http://arxiv.org/abs/2004.12062v1 )

ライセンス: Link先を確認
Xiaoxi Guo, Sujoy Sikdar, Haibin Wang, Lirong Xia, Yongzhi Cao, Hanpin Wang(参考訳) マルチタイプリソース割り当て(MTRA)問題では、p$\ge$2のアイテムとnエージェントがあり、それぞれが各タイプのアイテムの1つのユニットを要求し、各タイプの1つのアイテムからなるバンドルよりも厳密な線形嗜好を持つ。 非可分な項目を持つ MTRA に対して、最初の結果は単型 (p = 1) の設定と直接対照的な不合理性定理である: メカニズムなし、その出力は常に離散代入上の確率分布に分解可能であり(エージェント間でアイテムが分割されない)、sd-効率とsd-envy-freenessの両方を満たすことができる。 この不可能性を回避すべく,辞書選好の自然な仮定を考察し,確率的連続 (ps) の拡張として lexicographic probabilistic serial (lexips) を提案する。 lexipsがsd効率とsd-envy-freenessを満足し、psの望ましい特性を保っていることを証明した。 さらにlexipsは、エージェントが彼らの重要な命令を誤って報告できない場合、sd-weak-strategyproofnessを満たす。 分割可能な項目を持つmtraに対して,既存のマルチタイプ確率直列(mps)機構はレキシ効率のより強力な効率概念を満足し,厳密な線形選好下ではsd-envyフリーであり,辞書選好下ではsd-weak-strategyproofであることを示す。 また,MPSはレキシミン最適性とアイテムワイドの順序性の両方で特徴付けることができ,MPSに属する摂食アルゴリズムのファミリーは,非一般化サイクル条件で特徴付けることができることを示した。

In multi-type resource allocation (MTRA) problems, there are p $\ge$ 2 types of items, and n agents, who each demand one unit of items of each type, and have strict linear preferences over bundles consisting of one item of each type. For MTRAs with indivisible items, our first result is an impossibility theorem that is in direct contrast to the single type (p = 1) setting: No mechanism, the output of which is always decomposable into a probability distribution over discrete assignments (where no item is split between agents), can satisfy both sd-efficiency and sd-envy-freeness. To circumvent this impossibility result, we consider the natural assumption of lexicographic preference, and provide an extension of the probabilistic serial (PS), called lexicographic probabilistic serial (LexiPS).We prove that LexiPS satisfies sd-efficiency and sd-envy-freeness, retaining the desirable properties of PS. Moreover, LexiPS satisfies sd-weak-strategyproofness when agents are not allowed to misreport their importance orders. For MTRAs with divisible items, we show that the existing multi-type probabilistic serial (MPS) mechanism satisfies the stronger efficiency notion of lexi-efficiency, and is sd-envy-free under strict linear preferences, and sd-weak-strategyproof under lexicographic preferences. We also prove that MPS can be characterized both by leximin-ptimality and by item-wise ordinal fairness, and the family of eating algorithms which MPS belongs to can be characterized by no-generalized-cycle condition.
翻訳日:2022-12-09 22:12:16 公開日:2020-04-25
# 音声翻訳のための共同学習型トランスフォーマーモデル

Jointly Trained Transformers models for Spoken Language Translation ( http://arxiv.org/abs/2004.12111v1 )

ライセンス: Link先を確認
Hari Krishna Vydana, Martin Karafi'at, Katerina Zmolikova, Luk'as Burget, Honza Cernocky(参考訳) 従来のsltシステムはパイプラインベースのシステムであり、音声からテキストへのソースのモーダリティを変換する自動音声認識(asr)システムと、対象言語でソーステキストをテキストに変換する機械翻訳(mt)システムがある。 シーケンスシーケンスアーキテクチャの最近の進歩は、パイプラインベースのSLTシステム(ASR-MT)とEnd-to-Endアプローチのパフォーマンスギャップを減らしている。 エンド・ツー・エンド(End-to-End)およびカスケードされたASR-MTシステムは同等の性能に到達しているが、ASR仮説とオラクルテキストw.r.t MTモデルを用いて大きなパフォーマンスギャップを見ることができる。 この性能差は、MTシステムは、オラクルテキストの書き起こしとは対照的に、ノイズの多いASR仮説による大きな性能劣化の傾向を示す。 本研究では、ASRとMTシステム間のエンドツーエンドの差別化可能なパイプラインを作成することにより、この性能劣化を低減させる。 本研究では,asr目的のsltシステムを補助損失として訓練し,両ネットワークはニューラルネットワークの隠れ表現を介して接続される。 この列車ingは最終目的関数への終端から終端の微分可能な経路 w.r.t を持ち、sltシステムの性能向上のためにasr目標を利用する。 このアーキテクチャは bleu から 36.8 から 44.5 に改善された。 マルチタスクトレーニングのため、モデルはまた、事前訓練されたmtモデルによって使用されるasr仮説を生成する。 提案したシステムとMTモデルを組み合わせることで,BLEUスコアは1。 全実験はハウ2コーパスを用いた英語・ポルトガル語音声翻訳タスクで報告する。 最後のBLEUスコアは、How2データセット上の最高の音声翻訳システムと同等であり、追加のトレーニングデータと言語モデルがなく、パラメータもはるかに少ない。

Conventional spoken language translation (SLT) systems are pipeline based systems, where we have an Automatic Speech Recognition (ASR) system to convert the modality of source from speech to text and a Machine Translation (MT) systems to translate source text to text in target language. Recent progress in the sequence-sequence architectures have reduced the performance gap between the pipeline based SLT systems (cascaded ASR-MT) and End-to-End approaches. Though End-to-End and cascaded ASR-MT systems are reaching to the comparable levels of performances, we can see a large performance gap using the ASR hypothesis and oracle text w.r.t MT models. This performance gap indicates that the MT systems are prone to large performance degradation due to noisy ASR hypothesis as opposed to oracle text transcript. In this work this degradation in the performance is reduced by creating an end to-end differentiable pipeline between the ASR and MT systems. In this work, we train SLT systems with ASR objective as an auxiliary loss and both the networks are connected through the neural hidden representations. This train ing would have an End-to-End differentiable path w.r.t to the final objective function as well as utilize the ASR objective for better performance of the SLT systems. This architecture has improved from BLEU from 36.8 to 44.5. Due to the Multi-task training the model also generates the ASR hypothesis which are used by a pre-trained MT model. Combining the proposed systems with the MT model has increased the BLEU score by 1. All the experiments are reported on English-Portuguese speech translation task using How2 corpus. The final BLEU score is on-par with the best speech translation system on How2 dataset with no additional training data and language model and much less parameters.
翻訳日:2022-12-09 22:11:42 公開日:2020-04-25
# QURATOR:コンテンツとデータキュレーションの革新的技術

QURATOR: Innovative Technologies for Content and Data Curation ( http://arxiv.org/abs/2004.12195v1 )

ライセンス: Link先を確認
Georg Rehm, Peter Bourgonje, Stefanie Hegele, Florian Kintzel, Juli\'an Moreno Schneider, Malte Ostendorff, Karolina Zaczynska, Armin Berger, Stefan Grill, S\"oren R\"auchle, Jens Rauenbusch, Lisa Rutenburg, Andr\'e Schmidt, Mikka Wild, Henry Hoffmann, Julian Fink, Sarah Schulz, Jurica Seva, Joachim Quantz, Joachim B\"ottger, Josefine Matthey, Rolf Fricke, Jan Thomsen, Adrian Paschke, Jamal Al Qundus, Thomas Hoppe, Naouel Karam, Frauke Weichhardt, Christian Fillies, Clemens Neudecker, Mike Gerber, Kai Labusch, Vahid Rezanezhad, Robin Schaefer, David Zellh\"ofer, Daniel Siewert, Patrick Bunk, Lydia Pintscher, Elena Aleynikova, Franziska Heine(参考訳) あらゆる領域や分野において、デジタルコンテンツの処理と生成を支援するインテリジェントシステムへの需要が急速に高まっている。 大量のコンテンツが利用可能となり、新しいコンテンツを迅速かつ迅速に公開する圧力は、より速く、より効率的で、よりスマートな処理と生成方法を必要とする。 研究と産業から10のパートナからなるコンソーシアムと、AI、機械学習、言語技術に関する幅広い専門知識を持つQURATORプロジェクトは、ドイツ連邦教育研究省が出資し、デジタルコンテンツをキュレートする際の課題に対処するために、さまざまな業界の知識労働者を支援するサービスを提供する持続可能な革新的な技術プラットフォームを開発している。 このプロジェクトのビジョンと野望は、現在の芸術の状態を著しく押し上げ、その地域であるベルリン-ブランデンブルク都市圏を、キュレーション技術のためのグローバルな卓越したセンターに変貌させるコンテンツキュレーション技術のためのエコシステムを確立することである。

In all domains and sectors, the demand for intelligent systems to support the processing and generation of digital content is rapidly increasing. The availability of vast amounts of content and the pressure to publish new content quickly and in rapid succession requires faster, more efficient and smarter processing and generation methods. With a consortium of ten partners from research and industry and a broad range of expertise in AI, Machine Learning and Language Technologies, the QURATOR project, funded by the German Federal Ministry of Education and Research, develops a sustainable and innovative technology platform that provides services to support knowledge workers in various industries to address the challenges they face when curating digital content. The project's vision and ambition is to establish an ecosystem for content curation technologies that significantly pushes the current state of the art and transforms its region, the metropolitan area Berlin-Brandenburg, into a global centre of excellence for curation technologies.
翻訳日:2022-12-09 22:11:13 公開日:2020-04-25
# 拡張現実デバイスを用いた渋滞対応避難経路

Congestion-aware Evacuation Routing using Augmented Reality Devices ( http://arxiv.org/abs/2004.12246v1 )

ライセンス: Link先を確認
Zeyu Zhang, Hangxin Liu, Ziyuan Jiao, Yixin Zhu, Song-Chun Zhu(参考訳) 本報告では,屋内避難のための渋滞対応ルーティングソリューションについて述べる。複数の目的地間でリアルタイムに個別の避難経路を作成できると同時に,避難者の場所の軌跡を把握できる。 建物内の混雑分布をモデル化するために、ユーザエンド拡張現実(AR)デバイスから避難者の位置を集約することで、オンザフライで得られた人口密度マップを用いる。 全目的地間の避難経路を効率的に探索するため、A*アルゴリズムの変種を考案し、1回のパスで最適解を得る。 一連のシミュレーション研究において,提案アルゴリズムは従来の経路計画アルゴリズムよりも計算的に最適化されており,全体の混雑を最小限に抑えた個人に対して,より時間効率のよい避難経路を生成する。 実環境におけるパイロット実験のために,ARデバイスを用いた完全システムを構築し,提案手法の有効性を実証した。

We present a congestion-aware routing solution for indoor evacuation, which produces real-time individual-customized evacuation routes among multiple destinations while keeping tracks of all evacuees' locations. A population density map, obtained on-the-fly by aggregating locations of evacuees from user-end Augmented Reality (AR) devices, is used to model the congestion distribution inside a building. To efficiently search the evacuation route among all destinations, a variant of A* algorithm is devised to obtain the optimal solution in a single pass. In a series of simulated studies, we show that the proposed algorithm is more computationally optimized compared to classic path planning algorithms; it generates a more time-efficient evacuation route for each individual that minimizes the overall congestion. A complete system using AR devices is implemented for a pilot study in real-world environments, demonstrating the efficacy of the proposed approach.
翻訳日:2022-12-09 22:10:13 公開日:2020-04-25
# 状態・ロボット知識・人間(false-)の合同推論

Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs ( http://arxiv.org/abs/2004.12248v1 )

ライセンス: Link先を確認
Tao Yuan, Hangxin Liu, Lifeng Fan, Zilong Zheng, Tao Gao, Yixin Zhu, Song-Chun Zhu(参考訳) 本稿では,人間(false-)belief--a core socio-cognitive ability-wouldがロボットと人間のインタラクションに与える影響を理解することを目的として,対象状態,ロボット知識,人間(false-)beliefsの表現を統一するグラフィカルモデルを提案する。 具体的には、パースグラフ(pg)を、時間に沿って様々な対象状態を集約することにより、一視点の時空間解析から学習し、ロボットの知識として学習表現を蓄積する。 推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力と推論能力を得る。 実験では、pg-sに対する共同推論により、様々な環境での人間(偽)の信頼性を正しく認識し、挑戦的な小さなオブジェクト追跡データセット上でのクロスビュー精度を向上する。

Aiming to understand how human (false-)belief--a core socio-cognitive ability--would affect human interactions with robots, this paper proposes to adopt a graphical model to unify the representation of object states, robot knowledge, and human (false-)beliefs. Specifically, a parse graph (pg) is learned from a single-view spatiotemporal parsing by aggregating various object states along the time; such a learned representation is accumulated as the robot's knowledge. An inference algorithm is derived to fuse individual pg from all robots across multi-views into a joint pg, which affords more effective reasoning and inference capability to overcome the errors originated from a single view. In the experiments, through the joint inference over pg-s, the system correctly recognizes human (false-)belief in various settings and achieves better cross-view accuracy on a challenging small object tracking dataset.
翻訳日:2022-12-09 22:09:57 公開日:2020-04-25
# 3次元デジタル画像相関を用いたメクレンブルク橋のコンピュータビジョンに基づく健康モニタリング

Computer Vision-Based Health Monitoring of Mecklenburg Bridge Using 3D Digital Image Correlation ( http://arxiv.org/abs/2005.02120v1 )

ライセンス: Link先を確認
Mehrdad S. Dizaji, Devin K. Harris, Bernie Kassner, Jeffrey C. Hill(参考訳) バージニア大学(UVA)とバージニア交通研究委員会の共同調査はメクレンバーグ橋(メクレンバーグ郡の州道1号線を渡るI-85号線)で行われた。 研究チームは、以前のウェブの座屈と故障により修復された橋梁の1つが橋の挙動を特徴づけるために、バージニア州運輸省とリッチモンド地区を援助した。 本研究は、落下列中の3次元ディジタル画像相関(3D-DIC)変形測定(軸受/ピアのビーム支持ジャッキ除去)の収集に焦点を当てた。 また,ハンドヘルドレーザスキャナを用いて落下前後の断面計測を行い,側方変形や面外座屈の可能性を評価した。 この研究の結果、試験された梁の座屈は起こらなかったが、鋼製梁の端部の補修効果を評価するために使用できる一連のアプローチが提供された。 特に、結果は、バック計算によってデッドロード分布を推定できるアプローチを提供した。

A collaborative investigation between the University of Virginia (UVA) and the Virginia Transportation Research Council was performed on the Mecklenburg Bridge (I-85 over Route 1 in Mecklenburg County). The research team aided the Virginia Department of Transportation - Richmond District in the characterization of the bridge behavior of one of the bridge beams that had been repaired due to a previous web buckling and crippling failure. The investigation focused on collecting full-field three-dimensional digital image correlation (3D-DIC) deformation measurements during the dropping sequence (removal of jacking to support beam on bearing/pier). Additionally, measurements were taken of the section prior to and after dropping using a handheld laser scanner to assess the potential of lateral deformation or out-of-plane buckling. Results from the study demonstrated that buckling of the tested beam did not occur, but did provided a series of approaches that can be used to evaluate the effectiveness of repaired steel beam ends. Specifically, the results provided an approach that could estimate the dead load distribution through back-calculation.
翻訳日:2022-12-09 22:09:38 公開日:2020-04-25
# 有向粗集合に対する代数的アプローチ

Algebraic Approach to Directed Rough Sets ( http://arxiv.org/abs/2004.12171v1 )

ライセンス: Link先を確認
Mani A and Sandor Radeleczki(参考訳) 一般ラフ集合に対する関係論的アプローチでは、有向関係のアイデアは複数の代数的アプローチに対する追加条件で補足される。 この関係はまた、上向き、反射的、反対称な一般部分群の表現に特化しており、最初の著者によってほぼ同値な対象の集合に対してよりよく振る舞う群体意味論である。 近似の集合に関する別の異なる代数的意味論と新しい知識解釈も、彼女によってこの研究で発明された。 関係に最小限の条件が課されるため、近傍の顆粒化はすべての近似(粒状および点的)の構成に使用される。 局所上近似の格子が完全に分布する必要十分条件は、第2の著者によって証明される。 これらの結果は形式的概念分析に関連している。 学生中心学習や意思決定への応用についても概説する。

In relational approach to general rough sets, ideas of directed relations are supplemented with additional conditions for multiple algebraic approaches in this research paper. The relations are also specialized to representations of general parthood that are upper-directed, reflexive and antisymmetric for a better behaved groupoidal semantics over the set of roughly equivalent objects by the first author. Another distinct algebraic semantics over the set of approximations, and a new knowledge interpretation are also invented in this research by her. Because of minimal conditions imposed on the relations, neighborhood granulations are used in the construction of all approximations (granular and pointwise). Necessary and sufficient conditions for the lattice of local upper approximations to be completely distributive are proved by the second author. These results are related to formal concept analysis. Applications to student centered learning and decision making are also outlined.
翻訳日:2022-12-09 22:09:18 公開日:2020-04-25
# 実世界文書のオフライン署名検証

Offline Signature Verification on Real-World Documents ( http://arxiv.org/abs/2004.12104v1 )

ライセンス: Link先を確認
Deniz Engin, Alperen Kantarc{\i}, Se\c{c}il Arslan, Haz{\i}m Kemal Ekenel(参考訳) オフラインシグネチャ検証の研究は、制御条件下で収集される複数のシグネチャデータセットの様々な手法を探索してきた。 しかし、これらのデータセットは、いくつかの実用的なユースケースにおいてシグネチャの特徴を完全に反映していないかもしれない。 正式な文書から抽出された現実世界の署名には、切手、会社印章、判決線、署名箱など、異なる種類のオクルージョンが含まれている可能性がある。 さらに、それらは非常に高いクラス内変異を持ち、真のシグネチャでさえ偽造に類似している。 本稿では,現実の作家によるオフライン署名検証問題に対処し,銀行の顧客の取引要求文書に隠蔽された署名を記載した文書を,クリーンな参照署名と比較する。 提案手法はサイクガンに基づく切手洗浄法とcnnに基づくシグネチャ表現法という2つの主成分からなる。 我々は,様々な検証設定,微調整戦略,シグネチャ表現アプローチを広範囲に評価し,問題を徹底的に解析する。 さらに,課題の難解性を示すために,人間による評価を行う。 実験はカスタムデータセットと公開されているTobacco-800データセットの両方で実施しています。 実世界の文書におけるオフライン署名検証の難しさを実験的に検証した。 しかし,切手洗浄プロセスを用いることで,署名検証性能が大幅に向上する。

Research on offline signature verification has explored a large variety of methods on multiple signature datasets, which are collected under controlled conditions. However, these datasets may not fully reflect the characteristics of the signatures in some practical use cases. Real-world signatures extracted from the formal documents may contain different types of occlusions, for example, stamps, company seals, ruling lines, and signature boxes. Moreover, they may have very high intra-class variations, where even genuine signatures resemble forgeries. In this paper, we address a real-world writer independent offline signature verification problem, in which, a bank's customers' transaction request documents that contain their occluded signatures are compared with their clean reference signatures. Our proposed method consists of two main components, a stamp cleaning method based on CycleGAN and signature representation based on CNNs. We extensively evaluate different verification setups, fine-tuning strategies, and signature representation approaches to have a thorough analysis of the problem. Moreover, we conduct a human evaluation to show the challenging nature of the problem. We run experiments both on our custom dataset, as well as on the publicly available Tobacco-800 dataset. The experimental results validate the difficulty of offline signature verification on real-world documents. However, by employing the stamp cleaning process, we improve the signature verification performance significantly.
翻訳日:2022-12-09 22:03:39 公開日:2020-04-25
# マルチタスクロスとスキップメモリを用いたシーケンス-シーケンス間ビデオオブジェクトセグメンテーションの再検討

Revisiting Sequence-to-Sequence Video Object Segmentation with Multi-Task Loss and Skip-Memory ( http://arxiv.org/abs/2004.12170v1 )

ライセンス: Link先を確認
Fatemeh Azimi, Benjamin Bischke, Sebastian Palacio, Federico Raue, Joern Hees, Andreas Dengel(参考訳) ビデオオブジェクトセグメンテーション(VOS)は、視覚領域の活発な研究領域である。 その基本的なサブタスクの1つは、半教師あり/ワンショット学習である: 最初のフレームのセグメンテーションマスクのみを与えられた場合、そのタスクは、残りのシーケンスの上のオブジェクトにピクセル精度のマスクを提供することである。 過去数年間に多くの進歩があったにもかかわらず、既存のアプローチの多くは、特にオブジェクトが小さい場合や、短期間に隠された場合、長いシーケンスでオブジェクトを失うことに気づきました。 本研究では,エンコーダ・デコーダアーキテクチャとシーケンシャルデータを利用するメモリモジュールを併用したシーケンシャル・ツー・シーケンス手法を構築した。 我々は,メモリ付きスキップ接続を用いて,複数スケールの時空間情報を操作するモデルを提案することにより,このアプローチをさらに改善する。 さらに,セグメンテーションマスクのエッジ品質を大幅に向上させる距離分類に基づく補助タスクも取り入れた。 我々は,このアプローチを最先端技術と比較し,輪郭精度測定値と全体的なセグメンテーション精度を大幅に改善した。

Video Object Segmentation (VOS) is an active research area of the visual domain. One of its fundamental sub-tasks is semi-supervised / one-shot learning: given only the segmentation mask for the first frame, the task is to provide pixel-accurate masks for the object over the rest of the sequence. Despite much progress in the last years, we noticed that many of the existing approaches lose objects in longer sequences, especially when the object is small or briefly occluded. In this work, we build upon a sequence-to-sequence approach that employs an encoder-decoder architecture together with a memory module for exploiting the sequential data. We further improve this approach by proposing a model that manipulates multi-scale spatio-temporal information using memory-equipped skip connections. Furthermore, we incorporate an auxiliary task based on distance classification which greatly enhances the quality of edges in segmentation masks. We compare our approach to the state of the art and show considerable improvement in the contour accuracy metric and the overall segmentation accuracy.
翻訳日:2022-12-09 22:02:47 公開日:2020-04-25
# detective: スパースオブジェクト検出のための注意的リカレントモデル

Detective: An Attentive Recurrent Model for Sparse Object Detection ( http://arxiv.org/abs/2004.12197v1 )

ライセンス: Link先を確認
Amine Kechaou, Manuel Martinez, Monica Haurilet and Rainer Stiefelhagen(参考訳) 本研究では,画像中の物体を逐次的に識別する注意対象検出器である detective を提案する。 私たちのネットワークは、エンコーダが畳み込みニューラルネットワークであり、デコーダは、注意機構と結合した畳み込みリカレントニューラルネットワークである、エンコーダ/デコーダアーキテクチャに基づいています。 各イテレーションにおいて、デコーダは注意機構を用いて画像の関連部分に焦点を当て、オブジェクトのクラスと境界ボックス座標を推定します。 現在のオブジェクト検出モデルは、密な予測を生成し、重複した予測を削除するために後処理に依存する。 detectiveはスパースオブジェクト検出器で、オブジェクトインスタンスごとに単一のバウンディングボックスを生成する。 しかし、スパースオブジェクト検出器のトレーニングは、モデルがクラスや空間レベルだけでなく、インスタンスレベルでの推論を必要とするため、難しい。 本稿では,ハンガリーアルゴリズムに基づく学習機構と,局所化と分類タスクのバランスをとる損失を提案する。 これにより、TectiveはPASCAL VOCオブジェクト検出データセット上で有望な結果を達成することができる。 我々の実験は、スパースなオブジェクト検出が可能であり、予測対象の順序が興味深いアプリケーションにおける将来の発展に大きな可能性を秘めている。

In this work, we present Detective - an attentive object detector that identifies objects in images in a sequential manner. Our network is based on an encoder-decoder architecture, where the encoder is a convolutional neural network, and the decoder is a convolutional recurrent neural network coupled with an attention mechanism. At each iteration, our decoder focuses on the relevant parts of the image using an attention mechanism, and then estimates the object's class and the bounding box coordinates. Current object detection models generate dense predictions and rely on post-processing to remove duplicate predictions. Detective is a sparse object detector that generates a single bounding box per object instance. However, training a sparse object detector is challenging, as it requires the model to reason at the instance level and not just at the class and spatial levels. We propose a training mechanism based on the Hungarian algorithm and a loss that balances the localization and classification tasks. This allows Detective to achieve promising results on the PASCAL VOC object detection dataset. Our experiments demonstrate that sparse object detection is possible and has a great potential for future developments in applications where the order of the objects to be predicted is of interest.
翻訳日:2022-12-09 22:02:08 公開日:2020-04-25
# pf-cpgan: 野生の顔認識のための前頭結合ganのプロファイル

PF-cpGAN: Profile to Frontal Coupled GAN for Face Recognition in the Wild ( http://arxiv.org/abs/2005.02166v1 )

ライセンス: Link先を確認
Fariborz Taherkhani, Veeru Talreja, Jeremy Dawson, Matthew C. Valenti, and Nasser M. Nasrabadi(参考訳) 近年、ディープラーニングの出現により、顔認識は例外的な成功を収めている。 しかし、これらの深層顔認識モデルの多くは、正面顔に比べてプロファイル顔の扱いが比較的不十分である。 この性能の悪い主な理由は、プロファイル顔認識に有用な大きなポーズ不変の深層表現を学習することが本質的に困難であるからである。 本稿では,プロファイルフェース領域が,深部特徴空間における正面フェース領域との段階的接続を有することを仮定する。 この接続を利用して、プロファイル面と正面面を共通の潜伏空間に投影し、潜伏領域における検証や検索を行う。 我々は,cpgan構造を用いて,潜在共通埋め込み部分空間内のプロファイルと前面画像との間の隠れた関係を探索する。 具体的には、cpGANフレームワークは、2つのGANベースのサブネットワークで構成されている。 各サブネットワークは、共通の埋め込み機能部分空間内の2つの特徴領域間のペアワイズ相関を最大化する射影を見つける傾向がある。 CFP, CMU MultiPIE, IJB-A, IJB-Cデータセットを用いて本手法の有効性を実証した。

In recent years, due to the emergence of deep learning, face recognition has achieved exceptional success. However, many of these deep face recognition models perform relatively poorly in handling profile faces compared to frontal faces. The major reason for this poor performance is that it is inherently difficult to learn large pose invariant deep representations that are useful for profile face recognition. In this paper, we hypothesize that the profile face domain possesses a gradual connection with the frontal face domain in the deep feature space. We look to exploit this connection by projecting the profile faces and frontal faces into a common latent space and perform verification or retrieval in the latent domain. We leverage a coupled generative adversarial network (cpGAN) structure to find the hidden relationship between the profile and frontal images in a latent common embedding subspace. Specifically, the cpGAN framework consists of two GAN-based sub-networks, one dedicated to the frontal domain and the other dedicated to the profile domain. Each sub-network tends to find a projection that maximizes the pair-wise correlation between two feature domains in a common embedding feature subspace. The efficacy of our approach compared with the state-of-the-art is demonstrated using the CFP, CMU MultiPIE, IJB-A, and IJB-C datasets.
翻訳日:2022-12-09 22:01:50 公開日:2020-04-25
# モデルレシピに対する名前付きエンティティベースのアプローチ

A Named Entity Based Approach to Model Recipes ( http://arxiv.org/abs/2004.12184v1 )

ライセンス: Link先を確認
Nirav Diwan, Devansh Batra and Ganesh Bagler(参考訳) 伝統的な料理レシピは、レシピテキストの異なるセクションのルールや意味を解析して正確に表現すれば、非常によくモデル化できる構造に従う。 本稿では,この一様構造におけるレシピの最良の表現を推論するパイプラインだけでなく,レシピを正確に表現できる構造を提案する。 レシピのIngredientsセクションは通常、必要な材料と、量、温度、処理状態などの対応する属性をリストアップする。 これはこれらの属性とその値を定義することでモデル化できる。 レシピを構成する物理的な実体は、調理技術に関連する道具、具材、それらの組み合わせに広く分類することができる。 指示部は、これらの器具や具材に調理技術や工程を適用する一連の事象を列挙する。 私たちはこれらの関係をタプルの形でモデル化します。 そこで,これらの手法を組み合わせてdataset recipedbで調理レシピをモデル化し,提案手法の有効性を示す。 このマイニングされた情報モデルは、言語間のレシピの翻訳、レシピ間の類似性の決定、新しいレシピの生成、レシピの栄養プロファイルの推定など、いくつかの応用が可能である。 成分属性の認識を目的として、名前付きエンティティ関係(NER)モデルをトレーニングし、K-Meansクラスタリングの助けを借りて推論を分析する。 我々のモデルは全データセットで0.95のF1スコアを示しました。 調理技法のラベル付けには同様のNERタグ付けモデル (F1 score = 0.88) と器具 (F1 score = 0.90) を用いる。 最後に, 教材, 器具, 調理技術間の関係を時間系列で決定し, 指導手順をモデル化する。

Traditional cooking recipes follow a structure which can be modelled very well if the rules and semantics of the different sections of the recipe text are analyzed and represented accurately. We propose a structure that can accurately represent the recipe as well as a pipeline to infer the best representation of the recipe in this uniform structure. The Ingredients section in a recipe typically lists down the ingredients required and corresponding attributes such as quantity, temperature, and processing state. This can be modelled by defining these attributes and their values. The physical entities which make up a recipe can be broadly classified into utensils, ingredients and their combinations that are related by cooking techniques. The instruction section lists down a series of events in which a cooking technique or process is applied upon these utensils and ingredients. We model these relationships in the form of tuples. Thus, using a combination of these methods we model cooking recipe in the dataset RecipeDB to show the efficacy of our method. This mined information model can have several applications which include translating recipes between languages, determining similarity between recipes, generation of novel recipes and estimation of the nutritional profile of recipes. For the purpose of recognition of ingredient attributes, we train the Named Entity Relationship (NER) models and analyze the inferences with the help of K-Means clustering. Our model presented with an F1 score of 0.95 across all datasets. We use a similar NER tagging model for labelling cooking techniques (F1 score = 0.88) and utensils (F1 score = 0.90) within the instructions section. Finally, we determine the temporal sequence of relationships between ingredients, utensils and cooking techniques for modeling the instruction steps.
翻訳日:2022-12-09 22:01:28 公開日:2020-04-25
# 文法的構成要素強調表示とロールベース概念重み付けによるクエリ拡張のための言語駆動フレームワーク

A Linguistically Driven Framework for Query Expansion via Grammatical Constituent Highlighting and Role-Based Concept Weighting ( http://arxiv.org/abs/2004.13481v1 )

ライセンス: Link先を確認
Bhawani Selvaretnam, Mohammed Belkhatir(参考訳) 本稿では,クエリインテントを特徴付ける重要なクエリ構成要素を認識・エンコードし,検索性能を向上させる言語的クエリ拡張フレームワークを提案する。 関心の概念は探索目標の要点を表す中核概念として認識され、探索目標を指定してクエリ構造を完成させる残りのクエリ構成成分は記述的、関係的、構造的に分類される。 関連する潜在的な拡張概念を抽出するために意味論的に関連づけられたベースペアを形成する必要性を認識し,隣接するクエリ概念と非隣接クエリ概念の関係をキャプチャする構文依存を活かしたアルゴリズムを提案する。 最後に,拡張クエリにおける言語的役割に基づくクエリ構成要素の重要性を厳密に強調する,堅牢な重み付けスキームを提案する。 本稿では,TREC アドホックテストコレクションを用いた実験により,言語ベースのクエリ拡張フレームワークにより得られた平均平均精度(MAP)の向上による検索効率の向上を示す。

In this paper, we propose a linguistically-motivated query expansion framework that recognizes and en-codes significant query constituents that characterize query intent in order to improve retrieval performance. Concepts-of-Interest are recognized as the core concepts that represent the gist of the search goal whilst the remaining query constituents which serve to specify the search goal and complete the query structure are classified as descriptive, relational or structural. Acknowledging the need to form semantically-associated base pairs for the purpose of extracting related potential expansion concepts, an algorithm which capitalizes on syntactical dependencies to capture relationships between adjacent and non-adjacent query concepts is proposed. Lastly, a robust weighting scheme that duly emphasizes the importance of query constituents based on their linguistic role within the expanded query is presented. We demonstrate improvements in retrieval effectiveness in terms of increased mean average precision (MAP) garnered by the proposed linguistic-based query expansion framework through experimentation on the TREC ad hoc test collections.
翻訳日:2022-12-09 22:01:03 公開日:2020-04-25
# 大規模産業・職業活動データセット

A Large-scale Industrial and Professional Occupation Dataset ( http://arxiv.org/abs/2005.02780v1 )

ライセンス: Link先を確認
Junhua Liu, Yung Chuen Ng and Kwan Hui Lim(参考訳) 産業データマイニングと分析の活用への関心が高まっている。 今日の雇用市場では、企業が従業員の転職、モデルキャリアの軌跡、履歴書の表示、その他の人的資源タスクの実行を予測できるため、職業データマイニングと分析の重要性が増している。 これらのタスクを促進するための重要な要件は、職業関連データセットの必要性である。 しかし、ほとんどの研究は独自のデータセットを使用しているか、データセットを公開していないため、この分野の開発を妨げている。 この問題を解決するために、56k LinkedInユーザーに属する192万の職種からなるIndustrial and Professional Occupation Dataset(IPOD)を提示する。 IPODを一般公開するだけでなく、以下も公開する。 (i)各職名にその年長、仕事の領域及び場所の関連レベルを手作業で注釈すること。 (二)肩書きの埋め込みを提供し、各種のユースケースについて論じる。 このデータセットはhttps://github.com/junhua/ipodで公開されている。

There has been growing interest in utilizing occupational data mining and analysis. In today's job market, occupational data mining and analysis is growing in importance as it enables companies to predict employee turnover, model career trajectories, screen through resumes and perform other human resource tasks. A key requirement to facilitate these tasks is the need for an occupation-related dataset. However, most research use proprietary datasets or do not make their dataset publicly available, thus impeding development in this area. To solve this issue, we present the Industrial and Professional Occupation Dataset (IPOD), which comprises 192k job titles belonging to 56k LinkedIn users. In addition to making IPOD publicly available, we also: (i) manually annotate each job title with its associated level of seniority, domain of work and location; and (ii) provide embedding for job titles and discuss various use cases. This dataset is publicly available at https://github.com/junhua/ipod.
翻訳日:2022-12-09 22:00:45 公開日:2020-04-25
# 談話パーシングにインスパイアされたセマンティックストーリーテリングを目指して

Towards Discourse Parsing-inspired Semantic Storytelling ( http://arxiv.org/abs/2004.12190v1 )

ライセンス: Link先を確認
Georg Rehm and Karolina Zaczynska and Juli\'an Moreno-Schneider and Malte Ostendorff and Peter Bourgonje and Maria Berger and Jens Rauenbusch and Andr\'e Schmidt and Mikka Wild(参考訳) セマンティックストーリーテリングに関するこれまでの研究では、名前付きエンティティ認識やイベント検出を含むテキスト分析手順を使用しています。 本稿では,セマンティックストーリーテリングの長期的展望を概説し,現在の概念的および技術的アプローチについて述べる。 私たちの研究を推進するプロジェクトでは、産業のパートナーによって検証されるaiベースの技術を開発します。 長期的な目標の1つは、幅広いカバレッジを持ち、さらに堅牢なセマンティックストーリーテリングのアプローチを開発することである。 本研究は,ベルリン地区の特筆すべき人物に関する文書を半自動的に収集したデータをもとに,具体的なユースケースである「近所を探索!」に適用した談話解析に関する実験の最初の結果を提供する。 プレーンテキストからコヒーレンス関係に対するアノテーションを自動取得することは自明な課題ではないが,予備的な結果は有望である。 我々は、追加機能(NER、コア参照解決、知識グラフ)と組み合わせるアプローチを考えている。

Previous work of ours on Semantic Storytelling uses text analytics procedures including Named Entity Recognition and Event Detection. In this paper, we outline our longer-term vision on Semantic Storytelling and describe the current conceptual and technical approach. In the project that drives our research we develop AI-based technologies that are verified by partners from industry. One long-term goal is the development of an approach for Semantic Storytelling that has broad coverage and that is, furthermore, robust. We provide first results on experiments that involve discourse parsing, applied to a concrete use case, "Explore the Neighbourhood!", which is based on a semi-automatically collected data set with documents about noteworthy people in one of Berlin's districts. Though automatically obtaining annotations for coherence relations from plain text is a non-trivial challenge, our preliminary results are promising. We envision our approach to be combined with additional features (NER, coreference resolution, knowledge graphs
翻訳日:2022-12-09 21:53:23 公開日:2020-04-25
# MCQA:質問応答のためのマルチモーダル協調型ネットワーク

MCQA: Multimodal Co-attention Based Network for Question Answering ( http://arxiv.org/abs/2004.12238v1 )

ライセンス: Link先を確認
Abhishek Kumar, Trisha Mittal, Dinesh Manocha(参考訳) マルチモーダル質問応答のための学習ベースアルゴリズムMCQAを提案する。 mcqaは、クエリ(質問と回答)のコンテキストを形成するマルチモーダル入力(テキスト、オーディオ、ビデオ)を、明示的に融合して調整します。 私たちのアプローチは、このコンテキスト内で質問と回答を融合し調整します。 さらに,クロスモーダルアライメントとマルチモーダルコンテキスト・クエリアライメントを行うために,コアテンションの概念を用いる。 我々のコンテキストクエリアライメントモジュールは、マルチモーダルコンテキストとクエリの関連部分とをマッチングし、全体的なパフォーマンスを改善するためにそれらを調整します。 マルチモーダル質問応答のためのベンチマークデータセットであるSocial-IQにおけるMCQAの性能を評価する。 アルゴリズムの性能を従来の手法と比較し, 4~7%の精度向上を観測した。

We present MCQA, a learning-based algorithm for multimodal question answering. MCQA explicitly fuses and aligns the multimodal input (i.e. text, audio, and video), which forms the context for the query (question and answer). Our approach fuses and aligns the question and the answer within this context. Moreover, we use the notion of co-attention to perform cross-modal alignment and multimodal context-query alignment. Our context-query alignment module matches the relevant parts of the multimodal context and the query with each other and aligns them to improve the overall performance. We evaluate the performance of MCQA on Social-IQ, a benchmark dataset for multimodal question answering. We compare the performance of our algorithm with prior methods and observe an accuracy improvement of 4-7%.
翻訳日:2022-12-09 21:52:49 公開日:2020-04-25
# ロボットナビゲーションのための進化型対向神経制御器の一般化能力について

On the Generalization Capability of Evolved Counter-propagation Neuro-controllers for Robot Navigation ( http://arxiv.org/abs/2004.12188v1 )

ライセンス: Link先を確認
Amiram Moshaiov and Michael Zadok(参考訳) 従来のFFNC(Feed-Forward Neuro-Controllers)よりもCPNC(Evolving Counter-Propagation Neuro-Controllers)が提案され、ロボットナビゲーションを用いてテストされている。 CPNCの進化によって得られる収束速度と最終性能は、FFNCの進化によって得られるものよりも優れていることが実証された。 本稿では,両種類の進化型ナビゲーションコントローラの迷路一般化特性について検討する。 この目的のために、コントローラはトレーニングで使用されるものとは大きく異なる環境でテストされる。 さらに、単目的および多目的進化アプローチによって得られた結果から比較を行う。 シミュレートされたケーススタディを用いて、進化したCPNCの迷路一般化能力は、単目的ケースと多目的ケースの両方で強調される。 対照的に、進化したFFNCは、両方のアプローチでそのような能力を欠いている。

Evolving Counter-Propagation Neuro-Controllers (CPNCs), rather than the traditional Feed-Forward Neuro-Controllers (FFNCs), has recently been suggested and tested using simulated robot navigation. It has been demon-strated that both convergence rate and final performance obtained by evolving CPNCs are superior to those obtained by evolving FFNCs. In this paper the maze generalization features of both types of evolved navigation controllers are examined. For this purpose the controllers are tested in an environment that drastically differs from the one used for their training. Moreover, a comparison is carried out of results obtained by single-objective and multi-objective evolution approaches. Using a simulated case-study, the maze generalization capability of the evolved CPNCs is highlighted in both the single and multi-objective cases. In contrast, the evolved FFNCs are found to lack such capabilities in both approaches.
翻訳日:2022-12-09 21:52:35 公開日:2020-04-25
# 機械数感覚:抽象的・関係的推論のための視覚的算術問題のデータセット

Machine Number Sense: A Dataset of Visual Arithmetic Problems for Abstract and Relational Reasoning ( http://arxiv.org/abs/2004.12193v1 )

ライセンス: Link先を確認
Wenhe Zhang, Chi Zhang, Yixin Zhu, Song-Chun Zhu(参考訳) 数学的思考と知能の包括的指標として、数感覚(dehaene 2011)は象徴的概念の誘導と問題解決能力の橋渡しとなる。 このような重要な認知能力をマシンインテリジェンスに付与するために,文法モデルとグラフ(aog)を用いて自動生成する視覚演算問題からなるデータセットであるマシンナンバーセンス(mns)を提案する。 これらの視覚的算術問題は幾何学的フィギュアの形式であり、各問題はその文脈と埋め込み数記号として幾何学的形状の集合を持つ。 そのような問題を解くことは自明な問題ではなく、機械は数を認識するだけでなく、その数とその文脈、形、関係(対称性など)を適切な操作と共に解釈する必要がある。 この視覚的推論タスクのベースラインとして, 4つのニューラルネットワークモデルを用いて, MNSデータセットをベンチマークした。 総合的な実験によると、現在のニューラルネットワークベースのモデルは、数の概念やリレーショナル操作を理解するのに依然として苦労している。 単純なブルートフォース探索アルゴリズムが文脈情報なしで問題のいくつかを解決できることを示す。 重要なことに、幾何学的コンテキストを追加の知覚モジュールで考慮すれば、より少ない探索ステップでパフォーマンスが向上する。 また、従来の検索アルゴリズムを現代のニューラルネットワークと融合させて、将来の研究で不可欠な数の概念を発見することにも注目する。

As a comprehensive indicator of mathematical thinking and intelligence, the number sense (Dehaene 2011) bridges the induction of symbolic concepts and the competence of problem-solving. To endow such a crucial cognitive ability to machine intelligence, we propose a dataset, Machine Number Sense (MNS), consisting of visual arithmetic problems automatically generated using a grammar model--And-Or Graph (AOG). These visual arithmetic problems are in the form of geometric figures: each problem has a set of geometric shapes as its context and embedded number symbols. Solving such problems is not trivial; the machine not only has to recognize the number, but also to interpret the number with its contexts, shapes, and relations (e.g., symmetry) together with proper operations. We benchmark the MNS dataset using four predominant neural network models as baselines in this visual reasoning task. Comprehensive experiments show that current neural-network-based models still struggle to understand number concepts and relational operations. We show that a simple brute-force search algorithm could work out some of the problems without context information. Crucially, taking geometric context into account by an additional perception module would provide a sharp performance gain with fewer search steps. Altogether, we call for attention in fusing the classic search-based algorithms with modern neural networks to discover the essential number concepts in future research.
翻訳日:2022-12-09 21:52:17 公開日:2020-04-25
# エンベロープのプッシュ:遅延エンコーディングによるマルチエージェントパス探索における離散的から連続的な移動

Pushing the Envelope: From Discrete to Continuous Movements in Multi-Agent Path Finding via Lazy Encodings ( http://arxiv.org/abs/2004.13477v1 )

ライセンス: Link先を確認
Pavel Surynek(参考訳) 本稿では,連続空間と時間におけるMAPF$^\mathcal{R}$によるマルチエージェントパス探索について述べる。 タスクは、事前に定義された位置から個々の目標へスムーズに移動するエージェントをナビゲートし、衝突しないようにすることだ。 本稿では, SMT-CBS$^\mathcal{R}$ という, SMT-CBS$^\mathcal{R}$ と呼ばれる最適解を得るための新しい解法を提案する。 このアルゴリズムは、競合ベースのサーチ(CBS)から知られている衝突解決と、潜在的に可算でない検索空間における決定変数を選択する新しいスキームの上に、以前の不完全なSATエンコーディングを組み合わせている。 MAPF$^\mathcal{R}$に対するSMT-CBS$^\mathcal{R}$と以前のCCBSアルゴリズムを実験的に比較した。

Multi-agent path finding in continuous space and time with geometric agents MAPF$^\mathcal{R}$ is addressed in this paper. The task is to navigate agents that move smoothly between predefined positions to their individual goals so that they do not collide. We introduce a novel solving approach for obtaining makespan optimal solutions called SMT-CBS$^\mathcal{R}$ based on {\em satisfiability modulo theories} (SMT). The new algorithm combines collision resolution known from conflict-based search (CBS) with previous generation of incomplete SAT encodings on top of a novel scheme for selecting decision variables in a potentially uncountable search space. We experimentally compare SMT-CBS$^\mathcal{R}$ and previous CCBS algorithm for MAPF$^\mathcal{R}$.
翻訳日:2022-12-09 21:51:52 公開日:2020-04-25
# ハイパープレーンの構築によるクラスタリング

Clustering by Constructing Hyper-Planes ( http://arxiv.org/abs/2004.12087v1 )

ライセンス: Link先を確認
Luhong Diao (1,2), Jinying Gao1 (1,2), Manman Deng (1,2) ((1) Beijing Institute for Scientific and Engineering Computing, Beijing University of Technology, Beijing, China.(2) College of Applied Sciences, Beijing University of Technology, Beijing, China.)(参考訳) クラスタリングアルゴリズムは、基本的な機械学習手法の一種として、類似性や分布に基づいて、データポイントを異なるカテゴリに分類する。 データポイントを識別するために超平面を求めるクラスタリングアルゴリズムを提案する。 それは点の間の限界空間に依存する。 そして、これらの超平面を組み合わせて、中心とクラスターの数を決定する。 このアルゴリズムは線形構造に基づいているため、データセットの分布を正確かつ柔軟に近似することができる。 その性能を評価するために、様々な種類のベンチマークデータセットで実験を行い、いくつかの有名なクラスタリングアルゴリズムと比較した。 他の方法よりも優れています。

As a kind of basic machine learning method, clustering algorithms group data points into different categories based on their similarity or distribution. We present a clustering algorithm by finding hyper-planes to distinguish the data points. It relies on the marginal space between the points. Then we combine these hyper-planes to determine centers and numbers of clusters. Because the algorithm is based on linear structures, it can approximate the distribution of datasets accurately and flexibly. To evaluate its performance, we compared it with some famous clustering algorithms by carrying experiments on different kinds of benchmark datasets. It outperforms other methods clearly.
翻訳日:2022-12-09 21:51:23 公開日:2020-04-25
# 見ずに顔を読む方法

How to read faces without looking at them ( http://arxiv.org/abs/2004.12103v1 )

ライセンス: Link先を確認
Suyash Shandilya, Waris Quamer(参考訳) 顔の読みは感情認識の最も直感的な側面である。 残念ながら、表情のデジタル分析には個人の顔のデジタル記録が必要となる。 感情分析はより適切なシナリオで特に必要となるため、顔の撮影はプライバシーを侵害することになります。 本稿では,圧縮解析の概念を用いて,不使用の再現性を確認するために圧縮的に顔を取得するシステムを概念化し,推論における許容(かつ調整可能な)精度を許容する。

Face reading is the most intuitive aspect of emotion recognition. Unfortunately, digital analysis of facial expression requires digitally recording personal faces. As emotional analysis is particularly required in a more poised scenario, capturing faces becomes a gross violation of privacy. In this paper, we use the concept of compressive analysis to conceptualise a system which compressively acquires faces in order to ascertain unusable reconstruction, while allowing for acceptable (and adjustable) accuracy in inference.
翻訳日:2022-12-09 21:51:16 公開日:2020-04-25
# 理論誘導ニューラルネットワークによるサーロゲートを伴う動的地下流れの効率的な不確かさ定量化

Efficient Uncertainty Quantification for Dynamic Subsurface Flow with Surrogate by Theory-guided Neural Network ( http://arxiv.org/abs/2004.13560v1 )

ライセンス: Link先を確認
Nanzhe Wang, Haibin Chang, Dongxiao Zhang(参考訳) 地下流れの問題は通常ある程度の不確実性を伴う。 したがって, 地下流動予測には不確実性定量化が必要である。 本稿では,理論誘導ニューラルネットワーク(tgnn)によるサーロゲートを用いた動的地下流れの効率的な不確かさ定量化手法を提案する。 TgNNは確率的パラメータの問題に特化して設計されている。 TgNNでは、確率的パラメータ、時間、位置がニューラルネットワークの入力であり、関心の量は出力である。 ニューラルネットワークは利用可能なシミュレーションデータを用いてトレーニングされ、基礎となる問題の理論(例えば、支配方程式、境界条件、初期条件など)によって同時にガイドされる。 訓練されたニューラルネットワークは、新しい確率パラメータを用いて地下流れ問題の解を予測できる。 TgNNサロゲートを用いることで、不確実な定量化のためにモンテカルロ法(MC)を効率的に実装することができる。 提案手法は, 多孔質媒質中の2次元動的飽和流問題を用いて評価する。 数値計算の結果,TgNNに基づくサロゲートは,シミュレーションに基づく実装と比較して不確実性定量化タスクの効率を著しく向上させることができることがわかった。 相関長,ばらつきが大きい確率場,境界値の変化,分布外ばらつきについてさらに検討を行い,良好な結果を得た。

Subsurface flow problems usually involve some degree of uncertainty. Consequently, uncertainty quantification is commonly necessary for subsurface flow prediction. In this work, we propose a methodology for efficient uncertainty quantification for dynamic subsurface flow with a surrogate constructed by the Theory-guided Neural Network (TgNN). The TgNN here is specially designed for problems with stochastic parameters. In the TgNN, stochastic parameters, time and location comprise the input of the neural network, while the quantity of interest is the output. The neural network is trained with available simulation data, while being simultaneously guided by theory (e.g., the governing equation, boundary conditions, initial conditions, etc.) of the underlying problem. The trained neural network can predict solutions of subsurface flow problems with new stochastic parameters. With the TgNN surrogate, the Monte Carlo (MC) method can be efficiently implemented for uncertainty quantification. The proposed methodology is evaluated with two-dimensional dynamic saturated flow problems in porous medium. Numerical results show that the TgNN based surrogate can significantly improve the efficiency of uncertainty quantification tasks compared with simulation based implementation. Further investigations regarding stochastic fields with smaller correlation length, larger variance, changing boundary values and out-of-distribution variances are performed, and satisfactory results are obtained.
翻訳日:2022-12-09 21:45:40 公開日:2020-04-25
# 単語埋め込みはいつ、人々の信念に関する調査を正確に反映するのか?

When do Word Embeddings Accurately Reflect Surveys on our Beliefs About People? ( http://arxiv.org/abs/2004.12043v1 )

ライセンス: Link先を確認
Kenneth Joseph and Jonathan H. Morgan(参考訳) 社会バイアスは単語埋め込みで符号化される。 これは社会を歴史的かつ大規模に研究するユニークな機会であり、下流のアプリケーションに埋め込む際にはユニークな危険をもたらす。 そこで本研究では,ある種類の人々の信念を,従来の調査手法で正確に反映する手法について検討する。 単語埋め込みに見られるバイアスは、平均して、社会意味の17次元にわたる調査データを密接に反映している。 しかし、埋め込みにおけるバイアスは、ある意味の次元(例えば性別)に対する調査データ(例えば人種)を、他の次元(例えば人種)よりもずっと反映しており、埋め込みに基づく尺度が調査データを反映しているという確信も高い。

Social biases are encoded in word embeddings. This presents a unique opportunity to study society historically and at scale, and a unique danger when embeddings are used in downstream applications. Here, we investigate the extent to which publicly-available word embeddings accurately reflect beliefs about certain kinds of people as measured via traditional survey methods. We find that biases found in word embeddings do, on average, closely mirror survey data across seventeen dimensions of social meaning. However, we also find that biases in embeddings are much more reflective of survey data for some dimensions of meaning (e.g. gender) than others (e.g. race), and that we can be highly confident that embedding-based measures reflect survey data only for the most salient biases.
翻訳日:2022-12-09 21:43:04 公開日:2020-04-25
# 動的文脈に対する質問応答のための実・時間・論理的知識をもつ異種グラフ

A Heterogeneous Graph with Factual, Temporal and Logical Knowledge for Question Answering Over Dynamic Contexts ( http://arxiv.org/abs/2004.12057v1 )

ライセンス: Link先を確認
Wanjun Zhong, Duyu Tang, Nan Duan, Ming Zhou, Jiahai Wang, Jian Yin(参考訳) 動的テキスト環境における質問応答について検討する。 ニューラルネットワークモデルは入力出力の例から学習することで印象的な精度を達成するが、様々な種類の知識を活用することは稀であり、一般的には解釈できない。 本研究では,コンテキストの事実知識,過去の状態の時間的知識,および人間が作成した知識ベースとルールベースを組み合わせた論理知識を用いて,不均質なグラフを自動構築するグラフベースアプローチを提案する。 構築したグラフ上にグラフニューラルネットワークを開発し,エンドツーエンドでモデルをトレーニングする。 ベンチマークデータセットの実験的結果は、様々なタイプの知識の注入が強力なニューラルネットワークベースラインを改善することを示している。 このアプローチのさらなるメリットは、グラフ自体が意思決定の背後にある合理的な役割を果たすことです。

We study question answering over a dynamic textual environment. Although neural network models achieve impressive accuracy via learning from input-output examples, they rarely leverage various types of knowledge and are generally not interpretable. In this work, we propose a graph-based approach, where a heterogeneous graph is automatically built with factual knowledge of the context, temporal knowledge of the past states, and logical knowledge that combines human-curated knowledge bases and rule bases. We develop a graph neural network over the constructed graph, and train the model in an end-to-end manner. Experimental results on a benchmark dataset show that the injection of various types of knowledge improves a strong neural network baseline. An additional benefit of our approach is that the graph itself naturally serves as a rational behind the decision making.
翻訳日:2022-12-09 21:42:48 公開日:2020-04-25
# 深部ニューラルネットワークによるパラメトリック拡散方程式の数値解

Numerical Solution of the Parametric Diffusion Equation by Deep Neural Networks ( http://arxiv.org/abs/2004.12131v1 )

ライセンス: Link先を確認
Moritz Geist, Philipp Petersen, Mones Raslan, Reinhold Schneider, Gitta Kutyniok(参考訳) 我々は,ニューラルネットワークの近似理論結果が,数値解析の文脈における実践的学習問題に与える影響について,総合的な数値的研究を行った。 基礎となるモデルとして,パラメトリック偏微分方程式の機械学習に基づく解について検討する。 ここで近似理論は、モデルの性能はパラメータ空間の次元にわずかに依存すべきであり、パラメトリック偏微分方程式の解多様体の固有次元によって決定されると予測する。 テストケースの選択が学習問題の最適化とサンプリングに与える影響を最小化することにより,テストケース間の比較可能性を確立するために様々な手法を用いる。 我々は,近似理論効果が数値解析における学習問題の実践的挙動に大きな影響を与えるという仮説を強く支持する。

We perform a comprehensive numerical study of the effect of approximation-theoretical results for neural networks on practical learning problems in the context of numerical analysis. As the underlying model, we study the machine-learning-based solution of parametric partial differential equations. Here, approximation theory predicts that the performance of the model should depend only very mildly on the dimension of the parameter space and is determined by the intrinsic dimension of the solution manifold of the parametric partial differential equation. We use various methods to establish comparability between test-cases by minimizing the effect of the choice of test-cases on the optimization and sampling aspects of the learning problem. We find strong support for the hypothesis that approximation-theoretical effects heavily influence the practical behavior of learning problems in numerical analysis.
翻訳日:2022-12-09 21:35:02 公開日:2020-04-25
# ベイズ人の機械科学者が科学的課題の解決を支援する

A Bayesian machine scientist to aid in the solution of challenging scientific problems ( http://arxiv.org/abs/2004.12157v1 )

ライセンス: Link先を確認
Roger Guimera and Ignasi Reichardt and Antoni Aguilar-Mogas and Francesco A Massucci and Manuel Miranda and Jordi Pallares and Marta Sales-Pardo(参考訳) クローズドフォームで解釈可能な数学的モデルは、世界の理解を促進するのに役立っている。データ革命により、我々は物理学から社会科学まで、多くのシステムでそのような新しいモデルを明らかにする立場にあるかもしれない。 しかし、データ量の増加に対処するには、データからこれらのモデルを自動的に抽出できる「機械科学者」が必要です。 そこで,ベイジアン機械科学者は,モデルに対する厳密な辺縁後部への明示的な近似を用いてモデルの妥当性を確立し,数学的表現の大規模な経験的コーパスから学習することによって,モデルに対する事前の期待を確立する。 マルコフ連鎖モンテカルロを用いてモデルの空間を探索する。 提案手法は,合成データや実データに対する正確なモデルを明らかにし,既存の手法や非パラメトリックな手法よりも高精度なサンプル外予測を提供する。

Closed-form, interpretable mathematical models have been instrumental for advancing our understanding of the world; with the data revolution, we may now be in a position to uncover new such models for many systems from physics to the social sciences. However, to deal with increasing amounts of data, we need "machine scientists" that are able to extract these models automatically from data. Here, we introduce a Bayesian machine scientist, which establishes the plausibility of models using explicit approximations to the exact marginal posterior over models and establishes its prior expectations about models by learning from a large empirical corpus of mathematical expressions. It explores the space of models using Markov chain Monte Carlo. We show that this approach uncovers accurate models for synthetic and real data and provides out-of-sample predictions that are more accurate than those of existing approaches and of other nonparametric methods.
翻訳日:2022-12-09 21:34:52 公開日:2020-04-25
# ランダム検索をガイドする学習

Learning to Guide Random Search ( http://arxiv.org/abs/2004.12214v1 )

ライセンス: Link先を確認
Ozan Sener, Vladlen Koltun(参考訳) 我々は高次元関数の微分自由最適化に関心がある。 既存の手法のサンプル複雑性は、一階法の次元非依存率とは異なり、問題次元に依存する。 近年のディープラーニングの成功は、多くのデータセットが深い非線形モデルで表現できる低次元多様体上にあることを示唆している。 したがって、潜在低次元多様体上の高次元函数の微分自由最適化を考える。 最適化を行いながらこの多様体を学習するオンライン学習手法を開発した。 言い換えれば、多様体を共同で学習し、関数を最適化する。 分析の結果,提案手法は試料の複雑さを著しく低減することがわかった。 本研究では,連続最適化ベンチマークと高次元連続制御問題について実験的に評価する。 提案手法は,Augmented Random Search, Bayesian Optimization, Covariance matrix adaptation (CMA-ES) およびその他の微分自由最適化アルゴリズムに比べて,試料の複雑さを著しく低減する。

We are interested in derivative-free optimization of high-dimensional functions. The sample complexity of existing methods is high and depends on problem dimensionality, unlike the dimensionality-independent rates of first-order methods. The recent success of deep learning suggests that many datasets lie on low-dimensional manifolds that can be represented by deep nonlinear models. We therefore consider derivative-free optimization of a high-dimensional function that lies on a latent low-dimensional manifold. We develop an online learning approach that learns this manifold while performing the optimization. In other words, we jointly learn the manifold and optimize the function. Our analysis suggests that the presented method significantly reduces sample complexity. We empirically evaluate the method on continuous optimization benchmarks and high-dimensional continuous control problems. Our method achieves significantly lower sample complexity than Augmented Random Search, Bayesian optimization, covariance matrix adaptation (CMA-ES), and other derivative-free optimization algorithms.
翻訳日:2022-12-09 21:34:17 公開日:2020-04-25
# 学習最適化による対人訓練の改善

Improved Adversarial Training via Learned Optimizer ( http://arxiv.org/abs/2004.12227v1 )

ライセンス: Link先を確認
Yuanhao Xiong and Cho-Jui Hsieh(参考訳) 敵対的攻撃は近年、ディープラーニングモデルにとって大きな脅威となっている。 機械学習モデルの堅牢性を改善するため、最小限の最適化問題として定式化された敵の訓練は、最も効果的な防御機構の1つとして認識されている。 しかし、非凸性および非凹性はミニマックストレーニングに大きな課題をもたらす。 本稿では,一般的に使用されるpgd攻撃が内部最大化に最適ではないことを実証し,改良した内部最適化器によりより堅牢なモデルが実現できることを示す。 次に,学習-学習(l2l)フレームワークを活用して,反復型ニューラルネットワークを用いたオプティマイザのトレーニングを行い,内部問題に対する更新方向とステップを適応的に提供する。 最適化器のパラメータとモデルの重みを協調訓練することにより、提案フレームワークはPGDベースの対角訓練とTRADESよりもモデルロバスト性を一貫して改善する。

Adversarial attack has recently become a tremendous threat to deep learning models. To improve the robustness of machine learning models, adversarial training, formulated as a minimax optimization problem, has been recognized as one of the most effective defense mechanisms. However, the non-convex and non-concave property poses a great challenge to the minimax training. In this paper, we empirically demonstrate that the commonly used PGD attack may not be optimal for inner maximization, and improved inner optimizer can lead to a more robust model. Then we leverage a learning-to-learn (L2L) framework to train an optimizer with recurrent neural networks, providing update directions and steps adaptively for the inner problem. By co-training optimizer's parameters and model's weights, the proposed framework consistently improves the model robustness over PGD-based adversarial training and TRADES.
翻訳日:2022-12-09 21:34:04 公開日:2020-04-25
# NetML: ネットワークトラフィック分析の課題

NetML: A Challenge for Network Traffic Analytics ( http://arxiv.org/abs/2004.13006v1 )

ライセンス: Link先を確認
Onur Barut, Yan Luo, Tong Zhang, Weigang Li, Peilong Li(参考訳) ネットワークトラフィックの分類は重要なネットワークアプリケーションの基礎である。 この領域での以前の研究は、代表データセットの可用性に関する課題に直面しており、多くの結果は容易に再現できない。 このような問題は、新しいデータ駆動機械学習ベースのアプローチによって悪化する。 この問題に対処するため,約1.3Mのラベル付きフローを含む3つのオープンデータセット,フロー特徴と匿名化された生パケットを研究コミュニティに提供する。 マルウェア検出とアプリケーション分類の両方を含むネットワークトラフィック分析の幅広い側面に焦点を当てる。 我々は,NetMLと呼ばれるオープンチャレンジの形でデータセットをリリースし,ランダムフォレストやSVM,MLPなど,いくつかの機械学習手法を実装した。 NetMLの成長を続けるにつれて、データセットはAI駆動で再現可能なネットワークフロー分析の研究のための共通プラットフォームとして機能することを期待しています。

Classifying network traffic is the basis for important network applications. Prior research in this area has faced challenges on the availability of representative datasets, and many of the results cannot be readily reproduced. Such a problem is exacerbated by emerging data-driven machine learning based approaches. To address this issue, we provide three open datasets containing almost 1.3M labeled flows in total, with flow features and anonymized raw packets, for the research community. We focus on broad aspects in network traffic analysis, including both malware detection and application classification. We release the datasets in the form of an open challenge called NetML and implement several machine learning methods including random-forest, SVM and MLP. As we continue to grow NetML, we expect the datasets to serve as a common platform for AI driven, reproducible research on network flow analytics.
翻訳日:2022-12-09 21:33:30 公開日:2020-04-25
# コアオブジェクト認識の観点から見た$\beta$-vaeにおける不連続表現の教師なし学習

A Deeper Look at the Unsupervised Learning of Disentangled Representations in $\beta$-VAE from the Perspective of Core Object Recognition ( http://arxiv.org/abs/2005.07114v1 )

ライセンス: Link先を確認
Harshvardhan Sikka(参考訳) コアオブジェクト認識と呼ばれる外観の違いがあるにもかかわらず、物体を認識する能力は、人間の知覚の重要な部分を形成する。 脳はフィードフォワードを通じてコアオブジェクト認識を行っていると理解されているが、ビジュアルストリームを通じて階層的な計算を行うが、不変表現を下流で形成できる基礎となるアルゴリズムはまだよく分かっていない。 (DiCarloら、2012年) 物体識別タスクを人工的な知覚設定で試み、取り組むために、様々な計算知覚モデルが構築されている。 重み付きエッジと頂点での数学的操作からなる計算グラフである人工ニューラルネットワークは、脳内のニューラルネットワークにゆるくインスパイアされており、オブジェクトのキャラクタリゼーションや識別を含む様々な視覚知覚タスクにおいて有効であることが証明されている。 (Pinto et al., 2008) (DiCarlo et al., 2012) 多くのデータ解析タスクでは、各次元が統計的に独立であり、他の次元から切り離された学習表現が有用である。 データの基礎となる生成因子が統計的に独立であれば、潜伏変数のベイズ推定は非絡み合い表現を形成することができる。 この論文は変分オートエンコーダ(VAE, $\beta$-VAE)の一般化を探求する研究プロジェクトを構成する。 _\beta$-vae はハイパーパラメータ $\beta$ を組み込み、ボトルネックニューロンの条件付き独立性を強制するが、一般的には潜在変数の統計的独立とは相容れない。 このテキストは、このアーキテクチャを検証し、解析的および数値的な議論を提供し、この不整合性が有限の最適$\beta$-VAEの非単調推論性能をもたらすことを示す。

The ability to recognize objects despite there being differences in appearance, known as Core Object Recognition, forms a critical part of human perception. While it is understood that the brain accomplishes Core Object Recognition through feedforward, hierarchical computations through the visual stream, the underlying algorithms that allow for invariant representations to form downstream is still not well understood. (DiCarlo et al., 2012) Various computational perceptual models have been built to attempt and tackle the object identification task in an artificial perceptual setting. Artificial Neural Networks, computational graphs consisting of weighted edges and mathematical operations at vertices, are loosely inspired by neural networks in the brain and have proven effective at various visual perceptual tasks, including object characterization and identification. (Pinto et al., 2008) (DiCarlo et al., 2012) For many data analysis tasks, learning representations where each dimension is statistically independent and thus disentangled from the others is useful. If the underlying generative factors of the data are also statistically independent, Bayesian inference of latent variables can form disentangled representations. This thesis constitutes a research project exploring a generalization of the Variational Autoencoder (VAE), $\beta$-VAE, that aims to learn disentangled representations using variational inference. $\beta$-VAE incorporates the hyperparameter $\beta$, and enforces conditional independence of its bottleneck neurons, which is in general not compatible with the statistical independence of latent variables. This text examines this architecture, and provides analytical and numerical arguments, with the goal of demonstrating that this incompatibility leads to a non-monotonic inference performance in $\beta$-VAE with a finite optimal $\beta$.
翻訳日:2022-12-09 21:26:58 公開日:2020-04-25
# サブワード文脈埋め込みを用いた階層型マルチタスク学習

Hierarchical Multi Task Learning with Subword Contextual Embeddings for Languages with Rich Morphology ( http://arxiv.org/abs/2004.12247v1 )

ライセンス: Link先を確認
Arda Akdemir and Tetsuo Shibuya and Tunga G\"ung\"or(参考訳) 形態情報は自然言語処理(NLP)における多くのシーケンスラベリングタスクにおいて重要である。 しかし、既存のアプローチでは、この情報を取得するために手動アノテーションや外部ソフトウェアに大きく依存している。 そこで本研究では,単語の文脈的埋め込みを用いて,形態素に富む言語の形態情報を取り込む手法を提案する。 さらに、これらの埋め込みを、これまで採用されていない階層的なマルチタスク設定に組み込んで、私たちの知識を最大限に活用する。 DEP(Dependency Parsing)とNER(Named Entity Recognition)タスクの評価を行った結果,トルコ語の両方のタスクにおいて,最終モデルは従来の最先端モデルよりも優れていたことがわかった。 さらに,提案したマルチタスク学習者に対して,DEPタスクとNERタスクをそれぞれ同じ設定で18.86%,F-1を4.61%改善した。 5つの異なるMTL設定に対する実証的な結果から、サブワードコンテキスト埋め込みを組み込むことで、両方のタスクに大きな改善がもたらされる。 さらに,マルチタスク学習はDEPコンポーネントの性能を継続的に改善することを示した。

Morphological information is important for many sequence labeling tasks in Natural Language Processing (NLP). Yet, existing approaches rely heavily on manual annotations or external software to capture this information. In this study, we propose using subword contextual embeddings to capture the morphological information for languages with rich morphology. In addition, we incorporate these embeddings in a hierarchical multi-task setting which is not employed before, to the best of our knowledge. Evaluated on Dependency Parsing (DEP) and Named Entity Recognition (NER) tasks, which are shown to benefit greatly from morphological information, our final model outperforms previous state-of-the-art models on both tasks for the Turkish language. Besides, we show a net improvement of 18.86% and 4.61% F-1 over the previously proposed multi-task learner in the same setting for the DEP and the NER tasks, respectively. Empirical results for five different MTL settings show that incorporating subword contextual embeddings brings significant improvements for both tasks. In addition, we observed that multi-task learning consistently improves the performance of the DEP component.
翻訳日:2022-12-09 21:25:41 公開日:2020-04-25
# 質問シーケンシングのためのニューラルネットワークに基づく協調フィルタリング

Neural Network-Based Collaborative Filtering for Question Sequencing ( http://arxiv.org/abs/2004.12212v1 )

ライセンス: Link先を確認
Lior Sidi and Hadar Klein(参考訳) E-Learning System (ELS) と Intelligent Tutoring Systems (ITS) は、今日の教育プログラムにおいて重要な役割を果たしている。 質問のシーケンスは、ターゲット学習者にパーソナライズされたクイズを生成する技術である。 パーソナライズされたテストは、学習者の経験を豊かにし、より効果的で効率的な学習プロセスに貢献する。 本稿では,ニューラル・コラボレーティブ・フィルタリング(ncf)モデルを用いて質問シークエンシングを生成し,ペアワイズメモリに基づく質問シークエンシングアルゴリズム(edurank)と比較した。 NCFモデルでは,平均相関スコア0.85のEduRankモデルよりも0.8。

E-Learning systems (ELS) and Intelligent Tutoring Systems (ITS) play a significant part in today's education programs. Sequencing questions is the art of generating a personalized quiz for a target learner. A personalized test will enrich the learner's experience and will contribute to a more effective and efficient learning process. In this paper, we used the Neural Collaborative Filtering (NCF) model to generate question sequencing and compare it to a pair-wise memory-based question sequencing algorithm - EduRank. The NCF model showed significantly better ranking results than the EduRank model with an Average precision correlation score of 0.85 compared to 0.8.
翻訳日:2022-12-09 21:25:12 公開日:2020-04-25
# 進化的ファジィルールを用いたログベース予測保守のためのデータセンターにおけるリアルタイム異常検出

Real-Time Anomaly Detection in Data Centers for Log-based Predictive Maintenance using an Evolving Fuzzy-Rule-Based Approach ( http://arxiv.org/abs/2004.13527v1 )

ライセンス: Link先を確認
Leticia Decker, Daniel Leite, Luca Giommi, Daniele Bonacorsi(参考訳) データセンターにおける異常な挙動の検出は、予測的保守とデータの安全性に不可欠である。 データセンターでは、ユーザがデータや情報を送受信できるあらゆるコンピュータネットワークを意味します。 特に,ジュネーブの大型ハドロン衝突型加速器(LHC)における高エネルギー物理実験を支援するイタリア核物理学研究所(INFN)のTier-1データセンターに注目した。 このセンターはデータ処理、ストレージ、分析、分散に必要なリソースとサービスを提供する。 データセンターのログ記録は、本質的に確率的かつ非定常的な現象である。 そこで本稿では,スライディングタイムウィンドウに基づくログレコードの監視と分類を行うリアルタイム手法と,ファジィルールに基づく分類モデルを提案する。 制御チャートに応じた最も頻繁なログパターンは、正常なシステム状態として取られる。 時間窓から属性を抽出し,進化するガウスファジィ分類器(egfc)を段階的に開発・更新する。 リアルタイム異常監視システムは, 精度, コンパクト性, リアルタイム操作の観点から, 奨励的な結果を提供する必要がある。

Detection of anomalous behaviors in data centers is crucial to predictive maintenance and data safety. With data centers, we mean any computer network that allows users to transmit and exchange data and information. In particular, we focus on the Tier-1 data center of the Italian Institute for Nuclear Physics (INFN), which supports the high-energy physics experiments at the Large Hadron Collider (LHC) in Geneva. The center provides resources and services needed for data processing, storage, analysis, and distribution. Log records in the data center is a stochastic and non-stationary phenomenon in nature. We propose a real-time approach to monitor and classify log records based on sliding time windows, and a time-varying evolving fuzzy-rule-based classification model. The most frequent log pattern according to a control chart is taken as the normal system status. We extract attributes from time windows to gradually develop and update an evolving Gaussian Fuzzy Classifier (eGFC) on the fly. The real-time anomaly monitoring system has to provide encouraging results in terms of accuracy, compactness, and real-time operation.
翻訳日:2022-12-09 21:25:01 公開日:2020-04-25
# バッグの3d画像における電気デバイスの検出

Detecting Electric Devices in 3D Images of Bags ( http://arxiv.org/abs/2005.02163v1 )

ライセンス: Link先を確認
Anthony Bagnall, Paul Southam, James Large and Richard Harvey(参考訳) 航空・運輸安全産業は、最低限の時間で、脅威やコントラバンドに対する大量の荷物を検査するという課題に直面している。 この手順の自動化と半自動化は、より多くの脅威を検出し、プロセスをスピードアップすることで顧客エクスペリエンスを改善することで、セキュリティを向上させる可能性を提供します。 従来の2次元X線画像は、密に充填され、様々な乱れや隠蔽物を含んでいるため、検査が難しいことが多い。 これらの制限により、主要空港では3d x線ct検査が導入されている。 荷物の3d画像から電気機器を検出するプロセスを自動化できるかどうかについて検討する。 爆発物を隠蔽するために電気装置を検知することは特に懸念される。 この脅威のためにスクリーニングする必要がある大量の荷物を考えると、検出を自動化する最善の方法は、まずバッグに電気デバイスが含まれているかどうかをフィルターし、そうでなければ、デバイス数と位置を識別することだ。 シーブ(sieve)として知られるアルゴリズムを用いて、データを複数のスケールで分割してアンパックし、ボクセル強度のヒストグラムに基づいてセグメントが電気的かどうかを予測し、そのセグメントをセンシングしてバッグ内のデバイスを特定するアルゴリズムであるアンパック、予測、抽出、再パック(uxpr)を提案する。 ALERT(Awareness and Localization of Explosives-Related Threats)が提供するデータを用いて実験を行い、類似した装置がこれまで見られていた場合、非教師なしセグメンテーションのデバイスの割合が高いことを示すとともに、その構成部品の特性に基づいて全く見えないデバイスを検出するための有望な結果を示す。

The aviation and transport security industries face the challenge of screening high volumes of baggage for threats and contraband in the minimum time possible. Automation and semi-automation of this procedure offers the potential to increase security by detecting more threats and improve the customer experience by speeding up the process. Traditional 2D x-ray images are often extremely difficult to examine due to the fact that they are tightly packed and contain a wide variety of cluttered and occluded objects. Because of these limitations, major airports are introducing 3D x-ray Computed Tomography (CT) baggage scanning. We investigate whether we can automate the process of detecting electric devices in these 3D images of luggage. Detecting electrical devices is of particular concern as they can be used to conceal explosives. Given the massive volume of luggage that needs to be screened for this threat, the best way to automate the detection is to first filter whether a bag contains an electric device or not, and if it does, to identify the number of devices and their location. We present an algorithm, Unpack, Predict, eXtract, Repack (UXPR), which involves unpacking through segmenting the data at a range of scales using an algorithm known as the Sieve, predicting whether a segment is electrical or not based on the histogram of voxel intensities, then repacking the bag by ensembling the segments and predictions to identify the devices in bags. Through a range of experiments using data provided by ALERT (Awareness and Localization of Explosives-Related Threats) we show that this system can find a high proportion of devices with unsupervised segmentation if a similar device has been seen before, and shows promising results for detecting devices not seen at all based on the properties of its constituent parts.
翻訳日:2022-12-09 21:18:04 公開日:2020-04-25
# L-Vector: ドメイン適応のためのニューラルラベル埋め込み

L-Vector: Neural Label Embedding for Domain Adaptation ( http://arxiv.org/abs/2004.13480v1 )

ライセンス: Link先を確認
Zhong Meng, Hu Hu, Jinyu Li, Changliang Liu, Yan Huang, Yifan Gong, Chin-Hui Lee(参考訳) 本稿では,ソース領域とターゲット領域からの非ペアデータサンプルを用いた深層ニューラルネットワーク(dnn)音響モデルの領域適応のためのニューラルラベル埋め込み(nle)スキームを提案する。 nle メソッドでは,強力なソースドメイン dnn からラベル埋め込み辞書 (l-vectors) に知識を精算する。 各l-ベクターは、ソースドメインDNNのセノン固有の出力分布の表現であり、単純な平均または標準バックプロパゲーションにより、出力ベクトルから出力ベクトルへの平均L2, Kullback-Leibler (KL) または対称KL距離を最小にすることが学習される。 適応中、l-ベクトルは対象領域モデルをクロスエントロピー損失で訓練するためのソフトターゲットとして機能する。 教師-学生学習のような並列データ制約がなければ、NLEはソースドメインデータからペアのターゲットドメインデータをシミュレートできない状況に特に適している。 アクセント付き英語(80時間から830時間)と子どものスピーチ(80時間)のそれぞれに6400時間のマルチコンディショナルな米国英語音響モデルを適用した。 NLEは1ホットラベルによる直接再トレーニングよりも14.1%の相対的な単語誤り率の低減を実現している。

We propose a novel neural label embedding (NLE) scheme for the domain adaptation of a deep neural network (DNN) acoustic model with unpaired data samples from source and target domains. With NLE method, we distill the knowledge from a powerful source-domain DNN into a dictionary of label embeddings, or l-vectors, one for each senone class. Each l-vector is a representation of the senone-specific output distributions of the source-domain DNN and is learned to minimize the average L2, Kullback-Leibler (KL) or symmetric KL distance to the output vectors with the same label through simple averaging or standard back-propagation. During adaptation, the l-vectors serve as the soft targets to train the target-domain model with cross-entropy loss. Without parallel data constraint as in the teacher-student learning, NLE is specially suited for the situation where the paired target-domain data cannot be simulated from the source-domain data. We adapt a 6400 hours multi-conditional US English acoustic model to each of the 9 accented English (80 to 830 hours) and kids' speech (80 hours). NLE achieves up to 14.1% relative word error rate reduction over direct re-training with one-hot labels.
翻訳日:2022-12-09 21:17:31 公開日:2020-04-25
# モースフレム最適化と鯨最適化アルゴリズムを用いた群プログラミング

Swarm Programming Using Moth-Flame Optimization and Whale Optimization Algorithms ( http://arxiv.org/abs/2005.04151v1 )

ライセンス: Link先を確認
Tapas Si(参考訳) 自動プログラミング(AP)は、コンピュータプログラムが自動的に生成される機械学習(ML)の重要な領域である。 新たな研究領域であるSwarm Programming (SP)は、Swarm Intelligence (SI)アルゴリズムを使用して自動的にコンピュータプログラムを生成する。 本稿では,gmfo(grammatical moth-flame optimizer)とgwo(grammatical whale optimizer)という2つの文法に基づくsp法を提案する。 モースフラムオプティマイザと鯨最適化アルゴリズムは、それぞれgmfoとgwoの検索エンジンまたは学習アルゴリズムとして使用される。 提案手法は, サンタフェ・アント・トレイル, クォート記号回帰, 3入力多重化問題で検証される。 実験結果は,文法蜂コロニー (gbc) と文法花火アルゴリズム (gfwa) と比較した。 実験結果は,提案手法がコンピュータプログラムの自動生成に有効であることを示す。

Automatic programming (AP) is an important area of Machine Learning (ML) where computer programs are generated automatically. Swarm Programming (SP), a newly emerging research area in AP, automatically generates the computer programs using Swarm Intelligence (SI) algorithms. This paper presents two grammar-based SP methods named as Grammatical Moth-Flame Optimizer (GMFO) and Grammatical Whale Optimizer (GWO). The Moth-Flame Optimizer and Whale Optimization algorithm are used as search engines or learning algorithms in GMFO and GWO respectively. The proposed methods are tested on Santa Fe Ant Trail, quartic symbolic regression, and 3-input multiplexer problems. The results are compared with Grammatical Bee Colony (GBC) and Grammatical Fireworks algorithm (GFWA). The experimental results demonstrate that the proposed SP methods can be used in automatic computer program generation.
翻訳日:2022-12-09 21:17:08 公開日:2020-04-25
# MixText:半教師付きテキスト分類のための隠れ空間の言語的インフォームド補間

MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification ( http://arxiv.org/abs/2004.12239v1 )

ライセンス: Link先を確認
Jiaao Chen, Zichao Yang, Diyi Yang(参考訳) 本稿では,テキスト分類のための半教師付き学習手法であるMixTextについて述べる。 TMixは、隠れた空間でテキストを補間することで、大量の拡張トレーニングサンプルを生成する。 さらに,ラベルなしデータの低エントロピーラベルを推定するデータ拡張の最近の進歩を活かし,ラベル付きデータやラベルなしデータ,拡張データ,mixtextが現在の事前学習モデルや微調整モデル,その他最先端の半教師付き学習手法を複数のテキスト分類ベンチマークで比較することで,ラベル付きデータとラベル付きデータの併用が容易になった。 特に監督が極めて限られている場合、改善は顕著である。 コードについてはhttps://github.com/GT-SALT/MixText.comで公開しています。

This paper presents MixText, a semi-supervised learning method for text classification, which uses our newly designed data augmentation method called TMix. TMix creates a large amount of augmented training samples by interpolating text in hidden space. Moreover, we leverage recent advances in data augmentation to guess low-entropy labels for unlabeled data, hence making them as easy to use as labeled data.By mixing labeled, unlabeled and augmented data, MixText significantly outperformed current pre-trained and fined-tuned models and other state-of-the-art semi-supervised learning methods on several text classification benchmarks. The improvement is especially prominent when supervision is extremely limited. We have publicly released our code at https://github.com/GT-SALT/MixText.
翻訳日:2022-12-09 21:16:19 公開日:2020-04-25
# ストリーミング次元削減によるメモリ効率トレーニング

Memory-efficient training with streaming dimensionality reduction ( http://arxiv.org/abs/2004.12041v1 )

ライセンス: Link先を確認
Siyuan Huang, Brian D. Hoskins, Matthew W. Daniels, Mark D. Stiles, Gina C. Adam(参考訳) Deep Neural Networkのトレーニング中の大量のデータの移動は、機械学習ワークロードに対する大きな課題を提示します。 このオーバーヘッドを最小限に抑えるために,特に勾配情報の移動と計算において,ストリームバッチ主成分分析を更新アルゴリズムとして導入する。 ストリーミングバッチ主成分分析は、確率的パワーイテレーションを使用して、ネットワーク勾配の確率的kランク近似を生成する。 ストリーミングバッチの主成分分析によって生成される低ランク更新は、様々な共通データセット上で畳み込みニューラルネットワークを効果的にトレーニングできることを実証し、標準のミニバッチ勾配降下に匹敵する性能を示す。 これらの結果は、ディープラーニングのためのアプリケーション固有の集積回路の設計と、データ並列性で訓練された機械学習モデルの同期速度の両方の改善につながる。

The movement of large quantities of data during the training of a Deep Neural Network presents immense challenges for machine learning workloads. To minimize this overhead, especially on the movement and calculation of gradient information, we introduce streaming batch principal component analysis as an update algorithm. Streaming batch principal component analysis uses stochastic power iterations to generate a stochastic k-rank approximation of the network gradient. We demonstrate that the low rank updates produced by streaming batch principal component analysis can effectively train convolutional neural networks on a variety of common datasets, with performance comparable to standard mini batch gradient descent. These results can lead to both improvements in the design of application specific integrated circuits for deep learning and in the speed of synchronization of machine learning models trained with data parallelism.
翻訳日:2022-12-09 21:15:47 公開日:2020-04-25
# NullSpaceNet:異なる損失関数を持つNullspace Convoluional Neural Network

NullSpaceNet: Nullspace Convoluional Neural Network with Differentiable Loss Function ( http://arxiv.org/abs/2004.12058v1 )

ライセンス: Link先を確認
Mohamed H. Abdelpakey, Mohamed S. Shehata(参考訳) 本研究では,従来の特徴空間とは対照的に,画素レベルの入力からジョイントヌル空間にマッピングするネットワークであるNullSpaceNetを提案する。 nullspacenetは、同じクラスからの全ての入力がこの新しいジョイント・ヌルスペースにおいて1つのポイントに崩壊し、異なるクラスは高い分離マージンで異なるポイントに崩壊することを保証する。 さらに、自由パラメータを持たない閉形式解を持つ新しい微分可能損失関数を提案する。 nullspacenetは、4つの異なるデータセットにまたがる完全接続層を持つvgg16に対して優れた性能を示し、精度は4.55%まで向上し、学習可能なパラメータが135mから19mに減少し、nullspacenetを支持して99%の推論時間を短縮した。 これは、NullSpaceNetが従来のCNNで画像のバッチをより正確に分類するのに要する時間の1%以下であることを意味する。

We propose NullSpaceNet, a novel network that maps from the pixel level input to a joint-nullspace (as opposed to the traditional feature space), where the newly learned joint-nullspace features have clearer interpretation and are more separable. NullSpaceNet ensures that all inputs from the same class are collapsed into one point in this new joint-nullspace, and the different classes are collapsed into different points with high separation margins. Moreover, a novel differentiable loss function is proposed that has a closed-form solution with no free-parameters. NullSpaceNet exhibits superior performance when tested against VGG16 with fully-connected layer over 4 different datasets, with accuracy gain of up to 4.55%, a reduction in learnable parameters from 135M to 19M, and reduction in inference time of 99% in favor of NullSpaceNet. This means that NullSpaceNet needs less than 1% of the time it takes a traditional CNN to classify a batch of images with better accuracy.
翻訳日:2022-12-09 21:15:34 公開日:2020-04-25
# SE-KGE:地理質問応答と空間意味リフティングのための位置情報対応知識グラフ埋め込みモデル

SE-KGE: A Location-Aware Knowledge Graph Embedding Model for Geographic Question Answering and Spatial Semantic Lifting ( http://arxiv.org/abs/2004.14171v1 )

ライセンス: Link先を確認
Gengchen Mai, Krzysztof Janowicz, Ling Cai, Rui Zhu, Blake Regalia, Bo Yan, Meilin Shi, Ni Lao(参考訳) 学習知識グラフ(KG)埋め込みは、要約、リンク予測、情報検索、質問応答など、さまざまな下流タスクのための新興技術である。 しかし、既存のkg埋め込みモデルの多くは空間を無視しており、(地理)空間データやタスクに適用してもうまく機能しない。 空間を考えるモデルの場合、そのほとんどは距離の概念に依存している。 これらのモデルは、訓練中の計算の複雑さが高まる一方、エンティティ間の相対距離を超えた情報を失う。 本研究では,SE-KGEと呼ばれる位置認識型KG埋め込みモデルを提案する。 点座標や地理的実体の境界ボックスなどの空間情報をKG埋め込み空間に直接エンコードする。 得られたモデルは、異なるタイプの空間的推論を扱うことができる。 また,複数のベースラインと比較してse-kgeの性能を評価するために,地理知識グラフとdbgeoと呼ばれる地理的クエリ・アンワーペアも構築した。 評価の結果,SE-KGEはDBGeoデータセット上で,地理的論理クエリ応答タスクにおいて,これらのベースラインよりも優れていた。 これは,空間的探索モデルの有効性と,異なる地理的実体のスケールを考察することの重要性を示す。 最後に、学習領域の任意の位置と、いくつかの関係を介してkgのエンティティをリンクする、空間的意味付けと呼ばれる新しい下流タスクを導入する。 DBGeoの評価は、我々のモデルがベースラインをかなり上回ることを示している。

Learning knowledge graph (KG) embeddings is an emerging technique for a variety of downstream tasks such as summarization, link prediction, information retrieval, and question answering. However, most existing KG embedding models neglect space and, therefore, do not perform well when applied to (geo)spatial data and tasks. For those models that consider space, most of them primarily rely on some notions of distance. These models suffer from higher computational complexity during training while still losing information beyond the relative distance between entities. In this work, we propose a location-aware KG embedding model called SE-KGE. It directly encodes spatial information such as point coordinates or bounding boxes of geographic entities into the KG embedding space. The resulting model is capable of handling different types of spatial reasoning. We also construct a geographic knowledge graph as well as a set of geographic query-answer pairs called DBGeo to evaluate the performance of SE-KGE in comparison to multiple baselines. Evaluation results show that SE-KGE outperforms these baselines on the DBGeo dataset for geographic logic query answering task. This demonstrates the effectiveness of our spatially-explicit model and the importance of considering the scale of different geographic entities. Finally, we introduce a novel downstream task called spatial semantic lifting which links an arbitrary location in the study area to entities in the KG via some relations. Evaluation on DBGeo shows that our model outperforms the baseline by a substantial margin.
翻訳日:2022-12-09 21:09:57 公開日:2020-04-25
# 深層強化学習を用いた Knapsack 問題解決のための状態集約手法

A State Aggregation Approach for Solving Knapsack Problem with Deep Reinforcement Learning ( http://arxiv.org/abs/2004.12117v1 )

ライセンス: Link先を確認
Reza Refaei Afshar and Yingqian Zhang and Murat Firat and Uzay Kaymak(参考訳) 本稿では,knapsack問題の解法として,Deep Reinforcement Learning (DRL)アプローチを提案する。 提案手法は,表型強化学習に基づく状態集約ステップから構成し,特徴と構成状態を抽出する。 状態集約ポリシは、アドバンテージアクター批評家(A2C)アルゴリズムで使用されるknapsack問題の各問題インスタンスに適用され、各ステップでアイテムが順次選択されるポリシーをトレーニングする。 本発明の方法は、構成解法であり、最終解が得られるまで、アイテムを選択する工程を繰り返す。 実験の結果,本手法はすべてのテストインスタンスに対して最適に近い解を提供し,グレディアルゴリズムより優れ,既存のDRL手法よりも大きなインスタンスを処理し,より柔軟であることがわかった。 さらに, 状態集約戦略を用いた提案モデルが, 状態集約戦略のないモデルよりも優れた解を与えるだけでなく, 少ない時間ステップで学習できることを示した。

This paper proposes a Deep Reinforcement Learning (DRL) approach for solving knapsack problem. The proposed method consists of a state aggregation step based on tabular reinforcement learning to extract features and construct states. The state aggregation policy is applied to each problem instance of the knapsack problem, which is used with Advantage Actor Critic (A2C) algorithm to train a policy through which the items are sequentially selected at each time step. The method is a constructive solution approach and the process of selecting items is repeated until the final solution is obtained. The experiments show that our approach provides close to optimal solutions for all tested instances, outperforms the greedy algorithm, and is able to handle larger instances and more flexible than an existing DRL approach. In addition, the results demonstrate that the proposed model with the state aggregation strategy not only gives better solutions but also learns in less timesteps, than the one without state aggregation.
翻訳日:2022-12-09 21:09:35 公開日:2020-04-25
# オンライン教師なしクラスタリングのためのニューロモルフィックパラダイム

A Neuromorphic Paradigm for Online Unsupervised Clustering ( http://arxiv.org/abs/2005.04170v1 )

ライセンス: Link先を確認
James E. Smith(参考訳) 神経科学的な概念に基づく計算パラダイムを提案し,非教師なしクラスタリングのオンライン化が可能であることを示した。 オンラインメソッドであるため、リアルタイムアプリケーションを簡単にストリーミングでき、マクロレベルの入力変更に動的に調整することができる。 すべての操作は、トレーニングと推論の両方がローカライズされ、効率的です。 このパラダイムは,5つの重要な要素を含む認知列として実装されている。 1) 時間符号化 2) 推論のための興奮性ニューロンモデル 3) 受賞者全員の抑止 4) 励起と抑制を組み合わせた柱建築 5)spike time de-pendent plasticity(stdp)による局所トレーニング。 これらの要素は説明され、議論され、プロトタイプコラムが与えられる。 プロトタイプカラムは半合成ベンチマークでシミュレートされ、古典的なk平均と同等のパフォーマンス特性を示す。 シミュレーションにより、興奮性ニューロン応答関数とSTDP実装に焦点を当てたカラムの内部動作と機能を明らかにする。

A computational paradigm based on neuroscientific concepts is proposed and shown to be capable of online unsupervised clustering. Because it is an online method, it is readily amenable to streaming realtime applications and is capable of dynamically adjusting to macro-level input changes. All operations, both training and inference, are localized and efficient. The paradigm is implemented as a cognitive column that incorporates five key elements: 1) temporal coding, 2) an excitatory neuron model for inference, 3) winner-take-all inhibition, 4) a column architecture that combines excitation and inhibition, 5) localized training via spike timing de-pendent plasticity (STDP). These elements are described and discussed, and a prototype column is given. The prototype column is simulated with a semi-synthetic benchmark and is shown to have performance characteristics on par with classic k-means. Simulations reveal the inner operation and capabilities of the column with emphasis on excitatory neuron response functions and STDP implementations.
翻訳日:2022-12-09 21:09:19 公開日:2020-04-25
# 教師なし文書要約のための単語埋め込みとN-gramの組み合わせ

Combining Word Embeddings and N-grams for Unsupervised Document Summarization ( http://arxiv.org/abs/2004.14119v1 )

ライセンス: Link先を確認
Zhuolin Jiang, Manaj Srivastava, Sanjay Krishna, David Akodes, Richard Schwartz(参考訳) グラフに基づく抽出文書要約は文類似度グラフの品質に依存する。 Bag-of-words または tf-idf ベースの文類似性は正確な単語マッチングを使用するが、個々の単語間の意味的類似性の測定や文の意味的構造の検討には失敗する。 文間の類似度を向上するために,既製の深層埋め込み機能とtf-idf機能を採用し,新しいテキスト類似度指標を導入する。 改良文類似度グラフを、重み付き被覆項と多様性項とからなる抽出要約のためのサブモジュラー目的関数として構築して使用する。 文書要約を支援する文圧縮のためのトランスベース圧縮モデルを開発した。 私たちの要約アプローチは抽出的で教師なしです。 実験により,本手法は,DUC04データセットにおけるtf-idfベースのアプローチよりも優れ,また,CNN/DMおよびNYTデータセット上での教師付き学習手法に匹敵する性能を示す。

Graph-based extractive document summarization relies on the quality of the sentence similarity graph. Bag-of-words or tf-idf based sentence similarity uses exact word matching, but fails to measure the semantic similarity between individual words or to consider the semantic structure of sentences. In order to improve the similarity measure between sentences, we employ off-the-shelf deep embedding features and tf-idf features, and introduce a new text similarity metric. An improved sentence similarity graph is built and used in a submodular objective function for extractive summarization, which consists of a weighted coverage term and a diversity term. A Transformer based compression model is developed for sentence compression to aid in document summarization. Our summarization approach is extractive and unsupervised. Experiments demonstrate that our approach can outperform the tf-idf based approach and achieve state-of-the-art performance on the DUC04 dataset, and comparable performance to the fully supervised learning methods on the CNN/DM and NYT datasets.
翻訳日:2022-12-09 21:08:53 公開日:2020-04-25
# 計画・政策立案における正確な予測と因果分析 : 救急医療サービス需要を事例として

Towards Accurate Predictions and Causal 'What-if' Analyses for Planning and Policy-making: A Case Study in Emergency Medical Services Demand ( http://arxiv.org/abs/2004.12092v1 )

ライセンス: Link先を確認
Kasun Bandara, Christoph Bergmeir, Sam Campbell, Deborah Scott, Dan Lubman(参考訳) 緊急医療サービス(ems)の需要負荷は多くの政府当局にとってかなりの負担となっている。 本稿では,ems需要を予測し,因果関係を分析し,複数の地方自治体にまたがる政策立案のための「what-if」分析を行うためのグローバル予測・推論フレームワークであるdeepppmnet(deepppmnet)を提案する。 従来の単変量予測手法がなければ,提案手法はグローバルな予測手法に従っており,モデルが利用可能なEMS需要時系列全体にわたってトレーニングされ,利用可能なクロスシリーズ情報を活用する。 DeepPPMNetはまた、2つの異なるトレーニングパラダイムに組み込まれた季節分解技術を使用して、EMS関連時系列データの様々な特性に適合する。 次に,グローバルな予測フレームワークによって,国家の政策決定プロセスに使用可能な<What-if'分析が可能になる,Granger Causalityという概念を用いて因果関係を探究する。 オーストラリアにおけるアルコール, 薬物使用, セルフハームに関連するEMSデータセットを用いて, 本手法を実験的に評価した。 提案手法は,多くの最先端技術より優れ,予測精度の点で競争力のある結果が得られる。 最後に、アルコールアウトレットライセンスに関する例で、ポリシー作成にその使用法を説明します。

Emergency Medical Services (EMS) demand load has become a considerable burden for many government authorities, and EMS demand is often an early indicator for stress in communities, a warning sign of emerging problems. In this paper, we introduce Deep Planning and Policy Making Net (DeepPPMNet), a Long Short-Term Memory network based, global forecasting and inference framework to forecast the EMS demand, analyse causal relationships, and perform `what-if' analyses for policy-making across multiple local government areas. Unless traditional univariate forecasting techniques, the proposed method follows the global forecasting methodology, where a model is trained across all the available EMS demand time series to exploit the potential cross-series information available. DeepPPMNet also uses seasonal decomposition techniques, incorporated in two different training paradigms into the framework, to suit various characteristics of the EMS related time series data. We then explore causal relationships using the notion of Granger Causality, where the global forecasting framework enables us to perform `what-if' analyses that could be used for the national policy-making process. We empirically evaluate our method, using a set of EMS datasets related to alcohol, drug use and self-harm in Australia. The proposed framework is able to outperform many state-of-the-art techniques and achieve competitive results in terms of forecasting accuracy. We finally illustrate its use for policy-making in an example regarding alcohol outlet licenses.
翻訳日:2022-12-09 21:08:24 公開日:2020-04-25
# ディープラーニングを用いた自転車の方向検出による道路利用者の安全

On the safety of vulnerable road users by cyclist orientation detection using Deep Learning ( http://arxiv.org/abs/2004.11909v1 )

ライセンス: Link先を確認
Marichelo Garcia-Venegas, Diego A. Mercado-Ravell and Carlos A. Carballo-Monsivais(参考訳) この研究では、特に脆弱な道路利用者(サイクリスト)に対して、ディープラーニングを用いた方向検出が認められている。 サイクリストの方向性を知ることは、その将来の軌道についての優れた概念を提供するため、インテリジェントな交通システムという文脈で事故を避けるために不可欠である。 本稿では,事前学習モデルとtensorflowを用いた転送学習を用いて,ssd,高速なr-cnn,r-fcn,mobilenetv2,inceptionv2,resnet50,resnet101機能抽出器など,オブジェクト検出の文献で報告されている主なアルゴリズムの性能比較を行う。 さらに,向きに応じて8つの異なるクラスを含むマルチクラス検出を提案する。 そこで我々は,11,103枚の画像上に20,229件のサイクリストインスタンスを含む"Detect-Bike"という新しいデータセットを紹介した。 次に、検出に使用するのと同じDeep Learningメソッドをトレーニングして、ターゲットの向きを決定する。 resnet50を用いた高速r-cnnを用いた実験の結果, 実験結果と広範囲な評価により, 自転車の姿勢検出, 特に高速r-cnnの精度は向上したが, 速度は著しく低下した。 一方、InceptionV2を使用したSSDは、精度と実行時間の間に良好なトレードオフを提供し、リアルタイム組み込みアプリケーションに好まれる。

In this work, orientation detection using Deep Learning is acknowledged for a particularly vulnerable class of road users,the cyclists. Knowing the cyclists' orientation is of great relevance since it provides a good notion about their future trajectory, which is crucial to avoid accidents in the context of intelligent transportation systems. Using Transfer Learning with pre-trained models and TensorFlow, we present a performance comparison between the main algorithms reported in the literature for object detection,such as SSD, Faster R-CNN and R-FCN along with MobilenetV2, InceptionV2, ResNet50, ResNet101 feature extractors. Moreover, we propose multi-class detection with eight different classes according to orientations. To do so, we introduce a new dataset called "Detect-Bike", containing 20,229 cyclist instances over 11,103 images, which has been labeled based on cyclist's orientation. Then, the same Deep Learning methods used for detection are trained to determine the target's heading. Our experimental results and vast evaluation showed satisfactory performance of all of the studied methods for the cyclists and their orientation detection, especially using Faster R-CNN with ResNet50 proved to be precise but significantly slower. Meanwhile, SSD using InceptionV2 provided good trade-off between precision and execution time, and is to be preferred for real-time embedded applications.
翻訳日:2022-12-09 21:07:10 公開日:2020-04-25
# MRIによるアルツハイマー病の診断におけるDeep CNNの有用性

Explainable Deep CNNs for MRI-Based Diagnosis of Alzheimer's Disease ( http://arxiv.org/abs/2004.12204v1 )

ライセンス: Link先を確認
Eduardo Nigri, Nivio Ziviani, Fabio Cappabianco, Augusto Antunes, Adriano Veloso(参考訳) 脳磁気共鳴画像(MRI)を用いたアルツハイマー病(AD)の半自動診断モデルとして,Deep Convolutional Neural Networks(CNN)が注目されている。 精度は高いが、深層cnnモデルは透明性と解釈性を欠き、適切な臨床推論を妨げ、現行の規制要件を満たしていない。 深部画像モデルを説明するための一般的な選択は、画像の領域を除外して、予測への影響を分離することである。 しかし、既存の脳スキャンのパッチをoccludingする方法は、モデルが訓練された分布の外側に画像を生成するため、信頼性の低い説明に繋がる。 本稿では,脳スキャンタスクに特化して設計された別の説明法を提案する。 スワップテスト(Swap Test)と呼ばれる本手法は,ADを最も表す脳の領域を表わしたヒートマップを作成し,臨床医に理解可能な形式でモデル決定の解釈可能性を提供する。 axiomatic evaluation を用いた実験の結果, 典型的な咬合検査では反対の傾向が見られたが, mri を用いた ad の診断にはより適した方法が得られた。 そこで本手法は,ADを診断できる深層ニューラルネットワークのブラックボックスの性質に対処できると考えている。

Deep Convolutional Neural Networks (CNNs) are becoming prominent models for semi-automated diagnosis of Alzheimer's Disease (AD) using brain Magnetic Resonance Imaging (MRI). Although being highly accurate, deep CNN models lack transparency and interpretability, precluding adequate clinical reasoning and not complying with most current regulatory demands. One popular choice for explaining deep image models is occluding regions of the image to isolate their influence on the prediction. However, existing methods for occluding patches of brain scans generate images outside the distribution to which the model was trained for, thus leading to unreliable explanations. In this paper, we propose an alternative explanation method that is specifically designed for the brain scan task. Our method, which we refer to as Swap Test, produces heatmaps that depict the areas of the brain that are most indicative of AD, providing interpretability for the model's decisions in a format understandable to clinicians. Experimental results using an axiomatic evaluation show that the proposed method is more suitable for explaining the diagnosis of AD using MRI while the opposite trend was observed when using a typical occlusion test. Therefore, we believe our method may address the inherent black-box nature of deep neural networks that are capable of diagnosing AD.
翻訳日:2022-12-09 21:06:45 公開日:2020-04-25