このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200421となっている論文です。

PDF登録状況(公開日: 20200421)

TitleAuthorsAbstract論文公表日・翻訳日
# 中国に対するオンライン公開感情の評価--2019年中国国民デーにおける英語と中国語のtwitter会話を事例として

Evaluating Online Public Sentiments towards China: A Case Study of English and Chinese Twitter Discourse during the 2019 Chinese National Day ( http://arxiv.org/abs/2001.04034v2 )

ライセンス: Link先を確認
Yekai Xu, Qingqian He, Shiguang Ni(参考訳) インターネットは徐々に人々の日常生活に浸透し、オンライン上で意見や感情を提示し交換する権限を皆に与えるようになるにつれて、個々の市民は公事の議題設定や公的な政策の設計と実施にますます参加してきている。 本研究は,ソーシャルメディアデータを用いたオンライン公開感情分析のアプローチを述べるとともに,2019年中国国民デーにおけるtwitterの談話の例を示す。 9月30日から10月3日までの間に30万以上のツイートが収集され、収集されたツイートの感情を評価するためにSVMと辞書のハイブリッド手法が適用された。 この手法は、研究で使用されるほとんどの分類器の平均精度を96%以上としながら、複雑な構造を避ける。 その結果,国定日祝賀活動の時間と,英語と中国語のつぶやきで表される感情の一致が示されたが,両言語の感情は異なる傾向が見られた。 ツイートの感情は国によって異なるが、一般的には中国との公式な関係と異なる程度に一致している。 ツイートの言語的特徴は、中国に対して異なる感情を持つtwitterユーザーに対して異なる懸念を示している。 最終的に、さらなる研究の方向性が示されている。

As the Internet gradually penetrates into people's daily lives and empowers everyone to demonstrate and exchange opinions and sentiments online, individual citizens are increasingly participating in the agenda-setting of public affairs and the design and implementation of official policies. The current study describes an approach to analyze online public sentiments using social media data and provides an example of Twitter discourse during the 2019 Chinese National Day. Over 300,000 tweets were collected between Sept 30 and Oct 3, and a hybrid method of SVM and dictionary was applied to evaluate the sentiments of the collected tweets. This method avoids complex structures while yielding an average accuracy of over 96% in most classifiers used in the study. The results indicate alignment between the time of National Day celebration activities and the expressed sentiments revealed in both English and Chinese tweets, although the sentiments of the two languages tend to be in different directions. The sentiment of tweets also diverges from nation to nation, but is generally consistent with the country's official relations with China to varying degrees. The linguistic features of the tweets suggest different concerns for Twitter users who have different sentiments towards China. At last, possible directions for further studies are indicated.
翻訳日:2023-06-08 02:16:58 公開日:2020-04-21
# WikiHist.html - HTMLフォーマットにおけるウィキペディアの完全な改訂履歴

WikiHist.html: English Wikipedia's Full Revision History in HTML Format ( http://arxiv.org/abs/2001.10256v3 )

ライセンス: Link先を確認
Blagoj Mitrevski, Tiziano Piccardi, Robert West(参考訳) Wikipediaはwikitextマークアップ言語で書かれている。 コンテンツを提供するとき、ウィキペディアを駆使したMediaWikiソフトウェアはウィキテキストをHTMLに解析し、マクロ(テンプレートとモジュール)を拡張することで追加のコンテンツを挿入する。 したがって、読者がウィキペディアを分析しようとする研究者は、wikitextではなくHTMLを使う必要がある。 wikipediaのリビジョン履歴はwikitextフォーマットでのみ公開されているので、研究者はwikipediaのrest apiを使ってアドホックなwikitext-to-htmlパースを使ってhtmlを作成する必要があった。 しかし、このアプローチは(1)大量のデータにスケールせず、(2)歴史的記事の改訂においてマクロを正しく拡張しない。 本研究では,メディアウィキのローカルインスタンスを用いて大量のウィキテキストを解析する並列化アーキテクチャを開発し,歴史的マクロ展開の精度を高めた。 このシステムをデプロイすることで、ウィキペディアの完全な改訂履歴であるWikiHist.htmlをHTML形式で作成・リリースする。 我々は、Wikipediaのハイパーリンクの実証分析において、生のwikitextよりもWikiHist.htmlの利点を強調し、HTMLに存在するウィキリンクの半分以上が生のwikitextから欠落しており、欠落しているリンクはユーザーナビゲーションにとって重要であることを示した。

Wikipedia is written in the wikitext markup language. When serving content, the MediaWiki software that powers Wikipedia parses wikitext to HTML, thereby inserting additional content by expanding macros (templates and mod-ules). Hence, researchers who intend to analyze Wikipediaas seen by its readers should work with HTML, rather than wikitext. Since Wikipedia's revision history is publicly available exclusively in wikitext format, researchers have had to produce HTML themselves, typically by using Wikipedia's REST API for ad-hoc wikitext-to-HTML parsing. This approach, however, (1) does not scale to very large amounts ofdata and (2) does not correctly expand macros in historical article revisions. We solve these problems by developing a parallelized architecture for parsing massive amounts of wikitext using local instances of MediaWiki, enhanced with the capacity of correct historical macro expansion. By deploying our system, we produce and release WikiHist.html, English Wikipedia's full revision history in HTML format. We highlight the advantages of WikiHist.html over raw wikitext in an empirical analysis of Wikipedia's hyperlinks, showing that over half of the wiki links present in HTML are missing from raw wikitext and that the missing links are important for user navigation.
翻訳日:2023-06-05 09:14:49 公開日:2020-04-21
# 共形関連時空におけるunruh-dewitt検出器のダイナミクスの双対性

Duality in the dynamics of Unruh-DeWitt detectors in conformally related spacetimes ( http://arxiv.org/abs/2002.00987v3 )

ライセンス: Link先を確認
Masahiro Hotta, Achim Kempf, Eduardo Mart\'in-Mart\'inez, Takeshi Tomitsuka, and Koji Yamaguchi(参考訳) 曲線時空における調和振動子型Unruh-DeWitt検出器の力学に関する非摂動双対性を証明する。 具体的には、高木変換を用いて、調和振動子unruh-dewitt検出器の時空における1つの周波数の動作が、共形関連時空における異なる周波数の検出器の動作と等しいことを示す。 例えば、平らな時空における単純な定常検出器のダイナミクスは、宇宙論的シナリオにおける検出器のダイナミクスと二重であることを示す。 非摂動双対性により、より単純で共形的な時空で得られた結果を用いて、曲線時空における新しいシナリオにおける絡み合いの収量を調べることができる。

We prove a nonperturbative duality concerning the dynamics of harmonic-oscillator-type Unruh-DeWitt detectors in curved spacetimes. Concretely, using the Takagi transformation we show that the action of a harmonic oscillator Unruh-DeWitt detector with one frequency in a spacetime is equal to that of a detector with a different frequency in a conformally related spacetime. As an example, we show that the dynamics of simple stationary detectors in flat spacetime is dual to that of detectors in a cosmological scenario. The nonperturbative duality enables us to investigate entanglement harvesting in new scenarios in curved spacetime by using results obtained in simpler, conformally related spacetimes.
翻訳日:2023-06-04 20:43:07 公開日:2020-04-21
# 原子ボース・アインシュタイン凝縮における量子時間結晶と相互作用ゲージ理論」へのコメント

Comment on "Quantum Time Crystals and Interacting Gauge Theories in Atomic Bose-Einstein Condensates" ( http://arxiv.org/abs/2002.11186v2 )

ライセンス: Link先を確認
Andrzej Syrwid, Arkadiusz Kosior, and Krzysztof Sacha(参考訳) 最近の手紙 (Phys. Rev. Lett. 123, 250402], \"Ohberg and Wright では密度依存ゲージポテンシャルの存在下で環上に閉じ込められたボース=アインシュタイン凝縮体を記述している。 系の基底状態は回転するキラルな明るいソリトンに対応し、従って周期運動を行うことでエネルギーを最小化する真の時間結晶を形成すると主張している。 実験室フレームにおけるカイラルソリトンのエネルギーは,文字内で正確に計算されていない。 ソリトンが動かなければ、正しいエネルギーは最小となる。

In a recent letter [Phys. Rev. Lett. 123, 250402], \"Ohberg and Wright describe a Bose-Einstein condensate trapped on a ring in the presence of the density-dependent gauge potential. It is claimed that the ground state of the system corresponds to a rotating chiral bright soliton and consequently it forms a genuine time crystal which minimizes its energy by performing periodic motion. We show that the energy of the chiral soliton in the laboratory frame is not correctly calculated in the letter. The correct energy becomes minimal if the soliton does not move.
翻訳日:2023-06-01 23:46:36 公開日:2020-04-21
# 医療と医療におけるブロックチェーン: 応用、課題、今後の展望に関する現代研究

Blockchain in Healthcare and Medicine: A Contemporary Research of Applications, Challenges, and Future Perspectives ( http://arxiv.org/abs/2004.06795v2 )

ライセンス: Link先を確認
H. Sami Ullah and S. Aslam and N. Arjomand(参考訳) ブロックチェーン技術は、世界で最も現代的で破壊的な技術の1つです。 金融サービス、サイバーセキュリティアプリケーション、IoT(Internet of Things)、ネットワークデータ管理など、多くのアプリケーションで注目を集めている。 医療業界はElectronic Health Records(EHR)、医療サプライチェーン管理システム、ゲノム市場、神経科学技術、臨床研究、医薬品など、さまざまなサブドメインでブロックチェーン技術を採用している。 ブロックチェーンは患者の医療記録を保存・アクセスするための安全で実行可能なソリューションと考えられており、患者は安全で安全なデータ共有で診断・治療することができる。 ブロックチェーン技術は、患者の臨床データにパーソナライズされ、信頼性が高く、セキュアなアクセスを提供することで、医療システムに革命をもたらす。 本稿では、ブロックチェーン技術を用いて、医療産業における既存のアプリケーションと開発に関する現代の研究を行う。 また、データ保護にブロックチェーンソリューションを使用している堅牢なアプリケーションや、さまざまな既存企業についても、現在の課題や今後の展望について論じています。

Blockchain technology is one of the most contemporary and disruptive technologies in the world. It has gained considerable attention in numerous applications such as financial services, cybersecurity applications, Internet of Things (IoT), network data management. Now its range of applications is beyond the financial services as the healthcare industry has also adopted blockchain technology in its various subdomains such as Electronic Health Records (EHR), medical supply chain management system, genomic market, neuroscience technology, clinical research, and pharmaceutical medicine. Blockchain is considered a secure and viable solution for storing and accessing patients medical records and the patients can diagnosed and treated with safe and secure data sharing. Blockchain technology will revolutionize the healthcare systems with personalized, authentic, and secure access to the clinical data of patients and that data can be used for further health improvements and clinical researches. In this paper, we conduct a contemporary research on existing applications and developments in healthcare industry with the use of blockchain technology. We also discuss some robust applications and various existing companies that are using blockchain solutions for securing their data along with some current challenges and future perspectives.
翻訳日:2023-05-27 11:53:39 公開日:2020-04-21
# 双極子結合ナノリングの偏光制御とエネルギーフロー

Polarization Control of Radiation and Energy Flow in Dipole-Coupled Nanorings ( http://arxiv.org/abs/2004.09861v1 )

ライセンス: Link先を確認
Julian Cremer, David Plankensteiner, Mariona Moreno-Cardoner, Laurin Ostermann, Helmut Ritsch(参考訳) サブ波長空間量子エミッタの双極子結合ナノリングにおける集合的光励起は、効率良く低損失のリング対リングエネルギー移動を容易にする極端なサブ放射とフィールド閉じ込めを示す。 このような環内の励起子や双励起子のエネルギーシフト、放射寿命、放出パターンが個々の双極子の向きによって調整できることを示した。 垂直から接点から環への偏光を減衰させることで、対称励起子の状態の寿命を超放射から準放射へと劇的に変化させる。 魔法の傾き角では、全ての励起子は縮退し、2つの環間の輸送忠実度は最小となる。 さらなるシミュレーションにより、特定のパラメータにおいて、減衰はエミッタの密度と二重指数的に減少することが示唆される。 リングの構造上の障害は、放射寿命を高めることもできる。 輸送効率は偏光とサイズに強く依存しており、生物光収穫複合体(LHC)で見られるように、9と16の双極子を持つ2つの環の生物インスパイアされた例をシミュレートして示している。 フルLHC多環構造における最も高放射状態の電界分布は、中心環に密なサブ波長場閉じ込めを示す一方、長寿命の亜放射状態は外環にエネルギーを蓄積する。

Collective optical excitations in dipole-coupled nanorings of sub-wavelength spaced quantum emitters exhibit extreme sub-radiance and field confinement facilitating an efficient and low-loss ring-to-ring energy transfer. We show that energy shifts, radiative lifetimes, and emission patterns of excitons and biexcitons in such rings can be tailored via the orientation of the individual dipoles. Tilting the polarization from perpendicular to tangential to the ring dramatically changes the lifetime of the symmetric exciton state from superradiance to subradiance with the radiated field acquiring orbital angular momentum. At a magic tilt angle all excitons are degenerate and the transport fidelity between two rings exhibits a minimum. Further simulations suggest that, for certain parameters, the decay decreases double-exponentially with the emitter's density. Disorder in the rings' structure can even enhance radiative lifetimes. The transport efficiency strongly depends on polarization and size, which we demonstrate by simulating a bio-inspired example of two rings with 9 and 16 dipoles as found in biological light harvesting complexes (LHC). The field distribution in the most superradiant state in a full LHC multi-ring structure shows tight sub-wavelength field confinement in the central ring, while long-lived subradiant states store energy in the outer rings.
翻訳日:2023-05-22 20:50:35 公開日:2020-04-21
# トレース距離に基づく量子状態から古典状態へのマーゴラス・レヴィチン速度制限

Margolus-Levitin speed limit across quantum to classical regimes based on trace distance ( http://arxiv.org/abs/2004.09787v1 )

ライセンス: Link先を確認
Shao-xiong Wu, Chang-shui Yu(参考訳) 位相空間のウィグナー関数に基づくマンデルスタム・タム速度制限の古典版は、B. Shanahanらによって報告される。 [Phys. Rev. Lett. 120, 070401 (2018)] 本稿では, 量子-古典遷移を横断するマルゴラス-レビチン速度限界を, トレース距離に基づいて位相空間に与える。 マルゴラス・レヴィチンの速度制限は、量子領域と古典領域の両方の時間依存進化の生成のシャッテン L1ノルムによって設定される。 例として、時間依存の高調波発振器が結果を示すと考えられる。

The classical version of Mandelstam-Tamm speed limit based on the Wigner function in phase space is reported by B. Shanahan et al. [Phys. Rev. Lett. 120, 070401 (2018)]. In this paper, the Margolus-Levitin speed limit across the quantum-to-classical transition is given in phase space based on the trace distance. The Margolus-Levitin speed limit is set by the Schatten L1 norm of the generator of time dependent evolution for both the quantum and classical domains. As an example, the time-dependent harmonic oscillator is considered to illustrate the result.
翻訳日:2023-05-22 20:49:38 公開日:2020-04-21
# 測定・制御のための量子フィードバック

Quantum feedback for measurement and control ( http://arxiv.org/abs/2004.09766v1 )

ライセンス: Link先を確認
Leigh S. Martin(参考訳) 学部レベルで導入された標準量子形式論は、測定を瞬時崩壊として扱う。 しかし実際には、真の無限小時間間隔で物理過程は起こらない。 オープン量子システムのより微妙な研究は連続的な測定と量子軌道の理論につながり、波関数の崩壊は相互作用に関連する有限時間スケールで起こる。 この形式主義の中で、より基本的な測定モデルの文脈で、自明で、さらに不明確な、多くの新しい質問をすることができる。 本論文では,実験装置が測定の連続的なダイナミクスを解き明かす際に,理論的および実験的にどのような新たな能力が生ずるのかを考察する。 理論的には,計測過程の時間スケールでフィードバック操作が可能な場合,結果として得られるツールは,絡み合い生成に対する制御が大幅に向上し,いくつかの設定で最適に生成できることを示す。 これらの結果は、既知の量子フィードバックプロトコルを含む新しいフォーマリズムを用いて導出する。 実験により, 連続測定により, 同時非可換測定を行うシステムのダイナミクスを観測できることを示し, ハイゼンベルクの不確かさ原理の再解釈を導く。 最後に、量子フィードバックの理論的焦点と超伝導回路の実験的能力を組み合わせて、フィードバック制御量子増幅器を実装する。 その結果,第1次正準位相測定を行うための適応計測が可能となった。

The standard quantum formalism introduced at the undergraduate level treats measurement as an instantaneous collapse. In reality however, no physical process can occur over a truly infinitesimal time interval. A more subtle investigation of open quantum systems lead to the theory of continuous measurement and quantum trajectories, in which wave function collapse occurs over a finite time scale associated with an interaction. Within this formalism, it becomes possible to ask many new questions that would be trivial or even ill-defined in the context of the more basic measurement model. In this thesis, we investigate both theoretically and experimentally what fundamentally new capabilities arise when an experimental apparatus can resolve the continuous dynamics of a measurement. Theoretically, we show that when one can perform feedback operations on the timescale of the measurement process, the resulting tools provide significantly more control over entanglement generation, and in some settings can generate it optimally. We derive these results using a novel formalism which encompasses most known quantum feedback protocols. Experimentally, we show that continuous measurement allows one to observe the dynamics of a system undergoing simultaneous non-commuting measurements, which provides a reinterpretation of the Heisenberg uncertainty principle. Finally, we combine the theoretical focus on quantum feedback with the experimental capabilities of superconducting circuits to implement a feedback controlled quantum amplifier. The resulting system is capable of adaptive measurement, which we use to perform the first canonical phase measurement.
翻訳日:2023-05-22 20:49:30 公開日:2020-04-21
# 高周波電気回路における普遍量子ゲートのdirac定式化とshorの整数分解

Dirac formulation for universal quantum gates and Shor's integer factorization in high-frequency electric circuits ( http://arxiv.org/abs/2004.09757v1 )

ライセンス: Link先を確認
Motohiko Ezawa(参考訳) 量子計算は電気回路を用いて行うことができる。 特に、Schr\"{o}dinger方程式は、低周波電気回路に適用可能な伝送線路のラム要素モデルによってシミュレートすることができる。 本稿では,高周波電気回路に適用可能な分散要素モデルにより,ディラック方程式がシミュレートされることを示す。 次に、伝送線路からなるネットワークにより、一組の普遍量子ゲート(ハダマール、位相シフト、cnotゲート)を構築する。 電気回路に基づくショアの素因数分解を実演する。 金属ワイヤのネットワークを設計することで、任意の量子アルゴリズムをシミュレートすることができる。

Quantum computation may well be performed with the use of electric circuits. Especially, the Schr\"{o}dinger equation can be simulated by the lumped-element model of transmission lines, which is applicable to low-frequency electric circuits. In this paper, we show that the Dirac equation is simulated by the distributed-element model, which is applicable to high-frequency electric circuits. Then, a set of universal quantum gates (the Hadamard, phase-shift and CNOT gates) are constructed by networks made of transmission lines. We demonstrate Shor's prime factorization based on electric circuits. It will be possible to simulate any quantum algorithms simply by designing networks of metallic wires.
翻訳日:2023-05-22 20:48:38 公開日:2020-04-21
# そのメッセージはウイルスか? ツイートの伝播に関する探索的分析と感情分析

That Message Went Viral?! Exploratory Analytics and Sentiment Analysis into the Propagation of Tweets ( http://arxiv.org/abs/2004.09718v1 )

ライセンス: Link先を確認
Jim Samuel, Myles Garvey and Rajiv Kashyap(参考訳) 情報交換とメッセージ拡散は、従来のメディアからソーシャルメディアプラットフォームに移行した。 Twitterなどのプラットフォーム上のメッセージは、より長い公開発表やアップデートの代わりに、企業コミュニケーションのデフォルトモードになっている。 企業や組織は、利害関係者とつながるためにtwitterの利用を増やした。 その結果、情報交換の成功とtwitterによるメッセージ拡散の鍵となる要因を理解することが重要である。 我々は、約4万のリードツイートからなる100万ツイート以上のデータセットを探索分析し、18,000ツイート以上までフィルタリングした。 最も人気のあるメッセージを特定し、内容、感情、動機、豊かさ、基本イベント、社会学習、アクティビズムといった外因性次元を含む複数の内因性次元のツイートを分析した。 興味深いパターンを見つけ、研究者や実践者が人気のあるバイラルツイートの振る舞いをよりよく理解するのに役立つ新しい洞察を見つけました。 また、感情分析を行い、ツイートのパフォーマンスを説明する早期モデルを提示した。

Information exchange and message diffusion have moved from traditional media to social media platforms. Messages on platforms such as Twitter have become the default mode of company communications replacing lengthier public announcements and updates. Businesses and organizations have increased their use of Twitter to connect with stakeholders. As a result, it is important to understand the key drivers of successful information exchange and message diffusion via Twitter. We conducted an exploratory analysis on a dataset of over a million Tweets, comprising of over 40,000 lead Tweets, further filtered to over 18,000 Tweets. We identified the most popular messages, and analyzed the tweets on multiple endogenous dimensions including content, sentiment, motive and richness, and exogenous dimensions such as fundamental events, social learning, and activism. We found some interesting patterns and uncovered new insights to help researchers and practitioners better understand the behavior of popular viral tweets. We also performed sentiment analysis and present an early stage model to explain tweet performance.
翻訳日:2023-05-22 20:48:05 公開日:2020-04-21
# 急激な双晶の強度コヒーレンスにおける波動

Waves in intensity coherence of evolving intense twin beams ( http://arxiv.org/abs/2004.10186v1 )

ライセンス: Link先を確認
Radek Machulka, Jan Perina Jr, Ondrej Haderka, Alessia Allevi, Maria Bondani(参考訳) 発生時に印字された信号とアイドラービームの強い相関関係は、ツインビームの特性を支配的に決定する。 また、ポンプの枯渇を伴う状態にある非線形結晶中に伝播するツインビームの波動ベクトル空間で観測される強度コヒーレンスの波の責任も負う。 これらの波は、特定のツインビーム強度で発達し始め、信号とアイドラービームの中心からテールへと移動する。 それらは、フィールド強度コヒーレンスを調べるための敏感で安定なツールとして作用する局所修正された$ \bar{g}^{(2)} $関数の測定によって、遠方界で観測されるコヒーレンス体積の変化によって現れる。

Strong correlations between the signal and idler beams imprinted during their generation dominantly determine the properties of twin beams. They are also responsible for the waves in intensity coherence observed in the wave-vector space of a twin beam propagating in a nonlinear crystal in the regime with pump depletion. These waves start to develop at certain twin-beam intensity and move from the signal and idler beam centers towards their tails. They manifest themselves via the change of coherence volume monitored in the far field by the measurement of local modified $ \bar{g}^{(2)} $ function, which acts as a sensitive and stable tool for investigating field intensity coherence.
翻訳日:2023-05-22 20:42:48 公開日:2020-04-21
# Raspberry Pi 3を用いたモノのインターネット(IoT)による多レベル運転検知・防止システム

Internet of Things(IoT) Based Multilevel Drunken Driving Detection and Prevention System Using Raspberry Pi 3 ( http://arxiv.org/abs/2004.10174v1 )

ライセンス: Link先を確認
Viswanatha V, Venkata Siva Reddy R, Ashwini Kumari P, Pradeep Kumar S(参考訳) 本稿では,車内アルコール濃度を3つの方法で検出し,点火システムをオフにすることで運転者の運転を防止するシステムを提案する。 また、関係者にメッセージを送る。 呼気アルコールレベルMQ-3センサーと、ドライバの心拍数を検出する心拍センサと、Webcam & MATLABを用いた顔認識と、TCP/IPアプリを介してメッセージを送信するためのWi-Fiモジュールと、点火と警報を防止モジュールとしてオフにするRaspberry piモジュールとを備える。 運転者のアルコール摂取が所定範囲を超えている場合、運転者の心拍が異常であったり、運転者が眠かったりした場合、政府によって点火される。 どちらのケースでも、アプリとアプリからメッセージが送られてくるので、家族、友人、親しい人、あるいは最寄りの警官に助けを求めることができる。 このシステムは、運転者が酔って助けが必要な場合、友人が酔っていなければ運転できるという事実を考慮して開発された。 運転者と周辺者の安全は、このシステムによって狙われており、飲酒運転による死亡事例の最小化と警官の負担の軽減に寄与している。

In this paper, the proposed system has demonstrated three ways of detecting alcohol level in the body of the car driver and prevent car driver from driving the vehicle by turning off the ignition system. It also sends messages to concerned people. In order to detect breath alcohol level MQ-3 sensor is included in this module along with a heartbeat sensor which can detect the heart beat rate of driver, facial recognition using webcam & MATLAB and a Wi-Fi module to send a message through the TCP/IP App, a Raspberry pi module to turn off the ignition and an alarm as prevention module. If a driver alcohol intake is more than the prescribed range, set by government the ignition will be made off provided either his heart beat abnormal or the driver is drowsy. In both the cases there will be a message sent to the App and from the App you can send it to family, friend, and well-wisher or nearest cop for the help. The system is developed considering the fact if driver is drunk and he needs a help, his friend can drive the car if he is not drunk. The safety of both the driver and the surroundings are aimed by this system and this aids in minimizing death cases by drunken driving and also burden on the cops.
翻訳日:2023-05-22 20:42:34 公開日:2020-04-21
# 量子計算ハイブリッドセキュリティモデルにおけるセキュアキーアグリーメントの継続とQKDを超えるパフォーマンス

Everlasting Secure Key Agreement with performance beyond QKD in a Quantum Computational Hybrid security model ( http://arxiv.org/abs/2004.10173v1 )

ライセンス: Link先を確認
Nilesh Vyas, Romain Alleaume(参考訳) 機能を拡張し、QKDが動作可能なパフォーマンス制限を克服するには、量子リピータまたは新しいセキュリティモデルが必要になる。 後者の選択肢について検討し、利用可能な量子メモリのコヒーレンス時間よりもはるかに長い時間で、計算的にセキュアな暗号化が壊れる可能性があると仮定した、 \textit{Quantum Computational Hybrid} (QCH) セキュリティモデルを導入する。 我々は,MUB-\textit{Quantum Computational Timelock} (MUB-QCT) と呼ばれる,$d+1$の相互非バイアスベース (MUB) の中から選択されたqudit状態に1ビットを符号化する,明示的な$d$次元鍵分配プロトコルを提案する。 短期セキュア暗号化は、量子メモリのデコヒール後までEveから未知の情報を保持しながら、正統なユーザと基礎情報を共有するために使用される。 これにより、イヴの最適な攻撃を即時測定に減らし、次に測定後の復号化を行うことができる。 \par MUB-QCTは、最大$O(\sqrt{d})$光子を含む入力状態でセキュアな鍵分布を持続できることを示した。 これはQKDと比較して、一連の重要な改善をもたらしている: 機能面では、1つの送信者と多くの受信機の間で安全に動作でき、その実装は信頼できない; 重要なパフォーマンスは、キーレートの$O(\sqrt{d})$乗算と25 {\rm} km \times \log(d)$のファイバ上の到達可能な距離の$によって特徴づけられる。 MUB-QCT構造は、現在または短期の多モードフォトニクス技術を持つ多数のモードで実装可能であり、量子鍵分布の性能と実用性に根本的な変化をもたらす可能性がある。

Extending the functionality and overcoming the performance limitation under which QKD can operate requires either quantum repeaters or new security models. Investigating the latter option, we introduce the \textit{Quantum Computational Hybrid} (QCH) security model, where we assume that computationally secure encryption may only be broken after time much longer than the coherence time of available quantum memories. We propose an explicit $d$-dimensional key distribution protocol, that we call MUB-\textit{Quantum Computational Timelock} (MUB-QCT) where one bit is encoded on a qudit state chosen among $d+1$ mutually unbiased bases (MUBs). Short-term-secure encryption is used to share the basis information with legitimate users while keeping it unknown from Eve until after her quantum memory decoheres. This allows reducing Eve's optimal attack to an immediate measurement followed by post-measurement decoding. \par We demonstrate that MUB-QCT enables everlasting secure key distribution with input states containing up to $O(\sqrt{d})$ photons. This leads to a series of important improvements when compared to QKD: on the functional side, the ability to operate securely between one sender and many receivers, whose implementation can moreover be untrusted; significant performance increase, characterized by a $O(\sqrt{d})$ multiplication of key rates and an extension by $25 {\rm} km \times \log(d)$ of the attainable distance over fiber. Implementable with a large number of modes with current or near-term multimode photonics technologies, the MUB-QCT construction has the potential to provide a radical shift to the performance and practicality of quantum key distribution.
翻訳日:2023-05-22 20:42:11 公開日:2020-04-21
# スマートフォンからの検索クエリログとユーザ位置情報を用いた日本の新型コロナウイルスクラスターに対するシンドロミック監視

Syndromic surveillance using search query logs and user location information from smartphones against COVID-19 clusters in Japan ( http://arxiv.org/abs/2004.10100v1 )

ライセンス: Link先を確認
Shohei Hisada, Taichi Murayama, Kota Tsubouchi, Sumio Fujita, Shuntaro Yada, Shoko Wakamiya, and Eiji Aramaki(参考訳) 背景】2020年2月に北海道で2つの新型コロナウイルス感染症(COVID-19)が確認された。 クラスタの取得には,Web検索クエリログとスマートフォンからのユーザ位置情報を用いる。 まず、新型コロナウイルス(COVID-19)やその症状にWeb検索エンジン(Yahoo! Japan Search)を使ったスマートフォンユーザーを、スマートフォン(Yahoo Japan App)のアプリを通じて匿名で特定しました。 我々は、これらのサーチターを、自身のcovid-19感染(wssci)に疑念を抱くウェブサーチターとみなしている。 第2に,スマートフォンアプリケーションを用いてWSSCIの位置を抽出した。 WSSCIの数の時空間分布は、既知の2つのクラスタの実際の位置と比較される。 結果と議論] クラスタ開発の初期段階の前に、いくつかのWSSCIを確認し、WSSCIベースのアプローチの基本的な実現可能性を示しました。 しかし、これは初期の段階でしか正確ではなく、クラスタ開発の発表後にバイアスがかかっていた。 細粒度人口統計などの他のクラスター関連資源が利用できない場合、提案された指標は、新興クラスタのヒントを捉えるのに役立つだろう。

[Background] Two clusters of coronavirus disease 2019 (COVID-19) were confirmed in Hokkaido, Japan in February 2020. To capture the clusters, this study employs Web search query logs and user location information from smartphones. [Material and Methods] First, we anonymously identified smartphone users who used a Web search engine (Yahoo! JAPAN Search) for the COVID-19 or its symptoms via its companion application for smartphones (Yahoo Japan App). We regard these searchers as Web searchers who are suspicious of their own COVID-19 infection (WSSCI). Second, we extracted the location of the WSSCI via the smartphone application. The spatio-temporal distribution of the number of WSSCI are compared with the actual location of the known two clusters. [Result and Discussion] Before the early stage of the cluster development, we could confirm several WSSCI, which demonstrated the basic feasibility of our WSSCI-based approach. However, it is accurate only in the early stage, and it was biased after the public announcement of the cluster development. For the case where the other cluster-related resources, such as fine-grained population statistics, are not available, the proposed metric would be helpful to catch the hint of emerging clusters.
翻訳日:2023-05-22 20:41:26 公開日:2020-04-21
# 光触媒プロトン還元触媒としてのワイル半金属表面近傍の水構造

Water structure near the surface of Weyl semimetals as catalysts in photocatalytic proton reduction ( http://arxiv.org/abs/2004.10006v1 )

ライセンス: Link先を確認
Jure Gujt and Peter Zimmer and Frederik Zysk and Vicky S\"u{\ss} and Claudia Felser and Matthias Bauer and Thomas D. K\"uhne(参考訳) 本研究では, NbP, NbAs, TaAs, 1T-TaS$_2の微小ナノ粒子の2世代カー・パラネロ系QM/MM分子動力学シミュレーションを行った。 最初の3つの材料はトポロジカルなワイル半金属であり、光触媒水分解において活性触媒であることが最近発見された。 本研究の目的は,光誘起陽子還元におけるナノ粒子表面近傍の水構造と光触媒活性とのポテンシャル差を相関させることである。 この結果から, これらのワイル半金属の触媒活性を説明することができる: 最も活性の高い物質であるNbPは, ナノ粒子表面付近で特に低い配位を示すのに対し, 1T-TaS$_2$では, 触媒活性が低い場合, 表面の水構造が最も順応する。 さらに, NbPをプロトン還元触媒として, いくつかの有機および金属の光増感剤の水素化反応における光触媒活性を実験的に検討した。 当然のことながら、感光剤の電荷は光触媒性能に決定的な役割を果たす。

In this work, second-generation Car-Parrinello-based QM/MM molecular dynamics simulations of small nanoparticles of NbP, NbAs, TaAs and 1T-TaS$_2$ in water are presented. The first three materials are topological Weyl semimetals, which were recently discovered to be active catalysts in photocatalytic water splitting. The aim of this research was to correlate potential differences in the water structure in the vicinity of the nanoparticle surface with the photocatalytic activity of these materials in light induced proton reduction. The results presented herein allow to explain the catalytic activity of these Weyl semimetals: the most active material, NbP, exhibits a particularly low water coordination near the surface of the nanoparticle, whereas for 1T-TaS$_2$, with the lowest catalytic activity, the water structure at the surface is most ordered. In addition, the photocatalytic activity of several organic and metalorganic photosensitizers in the hydrogen evolution reaction was experimentally investigated with NbP as proton reduction catalyst. Unexpectedly, the charge of the photosensitizer plays a decisive role for the photocatalytic performance.
翻訳日:2023-05-22 20:41:08 公開日:2020-04-21
# マルチパスダウンコンバージョンによる高次元絡み合いの効率的生成

Efficient generation of high-dimensional entanglement through multi-path downconversion ( http://arxiv.org/abs/2004.09964v1 )

ライセンス: Link先を確認
Xiao-Min Hu, Wen-Bo Xing, Bi-Heng Liu, Yun-Feng Huang, Chuan-Feng Li, Guang-Can Guo, Paul Erker and Marcus Huber(参考訳) 高次元エンタングルメントは量子通信の性能を大幅に向上させ、量子エンタングルメントによって到達不能な量子長所を実現することを約束する。 しかし、大きな課題の1つは、高次元の絡み合いの源の信頼性の高い生産、流通、および局所認証である。 本稿では,新しい認証技術とともに,これまでに記録された最も高いエンタングルメントを達成できる,非常に高いレベルのスケーラビリティ,制御,品質を有する量子状態を生成することができる光学装置を提案する。 最大エンタングル状態 (f=0.933\pm0.001$) に忠実な32ドルの空間次元のエンタングルメントを示し, 形成のエンタングルメントを証明するための計測効率の高いスキーム (e_{of}=3.728\pm0.006$) を導入する。 既存のマルチコアファイバー技術と組み合わせることで,高次元量子ネットワーク構築のための強固な基盤を構築できる。

High-dimensional entanglement promises to greatly enhance the performance of quantum communication and enable quantum advantages unreachable by qubit entanglement. One of the great challenges, however, is the reliable production, distribution and local certification of high-dimensional sources of entanglement. In this article, we present an optical setup capable of producing quantum states with an exceptionally high-level of scalability, control and quality, that, together with novel certification techniques, achieve the highest amount of entanglement recorded so far. We showcase entanglement in $32$-spatial dimensions with record fidelity to the maximally entangled state ($F=0.933\pm0.001$) and introduce measurement efficient schemes to certify entanglement of formation ($E_{oF}=3.728\pm0.006$). Combined with the existing multi-core fibre technology, our results will lay a solid foundation for the construction of high-dimensional quantum networks.
翻訳日:2023-05-22 20:40:48 公開日:2020-04-21
# 選択的電離法によるライドバーグ原子検出における双極子遮断効果の観察

Observation of the Dipole Blockade Effect in Detecting Rydberg Atoms by the Selective Field Ionization Method ( http://arxiv.org/abs/2004.09933v1 )

ライセンス: Link先を確認
E.A.Yakshina, D.B.Tretyakov, V.M.Entin, I.I.Beterov, I.I.Ryabtsev(参考訳) ライドベルク原子のメソスコピックアンサンブルのレーザー励起における双極子遮断効果は、リドベルク状態への1つの原子の励起が、相互作用するライドベルク原子の集合エネルギーレベルの変化による他の原子の励起をブロックするという事実にある。 光学トラップにおける単一中性原子に基づく絡み合った量子ビット状態を得るために用いられる。 本稿では,選択電界イオン化法により検出された1-5原子のメソスコピックアンサンブルに対する双極子遮断の観測について実験結果を示す。 5S_{1/2} \to 5P_{3/2} \to 6S_{1/2} \to nP_{3/2} $ of cold Rb Rydberg atoms in a magnetooptical trap。 メソスコピックアンサンブルでは、この方法では部分双極子ブロックのみを観測できることがわかった。 これは、リドベルク原子の相互作用エネルギーを減少させる寄生電場の存在、高い状態を検出する確率の低下、および1つの相互作用体積におけるリドベルク原子の相互作用エネルギーの強い角依存性と関連している可能性が高い。

The dipole blockade effect at laser excitation of mesoscopic ensembles of Rydberg atoms lies in the fact that the excitation of one atom to a Rydberg state blocks the excitation of other atoms due to the shift in the collective energy levels of interacting Rydberg atoms. It is used to obtain the entangled qubit states based on single neutral atoms in optical traps. In this paper, we present our experimental results on the observation of the dipole blockade for mesoscopic ensembles of 1-5 atoms when they are detected by the selective field ionization method. We investigated the spectra of the three-photon laser excitation $ 5S_{1/2} \to 5P_{3/2} \to 6S_{1/2} \to nP_{3/2} $ of cold Rb Rydberg atoms in a magneto-optical trap. We have found that for mesoscopic ensembles this method allows only a partial dipole blockage to be observed. This is most likely related to the presence of parasitic electric fields reducing the interaction energy of Rydberg atoms, the decrease in the probability of detecting high states, and the strong angular dependence of the interaction energy of Rydberg atoms in a single interaction volume.
翻訳日:2023-05-22 20:40:30 公開日:2020-04-21
# 一般化gell-mann表現による一般非定常ハミルトニアンに対するquditのユニタリ進化の特定

Specifying the unitary evolution of a qudit for a general nonstationary Hamiltonian via the generalized Gell-Mann representation ( http://arxiv.org/abs/2004.09896v1 )

ライセンス: Link先を確認
Elena R. Loubenets and Christian K\"ading(参考訳) 量子技術タスクの最適実現は、時間に依存したハミルトニアンの下での$d$-level quantum system (qudit) の振る舞いに関する詳細な分析研究の必要性をもたらす。 本稿では、ブロッホ様ベクトル空間の観点で qudit $(d\geq2)$ のユニタリ進化を記述する新しい一般形式を導入し、一般の場合において、この形式が任意の時間依存ハミルトニアンの下での進化作用素の指数的表現における時間依存パラメータの探索とどのように関連しているかを述べる。 この新しい一般形式を qubit のケース $(d=2)$ に適用すると、単位ベクトルの進化を $\mathbb{r}^{4}$ で行えば、量子ビットのユニタリ進化を指定でき、これは非定常ハミルトニアンの幅広いクラスに対する qubit ユニタリ進化作用素の正確な解析的表現を導出することができる。 この新たな解析的表現は、文献で知られているキュービット解を特定の場合のみ含む。

Optimal realizations of quantum technology tasks lead to the necessity of a detailed analytical study of the behavior of a $d$-level quantum system (qudit) under a time-dependent Hamiltonian. In the present article, we introduce a new general formalism describing the unitary evolution of a qudit $(d\geq2)$ in terms of the Bloch-like vector space and specify how in a general case this formalism is related to finding time-dependent parameters in the exponential representation of the evolution operator under an arbitrary time-dependent Hamiltonian. Applying this new general formalism to a qubit case $(d=2)$, we specify the unitary evolution of a qubit via the evolution of a unit vector in $\mathbb{R}^{4}$ and this allows us to derive the precise analytical expression of the qubit unitary evolution operator for a wide class of nonstationary Hamiltonians. This new analytical expression includes the qubit solutions known in the literature only as particular cases.
翻訳日:2023-05-22 20:40:10 公開日:2020-04-21
# COVID-19パンデミック拡散の包含におけるICT介入 : 探索的研究

ICT Intervention in the Containment of the Pandemic Spread of COVID-19: An Exploratory Study ( http://arxiv.org/abs/2004.09888v1 )

ライセンス: Link先を確認
Akib Zaman, Muhammad Nazrul Islam, Tarannum Zaki, and Mohammad Sajjad Hossain(参考訳) 本論の目的は,新しいコロナウイルスの流行の封じ込めに向けた情報通信技術(ICT)の介入とその強み,弱さ,機会,脅威を探ることである。 この研究は質的研究アプローチを採用し、研究データはオンラインコンテンツレビューとフォーカスグループディスカッション(fgd)を通じて収集された。 約1200の電子資源または内容の予備的なセットから56がレビュー研究に選ばれ、包括的および排他的基準を適用した。 レビュー研究は、webサイトやダッシュボード、モバイルアプリケーション、ロボティクスとドローン、人工知能(ai)、データ分析、ウェアラブルとセンサー技術、ソーシャルメディアと学習ツール、対話型音声応答(ivr)を含むict介入を明らかにし、covid-19のパンデミック(covid-19)拡大に対処するためにそれぞれの使用方法を検討した。 その後、fgdは22人の参加者と複製され、新型コロナウイルス(covid-19)パンデミックと闘うためにこの技術を展開する強み、弱み、機会、脅威(swot)を探求した。 本研究は、新型コロナウイルスのパンデミックと闘うためのICT介入の終了状況を探るだけでなく、政府、開業医、医師、政策立案者、研究者に、既存のICT介入の有効活用と、COVID-19のパンデミック拡大と今後のパンデミックの封じ込めに向けた今後の研究・技術開発に、多くの意味を提供する。

The objective of this article is to explore the Information and Communication Technology (ICT) interventions and its strengths, weaknesses, opportunities and threats for the containment of the pandemic spread of novel Coronavirus. The research adopted a qualitative research approach, while the study data were collected through online content review and Focus Group Discussion (FGD). Starting with a preliminary set of about 1200 electronic resources or contents, 56 were selected for review study, applying an inclusion and exclusion criteria. The review study revealed ICT interventions that include websites and dashboards, mobile applications, robotics and drones, artificial intelligence (AI), data analytic, wearable and sensor technology, social media and learning tools, and interactive voice response (IVR) as well as explored their respective usages to combat the pandemic spread of COVID-19. Later, the FGD was replicated with 22 participants and explored the possible strengths, weaknesses, opportunities, and threats (SWOT) of deploying such technologies to fight against the COVID-19 pandemic. This research not only explores the exiting status of ICT interventions to fight with the COVID-19 pandemic but also provides a number of implications for the government, practitioners, doctors, policymakers and researchers for the effective utilization of the existing ICT interventions and for the future potential research and technological development to the containment of the pandemic spread of COVID-19 and future pandemics.
翻訳日:2023-05-22 20:39:49 公開日:2020-04-21
# 量子コンピュータ上での量子化学ベンチマークのための効率的な2電子アンサッツ

Efficient Two-Electron Ansatz for Benchmarking Quantum Chemistry on a Quantum Computer ( http://arxiv.org/abs/2004.10344v1 )

ライセンス: Link先を確認
Scott E. Smart and David A. Mazziotti(参考訳) 量子化学は、短期量子コンピューティングに重要な応用を提供するが、ノイズの存在によってこれらは非常に複雑である。 本研究では,ハイブリッド量子古典アルゴリズムにおける2電子原子と分子の計算に効率的なアンサッツを提案する。 アンザッツは2電子系の基本構造を利用し、量子コンピュータと古典コンピュータの非局所的および局所的自由度をそれぞれ扱う。 ここで、非局所自由度は基底集合の大きさに対して線形にスケールし、減少状態トモグラフィに必要な$\mathcal{o}(1)$回路準備のみを持つ線形アンサッツを与える。 我々は、このベンチマークを2つの量子コンピュータ上でエラー緩和して実装し、${\rm h}_\textrm{2}^{}$と${\rm h}_\textrm{3}^+$の4-および6-量子ビット計算の正確な解離曲線を計算する。

Quantum chemistry provides key applications for near-term quantum computing, but these are greatly complicated by the presence of noise. In this work we present an efficient ansatz for the computation of two-electron atoms and molecules within a hybrid quantum-classical algorithm. The ansatz exploits the fundamental structure of the two-electron system, and treating the nonlocal and local degrees of freedom on the quantum and classical computers, respectively. Here the nonlocal degrees of freedom scale linearly with respect to basis-set size, giving a linear ansatz with only $\mathcal{O}(1)$ circuit preparations required for reduced state tomography. We implement this benchmark with error mitigation on two publicly available quantum computers, calculating accurate dissociation curves for 4- and 6- qubit calculations of ${\rm H}_\textrm{2}^{}$ and ${\rm H}_\textrm{3}^+$.
翻訳日:2023-05-22 20:31:23 公開日:2020-04-21
# 活動のバースト:オンラインメンタルヘルスフォーラムにおけるヘルプシーキングとサポートの時間パターン

Bursts of Activity: Temporal Patterns of Help-Seeking and Support in Online Mental Health Forums ( http://arxiv.org/abs/2004.10330v1 )

ライセンス: Link先を確認
Taisa Kushner and Amit Sharma(参考訳) 近年、ソーシャルメディアプラットフォームが増加し、精神的な苦痛に苦しむ個人にピアツーピアサポートを提供している。 これらのプラットフォームの影響に関する研究は、シングルポストスレッドの短期的スケールか、任意の期間(月や年)における長期的変化に焦点が当てられている。 重要ではあるが、そのような任意の期間は、急な苦痛の期間を通じてユーザーの進行に必ずしも従わない。 メンタルヘルスプラットフォームであるtalklifeのデータを用いて、ユーザ活動は、活動のない間欠的な期間を伴う高活動期間の異なるパターンに従うことを発見し、そのような活動のバーストとブレイクを特定する方法を提案する。 次に、バースト中の活動を研究することによって、オンラインメンタルヘルスコミュニティにおける重要な質問に対するパーソナライズされた中期的分析が可能になることを示す。 2つの独立した結果指標、認知的変化のモーメント、およびアクティビティのバースト中の気分の変化を自己報告することで、ユーザに成果をもたらす2つのアクション可能な機能を特定します。 本研究は,オンラインメンタルヘルスコミュニティにおける精神社会的変化の自然な分析単位としてのバーストを考えることの価値を示す。

Recent years have seen a rise in social media platforms that provide peer-to-peer support to individuals suffering from mental distress. Studies on the impact of these platforms have focused on either short-term scales of single-post threads, or long-term changes over arbitrary period of time (months or years). While important, such arbitrary periods do not necessarily follow users' progressions through acute periods of distress. Using data from Talklife, a mental health platform, we find that user activity follows a distinct pattern of high activity periods with interleaving periods of no activity, and propose a method for identifying such bursts and breaks in activity. We then show how studying activity during bursts can provide a personalized, medium-term analysis for a key question in online mental health communities: What characteristics of user activity lead some users to find support and help, while others fall short? Using two independent outcome metrics, moments of cognitive change and self-reported changes in mood during a burst of activity, we identify two actionable features that can improve outcomes for users: persistence within bursts, and giving complex emotional support to others. Our results demonstrate the value of considering bursts as a natural unit of analysis for psychosocial change in online mental health communities.
翻訳日:2023-05-22 20:31:04 公開日:2020-04-21
# 検索エンジンの成功に対するウィキペディアリンクの重要性に関するより深い調査

A Deeper Investigation of the Importance of Wikipedia Links to the Success of Search Engines ( http://arxiv.org/abs/2004.10265v1 )

ライセンス: Link先を確認
Nicholas Vincent and Brent Hecht(参考訳) wikipediaのボランティア制作コンテンツが、何百万人もの人々の情報ニーズに対応するという、検索エンジンの核となる目標を達成する上で重要な役割を担っている。 本稿では,検索エンジン検索結果ページ(SERP)におけるウィキペディアリンクの出現状況について調査した結果を報告する。 本研究は,モバイルとデスクトップの両方のデバイスをシミュレートする3つの米国検索エンジンと,単に「テンブルーリンク」ではない現代のSERPを研究するための空間解析手法を用いて,先行作業を拡張した。 wikipediaのリンクは重要な検索コンテキストでは非常に一般的であり、一般的なクエリやトレンドクエリのサープの67-84%に現れるが、医療クエリではそれほど多くはない。 さらに、ウィキペディアのリンクは「知識パネル」のSERP要素によく表示され、スクロールせずにユーザーが見える位置に表示されるが、モバイルデバイスでは目立った位置には表示されない。 本研究は,(1)ウィキペディアのコンテンツと研究はウィキペディア領域以外で大きな影響を与え,(2)検索エンジンのような強力な技術はボランティアが作成した無料コンテンツに大きく依存している,という補完的な概念を裏付けるものである。

A growing body of work has highlighted the important role that Wikipedia's volunteer-created content plays in helping search engines achieve their core goal of addressing the information needs of millions of people. In this paper, we report the results of an investigation into the incidence of Wikipedia links in search engine results pages (SERPs). Our results extend prior work by considering three U.S. search engines, simulating both mobile and desktop devices, and using a spatial analysis approach designed to study modern SERPs that are no longer just "ten blue links". We find that Wikipedia links are extremely common in important search contexts, appearing in 67-84% of all SERPs for common and trending queries, but less often for medical queries. Furthermore, we observe that Wikipedia links often appear in "Knowledge Panel" SERP elements and are in positions visible to users without scrolling, although Wikipedia appears less in prominent positions on mobile devices. Our findings reinforce the complementary notions that (1) Wikipedia content and research has major impact outside of the Wikipedia domain and (2) powerful technologies like search engines are highly reliant on free content created by volunteers.
翻訳日:2023-05-22 20:30:25 公開日:2020-04-21
# デジタルツールによるcovid-19対策 - 倫理的課題とその対処法

Digital tools against COVID-19: Framing the ethical challenges and how to address them ( http://arxiv.org/abs/2004.10236v1 )

ライセンス: Link先を確認
Urs Gasser, Marcello Ienca, James Scheibner, Joanna Sleigh, Effy Vayena(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの緩和とロックダウン緩和に向けた戦略的対策として、政府や民間企業がデジタル公衆衛生技術によるデータ収集と処理を世界中で推進している。 しかし、疾病の監視とコントロールのためのデジタルツールの配布に関する倫理的および法的境界は不透明であり、公衆衛生のためのデジタルツールの動員の約束とリスクに関する世界的な議論が展開されている。 科学者や政策立案者が技術的・倫理的不確実性をナビゲートするために、現在使われている主要なデジタル公衆衛生分野のタイプを提示する。 すなわち、近接および接触追跡、症状モニタリング、隔離制御、フローモデリングである。 それぞれ、文脈固有のリスク、横断的な問題、倫理的懸念について議論する。 最後に,実践的な指導の必要性を認識し,デジタル公衆衛生ツールの倫理的活用のための10段階からなる政策立案者のためのナビゲーション支援を提案する。

Data collection and processing via digital public health technologies are being promoted worldwide by governments and private companies as strategic remedies for mitigating the COVID-19 pandemic and loosening lockdown measures. However, the ethical and legal boundaries of deploying digital tools for disease surveillance and control purposes are unclear, and a rapidly evolving debate has emerged globally around the promises and risks of mobilizing digital tools for public health. To help scientists and policymakers navigate technological and ethical uncertainty, we present a typology of the primary digital public health applications currently in use. Namely: proximity and contact tracing, symptom monitoring, quarantine control, and flow modeling. For each, we discuss context-specific risks, cross-sectional issues, and ethical concerns. Finally, in recognition of the need for practical guidance, we propose a navigation aid for policymakers made up of ten steps for the ethical use of digital public health tools.
翻訳日:2023-05-22 20:30:03 公開日:2020-04-21
# 光子計数による実験的量子読み取り

Experimental quantum reading with photon counting ( http://arxiv.org/abs/2004.10211v1 )

ライセンス: Link先を確認
Giuseppe Ortolano, Elena Losero, Ivano Ruo Berchera, Stefano Pirandola, Marco Genovese(参考訳) 量子仮説テストの最終目標は、可能なすべての古典的戦略に対する量子優位性を達成することである。 量子読み取りのプロトコルでは、この利点は光メモリからの情報検索において実現され、そのジェネリックセルは2つの損失のあるチャネルにわずかな情報を格納する。 本プロトコルでは, 理論的, 実験的に, 量子的優位性は, 実測光子計数と単純な最大値決定を組み合わせて得られることを示す。 特に、この受信機と絡み合った2モードの圧縮真空源を組み合わせることで、同じ入力光子数のコヒーレント状態の統計的混合に基づく任意の戦略を上回ることができることを示す。 実験により、量子エンタングルメントと単純な光学は、デジタルデータの読み出しを強化し、量子読み取りの実際の応用への道を切り拓き、ボソニック損失のバイナリ識別に基づく他のモデルにも潜在的に応用できることを示した。

The final goal of quantum hypothesis testing is to achieve quantum advantage over all possible classical strategies. In the protocol of quantum reading this advantage is achieved for information retrieval from an optical memory, whose generic cell stores a bit of information in two possible lossy channels. For this protocol, we show, theoretically and experimentally, that quantum advantage is obtained by practical photon-counting measurements combined with a simple maximum-likelihood decision. In particular, we show that this receiver combined with an entangled two-mode squeezed vacuum source is able to outperform any strategy based on statistical mixtures of coherent states for the same mean number of input photons. Our experimental findings demonstrate that quantum entanglement and simple optics are able to enhance the readout of digital data, paving the way to real applications of quantum reading and with potential applications for any other model that is based on the binary discrimination of bosonic loss.
翻訳日:2023-05-22 20:29:31 公開日:2020-04-21
# 実践におけるai倫理の実践:resolveddd戦略の実証的評価

Implementing AI Ethics in Practice: An Empirical Evaluation of the RESOLVEDD Strategy ( http://arxiv.org/abs/2004.10191v1 )

ライセンス: Link先を確認
Ville Vakkuri, Kai-Kristian Kemell(参考訳) 人工知能(AI)システムが社会に影響を及ぼすにつれ、現実の出来事はAI倫理の重要性を下支えし始める。 より倫理的なAIシステムを求める声は学者や一般大衆からも聞こえてきたが、この話題に関する実証的研究はほとんどない。 同様に、AI倫理を実践するために設計されたツールやメソッドは、現在ほとんど存在しない。 この進行中の議論に実証的データを提供するため、我々は倫理的システム開発の文脈において、ビジネス倫理の分野から既存の手法、resolveddd戦略を実証的に評価する。 本研究では,プロジェクト設計要件の1つとして使用されていた5つの学生プロジェクトを対象に,resolvedddを複数事例で評価した。 私たちの重要な発見の1つは、倫理的手法の使用が参加者に強制されたとしても、その利用はプロジェクトにおける倫理的配慮を促進したことである。 具体的には、ツールの使用は本質的な動機によるものではなくとも、開発者はより多くの責任を負うことになる。

As Artificial Intelligence (AI) systems exert a growing influence on society, real-life incidents begin to underline the importance of AI Ethics. Though calls for more ethical AI systems have been voiced by scholars and the general public alike, few empirical studies on the topic exist. Similarly, few tools and methods designed for implementing AI ethics into practice currently exist. To provide empirical data into this on-going discussion, we empirically evaluate an existing method from the field of business ethics, the RESOLVEDD strategy, in the context of ethical system development. We evaluated RESOLVEDD by means of a multiple case study of five student projects where its use was given as one of the design requirements for the projects. One of our key findings is that, even though the use of the ethical method was forced upon the participants, its utilization nonetheless facilitated of ethical consideration in the projects. Specifically, it resulted in the developers displaying more responsibility, even though the use of the tool did not stem from intrinsic motivation.
翻訳日:2023-05-22 20:28:56 公開日:2020-04-21
# 重症心身障害者の痛みと身体活動の関連

Pain and Physical Activity Association in Critically Ill Patients ( http://arxiv.org/abs/2004.14952v1 )

ライセンス: Link先を確認
Anis Davoudi, Tezcan Ozrazgat-Baslanti, Patrick J. Tighe, Azra Bihorac, Parisa Rashidi(参考訳) 重度のケア患者は集中治療室にいる間、様々なレベルの痛みを経験し、鎮痛剤や鎮静剤の投与をしばしば要求される。 このような薬は一般的に、重篤な治療患者のすでに鎮静状態にある身体活動プロファイルを悪化させ、回復の遅れに寄与する。 したがって、ICU患者の運動と活動を最大化するために、痛みレベルを最小化するだけでなく、鎮痛戦略を最適化することが重要である。 現在、我々は痛みと身体活動の関係について、粒度レベルでの理解を欠いている。 本研究では,ウェアラブル加速度計を用いた看護士の痛みスコアと身体活動との関係について検討した。 その結果, 平均, 標準偏差, 最大身体活動量は, 高痛度報告前と比較して, 日中および夜間の低痛度報告よりも有意に高く,immobile使用時間の割合は両痛度報告群間で有意差は認められなかった。 身体活動の特徴を抽出した患者間で検出されたクラスターは、痛み報告群予測のためのロジスティック回帰分析において有意であった。

Critical care patients experience varying levels of pain during their stay in the intensive care unit, often requiring administration of analgesics and sedation. Such medications generally exacerbate the already sedentary physical activity profiles of critical care patients, contributing to delayed recovery. Thus, it is important not only to minimize pain levels, but also to optimize analgesic strategies in order to maximize mobility and activity of ICU patients. Currently, we lack an understanding of the relation between pain and physical activity on a granular level. In this study, we examined the relationship between nurse assessed pain scores and physical activity as measured using a wearable accelerometer device. We found that average, standard deviation, and maximum physical activity counts are significantly higher before high pain reports compared to before low pain reports during both daytime and nighttime, while percentage of time spent immobile was not significantly different between the two pain report groups. Clusters detected among patients using extracted physical activity features were significant in adjusted logistic regression analysis for prediction of pain report group.
翻訳日:2023-05-22 20:20:23 公開日:2020-04-21
# 凸時空間と深部自己エンコーダを用いた圧縮MRI定量化

Compressive MRI quantification using convex spatiotemporal priors and deep auto-encoders ( http://arxiv.org/abs/2001.08746v2 )

ライセンス: Link先を確認
Mohammad Golbabaee, Guido Buonincontri, Carolin Pirkl, Marion Menzel, Bjoern Menze, Mike Davies, Pedro Gomez(参考訳) マルチパラメトリックな定量的MRI画像計算のための辞書マッチングフリーパイプラインを提案する。 本手法は圧縮センシング再構成と深層学習量的推論に基づく2つの段階を有する。 再構成フェーズは凸であり、高速化された反復収縮アルゴリズムに効率的な時空間正規化を組み込む。 これは、アンダーサンプリング(エイリアス)アーティファクトを積極的に短いスキャン時間から最小化する。 学習された定量的推論フェーズは、リッチなトレーニングサンプルを生成するために柔軟な物理シミュレーション(Bloch equations)に基づいて純粋に訓練される。 本稿では,マルチスケール分割アフィン近似によるブロッホ多様体射影を埋め込み,非スカラブルな辞書マッチングベースラインを置き換えるために,残差ブロックを持つ深部かつコンパクトなオートエンコーダネットワークを提案する。 提案手法の有効性を検証し,新しい2D/3D定量的MRI取得プロトコルから正確で一貫した定量的情報を復元する手法を提案する。

We propose a dictionary-matching-free pipeline for multi-parametric quantitative MRI image computing. Our approach has two stages based on compressed sensing reconstruction and deep learned quantitative inference. The reconstruction phase is convex and incorporates efficient spatiotemporal regularisations within an accelerated iterative shrinkage algorithm. This minimises the under-sampling (aliasing) artefacts from aggressively short scan times. The learned quantitative inference phase is purely trained on physical simulations (Bloch equations) that are flexible for producing rich training samples. We propose a deep and compact auto-encoder network with residual blocks in order to embed Bloch manifold projections through multiscale piecewise affine approximations, and to replace the nonscalable dictionary-matching baseline. Tested on a number of datasets we demonstrate effectiveness of the proposed scheme for recovering accurate and consistent quantitative information from novel and aggressively subsampled 2D/3D quantitative MRI acquisition protocols.
翻訳日:2023-01-07 12:55:42 公開日:2020-04-21
# 間接的識別アライメントによるインクリメンタルメタラーニング

Incremental Meta-Learning via Indirect Discriminant Alignment ( http://arxiv.org/abs/2002.04162v2 )

ライセンス: Link先を確認
Qing Liu, Orchid Majumder, Alessandro Achille, Avinash Ravichandran, Rahul Bhotika, Stefano Soatto(参考訳) メタ学習フェーズ: メタ学習フェーズ: メタ学習フェーズ: メタ学習フェーズ: メタ学習フェーズ: メタ学習フェーズ: メタ学習フェーズは、大規模なデータセットからサンプリングされた複数のショットタスクを解くことで、汎用的な表現を学ぶ。 我々の知る限り、こうしたメタ学習手法はすべて、メタトレーニングのための単一のベースデータセットを使用してタスクをサンプリングし、メタトレーニング後にアルゴリズムを適応しない。 この戦略は、メタリーナーが最初から完全なメタトレーニングデータセットにアクセスできない可能性があり、追加のトレーニングデータが利用可能になった場合、メタリーナーをインクリメンタルに更新する必要がある現実のユースケースにはスケールしないかもしれない。 本研究では,メタ学習のメタ学習段階におけるインクリメンタルラーニングの概念を開発し,既存のメトリックベースメタラーニングアルゴリズムで使用可能な手法を提案する。 ベンチマークデータセットによる実験結果から,本手法は完全メタトレーニングセットを用いたモデルのトレーニングに比べ,テスト時に良好に動作し,破滅的忘れを負う可能性が示唆された。

Majority of the modern meta-learning methods for few-shot classification tasks operate in two phases: a meta-training phase where the meta-learner learns a generic representation by solving multiple few-shot tasks sampled from a large dataset and a testing phase, where the meta-learner leverages its learnt internal representation for a specific few-shot task involving classes which were not seen during the meta-training phase. To the best of our knowledge, all such meta-learning methods use a single base dataset for meta-training to sample tasks from and do not adapt the algorithm after meta-training. This strategy may not scale to real-world use-cases where the meta-learner does not potentially have access to the full meta-training dataset from the very beginning and we need to update the meta-learner in an incremental fashion when additional training data becomes available. Through our experimental setup, we develop a notion of incremental learning during the meta-training phase of meta-learning and propose a method which can be used with multiple existing metric-based meta-learning algorithms. Experimental results on benchmark dataset show that our approach performs favorably at test time as compared to training a model with the full meta-training set and incurs negligible amount of catastrophic forgetting
翻訳日:2023-01-02 01:11:33 公開日:2020-04-21
# 顔認識:偏りすぎるか、偏りすぎるか?

Face Recognition: Too Bias, or Not Too Bias? ( http://arxiv.org/abs/2002.06483v4 )

ライセンス: Link先を確認
Joseph P Robinson, Gennady Livitz, Yann Henon, Can Qin, Yun Fu, and Samson Timoner(参考訳) 本研究では,最先端顔認識(fr)システムにおけるバイアス問題に対する批判的知見を,野生(bfw)データセットにおける新しいバランスド・フェイスを用いて明らかにする。 異なるサブグループにまたがる対面対の最適スコアしきい値の変動を示す。 したがって、すべてのペアのグローバルしきい値を学ぶ従来のアプローチは、サブグループ間のパフォーマンスギャップをもたらす。 サブグループ固有の閾値を学習することで、パフォーマンスギャップの問題を軽減するだけでなく、全体的なパフォーマンスの顕著な向上も示します。 さらに,このようなバイアスが人間の知覚に存在するという仮説を支持する,人間のバイアスを測定するために,人間による評価を行う。 BFWデータベース、ソースコードなどについてはgithub.com/visionjo/facerec-bias-bfw.comを参照。

We reveal critical insights into problems of bias in state-of-the-art facial recognition (FR) systems using a novel Balanced Faces In the Wild (BFW) dataset: data balanced for gender and ethnic groups. We show variations in the optimal scoring threshold for face-pairs across different subgroups. Thus, the conventional approach of learning a global threshold for all pairs resulting in performance gaps among subgroups. By learning subgroup-specific thresholds, we not only mitigate problems in performance gaps but also show a notable boost in the overall performance. Furthermore, we do a human evaluation to measure the bias in humans, which supports the hypothesis that such a bias exists in human perception. For the BFW database, source code, and more, visit github.com/visionjo/facerec-bias-bfw.
翻訳日:2022-12-31 18:06:53 公開日:2020-04-21
# ハイブリッドイメージングシステムを用いた深部スローモーション映像再構成

Deep Slow Motion Video Reconstruction with Hybrid Imaging System ( http://arxiv.org/abs/2002.12106v2 )

ライセンス: Link先を確認
Avinash Paliwal and Nima Khademi Kalantari(参考訳) スローモーションビデオはますます人気があるが、高解像度のビデオを非常に高いフレームレートで撮影するにはプロのハイスピードカメラが必要だ。 この問題を軽減するため、現在の手法では、難題では有効でない線形物体の動きを仮定することにより、フレーム補間により標準映像のフレームレートを向上している。 本稿では,高フレームレートと低空間解像度の補助映像と,高フレームレートと高空間解像度の標準主映像の時間情報を提供する2つのビデオストリームを入力として,この問題に対処する。 ハイブリッドビデオ入力から高分解能スローモーションビデオを再構成するアライメントと外観推定からなる2段階のディープラーニングシステムを提案する。 そこで本研究では,補助映像のコンテンツを利用して,本映像の欠落フレームと既存の2つのフレーム間の流れを計算することを提案する。 外観推定のために,コンテキストとオクルージョン認識ネットワークを用いてワープフレームと補助フレームを組み合わせることを提案する。 合成したハイブリッドビデオでモデルをトレーニングし、さまざまなテストシーンで高品質な結果を示す。 実用性を示すために,本システムの性能を,ベースラインが小さい2つの実デュアルカメラで示す。

Slow motion videos are becoming increasingly popular, but capturing high-resolution videos at extremely high frame rates requires professional high-speed cameras. To mitigate this problem, current techniques increase the frame rate of standard videos through frame interpolation by assuming linear object motion which is not valid in challenging cases. In this paper, we address this problem using two video streams as input; an auxiliary video with high frame rate and low spatial resolution, providing temporal information, in addition to the standard main video with low frame rate and high spatial resolution. We propose a two-stage deep learning system consisting of alignment and appearance estimation that reconstructs high resolution slow motion video from the hybrid video input. For alignment, we propose to compute flows between the missing frame and two existing frames of the main video by utilizing the content of the auxiliary video frames. For appearance estimation, we propose to combine the warped and auxiliary frames using a context and occlusion aware network. We train our model on synthetically generated hybrid videos and show high-quality results on a variety of test scenes. To demonstrate practicality, we show the performance of our system on two real dual camera setups with small baseline.
翻訳日:2022-12-28 09:16:14 公開日:2020-04-21
# 分割・変換erm:beyond square lossとrkhsの理論解析

Theoretical Analysis of Divide-and-Conquer ERM: Beyond Square Loss and RKHS ( http://arxiv.org/abs/2003.03882v3 )

ライセンス: Link先を確認
Yong Liu and Lizhong Ding and Weiping Wang(参考訳) 再生成カーネルヒルベルト空間 (RKHS) における最小二乗損失を有する分散学習の分散分散学習の理論解析は,近年,学習理論の枠組みの中で研究されている。 しかし、一般損失関数と仮説空間に対する学習理論の研究は限られている。 このギャップを埋めるために,一般損失関数と仮説空間に対する分散経験的リスク最小化(erm)のリスク性能について検討する。 主な貢献は2つある。 まず、仮説空間上のある基本的な仮定の下で、2つの厳密なリスク境界と、滑らかさ、リプシッツ連続性、損失関数の強い凸性を求める。 第2に,強い凸性の制約を伴わずに,分散ermに対するより一般的なリスクバウンドを更に開発する。

Theoretical analysis of the divide-and-conquer based distributed learning with least square loss in the reproducing kernel Hilbert space (RKHS) have recently been explored within the framework of learning theory. However, the studies on learning theory for general loss functions and hypothesis spaces remain limited. To fill the gap, we study the risk performance of distributed empirical risk minimization (ERM) for general loss functions and hypothesis spaces. The main contributions are two-fold. First, we derive two tight risk bounds under certain basic assumptions on the hypothesis space, as well as the smoothness, Lipschitz continuity, strong convexity of the loss function. Second, we further develop a more general risk bound for distributed ERM without the restriction of strong convexity.
翻訳日:2022-12-25 07:58:36 公開日:2020-04-21
# 低リソース言語のための事前制約付き高リソース埋め込みとサブワード表現の組み合わせ

Combining Pretrained High-Resource Embeddings and Subword Representations for Low-Resource Languages ( http://arxiv.org/abs/2003.04419v3 )

ライセンス: Link先を確認
Machel Reid, Edison Marrese-Taylor and Yutaka Matsuo(参考訳) 現在の自然言語処理(nlp)技術に対する大量のデータの必要性と、その欠如との対比は、アフリカの言語の場合において強調され、そのほとんどは低リソースとみなされている。 この問題を回避するため,形態学的にリッチな言語(MRL)の質を活かした手法を探索し,事前学習した単語ベクトルを十分に活用する。 そこで本研究では,Xhosa- English 翻訳の下流処理において,事前学習と形態的インフォームド単語の埋め込みを併用したメタ埋め込み手法が有効であることを示す。

The contrast between the need for large amounts of data for current Natural Language Processing (NLP) techniques, and the lack thereof, is accentuated in the case of African languages, most of which are considered low-resource. To help circumvent this issue, we explore techniques exploiting the qualities of morphologically rich languages (MRLs), while leveraging pretrained word vectors in well-resourced languages. In our exploration, we show that a meta-embedding approach combining both pretrained and morphologically-informed word embeddings performs best in the downstream task of Xhosa-English translation.
翻訳日:2022-12-25 07:48:12 公開日:2020-04-21
# 金融市場予測のためのベースライン相関を考慮した新しいTwitter感性分析モデル

A Novel Twitter Sentiment Analysis Model with Baseline Correlation for Financial Market Prediction with Improved Efficiency ( http://arxiv.org/abs/2003.08137v2 )

ライセンス: Link先を確認
Xinyi Guo and Jinfeng Li(参考訳) 新たなソーシャルネットワークの感情分析モデルがTwitterの感情スコア(TSS)に基づいて提案され、既存投資家の感情分析モデルであるCEFD(クローズドエンドファンド割引)と比較して、将来の株式市場価格FTSE 100のリアルタイム予測を行う。 提案するtssモデルは,適切な予測精度を示すだけでなく,計算負荷を低減し,履歴データの知識を必要とせずに迅速な意思決定が可能な,新たなベースライン相関手法を特徴とする。 得られたTSSは, 過去のTSSや市場データを参照することなく, 提案した基準基準を用いて, 67.22%の精度で15時間(30労働時間)で, 将来の株式市場の動向を予測した。 特に、tssの上昇市場における予測性能は下降市場よりもはるかに優れていることが分かる。 ロジスティック回帰分析と線形判別分析では、将来の市場の上昇傾向を予測するためのTSSの精度は97.87%に達する。

A novel social networks sentiment analysis model is proposed based on Twitter sentiment score (TSS) for real-time prediction of the future stock market price FTSE 100, as compared with conventional econometric models of investor sentiment based on closed-end fund discount (CEFD). The proposed TSS model features a new baseline correlation approach, which not only exhibits a decent prediction accuracy, but also reduces the computation burden and enables a fast decision making without the knowledge of historical data. Polynomial regression, classification modelling and lexicon-based sentiment analysis are performed using R. The obtained TSS predicts the future stock market trend in advance by 15 time samples (30 working hours) with an accuracy of 67.22% using the proposed baseline criterion without referring to historical TSS or market data. Specifically, TSS's prediction performance of an upward market is found far better than that of a downward market. Under the logistic regression and linear discriminant analysis, the accuracy of TSS in predicting the upward trend of the future market achieves 97.87%.
翻訳日:2022-12-22 13:16:24 公開日:2020-04-21
# 代表地域別nms:提案ペアリングによる混雑歩行者検出に向けて

NMS by Representative Region: Towards Crowded Pedestrian Detection by Proposal Pairing ( http://arxiv.org/abs/2003.12729v2 )

ライセンス: Link先を確認
Xin Huang, Zheng Ge, Zequn Jie and Osamu Yoshie(参考訳) 近年,歩行者検出は大きな進歩を遂げているが,混雑するシーンでの歩行者検出はいまだに困難である。 歩行者間の激しい閉塞は、標準的な非最大抑圧(NMS)に大きな課題を課している。 iou(intersection over union)の相対的に低い閾値は、非常に重複する歩行者の欠落につながる。 このようなジレンマを避けるため,本論文では,非閉塞の可視部分を活用する新しい代表領域NMSアプローチを提案し,多くの偽陽性を伴わずに冗長ボックスを効果的に除去する。 可視部分を取得するために,歩行者のフルボックスと可視ボックスを同時に予測するために,新しいペアボックスモデル(pbm)を提案する。 フルと可視のボックスはモデルのサンプルユニットとして機能するペアを構成するため、検出パイプライン全体を通して2つのボックス間の強い対応が保証される。 さらに、2つのボックスの便利な機能統合は、フルおよび可視の歩行者検出タスクにおいて、より良いパフォーマンスを実現することができる。 CrowdHumanとCityPersonsのベンチマーク実験は、混雑した状況下での歩行者検出に対する提案手法の有効性を十分に検証している。

Although significant progress has been made in pedestrian detection recently, pedestrian detection in crowded scenes is still challenging. The heavy occlusion between pedestrians imposes great challenges to the standard Non-Maximum Suppression (NMS). A relative low threshold of intersection over union (IoU) leads to missing highly overlapped pedestrians, while a higher one brings in plenty of false positives. To avoid such a dilemma, this paper proposes a novel Representative Region NMS approach leveraging the less occluded visible parts, effectively removing the redundant boxes without bringing in many false positives. To acquire the visible parts, a novel Paired-Box Model (PBM) is proposed to simultaneously predict the full and visible boxes of a pedestrian. The full and visible boxes constitute a pair serving as the sample unit of the model, thus guaranteeing a strong correspondence between the two boxes throughout the detection pipeline. Moreover, convenient feature integration of the two boxes is allowed for the better performance on both full and visible pedestrian detection tasks. Experiments on the challenging CrowdHuman and CityPersons benchmarks sufficiently validate the effectiveness of the proposed approach on pedestrian detection in the crowded situation.
翻訳日:2022-12-18 23:46:20 公開日:2020-04-21
# AriEL:文生成のためのボリュームコーディング

AriEL: volume coding for sentence generation ( http://arxiv.org/abs/2003.13600v2 )

ライセンス: Link先を確認
Luca Celotti, Simon Brodeur, Jean Rouat(参考訳) 離散データのシーケンスを連続空間のある点にマッピングすることは、ランダムサンプリングによってこれらのシーケンスを検索することを難しくする。 入力をボリュームにマッピングすることで、テスト時の検索が容易になります。 しかし、それらが同時に予測と表現の滑らかさを最適化しているという事実から、両者のトレードオフを余儀なくされる。 連続空間を均一にサンプリングすることで文を生成する深層学習における標準手法の性能を向上させる。 我々は、損失関数によるボリュームの生成を奨励することなく、連続した空間でボリュームを構成するAriELを提案する。 モデルによって学習および生成された言語を自動的に評価できるおもちゃ文法を最初にベンチマークした。 そして、人間の対話の実際のデータセットをベンチマークする。 その結果,記憶された情報に対するランダムアクセスが劇的に改善され,潜在空間をランダムにサンプリングすることで,より多様な正しい言語を生成できることがわかった。 vaeはtoyデータセットのパフォーマンスに続き、aeとtransformerは実際のデータセットに続きます。 これは、情報を点ではなくボリュームに符号化することで、ランダムサンプリングによる学習情報の検索を改善するという仮説を部分的に支持している。 これはジェネレータの改善につながる可能性があり、潜在的な欠点も議論する。

Mapping sequences of discrete data to a point in a continuous space makes it difficult to retrieve those sequences via random sampling. Mapping the input to a volume would make it easier to retrieve at test time, and that's the strategy followed by the family of approaches based on Variational Autoencoder. However the fact that they are at the same time optimizing for prediction and for smoothness of representation, forces them to trade-off between the two. We improve on the performance of some of the standard methods in deep learning to generate sentences by uniformly sampling a continuous space. We do it by proposing AriEL, that constructs volumes in a continuous space, without the need of encouraging the creation of volumes through the loss function. We first benchmark on a toy grammar, that allows to automatically evaluate the language learned and generated by the models. Then, we benchmark on a real dataset of human dialogues. Our results indicate that the random access to the stored information is dramatically improved, and our method AriEL is able to generate a wider variety of correct language by randomly sampling the latent space. VAE follows in performance for the toy dataset while, AE and Transformer follow for the real dataset. This partially supports to the hypothesis that encoding information into volumes instead of into points, can lead to improved retrieval of learned information with random sampling. This can lead to better generators and we also discuss potential disadvantages.
翻訳日:2022-12-18 06:31:37 公開日:2020-04-21
# FaceScape:高品質な3D顔データと詳細な3D顔予測機能

FaceScape: a Large-scale High Quality 3D Face Dataset and Detailed Riggable 3D Face Prediction ( http://arxiv.org/abs/2003.13989v3 )

ライセンス: Link先を確認
Haotian Yang, Hao Zhu, Yanru Wang, Mingkai Huang, Qiu Shen, Ruigang Yang, Xun Cao(参考訳) 本稿では,大規模な3次元顔データセットであるFaceScapeを提案し,単一の画像入力から精巧な3次元顔モデルを予測する新しいアルゴリズムを提案する。 FaceScapeデータセットは18,760のテクスチャ付き3D顔を提供する。 3Dモデルは、位相的に均一になるように処理される細孔レベルの顔形状を含んでいる。 これらの微細な3次元顔モデルは、粗い形状と詳細な幾何学のための変位マップの3次元形態モデルとして表現することができる。 大規模かつ高精度なデータセットを活用して、深層ニューラルネットワークを用いて表現固有の動的詳細を学習する新しいアルゴリズムが提案されている。 学習された関係は、単一の画像入力から3次元顔予測システムの基礎となる。 従来の方法とは異なり、予測した3dモデルは、異なる表現の下で高度に詳細な幾何学を組み込むことができる。 前例のないデータセットとコードは研究目的で公開される予定だ。

In this paper, we present a large-scale detailed 3D face dataset, FaceScape, and propose a novel algorithm that is able to predict elaborate riggable 3D face models from a single image input. FaceScape dataset provides 18,760 textured 3D faces, captured from 938 subjects and each with 20 specific expressions. The 3D models contain the pore-level facial geometry that is also processed to be topologically uniformed. These fine 3D facial models can be represented as a 3D morphable model for rough shapes and displacement maps for detailed geometry. Taking advantage of the large-scale and high-accuracy dataset, a novel algorithm is further proposed to learn the expression-specific dynamic details using a deep neural network. The learned relationship serves as the foundation of our 3D face prediction system from a single image input. Different than the previous methods, our predicted 3D models are riggable with highly detailed geometry under different expressions. The unprecedented dataset and code will be released to public for research purpose.
翻訳日:2022-12-18 01:15:18 公開日:2020-04-21
# PaStaNet:人間活動知識エンジンを目指して

PaStaNet: Toward Human Activity Knowledge Engine ( http://arxiv.org/abs/2004.00945v2 )

ライセンス: Link先を確認
Yong-Lu Li, Liang Xu, Xinpeng Liu, Xijie Huang, Yue Xu, Shiyi Wang, Hao-Shu Fang, Ze Ma, Mingyang Chen, Cewu Lu(参考訳) 既存の画像に基づく活動理解手法は主に直接マッピング(画像からアクティビティの概念)を採用しており、これは大きなギャップからパフォーマンスのボトルネックに直面する可能性がある。 そこで本研究では,まず人的部分の状態の推測を行い,その動作を部分レベルの意味論に基づいて推論する,新たな経路を提案する。 人体部品状態(PaSta)は、例えば、手、保持、何かのようなきめ細かなアクションセマンティックトークンであり、活動を構成することができ、人間の活動知識エンジンへ進むのに役立ちます。 PaStaのパワーをフル活用するために、7M以上のPaStaアノテーションを含む大規模知識ベースPaStaNetを構築した。 まず,様々な活動の汎用表現を目指すパスタ特徴を抽出するために, activity2vec というモデルを設計する。 第2に,アクティビティを推論するために,パスタに基づく推論手法を用いる。 PaStaNetによって推進された本手法は,教師あり学習におけるHICOの6.4と13.9mAP,V-COCOにおける3.2と4.2mAP,転送学習における画像ベースAVAなど,大幅な改善を実現している。 コードとデータはhttp://hake-mvig.cn/で入手できる。

Existing image-based activity understanding methods mainly adopt direct mapping, i.e. from image to activity concepts, which may encounter performance bottleneck since the huge gap. In light of this, we propose a new path: infer human part states first and then reason out the activities based on part-level semantics. Human Body Part States (PaSta) are fine-grained action semantic tokens, e.g. <hand, hold, something>, which can compose the activities and help us step toward human activity knowledge engine. To fully utilize the power of PaSta, we build a large-scale knowledge base PaStaNet, which contains 7M+ PaSta annotations. And two corresponding models are proposed: first, we design a model named Activity2Vec to extract PaSta features, which aim to be general representations for various activities. Second, we use a PaSta-based Reasoning method to infer activities. Promoted by PaStaNet, our method achieves significant improvements, e.g. 6.4 and 13.9 mAP on full and one-shot sets of HICO in supervised learning, and 3.2 and 4.2 mAP on V-COCO and images-based AVA in transfer learning. Code and data are available at http://hake-mvig.cn/.
翻訳日:2022-12-17 09:28:33 公開日:2020-04-21
# TAPAS: 事前トレーニングによるテーブルパーシングの監視

TAPAS: Weakly Supervised Table Parsing via Pre-training ( http://arxiv.org/abs/2004.02349v2 )

ライセンス: Link先を確認
Jonathan Herzig, Pawe{\l} Krzysztof Nowak, Thomas M\"uller, Francesco Piccinno, Julian Martin Eisenschlos(参考訳) 自然言語の質問をテーブル上で答えることは、通常意味解析タスクと見なされる。 完全な論理形式の収集コストを軽減するために、ある一般的なアプローチは、論理形式の代わりに記述からなる弱監督に焦点を当てている。 しかし、弱い監督からのセマンティックパーサーの訓練は困難を招き、さらに、生成された論理形式は、記述を検索する前に中間的なステップとしてのみ使用される。 本稿では,論理形式を生成せずにテーブル上で質問応答を行うTAPASを提案する。 タパスは弱い監督から訓練し、テーブルセルを選択し、任意の選択に対応するアグリゲーション演算子を適用することで、表記を予測する。 TAPASはBERTのアーキテクチャを拡張してテーブルを入力としてエンコードし、ウィキペディアからクロールされたテキストセグメントとテーブルの効果的な共同事前トレーニングから初期化し、エンドツーエンドで訓練されている。 我々は3つの異なる意味解析データセットを実験し、TAPASが55.1から67.2までのSQAの最先端精度を改善し、WIKISQLとWIKITQの最先端技術に匹敵するものの、より単純なモデルアーキテクチャで同等の性能を発揮することを発見した。 さらに、WIKISQLからWIKITQへの移行学習は、最先端の4.2ポイントの精度で48.7の精度を得る。

Answering natural language questions over tables is usually seen as a semantic parsing task. To alleviate the collection cost of full logical forms, one popular approach focuses on weak supervision consisting of denotations instead of logical forms. However, training semantic parsers from weak supervision poses difficulties, and in addition, the generated logical forms are only used as an intermediate step prior to retrieving the denotation. In this paper, we present TAPAS, an approach to question answering over tables without generating logical forms. TAPAS trains from weak supervision, and predicts the denotation by selecting table cells and optionally applying a corresponding aggregation operator to such selection. TAPAS extends BERT's architecture to encode tables as input, initializes from an effective joint pre-training of text segments and tables crawled from Wikipedia, and is trained end-to-end. We experiment with three different semantic parsing datasets, and find that TAPAS outperforms or rivals semantic parsing models by improving state-of-the-art accuracy on SQA from 55.1 to 67.2 and performing on par with the state-of-the-art on WIKISQL and WIKITQ, but with a simpler model architecture. We additionally find that transfer learning, which is trivial in our setting, from WIKISQL to WIKITQ, yields 48.7 accuracy, 4.2 points above the state-of-the-art.
翻訳日:2022-12-16 12:01:32 公開日:2020-04-21
# 制御回路時効によるハードウェアトロイの木馬検出

Hardware Trojan Detection Using Controlled Circuit Aging ( http://arxiv.org/abs/2004.02997v3 )

ライセンス: Link先を確認
Virinchi Roy Surabhi, Prashanth Krishnamurthy, Hussam Amrouch, Kanad Basu, J\"org Henkel, Ramesh Karri, Farshad Khorrami(参考訳) 本稿では,集積回路(IC)におけるトランジスタ老化を利用したハードウェアトロイの木馬検出手法を提案する。 トランジスタが老化すると、ICのいくつかの経路に沿って遅延する。 この遅延の増加は、動作中のICの出力のタイミングエラーとして現れるタイミング違反をもたらす。 本稿では,老化対応標準セルライブラリを用いた実験を行い,ハードウェアトロイの木馬検出における手法の有用性について述べる。 IC老化とオーバークロックを組み合わせることで、誘導タイミング違反によるIC出力におけるビットエラーのパターンを生成する。 クリーンICの出力において,機械学習を用いてビット誤り分布を学習する。 我々は、ICにおけるトロイの木馬とこのベースライン分布との相違から、ビットエラーのパターンの相違を区別する。 我々は黄金のICをシミュレートし、IC-to-IC製造のバリエーションに堅牢性を示す。 このアプローチは効果的であり、クリティカルパスから遠く離れていてもトロイの木馬を検出することができる。 Trust-hubのベンチマークの結果、検出精度は$\geq$99%である。

This paper reports a novel approach that uses transistor aging in an integrated circuit (IC) to detect hardware Trojans. When a transistor is aged, it results in delays along several paths of the IC. This increase in delay results in timing violations that reveal as timing errors at the output of the IC during its operation. We present experiments using aging-aware standard cell libraries to illustrate the usefulness of the technique in detecting hardware Trojans. Combining IC aging with over-clocking produces a pattern of bit errors at the IC output by the induced timing violations. We use machine learning to learn the bit error distribution at the output of a clean IC. We differentiate the divergence in the pattern of bit errors because of a Trojan in the IC from this baseline distribution. We simulate the golden IC and show robustness to IC-to-IC manufacturing variations. The approach is effective and can detect a Trojan even if we place it far off the critical paths. Results on benchmarks from the Trust-hub show a detection accuracy of $\geq$99%.
翻訳日:2022-12-16 07:39:02 公開日:2020-04-21
# CMBデータ解析のための生成逆ネットワークによる塗装

Inpainting via Generative Adversarial Networks for CMB data analysis ( http://arxiv.org/abs/2004.04177v2 )

ライセンス: Link先を確認
Alireza Vafaei Sadr, Farida Farsian(参考訳) 本研究では,点源抽出プロセスの後にマスクアウトされた領域にCMB信号を印加する手法を提案する。 我々はGAN(Generative Adversarial Network)を改良し、内部(ハイパー)パラメータとトレーニング戦略の異なる組み合わせを比較した。 我々は,CMB電力スペクトルの回復に関する性能を推定するために,適切な$\mathcal{C}_r$変数を用いて評価を行った。 我々は、1つの点源を1.83$\times$ 1.83 squared degrees拡張で各空パッチに隠蔽するテストセットを考え、これはグリッド化において64$\times$ 64ピクセルに対応する。 GANはPlanck 2018の全強度シミュレーションのパフォーマンスを推定するために最適化されている。 この訓練により、GANは、約1500ピクセルに対応するマスクを1\%の誤差で5分の角スケールに再構築する効果がある。

In this work, we propose a new method to inpaint the CMB signal in regions masked out following a point source extraction process. We adopt a modified Generative Adversarial Network (GAN) and compare different combinations of internal (hyper-)parameters and training strategies. We study the performance using a suitable $\mathcal{C}_r$ variable in order to estimate the performance regarding the CMB power spectrum recovery. We consider a test set where one point source is masked out in each sky patch with a 1.83 $\times$ 1.83 squared degree extension, which, in our gridding, corresponds to 64 $\times$ 64 pixels. The GAN is optimized for estimating performance on Planck 2018 total intensity simulations. The training makes the GAN effective in reconstructing a masking corresponding to about 1500 pixels with $1\%$ error down to angular scales corresponding to about 5 arcminutes.
翻訳日:2022-12-15 08:35:45 公開日:2020-04-21
# 仮想蛍光顕微鏡のための物理強化機械学習

Physics-enhanced machine learning for virtual fluorescence microscopy ( http://arxiv.org/abs/2004.04306v2 )

ライセンス: Link先を確認
Colin L. Cooke, Fanjie Kong, Amey Chaware, Kevin C. Zhou, Kanghyun Kim, Rong Xu, D. Michael Ando, Samuel J. Yang, Pavan Chandra Konda, Roarke Horstmeyer(参考訳) 本稿では, 仮想蛍光顕微鏡のための新しいデータ駆動顕微鏡設計法を提案する。 その結果, 深部畳み込みニューラルネットワークの第1層に照明のモデルを含めることで, 蛍光画像情報を非定常透過顕微鏡画像から推定する能力を大幅に向上するタスク固有のLEDパターンを学習できることがわかった。 従来の照明法と比較して, 異なる倍率と異なる試料型で実験を行った結果, 従来の照明法と比較して, 性能が一貫した改善が得られた。 また, 推定課題における学習照明の重要性を理解するために, 蛍光像ターゲットのダイナミックレンジ(1ビットから7ビット)を変化させ, 対象の情報量に応じて学習パターンの改善率を増加させた。 本研究は、プログラム可能な光学素子のパワーを実証し、機械学習アルゴリズムの性能向上と、次世代の機械制御イメージングシステムへの物理的洞察を提供する。

This paper introduces a new method of data-driven microscope design for virtual fluorescence microscopy. Our results show that by including a model of illumination within the first layers of a deep convolutional neural network, it is possible to learn task-specific LED patterns that substantially improve the ability to infer fluorescence image information from unstained transmission microscopy images. We validated our method on two different experimental setups, with different magnifications and different sample types, to show a consistent improvement in performance as compared to conventional illumination methods. Additionally, to understand the importance of learned illumination on inference task, we varied the dynamic range of the fluorescent image targets (from one to seven bits), and showed that the margin of improvement for learned patterns increased with the information content of the target. This work demonstrates the power of programmable optical elements at enabling better machine learning algorithm performance and at providing physical insight into next generation of machine-controlled imaging systems.
翻訳日:2022-12-15 02:38:33 公開日:2020-04-21
# エントロピーに基づく二元化ニューラルネットワーク推定におけるソフトエラーの影響推定モデル

Entropy-Based Modeling for Estimating Soft Errors Impact on Binarized Neural Network Inference ( http://arxiv.org/abs/2004.05089v2 )

ライセンス: Link先を確認
Navid Khoshavi, Saman Sargolzaei, Arman Roohi, Connor Broyles, Yu Bi(参考訳) 過去数年間、大規模データセットへの容易なアクセシビリティは、ニューラルネットワーク(NN)から駆動される高精度な予測モデルを開発するためのパラダイムを大きく変えてきました。 これらのモデルは、放射線によって引き起こされる過渡断層の影響を受け、長期にわたって予測されるNN推論加速器の徐々に低下する可能性がある。 NN推論アクセラレーターにおける厳密な脆弱性評価から、重みとアクティベーション関数が、特に選択した畳み込みニューラルネットワークの最初の5層において、SEU(Single-event upset)とMBU(Multi-bit upset)の両方に不均一に影響していることが示された。 本稿では,SEUとMBUの両方が層間および選択したNNの各層に対して与える影響について,比較的正確な統計モデルを提案する。 これらのモデルは、安全クリティカルなアプリケーションで採用する前に、NNトポロジのエラー-レジリエンスのマグニチュードを評価するために使用できる。

Over past years, the easy accessibility to the large scale datasets has significantly shifted the paradigm for developing highly accurate prediction models that are driven from Neural Network (NN). These models can be potentially impacted by the radiation-induced transient faults that might lead to the gradual downgrade of the long-running expected NN inference accelerator. The crucial observation from our rigorous vulnerability assessment on the NN inference accelerator demonstrates that the weights and activation functions are unevenly susceptible to both single-event upset (SEU) and multi-bit upset (MBU), especially in the first five layers of our selected convolution neural network. In this paper, we present the relatively-accurate statistical models to delineate the impact of both undertaken SEU and MBU across layers and per each layer of the selected NN. These models can be used for evaluating the error-resiliency magnitude of NN topology before adopting them in the safety-critical applications.
翻訳日:2022-12-14 20:36:02 公開日:2020-04-21
# ネットワークjackknifeの理論的性質について

On the Theoretical Properties of the Network Jackknife ( http://arxiv.org/abs/2004.08935v2 )

ライセンス: Link先を確認
Qiaohui Lin, Robert Lunde, Purnamrita Sarkar(参考訳) 本研究は,ネットワークデータに対する残留ノードアウトジャックナイフプロシージャの特性について検討する。 スパースグラフトンモデルの下では、Efron-Stein型不等式を証明し、ネットワークジャックニフェがノード置換に不変な任意のネットワーク汎関数に対する分散(期待)の保守的な推定を導くことを示す。 カウント汎関数の一般的なクラスでは、ネットワークjackknifeの一貫性も確立します。 我々は,シミュレーションおよび実データを用いた理論解析を補完し,ネットワークジャックニフェが他の再サンプリング手法が有効な場合の競合性能を示すことを示す。 実際、いくつかのネットワーク統計では、jackknifeはサブサンプリングのような関連するメソッドよりも正確な推論を提供する。

We study the properties of a leave-node-out jackknife procedure for network data. Under the sparse graphon model, we prove an Efron-Stein-type inequality, showing that the network jackknife leads to conservative estimates of the variance (in expectation) for any network functional that is invariant to node permutation. For a general class of count functionals, we also establish consistency of the network jackknife. We complement our theoretical analysis with a range of simulated and real-data examples and show that the network jackknife offers competitive performance in cases where other resampling methods are known to be valid. In fact, for several network statistics, we see that the jackknife provides more accurate inferences compared to related methods such as subsampling.
翻訳日:2022-12-12 00:43:14 公開日:2020-04-21
# テンプレートに基づく音楽生成のためのベクトル量子化コントラスト予測符号化

Vector Quantized Contrastive Predictive Coding for Template-based Music Generation ( http://arxiv.org/abs/2004.10120v1 )

ライセンス: Link先を確認
Ga\"etan Hadjeres and L\'eopold Crestel(参考訳) 本研究では,テキスト中の文や音楽のバーといった基本単位にトークンをグループ化できる離散シーケンスの変動を生成する柔軟な手法を提案する。 より正確には、テンプレートシーケンスを与えられた場合、我々は、アノテーションを使わずに、元のテンプレートと知覚可能な類似性を共有する新しいシーケンスを作成することを目的としている。 まず,これらの学習された離散表現の情報内容を制御可能なメカニズムとともに,基本単位の離散的なコード集合上で有意義な割り当てを学習することのできる,ベクトル量子化予測符号化という自己指導型符号化手法を提案する。 次に,これらの圧縮表現を用いて,トランスフォーマーアーキテクチャにおける適切な注意パターンを用いてテンプレート列のバリエーションを生成する方法を示す。 本稿では,J.S. Bach合唱団のコーパスにおいて,学習した離散符号の音楽的意味を議論し,提案手法が与えられたテンプレートのコヒーレントかつ高品質なバリエーションを生成できることを示す。

In this work, we propose a flexible method for generating variations of discrete sequences in which tokens can be grouped into basic units, like sentences in a text or bars in music. More precisely, given a template sequence, we aim at producing novel sequences sharing perceptible similarities with the original template without relying on any annotation; so our problem of generating variations is intimately linked to the problem of learning relevant high-level representations without supervision. Our contribution is two-fold: First, we propose a self-supervised encoding technique, named Vector Quantized Contrastive Predictive Coding which allows to learn a meaningful assignment of the basic units over a discrete set of codes, together with mechanisms allowing to control the information content of these learnt discrete representations. Secondly, we show how these compressed representations can be used to generate variations of a template sequence by using an appropriate attention pattern in the Transformer architecture. We illustrate our approach on the corpus of J.S. Bach chorales where we discuss the musical meaning of the learnt discrete codes and show that our proposed method allows to generate coherent and high-quality variations of a given template.
翻訳日:2022-12-11 07:55:51 公開日:2020-04-21
# 時間構造拡張による音楽生成

Music Generation with Temporal Structure Augmentation ( http://arxiv.org/abs/2004.10246v1 )

ライセンス: Link先を確認
Shakeel Raja(参考訳) 本稿では,メロディとハーモニーからなる構造化楽曲を生成するための新しい特徴拡張手法を提案する。 提案手法は,入力データを構造的特徴で強化した結果,ニューラルネットワークがより美的満足度が高く構造化された音楽出力を得られるかどうかを学習するために,歌の結論とメーターマーカーにカウントダウンしたコネクショニスト生成モデルを付加する。 LSTMセルを持つRNNアーキテクチャは、教師付きシーケンス学習のセットアップでノッティンガム民謡のデータセットに基づいて訓練され、音楽言語モデリングのアプローチに従って、ハーモニーとメロディの生成に適用される。 本実験では,両アノテーションの予測性能が向上した。 また, オンラインチューリングスタイル聴取テストを用いて, 時間構造を用いて生成した音楽の審美的品質と知覚的構造が著しく向上したことを確認した。

In this paper we introduce a novel feature augmentation approach for generating structured musical compositions comprising melodies and harmonies. The proposed method augments a connectionist generation model with count-down to song conclusion and meter markers as extra input features to study whether neural networks can learn to produce more aesthetically pleasing and structured musical output as a consequence of augmenting the input data with structural features. An RNN architecture with LSTM cells is trained on the Nottingham folk music dataset in a supervised sequence learning setup, following a Music Language Modelling approach, and then applied to generation of harmonies and melodies. Our experiments show an improved prediction performance for both types of annotation. The generated music was also subjectively evaluated using an on-line Turing style listening test which confirms a substantial improvement in the aesthetic quality and in the perceived structure of the music generated using the temporal structure.
翻訳日:2022-12-11 07:55:28 公開日:2020-04-21
# DNNのトレーニング方法: Network Operator Edition

How to Train your DNN: The Network Operator Edition ( http://arxiv.org/abs/2004.10275v1 )

ライセンス: Link先を確認
Michael Alan Chang, Domenic Bottini, Lisa Jian, Pranay Kumar, Aurojit Panda, Scott Shenker(参考訳) ディープ・ニューラル・ネット(deep neural nets, ディープ・ニューラル・ネット)は、かなりヒットしたが、物理的なネットワークは、休むべき場所であり、ここでは、どのネットワーク最適化が最善かを確認するために、それらをテストに投入する。

Deep Neural Nets have hit quite a crest, But physical networks are where they must rest, And here we put them all to the test, To see which network optimization is best.
翻訳日:2022-12-11 07:55:16 公開日:2020-04-21
# Torchgpipe:巨大モデルのトレーニングのためのオンザフライパイプライン並列性

torchgpipe: On-the-fly Pipeline Parallelism for Training Giant Models ( http://arxiv.org/abs/2004.09910v1 )

ライセンス: Link先を確認
Chiheon Kim, Heungsub Lee, Myungryong Jeong, Woonhyuk Baek, Boogeon Yoon, Ildoo Kim, Sungbin Lim, Sungwoong Kim(参考訳) 我々は,GPipe (Huang et al., 2019) によるチェックポインティングによるマイクロバッチパイプライン並列化を実現するために,PyTorch で利用可能なライブラリを設計,実装した。 特に,pytorch の definition-by-run および eager 実行環境でパイプライン並列勾配計算を可能にする設計コンポーネント群を開発した。 このような環境下でパイプライン並列化を十分に活用するには各コンポーネントが必要であることを示すとともに,AmoebaNet-D や U-Net など様々なネットワークアーキテクチャに適用することで,ライブラリの効率性を実証する。 私たちのライブラリはhttps://github.com/kakaobrain/torchgpipeで利用可能です。

We design and implement a ready-to-use library in PyTorch for performing micro-batch pipeline parallelism with checkpointing proposed by GPipe (Huang et al., 2019). In particular, we develop a set of design components to enable pipeline-parallel gradient computation in PyTorch's define-by-run and eager execution environment. We show that each component is necessary to fully benefit from pipeline parallelism in such environment, and demonstrate the efficiency of the library by applying it to various network architectures including AmoebaNet-D and U-Net. Our library is available at https://github.com/kakaobrain/torchgpipe .
翻訳日:2022-12-11 07:53:25 公開日:2020-04-21
# 確率的グラフィカルモデルにおける推論の厳密な説明

Rigorous Explanation of Inference on Probabilistic Graphical Models ( http://arxiv.org/abs/2004.10066v1 )

ライセンス: Link先を確認
Yifei Liu, Chao Chen, Xi Zhang, Sihong Xie(参考訳) マルコフ確率場(MRF)のような確率的グラフィカルモデルは、確率変数間の依存関係を利用して、結合確率分布の豊富なファミリーをモデル化する。 信念伝播(BP)のような高度な推論アルゴリズムは、限界後部を効果的に計算することができる。 それでも、重要な人的意思決定の推論結果を理解することは依然として困難である。 推論の結果をグラフィカルモデルの寄与要因に厳密に分類する既存の方法は存在しない。 シェープ値は公理的なフレームワークを提供するが、一般的なグラフィカルモデル上での値の計算や近似は困難であり、あまり研究されていない。 我々は、Shapley値の分解可能性、MSFの構造、BP推論の反復性を、高速Shapley値計算の原理的な方法で統合するGraphShapleyを提案する。 1) 重複のない説明変数のShapley値に対する重要な貢献を体系的に列挙する。 2) スクラッチから始めることなくコントリビューションを漸進的に計算する。 理論的には、独立性、等貢献性、加法性についてグラフシャプリーを特徴づける。 9つのグラフ上では、GraphShapleyが合理的で実践的な説明を提供することを示す。

Probabilistic graphical models, such as Markov random fields (MRF), exploit dependencies among random variables to model a rich family of joint probability distributions. Sophisticated inference algorithms, such as belief propagation (BP), can effectively compute the marginal posteriors. Nonetheless, it is still difficult to interpret the inference outcomes for important human decision making. There is no existing method to rigorously attribute the inference outcomes to the contributing factors of the graphical models. Shapley values provide an axiomatic framework, but naively computing or even approximating the values on general graphical models is challenging and less studied. We propose GraphShapley to integrate the decomposability of Shapley values, the structure of MRFs, and the iterative nature of BP inference in a principled way for fast Shapley value computation, that 1) systematically enumerates the important contributions to the Shapley values of the explaining variables without duplicate; 2) incrementally compute the contributions without starting from scratches. We theoretically characterize GraphShapley regarding independence, equal contribution, and additivity. On nine graphs, we demonstrate that GraphShapley provides sensible and practical explanations.
翻訳日:2022-12-11 07:53:12 公開日:2020-04-21
# DRMap:畳み込みニューラルネットワークのエネルギー効率向上のための汎用DRAMデータマッピングポリシー

DRMap: A Generic DRAM Data Mapping Policy for Energy-Efficient Processing of Convolutional Neural Networks ( http://arxiv.org/abs/2004.10341v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) 多くの畳み込みニューラルネットワーク(CNN)アクセラレータは、DRAMアクセスレイテンシとエネルギが高いため、組み込み実装にとって重要なパフォーマンスとエネルギー効率の課題に直面している。 近年,サブアレイレベルの並列性を利用してアクセス遅延を低減するDRAMアーキテクチャが提案されている。 本研究では,異なるdramアーキテクチャにおける異なるマッピングポリシーのレイテンシとエネルギーを調査し,パレート最適設計を選択するための設計空間探索手法を提案する。 その結果, 行バッファヒット, バンクレベル, サブアレイレベルの並列化を最優先するマッピングポリシにより, エネルギー効率の高いDRAMアクセスを実現することができた。

Many convolutional neural network (CNN) accelerators face performance- and energy-efficiency challenges which are crucial for embedded implementations, due to high DRAM access latency and energy. Recently, some DRAM architectures have been proposed to exploit subarray-level parallelism for decreasing the access latency. Towards this, we present a design space exploration methodology to study the latency and energy of different mapping policies on different DRAM architectures, and identify the pareto-optimal design choices. The results show that the energy-efficient DRAM accesses can be achieved by a mapping policy that orderly prioritizes to maximize the row buffer hits, bank- and subarray-level parallelism.
翻訳日:2022-12-11 07:52:56 公開日:2020-04-21
# 呼吸速度と無呼吸の非接触モニタリングのためのマルチスペクトルビデオフュージョン

Multispectral Video Fusion for Non-contact Monitoring of Respiratory Rate and Apnea ( http://arxiv.org/abs/2004.09834v1 )

ライセンス: Link先を確認
Gaetano Scebba, Giulia Da Poian, and Walter Karlen(参考訳) 呼吸活動の連続的モニタリングは、呼吸イベントを検出するために多くの臨床応用において望ましい。 近赤外および遠赤外線スペクトラムカメラでは、呼吸の非接触監視が可能である。 しかし、現在の技術は臨床応用に十分な堅牢性を持っていない。 例えば、無呼吸中に正確な呼吸速度(RR)を推定できない。 本稿では,無呼吸下でのRR推定を目的としたマルチスペクトルデータ融合に基づく新しいアルゴリズムを提案する。 このアルゴリズムはRR推定および無呼吸検出タスクに独立に対処する。 複数のソースから呼吸情報を抽出し、最終的な呼吸活動推定に結果が融合したRR推定器及び無呼吸検出器に供給する。 健常成人健常者30名を対象に,暗室に潜伏しながら多彩な呼吸作業を行い,中枢性・閉塞性無呼吸事象を再現した。 マルチスペクトルカメラからの複数の呼吸情報を組み合わせることで、rr推定の根平均二乗誤差(rmse)精度が最大4.64モノスペクトラルデータから1.60ブレス/minまで向上した。 閉塞性(0.75 - 0.86)と中枢性無呼吸(0.75 - 0.93)を分類するための中央値も改善した。 さらに、無呼吸検出の独立した考慮により、より堅牢なシステム(RMSEは4.44対7.96呼吸/分)が導かれた。 以上の知見は,医療応用におけるバイタルサインモニタリングのためのカメラの利用への一歩となるかもしれない。

Continuous monitoring of respiratory activity is desirable in many clinical applications to detect respiratory events. Non-contact monitoring of respiration can be achieved with near- and far-infrared spectrum cameras. However, current technologies are not sufficiently robust to be used in clinical applications. For example, they fail to estimate an accurate respiratory rate (RR) during apnea. We present a novel algorithm based on multispectral data fusion that aims at estimating RR also during apnea. The algorithm independently addresses the RR estimation and apnea detection tasks. Respiratory information is extracted from multiple sources and fed into an RR estimator and an apnea detector whose results are fused into a final respiratory activity estimation. We evaluated the system retrospectively using data from 30 healthy adults who performed diverse controlled breathing tasks while lying supine in a dark room and reproduced central and obstructive apneic events. Combining multiple respiratory information from multispectral cameras improved the root mean square error (RMSE) accuracy of the RR estimation from up to 4.64 monospectral data down to 1.60 breaths/min. The median F1 scores for classifying obstructive (0.75 to 0.86) and central apnea (0.75 to 0.93) also improved. Furthermore, the independent consideration of apnea detection led to a more robust system (RMSE of 4.44 vs. 7.96 breaths/min). Our findings may represent a step towards the use of cameras for vital sign monitoring in medical applications.
翻訳日:2022-12-11 07:52:14 公開日:2020-04-21
# STDPG:SDNにおける動的ルーティングのための時空間決定論的ポリシー勾配エージェント

STDPG: A Spatio-Temporal Deterministic Policy Gradient Agent for Dynamic Routing in SDN ( http://arxiv.org/abs/2004.09783v1 )

ライセンス: Link先を確認
Juan Chen, Zhiwen Xiao, Huanlai Xing, Penglin Dai, Shouxi Luo, Muhammad Azhar Iqbal(参考訳) ソフトウェア定義ネットワーク(SDN)における動的ルーティングは、集中的な意思決定問題と見なすことができる。 既存の深層強化学習(drl)エージェントのほとんどは、dnn(deep neural network)を組み込んだことで、それに対処することができる。 しかしながら、完全に接続されたフィードフォワードニューラルネットワーク(FFNN)は通常、空間的相関とトラフィックフローの時間的変動を無視する。 この欠点は通常、多数のトレーニングパラメータにより、計算の複雑さが著しく高くなる。 この問題を解決するために,我々は,時空間決定性ポリシー勾配(STDPG)エージェントと呼ばれるSDNにおける動的ルーティングのための新しいモデルフリーフレームワークを提案する。 アクターネットワークと批評家ネットワークは同一のDNN構造に基づいており、畳み込みニューラルネットワーク(CNN)と長期記憶ネットワーク(LSTM)と時間的注意機構(CNN-LSTM-TAM)の組み合わせが考案されている。 空間的特徴と時間的特徴を効率的に活用することにより、CNNLSTM-TAMはSTDPGエージェントが経験遷移からより良く学習するのに役立つ。 さらに,モデル学習の収束を早めるために優先度付き体験リプレイ(per)方式を採用している。 実験の結果,STDPGは現在のネットワーク環境に適応し,堅牢な収束を実現することができることがわかった。 多くの最先端DRLエージェントと比較して、STDPGは、平均的なエンドツーエンド遅延の観点から、より良いルーティングソリューションを実現する。

Dynamic routing in software-defined networking (SDN) can be viewed as a centralized decision-making problem. Most of the existing deep reinforcement learning (DRL) agents can address it, thanks to the deep neural network (DNN)incorporated. However, fully-connected feed-forward neural network (FFNN) is usually adopted, where spatial correlation and temporal variation of traffic flows are ignored. This drawback usually leads to significantly high computational complexity due to large number of training parameters. To overcome this problem, we propose a novel model-free framework for dynamic routing in SDN, which is referred to as spatio-temporal deterministic policy gradient (STDPG) agent. Both the actor and critic networks are based on identical DNN structure, where a combination of convolutional neural network (CNN) and long short-term memory network (LSTM) with temporal attention mechanism, CNN-LSTM-TAM, is devised. By efficiently exploiting spatial and temporal features, CNNLSTM-TAM helps the STDPG agent learn better from the experience transitions. Furthermore, we employ the prioritized experience replay (PER) method to accelerate the convergence of model training. The experimental results show that STDPG can automatically adapt for current network environment and achieve robust convergence. Compared with a number state-ofthe-art DRL agents, STDPG achieves better routing solutions in terms of the average end-to-end delay.
翻訳日:2022-12-11 07:51:09 公開日:2020-04-21
# 無人航空機の物流分布経路最適化のための強化学習

Reinforcement Learning to Optimize the Logistics Distribution Routes of Unmanned Aerial Vehicle ( http://arxiv.org/abs/2004.09864v1 )

ライセンス: Link先を確認
Linfei Feng(参考訳) 商品配送における無人航空機(UAV)の経路計画手法は,顧客ノードと配送ノード間の"Last Kilometer"における多くの状況に適した柔軟性のために,産業や学術者から注目されている。 しかし, 従来の組合せ最適化手法では, 複雑な状況が問題となっている。 本稿では,最先端の強化学習(Reinforcement Learning, RL)に基づき, 複雑な環境下でUAVの経路計画を実現するための改良手法を提案する。 改良されたアプローチはアテンション機構を利用し、エンコーダとしての埋め込み機構とデコーダとしてのビームサーチの3つの異なる幅(~1,5,10)を含む。 政策勾配は、推論中に最適な戦略を得るためにRLモデルを訓練するために利用される。 その結果,このような複雑な状況に適応するモデルの有効性と効率性が示された。 最適化解法 OR-tools による結果との比較により, 分散システムの信頼性が向上し, UAV の広汎な適用に向けた指針となる。

Path planning methods for the unmanned aerial vehicle (UAV) in goods delivery have drawn great attention from industry and academics because of its flexibility which is suitable for many situations in the "Last Kilometer" between customer and delivery nodes. However, the complicated situation is still a problem for traditional combinatorial optimization methods. Based on the state-of-the-art Reinforcement Learning (RL), this paper proposed an improved method to achieve path planning for UAVs in complex surroundings: multiple no-fly zones. The improved approach leverages the attention mechanism and includes the embedding mechanism as the encoder and three different widths of beam search (i.e.,~1, 5, and 10) as the decoders. Policy gradients are utilized to train the RL model for obtaining the optimal strategies during inference. The results show the feasibility and efficiency of the model applying in this kind of complicated situation. Comparing the model with the results obtained by the optimization solver OR-tools, it improves the reliability of the distribution system and has a guiding significance for the broad application of UAVs.
翻訳日:2022-12-11 07:50:42 公開日:2020-04-21
# マルチオーバ・ザ・エア計算によるSISOシステムのロバスト干渉管理

Robust Interference Management for SISO Systems with Multiple Over-the-Air Computations ( http://arxiv.org/abs/2004.09906v1 )

ライセンス: Link先を確認
Jaber Kakar and Aydin Sezgin(参考訳) 本稿では,和の大気上計算について考察する。 具体的には、最小平均二乗誤差で共有複素数値MAC上で$M\geq 2$ sums $s_m=\sum_{k\in\mathcal{D}m}x_k$を計算したい。 適切なTx-Rxスケーリング係数を見つけることは、$s_n$の計算における低エラーと、他の和$s_m$, $m\neq n$の計算で引き起こされる干渉との間にバランスをとる。 本稿では、最大電力$P$のTx電力制約を受ける平均二乗誤差$\max_{m\in[1:M]}\mathsf{MSE}_m$を最小化する最適Tx-Rxスケーリングポリシーの設計に興味がある。 我々は、Tx-Rxスケーリングポリシー $\left(\bar{\mathbf{a}},\bar{\mathbf{b}}\right)$ の最適設計が最適化を伴うことを示す。 (a)その段階及び b) 絶対値;絶対値 (i)Rx信号の実部と虚部に対してそれぞれ$M_R$と$M_I$(M=M_R+M_I$)の計算を分解する。 (ii) 各部分(実数と虚数)の計算を個々に最小化する。 この論文の主な焦点は (b) 条件を導き出します (i)最適化問題の実現可能性について (ii)実(w=r$)または虚(w=i$)部分よりも、局所最小のtx-rxスケーリングポリシーで$m_w=2$計算を行う。 M_w=2$の1つのRx鎖上の過大なシミュレーションは、$\Delta D=|\mathcal{D}_2|-|\mathcal{D}_1|$の干渉レベルが、エルゴード最悪の場合$\mathsf{MSE}$において重要な役割を果たすことを示している。 非常に高い$\mathsf{SNR}$では、通常は最も弱いチャネルを持つセンサーのみがフルパワーで送信されるが、残りのセンサーはすべて干渉を制限するために送信される。 興味深いことに、残差干渉のため、エルゴード最悪のケース $\mathsf{MSE}$ は消滅せず、むしろ$\frac{|\mathcal{D}_1||\mathcal{D}_2|}{K}$ を $\mathsf{SNR}\rightarrow\infty$ として収束する。

In this paper, we consider the over-the-air computation of sums. Specifically, we wish to compute $M\geq 2$ sums $s_m=\sum_{k\in\mathcal{D}m}x_k$ over a shared complex-valued MAC at once with minimal mean-squared error ($\mathsf{MSE}$). Finding appropriate Tx-Rx scaling factors balance between a low error in the computation of $s_n$ and the interference induced by it in the computation of other sums $s_m$, $m\neq n$. In this paper, we are interested in designing an optimal Tx-Rx scaling policy that minimizes the mean-squared error $\max_{m\in[1:M]}\mathsf{MSE}_m$ subject to a Tx power constraint with maximum power $P$. We show that an optimal design of the Tx-Rx scaling policy $\left(\bar{\mathbf{a}},\bar{\mathbf{b}}\right)$ involves optimizing (a) their phases and (b) their absolute values in order to (i) decompose the computation of $M$ sums into, respectively, $M_R$ and $M_I$ ($M=M_R+M_I$) calculations over real and imaginary part of the Rx signal and (ii) to minimize the computation over each part -- real and imaginary -- individually. The primary focus of this paper is on (b). We derive conditions (i) on the feasibility of the optimization problem and (ii) on the Tx-Rx scaling policy of a local minimum for $M_w=2$ computations over the real ($w=R$) or the imaginary ($w=I$) part. Extensive simulations over a single Rx chain for $M_w=2$ show that the level of interference in terms of $\Delta D=|\mathcal{D}_2|-|\mathcal{D}_1|$ plays an important role on the ergodic worst-case $\mathsf{MSE}$. At very high $\mathsf{SNR}$, typically only the sensor with the weakest channel transmits with full power while all remaining sensors transmit with less to limit the interference. Interestingly, we observe that due to residual interference, the ergodic worst-case $\mathsf{MSE}$ is not vanishing; rather, it converges to $\frac{|\mathcal{D}_1||\mathcal{D}_2|}{K}$ as $\mathsf{SNR}\rightarrow\infty$.
翻訳日:2022-12-11 07:50:22 公開日:2020-04-21
# In-vivo hyperspectral laryngeal cancer 検出のための空間スペクトル深層学習法

Spatio-spectral deep learning methods for in-vivo hyperspectral laryngeal cancer detection ( http://arxiv.org/abs/2004.10159v1 )

ライセンス: Link先を確認
Marcel Bengs and Stephan Westermann and Nils Gessert and Dennis Eggert and Andreas O. H. Gerstner and Nina A. Mueller and Christian Betz and Wiebke Laffers and Alexander Schlaefer(参考訳) 頭頸部腫瘍の早期発見は患者の生存に不可欠である。 しばしば、診断は喉頭の内視鏡的検査と生検と組織学的分析に基づいて行われ、主観的評価により、観察者間変動が高い。 この点では、臨床医から独立した早期非侵襲的診断が有用であろう。 近年の研究では、ハイパースペクトルイメージング(hsi)が頭頸部腫瘍の非侵襲的検出に利用できることが示されている。 しかし、HSIデータ処理は、高いスペクトル変動、様々な画像干渉、データの高次元性のために困難である。 したがって、自動HSI解析の性能は制限されており、これまでのところ、主に生前の研究では深い学習がなされている。 本研究では,in-vivo hyperspectral laryngeal cancer 検出のためのディープラーニング技術について検討する。 この目的のために、2次元空間または3次元空間スペクトル畳み込みと最先端のDensenetアーキテクチャを組み合わせた畳み込みニューラルネットワーク(CNN)の設計と評価を行う。 評価には口腔・口腔咽頭HSIを用いたin-vivoデータセットを用いる。 総合的に,hsiに基づく生体内喉頭癌検出のための複数の深層学習手法を示し,空間領域とスペクトル領域からの共同学習により分類精度が向上することを示す。 我々の3D空間スペクトルDensenetの平均精度は81%である。

Early detection of head and neck tumors is crucial for patient survival. Often, diagnoses are made based on endoscopic examination of the larynx followed by biopsy and histological analysis, leading to a high inter-observer variability due to subjective assessment. In this regard, early non-invasive diagnostics independent of the clinician would be a valuable tool. A recent study has shown that hyperspectral imaging (HSI) can be used for non-invasive detection of head and neck tumors, as precancerous or cancerous lesions show specific spectral signatures that distinguish them from healthy tissue. However, HSI data processing is challenging due to high spectral variations, various image interferences, and the high dimensionality of the data. Therefore, performance of automatic HSI analysis has been limited and so far, mostly ex-vivo studies have been presented with deep learning. In this work, we analyze deep learning techniques for in-vivo hyperspectral laryngeal cancer detection. For this purpose we design and evaluate convolutional neural networks (CNNs) with 2D spatial or 3D spatio-spectral convolutions combined with a state-of-the-art Densenet architecture. For evaluation, we use an in-vivo data set with HSI of the oral cavity or oropharynx. Overall, we present multiple deep learning techniques for in-vivo laryngeal cancer detection based on HSI and we show that jointly learning from the spatial and spectral domain improves classification accuracy notably. Our 3D spatio-spectral Densenet achieves an average accuracy of 81%.
翻訳日:2022-12-11 07:43:29 公開日:2020-04-21
# 自閉症スペクトラム分類のための4次元fmriデータを用いた4次元時空間深層学習

4D Spatio-Temporal Deep Learning with 4D fMRI Data for Autism Spectrum Disorder Classification ( http://arxiv.org/abs/2004.10165v1 )

ライセンス: Link先を確認
Marcel Bengs and Nils Gessert and Alexander Schlaefer(参考訳) 自閉症スペクトラム障害(ASD)は行動やコミュニケーションの問題と関連している。 しばしば、機能的磁気共鳴イメージング(fMRI)は、疾患に関連する脳の変化を検出し、特徴づけるために用いられる。 近年,spatio-temporal fmri画像からasdを分類することで新しいパターンを明らかにする機械学習手法が採用されている。 通常、これらの手法は時空間情報処理に重点を置いている。 そこで我々は,空間的・時間的データから共同学習を行う,ASD分類のための4次元時空間深層学習手法を提案する。 我々は、4D畳み込みニューラルネットワークと畳み込みリカレントモデルを採用し、F1スコアが0.71、F1スコアが0.65、という従来のアプローチより優れている。

Autism spectrum disorder (ASD) is associated with behavioral and communication problems. Often, functional magnetic resonance imaging (fMRI) is used to detect and characterize brain changes related to the disorder. Recently, machine learning methods have been employed to reveal new patterns by trying to classify ASD from spatio-temporal fMRI images. Typically, these methods have either focused on temporal or spatial information processing. Instead, we propose a 4D spatio-temporal deep learning approach for ASD classification where we jointly learn from spatial and temporal data. We employ 4D convolutional neural networks and convolutional-recurrent models which outperform a previous approach with an F1-score of 0.71 compared to an F1-score of 0.65.
翻訳日:2022-12-11 07:43:08 公開日:2020-04-21
# 3次元行動認識のための深層学習分類器の組み合わせ

Combining Deep Learning Classifiers for 3D Action Recognition ( http://arxiv.org/abs/2004.10314v1 )

ライセンス: Link先を確認
Jan Sedmidubsky and Pavel Zezula(参考訳) 人間の3次元行動認識の一般的な課題は、ディープラーニング分類器の訓練によってほとんど解決される。 高い認識精度を達成するために、入力3Dアクションは様々な正規化や拡張技術によって前処理されることが多い。 しかし、与えられたデータセットに対する事前処理技術の最高のパフォーマンスのサブセットを選択するために、トレーニングデータの可能なバリエーションごとに分類器を訓練することは、計算的に不可能である。 本稿では,利用可能な前処理技術ごとに独立した分類器を訓練し,厳格な多数決ルールに基づいて分類結果を融合する手法を提案する。 提案手法を組み合わせることで,特定のデータセットに対する正規化と拡張手法の最適な組み合わせを効率的に決定できる。 最高のパフォーマンスの組み合わせのために、単一の分類器のみを訓練するために、正規化/拡張された入力データの変種を振り返って適用することができる。 これにより、単一のモデルをトレーニングする方がよいかどうか、あるいは独立した分類器のセットを決定することもできます。

The popular task of 3D human action recognition is almost exclusively solved by training deep-learning classifiers. To achieve a high recognition accuracy, the input 3D actions are often pre-processed by various normalization or augmentation techniques. However, it is not computationally feasible to train a classifier for each possible variant of training data in order to select the best-performing subset of pre-processing techniques for a given dataset. In this paper, we propose to train an independent classifier for each available pre-processing technique and fuse the classification results based on a strict majority vote rule. Together with a proposed evaluation procedure, we can very efficiently determine the best combination of normalization and augmentation techniques for a specific dataset. For the best-performing combination, we can retrospectively apply the normalized/augmented variants of input data to train only a single classifier. This also allows us to decide whether it is better to train a single model, or rather a set of independent classifiers.
翻訳日:2022-12-11 07:42:37 公開日:2020-04-21
# L-CO-Net:心内膜MRIによる臨床パラメータ推定のための学習型凝縮最適化ネットワーク

L-CO-Net: Learned Condensation-Optimization Network for Clinical Parameter Estimation from Cardiac Cine MRI ( http://arxiv.org/abs/2004.11253v1 )

ライセンス: Link先を確認
S. M. Kamrul Hasan, Cristian A. Linte(参考訳) 本研究では,学習群構造と正規化重みプリナーの両方を特徴とする完全畳み込みセグメンテーションを実装し,ボリューム画像セグメンテーションの計算コストを低減した。 心循環を通じて健常な1群と4群の病理組織を特徴とするACDCデータセットの枠組みを検証した。 本手法はDiceスコア96.8%(LV血液プール),93.3%(RV血液プール),90.0%(LV心筋)を5倍のクロスバリデーションで達成し,基礎的真理セグメンテーションデータと類似した臨床パラメータを得た。 これらの結果から, この技術は, 心的コンピュータ支援診断, 計画, ガイダンスの応用に使用できる, 効率的かつ競争力のある心画像分割ツールとなる可能性がある。

In this work, we implement a fully convolutional segmenter featuring both a learned group structure and a regularized weight-pruner to reduce the high computational cost in volumetric image segmentation. We validated our framework on the ACDC dataset featuring one healthy and four pathology groups imaged throughout the cardiac cycle. Our technique achieved Dice scores of 96.8% (LV blood-pool), 93.3% (RV blood-pool) and 90.0% (LV Myocardium) with five-fold cross-validation and yielded similar clinical parameters as those estimated from the ground truth segmentation data. Based on these results, this technique has the potential to become an efficient and competitive cardiac image segmentation tool that may be used for cardiac computer-aided diagnosis, planning, and guidance applications.
翻訳日:2022-12-11 07:42:22 公開日:2020-04-21
# 新型コロナウイルスと企業の知識グラフ:AI推論によるゴールデンパワーの評価と選択ロックダウンの経済的影響

COVID-19 and Company Knowledge Graphs: Assessing Golden Powers and Economic Impact of Selective Lockdown via AI Reasoning ( http://arxiv.org/abs/2004.10119v1 )

ライセンス: Link先を確認
Luigi Bellomarini, Marco Benedetti, Andrea Gentili, Rosario Laurendi, Davide Magnanimi, Antonio Muci, Emanuel Sallinger(参考訳) 新型コロナウイルス(covid-19)の感染拡大に伴い、政府は生産活動に段階的な制限を課し、戦略的あるいは不可欠なサービスを提供すると見なされるもののみを許可した。 これは特に、イタリアが主な例として、ウイルスによって苦しめられた国々で顕著である。 企業ネットワークを形成する、複雑な株主構造に組織化して、意思決定力と配当を、さまざまな目的のために洗練されたスキームで分配する。 人工知能(AI)ツールボックスのツールボックスは、多くのエンティティが相互に高度に相互接続しているのが特徴のドメインで推論タスクを実行するのに特に効果的である。 本研究は、新型コロナウイルスの感染拡大がイタリアの企業ネットワークに与える影響に対処し、戦略的企業の買収から保護するための法的手段の適用を支援するために、自動推論・知識グラフ技術の適用について、現在進行中の展望と報告を示す。

In the COVID-19 outbreak, governments have applied progressive restrictions to production activities, permitting only those that are considered strategic or that provide essential services. This is particularly apparent in countries that have been stricken hard by the virus, with Italy being a major example. Yet we know that companies are not just isolated entities: They organize themselves into intricate shareholding structures --- forming company networks --- distributing decision power and dividends in sophisticated schemes for various purposes. One tool from the Artificial Intelligence (AI) toolbox that is particularly effective to perform reasoning tasks on domains characterized by many entities highly interconnected with one another is Knowledge Graphs (KG). In this work, we present a visionary opinion and report on ongoing work about the application of Automated Reasoning and Knowledge Graph technology to address the impact of the COVID-19 outbreak on the network of Italian companies and support the application of legal instruments for the protection of strategic companies from takeovers.
翻訳日:2022-12-11 07:42:04 公開日:2020-04-21
# イマンドラ自動推論システム(システム記述)

The Imandra Automated Reasoning System (system description) ( http://arxiv.org/abs/2004.10263v1 )

ライセンス: Link先を確認
Grant Olney Passmore, Simon Cruanes, Denis Ignatovich, Dave Aitken, Matt Bray, Elijah Kagan, Kostya Kanishev, Ewen Maclean, and Nicola Mometto(参考訳) Imandraは、SMTのような決定手順、ACL2のようなBoier-Mooreファミリーの半自動帰納的プロデューサ、そして型付き高階論理の対話的証明アシスタントのギャップを埋めるために設計された、現代的な計算論理定理証明器である。 イマンドラの論理は計算であり、すべての関数が終端するocamlの純粋部分集合に基づいており、型や高階関数に制限があり、予想を算術やデータ型を含む理論を持つ多列一階述語論理に翻訳できる。 imandraには、境界付きおよび非境界型検証のシームレスな統合、ファーストクラスの計算可能なカウンター例、効率的な実行可能モデル、ライブマルチユーザコラボレーションをサポートするクラウドネイティブアーキテクチャなど、大規模な産業アプリケーションをサポートする新しい機能がある。 イマンドラの核となる推論機構は 一 上記の論理式において、再帰関数の遅延展開を中心とした式モデルを見つけるための半完全手順、及び (ii)多くのボイヤームーアのアイデアを型づけされた高階設定に「リフト」する帰納的ウォーターフォールと単純化。 これらのメカニズムは密に統合され、ユーザー制御の多くの形態に適用される。 Imandraのユーザインターフェースには、インタラクティブなトップレベル、Jupyterノートブック、VS Codeによる非同期ドキュメントベースの検証(IsabelleのProver IDEの精神)が含まれている。

We describe Imandra, a modern computational logic theorem prover designed to bridge the gap between decision procedures such as SMT, semi-automatic inductive provers of the Boyer-Moore family like ACL2, and interactive proof assistants for typed higher-order logics. Imandra's logic is computational, based on a pure subset of OCaml in which all functions are terminating, with restrictions on types and higher-order functions that allow conjectures to be translated into multi-sorted first-order logic with theories, including arithmetic and datatypes. Imandra has novel features supporting large-scale industrial applications, including a seamless integration of bounded and unbounded verification, first-class computable counterexamples, efficiently executable models and a cloud-native architecture supporting live multiuser collaboration. The core reasoning mechanisms of Imandra are (i) a semi-complete procedure for finding models of formulas in the logic mentioned above, centered around the lazy expansion of recursive functions, and (ii) an inductive waterfall and simplifier which "lifts" many Boyer-Moore ideas to our typed higher-order setting. These mechanisms are tightly integrated and subject to many forms of user control. Imandra's user interfaces include an interactive toplevel, Jupyter notebooks and asynchronous document-based verification (in the spirit of Isabelle's Prover IDE) with VS Code.
翻訳日:2022-12-11 07:41:43 公開日:2020-04-21
# Yelpユーザーの信頼できないレーティングレビューを検知するQuantine

Quarantine Deceiving Yelp's Users by Detecting Unreliable Rating Reviews ( http://arxiv.org/abs/2004.09721v1 )

ライセンス: Link先を確認
Viet Trinh, Vikrant More, Samira Zare, and Sheideh Homayon(参考訳) オンラインレビューは、消費者だけでなく企業にとっても、意思決定において価値ある重要なリソースとなっている。 信頼できるシステムがない場合は、高い人気と信頼できるインターネットユーザーをtrusted circleのメンバーとして想定する。 本稿では,Bridging Review Network(BRN)におけるレビュースパイク検出(RSD)アルゴリズムとスパム検出技術を併用したYelpのユーザを,抽出されたキー機能に基づいて隔離することに焦点を当てる。 Yelpのアカウントの80%以上が信頼できず、高い評価を受けたビジネスの80%以上がスパムにさらされていることがわかった。

Online reviews have become a valuable and significant resource, for not only consumers but companies, in decision making. In the absence of a trusted system, highly popular and trustworthy internet users will be assumed as members of the trusted circle. In this paper, we describe our focus on quarantining deceiving Yelp's users that employ both review spike detection (RSD) algorithm and spam detection technique in bridging review networks (BRN), on extracted key features. We found that more than 80% of Yelp's accounts are unreliable, and more than 80% of highly-rated businesses are subject to spamming.
翻訳日:2022-12-11 07:41:00 公開日:2020-04-21
# フェデレーション学習におけるモデル圧縮のための教師なし事前学習に基づく宝くじ仮説

Lottery Hypothesis based Unsupervised Pre-training for Model Compression in Federated Learning ( http://arxiv.org/abs/2004.09817v1 )

ライセンス: Link先を確認
Sohei Itahara, Takayuki Nishio, Masahiro Morikura and Koji Yamamoto(参考訳) フェデレートラーニング(FL)は、ニューラルネットワーク(NN)をモバイルデバイス上でプライバシに敏感なデータを使用してトレーニングし、ローカルストレージ上のすべてのデータを保持可能にする。 しかし、flはモバイルデバイスに対して、大量のnnモデルのアップロードとダウンロードとトレーニングを要求されるような、重い通信と計算タスクを実行するように要求する。 本稿では,モデル圧縮による通信コストと計算コストの削減を目的とした,FLに適応した教師なし事前学習手法を提案する。 通信コストと計算コストはNNモデルのボリュームに大きく依存するため、モデル性能を低下させることなくボリュームを削減できる。 提案手法は、ラベル付きデータよりも、インターネットやデータリポジトリから得られることが期待されるラベル付きデータを活用する。 提案手法の鍵となる考え方は, 抽選仮説に基づく未ラベルデータを用いて, 元のNNから `good'' サブネットワークを得ることである。 提案手法では,非ラベルデータを持つ有線オートエンコーダを用いてオリジナルモデルを訓練し,その原モデルの微小度パラメータを微調整し,小型だが良好なサブネットワークを生成する。 提案手法は画像分類タスクを用いて評価する。 提案手法は, ある試験精度を達成する場合, 従来の手法に比べて, トラヒックと計算時間を35%削減する。

Federated learning (FL) enables a neural network (NN) to be trained using privacy-sensitive data on mobile devices while retaining all the data on their local storages. However, FL asks the mobile devices to perform heavy communication and computation tasks, i.e., devices are requested to upload and download large-volume NN models and train them. This paper proposes a novel unsupervised pre-training method adapted for FL, which aims to reduce both the communication and computation costs through model compression. Since the communication and computation costs are highly dependent on the volume of NN models, reducing the volume without decreasing model performance can reduce these costs. The proposed pre-training method leverages unlabeled data, which is expected to be obtained from the Internet or data repository much more easily than labeled data. The key idea of the proposed method is to obtain a ``good'' subnetwork from the original NN using the unlabeled data based on the lottery hypothesis. The proposed method trains an original model using a denoising auto encoder with the unlabeled data and then prunes small-magnitude parameters of the original model to generate a small but good subnetwork. The proposed method is evaluated using an image classification task. The results show that the proposed method requires 35\% less traffic and computation time than previous methods when achieving a certain test accuracy.
翻訳日:2022-12-11 07:40:49 公開日:2020-04-21
# 偽ニュース検出のための適応型インタラクション融合ネットワーク

Adaptive Interaction Fusion Networks for Fake News Detection ( http://arxiv.org/abs/2004.10009v1 )

ライセンス: Link先を確認
Lianwei Wu and Yuan Rao(参考訳) フェイクニュース検出のための既存の手法の大半は、学習と検出のための様々な特徴の融合に集中している。 しかし、様々な特徴の学習は独立しており、ソーシャルメディア上の機能、特に投稿とコメント間の相互相互作用の融合が欠如している。 一般的に偽ニュースでは、投稿とコメントの間に感情的な関連や意味的な対立がある。 両者の相互作用をいかに表現し、融合するかは、重要な課題である。 本稿では,偽ニュース検出機能間の相互干渉融合を実現するために,AIFN(Adaptive Interaction Fusion Networks)を提案する。 AIFNでは、セマンティックコンフリクトを発見するために、適応的に類似したセマンティクスを捕捉し、投稿とコメント間のセマンティクスを競合させるゲート適応相互作用ネットワーク(GAIN)を設計する。 特徴関連性を確立するために,意味レベル融合自己注意ネットワーク(SFSN)を考案し,特徴間の意味的相関と融合を強化する。 RumourEval と PHEME の2つの実世界のデータセットに対する大規模な実験は、AIFN が最先端のパフォーマンスを達成し、それぞれ2.05% と 1.90% の精度を向上することを示した。

The majority of existing methods for fake news detection universally focus on learning and fusing various features for detection. However, the learning of various features is independent, which leads to a lack of cross-interaction fusion between features on social media, especially between posts and comments. Generally, in fake news, there are emotional associations and semantic conflicts between posts and comments. How to represent and fuse the cross-interaction between both is a key challenge. In this paper, we propose Adaptive Interaction Fusion Networks (AIFN) to fulfill cross-interaction fusion among features for fake news detection. In AIFN, to discover semantic conflicts, we design gated adaptive interaction networks (GAIN) to capture adaptively similar semantics and conflicting semantics between posts and comments. To establish feature associations, we devise semantic-level fusion self-attention networks (SFSN) to enhance semantic correlations and fusion among features. Extensive experiments on two real-world datasets, i.e., RumourEval and PHEME, demonstrate that AIFN achieves the state-of-the-art performance and boosts accuracy by more than 2.05% and 1.90%, respectively.
翻訳日:2022-12-11 07:35:10 公開日:2020-04-21
# エンドツーエンド音声翻訳のためのカリキュラム事前学習

Curriculum Pre-training for End-to-End Speech Translation ( http://arxiv.org/abs/2004.10093v1 )

ライセンス: Link先を確認
Chengyi Wang, Yu Wu, Shujie Liu, Ming Zhou and Zhenglu Yang(参考訳) エンドツーエンドの音声翻訳は、言語間意味論を同時に書き起こし、理解し、学習する必要があるため、エンコーダに大きな負担を負う。 強力なエンコーダを得るには、従来のASRデータで事前訓練して音声特徴をキャプチャする。 しかし,コーダの事前学習は音声認識だけでは不十分であり,高度な言語知識も考慮すべきである。 そこで本研究では,2つの言語における単語の発話とマッピングを理解するための,初等科目と2つの上級科目を含むカリキュラム事前学習手法を提案する。 これらのコースの難しさは徐々に増している。 実験の結果,カリキュラム事前学習手法は,En-De と En-Fr の音声翻訳ベンチマークを大幅に改善することがわかった。

End-to-end speech translation poses a heavy burden on the encoder, because it has to transcribe, understand, and learn cross-lingual semantics simultaneously. To obtain a powerful encoder, traditional methods pre-train it on ASR data to capture speech features. However, we argue that pre-training the encoder only through simple speech recognition is not enough and high-level linguistic knowledge should be considered. Inspired by this, we propose a curriculum pre-training method that includes an elementary course for transcription learning and two advanced courses for understanding the utterance and mapping words in two languages. The difficulty of these courses is gradually increasing. Experiments show that our curriculum pre-training method leads to significant improvements on En-De and En-Fr speech translation benchmarks.
翻訳日:2022-12-11 07:34:32 公開日:2020-04-21
# 野生における3次元人文推定の一般化に向けて

Towards Generalization of 3D Human Pose Estimation In The Wild ( http://arxiv.org/abs/2004.09989v1 )

ライセンス: Link先を確認
Renato Baptista, Alexandre Saint, Kassem Al Ismaeil, Djamila Aouada(参考訳) 本稿では,3次元ポーズ推定の課題に対処するデータセットである3dbodytex.poseを提案する。 野生画像への一般化は、十分なデータセットがないため、まだ限られている。 既存のものは通常、ヒトの3次元地平線アノテーションを得るためにモーションキャプチャシステムを使用する屋内制御環境で収集される。 3DBodyTex.Poseは、さまざまな衣服やポーズで405種類の実際の被写体を含む高品質でリッチなデータを提供する。 これらの画像は200の視点から生成され、70の極端な視点に挑戦する。 このデータは、高解像度テクスチャの3dボディスキャンから始まり、さまざまなリアルな背景を取り込んだものだ。 3DBodyTexを付加したデータを用いた最先端の3Dポーズ推定手法の訓練を行ったところ、全体的な性能は向上し、挑戦的な視点でテストした場合の関節位置誤差は合理的に減少した。 3DBodyTex.Poseは、単一眼内画像から3Dポーズ推定を一般化する新たな可能性を提供すると期待されている。

In this paper, we propose 3DBodyTex.Pose, a dataset that addresses the task of 3D human pose estimation in-the-wild. Generalization to in-the-wild images remains limited due to the lack of adequate datasets. Existent ones are usually collected in indoor controlled environments where motion capture systems are used to obtain the 3D ground-truth annotations of humans. 3DBodyTex.Pose offers high quality and rich data containing 405 different real subjects in various clothing and poses, and 81k image samples with ground-truth 2D and 3D pose annotations. These images are generated from 200 viewpoints among which 70 challenging extreme viewpoints. This data was created starting from high resolution textured 3D body scans and by incorporating various realistic backgrounds. Retraining a state-of-the-art 3D pose estimation approach using data augmented with 3DBodyTex.Pose showed promising improvement in the overall performance, and a sensible decrease in the per joint position error when testing on challenging viewpoints. The 3DBodyTex.Pose is expected to offer the research community with new possibilities for generalizing 3D pose estimation from monocular in-the-wild images.
翻訳日:2022-12-11 07:34:08 公開日:2020-04-21
# RGB-Dオブジェクト認識のためのモーダル間回転による教師なし領域適応

Unsupervised Domain Adaptation through Inter-modal Rotation for RGB-D Object Recognition ( http://arxiv.org/abs/2004.10016v1 )

ライセンス: Link先を確認
Mohammad Reza Loghmani, Luca Robbiano, Mirco Planamente, Kiru Park, Barbara Caputo and Markus Vincze(参考訳) Unsupervised Domain Adaptation (DA)はラベル豊富なソースデータセットの監視を利用して、2つのデータ分布を整列させてラベルのないターゲットデータセットの予測を行う。 ロボット工学では、DAは自動生成された合成データ、つまり「自由」アノテーションの利点を生かし、実データに対する効果的な予測を行う。 しかし、既存のDA法は、ロボットビジョンで広く使われているRGB-Dデータのマルチモーダルな性質に対処するためには設計されていない。 本稿では,RGBと深度画像間のモーダル関係を利用して,合成領域から実領域へのシフトを低減する新しいRGB-D DA法を提案する。 提案手法は,主認識タスクに加えて,RGBと深度画像の相対的回転を予測するプリテキストタスクである畳み込みニューラルネットワークを訓練することで解決する。 本手法の評価とさらなる研究を促進するため,オブジェクト分類とインスタンス認識のためのベンチマークデータセットを2つ定義する。 広範な実験により,RGB-D DAのモーダル間関係を利用する利点が示された。

Unsupervised Domain Adaptation (DA) exploits the supervision of a label-rich source dataset to make predictions on an unlabeled target dataset by aligning the two data distributions. In robotics, DA is used to take advantage of automatically generated synthetic data, that come with "free" annotation, to make effective predictions on real data. However, existing DA methods are not designed to cope with the multi-modal nature of RGB-D data, which are widely used in robotic vision. We propose a novel RGB-D DA method that reduces the synthetic-to-real domain shift by exploiting the inter-modal relation between the RGB and depth image. Our method consists of training a convolutional neural network to solve, in addition to the main recognition task, the pretext task of predicting the relative rotation between the RGB and depth image. To evaluate our method and encourage further research in this area, we define two benchmark datasets for object categorization and instance recognition. With extensive experiments, we show the benefits of leveraging the inter-modal relations for RGB-D DA.
翻訳日:2022-12-11 07:33:47 公開日:2020-04-21
# 4次元OCT画像データを用いた運動推定のための時空間深度学習法

Spatio-Temporal Deep Learning Methods for Motion Estimation Using 4D OCT Image Data ( http://arxiv.org/abs/2004.10114v1 )

ライセンス: Link先を確認
Marcel Bengs and Nils Gessert and Matthias Schl\"uter and Alexander Schlaefer(参考訳) 目的 外科手術中のナビゲーションにおいて,局所構造と特定の目標領域の動きを推定することが一般的な問題である。 光コヒーレンス断層撮影(OCT)は、特に眼科手術や人工内耳術の文脈において、術中画像撮影や運動推定に用いられている空間的・時間的解像度の高い画像モダリティである。 近年,従来の特徴量に基づく手法の欠点を克服するために,テンプレートと移動OCT画像間の動作推定を深層学習法を用いて研究している。 メソッド。 OCT画像ボリュームの時間的ストリームを用いることで、深層学習に基づく動き推定性能が向上するかどうかを検討する。 本研究では,3次元および4次元の深層学習手法の設計と評価を行い,新しい深層学習手法を提案する。 また,モデル出力における時間的正規化戦略を提案する。 結果だ 追加マーカーのない組織データセットを使用することで、4dデータを用いたディープラーニング手法が従来のアプローチを上回っています。 最も優れた4Dアーキテクチャは、従来の3Dディープラーニング手法の85.0%に比べて98.58%の相関係数(aCC)を達成する。 また,出力における時間的正規化戦略により,4次元モデルの性能は99.06%に向上した。 特に、4d法は大きな動きに対してうまく動作し,画像の回転や歪みに対して頑健である。 結論だ OCTに基づく動き推定のための4次元時空間深度学習を提案する。 組織データセットでは、モデル入力に4D情報を使用することで、合理的な推論時間を維持しながら、性能が向上することがわかった。 我々の正規化戦略は、モデル出力において追加の時間情報も有益であることを示す。

Purpose. Localizing structures and estimating the motion of a specific target region are common problems for navigation during surgical interventions. Optical coherence tomography (OCT) is an imaging modality with a high spatial and temporal resolution that has been used for intraoperative imaging and also for motion estimation, for example, in the context of ophthalmic surgery or cochleostomy. Recently, motion estimation between a template and a moving OCT image has been studied with deep learning methods to overcome the shortcomings of conventional, feature-based methods. Methods. We investigate whether using a temporal stream of OCT image volumes can improve deep learning-based motion estimation performance. For this purpose, we design and evaluate several 3D and 4D deep learning methods and we propose a new deep learning approach. Also, we propose a temporal regularization strategy at the model output. Results. Using a tissue dataset without additional markers, our deep learning methods using 4D data outperform previous approaches. The best performing 4D architecture achieves an correlation coefficient (aCC) of 98.58% compared to 85.0% of a previous 3D deep learning method. Also, our temporal regularization strategy at the output further improves 4D model performance to an aCC of 99.06%. In particular, our 4D method works well for larger motion and is robust towards image rotations and motion distortions. Conclusions. We propose 4D spatio-temporal deep learning for OCT-based motion estimation. On a tissue dataset, we find that using 4D information for the model input improves performance while maintaining reasonable inference times. Our regularization strategy demonstrates that additional temporal information is also beneficial at the model output.
翻訳日:2022-12-11 07:32:33 公開日:2020-04-21
# YOLOとK平均を用いた画像と点雲上の3次元物体検出法

YOLO and K-Means Based 3D Object Detection Method on Image and Point Cloud ( http://arxiv.org/abs/2004.11465v1 )

ライセンス: Link先を確認
Xuanyu YIN, Yoko SASAKI, Weimin WANG, Kentaro SHIMIZU(参考訳) ライダーに基づく3次元物体検出および分類タスクは自動走行(AD)に不可欠である。 lidarセンサは、周囲環境の3d点コードデータ再構成を提供することができる。 しかし、3dポイントクラウドにおける検出には強力なアルゴリズム的課題が必要である。 本論文は三部構成である。 1)ライダーカメラキャリブ。 (2)yolo, based detection and pointcloud extraction, (3) k-means based point cloud segmentation。 この研究では、カメラが画像をキャプチャして、yoloを使ってリアルタイムの2dオブジェクト検出を行い、lidarからポイントクラウドデータで3dオブジェクト検出を行うノードにバウンディングボックスを転送します。 3Dポイントから転送される2D座標がオブジェクトバウンディングボックス内か否かを比較し、k平均クラスタリングを行うことでGPUの高速3Dオブジェクト認識機能を実現する。

Lidar based 3D object detection and classification tasks are essential for automated driving(AD). A Lidar sensor can provide the 3D point coud data reconstruction of the surrounding environment. But the detection in 3D point cloud still needs a strong algorithmic challenge. This paper consists of three parts.(1)Lidar-camera calib. (2)YOLO, based detection and PointCloud extraction, (3) k-means based point cloud segmentation. In our research, Camera can capture the image to make the Real-time 2D Object Detection by using YOLO, I transfer the bounding box to node whose function is making 3d object detection on point cloud data from Lidar. By comparing whether 2D coordinate transferred from the 3D point is in the object bounding box or not, and doing a k-means clustering can achieve High-speed 3D object recognition function in GPU.
翻訳日:2022-12-11 07:25:33 公開日:2020-04-21
# YOLOとK平均を用いた画像・点雲の3次元物体検出法

3D Object Detection Method Based on YOLO and K-Means for Image and Point Clouds ( http://arxiv.org/abs/2005.02132v1 )

ライセンス: Link先を確認
Xuanyu Yin, Yoko Sasaki, Weimin Wang, Kentaro Shimizu(参考訳) lidarベースの3dオブジェクト検出および分類タスクは、自動運転(ad)に必須である。 lidarセンサーは、周囲の環境の3dポイントクラウドデータ再構成を提供することができる。 しかし、3Dポイントクラウドでのリアルタイム検出には強力なアルゴリズムが必要である。 本稿では,ポイントクラウドに基づく3次元物体検出法と,その部分からなる画像を提案する。 1)ライダーカメラキャリブレーションと歪み画像変換 2)YOLOによる検出とポイントクラウド抽出,(3)K平均の点雲分割と検出実験,深度画像の評価。 そこで本研究では, リアルタイム2次元物体検出を行うために, リアルタイム2次元物体検出をYOLOを用いて行うことにより, リダーから3次元物体検出を行う機能を持つノードにバウンディングボックスを転送する。 3dポイントから転送される2d座標がオブジェクトバウンディングボックス内であるかどうかを比較することで、gpuで高速3dオブジェクト認識機能を実現することができる。 ポイントクラウドでのk平均クラスタリングによって、精度と精度が損なわれる。 検出手法の速度はPointNetよりも高速である。

Lidar based 3D object detection and classification tasks are essential for autonomous driving(AD). A lidar sensor can provide the 3D point cloud data reconstruction of the surrounding environment. However, real time detection in 3D point clouds still needs a strong algorithmic. This paper proposes a 3D object detection method based on point cloud and image which consists of there parts.(1)Lidar-camera calibration and undistorted image transformation. (2)YOLO-based detection and PointCloud extraction, (3)K-means based point cloud segmentation and detection experiment test and evaluation in depth image. In our research, camera can capture the image to make the Real-time 2D object detection by using YOLO, we transfer the bounding box to node whose function is making 3d object detection on point cloud data from Lidar. By comparing whether 2D coordinate transferred from the 3D point is in the object bounding box or not can achieve High-speed 3D object recognition function in GPU. The accuracy and precision get imporved after k-means clustering in point cloud. The speed of our detection method is a advantage faster than PointNet.
翻訳日:2022-12-11 07:25:22 公開日:2020-04-21
# 自然言語検索性能向上のための認知検索パターンの活用

Leveraging Cognitive Search Patterns to Enhance Automated Natural Language Retrieval Performance ( http://arxiv.org/abs/2004.10035v1 )

ライセンス: Link先を確認
Bhawani Selvaretnam, Mohammed Belkhatir(参考訳) 大規模なテキストリポジトリにおける情報の検索は、いわゆるドキュメントクエリの語彙ギャップ、すなわち、保存されたドキュメントエンティティ内のコンテンツと、その一方で人間のクエリとの間の意味的不一致に悩まされている。 過去20年間、重要な研究機関が技術検索を進歩させ、いくつかの研究が人間の検索行動に関する問題に光を当ててきた。 私たちは、自動検索システムが人間の検索行動を完全にエミュレートする必要があるという意味で、これらの取り組みは結合されるべきであると信じており、ユーザが最初のクエリを段階的に強化する手順を考慮すべきである。 この目的のために、ユーザの検索行動を模倣する認知的再構成パターンを強調し、検索プロセスで採用された元の用語と統計的にコロケーションまたは語彙論的に関連づけられた強調語を強調する。 クエリ概念表現を考慮し,初期クエリの変更操作を可能にする操作セットを導入することで,これらのパターンの適用を形式化する。 遺伝的アルゴリズムに基づく重み付けプロセスでは、概念的役割タイプに応じて用語に重点を置くことができる。 関連度,言語,概念,知識に基づくモデルに対する実世界データセットの実験的評価を行った。 また,言語モデルや関連モデルと比較した場合,単語埋め込みに基づくモデルのインスタンス化よりも平均精度が向上することを示した。

The search of information in large text repositories has been plagued by the so-called document-query vocabulary gap, i.e. the semantic discordance between the contents in the stored document entities on the one hand and the human query on the other hand. Over the past two decades, a significant body of works has advanced technical retrieval prowess while several studies have shed light on issues pertaining to human search behavior. We believe that these efforts should be conjoined, in the sense that automated retrieval systems have to fully emulate human search behavior and thus consider the procedure according to which users incrementally enhance their initial query. To this end, cognitive reformulation patterns that mimic user search behaviour are highlighted and enhancement terms which are statistically collocated with or lexical-semantically related to the original terms adopted in the retrieval process. We formalize the application of these patterns by considering a query conceptual representation and introducing a set of operations allowing to operate modifications on the initial query. A genetic algorithm-based weighting process allows placing emphasis on terms according to their conceptual role-type. An experimental evaluation on real-world datasets against relevance, language, conceptual and knowledge-based models is conducted. We also show, when compared to language and relevance models, a better performance in terms of mean average precision than a word embedding-based model instantiation.
翻訳日:2022-12-11 07:25:08 公開日:2020-04-21
# Mirror Ritual:感情的自己回帰のための効果のあるインタフェース

Mirror Ritual: An Affective Interface for Emotional Self-Reflection ( http://arxiv.org/abs/2004.09685v1 )

ライセンス: Link先を確認
Nina Rajcic and Jon McCormack(参考訳) 本稿では,ユーザを感情状態の概念化のプロセスに巻き込む,リアルタイム感情インタフェースの新たな形態を紹介する。 バレットの「構成的感情の理論」に触発された「ミス・リトゥル」は、ユーザーのアクセス可能な感情概念を拡張し、最終的に感情的反射と規制を誘発することを目的としている。 インターフェースは、動的に詩を生成する基盤として、分類された感情(表情認識を通じて得られる)を使用する。 知覚された感情は、OpenAIのGPT-2モデルに基づいて、特別にキュレートされたコーパスに微調整された詩生成システムをシードするために使用される。 持続する期間にわたって、個人化された有意義なユーザー体験を育成する装置の能力を評価する。 質的分析により、参加者は鏡と情緒的に関わり、それぞれの参加者は自身の情緒的な風景の文脈で独自の詩解釈を発達させた。

This paper introduces a new form of real-time affective interface that engages the user in a process of conceptualisation of their emotional state. Inspired by Barrett's Theory of Constructed Emotion, `Mirror Ritual' aims to expand upon the user's accessible emotion concepts, and to ultimately provoke emotional reflection and regulation. The interface uses classified emotions -- obtained through facial expression recognition -- as a basis for dynamically generating poetry. The perceived emotion is used to seed a poetry generation system based on OpenAI's GPT-2 model, fine-tuned on a specially curated corpus. We evaluate the device's ability to foster a personalised, meaningful experience for individual users over a sustained period. A qualitative analysis revealed that participants were able to affectively engage with the mirror, with each participant developing a unique interpretation of its poetry in the context of their own emotional landscape.
翻訳日:2022-12-11 07:24:28 公開日:2020-04-21
# カオス変数の有界性評価

Characterizing Boundedness in Chase Variants ( http://arxiv.org/abs/2004.10030v1 )

ライセンス: Link先を確認
Stathis Delivorias, Michel Lecl\`ere, Marie-Laure Mugnier, Federico Ulliana(参考訳) 既存の規則は、関数のないホーン規則を一般化する一階述語論理の正の断片である。 この言語群は、オントロジーによるクエリ応答の文脈において、最近大きな関心を集めている。 フォワード・チェイン(フォワード・チェイン、フォワード・チェイン、フォワード・チェイン)は、知識基盤の普遍的なモデルを計算するための基本的なツールである。 いくつかのチェイス変種が定義されており、冗長性を扱う方法が異なる。 存在規則の組は、いかなる事実の組とも独立に、チェイスの深さに束縛が存在することを保証すれば、有界である。 ルールの集合が有界かどうかを決定することは、すべてのチェイス変種に対して決定不能な問題である。 それでも、普遍モデルを計算するとき、あるチェイス変種に対して規則の集合が有界であることを知ることは、境界が未知あるいは非常に大きいままである場合、実際にはあまり役に立たない。 そこで,与えられた規則集合に対するチェイスの深さが整数 k で有界かどうかを問う k-境界問題の決定可能性について検討する。 チェイス変量によって満たされた場合、k-有界性の決定可能性をもたらす一般的な性質を同定する。 次に、主なチェイス変種が、この性質を満たすことを示し、すなわち、曖昧で半曖昧な(別名Skolem)と制限されたチェイスと、その幅優先のバージョンである。 本稿では,論理プログラミングの理論と実践について考察する。

Existential rules are a positive fragment of first-order logic that generalizes function-free Horn rules by allowing existentially quantified variables in rule heads. This family of languages has recently attracted significant interest in the context of ontology-mediated query answering. Forward chaining, also known as the chase, is a fundamental tool for computing universal models of knowledge bases, which consist of existential rules and facts. Several chase variants have been defined, which differ on the way they handle redundancies. A set of existential rules is bounded if it ensures the existence of a bound on the depth of the chase, independently from any set of facts. Deciding if a set of rules is bounded is an undecidable problem for all chase variants. Nevertheless, when computing universal models, knowing that a set of rules is bounded for some chase variant does not help much in practice if the bound remains unknown or even very large. Hence, we investigate the decidability of the k-boundedness problem, which asks whether the depth of the chase for a given set of rules is bounded by an integer k. We identify a general property which, when satisfied by a chase variant, leads to the decidability of k-boundedness. We then show that the main chase variants satisfy this property, namely the oblivious, semi-oblivious (aka Skolem), and restricted chase, as well as their breadth-first versions. This paper is under consideration for publication in Theory and Practice of Logic Programming.
翻訳日:2022-12-11 07:23:46 公開日:2020-04-21
# pomdp_py: POMDP 問題の構築と解決のためのフレームワーク

pomdp_py: A Framework to Build and Solve POMDP Problems ( http://arxiv.org/abs/2004.10099v1 )

ライセンス: Link先を確認
Kaiyu Zheng, Stefanie Tellex(参考訳) 本稿では,python と cython で書かれた汎用部分可観測マルコフ決定プロセス (pomdp) ライブラリ pomdp_py を提案する。 既存のPOMDPライブラリは、基盤となるプログラミング言語やインターフェースのためにアクセシビリティと効率的なプロトタイピングを妨げることが多く、ロボットシステムとの統合にはソフトウェアツールチェーンの複雑さが増す。 pomdp_pyは、大規模な離散的または連続的(PO)MDP問題を記述可能な、シンプルで包括的なインターフェイスである。 本稿では,設計原則を要約し,pomdp_pyのプログラミングモデルとインターフェースについて詳述する。 また,このライブラリをros (robot operating system) と直感的に統合することで,ロボットが物体を3dで探索できることを示す。 最後に、POMDP計画等のためにこのライブラリを改善し拡張する方向性について述べる。

In this paper, we present pomdp_py, a general purpose Partially Observable Markov Decision Process (POMDP) library written in Python and Cython. Existing POMDP libraries often hinder accessibility and efficient prototyping due to the underlying programming language or interfaces, and require extra complexity in software toolchain to integrate with robotics systems. pomdp_py features simple and comprehensive interfaces capable of describing large discrete or continuous (PO)MDP problems. Here, we summarize the design principles and describe in detail the programming model and interfaces in pomdp_py. We also describe intuitive integration of this library with ROS (Robot Operating System), which enabled our torso-actuated robot to perform object search in 3D. Finally, we note directions to improve and extend this library for POMDP planning and beyond.
翻訳日:2022-12-11 07:23:19 公開日:2020-04-21
# クリックの最適化を超えて:ニュースレコメンデーションに編集価値を組み込む

Beyond Optimizing for Clicks: Incorporating Editorial Values in News Recommendation ( http://arxiv.org/abs/2004.09980v1 )

ライセンス: Link先を確認
Feng Lu, Anca Dumitrache, David Graus(参考訳) ニュース分野におけるアルゴリズムによるパーソナライゼーションの獲得により、ニュース機関は、以前編集責任と考えられていた自動システム、例えば読者へのニュースの優先順位付けをますます信頼するようになった。 本稿では,ニュース機関の編集価値の文脈において,自動ニュース推薦システムについて検討する。 我々は、ニュースレコメンデーションシステムを用いて、2つのオンライン研究を実施し、その1ヶ月半で1200人以上のユーザーが参加する。 最初の研究では、セレンディピティー、ダイナミズム、多様性、カバレッジといった編集価値の文脈で、私たちのニュースレコメンデーターがどのように行動を読むかを考察する。 次に,読者をよりダイナミックな読書行動に導くために,ニュースレコメンデータを拡張するための介入研究を行う。 私たちはそれを見つけ (i)レコメンダシステムは,非パーソナライズド編集ランキングに比べて読解行動が多様であり,記事のカバレッジも高い。 (ii)レコメンダシステムの精度を損なうことなく、読者をよりダイナミックな記事へと効果的に操る手法として、レコメンダシステムにおいてダイナミズムをうまく組み込むことが出来ます。

With the uptake of algorithmic personalization in the news domain, news organizations increasingly trust automated systems with previously considered editorial responsibilities, e.g., prioritizing news to readers. In this paper we study an automated news recommender system in the context of a news organization's editorial values. We conduct and present two online studies with a news recommender system, which span one and a half months and involve over 1,200 users. In our first study we explore how our news recommender steers reading behavior in the context of editorial values such as serendipity, dynamism, diversity, and coverage. Next, we present an intervention study where we extend our news recommender to steer our readers to more dynamic reading behavior. We find that (i) our recommender system yields more diverse reading behavior and yields a higher coverage of articles compared to non-personalized editorial rankings, and (ii) we can successfully incorporate dynamism in our recommender system as a re-ranking method, effectively steering our readers to more dynamic articles without hurting our recommender system's accuracy.
翻訳日:2022-12-11 07:22:44 公開日:2020-04-21
# TTNet:卓球の実時間・空間映像解析

TTNet: Real-time temporal and spatial video analysis of table tennis ( http://arxiv.org/abs/2004.09927v1 )

ライセンス: Link先を確認
Roman Voeikov, Nikolay Falaleev and Ruslan Baikulov(参考訳) 本稿では,高精細度卓球ビデオのリアルタイム処理を目的としたニューラルネットワークTTNetを提案し,時間的(イベントスポッティング)と空間的(ボール検出とセマンティックセグメンテーション)の両方のデータを提供する。 このアプローチは、自動参照システムによるスコア更新を推論するためのコア情報を提供する。 また,イベント,セマンティックセグメンテーションマスク,ボール座標をラベル付けした120fpsのテーブルテニスゲームのビデオ付きマルチタスクデータセットOpenTTGamesを公開し,高速なイベントの発見と小さなオブジェクト追跡を主目的としたマルチタスクアプローチの評価を行った。 ttnetは、ゲームイベントにおける97.0%の精度を示し、2ピクセルrmseでボール検出を行い、97.5%の精度を示した。 提案ネットワークでは,1つのコンシューマグレードGPUを持つマシン上で,入力テンソルあたり6ミリ秒未満の推論時間で,ダウンスケールされたフルHDビデオの処理を可能にする。 そこで,我々は,スポーツスカウトによる手作業データ収集の代替,審判の意思決定支援,ゲームプロセスに関する追加情報収集が可能な,リアルタイムのマルチタスク深層学習アプリケーションの開発と提示手法の開発に寄与している。

We present a neural network TTNet aimed at real-time processing of high-resolution table tennis videos, providing both temporal (events spotting) and spatial (ball detection and semantic segmentation) data. This approach gives core information for reasoning score updates by an auto-referee system. We also publish a multi-task dataset OpenTTGames with videos of table tennis games in 120 fps labeled with events, semantic segmentation masks, and ball coordinates for evaluation of multi-task approaches, primarily oriented on spotting of quick events and small objects tracking. TTNet demonstrated 97.0% accuracy in game events spotting along with 2 pixels RMSE in ball detection with 97.5% accuracy on the test part of the presented dataset. The proposed network allows the processing of downscaled full HD videos with inference time below 6 ms per input tensor on a machine with a single consumer-grade GPU. Thus, we are contributing to the development of real-time multi-task deep learning applications and presenting approach, which is potentially capable of substituting manual data collection by sports scouts, providing support for referees' decision-making, and gathering extra information about the game process.
翻訳日:2022-12-11 07:16:36 公開日:2020-04-21
# ParaCNN: 逆双対文脈CNNによるビジュアルパラグラフ生成

ParaCNN: Visual Paragraph Generation via Adversarial Twin Contextual CNNs ( http://arxiv.org/abs/2004.10258v1 )

ライセンス: Link先を確認
Shiyang Yan, Yang Hua, Neil Robertson(参考訳) 画像記述生成は、画像検索、自動ナビゲーション、障害者支援など、現実世界の多くのアプリケーションにおいて重要な役割を果たす。 画像記述生成のタスクは画像キャプションであり、通常は短いキャプション文を生成するため、微妙なオブジェクトの情報やそれらの関係などの細かな特性の多くを無視する。 本稿では,豊富な詳細を含む長い段落で画像を記述する視覚的段落生成について検討する。 従来の研究では、複雑な記憶、忘れ、結合機構を持つ階層的リカレントニューラルネットワーク(RNN)のようなモデルを用いて、しばしば項を生成する。 そこで我々は,文間の文脈情報を用いた階層型CNNアーキテクチャを用いて,新しい純粋CNNモデルであるParaCNNを提案する。 ParaCNNは段落の任意の長さを生成できるが、これは多くの現実世界の応用に応用できる。 さらに,パラcnn を包括的にモデル化できるようにするため,対向的ツインネットトレーニングスキームを提案する。 トレーニング中,私たちは,フォワードネットワークの隠れた特徴を,敵対的トレーニングを用いて後方ネットワークに近づけるように強制する。 テスト中は,すでに後方ネットワークの知識を含むフォワードネットワークのみを使用して段落を生成する。 スタンフォードの視覚パラグラフデータセットを広範囲に実験し,最先端のパフォーマンスを実現する。

Image description generation plays an important role in many real-world applications, such as image retrieval, automatic navigation, and disabled people support. A well-developed task of image description generation is image captioning, which usually generates a short captioning sentence and thus neglects many of fine-grained properties, e.g., the information of subtle objects and their relationships. In this paper, we study the visual paragraph generation, which can describe the image with a long paragraph containing rich details. Previous research often generates the paragraph via a hierarchical Recurrent Neural Network (RNN)-like model, which has complex memorising, forgetting and coupling mechanism. Instead, we propose a novel pure CNN model, ParaCNN, to generate visual paragraph using hierarchical CNN architecture with contextual information between sentences within one paragraph. The ParaCNN can generate an arbitrary length of a paragraph, which is more applicable in many real-world applications. Furthermore, to enable the ParaCNN to model paragraph comprehensively, we also propose an adversarial twin net training scheme. During training, we force the forwarding network's hidden features to be close to that of the backwards network by using adversarial training. During testing, we only use the forwarding network, which already includes the knowledge of the backwards network, to generate a paragraph. We conduct extensive experiments on the Stanford Visual Paragraph dataset and achieve state-of-the-art performance.
翻訳日:2022-12-11 07:15:17 公開日:2020-04-21
# 光学的画像合成

Panoptic-based Image Synthesis ( http://arxiv.org/abs/2004.10289v1 )

ライセンス: Link先を確認
Aysegul Dundar, Karan Sapra, Guilin Liu, Andrew Tao, Bryan Catanzaro(参考訳) 条件付き画像合成によるフォトリアリスティック画像の生成は、コンテンツ編集からコンテンツ生成への様々な応用に役立つ。 従来の条件付き画像合成アルゴリズムは、主にセマンティックマップに依存しており、複数のインスタンスが互いに干渉する複雑な環境で失敗することが多い。 本稿では,パンオプティカルマップ上で高忠実度かつフォトリアリスティックな画像を生成し,意味とインスタンス情報を統一するパンオプティカルイメージ合成ネットワークを提案する。 これを実現するために,畳み込み層とアップサンプリング層でpanopticマップを効率的に利用する。 提案したジェネレータの変更により, 複雑なインスタンス相互作用環境において, より忠実で細かなオブジェクトをより詳細に生成することにより, 従来の最先端手法を改良できることを示す。 さらに,提案手法は,IoU (Intersection over Union) とdetAP (Detection Average Precision) の計測値において,従来の最先端手法よりも優れていた。

Conditional image synthesis for generating photorealistic images serves various applications for content editing to content generation. Previous conditional image synthesis algorithms mostly rely on semantic maps, and often fail in complex environments where multiple instances occlude each other. We propose a panoptic aware image synthesis network to generate high fidelity and photorealistic images conditioned on panoptic maps which unify semantic and instance information. To achieve this, we efficiently use panoptic maps in convolution and upsampling layers. We show that with the proposed changes to the generator, we can improve on the previous state-of-the-art methods by generating images in complex instance interaction environments in higher fidelity and tiny objects in more details. Furthermore, our proposed method also outperforms the previous state-of-the-art methods in metrics of mean IoU (Intersection over Union), and detAP (Detection Average Precision).
翻訳日:2022-12-11 07:14:53 公開日:2020-04-21
# サッカーにおける軌跡・映像データからのグループ活動検出

Group Activity Detection from Trajectory and Video Data in Soccer ( http://arxiv.org/abs/2004.10299v1 )

ライセンス: Link先を確認
Ryan Sanford, Siavash Gorji, Luiz G. Hafemann, Bahareh Pourbabaee, Mehrsan Javan(参考訳) サッカーにおけるグループアクティビティ検出は、ビデオデータまたはプレーヤとボールの軌跡データを用いて行うことができる。 現在のサッカー活動データセットでは、活動は時間なしで原子イベントとしてラベル付けされる。 最先端のアクティビティ検出手法がアトミックアクションに対して十分に定義されていないため、これらの手法は使用できない。 本研究では,このような事象を検出するための活動認識モデルの有効性を,直感的な非最大抑制プロセスと評価指標を用いて評価した。 また,選手とボールの相互作用を明示的にモデル化する問題も検討した。 そこで本研究では,サッカー選手のグループから関連する情報を学習し抽出し,軌道データと映像データの両方から活動検出を行うセルフアテンションモデルを提案する。 本研究では,スポーツにおけるグループ活動検出における視覚的特徴と軌跡データの利用について,Sportlogiqが提供する大規模サッカーデータセットを用いて検討した。 その結果,ほとんどの事象は,時間分解能が0.5秒未満の視覚や軌跡に基づくアプローチで検出でき,それぞれに固有の課題があることが判明した。

Group activity detection in soccer can be done by using either video data or player and ball trajectory data. In current soccer activity datasets, activities are labelled as atomic events without a duration. Given that the state-of-the-art activity detection methods are not well-defined for atomic actions, these methods cannot be used. In this work, we evaluated the effectiveness of activity recognition models for detecting such events, by using an intuitive non-maximum suppression process and evaluation metrics. We also considered the problem of explicitly modeling interactions between players and ball. For this, we propose self-attention models to learn and extract relevant information from a group of soccer players for activity detection from both trajectory and video data. We conducted an extensive study on the use of visual features and trajectory data for group activity detection in sports using a large scale soccer dataset provided by Sportlogiq. Our results show that most events can be detected using either vision or trajectory-based approaches with a temporal resolution of less than 0.5 seconds, and that each approach has unique challenges.
翻訳日:2022-12-11 07:14:36 公開日:2020-04-21
# セマンティックセグメンテーションのための適応型クラス重み付き多視点自己構築グラフ畳み込みネットワーク

Multi-view Self-Constructing Graph Convolutional Networks with Adaptive Class Weighting Loss for Semantic Segmentation ( http://arxiv.org/abs/2004.10327v1 )

ライセンス: Link先を確認
Qinghui Liu, Michael Kampffmeyer, Robert Jenssen, Arnt-B{\o}rre Salberg(参考訳) セマンティックセグメンテーションのためのMulti-view Self-Constructing Graph Convolutional Networks (MSCG-Net) と呼ばれる新しいアーキテクチャを提案する。 最近提案された自己構築グラフ(SCG)モジュールをベースとして,学習可能な潜伏変数を用いて,手動で構築した事前知識グラフに頼ることなく,入力機能から直接グラフを自己構築する。 さらに,クラス不均衡に対処するための適応型クラス重み付け損失も開発する。 提案手法の有効性と柔軟性を農耕・農耕課題データセットに示すとともに,本モデルでは,パラメータの少ない競争結果(0.547 mIoU)を,関連する純CNNベースの作業と比較して計算コストの低い方法で達成する。 コードはgithub.com/samleoqh/mscg-netで入手できる。

We propose a novel architecture called the Multi-view Self-Constructing Graph Convolutional Networks (MSCG-Net) for semantic segmentation. Building on the recently proposed Self-Constructing Graph (SCG) module, which makes use of learnable latent variables to self-construct the underlying graphs directly from the input features without relying on manually built prior knowledge graphs, we leverage multiple views in order to explicitly exploit the rotational invariance in airborne images. We further develop an adaptive class weighting loss to address the class imbalance. We demonstrate the effectiveness and flexibility of the proposed method on the Agriculture-Vision challenge dataset and our model achieves very competitive results (0.547 mIoU) with much fewer parameters and at a lower computational cost compared to related pure-CNN based work. Code will be available at: github.com/samleoqh/MSCG-Net
翻訳日:2022-12-11 07:14:19 公開日:2020-04-21
# iWildCam 2020のコンペティションデータセット

The iWildCam 2020 Competition Dataset ( http://arxiv.org/abs/2004.10340v1 )

ライセンス: Link先を確認
Sara Beery, Elijah Cole, Arvi Gjoka(参考訳) カメラトラップは大量の画像データの自動収集を可能にする。 世界中の生物学者は、動物集団を監視するためにカメラトラップを使用します。 我々は最近,カメラトラップ画像における自動種分類への取り組みを進めている。 しかし、これらのモデルの地理的範囲を拡大しようとすると、興味深い疑問に直面している。新しい(トレーニング中に見えない)カメラトラップロケーションでうまく機能するモデルをトレーニングするには、どうすればよいのか? 市民科学データやリモートセンシングデータなど、他のモダリティからのデータを活用できますか? この問題に対処するため,我々は,トレーニングデータとテストデータは世界中に広がる異なるカメラからのものであるという課題に備えた。 各カメラに対して、カメラの位置と結びついた一連のリモートセンシング画像を提供する。 また、私たちのデータに見られる種の集合から市民科学の画像も提供します。 挑戦は、テストカメラトラップの種を正しく分類することである。

Camera traps enable the automatic collection of large quantities of image data. Biologists all over the world use camera traps to monitor animal populations. We have recently been making strides towards automatic species classification in camera trap images. However, as we try to expand the geographic scope of these models we are faced with an interesting question: how do we train models that perform well on new (unseen during training) camera trap locations? Can we leverage data from other modalities, such as citizen science data and remote sensing data? In order to tackle this problem, we have prepared a challenge where the training data and test data are from different cameras spread across the globe. For each camera, we provide a series of remote sensing imagery that is tied to the location of the camera. We also provide citizen science imagery from the set of species seen in our data. The challenge is to correctly classify species in the test camera traps.
翻訳日:2022-12-11 07:13:41 公開日:2020-04-21
# 歩行者の歩行経路に対する非自己回帰的予測

Take a NAP: Non-Autoregressive Prediction for Pedestrian Trajectories ( http://arxiv.org/abs/2004.09760v1 )

ライセンス: Link先を確認
Hao Xue, Du. Q. Huynh and Mark Reynolds(参考訳) 歩行者の軌道予測は、他の歩行者からの社会的影響、シーンの制約、そして予測の多様(多様)な性質という3つの特徴に対処する必要があるため、難しい課題である。 既存の手法はこれらの重要な特性を探索しているが、これらの手法の予測プロセスは自己回帰的である。 つまり、将来の位置を逐次予測できるだけだ。 本稿では,軌道予測のための非自己回帰手法であるNAPを提案する。 本手法は,上記3つの特性を扱うために,特徴エンコーダと潜在変数生成器を設計した。 時間に依存しないコンテキストジェネレータと、非回帰予測のための時間固有のコンテキストジェネレータも備えている。 NAPと最近のいくつかの手法を比較する広範な実験を通して、NAPは最先端の軌道予測性能を有することを示す。

Pedestrian trajectory prediction is a challenging task as there are three properties of human movement behaviors which need to be addressed, namely, the social influence from other pedestrians, the scene constraints, and the multimodal (multiroute) nature of predictions. Although existing methods have explored these key properties, the prediction process of these methods is autoregressive. This means they can only predict future locations sequentially. In this paper, we present NAP, a non-autoregressive method for trajectory prediction. Our method comprises specifically designed feature encoders and a latent variable generator to handle the three properties above. It also has a time-agnostic context generator and a time-specific context generator for non-autoregressive prediction. Through extensive experiments that compare NAP against several recent methods, we show that NAP has state-of-the-art trajectory prediction performance.
翻訳日:2022-12-11 07:06:41 公開日:2020-04-21
# スケルトンに基づく行動認識のための時空間双対アフィン微分不変量

Spatio-Temporal Dual Affine Differential Invariant for Skeleton-based Action Recognition ( http://arxiv.org/abs/2004.09802v1 )

ライセンス: Link先を確認
Qi Li, Hanlin Mo, Jinghan Zhao, Hongxiang Hao and Hua Li(参考訳) 人間の骨格のダイナミクスは、行動認識のタスクに重要な情報を持っている。 対応する関節の軌跡間の類似性は同じ作用を示す特徴であるが、この類似性は空間的アフィン変換と時間的アフィン変換の組み合わせとしてモデル化できるいくつかの歪みを含む可能性がある。 本研究では,時空間双対アフィン微分不変量(stdadi)と呼ばれる新しい特徴を提案する。 さらに,ニューラルネットワークの一般化能力を向上させるために,チャネル拡張法を提案する。 大規模行動認識データセットであるNTU-RGB+Dと、その拡張版であるNTU-RGB+D 120では、従来の最先端手法よりも大幅に改善されている。

The dynamics of human skeletons have significant information for the task of action recognition. The similarity between trajectories of corresponding joints is an indicating feature of the same action, while this similarity may subject to some distortions that can be modeled as the combination of spatial and temporal affine transformations. In this work, we propose a novel feature called spatio-temporal dual affine differential invariant (STDADI). Furthermore, in order to improve the generalization ability of neural networks, a channel augmentation method is proposed. On the large scale action recognition dataset NTU-RGB+D, and its extended version NTU-RGB+D 120, it achieves remarkable improvements over previous state-of-the-art methods.
翻訳日:2022-12-11 07:05:52 公開日:2020-04-21
# AMC-Loss: 画像分類における説明可能性向上のためのAngular Margin Contrastive Loss

AMC-Loss: Angular Margin Contrastive Loss for Improved Explainability in Image Classification ( http://arxiv.org/abs/2004.09805v1 )

ライセンス: Link先を確認
Hongjun Choi, Anirudh Som and Pavan Turaga(参考訳) 分類問題に対するディープラーニングアーキテクチャは、しばしば中心損失、対照的な損失、三重項損失などの補助的損失関数を補助するクロスエントロピー損失を含む。 これらの補助損失関数は、異なる関心のクラス間のより良い識別を促進する。 しかし、近年の研究は、これらの損失関数が低レベルおよび高レベルの特徴表現によって示される固有角分布を考慮していないことを示唆している。 これにより、同じクラスからのサンプル間のコンパクトさが低下し、異なるクラスのデータクラスタ間の境界が明確になる。 本稿では、リーマン幾何学に根ざした幾何学的制約の利用を提案し、この問題に対処する。 具体的には,従来のクロスエントロピー損失と合わせて,新たな損失関数であるAngular Margin Contrastive Loss (AMC-Loss)を提案する。 AMC-ロスは、超球面多様体上の測地線距離と同値である識別角距離計量を用いて、明確な幾何学的解釈を提供することができる。 定量的および定性的な結果を提供することにより,AMC-Lossの有効性を示す。 提案した幾何的制約付き損失関数は定量的な結果を適度に改善するが,Grad-CAMのような手法による視覚的説明で見られるように,ディープネット決定の解釈可能性を高めるには,質的に驚くほど有益であることがわかった。 私たちのコードはhttps://github.com/hchoi71/AMC-Lossで利用可能です。

Deep-learning architectures for classification problems involve the cross-entropy loss sometimes assisted with auxiliary loss functions like center loss, contrastive loss and triplet loss. These auxiliary loss functions facilitate better discrimination between the different classes of interest. However, recent studies hint at the fact that these loss functions do not take into account the intrinsic angular distribution exhibited by the low-level and high-level feature representations. This results in less compactness between samples from the same class and unclear boundary separations between data clusters of different classes. In this paper, we address this issue by proposing the use of geometric constraints, rooted in Riemannian geometry. Specifically, we propose Angular Margin Contrastive Loss (AMC-Loss), a new loss function to be used along with the traditional cross-entropy loss. The AMC-Loss employs the discriminative angular distance metric that is equivalent to geodesic distance on a hypersphere manifold such that it can serve a clear geometric interpretation. We demonstrate the effectiveness of AMC-Loss by providing quantitative and qualitative results. We find that although the proposed geometrically constrained loss-function improves quantitative results modestly, it has a qualitatively surprisingly beneficial effect on increasing the interpretability of deep-net decisions as seen by the visual explanations generated by techniques such as the Grad-CAM. Our code is available at https://github.com/hchoi71/AMC-Loss.
翻訳日:2022-12-11 07:05:38 公開日:2020-04-21
# 構造特徴と3次元位相相関に基づく空中画像とLiDARデータの高速かつロバストな登録

Fast and Robust Registration of Aerial Images and LiDAR data Based on Structrual Features and 3D Phase Correlation ( http://arxiv.org/abs/2004.09811v1 )

ライセンス: Link先を確認
Bai Zhu, Yuanxin Ye, Chao Yang, Liang Zhou, Huiyu Liu, Yungang Cao(参考訳) 航空画像とLiDAR(Light Detection and Ranging)データの同時登録は、異なる画像機構がこれらのデータ間の幾何的および放射的歪みを著しく引き起こすため、難しい。 そこで本研究では,構造的特徴と3次元位相相関に基づく自動登録手法を提案する。 提案手法では,LiDAR点雲データをまずインテンシティマップに変換し,参照画像として利用する。 次に,Fast演算子を用いて,分割戦略により空中画像中の一様分布の利子点を抽出し,コリニアリティ方程式を用いて局所的幾何補正を行い,画像間のスケールと回転差を除去する。 その後、高密度勾配特徴に基づいてロバストな構造特徴記述子を構築し、3D高速フーリエ変換(FFT)により画像マッチングが加速される周波数領域における航空画像とLiDARデータの制御点(CP)を検出するために、3D位相相関を用いる。 最後に、得られたCPを用いて外向き要素を補正し、航空画像とLiDARデータの同時登録を実現する。 空中画像とLiDARデータの2つのデータセットによる実験により、提案手法は最先端技術よりもはるかに高速で堅牢であることが示された。

Co-Registration of aerial imagery and Light Detection and Ranging (LiDAR) data is quilt challenging because the different imaging mechanism causes significant geometric and radiometric distortions between such data. To tackle the problem, this paper proposes an automatic registration method based on structural features and three-dimension (3D) phase correlation. In the proposed method, the LiDAR point cloud data is first transformed into the intensity map, which is used as the reference image. Then, we employ the Fast operator to extract uniformly distributed interest points in the aerial image by a partition strategy and perform a local geometric correction by using the collinearity equation to eliminate scale and rotation difference between images. Subsequently, a robust structural feature descriptor is build based on dense gradient features, and the 3D phase correlation is used to detect control points (CPs) between aerial images and LiDAR data in the frequency domain, where the image matching is accelerated by the 3D Fast Fourier Transform (FFT). Finally, the obtained CPs are employed to correct the exterior orientation elements, which is used to achieve co-registration of aerial images and LiDAR data. Experiments with two datasets of aerial images and LiDAR data show that the proposed method is much faster and more robust than state of the art methods
翻訳日:2022-12-11 07:05:13 公開日:2020-04-21
# tal EmotioNet Challenge 2020 - マルチタスク学習におけるモデル選択問題の再考

TAL EmotioNet Challenge 2020 Rethinking the Model Chosen Problem in Multi-Task Learning ( http://arxiv.org/abs/2004.09862v1 )

ライセンス: Link先を確認
Pengcheng Wang, Zihao Wang, Zhilong Ji, Xiao Liu, Songfan Yang and Zhongqin Wu(参考訳) 本稿では,EmotioNet Challenge 2020への私たちのアプローチを紹介する。 我々は、AU認識問題をマルチタスク学習問題として、非剛性顔面筋運動(主に最初の17AUs)と剛性頭部運動(最後の6AUs)を別々にモデル化する。 表情特徴と頭部ポーズ特徴の共起について検討した。 異なるAUが様々な速度で収束することを観察する。 au毎に最適なチェックポイントを選択することにより、認識結果が向上する。 検証セットで0.746、チャレンジのテストセットで0.7306の最終的なスコアを得ることができます。

This paper introduces our approach to the EmotioNet Challenge 2020. We pose the AU recognition problem as a multi-task learning problem, where the non-rigid facial muscle motion (mainly the first 17 AUs) and the rigid head motion (the last 6 AUs) are modeled separately. The co-occurrence of the expression features and the head pose features are explored. We observe that different AUs converge at various speed. By choosing the optimal checkpoint for each AU, the recognition results are improved. We are able to obtain a final score of 0.746 in validation set and 0.7306 in the test set of the challenge.
翻訳日:2022-12-11 07:04:32 公開日:2020-04-21
# 遠方教師付き関係抽出における力向グラフとの学習関係

Learning Relation Ties with a Force-Directed Graph in Distant Supervised Relation Extraction ( http://arxiv.org/abs/2004.10051v1 )

ライセンス: Link先を確認
Yuming Shang, Heyan Huang, Xin Sun, Xianling Mao(参考訳) 相互関係の相関関係と相互排他関係として定義される関係関係は、遠方の教師付き関係抽出において重要である。 既存のアプローチは、局所的な依存関係を丁寧に学習することで、この特性をモデル化する。 しかし、それらは本質的には関係関係のグローバルなトポロジー構造を捉えないことによって制限される。 結果として、それらは容易に局所最適解に陥る。 そこで,本稿では,関係関係を包括的に学習する新しい力によるグラフベース関係抽出モデルを提案する。 具体的には、まずグローバルな関係の共起に従ってグラフを構築する。 次に、クーロンの法則を物理学から借用し、このグラフに魅力的な力と反発力の概念を導入し、相関関係と相互排他関係を学習する。 最後に、得られた関係表現を相互依存関係分類器として適用する。 大規模ベンチマークデータセットによる実験結果から,我々のモデルはグローバルな関係関係をモデル化し,他のベースラインを著しく上回ることを示す。 さらに,提案する力向グラフは,既存の関係抽出システムを強化し,その性能を向上させるためのモジュールとして使用できる。

Relation ties, defined as the correlation and mutual exclusion between different relations, are critical for distant supervised relation extraction. Existing approaches model this property by greedily learning local dependencies. However, they are essentially limited by failing to capture the global topology structure of relation ties. As a result, they may easily fall into a locally optimal solution. To solve this problem, in this paper, we propose a novel force-directed graph based relation extraction model to comprehensively learn relation ties. Specifically, we first build a graph according to the global co-occurrence of relations. Then, we borrow the idea of Coulomb's Law from physics and introduce the concept of attractive force and repulsive force to this graph to learn correlation and mutual exclusion between relations. Finally, the obtained relation representations are applied as an inter-dependent relation classifier. Experimental results on a large scale benchmark dataset demonstrate that our model is capable of modeling global relation ties and significantly outperforms other baselines. Furthermore, the proposed force-directed graph can be used as a module to augment existing relation extraction systems and improve their performance.
翻訳日:2022-12-11 06:57:27 公開日:2020-04-21
# 騒音・騒音を考慮した教師なしオピニオン要約

Unsupervised Opinion Summarization with Noising and Denoising ( http://arxiv.org/abs/2004.10150v1 )

ライセンス: Link先を確認
Reinald Kim Amplayo and Mirella Lapata(参考訳) 数十万の文書-要約ペアを含む大規模データセット上での高容量モデルの教師付きトレーニングは、抽象的要約のためのディープラーニング技術の最近の成功に不可欠である。 残念なことに、ほとんどのドメイン(ニュース以外の)では、そのようなトレーニングデータは利用できず、容易にソース化できない。 本稿では,真理の要約を使わずに,利用可能なドキュメント(~製品やビジネスレビューなど)のみを設定できる教師あり学習の利用を可能にする。 ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、擬似レビュー入力として扱うノイズのあるバージョンを生成する。 本稿では,言語的に動機づけた雑音生成機能と,入力を識別し,元のレビューを生成する要約モデルを紹介する。 テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱う。 広範な自動評価と人的評価により,本モデルが抽象ベースラインと抽出ベースラインの両方に対して大幅に改善することが示された。

The supervised training of high-capacity models on large datasets containing hundreds of thousands of document-summary pairs is critical to the recent success of deep learning techniques for abstractive summarization. Unfortunately, in most domains (other than news) such training data is not available and cannot be easily sourced. In this paper we enable the use of supervised learning for the setting where there are only documents available (e.g.,~product or business reviews) without ground truth summaries. We create a synthetic dataset from a corpus of user reviews by sampling a review, pretending it is a summary, and generating noisy versions thereof which we treat as pseudo-review input. We introduce several linguistically motivated noise generation functions and a summarization model which learns to denoise the input and generate the original review. At test time, the model accepts genuine reviews and generates a summary containing salient opinions, treating those that do not reach consensus as noise. Extensive automatic and human evaluation shows that our model brings substantial improvements over both abstractive and extractive baselines.
翻訳日:2022-12-11 06:56:58 公開日:2020-04-21
# 多言語非教師付きニューラルマシン翻訳のための知識蒸留

Knowledge Distillation for Multilingual Unsupervised Neural Machine Translation ( http://arxiv.org/abs/2004.10171v1 )

ライセンス: Link先を確認
Haipeng Sun, Rui Wang, Kehai Chen, Masao Utiyama, Eiichiro Sumita, and Tiejun Zhao(参考訳) unsupervised neural machine translation (unmt)は、最近いくつかの言語ペアで顕著な結果を得ている。 しかし、単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。 つまり、多言語UNMTの研究は限られている。 本論文では,1つのエンコーダと1つのデコーダを用いて13の言語を翻訳する簡単な手法を実証的に導入し,多言語データを用いてすべての言語ペアに対してUNMTを改善する。 実験結果に基づき,多言語unmtの性能をさらに高めるための2つの知識蒸留法を提案する。 英語を翻訳したデータセット(3つの言語ファミリーと6つの言語ブランチを含む)による実験は、教師なし言語ペア間の有望なパフォーマンスを達成しつつ、低リソース言語ペアにおける性能の低下を軽減しつつ、強い教師なしの個人ベースラインを越え、顕著な結果を示した。

Unsupervised neural machine translation (UNMT) has recently achieved remarkable results for several language pairs. However, it can only translate between a single language pair and cannot produce translation results for multiple language pairs at the same time. That is, research on multilingual UNMT has been limited. In this paper, we empirically introduce a simple method to translate between thirteen languages using a single encoder and a single decoder, making use of multilingual data to improve UNMT for all language pairs. On the basis of the empirical findings, we propose two knowledge distillation methods to further enhance multilingual UNMT performance. Our experiments on a dataset with English translated to and from twelve other languages (including three language families and six language branches) show remarkable results, surpassing strong unsupervised individual baselines while achieving promising performance between non-English language pairs in zero-shot translation scenarios and alleviating poor performance in low-resource language pairs.
翻訳日:2022-12-11 06:56:26 公開日:2020-04-21
# アノテーションの観察

Observations on Annotations ( http://arxiv.org/abs/2004.10283v1 )

ライセンス: Link先を確認
Georg Rehm(参考訳) テキスト情報の注釈は言語学と計算言語学の基本的な活動である。 本稿ではアノテーションに関する様々な観察について述べる。 ハイパーテキスト、計算言語学、言語技術、人工知能、オープンサイエンスなど、いくつかの角度からこのトピックにアプローチしている。 アノテーションは異なる次元で調べることができる。 複雑さの観点では、実験から標準化までの成熟度の観点から、それらは自明なものから高度に洗練されたものまで様々である。 アノテーションはもっと抽象的なアノテーションを使ってアノテートすることができる。 テキスト文書のような一次研究データは、独立したが多層クエリを使って活用できる異なる層に同時に注釈を付けることができる。 標準はデータセットの相互運用性と再利用性を保証する。 この章は4つの最終的な観察で締めくくられ、研究疑問やむしろアノテーション研究の現状に関する挑発的な発言として定式化されている。

The annotation of textual information is a fundamental activity in Linguistics and Computational Linguistics. This article presents various observations on annotations. It approaches the topic from several angles including Hypertext, Computational Linguistics and Language Technology, Artificial Intelligence and Open Science. Annotations can be examined along different dimensions. In terms of complexity, they can range from trivial to highly sophisticated, in terms of maturity from experimental to standardised. Annotations can be annotated themselves using more abstract annotations. Primary research data such as, e.g., text documents can be annotated on different layers concurrently, which are independent but can be exploited using multi-layer querying. Standards guarantee interoperability and reusability of data sets. The chapter concludes with four final observations, formulated as research questions or rather provocative remarks on the current state of annotation research.
翻訳日:2022-12-11 06:56:09 公開日:2020-04-21
# サービスコールの感性分析のための深層学習システム

A Deep Learning System for Sentiment Analysis of Service Calls ( http://arxiv.org/abs/2004.10320v1 )

ライセンス: Link先を確認
Yanan Jia and Sony SungChu(参考訳) 感覚分析は人工知能(AI)の発展に不可欠である。 感覚理解は、AIが人間の言語と会話を再現するのに役立ちます。 十分に訓練された顧客サービス代表者(CSR)から感情状態の生成と反応を研究することは、人間とAIの相互作用をよりインテリジェントにするのに役立つ。 本稿では,実世界の多人数会話,すなわちサービスコールに関して,感情分析パイプラインを最初に実施する。 音源情報から抽出した音響的・言語的特徴に基づき、音声感情認識フレームワークのための新しい集計手法を構築した。 コミュニケーション中の各当事者の感情パターンを、すべての当事者間の対話感情パターンとともに検討する。

Sentiment analysis is crucial for the advancement of artificial intelligence (AI). Sentiment understanding can help AI to replicate human language and discourse. Studying the formation and response of sentiment state from well-trained Customer Service Representatives (CSRs) can help make the interaction between humans and AI more intelligent. In this paper, a sentiment analysis pipeline is first carried out with respect to real-world multi-party conversations - that is, service calls. Based on the acoustic and linguistic features extracted from the source information, a novel aggregated method for voice sentiment recognition framework is built. Each party's sentiment pattern during the communication is investigated along with the interaction sentiment pattern between all parties.
翻訳日:2022-12-11 06:55:55 公開日:2020-04-21
# 鯨最適化アルゴリズムを用いたスケーラブルな特徴選択とオピニオンマイナ

A Scalable Feature Selection and Opinion Miner Using Whale Optimization Algorithm ( http://arxiv.org/abs/2004.13121v1 )

ライセンス: Link先を確認
Amir Javadpour, Samira Rezaei, Kuan-Ching Li and Guojun Wang(参考訳) 近年,文書やレビューが急速に増えているため,現在の分析技術はユーザのニーズを満たすには適していない。 機能選択技術を使用すると、データの理解が向上するだけでなく、より高速で正確になる。 本稿では,Whale Optimizationアルゴリズムを,特徴量の最適部分集合の探索に適用する。 既知のように、F測度は精度とリコールに基づく計量であり、分類器の比較で非常に人気がある。 実験結果の評価と比較のために、異なる特徴量に対してPart, random tree, random forest, and RBF network classification algorithmを適用した。 実験の結果,無作為林の精度は500種が最も高いことがわかった。 キーワード:特徴選択、鯨最適化アルゴリズム、最適分類アルゴリズムの選択

Due to the fast-growing volume of text documents and reviews in recent years, current analyzing techniques are not competent enough to meet the users' needs. Using feature selection techniques not only support to understand data better but also lead to higher speed and also accuracy. In this article, the Whale Optimization algorithm is considered and applied to the search for the optimum subset of features. As known, F-measure is a metric based on precision and recall that is very popular in comparing classifiers. For the evaluation and comparison of the experimental results, PART, random tree, random forest, and RBF network classification algorithms have been applied to the different number of features. Experimental results show that the random forest has the best accuracy on 500 features. Keywords: Feature selection, Whale Optimization algorithm, Selecting optimal, Classification algorithm
翻訳日:2022-12-11 06:55:45 公開日:2020-04-21
# M-LVC:学習ビデオ圧縮のための複数フレーム予測

M-LVC: Multiple Frames Prediction for Learned Video Compression ( http://arxiv.org/abs/2004.10290v1 )

ライセンス: Link先を確認
Jianping Lin, Dong Liu, Houqiang Li, Feng Wu(参考訳) 低レイテンシシナリオのためのエンドツーエンド学習ビデオ圧縮方式を提案する。 以前の1フレームを参照として使用する場合、以前の方法に制限がある。 提案手法では,過去の複数フレームを参照として利用する。 提案方式では, 移動ベクトル(MV)場を現在のフレームと前のフレームの間で計算する。 複数の参照フレームと関連する複数のmvフィールドによって、設計したネットワークは現在のフレームをより正確に予測し、残量を減らすことができる。 複数の参照フレームはMV予測を生成するのにも役立ち、MVフィールドのコーディングコストを低減する。 2つのディープオートエンコーダを用いて残差とMVをそれぞれ圧縮する。 オートエンコーダの圧縮誤差を補うため,MVリファインダネットワークと残差リファインダネットワークを設計し,複数の参照フレームも利用する。 我々の計画のすべてのモジュールは、単一のレート歪み損失関数によって共同最適化される。 スキーム全体を最適化するために、ステップバイステップのトレーニング戦略を使用します。 実験の結果,提案手法は,低遅延モードにおける既存の学習ビデオ圧縮法よりも優れていた。 また,PSNR,MS-SSIMともにH.265よりも高い性能を示した。 私たちのコードとモデルは公開されています。

We propose an end-to-end learned video compression scheme for low-latency scenarios. Previous methods are limited in using the previous one frame as reference. Our method introduces the usage of the previous multiple frames as references. In our scheme, the motion vector (MV) field is calculated between the current frame and the previous one. With multiple reference frames and associated multiple MV fields, our designed network can generate more accurate prediction of the current frame, yielding less residual. Multiple reference frames also help generate MV prediction, which reduces the coding cost of MV field. We use two deep auto-encoders to compress the residual and the MV, respectively. To compensate for the compression error of the auto-encoders, we further design a MV refinement network and a residual refinement network, taking use of the multiple reference frames as well. All the modules in our scheme are jointly optimized through a single rate-distortion loss function. We use a step-by-step training strategy to optimize the entire scheme. Experimental results show that the proposed method outperforms the existing learned video compression methods for low-latency mode. Our method also performs better than H.265 in both PSNR and MS-SSIM. Our code and models are publicly available.
翻訳日:2022-12-11 06:49:18 公開日:2020-04-21
# parkpredict:駐車場における車両の動作と意図予測

ParkPredict: Motion and Intent Prediction of Vehicles in Parking Lots ( http://arxiv.org/abs/2004.10293v1 )

ライセンス: Link先を確認
Xu Shen, Ivo Batkovic, Vijay Govindarajan, Paolo Falcone, Trevor Darrell, and Francesco Borrelli(参考訳) 本研究では,通常の道路網よりも構造が低く,コンパクト空間における複雑なインタラクティブな操作を特徴とする駐車場における運転行動予測の問題点について検討する。 CARLAシミュレーターを用いて、駐車場環境を開発し、人間の駐車操作のデータセットを収集する。 次に、多モード長短期記憶(LSTM)予測モデルと畳み込みニューラルネットワークLSTM(CNN-LSTM)を物理ベース拡張カルマンフィルタ(EKF)ベースラインと比較することにより、モデル複雑性と特徴情報の影響について検討する。 私たちの結果は 1)意図をよく推定できる(LSTMおよびCNN-LSTMモデルでは、ほぼ85%のトップ1精度と100%トップ3精度)。 2)人間運転者の意図した駐車場所に関する知識は,駐車経路の予測に大きな影響を与える。 3) 環境の意味表現は長期予測を改善する。

We investigate the problem of predicting driver behavior in parking lots, an environment which is less structured than typical road networks and features complex, interactive maneuvers in a compact space. Using the CARLA simulator, we develop a parking lot environment and collect a dataset of human parking maneuvers. We then study the impact of model complexity and feature information by comparing a multi-modal Long Short-Term Memory (LSTM) prediction model and a Convolution Neural Network LSTM (CNN-LSTM) to a physics-based Extended Kalman Filter (EKF) baseline. Our results show that 1) intent can be estimated well (roughly 85% top-1 accuracy and nearly 100% top-3 accuracy with the LSTM and CNN-LSTM model); 2) knowledge of the human driver's intended parking spot has a major impact on predicting parking trajectory; and 3) the semantic representation of the environment improves long term predictions.
翻訳日:2022-12-11 06:49:02 公開日:2020-04-21
# ロボット学習と制御のための構造化機械モデル

Structured Mechanical Models for Robot Learning and Control ( http://arxiv.org/abs/2004.10301v1 )

ライセンス: Link先を確認
Jayesh K. Gupta, Kunal Menda, Zachary Manchester and Mykel J. Kochenderfer(参考訳) モデルに基づく手法はロボットシステムを制御する主要なパラダイムであるが、その有効性は使用するモデルの精度に大きく依存する。 深層ニューラルネットワークは、データからロボットのダイナミクスのモデルを学ぶために使われてきたが、それらはデータ非効率と事前の知識を組み込むのが困難である。 本稿では,データ効率が高く,事前知識に適応し易く,モデルベースの制御技術で容易に使用可能な機械システムのフレキシブルなモデルクラスである構造化機械モデルを紹介する。 この研究の目的は、ロボットダイナミクスのモデリングにおいて、ブラックボックスニューラルネットワークの代わりに構造化機械モデルを使用することの利点を実証することである。 限られたデータからより一般化し、様々なシミュレーションロボットドメインでより信頼性の高いモデルベースのコントローラが得られることを実証する。

Model-based methods are the dominant paradigm for controlling robotic systems, though their efficacy depends heavily on the accuracy of the model used. Deep neural networks have been used to learn models of robot dynamics from data, but they suffer from data-inefficiency and the difficulty to incorporate prior knowledge. We introduce Structured Mechanical Models, a flexible model class for mechanical systems that are data-efficient, easily amenable to prior knowledge, and easily usable with model-based control techniques. The goal of this work is to demonstrate the benefits of using Structured Mechanical Models in lieu of black-box neural networks when modeling robot dynamics. We demonstrate that they generalize better from limited data and yield more reliable model-based controllers on a variety of simulated robotic domains.
翻訳日:2022-12-11 06:48:44 公開日:2020-04-21
# 対向エージェント意識をもつ目標指向対話政策の学習

Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness ( http://arxiv.org/abs/2004.09731v1 )

ライセンス: Link先を確認
Zheng Zhang, Lizi Liao, Xiaoyan Zhu, Tat-Seng Chua, Zitao Liu, Yan Huang, Minlie Huang(参考訳) 目標指向対話政策学習の既存のアプローチは強化学習を用いており、これはターゲットエージェントポリシーに焦点をあて、相手エージェントポリシーを環境の一部として単純に扱う。 現実のシナリオでは、相手エージェントの振る舞いは特定のパターンや隠されたポリシーを示すことが多く、ターゲットエージェントによって推論され、利用され、独自の意思決定を促進することができる。 この戦略は、まず特定の行動と、実際に行動する前に起こりうる結果をイメージングすることで、人間の精神シミュレーションにおいて一般的である。 そこで我々は,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。 我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。 我々は,協調的・競合的な対話課題におけるモデルの評価を行い,最先端のベースラインよりも優れた性能を示す。

Most existing approaches for goal-oriented dialogue policy learning used reinforcement learning, which focuses on the target agent policy and simply treat the opposite agent policy as part of the environment. While in real-world scenarios, the behavior of an opposite agent often exhibits certain patterns or underlies hidden policies, which can be inferred and utilized by the target agent to facilitate its own decision making. This strategy is common in human mental simulation by first imaging a specific action and the probable results before really acting it. We therefore propose an opposite behavior aware framework for policy learning in goal-oriented dialogues. We estimate the opposite agent's policy from its behavior and use this estimation to improve the target agent by regarding it as part of the target policy. We evaluate our model on both cooperative and competitive dialogue tasks, showing superior performance over state-of-the-art baselines.
翻訳日:2022-12-11 06:48:31 公開日:2020-04-21
# 文書横断型キーフレーズ生成

Keyphrase Generation with Cross-Document Attention ( http://arxiv.org/abs/2004.09800v1 )

ライセンス: Link先を確認
Shizhe Diao, Yan Song, Tong Zhang(参考訳) keyphrase生成は、与えられた文書の本質を要約した一連のフレーズを作成することを目的としている。 従来の手法では、エンコーダ・デコーダアーキテクチャを用いて入力文書の出力キーフレーズを生成し、各文書にフォーカスするように設計されており、必然的に他の類似文書、すなわちクロスドキュメント依存性と潜在トピックによって運ばれる重要なコーパスレベル情報を省略する。 本稿では,Transformerベースのキーフレーズ生成装置であるCDKGenを提案する。これはTransformerを文書横断型アテンションネットワークでグローバルアテンションに拡張し,利用可能なドキュメントを参照として組み込むことで,トピック情報のガイダンスを用いてより優れたキーフレーズを生成する。 提案するTransformer+クロスドキュメントアテンションアーキテクチャに加えて,文書から適切な単語を選択してキーフレーズの語彙外単語を扱うことで,モデルを強化するコピー機構も採用している。 5つのベンチマークデータセットの実験結果から,本モデルの有効性と有効性を示し,全データセットの最先端性能を実現する。 さらなる分析により,提案モデルが十分な多様性を維持しつつ,参照に一貫性のあるキーフレーズを生成できることが確認された。 CDKGenのコードはhttps://github.com/SVAIGBA/CDKGenで入手できる。

Keyphrase generation aims to produce a set of phrases summarizing the essentials of a given document. Conventional methods normally apply an encoder-decoder architecture to generate the output keyphrases for an input document, where they are designed to focus on each current document so they inevitably omit crucial corpus-level information carried by other similar documents, i.e., the cross-document dependency and latent topics. In this paper, we propose CDKGen, a Transformer-based keyphrase generator, which expands the Transformer to global attention with cross-document attention networks to incorporate available documents as references so as to generate better keyphrases with the guidance of topic information. On top of the proposed Transformer + cross-document attention architecture, we also adopt a copy mechanism to enhance our model via selecting appropriate words from documents to deal with out-of-vocabulary words in keyphrases. Experiment results on five benchmark datasets illustrate the validity and effectiveness of our model, which achieves the state-of-the-art performance on all datasets. Further analyses confirm that the proposed model is able to generate keyphrases consistent with references while keeping sufficient diversity. The code of CDKGen is available at https://github.com/SVAIGBA/CDKGen.
翻訳日:2022-12-11 06:47:59 公開日:2020-04-21
# relabel the noise:コラボレーティブ・マルチエイジェントによるエンティティとリレーションの協調抽出

Relabel the Noise: Joint Extraction of Entities and Relations via Cooperative Multiagents ( http://arxiv.org/abs/2004.09930v1 )

ライセンス: Link先を確認
Daoyuan Chen, Yaliang Li, Kai Lei, Ying Shen(参考訳) エンティティと関係抽出のための遠隔監視に基づく手法は,これらの手法が軽微な人的アノテーションの努力を必要とするため,人気が高まっている。 本稿では,外部知識グラフを対象とする雑音ラベル学習集合と人間注釈テスト集合との一貫性の欠如と,雑音伝搬を伴うパイプライン型エンティティ・テン関係抽出手法によって悪化する,\textit{shifted label distribution}の問題について考察する。 本稿では,協調型マルチエージェント群でノイズの多いインスタンスをラベル付けすることで,この問題に対処する共同抽出手法を提案する。 この2つの抽出タスク間の相関を利用して、各エージェントの知恵を収集し、信頼度ラベルを付したノイズ学習セットを再分割する信頼コンセンサスモジュールを設計する。 さらに、信頼度を用いて抽出機の訓練損失を調整する。 実世界の2つのデータセットによる実験結果から,再ラベル付きノイズインスタンスの利点を検証し,提案モデルが最先端のエンティティと関係抽出法を著しく上回ることを示す。

Distant supervision based methods for entity and relation extraction have received increasing popularity due to the fact that these methods require light human annotation efforts. In this paper, we consider the problem of \textit{shifted label distribution}, which is caused by the inconsistency between the noisy-labeled training set subject to external knowledge graph and the human-annotated test set, and exacerbated by the pipelined entity-then-relation extraction manner with noise propagation. We propose a joint extraction approach to address this problem by re-labeling noisy instances with a group of cooperative multiagents. To handle noisy instances in a fine-grained manner, each agent in the cooperative group evaluates the instance by calculating a continuous confidence score from its own perspective; To leverage the correlations between these two extraction tasks, a confidence consensus module is designed to gather the wisdom of all agents and re-distribute the noisy training set with confidence-scored labels. Further, the confidences are used to adjust the training losses of extractors. Experimental results on two real-world datasets verify the benefits of re-labeling noisy instance, and show that the proposed model significantly outperforms the state-of-the-art entity and relation extraction methods.
翻訳日:2022-12-11 06:47:10 公開日:2020-04-21
# 順列制約付き確率ブロックモデル

Assortative-Constrained Stochastic Block Models ( http://arxiv.org/abs/2004.11890v1 )

ライセンス: Link先を確認
Daniel Gribel, Thibaut Vidal, Michel Gendreau(参考訳) 確率的ブロックモデル(sbm)は、コミュニティ内の接続確率がコミュニティ間よりも高いような、ネットワーク内の多様なコミュニティ構造を見つけるためにしばしば用いられる。 しかし、古典的なsbmは分類構造に限定されない。 本研究では,このモデルに内在する乱雑性や乱雑性に対する無干渉の影響を考察し,この特徴が,前述したような乱雑な情報量を含むネットワークにとって望ましくない結果をもたらすことを示す。 この問題を回避するため,我々は,効率的なアルゴリズム手法とともに,強い乱雑性制約を課す制約付きsbmを導入する。 これらの制約は、情報理論のしきい値に近い制度において、コミュニティの回復能力を大幅に向上させる。 また、脳皮質活動領域を表すネットワークの構造的に異なるコミュニティを特定することも許している。

Stochastic block models (SBMs) are often used to find assortative community structures in networks, such that the probability of connections within communities is higher than in between communities. However, classic SBMs are not limited to assortative structures. In this study, we discuss the implications of this model-inherent indifference towards assortativity or disassortativity, and show that this characteristic can lead to undesirable outcomes for networks which are presupposedy assortative but which contain a reduced amount of information. To circumvent this issue, we introduce a constrained SBM that imposes strong assortativity constraints, along with efficient algorithmic approaches to solve it. These constraints significantly boost community recovery capabilities in regimes that are close to the information-theoretic threshold. They also permit to identify structurally-different communities in networks representing cerebral-cortex activity regions.
翻訳日:2022-12-11 06:40:55 公開日:2020-04-21
# 数発皮膚疾患分類におけるクロスエントロピー損失とエピソードトレーニングの不一致の軽減

Alleviating the Incompatibility between Cross Entropy Loss and Episode Training for Few-shot Skin Disease Classification ( http://arxiv.org/abs/2004.09694v1 )

ライセンス: Link先を確認
Wei Zhu, Haofu Liao, Wenbin Li, Weijian Li, Jiebo Luo(参考訳) 皮膚疾患の画像分類は皮膚科診断に不可欠である。 しかし、皮膚の病変を特定するには、サイズ、色、形状、テクスチャの面で様々な側面がある。 さらに悪いことに、多くのカテゴリはサンプルをほとんど含んでおらず、従来の機械学習アルゴリズムや人間の専門家にも大きな課題をもたらしている。 自然画像分類におけるFew-Shot Learning (FSL) の成功に触発されて, 皮膚疾患の鑑別にFSLを適用し, トレーニングサンプル問題の極端な不足に対処することを提案する。 しかし,この課題にFSLを直接適用することは実際にはうまくいきません。また,この問題は,FSLで一般的に用いられているクロスエントロピー(CE)とエピソードトレーニングの不整合性に起因することがよく分かる。 本稿では,エピソード学習におけるCEよりも優れ,最近提案された相互情報推定と密接に関連しているクエリ-相対的(QR)損失を提案する。 さらに,新しい適応型ハードマージン戦略により,提案したQR損失をさらに強化する。 包括的実験により,fsl法の有効性と稀な皮膚疾患の診断の可能性が検証された。

Skin disease classification from images is crucial to dermatological diagnosis. However, identifying skin lesions involves a variety of aspects in terms of size, color, shape, and texture. To make matters worse, many categories only contain very few samples, posing great challenges to conventional machine learning algorithms and even human experts. Inspired by the recent success of Few-Shot Learning (FSL) in natural image classification, we propose to apply FSL to skin disease identification to address the extreme scarcity of training sample problem. However, directly applying FSL to this task does not work well in practice, and we find that the problem can be largely attributed to the incompatibility between Cross Entropy (CE) and episode training, which are both commonly used in FSL. Based on a detailed analysis, we propose the Query-Relative (QR) loss, which proves superior to CE under episode training and is closely related to recently proposed mutual information estimation. Moreover, we further strengthen the proposed QR loss with a novel adaptive hard margin strategy. Comprehensive experiments validate the effectiveness of the proposed FSL scheme and the possibility to diagnosis rare skin disease with a few labeled samples.
翻訳日:2022-12-11 06:40:25 公開日:2020-04-21
# TrueBranch: メトリクス学習に基づく森林保全プロジェクトの検証

TrueBranch: Metric Learning-based Verification of Forest Conservation Projects ( http://arxiv.org/abs/2004.09725v1 )

ライセンス: Link先を確認
Simona Santamaria, David Dao, Bj\"orn L\"utjens, Ce Zhang(参考訳) 国際的な利害関係者は、例えば森林保全プロジェクトに対して、PES(Payments for Ecosystem Services)の発行を通じて、二酸化炭素排出量の相殺に投資している。 信頼できる支払いを発行するには、生態系サービス(例えば森林に蓄えられた炭素)の透明な監視、報告、検証(MRV)プロセスが必要である。 しかし、現在のMRVプロセスは高価すぎる(森林の地上検査)か不正確な(サテライト)かのいずれかである。 近年の研究では、土地所有者が収集したドローン画像から森林炭素を自動的に判定することで、低コストで正確なMRVを提案する。 MRVの自動化は、土地所有者が非現実的なドローン映像を報告する可能性を開く。 本稿では,森林保全プロジェクトから得られたドローン画像の真偽を検証した,計量学習に基づくアルゴリズムであるTrueBranchを提案する。 TrueBranchは、非合法に報告されたドローン画像と公共の衛星画像とをマッチングして検出することを目指している。 予備的な結果は、名目距離の指標が不確実に報告された画像を確実に検出するのに十分なものではないことを示唆している。 TrueBranchはメトリクス学習を活用して,真にかつ非現実的に収集された画像が,距離閾値によって容易に識別可能な機能埋め込みを生成する。

International stakeholders increasingly invest in offsetting carbon emissions, for example, via issuing Payments for Ecosystem Services (PES) to forest conservation projects. Issuing trusted payments requires a transparent monitoring, reporting, and verification (MRV) process of the ecosystem services (e.g., carbon stored in forests). The current MRV process, however, is either too expensive (on-ground inspection of forest) or inaccurate (satellite). Recent works propose low-cost and accurate MRV via automatically determining forest carbon from drone imagery, collected by the landowners. The automation of MRV, however, opens up the possibility that landowners report untruthful drone imagery. To be robust against untruthful reporting, we propose TrueBranch, a metric learning-based algorithm that verifies the truthfulness of drone imagery from forest conservation projects. TrueBranch aims to detect untruthfully reported drone imagery by matching it with public satellite imagery. Preliminary results suggest that nominal distance metrics are not sufficient to reliably detect untruthfully reported imagery. TrueBranch leverages metric learning to create a feature embedding in which truthfully and untruthfully collected imagery is easily distinguishable by distance thresholding.
翻訳日:2022-12-11 06:40:04 公開日:2020-04-21
# 胸部x線を用いたcovid-19検出

CovidAID: COVID-19 Detection Using Chest X-Ray ( http://arxiv.org/abs/2004.09803v1 )

ライセンス: Link先を確認
Arpan Mangal, Surya Kalia, Harish Rajgopal, Krithika Rangarajan, Vinay Namboodiri, Subhashis Banerjee, Chetan Arora(参考訳) 新型コロナウイルス患者の指数的な増加は、世界中で圧倒的な医療システムである。 テストキットが限られているため、呼吸器疾患の患者全員に従来の技術(rt-pcr)で検査することは不可能である。 テストには長いターンアラウンド時間と感度も制限されている。 胸部x線でcovid-19感染の可能性を検出することは、検査結果を待っている間に高リスク患者を隔離するのに役立つ可能性がある。 X線装置は、ほとんどの医療システムで既に利用可能であり、現代のほとんどのX線システムはデジタル化されているため、サンプルの輸送時間も必要ない。 本研究では,胸部X線を用いて患者の選択を優先してRT-PCR検査を行うことを提案する。 これは、現在のシステムが患者を病棟に留めるか、他の患者と一緒に隔離するかを決めるのに苦労している入院患者に有用かもしれない。 また、検査を繰り返す必要のある偽陰性RT-PCRで、新型コロナウイルスの可能性が高い患者を特定するのにも役立ちます。 さらに, 放射線科医が使用できない環境において, x線像を自動で検出するために, 最新のai技術を用いることを提案し, 提案する検査技術をスケーラブルにすることを支援する。 CovidAID: COVID-19 AI Detectorは、患者を適切な検査のためにトリアージするための、新しいディープニューラルネットワークベースのモデルである。 市販のコビッド-ケステックスデータセット[2]では、新型コロナウイルス感染に対する100%感度(リコール)で90.5%の精度が得られた。 同じデータセット上でCovid-Net [10]の結果を大幅に改善します。

The exponential increase in COVID-19 patients is overwhelming healthcare systems across the world. With limited testing kits, it is impossible for every patient with respiratory illness to be tested using conventional techniques (RT-PCR). The tests also have long turn-around time, and limited sensitivity. Detecting possible COVID-19 infections on Chest X-Ray may help quarantine high risk patients while test results are awaited. X-Ray machines are already available in most healthcare systems, and with most modern X-Ray systems already digitized, there is no transportation time involved for the samples either. In this work we propose the use of chest X-Ray to prioritize the selection of patients for further RT-PCR testing. This may be useful in an inpatient setting where the present systems are struggling to decide whether to keep the patient in the ward along with other patients or isolate them in COVID-19 areas. It would also help in identifying patients with high likelihood of COVID with a false negative RT-PCR who would need repeat testing. Further, we propose the use of modern AI techniques to detect the COVID-19 patients using X-Ray images in an automated manner, particularly in settings where radiologists are not available, and help make the proposed testing technology scalable. We present CovidAID: COVID-19 AI Detector, a novel deep neural network based model to triage patients for appropriate testing. On the publicly available covid-chestxray-dataset [2], our model gives 90.5% accuracy with 100% sensitivity (recall) for the COVID-19 infection. We significantly improve upon the results of Covid-Net [10] on the same dataset.
翻訳日:2022-12-11 06:39:31 公開日:2020-04-21
# MixNet:脳セグメンテーションのための多モード混合ネットワーク

MixNet: Multi-modality Mix Network for Brain Segmentation ( http://arxiv.org/abs/2004.09832v1 )

ライセンス: Link先を確認
Long Chen, Dorit Merhof(参考訳) 自動脳構造セグメンテーションは多くの臨床定量分析と診断に重要である。 本研究では,マルチモードMRI画像の脳構造を分割する2次元意味論的深部畳み込みニューラルネットワークMixNetを提案する。 ネットワークは改良された深層学習ユニットで構成されています。 このユニットでは、従来の畳み込み層を拡張畳み込み層に置き換え、プール層とデ畳み込み層の使用を回避し、ネットワークパラメータの数を減らす。 最終的な予測は、複数のスケールとモダリティから情報を集約することで行われる。 ピラミッドプーリングモジュールは、出力端の解剖学的構造の空間情報をキャプチャするために使用される。 さらに,3つのアーキテクチャ(MixNetv1,MixNetv2,MixNetv3)をテストして,結果への影響を確認する。 我々のネットワークは最先端の性能を達成する。 MixNetv2はMICCAI 2018でMRBrainSチャレンジに応募し、3ラベルタスクで3位を獲得した。 mrbrains2018データセットは, 病理疾患を有する患者を対象とし, 全体のdsc (dice coefficient) は84.7% (gray matter), 87.3% (white matter) および83.4% (cerebrospinal fluid) をトレーニングデータとして求めた。

Automated brain structure segmentation is important to many clinical quantitative analysis and diagnoses. In this work, we introduce MixNet, a 2D semantic-wise deep convolutional neural network to segment brain structure in multi-modality MRI images. The network is composed of our modified deep residual learning units. In the unit, we replace the traditional convolution layer with the dilated convolutional layer, which avoids the use of pooling layers and deconvolutional layers, reducing the number of network parameters. Final predictions are made by aggregating information from multiple scales and modalities. A pyramid pooling module is used to capture spatial information of the anatomical structures at the output end. In addition, we test three architectures (MixNetv1, MixNetv2 and MixNetv3) which fuse the modalities differently to see the effect on the results. Our network achieves the state-of-the-art performance. MixNetv2 was submitted to the MRBrainS challenge at MICCAI 2018 and won the 3rd place in the 3-label task. On the MRBrainS2018 dataset, which includes subjects with a variety of pathologies, the overall DSC (Dice Coefficient) of 84.7% (gray matter), 87.3% (white matter) and 83.4% (cerebrospinal fluid) were obtained with only 7 subjects as training data.
翻訳日:2022-12-11 06:39:05 公開日:2020-04-21
# 強一貫性, グラフラプラシアン, 確率ブロックモデル

Strong Consistency, Graph Laplacians, and the Stochastic Block Model ( http://arxiv.org/abs/2004.09780v1 )

ライセンス: Link先を確認
Shaofeng Deng, Shuyang Ling, Thomas Strohmer(参考訳) スペクトルクラスタリングは、データクラスタリングとコミュニティ検出において最も人気のあるアルゴリズムの1つとなっている。 グラフラプラシアンによる古典的2段階スペクトルクラスタリングの性能について検討し,確率ブロックモデルについて考察する。 グラフラプラシアンによるスペクトルクラスタリングは、いつ、根底にある隠れたコミュニティの正確な回復という、強い一貫性を達成することができるのか? 我々の研究は、確率ブロックモデルからサンプリングされた隣接行列に付随する非正規化ラプラシアンと正規化ラプラシアンの両方の fielder eigenvector のエントリワイズ解析($\ell_{\infty}$-norm摂動境界)を提供する。 スペクトルクラスタリングは,情報理論上の限界に適合する条件下で,植栽されたコミュニティ構造を正確に回復できることを実証する。

Spectral clustering has become one of the most popular algorithms in data clustering and community detection. We study the performance of classical two-step spectral clustering via the graph Laplacian to learn the stochastic block model. Our aim is to answer the following question: when is spectral clustering via the graph Laplacian able to achieve strong consistency, i.e., the exact recovery of the underlying hidden communities? Our work provides an entrywise analysis (an $\ell_{\infty}$-norm perturbation bound) of the Fielder eigenvector of both the unnormalized and the normalized Laplacian associated with the adjacency matrix sampled from the stochastic block model. We prove that spectral clustering is able to achieve exact recovery of the planted community structure under conditions that match the information-theoretic limits.
翻訳日:2022-12-11 06:31:05 公開日:2020-04-21
# ラベル雑音を伴うバイナリ教師付き分類に対する数理計画法

A Mathematical Programming approach to Binary Supervised Classification with Label Noise ( http://arxiv.org/abs/2004.10170v1 )

ライセンス: Link先を確認
V\'ictor Blanco, Alberto Jap\'on and Justo Puerto(参考訳) 本稿では,学習サンプルにラベルノイズが発生することを考慮し,サポートベクターマシンに基づく分類器を構築するための新しい手法を提案する。 トレーニングデータセットの観測結果の一部を再現する決定を組み込むことで、混合整数線形モデルと非線形モデルの解法に基づく異なる代替案を提案する。 第1の手法は、SVMモデルに直接ラベリングを組み込む一方で、第2の手法のファミリーはクラスタリングと分類を同時に組み合わせ、同時に類似度測定とSVMを適用するモデルを生み出す。 UCI Machine Learningレポジトリから取得した標準データセットのバッテリに基づいて、大規模な計算実験を報告し、提案手法の有効性を示す。

In this paper we propose novel methodologies to construct Support Vector Machine -based classifiers that takes into account that label noises occur in the training sample. We propose different alternatives based on solving Mixed Integer Linear and Non Linear models by incorporating decisions on relabeling some of the observations in the training dataset. The first method incorporates relabeling directly in the SVM model while a second family of methods combines clustering with classification at the same time, giving rise to a model that applies simultaneously similarity measures and SVM. Extensive computational experiments are reported based on a battery of standard datasets taken from UCI Machine Learning repository, showing the effectiveness of the proposed approaches.
翻訳日:2022-12-11 06:30:03 公開日:2020-04-21
# モデルアンサンブルにおける連立対向ロバスト性認証

Certifying Joint Adversarial Robustness for Model Ensembles ( http://arxiv.org/abs/2004.10250v1 )

ライセンス: Link先を確認
Mainuddin Ahmad Jonas, David Evans(参考訳) ディープニューラルネットワーク(DNN)は、しばしば敵の例に対して脆弱である。個々のモデルが脆弱であるとしても、敵がアンサンブルに対して成功する敵の例を見つけることができないことを願って、いくつかの防衛案がモデルのアンサンブルを展開している。 アンサンブルの使い方によっては、攻撃者はアンサンブル内の全てのモデル、または大多数に対して成功する単一の敵の例を見つける必要がある。 強敵に対するアンサンブル防御の有効性は、アンサンブルが解離しているモデルの脆弱性空間に依存する。 モデルアンサンブルのジョイント脆弱性を考察し,単一モデルロバスト性証明に関する先行研究に基づいて,アンサンブルのジョイントロバスト性を証明する新しい手法を提案する。 本稿では,様々なモデルアンサンブルのロバスト性を評価するため,コストに敏感なロバスト性を用いて訓練されたモデルを含む様々なモデルのロバスト性を評価する。

Deep Neural Networks (DNNs) are often vulnerable to adversarial examples.Several proposed defenses deploy an ensemble of models with the hope that, although the individual models may be vulnerable, an adversary will not be able to find an adversarial example that succeeds against the ensemble. Depending on how the ensemble is used, an attacker may need to find a single adversarial example that succeeds against all, or a majority, of the models in the ensemble. The effectiveness of ensemble defenses against strong adversaries depends on the vulnerability spaces of models in the ensemble being disjoint. We consider the joint vulnerability of an ensemble of models, and propose a novel technique for certifying the joint robustness of ensembles, building upon prior works on single-model robustness certification. We evaluate the robustness of various models ensembles, including models trained using cost-sensitive robustness to be diverse, to improve understanding of the potential effectiveness of ensemble models as a defense against adversarial examples.
翻訳日:2022-12-11 06:29:05 公開日:2020-04-21
# ウェアラブルIMUを用いた手話認識のための畳み込みニューラルネットワークアレイ

Convolutional Neural Network Array for Sign Language Recognition using Wearable IMUs ( http://arxiv.org/abs/2004.11836v1 )

ライセンス: Link先を確認
Karush Suri, Rinki Gupta(参考訳) ジェスチャー認識アルゴリズムの進歩は手話翻訳の大幅な成長をもたらした。 効率的なインテリジェントモデルを使用することで、サインを精度良く認識することができる。 提案手法は,インド手話からの信号を認識するための1次元畳み込みニューラルネットワーク(CNN)アレイアーキテクチャである。 IMU装置は3軸加速度計とジャイロスコープを使用する。 IMU装置を用いて記録された信号は、一般文や疑問文の署名に対応するかどうかなどの文脈に基づいて分離される。 配列は、2つの個別CNNからなり、1つは一般文を分類し、もう1つは疑問文を分類する。 配列アーキテクチャにおける個々のCNNの性能は、非分離データセットを分類する従来のCNNのパフォーマンスと比較される。 一般文のピーク分類精度は94.20%、従来のCNNの93.50%に比べて95.00%である。

Advancements in gesture recognition algorithms have led to a significant growth in sign language translation. By making use of efficient intelligent models, signs can be recognized with precision. The proposed work presents a novel one-dimensional Convolutional Neural Network (CNN) array architecture for recognition of signs from the Indian sign language using signals recorded from a custom designed wearable IMU device. The IMU device makes use of tri-axial accelerometer and gyroscope. The signals recorded using the IMU device are segregated on the basis of their context, such as whether they correspond to signing for a general sentence or an interrogative sentence. The array comprises of two individual CNNs, one classifying the general sentences and the other classifying the interrogative sentence. Performances of individual CNNs in the array architecture are compared to that of a conventional CNN classifying the unsegregated dataset. Peak classification accuracies of 94.20% for general sentences and 95.00% for interrogative sentences achieved with the proposed CNN array in comparison to 93.50% for conventional CNN assert the suitability of the proposed approach.
翻訳日:2022-12-11 06:28:35 公開日:2020-04-21
# 新型コロナウイルス(COVID-19)パンデミックに対する学生の反応は一般市民と異なる

The Ivory Tower Lost: How College Students Respond Differently than the General Public to the COVID-19 Pandemic ( http://arxiv.org/abs/2004.09968v1 )

ライセンス: Link先を確認
Viet Duong, Phu Pham, Tongyu Yang, Yu Wang, Jiebo Luo(参考訳) 近年、新型コロナウイルス感染症(COVID-19)のパンデミックが政府に究極の課題を提示している。 米国では、新型コロナウイルス感染者が最も多い国で、全国的なソーシャルディスタンシングプロトコルが大統領によって実施されている。 1918年のインフルエンザパンデミック以来100年ぶりに、米国の人口は家庭に留まり、公衆の接触を避けるよう義務付けられている。 その結果、公共の施設やサービスの大半が閉鎖された。 3月7日にワシントン大学が閉鎖された後、米国の何千もの大学や大学が個人クラスやキャンパス活動を中止し、何百万人もの学生に影響を与えた。 本稿では,一般市民と高等教育の双方に関する対話型社会におけるこの前例のない破壊の社会的意味を明らかにすることを目的とした。 我々は、新型コロナウイルス(covid-19)に関する多くのツイートに埋め込まれたいくつかのトピックが、パンデミックに関連する最も中心的な問題を表していることを発見した。 さらに、新型コロナウイルス(COVID-19)問題に対して表明した感情に関して、これらの2つのTwitterユーザー間で大きな違いが見つかりました。 われわれの知る限りでは、これは、学生コミュニティの人口統計と、重大な危機における社会問題に対する対応に焦点を当てた初めてのソーシャルメディアベースの研究である。

Recently, the pandemic of the novel Coronavirus Disease-2019 (COVID-19) has presented governments with ultimate challenges. In the United States, the country with the highest confirmed COVID-19 infection cases, a nationwide social distancing protocol has been implemented by the President. For the first time in a hundred years since the 1918 flu pandemic, the US population is mandated to stay in their households and avoid public contact. As a result, the majority of public venues and services have ceased their operations. Following the closure of the University of Washington on March 7th, more than a thousand colleges and universities in the United States have cancelled in-person classes and campus activities, impacting millions of students. This paper aims to discover the social implications of this unprecedented disruption in our interactive society regarding both the general public and higher education populations by mining people's opinions on social media. We discover several topics embedded in a large number of COVID-19 tweets that represent the most central issues related to the pandemic, which are of great concerns for both college students and the general public. Moreover, we find significant differences between these two groups of Twitter users with respect to the sentiments they expressed towards the COVID-19 issues. To our best knowledge, this is the first social media-based study which focuses on the college student community's demographics and responses to prevalent social issues during a major crisis.
翻訳日:2022-12-11 06:22:56 公開日:2020-04-21
# 個人イベント検出のための自己学習型ドメインガイドタスク分割

Domain-Guided Task Decomposition with Self-Training for Detecting Personal Events in Social Media ( http://arxiv.org/abs/2004.10201v1 )

ライセンス: Link先を確認
Payam Karisani, Joyce C. Ho, and Eugene Agichtein(参考訳) 個人的体験やイベントの検出、語彙的スパース、トレーニングデータ不足、発明的なレキシコンなどのタスクのためにソーシャルメディアコンテンツをマイニングする。 ラベル付きデータの作成の負担軽減と分類性能の向上を目的として,2つのステップでこれらのタスクを実行することを提案する。 1.重要な概念を識別し、人間のドメイン理解を活用することにより、タスクをドメイン固有のサブタスクに分解すること。 2. ラベル付きトレーニングデータの要件を減らすために、コートレーニングを用いて、各キー概念の学習者の結果を組み合わせること。 提案手法の有効性と汎用性を実証的に示すために,3つの代表的なソーシャルメディアマイニングタスクであるPersonal Health Mention Detection, Crisis Report Detection,Adverse Drug Reaction Monitoringを用いて検討した。 実験の結果,本モデルは,最近導入されたBERTモデルを含む最先端のテキスト分類モデルよりも優れており,少量のトレーニングデータが利用可能であることがわかった。

Mining social media content for tasks such as detecting personal experiences or events, suffer from lexical sparsity, insufficient training data, and inventive lexicons. To reduce the burden of creating extensive labeled data and improve classification performance, we propose to perform these tasks in two steps: 1. Decomposing the task into domain-specific sub-tasks by identifying key concepts, thus utilizing human domain understanding; and 2. Combining the results of learners for each key concept using co-training to reduce the requirements for labeled training data. We empirically show the effectiveness and generality of our approach, Co-Decomp, using three representative social media mining tasks, namely Personal Health Mention detection, Crisis Report detection, and Adverse Drug Reaction monitoring. The experiments show that our model is able to outperform the state-of-the-art text classification models--including those using the recently introduced BERT model--when small amounts of training data are available.
翻訳日:2022-12-11 06:22:37 公開日:2020-04-21
# MT-Clinical BERT:マルチタスク学習による臨床情報抽出

MT-Clinical BERT: Scaling Clinical Information Extraction with Multitask Learning ( http://arxiv.org/abs/2004.10220v1 )

ライセンス: Link先を確認
Andriy Mulyar and Bridget T. McInnes(参考訳) 臨床ノートには、患者に関する情報が多数含まれている。 この情報を自動抽出するシステムは、生成するリソースが限られている大量のトレーニングデータに依存する。 さらにそれらは非協力的に開発され、タスク固有のシステム間で情報を共有することはできない。 このボトルネックは、不要に実用的応用を複雑にし、個々のソリューションの性能を低下させ、複数の情報抽出システムを管理する工学的負債を関連付ける。 タスク間で表現を共有することによって,エンティティ抽出,phi識別,言語対応,類似性にまたがる8つの臨床タスクを同時に実行する,単一のディープラーニングモデルである。 我々の単一システムは、あらゆる最先端のタスク固有システムと競合し、推論時の膨大な計算上の利点の恩恵を受ける。

Clinical notes contain an abundance of important but not-readily accessible information about patients. Systems to automatically extract this information rely on large amounts of training data for which their exists limited resources to create. Furthermore, they are developed dis-jointly; meaning that no information can be shared amongst task-specific systems. This bottle-neck unnecessarily complicates practical application, reduces the performance capabilities of each individual solution and associates the engineering debt of managing multiple information extraction systems. We address these challenges by developing Multitask-Clinical BERT: a single deep learning model that simultaneously performs eight clinical tasks spanning entity extraction, PHI identification, language entailment and similarity by sharing representations amongst tasks. We find our single system performs competitively with all state-the-art task-specific systems while also benefiting from massive computational benefits at inference.
翻訳日:2022-12-11 06:22:21 公開日:2020-04-21
# ラベル付きテキストデータセットのアクティブラーニングにおける事前学習型言語モデルに基づく表現の有効性の検討

Investigating the Effectiveness of Representations Based on Pretrained Transformer-based Language Models in Active Learning for Labelling Text Datasets ( http://arxiv.org/abs/2004.13138v1 )

ライセンス: Link先を確認
Jinghui Lu and Brian MacNamee(参考訳) アクティブな学習は、完全にラベル付けする必要なく、機械学習タスクのために大量の未ラベルデータを利用するのに必要な労力を軽減する効果的な方法であることが示されている。 しかし、アクティブな学習を行う際にテキスト文書を表現するための表現メカニズムは、そのプロセスがどれほど効果的かに大きな影響を与える。 単語の袋のような単純なベクトル表現やword2vecのような技術に基づく埋め込みベースの表現は、アクティブな学習中にドキュメントを表現する効果的な方法であることが示されているが、自然言語処理研究(例えばbert)でよく使われる、事前学習されたトランスフォーマーベースのニューラルネットワークモデルに基づく表現メカニズムの出現は、有望で、まだ完全には検討されていない代替手段を提供する。 本稿では,事前学習したトランスフォーマーに基づく言語モデルに基づく表現の有効性の総合評価を行う。 この評価は、まだアクティブ学習で広く使われていないトランスフォーマーベースのモデル、特にbertのようなモデルが、単語の袋やword2vecのような古典的単語埋め込みといったより一般的なベクトル表現よりも大幅に改善されていることを示している。 また, Roberta や Albert などの BERT の変種に基づく表現の有効性について検討するとともに,[CLS] トークン表現の有効性と BERT のようなモデルを用いて生成可能な集約表現との比較を行った。 最後に,適応チューニング能動的学習手法を提案する。 実験の結果,能動学習で得られた限られたラベル情報は,分類器の訓練に利用できるだけでなく,BERTに似た言語モデルによる埋め込みも適応的に改善できることがわかった。

Active learning has been shown to be an effective way to alleviate some of the effort required in utilising large collections of unlabelled data for machine learning tasks without needing to fully label them. The representation mechanism used to represent text documents when performing active learning, however, has a significant influence on how effective the process will be. While simple vector representations such as bag-of-words and embedding-based representations based on techniques such as word2vec have been shown to be an effective way to represent documents during active learning, the emergence of representation mechanisms based on the pre-trained transformer-based neural network models popular in natural language processing research (e.g. BERT) offer a promising, and as yet not fully explored, alternative. This paper describes a comprehensive evaluation of the effectiveness of representations based on pre-trained transformer-based language models for active learning. This evaluation shows that transformer-based models, especially BERT-like models, that have not yet been widely used in active learning, achieve a significant improvement over more commonly used vector representations like bag-of-words or other classical word embeddings like word2vec. This paper also investigates the effectiveness of representations based on variants of BERT such as Roberta, Albert as well as comparing the effectiveness of the [CLS] token representation and the aggregated representation that can be generated using BERT-like models. Finally, we propose an approach Adaptive Tuning Active Learning. Our experiments show that the limited label information acquired in active learning can not only be used for training a classifier but can also adaptively improve the embeddings generated by the BERT-like language models as well.
翻訳日:2022-12-11 06:22:06 公開日:2020-04-21
# 分解に基づく大規模マルチモーダル多目的最適化アルゴリズム

A Decomposition-based Large-scale Multi-modal Multi-objective Optimization Algorithm ( http://arxiv.org/abs/2004.09838v1 )

ライセンス: Link先を確認
Yiming Peng, Hisao Ishibuchi(参考訳) マルチモーダル多目的最適化問題(multi-modal multi-objective optimization problem)は、パレート部分集合を持つ特別な種類の多目的最適化問題である。 本稿では,MOEA/Dアルゴリズムを応用したマルチモーダル多目的最適化アルゴリズムを提案する。 提案アルゴリズムでは,各重みベクトルがそれぞれサブポピュレーションを持つ。 除去機構と欲求除去戦略により,提案アルゴリズムは等価なパレート最適解(すなわち,同じ目的値を持つ異なるパレート最適解)を効果的に保存することができる。 実験の結果,提案手法は大規模マルチモーダル多目的最適化問題を扱う際に,決定空間における解の多様性を効果的に維持できることがわかった。

A multi-modal multi-objective optimization problem is a special kind of multi-objective optimization problem with multiple Pareto subsets. In this paper, we propose an efficient multi-modal multi-objective optimization algorithm based on the widely used MOEA/D algorithm. In our proposed algorithm, each weight vector has its own sub-population. With a clearing mechanism and a greedy removal strategy, our proposed algorithm can effectively preserve equivalent Pareto optimal solutions (i.e., different Pareto optimal solutions with same objective values). Experimental results show that our proposed algorithm can effectively preserve the diversity of solutions in the decision space when handling large-scale multi-modal multi-objective optimization problems.
翻訳日:2022-12-11 06:21:35 公開日:2020-04-21
# 動環境における大規模人口とクロスオーバー支援

Large Population Sizes and Crossover Help in Dynamic Environments ( http://arxiv.org/abs/2004.09949v1 )

ライセンス: Link先を確認
Johannes Lengler, Jonas Meier(参考訳) ハイパーキューブ上の動的線型関数は各ビットに正の重みを割り当てる関数であるが、重みは時間とともに変化する。 最適化を通して、これらの関数は同じ大域的最適性を維持し、局所最適性を欠くことはない。 それにもかかわらず、最近[Lengler, Schaller, FOCI 2019]では、$(1+1)$-Evolutionary Algorithmは、アルゴリズム構成の最適化を見つけ、近似するために指数時間を必要とすることが示されている。 本稿では,動的線形関数の極端形式である動的ビンバルに対するより大きな集団サイズの影響について検討する。 人口が適度に増加すると、効率的なアルゴリズム構成の範囲が拡大し、クロスオーバーによってこのプラス効果が大幅に増大することがわかった。 注目すべきは、[Lengler, Zou, FOGA 2019] のモノトーン関数の静的な設定と同様、$(\mu+1)$-EA の最適化の最も難しい領域は最適化を閉じることではなく、それから離れることである。 対照的に、$(\mu+1)$-ga の場合、最適付近の領域はすべての研究ケースにおいて最も難しい領域である。

Dynamic linear functions on the hypercube are functions which assign to each bit a positive weight, but the weights change over time. Throughout optimization, these functions maintain the same global optimum, and never have defecting local optima. Nevertheless, it was recently shown [Lengler, Schaller, FOCI 2019] that the $(1+1)$-Evolutionary Algorithm needs exponential time to find or approximate the optimum for some algorithm configurations. In this paper, we study the effect of larger population sizes for Dynamic BinVal, the extremal form of dynamic linear functions. We find that moderately increased population sizes extend the range of efficient algorithm configurations, and that crossover boosts this positive effect substantially. Remarkably, similar to the static setting of monotone functions in [Lengler, Zou, FOGA 2019], the hardest region of optimization for $(\mu+1)$-EA is not close the optimum, but far away from it. In contrast, for the $(\mu+1)$-GA, the region around the optimum is the hardest region in all studied cases.
翻訳日:2022-12-11 06:21:23 公開日:2020-04-21
# オンザフライ共同特徴選択と分類

On-the-Fly Joint Feature Selection and Classification ( http://arxiv.org/abs/2004.10245v1 )

ライセンス: Link先を確認
Yasitha Warahena Liyanage, Daphney-Stavroula Zois, Charalampos Chelmis(参考訳) オンライン環境での機能選択と分類は、時間に敏感な意思決定に不可欠である。 しかし、既存の手法の多くは、この結合問題を独立に扱う。 具体的には、オンラインの機能選択メソッドはストリーミング機能またはデータインスタンスをオフラインで処理して、分類のための固定された機能セットを生成することができる。 それでも、既存のすべてのメソッドは、すべてのデータインスタンスに共通する一連の機能を使って分類する。 そこで本研究では,データインスタンス毎に評価された特徴数を最小化し,分類精度を最大化するために,共同機能選択と分類をオンザフライで行うフレームワークを提案する。 最適化問題の最適解を導出し,その構造を分析する。 最適解とその性質に基づく2つのアルゴリズムであるETANAとF-ETANAを提案する。 提案アルゴリズムの性能をいくつかの公開データセットで評価し、実証した。 (i)最先端技術における提案アルゴリズムの優位化 (ii)臨床研究や自然言語処理を含む幅広い応用分野に適用可能であること。

Joint feature selection and classification in an online setting is essential for time-sensitive decision making. However, most existing methods treat this coupled problem independently. Specifically, online feature selection methods can handle either streaming features or data instances offline to produce a fixed set of features for classification, while online classification methods classify incoming instances using full knowledge about the feature space. Nevertheless, all existing methods utilize a set of features, common for all data instances, for classification. Instead, we propose a framework to perform joint feature selection and classification on-the-fly, so as to minimize the number of features evaluated for every data instance and maximize classification accuracy. We derive the optimum solution of the associated optimization problem and analyze its structure. Two algorithms are proposed, ETANA and F-ETANA, which are based on the optimum solution and its properties. We evaluate the performance of the proposed algorithms on several public datasets, demonstrating (i) the dominance of the proposed algorithms over the state-of-the-art, and (ii) its applicability to broad range of application domains including clinical research and natural language processing.
翻訳日:2022-12-11 06:12:58 公開日:2020-04-21
# 逆数学習推論の分解

Decomposed Adversarial Learned Inference ( http://arxiv.org/abs/2004.10267v1 )

ライセンス: Link先を確認
Alexander Hanbo Li, Yaqing Wang, Changyou Chen, Jing Gao(参考訳) 生成的敵モデルに対する効果的な推論は依然として重要かつ困難な問題である。 本稿では,データとコード空間の事前分布と条件分布を明示的に一致させる新しい手法であるDALIを提案し,生成モデルの依存性構造に直接的な制約を課す。 我々は、データに対するパラメトリックな仮定を使わずに効率的に最適化できる事前条件マッチング目的の等価な形式を導出する。 MNIST, CIFAR-10, CelebAデータセットに対するDALIの有効性を定量的および定性評価により検証した。 その結果,DALIは,他の逆推定モデルと比較して,再構成と生成の両方を著しく改善することが示された。

Effective inference for a generative adversarial model remains an important and challenging problem. We propose a novel approach, Decomposed Adversarial Learned Inference (DALI), which explicitly matches prior and conditional distributions in both data and code spaces, and puts a direct constraint on the dependency structure of the generative model. We derive an equivalent form of the prior and conditional matching objective that can be optimized efficiently without any parametric assumption on the data. We validate the effectiveness of DALI on the MNIST, CIFAR-10, and CelebA datasets by conducting quantitative and qualitative evaluations. Results demonstrate that DALI significantly improves both reconstruction and generation as compared to other adversarial inference models.
翻訳日:2022-12-11 06:12:43 公開日:2020-04-21
# ポジティブラベルのみを用いたフェデレーション学習

Federated Learning with Only Positive Labels ( http://arxiv.org/abs/2004.10342v1 )

ライセンス: Link先を確認
Felix X. Yu, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar(参考訳) 我々は,一つのクラスにのみ関連付けられた肯定的なデータにアクセス可能なフェデレーション環境で,複数のクラス分類モデルを学習することを検討する。 その結果、各フェデレーション学習ラウンドでは、ユーザは、負のクラスの特徴やモデルパラメータにアクセスせずに、ローカルに分類器を更新する必要がある。 したがって、分散sgdやフェデレーション平均化といった従来の分散学習を生かして、自明あるいは極端に貧弱な分類器に繋がる可能性がある。 特に、埋め込みベースの分類器の場合、すべてのクラス埋め込みは単一の点に崩壊する可能性がある。 この問題に対処するために,サーバは各ラウンドの後に幾何正規化子を課し,クラスを埋め込み空間に分散させるように促す,fedaws(federated averaging with spreadout)という,ポジティブラベルのみを用いたトレーニングのための汎用フレームワークを提案する。 理論的にも経験的にも、FedAwSは、ユーザが負のラベルにアクセス可能な従来の学習のパフォーマンスにほぼ一致することを示す。 さらに,提案手法を大きな出力空間を持つ設定に拡張する。

We consider learning a multi-class classification model in the federated setting, where each user has access to the positive data associated with only a single class. As a result, during each federated learning round, the users need to locally update the classifier without having access to the features and the model parameters for the negative classes. Thus, naively employing conventional decentralized learning such as the distributed SGD or Federated Averaging may lead to trivial or extremely poor classifiers. In particular, for the embedding based classifiers, all the class embeddings might collapse to a single point. To address this problem, we propose a generic framework for training with only positive labels, namely Federated Averaging with Spreadout (FedAwS), where the server imposes a geometric regularizer after each round to encourage classes to be spreadout in the embedding space. We show, both theoretically and empirically, that FedAwS can almost match the performance of conventional learning where users have access to negative labels. We further extend the proposed method to the settings with large output spaces.
翻訳日:2022-12-11 06:12:15 公開日:2020-04-21
# 線アノテーションを用いた顕微鏡画像における線虫検出のためのCNNフラメンワーク

A CNN Framenwork Based on Line Annotations for Detecting Nematodes in Microscopic Images ( http://arxiv.org/abs/2004.09795v1 )

ライセンス: Link先を確認
Long Chen, Martin Strauch, Matthias Daub, Xiaochen Jiang, Marcus Jansen, Hans-Georg Luigs, Susanne Schultz-Kuhlmann, Stefan Kr\"ussel, Dorif Merhof(参考訳) 植物寄生線虫は、地球規模で作物の損傷を引き起こす。 画像データによるロバスト検出は、このような線虫の観察や、一般的なモデル生物である線虫c. elegansを含む多くの生物学的研究の前提条件である。 本稿では、畳み込みニューラルネットワーク(CNN)に基づく顕微鏡画像中の虫形物体を検出するための枠組みを提案する。 体に沿って曲がった線を持つ線虫をアノテートするが、これはバウンディングボックスよりもワーム型の物体に適している。 訓練されたモデルは、ワーム骨格と体終端を予測する。 エンドポイントは、スケルトンに沿って各部位の体幅を推定することにより、セグメンテーションマスクが再構成される骨格をアンハングルする。 軽量のバックボーンネットワークでは75.85 %の精度、73.02 %のリコールと84.20 %の精度、85.63 %のリコールを公的なC. elegansデータセットで達成している。

Plant parasitic nematodes cause damage to crop plants on a global scale. Robust detection on image data is a prerequisite for monitoring such nematodes, as well as for many biological studies involving the nematode C. elegans, a common model organism. Here, we propose a framework for detecting worm-shaped objects in microscopic images that is based on convolutional neural networks (CNNs). We annotate nematodes with curved lines along the body, which is more suitable for worm-shaped objects than bounding boxes. The trained model predicts worm skeletons and body endpoints. The endpoints serve to untangle the skeletons from which segmentation masks are reconstructed by estimating the body width at each location along the skeleton. With light-weight backbone networks, we achieve 75.85 % precision, 73.02 % recall on a potato cyst nematode data set and 84.20 % precision, 85.63 % recall on a public C. elegans data set.
翻訳日:2022-12-11 06:11:36 公開日:2020-04-21
# 局所制約で学習した物体認識埋め込みを用いた生体画像のインスタンス分割

Instance Segmentation of Biomedical Images with an Object-aware Embedding Learned with Local Constraints ( http://arxiv.org/abs/2004.09821v1 )

ライセンス: Link先を確認
Long Chen, Martin Strauch, Dorit Merhof(参考訳) 自動インスタンスセグメンテーションは、多くの生体医学応用で発生する問題である。 State-of-the-artアプローチは、検出方法から得られたセグメンテーションまたは洗練されたオブジェクト境界ボックスを実行する。 どちらも、隣のオブジェクトをマージしたり、有効なオブジェクトを抑圧したり、さまざまな程度に混雑するオブジェクトに悩まされる。 本研究では,ディープニューラルネットワークを用いて,各画素に埋め込みベクトルを割り当てる。 ネットワークは、同じオブジェクトから同じ方向のピクセルの埋め込みベクトルを出力するように訓練され、隣接するオブジェクトは埋め込み空間で直交し、群衆内のオブジェクトの融合を効果的に回避する。 本手法は, セルセグメンテーション (BBBC006 + DSB2018) とリーフセグメンテーションデータセット (CVPPP2017) を用いた軽量バックボーンネットワークにおいても, 最先端の結果が得られる。 コードとモデルの重み付けが公開されている。

Automatic instance segmentation is a problem that occurs in many biomedical applications. State-of-the-art approaches either perform semantic segmentation or refine object bounding boxes obtained from detection methods. Both suffer from crowded objects to varying degrees, merging adjacent objects or suppressing a valid object. In this work, we assign an embedding vector to each pixel through a deep neural network. The network is trained to output embedding vectors of similar directions for pixels from the same object, while adjacent objects are orthogonal in the embedding space, which effectively avoids the fusion of objects in a crowd. Our method yields state-of-the-art results even with a light-weighted backbone network on a cell segmentation (BBBC006 + DSB2018) and a leaf segmentation data set (CVPPP2017). The code and model weights are public available.
翻訳日:2022-12-11 06:11:09 公開日:2020-04-21
# 深層ニューラルネットワーク訓練におけるデータ読み込みパイプラインの重要性

Importance of Data Loading Pipeline in Training Deep Neural Networks ( http://arxiv.org/abs/2005.02130v1 )

ライセンス: Link先を確認
Mahdi Zolnouri and Xinlin Li and Vahid Partovi Nia(参考訳) 大規模なディープニューラルネットワークのトレーニングは長い時間を要する作業であり、多くのGPUを加速させる必要がしばしばある。 大きなモデルでは、データのロードに費やす時間は、モデルのトレーニング時間の大部分を要します。 GPUサーバは通常高価であるため、トレーニング時間を節約できるトリックが有用である。 データ拡張技術には、パディング、ローテーション、ノイズの追加、サンプリングダウン、サンプリングアップなどが含まれる。 これらの追加操作により、効率的なデータローディングパイプラインの構築と、トレーニング時間を短縮するための既存のツールの検討の必要性が高まる。 データ読み込みを高速化するバイナリデータフォーマットと,データ拡張を高速化するNVIDIA DALIという,このタスク用に設計された2つの主要なツールの比較に着目する。 本研究は,そのような専用ツールを使用する場合,20%から40%の順の改善を示す。

Training large-scale deep neural networks is a long, time-consuming operation, often requiring many GPUs to accelerate. In large models, the time spent loading data takes a significant portion of model training time. As GPU servers are typically expensive, tricks that can save training time are valuable.Slow training is observed especially on real-world applications where exhaustive data augmentation operations are required. Data augmentation techniques include: padding, rotation, adding noise, down sampling, up sampling, etc. These additional operations increase the need to build an efficient data loading pipeline, and to explore existing tools to speed up training time. We focus on the comparison of two main tools designed for this task, namely binary data format to accelerate data reading, and NVIDIA DALI to accelerate data augmentation. Our study shows improvement on the order of 20% to 40% if such dedicated tools are used.
翻訳日:2022-12-11 06:10:52 公開日:2020-04-21
# 長編小説の自動コメントのための進化的知識の符号化

Learning to Encode Evolutionary Knowledge for Automatic Commenting Long Novels ( http://arxiv.org/abs/2004.09974v1 )

ライセンス: Link先を確認
Canxiang Yan, Jianhao Yan, Yangyin Xu, Cheng Niu, Jie Zhou(参考訳) 静的知識グラフはテキスト生成のためのシーケンシャル・ツー・シーケンスフレームワークに広く組み込まれている。 構造化コンテキストを効果的に表現する一方で、静的知識グラフは動的事象のモデル化に必要な知識進化を表現できなかった。 本稿では,数万語以上の単語の文脈を理解することを含む長編小説に対して,自動コメントタスクを提案する。 動的ストーリーライン,特に文字とその関係の遷移をモデル化するために,進化的知識グラフ(EKG)を提案し,マルチタスクフレームワーク内で学習した。 コメントの特定の節が与えられた後、逐次モデリングは文脈表現に歴史的および将来の埋め込みを組み込むのに使用される。 さらに、コメント生成にEKGを利用するようにグラフ・ツー・シーケンス・モデルが設計されている。 EKG法は, 自動評価と人的評価の両面において, 強力なベースラインよりも優れていた。

Static knowledge graph has been incorporated extensively into sequence-to-sequence framework for text generation. While effectively representing structured context, static knowledge graph failed to represent knowledge evolution, which is required in modeling dynamic events. In this paper, an automatic commenting task is proposed for long novels, which involves understanding context of more than tens of thousands of words. To model the dynamic storyline, especially the transitions of the characters and their relations, Evolutionary Knowledge Graph(EKG) is proposed and learned within a multi-task framework. Given a specific passage to comment, sequential modeling is used to incorporate historical and future embedding for context representation. Further, a graph-to-sequence model is designed to utilize the EKG for comment generation. Extensive experimental results show that our EKG-based method is superior to several strong baselines on both automatic and human evaluations.
翻訳日:2022-12-11 06:05:14 公開日:2020-04-21
# ユーザマーケティングにおける効率最適化のための不均一因果学習

Heterogeneous Causal Learning for Effectiveness Optimization in User Marketing ( http://arxiv.org/abs/2004.09702v1 )

ライセンス: Link先を確認
Will Y. Zou, Shuyang Du, James Lee, Jan Pedersen(参考訳) ユーザーマーケティングは、消費者ベースのインターネット企業の重要な焦点である。 学習アルゴリズムは、ユーザのエンゲージメントを高めるマーケティングキャンペーンの最適化に有効であり、関連する製品へのクロスマーケティングを促進する。 ユーザーを報酬で惹きつけることにより、マーケティング手法は、望ましい製品におけるユーザーアクティビティを高めるのに効果的である。 Rewardsは、将来の収益の増加によってオフセットできる相当なコストを発生させる。 ほとんどの方法論は、ユーザを失うことを防ぎ、マーケティング上の決定をするのを防ぐために、混乱した予測に依存しています。 他の予測モデルは不均一な処理効果を推定できるが、コスト対利益のバランスを捉えられない。 ユーザマーケティングのための治療効果最適化手法を提案する。 このアルゴリズムは過去の実験から学習し、ユーザ選択に対するコスト効率の最適化に新しい最適化手法を利用する。 この方法は、ユーザーを治療し報奨するためにディープラーニング最適化モデルを使用して意思決定を最適化する。 本手法は,深層学習手法の統合とビジネス制約への対応により,優れたアルゴリズムの柔軟性を示す。 本モデルの有効性は準オーラル推定(R-learner)モデルと因果林を超越している。 コスト効率と実世界のビジネス価値を反映した評価指標も確立しました。 提案手法は,先行技術およびベースライン法において,最良性能の手法と比較して24.6%向上した。 この手法は最適な処理割り当てなどの多くの製品シナリオで有用であり、世界中で運用されている。

User marketing is a key focus of consumer-based internet companies. Learning algorithms are effective to optimize marketing campaigns which increase user engagement, and facilitates cross-marketing to related products. By attracting users with rewards, marketing methods are effective to boost user activity in the desired products. Rewards incur significant cost that can be off-set by increase in future revenue. Most methodologies rely on churn predictions to prevent losing users to make marketing decisions, which cannot capture up-lift across counterfactual outcomes with business metrics. Other predictive models are capable of estimating heterogeneous treatment effects, but fail to capture the balance of cost versus benefit. We propose a treatment effect optimization methodology for user marketing. This algorithm learns from past experiments and utilizes novel optimization methods to optimize cost efficiency with respect to user selection. The method optimizes decisions using deep learning optimization models to treat and reward users, which is effective in producing cost-effective, impactful marketing campaigns. Our methodology demonstrates superior algorithmic flexibility with integration with deep learning methods and dealing with business constraints. The effectiveness of our model surpasses the quasi-oracle estimation (R-learner) model and causal forests. We also established evaluation metrics that reflect the cost-efficiency and real-world business value. Our proposed constrained and direct optimization algorithms outperform by 24.6% compared with the best performing method in prior art and baseline methods. The methodology is useful in many product scenarios such as optimal treatment allocation and it has been deployed in production world-wide.
翻訳日:2022-12-11 06:04:43 公開日:2020-04-21
# ダイアクロニック記述を用いた絵画作品の自動タグ推薦

Automatic Tag Recommendation for Painting Artworks Using Diachronic Descriptions ( http://arxiv.org/abs/2004.09710v1 )

ライセンス: Link先を確認
Gianlucca Zuin, Adriano Veloso, Jo\~ao C\^andido Portinari and Nivio Ziviani(参考訳) 本稿では,絵画作品の自動タグ推薦の問題に対処する。 それぞれの絵画を記述するために使われる語彙の偏差を含むダイアクロニックな記述は、通常、多くの専門家が時間をかけて作品を行うときに起こる。 この研究の目的は、大規模なコレクション内の各絵画に対して、より正確で均質なタグセットを生成するフレームワークを提供することである。 提案手法を検証するため,ブラジルの画家カンディド・ポルチナリの絵画の専門家が手書きで描いた5,300ドル以上の絵画について,弱い教師付きニューラルネットワークに基づくモデルを構築した。 この作品は1979年に始まったポルティナリ・プロジェクト(Portinari Project)で、ブラジルの画家の絵画の復元とカタログ化を目的としている。 当時のポルティナリの絵画は民間のコレクションや博物館が世界中に散らばっており、一般にはアクセスできないものであった。 それぞれの絵画の描写は40年以上にわたって多くの協力者によって作成され、これらのダイアクロニックな記述はそれぞれの絵画を記述するのに使われる語彙の偏りを引き起こした。 提案するフレームワークは (i)各絵画の画像を入力して、頻繁なアイテムセットを可能なタグとして使用するニューラルネットワーク、 (ii)事前学習された分類器の出力に基づいて関連タグをグループ化するクラスタリングステップ。

In this paper, we deal with the problem of automatic tag recommendation for painting artworks. Diachronic descriptions containing deviations on the vocabulary used to describe each painting usually occur when the work is done by many experts over time. The objective of this work is to provide a framework that produces a more accurate and homogeneous set of tags for each painting in a large collection. To validate our method we build a model based on a weakly-supervised neural network for over $5{,}300$ paintings with hand-labeled descriptions made by experts for the paintings of the Brazilian painter Candido Portinari. This work takes place with the Portinari Project which started in 1979 intending to recover and catalog the paintings of the Brazilian painter. The Portinari paintings at that time were in private collections and museums spread around the world and thus inaccessible to the public. The descriptions of each painting were made by a large number of collaborators over 40 years as the paintings were recovered and these diachronic descriptions caused deviations on the vocabulary used to describe each painting. Our proposed framework consists of (i) a neural network that receives as input the image of each painting and uses frequent itemsets as possible tags, and (ii) a clustering step in which we group related tags based on the output of the pre-trained classifiers.
翻訳日:2022-12-11 06:04:22 公開日:2020-04-21
# ブール閾値オートエンコーダの圧縮力について

On the Compressive Power of Boolean Threshold Autoencoders ( http://arxiv.org/abs/2004.09735v1 )

ライセンス: Link先を確認
Avraham A. Melkman, Sini Guo, Wai-Ki Ching, Pengyu Liu, Tatsuya Akutsu(参考訳) オートエンコーダ(autoencoder)は、エンコーダ(encoder)と、低次元のベクトルに$D$の入力ベクトルを圧縮するエンコーダ(encoder)と、低次元のベクトルを元の入力ベクトル(または非常によく似たもの)に変換するデコーダ(decoder)から構成される階層型ニューラルネットワークである。 本稿では,与えられた入力2進ベクトルの集合内の各ベクトルが元のベクトルに変換されることを保証するために必要となるノードとレイヤの数を調べることにより,ブールしきい値ネットワークであるオートエンコーダの圧縮力について検討する。 任意の$n$異なるベクトル集合に対して、最小の中間層を持つ7層オートエンコーダが存在する(すなわち、そのサイズは$n$で対数的である)が、同じ大きさの中間層を持つ3層オートエンコーダが存在しないような$n$ベクトルの集合が存在することを示す。 さらに、我々はある種のトレードオフを提示している:もしかなり大きな中間層が許容できるなら、5層オートエンコーダが存在する。 エンコーディング自体も研究しています。 その結果,自動エンコーディングのボトルネックとなるのはデコードであることが示唆された。 例えば、常に3層ブールしきい値エンコーダがあり、これは$n$ベクターを次元に圧縮し、それは$n$の対数を2倍に減らす。

An autoencoder is a layered neural network whose structure can be viewed as consisting of an encoder, which compresses an input vector of dimension $D$ to a vector of low dimension $d$, and a decoder which transforms the low-dimensional vector back to the original input vector (or one that is very similar). In this paper we explore the compressive power of autoencoders that are Boolean threshold networks by studying the numbers of nodes and layers that are required to ensure that the numbers of nodes and layers that are required to ensure that each vector in a given set of distinct input binary vectors is transformed back to its original. We show that for any set of $n$ distinct vectors there exists a seven-layer autoencoder with the smallest possible middle layer, (i.e., its size is logarithmic in $n$), but that there is a set of $n$ vectors for which there is no three-layer autoencoder with a middle layer of the same size. In addition we present a kind of trade-off: if a considerably larger middle layer is permissible then a five-layer autoencoder does exist. We also study encoding by itself. The results we obtain suggest that it is the decoding that constitutes the bottleneck of autoencoding. For example, there always is a three-layer Boolean threshold encoder that compresses $n$ vectors into a dimension that is reduced to twice the logarithm of $n$.
翻訳日:2022-12-11 06:03:57 公開日:2020-04-21
# 正のラベルなし学習の改善:実用的aur推定と超不均衡データセットのための新しい訓練法

Improving Positive Unlabeled Learning: Practical AUL Estimation and New Training Method for Extremely Imbalanced Data Sets ( http://arxiv.org/abs/2004.09820v1 )

ライセンス: Link先を確認
Liwei Jiang, Dan Li, Qisheng Wang, Shuai Wang, Songtao Wang(参考訳) 正のアンラベル(PU)学習は多くのアプリケーションで広く使われており、バイナリ分類器は正と未ラベルのサンプルのみからなるデータセットで訓練される。 本稿では,最先端技術によるPU学習を2つの側面から改善する。 まず、既存のPU学習のためのモデル評価手法は、実際に得られる可能性が低い未ラベル標本の基礎的真理を必要とする。 この制限を解除するために,未ラベルサンプルの事前知識を必要とせずに生のPUデータを利用する,漸近的無バイアス実用的なAUL推定法を提案する。 第2に,極端に不均衡なデータセットのための新しいトレーニング手法であるProbTaggingを提案する。 ProbTaggingはアグリゲーション法に確率を導入する。 具体的には、各ラベルのないサンプルは、その正の近傍との類似性に基づいて算出された確率で、正または負のタグづけされる。 これに基づいて、異なるモデルをトレーニングするために複数のデータセットが生成され、アンサンブルモデルに結合される。 現状技術と比較すると,3つの産業用および2つの人工PUデータセットに基づいて,ProbTaggingはAUCを最大10%増加させることができる。

Positive Unlabeled (PU) learning is widely used in many applications, where a binary classifier is trained on the datasets consisting of only positive and unlabeled samples. In this paper, we improve PU learning over state-of-the-art from two aspects. Firstly, existing model evaluation methods for PU learning requires ground truth of unlabeled samples, which is unlikely to be obtained in practice. In order to release this restriction, we propose an asymptotic unbiased practical AUL (area under the lift) estimation method, which makes use of raw PU data without prior knowledge of unlabeled samples. Secondly, we propose ProbTagging, a new training method for extremely imbalanced data sets, where the number of unlabeled samples is hundreds or thousands of times that of positive samples. ProbTagging introduces probability into the aggregation method. Specifically, each unlabeled sample is tagged positive or negative with the probability calculated based on the similarity to its positive neighbors. Based on this, multiple data sets are generated to train different models, which are then combined into an ensemble model. Compared to state-of-the-art work, the experimental results show that ProbTagging can increase the AUC by up to 10%, based on three industrial and two artificial PU data sets.
翻訳日:2022-12-11 06:02:29 公開日:2020-04-21
# メール送信時間決定のためのRNN生存モデル

An RNN-Survival Model to Decide Email Send Times ( http://arxiv.org/abs/2004.09900v1 )

ライセンス: Link先を確認
Harvineet Singh, Moumita Sinha, Atanu R. Sinha, Sahil Garg, Neha Banerjee(参考訳) 電子メール通信はユビキタスです。 企業はメールの送信時刻を管理し、メールが受信者に届く瞬間(送信時刻から即座に受信すると仮定される)を制御する。 しかし、受信者がメールを開くのに要する時間を制御していない。 重要なのは、開いているメールの中で、ほとんどが送信時刻から短いウィンドウ内で発生することだ。 我々は、送信時間が受信者に都合の良いときにメールがより早く開く可能性が高いと仮定する。 したがって、適切な送信時間を計算するためには、正確に開封時間を予測することが重要である。 本稿では,各受信者に対する開封時間を予測するために,サバイバルモデルフレームワークにおけるリカレントニューラルネットワーク(RNN)を提案する。 それを使って適切な送信時間を計算します。 5ヶ月で100万人の顧客に送られたメールのデータセットを実験しました。 送信者から受信した電子メールのシーケンスは、送信者からの過去のメールとのインタラクションの結果であり、それによってモデルに通知する有用な信号を含んでいる。 この逐次的依存は、我々が提案したRNN-Survival (RNN-S) アプローチにより、開封時間を予測する生存分析手法より優れている。 メール送信のベストタイムは、予測した時間からオープンまで正確に計算できることを示す。 このアプローチにより、企業はメールの送信時間を調整でき、それがコントロールされているので、オープンレートやエンゲージメントに好影響を与える。

Email communications are ubiquitous. Firms control send times of emails and thereby the instants at which emails reach recipients (it is assumed email is received instantaneously from the send time). However, they do not control the duration it takes for recipients to open emails, labeled as time-to-open. Importantly, among emails that are opened, most occur within a short window from their send times. We posit that emails are likely to be opened sooner when send times are convenient for recipients, while for other send times, emails can get ignored. Thus, to compute appropriate send times it is important to predict times-to-open accurately. We propose a recurrent neural network (RNN) in a survival model framework to predict times-to-open, for each recipient. Using that we compute appropriate send times. We experiment on a data set of emails sent to a million customers over five months. The sequence of emails received by a person from a sender is a result of interactions with past emails from the sender, and hence contain useful signal that inform our model. This sequential dependence affords our proposed RNN-Survival (RNN-S) approach to outperform survival analysis approaches in predicting times-to-open. We show that best times to send emails can be computed accurately from predicted times-to-open. This approach allows a firm to tune send times of emails, which is in its control, to favorably influence open rates and engagement.
翻訳日:2022-12-11 06:02:06 公開日:2020-04-21
# EMPIR: 敵攻撃に対するロバスト性向上のための混合精密深層ネットワークの集合

EMPIR: Ensembles of Mixed Precision Deep Networks for Increased Robustness against Adversarial Attacks ( http://arxiv.org/abs/2004.10162v1 )

ライセンス: Link先を確認
Sanchari Sen, Balaraman Ravindran, Anand Raghunathan(参考訳) ディープニューラルネットワーク(DNN)の堅牢性を保証することは、自動運転車やドローン、ヘルスケアといった安全クリティカルなアプリケーションの採用に不可欠である。 特に、DNNは、小さな入力摂動が破滅的な誤分類を生じさせる敵の攻撃に弱い。 本研究では,逆攻撃に対するロバスト性を高めるための新しい手法として,数値精度の異なる量子化dnnモデルのempirを提案する。 EMPIRは、量子化されたニューラルネットワークは、完全な精度のネットワークよりも敵の攻撃に対してはるかに高い堅牢性を示すことが多いが、元の(未成熟の)入力に対してかなりの精度の損失を被る。 EMPIRはこの制限を克服し、「両方の世界のベスト」、すなわち全精度モデルのより高い非摂動精度と低い精度モデルの高い堅牢さをアンサンブルで構成することで達成する。 さらに,低精度DNNモデルでは,完全精度モデルよりも計算・記憶要求が大幅に低くなるため,EMPIRモデルは1つの完全精度モデル (25%) と比較して,モデムやメモリオーバーヘッドの少ないモデルに限られる。 我々は,3つの異なる画像認識タスク(MNIST, CIFAR-10, ImageNet)と4つの異なる対向攻撃に対するEMPIRの評価を行った。 EMPIRは、MNIST、CIFAR-10、ImageNetの各データセットでトレーニングされたDNNモデルの平均対向精度を42.6%、15.2%、10.5%向上させる。

Ensuring robustness of Deep Neural Networks (DNNs) is crucial to their adoption in safety-critical applications such as self-driving cars, drones, and healthcare. Notably, DNNs are vulnerable to adversarial attacks in which small input perturbations can produce catastrophic misclassifications. In this work, we propose EMPIR, ensembles of quantized DNN models with different numerical precisions, as a new approach to increase robustness against adversarial attacks. EMPIR is based on the observation that quantized neural networks often demonstrate much higher robustness to adversarial attacks than full precision networks, but at the cost of a substantial loss in accuracy on the original (unperturbed) inputs. EMPIR overcomes this limitation to achieve the 'best of both worlds', i.e., the higher unperturbed accuracies of the full precision models combined with the higher robustness of the low precision models, by composing them in an ensemble. Further, as low precision DNN models have significantly lower computational and storage requirements than full precision models, EMPIR models only incur modest compute and memory overheads compared to a single full-precision model (<25% in our evaluations). We evaluate EMPIR across a suite of DNNs for 3 different image recognition tasks (MNIST, CIFAR-10 and ImageNet) and under 4 different adversarial attacks. Our results indicate that EMPIR boosts the average adversarial accuracies by 42.6%, 15.2% and 10.5% for the DNN models trained on the MNIST, CIFAR-10 and ImageNet datasets respectively, when compared to single full-precision models, without sacrificing accuracy on the unperturbed inputs.
翻訳日:2022-12-11 05:55:41 公開日:2020-04-21
# ニューロモルフィック展開のためのバイナリ通信ネットワークにおけるハイパーパラメータ最適化

Hyperparameter Optimization in Binary Communication Networks for Neuromorphic Deployment ( http://arxiv.org/abs/2005.04171v1 )

ライセンス: Link先を確認
Maryam Parsa, Catherine D. Schuman, Prasanna Date, Derek C. Rose, Bill Kay, J. Parker Mitchell, Steven R. Young, Ryan Dellana, William Severa, Thomas E. Potok, Kaushik Roy(参考訳) ニューロモルフィック展開のためのニューラルネットワークのトレーニングは簡単ではない。 バックプロパゲーションやバックプロパゲーションのようなアルゴリズムをトレーニングに適したものにするために、さまざまなアプローチが提案されている。 これらのネットワークは従来のニューラルネットワークと非常に異なる性能特性を持つことが多いため、最適性能を達成するためにネットワークトポロジーまたはハイパーパラメータを設定する方法がしばしば不明である。 本研究では,ニューロモルフィックハードウェアに展開可能なバイナリ通信ネットワークをトレーニングするためのアルゴリズムのハイパーパラメータを最適化するためのベイズ的アプローチを提案する。 各データセットに対するこのアルゴリズムのハイパーパラメータを最適化することにより、各データセットにおけるこのアルゴリズムのこれまでの最先端(最大15%)よりも精度が向上できることを示す。 このパフォーマンス向上は、従来のニューラルネットワークをニューロモルフィックハードウェアに適用可能なバイナリ通信に変換する際の可能性を強調し続けている。

Training neural networks for neuromorphic deployment is non-trivial. There have been a variety of approaches proposed to adapt back-propagation or back-propagation-like algorithms appropriate for training. Considering that these networks often have very different performance characteristics than traditional neural networks, it is often unclear how to set either the network topology or the hyperparameters to achieve optimal performance. In this work, we introduce a Bayesian approach for optimizing the hyperparameters of an algorithm for training binary communication networks that can be deployed to neuromorphic hardware. We show that by optimizing the hyperparameters on this algorithm for each dataset, we can achieve improvements in accuracy over the previous state-of-the-art for this algorithm on each dataset (by up to 15 percent). This jump in performance continues to emphasize the potential when converting traditional neural networks to binary communication applicable to neuromorphic hardware.
翻訳日:2022-12-11 05:54:45 公開日:2020-04-21
# 自動ソーシャルメディアトラフィックレポートを用いたパーソナルナビゲーションアシスタントシステムの活用

Leveraging Personal Navigation Assistant Systems Using Automated Social Media Traffic Reporting ( http://arxiv.org/abs/2004.13823v1 )

ライセンス: Link先を確認
Xiangpeng Wan, Hakim Ghazzai, and Yehia Massoud(参考訳) 現代の都市化は、車両の渋滞やインシデントの増加を緩和するために、インテリジェントな交通システムにおける様々な応用を改善するために、よりスマートな技術を要求する。 既存のインシデント検出技術は、輸送ネットワークにおけるセンサーの使用と人間の入力のハングに限られている。 データの豊富さにもかかわらず、ソーシャルメディアはそのような状況では十分に露出していない。 本稿では,この情報洪水をフィルタリングし,重要な交通関連弾丸を抽出する自然言語処理(NLP)に基づく自動交通警報システムの開発を行う。 この目的のために我々は,トランスフォーマー(bert)言語埋め込みモデルによる双方向エンコーダ表現の微調整を行い,関連する交通情報をソーシャルメディアからフィルタリングする。 そして,質問応答モデルを用いて,その正確な位置,発生時間,事象の性質など,報告イベントを特徴付ける必要な情報を抽出する。 導入したNLPアプローチが既存のアプローチよりも優れていることを実証し、効果的にトレーニングした後、現実世界の状況に注目し、開発したアプローチが、リアルタイムに、交通関連情報を抽出し、ナビゲーションアプリのようなナビゲーション支援アプリケーションのためのアラートに自動的に変換できることを示す。

Modern urbanization is demanding smarter technologies to improve a variety of applications in intelligent transportation systems to relieve the increasing amount of vehicular traffic congestion and incidents. Existing incident detection techniques are limited to the use of sensors in the transportation network and hang on human-inputs. Despite of its data abundance, social media is not well-exploited in such context. In this paper, we develop an automated traffic alert system based on Natural Language Processing (NLP) that filters this flood of information and extract important traffic-related bullets. To this end, we employ the fine-tuning Bidirectional Encoder Representations from Transformers (BERT) language embedding model to filter the related traffic information from social media. Then, we apply a question-answering model to extract necessary information characterizing the report event such as its exact location, occurrence time, and nature of the events. We demonstrate the adopted NLP approaches outperform other existing approach and, after effectively training them, we focus on real-world situation and show how the developed approach can, in real-time, extract traffic-related information and automatically convert them into alerts for navigation assistance applications such as navigation apps.
翻訳日:2022-12-11 05:53:55 公開日:2020-04-21
# テキストスポッティングのためのテキスト視覚意味データセット

Textual Visual Semantic Dataset for Text Spotting ( http://arxiv.org/abs/2004.10349v1 )

ライセンス: Link先を確認
Ahmed Sabir, Francesc Moreno-Noguer and Llu\'is Padr\'o(参考訳) ワイルドなテキストスポッティングは、画像に現れるテキスト(例えば、看板、交通信号、服やオブジェクトのブランド)を検出し認識することから成り立っている。 これは、テキストが現れるコンテキストの複雑さ(背景、陰影、閉塞、視点歪みなど)のため、難しい問題である。 テキストと周辺環境の関係を利用して、シーン内のテキストをよりよく認識しようとするアプローチはごくわずかである。 本稿では,公開データセットであるcoco-text [veit et al. 2016]をシーン情報(画像に現れるオブジェクトや場所など)とともに拡張し,テキストスポッティングシステムにおけるテキストとシーン間の意味的関係を研究者に含ませるとともに,そのようなアプローチのための共通フレームワークを提供する,野生のテキストスポッティングのためのビジュアルコンテキストデータセットを提案する。 画像中の各テキストに対して、シーン内のオブジェクト、画像位置ラベル、テキストによる画像記述(キャプション)の3種類のコンテキスト情報を抽出する。 私たちはこの追加情報を抽出するために最先端のツールを使用します。 この情報にはテキスト形式があるため、テキストの類似性や意味関係の手法を、後処理やエンドツーエンドのトレーニング戦略としてテキストスポッティングシステムに活用することができる。 我々のデータはhttps://git.io/JeZTb.comで公開されている。

Text Spotting in the wild consists of detecting and recognizing text appearing in images (e.g. signboards, traffic signals or brands in clothing or objects). This is a challenging problem due to the complexity of the context where texts appear (uneven backgrounds, shading, occlusions, perspective distortions, etc.). Only a few approaches try to exploit the relation between text and its surrounding environment to better recognize text in the scene. In this paper, we propose a visual context dataset for Text Spotting in the wild, where the publicly available dataset COCO-text [Veit et al. 2016] has been extended with information about the scene (such as objects and places appearing in the image) to enable researchers to include semantic relations between texts and scene in their Text Spotting systems, and to offer a common framework for such approaches. For each text in an image, we extract three kinds of context information: objects in the scene, image location label and a textual image description (caption). We use state-of-the-art out-of-the-box available tools to extract this additional information. Since this information has textual form, it can be used to leverage text similarity or semantic relation methods into Text Spotting systems, either as a post-processing or in an end-to-end training strategy. Our data is publicly available at https://git.io/JeZTb.
翻訳日:2022-12-11 05:53:34 公開日:2020-04-21
# 単語埋め込みに基づく要約と固有情報抽出のためのテキスト処理

Word Embedding-based Text Processing for Comprehensive Summarization and Distinct Information Extraction ( http://arxiv.org/abs/2004.09719v1 )

ライセンス: Link先を確認
Xiangpeng Wan, Hakim Ghazzai, and Yehia Massoud(参考訳) 本稿では,オンラインレビューの分析に特化した2つの自動テキスト処理フレームワークを提案する。 最初のフレームワークの目的は、本文を抽出してレビューデータセットを要約することである。 これは、文を数値ベクトルに変換し、それらの類似度レベルに基づいてコミュニティ検出アルゴリズムを用いてクラスタ化する。 その後、各文に対して相関スコアを計測し、各クラスタの重要度を判定し、そのコミュニティのタグとして割り当てる。 第2のフレームワークは、複数の異なる質問に対する回答を抽出するように訓練された質問回答ニューラルネットワークモデルに基づいている。 収集された回答は効果的にクラスタ化され、顧客から質問される可能性のある1つの質問に対して、複数の異なる回答を見つける。 提案されたフレームワークは、既存のレビュー処理ソリューションよりも包括的であることが示されている。

In this paper, we propose two automated text processing frameworks specifically designed to analyze online reviews. The objective of the first framework is to summarize the reviews dataset by extracting essential sentence. This is performed by converting sentences into numerical vectors and clustering them using a community detection algorithm based on their similarity levels. Afterwards, a correlation score is measured for each sentence to determine its importance level in each cluster and assign it as a tag for that community. The second framework is based on a question-answering neural network model trained to extract answers to multiple different questions. The collected answers are effectively clustered to find multiple distinct answers to a single question that might be asked by a customer. The proposed frameworks are shown to be more comprehensive than existing reviews processing solutions.
翻訳日:2022-12-11 05:53:09 公開日:2020-04-21
# 咬合と言語モデルを用いたnlp分類の妥当性の検討

Considering Likelihood in NLP Classification Explanations with Occlusion and Language Modeling ( http://arxiv.org/abs/2004.09890v1 )

ライセンス: Link先を確認
David Harbecke, Christoph Alt(参考訳) 近年、最先端のNLPモデルは言語の構文的・意味的理解が高まり、その決定を理解する上では説明法が不可欠である。 オクルージョンは、例えば、入力から言語単位を取り除き、モデルの決定への影響を測定することによって、離散的な言語データの説明を提供する、確立された方法である。 我々は,近年のNLPモデルの能力向上を無視して,無効あるいは構文的に誤った言語データを生成する場合が多いことを論じる。 さらに、勾配に基づく説明法は、NLPにおけるデータの離散分布を無視する。 そこで本研究では,オクルージョンと言語モデルを組み合わせた新しい説明手法OLMを提案する。 我々は,NLPにおける他の説明手法の弱点を緩和する理論基盤を構築し,オクルージョンに基づく説明において,データ可能性を考慮することが重要であることを示す。

Recently, state-of-the-art NLP models gained an increasing syntactic and semantic understanding of language, and explanation methods are crucial to understand their decisions. Occlusion is a well established method that provides explanations on discrete language data, e.g. by removing a language unit from an input and measuring the impact on a model's decision. We argue that current occlusion-based methods often produce invalid or syntactically incorrect language data, neglecting the improved abilities of recent NLP models. Furthermore, gradient-based explanation methods disregard the discrete distribution of data in NLP. Thus, we propose OLM: a novel explanation method that combines occlusion and language models to sample valid and syntactically correct replacements with high likelihood, given the context of the original input. We lay out a theoretical foundation that alleviates these weaknesses of other explanation methods in NLP and provide results that underline the importance of considering data likelihood in occlusion-based explanation.
翻訳日:2022-12-11 05:52:36 公開日:2020-04-21
# 不均一因果関係を考慮した連続処理と二部埋め込みの学習

Learning Continuous Treatment Policy and Bipartite Embeddings for Matching with Heterogeneous Causal Effects ( http://arxiv.org/abs/2004.09703v1 )

ライセンス: Link先を確認
Will Y. Zou, Smitha Shyam, Michael Mui, Mingshi Wang, Jan Pedersen, Zoubin Ghahramani(参考訳) 因果推論法は医学、政策、経済学の分野で広く応用されている。 これらの応用の中心は、意思決定のための治療効果の推定である。 現在の方法は、単一の結果次元の処理効果に基づいて二項yesまたはnoを決定する。 これらの手法は、強度の尺度で連続的な空間処理ポリシーを捉えることができない。 また、候補治療と被験者とのマッチングなど、治療の複雑さを考える能力が欠如している。 パラメトリブルモデルとして治療の有効性を定式化し, 連続的政策処理関数による治療強度や複雑度の拡大, マッチングの可能性について検討した。 治療効果関数を有効因子に分解する提案手法は、因果推論を用いてリッチな行動空間をモデル化する枠組みを示す。 深層学習を利用して, 1次元の処理を非現実的に予測する代わりに, 所望の総体距離空間を最適化する。 このアプローチは、人口全体の有効性尺度を採用し、モデル全体の効果を大幅に改善する。 アルゴリズムの性能は実験で実証されている。 一般的な連続空間処理と整合性アーキテクチャを用いて, コスト効率, 平均処理効果の68%で, 先行技術の41%の改善を観察した。 アルゴリズムは処理空間の微妙な変化を捉え、効率的な最適化技術を構築し、多くのアプリケーションのためのアリーナを開く。

Causal inference methods are widely applied in the fields of medicine, policy, and economics. Central to these applications is the estimation of treatment effects to make decisions. Current methods make binary yes-or-no decisions based on the treatment effect of a single outcome dimension. These methods are unable to capture continuous space treatment policies with a measure of intensity. They also lack the capacity to consider the complexity of treatment such as matching candidate treatments with the subject. We propose to formulate the effectiveness of treatment as a parametrizable model, expanding to a multitude of treatment intensities and complexities through the continuous policy treatment function, and the likelihood of matching. Our proposal to decompose treatment effect functions into effectiveness factors presents a framework to model a rich space of actions using causal inference. We utilize deep learning to optimize the desired holistic metric space instead of predicting single-dimensional treatment counterfactual. This approach employs a population-wide effectiveness measure and significantly improves the overall effectiveness of the model. The performance of our algorithms is. demonstrated with experiments. When using generic continuous space treatments and matching architecture, we observe a 41% improvement upon prior art with cost-effectiveness and 68% improvement upon a similar method in the average treatment effect. The algorithms capture subtle variations in treatment space, structures the efficient optimizations techniques, and opens up the arena for many applications.
翻訳日:2022-12-11 05:46:14 公開日:2020-04-21
# 非分離報酬関数を有するスレートバンディットのアルゴリズム

Algorithms for slate bandits with non-separable reward functions ( http://arxiv.org/abs/2004.09957v1 )

ライセンス: Link先を確認
Jason Rhuggenaath, Alp Akcay, Yingqian Zhang and Uzay Kaymak(参考訳) 本稿では,スレートレベルの報酬を決定する関数が分離不可能であるスレートバンディット問題について検討する。 我々は,スレート数が時間軸に対して大きい場合が主であり,従来の多腕バンディットでは各スレートを別個のアームとして試すことは不可能である。 我々の主な貢献は、多くのスレートにもかかわらず、時間軸に関してまだサブ線形後悔を持つアルゴリズムの設計である。 シミュレーションデータと実世界データを用いた実験の結果,提案手法がベンチマークバンディットアルゴリズムよりも優れていることがわかった。

In this paper, we study a slate bandit problem where the function that determines the slate-level reward is non-separable: the optimal value of the function cannot be determined by learning the optimal action for each slot. We are mainly concerned with cases where the number of slates is large relative to the time horizon, so that trying each slate as a separate arm in a traditional multi-armed bandit, would not be feasible. Our main contribution is the design of algorithms that still have sub-linear regret with respect to the time horizon, despite the large number of slates. Experimental results on simulated data and real-world data show that our proposed method outperforms popular benchmark bandit algorithms.
翻訳日:2022-12-11 05:45:28 公開日:2020-04-21
# 医用画像分類のためのテンソルネットワーク

Tensor Networks for Medical Image Classification ( http://arxiv.org/abs/2004.10076v1 )

ライセンス: Link先を確認
Raghavendra Selvan and Erik B Dam(参考訳) 複数のドメインにまたがるニューラルネットワークのような機械学習ツールの普及に伴い、興味深い接続や、他のドメインの概念との比較が明らかになった。 この研究では、量子多体系を分析するために過去20年間、物理学者の作業馬として用いられてきたテンソルネットワークのクラスに焦点を当てている。 機械学習における近年のテンソルネットワークへの関心に基づいて,行列積状態テンソルネットワーク(指数関数的に高次元空間で動作する線形分類器として解釈できる)を拡張し,医用画像解析タスクに有用である。 テンソルネットワークの利用を動機づける第1ステップとして分類問題に着目し,画像の局所秩序性などの古典的画像領域の概念を用いた2次元画像への適応を提案する。 提案する局所無秩序テンソルネットワークモデル(lotenet)により,テンソルネットワークは最先端のディープラーニング手法に匹敵する性能を実現することができることを示した。 本研究では,2つの医用画像データセット上でのモデル評価を行い,モデルハイパーパラメータと計算資源の削減による性能改善を,関連するベースライン法と比較した。

With the increasing adoption of machine learning tools like neural networks across several domains, interesting connections and comparisons to concepts from other domains are coming to light. In this work, we focus on the class of Tensor Networks, which has been a work horse for physicists in the last two decades to analyse quantum many-body systems. Building on the recent interest in tensor networks for machine learning, we extend the Matrix Product State tensor networks (which can be interpreted as linear classifiers operating in exponentially high dimensional spaces) to be useful in medical image analysis tasks. We focus on classification problems as a first step where we motivate the use of tensor networks and propose adaptions for 2D images using classical image domain concepts such as local orderlessness of images. With the proposed locally orderless tensor network model (LoTeNet), we show that tensor networks are capable of attaining performance that is comparable to state-of-the-art deep learning methods. We evaluate the model on two publicly available medical imaging datasets and show performance improvements with fewer model hyperparameters and lesser computational resources compared to relevant baseline methods.
翻訳日:2022-12-11 05:44:14 公開日:2020-04-21