このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231002となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# SaferAdを用いたEthereumにおける非対称メムプールDoSの定義と防止
Defining and Preventing Asymmetric Mempool DoS in Ethereum with saferAd ( http://arxiv.org/abs/2309.11721v3 ) ライセンス: Link先を確認 | Wanning Ding, Yibo Wang, Yuzhe Tang, | (参考訳) 本稿では,非対称DoS攻撃下での安全なメムプール設計を提案する。
安全定義を2つの抽象的なDoSe、すなわち退行攻撃とロック攻撃で定式化する。
本稿では,メムプール保護のための安全な取引許可フレームワークであるSaferAdを提案する。
証明されたセキュリティは、DoSeのロックによる攻撃損傷の上限と、DoSeの排除による攻撃コストの下限に起因している。
実際のトランザクショントレースの再生による評価は、SaferAdが無視可能なレイテンシーやバリデータ収益の重要変更を引き起こすことを示している。
This paper presents secure mempool designs under asymmetric DoS attacks. We formulate safety definitions under two abstract DoSes, namely eviction- and locking-based attacks. We propose a safe transaction admission framework for securing mempools, named saferAd, that achieves both eviction- and locking-safety. The proven security stems from an upper bound of the attack damage under locking DoSes and a lower bound of the attack cost under eviction DoSes. The evaluation by replaying real transaction traces shows saferAd incurs negligible latency or insignificant change of validator revenue. | 翻訳日:2024-03-19 04:10:47 公開日:2023-10-02 |
# Prov2vec:教師なしAPT検出のための学習確率グラフ表現
Prov2vec: Learning Provenance Graph Representation for Unsupervised APT Detection ( http://arxiv.org/abs/2310.00843v1 ) ライセンス: Link先を確認 | Bibek Bhattarai, H. Howie Huang, | (参考訳) 現代のサイバー攻撃者は、高度なゼロデイエクスプロイト、高度に標的を絞ったスピアフィッシング、その他のソーシャルエンジニアリング技術を使用してアクセスを獲得し、また、ターゲットに向かって徐々に作業しながら、被害者ネットワーク内で長期間の存在を維持するために回避技術を使用する。
損害を最小限に抑えるためには、この先進的な脅威をできるだけ早く発見する必要がある。
本稿では,攻撃者の行動を検出するエンタープライズホストの行動を継続的に監視するシステムであるProv2Vecを提案する。
システムイベントログを使用して構築されたデータプロファイランスグラフを活用して、エンタープライズホストの実行状態とシステムエンティティ間の因果関係の完全な可視性を得る。
従来の行動と他のホストの行動とを比較し,正常性から逸脱を検出する,システム行動の標準表現を得るための新しいプロファイランスグラフカーネルを提案する。
これらの表現は、エンドポイントホストの基盤となる振る舞いをキャプチャする能力を評価するために、いくつかの機械学習モデルで使用される。
我々は、予測能力を向上させつつ、既存の方法よりもはるかにコンパクトな表現を生成することを実証的に実証した。
Modern cyber attackers use advanced zero-day exploits, highly targeted spear phishing, and other social engineering techniques to gain access and also use evasion techniques to maintain a prolonged presence within the victim network while working gradually towards the objective. To minimize the damage, it is necessary to detect these Advanced Persistent Threats as early in the campaign as possible. This paper proposes, Prov2Vec, a system for the continuous monitoring of enterprise host's behavior to detect attackers' activities. It leverages the data provenance graph built using system event logs to get complete visibility into the execution state of an enterprise host and the causal relationship between system entities. It proposes a novel provenance graph kernel to obtain the canonical representation of the system behavior, which is compared against its historical behaviors and that of other hosts to detect the deviation from the normality. These representations are used in several machine learning models to evaluate their ability to capture the underlying behavior of an endpoint host. We have empirically demonstrated that the provenance graph kernel produces a much more compact representation compared to existing methods while improving prediction ability. | 翻訳日:2024-03-19 03:31:41 公開日:2023-10-02 |
# 消費者IoTデバイスのトップレベルサイバーセキュリティ・アドバイザの失敗は、もっと簡単か?
Easier Said Than Done: The Failure of Top-Level Cybersecurity Advice for Consumer IoT Devices ( http://arxiv.org/abs/2310.00942v1 ) ライセンス: Link先を確認 | Veerle van Harten, Carlos Hernández Gañán, Michel van Eeten, Simon Parkin, | (参考訳) コンシューマIoTデバイスは一般的に、適切なデフォルトのセキュリティが欠如していると仮定されるため、ユーザアクションが必要になる。
しかし、ユーザーの行動や使い方はすぐには明らかではないかもしれない。
この不確実性は、ユーザベースがデバイスをセキュアにするためのプロンプトとして確実に行うことができる、最小限の理由に関する疑問を提起する。
そこで我々は,国家レベルで提唱されたセキュリティ行動と,それらが特定のデバイスに対してユーザ材料とどのように結びついているかを分析する。
我々は3つの国家レベルのイニシアチブにまたがる4つのアドバイスを識別する。
次に、これらのアドバイスが5つのデバイスクラス(デバイスマニュアルやメーカのWebサイトを含む)にわたる40の異なるIoTデバイスのインストラクション材料と整合している範囲を評価します。
アドバイスとデバイス資料の切り離しを公開します。
驚くべき発見は,4つの最上位のアドバイスをすべて適用可能な,単一の評価対象デバイスが存在しないことだ。
せいぜい40個の装置のうち36個の支持材料は、4つのアドバイスのうち2つだけを適用するのに十分な情報を提供し、通常は(自動)更新のインストールと有効化を可能にする。
矛盾として、専門家でないユーザは、デバイスに専門家のアドバイスが適用されるかどうかを評価する必要がある。
これにより、提案されたセキュリティ上のメリットなしに、追加のユーザ負担とプロキシの変更が発生する可能性がある。
我々は、政府や研究者も同様に、ユーザビューを考慮して、独自のIoTデバイスの動作モデルを宣言するべきだと提案する。
Consumer IoT devices are generally assumed to lack adequate default security, thus requiring user action. However, it may not be immediately clear to users what action to take and how. This uncertainty begs the question of what the minimum is that the user-base can reliably be asked to do as a prompt to secure their devices. To explore this question, we analyze security actions advocated at a national level and how these connect to user materials for a range of specific devices. We identify four pieces of converging advice across three nation-level initiatives. We then assess the extent to which these pieces of advice are aligned with instruction materials for 40 different IoT devices across five device classes (including device manuals and manufacturer websites). We expose a disconnect between the advice and the device materials. A stunning finding is that there is not a single assessed device to which all four top pieces of converging advice can be applied. At best, the supporting materials for 36 of the 40 devices provide sufficient information to apply just two of the four pieces of advice, typically the installation and enabling of (auto)updates. As something of a contradiction, it is necessary for a non-expert user to assess whether expert advice applies to a device. This risks additional user burden and proxy changes being made without the proposed security benefits. We propose recommendations, including that governments and researchers alike should declare their own working models of IoT devices when considering the user view. | 翻訳日:2024-03-19 03:31:41 公開日:2023-10-02 |
# 分散型ファイナンス(DeFi)システムの爆発におけるロールプレイ攻撃戦略の解明
Unmasking Role-Play Attack Strategies in Exploiting Decentralized Finance (DeFi) Systems ( http://arxiv.org/abs/2310.01081v1 ) ライセンス: Link先を確認 | Weilin Li, Zhun Wang, Chenyu Li, Heying Chen, Taiyu Wong, Pengyu Sun, Yufei Yu, Chao Zhang, | (参考訳) 分散金融(DeFi)システムの急速な成長と導入には様々な脅威が伴っている。
本研究では,DeFiシステムを活用するために複数の役割を同時に行うロールプレイアタック(Role-Play Attack)と呼ばれる攻撃戦略を導入し,定義する。
我々はこの戦略を公式に定義し、このパターンを適用した14の歴史的攻撃による435.1Mの総損失を明らかにし、その潜在的影響を実証する。
さらに, 攻撃パターンを具体的実行により再現し, 攻撃効果を3.34M (51.4%) と3.76M (12.0%) に向上させる可能性が示唆された。
The rapid growth and adoption of decentralized finance (DeFi) systems have been accompanied by various threats, notably those emerging from vulnerabilities in their intricate design. In our work, we introduce and define an attack strategy termed as Role-Play Attack, in which the attacker acts as multiple roles concurrently to exploit the DeFi system and cause substantial financial losses. We provide a formal definition of this strategy and demonstrate its potential impacts by revealing the total loss of \$435.1M caused by 14 historical attacks with applying this pattern. Besides, we mathematically analyzed the attacks with top 2 losses and retrofitted the corresponding attack pattern by concrete execution, indicating that this strategy could increase the potential profit for original attacks by \$3.34M (51.4%) and \$3.76M (12.0%), respectively. | 翻訳日:2024-03-19 03:31:41 公開日:2023-10-02 |
# 5G ゼロトラストマルチドメインネットワークの側方移動に対する決定-支配的戦略防御
Decision-Dominant Strategic Defense Against Lateral Movement for 5G Zero-Trust Multi-Domain Networks ( http://arxiv.org/abs/2310.01675v1 ) ライセンス: Link先を確認 | Tao Li, Yunian Pan, Quanyan Zhu, | (参考訳) マルチドメイン戦争は、空中、陸、海、宇宙、そしてサイバースペースを含む様々な領域の能力を活用して、敵が破壊または敗北することの難しい高度に相互接続された戦闘ネットワークを構築する軍事原理である。
しかし、戦場での5G技術の採用は、相互接続の複雑さと異なるサプライチェーンからのソフトウェア、ハードウェア、デバイスの多様性による新たな脆弱性を示す。
したがって、5G対応ネットワークのゼロトラストアーキテクチャを確立することは、連続的な監視と高速なデータ分析において、標的攻撃から保護するために不可欠である。
これらの課題に対処するために,5G衛星誘導空域ネットワークを利用した能動的エンドツーエンドセキュリティ手法を提案する。
本手法は,戦場における重要な資産を標的とした敵の側方移動を回避し,偵察や必要なアクセスや資格を得る前に,決定に支配的な学習手法を取り入れたものである。
マルチドメイン戦場ネットワークにおける攻撃者に対するゼロトラスト監視と決定優位な防御を可能にするメタラーニングフレームワークを用いたゲーム理論設計の有効性を実証する。
Multi-domain warfare is a military doctrine that leverages capabilities from different domains, including air, land, sea, space, and cyberspace, to create a highly interconnected battle network that is difficult for adversaries to disrupt or defeat. However, the adoption of 5G technologies on battlefields presents new vulnerabilities due to the complexity of interconnections and the diversity of software, hardware, and devices from different supply chains. Therefore, establishing a zero-trust architecture for 5G-enabled networks is crucial for continuous monitoring and fast data analytics to protect against targeted attacks. To address these challenges, we propose a proactive end-to-end security scheme that utilizes a 5G satellite-guided air-ground network. Our approach incorporates a decision-dominant learning-based method that can thwart the lateral movement of adversaries targeting critical assets on the battlefield before they can conduct reconnaissance or gain necessary access or credentials. We demonstrate the effectiveness of our game-theoretic design, which uses a meta-learning framework to enable zero-trust monitoring and decision-dominant defense against attackers in emerging multi-domain battlefield networks. | 翻訳日:2024-03-19 03:31:41 公開日:2023-10-02 |
# モノのインターネット(IoT)環境におけるリスクと脅威軽減技術:サーベイ
Risk and Threat Mitigation Techniques in Internet of Things (IoT) Environments: A Survey ( http://arxiv.org/abs/2310.01676v1 ) ライセンス: Link先を確認 | Marwa Salayma, | (参考訳) IoT(Internet of Things)のセキュリティは依然として主要な関心領域である。
この調査は、過去の調査で取り上げられた最先端の状況を更新し、脅威だけに限らず、脅威から守ることに焦点を当てている。
この地域は、他の調査や令状により、より広範囲にカバーされていない。
ライフサイクルアプローチが採用され、悪意のあるアクターがIoTネットワークを横方向とそれから妥協する"深みの防御"戦略を形成する。
この研究は、各緩和ステップの課題を強調し、新しい視点を強調し、議論された緩和ステップを彼らが実行しようとしている基本原則に再接続する。
Security in the Internet of Things (IoT) remains a predominant area of concern. This survey updates the state of the art covered in previous surveys and focuses on defending against threats rather than on the threats alone. This area is less extensively covered by other surveys and warrants particular attention. A life-cycle approach is adopted, articulated to form a "defence in depth" strategy against malicious actors compromising an IoT network laterally within it and from it. This study highlights the challenges of each mitigation step, emphasises novel perspectives, and reconnects the discussed mitigation steps to the ground principles they seek to implement. | 翻訳日:2024-03-19 03:31:41 公開日:2023-10-02 |
# NEQR画像のための2閾値量子分割アルゴリズムの改良 An improved two-threshold quantum segmentation algorithm for NEQR image ( http://arxiv.org/abs/2311.12033v1 ) ライセンス: Link先を確認 | Lu Wang, Zhiliang Deng, Wenjie Liu | (参考訳) 量子画像分割アルゴリズムは、量子画像をいくつかの部分に分割することであるが、既存のアルゴリズムの多くはより量子リソース(量子ビット)を使うか、複雑な画像を処理できない。
本稿では,複雑なグレースケール画像をより少ない量子ビットでクリアな3値画像に分割し,n + 1のセグメンテーションにnしきい値を使用するようにスケールできる改良型2threshold量子セグメンテーションアルゴリズムを提案する。
さらに、グレースケールの値を2つのしきい値と区別するために実現可能な量子コンパレータが設計され、次いでスケーラブルな量子回路がneqr画像をセグメント化するように設計されている。
qグレースケールの2^(n)*2^(n)画像の場合、このアルゴリズムの量子コストは、他の既存の量子アルゴリズムよりも低く、画像のサイズが大きくなると増加しない60q-6に削減できる。
IBM Qの実験は、我々のアルゴリズムが画像を効果的にセグメント化できることを実証している。 The quantum image segmentation algorithm is to divide a quantum image into several parts, but most of the existing algorithms use more quantum resource(qubit) or cannot process the complex image. In this paper, an improved two-threshold quantum segmentation algorithm for NEQR image is proposed, which can segment the complex gray-scale image into a clear ternary image by using fewer qubits and can be scaled to use n thresholds for n + 1 segmentations. In addition, a feasible quantum comparator is designed to distinguish the gray-scale values with two thresholds, and then a scalable quantum circuit is designed to segment the NEQR image. For a 2^(n)*2^(n) image with q gray-scale levels, the quantum cost of our algorithm can be reduced to 60q-6, which is lower than other existing quantum algorithms and does not increase with the image's size increases. The experiment on IBM Q demonstrates that our algorithm can effectively segment the image. | 翻訳日:2024-01-15 15:59:31 公開日:2023-10-02 |
# NEQR画像の局所適応しきい値に基づく量子分割アルゴリズム A quantum segmentation algorithm based on local adaptive threshold for NEQR image ( http://arxiv.org/abs/2311.11953v1 ) ライセンス: Link先を確認 | Lu Wang, Wenjie Liu | (参考訳) 局所適応しきい値に基づく古典的画像分割アルゴリズムは、照明の不均一な画像の分割を効果的に行うことができるが、画像データの増加に伴い、リアルタイム問題は徐々に現れる。
本稿では,neqr画像に対する局所適応閾値に基づく量子セグメンテーションアルゴリズムを提案する。量子機構を用いて,グレースケール画像中の全画素の局所しきい値を同時に計算し,高速に2値画像にセグメンテーションする。
さらに、中央値計算、量子二乗化などを含むいくつかの量子回路ユニットを詳細に設計し、量子回路はより少ない量子ビットと量子ゲートを用いてneqr画像をセグメント化するように設計されている。
qグレースケールのレベルを持つ2^n\times 2^n$の画像では、アルゴリズムの複雑さをo(n^2+q)$に減らすことができる。
最後に、この実験はIBM Qを用いて、ノイズの多い中間スケール量子(NISQ)時代のアルゴリズムの実現可能性を示す。 The classical image segmentation algorithm based on local adaptive threshold can effectively segment images with uneven illumination, but with the increase of the image data, the real-time problem gradually emerges. In this paper, a quantum segmentation algorithm based on local adaptive threshold for NEQR image is proposed, which can use quantum mechanism to simultaneously compute local thresholds for all pixels in a gray-scale image and quickly segment the image into a binary image. In addition, several quantum circuit units, including median calculation, quantum binarization, etc. are designed in detail, and then a complete quantum circuit is designed to segment NEQR images by using fewer qubits and quantum gates. For a $2^n\times 2^n$ image with q gray-scale levels, the complexity of our algorithm can be reduced to $O(n^2+q)$, which is an exponential speedup compared to the classic counterparts. Finally, the experiment is conducted on IBM Q to show the feasibility of our algorithm in the noisy intermediate-scale quantum (NISQ) era. | 翻訳日:2024-01-15 15:59:13 公開日:2023-10-02 |
# グレースケール形態に基づく量子画像分割 Quantum Image Segmentation Based on Grayscale Morphology ( http://arxiv.org/abs/2311.11952v1 ) ライセンス: Link先を確認 | Wenjie Liu, Lu Wang, Mengmeng Cui | (参考訳) グレースケール形態に基づく古典的画像分割アルゴリズムは, 照明の不均一な画像の分割を効果的に行うことができるが, 画像データの増加に伴い, リアルタイムな問題が発生する。
この問題を解決するために, 量子画像分割アルゴリズムを提案する。このアルゴリズムは, 量子機構を用いて, グレースケール画像中の全画素の形状操作を同時に行うことができ, 画像を二値画像に素早く分割することができる。
さらに、拡張、浸食、ボトムハット変換、トップハット変換などを含むいくつかの量子回路ユニットを詳細に設計し、それらを組み合わせてneqr画像のセグメント化のための完全な量子回路を構築する。
qグレースケールのレベルを持つ2^n * 2^nの画像では、アルゴリズムの複雑さをo(n^2+q)に減らすことができる。
最後に、この実験はIBM Qを用いて、ノイズの多い中間スケール量子(NISQ)時代のアルゴリズムの実現可能性を示す。 The classical image segmentation algorithm based on grayscale morphology can effectively segment images with uneven illumination, but with the increase of the image data, the real-time problem will emerge. In order to solve this problem, a quantum image segmentation algorithm is proposed in this paper, which can use quantum mechanism to simultaneously perform morphological operations on all pixels in a grayscale image, and then quickly segment the image into a binary image. In addition, several quantum circuit units, including dilation, erosion, bottom hat transformation, top hat transformation, etc., are designed in detail, and then they are combined together to construct the complete quantum circuits for segmenting the NEQR images. For a 2^n * 2^n image with q grayscale levels, the complexity of our algorithm can be reduced to O(n^2+q), which is an exponential speedup than the classic counterparts. Finally, the experiment is conducted on IBM Q to show the feasibility of our algorithm in the noisy intermediate-scale quantum (NISQ) era. | 翻訳日:2024-01-15 15:58:53 公開日:2023-10-02 |
# スコア蒸留による拡散系模倣の効果的防止に向けて Toward effective protection against diffusion based mimicry through score distillation ( http://arxiv.org/abs/2311.12832v1 ) ライセンス: Link先を確認 | Haotian Xue, Chumeng Liang, Xiaoyu Wu, Yongxin Chen | (参考訳) 生成拡散モデルは高品質な画像を生成するのに優れているが、認証された画像を模倣するために誤用することもでき、AIシステムに重大な脅威をもたらす。
拡散に基づく模倣パイプラインから画像を保護するために、キャリブレーションされた摂動を追加する努力がなされている。
しかし、既存の手法のほとんどは非効率であり、高い計算量とメモリ要求のために個々のユーザーが使用するには実用的ではない。
本研究では,遅延拡散モデル(LDM)の攻撃に関する新たな知見と,より効果的な保護のための新しいプラグアンドプレイ戦略を提案する。
特に、ldmを攻撃する際のボトルネックを探求し、デノイザーモジュールではなくエンコーダモジュールが脆弱な点であることを発見します。
この知見に基づいて,SDS(Score Distillation Sampling)を用いて保護速度を2倍にし,その強度を損なうことなくメモリ占有量を半減する戦略を提案する。
さらに,より自然な摂動を生成するのに役立つ意味的損失を,直感的に最小化することで,堅牢な保護戦略を提供する。
最後に,本研究の成果を裏付ける広範な実験を行い,新たに提案した戦略を総合的に評価する。
我々の洞察と保護措置が、悪意のある拡散に基づく模倣に対する防御に寄与し、セキュアなAIシステムの開発を促進することを願っている。
コードはhttps://github.com/xavihart/Diff-Protectで入手できる。 While generative diffusion models excel in producing high-quality images, they can also be misused to mimic authorized images, posing a significant threat to AI systems. Efforts have been made to add calibrated perturbations to protect images from diffusion-based mimicry pipelines. However, most of the existing methods are too ineffective and even impractical to be used by individual users due to their high computation and memory requirements. In this work, we present novel findings on attacking latent diffusion models (LDM) and propose new plug-and-play strategies for more effective protection. In particular, we explore the bottleneck in attacking an LDM, discovering that the encoder module rather than the denoiser module is the vulnerable point. Based on this insight, we present our strategy using Score Distillation Sampling (SDS) to double the speed of protection and reduce memory occupation by half without compromising its strength. Additionally, we provide a robust protection strategy by counterintuitively minimizing the semantic loss, which can assist in generating more natural perturbations. Finally, we conduct extensive experiments to substantiate our findings and comprehensively evaluate our newly proposed strategies. We hope our insights and protective measures can contribute to better defense against malicious diffusion-based mimicry, advancing the development of secure AI systems. The code is available in https://github.com/xavihart/Diff-Protect | 翻訳日:2024-01-15 15:34:45 公開日:2023-10-02 |
# 生物医用画像と信号処理のための進化的群集最適化法 -システムレビュー- Nature Inspired Evolutionary Swarm Optimizers for Biomedical Image and Signal Processing -- A Systematic Review ( http://arxiv.org/abs/2311.12830v1 ) ライセンス: Link先を確認 | Subhrangshu Adhikary | (参考訳) 限られた資源と高い精度を持つ解探索空間におけるグローバルな最適解を見つけるという課題は、いくつかの最適化アルゴリズムを生み出した。
一般に、勾配に基づくオプティマイザはグローバルソリューションに非常に正確に収束するが、解を見つけるのに多くのイテレーションを必要とする。
研究者は、多くの生物の様々な自然現象や行動からインスピレーションを得て、最適化問題をより高速に高精度に解くアルゴリズムを開発した。
これらのアルゴリズムは自然に触発されたメタヒューリスティック最適化アルゴリズムと呼ばれる。
これらは信号の修飾、ディープニューラルネットワークの重み付けの更新、その他多くのケースで使用できる。
最新技術では、生物医学的信号処理における自然に触発されたアルゴリズムの応用について議論した体系的なレビューはない。
本稿では, バイオメディカル信号処理におけるそのようなアルゴリズムの適用について論じることにより, そのギャップを解消し, バイオメディカル画像処理におけるこれらのアルゴリズムの適用に関する最新の調査も提供する。
論文は、28のピアレビュー関連論文と26の自然にインスパイアされたアルゴリズムをレビューし、読者がこれらのアルゴリズムの信頼性と探索段階を理解するのに役立つよう、より深く探求され、より探索され、未調査のカテゴリに分類する。 The challenge of finding a global optimum in a solution search space with limited resources and higher accuracy has given rise to several optimization algorithms. Generally, the gradient-based optimizers converge to the global solution very accurately, but they often require a large number of iterations to find the solution. Researchers took inspiration from different natural phenomena and behaviours of many living organisms to develop algorithms that can solve optimization problems much quicker with high accuracy. These algorithms are called nature-inspired meta-heuristic optimization algorithms. These can be used for denoising signals, updating weights in a deep neural network, and many other cases. In the state-of-the-art, there are no systematic reviews available that have discussed the applications of nature-inspired algorithms on biomedical signal processing. The paper solves that gap by discussing the applications of such algorithms in biomedical signal processing and also provides an updated survey of the application of these algorithms in biomedical image processing. The paper reviews 28 latest peer-reviewed relevant articles and 26 nature-inspired algorithms and segregates them into thoroughly explored, lesser explored and unexplored categories intending to help readers understand the reliability and exploration stage of each of these algorithms. | 翻訳日:2024-01-15 15:34:21 公開日:2023-10-02 |
# Intelligent Knee Sleeves:スマートテキスタイルを用いた3次元下肢運動推定のためのリアルタイムマルチモーダルデータセット Intelligent Knee Sleeves: A Real-time Multimodal Dataset for 3D Lower Body Motion Estimation Using Smart Textile ( http://arxiv.org/abs/2311.12829v1 ) ライセンス: Link先を確認 | Wenwen Zhang, Arvin Tashakori, Zenan Jiang, Amir Servati, Harishkumar Narayana, Saeid Soltanian, Rou Yi Yeap, Meng Han Ma, Lauren Toy, Peyman Servati | (参考訳) ヒトの運動と運動の運動は筋肉の活性化と収縮と密接に関連している。
そこで本研究では,ヒトのポーズ推定のために,Intelligent Knee Sleeves (Texavie MarsWear Knee Sleeves) を用いたベンチマークを用いたマルチモーダルデータセットを提案する。
本システムは,Knee Sleevesの時系列データと,可視化されたモーションキャプチャーカメラシステムからの対応する地上真実ラベルからなる同期データセットを利用する。
我々はこれらを用いて、異なる活動を行う個人のウェアラブルデータのみに基づく3次元人体モデルを生成する。
本研究では,このカメラフリーシステムと機械学習アルゴリズムが,無意識運動や個人への拡張を含む様々な運動やエクササイズの評価に有効であることを示す。
以上の結果から,8関節に比較して平均7.21°cの誤差がみられ,膝上の異なる下肢関節の予測における膝袖系の有効性と信頼性が示唆された。
その結果,目視やカメラの視野によって制限されることなく,人間のポーズ推定をシームレスに行えるようになった。
以上の結果から,ホームフィットネスからスポーツ,医療,身体リハビリテーションに至るまで,ポーズや運動推定に焦点をあてたマルチモーダルウェアラブルセンシングの可能性を示した。 The kinematics of human movements and locomotion are closely linked to the activation and contractions of muscles. To investigate this, we present a multimodal dataset with benchmarks collected using a novel pair of Intelligent Knee Sleeves (Texavie MarsWear Knee Sleeves) for human pose estimation. Our system utilizes synchronized datasets that comprise time-series data from the Knee Sleeves and the corresponding ground truth labels from the visualized motion capture camera system. We employ these to generate 3D human models solely based on the wearable data of individuals performing different activities. We demonstrate the effectiveness of this camera-free system and machine learning algorithms in the assessment of various movements and exercises, including extension to unseen exercises and individuals. The results show an average error of 7.21 degrees across all eight lower body joints when compared to the ground truth, indicating the effectiveness and reliability of the Knee Sleeve system for the prediction of different lower body joints beyond the knees. The results enable human pose estimation in a seamless manner without being limited by visual occlusion or the field of view of cameras. Our results show the potential of multimodal wearable sensing in a variety of applications from home fitness to sports, healthcare, and physical rehabilitation focusing on pose and movement estimation. | 翻訳日:2024-01-15 15:33:59 公開日:2023-10-02 |
# 組合せ核融合解析によるMLベースのDoS検出の強化 Enhancing ML-Based DoS Attack Detection Through Combinatorial Fusion Analysis ( http://arxiv.org/abs/2312.00006v1 ) ライセンス: Link先を確認 | Evans Owusu, Mohamed Rahouti, D. Frank Hsu, Kaiqi Xiong, Yufeng Xin | (参考訳) サービス拒否(DoS)攻撃の緩和は、オンラインサービスのセキュリティと可用性にとって不可欠である。
機械学習(ML)モデルがDoS攻撃検出に使用される一方で、パフォーマンスを高めるためには新たな戦略が必要である。
先進的なアルゴリズムを用いて複数のMLモデルを組み合わせた,革新的な組合せ融合法を提案する。
これにはスコアとランクの組み合わせ、重み付けされたテクニック、スコアリングシステムの多様性の強さが含まれる。
厳密な評価を通じて,精度,リコール,f1-scoreなどの指標を考慮して,この融合手法の有効性を実証する。
我々は,モデルを用いて包括的ソリューションを構築することで,低プロファイル攻撃分類の課題に対処した。
本研究は,DoS攻撃の検出能力の向上と防御機構の強化に寄与する可能性を強調した。 Mitigating Denial-of-Service (DoS) attacks is vital for online service security and availability. While machine learning (ML) models are used for DoS attack detection, new strategies are needed to enhance their performance. We suggest an innovative method, combinatorial fusion, which combines multiple ML models using advanced algorithms. This includes score and rank combinations, weighted techniques, and diversity strength of scoring systems. Through rigorous evaluations, we demonstrate the effectiveness of this fusion approach, considering metrics like precision, recall, and F1-score. We address the challenge of low-profiled attack classification by fusing models to create a comprehensive solution. Our findings emphasize the potential of this approach to improve DoS attack detection and contribute to stronger defense mechanisms. | 翻訳日:2024-01-15 15:09:18 公開日:2023-10-02 |
# エンコーダデコーダを用いたビデオキャプションのためのLong Short-Term Memory(LSTM)モデル Encoder-Decoder Based Long Short-Term Memory (LSTM) Model for Video Captioning ( http://arxiv.org/abs/2401.02052v1 ) ライセンス: Link先を確認 | Sikiru Adewale, Tosin Ige, Bolanle Hafiz Matti | (参考訳) 本研究は,ビデオデータからテキストキャプションへの多対多マッピングを実現するエンコーダ・デコーダモデルの実装と利用を実証する。
多対多のマッピングは、ビデオフレームの入力時間シーケンスから、単語の出力シーケンスを経て、キャプション文を形成する。
データ前処理、モデル構築、モデルトレーニングについて論じる。
キャプションの正確性は、データセットの異なる分割の2-gram BLEUスコアを用いて評価される。
出力キャプションの具体的な例は、ビデオ時間次元のモデル一般化を示すものである。
動画シーンが劇的に変化した場合でも、予測されたキャプションはビデオアクションを一般化する。
モデルアーキテクチャの変更は文の文法と正確性を改善するために議論される。 This work demonstrates the implementation and use of an encoder-decoder model to perform a many-to-many mapping of video data to text captions. The many-to-many mapping occurs via an input temporal sequence of video frames to an output sequence of words to form a caption sentence. Data preprocessing, model construction, and model training are discussed. Caption correctness is evaluated using 2-gram BLEU scores across the different splits of the dataset. Specific examples of output captions were shown to demonstrate model generality over the video temporal dimension. Predicted captions were shown to generalize over video action, even in instances where the video scene changed dramatically. Model architecture changes are discussed to improve sentence grammar and correctness. | 翻訳日:2024-01-15 09:57:53 公開日:2023-10-02 |
# SyMPox:XGBoostを用いた症状に基づく自動モンキーポックス検出システム SyMPox: An Automated Monkeypox Detection System Based on Symptoms Using XGBoost ( http://arxiv.org/abs/2310.19801v1 ) ライセンス: Link先を確認 | Alireza Farzipour, Roya Elmi, Hamid Nasiri | (参考訳) サルポックスは動物性疾患である。
世界保健機関(who)によって2023年6月10日までに約87000件のサルポックスが確認された。
この疾患を特定する最も一般的な方法は画像に基づく認識技術である。
それでも、それらはあまり速くなく、少数の個人にしか利用できない。
本研究はサルポックスの症状を診断するために開発されたSyMPoxという独立したアプリケーションについて述べる。
SyMPoxはロバストなXGBoostアルゴリズムを用いて症状パターンを分析し、正確な評価を行う。
sympoxは、gradioフレームワークを使用して開発され、個人が症状を評価し、信頼できるサルポックス診断を得るためのユーザーフレンドリーなプラットフォームを提供する。 Monkeypox is a zoonotic disease. About 87000 cases of monkeypox were confirmed by the World Health Organization until 10th June 2023. The most prevalent methods for identifying this disease are image-based recognition techniques. Still, they are not too fast and could only be available to a few individuals. This study presents an independent application named SyMPox, developed to diagnose Monkeypox cases based on symptoms. SyMPox utilizes the robust XGBoost algorithm to analyze symptom patterns and provide accurate assessments. Developed using the Gradio framework, SyMPox offers a user-friendly platform for individuals to assess their symptoms and obtain reliable Monkeypox diagnoses. | 翻訳日:2023-11-05 13:41:28 公開日:2023-10-02 |
# redheffer: 量子エラー境界へのトリグ Redheffer: Trig to Quantum Error Bounds ( http://arxiv.org/abs/2310.12993v1 ) ライセンス: Link先を確認 | Ho Yun | (参考訳) 既存の文献では、レッドヘッファーの不等式は一般に数学的帰納法を用いて証明される。
本稿では,この不等式について,三角法を応用して簡単に証明する。
次に、最も急激な改善を目指す指数因子を導入することにより、レッドヘッファーの不等式を拡大する。
特に、指数が2のとき、我々の発見は量子位相推定の文脈における量子誤差補正に影響を及ぼす。 In the existing literature, the Redheffer inequality is typically proven using mathematical induction. In this short paper, we present a straightforward proof of this inequality by leveraging trigonometric substitution. We then extend the Redheffer inequality by introducing an exponent factor, aiming for the sharpest possible refinement. Notably, when the exponent is 2, our findings have implications for quantum error correction in the context of quantum phase estimation. | 翻訳日:2023-10-29 18:01:21 公開日:2023-10-02 |
# コード総合実験の設計40年 : 体系的マッピング研究 40 Years of Designing Code Comprehension Experiments: A Systematic Mapping Study ( http://arxiv.org/abs/2206.11102v2 ) ライセンス: Link先を確認 | Marvin Wyrich, Justus Bogner, Stefan Wagner | (参考訳) 開発者の日々の仕事におけるコード理解の関連性は40年以上前に認識された。
その結果、コード理解中に開発者がどのようにサポートできるか、どのコード特性がより理解に寄与するかを調べるために、多くの実験が実施された。
今日ではそのような研究はかつてないほど一般的である。
これはこの分野を前進させるのに素晴らしいことですが、出版物の数は概観を維持するのを難しくします。
さらに、厳密なコード理解実験を人間の参加者と設計することは難しい課題であり、多くの設計オプションが研究者、特に新参者が適切な設計を選択するのを困難にしている。
そこで、1979年から2019年にかけて、95のソースコード理解実験を体系的にマッピングした。
コード理解研究の設計特性を構造化することにより、その結果と互換性に関する基礎研究の欠如に直面して、設計オプションの膨大な多様性に関する議論の基盤を提供する。
本稿では,これらの研究がどのようにデザインされ,実施され,報告されたかを述べる。
しばしば選択された設計オプションと欠陥は、ドメインの専門家が自身の研究を設計するのを支援するために指摘される。 The relevance of code comprehension in a developer's daily work was recognized more than 40 years ago. Consequently, many experiments were conducted to find out how developers could be supported during code comprehension and which code characteristics contribute to better comprehension. Today, such studies are more common than ever. While this is great for advancing the field, the number of publications makes it difficult to keep an overview. Additionally, designing rigorous code comprehension experiments with human participants is a challenging task, and the multitude of design options can make it difficult for researchers, especially newcomers to the field, to select a suitable design. We therefore conducted a systematic mapping study of 95 source code comprehension experiments published between 1979 and 2019. By structuring the design characteristics of code comprehension studies, we provide a basis for subsequent discussion of the huge diversity of design options in the face of a lack of basic research on their consequences and comparability. We describe what topics have been studied, as well as how these studies have been designed, conducted, and reported. Frequently chosen design options and deficiencies are pointed out to support researchers of all levels of domain expertise in designing their own studies. | 翻訳日:2023-10-24 15:27:56 公開日:2023-10-02 |
# 大規模言語モデルがソフトウェア仕様作成に与える影響 Impact of Large Language Models on Generating Software Specifications ( http://arxiv.org/abs/2306.03324v2 ) ライセンス: Link先を確認 | Danning Xie, Byungwoo Yoo, Nan Jiang, Mijung Kim, Lin Tan, Xiangyu Zhang, Judy S. Lee | (参考訳) ソフトウェア仕様は、ソフトウェアシステムの信頼性を保証するために不可欠である。
しかし、既存の仕様抽出アプローチは一般化可能性に乏しく、手作業を必要とする。
最近の大規模言語モデル(LLM)の出現は、多くのソフトウェアエンジニアリングタスクにうまく適用され、このプロセスを自動化するための有望な道を提供する。
本稿では,ソフトウェアコメントやドキュメンテーションからソフトウェア仕様を生成するLCMの能力を評価するための,最初の実証的研究を行う。
我々は、Few Shot Learning (FSL) を用いてLLMの性能を評価し、LLMを少数の例から一般化し、異なるプロンプト構築戦略を適用できるようにし、従来の手法と比較した。
さらに, LLMと従来の手法の両方から, 障害事例の比較診断を行い, その特異な長所と短所を同定した。
最後に,ソフトウェア仕様を作成するための性能とコスト効率を評価し,LLMの15の状況について広範な実験を行った。
以上の結果から, FSL では LLM が従来の手法(5.6%)より優れており, より高度な建設戦略により, この性能ギャップをさらに拡大することができる(最大 5.1 から 10.0% まで)。
しかし、llmは、非効率的なプロンプトやドメイン知識の欠如といった独自の課題を抱えており、同時に、llm固有の障害の53~60%を占めています。
オープンソースモデルの強力なパフォーマンス(例:StarCoder)は、サイズとコストのためにクローズドソースモデル(例:GPT 3 Davinci)をあまり望まない。
我々の研究は、仕様生成を改善するための将来の研究に貴重な洞察を提供する。 Software specifications are essential for ensuring the reliability of software systems. Existing specification extraction approaches, however, suffer from limited generalizability and require manual efforts. The recent emergence of Large Language Models (LLMs), which have been successfully applied to numerous software engineering tasks, offers a promising avenue for automating this process. In this paper, we conduct the first empirical study to evaluate the capabilities of LLMs for generating software specifications from software comments or documentation. We evaluate LLMs' performance with Few Shot Learning (FSL), enabling LLMs to generalize from a small number of examples, as well as different prompt construction strategies, and compare the performance of LLMs with traditional approaches. Additionally, we conduct a comparative diagnosis of the failure cases from both LLMs and traditional methods, identifying their unique strengths and weaknesses. Lastly, we conduct extensive experiments on 15 state of the art LLMs, evaluating their performance and cost effectiveness for generating software specifications. Our results show that with FSL, LLMs outperform traditional methods (by 5.6%), and more sophisticated prompt construction strategies can further enlarge this performance gap (up to 5.1 to 10.0%). Yet, LLMs suffer from their unique challenges, such as ineffective prompts and the lack of domain knowledge, which together account for 53 to 60% of LLM unique failures. The strong performance of open source models (e.g., StarCoder) makes closed source models (e.g., GPT 3 Davinci) less desirable due to size and cost. Our study offers valuable insights for future research to improve specification generation. | 翻訳日:2023-10-24 04:24:23 公開日:2023-10-02 |
# フォールトローカライゼーションにおける大規模言語モデル Large Language Models in Fault Localisation ( http://arxiv.org/abs/2308.15276v3 ) ライセンス: Link先を確認 | Yonghao Wu, Zheng Li, Jie M. Zhang, Mike Papadakis, Mark Harman, and Yong Liu | (参考訳) 大規模言語モデル(llm)は、コード生成、プログラムの修正、コードの要約、テスト生成など、複数のソフトウェアエンジニアリングタスクで約束されている。
フォールトローカライゼーションはプログラムの自動デバッグと修復を可能にするのに役立ち、ChatGPT-4の打ち上げイベントのハイライトとして際立った。
しかし,LLMの性能は最先端の手法と比較しても,迅速な設計と文脈長が有効性に与える影響は明らかでない。
そこで本稿では,このギャップを埋めるため,chatgpt-3.5 と chatgpt-4 の障害局所化に関する詳細な調査を行った。
大規模なDefects4Jデータセットを用いて、2つのLLMと既存のフォールトローカライゼーション手法を比較した。
また, 故障局所化におけるLCMの整合性や, 迅速なエンジニアリングとコードコンテキストの長さが故障局所化の有効性に与える影響についても検討する。
その結果,関数レベルではchatgpt-4が既存のフォールトローカライズ手法を上回っていることがわかった。
追加のエラーログにより、ChatGPTモデルのローカライゼーション精度と一貫性が向上し、TOP-1メートル法でDefects4Jデータセット上の最先端のベースラインSmartFLよりも平均46.9%精度が向上する。
しかし、欠陥4jデータセットのコードコンテキストがクラスレベルに拡張されると、chatgpt-4のパフォーマンスは大幅に低下し、トップ1の基準でsmartflよりも49.9%低い。
これらの観測から、chatgptは特定の条件下で障害を効果的にローカライズできるが、制限は明らかである。
chatgptのようなllmの潜在能力を実用的障害ローカライズアプリケーションに活用するには、さらなる研究が必要である。 Large Language Models (LLMs) have shown promise in multiple software engineering tasks including code generation, program repair, code summarisation, and test generation. Fault localisation is instrumental in enabling automated debugging and repair of programs and was prominently featured as a highlight during the launch event of ChatGPT-4. Nevertheless, the performance of LLMs compared to state-of-the-art methods, as well as the impact of prompt design and context length on their efficacy, remains unclear. To fill this gap, this paper presents an in-depth investigation into the capability of ChatGPT-3.5 and ChatGPT-4, the two state-of-the-art LLMs, on fault localisation. Using the widely-adopted large-scale Defects4J dataset, we compare the two LLMs with the existing fault localisation techniques. We also investigate the consistency of LLMs in fault localisation, as well as how prompt engineering and the length of code context affect the fault localisation effectiveness. Our findings demonstrate that within function-level context, ChatGPT-4 outperforms all the existing fault localisation methods. Additional error logs can further improve ChatGPT models' localisation accuracy and consistency, with an average 46.9% higher accuracy over the state-of-the-art baseline SmartFL on the Defects4J dataset in terms of TOP-1 metric. However, when the code context of the Defects4J dataset expands to the class-level, ChatGPT-4's performance suffers a significant drop, with 49.9% lower accuracy than SmartFL under TOP-1 metric. These observations indicate that although ChatGPT can effectively localise faults under specific conditions, limitations are evident. Further research is needed to fully harness the potential of LLMs like ChatGPT for practical fault localisation applications. | 翻訳日:2023-10-23 12:06:15 公開日:2023-10-02 |
# 遅延パターンとベイジアンモデリングを用いたソフトウェアプロジェクトの遅延の動的予測 Dynamic Prediction of Delays in Software Projects using Delay Patterns and Bayesian Modeling ( http://arxiv.org/abs/2309.12449v2 ) ライセンス: Link先を確認 | Elvan Kula and Eric Greuter and Arie van Deursen and Georgios Gousios | (参考訳) 現代のアジャイルソフトウェアプロジェクトは絶え間なく変化し、プロジェクトライフサイクル全体を通して全体的な遅延リスクを再評価することが不可欠です。
既存の労力推定モデルは静的であり、プロジェクト実行中に発生する変更を組み込むことができない。
本稿では,遅延パターンとベイズモデルを用いて連続的に全体の遅延を予測する動的モデルを提案する。
モデルはプロジェクトフェーズのコンテキストを取り入れ、時間とともにチームのパフォーマンスの変化から学ぶ。
INGの4,040エピックと270チームから得られた実世界のデータにアプローチを適用し,我々のアプローチと最先端技術との比較を実証的に評価した結果,予測精度が大幅に向上した。
動的モデルは、初期のプロジェクトフェーズでさえ、静的アプローチと最先端を一貫して上回る。 Modern agile software projects are subject to constant change, making it essential to re-asses overall delay risk throughout the project life cycle. Existing effort estimation models are static and not able to incorporate changes occurring during project execution. In this paper, we propose a dynamic model for continuously predicting overall delay using delay patterns and Bayesian modeling. The model incorporates the context of the project phase and learns from changes in team performance over time. We apply the approach to real-world data from 4,040 epics and 270 teams at ING. An empirical evaluation of our approach and comparison to the state-of-the-art demonstrate significant improvements in predictive accuracy. The dynamic model consistently outperforms static approaches and the state-of-the-art, even during early project phases. | 翻訳日:2023-10-23 06:38:06 公開日:2023-10-02 |
# ビジョンベースライン追従による倉庫内マイクロエア車両の自律走行 Autonomous Navigation of Micro Air Vehicles in Warehouses Using Vision-based Line Following ( http://arxiv.org/abs/2310.00950v1 ) ライセンス: Link先を確認 | Ling Shuang Soh, and Hann Woei Ho | (参考訳) 本稿では,自律型倉庫での運用を主眼とした,屋内小型航空機(mav)ナビゲーションのためのビジョンベースソリューションを提案する。
本研究は, 検出, 局所化, 経路計画などのタスクにおいて, 単一カメラを主センサとして活用することに焦点を当てている。
これらの目的を達成するため、倉庫内における効率的な線検出のためのHSV色検出とHough Line Transformを実装した。
Kalmanフィルタを我々のシステムに統合することで、カメラは黄色の線を確実に追跡することができる。
我々は, gazebo 11 プラットフォーム上で ros noetic を利用した様々な mav 飛行試験を行い,視覚ベースライン追従アルゴリズムの性能評価を行った。
これらのシミュレーション結果から,狭い屋内空間を効果的にナビゲートできることを示す。
提案システムでは, 作業コストを大幅に削減し, 倉庫業務全体の生産性を高めることができる。
この研究は、自律倉庫におけるMAVアプリケーションの成長に寄与し、効率的なロジスティクスとサプライチェーンソリューションの必要性に対処する。 In this paper, we propose a vision-based solution for indoor Micro Air Vehicle (MAV) navigation, with a primary focus on its application within autonomous warehouses. Our work centers on the utilization of a single camera as the primary sensor for tasks such as detection, localization, and path planning. To achieve these objectives, we implement the HSV color detection and the Hough Line Transform for effective line detection within warehouse environments. The integration of a Kalman filter into our system enables the camera to track yellow lines reliably. We evaluated the performance of our vision-based line following algorithm through various MAV flight tests conducted in the Gazebo 11 platform, utilizing ROS Noetic. The results of these simulations demonstrate the system capability to successfully navigate narrow indoor spaces. Our proposed system has the potential to significantly reduce labor costs and enhance overall productivity in warehouse operations. This work contributes to the growing field of MAV applications in autonomous warehouses, addressing the need for efficient logistics and supply chain solutions. | 翻訳日:2023-10-23 05:28:25 公開日:2023-10-02 |
# ソフトウェアエンジニアはGitHubをどのように使うのか?
アーティファクトとインパクトに関する実証的研究 How do Software Engineering Researchers Use GitHub? An Empirical Study of Artifacts & Impact ( http://arxiv.org/abs/2310.01566v1 ) ライセンス: Link先を確認 | Kamel Alrashedy | (参考訳) 何百万という開発者が、分散コラボレーションや人気ベースのランキングといったソーシャルコーディングの機会を提供するgithubなどのオープンソースプラットフォームでコードを共有する。
ソフトウェアエンジニアリングの研究者も参加し、研究成果物(ツール、複製パッケージ、データセット)をリポジトリにホストしている。
しかし、GitHubリンクを使った最初の論文から10年後、実際にそのようなリポジトリの運命についてはほとんど知られていない。
リサーチレポジトリは、開発者コミュニティや他の研究者の関心を集めていますか?
もしそうなら、何回、なぜ(そうでない)?
GitHubへの投資は、研究の影響で報われるのか?
要するに、著者が研究に関連するソーシャルコーディングにどう関与しているか、そしてどのように関与するかを問う。
まず、トップSE研究会場で1万件の論文から始まり、3449のGitHub(およびZenodo)リンクを手作業で注釈付けし、309の論文関連リポジトリを詳細に研究しました。
人気と影響は広く分布しており、出版場所と強く関連しているものもある。
これらはしばしば、タイムリーなレスポンシビリティとアップキープという観点で著者の投資によって大きく知らされた。
人気のあるリポジトリはよく引用された論文と密接に連携し、幅広い影響を与えることが多い。
この結果から, 持続的な貢献を必要とする研究製品に関する研究インセンティブや報酬構造の再考の必要性が示唆された。 Millions of developers share their code on open-source platforms like GitHub, which offer social coding opportunities such as distributed collaboration and popularity-based ranking. Software engineering researchers have joined in as well, hosting their research artifacts (tools, replication package & datasets) in repositories, an action often marked as part of the publications contribution. Yet a decade after the first such paper-with-GitHub-link, little is known about the fate of such repositories in practice. Do research repositories ever gain the interest of the developer community, or other researchers? If so, how often and why (not)? Does effort invested on GitHub pay off with research impact? In short: we ask whether and how authors engage in social coding related to their research. We conduct a broad empirical investigation of repositories from published work, starting with ten thousand papers in top SE research venues, hand-annotating their 3449 GitHub (and Zenodo) links, and studying 309 paper-related repositories in detail. We find a wide distribution in popularity and impact, some strongly correlated with publication venue. These were often heavily informed by the authors investment in terms of timely responsiveness and upkeep, which was often remarkably subpar by GitHubs standards, if not absent altogether. Yet we also offer hope: popular repositories often go hand-in-hand with well-citepd papers and achieve broad impact. Our findings suggest the need to rethink the research incentives and reward structure around research products requiring such sustained contributions. | 翻訳日:2023-10-23 05:18:45 公開日:2023-10-02 |
# 最新のコードレビュー -- 体系的マッピング研究の予備的結果 Modern code reviews -- Preliminary results of a systematic mapping study ( http://arxiv.org/abs/2310.01526v1 ) ライセンス: Link先を確認 | Deepika Badampudi, Ricardo Britto, Michael Unterkalmsteiner | (参考訳) ソースコードのレビューは、モダンでコラボレーティブなコーディング環境において一般的なプラクティスです。
ここ数年、現代のコードレビューの研究は、実践者や研究者の間で関心を集めている。
調査の目的は、現代のコードレビューに関連する研究の進化を観察し、研究ギャップを特定し、将来の研究の基盤となることにあります。
我々は177の研究論文の識別と分類に体系的マッピング手法を用いる。
本研究の予備的な成果として,2005年から2018年までの近代的コードレビュー研究の貢献度を分類する手法を提案する。 Reviewing source code is a common practice in a modern and collaborative coding environment. In the past few years, the research on modern code reviews has gained interest among practitioners and researchers. The objective of our investigation is to observe the evolution of research related to modern code reviews, identify research gaps and serve as a basis for future research. We use a systematic mapping approach to identify and classify 177 research papers. As preliminary result of our investigation, we present in this paper a classification scheme of the main contributions of modern code review research between 2005 and 2018. | 翻訳日:2023-10-23 05:18:21 公開日:2023-10-02 |
# 要件の特徴:システム工学の文脈におけるプロジェクト予算にどのように影響するのか? Requirements' Characteristics: How do they Impact on Project Budget in a Systems Engineering Context? ( http://arxiv.org/abs/2310.01395v1 ) ライセンス: Link先を確認 | Panagiota Chatzipetrou, Michael Unterkalmsteiner, Tony Gorschek | (参考訳) 背景: 新しいプロジェクトを始める際には,要件エンジニアリングが重要なのです。
しかしながら、単一のプロジェクトに関わる要件の数は、数千にも達する可能性がある。
これらの量において、自然言語要件(nlrs)の質の制御と保証は困難である。
Aims: フィールドスタディでは, 要件の特性がプロジェクトの変化要求や予算変更に与える影響について, スウェーデン運輸庁(STA)と調査を行った。
方法: 自然言語で定式化されたシステム要件を特徴付けるモデルとして, 懸念ベース要求モデル(CMR), 要求抽象化モデル(RAM), ソフトウェアハードウェアモデル(SHM)を選択する。
NLRの分類は3人の著者によって行われた。
Fleiss' Kappa という頑健な統計指標を用いて結果の信頼性を検証した。
著者らは,Ci-Square テストとポストホックテストの結果,記述統計,コンテンジェンシーテーブルを用いて検討した。
最後に,多変量統計手法である対応分析を用いて,要求のセットを2次元のグラフィカルな形式で表示する手法を開発した。
結果: 結果から,ソフトウェア要件はハードウェア要件よりも予算コストが低いことが判明した。
さらに、ソフトウェア要件は、処理が"より難しい"ことを示すために、より長い期間オープンである傾向があります。
最後に、変更要求に関する議論や対話が多ければ多いほど、実際の変更要求コストを下げることができます。
結論: 結果として、ソフトウェア要件がハードウェア要件と異なる扱いを受けている理由をさらに調査し、プロジェクトマネージャにインタビューし、それらの要件の定式化方法を理解し、ソフトウェア管理の効果的な方法を提案する必要がある。 Background: Requirements engineering is of a principal importance when starting a new project. However, the number of the requirements involved in a single project can reach up to thousands. Controlling and assuring the quality of natural language requirements (NLRs), in these quantities, is challenging. Aims: In a field study, we investigated with the Swedish Transportation Agency (STA) to what extent the characteristics of requirements had an influence on change requests and budget changes in the project. Method: We choose the following models to characterize system requirements formulated in natural language: Concern-based Model of Requirements (CMR), Requirements Abstractions Model (RAM) and Software-Hardware model (SHM). The classification of the NLRs was conducted by the three authors. The robust statistical measure Fleiss' Kappa was used to verify the reliability of the results. We used descriptive statistics, contingency tables, results from the Chi-Square test of association along with post hoc tests. Finally, a multivariate statistical technique, Correspondence analysis was used in order to provide a means of displaying a set of requirements in two-dimensional graphical form. Results: The results showed that software requirements are associated with less budget cost than hardware requirements. Moreover, software requirements tend to stay open for a longer period indicating that they are "harder" to handle. Finally, the more discussion or interaction on a change request can lower the actual estimated change request cost. Conclusions: The results lead us to a need to further investigate the reasons why the software requirements are treated differently from the hardware requirements, interview the project managers, understand better the way those requirements are formulated and propose effective ways of Software management. | 翻訳日:2023-10-23 05:17:52 公開日:2023-10-02 |
# ゴッチャ!
このモデルは私のコードを使う!
コードモデルにおけるメンバシップリークリスクの評価 Gotcha! This Model Uses My Code! Evaluating Membership Leakage Risks in Code Models ( http://arxiv.org/abs/2310.01166v1 ) ライセンス: Link先を確認 | Zhou Yang, Zhipeng Zhao, Chenyu Wang, Jieke Shi, Dongsum Kim, Donggyun Han, David Lo | (参考訳) オープンソースプロジェクトや高度な大規模言語モデルで利用可能な大規模なソースコードデータセットを考えると、プログラムの修復やコード補完といった重要なソフトウェアエンジニアリングタスクに対処するために、最近のコードモデルが提案されている。
コードモデルのトレーニングデータは、github上のオープンソースプロジェクトなど、公開されているソースコードだけでなく、機密情報(sshキーや個人情報など)を含む企業の機密ソースコードなどのプライベートデータなど、さまざまなソースから取得される。
その結果、これらのコードモデルの使用は、新たなプライバシー上の懸念を引き起こす可能性がある。
本稿では,コードモデルの利用について,批判的ではあるが十分に検討されていない疑問に注目する: コードモデルにおけるメンバシップ情報漏洩のリスクとは何か?
会員情報漏洩は、あるデータポイントがトレーニングデータに含まれるか否か(すなわち、メンバー)を攻撃者が推測できるリスクを指す。
この質問に答えるために、我々は、コードモデルに特化した新しいメンバーシップ推論攻撃手法であるgotchaを提案する。
コードモデルのメンバシップリークリスクについて検討する。
これまでの攻撃方法はランダムな推測に近いが、gotchaは真正率0.95で偽陽性率0.10でデータメンバーシップを予測できる。
また,被害者モデル(モデルアーキテクチャや事前学習データなど)に対する攻撃者の知識が,攻撃の成功率に影響を与えることを示した。
さらなる分析は、デコード戦略の変更がメンバーシップリークのリスクを軽減することを示している。
本研究は、コードモデルのプライバシの理解と、そのような攻撃に対するより効果的な対策に注意を向けるものである。 Given large-scale source code datasets available in open-source projects and advanced large language models, recent code models have been proposed to address a series of critical software engineering tasks, such as program repair and code completion. The training data of the code models come from various sources, not only the publicly available source code, e.g., open-source projects on GitHub but also the private data such as the confidential source code from companies, which may contain sensitive information (for example, SSH keys and personal information). As a result, the use of these code models may raise new privacy concerns. In this paper, we focus on a critical yet not well-explored question on using code models: what is the risk of membership information leakage in code models? Membership information leakage refers to the risk that an attacker can infer whether a given data point is included in (i.e., a member of) the training data. To answer this question, we propose Gotcha, a novel membership inference attack method specifically for code models. We investigate the membership leakage risk of code models. Our results reveal a worrying fact that the risk of membership leakage is high: although the previous attack methods are close to random guessing, Gotcha can predict the data membership with a high true positive rate of 0.95 and a low false positive rate of 0.10. We also show that the attacker's knowledge of the victim model (e.g., the model architecture and the pre-training data) impacts the success rate of attacks. Further analysis demonstrates that changing the decoding strategy can mitigate the risk of membership leakage. This study calls for more attention to understanding the privacy of code models and developing more effective countermeasures against such attacks. | 翻訳日:2023-10-23 05:17:26 公開日:2023-10-02 |
# ロボットにおけるソフトウェア再構成 Software Reconfiguration in Robotics ( http://arxiv.org/abs/2310.01039v1 ) ライセンス: Link先を確認 | Sven Peldszus, Davide Brugali, Daniel Str\"uber, Patrizio Pelliccione, Thorsten Berger | (参考訳) 再構成が不可欠であるとしばしば学者から主張されていることから、特にロボットシステムにおける再構成への多くのアプローチが開発されている。
したがって、ロボット工学に関する文献は、ロボットシステムの再構成技術に富んでいる。
しかし、ドメインの研究者と話をする場合、正確な再構成と、それが適応といった他の概念とどのように関連しているかについて、共通の理解はなさそうである。
この学術的な視点を超えて、ロボティクスフレームワークはロボティクスアプリケーションの一部を動的にロードおよびアンロードするメカニズムを提供する。
学術的な観点からは、ロボット再構成における最先端のファジィなイメージがあるが、実践者の視点からの実践的状況のイメージは欠落している。
このギャップを埋めるために、98の関連論文を特定し分析し、4つの主要なロボティクスフレームワークが再構成をどのようにサポートしているかを検証し、最終的に48のロボティクスアプリケーションにおける再構成の実現について調査する。
現状と実践状況を比較する場合,特に科学コミュニティでは複雑な構造的再構成に焦点をあて,パラメータの再設定のみが広く用いられている。
本研究は,この不一致の原因について考察し,ロボット工学に関心のある学者や実践者へのメッセージで結論づける。 Since it has often been claimed by academics that reconfiguration is essential, many approaches to reconfiguration, especially of robotic systems, have been developed. Accordingly, the literature on robotics is rich in techniques for reconfiguring robotic systems. However, when talking to researchers in the domain, there seems to be no common understanding of what exactly reconfiguration is and how it relates to other concepts such as adaptation. Beyond this academic perspective, robotics frameworks provide mechanisms for dynamically loading and unloading parts of robotics applications. While we have a fuzzy picture of the state-of-the-art in robotic reconfiguration from an academic perspective, we lack a picture of the state-of-practice from a practitioner perspective. To fill this gap, we survey the literature on reconfiguration in robotic systems by identifying and analyzing 98 relevant papers, review how four major robotics frameworks support reconfiguration, and finally investigate the realization of reconfiguration in 48 robotics applications. When comparing the state-of-the-art with the state-of-practice, we observed a significant discrepancy between them, in particular, the scientific community focuses on complex structural reconfiguration, while in practice only parameter reconfiguration is widely used. Based on our observations, we discuss possible reasons for this discrepancy and conclude with a takeaway message for academics and practitioners interested in robotics. | 翻訳日:2023-10-23 05:17:02 公開日:2023-10-02 |
# ループモデルに基づく自動車オペレーティングシステムのモデルチェッキング Model-Checking in the Loop Model-Based Testing for Automotive Operating Systems ( http://arxiv.org/abs/2310.00973v1 ) ライセンス: Link先を確認 | Toshiaki Aoki (1), Aritoshi Hata (2), Kazusato Kanamori (2), Satoshi Tanaka (2), Yuta Kawamoto (3), Yasuhiro Tanase (3), Masumi Imai (3), Fumiya Shigemitsu (4), Masaki Gondo (4), Tomoji Kishi (5) ((1) JAIST, (2) DENSO CORPORATION, (3) DENSO CREATE INC., (4) eSOL Co., Ltd, (5) Waseda University) | (参考訳) 過去数年間、車両は主に機械的な手段で制御されてきたが、電子制御技術や性能の進歩に追随して、組み込み制御システムの設置や使用が増えている。
自動車システムは、様々なベンダーによって開発された複数のコンポーネントから構成される。
組込み制御システムの開発を加速するため、AUTOSARのような産業標準はオペレーティングシステムやミドルウェア技術の設計を含む自動車システム向けに定義されている。
自動車システムの安全性を確保するため、オペレーティングシステムは多くの自動車アプリケーションが実行される基礎ソフトウェアである。
本稿では,自動車のオペレーティングシステムを検証するための統合型モデルベース手法を提案し,この手法をMCIL-MBT(Loop Model-Based Testing)と呼ぶ。
MCIL-MBTでは,自動車オペレーティングシステムの仕様を形式化し,モデルチェックによる仕様検証を行うモデルを作成する。
次に、検証済みモデルを用いてモデルベーステストを行い、特定のos実装がモデルに準拠することを保証する。
これらの検証とテスト段階は、欠陥が検出されるまで繰り返す。
我々の手法はすでに自動車システムサプライヤーとオペレーティングシステムベンダーに導入されている。
従来のレビュー・テスト手法では検出されなかった欠陥を同定することに成功した。 While vehicles have primarily been controlled through mechanical means in years past, an increasing number of embedded control systems are being installed and used, keeping pace with advances in electronic control technology and performance. Automotive systems consist of multiple components developed by a range of vendors. To accelerate developments in embedded control systems, industrial standards such as AUTOSAR are being defined for automotive systems, including the design of operating system and middleware technologies. Crucial to ensuring the safety of automotive systems, the operating system is foundational software on which many automotive applications are executed. In this paper, we propose an integrated model-based method for verifying automotive operating systems; our method is called Model-Checking in the Loop Model-Based Testing (MCIL-MBT). In MCIL-MBT, we create a model that formalizes specifications of automotive operating systems and verifies the specifications via model-checking. Next, we conduct model-based testing with the verified model to ensure that a specific operating system implementation conforms to the model. These verification and testing stages are iterated over until no flaws are detected. Our method has already been introduced to an automotive system supplier and an operating system vendor. Through our approach, we successfully identified flaws that were not detected by conventional review and testing methods. | 翻訳日:2023-10-23 05:16:39 公開日:2023-10-02 |
# 計算科学におけるソフトウェア工学研究のための実践的ワークフロー A pragmatic workflow for research software engineering in computational science ( http://arxiv.org/abs/2310.00960v1 ) ライセンス: Link先を確認 | Tomislav Mari\'c, Dennis Gl\"aser, Jan-Patrick Lehr, Ioannis Papagiannidis, Benjamin Lambie, Christian Bischof, Dieter Bothe | (参考訳) cse(university research groups in computational science and engineering)は一般的に、研究ソフトウェア工学(rse)の専門的な資金や人員が欠如しており、科学出版の数を最大化するための圧力と相まって、持続可能な研究ソフトウェア開発と再現可能な結果から焦点を移している。
大学の研究グループにおけるCSEにおけるRSEの無視は、科学的な成果に悪影響を及ぼす:CSE出版物に関連する研究データを含む研究データは、発見、再生、または再使用できず、異なるアイデアを新しいアイデアに簡単に組み込むことができず、公表された方法が更なる研究のために再実装されることがしばしばある。
これによりCSEの研究が大幅に遅くなり、結果として時間的損失が大きくなり、その結果公共資金も大幅に減少する。
本稿では,これらの課題に対処し,CSEにおける研究成果の質を向上する計算科学・工学(CSE)のためのRSEワークフローを提案する。
私たちのワークフローは、CSEに適合する確立したソフトウェアエンジニアリングのプラクティス、すなわち、ソフトウェアテスト、結果の可視化、そして、科学出版プロセスにおけるマイルストーンによってタイムドされたレポート/パブリケーションとデータの定期的なクロスリンクを適用します。
このワークフローは、最小限の作業オーバーヘッドを導入し、大学の研究グループにとって不可欠であり、結果を容易に再現できる出版物に関連するモジュール式でテスト済みのソフトウェアを提供する。
我々は、実用的研究者の観点から研究ソフトウェアの品質を定義し、出版物、データ、ソフトウェアを素早く発見し、その結果を迅速に再現し、CSE法を理解し、再利用し、最終的に新しい研究アイデアで手法を拡張した。 University research groups in Computational Science and Engineering (CSE) generally lack dedicated funding and personnel for Research Software Engineering (RSE), which, combined with the pressure to maximize the number of scientific publications, shifts the focus away from sustainable research software development and reproducible results. The neglect of RSE in CSE at University research groups negatively impacts the scientific output: research data - including research software - related to a CSE publication cannot be found, reproduced, or re-used, different ideas are not combined easily into new ideas, and published methods must very often be re-implemented to be investigated further. This slows down CSE research significantly, resulting in considerable losses in time and, consequentially, public funding. We propose a RSE workflow for Computational Science and Engineering (CSE) that addresses these challenges, that improves the quality of research output in CSE. Our workflow applies established software engineering practices adapted for CSE: software testing, result visualization, and periodical cross-linking of software with reports/publications and data, timed by milestones in the scientific publication process. The workflow introduces minimal work overhead, crucial for university research groups, and delivers modular and tested software linked to publications whose results can easily be reproduced. We define research software quality from a perspective of a pragmatic researcher: the ability to quickly find the publication, data, and software related to a published research idea, quickly reproduce results, understand or re-use a CSE method, and finally extend the method with new research ideas. | 翻訳日:2023-10-23 05:16:21 公開日:2023-10-02 |
# サンプリング熱量計におけるセグメンテーションの最適利用 The Optimal use of Segmentation for Sampling Calorimeters ( http://arxiv.org/abs/2310.04442v1 ) ライセンス: Link先を確認 | Fernando Torales Acosta, Bishnu Karki, Piyush Karande, Aaron Angerami, Miguel Arratia, Kenneth Barish, Ryan Milton, Sebasti\'an Mor\'an, Benjamin Nachman, and Anshuman Sinha | (参考訳) サンプリングカロリー計の重要な設計選択の1つは、縦方向と横方向のセグメンテーションをいかに細くするかである。
この選択を述べるために,熱量計のセグメンテーションがエネルギー再構成に与える影響について検討する。
セグメンテーションの準最適利用によらず、ハードウェアの傾向が完全に原因であることを保証するため、我々は深層ニューラルネットワークを配置して再構築を行う。
これらのネットワークは、カロリーメータを点雲として表現することで、利用可能なすべての情報を利用する。
本手法を実証するために,電子イオン衝突型加速器で作動するエピック検出器で使用される前方熱量計システムと同様の検出器をシミュレートする。
分離された荷電ピオンシャワーのエネルギー推定では,全相空間で10%以上のエネルギー分解能を達成するためには,比較的微細な縦セグメンテーションが重要であることがわかった。
これらの結果は、現在進行中のeic検出器の最適化のための貴重なベンチマークを提供し、様々な施設における他の実験における高粒度カロリメータを含む将来の研究にも影響を与える可能性がある。 One of the key design choices of any sampling calorimeter is how fine to make the longitudinal and transverse segmentation. To inform this choice, we study the impact of calorimeter segmentation on energy reconstruction. To ensure that the trends are due entirely to hardware and not to a sub-optimal use of segmentation, we deploy deep neural networks to perform the reconstruction. These networks make use of all available information by representing the calorimeter as a point cloud. To demonstrate our approach, we simulate a detector similar to the forward calorimeter system intended for use in the ePIC detector, which will operate at the upcoming Electron Ion Collider. We find that for the energy estimation of isolated charged pion showers, relatively fine longitudinal segmentation is key to achieving an energy resolution that is better than 10% across the full phase space. These results provide a valuable benchmark for ongoing EIC detector optimizations and may also inform future studies involving high-granularity calorimeters in other experiments at various facilities. | 翻訳日:2023-10-23 04:14:08 公開日:2023-10-02 |
# LoFT:大規模言語モデルに対する敵対的攻撃の伝達性を改善するローカルプロキシファインニング LoFT: Local Proxy Fine-tuning For Improving Transferability Of Adversarial Attacks Against Large Language Model ( http://arxiv.org/abs/2310.04445v1 ) ライセンス: Link先を確認 | Muhammad Ahmed Shah, Roshan Sharma, Hira Dhamyal, Raphael Olivier, Ankit Shah, Dareen Alharthi, Hazim T Bukhari, Massa Baali, Soham Deshmukh, Michael Kuhlmann, Bhiksha Raj, Rita Singh | (参考訳) 有害な応答を誘導するために,攻撃接尾辞に有害なクエリを付加することにより,LLMアライメントを回避できることが示されている。
特徴が不明なプライベートターゲットモデルに対する攻撃を行うため、パブリックモデルをプロキシとして使用し、パブリックプロキシからプライベートターゲットモデルへの攻撃を成功させる。
攻撃の成功率は、プロキシモデルがプライベートモデルにどの程度近いかに依存する。
我々は、攻撃が転送可能であるためには、プロキシが有害なクエリの近傍でターゲットモデルを近似できるなら十分である、と仮定する。
そこで本稿では, 有害なクエリのレキシコ・セマンティックな近傍に位置する類似クエリ上で, プロキシとターゲットモデルとのばらつきを低減するための, 微調整プロキシモデルである \emph{Local Fine-Tuning (LoFT)} を提案する。
まず、有害なクエリに対して類似したクエリを取得するために、プライベートなターゲットモデルを促す3つのアプローチを実証する。
次に、生成した類似クエリに対するターゲットモデルからの応答を抽出し、局所的な微調整のためのデータを得る。
そして,攻撃プロンプトを生成するために攻撃接尾辞を最適化し,攻撃の成功率に対する局所的微調整の影響を評価する。
実験により、プロキシモデルの局所的な微調整により攻撃伝達性が向上し、攻撃成功率を目標モデルのchatgpt、gpt-4、claudeでそれぞれ39\%$、$7\%$、$0.5\%$(絶対的)に向上することが示されている。 It has been shown that Large Language Model (LLM) alignments can be circumvented by appending specially crafted attack suffixes with harmful queries to elicit harmful responses. To conduct attacks against private target models whose characterization is unknown, public models can be used as proxies to fashion the attack, with successful attacks being transferred from public proxies to private target models. The success rate of attack depends on how closely the proxy model approximates the private model. We hypothesize that for attacks to be transferrable, it is sufficient if the proxy can approximate the target model in the neighborhood of the harmful query. Therefore, in this paper, we propose \emph{Local Fine-Tuning (LoFT)}, \textit{i.e.}, fine-tuning proxy models on similar queries that lie in the lexico-semantic neighborhood of harmful queries to decrease the divergence between the proxy and target models. First, we demonstrate three approaches to prompt private target models to obtain similar queries given harmful queries. Next, we obtain data for local fine-tuning by eliciting responses from target models for the generated similar queries. Then, we optimize attack suffixes to generate attack prompts and evaluate the impact of our local fine-tuning on the attack's success rate. Experiments show that local fine-tuning of proxy models improves attack transferability and increases attack success rate by $39\%$, $7\%$, and $0.5\%$ (absolute) on target models ChatGPT, GPT-4, and Claude respectively. | 翻訳日:2023-10-15 14:36:39 公開日:2023-10-02 |
# ヒューマンモビリティ質問回答(可視化論文) Human Mobility Question Answering (Vision Paper) ( http://arxiv.org/abs/2310.04443v1 ) ライセンス: Link先を確認 | Hao Xue, Flora D. Salim | (参考訳) 質問応答(QA)システムは、与えられた知識源(例えば、視覚的質問応答の画像)に基づいて質問に答えることを学ぶことができるため、人工知能コミュニティから多くの注目を集めている。
しかし、人間の移動データを用いた質問応答システムの研究は未定である。
ヒューマンモビリティデータのマイニングは、スマートシティ計画、パンデミック管理、パーソナライズドレコメンデーションシステムなど、さまざまなアプリケーションにおいて不可欠である。
本稿では,このギャップに対処し,人間の移動性質問応答(MobQA)という新しい課題を導入することを目的とする。
このタスクの目的は、インテリジェントシステムがモビリティデータから学習し、関連する質問に答えることである。
この課題は、移動予測研究における新たなパラダイム変化を示し、さらに人間の移動推薦システムの研究を促進する。
この新たな研究テーマをより良く支持するため,本論文では,データセットの初期設計と導入したmobqaタスクのためのディープラーニングモデルフレームワークを提案する。
本稿では,人間のモビリティ研究と質問応答研究における新たな洞察と新たな方向性を提供することを期待する。 Question answering (QA) systems have attracted much attention from the artificial intelligence community as they can learn to answer questions based on the given knowledge source (e.g., images in visual question answering). However, the research into question answering systems with human mobility data remains unexplored. Mining human mobility data is crucial for various applications such as smart city planning, pandemic management, and personalised recommendation system. In this paper, we aim to tackle this gap and introduce a novel task, that is, human mobility question answering (MobQA). The aim of the task is to let the intelligent system learn from mobility data and answer related questions. This task presents a new paradigm change in mobility prediction research and further facilitates the research of human mobility recommendation systems. To better support this novel research topic, this vision paper also proposes an initial design of the dataset and a potential deep learning model framework for the introduced MobQA task. We hope that this paper will provide novel insights and open new directions in human mobility research and question answering research. | 翻訳日:2023-10-15 14:36:08 公開日:2023-10-02 |
# 畳み込みニューラルネットワークのグラフ空間への応用 A Convolutional Neural Network into graph space ( http://arxiv.org/abs/2002.09285v3 ) ライセンス: Link先を確認 | Chlo\'e Martineau, Romain Raveaux, Donatello Conte, Gilles Venturini | (参考訳) 数十年で、畳み込みニューラルネットワーク(CNN)は、分類コンテキストにおける既存の技術手法の状態を上回りました。
しかし、それらの形式化の過程で、CNNはユークリッド空間で動作することが義務付けられている。
実際、畳み込みはユークリッド空間上で定義される信号演算である。
これは、音や画像などのユークリッド定義データに対するディープラーニングの主な使用を制限する。
しかし、多くのコンピュータ応用分野(ネットワーク分析、計算社会科学、化学情報学、コンピュータグラフィックスなど)は、グラフ、ネットワーク、多様体などの非ユークリッド的に定義されたデータを誘導する。
本稿では,グラフ空間に直接定義した新しい畳み込みニューラルネットワークアーキテクチャを提案する。
畳み込みとプーリング演算子はグラフ領域で定義される。
我々はそのユーザビリティをバックプロパゲーションの文脈で示す。
実験の結果,我々のモデル性能は単純なタスクにおける技術レベルの状態にあることがわかった。
グラフ領域の変化に関する堅牢性を示し、他のユークリッドおよび非ユークリッド畳み込みアーキテクチャに対する改善を示す。 Convolutional neural networks (CNNs), in a few decades, have outperformed the existing state of the art methods in classification context. However, in the way they were formalised, CNNs are bound to operate on euclidean spaces. Indeed, convolution is a signal operation that are defined on euclidean spaces. This has restricted deep learning main use to euclidean-defined data such as sound or image. And yet, numerous computer application fields (among which network analysis, computational social science, chemo-informatics or computer graphics) induce non-euclideanly defined data such as graphs, networks or manifolds. In this paper we propose a new convolution neural network architecture, defined directly into graph space. Convolution and pooling operators are defined in graph domain. We show its usability in a back-propagation context. Experimental results show that our model performance is at state of the art level on simple tasks. It shows robustness with respect to graph domain changes and improvement with respect to other euclidean and non-euclidean convolutional architectures. | 翻訳日:2023-10-06 23:49:52 公開日:2023-10-02 |
# 計算生物学における深層学習 : 進歩,課題,今後の展望 Deep Learning in Computational Biology: Advancements, Challenges, and Future Outlook ( http://arxiv.org/abs/2310.03086v1 ) ライセンス: Link先を確認 | Suresh Kumar, Dhanyashri Guruparan, Pavithren Aaron, Philemon Telajan, Kavinesh Mahadevan, Dinesh Davagandhi, Ong Xin Yue | (参考訳) 深層学習は計算生物学において強力なツールとなり、時間とともに生物学的データの分析と解釈に革命をもたらしている。
本稿では,計算生物学における深層学習の様々な側面について概説する。
具体的には,その歴史,長所,課題について考察する。
我々の焦点は、DNA配列分類と予測の2つの主要な応用と、配列データからのタンパク質構造予測である。
さらに、この分野の展望に関する洞察も提供します。
計算生物学におけるディープラーニングの可能性を完全に活用するには、それに伴う課題に取り組むことが不可欠である。
これらの課題には、大きなラベル付きデータセットの必要性や、ディープラーニングモデルの解釈可能性が含まれる。
DNA配列の解析におけるディープラーニングの利用は、ゲノム変異の検出と遺伝子発現の解析に大きな変革をもたらした。
これはパーソナライズド・メディカルと薬物発見の進展に大きく貢献した。
畳み込みニューラルネットワーク(CNN)は、遺伝的変異と遺伝子発現レベルを予測するのに非常に正確であることが示されている。
深層学習技術は、DNAメチル化やヒストン修飾を含むエピジェネティックデータを解析するために用いられる。
これは代謝条件と遺伝子調節に関する貴重な洞察を与える。
タンパク質構造予測の分野はディープラーニングによって大きく影響され、タンパク質の3次元形状の正確な決定と相互作用の予測を可能にした。
計算生物学におけるディープラーニングの未来は有望だ。
先進的な深層学習モデルと解釈技術の開発により、現在の課題を克服し、生物学的システムの理解を深める可能性がある。 Deep learning has become a powerful tool in computational biology, revolutionising the analysis and interpretation of biological data over time. In our article review, we delve into various aspects of deep learning in computational biology. Specifically, we examine its history, advantages, and challenges. Our focus is on two primary applications: DNA sequence classification and prediction, as well as protein structure prediction from sequence data. Additionally, we provide insights into the outlook for this field. To fully harness the potential of deep learning in computational biology, it is crucial to address the challenges that come with it. These challenges include the requirement for large, labelled datasets and the interpretability of deep learning models. The use of deep learning in the analysis of DNA sequences has brought about a significant transformation in the detection of genomic variants and the analysis of gene expression. This has greatly contributed to the advancement of personalised medicine and drug discovery. Convolutional neural networks (CNNs) have been shown to be highly accurate in predicting genetic variations and gene expression levels. Deep learning techniques are used for analysing epigenetic data, including DNA methylation and histone modifications. This provides valuable insights into metabolic conditions and gene regulation. The field of protein structure prediction has been significantly impacted by deep learning, which has enabled accurate determination of the three-dimensional shape of proteins and prediction of their interactions. The future of deep learning in computational biology looks promising. With the development of advanced deep learning models and interpretation techniques, there is potential to overcome current challenges and further our understanding of biological systems. | 翻訳日:2023-10-06 20:41:05 公開日:2023-10-02 |
# 画像デノイジングのための深部正規化圧縮学習のためのバッチレス確率勾配降下 Batch-less stochastic gradient descent for compressive learning of deep regularization for image denoising ( http://arxiv.org/abs/2310.03085v1 ) ライセンス: Link先を確認 | Hui Shi (IMB), Yann Traonmilin (IMB), J-F Aujol (IMB) | (参考訳) 本稿では,クリーンな信号や画像のデータベースから得られた事前情報をもとに,デノイジングの問題を考える。
データの性質に順応した正則化器が利用できる場合、変分法による記述は非常に効率的である。
最大後方ベイズフレームワークのおかげで、そのような正規化子はデータの分布と体系的に関連付けることができる。
深層ニューラルネットワーク(dnn)では,大規模トレーニングデータベースから複雑な分布を復元することができる。このタスクの計算負荷を軽減するため,dnnでパラメータ化された正規化子の学習に圧縮学習フレームワークを適用する。
本研究では,重圧縮データベースから深い正規化パラメータを回復するための確率勾配降下 (sgd) の2つの変種を提案する。
これらのアルゴリズムは、データベース全体の情報を用いて、低次元信号に制限された当初提案された手法よりも優れている。
また、古典的なSGD収束保証の恩恵を受ける。
これらの改良により,この手法をパッチベースの画像デノイジングに適用できることが示されている。
} We consider the problem of denoising with the help of prior information taken from a database of clean signals or images. Denoising with variational methods is very efficient if a regularizer well adapted to the nature of the data is available. Thanks to the maximum a posteriori Bayesian framework, such regularizer can be systematically linked with the distribution of the data. With deep neural networks (DNN), complex distributions can be recovered from a large training database.To reduce the computational burden of this task, we adapt the compressive learning framework to the learning of regularizers parametrized by DNN. We propose two variants of stochastic gradient descent (SGD) for the recovery of deep regularization parameters from a heavily compressed database. These algorithms outperform the initially proposed method that was limited to low-dimensional signals, each iteration using information from the whole database. They also benefit from classical SGD convergence guarantees. Thanks to these improvements we show that this method can be applied for patch based image denoising.} | 翻訳日:2023-10-06 20:40:44 公開日:2023-10-02 |
# 神経プロセスファミリー:調査,応用,展望 The Neural Process Family: Survey, Applications and Perspectives ( http://arxiv.org/abs/2209.00517v3 ) ライセンス: Link先を確認 | Saurav Jha, Dong Gong, Xuesong Wang, Richard E. Turner, Lina Yao | (参考訳) ニューラルネットワークの実装に対する標準的なアプローチは、強力な関数近似能力をもたらすが、メタ表現を学ぶ能力や予測における確率的不確実性は限られている。
一方ガウス過程は、そのような不確実性を推定するためにベイズ学習スキームを採用するが、効率と近似能力に制約される。
ニューラルプロセスファミリー(NPF)は、メタ学習予測の不確実性にニューラルネットワークを活用することによって、両方の世界の長所を提供する。
このような可能性から近年は家族にかなりの研究活動がもたらされている。
そのため,npfモデルの総合的な調査を行い,その動機,方法論,実験を整理し,関連付ける必要がある。
本論文は,家族に関する定式化,研究テーマ,応用について深く掘り下げながら,このギャップに対処しようとするものである。
私たちは、他の深層学習分野のいくつかの最近の進歩を一つの傘の下に持ってくる可能性に光を当てました。
次に,家族の厳密な分類を提供し,1-d,2-d,3-d入力領域で動作するデータ生成関数をモデル化する能力実証を行った。
我々は、この分野の研究の進歩を加速させる有望な方向性について、我々の視点を議論することで結論づける。
実験用のコードはhttps://github.com/srvCodes/neural-processes-survey.comで公開されます。 The standard approaches to neural network implementation yield powerful function approximation capabilities but are limited in their abilities to learn meta representations and reason probabilistic uncertainties in their predictions. Gaussian processes, on the other hand, adopt the Bayesian learning scheme to estimate such uncertainties but are constrained by their efficiency and approximation capacity. The Neural Processes Family (NPF) intends to offer the best of both worlds by leveraging neural networks for meta-learning predictive uncertainties. Such potential has brought substantial research activity to the family in recent years. Therefore, a comprehensive survey of NPF models is needed to organize and relate their motivation, methodology, and experiments. This paper intends to address this gap while digging deeper into the formulation, research themes, and applications concerning the family members. We shed light on their potential to bring several recent advances in other deep learning domains under one umbrella. We then provide a rigorous taxonomy of the family and empirically demonstrate their capabilities for modeling data generating functions operating on 1-d, 2-d, and 3-d input domains. We conclude by discussing our perspectives on the promising directions that can fuel the research advances in the field. Code for our experiments will be made available at https://github.com/srvCodes/neural-processes-survey. | 翻訳日:2023-10-05 22:39:56 公開日:2023-10-02 |
# 開量子系におけるリーブ・シュルツ・マティス理論の復活 Reviving the Lieb-Schultz-Mattis Theorem in Open Quantum Systems ( http://arxiv.org/abs/2310.01475v1 ) ライセンス: Link先を確認 | Yi-Neng Zhou, Xingyu Li, Hui Zhai, Chengshu Li and Yingfei Gu | (参考訳) 閉じた系では、有名なリーブ=シュルツ=マティス(lsm)の定理は、一次元の局所的に相互作用する半整数スピン鎖と変換とスピン回転対称性は、非退化ガッピング基底状態を持つことができないと述べる。
しかし、この定理の適用性は、システムが浴槽と相互作用し、そのエネルギー保存を失うと低下する。
本文では,浴槽との結合が系短距離相関を生じさせるとき,ハミルトニアンの絡み合いにおいて LSM 定理を復活させることができることを提案する。
具体的には、エンタングルメントスペクトルは他の状態とのギャップによって分離された非退化最小値を持つことができないと主張する。
さらに、スピン-$1/2$系と他のスピン-$3/2$チェーンがバスとして作用する数値的な例も支持する。
主にUV-IR対応に対処する元のLSM定理と比較すると、UVデータと位相的制約もまた、オープン量子多体系における絡み合いの形成において重要な役割を担っていることが判明した。 In closed systems, the celebrated Lieb-Schultz-Mattis (LSM) theorem states that a one-dimensional locally interacting half-integer spin chain with translation and spin rotation symmetry cannot have a non-degenerate gapped ground state. However, the applicability of this theorem is diminished when the system interacts with a bath and loses its energy conservation. In this letter, we propose that the LSM theorem can be revived in the entanglement Hamiltonian when the coupling to bath renders the system short-range correlated. Specifically, we argue that the entanglement spectrum cannot have a non-degenerate minimum, isolated by a gap from other states. We further support the results with numerical examples where a spin-$1/2$ system is coupled to another spin-$3/2$ chain serving as the bath. Compared with the original LSM theorem which primarily addresses UV--IR correspondence, our findings unveil that the UV data and topological constraints also have a pivotal role in shaping the entanglement in open quantum many-body systems. | 翻訳日:2023-10-05 18:34:27 公開日:2023-10-02 |
# 1次元非エルミタン系の確率保存と局在 Probability Conservation and Localization in a One-Dimensional Non-Hermitian System ( http://arxiv.org/abs/2310.00830v1 ) ライセンス: Link先を確認 | Yositake Takane, Shion Kobayashi, and Ken-Ichiro Imura | (参考訳) 一対のエルミート導体に接続された非エルミート導体を経由し、基礎となる非エルミート散乱問題を解析する。
波多野-ネルソン型非対称ホッピングモデルのような典型的な非エルミート系では、確率と確率電流の連続性は局所レベルで破壊される。
結果として、伝達と反射確率の概念は不定義となる。
これらの確率の代わりに、インジェクションレート $r_{\rm i}=1-|{\cal r}|^2$ と伝送レート $r_{\rm t}=|{\cal t}|^2$ を関連する物理量として導入し、それぞれ${\cal t}$ と ${\cal r}$ を伝送振幅と反射振幅とする。
一般非エルミート的の場合、$R_{\rm I}$と$R_{\rm T}$は独立情報を持つ。
我々は、入出力電流の観点で修正された連続性方程式を提供し、そこから、$r_{\rm i}$ と $r_{\rm t}$ を関係付ける大域的確率保存則を導出する。
我々は,非エルミート局所化および非局所化現象の数値計算結果の解釈において,確率保存法の有用性を検証した。 We consider transport through a non-Hermitian conductor connected to a pair of Hermitian leads and analyze the underlying non-Hermitian scattering problem. In a typical non-Hermitian system, such as a Hatano--Nelson-type asymmetric hopping model, the continuity of probability and probability current is broken at a local level. As a result, the notion of transmission and reflection probabilities becomes ill-defined. Instead of these probabilities, we introduce the injection rate $R_{\rm I}=1-|{\cal R}|^2$ and the transmission rate $R_{\rm T}=|{\cal T}|^2$ as relevant physical quantities, where ${\cal T}$ and ${\cal R}$ are the transmission and reflection amplitudes, respectively. In a generic non-Hermitian case, $R_{\rm I}$ and $R_{\rm T}$ have independent information. We provide a modified continuity equation in terms of incoming and outgoing currents, from which we derive a global probability conservation law that relates $R_{\rm I}$ and $R_{\rm T}$. We have tested the usefulness of our probability conservation law in the interpretation of numerical results for non-Hermitian localization and delocalization phenomena. | 翻訳日:2023-10-05 18:34:08 公開日:2023-10-02 |
# PDE制約下での最適制御のためのメッシュフリー微分プログラミングとデータ駆動方式の比較 A Comparison of Mesh-Free Differentiable Programming and Data-Driven Strategies for Optimal Control under PDE Constraints ( http://arxiv.org/abs/2310.02286v1 ) ライセンス: Link先を確認 | Roussel Desmond Nzoyem, David A.W. Barton, Tom Deakin | (参考訳) 部分微分方程式(PDE)制約下での最適制御の分野は、ディープラーニングとそれに伴う自動微分ライブラリの影響下で急速に変化している。
physics-informed neural networks (pinns) や differentiable programming (dp) といった新しい手法は、direct-adjoint looping (dal) のような確立された数値スキームと対比される。
本稿では,Radar Basis関数に基づく汎用メッシュフリー微分可能PDEソルバを用いて,DAL,PINN,DPの総合比較を行う。
Laplace と Navier-Stokes の方程式の下では,DP は DAL が失敗し PINN が苦労しても,最も正確な勾配を生成するため極めて有効であることがわかった。
さらに,これらの手法を効率的に使用可能な限られた条件を,詳細なベンチマークで強調する。
私たちの研究は、最適な制御実践者へのガイドを提供し、それらを深層学習コミュニティにさらに結びつけます。 The field of Optimal Control under Partial Differential Equations (PDE) constraints is rapidly changing under the influence of Deep Learning and the accompanying automatic differentiation libraries. Novel techniques like Physics-Informed Neural Networks (PINNs) and Differentiable Programming (DP) are to be contrasted with established numerical schemes like Direct-Adjoint Looping (DAL). We present a comprehensive comparison of DAL, PINN, and DP using a general-purpose mesh-free differentiable PDE solver based on Radial Basis Functions. Under Laplace and Navier-Stokes equations, we found DP to be extremely effective as it produces the most accurate gradients; thriving even when DAL fails and PINNs struggle. Additionally, we provide a detailed benchmark highlighting the limited conditions under which any of those methods can be efficiently used. Our work provides a guide to Optimal Control practitioners and connects them further to the Deep Learning community. | 翻訳日:2023-10-05 18:24:16 公開日:2023-10-02 |
# PASTA: PArallel Spatio-Temporal Attention with space auto-correlation gating for fine-fine crowd flow prediction PASTA: PArallel Spatio-Temporal Attention with spatial auto-correlation gating for fine-grained crowd flow prediction ( http://arxiv.org/abs/2310.02284v1 ) ライセンス: Link先を確認 | Chung Park, Junui Hong, Cheonbok Park, Taesan Kim, Minsung Choi, Jaegul Choo | (参考訳) 都市における物体(例えば人間や車両)の移動パターンを理解することは、都市計画や管理を含む多くの応用に不可欠である。
本稿では, 都市全体地図における歴史的群集流の時空間パターンをモデル化し, 将来的な群集流の予測手法を提案する。
本研究では,空間自己相関ゲーティング(PASTA)を用いたPArallel Spatio-Temporal Attentionというニューラルネットワークを導入する。
提案手法の新たな構成要素は,空間的自己相関ゲーティング,マルチスケール残差ブロック,時間的注意ゲーティングモジュールである。
空間自己相関ゲーティングは、不規則な空間領域を特定するために空間統計の概念を用いる。
マルチスケール残差ブロックは細粒度マップにおける複数範囲の空間依存性を扱い、時間的注意ゲーティングは予測に関係のない時間的情報を除外する。
実験の結果,不規則な空間領域を含む困難条件下では,本モデルが他の競合するベースラインよりも優れていることが示された。
また,我々のモデルが予測に高い注意点を割り当てる臨界時間情報を導出するための定性的な分析も提供する。 Understanding the movement patterns of objects (e.g., humans and vehicles) in a city is essential for many applications, including city planning and management. This paper proposes a method for predicting future city-wide crowd flows by modeling the spatio-temporal patterns of historical crowd flows in fine-grained city-wide maps. We introduce a novel neural network named PArallel Spatio-Temporal Attention with spatial auto-correlation gating (PASTA) that effectively captures the irregular spatio-temporal patterns of fine-grained maps. The novel components in our approach include spatial auto-correlation gating, multi-scale residual block, and temporal attention gating module. The spatial auto-correlation gating employs the concept of spatial statistics to identify irregular spatial regions. The multi-scale residual block is responsible for handling multiple range spatial dependencies in the fine-grained map, and the temporal attention gating filters out irrelevant temporal information for the prediction. The experimental results demonstrate that our model outperforms other competing baselines, especially under challenging conditions that contain irregular spatial regions. We also provide a qualitative analysis to derive the critical time information where our model assigns high attention scores in prediction. | 翻訳日:2023-10-05 18:23:59 公開日:2023-10-02 |
# SWMLP:道路地形特徴を用いた車両軌道速度予測のための共有重層パーセプトロン SWMLP: Shared Weight Multilayer Perceptron for Car Trajectory Speed Prediction using Road Topographical Features ( http://arxiv.org/abs/2310.02282v1 ) ライセンス: Link先を確認 | Sarah Almeida Carneiro (LIGM, IFPEN), Giovanni Chierchia (LIGM), Jean Charl\'ety (IFPEN), Aur\'elie Chataignon (IFPEN), Laurent Najman (LIGM) | (参考訳) トラフィックは収集された膨大なデータの1つであるが、特定の地域でのみ利用可能であることが多い。
懸念の1つは、これらのデータに良い結果をもたらす研究があるが、これらの領域のデータは世界の他のすべての交通パターンを記述するのに十分な代表的ではないかもしれないことである。
この問題に対処するために,大規模な履歴速度データに依存しない速度予測手法を提案する。
車両の速度を予測するために軌道道路地形特徴を用いて,多層パーセプトロン学習モデルの共有重み付けを行う。
その結果,標準回帰分析よりも質的かつ定量的に有意な改善が認められた。
さらに、提案フレームワークは、トラフィック分析のための新しいアプローチを設計する上で、新たな光を放つ。 Although traffic is one of the massively collected data, it is often only available for specific regions. One concern is that, although there are studies that give good results for these data, the data from these regions may not be sufficiently representative to describe all the traffic patterns in the rest of the world. In quest of addressing this concern, we propose a speed prediction method that is independent of large historical speed data. To predict a vehicle's speed, we use the trajectory road topographical features to fit a Shared Weight Multilayer Perceptron learning model. Our results show significant improvement, both qualitative and quantitative, over standard regression analysis. Moreover, the proposed framework sheds new light on the way to design new approaches for traffic analysis. | 翻訳日:2023-10-05 18:23:35 公開日:2023-10-02 |
# 実生活顧客コールセンター会話における終末連続音声感情認識 End-to-End Continuous Speech Emotion Recognition in Real-life Customer Service Call Center Conversations ( http://arxiv.org/abs/2310.02281v1 ) ライセンス: Link先を確認 | Yajing Feng (CNRS-LISN), Laurence Devillers (CNRS-LISN, SU) | (参考訳) コールセンター会話における音声感情認識(SER)は,クライアントとエージェント間のインタラクションの質を評価する貴重なツールとして登場した。
コントロールされた実験室環境とは対照的に、現実の会話は制御されていない条件下で行われ、感情の表現に影響を与える文脈的要因が伴う。
本稿では,顧客サービスコールセンター会話における連続サーのための大規模リアルライフデータセット(cusemo)の構築手法を提案する。
我々は,実生活のコールセンター会話における感情の微妙さ,複雑さ,連続性を捉えつつ,文脈情報にアノテートする次元感情アノテーションアプローチを採用した。
この研究はまた、データセットへのエンドツーエンド(e2e)serシステムの適用中に遭遇した課題に対処し、適切なラベルサンプリング率と入力セグメント長の決定、マルチタスク学習を用いてコンテキスト情報(インターロカクタの性別と共感レベル)を異なる重み付けで統合することを含む。
その結果,共感レベル情報の導入により,モデルの性能が向上した。 Speech Emotion recognition (SER) in call center conversations has emerged as a valuable tool for assessing the quality of interactions between clients and agents. In contrast to controlled laboratory environments, real-life conversations take place under uncontrolled conditions and are subject to contextual factors that influence the expression of emotions. In this paper, we present our approach to constructing a large-scale reallife dataset (CusEmo) for continuous SER in customer service call center conversations. We adopted the dimensional emotion annotation approach to capture the subtlety, complexity, and continuity of emotions in real-life call center conversations, while annotating contextual information. The study also addresses the challenges encountered during the application of the End-to-End (E2E) SER system to the dataset, including determining the appropriate label sampling rate and input segment length, as well as integrating contextual information (interlocutor's gender and empathy level) with different weights using multitask learning. The result shows that incorporating the empathy level information improved the model's performance. | 翻訳日:2023-10-05 18:23:24 公開日:2023-10-02 |
# エキスパート強化動的時間ゆらぎに基づく異常検出 Expert enhanced dynamic time warping based anomaly detection ( http://arxiv.org/abs/2310.02280v1 ) ライセンス: Link先を確認 | Matej Kloska, Gabriela Grmanova, Viera Rozinajova | (参考訳) 動的時間ウォーピング (dynamic time warping, dtw) は、時系列の弾性異質性尺度のためのよく知られたアルゴリズムである。
非線形時間歪みに対処する能力は、様々なデータマイニングタスクに役立ちます。
このようなタスクも異常検出であり、誤検知アラームなしで予期せぬ振る舞いを明らかにしようとする。
本稿では,新しい異常検出法であるexpert enhanced dynamic time warping anomaly detection (e-dtwa)を提案する。
DTWをベースにしており、Human-in-the-loopコンセプトを含むさらなる拡張が加えられている。
提案手法の主な利点は,計算量や空間の複雑さを低く保ちながら,専門家の検知フィードバックを強く考慮した,効率的な検出と柔軟な再訓練である。 Dynamic time warping (DTW) is a well-known algorithm for time series elastic dissimilarity measure. Its ability to deal with non-linear time distortions makes it helpful in variety of data mining tasks. Such a task is also anomaly detection which attempts to reveal unexpected behaviour without false detection alarms. In this paper, we propose a novel anomaly detection method named Expert enhanced dynamic time warping anomaly detection (E-DTWA). It is based on DTW with additional enhancements involving human-in-the-loop concept. The main benefits of our approach comprise efficient detection, flexible retraining based on strong consideration of the expert's detection feedback while retaining low computational and space complexity. | 翻訳日:2023-10-05 18:23:03 公開日:2023-10-02 |
# あなたの本能を使用する: トランスフォーマーを結合したニューラルネットワークバンディットを用いた命令最適化 Use Your INSTINCT: INSTruction optimization usIng Neural bandits Coupled with Transformers ( http://arxiv.org/abs/2310.02905v1 ) ライセンス: Link先を確認 | Xiaoqiang Lin, Zhaoxuan Wu, Zhongxiang Dai, Wenyang Hu, Yao Shu, See-Kiong Ng, Patrick Jaillet, Bryan Kian Hsiang Low | (参考訳) 大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
しかしながら、llmのパフォーマンスは彼らに与えられた指示に大きく依存しており、通常は手動でかなりの人間の努力で調整される。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
しかし、BOは通常、高度に洗練された(例えば高次元の)目的関数、例えば命令をLLMのパフォーマンスにマッピングする関数を最適化するときに不足する。
これは主に、boが目的関数のモデル化にサロゲートとして使用するガウス過程(gp)モデルの限定的な表現力によるものである。
一方、ニューラルネットワーク(NN)、特に事前訓練されたトランスフォーマーは強力な表現力を持ち、非常に複雑な関数をモデル化できることが繰り返し示されている。
そこで我々は,boのgpをnnサロゲートに置き換え,ブラックボックスllmの命令を最適化するニューラルバンディットアルゴリズムを採用する。
さらに重要なのは、ニューラルバンディットアルゴリズムは、NNサロゲートと、トレーニング済みのトランスフォーマー(すなわちオープンソースのLLM)が学習した隠れ表現とを自然に結合させることで、その性能が大幅に向上する。
これらのことから,Instruction Optimization usIng Neural bandits Coupled with Transformers} (INSTINCT)アルゴリズムを提案する。
我々はChatGPTの命令最適化を行い、INSTINCTが様々な命令誘導タスクやゼロショットチェーン・オブ・シークレット命令の改善タスクなどにおいて、既存のメソッドよりも一貫して優れていることを示す。 Large language models (LLMs) have shown remarkable instruction-following capabilities and achieved impressive performances in various applications. However, the performances of LLMs depend heavily on the instructions given to them, which are typically manually tuned with substantial human efforts. Recent work has used the query-efficient Bayesian optimization (BO) algorithm to automatically optimize the instructions given to black-box LLMs. However, BO usually falls short when optimizing highly sophisticated (e.g., high-dimensional) objective functions, such as the functions mapping an instruction to the performance of an LLM. This is mainly due to the limited expressive power of the Gaussian process (GP) model which is used by BO as a surrogate to model the objective function. Meanwhile, it has been repeatedly shown that neural networks (NNs), especially pre-trained transformers, possess strong expressive power and can model highly complex functions. So, we adopt a neural bandit algorithm which replaces the GP in BO by an NN surrogate to optimize instructions for black-box LLMs. More importantly, the neural bandit algorithm allows us to naturally couple the NN surrogate with the hidden representation learned by a pre-trained transformer (i.e., an open-source LLM), which significantly boosts its performance. These motivate us to propose our INSTruction optimization usIng Neural bandits Coupled with Transformers} (INSTINCT) algorithm. We perform instruction optimization for ChatGPT and use extensive experiments to show that our INSTINCT consistently outperforms the existing methods in different tasks, such as in various instruction induction tasks and the task of improving the zero-shot chain-of-thought instruction. | 翻訳日:2023-10-05 14:19:25 公開日:2023-10-02 |
# 植物構造をもつテンソルクラスタリング:統計的最適性と計算限界 Tensor Clustering with Planted Structures: Statistical Optimality and Computational Limits ( http://arxiv.org/abs/2005.10743v4 ) ライセンス: Link先を確認 | Yuetian Luo and Anru R. Zhang | (参考訳) 本稿では,植込み構造を用いた高次クラスタリングの統計的および計算的限界について検討する。
我々は,2つのクラスタリングモデル,constant high-order clustering(chc)とrank-one higher-order clustering(rohc)に注目し,クラスタの存在(検出)とクラスタのサポートの同定(回復)の方法と理論について検討した。
具体的には,CHCとROHCの検出/回復が統計的に可能である信号対雑音比の鋭い境界を同定する。
信号-雑音比がこれらのしきい値以下である場合、多項式時間アルゴリズムは、ハイパーグラフィックプランドclique(HPC)検出とハイパーグラフィックプランド高密度サブグラフ(HPDS)回復の計算硬度予測の下でこれらの問題を解くことができないことを証明している。
また,信号対雑音比がしきい値以上である場合に,信頼性の高い検出と回復を実現する多項式時間テンソルアルゴリズムを提案する。
疎度とテンソル構造の両方が高次テンソルクラスタリングの計算障壁となる。
それらの相互作用は、統計および計算相転移図、アルゴリズムアプローチ、硬さ予想、証明技術といった分野における文献における高階テンソルクラスタリングと行列クラスタリングの間に大きな違いをもたらす。
我々の知る限り、このような二重計算バリア問題に対する統計的および計算的トレードオフの徹底的な評価を最初に行った。
最後に,hpc検出(低次多項式法とメトロポリス法)とhpds回復(低次多項式法)の計算硬さ予想の証拠を提供する。 This paper studies the statistical and computational limits of high-order clustering with planted structures. We focus on two clustering models, constant high-order clustering (CHC) and rank-one higher-order clustering (ROHC), and study the methods and theory for testing whether a cluster exists (detection) and identifying the support of cluster (recovery). Specifically, we identify the sharp boundaries of signal-to-noise ratio for which CHC and ROHC detection/recovery are statistically possible. We also develop the tight computational thresholds: when the signal-to-noise ratio is below these thresholds, we prove that polynomial-time algorithms cannot solve these problems under the computational hardness conjectures of hypergraphic planted clique (HPC) detection and hypergraphic planted dense subgraph (HPDS) recovery. We also propose polynomial-time tensor algorithms that achieve reliable detection and recovery when the signal-to-noise ratio is above these thresholds. Both sparsity and tensor structures yield the computational barriers in high-order tensor clustering. The interplay between them results in significant differences between high-order tensor clustering and matrix clustering in literature in aspects of statistical and computational phase transition diagrams, algorithmic approaches, hardness conjecture, and proof techniques. To our best knowledge, we are the first to give a thorough characterization of the statistical and computational trade-off for such a double computational-barrier problem. Finally, we provide evidence for the computational hardness conjectures of HPC detection (via low-degree polynomial and Metropolis methods) and HPDS recovery (via low-degree polynomial method). | 翻訳日:2023-10-05 11:31:02 公開日:2023-10-02 |
# 量子論に埋め込まれる確率論的モデルのキャラクタリゼーション Characterization of the probabilistic models that can be embedded in quantum theory ( http://arxiv.org/abs/2004.06136v2 ) ライセンス: Link先を確認 | Andrew J. P. Garner, Markus P. Mueller | (参考訳) 物理系は、非常に高次元の作用素代数によって根本的に記述されているにもかかわらず、量子ビットは有用な情報理論のタスクを実行するために分離することができる。
これは、qubitsが高次元ヒルベルト空間に一貫して埋め込まれるからである。
古典確率分布の量子論への同様の埋め込みは、デコヒーレンスによる古典物理学の出現を可能にする。
ここで、他の確率モデルも同様に有限次元量子論に組み込むことができることを問う。
埋め込み可能なモデルは、実数、複素数、四元数上の量子論、(3次の自由度以上の量子ビット)「スピン因子」とそれらの直和というユークリッドの特殊ヨルダン代数に対応するものである。
これらのうち、超選択規則を持つ古典的および標準的な量子論のみが物理的デコヒーレンス写像から生じる。
この結果は、量子論の実験的な実験において、どのように(あるいはできない)かを明確にすることで大きな結果をもたらす。
さらに、制限のないすべての非古典的モデルは文脈的でなければならないことを示唆している。 Quantum bits can be isolated to perform useful information-theoretic tasks, even though physical systems are fundamentally described by very high-dimensional operator algebras. This is because qubits can be consistently embedded into higher-dimensional Hilbert spaces. A similar embedding of classical probability distributions into quantum theory enables the emergence of classical physics via decoherence. Here, we ask which other probabilistic models can similarly be embedded into finite-dimensional quantum theory. We show that the embeddable models are exactly those that correspond to the Euclidean special Jordan algebras: quantum theory over the reals, the complex numbers, or the quaternions, and "spin factors" (qubits with more than three degrees of freedom), and direct sums thereof. Among those, only classical and standard quantum theory with superselection rules can arise from a physical decoherence map. Our results have significant consequences for some experimental tests of quantum theory, by clarifying how they could (or could not) falsify it. Furthermore, they imply that all unrestricted non-classical models must be contextual. | 翻訳日:2023-10-05 11:30:31 公開日:2023-10-02 |
# テスト実行のエンコードと分類を学ぶ Learning to Encode and Classify Test Executions ( http://arxiv.org/abs/2001.02444v2 ) ライセンス: Link先を確認 | Foivos Tsimpourlas, Ajitha Rajan, Miltiadis Allamanis | (参考訳) テスト実行の正確性を自動的に判断する課題は、テストオラクル問題と呼ばれ、自動テストにおける重要な課題の1つである。
この論文の目標は、一般的に、スケーラブルで正確である方法で、テストオラクルの問題を解決することである。
これを達成するために、私たちはテスト実行トレースよりも教師あり学習を使います。
実行トレースのごく一部をパスまたはフェールの判定でラベル付けします。
ラベル付きトレースを使用して、ニューラルネットワーク(NN)モデルをトレーニングし、プログラムの実行をパスする実行パターンとフェールする実行パターンを区別する。
このNNモデルを構築するための私たちのアプローチには、以下のステップがあります。
1.実行トレースをメソッド呼び出しとグローバル状態のシーケンスとして記録するプログラムを実行する。
2. 実行トレースのごく一部を評決でラベル付けする。
3. 実行トレースに情報を埋め込んだNNコンポーネントを固定長ベクトルに設計する。
4. 分類にトレース情報を利用するnnモデルの設計
5.プログラムから見つからない実行トレースの推論分類モデルを評価する。
異なるアプリケーションドメインのケーススタディを用いて、我々のアプローチを評価する。
1.Ethereumブロックチェーンからのモジュール
2. PyTorchディープラーニングフレームワークからのモジュール
3. Microsoft SEAL暗号化ライブラリコンポーネント
4. sedストリームエディタ、
5.値ポインタライブラリと
6. Linux パケット識別子 L7-Filter からの9つのネットワークプロトコル。
その結果,全対象プログラムの分類モデルでは95%以上の精度,リコール,特異性が得られた。
実験の結果,提案したニューラルネットワークモデルはテストオラクルとして非常に効果的であり,異なるアプリケーションドメインからのシステムやテストのパスとフェールを区別する実行パターンを学習できることがわかった。 The challenge of automatically determining the correctness of test executions is referred to as the test oracle problem and is one of the key remaining issues for automated testing. The goal in this paper is to solve the test oracle problem in a way that is general, scalable and accurate. To achieve this, we use supervised learning over test execution traces. We label a small fraction of the execution traces with their verdict of pass or fail. We use the labelled traces to train a neural network (NN) model to learn to distinguish runtime patterns for passing versus failing executions for a given program. Our approach for building this NN model involves the following steps, 1. Instrument the program to record execution traces as sequences of method invocations and global state, 2. Label a small fraction of the execution traces with their verdicts, 3. Designing a NN component that embeds information in execution traces to fixed length vectors, 4. Design a NN model that uses the trace information for classification, 5. Evaluate the inferred classification model on unseen execution traces from the program. We evaluate our approach using case studies from different application domains: 1. Module from Ethereum Blockchain, 2. Module from PyTorch deep learning framework, 3. Microsoft SEAL encryption library components, 4. Sed stream editor, 5. Value pointer library and 6. Nine network protocols from Linux packet identifier, L7-Filter. We found the classification models for all subject programs resulted in high precision, recall and specificity, over 95%, while only training with an average 9% of the total traces. Our experiments show that the proposed neural network model is highly effective as a test oracle and is able to learn runtime patterns to distinguish passing and failing test executions for systems and tests from different application domains. | 翻訳日:2023-10-05 11:30:13 公開日:2023-10-02 |
# 非単位量子チャネルの永遠非マルコフ性について On the eternal non-Markovianity of non-unital quantum channels ( http://arxiv.org/abs/2203.10625v2 ) ライセンス: Link先を確認 | Shrikant Utagi, Subhashish Banerjee, R. Srikanth | (参考訳) 永遠の非マルコフ的ポーリチャネルは、すべての時間$t>0$の負の減衰率によって特徴づけられるユニタリチャネルの例である。
ここでは、類似の非ユニタリチャネルを構築することの問題を考察し、特に、非マルコビアン性がチャネルの非ユニタリ部分のみから生じるとき、$d$次元一般化振幅減衰(GAD)チャネルが永久に非マルコビアンでないことを示す。
qubit GADの具体的な影響について検討した。
具体的には、準eternal non-markovian qubit gadチャネルを構築し、時間 $t^\ast > 0$ を特徴とし、チャネルは非markovianのみであり、すべての時間 $t > t^\ast$ である。
さらに我々は、qudit GADチャネルに対する我々の負の結果、すなわち永遠の非マルコフ性の不確かさは、一般の量子ビットや高次元の非ユニタリチャネルでは成り立たないことを指摘した。 The eternally non-Markovian Pauli channel is an example of a unital channel characterized by a negative decay rate for all time $t>0$. Here we consider the problem of constructing an analogous non-unital channel, and show in particular that a $d$-dimensional generalized amplitude damping (GAD) channel cannot be eternally non-Markovian when the non-Markovianity originates solely from the non-unital part of the channel. We study specific ramifications of this result for qubit GAD. Specifically, we construct a quasi-eternally non-Markovian qubit GAD channel, characterized by a time $t^\ast > 0$, such that the channel is non-Markovian only and for all time $t > t^\ast$. We further point out that our negative result for the qudit GAD channel, namely the impossibility of the eternal non-Markovian property, does not hold for a general qubit or higher-dimensional non-unital channel. | 翻訳日:2023-10-05 11:21:38 公開日:2023-10-02 |
# 非文脈性一般化による量子論の検証 Testing quantum theory by generalizing noncontextuality ( http://arxiv.org/abs/2112.09719v3 ) ライセンス: Link先を確認 | Markus P. Mueller, Andrew J. P. Garner | (参考訳) 物理系の状態がヒルベルト空間上の複素ベクトルあるいは密度作用素によって記述されるという量子理論の基本的な予測である。
しかし、多くの実験では、古典的な確率分布や超選択規則を持つ量子系など、他の状態空間に関して効果的な記述が認められる。
量子論を自然の基本的な記述として実験的に改ざんできるのは、どのような効果的な統計だろう?
実効理論において統計的に区別できないプロセスは、より基本的な理論において複数の区別可能なプロセスによる説明を必要としない。
我々は、この原理を別の確率論の線形埋め込みとシミュレーションの観点で定式化し、この概念が文脈性の標準的な概念をどう仮定するかを示し、理論(特に量子理論)の正確な近似埋め込みに関する多くの基本的な結果を証明する。
ジョルダン-代数状態空間のみが量子論に正確に埋め込み可能であることを証明し、ベルの不等式が非近似埋め込み性の証明にどのように使われるかを示す。
そこで本研究では, 量子論の実験的な実験として, 装置のトモグラフィ的完全集合やキャリブレーションへのアクセスを前提にせず, 単一の物理系を探索し, 初期のアプローチの重大な抜け穴を回避することを提案する。 It is a fundamental prediction of quantum theory that states of physical systems are described by complex vectors or density operators on a Hilbert space. However, many experiments admit effective descriptions in terms of other state spaces, such as classical probability distributions or quantum systems with superselection rules. Which kind of effective statistics would allow us to experimentally falsify quantum theory as a fundamental description of nature? Here, we address this question by introducing a methodological principle that generalizes Spekkens' notion of noncontextuality: processes that are statistically indistinguishable in an effective theory should not require explanation by multiple distinguishable processes in a more fundamental theory. We formulate this principle in terms of linear embeddings and simulations of one probabilistic theory by another, show how this concept subsumes standard notions of contextuality, and prove a multitude of fundamental results on the exact and approximate embedding of theories (in particular into quantum theory). We prove that only Jordan-algebraic state spaces are exactly embeddable into quantum theory, and show how results on Bell inequalities can be used for the certification of non-approximate embeddability. From this, we propose an experimental test of quantum theory by probing single physical systems without assuming access to a tomographically complete set of procedures or calibration of the devices, arguably avoiding a significant loophole of earlier approaches. | 翻訳日:2023-10-05 11:20:32 公開日:2023-10-02 |
# debosh: 深いベイズ形状の最適化 DEBOSH: Deep Bayesian Shape Optimization ( http://arxiv.org/abs/2109.13337v2 ) ライセンス: Link先を確認 | Nikita Durasov, Artem Lukoyanov, Jonathan Donier, Pascal Fua | (参考訳) グラフニューラルネットワーク(GNN)は,産業設計の性能を迅速かつ正確に予測し,その形状を効果的に最適化する。
しかし、形状空間を完全に探索するには、しばしばトレーニングセットから大きく逸脱する形状を考える必要がある。
これらの理由から、GNNの予測は信頼できないものになり、しばしば無視される。
ガウス過程に依存する最適化技術のために、ベイズ最適化(BO)は、自身の精度を評価する能力を利用してこの問題に対処する。
残念なことに、ニューラルネットワークを使用する場合、不確実性を推定するための標準的なアプローチは高い計算負荷を伴い、モデルの精度を低下させるため、これは難しい。
そこで本研究では,形状最適化に適した新しい不確実性に基づく手法を提案する。
効果的なBOを可能にし、その結果の形状の質を最先端のアプローチを超えて向上させる。 Graph Neural Networks (GNNs) can predict the performance of an industrial design quickly and accurately and be used to optimize its shape effectively. However, to fully explore the shape space, one must often consider shapes deviating significantly from the training set. For these, GNN predictions become unreliable, something that is often ignored. For optimization techniques relying on Gaussian Processes, Bayesian Optimization (BO) addresses this issue by exploiting their ability to assess their own accuracy. Unfortunately, this is harder to do when using neural networks because standard approaches to estimating their uncertainty can entail high computational loads and reduced model accuracy. Hence, we propose a novel uncertainty-based method tailored to shape optimization. It enables effective BO and increases the quality of the resulting shapes beyond that of state-of-the-art approaches. | 翻訳日:2023-10-05 11:20:06 公開日:2023-10-02 |
# リカレントニューラルネットワークによるインフレ予測 Predicting Inflation with Recurrent Neural Networks ( http://arxiv.org/abs/2104.03757v2 ) ライセンス: Link先を確認 | Livia Paranhos | (参考訳) 本稿では,リカレントニューラルネットワークLSTMを用いてインフレーションの予測を行う。
これは時系列の魅力的なモデルであり、各ステップを順次処理し、動的依存関係を明示的に学習する。
また, インフレ過程を説明する経済的に有意な要因を明らかにするため, モデルの次元削減能力についても検討した。
米国のデータによるエクササイズの結果、推定されたニューラルネットワークは、一般的なベンチマーク(他の機械学習モデルを含む)と競合するが、傑出したものではない。
特にLSTMは、長い地平線やマクロ経済の不確実性の増大期間によく機能する。
興味深いことに、LSTMで実装された要因は、インフレーション予測器のような信号の有用性を知らせる、ビジネスサイクルインジケータと高い相関を示す。
また、ネットワークの初期化とアーキテクチャが予測性能に与える影響についても光を当てる。 This paper applies a recurrent neural network, the LSTM, to forecast inflation. This is an appealing model for time series as it processes each time step sequentially and explicitly learns dynamic dependencies. The paper also explores the dimension reduction capability of the model to uncover economically-meaningful factors that can explain the inflation process. Results from an exercise with US data indicate that the estimated neural nets present competitive, but not outstanding, performance against common benchmarks (including other machine learning models). The LSTM in particular is found to perform well at long horizons and during periods of heightened macroeconomic uncertainty. Interestingly, LSTM-implied factors present high correlation with business cycle indicators, informing on the usefulness of such signals as inflation predictors. The paper also sheds light on the impact of network initialization and architecture on forecast performance. | 翻訳日:2023-10-05 11:18:45 公開日:2023-10-02 |
# 蒸留のない低スループットネットワークにおける効果的な自己教師付き事前学習 Effective Self-supervised Pre-training on Low-compute Networks without Distillation ( http://arxiv.org/abs/2210.02808v2 ) ライセンス: Link先を確認 | Fuwen Tan, Fatemeh Saleh, Brais Martinez | (参考訳) 自己教師付き学習(SSL)の目覚ましい進歩にもかかわらず、低スループットネットワークへの適用性は制限されている。
報告されたパフォーマンスは、標準的な教師付き事前トレーニングに大きく遅れており、デバイスにデプロイされるモデルに影響を与えない自己教師型学習を禁止している。
ほとんどの先行研究は、この性能の低下を低計算ネットワークの容量ボトルネックとしており、知識蒸留(kd)によって問題を回避している。
本研究では、効率的なニューラルネットワークのためにSSLを再検討し、実用的制約の原因となる有害要因と、それらが自己監督型低コンパス設定に固有のものであるかどうかを詳しく検討する。
受け入れられた知識とは対照的に、固有のアーキテクチャ上のボトルネックはなく、パフォーマンスのボトルネックはモデルの複雑さと正規化の強さのトレードオフに関係していると診断する。
特に、ローカルビューの使用がSSLメソッドの有効性に劇的な影響を与えることを実証的に観察することから始める。
これは、低容量ネットワークにおけるSSLのパフォーマンスボトルネックのひとつとして、ビューサンプリングを示唆している。
私たちは、非常に多様な空間的スケールとコンテキストのビューをマッチングする必要がある大規模ニューラルネットワークのビューサンプリング戦略が、低容量アーキテクチャに要求されすぎていると仮定する。
我々はビューサンプリング機構の設計を体系化し、異なるSSLメソッド(MoCo-v2、SwaV、DINOなど)、異なる低サイズのネットワーク(MobileNetV2、ResNet18、ResNet34、ViT-Tiなど)、異なるタスク(線形プローブ、オブジェクト検出、インスタンスセグメンテーション、半教師付き学習など)におけるパフォーマンスを継続的に改善する新しいトレーニング手法を導いた。
我々の最善のモデルは、kd損失項を使わずに、低コンピュートネットワーク上でsslメソッドの新しい最先端を確立します。 Despite the impressive progress of self-supervised learning (SSL), its applicability to low-compute networks has received limited attention. Reported performance has trailed behind standard supervised pre-training by a large margin, barring self-supervised learning from making an impact on models that are deployed on device. Most prior works attribute this poor performance to the capacity bottleneck of the low-compute networks and opt to bypass the problem through the use of knowledge distillation (KD). In this work, we revisit SSL for efficient neural networks, taking a closer at what are the detrimental factors causing the practical limitations, and whether they are intrinsic to the self-supervised low-compute setting. We find that, contrary to accepted knowledge, there is no intrinsic architectural bottleneck, we diagnose that the performance bottleneck is related to the model complexity vs regularization strength trade-off. In particular, we start by empirically observing that the use of local views can have a dramatic impact on the effectiveness of the SSL methods. This hints at view sampling being one of the performance bottlenecks for SSL on low-capacity networks. We hypothesize that the view sampling strategy for large neural networks, which requires matching views in very diverse spatial scales and contexts, is too demanding for low-capacity architectures. We systematize the design of the view sampling mechanism, leading to a new training methodology that consistently improves the performance across different SSL methods (e.g. MoCo-v2, SwAV, DINO), different low-size networks (e.g. MobileNetV2, ResNet18, ResNet34, ViT-Ti), and different tasks (linear probe, object detection, instance segmentation and semi-supervised learning). Our best models establish a new state-of-the-art for SSL methods on low-compute networks despite not using a KD loss term. | 翻訳日:2023-10-05 11:12:16 公開日:2023-10-02 |
# ACOPF学習のためのバッチ化アクティブサンプリング Bucketized Active Sampling for Learning ACOPF ( http://arxiv.org/abs/2208.07497v2 ) ライセンス: Link先を確認 | Michael Klamkin, Mathieu Tanneau, Terrence W.K. Mak, Pascal Van Hentenryck | (参考訳) 本稿では,OPFの入力/出力関係を近似する機械学習モデルであるOPFの最適化プロキシについて考察する。
最近の研究は、そのようなプロキシが高忠実であることを示すことに重点を置いている。
しかし、それらのトレーニングには重要なデータが必要であり、各インスタンスは入力分布のサンプルに対してOPFの(オフライン)解決を必要とする。
マーケットクリーニングアプリケーションの要件を満たすため,本研究では,最適なOPFプロキシをタイムリミット内でトレーニングすることを目的とした,新たなアクティブラーニングフレームワークであるBucketized Active Smpling(BAS)を提案する。
BASは入力分布をバケットに分割し、次にサンプリングする場所を決定するために取得関数を使用する。
検証セットに同じパーティショニングを適用することで、BASはラベル付き検証サンプルを未ラベルのサンプルの選択に活用する。
basはまた、時間とともに増減する適応学習率にも依存している。
実験の結果,BASの利点が示された。 This paper considers optimization proxies for Optimal Power Flow (OPF), i.e., machine-learning models that approximate the input/output relationship of OPF. Recent work has focused on showing that such proxies can be of high fidelity. However, their training requires significant data, each instance necessitating the (offline) solving of an OPF for a sample of the input distribution. To meet the requirements of market-clearing applications, this paper proposes Bucketized Active Sampling (BAS), a novel active learning framework that aims at training the best possible OPF proxy within a time limit. BAS partitions the input distribution into buckets and uses an acquisition function to determine where to sample next. By applying the same partitioning to the validation set, BAS leverages labeled validation samples in the selection of unlabeled samples. BAS also relies on an adaptive learning rate that increases and decreases over time. Experimental results demonstrate the benefits of BAS. | 翻訳日:2023-10-05 11:10:12 公開日:2023-10-02 |
# 物理制約付き深層学習による気候変動対策 Physics-Constrained Deep Learning for Climate Downscaling ( http://arxiv.org/abs/2208.05424v8 ) ライセンス: Link先を確認 | Paula Harder, Alex Hernandez-Garcia, Venkatesh Ramesh, Qidong Yang, Prasanna Sattigeri, Daniela Szwarcman, Campbell Watson, David Rolnick | (参考訳) 信頼性の高い高解像度の気候データと気象データの提供は、気候適応と緩和に関する長期的な決定を通知し、極端な出来事に対する迅速な対応を導くために重要である。
予測モデルは計算コストによって制限されるため、しばしば粗い解像度予測を生成する。
深層学習からの超解像法を含む統計的ダウンスケーリングは、低解像データを効率的にアップサンプリングする方法を提供する。
しかし、ある場合には視覚的に説得力のある結果が得られたにもかかわらず、そのようなモデルは物理変数を予測するときにしばしば保存則に違反する。
本稿では,物理量を保存するために,統計的制約が深層学習のダウンスケーリングモデルによって満たされるのを保証し,従来の指標に従って性能を向上する手法を提案する。
我々は、異なる制約アプローチを比較し、異なるニューラルネットワークアーキテクチャと様々な気候・気象データセットに適用性を示す。
ダウンスケーリングによるより高速で正確な気候予測を可能にすることに加えて、我々の新しい手法が衛星データや標準データセットの超解像を改善できることも示している。 The availability of reliable, high-resolution climate and weather data is important to inform long-term decisions on climate adaptation and mitigation and to guide rapid responses to extreme events. Forecasting models are limited by computational costs and, therefore, often generate coarse-resolution predictions. Statistical downscaling, including super-resolution methods from deep learning, can provide an efficient method of upsampling low-resolution data. However, despite achieving visually compelling results in some cases, such models frequently violate conservation laws when predicting physical variables. In order to conserve physical quantities, here we introduce methods that guarantee statistical constraints are satisfied by a deep learning downscaling model while also improving their performance according to traditional metrics. We compare different constraining approaches and demonstrate their applicability across different neural architectures as well as a variety of climate and weather datasets. Besides enabling faster and more accurate climate predictions through downscaling, we also show that our novel methodologies can improve super-resolution for satellite data and standard datasets. | 翻訳日:2023-10-05 11:09:57 公開日:2023-10-02 |
# 多段階適応型等角性時系列予測のための汎用的枠組み A general framework for multi-step ahead adaptive conformal heteroscedastic time series forecasting ( http://arxiv.org/abs/2207.14219v7 ) ライセンス: Link先を確認 | Martim Sousa, Ana Maria Tom\'e, Jos\'e Moreira | (参考訳) 本稿では,適応型アダプティブ・アンサンブル・バッチ・マルチ入力・マルチアウトプット・コンフォーマライズ・クォンタイル回帰(aenbmimocqr)と呼ばれる新しいモデル非依存アルゴリズムを提案する。
本手法は共形予測原理に基づいているが,データ分割は必要とせず,データ交換ができない場合でも正確なカバレッジを提供する。
さらに、結果の予測間隔は、予測地平線に沿って経験的に有効であるだけでなく、不均一性を無視してはならない。
aenbmimocqrは分散シフトにロバストな設計であり、データ生成プロセスで再トレーニングや非現実的な厳密な仮定を伴わずに、その予測間隔は無制限に信頼性を維持する。
体系的な実験を通じて,本手法が実世界と合成データの両方において,他の競合手法よりも優れていることを実証する。
実験部分で使用されたコードと、AEnbMIMOCQRの使い方に関するチュートリアルは、以下のGitHubリポジトリで見ることができる。 This paper introduces a novel model-agnostic algorithm called adaptive ensemble batch multi-input multi-output conformalized quantile regression (AEnbMIMOCQR} that enables forecasters to generate multi-step ahead prediction intervals for a fixed pre-specified miscoverage rate in a distribution-free manner. Our method is grounded on conformal prediction principles, however, it does not require data splitting and provides close to exact coverage even when the data is not exchangeable. Moreover, the resulting prediction intervals, besides being empirically valid along the forecast horizon, do not neglect heteroscedasticity. AEnbMIMOCQR is designed to be robust to distribution shifts, which means that its prediction intervals remain reliable over an unlimited period of time, without entailing retraining or imposing unrealistic strict assumptions on the data-generating process. Through methodically experimentation, we demonstrate that our approach outperforms other competitive methods on both real-world and synthetic datasets. The code used in the experimental part and a tutorial on how to use AEnbMIMOCQR can be found at the following GitHub repository: https://github.com/Quilograma/AEnbMIMOCQR. | 翻訳日:2023-10-05 11:09:20 公開日:2023-10-02 |
# ニューラルポイント法による2016-2017年中央アペニン地震の予測 Forecasting the 2016-2017 Central Apennines Earthquake Sequence with a Neural Point Process ( http://arxiv.org/abs/2301.09948v3 ) ライセンス: Link先を確認 | Samuel Stockman, Daniel J. Lawson, Maximilian J. Werner | (参考訳) ポイントプロセスは数十年間、地震活動の進化のモデル化において支配的であり、流行型余震シーケンス(etas)モデルが最も一般的である。
機械学習の最近の進歩は、既存のパラメトリックモデルを改善するためにニューラルネットワークを使用して、高度に柔軟なポイントプロセスモデルを構築している。
これらのフレキシブルな点過程モデルが、既存の時間的ニューラルモデルからマグニチュード領域まで拡張することにより、短期間の地震活動予測に応用できるかどうかを検証し、このモデルが目標マグニチュード閾値を超える地震を予測できることを示す。
最初に、ニューラルネットワークが合成ETASデータに適合することを示したが、シーケンスの完全な履歴に依存しないため、計算時間の短縮が必要であった。
合成データセットにおける短期的余震の不完全性を人工的にエミュレートすることにより、ニューラルモデルがETASを上回っていることが分かる。
2016-2017年中央アペニン地震の新たなカタログを用いて、入力マグニチュードの最低値に対するetasと神経モデルの予測スキルを調査した。
ビッソ地震,ノルシア地震,カンポトスト地震を用いて複数の予測実験を行い,訓練データと試験データを分割し,M3+イベントを目標とした。
どちらのモデルも以前に検討したしきい値(例えば、M3以上)でも同様に動作するが、閾値をM1.2に下げると、ニューラルモデルとは異なり、ETASの性能が低下する。
これらの成果のいくつかは、ニューラルモデルが不完全なデータを処理できることによるものであると論じている。
データ不足に対するロバストさと、ニューラルネットワークをトレーニングするスピードは、地震予報において強力な競争相手であることを示している。 Point processes have been dominant in modeling the evolution of seismicity for decades, with the Epidemic Type Aftershock Sequence (ETAS) model being most popular. Recent advances in machine learning have constructed highly flexible point process models using neural networks to improve upon existing parametric models. We investigate whether these flexible point process models can be applied to short-term seismicity forecasting by extending an existing temporal neural model to the magnitude domain and we show how this model can forecast earthquakes above a target magnitude threshold. We first demonstrate that the neural model can fit synthetic ETAS data, however, requiring less computational time because it is not dependent on the full history of the sequence. By artificially emulating short-term aftershock incompleteness in the synthetic dataset, we find that the neural model outperforms ETAS. Using a new enhanced catalog from the 2016-2017 Central Apennines earthquake sequence, we investigate the predictive skill of ETAS and the neural model with respect to the lowest input magnitude. Constructing multiple forecasting experiments using the Visso, Norcia and Campotosto earthquakes to partition training and testing data, we target M3+ events. We find both models perform similarly at previously explored thresholds (e.g., above M3), but lowering the threshold to M1.2 reduces the performance of ETAS unlike the neural model. We argue that some of these gains are due to the neural model's ability to handle incomplete data. The robustness to missing data and speed to train the neural model present it as an encouraging competitor in earthquake forecasting. | 翻訳日:2023-10-05 11:00:55 公開日:2023-10-02 |
# サーロゲートモデリングによる効率的な活性化関数最適化 Efficient Activation Function Optimization through Surrogate Modeling ( http://arxiv.org/abs/2301.05785v5 ) ライセンス: Link先を確認 | Garrett Bingham and Risto Miikkulainen | (参考訳) 慎重に設計されたアクティベーション機能は、多くの機械学習タスクにおけるニューラルネットワークのパフォーマンスを改善することができる。
しかし、人間が最適な活性化関数を構築することは困難であり、現在の活性化関数探索アルゴリズムは極めて高価である。
本研究の目的は, コンボリューション, 残留, 視覚トランスフォーマーの訓練により, act-bench-cnn, act-bench-resnet, act-bench-vitのベンチマークデータセットを2,913個の系統的生成アクティベーション関数を用いてスクラッチから作成することである。
第2に,ベンチマーク空間のキャラクタリゼーションが開発され,新たなサロゲートに基づく最適化手法が開発された。
より具体的には、初期化時のモデルの予測分布と活性化関数の出力分布に関連するフィッシャー情報行列のスペクトルは、高い性能予測値であることが判明した。
第3に、サロゲートはいくつかの実世界のタスクで改良されたアクティベーション関数を発見するために用いられ、驚くべき発見として、他のアクティベーション関数よりも優れたシグモダル設計が発見された。
これらのステップはいずれもそれ自体が貢献しており、アクティベーション関数の最適化に関するさらなる研究のための実践的で理論的な基礎となっている。 Carefully designed activation functions can improve the performance of neural networks in many machine learning tasks. However, it is difficult for humans to construct optimal activation functions, and current activation function search algorithms are prohibitively expensive. This paper aims to improve the state of the art through three steps: First, the benchmark datasets Act-Bench-CNN, Act-Bench-ResNet, and Act-Bench-ViT were created by training convolutional, residual, and vision transformer architectures from scratch with 2,913 systematically generated activation functions. Second, a characterization of the benchmark space was developed, leading to a new surrogate-based method for optimization. More specifically, the spectrum of the Fisher information matrix associated with the model's predictive distribution at initialization and the activation function's output distribution were found to be highly predictive of performance. Third, the surrogate was used to discover improved activation functions in several real-world tasks, with a surprising finding: a sigmoidal design that outperformed all other activation functions was discovered, challenging the status quo of always using rectifier nonlinearities in deep learning. Each of these steps is a contribution in its own right; together they serve as a practical and theoretical foundation for further research on activation function optimization. | 翻訳日:2023-10-05 11:00:26 公開日:2023-10-02 |
# 深部生成型3次元画像合成に関する研究 A Survey on Deep Generative 3D-aware Image Synthesis ( http://arxiv.org/abs/2210.14267v3 ) ライセンス: Link先を確認 | Weihao Xia, Jing-Hao Xue | (参考訳) 近年,深層学習によるビジュアルコンテンツ作成が著しい進歩を遂げている。
これには、3Dの監督を必要とせずに、純粋な画像コレクションからオブジェクトのコンパクトな表面を同時にキャプチャし、3D画像と3D現実のギャップを埋める、深部生成的な3D画像合成が含まれる。
コンピュータビジョンのieldは、近年、過去数年間(主に過去2年間)のトップクラスのジャーナルやカンファレンスに何百もの論文が登場し、深層3d認識画像合成のタスクに魅了されているが、この注目すべきかつ迅速な進歩に関する総合的な調査は欠落している。
本研究の目的は,新たな研究者の紹介,関連研究の参考となる資料の提供,今後の研究方向性の育成である。
提示された論文とは別に、私たちは最新の関連論文とhttps://weihaox.github.io/3d-aware-genで対応する実装を常に更新することを目指している。 Recent years have seen remarkable progress in deep learning powered visual content creation. This includes deep generative 3D-aware image synthesis, which produces high-idelity images in a 3D-consistent manner while simultaneously capturing compact surfaces of objects from pure image collections without the need for any 3D supervision, thus bridging the gap between 2D imagery and 3D reality. The ield of computer vision has been recently captivated by the task of deep generative 3D-aware image synthesis, with hundreds of papers appearing in top-tier journals and conferences over the past few years (mainly the past two years), but there lacks a comprehensive survey of this remarkable and swift progress. Our survey aims to introduce new researchers to this topic, provide a useful reference for related works, and stimulate future research directions through our discussion section. Apart from the presented papers, we aim to constantly update the latest relevant papers along with corresponding implementations at https://weihaox.github.io/3D-aware-Gen. | 翻訳日:2023-10-05 10:58:30 公開日:2023-10-02 |
# 効果的な誤情報発見のためのクエリ書き換え Query Rewriting for Effective Misinformation Discovery ( http://arxiv.org/abs/2210.07467v2 ) ライセンス: Link先を確認 | Ashkan Kazemi, Artem Abzaliev, Naihao Deng, Rui Hou, Scott A. Hale, Ver\'onica P\'erez-Rosas, Rada Mihalcea | (参考訳) 本稿では,ファクトチェッカーが既知の誤情報クレームの検索クエリを定式化し,複数のソーシャルメディアプラットフォームを効果的に検索するシステムを提案する。
クレームを含むクエリの編集動作(例えば、単語を同義語に置き換え、動詞の時制を現在の単純に変更)をオフラインの強化学習によって自動的に学習する、適応可能な書き換え戦略を導入する。
我々のモデルは,平均的精度などのクエリ検索指標を最大化する編集動作の列を決定変換器を用いて学習する。
我々は,クエリ書き換えシステムが,人間の解釈可能な編集動作シーケンスを生成しながら,クエリの有効性を最大42%向上させることを示す一連の実験を行った。 We propose a novel system to help fact-checkers formulate search queries for known misinformation claims and effectively search across multiple social media platforms. We introduce an adaptable rewriting strategy, where editing actions for queries containing claims (e.g., swap a word with its synonym; change verb tense into present simple) are automatically learned through offline reinforcement learning. Our model uses a decision transformer to learn a sequence of editing actions that maximizes query retrieval metrics such as mean average precision. We conduct a series of experiments showing that our query rewriting system achieves a relative increase in the effectiveness of the queries of up to 42%, while producing editing action sequences that are human interpretable. | 翻訳日:2023-10-05 10:58:08 公開日:2023-10-02 |
# 表現学習と複合変数構築による多変量ネットワークの視覚分析 Visual Analytics of Multivariate Networks with Representation Learning and Composite Variable Construction ( http://arxiv.org/abs/2303.09590v2 ) ライセンス: Link先を確認 | Hsiao-Ying Lu, Takanori Fujiwara, Ming-Yi Chang, Yang-chih Fu, Anders Ynnerman, Kwan-Liu Ma | (参考訳) 多変量ネットワークは現実世界のデータ駆動アプリケーションで一般的に見られる。
多変量ネットワークにおける関心関係の解明と理解は簡単な作業ではない。
本稿では,多変量ネットワークを探索し,ネットワークの構造的特徴と意味的特徴の関連性(例えば,ソーシャルネットワークの密度に関連する属性の組み合わせ)を抽出するための視覚的分析ワークフローを提案する。
ワークフローは、選択された入出力属性に基づいてデータを分類するニューラルネットワークベースの学習フェーズと、試験のための簡易な結果セットを作成するための次元縮小および最適化フェーズと、最後に、対話的な可視化インターフェースを介してユーザが行う解釈フェーズとからなる。
ニューラルネットワークから得られる非線形特徴を直感的に解釈できる線形特徴にモデル化する複合変数構築ステップが,我々の設計の鍵となる。
このワークフローの機能を,ソーシャルメディアから派生したネットワークに関する複数のケーススタディで実証し,専門家のインタビューを通じてワークフローを評価する。 Multivariate networks are commonly found in real-world data-driven applications. Uncovering and understanding the relations of interest in multivariate networks is not a trivial task. This paper presents a visual analytics workflow for studying multivariate networks to extract associations between different structural and semantic characteristics of the networks (e.g., what are the combinations of attributes largely relating to the density of a social network?). The workflow consists of a neural-network-based learning phase to classify the data based on the chosen input and output attributes, a dimensionality reduction and optimization phase to produce a simplified set of results for examination, and finally an interpreting phase conducted by the user through an interactive visualization interface. A key part of our design is a composite variable construction step that remodels nonlinear features obtained by neural networks into linear features that are intuitive to interpret. We demonstrate the capabilities of this workflow with multiple case studies on networks derived from social media usage and also evaluate the workflow through an expert interview. | 翻訳日:2023-10-05 10:52:34 公開日:2023-10-02 |
# AIによるテキスト検出の可能性について On the Possibilities of AI-Generated Text Detection ( http://arxiv.org/abs/2304.04736v3 ) ライセンス: Link先を確認 | Souradip Chakraborty, Amrit Singh Bedi, Sicheng Zhu, Bang An, Dinesh Manocha, and Furong Huang | (参考訳) 本研究は,Large Language Models (LLM) が生成するテキストと,多数のアプリケーションに不可欠なタスクである人為的テキストとを区別する上で重要な課題に対処する。
このような分化の実現可能性に関する議論が進行中であるにもかかわらず、人間と機械のテキストの分布がサポート全体にわたって区別できない場合を除き、その一貫した実現可能性を支持する証拠を示す。
情報理論から、機械生成テキストが人間に近い品質を近似すると、検出に必要なサンプルサイズが増加すると論じる。
我々は、AI生成テキストの検出のための正確なサンプル複雑さ境界を確立し、先進的なマルチサンプル検出器の開発を目的とした将来の研究の基盤となる。
複数のデータセット(Xsum, Squad, IMDb, Kaggle FakeNews)にまたがる経験的評価により, 検出手法の有効性が確認された。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
今回の結果は,OpenAIのシーケンス長に関する経験的データと一致し,これらの観測に対する最初の理論的裏付けとなった。 Our work addresses the critical issue of distinguishing text generated by Large Language Models (LLMs) from human-produced text, a task essential for numerous applications. Despite ongoing debate about the feasibility of such differentiation, we present evidence supporting its consistent achievability, except when human and machine text distributions are indistinguishable across their entire support. Drawing from information theory, we argue that as machine-generated text approximates human-like quality, the sample size needed for detection increases. We establish precise sample complexity bounds for detecting AI-generated text, laying groundwork for future research aimed at developing advanced, multi-sample detectors. Our empirical evaluations across multiple datasets (Xsum, Squad, IMDb, and Kaggle FakeNews) confirm the viability of enhanced detection methods. We test various state-of-the-art text generators, including GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, and Llama-2-70B-Chat-HF, against detectors, including oBERTa-Large/Base-Detector, GPTZero. Our findings align with OpenAI's empirical data related to sequence length, marking the first theoretical substantiation for these observations. | 翻訳日:2023-10-05 10:38:44 公開日:2023-10-02 |
# グローバル経路と詳細な経路のタイミング整合性を改善する機械学習手法 A Machine Learning Approach to Improving Timing Consistency between Global Route and Detailed Route ( http://arxiv.org/abs/2305.06917v2 ) ライセンス: Link先を確認 | Vidya A. Chhabria, Wenjing Jiang, Andrew B. Kahng, Sachin S. Sapatnekar | (参考訳) 詳細なルーティング (DR) の前に設計段階ではルーティング情報が利用できないため、タイミング予測と最適化のタスクが大きな課題となる。
不正確なタイミング予測は設計の労力を浪費し、回路性能を損なう。
この研究は、時間と「完全」ネットリストを最適化する最も初期の機会であるクロックツリー合成と配置の合法化後のタイミング予測に焦点を当てている。
本論文は, 最終DR寄生虫の「おかしな知識」を持つことにより, 言語後ルーティング(GR)の最適化が実現し, 最終タイミングを改善できることを示す。
ポストgr最適化におけるgrに基づく寄生虫とタイミング推定とポストdr結果とのギャップを埋めるため、マクロを用いた設計の正確な予測にマクロブロックの機能を使用するなど、機械学習(ml)ベースのモデルを提案する。
実験結果から,これらのモデルがgrに基づくタイミング推定よりも高い精度を示すことを実証した。
ポストGR最適化で使用する場合、MLベースのモデルはポストDR回路の性能を実証的に改善する。
この手法は、OpenROADと商用ツールフローの2つの異なるツールフローに適用され、45nmバルクと12nm FinFETの有効化の結果は、混雑を増大させることなく、ポストDRスラックメトリクスの改善を示す。
これらのモデルは、異なるクロック周期の制約の下で生成される設計に一般化できることが示されており、少量のノイズレベルを持つトレーニングデータに堅牢である。 Due to the unavailability of routing information in design stages prior to detailed routing (DR), the tasks of timing prediction and optimization pose major challenges. Inaccurate timing prediction wastes design effort, hurts circuit performance, and may lead to design failure. This work focuses on timing prediction after clock tree synthesis and placement legalization, which is the earliest opportunity to time and optimize a "complete" netlist. The paper first documents that having "oracle knowledge" of the final post-DR parasitics enables post-global routing (GR) optimization to produce improved final timing outcomes. To bridge the gap between GR-based parasitic and timing estimation and post-DR results during post-GR optimization, machine learning (ML)-based models are proposed, including the use of features for macro blockages for accurate predictions for designs with macros. Based on a set of experimental evaluations, it is demonstrated that these models show higher accuracy than GR-based timing estimation. When used during post-GR optimization, the ML-based models show demonstrable improvements in post-DR circuit performance. The methodology is applied to two different tool flows - OpenROAD and a commercial tool flow - and results on 45nm bulk and 12nm FinFET enablements show improvements in post-DR slack metrics without increasing congestion. The models are demonstrated to be generalizable to designs generated under different clock period constraints and are robust to training data with small levels of noise. | 翻訳日:2023-10-05 08:24:47 公開日:2023-10-02 |
# higen:階層型グラフ生成ネットワーク HiGen: Hierarchical Graph Generative Networks ( http://arxiv.org/abs/2305.19337v2 ) ライセンス: Link先を確認 | Mahdi Karami | (参考訳) ほとんどの実世界のグラフは階層構造を示しており、しばしば既存のグラフ生成法で見過ごされる。
この制限に対処するために,グラフの階層的な性質を捕捉し,粗大な方法でグラフのサブ構造を連続的に生成するグラフ生成ネットワークを提案する。
各階層レベルでは、このモデルが並列にコミュニティを生成し、続いて別のニューラルネットワークを使用してコミュニティ間のクロスエッジを予測する。
このモジュラーアプローチは、大規模で複雑なグラフに対してスケーラブルなグラフ生成を可能にする。
さらに,多項分布を持つ階層グラフにおけるエッジの出力分布をモデル化し,この分布に対する再帰的因子分解を導出する。
これにより、整数値のエッジ重み付きコミュニティグラフを自己回帰的に生成できる。
実験により,提案した生成モデルの有効性とスケーラビリティを実証し,各種ベンチマークデータセットのグラフ品質の観点から,最先端の性能を実現する。
コードはhttps://github.com/Karami-m/HiGen_main.comで公開されている。 Most real-world graphs exhibit a hierarchical structure, which is often overlooked by existing graph generation methods. To address this limitation, we propose a novel graph generative network that captures the hierarchical nature of graphs and successively generates the graph sub-structures in a coarse-to-fine fashion. At each level of hierarchy, this model generates communities in parallel, followed by the prediction of cross-edges between communities using separate neural networks. This modular approach enables scalable graph generation for large and complex graphs. Moreover, we model the output distribution of edges in the hierarchical graph with a multinomial distribution and derive a recursive factorization for this distribution. This enables us to generate community graphs with integer-valued edge weights in an autoregressive manner. Empirical studies demonstrate the effectiveness and scalability of our proposed generative model, achieving state-of-the-art performance in terms of graph quality across various benchmark datasets. The code is available at https://github.com/Karami-m/HiGen_main. | 翻訳日:2023-10-05 08:17:44 公開日:2023-10-02 |
# 原子配列$^{171}$ybにおける中回路量子ビットの測定と再構成 Mid-circuit qubit measurement and rearrangement in a $^{171}$Yb atomic array ( http://arxiv.org/abs/2305.19119v3 ) ライセンス: Link先を確認 | M. A. Norcia, W. B. Cairncross, K. Barnes, P. Battaglino, A. Brown, M. O. Brown, K. Cassella, C.-A. Chen, R. Coxe, D. Crow, J. Epstein, C. Griger, A. M. W. Jones, H. Kim, J. M. Kindem, J. King, S. S. Kondov, K. Kotru, J. Lauigan, M. Li, M. Lu, E. Megidish, J. Marjanovic, M. McDonald, T. Mittiga, J. A. Muniz, S. Narayanaswami, C. Nishiguchi, R. Notermans, T. Paule, K. Pawlak, L. Peng, A. Ryou, A. Smull, D. Stack, M. Stone, A. Sucich, M. Urbanek, R. van de Veerdonk, Z. Vendeiro, T. Wilkason, T.-Y. Wu, X. Xie, X. Zhang, B. J. Bloom | (参考訳) 測定に基づく量子誤り訂正は、残りの量子ビットの状態を明らかにしたり邪魔したりすることなく、プロセッサ内の量子ビット(アンシラ)のサブセットの状態を決定する能力に依存する。
中性原子ベースのプラットフォームでは、アンシラキュービットを将来の操作に適した状態で保持する中回路計測へのスケーラブルで高忠実なアプローチはまだ実証されていない。
本研究では,Tweezer-confined $^{171}$Yb 原子配列の狭い直線遷移を用いてイメージングを行い,非破壊的な状態選択およびサイト選択検出を示す。
サイト固有の光シフトを適用することで、アレイ内の選択された原子を撮像光から隠蔽することができるため、残りの量子ビットにパーセンテージレベルのエラーしか発生せず、キュービットのサブセットを測定できる。
中間回路測定結果に基づく条件付き操作の原理実証と,この条件付き量子ビットを再利用する能力の実証として,データキュービットのコヒーレンスを維持しつつ,アシラサイトを条件付きで満たし,時折アトムロスを補正する。
真の連続動作をめざして、最小の量子ビットデコヒーレンスを持つ磁気光学トラップの載荷を実演する。 Measurement-based quantum error correction relies on the ability to determine the state of a subset of qubits (ancillae) within a processor without revealing or disturbing the state of the remaining qubits. Among neutral-atom based platforms, a scalable, high-fidelity approach to mid-circuit measurement that retains the ancilla qubits in a state suitable for future operations has not yet been demonstrated. In this work, we perform imaging using a narrow-linewidth transition in an array of tweezer-confined $^{171}$Yb atoms to demonstrate nondestructive state-selective and site-selective detection. By applying site-specific light shifts, selected atoms within the array can be hidden from imaging light, which allows a subset of qubits to be measured while causing only percent-level errors on the remaining qubits. As a proof-of-principle demonstration of conditional operations based on the results of the mid-circuit measurements, and of our ability to reuse ancilla qubits, we perform conditional refilling of ancilla sites to correct for occasional atom loss, while maintaining the coherence of data qubits. Looking towards true continuous operation, we demonstrate loading of a magneto-optical trap with a minimal degree of qubit decoherence. | 翻訳日:2023-10-05 08:17:29 公開日:2023-10-02 |
# 異常検出のための拡散モデルについて On Diffusion Modeling for Anomaly Detection ( http://arxiv.org/abs/2305.18593v2 ) ライセンス: Link先を確認 | Victor Livernoche, Vineet Jain, Yashar Hezaveh, Siamak Ravanbakhsh | (参考訳) 生成モデルにおける優れた性能で知られ、拡散モデルは密度に基づく異常検出の魅力的な候補である。
本稿では,非教師付きおよび半教師付き異常検出のための拡散モデルの違いについて検討する。
特に, DPM (Denoising Diffusion Probability Models) は, 異常検出ベンチマークの性能は高いが, 計算コストは高い。
DDPMの異常検出への応用を単純化することにより、自然に拡散時間推定 (DTE) と呼ばれる別のアプローチが導かれる。
dteは与えられた入力の拡散時間上の分布を推定し、この分布のモードまたは平均を異常スコアとして用いる。
この密度の分析形式を導出し、深層ニューラルネットワークを利用して推論効率を向上させる。
ADBenchベンチマークの実証評価を通じて, 拡散に基づく異常検出手法が, 半教師なしと教師なしの両方で競合することを示した。
特に、DTEはDDPMよりも桁違いに高速な推論時間を実現し、このベンチマークではそれを上回っている。
これらの結果から,従来の手法に代わるスケーラブルな拡散型異常検出と,非教師付きおよび半教師付き異常検出設定のための最近のディープラーニング技術が確立された。 Known for their impressive performance in generative modeling, diffusion models are attractive candidates for density-based anomaly detection. This paper investigates different variations of diffusion modeling for unsupervised and semi-supervised anomaly detection. In particular, we find that Denoising Diffusion Probability Models (DDPM) are performant on anomaly detection benchmarks yet computationally expensive. By simplifying DDPM in application to anomaly detection, we are naturally led to an alternative approach called Diffusion Time Estimation (DTE). DTE estimates the distribution over diffusion time for a given input and uses the mode or mean of this distribution as the anomaly score. We derive an analytical form for this density and leverage a deep neural network to improve inference efficiency. Through empirical evaluations on the ADBench benchmark, we demonstrate that all diffusion-based anomaly detection methods perform competitively for both semi-supervised and unsupervised settings. Notably, DTE achieves orders of magnitude faster inference time than DDPM, while outperforming it on this benchmark. These results establish diffusion-based anomaly detection as a scalable alternative to traditional methods and recent deep-learning techniques for standard unsupervised and semi-supervised anomaly detection settings. | 翻訳日:2023-10-05 08:17:05 公開日:2023-10-02 |
# ジェンセン・シャノンの多様性の表現 The Representation Jensen-Shannon Divergence ( http://arxiv.org/abs/2305.16446v3 ) ライセンス: Link先を確認 | Jhoan K. Hoyos-Osorio, Santiago Posso-Murillo, Luis G. Sanchez-Giraldo | (参考訳) 統計的分岐は確率分布の違いを定量化し、機械学習における複数の利用を可能にする。
しかしながら、これらの量の基本的な課題は、データの基礎となる分布が通常不明であるため、経験的なサンプルからの推定である。
本研究では,確率密度関数の推定を回避したJensen-Shannon分散にインスパイアされた分岐を提案する。
提案手法は、データ分布と非中心共分散演算子を関連付ける再生カーネルヒルベルト空間(RKHS)にデータを埋め込む。
したがって、この測度をJensen-Shannon divergence (RJSD) という。
フーリエ特徴量を用いてデータをRKHSに明示的にマッピングすることで,経験的共分散行列から推定する。
この推定器は柔軟で、スケーラブルで、微分可能で、ミニバッチベースの最適化問題に適している。
さらに、RKHSに明示的にマッピングすることなく、カーネル行列に基づく推定器を提供する。
提案する推定器の整合性収束結果を提供する。
さらに、この量はjensen-shannonの発散より低い値であることが証明され、理論的な保証により推定する変分的アプローチが導かれる。
本研究では,提案手法を用いて生成ネットワークの学習を行い,モードの崩壊を緩和し,サンプルの多様性を奨励する。
さらに、RJSDは、複数の2サンプルテスト問題において、他の最先端技術を超え、分散の識別において、優れたパフォーマンスと信頼性を示す。 Statistical divergences quantify the difference between probability distributions, thereby allowing for multiple uses in machine-learning. However, a fundamental challenge of these quantities is their estimation from empirical samples since the underlying distributions of the data are usually unknown. In this work, we propose a divergence inspired by the Jensen-Shannon divergence which avoids the estimation of the probability density functions. Our approach embeds the data in an reproducing kernel Hilbert space (RKHS) where we associate data distributions with uncentered covariance operators in this representation space. Therefore, we name this measure the representation Jensen-Shannon divergence (RJSD). We provide an estimator from empirical covariance matrices by explicitly mapping the data to an RKHS using Fourier features. This estimator is flexible, scalable, differentiable, and suitable for minibatch-based optimization problems. Additionally, we provide an estimator based on kernel matrices without an explicit mapping to the RKHS. We provide consistency convergence results for the proposed estimator. Moreover, we demonstrate that this quantity is a lower bound on the Jensen-Shannon divergence, leading to a variational approach to estimate it with theoretical guarantees. We leverage the proposed divergence to train generative networks, where our method mitigates mode collapse and encourages samples diversity. Additionally, RJSD surpasses other state-of-the-art techniques in multiple two-sample testing problems, demonstrating superior performance and reliability in discriminating between distributions. | 翻訳日:2023-10-05 08:15:35 公開日:2023-10-02 |
# OpenDataVal: データ評価のための統一ベンチマーク OpenDataVal: a Unified Benchmark for Data Valuation ( http://arxiv.org/abs/2306.10577v2 ) ライセンス: Link先を確認 | Kevin Fu Jiang, Weixin Liang, James Zou, Yongchan Kwon | (参考訳) 個々のデータポイントの品質と影響を評価することは、モデルパフォーマンスを改善し、トレーニングデータセット内の望ましくないバイアスを軽減するために重要です。
データ品質を定量化するためにいくつかのデータ評価アルゴリズムが提案されているが、データ評価のための体系的で標準化されたベンチマークシステムがない。
本稿では、研究者や実践者が様々なデータ評価アルゴリズムを適用して比較できるようにする、使いやすく統一されたベンチマークフレームワークOpenDataValを紹介する。
OpenDataValは統合された環境を提供する
(i)画像、自然言語、表形式のデータセットの多種多様なコレクション。
(ii)11種類の最先端データ評価アルゴリズムの実装と実装
(iii) scikit-learnで任意のモデルをインポート可能な予測モデルapi。
さらに、データ値の品質を評価するための4つの下流機械学習タスクを提案する。
我々はOpenDataValを用いてベンチマーク分析を行い、最先端データ評価手法の有効性を定量化し比較する。
一つのアルゴリズムが全てのタスクに対して一様に最善を尽くすことはなく、ユーザの下流タスクに適切なアルゴリズムを適用すべきである。
OpenDataValはhttps://opendataval.github.ioで公開されている。
さらに、研究者が自身のデータバリュエーションアルゴリズムの有効性を評価できるリーダーボードを提供する。 Assessing the quality and impact of individual data points is critical for improving model performance and mitigating undesirable biases within the training dataset. Several data valuation algorithms have been proposed to quantify data quality, however, there lacks a systemic and standardized benchmarking system for data valuation. In this paper, we introduce OpenDataVal, an easy-to-use and unified benchmark framework that empowers researchers and practitioners to apply and compare various data valuation algorithms. OpenDataVal provides an integrated environment that includes (i) a diverse collection of image, natural language, and tabular datasets, (ii) implementations of eleven different state-of-the-art data valuation algorithms, and (iii) a prediction model API that can import any models in scikit-learn. Furthermore, we propose four downstream machine learning tasks for evaluating the quality of data values. We perform benchmarking analysis using OpenDataVal, quantifying and comparing the efficacy of state-of-the-art data valuation approaches. We find that no single algorithm performs uniformly best across all tasks, and an appropriate algorithm should be employed for a user's downstream task. OpenDataVal is publicly available at https://opendataval.github.io with comprehensive documentation. Furthermore, we provide a leaderboard where researchers can evaluate the effectiveness of their own data valuation algorithms. | 翻訳日:2023-10-05 08:04:15 公開日:2023-10-02 |
# 単元領域一般化のための逆ベイズ拡張 Adversarial Bayesian Augmentation for Single-Source Domain Generalization ( http://arxiv.org/abs/2307.09520v2 ) ライセンス: Link先を確認 | Sheng Cheng, Tejas Gokhale, Yezhou Yang | (参考訳) 見えないイメージドメインへの一般化は、主に多様なトレーニングデータ、アクセス不能なターゲットデータ、そして多くの実世界の設定に存在する可能性のある大きなドメインシフトが欠如しているため、難しい問題である。
このようなデータ拡張は、この問題に対処しようとするドメイン一般化メソッドの重要なコンポーネントです。
そこで本研究では,一元的領域一般化における画像拡張を学習する新しいアルゴリズムであるadversarial bayesian augmentation (aba)を提案する。
abaは、さまざまなデータ拡張の生成を導くために、逆学習とベイズニューラルネットワークの強みを描いている。
そこで我々は,ABAが各種領域シフトに対する強さを実証し,その特徴として,スタイルシフト,サブポピュレーションシフト,医療画像設定のシフトを挙げる。
abaは、事前指定された拡張、ピクセルベースおよび畳み込みベースの拡張を含む、以前の最先端のメソッドをすべて上回っている。 Generalizing to unseen image domains is a challenging problem primarily due to the lack of diverse training data, inaccessible target data, and the large domain shift that may exist in many real-world settings. As such data augmentation is a critical component of domain generalization methods that seek to address this problem. We present Adversarial Bayesian Augmentation (ABA), a novel algorithm that learns to generate image augmentations in the challenging single-source domain generalization setting. ABA draws on the strengths of adversarial learning and Bayesian neural networks to guide the generation of diverse data augmentations -- these synthesized image domains aid the classifier in generalizing to unseen domains. We demonstrate the strength of ABA on several types of domain shift including style shift, subpopulation shift, and shift in the medical imaging setting. ABA outperforms all previous state-of-the-art methods, including pre-specified augmentations, pixel-based and convolutional-based augmentations. | 翻訳日:2023-10-05 07:56:00 公開日:2023-10-02 |
# 大規模言語モデルにおけるコンテキスト圧縮のためのインコンテキストオートエンコーダ In-context Autoencoder for Context Compression in a Large Language Model ( http://arxiv.org/abs/2307.06945v2 ) ライセンス: Link先を確認 | Tao Ge, Jing Hu, Lei Wang, Xun Wang, Si-Qing Chen, Furu Wei | (参考訳) 大規模言語モデル(LLM)のパワーを活用して,LLMによって様々な目的で直接条件付け可能な,長いコンテキストをコンパクトなメモリスロットに圧縮するICAEを提案する。
ICAEは、まず、大量のテキストデータに基づく自動符号化と言語モデリングの目的の両方を用いて事前訓練を行い、元のコンテキストを正確にかつ包括的に表現するメモリスロットを生成する。
実験によると、我々の軽量ICAEは1%未満の追加パラメータを導入し、Llamaに基づく4Xコンテキスト圧縮を効果的に達成し、推論中のレイテンシとGPUメモリコストの改善の両方に利点を提供し、メモリ化に関する興味深い洞察とスケーラビリティの可能性を示している。
これらの有望な結果は、認知科学におけるワーキングメモリとLLMにおける表現学習の関連性に関する新たな視点を示し、LLMのコンテキスト管理におけるICAEの意義を明らかにしている。
私たちのデータ、コード、モデルはhttps://github.com/getao/icaeでリリースされています。 We propose the In-context Autoencoder (ICAE), leveraging the power of a large language models (LLM) to compress a long context into short compact memory slots that can be directly conditioned on by the LLM for various purposes. ICAE is first pretrained using both autoencoding and language modeling objectives on massive text data, enabling it to generate memory slots that accurately and comprehensively represent the original context; Then, it is fine-tuned on instruction data for producing desirable responses to various prompts. Experiments demonstrate that our lightweight ICAE, introducing fewer than 1% additional parameters, effectively achieves 4X context compression based on Llama, offering advantages in both improved latency and GPU memory cost during inference, and showing an interesting insight in memorization as well as potential for scalability. These promising results imply a novel perspective on the connection between working memory in cognitive science and representation learning in LLMs, revealing ICAE's significant implications in addressing the long context problem and suggesting further research in LLM context management. Our data, code and model are released at https://github.com/getao/icae. | 翻訳日:2023-10-05 07:55:07 公開日:2023-10-02 |
# 正統派か反対派か?
1950年代のボームのオントロジー反射の進化 Orthodox or Dissident? The Evolution of Bohm's Ontological Reflections in the 1950s ( http://arxiv.org/abs/2307.06142v2 ) ライセンス: Link先を確認 | Andrea Oldofredi | (参考訳) デビッド・ボームはしばしば、量子革命の意味とその急進的メタフィジカルな意味を理解できないと考えられている。
同様に、彼のパイロット波理論は古典的で決定論的なヴェルタンシャウングを復活させようとする試みとして否定的に描写された。
この背景に対して、本論文の目的は2つある: まず第一に、数名の著名な物理学者が提唱したドッグマティズムの告発は、彼の作品に対する偏見のある理解を示していると論じる。
これを参照して、ボーア=パウリ対応(英語版)と、ボーアの相補性哲学の熱心な支持者であるレオン・ローゼンフェルト(英語版)との困難な関係(英語版)という2つのケーススタディが議論される。
これらの例は、パイロット波のアプローチに対する反対は、主に科学的根拠に基づいていないことを示している。
第二に、ボムのオントロジー、科学的リアリズム、多元論に関する哲学的考察の進化を、私的文通と彼の50世紀の主な著作である「近代物理学における因果性とチャンス」で再構築し、分析する。
ボームの思想の独創性について、彼の見解は内的リアリズムの一形態として特徴づけられると結論づける。 David Bohm has often been considered unable to understand the meaning of the quantum revolution as well as its radical metaphysical implications. Similarly, his pilot-wave theory was negatively portrayed as an attempt to restore a classical and deterministic Weltanschauung. Against this background, the aim of this paper is twofold: in the first place, it will be argued that the accusations of dogmatism advanced by several eminent physicists contra Bohm show a biased understanding of his works. Referring to this, two case studies will be discussed: the Bohm-Pauli correspondence, and the difficult relationship between the former and Leon Rosenfeld, a fervent supporter of Bohr's philosophy of complementarity. These examples indicate that the opposition to the pilot-wave approach was for the most part not based on scientific grounds. In the second place, I will reconstruct and analyze the evolution of Bohm's philosophical reflections about ontology, scientific realism and pluralism studying private correspondences as well as his main works in the fifties culminated in the book "Causality and Chance in Modern Physics". Underlining the originality of Bohm's thoughts, it will be concluded that his perspective can be characterized as a form of internal realism. | 翻訳日:2023-10-05 07:54:45 公開日:2023-10-02 |
# 機械学習による力学系の未知外乱の抑制 Suppressing unknown disturbances to dynamical systems using machine learning ( http://arxiv.org/abs/2307.03690v2 ) ライセンス: Link先を確認 | Juan G. Restrepo, Clayton P. Byers, Per Sebastian Skardal | (参考訳) 力学系に対する未知の障害の特定と抑制は多くの異なる分野の応用において問題となる。
本報告では,未知のシステムに対する未知の障害を,既知の強制関数の影響下での先行観測のみに基づいて同定・抑制するモデルフリー手法を提案する。
訓練関数の極めて軽度な制限の下では,未知の障害の大きなクラスをロバストに識別し,抑制することが可能であることが判明した。
本手法は,アナログ電気カオス回路への未知強制の同定と,ロレンツ系へのカオス外乱を同定して抑制する数値例を用いて述べる。 Identifying and suppressing unknown disturbances to dynamical systems is a problem with applications in many different fields. In this Letter, we present a model-free method to identify and suppress an unknown disturbance to an unknown system based only on previous observations of the system under the influence of a known forcing function. We find that, under very mild restrictions on the training function, our method is able to robustly identify and suppress a large class of unknown disturbances. We illustrate our scheme with the identification of unknown forcings to an analog electric chaotic circuit and with a numerical example where a chaotic disturbance to the Lorenz system is identified and suppressed. | 翻訳日:2023-10-05 07:54:07 公開日:2023-10-02 |
# 前立腺イメージングにおけるセグメンテーション基礎モデルの実証解析 Empirical Analysis of a Segmentation Foundation Model in Prostate Imaging ( http://arxiv.org/abs/2307.03266v3 ) ライセンス: Link先を確認 | Heejong Kim, Victor Ion Butoi, Adrian V. Dalca, Daniel J.A. Margolis, Mert R. Sabuncu | (参考訳) 医療画像セグメンテーションの最先端技術のほとんどは、ディープラーニングモデルに依存している。
しかしながら、これらのモデルは、しばしば、高価なラベル付きデータセットを必要とする教師付き方法で、狭義のタスクで訓練される。
自然言語生成などの機械学習領域の最近の進歩は、ラベル付きデータはほとんどなく、下流の様々なタスクにカスタマイズ可能な基礎モデルの構築の実現可能性と有用性を示している。
これは、基礎モデルがこの分野の未来を形作ることを期待する医療画像のパラダイムシフトである可能性が高い。
本稿では,最近開発された医用画像分割の基礎モデル universeg について述べる。
本研究では,前立腺画像の文脈で経験的評価を行い,従来のタスク固有セグメンテーションモデルの訓練手法と比較する。
本研究は, 医用画像セグメンテーションの基礎モデルの開発と導入において重要となるいくつかの重要な要因について考察した。 Most state-of-the-art techniques for medical image segmentation rely on deep-learning models. These models, however, are often trained on narrowly-defined tasks in a supervised fashion, which requires expensive labeled datasets. Recent advances in several machine learning domains, such as natural language generation have demonstrated the feasibility and utility of building foundation models that can be customized for various downstream tasks with little to no labeled data. This likely represents a paradigm shift for medical imaging, where we expect that foundation models may shape the future of the field. In this paper, we consider a recently developed foundation model for medical image segmentation, UniverSeg. We conduct an empirical evaluation study in the context of prostate imaging and compare it against the conventional approach of training a task-specific segmentation model. Our results and discussion highlight several important factors that will likely be important in the development and adoption of foundation models for medical image segmentation. | 翻訳日:2023-10-05 07:53:54 公開日:2023-10-02 |
# 深層学習に基づく画像透かしの簡潔かつ詳細な調査 A Brief Yet In-Depth Survey of Deep Learning-Based Image Watermarking ( http://arxiv.org/abs/2308.04603v2 ) ライセンス: Link先を確認 | Xin Zhong, Arjon Das, Fahad Alrasheedi, Abdullah Tanvir | (参考訳) 本稿では,隠れた画像内に透かしを埋め込んで抽出する手法である深層学習に基づく画像透かしに関する総合的な調査を行い,堅牢性と適応性のシームレスなブレンドを提供することを目的とする。
私たちは、この学際ドメインの複雑な景観をナビゲートし、歴史的な基礎、現在のイノベーション、将来の発展を結びつけます。
既存の文献と異なり,本研究は深層学習による画像透かしにのみ焦点をあて,3つの基本的な貢献によって得られた詳細な分析を行う。
まず,フィールドをembedder-extractor,deep networks as a feature transformation,hybrid methodsに分割した,洗練された分類を導入する。
この分類学は、研究全体にわたる深層学習の様々な役割にインスパイアされ、読者の技術的な洞察と方向性のガイダンスを提供するように設計されている。
第2に,各カテゴリにおける多様な研究方向性と固有の課題をカプセル化して,総合的な視点を提供する。
最後に、私たちは、新たなフロンティアを概観するために確立された境界を越えて、将来の研究道に関する詳細な洞察を提供します。 This paper presents a comprehensive survey on deep learning-based image watermarking, a technique that entails the invisible embedding and extraction of watermarks within a cover image, aiming to offer a seamless blend of robustness and adaptability. We navigate the complex landscape of this interdisciplinary domain, linking historical foundations, current innovations, and prospective developments. Unlike existing literature, our study concentrates exclusively on image watermarking with deep learning, delivering an in-depth, yet brief analysis enriched by three fundamental contributions. First, we introduce a refined categorization, segmenting the field into Embedder-Extractor, Deep Networks as a Feature Transformation, and Hybrid Methods. This taxonomy, inspired by the varied roles of deep learning across studies, is designed to infuse clarity, offering readers technical insights and directional guidance. Second, our exploration dives into representative methodologies, encapsulating the diverse research directions and inherent challenges within each category to provide a consolidated perspective. Lastly, we venture beyond established boundaries to outline emerging frontiers, offering a detailed insight into prospective research avenues. | 翻訳日:2023-10-05 07:44:26 公開日:2023-10-02 |
# 前方探索ヒューリスティックス学習における許容境界の利用について On Using Admissible Bounds for Learning Forward Search Heuristics ( http://arxiv.org/abs/2308.11905v2 ) ライセンス: Link先を確認 | Carlos N\'u\~nez-Molina, Masataro Asai, Juan Fern\'andez-Olivares, Pablo Mesejo | (参考訳) 近年,前方探索アルゴリズムのヒューリスティック関数を学習するために,現代の機械学習技術を活用することへの関心が高まっている。
それにもかかわらず、彼らが学ぶべき \emph{what} 、訓練すべき \emph{how} 、そしてそれを行う \emph{why} に関する理論的理解はほとんどない。
この理解の欠如は、文学において様々な訓練対象(最適対最適コスト対許容ヒューリスティックス)と損失関数(例えば正方形対絶対誤差)が採用される結果となった。
本研究では,ヒューリスティック学習において,許容ヒューリスティックスが提供する情報を効果的に活用する方法に焦点を当てる。
平均二乗誤差(MSE)の最小化による多時間許容ヒューリスティックスからの学習は,単にノイズの多い,計算可能なヒューリスティックの非許容コピーであるため,正しいアプローチではない,と我々は主張する。
そこで我々は,学習ヒューリスティックを,訓練対象としてではなく,この分布の低域として,許容ヒューリスティックを活用可能なガウス型としてモデル化することを提案する。
この結果、文献で一般的に用いられるMSEとは異なる損失関数となり、学習したヒューリスティックをガウス分布として暗黙的にモデル化する。
最適な計画コストからヒューリスティックを学ぶためにmseと新しい損失関数の両方を適用した実験を行う。
その結果,提案手法はトレーニング中により高速に収束し,平均40%のMSE値が得られた。 In recent years, there has been growing interest in utilizing modern machine learning techniques to learn heuristic functions for forward search algorithms. Despite this, there has been little theoretical understanding of \emph{what} they should learn, \emph{how} to train them, and \emph{why} we do so. This lack of understanding has resulted in the adoption of diverse training targets (suboptimal vs optimal costs vs admissible heuristics) and loss functions (e.g., square vs absolute errors) in the literature. In this work, we focus on how to effectively utilize the information provided by admissible heuristics in heuristic learning. We argue that learning from poly-time admissible heuristics by minimizing mean square errors (MSE) is not the correct approach, since its result is merely a noisy, inadmissible copy of an efficiently computable heuristic. Instead, we propose to model the learned heuristic as a truncated gaussian, where admissible heuristics are used not as training targets but as lower bounds of this distribution. This results in a different loss function from the MSE commonly employed in the literature, which implicitly models the learned heuristic as a gaussian distribution. We conduct experiments where both MSE and our novel loss function are applied to learning a heuristic from optimal plan costs. Results show that our proposed method converges faster during training and yields better heuristics, with 40% lower MSE on average. | 翻訳日:2023-10-05 07:32:42 公開日:2023-10-02 |
# 世界の言語で同一の子音回避を形作る複数の進化的圧力 Multiple evolutionary pressures shape identical consonant avoidance in the world's languages ( http://arxiv.org/abs/2309.14006v2 ) ライセンス: Link先を確認 | Chundra A. Cathcart | (参考訳) 言語は、このようなパターンによって生じる生体力学的および認知的困難のために、類似または同一の子音の列を含む単語形式を嫌う。
しかし、この現象にかかわる特定の進化過程は、完全には理解されていない。
単語形変異の過程は、単語形に同一の子音のシーケンスを生成するよりも除去される傾向があり、最後に、同一の子音を含む単語は、それらが存在しないものよりも頻繁に消滅する可能性がある。
相同的な単語形態の進化に関する系統解析は、同一の子音を持つ単語が無音である単語よりも頻度が低いことを示し、単語形態を変える過程は、それらを導入するよりも同一の子音の列を取り除く傾向にあることを示している。
しかし、同じ子音を持つ単語は、そうでない単語ほど頻繁には死なない。
さらなる分析により、同じ子音を持つ形は、言葉のないものよりも頻度の高い基本的な意味関数に置き換えられることが判明した。
その結果、同一子音の系列のアンダー表現は、単語形式硬貨に対する制約の副産物として圧倒的に多いことが示唆されるが、単語の使用に関するプロセスは、これらのパターンがより厳格な語彙項目では不十分であることを保証するのに役立つ。
これらの知見は、言語変化の過程で起こる語彙進化と競争のプロセスのこれまで未知の側面を明らかにし、コミュニケーションシステムを最適化する。 Languages disfavor word forms containing sequences of similar or identical consonants, due to the biomechanical and cognitive difficulties posed by patterns of this sort. However, the specific evolutionary processes responsible for this phenomenon are not fully understood. Words containing sequences of identical consonants may be more likely to arise than those without; processes of word form mutation may be more likely to remove than create sequences of identical consonants in word forms; finally, words containing identical consonants may die out more frequently than those without. Phylogenetic analyses of the evolution of homologous word forms indicate that words with identical consonants arise less frequently than those without, and processes which mutate word forms are more likely to remove sequences of identical consonants than introduce them. However, words with identical consonants do not die out more frequently than those without. Further analyses reveal that forms with identical consonants are replaced in basic meaning functions more frequently than words without. Taken together, results suggest that the under representation of sequences of identical consonants is overwhelmingly a byproduct of constraints on word form coinage, though processes related to word usage also serve to ensure that such patterns are infrequent in more salient vocabulary items. These findings clarify previously unknown aspects of processes of lexical evolution and competition that take place during language change, optimizing communicative systems. | 翻訳日:2023-10-05 07:24:08 公開日:2023-10-02 |
# 神経崩壊の理解に向けて:バッチ正規化と体重減少の影響 Towards Understanding Neural Collapse: The Effects of Batch Normalization and Weight Decay ( http://arxiv.org/abs/2309.04644v2 ) ライセンス: Link先を確認 | Leyan Pan, Xinyuan Cao | (参考訳) Neural Collapse(NC)は、ニューラルネットワーク分類器の最終層で最近観察された幾何学的構造である。
本稿では,バッチ正規化 (bn) と重量減衰, nc 構造との相互関係について検討する。
本研究は,複数のncコアを包含する幾何学的直感的クラス内およびクラス間コサイン類似度尺度を導入する。
この測定を応用して、最終層BNと重み減衰の影響下でのNCの出現に関する理論的保証を確立し、特に正規化されたクロスエントロピー損失がほぼ最適であるシナリオにおいて、その理論的保証を確立する。
実験結果から,bnと適切な重み決定値を含むモデルにおいてncが顕著に出現することが明らかとなった。
この理論と経験的な洞察の組み合わせは、NCの出現においてBNと重みの崩壊に大きな影響を与えることを示唆している。 Neural Collapse (NC) is a geometric structure recently observed in the final layer of neural network classifiers. In this paper, we investigate the interrelationships between batch normalization (BN), weight decay, and proximity to the NC structure. Our work introduces the geometrically intuitive intra-class and inter-class cosine similarity measure, which encapsulates multiple core aspects of NC. Leveraging this measure, we establish theoretical guarantees for the emergence of NC under the influence of last-layer BN and weight decay, specifically in scenarios where the regularized cross-entropy loss is near-optimal. Experimental evidence substantiates our theoretical findings, revealing a pronounced occurrence of NC in models incorporating BN and appropriate weight-decay values. This combination of theoretical and empirical insights suggests a greatly influential role of BN and weight decay in the emergence of NC. | 翻訳日:2023-10-05 07:20:53 公開日:2023-10-02 |
# 糖尿病2型糖尿病患者の早期診断のための教師付き学習モデル Supervised Learning Models for Early Detection of Albuminuria Risk in Type-2 Diabetes Mellitus Patients ( http://arxiv.org/abs/2309.16742v2 ) ライセンス: Link先を確認 | Arief Purnama Muharram, Dicky Levenus Tahapary, Yeni Dwi Lestari, Randy Sarayar and Valerie Josephine Dirjayanto | (参考訳) 糖尿病、特にT2DMは依然として重要な健康問題である。
糖尿病に関する主要な懸念の1つは、その合併症の発生である。
慢性糖尿病の合併症の一つである糖尿病性腎症は腎臓に悪影響を与え、腎臓の損傷を引き起こす。
糖尿病性腎症の診断には様々な基準が考慮され、そのうちの1つは尿中のアルブミンが病理学的にかなりの量存在することである。
したがって、糖尿病患者におけるアルブミン尿症の早期予測は、タイムリーな予防措置の可能性を秘めている。
本研究の目的は,t2dm患者のアルブミン尿症発症リスクを予測するための教師付き学習モデルの開発である。
教師付き学習アルゴリズムには、Na\"ive Bayes, Support Vector Machine (SVM), decision tree, random forest, AdaBoost, XGBoost, Multi-Layer Perceptron (MLP)が含まれる。
糖尿病合併症リスクファクター184項目からなる個人データセットを,アルゴリズムのトレーニングに使用した。
特徴として10の属性と目標として1の属性(アルブミン尿症)から構成されていた。
実験を行うと、MLPは他のアルゴリズムと比較して優れた性能を示した。
これはそれぞれ0.74と0.75の精度とf1スコアの値を達成し、T2DMの尿失調を予測するためのスクリーニングに適していた。
それでも、モデルの性能を高めるためにさらなる研究が保証されている。 Diabetes, especially T2DM, continues to be a significant health problem. One of the major concerns associated with diabetes is the development of its complications. Diabetic nephropathy, one of the chronic complication of diabetes, adversely affects the kidneys, leading to kidney damage. Diagnosing diabetic nephropathy involves considering various criteria, one of which is the presence of a pathologically significant quantity of albumin in urine, known as albuminuria. Thus, early prediction of albuminuria in diabetic patients holds the potential for timely preventive measures. This study aimed to develop a supervised learning model to predict the risk of developing albuminuria in T2DM patients. The selected supervised learning algorithms included Na\"ive Bayes, Support Vector Machine (SVM), decision tree, random forest, AdaBoost, XGBoost, and Multi-Layer Perceptron (MLP). Our private dataset, comprising 184 entries of diabetes complications risk factors, was used to train the algorithms. It consisted of 10 attributes as features and 1 attribute as the target (albuminuria). Upon conducting the experiments, the MLP demonstrated superior performance compared to the other algorithms. It achieved accuracy and f1-score values as high as 0.74 and 0.75, respectively, making it suitable for screening purposes in predicting albuminuria in T2DM. Nonetheless, further studies are warranted to enhance the model's performance. | 翻訳日:2023-10-05 07:15:33 公開日:2023-10-02 |
# 専門家専門性を考慮したトランスフォーマーによる医療相談用ユーザクエリの分類 Transformer-based classification of user queries for medical consultancy with respect to expert specialization ( http://arxiv.org/abs/2309.14662v2 ) ライセンス: Link先を確認 | Dmitry Lyutkin, Andrey Soloviev, Dmitry Zhukov, Denis Pozdnyakov, Muhammad Shahid Iqbal Malik, Dmitry I. Ignatov | (参考訳) デジタル医療の時代には、熟練した医療支援の必要性が高まっている。
本稿では,RuBERTモデルを用いた医療相談分野におけるユーザ調査の分類と専門家の専門化に焦点を当てた革新的な戦略を提案する。
トランスフォーマーの能力を利用することで,トレーニング済みのrubertモデルをさまざまなデータセットに微調整することで,クエリと特定の医療専門分野との正確な対応を可能にした。
総合的なデータセットを用いて,テストデータセットとトレーニングデータセットの相互評価および従来の分割によって計算した,f1-scoreが92%以上という,当社のアプローチの優れた性能を実証した。
このアプローチは、心臓病、神経学、皮膚科などの医療領域にまたがる優れた一般化を示している。
この方法論は、ユーザに適切な専門家を誘導し、迅速かつターゲットとした医療アドバイスを提供する。
また、医療システムの効率を高め、実践者の負担を軽減し、患者のケア品質を向上させる。
まとめると、提案する戦略は特定の医療知識の獲得を促進し、デジタル医療分野における迅速な正確なアドバイスを提供する。 The need for skilled medical support is growing in the era of digital healthcare. This research presents an innovative strategy, utilizing the RuBERT model, for categorizing user inquiries in the field of medical consultation with a focus on expert specialization. By harnessing the capabilities of transformers, we fine-tuned the pre-trained RuBERT model on a varied dataset, which facilitates precise correspondence between queries and particular medical specialisms. Using a comprehensive dataset, we have demonstrated our approach's superior performance with an F1-score of over 92%, calculated through both cross-validation and the traditional split of test and train datasets. Our approach has shown excellent generalization across medical domains such as cardiology, neurology and dermatology. This methodology provides practical benefits by directing users to appropriate specialists for prompt and targeted medical advice. It also enhances healthcare system efficiency, reduces practitioner burden, and improves patient care quality. In summary, our suggested strategy facilitates the attainment of specific medical knowledge, offering prompt and precise advice within the digital healthcare field. | 翻訳日:2023-10-05 07:12:33 公開日:2023-10-02 |
# 教師なしグラフ深層学習が都市域の創発的洪水リスクプロファイルを明らかに Unsupervised Graph Deep Learning Reveals Emergent Flood Risk Profile of Urban Areas ( http://arxiv.org/abs/2309.14610v2 ) ライセンス: Link先を確認 | Kai Yin, Ali Mostafavi | (参考訳) 都市洪水リスクは、複雑な空間的な洪水依存関係とともに、洪水の危険性、洪水暴露、社会的および身体的脆弱性に関連する複数の特徴間の複雑な非線形相互作用から生じる。
しかし, 都市浸水リスクを特徴付ける既存のアプローチは, 主に洪水平原の地図に基づいており, 特徴の相互作用や空間領域間の関係を考慮せずに, 限られた特徴, 主に危険・露光の特徴に着目している。
このギャップを解消するために,新しい教師なしグラフ深層学習モデル(FloodRisk-Net)に基づく都市洪水リスク評価モデルを提案する。
floodrisk-netは、地域間の空間的依存を捉え、洪水の危険度と都市の特徴の間の複雑で非線形な相互作用を捉えて、創発的な洪水リスクを特定することができる。
米国内の複数の大都市圏統計地域(MSA)のデータを用いて、このモデルは洪水のリスクを6つの都市固有のレベルに特徴づける。
このモデルは解釈可能であり、各洪水リスクレベルの領域の特徴分析が可能であり、各msa内で最大の洪水リスクを形成する3つのアーチタイプを識別することができる。
洪水リスクは各MSA内の階層構造に空間的に分布しており、中核都市が最も高い洪水リスクを負っている。
複数の都市が洪水リスクレベルが高く、空間格差が低く、都市開発と洪水リスク低減のバランスをとるための選択肢が限られている。
洪水リスクの最大値と不均一な空間分布を考慮し, 関連する洪水リスク低減戦略について議論した。 Urban flood risk emerges from complex and nonlinear interactions among multiple features related to flood hazard, flood exposure, and social and physical vulnerabilities, along with the complex spatial flood dependence relationships. Existing approaches for characterizing urban flood risk, however, are primarily based on flood plain maps, focusing on a limited number of features, primarily hazard and exposure features, without consideration of feature interactions or the dependence relationships among spatial areas. To address this gap, this study presents an integrated urban flood-risk rating model based on a novel unsupervised graph deep learning model (called FloodRisk-Net). FloodRisk-Net is capable of capturing spatial dependence among areas and complex and nonlinear interactions among flood hazards and urban features for specifying emergent flood risk. Using data from multiple metropolitan statistical areas (MSAs) in the United States, the model characterizes their flood risk into six distinct city-specific levels. The model is interpretable and enables feature analysis of areas within each flood-risk level, allowing for the identification of the three archetypes shaping the highest flood risk within each MSA. Flood risk is found to be spatially distributed in a hierarchical structure within each MSA, where the core city disproportionately bears the highest flood risk. Multiple cities are found to have high overall flood-risk levels and low spatial inequality, indicating limited options for balancing urban development and flood-risk reduction. Relevant flood-risk reduction strategies are discussed considering ways that the highest flood risk and uneven spatial distribution of flood risk are formed. | 翻訳日:2023-10-05 07:11:40 公開日:2023-10-02 |
# 効率的なセマンティクスセグメンテーションのためのスーパーピクセルトランスフォーマ Superpixel Transformers for Efficient Semantic Segmentation ( http://arxiv.org/abs/2309.16889v2 ) ライセンス: Link先を確認 | Alex Zihao Zhu, Jieru Mei, Siyuan Qiao, Hang Yan, Yukun Zhu, Liang-Chieh Chen, Henrik Kretzschmar | (参考訳) セマンティックセグメンテーション(Semantic segmentation)は、画像中のすべてのピクセルを分類することを目的としており、ロボット工学や自動運転にまたがる多くの応用において、機械認識の重要なタスクである。
このタスクの高次元のため、既存のアプローチの多くは畳み込みなどのローカル操作を使用してピクセル単位の機能を生成する。
しかし、これらの手法は通常、高密度画像上で操作する計算コストが高いため、グローバルコンテキスト情報を効果的に活用できない。
そこで本研究では,超ピクセル,画像のオーバーセグメンテーション,最新のトランスフォーマフレームワークを応用し,この問題に対する解決法を提案する。
特に,本モデルでは,画素空間を局所的クロスアテンションによって空間的に低次元のスーパーピクセル空間に分解することを学ぶ。
そして、スーパーピクセルにマルチヘッドセルフアテンションを適用し、グローバルコンテキストでスーパーピクセル機能を強化し、スーパーピクセル毎にクラス予測を直接生成します。
最後に、スーパーピクセルと画像画素の特徴の関連性を利用して、スーパーピクセルクラスの予測を直接画素空間に投影する。
超ピクセル空間における推論により,畳み込みに基づくデコーダ法に比べて計算効率が大幅に向上した。
しかし,本手法は,グローバルな自己認識機構によって生成されるリッチなスーパーピクセル特徴により,セマンティックセグメンテーションにおける最先端性能を実現する。
Cityscapes と ADE20K に関する実験では,モデルパラメータやレイテンシの面では優れておりながら,精度の面では我々の手法が最先端であることを示した。 Semantic segmentation, which aims to classify every pixel in an image, is a key task in machine perception, with many applications across robotics and autonomous driving. Due to the high dimensionality of this task, most existing approaches use local operations, such as convolutions, to generate per-pixel features. However, these methods are typically unable to effectively leverage global context information due to the high computational costs of operating on a dense image. In this work, we propose a solution to this issue by leveraging the idea of superpixels, an over-segmentation of the image, and applying them with a modern transformer framework. In particular, our model learns to decompose the pixel space into a spatially low dimensional superpixel space via a series of local cross-attentions. We then apply multi-head self-attention to the superpixels to enrich the superpixel features with global context and then directly produce a class prediction for each superpixel. Finally, we directly project the superpixel class predictions back into the pixel space using the associations between the superpixels and the image pixel features. Reasoning in the superpixel space allows our method to be substantially more computationally efficient compared to convolution-based decoder methods. Yet, our method achieves state-of-the-art performance in semantic segmentation due to the rich superpixel features generated by the global self-attention mechanism. Our experiments on Cityscapes and ADE20K demonstrate that our method matches the state of the art in terms of accuracy, while outperforming in terms of model parameters and latency. | 翻訳日:2023-10-05 07:01:00 公開日:2023-10-02 |
# xvo:クロスモーダル自己学習による汎用視覚オドメトリ XVO: Generalized Visual Odometry via Cross-Modal Self-Training ( http://arxiv.org/abs/2309.16772v2 ) ライセンス: Link先を確認 | Lei Lai and Zhongkai Shangguan and Jimuyang Zhang and Eshed Ohn-Bar | (参考訳) XVOは,多種多様なデータセットや設定にまたがる堅牢なオフザセルフ操作を備えた汎用モノクロビジュアルオドメトリー(VO)モデルを訓練するための,半教師付き学習手法である。
単一のデータセット内で既知のキャリブレーションを研究する標準的なモノクロVOアプローチとは対照的に、XVOは視覚シーンのセマンティクスから実際のスケールでの相対的なポーズを、既知のカメラパラメータに頼ることなく、効率的に学習する。
我々は,youtubeで利用可能な無拘束で不均質なダッシュカメラビデオからの自己学習により,モーション推定モデルを最適化する。
私たちの重要な貢献は2つです。
まず,汎用直接VO回帰ネットワーク学習における半教師あり学習の利点を実証的に示す。
次に,voタスクの汎用表現を容易にするために,セグメンテーション,フロー,深さ,音響補助予測タスクを含むマルチモーダル監督を行う。
具体的には、ノイズの多い擬似ラベルを緩和しつつ、半教師付き学習プロセスを大幅に強化する音声予測タスクを、特に高ダイナミックで領域外のビデオデータにおいて発見する。
提案する教師ネットワークは,マルチフレーム最適化やカメラパラメータの知識がなくても,kittiベンチマークで最先端のパフォーマンスを実現する。
提案された半教師付きステップと組み合わせて、XVOはKITTI、nuScenes、Argoverseの様々な条件を微調整することなく、市販の知識伝達を実証する。 We propose XVO, a semi-supervised learning method for training generalized monocular Visual Odometry (VO) models with robust off-the-self operation across diverse datasets and settings. In contrast to standard monocular VO approaches which often study a known calibration within a single dataset, XVO efficiently learns to recover relative pose with real-world scale from visual scene semantics, i.e., without relying on any known camera parameters. We optimize the motion estimation model via self-training from large amounts of unconstrained and heterogeneous dash camera videos available on YouTube. Our key contribution is twofold. First, we empirically demonstrate the benefits of semi-supervised training for learning a general-purpose direct VO regression network. Second, we demonstrate multi-modal supervision, including segmentation, flow, depth, and audio auxiliary prediction tasks, to facilitate generalized representations for the VO task. Specifically, we find audio prediction task to significantly enhance the semi-supervised learning process while alleviating noisy pseudo-labels, particularly in highly dynamic and out-of-domain video data. Our proposed teacher network achieves state-of-the-art performance on the commonly used KITTI benchmark despite no multi-frame optimization or knowledge of camera parameters. Combined with the proposed semi-supervised step, XVO demonstrates off-the-shelf knowledge transfer across diverse conditions on KITTI, nuScenes, and Argoverse without fine-tuning. | 翻訳日:2023-10-05 07:00:13 公開日:2023-10-02 |
# 大規模言語モデルに必要な十分な透かし Necessary and Sufficient Watermark for Large Language Models ( http://arxiv.org/abs/2310.00833v1 ) ライセンス: Link先を確認 | Yuki Takezawa, Ryoma Sato, Han Bao, Kenta Niwa, Makoto Yamada | (参考訳) 近年,大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を発揮している。
人間が書いたテキストと区別できないテキストを生成することができる。
LLMのこのような顕著な性能は、偽ニュース記事の生成などの悪意ある目的のために使用されるリスクを高める。
そのため,LLMによるテキストと人間によるテキストを区別する手法を開発する必要がある。
透かしは、これを達成するための最も強力な方法の1つです。
既存の透かし法はLLMによって生成されたテキストを検出できたが、生成したテキストの品質は著しく低下した。
本研究では,テキスト品質を低下させることなく,生成テキストに透かしを挿入するために必要な十分な透かし(ns-watermark)を提案する。
より具体的には、LLMか人間かを区別するために、生成されたテキストに課される最小限の制約を導出する。
そこで, NS-Watermarkを制約付き最適化問題として定式化し, 効率的なアルゴリズムを提案する。
実験により, NS-Watermarkは既存の透かし法よりも自然なテキストを生成し, LLM によるテキストと人間によるテキストとをより正確に区別できることを示した。
特に機械翻訳タスクでは、ns-watermarkは最大30 bleuスコアで既存のウォーターマーク法を上回ることができる。 In recent years, large language models (LLMs) have achieved remarkable performances in various NLP tasks. They can generate texts that are indistinguishable from those written by humans. Such remarkable performance of LLMs increases their risk of being used for malicious purposes, such as generating fake news articles. Therefore, it is necessary to develop methods for distinguishing texts written by LLMs from those written by humans. Watermarking is one of the most powerful methods for achieving this. Although existing watermarking methods have successfully detected texts generated by LLMs, they significantly degrade the quality of the generated texts. In this study, we propose the Necessary and Sufficient Watermark (NS-Watermark) for inserting watermarks into generated texts without degrading the text quality. More specifically, we derive minimum constraints required to be imposed on the generated texts to distinguish whether LLMs or humans write the texts. Then, we formulate the NS-Watermark as a constrained optimization problem and propose an efficient algorithm to solve it. Through the experiments, we demonstrate that the NS-Watermark can generate more natural texts than existing watermarking methods and distinguish more accurately between texts written by LLMs and those written by humans. Especially in machine translation tasks, the NS-Watermark can outperform the existing watermarking method by up to 30 BLEU scores. | 翻訳日:2023-10-05 01:39:47 公開日:2023-10-02 |
# nvBenchデータセットを用いたデータ可視化のための自然言語モデル Natural Language Models for Data Visualization Utilizing nvBench Dataset ( http://arxiv.org/abs/2310.00832v1 ) ライセンス: Link先を確認 | Shuo Wang and Carlos Crespo-Quinones | (参考訳) データ視覚化のための構文的に正しいコマンドへの自然言語の変換は、自然言語モデルの重要な応用であり、様々なタスクに活用できる。
密接に関連する取り組みとして、自然言語をSQLクエリに翻訳する作業がある。
この研究の進展に寄与するため,我々は自然言語翻訳モデルを構築し,vega zeroと呼ばれる言語でデータの簡易バージョンと可視化クエリを構築した。
本稿では、自然言語クエリから可視化コマンドを予測するためにbertなどの大規模言語モデルを用いて、シーケンストランスフォーマティブに基づく機械学習モデルアーキテクチャの設計と性能について検討するとともに、利用可能なt5シーケンスをシーケンスモデルに適用して比較を行う。 Translation of natural language into syntactically correct commands for data visualization is an important application of natural language models and could be leveraged to many different tasks. A closely related effort is the task of translating natural languages into SQL queries, which in turn could be translated into visualization with additional information from the natural language query supplied\cite{Zhong:2017qr}. Contributing to the progress in this area of research, we built natural language translation models to construct simplified versions of data and visualization queries in a language called Vega Zero. In this paper, we explore the design and performance of these sequence to sequence transformer based machine learning model architectures using large language models such as BERT as encoders to predict visualization commands from natural language queries, as well as apply available T5 sequence to sequence models to the problem for comparison. | 翻訳日:2023-10-05 01:39:24 公開日:2023-10-02 |
# YGARデータセットを用いた行動認識 Action Recognition Utilizing YGAR Dataset ( http://arxiv.org/abs/2310.00831v1 ) ライセンス: Link先を確認 | Shuo Wang, Amiya Ranjan and Lawrence Jiang | (参考訳) 高品質なアクションビデオデータの不足は、アクション認識の研究と応用におけるボトルネックである。
この領域ではかなりの努力がなされているが、利用可能なデータタイプの範囲には、より柔軟で包括的なデータセットが橋渡しに役立つギャップがある。
本稿では,新しい3次元アクションデータシミュレーションエンジンを提案し,その機能を示すために3組のサンプルデータを生成する。
新しいデータ生成プロセスでは、画像の分類、行動認識、そしてより複雑な行動認識タスクの探索を可能にするシステムへと進化する可能性を実証する。
これらの機能を示すために、画像認識のための一般的なモデルのリストをトレーニングし、テストし、データセットとその生成プロセスの潜在的な応用と能力を示す。 The scarcity of high quality actions video data is a bottleneck in the research and application of action recognition. Although significant effort has been made in this area, there still exist gaps in the range of available data types a more flexible and comprehensive data set could help bridge. In this paper, we present a new 3D actions data simulation engine and generate 3 sets of sample data to demonstrate its current functionalities. With the new data generation process, we demonstrate its applications to image classifications, action recognitions and potential to evolve into a system that would allow the exploration of much more complex action recognition tasks. In order to show off these capabilities, we also train and test a list of commonly used models for image recognition to demonstrate the potential applications and capabilities of the data sets and their generation process. | 翻訳日:2023-10-05 01:39:09 公開日:2023-10-02 |
# 微分プライベート学習におけるオンライン感度最適化 Online Sensitivity Optimization in Differentially Private Learning ( http://arxiv.org/abs/2310.00829v1 ) ライセンス: Link先を確認 | Filippo Galli and Catuscia Palamidessi and Tommaso Cucinotta | (参考訳) 微分プライベート機械学習モデルのトレーニングには、最適化プロセスへの個人の貢献を制約する必要がある。
これは、平均化およびバッチ衛生化の前に、所定の閾値で勾配の2ドルノームをクリップすることで達成される。
この選択は2つの反対の方法で最適化に悪影響を及ぼす:より低い値での過剰な切断によるバイアスを悪化させるか、より高い値での衛生ノイズを増加させる。
この選択はデータセットやモデルアーキテクチャといった要素に大きく依存し、同じ最適化の範囲内でさえも異なり、通常はグリッド検索によって精巧なチューニングが要求される。
ハイパーパラメータチューニングにおけるプライバシ費用を回避するため,クリッピング閾値を動的に最適化する新しいアプローチを提案する。
このしきい値を学習可能なパラメータとして扱い、しきい値とコスト関数のクリーンな関係を確立する。
これにより、全体のプライバシー分析に最小限の影響を与えることなく、勾配勾配で前者を最適化できる。
提案手法は,様々なデータセット,タスク,モデル次元,プライバシレベルにわたる代替固定および適応戦略に対して徹底的に評価される。
以上の結果から,すべての評価シナリオにおいて,同一のプライバシ要件を考慮し,同等あるいは優れたパフォーマンスを実証した。 Training differentially private machine learning models requires constraining an individual's contribution to the optimization process. This is achieved by clipping the $2$-norm of their gradient at a predetermined threshold prior to averaging and batch sanitization. This selection adversely influences optimization in two opposing ways: it either exacerbates the bias due to excessive clipping at lower values, or augments sanitization noise at higher values. The choice significantly hinges on factors such as the dataset, model architecture, and even varies within the same optimization, demanding meticulous tuning usually accomplished through a grid search. In order to circumvent the privacy expenses incurred in hyperparameter tuning, we present a novel approach to dynamically optimize the clipping threshold. We treat this threshold as an additional learnable parameter, establishing a clean relationship between the threshold and the cost function. This allows us to optimize the former with gradient descent, with minimal repercussions on the overall privacy analysis. Our method is thoroughly assessed against alternative fixed and adaptive strategies across diverse datasets, tasks, model dimensions, and privacy levels. Our results demonstrate its comparable or superior performance in all evaluated scenarios, given the same privacy requirements. | 翻訳日:2023-10-05 01:38:57 公開日:2023-10-02 |
# 電子ガバナンスとロボットプロセスの自動化を分散管理システムに適用するコスト計算モデル A Model for Calculating Cost of Applying Electronic Governance and Robotic Process Automation to a Distributed Management System ( http://arxiv.org/abs/2310.00828v1 ) ライセンス: Link先を確認 | Bonny Banerjee, Saurabh Pahune | (参考訳) 電子ガバナンス(eGov)とロボットプロセス自動化(RPA)は、組織が業務を管理する方法に革命をもたらす可能性のある技術進歩である。
分散管理(DM)に適用すると、これらの技術は組織的効率性と効果をさらに高めることができる。
本稿では,dmシステムにおいてegov と rpa を適用してタスク達成コストを計算するための数学的モデルを提案する。
このモデルはこの種の最初のものの一つであり、電子・自動化技術の先例のない進歩を考えると、組織効率のコスト分析のさらなる研究が期待されている。 Electronic Governance (eGov) and Robotic Process Automation (RPA) are two technological advancements that have the potential to revolutionize the way organizations manage their operations. When applied to Distributed Management (DM), these technologies can further enhance organizational efficiency and effectiveness. In this brief article, we present a mathematical model for calculating the cost of accomplishing a task by applying eGov and RPA in a DM system. This model is one of the first of its kind, and is expected to spark further research on cost analysis for organizational efficiency given the unprecedented advancements in electronic and automation technologies. | 翻訳日:2023-10-05 01:38:36 公開日:2023-10-02 |
# sarデータのラベル要求を低減するための大規模マスキング自動エンコーディング Large Scale Masked Autoencoding for Reducing Label Requirements on SAR Data ( http://arxiv.org/abs/2310.00826v1 ) ライセンス: Link先を確認 | Matt Allen, Francisco Dorr, Joseph A. Gallego-Mejia, Laura Mart\'inez-Ferrer, Anna Jungbluth, Freddie Kalaitzis, Ra\'ul Ramos-Poll\'an | (参考訳) 衛星によるリモートセンシングは、人為的な気候変動の影響の監視と緩和に寄与する。
これらのセンサから得られた大規模で高解像度なデータは、介入や政策決定に役立てることができるが、これらの介入のタイムラインと正確性は、夜間には動作できず、悪天候の影響を受ける光学データによって制限される。
SAR(Synthetic Aperture Radar)は、光学データに対して堅牢な代替手段を提供するが、関連する複雑さは、従来のディープラーニングのためのラベル付きデータ生成の範囲を制限する。
本研究では,地球表面積の8.7\%をカバーするSAR振幅データに対して,自己監督型事前学習スキーム,マスク付き自己エンコーディングを適用し,気候変動の監視に不可欠な2つの下流タスク(植生被覆予測と土地被覆分類)に事前トレーニングされた重量を調整した。
このプリトレーニング方式を用いることで、下流タスクのラベリング要件を1桁以上削減でき、プレトレーニングセット外の領域で下流タスクをチューニングした場合のパフォーマンス向上により、地理的に一般化できることを示す。
課題と地域固有のSARモデルの開発を促進することで気候変動の緩和を著しく促進し、地域社会や組織が気候変動効果の迅速かつ正確なモニタリングのために調整されたソリューションを展開できるようにする。 Satellite-based remote sensing is instrumental in the monitoring and mitigation of the effects of anthropogenic climate change. Large scale, high resolution data derived from these sensors can be used to inform intervention and policy decision making, but the timeliness and accuracy of these interventions is limited by use of optical data, which cannot operate at night and is affected by adverse weather conditions. Synthetic Aperture Radar (SAR) offers a robust alternative to optical data, but its associated complexities limit the scope of labelled data generation for traditional deep learning. In this work, we apply a self-supervised pretraining scheme, masked autoencoding, to SAR amplitude data covering 8.7\% of the Earth's land surface area, and tune the pretrained weights on two downstream tasks crucial to monitoring climate change - vegetation cover prediction and land cover classification. We show that the use of this pretraining scheme reduces labelling requirements for the downstream tasks by more than an order of magnitude, and that this pretraining generalises geographically, with the performance gain increasing when tuned downstream on regions outside the pretraining set. Our findings significantly advance climate change mitigation by facilitating the development of task and region-specific SAR models, allowing local communities and organizations to deploy tailored solutions for rapid, accurate monitoring of climate change effects. | 翻訳日:2023-10-05 01:38:24 公開日:2023-10-02 |
# RT-GAN:フレームベースドメイン変換アプローチに軽量時間一貫性を付加するための繰り返し時間GAN RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal Consistency to Frame-Based Domain Translation Approaches ( http://arxiv.org/abs/2310.00868v1 ) ライセンス: Link先を確認 | Shawn Mathew, Saad Nadeem, Alvin C. Goh, and Arie Kaufman | (参考訳) 内視鏡ビデオのための新しい教師なしドメイン翻訳手法を開発する一方で、最初は時間的一貫性のない個々のフレームに対して機能するアプローチから始めるのが一般的である。
個別のフレームモデルが完成すると、追加の連続したフレームに修正されたディープラーニングアーキテクチャを追加して、時間的一貫性のための新しいモデルをトレーニングする。
しかし、この時間的に一貫性のあるディープラーニングモデルへの移行は、トレーニングのためにはるかに多くの計算とメモリリソースを必要とする。
本稿では,時間パラメータを調整可能なRT-GAN(Recurrent Temporal GAN)を用いた軽量なソリューションを提案する。
大腸内視鏡検査の難治な2症例について,ハウストラムフォールドセグメンテーション(欠損面を示す)と現実的大腸内視鏡シミュレータービデオ生成の2例について,本手法の有効性を実証した。
データセット、付随コード、事前トレーニングされたモデルは、 \url{https://github.com/nadeemlab/CEP}で利用可能になる。 While developing new unsupervised domain translation methods for endoscopy videos, it is typical to start with approaches that initially work for individual frames without temporal consistency. Once an individual-frame model has been finalized, additional contiguous frames are added with a modified deep learning architecture to train a new model for temporal consistency. This transition to temporally-consistent deep learning models, however, requires significantly more computational and memory resources for training. In this paper, we present a lightweight solution with a tunable temporal parameter, RT-GAN (Recurrent Temporal GAN), for adding temporal consistency to individual frame-based approaches that reduces training requirements by a factor of 5. We demonstrate the effectiveness of our approach on two challenging use cases in colonoscopy: haustral fold segmentation (indicative of missed surface) and realistic colonoscopy simulator video generation. The datasets, accompanying code, and pretrained models will be made available at \url{https://github.com/nadeemlab/CEP}. | 翻訳日:2023-10-04 23:45:26 公開日:2023-10-02 |
# 圧縮llmの修復に必要なのは(動的)プロンプトだけかもしれない (Dynamic) Prompting might be all you need to repair Compressed LLMs ( http://arxiv.org/abs/2310.00867v1 ) ライセンス: Link先を確認 | Duc N.M Hoang, Minsik Cho, Thomas Merth, Mohammad Rastegari, Zhangyang Wang | (参考訳) 大規模言語モデル (LLMs) は NLP に変換されるが、計算処理の要求が大きくなり、効率的でトレーニング不要な圧縮の必要性を浮き彫りにしている。
特に, LLaMA-7B と OPT-6.7b を用いた実験では, 性能指標としてのパープレキシティと実世界の性能との相違が強調され, 現実的なダウンストリームタスクにおいて顕著な性能低下が見られた。
資源集約的な圧縮後再訓練のトレードオフの調査は、軽量適応ツールとしての即時回復の可能性を強調している。
しかし、主にパープレキシティ評価と単純なタスクに焦点を絞った既存の研究は、プロンプトのスケーラビリティと一般化性に対する絶対的な信頼を提供できない。
私たちはこの不確実性に2つの重要な方法で取り組みます。
まず,入力毎の特異なプロンプトに対する過度な依存として,llm圧縮におけるナイーブプロンプトの脆弱性を明らかにする。
そこで本研究では,各入力のコンテキストに基づいて,各プロンプトの集合から自律的に選択する機構である推論時動的プロンプト(IDP)を提案する。
第二に、なぜ ``prompting is all you need post-llm compression" があるのかという科学的理解です。
以上の結果から,圧縮はLLMモデルの知識を必然的に消し去るのではなく,新たな推論経路を必要とすることが示唆された。
IDPは、このパスを効果的にリダイレクトし、モデル固有の知識をタップすることで、パフォーマンスを回復する。
実証テストでは、複数の知識領域にまたがる9つのタスクで平均1.24%のパフォーマンス改善が示された。 Large language models (LLMs), while transformative for NLP, come with significant computational demands, underlining the need for efficient, training-free compression. Notably, the reliability of perplexity as a benchmark for compressed model efficacy is in question, as our tests using LLaMA-7B and OPT-6.7b reveal a significant performance drop in several realistic downstream tasks, underscoring the disparity between perplexity as a performance indicator and real-world performance. Investigation into the trade-off between resource-intensive post-compression re-training highlights the prospect of prompt-driven recovery as a lightweight adaption tool. However, existing studies, confined mainly to perplexity evaluations and simple tasks, fail to offer unequivocal confidence in the scalability and generalizability of prompting. We tackle this uncertainty in two key ways. First, we uncover the vulnerability of naive prompts in LLM compression as an over-reliance on a singular prompt per input. In response, we propose inference-time dynamic prompting (IDP), a mechanism that autonomously chooses from a set of curated prompts based on the context of each individual input. Second, we delve into a scientific understanding of why ``prompting might be all you need post-LLM compression". Our findings suggest that compression doesn't irretrievably erase LLM model knowledge but displace it, necessitating a new inference path. IDP effectively redirects this path, enabling the model to tap into its inherent yet displaced knowledge and thereby recover performance. Empirical tests affirm the value of IDP, demonstrating an average performance improvement of 1.24% across nine varied tasks spanning multiple knowledge domains. | 翻訳日:2023-10-04 23:45:08 公開日:2023-10-02 |
# 微調整言語モデルによるメロディ条件付き歌詞生成とそのChatGPTによる評価 Melody-conditioned lyrics generation via fine-tuning language model and its evaluation with ChatGPT ( http://arxiv.org/abs/2310.00863v1 ) ライセンス: Link先を確認 | Zhe Zhang, Karol Lasocki, Yi Yu, Atsuhiro Takasu | (参考訳) シンボリックメロディから音節レベルの歌詞を生成するために,文字レベルの言語モデルを利用する。
文字レベルの事前学習モデルを微調整することにより,音節レベルのトランスフォーマー生成器のビームサーチに言語知識を統合する。
また,ChatGPTに基づく評価を用いて,生成した歌詞のコヒーレンスと正しさを向上した。 We leverage character-level language models for syllable-level lyrics generation from symbolic melody. By fine-tuning a character-level pre-trained model, we integrate language knowledge into the beam search of a syllable-level Transformer generator. Using ChatGPT-based evaluations, we demonstrate enhanced coherence and correctness in the generated lyrics. | 翻訳日:2023-10-04 23:44:37 公開日:2023-10-02 |
# 量子シミュレータによる乱れ効果によるプログラマブルオーダー Programmable Order by Disorder Effect through Quantum Simulator ( http://arxiv.org/abs/2310.00849v1 ) ライセンス: Link先を確認 | Huan-Kuang Wu, Takafumi Suzuki, Naoki Kawashima, Wei-Lin Tu | (参考訳) 制御可能な対角異方性を持つ三角光学格子内のrydberg原子からなる量子シミュレータでプログラム可能な$s=1/2$系の乱れ効果による量子秩序の研究を行った。
全磁化が 0 であるとき、一組の亜指数退化基底状態が古典的極限に存在し、構成が大きな自由度を持つ連続弦からなる。
あらゆる可能な構成の中で、ストライプ(上下スピンがまっすぐに並んでいる)とキンク(上下スピンがジグザグ状に形成されている)パターンに注目します。
実空間摂動理論(rspt)を採用することで、最近傍(nn$)スピン-フリップカップリング$j$項を考慮すれば、主次エネルギー補正を推定し、全体モデルが空間異方性を持つ有効なxxzモデルとなる。
我々の計算は、stripe構成を好むデジェネラシーの解消を示している。
J$が大きくなると、無限に投影される絡み合ったペア状態(iPEPS)を採用し、退化性持ち上げの効果を数値的に検証する。
iPEPSの結果,スピンフリップ結合項が強い場合でもストライプパターンが好まれることがわかった。
上記の系は変形した光学格子で実現可能であるが、最終的にクラスター平均場理論を用いて、基礎となる位相を示すために$nn$の双極子-双極子相互作用を持つハードコアボソニックハミルトニアンを数値的に計算する。
傾斜角の異なる様々な位相図を提供し,超固体を含む豊富な位相を示す。
本提案は,量子シミュレータによる量子効果と超相の研究において実現可能なシナリオを示す。 We study the quantum order by disorder effect of the $S=1/2$ system, which is programmable in quantum simulator composed of Rydberg atoms in the triangular optical lattice with a controllable diagonal anisotropy. When the total magnetization is zero, a set of sub-extensive degenerate ground states is present in the classical limit, composed of continuous strings whose configuration enjoys a large degree of freedom. Among all possible configurations, we focus on the stripe (up and down spins align straightly) and kinked (up and down spins form a zigzag shape) patterns. Adopting the the real space perturbation theory (RSPT), we estimate the leading order energy correction when the nearest-neighbor ($nn$) spin-flip coupling $J$ term is considered, and the overall model becomes an effective XXZ model with spatial anisotropy. Our calculation demonstrates a lifting of the degeneracy, favoring the stripe configuration. When $J$ becomes larger, we adopt the infinite projected entangled-pair state (iPEPS) and numerically check the effect of degeneracy lifting. The iPEPS results show that even when the spin-flip coupling term is strong the stripe pattern is still favored. While the above system is realizable with the deformed optical lattice, at last, we numerically calculate the hard-core bosonic Hamiltonian with the $nn$ dipole-dipole interaction for demonstrating the possible underlying phases, using the cluster mean-field theory. We provide various phase diagrams with different tilted angles, showing the abundant phases including the supersolid. Our proposal indicates a realizable scenario through quantum simulator in studying the quantum effect as well as extraordinary phases. | 翻訳日:2023-10-04 23:44:31 公開日:2023-10-02 |
# 事前学習したネットワークは不慣れな配布データを検出することができるか? Can Pre-trained Networks Detect Familiar Out-of-Distribution Data? ( http://arxiv.org/abs/2310.00847v1 ) ライセンス: Link先を確認 | Atsuyuki Miyai, Qing Yu, Go Irie, Kiyoharu Aizawa | (参考訳) アウト・オブ・ディストリビューション(OOD)検出は、安全に敏感な機械学習アプリケーションには不可欠であり、広く研究され、文献で開発された多くの手法が生み出されている。
しかし、OOD検出のためのほとんどの研究は、事前訓練されたモデルを使用しず、スクラッチから背骨を訓練した。
近年,大規模な事前学習モデルから軽量チューニングによる下流タスクへの知識伝達が,ID分類器の訓練において主流となっている。
OOD検出と現在の分類器のギャップを埋めるためには、情報ネットワークがよく知っているサンプルがOOD入力として現れるのが特徴的で重要な問題である。
このようなデータは, oodデータの識別性が事前学習アルゴリズムに依存するため, 大規模事前学習ネットワークの性能に大きく影響すると考えられる。
本稿では,これらのOODデータをPT-OOD(Pre-Trained OOD)データとして定義する。
本稿では,事前学習アルゴリズムの観点から,PT-OODが事前学習ネットワークのOOD検出性能に与える影響を明らかにすることを目的とする。
そこで本研究では,線形探索チューニングを用いた教師付きおよび自己教師付き事前学習アルゴリズムのPT-OOD検出性能について検討する。
実験と分析により,pt-oodの低線形分離性はpt-ood検出性能を著しく低下させ,自己教師付きモデルは教師付き事前学習モデルよりもpt-oodに対して脆弱であることが判明した。
この脆弱性を解決するために,我々は,事前学習モデルの強力なインスタンス別識別表現と,id決定境界に依存しない特徴空間におけるoodの検出という,大規模事前学習モデルに対するユニークな解決策を提案する。
コードはhttps://github.com/AtsuMiyai/PT-OOD.comから入手できる。 Out-of-distribution (OOD) detection is critical for safety-sensitive machine learning applications and has been extensively studied, yielding a plethora of methods developed in the literature. However, most studies for OOD detection did not use pre-trained models and trained a backbone from scratch. In recent years, transferring knowledge from large pre-trained models to downstream tasks by lightweight tuning has become mainstream for training in-distribution (ID) classifiers. To bridge the gap between the practice of OOD detection and current classifiers, the unique and crucial problem is that the samples whose information networks know often come as OOD input. We consider that such data may significantly affect the performance of large pre-trained networks because the discriminability of these OOD data depends on the pre-training algorithm. Here, we define such OOD data as PT-OOD (Pre-Trained OOD) data. In this paper, we aim to reveal the effect of PT-OOD on the OOD detection performance of pre-trained networks from the perspective of pre-training algorithms. To achieve this, we explore the PT-OOD detection performance of supervised and self-supervised pre-training algorithms with linear-probing tuning, the most common efficient tuning method. Through our experiments and analysis, we find that the low linear separability of PT-OOD in the feature space heavily degrades the PT-OOD detection performance, and self-supervised models are more vulnerable to PT-OOD than supervised pre-trained models, even with state-of-the-art detection methods. To solve this vulnerability, we further propose a unique solution to large-scale pre-trained models: Leveraging powerful instance-by-instance discriminative representations of pre-trained models and detecting OOD in the feature space independent of the ID decision boundaries. The code will be available via https://github.com/AtsuMiyai/PT-OOD. | 翻訳日:2023-10-04 23:43:59 公開日:2023-10-02 |
# 凍結大規模モデルのマルチモーダルタスク指向対話への応用 Application of frozen large-scale models to multimodal task-oriented dialogue ( http://arxiv.org/abs/2310.00845v1 ) ライセンス: Link先を確認 | Tatsuki Kawamoto, Takuma Suzuki, Ko Miyama, Takumi Meguro, Tomohiro Takagi | (参考訳) 本研究では、既存のLarge Language Models ENnhanced to See Framework(LENS Framework)を用いて、マルチモーダルタスク指向対話の実現可能性をテストする。
LENS Frameworkは、追加のトレーニングや事前訓練されたモデルの固定パラメータなしでコンピュータビジョンタスクを解く方法として提案されている。
ファッションフィールドからのマルチモーダルタスク指向対話ベンチマークデータセットであるマルチモーダルダイアログ(mmd)データセットを用いて評価を行い、マルチモーダルデータを扱うためのアレンジメントとともに、テキスト的モダリティのみを受け入れるchatgptベースのg-evalを用いた。
先行研究の変圧器モデルと比較すると, 本手法は絶対値が10.8%, 有用性8.8%, 妥当性5.2%であった。
その結果,データセットをゼロからトレーニングしたモデルではなく,パラメータを固定した大規模モデルを使用することで,マルチモーダルタスク指向対話の性能が向上した。
同時に,大規模言語モデル(LLM)が多モーダルなタスク指向対話に有効であることを示す。
これは既存のシステムに効率的なアプリケーションをもたらすことが期待されている。 In this study, we use the existing Large Language Models ENnhanced to See Framework (LENS Framework) to test the feasibility of multimodal task-oriented dialogues. The LENS Framework has been proposed as a method to solve computer vision tasks without additional training and with fixed parameters of pre-trained models. We used the Multimodal Dialogs (MMD) dataset, a multimodal task-oriented dialogue benchmark dataset from the fashion field, and for the evaluation, we used the ChatGPT-based G-EVAL, which only accepts textual modalities, with arrangements to handle multimodal data. Compared to Transformer-based models in previous studies, our method demonstrated an absolute lift of 10.8% in fluency, 8.8% in usefulness, and 5.2% in relevance and coherence. The results show that using large-scale models with fixed parameters rather than using models trained on a dataset from scratch improves performance in multimodal task-oriented dialogues. At the same time, we show that Large Language Models (LLMs) are effective for multimodal task-oriented dialogues. This is expected to lead to efficient applications to existing systems. | 翻訳日:2023-10-04 23:43:27 公開日:2023-10-02 |
# 動的ゴール認識フラグメントによる薬物発見 Drug Discovery with Dynamic Goal-aware Fragments ( http://arxiv.org/abs/2310.00841v1 ) ライセンス: Link先を確認 | Seul Lee, Seanie Lee, Sung Ju Hwang | (参考訳) フラグメントに基づく薬物発見は、広大な化学領域における薬物候補の発見に有効な戦略であり、分子生成モデルに広く用いられている。
しかし、そのようなモデルにおける既存の断片抽出法の多くは、対象の化学的性質を考慮せず、ヒューリスティックな規則に依存する。
さらに、既存のフラグメントベースの生成モデルは、生成中に新たに発見されたゴール対応のフラグメントでフラグメント語彙を更新できない。
そこで本研究では,創薬のための分子生成フレームワークであるgoal-aware fragment extraction, assembly and modified (geam)を提案する。
GEAMは3つのモジュールから構成されており、それぞれがゴール対応のフラグメント抽出、フラグメントアセンブリ、フラグメント修正を担当している。
フラグメント抽出モジュールは、情報ボトルネック原理を用いて、所望のターゲット特性に寄与する重要なフラグメントを識別し、効果的な目標認識フラグメント語彙を構築する。
さらに、GEAMはフラグメント修正モジュールで最初の語彙を超える探索が可能であり、動的ゴール対応語彙更新によってさらに探索が強化される。
GEAMは, 薬物発見タスクにおける3つのモジュールの生成サイクルを通じて, 薬物候補を効果的に発見できることを実験的に実証した。 Fragment-based drug discovery is an effective strategy for discovering drug candidates in the vast chemical space, and has been widely employed in molecular generative models. However, many existing fragment extraction methods in such models do not take the target chemical properties into account or rely on heuristic rules. Additionally, the existing fragment-based generative models cannot update the fragment vocabulary with goal-aware fragments newly discovered during the generation. To this end, we propose a molecular generative framework for drug discovery, named Goal-aware fragment Extraction, Assembly, and Modification (GEAM). GEAM consists of three modules, each responsible for goal-aware fragment extraction, fragment assembly, and fragment modification. The fragment extraction module identifies important fragments that contribute to the desired target properties with the information bottleneck principle, thereby constructing an effective goal-aware fragment vocabulary. Moreover, GEAM can explore beyond the initial vocabulary with the fragment modification module, and the exploration is further enhanced through the dynamic goal-aware vocabulary update. We experimentally demonstrate that GEAM effectively discovers drug candidates through the generative cycle of the three modules in various drug discovery tasks. | 翻訳日:2023-10-04 23:43:04 公開日:2023-10-02 |
# Error Norm Truncation:テキスト生成モデルにおけるデータノイズの存在下でのロバストトレーニング Error Norm Truncation: Robust Training in the Presence of Data Noise for Text Generation Models ( http://arxiv.org/abs/2310.00840v1 ) ライセンス: Link先を確認 | Tianjian Li, Haoran Xu, Philipp Koehn, Daniel Khashabi, Kenton Murray | (参考訳) テキスト生成モデルは、トレーニングデータのエラーに弱いことで悪名高い。
大量のWebcrawledデータが広範に利用可能になれば、巨大なノイズの多いWebcrawledテキストでトレーニングされたモデルの堅牢性をどのように向上できるか?
本研究では,ノイズの多いデータをトラストする標準学習目標に対する頑健な強化手法であるError Norm Truncation (ENT)を提案する。
データ品質を推定するために負の対数損失のみを用いる手法と比較して,本手法は,従来から見過ごされてきた非ターゲットトークンの分布を考慮し,より正確な推定を行う。
言語モデリング,機械翻訳,テキスト要約に関する総合的な実験を通じて,テキスト生成モデルにENTを組み込むことで,標準学習や従来のソフト・ハード・トランケーション法よりも生成品質が向上することを示す。
さらに,本手法は,機械翻訳における最も有害な2種類の雑音に対するモデルのロバスト性が向上し,データに最大50%のノイズが付加されると,mleベースライン上で2点以上のブルーポイントが増加することを示した。 Text generation models are notoriously vulnerable to errors in the training data. With the wide-spread availability of massive amounts of web-crawled data becoming more commonplace, how can we enhance the robustness of models trained on a massive amount of noisy web-crawled text? In our work, we propose Error Norm Truncation (ENT), a robust enhancement method to the standard training objective that truncates noisy data. Compared to methods that only uses the negative log-likelihood loss to estimate data quality, our method provides a more accurate estimation by considering the distribution of non-target tokens, which is often overlooked by previous work. Through comprehensive experiments across language modeling, machine translation, and text summarization, we show that equipping text generation models with ENT improves generation quality over standard training and previous soft and hard truncation methods. Furthermore, we show that our method improves the robustness of models against two of the most detrimental types of noise in machine translation, resulting in an increase of more than 2 BLEU points over the MLE baseline when up to 50% of noise is added to the data. | 翻訳日:2023-10-04 23:42:45 公開日:2023-10-02 |
# 深部生成モデルを用いたアンサンブルに基づく地下評価 Subsurface Characterization using Ensemble-based Approaches with Deep Generative Models ( http://arxiv.org/abs/2310.00839v1 ) ライセンス: Link先を確認 | Jichao Bao, Hongkyu Yoon, and Jonghyun Lee | (参考訳) 使用可能なスパース測定から水圧伝導率(K)などの空間分布特性を推定することは,地下のキャラクタリゼーションにおいて大きな課題である。
しかし、計算コストとスパースデータセットによる予測精度の低下により、不適切な高次元アプリケーションには逆モデリングの使用が制限されている。
本稿では,複雑な地下構造を正確に把握できる深層生成モデルであるwasserstein generative adversarial networkと勾配ペナルティ(wgan-gp)と,アンサンブルに基づく逆解析法であるes-mda(multiple data assimilation)を用いたスムーザとを組み合わせることで,高精度かつ高速化した地下キャラクタリゼーションを実現する。
WGAN-GPは低次元の潜伏空間から高次元K場を生成するように訓練され、ES-MDAは利用可能な測定値を同化することにより潜伏変数を更新する。
提案手法の精度と効率を評価するためにいくつかの下地サンプルが用いられ、未知のkフィールドの主な特徴は信頼できる不確かさの定量化によって正確に特徴づけられる。 Estimating spatially distributed properties such as hydraulic conductivity (K) from available sparse measurements is a great challenge in subsurface characterization. However, the use of inverse modeling is limited for ill-posed, high-dimensional applications due to computational costs and poor prediction accuracy with sparse datasets. In this paper, we combine Wasserstein Generative Adversarial Network with Gradient Penalty (WGAN-GP), a deep generative model that can accurately capture complex subsurface structure, and Ensemble Smoother with Multiple Data Assimilation (ES-MDA), an ensemble-based inversion method, for accurate and accelerated subsurface characterization. WGAN-GP is trained to generate high-dimensional K fields from a low-dimensional latent space and ES-MDA then updates the latent variables by assimilating available measurements. Several subsurface examples are used to evaluate the accuracy and efficiency of the proposed method and the main features of the unknown K fields are characterized accurately with reliable uncertainty quantification | 翻訳日:2023-10-04 23:42:24 公開日:2023-10-02 |
# LogiGLUE: 言語モデルの論理推論能力分析のための簡単な調査とベンチマーク Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models ( http://arxiv.org/abs/2310.00836v1 ) ライセンス: Link先を確認 | Man Luo, Shrinidhi Kumbhar, Ming shen, Mihir Parmar, Neeraj Varshney, Pratyay Banerjee, Somak Aditya, Chitta Baral | (参考訳) 論理的推論は人間にとって基本だが、人工知能の領域では大きな課題がある。
当初、研究者はKR(Knowledge Representation and Reasoning)システムを使用していた。
近年,大規模言語モデル (LLM) の出現は,形式的知識表現 (KR) システムの様々な限界を克服する能力を示している。
その結果、自然言語による論理推論にllmを使うことへの関心が高まっている。
本研究は,LLMを論理的推論に活用するための論理的推論データセット,タスク,手法を中心に,この領域における最新の進歩の簡単なレビューを提供することで,論理的推論におけるLLMの習熟度を理解することを目的とする。
詳細な分析を行うため、LogiGLUEというベンチマークをコンパイルしました。
これには、帰納的、帰納的、帰納的推論を含む24種類のデータセットが含まれる。
我々はこれらのデータセットをSeq2Seqタスクに標準化し、将来の研究のための簡単なトレーニングと評価を容易にする。
LogiGLUEを基礎として、我々は命令微調整言語モデルを訓練し、結果としてLogiT5となった。
一つのタスクトレーニング,複数タスクトレーニング,思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
この包括的プロセスにより、我々はLLMの論理的推論能力を高める能力と潜在的な経路に光を当てることを目指しており、この重要な分野におけるより先進的で曖昧な発展への道を開いた。 Logical reasoning is fundamental for humans yet presents a substantial challenge in the domain of Artificial Intelligence. Initially, researchers used Knowledge Representation and Reasoning (KR) systems that did not scale and required non trivial manual effort. Recently, the emergence of large language models (LLMs) has demonstrated the ability to overcome various limitations of formal Knowledge Representation (KR) systems. Consequently, there is a growing interest in using LLMs for logical reasoning via natural language. This work strives to understand the proficiency of LLMs in logical reasoning by offering a brief review of the latest progress in this area; with a focus on the logical reasoning datasets, tasks, and the methods adopted to utilize LLMs for reasoning. To offer a thorough analysis, we have compiled a benchmark titled LogiGLUE. This includes 24 varied datasets encompassing deductive, abductive, and inductive reasoning. We have standardized these datasets into Seq2Seq tasks to facilitate straightforward training and evaluation for future research. Utilizing LogiGLUE as a foundation, we have trained an instruction fine tuned language model, resulting in LogiT5. We study single task training, multi task training, and a chain of thought knowledge distillation fine tuning technique to assess the performance of model across the different logical reasoning categories. By this comprehensive process, we aim to shed light on the capabilities and potential pathways for enhancing logical reasoning proficiency in LLMs, paving the way for more advanced and nuanced developments in this critical field. | 翻訳日:2023-10-04 23:42:03 公開日:2023-10-02 |
# Regevのファクタリングアルゴリズムにおける空間最適化 Optimizing Space in Regev's Factoring Algorithm ( http://arxiv.org/abs/2310.00899v1 ) ライセンス: Link先を確認 | Seyoon Ragavan, Vinod Vaikuntanathan | (参考訳) 我々は、回路サイズを同じに保ちながら、Regevの量子分解アルゴリズム[Reg23]の空間効率を向上する。
我々の主な結果は、$O(n \log n)$ qubits と $O(n^{3/2} \log n)$ gates を用いて量子ファクタリング回路を構成する。
対照的に、regevの回路は$o(n^{3/2})$ qubits、shorの回路は$o(n^2)$ gatesを必要とする。
Regev と同様、$n$-bit 整数 $N$ は、独立に $\approx \sqrt{n}$ times を実行し、Regev の古典的な後処理手順を適用する。
この最適化は,通常の2乗ではなく,フィボナッチ数で効率的かつ可逆的な指数を指数数として実装することで達成される。 We improve the space efficiency of Regev's quantum factoring algorithm [Reg23] while keeping the circuit size the same. Our main result constructs a quantum factoring circuit using $O(n \log n)$ qubits and $O(n^{3/2} \log n)$ gates. In contrast, Regev's circuit requires $O(n^{3/2})$ qubits, while Shor's circuit requires $O(n^2)$ gates. As with Regev, to factor an $n$-bit integer $N$, one runs this circuit independently $\approx \sqrt{n}$ times and apply Regev's classical post-processing procedure. Our optimization is achieved by implementing efficient and reversible exponentiation with Fibonacci numbers in the exponent, rather than the usual powers of 2. | 翻訳日:2023-10-04 23:35:43 公開日:2023-10-02 |
# データから自己改善を暗黙的に学べる言語モデル Enable Language Models to Implicitly Learn Self-Improvement From Data ( http://arxiv.org/abs/2310.00898v1 ) ライセンス: Link先を確認 | Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji | (参考訳) 大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。
しかし、これらのタスクの本質的にオープンな性質は、モデル応答の品質を改善する余地が常にあることを意味する。
この課題に対処するため、LLMの性能を高めるために様々なアプローチが提案されている。
LLMが応答品質を自己改善することに注力し、多種多様な高品質のトレーニングデータを収集するための広範囲な人的アノテーションへの依存を減らしている。
近年, その有効性, 効率, 利便性などにより, 自己改善手法としてプロンプトベースの手法が広く研究されている。
しかしながら、これらの手法は通常、LSMへの入力として明示的に完全に記述されたルーブリックを必要とする。
改善のための現実の複雑な目標(例えば、より有用で有害でない)を手動で導き、すべての必要なルーリックを提供するのは高価で難しい。
この目的のために,人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
PITは、人間の余分な努力なしに報酬モデルを訓練するために使用される嗜好データのみを必要とする。
具体的には、人間のフィードバック(RLHF)からの強化学習のトレーニング目標を、与えられた入力に対する応答品質を最大化する代わりに、参照応答に条件付けられた応答の質的ギャップを最大化する。
このようにして、PITは人間の好みに合わせた改善目標を暗黙的に訓練する。
実世界の2つのデータセットと1つの合成データセットを用いた実験により,本手法がプロンプトベース手法よりも優れていることが示された。 Large Language Models (LLMs) have demonstrated remarkable capabilities in open-ended text generation tasks. However, the inherent open-ended nature of these tasks implies that there is always room for improvement in the quality of model responses. To address this challenge, various approaches have been proposed to enhance the performance of LLMs. There has been a growing focus on enabling LLMs to self-improve their response quality, thereby reducing the reliance on extensive human annotation efforts for collecting diverse and high-quality training data. Recently, prompting-based methods have been widely explored among self-improvement methods owing to their effectiveness, efficiency, and convenience. However, those methods usually require explicitly and thoroughly written rubrics as inputs to LLMs. It is expensive and challenging to manually derive and provide all necessary rubrics with a real-world complex goal for improvement (e.g., being more helpful and less harmful). To this end, we propose an ImPlicit Self-ImprovemenT (PIT) framework that implicitly learns the improvement goal from human preference data. PIT only requires preference data that are used to train reward models without extra human efforts. Specifically, we reformulate the training objective of reinforcement learning from human feedback (RLHF) -- instead of maximizing response quality for a given input, we maximize the quality gap of the response conditioned on a reference response. In this way, PIT is implicitly trained with the improvement goal of better aligning with human preferences. Experiments on two real-world datasets and one synthetic dataset show that our method significantly outperforms prompting-based methods. | 翻訳日:2023-10-04 23:35:27 公開日:2023-10-02 |
# ソーシャルメディアのリツイートデータによるイベント参加者の組織的予測 Organized Event Participant Prediction Enhanced by Social Media Retweeting Data ( http://arxiv.org/abs/2310.00896v1 ) ライセンス: Link先を確認 | Yihong Zhang and Takahiro Hara | (参考訳) 現在、Web上の多くのプラットフォームがイベントを組織化しており、ユーザーはオーガナイザや参加者になることができる。
このようなプラットフォームでは、潜在的なイベント参加者を予測することは有益である。
この問題に関する既存の作業はレコメンデーションテクニックを借りる傾向があります。
しかし、eコマースアイテムや購入と比較して、イベントや参加の頻度は比較的小さく、正確なモデルを学ぶにはデータが不十分である可能性がある。
本稿では,ソーシャルメディアのリツイート活動データを利用して,イベント参加者予測モデルの学習を促進することを提案する。
イベント記述とツイートが同じ言語で書かれていると仮定して、ソーシャルメディアとターゲットドメインを橋渡しするための共同知識グラフを作成する。
さらに,対象領域の予測にリツイート情報を利用する学習モデルを提案する。
実世界データを用いて2つのシナリオで総合的な実験を行う。
それぞれのシナリオでは、さまざまなサイズのトレーニングデータと、温かく冷たいテストケースを設定しました。
評価の結果,本手法は,いくつかのベースラインモデル,特にウォームテストケース,および対象領域データに制限がある場合において,一貫して優れることがわかった。 Nowadays, many platforms on the Web offer organized events, allowing users to be organizers or participants. For such platforms, it is beneficial to predict potential event participants. Existing work on this problem tends to borrow recommendation techniques. However, compared to e-commerce items and purchases, events and participation are usually of a much smaller frequency, and the data may be insufficient to learn an accurate model. In this paper, we propose to utilize social media retweeting activity data to enhance the learning of event participant prediction models. We create a joint knowledge graph to bridge the social media and the target domain, assuming that event descriptions and tweets are written in the same language. Furthermore, we propose a learning model that utilizes retweeting information for the target domain prediction more effectively. We conduct comprehensive experiments in two scenarios with real-world data. In each scenario, we set up training data of different sizes, as well as warm and cold test cases. The evaluation results show that our approach consistently outperforms several baseline models, especially with the warm test cases, and when target domain data is limited. | 翻訳日:2023-10-04 23:35:01 公開日:2023-10-02 |
# JPEG情報によるDeep Imageの正規化 JPEG Information Regularized Deep Image Prior for Denoising ( http://arxiv.org/abs/2310.00894v1 ) ライセンス: Link先を確認 | Tsukasa Takagi, Shinya Ishizaki, Shin-ichi Maeda | (参考訳) 画像デノイジングは、コンピュータビジョンにおける代表的な画像復元タスクである。
近年,ノイズの多い画像のみを呈する画像が注目されている。
deep image prior (dip) は、事前トレーニングなしで畳み込みニューラルネットワークアーキテクチャの帰納的バイアスにより、ノイズ画像のみから切り離した画像が成功した。
ディップベース画像の最大の課題は、ディップが初期停止を施さない限り、元のノイズ画像を完全にリカバリすることである。
地味なクリーンな画像なしで早期に停止するために、回復した画像のノイズレベルのプロキシ指標として、最適化中の画像のJPEGファイルサイズを監視することを提案する。
実験の結果,圧縮画像ファイルサイズは早期停止に有効な指標であることがわかった。 Image denoising is a representative image restoration task in computer vision. Recent progress of image denoising from only noisy images has attracted much attention. Deep image prior (DIP) demonstrated successful image denoising from only a noisy image by inductive bias of convolutional neural network architectures without any pre-training. The major challenge of DIP based image denoising is that DIP would completely recover the original noisy image unless applying early stopping. For early stopping without a ground-truth clean image, we propose to monitor JPEG file size of the recovered image during optimization as a proxy metric of noise levels in the recovered image. Our experiments show that the compressed image file size works as an effective metric for early stopping. | 翻訳日:2023-10-04 23:34:43 公開日:2023-10-02 |
# 教師付きcontrastive lossの神経崩壊形状のエンジニアリング Engineering the Neural Collapse Geometry of Supervised-Contrastive Loss ( http://arxiv.org/abs/2310.00893v1 ) ライセンス: Link先を確認 | Jaidev Gill, Vala Vakilian, Christos Thrampoulidis | (参考訳) Supervised-Contrastive Loss (SCL) は、よりリッチな表現を可能にする埋め込み空間における類似性を利用する分類タスクのためのクロスエントロピー(CE)の代替である。
本研究では,これらの特徴埋め込みの幾何構造をコントラスト損失の修正によって設計する手法を提案する。
幾何の調整を追求するために、プロトタイプの影響を探求し、最終特徴幾何学を変更するトレーニング中に固定埋め込みを含める。
具体的には,実験的な結果から,各バッチにプロトタイプを組み込むことで,学習した埋め込みの幾何学がプロトタイプの形状と一致することを示す。
プロトタイプの数が当初のバッチサイズをはるかに上回る制限シナリオを検討し,さらなる洞察を得る。
これにより、固定分類器と正規化埋め込みによるクロスエントロピー(CE)損失への接続を確立する。
ベンチマークビジョンデータセット上で,ディープニューラルネットワークを用いた一連の実験を行い,その結果を検証した。 Supervised-contrastive loss (SCL) is an alternative to cross-entropy (CE) for classification tasks that makes use of similarities in the embedding space to allow for richer representations. In this work, we propose methods to engineer the geometry of these learnt feature embeddings by modifying the contrastive loss. In pursuit of adjusting the geometry we explore the impact of prototypes, fixed embeddings included during training to alter the final feature geometry. Specifically, through empirical findings, we demonstrate that the inclusion of prototypes in every batch induces the geometry of the learnt embeddings to align with that of the prototypes. We gain further insights by considering a limiting scenario where the number of prototypes far outnumber the original batch size. Through this, we establish a connection to cross-entropy (CE) loss with a fixed classifier and normalized embeddings. We validate our findings by conducting a series of experiments with deep neural networks on benchmark vision datasets. | 翻訳日:2023-10-04 23:34:33 公開日:2023-10-02 |
# No Offenseが引き起こす - 言語モデルから攻撃を誘発する No Offense Taken: Eliciting Offensiveness from Language Models ( http://arxiv.org/abs/2310.00892v1 ) ライセンス: Link先を確認 | Anugya Srivastava and Rahul Ahuja and Rohith Mukku | (参考訳) この工事は2022年5月に完了した。
安全で信頼性の高い言語モデルを現実世界にデプロイするためには、テストは堅牢である必要がある。
この堅牢性は、これらのモデルを評価するテストケースの難しさと多様性によって特徴づけられます。
ループ内テストケース生成の制限は、自動テストケース生成アプローチの出現を促している。
特に、perez氏らによる言語モデルとred teaming language modelsにフォーカスしています。
(2022).
私たちのコントリビューションには、公開可能な小さな言語モデル(lms)を活用したred teamingによる自動テストケース生成パイプラインの開発、さまざまなターゲットのlmsとred分類器の実験、広くデプロイされたlmsからの攻撃的応答の排除と障害モードの特定を支援するテストケースのコーパスの生成などが含まれています。 This work was completed in May 2022. For safe and reliable deployment of language models in the real world, testing needs to be robust. This robustness can be characterized by the difficulty and diversity of the test cases we evaluate these models on. Limitations in human-in-the-loop test case generation has prompted an advent of automated test case generation approaches. In particular, we focus on Red Teaming Language Models with Language Models by Perez et al.(2022). Our contributions include developing a pipeline for automated test case generation via red teaming that leverages publicly available smaller language models (LMs), experimenting with different target LMs and red classifiers, and generating a corpus of test cases that can help in eliciting offensive responses from widely deployed LMs and identifying their failure modes. | 翻訳日:2023-10-04 23:34:16 公開日:2023-10-02 |
# GRID: 汎用ロボットインテリジェンス開発のためのプラットフォーム GRID: A Platform for General Robot Intelligence Development ( http://arxiv.org/abs/2310.00887v1 ) ライセンス: Link先を確認 | Sai Vemprala, Shuhang Chen, Abhinav Shukla, Dinesh Narayanan, Ashish Kapoor | (参考訳) ロボットと自律システムにおけるマシンインテリジェンス能力の開発は、高価で時間のかかるプロセスである。
既存のソリューションは特定のアプリケーションに適したもので、一般化が難しい。
さらに、トレーニングデータの不足により、深層機械学習モデルのデプロイが複雑になる。
本稿では,これらの問題に対処する汎用ロボット知能開発(GRID)のための新しいプラットフォームを提案する。
このプラットフォームにより、ロボットは物理的な能力、環境制約、目標にスキルを学習し、構成し、適応することができる。
このプラットフォームは、物理世界を知っている基礎モデルを通じて、ロボット工学におけるAI問題に対処する。
GRIDは、新しいタイプのロボット、車、ハードウェアプラットフォーム、ソフトウェアプロトコルに対応できるように、ゼロから設計されている。
さらに、モジュール設計により、様々な深層MLコンポーネントや既存の基礎モデルが、より広範なロボット中心の問題で容易に利用できるようになる。
我々は、このプラットフォームを様々な航空ロボットのシナリオでデモし、プラットフォームが機械知能ロボットの開発を劇的に加速させる様子をデモする。 Developing machine intelligence abilities in robots and autonomous systems is an expensive and time consuming process. Existing solutions are tailored to specific applications and are harder to generalize. Furthermore, scarcity of training data adds a layer of complexity in deploying deep machine learning models. We present a new platform for General Robot Intelligence Development (GRID) to address both of these issues. The platform enables robots to learn, compose and adapt skills to their physical capabilities, environmental constraints and goals. The platform addresses AI problems in robotics via foundation models that know the physical world. GRID is designed from the ground up to be extensible to accommodate new types of robots, vehicles, hardware platforms and software protocols. In addition, the modular design enables various deep ML components and existing foundation models to be easily usable in a wider variety of robot-centric problems. We demonstrate the platform in various aerial robotics scenarios and demonstrate how the platform dramatically accelerates development of machine intelligent robots. | 翻訳日:2023-10-04 23:34:02 公開日:2023-10-02 |
# PC-NeRF:自律走行環境における部分センサデータ損失下での親子ニューラルラジアンス場 PC-NeRF: Parent-Child Neural Radiance Fields under Partial Sensor Data Loss in Autonomous Driving Environments ( http://arxiv.org/abs/2310.00874v1 ) ライセンス: Link先を確認 | Xiuzhong Hu, Guangming Xiong, Zheng Zang, Peng Jia, Yuxuan Han, and Junyi Ma | (参考訳) 大規模な3Dシーンの再構築は、特に部分センサーデータが失われる場合、自動運転車にとって不可欠である。
最近開発されたneural radiance fields(nerf)は暗黙的な表現において説得力のある結果を示しているが、部分的に失われたlidar point cloudデータを用いた大規模3dシーンの再構築はまだ検討が必要だ。
このギャップを埋めるために,親子ニューラルレイディアンス場(PC-NeRF)と呼ばれる新しい3次元シーン再構成フレームワークを提案する。
このフレームワークは、親NeRFと子NeRFの2つのモジュールから構成され、シーンレベル、セグメントレベル、ポイントレベルのシーン表現を同時に最適化する。
子供のnerfのセグメントレベル表現能力を利用してセンサデータをより効率的に利用することができ、限られた観察でもシーンの近似ボリューム表現を迅速に得ることができる。
大規模なシーンで高精度な3次元再構成を実現するために,提案したPC-NeRFを用いて実験を行った。
さらに、PC-NeRFは、部分センサデータが失われる状況に効果的に対処でき、訓練時間に制限のあるデプロイメント効率が高い。
私たちのアプローチ実装と事前トレーニングされたモデルは、https://github.com/biter0088/pc-nerfで利用可能です。 Reconstructing large-scale 3D scenes is essential for autonomous vehicles, especially when partial sensor data is lost. Although the recently developed neural radiance fields (NeRF) have shown compelling results in implicit representations, the large-scale 3D scene reconstruction using partially lost LiDAR point cloud data still needs to be explored. To bridge this gap, we propose a novel 3D scene reconstruction framework called parent-child neural radiance field (PC-NeRF). The framework comprises two modules, the parent NeRF and the child NeRF, to simultaneously optimize scene-level, segment-level, and point-level scene representations. Sensor data can be utilized more efficiently by leveraging the segment-level representation capabilities of child NeRFs, and an approximate volumetric representation of the scene can be quickly obtained even with limited observations. With extensive experiments, our proposed PC-NeRF is proven to achieve high-precision 3D reconstruction in large-scale scenes. Moreover, PC-NeRF can effectively tackle situations where partial sensor data is lost and has high deployment efficiency with limited training time. Our approach implementation and the pre-trained models will be available at https://github.com/biter0088/pc-nerf. | 翻訳日:2023-10-04 23:33:48 公開日:2023-10-02 |
# 深層ニューラルネットワークは予測どおりに外挿する Deep Neural Networks Tend To Extrapolate Predictably ( http://arxiv.org/abs/2310.00873v1 ) ライセンス: Link先を確認 | Katie Kang, Amrith Setlur, Claire Tomlin, Sergey Levine | (参考訳) 従来の知見では、ニューラルネットワークの予測は予測不能で、分散(ood)入力に直面すると自信過剰になりがちである。
我々の研究は、高次元入力によるニューラルネットワークのこの仮定を再評価する。
任意の方法で外挿するのではなく、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に傾向することが多いことを観察する。
さらに、この値は、しばしば最適定数解(OCS)、すなわち、入力を観察せずにトレーニングデータに対する平均損失を最小化する予測を近似する。
分散シフトの異なる8つのデータセット(cifar10-cとimagenet-r, sを含む)、異なる損失関数(cross entropy, mse, gaussian nll)、異なるアーキテクチャ(cnnとtransformer)にまたがってこの現象を示す。
さらに、まず実験的な検証を行い、ReLUアクティベーションを伴う深い均質ネットワークを含む単純化された環境で理論的に研究する。
最後に、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示す。 Conventional wisdom suggests that neural network predictions tend to be unpredictable and overconfident when faced with out-of-distribution (OOD) inputs. Our work reassesses this assumption for neural networks with high-dimensional inputs. Rather than extrapolating in arbitrary ways, we observe that neural network predictions often tend towards a constant value as input data becomes increasingly OOD. Moreover, we find that this value often closely approximates the optimal constant solution (OCS), i.e., the prediction that minimizes the average loss over the training data without observing the input. We present results showing this phenomenon across 8 datasets with different distributional shifts (including CIFAR10-C and ImageNet-R, S), different loss functions (cross entropy, MSE, and Gaussian NLL), and different architectures (CNNs and transformers). Furthermore, we present an explanation for this behavior, which we first validate empirically and then study theoretically in a simplified setting involving deep homogeneous networks with ReLU activations. Finally, we show how one can leverage our insights in practice to enable risk-sensitive decision-making in the presence of OOD inputs. | 翻訳日:2023-10-04 23:33:25 公開日:2023-10-02 |
# CompOSER:スネークロボットのためのスケーラブルでロバストなモジュラーポリシー COMPOSER: Scalable and Robust Modular Policies for Snake Robots ( http://arxiv.org/abs/2310.00871v1 ) ライセンス: Link先を確認 | Yuyou Zhang, Yaru Niu, Xingyu Liu, Ding Zhao | (参考訳) スネークロボットは環境との相互作用において顕著なコンプライアンスと適応性を示しており、その特性を反映している。
その超冗長で高次元な特性は適応性を高めるが、ロボットの制御には大きな課題がある。
ヘビロボットの超冗長性と柔軟性を単なる課題として捉えるのではなく、これらの特性を活用して、コントロールポリシーレベルでの堅牢性と一般化性を高める、未解明の可能性を秘めている。
我々は,ヘビロボットの冗長性を活用しつつ,高次元性を効果的に破壊するコントロールポリシーの開発を目指している。
本研究では,ヘビロボットをモジュール型ロボットとみなし,ヘビロボットの制御を協調的マルチエージェント強化学習(MARL)問題として定式化する。
スネークロボットの各セグメントは、個々のエージェントとして機能する。
具体的には,エージェント間の協調行動を高めるための自己注意機構を組み込んだ。
低レベルの制御政策を導くための追加報酬を提供するため、高レベルのイマジネーションポリシーが提案されている。
提案手法は,目標到達,壁登り,形状形成,管交差,ブロック押圧を含む5つのヘビロボットタスクを用いて検証した。
COMPOSERは、集中型ベースラインと4つのモジュラポリシーベースラインと比較して、すべてのタスクで最高の成功率を達成する。
さらに,モジュールの破損に対するロバスト性の向上と,提案手法のゼロショット一般化性に優れることを示す。
この作業のビデオは、プロジェクトページ(https://sites.google.com/view/composer-snake/)で公開されている。 Snake robots have showcased remarkable compliance and adaptability in their interaction with environments, mirroring the traits of their natural counterparts. While their hyper-redundant and high-dimensional characteristics add to this adaptability, they also pose great challenges to robot control. Instead of perceiving the hyper-redundancy and flexibility of snake robots as mere challenges, there lies an unexplored potential in leveraging these traits to enhance robustness and generalizability at the control policy level. We seek to develop a control policy that effectively breaks down the high dimensionality of snake robots while harnessing their redundancy. In this work, we consider the snake robot as a modular robot and formulate the control of the snake robot as a cooperative Multi-Agent Reinforcement Learning (MARL) problem. Each segment of the snake robot functions as an individual agent. Specifically, we incorporate a self-attention mechanism to enhance the cooperative behavior between agents. A high-level imagination policy is proposed to provide additional rewards to guide the low-level control policy. We validate the proposed method COMPOSER with five snake robot tasks, including goal reaching, wall climbing, shape formation, tube crossing, and block pushing. COMPOSER achieves the highest success rate across all tasks when compared to a centralized baseline and four modular policy baselines. Additionally, we show enhanced robustness against module corruption and significantly superior zero-shot generalizability in our proposed method. The videos of this work are available on our project page: https://sites.google.com/view/composer-snake/. | 翻訳日:2023-10-04 23:33:02 公開日:2023-10-02 |
# すべてのデータセット数:ジョイントデータセットトレーニングによる単眼3Dオブジェクト検出のスケールアップ Every Dataset Counts: Scaling up Monocular 3D Object Detection with Joint Datasets Training ( http://arxiv.org/abs/2310.00920v1 ) ライセンス: Link先を確認 | Fulong Ma, Xiaoyang Yan, Yuxuan Liu and Ming Liu | (参考訳) モノクロ3D物体検出は、自律運転において重要な役割を果たす。
しかし、既存のモノクル3D検出アルゴリズムは、LiDAR測定から派生した3Dラベルに依存している。
具体的には,多種多様な3次元および2次元データセットを用いたモノクロ3次元物体検出モデルの学習パイプラインについて検討した。
提案フレームワークは,(1)様々なカメラ設定にまたがって機能するロバストなモノクル3Dモデル,(2)異なるクラスアノテーションでデータセットを適応するための選択学習戦略,(3)2Dラベルを用いた擬似3Dトレーニング手法により,2Dラベルのみを含むシーンにおける検出性能を向上させる。
このフレームワークにより、様々なオープンな3D/2Dデータセットのジョイントセット上でモデルをトレーニングし、より強力な一般化能力を持つモデルと、2Dラベルのみを持つ新しいデータセットの性能を向上させることができる。
KITTI/nuScenes/ONCE/Cityscapes/BDD100Kデータセットに関する広範な実験を行い、提案手法のスケーリング能力を実証した。 Monocular 3D object detection plays a crucial role in autonomous driving. However, existing monocular 3D detection algorithms depend on 3D labels derived from LiDAR measurements, which are costly to acquire for new datasets and challenging to deploy in novel environments. Specifically, this study investigates the pipeline for training a monocular 3D object detection model on a diverse collection of 3D and 2D datasets. The proposed framework comprises three components: (1) a robust monocular 3D model capable of functioning across various camera settings, (2) a selective-training strategy to accommodate datasets with differing class annotations, and (3) a pseudo 3D training approach using 2D labels to enhance detection performance in scenes containing only 2D labels. With this framework, we could train models on a joint set of various open 3D/2D datasets to obtain models with significantly stronger generalization capability and enhanced performance on new dataset with only 2D labels. We conduct extensive experiments on KITTI/nuScenes/ONCE/Cityscapes/BDD100K datasets to demonstrate the scaling ability of the proposed method. | 翻訳日:2023-10-04 23:25:17 公開日:2023-10-02 |
# baaf: 医用超音波画像分割タスクのためのベンチマーク注意適応フレームワーク BAAF: A Benchmark Attention Adaptive Framework for Medical Ultrasound Image Segmentation Tasks ( http://arxiv.org/abs/2310.00919v1 ) ライセンス: Link先を確認 | Gongping Chen, Lei Zhao, Xiaotao Yin, Liang Cui, Jianxun Zhang, Yu Dai | (参考訳) aiベースの診断プログラムは、医療用超音波画像で広く研究されている。
超音波画像の複雑なシナリオは、内部要因と外部要因の相互干渉が重大であり、超音波画像において対象領域を自動的かつ正確にローカライズするユニークな課題をもたらす。
本研究では,超音波画像中の病変や組織をより迅速かつ正確に診断するための,より汎用的でロバストなベンチマーク注意適応フレームワーク(baaf)を提案する。
既存の注目方式とは異なり、BAAFは並列ハイブリッドアテンションモジュール(PHAM)と適応キャリブレーション機構(ACM)から構成されている。
具体的には、BAAFはまずチャネルと空間次元から入力された特徴を粗く校正し、その後、粗い校正された特徴マップからより堅牢な病変や組織の特徴を適応的に選択する。
BAAFの設計は、CNNにおける"What"と"where"の焦点と選択の問題をさらに最適化し、医療用超音波画像における病変や組織のセグメンテーション精度の向上を目指している。
本手法は,4つの医療用超音波セグメンテーションタスクにおいて評価され,既存の最先端手法よりも優れた性能を示す。
また,既存の注意機構との比較もBAAFの優位性を示している。
本研究は, 超音波自動診断の可能性を提供し, 精度と精度の信頼性を低下させる。 The AI-based assisted diagnosis programs have been widely investigated on medical ultrasound images. Complex scenario of ultrasound image, in which the coupled interference of internal and external factors is severe, brings a unique challenge for localize the object region automatically and precisely in ultrasound images. In this study, we seek to propose a more general and robust Benchmark Attention Adaptive Framework (BAAF) to assist doctors segment or diagnose lesions and tissues in ultrasound images more quickly and accurately. Different from existing attention schemes, the BAAF consists of a parallel hybrid attention module (PHAM) and an adaptive calibration mechanism (ACM). Specifically, BAAF first coarsely calibrates the input features from the channel and spatial dimensions, and then adaptively selects more robust lesion or tissue characterizations from the coarse-calibrated feature maps. The design of BAAF further optimizes the "what" and "where" focus and selection problems in CNNs and seeks to improve the segmentation accuracy of lesions or tissues in medical ultrasound images. The method is evaluated on four medical ultrasound segmentation tasks, and the adequate experimental results demonstrate the remarkable performance improvement over existing state-of-the-art methods. In addition, the comparison with existing attention mechanisms also demonstrates the superiority of BAAF. This work provides the possibility for automated medical ultrasound assisted diagnosis and reduces reliance on human accuracy and precision. | 翻訳日:2023-10-04 23:24:54 公開日:2023-10-02 |
# multivariable quantum signal processing (m-qsp: prophecies of the two-headed oracle) へのコメント Comment on "Multivariable quantum signal processing (M-QSP): prophecies of the two-headed oracle" ( http://arxiv.org/abs/2310.00918v1 ) ライセンス: Link先を確認 | Hitomi Mori, Keisuke Fujii, Kaoru Mizuta | (参考訳) 多変数量子信号処理(M-QSP)[1]は、複数の変数の多項式変換を同時に処理する効率的な手段を提供する。
しかし、主定理2.3のいくつかの矛盾とRefの証明に気づいた。
[1].
さらに、RefにおけるConjecture 2.1の逆例もある。
[1]は定理2.3の証明の仮定として用いられ、量子情報処理2023 [2]で提示され、予想の条件は定理2.3の条件として含めるべきである。
本報告では,M-QSPの必要条件の見直しについて述べる。
また,これらの条件が十分でないことも示し,M-QSP理論の完全化に必要となる追加条件について述べる。 Multivariable Quantum Signal Processing (M-QSP) [1] is expected to provide an efficient means to handle polynomial transformations of multiple variables simultaneously. However, we noticed several inconsistencies in the main Theorem 2.3 and its proof in Ref. [1]. Moreover, a counterexample for Conjecture 2.1 in Ref. [1], which is used as an assumption in the proof of Theorem 2.3, is presented at Quantum Information Processing 2023 [2], meaning the requirement of the conjecture should be included as a condition in Theorem 2.3. Here we note our observations and propose the revised necessary conditions of M-QSP. We also show that these necessary conditions cannot be sufficient conditions, and thus some additional condition on top of these revisions is essentially required for complete M-QSP Theorem. | 翻訳日:2023-10-04 23:24:30 公開日:2023-10-02 |
# 事前学習のための多言語データセットのパワー活用:テキストスポッティング性能向上に向けて Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards Enhancing Text Spotting Performance ( http://arxiv.org/abs/2310.00917v1 ) ライセンス: Link先を確認 | Alloy Das, Sanket Biswas, Ayan Banerjee, Saumik Bhattacharya, Josep Llad\'os, and Umapada Pal | (参考訳) 広い範囲のドメインへの適応能力は、実世界の状況にデプロイされるシーンのテキストスポッティングモデルに不可欠である。
しかし、既存のSOTA(State-of-the-art)アプローチは、通常、複数のドメイン間の中間的特徴表現を直接活用しない自然のシーンテキストデータセットを事前訓練することで、シーンテキストの検出と認識を組み込む。
本稿では,ドメイン適応型シーンテキストスポッティングの問題,すなわち,特定のドメインやシナリオに特化されるのではなく,ターゲットドメインに直接適応できるように,マルチドメインソースデータ上でモデルをトレーニングする。
さらに,正規文と任意文の両方のシーンテキストスポッティングの解決と,徹底的な評価を行うために,swain-testrと呼ばれるトランスフォーマのベースラインを調査した。
この結果は、複数のドメインにわたるテキストスポッティングベンチマーク(言語、合成-現実、文書など)において、中間表現が大きなパフォーマンスを達成する可能性を明確に示している。
正確性と効率の両面でです The adaptation capability to a wide range of domains is crucial for scene text spotting models when deployed to real-world conditions. However, existing state-of-the-art (SOTA) approaches usually incorporate scene text detection and recognition simply by pretraining on natural scene text datasets, which do not directly exploit the intermediate feature representations between multiple domains. Here, we investigate the problem of domain-adaptive scene text spotting, i.e., training a model on multi-domain source data such that it can directly adapt to target domains rather than being specialized for a specific domain or scenario. Further, we investigate a transformer baseline called Swin-TESTR to focus on solving scene-text spotting for both regular and arbitrary-shaped scene text along with an exhaustive evaluation. The results clearly demonstrate the potential of intermediate representations to achieve significant performance on text spotting benchmarks across multiple domains (e.g. language, synth-to-real, and documents). both in terms of accuracy and efficiency. | 翻訳日:2023-10-04 23:24:16 公開日:2023-10-02 |
# AI設計における参加型ターン:理論の基礎と実践の現状 The Participatory Turn in AI Design: Theoretical Foundations and the Current State of Practice ( http://arxiv.org/abs/2310.00907v1 ) ライセンス: Link先を確認 | Fernando Delgado, Stephen Yang, Michael Madaio, Qian Yang | (参考訳) AIシステムに影響されたステークホルダが設計に参加するべきだという意見の高まりにもかかわらず、現在のアプローチには膨大なバリエーションと暗黙の意見の相違がある。
AI設計と開発への参加的アプローチに興味を持つ研究者や実践者にとって、いかなる参加的アプローチが利害関係者に実質的エージェンシーを与えるかを評価することは依然として困難である。
そこで本稿は,ai設計における「参加的転換」を基礎として,既存の理論文献の参加と,その実践の実証的調査と批判をまとめる。
具体的には、テクノロジーデザイン、政治理論、そして研究者や実践者がAIデザインに参加するためのアプローチを評価するために活用できる社会科学を横断する文学の合成を通じて概念的な枠組みを導出する。
さらに、最近発表された研究および12人のAI研究者および実践者に対する半構造化インタビューの分析に基づいて、AI設計における参加実践の現状に関する実証的な知見を述べる。
我々は,これらの経験的知見を用いて参加的実践の現状を理解し,実践的制約を考慮に入れた参加的目標と方法の整合性を高めるための指導を行う。 Despite the growing consensus that stakeholders affected by AI systems should participate in their design, enormous variation and implicit disagreements exist among current approaches. For researchers and practitioners who are interested in taking a participatory approach to AI design and development, it remains challenging to assess the extent to which any participatory approach grants substantive agency to stakeholders. This article thus aims to ground what we dub the "participatory turn" in AI design by synthesizing existing theoretical literature on participation and through empirical investigation and critique of its current practices. Specifically, we derive a conceptual framework through synthesis of literature across technology design, political theory, and the social sciences that researchers and practitioners can leverage to evaluate approaches to participation in AI design. Additionally, we articulate empirical findings concerning the current state of participatory practice in AI design based on an analysis of recently published research and semi-structured interviews with 12 AI researchers and practitioners. We use these empirical findings to understand the current state of participatory practice and subsequently provide guidance to better align participatory goals and methods in a way that accounts for practical constraints. | 翻訳日:2023-10-04 23:23:56 公開日:2023-10-02 |
# 視覚ハミングネットワークのための分散協調ナビゲーション手法 A Decentralized Cooperative Navigation Approach for Visual Homing Networks ( http://arxiv.org/abs/2310.00906v1 ) ライセンス: Link先を確認 | Mohamed Rahouti, Damian Lyons, Senthil Kumar Jagatheesaperumal, and Kaiqi Xiong | (参考訳) ビジュアルホーミングはビジュアルナビゲーションに対する軽量なアプローチである。
初期「ホーム」位置の記憶情報から、記憶されたホーム情報を現在の画像と比較し、動きベクトルを抽出することにより、他の場所からこの位置に戻るナビゲーションタスクを実現する。
視覚ホーミングの適用性を制約する課題は、ホームロケーションがホーミングプロセスを開始するために、ロボットの視野内にある必要があることである。
そこで本稿では,異種ロボットチームを対象とした視覚ナビゲーションのためのブロックチェーンアプローチを提案する。
マップデータ構造を必要としないため、この手法は計算フットプリントが小さいロボットプラットフォームに有用であり、現在の視覚情報を活用するため、レジリエントで適応的な経路選択をサポートする。
さらに,信頼できないビジュアルホーミングネットワークにおいて,コンセンサスに達するための軽量なpow機構を提案する。 Visual homing is a lightweight approach to visual navigation. Given the stored information of an initial 'home' location, the navigation task back to this location is achieved from any other location by comparing the stored home information to the current image and extracting a motion vector. A challenge that constrains the applicability of visual homing is that the home location must be within the robot's field of view to initiate the homing process. Thus, we propose a blockchain approach to visual navigation for a heterogeneous robot team over a wide area of visual navigation. Because it does not require map data structures, the approach is useful for robot platforms with a small computational footprint, and because it leverages current visual information, it supports a resilient and adaptive path selection. Further, we present a lightweight Proof-of-Work (PoW) mechanism for reaching consensus in the untrustworthy visual homing network. | 翻訳日:2023-10-04 23:23:36 公開日:2023-10-02 |
# すべての言語が重要:大規模言語モデルの多言語安全について All Languages Matter: On the Multilingual Safety of Large Language Models ( http://arxiv.org/abs/2310.00905v1 ) ライセンス: Link先を確認 | Wenxuan Wang, Zhaopeng Tu, Chang Chen, Youliang Yuan, Jen-tse Huang, Wenxiang Jiao, Michael R. Lyu | (参考訳) 安全性は、大規模言語モデル(LLM)の開発とデプロイの核心にある。
しかし、以前の安全性ベンチマークでは、英語のような事前学習データの多数言語など、1つの言語の安全性にのみ関心が持たれていた。
本研究では,実際にLLMのグローバル展開に対応するため,LLMのマルチ言語安全ベンチマークであるXSafetyを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
我々は XSafety を用いて,API とオープンソースモデルを含む4つの広く使用されている LLM の多言語安全性を実証的に研究している。
実験の結果、全てのllmは英語よりも非英語クエリに対して有意に安全でない応答を示し、非英語言語に安全アライメントを開発する必要性を示した。
さらに,安全知識を喚起し,安全アライメントの言語間一般化を改善することにより,ChatGPTの多言語安全性を改善するための簡易かつ効果的なプロンプト手法を提案する。
提案手法は,非英語クエリに対する安全でない応答の割合を19.1%から9.7%に有意に低減する。
私たちはデータをhttps://github.com/jarviswang94/multilingual_safety_benchmarkでリリースします。 Safety lies at the core of developing and deploying large language models (LLMs). However, previous safety benchmarks only concern the safety in one language, e.g. the majority language in the pretraining data such as English. In this work, we build the first multilingual safety benchmark for LLMs, XSafety, in response to the global deployment of LLMs in practice. XSafety covers 14 kinds of commonly used safety issues across 10 languages that span several language families. We utilize XSafety to empirically study the multilingual safety for 4 widely-used LLMs, including both close-API and open-source models. Experimental results show that all LLMs produce significantly more unsafe responses for non-English queries than English ones, indicating the necessity of developing safety alignment for non-English languages. In addition, we propose several simple and effective prompting methods to improve the multilingual safety of ChatGPT by evoking safety knowledge and improving cross-lingual generalization of safety alignment. Our prompting method can significantly reduce the ratio of unsafe responses from 19.1% to 9.7% for non-English queries. We release our data at https://github.com/Jarviswang94/Multilingual_safety_benchmark. | 翻訳日:2023-10-04 23:23:23 公開日:2023-10-02 |
# DataInf: LoRA 調整 LLM と拡散モデルにおけるデータ影響を効率的に推定する DataInf: Efficiently Estimating Data Influence in LoRA-tuned LLMs and Diffusion Models ( http://arxiv.org/abs/2310.00902v1 ) ライセンス: Link先を確認 | Yongchan Kwon, Eric Wu, Kevin Wu, James Zou | (参考訳) トレーニングデータポイントの影響の定量化は、機械学習モデルのアウトプットを理解し、AIパイプラインの透明性を改善するために重要である。
影響関数は原則的かつ一般的なデータ帰属法であるが、その計算コストはしばしば使用を困難にしている。
この問題は、大きな言語モデルとテキスト・ツー・イメージモデルの設定でより顕著になる。
本研究では,大規模生成AIモデルに有効な効率的な影響近似手法であるDataInfを提案する。
datainfは計算とメモリ効率の点で既存の影響計算アルゴリズムを上回っている。
理論的解析により,DataInfはLoRAのようなパラメータ効率のよい微調整技術に特に適していることが示された。
系統的実証評価により,datainfは影響スコアを精度良く近似し,既存の手法よりも桁違いに高速であることを示した。
RoBERTa-large、Llama-2-13B-chat、stable-diffusion-v1.5モデルへの適用において、DataInfは、他の近似影響スコアよりも、最も影響力のある微調整例を効果的に識別する。
さらに、どのデータポイントが誤ってラベル付けされているかを識別するのに役立ちます。 Quantifying the impact of training data points is crucial for understanding the outputs of machine learning models and for improving the transparency of the AI pipeline. The influence function is a principled and popular data attribution method, but its computational cost often makes it challenging to use. This issue becomes more pronounced in the setting of large language models and text-to-image models. In this work, we propose DataInf, an efficient influence approximation method that is practical for large-scale generative AI models. Leveraging an easy-to-compute closed-form expression, DataInf outperforms existing influence computation algorithms in terms of computational and memory efficiency. Our theoretical analysis shows that DataInf is particularly well-suited for parameter-efficient fine-tuning techniques such as LoRA. Through systematic empirical evaluations, we show that DataInf accurately approximates influence scores and is orders of magnitude faster than existing methods. In applications to RoBERTa-large, Llama-2-13B-chat, and stable-diffusion-v1.5 models, DataInf effectively identifies the most influential fine-tuning examples better than other approximate influence scores. Moreover, it can help to identify which data points are mislabeled. | 翻訳日:2023-10-04 23:23:03 公開日:2023-10-02 |
# TADIS: デモ事例のディープシンキングのためのステアリングモデル TADIS: Steering Models for Deep-Thinking about Demonstration Examples ( http://arxiv.org/abs/2310.00901v1 ) ライセンス: Link先を確認 | Tianci Xue, Ziqi Wang, Yixia Li, Yun Chen, Guanhua Chen | (参考訳) 命令のチューニングは、目に見えないタスクに対してゼロショットの一般化能力を大幅に改善できることが実証されている。
微調整プロセス中に追加のコンテキスト(タスク定義、例など)を組み込むことで、LLM(Large Language Models)は以前よりもはるかに高いパフォーマンスを実現した。
しかし、近年の研究では、妄想的なタスク例は正しいタスク例とほぼ同等のパフォーマンスを達成できると報告されている。
この直観に反する観察から興味をそそられるのは、モデルが人間と同じ能力の錯覚を持っていることだ。
Therefore, we propose a novel method called TADIS that steers LLMs for "Deep-Thinking'' about demonstration examples instead of merely seeing. To alleviate the illusion of competence of models, we first ask the model to verify the correctness of shown examples. Then, using the verification results as conditions to elicit models for a better answer. Our experimental results show that TADIS consistently outperforms competitive baselines on in-domain and out-domain tasks (improving 2.79 and 4.03 average ROUGLE-L on out-domain and in-domain datasets, respectively). Despite the presence of generated examples (not all of the thinking labels are accurate), TADIS can notably enhance performance in zero-shot and few-shot settings. This also suggests that our approach can be adopted on a large scale to improve the instruction following capabilities of models without any manual labor. Moreover, we construct three types of thinking labels with different model sizes and find that small models learn from the format of TADIS but larger models can be steered for "Deep-Thinking''. Instruction tuning has been demonstrated that could significantly improve the zero-shot generalization capability to unseen tasks by an apparent margin. By incorporating additional context (e.g., task definition, examples) during the fine-tuning process, Large Language Models (LLMs) achieved much higher performance than before. However, recent work reported that delusive task examples can achieve almost the same performance as correct task examples, indicating the input-label correspondence is less important than previously thought. Intrigued by this counter-intuitive observation, we suspect models have the same illusion of competence as humans. Therefore, we propose a novel method called TADIS that steers LLMs for "Deep-Thinking'' about demonstration examples instead of merely seeing. To alleviate the illusion of competence of models, we first ask the model to verify the correctness of shown examples. Then, using the verification results as conditions to elicit models for a better answer. Our experimental results show that TADIS consistently outperforms competitive baselines on in-domain and out-domain tasks (improving 2.79 and 4.03 average ROUGLE-L on out-domain and in-domain datasets, respectively). Despite the presence of generated examples (not all of the thinking labels are accurate), TADIS can notably enhance performance in zero-shot and few-shot settings. This also suggests that our approach can be adopted on a large scale to improve the instruction following capabilities of models without any manual labor. Moreover, we construct three types of thinking labels with different model sizes and find that small models learn from the format of TADIS but larger models can be steered for "Deep-Thinking''. | 翻訳日:2023-10-04 23:22:27 公開日:2023-10-02 |
# uSee:条件付き拡散モデルによる統一音声強調と編集 uSee: Unified Speech Enhancement and Editing with Conditional Diffusion Models ( http://arxiv.org/abs/2310.00900v1 ) ライセンス: Link先を確認 | Muqiao Yang, Chunlei Zhang, Yong Xu, Zhongweiyang Xu, Heming Wang, Bhiksha Raj, Dong Yu | (参考訳) 音声強調は、品質と知性の観点から音声信号の品質を向上させることを目的としており、音声編集とは、特定のユーザのニーズに応じて音声を編集する過程を指す。
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
具体的には、自己教師型学習埋め込みや適切なテキストプロンプトを含む複数の条件をスコアベース拡散モデルに提供することにより、統合された音声強調・編集モデルの制御可能な生成を可能にし、ソース音声に対して対応する動作を行うことができる。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の両面で優れた性能を示し,所望の環境音のテキスト記述,SNR,室内インパルス応答(RIR)の音声編集を行うことができた。
生成された音声のデモはhttps://muqiaoy.github.io/useeで見ることができる。 Speech enhancement aims to improve the quality of speech signals in terms of quality and intelligibility, and speech editing refers to the process of editing the speech according to specific user needs. In this paper, we propose a Unified Speech Enhancement and Editing (uSee) model with conditional diffusion models to handle various tasks at the same time in a generative manner. Specifically, by providing multiple types of conditions including self-supervised learning embeddings and proper text prompts to the score-based diffusion model, we can enable controllable generation of the unified speech enhancement and editing model to perform corresponding actions on the source speech. Our experiments show that our proposed uSee model can achieve superior performance in both speech denoising and dereverberation compared to other related generative speech enhancement models, and can perform speech editing given desired environmental sound text description, signal-to-noise ratios (SNR), and room impulse responses (RIR). Demos of the generated speech are available at https://muqiaoy.github.io/usee. | 翻訳日:2023-10-04 23:21:35 公開日:2023-10-02 |
# 雨条件下でのロバスト3次元物体検出に向けて Towards Robust 3D Object Detection In Rainy Conditions ( http://arxiv.org/abs/2310.00944v1 ) ライセンス: Link先を確認 | Aldi Piroli, Vinzenz Dallabetta, Johannes Kopp, Marc Walessa, Daniel Meissner, Klaus Dietmayer | (参考訳) LiDARセンサーは、環境を正確に知覚するために自律運転アプリケーションに使用される。
しかし、雪、霧、雨などの悪天候の影響を受けている。
これらの日常的な現象は、測定に不要なノイズをもたらし、LiDARベースの知覚システムの性能を著しく劣化させる。
本研究では,道路噴霧に対するLiDARを用いた3次元物体検出装置のロバスト性向上のための枠組みを提案する。
提案手法は,lidar point cloudからの噴霧をフィルタリングし,対象物検知装置の入力として使用する,最先端の悪天候検知ネットワークを用いる。
このようにして検出された物体は、現場の悪天候の影響を受けにくくなり、環境に対するより正確な認識がもたらされる。
悪天候のフィルタリングに加えて,レーダーターゲットによる偽陽性検出のさらなるフィルタリングについて検討する。
実世界のデータを用いたテストでは, 一般的な3次元物体検出装置による道路噴霧の堅牢性の向上が示されている。 LiDAR sensors are used in autonomous driving applications to accurately perceive the environment. However, they are affected by adverse weather conditions such as snow, fog, and rain. These everyday phenomena introduce unwanted noise into the measurements, severely degrading the performance of LiDAR-based perception systems. In this work, we propose a framework for improving the robustness of LiDAR-based 3D object detectors against road spray. Our approach uses a state-of-the-art adverse weather detection network to filter out spray from the LiDAR point cloud, which is then used as input for the object detector. In this way, the detected objects are less affected by the adverse weather in the scene, resulting in a more accurate perception of the environment. In addition to adverse weather filtering, we explore the use of radar targets to further filter false positive detections. Tests on real-world data show that our approach improves the robustness to road spray of several popular 3D object detectors. | 翻訳日:2023-10-04 23:15:23 公開日:2023-10-02 |
# フレームレットプリエントに基づく半盲画像のデブラリング Semi-Blind Image Deblurring Based on Framelet Prior ( http://arxiv.org/abs/2310.00943v1 ) ライセンス: Link先を確認 | M. Zarebnia and R. Parvaz | (参考訳) 画像ぼかしの問題は、画像処理の分野で最も研究されているトピックの1つである。
画像のぼかしは手やカメラの揺れなど様々な要因によって引き起こされる。
ぼやけた画像を復元するには、ポイントスプレッド機能(PSF)に関する情報を知る必要がある。
そして、ほとんどの場合、PSFを正確に計算することはできないので、近似カーネルを扱う。
本稿では,半盲画像劣化問題について検討する。
難解な問題のモデルが不条件な問題であるという事実から、この問題を直接解決することは不可能である。
この問題を解決する最も効率的な方法の1つは、total variation (tv)法を使用することである。
提案手法では,フレームレット変換と分数計算を用いることにより,tv法が改善される。
提案手法は,異なるタイプの画像に対して用いられ,異なるタイプの検査を行う既存手法と比較される。 The problem of image blurring is one of the most studied topics in the field of image processing. Image blurring is caused by various factors such as hand or camera shake. To restore the blurred image, it is necessary to know information about the point spread function (PSF). And because in the most cases it is not possible to accurately calculate the PSF, we are dealing with an approximate kernel. In this paper, the semi-blind image deblurring problem are studied. Due to the fact that the model of the deblurring problems is an ill-conditioned problem, it is not possible to solve this problem directly. One of the most efficient ways to solve this problem is to use the total variation (TV) method. In the proposed algorithm, by using the framelet transform and fractional calculations, the TV method is improved. The proposed method is used on different types of images and is compared with existing methods with different types of tests. | 翻訳日:2023-10-04 23:15:08 公開日:2023-10-02 |
# 混合を用いた変分ベイズ系統推定の改良 Improved Variational Bayesian Phylogenetic Inference using Mixtures ( http://arxiv.org/abs/2310.00941v1 ) ライセンス: Link先を確認 | Oskar Kviman, Ricky Mol\'en and Jens Lagergren | (参考訳) VBPI-Mixturesは系統的後縁分布の精度を高めるアルゴリズムであり,特に樹頂学および枝長近似について述べる。
BBVIフレームワークである変分ベイズ系統推定(VBPI)は,これらの分布の顕著な近似を達成しているが,樹冠地形後部の多様性は,BBVIのようなサンプリングベース学習技術に対する重大な課題である。
流れの正規化やグラフニューラルネットワークなどの先進的な深層学習手法は枝長後部近似を改良するために研究されてきたが、樹冠上の後部近似を改善する努力は欠如している。
我々の新しいVBPI-Mixturesアルゴリズムは、BBVIドメイン内での混合学習における最新のブレークスルーを利用して、このギャップを埋める。
結果として、VBPI-Mixturesは、VBPIがモデル化に失敗するツリートポロジー上の分布をキャプチャできる。
我々は,多数の実系統データにまたがる難解な密度推定タスクについて,最先端のパフォーマンスを提供する。 We present VBPI-Mixtures, an algorithm designed to enhance the accuracy of phylogenetic posterior distributions, particularly for tree-topology and branch-length approximations. Despite the Variational Bayesian Phylogenetic Inference (VBPI), a leading-edge black-box variational inference (BBVI) framework, achieving remarkable approximations of these distributions, the multimodality of the tree-topology posterior presents a formidable challenge to sampling-based learning techniques such as BBVI. Advanced deep learning methodologies such as normalizing flows and graph neural networks have been explored to refine the branch-length posterior approximation, yet efforts to ameliorate the posterior approximation over tree topologies have been lacking. Our novel VBPI-Mixtures algorithm bridges this gap by harnessing the latest breakthroughs in mixture learning within the BBVI domain. As a result, VBPI-Mixtures is capable of capturing distributions over tree-topologies that VBPI fails to model. We deliver state-of-the-art performance on difficult density estimation tasks across numerous real phylogenetic datasets. | 翻訳日:2023-10-04 23:14:55 公開日:2023-10-02 |
# 構造化文書ローカライゼーションのためのU-Netアーキテクチャのデータ効率向上 Data Efficient Training of a U-Net Based Architecture for Structured Documents Localization ( http://arxiv.org/abs/2310.00937v1 ) ライセンス: Link先を確認 | Anastasiia Kabeshova, Guillaume Betmont, Julien Lerouge, Evgeny Stepankevich, Alexis Berg\`es | (参考訳) 構造化文書解析と認識は、現代のオンラインオンボードプロセスにおいて不可欠であり、文書のローカライゼーションは、信頼できる鍵情報抽出を実現するための重要なステップである。
ディープラーニングは文書分析の問題を解決するための標準的な技術になっているが、業界における実世界のアプリケーションは、トレーニングやディープラーニングモデルの微調整において、ラベル付きデータや計算リソースが限られている。
そこで我々は,構造化文書のローカライズのために,エンコーダデコーダのような新しい u-net アーキテクチャである sdl-net を提案する。
提案手法では,各種文書クラスのサンプルを含む汎用データセット上でSDL-Netのエンコーダを事前学習し,デコーダの高速かつ効率的な微調整により,新たな文書クラスのローカライゼーションを支援する。
提案手法の有効性と一般化性を示すため,構造化文書画像のプロプライエタリデータセットについて広範な実験を行った。 Structured documents analysis and recognition are essential for modern online on-boarding processes, and document localization is a crucial step to achieve reliable key information extraction. While deep-learning has become the standard technique used to solve document analysis problems, real-world applications in industry still face the limited availability of labelled data and of computational resources when training or fine-tuning deep-learning models. To tackle these challenges, we propose SDL-Net: a novel U-Net like encoder-decoder architecture for the localization of structured documents. Our approach allows pre-training the encoder of SDL-Net on a generic dataset containing samples of various document classes, and enables fast and data-efficient fine-tuning of decoders to support the localization of new document classes. We conduct extensive experiments on a proprietary dataset of structured document images to demonstrate the effectiveness and the generalization capabilities of the proposed approach. | 翻訳日:2023-10-04 23:14:34 公開日:2023-10-02 |
# スタイルベースモデルを用いた画像生成におけるフォトリアリズムの欠如を防止するための潜在空間ナビゲーション Trained Latent Space Navigation to Prevent Lack of Photorealism in Generated Images on Style-based Models ( http://arxiv.org/abs/2310.00936v1 ) ライセンス: Link先を確認 | Takumi Harada, Kazuyuki Aihara, Hiroyuki Sakai | (参考訳) StyleGAN 変種に関する最近の研究は、様々な世代タスクに有望な性能を示す。
これらのモデルでは、潜在コードは伝統的に操作され、所望の画像を探す。
しかし、このアプローチは、訓練された潜在空間の幾何学に関する知識が不足していることから、生成された画像におけるフォトリアリズムの欠如に苦しむことがある。
本稿では,画像のフォトリアリズムを保ちながら遅延コードナビゲーションが可能な局所潜在部分空間を十分に訓練した簡易な教師なし手法を提案する。
具体的には、密写像された潜伏空間を特定し、局所潜伏部分空間内の潜伏操作を制限する。
実験により, 局所潜時空間内で生成された画像は, 潜時符号が著しくかつ繰り返し操作された場合でも, フォトリアリズムを維持していることが示された。
さらに,この手法を様々なスタイルベースモデルの潜在コード最適化に適用できることを示す実験を行った。
この手法の実証的な証拠は、スタイルベースモデルの応用に役立ちます。 Recent studies on StyleGAN variants show promising performances for various generation tasks. In these models, latent codes have traditionally been manipulated and searched for the desired images. However, this approach sometimes suffers from a lack of photorealism in generated images due to a lack of knowledge about the geometry of the trained latent space. In this paper, we show a simple unsupervised method that provides well-trained local latent subspace, enabling latent code navigation while preserving the photorealism of the generated images. Specifically, the method identifies densely mapped latent spaces and restricts latent manipulations within the local latent subspace. Experimental results demonstrate that images generated within the local latent subspace maintain photorealism even when the latent codes are significantly and repeatedly manipulated. Moreover, experiments show that the method can be applied to latent code optimization for various types of style-based models. Our empirical evidence of the method will benefit applications in style-based models. | 翻訳日:2023-10-04 23:14:16 公開日:2023-10-02 |
# 大規模言語モデルにおける知識紛争の解決 Resolving Knowledge Conflicts in Large Language Models ( http://arxiv.org/abs/2310.00935v1 ) ライセンス: Link先を確認 | Yike Wang, Shangbin Feng, Heng Wang, Weijia Shi, Vidhisha Balachandran, Tianxing He, Yulia Tsvetkov | (参考訳) 大規模言語モデル(LLM)は、LLMの内部パラメトリック知識とプロンプトコンテキストで提供される非パラメトリック情報との相違が生じるような知識の衝突にしばしば遭遇する。
この研究では、知識衝突が発生したときのLLMのデシラタとは何か、既存のLLMがそれを満たすのかを問う。
私たちは LLM は
1)知識紛争の特定。
2)矛盾する情報セグメントをピンポイントし、
3) 矛盾するシナリオにおいて、明確な回答や視点を提供する。
そこで我々は,文脈的知識紛争をシミュレーションし,LLMが目標を達成する程度を定量的に評価するための評価フレームワークであるKNOWLEDGE CONFLICTを紹介する。
KNOWLEDGE CONFLICTには、知識紛争の多様かつ複雑な状況、多様な実体や領域からの知識、2つの合成紛争発生方法、そして現実的な知識紛争を反映することの難しさを徐々に増す設定が含まれる。
KNOWLEDGE CONFLICTフレームワークによる大規模な実験により、LLMは知識衝突の存在を識別する上でうまく機能する一方で、特定の矛盾する知識を識別し、矛盾する情報の中で異なる回答で応答を生成するのに苦労していることが明らかとなった。
これらの課題に対処するため,LLMを改良して3つの目標を達成する新しい命令ベースアプローチを提案する。
さらなる分析により、知識紛争に対処する能力は知識ドメインやプロンプトテキストといった要因によって大きく影響され、一方、知識紛争シナリオに対する堅牢な応答を生成することは、依然として研究課題であることが示された。 Large language models (LLMs) often encounter knowledge conflicts, scenarios where discrepancy arises between the internal parametric knowledge of LLMs and non-parametric information provided in the prompt context. In this work we ask what are the desiderata for LLMs when a knowledge conflict arises and whether existing LLMs fulfill them. We posit that LLMs should 1) identify knowledge conflicts, 2) pinpoint conflicting information segments, and 3) provide distinct answers or viewpoints in conflicting scenarios. To this end, we introduce KNOWLEDGE CONFLICT, an evaluation framework for simulating contextual knowledge conflicts and quantitatively evaluating to what extent LLMs achieve these goals. KNOWLEDGE CONFLICT includes diverse and complex situations of knowledge conflict, knowledge from diverse entities and domains, two synthetic conflict creation methods, and settings with progressively increasing difficulty to reflect realistic knowledge conflicts. Extensive experiments with the KNOWLEDGE CONFLICT framework reveal that while LLMs perform well in identifying the existence of knowledge conflicts, they struggle to determine the specific conflicting knowledge and produce a response with distinct answers amidst conflicting information. To address these challenges, we propose new instruction-based approaches that augment LLMs to better achieve the three goals. Further analysis shows that abilities to tackle knowledge conflicts are greatly impacted by factors such as knowledge domain and prompt text, while generating robust responses to knowledge conflict scenarios remains an open research question. | 翻訳日:2023-10-04 23:14:02 公開日:2023-10-02 |
# CLIPにおける伝達可能な表現学習とゼロショット変換の理解 Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP ( http://arxiv.org/abs/2310.00927v1 ) ライセンス: Link先を確認 | Zixiang Chen and Yihe Deng and Yuanzhi Li and Quanquan Gu | (参考訳) 様々なデータソース(テキストや画像など)からの情報を活用し、モデルのパフォーマンスを向上させる能力により、マルチモーダル学習がますます普及しています。
近年,視覚言語によるコントラストプリトレーニングを併用した映像表現やテキスト表現の学習に有効な手法としてクリップが登場し,ゼロショット学習やテキスト誘導自然画像生成において顕著な性能を示している。
CLIPの実践的成功にもかかわらず、理論的な理解はいまだ解明されていない。
本稿では,CLIPの基盤となる伝達可能表現学習を正式に研究し,異なるモダリティの特徴の整合性を実証する。
また,ダウンストリームタスクにおけるゼロショット転送性能も解析した。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。 Multi-modal learning has become increasingly popular due to its ability to leverage information from different data sources (e.g., text and images) to improve the model performance. Recently, CLIP has emerged as an effective approach that employs vision-language contrastive pretraining to learn joint image and text representations and exhibits remarkable performance in zero-shot learning and text-guided natural image generation. Despite the huge practical success of CLIP, its theoretical understanding remains elusive. In this paper, we formally study transferrable representation learning underlying CLIP and demonstrate how features from different modalities get aligned. We also analyze its zero-shot transfer performance on the downstream tasks. Inspired by our analysis, we propose a new CLIP-type approach, which achieves better performance than CLIP and other state-of-the-art methods on benchmark datasets. | 翻訳日:2023-10-04 23:13:32 公開日:2023-10-02 |
# 腫瘍ダイナミック予測のためのグラフニューラルネットワークとニューラルネットワークの統合 Integration of Graph Neural Network and Neural-ODEs for Tumor Dynamic Prediction ( http://arxiv.org/abs/2310.00926v1 ) ライセンス: Link先を確認 | Omid Bazgir, Zichen Wang, Marc Hafner, James Lu | (参考訳) 抗がん剤開発において、大きな科学的課題は、患者の腫瘍サンプルからの高次元ゲノムデータ、対応する腫瘍由来の臓器、与えられた治療に関連する薬物標的、治療反応の間の複雑な関係を解明することである。
さらに、治療反応に応じて患者の治療を識別・調整するための精密医療の願望を実現するためには、縦型腫瘍と多変量、多変量、多変量データの両方を統合できる腫瘍ダイナミックモデルを構築する必要がある。
本研究では,二成分グラフ畳み込みニューラルネットワーク(gcn)と神経常微分方程式(neural-odes)を併用した異種グラフエンコーダを提案することで,パーソナライズド型腫瘍ダイナミック予測の促進を目指す。
本手法を患者由来のXenograft(PDX)データ集に適用し,様々な臓器由来の腫瘍に対する多種多様な治療(およびそれらの組み合わせ)を行った。
まず,現在使用されている経験的モデルにおいて,腫瘍の動的モデルが大幅に改善されていることを明らかにする。
さらに,グラフエンコーダはマルチモーダルデータを効果的に活用して腫瘍の予測を向上させることができることを示す。
本研究は, 提案手法が有望であり, プリクリニカル・セッティングに応用できる可能性が示唆された。 In anti-cancer drug development, a major scientific challenge is disentangling the complex relationships between high-dimensional genomics data from patient tumor samples, the corresponding tumor's organ of origin, the drug targets associated with given treatments and the resulting treatment response. Furthermore, to realize the aspirations of precision medicine in identifying and adjusting treatments for patients depending on the therapeutic response, there is a need for building tumor dynamic models that can integrate both longitudinal tumor size as well as multimodal, high-content data. In this work, we take a step towards enhancing personalized tumor dynamic predictions by proposing a heterogeneous graph encoder that utilizes a bipartite Graph Convolutional Neural network (GCN) combined with Neural Ordinary Differential Equations (Neural-ODEs). We applied the methodology to a large collection of patient-derived xenograft (PDX) data, spanning a wide variety of treatments (as well as their combinations) on tumors that originated from a number of different organs. We first show that the methodology is able to discover a tumor dynamic model that significantly improves upon an empirical model which is in current use. Additionally, we show that the graph encoder is able to effectively utilize multimodal data to enhance tumor predictions. Our findings indicate that the methodology holds significant promise and offers potential applications in pre-clinical settings. | 翻訳日:2023-10-04 23:13:17 公開日:2023-10-02 |
# コンピュータビジョンによる冬季道路表面状態モニタリングの高度化 Enhanced Winter Road Surface Condition Monitoring with Computer Vision ( http://arxiv.org/abs/2310.00923v1 ) ライセンス: Link先を確認 | Risto Ojala, Alvari Sepp\"anen | (参考訳) 冬状態は自動走行アプリケーションにいくつかの課題をもたらす。
冬期における重要な課題は路面条件の正確な評価であり、その摩擦への影響は安全かつ確実に車両を制御するための重要なパラメータである。
本稿では,カメラ画像から路面摩擦特性を推定できる深層学習回帰モデルsiwnetを提案する。
SIWNetはアーキテクチャに不確実性推定機構を含めることで、技術の状態を拡張している。
これは、予測間隔を推定する追加のヘッドをネットワークに含めることで達成される。
予測間隔ヘッドは、最大確率損失関数で訓練される。
このモデルはseethroughfogデータセットで訓練され、計測された車両からの道路摩擦センサの読み出しと画像が特徴である。
取得した結果はSIWNetの予測間隔推定の機能を強調し,ネットワークは従来の技術と類似点推定精度も達成した。
さらにSIWNetアーキテクチャは、これまで適用されていた最先端モデルよりも数倍軽量で、より実用的で効率的なデプロイメントを実現している。 Winter conditions pose several challenges for automated driving applications. A key challenge during winter is accurate assessment of road surface condition, as its impact on friction is a critical parameter for safely and reliably controlling a vehicle. This paper proposes a deep learning regression model, SIWNet, capable of estimating road surface friction properties from camera images. SIWNet extends state of the art by including an uncertainty estimation mechanism in the architecture. This is achieved by including an additional head in the network, which estimates a prediction interval. The prediction interval head is trained with a maximum likelihood loss function. The model was trained and tested with the SeeingThroughFog dataset, which features corresponding road friction sensor readings and images from an instrumented vehicle. Acquired results highlight the functionality of the prediction interval estimation of SIWNet, while the network also achieved similar point estimate accuracy as the previous state of the art. Furthermore, the SIWNet architecture is several times more lightweight than the previously applied state-of-the-art model, resulting in more practical and efficient deployment. | 翻訳日:2023-10-04 23:12:55 公開日:2023-10-02 |
# ディープフェイク検出の他のコンピュータビジョンタスクはどのくらい近いのか? How Close are Other Computer Vision Tasks to Deepfake Detection? ( http://arxiv.org/abs/2310.00922v1 ) ライセンス: Link先を確認 | Huy H. Nguyen, Junichi Yamagishi, Isao Echizen | (参考訳) 本稿では,教師付きイメージネット学習モデルが強い一般化性を持ち,ディープフェイク検出における特徴抽出器としての利用に適しているという従来の信念に挑戦する。
モデルの生容量を視覚的かつ定量的に評価し、教師なしでデータを分離する「モデル分離可能性」を新たに提案する。
また,事前学習モデルを用いて,ディープフェイク検出と他のコンピュータビジョンタスクとの相関性を決定するための体系的ベンチマークを提案する。
分析の結果,事前学習した顔認識モデルは,他のモデルよりもディープフェイク検出と密接な関係があることが判明した。
さらに、自己教師付き手法で訓練されたモデルは、教師付き手法で訓練されたモデルよりも分離に効果的である。
小さなディープフェイクデータセットですべてのモデルを微調整した結果、自己教師型モデルが最良の結果をもたらすことがわかったが、過度に適合するリスクがある。
この結果は研究者や実践者がより効果的なディープフェイク検出モデルを開発するのに役立つ貴重な洞察を提供する。 In this paper, we challenge the conventional belief that supervised ImageNet-trained models have strong generalizability and are suitable for use as feature extractors in deepfake detection. We present a new measurement, "model separability," for visually and quantitatively assessing a model's raw capacity to separate data in an unsupervised manner. We also present a systematic benchmark for determining the correlation between deepfake detection and other computer vision tasks using pre-trained models. Our analysis shows that pre-trained face recognition models are more closely related to deepfake detection than other models. Additionally, models trained using self-supervised methods are more effective in separation than those trained using supervised methods. After fine-tuning all models on a small deepfake dataset, we found that self-supervised models deliver the best results, but there is a risk of overfitting. Our results provide valuable insights that should help researchers and practitioners develop more effective deepfake detection models. | 翻訳日:2023-10-04 23:12:40 公開日:2023-10-02 |
# MiCRO:分散DNNトレーニングのスケーリングと高速化のためのニアゼロコスト勾配スカラー化 MiCRO: Near-Zero Cost Gradient Sparsification for Scaling and Accelerating Distributed DNN Training ( http://arxiv.org/abs/2310.00967v1 ) ライセンス: Link先を確認 | Daegun Yoon, Sangyoon Oh | (参考訳) Gradient Sparsificationは、分散ディープニューラルネットワーク(DNN)トレーニングのスケーリングと高速化のための通信最適化技術である。
これにより、グラデーション集約のための通信トラフィックが増加する。
しかし、勾配選択や通信トラフィックの増加といった計算コストが高いため、既存のスパルサライザはスケーラビリティに乏しい。
特に通信トラフィックの増加は勾配のビルドアップと勾配選択の不適切なしきい値によって引き起こされる。
これらの課題に対処するため、我々はMiCROと呼ばれる新しい勾配スカラー化手法を提案する。
MiCROでは、勾配ベクトルは分割され、各パーティションは対応するワーカーに割り当てられる。
各ワーカーはそのパーティションから勾配を選択し、集約された勾配は勾配のビルドから解放される。
さらに、圧縮比誤差を最小にすることで、ユーザの要求に応じて通信トラフィックを維持するための正確な閾値を推定する。
MiCROは、分散DNNトレーニングのスケーラビリティと加速を妨げる既存の問題を解決することで、ほぼゼロのコスト勾配スカラー化を可能にする。
我々の大規模な実験では、MiCROは優れた収束率を持つ最先端のスパリファイアよりも優れていた。 Gradient sparsification is a communication optimisation technique for scaling and accelerating distributed deep neural network (DNN) training. It reduces the increasing communication traffic for gradient aggregation. However, existing sparsifiers have poor scalability because of the high computational cost of gradient selection and/or increase in communication traffic. In particular, an increase in communication traffic is caused by gradient build-up and inappropriate threshold for gradient selection. To address these challenges, we propose a novel gradient sparsification method called MiCRO. In MiCRO, the gradient vector is partitioned, and each partition is assigned to the corresponding worker. Each worker then selects gradients from its partition, and the aggregated gradients are free from gradient build-up. Moreover, MiCRO estimates the accurate threshold to maintain the communication traffic as per user requirement by minimising the compression ratio error. MiCRO enables near-zero cost gradient sparsification by solving existing problems that hinder the scalability and acceleration of distributed DNN training. In our extensive experiments, MiCRO outperformed state-of-the-art sparsifiers with an outstanding convergence rate. | 翻訳日:2023-10-04 23:04:25 公開日:2023-10-02 |
# ラン長符号化文字列間の最長共通部分弦問題に対する線形時間量子アルゴリズム A sublinear time quantum algorithm for longest common substring problem between run-length encoded strings ( http://arxiv.org/abs/2310.00966v1 ) ライセンス: Link先を確認 | Tzu-Ching Lee and Han-Hsuan Lin | (参考訳) ラン長エンコードされた(RLE)入力に対して、ランのプレフィックスサムが与えられると仮定して、最長共通サブストリング(LCS)問題に対するサブ線形量子アルゴリズムを提案する。
我々のアルゴリズムは、$\tilde{O}(n^{5/6})\cdot O(\mathrm{polylog}(\tilde{n}))$ time で、$n$ と $\tilde{n}$ はそれぞれ入力の符号化長と復号長である。
オーラクルがなければ、この問題に対して$\Omega(n/\log^2n)$ lower-bound on the quantum query complexity of find LCS given two RLE strings due by the reduction of $\mathsf{PARITY}$。 We give a sublinear quantum algorithm for the longest common substring (LCS) problem on the run-length encoded (RLE) inputs, under the assumption that the prefix-sums of the runs are given. Our algorithm costs $\tilde{O}(n^{5/6})\cdot O(\mathrm{polylog}(\tilde{n}))$ time, where $n$ and $\tilde{n}$ are the encoded and decoded length of the inputs, respectively. We justify the use of the prefix-sum oracles by showing that, without the oracles, there is a $\Omega(n/\log^2n)$ lower-bound on the quantum query complexity of finding LCS given two RLE strings due to a reduction of $\mathsf{PARITY}$ to the problem. | 翻訳日:2023-10-04 23:04:07 公開日:2023-10-02 |
# ディープニューラルネットワークにおけるノード摂動による効果的な学習 Effective Learning with Node Perturbation in Deep Neural Networks ( http://arxiv.org/abs/2310.00965v1 ) ライセンス: Link先を確認 | Sander Dalm, Marcel van Gerven, Nasir Ahmad | (参考訳) バックプロパゲーション(BP)は、ディープニューラルネットワークモデルのパラメータをトレーニングするための支配的かつ最も成功した手法である。
しかし、bpは2つの計算学的に異なるフェーズに依存しており、生物学的学習の十分な説明を提供しておらず、不連続やうるさいノードダイナミクスを持つネットワークのトレーニングに適用することが困難である。
比較して、ノード摂動(np)は、ネットワークアクティベーションへのノイズの注入による学習と、その後に誘発された損失変化の測定を提案する。
NPは2つの前方(推論)パスに依存し、ネットワークデリバティブを使用しず、生物学的システムにおける学習のモデルとして提案されている。
しかし、標準NPは、非誘導ノイズに基づく活動探索のため、データ非効率で不安定である。
本研究では,np の異なる定式化について検討し,方向微分の概念と関連づけるとともに,それと層別入力の相関機構を組み合わせる。
指向性デリバティブとの密接な整合と各層での入力のデコリレーションの誘導により,NP学習の性能が向上し,BPと競合することがわかった。 Backpropagation (BP) is the dominant and most successful method for training parameters of deep neural network models. However, BP relies on two computationally distinct phases, does not provide a satisfactory explanation of biological learning, and can be challenging to apply for training of networks with discontinuities or noisy node dynamics. By comparison, node perturbation (NP) proposes learning by the injection of noise into the network activations, and subsequent measurement of the induced loss change. NP relies on two forward (inference) passes, does not make use of network derivatives, and has been proposed as a model for learning in biological systems. However, standard NP is highly data inefficient and unstable due to its unguided, noise-based, activity search. In this work, we investigate different formulations of NP and relate it to the concept of directional derivatives as well as combining it with a decorrelating mechanism for layer-wise inputs. We find that a closer alignment with directional derivatives, and induction of decorrelation of inputs at every layer significantly enhances performance of NP learning making it competitive with BP. | 翻訳日:2023-10-04 23:03:47 公開日:2023-10-02 |
# All by Myself: コントラスト強化学習最適化による個人的競争行動の学習 All by Myself: Learning Individualized Competitive Behaviour with a Contrastive Reinforcement Learning optimization ( http://arxiv.org/abs/2310.00964v1 ) ライセンス: Link先を確認 | Pablo Barros, Alessandra Sciutti | (参考訳) 競争的なゲームシナリオでは、エージェントのセットは、目標を最大化し、敵のゴールを同時に最小化する決定を学ばなければならない。
相手の行動によるシナリオのダイナミクスの増大に加えて、彼らは通常、相手の戦略を克服する方法を理解する必要がある。
しかし、一般的なソリューションの多くは、通常、継続的な学習や集中型マルチエージェント体験に基づいており、個別に対戦する戦略の開発を許さない。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をマップする方法を学習し,それらを破壊する方法を学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
モデル全体はオンラインでトレーニングされ、コントラスト最適化に基づく合成損失を使用して、競争力とマルチプレイヤーゲームを学ぶ。
ポケモンのデュエルシナリオと4人のプレイヤーが対戦するシェフズハットカードゲームを用いて,本モデルを評価した。
実験により,オフライン,オンライン,競争特有のモデル,特に同じ対戦相手と複数回対戦する場合において,我々のモデルが優れた性能を達成できることを実証した。
また、我々のモデルの影響、特に2つのシナリオごとに特定の戦略学習にどのように対処するかについて、議論する。 In a competitive game scenario, a set of agents have to learn decisions that maximize their goals and minimize their adversaries' goals at the same time. Besides dealing with the increased dynamics of the scenarios due to the opponents' actions, they usually have to understand how to overcome the opponent's strategies. Most of the common solutions, usually based on continual learning or centralized multi-agent experiences, however, do not allow the development of personalized strategies to face individual opponents. In this paper, we propose a novel model composed of three neural layers that learn a representation of a competitive game, learn how to map the strategy of specific opponents, and how to disrupt them. The entire model is trained online, using a composed loss based on a contrastive optimization, to learn competitive and multiplayer games. We evaluate our model on a pokemon duel scenario and the four-player competitive Chef's Hat card game. Our experiments demonstrate that our model achieves better performance when playing against offline, online, and competitive-specific models, in particular when playing against the same opponent multiple times. We also present a discussion on the impact of our model, in particular on how well it deals with on specific strategy learning for each of the two scenarios. | 翻訳日:2023-10-04 23:03:29 公開日:2023-10-02 |
# 結合ブラックボックスとアフィン制約を用いたマルチエージェントベイズ最適化 Multi-Agent Bayesian Optimization with Coupled Black-Box and Affine Constraints ( http://arxiv.org/abs/2310.00962v1 ) ライセンス: Link先を確認 | Wenjie Xu, Yuning Jiang, Bratislav Svetozarevic, Colin N. Jones | (参考訳) 本稿では,ブラックボックス制約と既知のアフィン制約を併用した分散マルチエージェントベイズ最適化の問題について述べる。
ブラックボックスの目的関数と制約関数の単一エージェントの場合と同様の後悔/違反境界を実現するアルゴリズムが提案されている。
さらにアルゴリズムは、既知のアフィン制約に対する累積的違反に縛られた$\mathcal{o}(n\sqrt{t})$を保証し、ここで$n$はエージェントの数である。
したがって、サンプルの平均値は誤差$\mathcal{o}({n}/{\sqrt{t}})$までアフィンの制約を満たすことが保証される。
さらに,アルゴリズムが累積違反の強い指標を拘束できる条件を特徴づけ,アフィン制約を伴わずに最適な収束を与える。
提案手法は,ガウス過程からのサンプルインスタンスと,無線通信における実世界の最適電力配分問題の両方に適用され,提案手法は同時に近接最適性能を提供し,平均的なマイナーな違反を維持できることを示す。 This paper studies the problem of distributed multi-agent Bayesian optimization with both coupled black-box constraints and known affine constraints. A primal-dual distributed algorithm is proposed that achieves similar regret/violation bounds as those in the single-agent case for the black-box objective and constraint functions. Additionally, the algorithm guarantees an $\mathcal{O}(N\sqrt{T})$ bound on the cumulative violation for the known affine constraints, where $N$ is the number of agents. Hence, it is ensured that the average of the samples satisfies the affine constraints up to the error $\mathcal{O}({N}/{\sqrt{T}})$. Furthermore, we characterize certain conditions under which our algorithm can bound a stronger metric of cumulative violation and provide best-iterate convergence without affine constraint. The method is then applied to both sampled instances from Gaussian processes and a real-world optimal power allocation problem for wireless communication; the results show that our method simultaneously provides close-to-optimal performance and maintains minor violations on average, corroborating our theoretical analysis. | 翻訳日:2023-10-04 23:03:07 公開日:2023-10-02 |
# 初心者プログラマは自動修復ツールのフィードバックをいかに役に立ちますか? How Helpful do Novice Programmers Find the Feedback of an Automated Repair Tool? ( http://arxiv.org/abs/2310.00954v1 ) ライセンス: Link先を確認 | Oka Kurniawan, Christopher M. Poskitt, Ismam Al Hoque, Norman Tiong Seng Lee, Cyrille J\'egourel, Nachamma Sockalingam | (参考訳) 即時フィードバックは学生の学習を改善することが示されている。
プログラミングコースでは、即時、自動化されたフィードバックは、通常、提出プラットフォームによって実行される事前定義されたテストケースの形で提供される。
これらは論理的エラーの存在を強調するのに優れているが、エラーの所在や修正方法を特定するのに役立つ、初心者プログラマの足場を提供していない。
これを解決するために、プログラム修復の形でよりリッチなフィードバックを提供するツールが開発されている。
しかし、そのようなツールの研究は、初心者がそれを使う方法よりも、正しい修理ができるかどうかに重点を置いている。
本稿では,自動修復ツールであるCLARAを用いて初心者にフィードバックを提供する経験について述べる。
まず、私たちはCLARAを拡張してPython言語のより大きなサブセットをサポートし、それからプログラミング演習に使用するJupyter Notebooksと統合しました。
第2に,学生が'think aloud'プロトコルを用いて,ツールのサポートの有無に関わらずプログラミング問題に取り組む予備的な研究を考案した。
初心者は、しばしば、提案された修復を理解するのに苦労し、コンパイラ/解釈メッセージを理解するのがよく知られた課題であることがわかった。
さらに, 学生は, 必ずしも修正自体を使わずに, 修正が必要な場所を指示されることが大切であることを見出し, 教育的観点から「それ以上ではないかもしれない」と示唆した。 Immediate feedback has been shown to improve student learning. In programming courses, immediate, automated feedback is typically provided in the form of pre-defined test cases run by a submission platform. While these are excellent for highlighting the presence of logical errors, they do not provide novice programmers enough scaffolding to help them identify where an error is or how to fix it. To address this, several tools have been developed that provide richer feedback in the form of program repairs. Studies of such tools, however, tend to focus more on whether correct repairs can be generated, rather than how novices are using them. In this paper, we describe our experience of using CLARA, an automated repair tool, to provide feedback to novices. First, we extended CLARA to support a larger subset of the Python language, before integrating it with the Jupyter Notebooks used for our programming exercises. Second, we devised a preliminary study in which students tackled programming problems with and without support of the tool using the 'think aloud' protocol. We found that novices often struggled to understand the proposed repairs, echoing the well-known challenge to understand compiler/interpreter messages. Furthermore, we found that students valued being told where a fix was needed - without necessarily the fix itself - suggesting that 'less may be more' from a pedagogical perspective. | 翻訳日:2023-10-04 23:02:45 公開日:2023-10-02 |
# 完全な分散行動フィンガープリントとセキュアデリゲーションを活用した新しいIoTトラストモデル A Novel IoT Trust Model Leveraging Fully Distributed Behavioral Fingerprinting and Secure Delegation ( http://arxiv.org/abs/2310.00953v1 ) ライセンス: Link先を確認 | Marco Arazzi, Serena Nicolazzo, Antonino Nocera | (参考訳) 今後数年間で常に増加すると思われる接続型スマートデバイスの数によって、IoT(Internet of Things)ソリューションは、データ収集と処理を容易にするために、急激な需要を実験している。
IoTアプライアンスは、日常のタスクに広く、より優れたサポートを提供することができ、多くの場合、人間に透過的に、そのようなデバイスの高い自律性を通じて達成される。
しかしながら、自律的な方法で提供される新機能やサービスの数が増えるほど、ユーザをデータハッキングや損失に晒す攻撃面が大きくなる。
このシナリオでは、IoTデバイスが不均一な計算能力を持っているため、多くの重要な課題が発生する(同じネットワークでは、単純なセンサー/アクチュエータとより複雑でスマートなノードが存在する可能性がある)。
そこで本稿では, スマートなものの装備に関する非自明な問題に対処し, 隣人を通じて, ネットワーク内のオブジェクトの信頼性を, 対話前に評価する戦略を提示する。
そこで我々は,デバイスの動作指紋,分散コンセンサス機構,ブロックチェーン技術を活用した,新たな完全分散信頼モデルを設計した。
フレームワークの詳細な説明以外にも、それに関連するセキュリティモデルと、その正確性とパフォーマンスを評価するためのテストについても説明します。 With the number of connected smart devices expected to constantly grow in the next years, Internet of Things (IoT) solutions are experimenting a booming demand to make data collection and processing easier. The ability of IoT appliances to provide pervasive and better support to everyday tasks, in most cases transparently to humans, is also achieved through the high degree of autonomy of such devices. However, the higher the number of new capabilities and services provided in an autonomous way, the wider the attack surface that exposes users to data hacking and lost. In this scenario, many critical challenges arise also because IoT devices have heterogeneous computational capabilities (i.e., in the same network there might be simple sensors/actuators as well as more complex and smart nodes). In this paper, we try to provide a contribution in this setting, tackling the non-trivial issues of equipping smart things with a strategy to evaluate, also through their neighbors, the trustworthiness of an object in the network before interacting with it. To do so, we design a novel and fully distributed trust model exploiting devices' behavioral fingerprints, a distributed consensus mechanism and the Blockchain technology. Beyond the detailed description of our framework, we also illustrate the security model associated with it and the tests carried out to evaluate its correctness and performance. | 翻訳日:2023-10-04 23:02:22 公開日:2023-10-02 |
# LS-VOS:潜時空間仮想外乱合成を用いた3次元物体検出における外乱検出 LS-VOS: Identifying Outliers in 3D Object Detections Using Latent Space Virtual Outlier Synthesis ( http://arxiv.org/abs/2310.00952v1 ) ライセンス: Link先を確認 | Aldi Piroli, Vinzenz Dallabetta, Johannes Kopp, Marc Walessa, Daniel Meissner, Klaus Dietmayer | (参考訳) LiDARベースの3Dオブジェクト検出器は、自動運転アプリケーションにおいて前例のないスピードと精度を達成した。
しかし、他のニューラルネットワークと同様に、実際のオブジェクトが存在しない高信頼予測や戻り検出に偏ることが多い。
このような検出は、信頼性の低い環境認識につながる可能性があり、自動運転車の機能と安全性に重大な影響を及ぼす。
本稿では,3次元物体検出における外れ値の同定を行うLS-VOSを提案する。
我々のアプローチは、トレーニング中に外部知識を取り入れ、モデルがよりコンパクトな決定境界を学習できるようにする仮想外部合成(VOS)の概念に基づいている。
特に,自動エンコーダネットワークの潜在空間に依存した新しい合成手法を提案する。
本研究では,3次元物体検出性能を維持しつつ,最先端物体検出装置の異常検出能力を向上することを示す。 LiDAR-based 3D object detectors have achieved unprecedented speed and accuracy in autonomous driving applications. However, similar to other neural networks, they are often biased toward high-confidence predictions or return detections where no real object is present. These types of detections can lead to a less reliable environment perception, severely affecting the functionality and safety of autonomous vehicles. We address this problem by proposing LS-VOS, a framework for identifying outliers in 3D object detections. Our approach builds on the idea of Virtual Outlier Synthesis (VOS), which incorporates outlier knowledge during training, enabling the model to learn more compact decision boundaries. In particular, we propose a new synthesis approach that relies on the latent space of an auto-encoder network to generate outlier features with a parametrizable degree of similarity to in-distribution features. In extensive experiments, we show that our approach improves the outlier detection capabilities of a state-of-the-art object detector while maintaining high 3D object detection performance. | 翻訳日:2023-10-04 23:01:59 公開日:2023-10-02 |
# technorelief:メディア機能と神経多様性のコラボレーションを強化する Unveiling Technorelief: Enhancing Neurodiverse Collaboration with Media Capabilities ( http://arxiv.org/abs/2310.00949v1 ) ライセンス: Link先を確認 | Maylis Saigot | (参考訳) 労働力が柔軟な労働環境に落ち着くにつれ、研究者はシフトの協調的および心理的影響に焦点を当ててきた。
世界の人口の5分の1近くがニューロディバージェントであると見積もられているが、自閉症労働者の認知、感覚、社会影響体験に対するリモートコラボレーションの影響は理解されていない。
以前の文献では、情報通信技術(ICT)が大きな心理的ストレスをもたらすことが示唆されている。
理論的には、これらのストレッサーは、自閉症の特徴である$\unicode{x2013}$を考慮に入れると例外的に歪むべきである。
デジタル技術は、自閉症労働者の協調作業環境における経験をいかに軽減するか?
この質問に答えるために33回のインタビューが行われた。
発見は、デジタルメディアが環境からの入力をフィルタリングし、労働者が"タイムアウト"できる仮想ステージにすることを示唆している。
結果として得られた"technorelief"によって、自閉症の労働者は自身の認識をチューニングし、コラボレーション体験のコントロールを取り戻すことができる。 As the workforce settles into flexible work arrangements, researchers have focused on the collaborative and psychological consequences of the shift. While nearly a fifth of the world's population is estimated to be neurodivergent, the implications of remote collaboration on the cognitive, sensory, and socio-affective experiences of autistic workers are poorly understood. Prior literature suggests that information and communication technologies (ICTs) introduce major psychological stressors. Theoretically, these stressors ought to be exceptionally straining considering autistic traits $\unicode{x2013}$ yet, studies describe a strong attraction to ICTs. We thus ask: how do digital technologies alleviate autistic workers' experiences of their collaborative work environment? Thirty-three interviews were conducted to address this question. Findings suggest that digital media present capabilities that filter input from the environment, turning it into a virtual stage that lets workers "time out". The resulting "technorelief" enables autistic workers to tune into their perceptions and regain control of their collaborative experiences. | 翻訳日:2023-10-04 23:01:44 公開日:2023-10-02 |
# グラフニューラルネットワークの予測チャーン低減に及ぼす蒸留の影響 Distilling Influences to Mitigate Prediction Churn in Graph Neural Networks ( http://arxiv.org/abs/2310.00946v1 ) ライセンス: Link先を確認 | Andreas Roth, Thomas Liebig | (参考訳) 類似した性能を持つモデルは、予測チャーンと呼ばれる個々のサンプルの予測に大きな不一致を示す。
本研究は,グラフニューラルネットワークにおけるこの現象を,初期化においてのみ異なるモデル間の違いを予測のために利用した特徴量で調べることにより探索する。
本研究では,その影響分布を比較することで,モデル間でノードが使用する理由の変動を定量化するために,影響差(ID)と呼ばれる新しい指標を提案する。
さらに,安定なノードと不安定な予測を持つノード間の差異を考察し,ノードの予測が類似している場合においても,それぞれが異なる理由を等しく利用し,有意義な勾配信号を提供することを仮定した。
本稿では,新しいモデルが確立したモデルと密接に一致するべき領域である知識蒸留において,このIDを最小化することを提案する。
効率的な近似として,エッジ削除によって引き起こされるグラフの出力にマッチするドロップ蒸留(dd)を導入する。
ノード分類のための6つのベンチマークデータセットの実験的評価により,利用特徴の違いが検証された。
ddは、すべての知識蒸留実験において、予測安定性と全体的な性能に関する従来の方法よりも優れている。 Models with similar performances exhibit significant disagreement in the predictions of individual samples, referred to as prediction churn. Our work explores this phenomenon in graph neural networks by investigating differences between models differing only in their initializations in their utilized features for predictions. We propose a novel metric called Influence Difference (ID) to quantify the variation in reasons used by nodes across models by comparing their influence distribution. Additionally, we consider the differences between nodes with a stable and an unstable prediction, positing that both equally utilize different reasons and thus provide a meaningful gradient signal to closely match two models even when the predictions for nodes are similar. Based on our analysis, we propose to minimize this ID in Knowledge Distillation, a domain where a new model should closely match an established one. As an efficient approximation, we introduce DropDistillation (DD) that matches the output for a graph perturbed by edge deletions. Our empirical evaluation of six benchmark datasets for node classification validates the differences in utilized features. DD outperforms previous methods regarding prediction stability and overall performance in all considered Knowledge Distillation experiments. | 翻訳日:2023-10-04 23:01:26 公開日:2023-10-02 |
# 疑似知識蒸留によるクリーバーハンス予測器の修正に向けて Towards Fixing Clever-Hans Predictors with Counterfactual Knowledge Distillation ( http://arxiv.org/abs/2310.01011v1 ) ライセンス: Link先を確認 | Sidney Bender, Christopher J. Anders, Pattarawatt Chormai, Heike Marxfeld, Jan Herrmann, Gr\'egoire Montavon | (参考訳) 本稿では,人的専門家のフィードバックを生かして,深層学習モデルの創始者への依存を検知し,除去する,CFKDと呼ばれる新しい手法を提案する。
共同ファウンダーは、モデルが依存する傾向が強い機能であり、規制や安全クリティカルなドメインに予期せぬエラーをもたらす可能性がある。
本稿は,このような領域におけるCFKDの利点を強調し,他のタイプの説明に対する反実的説明の利点を示す。
本研究では,モデルにフィードバックを与えるCFKDと異なる教師の成功を定量的に評価する実験手法を提案する。
また,検証精度よりも真のテスト性能によく相関する新しい指標を提案する。
本稿では,CFKDの人工的拡張データセットおよび実世界の病理組織学的データセットに対する効果を示す。 This paper introduces a novel technique called counterfactual knowledge distillation (CFKD) to detect and remove reliance on confounders in deep learning models with the help of human expert feedback. Confounders are spurious features that models tend to rely on, which can result in unexpected errors in regulated or safety-critical domains. The paper highlights the benefit of CFKD in such domains and shows some advantages of counterfactual explanations over other types of explanations. We propose an experiment scheme to quantitatively evaluate the success of CFKD and different teachers that can give feedback to the model. We also introduce a new metric that is better correlated with true test performance than validation accuracy. The paper demonstrates the effectiveness of CFKD on synthetically augmented datasets and on real-world histopathological datasets. | 翻訳日:2023-10-04 22:55:25 公開日:2023-10-02 |
# 各種国民的アイデンティティーソリューションの技術的・法的枠組みの比較分析 Comparative Analysis of Technical and Legal Frameworks of Various National Digial Identity Solutions ( http://arxiv.org/abs/2310.01006v1 ) ライセンス: Link先を確認 | Montassar Naghmouchi, Maryline Laurent, Claire Levallois-Barth and Nesrine Kaaniche | (参考訳) デジタルIDシステムは、特にCovid-19の期間中に、オンラインの公共サービスに容易にアクセスするための重要な要件となっている。
多くの国が国家のデジタルアイデンティティシステムを採用してきたが、その多くはまだその確立の過程にある。
異なる国で現在使用されているいくつかの国で選択されたデジタルIDソリューションの技術的および法的側面の比較分析を通じて、技術とアーキテクチャの多様性と、与えられたデジタルIDソリューションの法的枠組みの重要な役割を強調する。
また、これらのソリューションの実装、国家主権の確保方法、民間部門と公共セクターの適切なバランスを取る方法についても、いくつかの重要な課題を提示します。
本稿では,政策立案者,ソフトウェア開発者,および利用者が,デジタルアイデンティティ管理システムの設計,実装,利用の課題を理解し,個人データ保護措置を含むデジタルアイデンティティ管理の法的枠組みを確立することを目的とする。
本論文の著者は,ブロックチェーン技術に基づく自己主権型ID管理システムに好適な立場にあり,国家デジタルIDシステムに最も適していると考えている。 National digital identity systems have become a key requirement for easy access to online public services, specially during Covid-19. While many countries have adopted a national digital identity system, many are still in the process of establishing one. Through a comparative analysis of the technological and legal dimensions of a few selected national digital identity solutions currently being used in different countries, we highlight the diversity of technologies and architectures and the key role of the legal framework of a given digital identity solution. We also present several key issues related to the implementation of these solutions, how to ensure the State sovereignty over them, and how to strike the right balance between private sector and public sector needs. This position paper aims to help policy makers, software developers and concerned users understand the challenges of designing, implementing and using a national digital identity management system and establishing a legal framework for digital identity management, including personal data protection measures. The authors of this paper have a favorable position for self-sovereign identity management systems that are based on Blockchain technology, and we believe they are the most suitable for national digital identity systems. | 翻訳日:2023-10-04 22:54:59 公開日:2023-10-02 |
# コンフリクトアウェアアクティブオートマトン学習 Conflict-Aware Active Automata Learning ( http://arxiv.org/abs/2310.01003v1 ) ライセンス: Link先を確認 | Tiago Ferreira (University College London), L\'eo Henry (University College London), Raquel Fernandes da Silva (University College London), Alexandra Silva (Cornell University) | (参考訳) アクティブオートマトン学習アルゴリズムは、観測データ(同じ入力で観測された異なる出力)の衝突を容易に処理できない。
紛争後に回復できないこの本質的な障害は、ノイズが存在する場合や学習中のシステムが変化している場合において、効果的な適用性を損なう。
本稿では,学習過程において矛盾する情報を扱えるように,C3AL(Conflict-Aware Active Automata Learning)フレームワークを提案する。
中心となるアイデアは、いわゆる観察木を学習プロセスの第一級市民とみなすことである。
このアイデアは最近の研究で検討されているが、既存の学習者との使用を可能にするとともに、特に対立に直面したシステム上で実施されるテストの数を最小化することで、その効果を最大限に活用する。
我々はC3ALを大規模なベンチマークで評価し、30以上の現実的なターゲットと18,000以上のシナリオをカバーした。
評価の結果、C3ALはノイズや突然変異をよりよく扱えるクローズドボックス学習に適したフレームワークであることがわかった。 Active automata learning algorithms cannot easily handle conflict in the observation data (different outputs observed for the same inputs). This inherent inability to recover after a conflict impairs their effective applicability in scenarios where noise is present or the system under learning is mutating. We propose the Conflict-Aware Active Automata Learning (C3AL) framework to enable handling conflicting information during the learning process. The core idea is to consider the so-called observation tree as a first-class citizen in the learning process. Though this idea is explored in recent work, we take it to its full effect by enabling its use with any existing learner and minimizing the number of tests performed on the system under learning, specially in the face of conflicts. We evaluate C3AL in a large set of benchmarks, covering over 30 different realistic targets, and over 18,000 different scenarios. The results of the evaluation show that C3AL is a suitable alternative framework for closed-box learning that can better handle noise and mutations. | 翻訳日:2023-10-04 22:54:39 公開日:2023-10-02 |
# ARN: ナラティブに関するアナロジー推論のための総合的なフレームワークとデータセット ARN: A Comprehensive Framework and Dataset for Analogical Reasoning on Narratives ( http://arxiv.org/abs/2310.00996v1 ) ライセンス: Link先を確認 | Zhivar Sourati, Filip Ilievski, Pia Sommerauer | (参考訳) アナロジー推論は人間の主要な能力の1つであり、創造性や科学的発見と結びついている。
この能力は、自然言語処理(NLP)や認知心理学において、様々なベンチマークや評価設定を提案して広く研究されている。
しかし、認知心理学とNLPにおける類似推論の評価の間にはかなりのギャップがある。
本研究の目的は,ナラティブの文脈における認知心理学からの類推的推論に関する理論の計算的適応と,大規模評価フレームワークの開発である。
より具体的には,システムマッピングに基づくナラティブマッチングの課題を提案し,ナラティブスデータセットを用いたアナロジカル推論(Analogical Reasoning on Narratives,ARN)をリリースする。
データセットを作成するために,類推的推論に関する認知心理学理論に触発された枠組みを考案し,物語とその構成要素を用いて異なる抽象度レベルのマッピングを形成する。
これらのマッピングは、1k以上のクエリナラティブ、アナロジー、気晴らしを持つアナロジーとアナロジ/ディストラクタのペアを作成するために利用される。
遠/遠類似の4つのカテゴリと遠/遠類似の4つのカテゴリをカバーし、異なる視点からモデルの類似推論を研究することができる。
本研究では,この課題に対して異なる大規模言語モデル (LLM) を評価する。
その結果,LLMは低階写像を伴わない場合の高階写像の認識に苦慮し,全ての写像が同時に存在する場合(類似しない場合)の性能が向上することを示した。
すべての設定において、LLMの類似推論能力は、クエリー・ナラティブと下位階のマッピングを形成するニア・トラクタによって容易に損なわれる。 Analogical reasoning is one of the prime abilities of humans and is linked to creativity and scientific discoveries. This ability has been studied extensively in natural language processing (NLP) as well as in cognitive psychology by proposing various benchmarks and evaluation setups. Yet, a substantial gap exists between evaluations of analogical reasoning in cognitive psychology and NLP. Our aim is to bridge this by computationally adapting theories related to analogical reasoning from cognitive psychology in the context of narratives and developing an evaluation framework large in scale. More concretely, we propose the task of matching narratives based on system mappings and release the Analogical Reasoning on Narratives (ARN) dataset. To create the dataset, we devise a framework inspired by cognitive psychology theories about analogical reasoning to utilize narratives and their components to form mappings of different abstractness levels. These mappings are then leveraged to create pairs of analogies and disanalogies/distractors with more than 1k triples of query narratives, analogies, and distractors. We cover four categories of far/near analogies and far/near distractors that allow us to study analogical reasoning in models from distinct perspectives. In this study, we evaluate different large language models (LLMs) on this task. Our results demonstrate that LLMs struggle to recognize higher-order mappings when they are not accompanied by lower-order mappings (far analogies) and show better performance when all mappings are present simultaneously (near analogies). We observe that in all the settings, the analogical reasoning abilities of LLMs can be easily impaired by near distractors that form lower-order mappings with the query narratives. | 翻訳日:2023-10-04 22:54:20 公開日:2023-10-02 |
# 3次元認識正規化によるマルチタスク学習 Multi-task Learning with 3D-Aware Regularization ( http://arxiv.org/abs/2310.00986v1 ) ライセンス: Link先を確認 | Wei-Hong Li, Steven McDonagh, Ales Leonardis, Hakan Bilen | (参考訳) ディープニューラルネットワークは、タスク間の高次元特徴空間における複雑な相関をキャプチャする能力のおかげで、深度推定やセマンティックセグメンテーションといった複数の密集したコンピュータビジョンタスクを実行できるモデルを設計するための標準ビルディングブロックとなっている。
しかし、非構造的特徴空間で学習されるクロスタスク相関は非常にうるさく、過度に適合する可能性があり、結果として性能が損なわれる。
本稿では,画像エンコーダから抽出した特徴を共有3次元特徴空間に投影することで,複数のタスクを識別可能なレンダリングによりタスク出力空間にデコードする構造付き3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,各種のマルチタスクバックボーンに差し込んで性能を向上できることを示し,標準ベンチマークである NYUv2 と PASCAL-Context を用いて検証した。 Deep neural networks have become a standard building block for designing models that can perform multiple dense computer vision tasks such as depth estimation and semantic segmentation thanks to their ability to capture complex correlations in high dimensional feature space across tasks. However, the cross-task correlations that are learned in the unstructured feature space can be extremely noisy and susceptible to overfitting, consequently hurting performance. We propose to address this problem by introducing a structured 3D-aware regularizer which interfaces multiple tasks through the projection of features extracted from an image encoder to a shared 3D feature space and decodes them into their task output space through differentiable rendering. We show that the proposed method is architecture agnostic and can be plugged into various prior multi-task backbones to improve their performance; as we evidence using standard benchmarks NYUv2 and PASCAL-Context. | 翻訳日:2023-10-04 22:53:42 公開日:2023-10-02 |
# 非エルミタン量子スピン鎖における線形スピン波理論の破壊 Breakdown of Linear Spin-Wave Theory in a Non-Hermitian Quantum Spin Chain ( http://arxiv.org/abs/2310.00985v1 ) ライセンス: Link先を確認 | Julien Despres, Leonardo Mazza and Marco Schir\`o | (参考訳) 本稿では,非エルミート横場イジングモデルの励起スペクトルのスピン波理論とクエンチダイナミクスについて述べる。
複素励起スペクトルは、ホルシュタイン-プリマコフ変換と複素ボソニックボゴリューボ変換の線形近似を用いて、一般の超立方体格子に対して得られる。
1次元の場合、この結果は、少なくとも大きな散逸と横磁場の状況において、問題のフェルミオン表現によって得られる正確な準粒子分散関係と非常によく比較される。
しかし、クエンチ力学に適用すると、線形スピン波近似は崩壊し、ボゾン理論は有限時間での発散に悩まされる。
我々はこの不安定性の起源を単一モード近似を用いて理解する。
短い時間に限定されるが、このアプローチは散逸項のクエンチから生じるダイナミクスと伝播量子相関のリーブ・ロビンソン光円錐の構造を特徴付けることができることを示した。
さらに、一次元の場合、線形スピン波力学は局所磁化とスピンスピン-スピン相関の両方について正確なフェルミオン溶液とよく一致している。 We present the spin-wave theory of the excitation spectrum and quench dynamics of the non-Hermitian transverse-field Ising model. The complex excitation spectrum is obtained for a generic hypercubic lattice using the linear approximation of the Holstein-Primakoff transformation together with the complex bosonic Bogolyubov transformation. In the one-dimensional case, our result compares very well with the exact quasiparticle dispersion relation obtained via a fermionic representation of the problem, at least in the regime of large dissipation and transverse field. When applied to the quench dynamics we show however that the linear spin-wave approximation breaks down and the bosonic theory is plagued by a divergence at finite times. We understand the origin of this instability using a single mode approximation. While limited to short times, we show that this approach allows us to characterize the dynamics arising from the quench of the dissipative term and the structure of the Lieb-Robinson light-cone of the propagation quantum correlations. Furthermore, for the one-dimensional case, the linear spin-wave dynamics shows good agreement with the exact fermionic solution, both for the local magnetization and the spin-spin correlations. | 翻訳日:2023-10-04 22:53:24 公開日:2023-10-02 |
# 介護過程の反応を最適化する強化学習--降着事故を事例として Using Reinforcement Learning to Optimize Responses in Care Processes: A Case Study on Aggression Incidents ( http://arxiv.org/abs/2310.00981v1 ) ライセンス: Link先を確認 | Bart J. Verhoef and Xixi Lu | (参考訳) 従来の研究では、ビジネス・プロセスで実行可能なポリシーを見つけるのに規範的なプロセスモニタリングを使用しており、ローン申請プロセスやトラフィック・ファイン・プロセスといった類似のドメインでケーススタディを実施してきた。
しかし、ケアプロセスはよりダイナミックで複雑である傾向がある。
例えば、ケアプロセスのどの段階でも、多数のアクションが可能である。
本稿では,この強化手法に従って,ケアプロセスからのイベントデータを用いてマルコフ決定過程を訓練する。
目標は、顧客があらゆるタイプの攻撃的行動を示すとき、スタッフにとって最適なポリシーを見つけることであった。
強化学習アルゴリズムq-learningとsarsaを用いて最適方針の探索を行った。
その結果、これらのアルゴリズムから得られたポリシーは、現在使われている最も頻繁なアクションと似ているが、特定の状況下では、スタッフにいくつかの選択肢を提供する。 Previous studies have used prescriptive process monitoring to find actionable policies in business processes and conducted case studies in similar domains, such as the loan application process and the traffic fine process. However, care processes tend to be more dynamic and complex. For example, at any stage of a care process, a multitude of actions is possible. In this paper, we follow the reinforcement approach and train a Markov decision process using event data from a care process. The goal was to find optimal policies for staff members when clients are displaying any type of aggressive behavior. We used the reinforcement learning algorithms Q-learning and SARSA to find optimal policies. Results showed that the policies derived from these algorithms are similar to the most frequent actions currently used but provide the staff members with a few more options in certain situations. | 翻訳日:2023-10-04 22:53:04 公開日:2023-10-02 |
# EALM:会話情報検索における多次元倫理アライメントの導入 EALM: Introducing Multidimensional Ethical Alignment in Conversational Information Retrieval ( http://arxiv.org/abs/2310.00970v1 ) ライセンス: Link先を確認 | Yiyao Yu, Junjie Wang, Yuxiang Zhang, Lin Zhang, Yujiu Yang, Tetsuya Sakai | (参考訳) 人工知能(AI)技術は、社会により良いサービスを提供し、有害または誤解を招く情報、特に会話情報検索(CIR)において拡散を避けるために、人間の規範に従うべきである。
アプローチやデータセットを含む以前の仕事は、常に人間の規範を考慮に入れるのに成功し、十分に堅牢であるとは限らない。
この目的のために,効率的なデータスクリーニングのための最初の倫理的判断段階と,倫理的アライメントを統合するワークフローを紹介する。
CIRにおける倫理的判断の必要性に対処するため,シナリオとラベルの意味を統一した評価ツールであるETHICSベンチマークを応用したQA-ETHICSデータセットを提案する。
しかし、それぞれのシナリオは1つの倫理的概念しか考慮していない。
そこで我々は,MP-ETHICSデータセットを導入して,正義やデオントロジーといった複数の倫理的概念の下でシナリオを評価する。
さらに,バイナリとマルチラベルの倫理判断タスクにおいて,トップパフォーマンスを達成するための新たなアプローチを提案する。
本研究は,CIRワークフローに倫理的アライメントを導入するための実践的手法を提供する。
データとコードはhttps://github.com/wanng-ide/ealmで入手できる。 Artificial intelligence (AI) technologies should adhere to human norms to better serve our society and avoid disseminating harmful or misleading information, particularly in Conversational Information Retrieval (CIR). Previous work, including approaches and datasets, has not always been successful or sufficiently robust in taking human norms into consideration. To this end, we introduce a workflow that integrates ethical alignment, with an initial ethical judgment stage for efficient data screening. To address the need for ethical judgment in CIR, we present the QA-ETHICS dataset, adapted from the ETHICS benchmark, which serves as an evaluation tool by unifying scenarios and label meanings. However, each scenario only considers one ethical concept. Therefore, we introduce the MP-ETHICS dataset to evaluate a scenario under multiple ethical concepts, such as justice and Deontology. In addition, we suggest a new approach that achieves top performance in both binary and multi-label ethical judgment tasks. Our research provides a practical method for introducing ethical alignment into the CIR workflow. The data and code are available at https://github.com/wanng-ide/ealm . | 翻訳日:2023-10-04 22:52:51 公開日:2023-10-02 |
# 確率的デュエル帯域に対する変数認識レグレクト境界 Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits ( http://arxiv.org/abs/2310.00968v1 ) ライセンス: Link先を確認 | Qiwei Di and Tao Jin and Yue Wu and Heyang Zhao and Farzad Farnoud and Quanquan Gu | (参考訳) 優先的なフィードバックを含む意思決定のための重要なフレームワークであるDueling banditsは、ランキング、情報検索、レコメンデーションシステムなど、人間のインタラクションに関わるさまざまなアプリケーションに適合する貴重な機能である。
デュエル・バンディットにおける累積的な後悔を最小限に抑えるためにかなりの努力がなされているが、現在の研究における注目すべきギャップは、デュエル・アーム間の対比較に固有の不確実性を考慮した後悔の限界がないことである。
直感的には、より大きな不確実性は、問題のより高いレベルの難易度を示唆する。
そこで本稿では,このギャップを埋めるために,一般化線形モデル(glm)を用いて,両腕の2値比較を行うコンテキスト的デュエルバンディットの問題について検討する。
計算効率と分散を考慮したリセットバウンドである$\tilde O\big(d\sqrt{\sum_{t=1}^T\sigma_t^2} + d\big)$, ここで$\sigma_t$はラウンド$t$,$d$はコンテキストベクトルの次元,$T$は時間軸である。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$\tilde O(d)$ regretにのみ悩まされる。
合成データに対する実験実験を行い、従来の分散非依存アルゴリズムに対する手法の利点を確認する。 Dueling bandits is a prominent framework for decision-making involving preferential feedback, a valuable feature that fits various applications involving human interaction, such as ranking, information retrieval, and recommendation systems. While substantial efforts have been made to minimize the cumulative regret in dueling bandits, a notable gap in the current research is the absence of regret bounds that account for the inherent uncertainty in pairwise comparisons between the dueling arms. Intuitively, greater uncertainty suggests a higher level of difficulty in the problem. To bridge this gap, this paper studies the problem of contextual dueling bandits, where the binary comparison of dueling arms is generated from a generalized linear model (GLM). We propose a new SupLinUCB-type algorithm that enjoys computational efficiency and a variance-aware regret bound $\tilde O\big(d\sqrt{\sum_{t=1}^T\sigma_t^2} + d\big)$, where $\sigma_t$ is the variance of the pairwise comparison in round $t$, $d$ is the dimension of the context vectors, and $T$ is the time horizon. Our regret bound naturally aligns with the intuitive expectation in scenarios where the comparison is deterministic, the algorithm only suffers from an $\tilde O(d)$ regret. We perform empirical experiments on synthetic data to confirm the advantage of our method over previous variance-agnostic algorithms. | 翻訳日:2023-10-04 22:52:31 公開日:2023-10-02 |
# モダリティを欠いたマルチモーダル学習のための学習可能なクロスモーダル知識蒸留 Learnable Cross-modal Knowledge Distillation for Multi-modal Learning with Missing Modality ( http://arxiv.org/abs/2310.01035v1 ) ライセンス: Link先を確認 | Hu Wang, Yuanhong Chen, Congbo Ma, Jodie Avery, Louise Hull, Gustavo Carneiro | (参考訳) 欠如モダリティの問題は、マルチモーダルモデルで扱うのに重要かつ非自明である。
特定のモダリティが他のモダリティよりも寄与するマルチモーダルタスクでは一般的であり、これらの重要なモダリティが欠如している場合、モデルの性能は大幅に低下する。
このような事実は、最高の実行モードから有用な情報を抽出するのではなく、機能再構築やブラインド特徴集約によって欠落したモダリティから表現を回復する現在のマルチモダリティアプローチによって、未検討のままである。
本稿では,重要なモダリティを適応的に識別し,それから知識を分離し,交叉モダリティの観点から他のモダリティが失われているモダリティ問題を解決するための学習可能なクロスモダリティ知識蒸留(lckd)モデルを提案する。
提案手法では,特定の課題に対する単一のモダリティパフォーマンスに基づいて,最も「適格」な教師を選択するための教師選任手順を導入する。
そして、各タスクの教師と学生のモダリティ間でクロスモーダルな知識蒸留を行い、モデルパラメータを全てのタスクに有益なポイントにプッシュする。
したがって、試験中に特定のタスクに対する教師モダリティが欠落している場合でも、利用可能な生徒モダリティは、自動的に選択された教師モダリティから学んだ知識に基づいて十分にタスクを達成できる。
Brain Tumour Segmentation Dataset 2018 (BraTS2018) の実験では、LCKDは他の手法よりもかなり優れており、腫瘍の増進には3.61%、腫瘍コアは5.99%、腫瘍全体の3.76%が改良されている。 The problem of missing modalities is both critical and non-trivial to be handled in multi-modal models. It is common for multi-modal tasks that certain modalities contribute more compared to other modalities, and if those important modalities are missing, the model performance drops significantly. Such fact remains unexplored by current multi-modal approaches that recover the representation from missing modalities by feature reconstruction or blind feature aggregation from other modalities, instead of extracting useful information from the best performing modalities. In this paper, we propose a Learnable Cross-modal Knowledge Distillation (LCKD) model to adaptively identify important modalities and distil knowledge from them to help other modalities from the cross-modal perspective for solving the missing modality issue. Our approach introduces a teacher election procedure to select the most ``qualified'' teachers based on their single modality performance on certain tasks. Then, cross-modal knowledge distillation is performed between teacher and student modalities for each task to push the model parameters to a point that is beneficial for all tasks. Hence, even if the teacher modalities for certain tasks are missing during testing, the available student modalities can accomplish the task well enough based on the learned knowledge from their automatically elected teacher modalities. Experiments on the Brain Tumour Segmentation Dataset 2018 (BraTS2018) shows that LCKD outperforms other methods by a considerable margin, improving the state-of-the-art performance by 3.61% for enhancing tumour, 5.99% for tumour core, and 3.76% for whole tumour in terms of segmentation Dice score. | 翻訳日:2023-10-04 22:44:56 公開日:2023-10-02 |
# Nested Cross Validation を用いた高速列車システムにおける機械学習に基づく負荷分散の新しい手法 A Novel Approach for Machine Learning-based Load Balancing in High-speed Train System using Nested Cross Validation ( http://arxiv.org/abs/2310.01034v1 ) ライセンス: Link先を確認 | Ibrahim Yazici, and Emre Gures | (参考訳) 第5世代(5g)移動通信ネットワークは最近、高速列車を含む様々な分野で登場している。
しかし、5gミリ波(mmwave)基地局(bss)の密集した配置と列車の高速移動は頻繁なハンドオーバ(hos)につながり、モバイルユーザのqos(quality-of-service)に悪影響を及ぼす可能性がある。
その結果,高速鉄道における移動性管理にはho最適化と資源配分が不可欠である。
本稿では,モデル評価からモデルパラメータチューニングへの情報漏洩を防止し,過剰フィッティングを回避し,よりよい一般化誤差をもたらすクロス検証スキームを用いた,新しい機械学習(ml)手法による高速列車システムのシステム性能をモデル化する。
そこで我々は,高速列車システムのシナリオにML手法を用いる。
Handover Margin (HOM) と Time-to-Trigger (TTT) の値が特徴として使用され、いくつかの KPI が出力として使用され、この問題には、グラディエントブースティング回帰 (GBR)、アダプティブブースティング (AdaBoost)、キャットブースト回帰 (CBR)、人工ニューラルネットワーク (ANN)、カーネルリッジ回帰 (KRR)、サポートベクタ回帰 (SVR)、k-Nearest Neighbor Regression (KNNR) などのMLメソッドが使用されている。
最後に、クロス検証スキームと手法の性能比較を行い、平均絶対誤差(mae)と平均二乗誤差(mse)の測定値を用いて評価する。
その結果, ネスト型クロスバリデーション方式の強化手法であるABR, CBR, GBRは, 従来のクロスバリデーション方式よりも優れていた。
一方, ネスト型スキームを用いたSVR, KNRR, KRR, ANNは, 従来のスキーム利用に関して, いくつかのKPIの予測に有望な結果をもたらす。 Fifth-generation (5G) mobile communication networks have recently emerged in various fields, including highspeed trains. However, the dense deployment of 5G millimeter wave (mmWave) base stations (BSs) and the high speed of moving trains lead to frequent handovers (HOs), which can adversely affect the Quality-of-Service (QoS) of mobile users. As a result, HO optimization and resource allocation are essential considerations for managing mobility in high-speed train systems. In this paper, we model system performance of a high-speed train system with a novel machine learning (ML) approach that is nested cross validation scheme that prevents information leakage from model evaluation into the model parameter tuning, thereby avoiding overfitting and resulting in better generalization error. To this end, we employ ML methods for the high-speed train system scenario. Handover Margin (HOM) and Time-to-Trigger (TTT) values are used as features, and several KPIs are used as outputs, and several ML methods including Gradient Boosting Regression (GBR), Adaptive Boosting (AdaBoost), CatBoost Regression (CBR), Artificial Neural Network (ANN), Kernel Ridge Regression (KRR), Support Vector Regression (SVR), and k-Nearest Neighbor Regression (KNNR) are employed for the problem. Finally, performance comparisons of the cross validation schemes with the methods are made in terms of mean absolute error (MAE) and mean square error (MSE) metrics are made. As per obtained results, boosting methods, ABR, CBR, GBR, with nested cross validation scheme superiorly outperforms conventional cross validation scheme results with the same methods. On the other hand, SVR, KNRR, KRR, ANN with the nested scheme produce promising results for prediction of some KPIs with respect to their conventional scheme employment. | 翻訳日:2023-10-04 22:44:24 公開日:2023-10-02 |
# CES分布のフィッシャー・ラオ幾何学 The Fisher-Rao geometry of CES distributions ( http://arxiv.org/abs/2310.01032v1 ) ライセンス: Link先を確認 | Florent Bouchard, Arnaud Breloy, Antoine Collas, Alexandre Renaux, Guillaume Ginolhac | (参考訳) パラメトリック統計モデルを扱うとき、リーマン多様体は、パラメータ空間にフィッシャー情報計量を与えることによって自然に現れる。
この計量によってパラメータに誘導される幾何学はフィッシャー・ラオ情報幾何学と呼ばれる。
興味深いことに、これは微分幾何学から多くのツールを活用することができる視点をもたらす。
これらの概念を簡潔に紹介した後、楕円分布の枠組みにこれらの幾何学的ツールの実用的利用を示す。
この表現の第2部は3つの主要な軸に分けられる:共分散行列推定のためのリーマン最適化、内在的クレー=ラオ境界、リーマン距離を用いた分類。 When dealing with a parametric statistical model, a Riemannian manifold can naturally appear by endowing the parameter space with the Fisher information metric. The geometry induced on the parameters by this metric is then referred to as the Fisher-Rao information geometry. Interestingly, this yields a point of view that allows for leveragingmany tools from differential geometry. After a brief introduction about these concepts, we will present some practical uses of these geometric tools in the framework of elliptical distributions. This second part of the exposition is divided into three main axes: Riemannian optimization for covariance matrix estimation, Intrinsic Cram\'er-Rao bounds, and classification using Riemannian distances. | 翻訳日:2023-10-04 22:43:42 公開日:2023-10-02 |
# ネストクロス検証を用いたロバスト機械学習による5gネットワークの経路損失予測 A Robust Machine Learning Approach for Path Loss Prediction in 5G Networks with Nested Cross Validation ( http://arxiv.org/abs/2310.01030v1 ) ライセンス: Link先を確認 | Ibrahim Yaz{\i}c{\i}, and Emre Gures | (参考訳) 第5世代(5G)無線ネットワークの設計と展開は、無線デバイスの増加によって大きな課題となっている。
経路損失はネットワーク性能の最適化において著しく重要であり、伝送中の信号パワーの減衰を特徴付ける経路損失の正確な予測は、効果的なネットワーク計画、カバレッジ推定、最適化に重要である。
この意味で、従来の経路損失予測モデルの欠点を克服する機械学習(ML)手法を用いて、5Gネットワークシステムにおける経路損失予測を行い、より正確なネットワーク計画、リソース最適化、無線通信システムの性能向上を図る。
そこで我々は,MLのオーバーフィッティングを防止するために,新しい手法であるネスト型クロスバリデーション方式を用いて,一般化エラーと安定した結果を得る。
まず,中国北京の都市マクロセルシナリオで実施した総合的な計測キャンペーンを通じて得られた公開データセットを入手した。
データセットには、経度、緯度、高度、クラッター高さ、距離などの重要な情報が含まれており、これらは5gネットワークシステムの経路損失を予測するために不可欠な特徴として利用される。
我々は,経路損失を予測するためのサポートベクター回帰(SVR),キャットブースト回帰(CBR),eXtreme Gradient Boosting Regression(XGBR),人工ニューラルネットワーク(ANN),ランダムフォレスト(RF)メソッドをデプロイし,平均絶対誤差(MAE)と平均平方誤差(MSE)で予測結果を比較した。
得られた結果によると、XGBRは残りの方法よりも優れています。
MAE と MSE の基準でそれぞれ 0.4 % と 1 % のわずかな性能差で CBR を上回ります。
一方、メソッドの他の部分よりもパフォーマンスの差がはっきりしています。 The design and deployment of fifth-generation (5G) wireless networks pose significant challenges due to the increasing number of wireless devices. Path loss has a landmark importance in network performance optimization, and accurate prediction of the path loss, which characterizes the attenuation of signal power during transmission, is critical for effective network planning, coverage estimation, and optimization. In this sense, we utilize machine learning (ML) methods, which overcome conventional path loss prediction models drawbacks, for path loss prediction in a 5G network system to facilitate more accurate network planning, resource optimization, and performance improvement in wireless communication systems. To this end, we utilize a novel approach, nested cross validation scheme, with ML to prevent overfitting, thereby getting better generalization error and stable results for ML deployment. First, we acquire a publicly available dataset obtained through a comprehensive measurement campaign conducted in an urban macro-cell scenario located in Beijing, China. The dataset includes crucial information such as longitude, latitude, elevation, altitude, clutter height, and distance, which are utilized as essential features to predict the path loss in the 5G network system. We deploy Support Vector Regression (SVR), CatBoost Regression (CBR), eXtreme Gradient Boosting Regression (XGBR), Artificial Neural Network (ANN), and Random Forest (RF) methods to predict the path loss, and compare the prediction results in terms of Mean Absolute Error (MAE) and Mean Square Error (MSE). As per obtained results, XGBR outperforms the rest of the methods. It outperforms CBR with a slight performance differences by 0.4 % and 1 % in terms of MAE and MSE metrics, respectively. On the other hand, it outperforms the rest of the methods with clear performance differences. | 翻訳日:2023-10-04 22:43:32 公開日:2023-10-02 |
# 教師付きドメインの一般化をデータ拡張に組み込む Incorporating Supervised Domain Generalization into Data Augmentation ( http://arxiv.org/abs/2310.01029v1 ) ライセンス: Link先を確認 | Shohei Enomoto, Monikka Roslianna Busto, Takeharu Eda | (参考訳) 屋外環境でのディープラーニングの利用が増加する中、その堅牢性は、圧縮アーティファクトのような分散シフトに直面して精度を保つために向上する必要がある。
データ拡張は、使いやすさと多くの利点のおかげで、堅牢性を改善するために広く使われているテクニックである。
しかし、多くの訓練期間が必要であり、限られた計算資源で大規模モデルを訓練することは困難である。
この問題に対処するために,データ拡張を教師付きドメイン一般化~(sdg)として扱い,sdg法,コントラストセマンティックアライメント~(csa)損失の恩恵を受け,データの強化の堅牢性とトレーニング効率を向上させる。
提案手法は,モデルトレーニング中にのみ損失を付加し,既存のデータ拡張手法のプラグインとして使用できる。
CIFAR-100およびCUBデータセットの実験により、提案手法は、典型的なデータ拡張の堅牢性とトレーニング効率を向上させることを示した。 With the increasing utilization of deep learning in outdoor settings, its robustness needs to be enhanced to preserve accuracy in the face of distribution shifts, such as compression artifacts. Data augmentation is a widely used technique to improve robustness, thanks to its ease of use and numerous benefits. However, it requires more training epochs, making it difficult to train large models with limited computational resources. To address this problem, we treat data augmentation as supervised domain generalization~(SDG) and benefit from the SDG method, contrastive semantic alignment~(CSA) loss, to improve the robustness and training efficiency of data augmentation. The proposed method only adds loss during model training and can be used as a plug-in for existing data augmentation methods. Experiments on the CIFAR-100 and CUB datasets show that the proposed method improves the robustness and training efficiency of typical data augmentations. | 翻訳日:2023-10-04 22:43:00 公開日:2023-10-02 |
# サブトラクタベースCNN推論加速器 Subtractor-Based CNN Inference Accelerator ( http://arxiv.org/abs/2310.01022v1 ) ライセンス: Link先を確認 | Victor Gao, Issam Hammad, Kamal El-Sankary, and Jason Gu | (参考訳) 本稿では,減算器を用いたcnn推論用加速器の性能向上手法を提案する。
提案するcnnプリプロセッシングアクセラレータは、推論中に畳み込みを適用する際に1つの乗算演算と加算演算を1つの減算演算で置き換えることができる組合せを作成するために、重み付けのソート、グループ化、丸み付けに依存する。
電力と面積の面での乗算コストが高いため、乗算を減算に置き換えることで、電力と面積を削減して性能を向上できる。
提案手法は,減算器の使用量を増加させたり減らしたりすることで,性能向上と精度損失のトレードオフを制御できる。
ラウンドサイズ0.05で、MNISTデータセットでLeNet-5を利用することで、32.03%の省電力化と24.59%の面積削減を実現し、精度損失はわずか0.1%である。 This paper presents a novel method to boost the performance of CNN inference accelerators by utilizing subtractors. The proposed CNN preprocessing accelerator relies on sorting, grouping, and rounding the weights to create combinations that allow for the replacement of one multiplication operation and addition operation by a single subtraction operation when applying convolution during inference. Given the high cost of multiplication in terms of power and area, replacing it with subtraction allows for a performance boost by reducing power and area. The proposed method allows for controlling the trade-off between performance gains and accuracy loss through increasing or decreasing the usage of subtractors. With a rounding size of 0.05 and by utilizing LeNet-5 with the MNIST dataset, the proposed design can achieve 32.03% power savings and a 24.59% reduction in area at the cost of only 0.1% in terms of accuracy loss. | 翻訳日:2023-10-04 22:42:44 公開日:2023-10-02 |
# デファジグアルゴリズムの比較のための新しい実世界のビデオデータセット A New Real-World Video Dataset for the Comparison of Defogging Algorithms ( http://arxiv.org/abs/2310.01020v1 ) ライセンス: Link先を確認 | Alexandra Duminil, Jean-Philippe Tarel, Roland Br\'emond | (参考訳) 画像処理やコンピュータビジョンの分野では、ノイズ除去、劣化、超解像のためのビデオ修復がますます注目を集めている。
霧除去のためのデータ駆動アプローチによるビデオ復元作業は、深層学習やベンチマークに必要なクリア条件と霧条件の両方でビデオを含むデータセットが不足していることから、まれである。
この目的のために、REVIDEと呼ばれる新しいデータセットが最近提案された。
本稿では,異なる霧密度とグラウンド真理を霧無しで比較するための新しい実世界ビデオデータセットを提案することにより,同様のアプローチを実現する。
この小さなデータベースは、アルゴリズムを除外するためのテストベースとして機能する。
フレーム間のアーティファクトや露出の変動を最小限に抑えるために、時間的冗長性を使うという重要なアイデアと共に、ビデオデオグジングアルゴリズム(まだ開発中)も言及されている。
様々なアプリケーションのためのディープラーニングにおけるTransformersアーキテクチャの成功に触発されて、ニューラルネットワークでこの種のアーキテクチャを選択し、提案したデータセットの関連性を示す。 Video restoration for noise removal, deblurring or super-resolution is attracting more and more attention in the fields of image processing and computer vision. Works on video restoration with data-driven approaches for fog removal are rare however, due to the lack of datasets containing videos in both clear and foggy conditions which are required for deep learning and benchmarking. A new dataset, called REVIDE, was recently proposed for just that purpose. In this paper, we implement the same approach by proposing a new REal-world VIdeo dataset for the comparison of Defogging Algorithms (VIREDA), with various fog densities and ground truths without fog. This small database can serve as a test base for defogging algorithms. A video defogging algorithm is also mentioned (still under development), with the key idea of using temporal redundancy to minimize artefacts and exposure variations between frames. Inspired by the success of Transformers architecture in deep learning for various applications, we select this kind of architecture in a neural network to show the relevance of the proposed dataset. | 翻訳日:2023-10-04 22:42:26 公開日:2023-10-02 |
# ユニバーサル画像復元のためのビジョン言語モデル制御 Controlling Vision-Language Models for Universal Image Restoration ( http://arxiv.org/abs/2310.01018v1 ) ライセンス: Link先を確認 | Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sj\"olund, Thomas B. Sch\"on | (参考訳) CLIPのようなビジョン言語モデルは、ゼロショットやラベルなしの予測のために、さまざまな下流タスクに大きな影響を与えている。
しかし、画像復元などの低レベルのビジョンでは、入力の破損により性能が劇的に低下する。
本稿では,画像復元のための普遍的なフレームワークとして,事前学習された視覚言語モデルを低レベル視覚タスクに転送するための分解認識視覚言語モデル(da-clip)を提案する。
具体的には、DA-CLIPは、修正されたCLIPイメージエンコーダに適応して高品質な機能埋め込みを予測する、追加のコントローラをトレーニングする。
クロスアテンションによる画像復元ネットワークへの埋め込みを統合することで,高忠実度画像再構成を学習するモデルをパイロット化することができる。
コントローラ自体も、入力の実際の破損と一致する分解機能を出力し、異なる分解タイプに対して自然な分類子を生成する。
さらに,DA-CLIP訓練のための合成キャプションを用いた混合劣化データセットを構築した。
提案手法は, 画像復元作業において, 大規模な事前学習型視覚言語モデルを用いて, 画像復元を促進させる上で有望な方向性を示す。
私たちのコードはhttps://github.com/algolzw/daclip-uirで利用可能です。 Vision-language models such as CLIP have shown great impact on diverse downstream tasks for zero-shot or label-free predictions. However, when it comes to low-level vision such as image restoration their performance deteriorates dramatically due to corrupted inputs. In this paper, we present a degradation-aware vision-language model (DA-CLIP) to better transfer pretrained vision-language models to low-level vision tasks as a universal framework for image restoration. More specifically, DA-CLIP trains an additional controller that adapts the fixed CLIP image encoder to predict high-quality feature embeddings. By integrating the embedding into an image restoration network via cross-attention, we are able to pilot the model to learn a high-fidelity image reconstruction. The controller itself will also output a degradation feature that matches the real corruptions of the input, yielding a natural classifier for different degradation types. In addition, we construct a mixed degradation dataset with synthetic captions for DA-CLIP training. Our approach advances state-of-the-art performance on both degradation-specific and unified image restoration tasks, showing a promising direction of prompting image restoration with large-scale pretrained vision-language models. Our code is available at https://github.com/Algolzw/daclip-uir. | 翻訳日:2023-10-04 22:42:07 公開日:2023-10-02 |
# ETGraph:EthereumとTwitterを橋渡しするピアネリングデータセット ETGraph: A Pioneering Dataset Bridging Ethereum and Twitter ( http://arxiv.org/abs/2310.01015v1 ) ライセンス: Link先を確認 | Qian Wang, Zhen Zhang, Zemin Liu, Shengliang Lu, Bingqiao Luo, Bingsheng He | (参考訳) 多くのパブリックブロックチェーンデータセットが利用可能だが、そのユーティリティはブロックチェーンデータに特化して制限されている。
この制約は、関連するソーシャルネットワークデータのブロックチェーン分析への取り込みを制限するため、導出可能な洞察の幅と深さを減少させる。
上記の制限に対処するため、ETGraphを紹介します。これはEthereumとTwitterを直交する新しいデータセットで、この種の最初の、そして最大のデータセットです。
ETGraphはEthereumトランザクションレコード(200万ノード、3000万エッジ)とTwitterに続くデータ(100万ノード、300万エッジ)を組み合わせて,3067のEthereumアドレスと,OpenSeaからの認証されたTwitterアカウントを結合する。
etgraphに関する詳細な統計分析では、twitterとtwitterにマッチしないethereumアドレスの構造的な違いが強調されている。
Ethereumリンク予測、ハッシュトレーディングEthereumアドレス検出、Twitter-Ethereumマッチングリンク予測などの大規模な実験は、Ethereum分析の強化におけるTwitterデータの重要性を強調している。
ETGraphはhttps://etgraph.deno.dev/.comで入手できる。 While numerous public blockchain datasets are available, their utility is constrained by a singular focus on blockchain data. This constraint limits the incorporation of relevant social network data into blockchain analysis, thereby diminishing the breadth and depth of insight that can be derived. To address the above limitation, we introduce ETGraph, a novel dataset that authentically links Ethereum and Twitter, marking the first and largest dataset of its kind. ETGraph combines Ethereum transaction records (2 million nodes and 30 million edges) and Twitter following data (1 million nodes and 3 million edges), bonding 30,667 Ethereum addresses with verified Twitter accounts sourced from OpenSea. Detailed statistical analysis on ETGraph highlights the structural differences between Twitter-matched and non-Twitter-matched Ethereum addresses. Extensive experiments, including Ethereum link prediction, wash-trading Ethereum addresses detection, and Twitter-Ethereum matching link prediction, emphasize the significant role of Twitter data in enhancing Ethereum analysis. ETGraph is available at https://etgraph.deno.dev/. | 翻訳日:2023-10-04 22:41:46 公開日:2023-10-02 |
# ccaファミリーの効率的なアルゴリズム:不偏勾配を持つ非拘束目的 Efficient Algorithms for the CCA Family: Unconstrained Objectives with Unbiased Gradients ( http://arxiv.org/abs/2310.01012v1 ) ライセンス: Link先を確認 | James Chapman, Ana Lawry Aguila, Lennie Wells | (参考訳) カノニカル相関解析(CCA)は多視点学習の基礎となる手法である。
正規化線形CAA法は、部分最小正方形(PLS)を一般化し、一般化固有値問題(GEP)フレームワークと統一する。
しかし、これらの線形手法の古典的アルゴリズムは大規模データに対して計算不可能である。
Deep CCAの拡張は有望だが、現在のトレーニング手順は遅く、複雑である。
まず,gepsの最上位部分空間を特徴付ける新しい非拘束目的を提案する。
我々のコアコントリビューションは、確率的PSS、確率的CAA、Deep CCAのための高速アルゴリズムのファミリーであり、対応するCAの目的に確率的勾配勾配(SGD)を適用するだけで得られる。
これらの手法は、すべての標準CCAおよびDeep CCAベンチマークにおいて、従来よりもはるかに高速な収束と高い相関関係の回復を示す。
このスピードにより、英国バイオバンクの非常に大きなバイオメディカルデータセットを、約3万3000人以上の個人と50万の変種で分析することができます。
最後に, CIFAR-10 と CIFAR-100 における 'CCA- Family' Self-Supervised Learning (SSL) 手法の性能を最小限のハイパーパラメータチューニングで再現するだけでなく, 従来の CCA との最初の理論的リンクを確立し, 今後の知見の基盤となる。 The Canonical Correlation Analysis (CCA) family of methods is foundational in multi-view learning. Regularised linear CCA methods can be seen to generalise Partial Least Squares (PLS) and unified with a Generalized Eigenvalue Problem (GEP) framework. However, classical algorithms for these linear methods are computationally infeasible for large-scale data. Extensions to Deep CCA show great promise, but current training procedures are slow and complicated. First we propose a novel unconstrained objective that characterizes the top subspace of GEPs. Our core contribution is a family of fast algorithms for stochastic PLS, stochastic CCA, and Deep CCA, simply obtained by applying stochastic gradient descent (SGD) to the corresponding CCA objectives. These methods show far faster convergence and recover higher correlations than the previous state-of-the-art on all standard CCA and Deep CCA benchmarks. This speed allows us to perform a first-of-its-kind PLS analysis of an extremely large biomedical dataset from the UK Biobank, with over 33,000 individuals and 500,000 variants. Finally, we not only match the performance of `CCA-family' Self-Supervised Learning (SSL) methods on CIFAR-10 and CIFAR-100 with minimal hyper-parameter tuning, but also establish the first solid theoretical links to classical CCA, laying the groundwork for future insights. | 翻訳日:2023-10-04 22:41:29 公開日:2023-10-02 |
# KGEx: サブグラフサンプリングと知識蒸留による知識グラフ埋め込みの説明 KGEx: Explaining Knowledge Graph Embeddings via Subgraph Sampling and Knowledge Distillation ( http://arxiv.org/abs/2310.01065v1 ) ライセンス: Link先を確認 | Vasileios Baltatzis, Luca Costabello | (参考訳) 知識グラフのリンク予測のための選択肢として、知識グラフ埋め込み(KGE)の解釈可能性の研究は、比較的研究されていない。
本研究では,サロゲートモデルの研究から着想を得て,個々のリンク予測を説明する新しいポストホック手法であるkgexを提案する。
予測対象トリプルが与えられると、kgexは重要なトレーニングトリプルを特定するために使用するkgeモデルをサロゲートする。
トレーニング三重項の影響を評価するため,対象三重項のランダムな部分をサンプリングし,それぞれに複数の代理KGEモデルを訓練する。
忠実性を確保するため、各サロゲートは元のKGEモデルから知識を蒸留することによって訓練される。
次に, 対象の3倍体がどの程度の確率で説明され, 忠実な予測を導いたものが, 影響のある近隣のサンプルに基づいて訓練されているかを評価する。
この仮定の下で、衝突の多い地区で頻繁に現れるトリプルを収穫する。
我々は2つの公開データセットについて広範な実験を行い、kgexがブラックボックスモデルに忠実な説明を提供できることを示す。 Despite being the go-to choice for link prediction on knowledge graphs, research on interpretability of knowledge graph embeddings (KGE) has been relatively unexplored. We present KGEx, a novel post-hoc method that explains individual link predictions by drawing inspiration from surrogate models research. Given a target triple to predict, KGEx trains surrogate KGE models that we use to identify important training triples. To gauge the impact of a training triple, we sample random portions of the target triple neighborhood and we train multiple surrogate KGE models on each of them. To ensure faithfulness, each surrogate is trained by distilling knowledge from the original KGE model. We then assess how well surrogates predict the target triple being explained, the intuition being that those leading to faithful predictions have been trained on impactful neighborhood samples. Under this assumption, we then harvest triples that appear frequently across impactful neighborhoods. We conduct extensive experiments on two publicly available datasets, to demonstrate that KGEx is capable of providing explanations faithful to the black-box model. | 翻訳日:2023-10-04 22:35:25 公開日:2023-10-02 |
# 金融ボラティリティとリスク予測のためのディープラーニングモデルとGARCHモデルの組み合わせ Combining Deep Learning and GARCH Models for Financial Volatility and Risk Forecasting ( http://arxiv.org/abs/2310.01063v1 ) ライセンス: Link先を確認 | Jakub Micha\'nk\'ow, {\L}ukasz Kwiatkowski, Janusz Morajda | (参考訳) 本稿では,一般的なコノメトリGARCH時系列モデルとディープラーニングニューラルネットワークを組み合わせることで,金融商品の変動性とリスクを予測するハイブリッドアプローチを開発する。
一方,GARCHは標準GARCH,EGARCH,GJR-GARCH,APARCHの4つの仕様が採用されている。
モデルはs&p500種株価指数の1日当たりの対数リターンと金価格のbitcoin価格を使ってテストされている。
ハイブリッドモデルのターゲット機能にも根ざした主要なボラティリティ推定器として、価格レンジに基づくGarman-Klass推定器を使用し、オープニングとクローズの価格を組み込むように修正した。
ハイブリッドモデルによるボラティリティ予測を用いて,2つの許容レベル (5%, 1%) において,バリュー・アット・リスク (var) と期待不足 (es) を用いて資産のリスクを評価する。
GARCHとGRUのアプローチを組み合わせることで得られる利益は、ボラティリティとリスク予測の両方の文脈で議論される。
一般に、ハイブリッド解はより正確な点変動予測を生成すると結論づけられるが、必ずしも優れた var と es 予測に翻訳されるわけではない。 In this paper, we develop a hybrid approach to forecasting the volatility and risk of financial instruments by combining common econometric GARCH time series models with deep learning neural networks. For the latter, we employ Gated Recurrent Unit (GRU) networks, whereas four different specifications are used as the GARCH component: standard GARCH, EGARCH, GJR-GARCH and APARCH. Models are tested using daily logarithmic returns on the S&P 500 index as well as gold price Bitcoin prices, with the three assets representing quite distinct volatility dynamics. As the main volatility estimator, also underlying the target function of our hybrid models, we use the price-range-based Garman-Klass estimator, modified to incorporate the opening and closing prices. Volatility forecasts resulting from the hybrid models are employed to evaluate the assets' risk using the Value-at-Risk (VaR) and Expected Shortfall (ES) at two different tolerance levels of 5% and 1%. Gains from combining the GARCH and GRU approaches are discussed in the contexts of both the volatility and risk forecasts. In general, it can be concluded that the hybrid solutions produce more accurate point volatility forecasts, although it does not necessarily translate into superior VaR and ES forecasts. | 翻訳日:2023-10-04 22:35:06 公開日:2023-10-02 |
# グラフの推論: 忠実で解釈可能な大言語モデル推論 Reasoning on Graphs: Faithful and Interpretable Large Language Model Reasoning ( http://arxiv.org/abs/2310.01061v1 ) ライセンス: Link先を確認 | Linhao Luo, Yuan-Fang Li, Gholamreza Haffari, Shirui Pan | (参考訳) 大規模言語モデル(LLM)は複雑なタスクにおいて顕著な推論能力を示している。
しかし、それらは推論中に最新の知識や経験の幻覚を欠き、誤った推論プロセスを引き起こし、パフォーマンスと信頼性を低下させます。
知識グラフ(KG)は、大量の事実を構造化形式で捉え、推論のための信頼できる知識源を提供する。
それでも、既存のKGベースのLCM推論手法は、KGを事実的知識基盤として扱うだけで、推論のための構造情報の重要性を見落としている。
本稿では,LLMをKGと相乗化して忠実かつ解釈可能な推論を可能にする,グラフ上の推論(RoG)と呼ばれる新しい手法を提案する。
具体的には、RoGがKGを忠実な計画として基礎とした関係経路を最初に生成する計画-検索-推論フレームワークを提案する。
これらの計画は、LLMが忠実な推論を行うために、KGsから有効な推論パスを取得するために使用される。
さらに、RoGはKGからの知識を蒸留し、学習を通してLLMの推論能力を向上させるだけでなく、推論中に任意のLLMとシームレスに統合することができる。
2つのベンチマークKGQAデータセットの大規模な実験は、RoGがKG推論タスクの最先端のパフォーマンスを達成し、忠実で解釈可能な推論結果を生成することを示した。 Large language models (LLMs) have demonstrated impressive reasoning abilities in complex tasks. However, they lack up-to-date knowledge and experience hallucinations during reasoning, which can lead to incorrect reasoning processes and diminish their performance and trustworthiness. Knowledge graphs (KGs), which capture vast amounts of facts in a structured format, offer a reliable source of knowledge for reasoning. Nevertheless, existing KG-based LLM reasoning methods only treat KGs as factual knowledge bases and overlook the importance of their structural information for reasoning. In this paper, we propose a novel method called reasoning on graphs (RoG) that synergizes LLMs with KGs to enable faithful and interpretable reasoning. Specifically, we present a planning-retrieval-reasoning framework, where RoG first generates relation paths grounded by KGs as faithful plans. These plans are then used to retrieve valid reasoning paths from the KGs for LLMs to conduct faithful reasoning. Furthermore, RoG not only distills knowledge from KGs to improve the reasoning ability of LLMs through training but also allows seamless integration with any arbitrary LLMs during inference. Extensive experiments on two benchmark KGQA datasets demonstrate that RoG achieves state-of-the-art performance on KG reasoning tasks and generates faithful and interpretable reasoning results. | 翻訳日:2023-10-04 22:34:41 公開日:2023-10-02 |
# 農業における異種データ組立学習による作物・雑草の検出の改善 Improved Crop and Weed Detection with Diverse Data Ensemble Learning in Agriculture ( http://arxiv.org/abs/2310.01055v1 ) ライセンス: Link先を確認 | Muhammad Hamza Asad, Saeed Anwar, Abdul Bais | (参考訳) 現代の農業は、現場における作物や雑草の正確な検出、局在化、定量化を必要とするサイト・スペシャル・ファームマネジメントの実践に大きく依存している。
この点に関して、クロップと雑草特有の二分セグメンテーションモデルには期待が持たれている。
しかし、制御されていないフィールド条件は、その性能をあるフィールドから別のフィールドに制限する。
セマンティックモデル一般化を改善するため、既存の手法は、制御不能なフィールド条件を考慮した農業データを拡張および合成する。
しかし、非常に多様な場条件が与えられると、これらの方法には限界がある。
このような条件下でのモデル劣化の課題を克服するため,我々は,他の作物や雑草に特有のデータを利用して,特定の対象問題に対処した。
これを実現するために,新しいアンサンブルフレームワークを提案する。
このアプローチでは,多様なデータセットで訓練された異なる作物と雑草のモデルを利用し,教師と教師の配偶者による構成を用いる。
ベースモデルの均質な積み重ねと、その出力を訓練可能なメタアーキテクチャを用いて組み合わせることで、単一のセマンティクスセグメンテーションモデルの性能を上回って、カノーラ作物とコチア雑草の未発見のテストデータに対する大幅な改善を実現する。
この文脈では、UNETメタアーキテクチャが最も効果的であると考えています。
最後に, アブレーション研究を通じて, 提案モデルの有効性を実証し, 検証する。
他の対象作物や雑草に訓練されたベースモデルを含め、様々なフィールド条件を捉えるモデルが一般化するのに役立つと観察した。
最後に,比較条件の異なる2つの新しいデータセットを提案する。 Modern agriculture heavily relies on Site-Specific Farm Management practices, necessitating accurate detection, localization, and quantification of crops and weeds in the field, which can be achieved using deep learning techniques. In this regard, crop and weed-specific binary segmentation models have shown promise. However, uncontrolled field conditions limit their performance from one field to the other. To improve semantic model generalization, existing methods augment and synthesize agricultural data to account for uncontrolled field conditions. However, given highly varied field conditions, these methods have limitations. To overcome the challenges of model deterioration in such conditions, we propose utilizing data specific to other crops and weeds for our specific target problem. To achieve this, we propose a novel ensemble framework. Our approach involves utilizing different crop and weed models trained on diverse datasets and employing a teacher-student configuration. By using homogeneous stacking of base models and a trainable meta-architecture to combine their outputs, we achieve significant improvements for Canola crops and Kochia weeds on unseen test data, surpassing the performance of single semantic segmentation models. We identify the UNET meta-architecture as the most effective in this context. Finally, through ablation studies, we demonstrate and validate the effectiveness of our proposed model. We observe that including base models trained on other target crops and weeds can help generalize the model to capture varied field conditions. Lastly, we propose two novel datasets with varied conditions for comparisons. | 翻訳日:2023-10-04 22:34:04 公開日:2023-10-02 |
# ゲージ量子力学による量子行列幾何学の生成 Generating Quantum Matrix Geometry from Gauged Quantum Mechanics ( http://arxiv.org/abs/2310.01051v1 ) ライセンス: Link先を確認 | Kazuki Hasebe | (参考訳) 量子行列幾何学は、M(atrix)理論の基礎となる幾何学である。
レベル射影の概念を拡張して、コセット空間 $g/h$ の行列幾何学を生成する量子指向非可換スキームを提案する。
本手法は,高次元球面上のゲージ量子力学を応用し,未探索行列幾何学を披露するものである。
結果として生じる行列幾何学は$\it{pure}$ quantum Nambu geometriesとして表される: それらの非可換構造は、リー代数の従来の可換形式を通して捕獲し、量子ナムブ代数の導入を必要とする。
この行列幾何学は、ネストしたファジィ構造を特徴とする1次元より低い量子内部幾何学を具現化する。
この量子幾何の連続体極限は重なり合う古典多様体によって表されるが、それらの融合は元の量子幾何学を再現することはできない。
これらの量子ナムブ測地がヤン・ミルズ行列モデルにおいて新しい解を生み出し、既知のファジィ球解とは異なる物理的性質を示すことを示す。 Quantum matrix geometry is the underlying geometry of M(atrix) theory. Expanding upon the idea of level projection, we propose a quantum-oriented non-commutative scheme for generating the matrix geometry of the coset space $G/H$. We employ this novel scheme to unveil unexplored matrix geometries by utilizing gauged quantum mechanics on higher dimensional spheres. The resultant matrix geometries manifest as $\it{pure}$ quantum Nambu geometries: Their non-commutative structures elude capture through the conventional commutator formalism of Lie algebra, necessitating the introduction of the quantum Nambu algebra. This matrix geometry embodies a one-dimension-lower quantum internal geometry featuring nested fuzzy structures. While the continuum limit of this quantum geometry is represented by overlapping classical manifolds, their fuzzification cannot reproduce the original quantum geometry. We demonstrate how these quantum Nambu geometries give rise to novel solutions in Yang-Mills matrix models, exhibiting distinct physical properties from the known fuzzy sphere solutions. | 翻訳日:2023-10-04 22:33:40 公開日:2023-10-02 |
# ツール強化リワードモデリング Tool-Augmented Reward Modeling ( http://arxiv.org/abs/2310.01045v1 ) ライセンス: Link先を確認 | Lei Li, Yekun Chai, Shuohuan Wang, Yu Sun, Hao Tian, Ningyu Zhang, Hua Wu | (参考訳) 報酬モデリング(別名、選好モデリング)は、大きな言語モデルと人間の選好を、特に人的フィードバック(rlhf)からの強化学習の文脈において協調させるのに役立つ。
従来の報酬モデル(rms)は顕著なスケーラビリティを示したが、算術計算、コード実行、事実の検索といった基本的な機能に苦しむことはなかった。
本稿では,計算機や検索エンジンなどの外部環境へのアクセスをRMに委ねることで,これらの制約に対処するツール強化された選好モデリング手法である \name を提案する。
このアプローチはツールの利用と報酬評価のシナジーを育むだけでなく、解釈能力とスコアリングの信頼性を高める。
本研究は,外部ツールとrmsを統合することで,様々な外部ソースとのインタラクションを可能にし,タスク固有のツールの関与やトレースの推論を自己回帰的に構築する。
幅広いドメインにまたがるアプローチを検証し、7つの異なる外部ツールを取り込んでいます。
評価実験の結果,8タスク中17.7%の総合的改善がみられた。
さらに,ゼロショット評価ではgopher 280bを7.3%上回っている。
人間の評価では、テミスで訓練されたrlhfは4つの異なるタスクのベースラインと比較して平均勝利率32%に達する。
さらに,7つの異なるツールapiからのデータを取り込んだ,ツール関連のrmデータセットの包括的なコレクションも提供しています。
この公開データセットは、この分野におけるさらなる研究の促進と促進を期待しています。 Reward modeling (a.k.a., preference modeling) is instrumental for aligning large language models with human preferences, particularly within the context of reinforcement learning from human feedback (RLHF). While conventional reward models (RMs) have exhibited remarkable scalability, they oft struggle with fundamental functionality such as arithmetic computation, code execution, and factual lookup. In this paper, we propose a tool-augmented preference modeling approach, named \name, to address these limitations by empowering RMs with access to external environments, including calculators and search engines. This approach not only fosters synergy between tool utilization and reward grading but also enhances interpretive capacity and scoring reliability. Our study delves into the integration of external tools into RMs, enabling them to interact with diverse external sources and construct task-specific tool engagement and reasoning traces in an autoregressive manner. We validate our approach across a wide range of domains, incorporating seven distinct external tools. Our experimental results demonstrate a noteworthy overall improvement of 17.7% across eight tasks in preference ranking. Furthermore, our approach outperforms Gopher 280B by 7.3% on TruthfulQA task in zero-shot evaluation. In human evaluations, RLHF trained with Themis attains an average win rate of 32% when compared to baselines across four distinct tasks. Additionally, we provide a comprehensive collection of tool-related RM datasets, incorporating data from seven distinct tool APIs, totaling 15,000 instances. We anticipate that this publicly available dataset will facilitate and inspire further research advancements in the field. | 翻訳日:2023-10-04 22:33:19 公開日:2023-10-02 |
# 直接メトリクス最適化としての言語モデルデコーディング Language Model Decoding as Direct Metrics Optimization ( http://arxiv.org/abs/2310.01041v1 ) ライセンス: Link先を確認 | Haozhe Ji, Pei Ke, Hongning Wang, Minlie Huang | (参考訳) 言語モデリングの著しい進歩にもかかわらず、現在の主流のデコーディング手法は、異なる側面の人間のテキストと一致するテキストを生成するのに未だに苦労している。
特に、サンプリングベースの手法は、会話においてしばしば断続的な、より反復的なテキストを生成するが、検索ベースの手法は、反復の増加のコストでトピックコヒーレンスを維持する。
全体として、これらの手法は幅広い側面にわたる全体的アライメントを達成するのに不足している。
本研究では,言語モデルからの復号化を最適化問題として,所望のアスペクトの複数のメトリクスで測定された人文と期待性能を厳密にマッチングすることを目的としている。
結果として得られる復号分布は、これらのメトリクスによって定義されるシーケンスレベルのエネルギー関数を介して入力言語モデルの分布をスケールする分析解を享受する。
そして最も重要なことは、この引き起こされた分布が、人間のテキストの複雑度を改善することが保証されていることを証明することである。
このグローバル正規化分布から抽出可能なサンプリングを容易にするために,サンプリング-インポート-サンプリング手法を採用する。
各種領域実験とモデルスケール実験により,本手法がヒトのテキストに適合する指標や,強いベースラインに対する人的評価において優位性を示した。 Despite the remarkable advances in language modeling, current mainstream decoding methods still struggle to generate texts that align with human texts across different aspects. In particular, sampling-based methods produce less-repetitive texts which are often disjunctive in discourse, while search-based methods maintain topic coherence at the cost of increased repetition. Overall, these methods fall short in achieving holistic alignment across a broad range of aspects. In this work, we frame decoding from a language model as an optimization problem with the goal of strictly matching the expected performance with human texts measured by multiple metrics of desired aspects simultaneously. The resulting decoding distribution enjoys an analytical solution that scales the input language model distribution via a sequence-level energy function defined by these metrics. And most importantly, we prove that this induced distribution is guaranteed to improve the perplexity on human texts, which suggests a better approximation to the underlying distribution of human texts. To facilitate tractable sampling from this globally normalized distribution, we adopt the Sampling-Importance-Resampling technique. Experiments on various domains and model scales demonstrate the superiority of our method in metrics alignment with human texts and human evaluation over strong baselines. | 翻訳日:2023-10-04 22:32:54 公開日:2023-10-02 |
# one goで教師なしのモーションセグメンテーション:ビデオ上のスムーズな長期モデル Unsupervised motion segmentation in one go: Smooth long-term model over a video ( http://arxiv.org/abs/2310.01040v1 ) ライセンス: Link先を確認 | Etienne Meunier and Patrick Bouthemy | (参考訳) 人間は継続的にビデオを分析し、すぐに主要な動き成分を抽出する能力を持つ。
モーションセグメンテーション法はしばしばフレーム単位で進行する。
私たちはこの古典的なパラダイムを越えて、動画シーケンス上で動きのセグメンテーションを1回で実行したいと考えています。
これは下流のコンピュータビジョンタスクにとって顕著な付加価値であり、教師なしのビデオ表現学習のためのプリテキスト基準を提供する。
そこで本研究では,非教師的手法による長期時空間モデルを提案する。
連続する光学フロー(OF)フィールドの体積を入力として、ビデオ上に一連のコヒーレントな動きのセグメントを出力する。
具体的には、数学的に確立されたフレームワークであるELBO(Evidence Lower Bound)を利用して損失関数を推論するトランスフォーマーベースのネットワークを設計した。
損失関数は、新たな方法で、ビデオシーケンスの時間次元に対する$(x,y)$-spatial dimensionとb-splinesの多項式(二次)運動モデルと、マスクの時間的一貫性を強制する正規化項とを含む、時空間的パラメトリック運動モデルを含むフロー再構成項とを結合する。
我々は4つのvosベンチマークを定量的に評価する実験を行った。
また,この手法がもたらす時間的整合性に対する重要な貢献について,視覚的結果を通して強調する。 Human beings have the ability to continuously analyze a video and immediately extract the main motion components. Motion segmentation methods often proceed frame by frame. We want to go beyond this classical paradigm, and perform the motion segmentation over a video sequence in one go. It will be a prominent added value for downstream computer vision tasks, and could provide a pretext criterion for unsupervised video representation learning. In this perspective, we propose a novel long-term spatio-temporal model operating in a totally unsupervised way. It takes as input the volume of consecutive optical flow (OF) fields, and delivers a volume of segments of coherent motion over the video. More specifically, we have designed a transformer-based network, where we leverage a mathematically well-founded framework, the Evidence Lower Bound (ELBO), to infer the loss function. The loss function combines a flow reconstruction term involving spatio-temporal parametric motion models combining, in a novel way, polynomial (quadratic) motion models for the $(x,y)$-spatial dimensions and B-splines for the time dimension of the video sequence, and a regularization term enforcing temporal consistency on the masks. We report experiments on four VOS benchmarks with convincing quantitative results. We also highlight through visual results the key contributions on temporal consistency brought by our method. | 翻訳日:2023-10-04 22:32:34 公開日:2023-10-02 |
# 地震計トランスフォーマー:複数の地震監視タスクのための汎用ディープラーニングバックボーンネットワーク Seismogram Transformer: A generic deep learning backbone network for multiple earthquake monitoring tasks ( http://arxiv.org/abs/2310.01037v1 ) ライセンス: Link先を確認 | Sen Li, Xu Yang, Anye Cao, Changbin Wang, Yaoqi Liu, Yapeng Liu, Qiang Niu | (参考訳) 地震記録は地震記録として知られ、地震調査とモニタリングのバックボーンを構成する地震イベントによって生じる地震動の重要な記録である。
ディープラーニングの最近の進歩は、様々な地震信号処理タスクを著しく促進してきた。
本稿では,地震計トランスフォーマ(seist)と呼ばれる,各種地震観測タスク用に設計された新しいバックボーンニューラルネットワークモデルを提案する。
その効率的なネットワークアーキテクチャのおかげで、地震検出、地震位相抽出、第一運動極性分類、マグニチュード推定、方位推定といった最先端のモデルよりも、特に分散汎化性能の点で優れています。
SeisTは、複数の基本ブロックから構成される複数のネットワーク層から構成されており、モデルが低レベルから高レベルの複雑な特徴から地震図の多レベル特徴表現を理解するのに役立ち、入力地震図から周波数、位相、時間周波数の関係などの特徴を効果的に抽出する。
これらの多様な基本モジュールに基づいて、3つの異なるサイズのモデルがカスタマイズされた。
本研究は,広範囲な実験と性能評価を通じて,地震信号処理と地震研究の進展におけるSeesTの能力と可能性を示す。 Seismic records, known as seismograms, are crucial records of ground motion resulting from seismic events, constituting the backbone of earthquake research and monitoring. The latest advancements in deep learning have significantly facilitated various seismic signal processing tasks. This paper introduces a novel backbone neural network model designed for various seismic monitoring tasks, named Seismogram Transformer (SeisT). Thanks to its efficient network architecture, SeisT matches or even outperforms the state-of-the-art models in earthquake detection, seismic phase picking, first-motion polarity classification, magnitude estimation, and azimuth estimation tasks, particularly in terms of out-of-distribution generalization performance. SeisT consists of multiple network layers composed of different foundational blocks, which help the model understand multi-level feature representations of seismograms from low-level to high-level complex features, effectively extracting features such as frequency, phase, and time-frequency relationships from input seismograms. Three different-sized models were customized based on these diverse foundational modules. Through extensive experiments and performance evaluations, this study showcases the capabilities and potential of SeisT in advancing seismic signal processing and earthquake research. | 翻訳日:2023-10-04 22:32:09 公開日:2023-10-02 |
# NP$^2$L:グラフニューラルネットワークに対する負の擬似部分ラベル抽出 NP$^2$L: Negative Pseudo Partial Labels Extraction for Graph Neural Networks ( http://arxiv.org/abs/2310.01098v1 ) ライセンス: Link先を確認 | Xinjie Shen, Danyang Wu, Jitao Lu, Junjie Liang, Jin Xu, Feiping Nie | (参考訳) 擬似ラベルの使い方は、機械学習における研究のホットスポットである。
しかし、ほとんどの手法では擬似ラベルを教師付きトレーニングとして使用しており、精度の検証が不十分である。
さらに、グラフニューラルネットワーク(GNN)における擬似ラベルの適用は、グラフ学習とメッセージパッシング機構などの他の機械学習タスクの違いを監督する。
最初の問題に対処するために,偽ラベルを重複しない部分ラベルを選択し,負のノード対関係として定義すれば,偽ラベルの方が正確であることを示す実験を多数実施した。
したがって、擬似ラベルと部分ラベルに基づく抽出を考えると、負の擬似部分ラベル抽出(NP$^2$E)モジュールによって2つのノード間に負のエッジが形成される。
これにより、元のグラフからの高精度な擬似ラベル情報を含む署名付きグラフが構築され、メッセージパッシングレベルでの学習において、効果的にGNNを支援することにより、2つ目の問題に対する1つの解決策を提供する。
いくつかのベンチマークデータセットにおけるリンク予測とノード分類タスクに関する実験結果から,本手法の有効性が示された。
最先端のパフォーマンスは両方のタスクで達成されます。 How to utilize the pseudo labels has always been a research hotspot in machine learning. However, most methods use pseudo labels as supervised training, and lack of valid assessing for their accuracy. Moreover, applications of pseudo labels in graph neural networks (GNNs) oversee the difference between graph learning and other machine learning tasks such as message passing mechanism. Aiming to address the first issue, we found through a large number of experiments that the pseudo labels are more accurate if they are selected by not overlapping partial labels and defined as negative node pairs relations. Therefore, considering the extraction based on pseudo and partial labels, negative edges are constructed between two nodes by the negative pseudo partial labels extraction (NP$^2$E) module. With that, a signed graph are built containing highly accurate pseudo labels information from the original graph, which effectively assists GNN in learning at the message-passing level, provide one solution to the second issue. Empirical results about link prediction and node classification tasks on several benchmark datasets demonstrate the effectiveness of our method. State-of-the-art performance is achieved on the both tasks. | 翻訳日:2023-10-04 22:23:28 公開日:2023-10-02 |
# LoCUS:posed Imagesからマルチスケールな3D一貫性のある特徴を学習 LoCUS: Learning Multiscale 3D-consistent Features from Posed Images ( http://arxiv.org/abs/2310.01095v1 ) ライセンス: Link先を確認 | Dominik A. Kloepfer, Dylan Campbell, Jo\~ao F. Henriques | (参考訳) ロボットのような自律エージェントにとって重要な課題は、空間的かつ時間的に一貫した世界のモデルを維持することである。
隠蔽、以前は見えなかった視点、長い時間的地平線(ループ閉鎖や再同定など)によって維持されなければならない。
このような多彩なニューラルネットワーク表現を監督なしでトレーニングする方法はまだ公開されていない。
シーンの1つのビューにイメージパッチが与えられたら、同じ現実世界の場所にマップされた他のビューにあるすべてのパッチを(高い精度で)取得し、リコールしたいと思っています。
1つの欠点は、この目的が機能の再使用を促進しないことである。シーンに固有の(完全な精度/リコールを達成する)ことで、他のシーンのコンテキストにおいて表現は役に立たない。
検索セットを慎重に構築し、遠隔地へマップするパッチを除外することで、検索と再利用のバランスをとることができる。
同様に、学習した特徴(例えば、点、物、部屋)のスケールを、肯定的な検索を考えるために空間許容度を調整することで、容易に調整できる。
smooth(smooth)平均精度(ap)を単一のランキングベース目標に最適化する。
この目的はまた、高いAPのパッチとしてランドマークやキーポイントを選択するための基準として2倍になる。
ランドマーク検索,ローカライゼーション,セマンティックセグメンテーション,インスタンスセグメンテーションに応用した,高度に識別可能なランドマークからなるスパース・マルチスケール・セマンティック空間マップの作成結果を示す。 An important challenge for autonomous agents such as robots is to maintain a spatially and temporally consistent model of the world. It must be maintained through occlusions, previously-unseen views, and long time horizons (e.g., loop closure and re-identification). It is still an open question how to train such a versatile neural representation without supervision. We start from the idea that the training objective can be framed as a patch retrieval problem: given an image patch in one view of a scene, we would like to retrieve (with high precision and recall) all patches in other views that map to the same real-world location. One drawback is that this objective does not promote reusability of features: by being unique to a scene (achieving perfect precision/recall), a representation will not be useful in the context of other scenes. We find that it is possible to balance retrieval and reusability by constructing the retrieval set carefully, leaving out patches that map to far-away locations. Similarly, we can easily regulate the scale of the learned features (e.g., points, objects, or rooms) by adjusting the spatial tolerance for considering a retrieval to be positive. We optimize for (smooth) Average Precision (AP), in a single unified ranking-based objective. This objective also doubles as a criterion for choosing landmarks or keypoints, as patches with high AP. We show results creating sparse, multi-scale, semantic spatial maps composed of highly identifiable landmarks, with applications in landmark retrieval, localization, semantic segmentation and instance segmentation. | 翻訳日:2023-10-04 22:23:10 公開日:2023-10-02 |
# 切り欠き深層学習に基づく画像マッチングを利用したスパース画像からの大規模シーン再構成 Leveraging Cutting Edge Deep Learning Based Image Matching for Reconstructing a Large Scene from Sparse Images ( http://arxiv.org/abs/2310.01092v1 ) ライセンス: Link先を確認 | Georg B\"okman and Johan Edstedt | (参考訳) AISG-SLAビジュアルローカライゼーションチャレンジベンチマーク(IJCAI 2023)では,都市部を走行する車に搭載されたカメラで連続して撮影した画像間の相対的な動きを推定する。
画像のマッチングには、最新のディープラーニングベースのマーカRoMaを使用します。
RoMaがサンプリングした点対応から画像ペアを逐次マッチングし、相対的な動きを推定すると、すでに非常に競争力のある結果が得られる。
画像中のキーポイントを抽出し,RoMaを用いてマッチングし,COLMAPを用いた動き再構成による構造解析を行う。
高い再現性のために、最近のデドードキーポイントを選択します。
さらに,DINOv2による画像検索に基づいて,特定の非連続画像ペアをマッチングすることにより,画像シーケンス中の時間ジャンプに対処する。
これらの改善は、すべての競合相手を打ち負かす解決策となる。
さらに, 画像検索手法によって得られる精度のゆるやかな上限を, 選抜された非合成ペアをマッチングすることによって提示する。 We present the top ranked solution for the AISG-SLA Visual Localisation Challenge benchmark (IJCAI 2023), where the task is to estimate relative motion between images taken in sequence by a camera mounted on a car driving through an urban scene. For matching images we use our recent deep learning based matcher RoMa. Matching image pairs sequentially and estimating relative motion from point correspondences sampled by RoMa already gives very competitive results -- third rank on the challenge benchmark. To improve the estimations we extract keypoints in the images, match them using RoMa, and perform structure from motion reconstruction using COLMAP. We choose our recent DeDoDe keypoints for their high repeatability. Further, we address time jumps in the image sequence by matching specific non-consecutive image pairs based on image retrieval with DINOv2. These improvements yield a solution beating all competitors. We further present a loose upper bound on the accuracy obtainable by the image retrieval approach by also matching hand-picked non-consecutive pairs. | 翻訳日:2023-10-04 22:22:40 公開日:2023-10-02 |
# GraphText: テキスト空間におけるグラフ推論 GraphText: Graph Reasoning in Text Space ( http://arxiv.org/abs/2310.01089v1 ) ライセンス: Link先を確認 | Jianan Zhao, Le Zhuo, Yikang Shen, Meng Qu, Kai Liu, Michael Bronstein, Zhaocheng Zhu, Jian Tang | (参考訳) 大きな言語モデル(LLM)は、人間の知識を同化し、人間や他のLLMとの自然言語の相互作用を促進する能力を得た。
しかし、その素晴らしい成果にもかかわらず、llmはグラフ機械学習の領域で大きな進歩を遂げていない。
この制限は、グラフが異なるリレーショナルデータをカプセル化するので、llmが理解する自然言語への変換が難しくなるため生じる。
本稿では,グラフを自然言語に変換する新しいフレームワークであるGraphTextで,このギャップを埋める。
graphtextは、ノード属性とノード間の関係の両方をカプセル化する各グラフのグラフシンタクスツリーを導出する。
ツリーのトラバースはグラフテキストシーケンスを生成し、LLMによって処理され、グラフタスクをテキスト生成タスクとして扱う。
特にgraphtextには、複数の利点がある。
グラフデータをトレーニングしなくても、ChatGPTを使用したGraphTextは、コンテキスト内学習(ICL)を通じて教師付きトレーニングされたグラフニューラルネットワークのパフォーマンスを同等あるいはそれ以上に達成することができる。
さらにgraphtextは、対話型グラフ推論への道を開き、人間とllmの両方が自然言語を使ってシームレスにモデルと通信できるようにする。
これらの能力は、グラフ機械学習の領域におけるLLMの巨大な、まだ探索されていないポテンシャルを浮き彫りにする。 Large Language Models (LLMs) have gained the ability to assimilate human knowledge and facilitate natural language interactions with both humans and other LLMs. However, despite their impressive achievements, LLMs have not made significant advancements in the realm of graph machine learning. This limitation arises because graphs encapsulate distinct relational data, making it challenging to transform them into natural language that LLMs understand. In this paper, we bridge this gap with a novel framework, GraphText, that translates graphs into natural language. GraphText derives a graph-syntax tree for each graph that encapsulates both the node attributes and inter-node relationships. Traversal of the tree yields a graph text sequence, which is then processed by an LLM to treat graph tasks as text generation tasks. Notably, GraphText offers multiple advantages. It introduces training-free graph reasoning: even without training on graph data, GraphText with ChatGPT can achieve on par with, or even surpassing, the performance of supervised-trained graph neural networks through in-context learning (ICL). Furthermore, GraphText paves the way for interactive graph reasoning, allowing both humans and LLMs to communicate with the model seamlessly using natural language. These capabilities underscore the vast, yet-to-be-explored potential of LLMs in the domain of graph machine learning. | 翻訳日:2023-10-04 22:22:23 公開日:2023-10-02 |
# aiエージェント間のヒューマンライクな対話生成に向けて Towards human-like spoken dialogue generation between AI agents from written dialogue ( http://arxiv.org/abs/2310.01088v1 ) ライセンス: Link先を確認 | Kentaro Mitsui, Yukiya Hono, Kei Sawada | (参考訳) 大きな言語モデル(LLM)の出現により、2つのエージェント間の自然な対話を生成することが可能になった。
しかし,これらの対話文から人間的な音声対話を生成することは依然として困難である。
音声対話は、バックチャンネルや笑いを頻繁に含み、ターンテイキングの滑らかさは会話の流動性に大きな影響を及ぼす。
本研究では,CHATS - CHATS-CHATty Agents Text-to-Speechを提案する。
本システムでは,話者側からの書き起こしのみを用いて,話者側と聞き手側の両方の音声を同時に生成できるため,バックチャネルの書き起こしや笑いを不要にする。
さらに、CHATSは自然のターンテイクを容易にし、重なりのない各発話後の沈黙の適切な持続時間を決定し、重なりの場合に次の発話の音素シーケンスに基づいて重なり合う音声を生成する。
実験の結果、チャットはテキスト対音声のベースラインよりも優れており、明瞭さと知性を維持しつつ、より対話的で流動的な音声対話を生成する。 The advent of large language models (LLMs) has made it possible to generate natural written dialogues between two agents. However, generating human-like spoken dialogues from these written dialogues remains challenging. Spoken dialogues have several unique characteristics: they frequently include backchannels and laughter, and the smoothness of turn-taking significantly influences the fluidity of conversation. This study proposes CHATS - CHatty Agents Text-to-Speech - a discrete token-based system designed to generate spoken dialogues based on written dialogues. Our system can generate speech for both the speaker side and the listener side simultaneously, using only the transcription from the speaker side, which eliminates the need for transcriptions of backchannels or laughter. Moreover, CHATS facilitates natural turn-taking; it determines the appropriate duration of silence after each utterance in the absence of overlap, and it initiates the generation of overlapping speech based on the phoneme sequence of the next utterance in case of overlap. Experimental evaluations indicate that CHATS outperforms the text-to-speech baseline, producing spoken dialogues that are more interactive and fluid while retaining clarity and intelligibility. | 翻訳日:2023-10-04 22:22:01 公開日:2023-10-02 |
# フォトニックニューロモルフィック加速器のための非負異形ニューラルネットワーク Non-negative isomorphic neural networks for photonic neuromorphic accelerators ( http://arxiv.org/abs/2310.01084v1 ) ライセンス: Link先を確認 | Manos Kirtas, Nikolaos Passalis, Nikolaos Pleros, Anastasios Tefas | (参考訳) ニューロモルフィックフォトニック加速器は、計算速度とエネルギー効率を大幅に改善し、MAC効率にフェムトジュールをもたらすため、人気が高まっている。
しかし、このようなプラットフォームに既存のDLモデルをデプロイするのは簡単ではない。多くのフォトニックニューラルネットワークアーキテクチャは、負の量をネイティブに表現できない不整合セットアップと電力付加運用方式に依存している。
これにより、ハードウェアの複雑さが増し、コストが増加し、エネルギー効率が低下する。
これを克服するために、非負のニューラルネットワークをトレーニングし、非一貫性のニューロモルフィックフォトニック機能を最大限に活用することができる。
しかし, 既存の手法では, トレーニングの難しさから, 通常の手法と同等の精度を達成できないことが近年の証拠として示唆されている。
そこで本研究では,ニューロモルフィックハードウェアの要件を満たす正則ニューラルネットワークの非負同相同値を得る手法を提案する。
さらに,このような同型ネットワークを非負の方法でトレーニングできる符号保存最適化手法を提案する。 Neuromorphic photonic accelerators are becoming increasingly popular, since they can significantly improve computation speed and energy efficiency, leading to femtojoule per MAC efficiency. However, deploying existing DL models on such platforms is not trivial, since a great range of photonic neural network architectures relies on incoherent setups and power addition operational schemes that cannot natively represent negative quantities. This results in additional hardware complexity that increases cost and reduces energy efficiency. To overcome this, we can train non-negative neural networks and potentially exploit the full range of incoherent neuromorphic photonic capabilities. However, existing approaches cannot achieve the same level of accuracy as their regular counterparts, due to training difficulties, as also recent evidence suggests. To this end, we introduce a methodology to obtain the non-negative isomorphic equivalents of regular neural networks that meet requirements of neuromorphic hardware, overcoming the aforementioned limitations. Furthermore, we also introduce a sign-preserving optimization approach that enables training of such isomorphic networks in a non-negative manner. | 翻訳日:2023-10-04 22:21:41 公開日:2023-10-02 |
# 量子センシングと通信 --干渉計による誤差低減 Quantum sensing and communication -- error reduction via interferometry ( http://arxiv.org/abs/2310.01083v1 ) ライセンス: Link先を確認 | Cosmo Lupo, Zixin Huang | (参考訳) デファスメントは量子情報に苦しむ主なノイズメカニズムであり、可視性が低下し、コヒーレンスや絡み合いが破壊される。
本稿では,光学系におけるデファスメントの影響を緩和するハードウェアスキームを提案する。
我々の方式は受動線形光学と補助真空モードのみを使用し、補助光子源や絡み合いは不要である。
建設的かつ破壊的な干渉を利用して、統計的に独立したノイズ源の有害な効果を部分的にキャンセルする。
我々は, 単一光子状態におけるコヒーレンスを保ち, 位相安定化星間干渉法, エンタングルメント分布の向上にアプローチを適用した。
これらの例のいくつかでは, 誤差緩和方式は漸近的限界における単位忠実度を実現し, 少数のアシラリー光学モードではそのような限界が急速に接近する。
恒星インターフェロメトリでは、このスキームはノイズの影響を二次因子で減少させる。 Dephasing is a main noise mechanism that afflicts quantum information, it reduces visibility, and destroys coherence and entanglement. Here we propose a hardware scheme to mitigate the effects of dephasing in an optical setup. Our scheme uses only passive linear optics and ancillary vacuum modes, and we do not need ancillary photon sources or entanglement. It exploits constructive and destructive interference to partially cancel the detrimental effects of statistically independent noise sources. We apply our approach to preserve coherence in single-photon states, to phase-stabilise stellar interferometry, and to enhance entanglement distribution. For some of these examples, our error mitigation scheme achieves unit fidelity in the asymptotic limit, and such a limit is rapidly approached for only a few ancillary optical modes. For stellar interferometry, our scheme reduces the effect of noise by a quadratic factor. | 翻訳日:2023-10-04 22:21:21 公開日:2023-10-02 |
# 線形注意は(おそらく)必要なすべてである(トランスフォーマー最適化を理解するために)。 Linear attention is (maybe) all you need (to understand transformer optimization) ( http://arxiv.org/abs/2310.01082v1 ) ライセンス: Link先を確認 | Kwangjun Ahn, Xiang Cheng, Minhak Song, Chulhee Yun, Ali Jadbabaie, Suvrit Sra | (参考訳) 変圧器の訓練は非常に難しく、オプティマイザの注意深い設計と様々なヒューリスティックスの使用が必要である。
我々は,単純だが正準線形化浅部変圧器モデルを慎重に研究することにより,訓練用変圧器の微妙さの理解に向けて前進する。
具体的には、J. von Oswald et al. (ICML 2023) と K. Ahn et al. (NeurIPS 2023) にインスパイアされた回帰問題を解くために線形変換器を訓練する。
最も重要な点は,提案する線形化モデルがトランスフォーマートレーニングダイナミクスのいくつかの顕著な側面を再現できることである。
その結果,単純な線形化トランスフォーマーモデルが,トランスフォーマー最適化を理解する上で有用で現実的な抽象化である可能性が示唆された。 Transformer training is notoriously difficult, requiring a careful design of optimizers and use of various heuristics. We make progress towards understanding the subtleties of training transformers by carefully studying a simple yet canonical linearized shallow transformer model. Specifically, we train linear transformers to solve regression tasks, inspired by J. von Oswald et al. (ICML 2023), and K. Ahn et al. (NeurIPS 2023). Most importantly, we observe that our proposed linearized models can reproduce several prominent aspects of transformer training dynamics. Consequently, the results obtained in this paper suggest that a simple linearized transformer model could actually be a valuable, realistic abstraction for understanding transformer optimization. | 翻訳日:2023-10-04 22:21:04 公開日:2023-10-02 |
# 未来へ:大規模言語モデルによる説明可能な時間推論を目指して Back to the Future: Towards Explainable Temporal Reasoning with Large Language Models ( http://arxiv.org/abs/2310.01074v1 ) ライセンス: Link先を確認 | Chenhan Yuan, Qianqian Xie, Jimin Huang and Sophia Ananiadou | (参考訳) 時間的推論は重要なNLPタスクであり、テキストデータ内の時間に敏感なコンテキストの微妙な理解を提供する。
LLMの最近の進歩は、時間的推論におけるその可能性を示しているが、主に時間的表現や時間的関係抽出といったタスクに焦点を当てている。
これらのタスクは、主に直接的および過去の時間的手がかりを抽出し、単純な推論プロセスに従事するように設計されている。
イベントの予測や将来のタイムスタンプの予測に多段階の時間的推論を必要とするイベント予測のような複雑な推論タスクを考える場合、大きなギャップは残る。
既存の方法のもう一つの注目すべき制限は、説明可能性を妨げる推論過程の図示ができないことである。
本稿では,複数の事象にまたがる複数の推論を必要とする文脈に基づいて,将来のタイムスタンプにおける事象の発生を予測するための,説明可能な時間的推論の最初のタスクを紹介し,その予測の明確な説明を提供する。
我々のタスクは、LLMの複雑な時間的推論能力、将来の事象予測能力、AIアプリケーションにおける説明可能性の重要な属性の両方を包括的に評価する。
この課題を支援するために,時間的知識グラフデータセットとその時間的推論経路から導出した26kの説明可能な時間的推論(ExpTime)を,新しい知識グラフ命令型世代戦略を用いて提案する。
このデータセットに基づいて,LlaMA2の基礎をベースとした最初のオープンソースLLMシリーズであるTimeLlaMAを提案する。
本手法は,時間予測と説明の最先端性能を実現するため,本手法の性能と様々なllmを比較した。 Temporal reasoning is a crucial NLP task, providing a nuanced understanding of time-sensitive contexts within textual data. Although recent advancements in LLMs have demonstrated their potential in temporal reasoning, the predominant focus has been on tasks such as temporal expression and temporal relation extraction. These tasks are primarily designed for the extraction of direct and past temporal cues and to engage in simple reasoning processes. A significant gap remains when considering complex reasoning tasks such as event forecasting, which requires multi-step temporal reasoning on events and prediction on the future timestamp. Another notable limitation of existing methods is their incapability to provide an illustration of their reasoning process, hindering explainability. In this paper, we introduce the first task of explainable temporal reasoning, to predict an event's occurrence at a future timestamp based on context which requires multiple reasoning over multiple events, and subsequently provide a clear explanation for their prediction. Our task offers a comprehensive evaluation of both the LLMs' complex temporal reasoning ability, the future event prediction ability, and explainability-a critical attribute for AI applications. To support this task, we present the first multi-source instruction-tuning dataset of explainable temporal reasoning (ExpTime) with 26k derived from the temporal knowledge graph datasets and their temporal reasoning paths, using a novel knowledge-graph-instructed-generation strategy. Based on the dataset, we propose the first open-source LLM series TimeLlaMA based on the foundation LlaMA2, with the ability of instruction following for explainable temporal reasoning. We compare the performance of our method and a variety of LLMs, where our method achieves the state-of-the-art performance of temporal prediction and explanation. | 翻訳日:2023-10-04 22:20:47 公開日:2023-10-02 |
# lod2建築モデル再構成のための正準写真からの教師なしルーフライン抽出 Unsupervised Roofline Extraction from True Orthophotos for LoD2 Building Model Reconstruction ( http://arxiv.org/abs/2310.01067v1 ) ライセンス: Link先を確認 | Weixiao Gao, Ravi Peters, Jantien Stoter | (参考訳) 本稿では,大規模都市環境における2次元および3次元データからのLoD2ビルディングモデルの再構築について論じる。
従来の手法では、ライダーポイントの雲を使うが、高度に発達する地域のデータ取得に伴うコストと長い間隔のため、研究者たちは(オブライクな)空中画像から生成されたポイントの雲の使用を探求し始めた。
しかし,このような点群を従来の平面検出に基づく手法で使用すると,大きな誤差が生じ,復元された建物モデルにノイズが生じる可能性がある。
そこで本論文では,LoD2レベルでの建物モデル再構築のためのライン検出手法を用いて,真正光線から屋根線を抽出する手法を提案する。
このアプローチは、事前ラベル付きトレーニングデータや事前トレーニングされたモデルを必要としない、比較的完全な屋根線を抽出することができる。
これらの線は、直接lod2ビルモデル復元プロセスで使用できる。
本手法は, 既設の平面検出法や最先端の深層学習法よりも, 再建された建物の精度と完全性において優れている。
ソースコードはhttps://github.com/tudelft3d/Roofline- Extraction-from-orthophotosで公開されています。 This paper discusses the reconstruction of LoD2 building models from 2D and 3D data for large-scale urban environments. Traditional methods involve the use of LiDAR point clouds, but due to high costs and long intervals associated with acquiring such data for rapidly developing areas, researchers have started exploring the use of point clouds generated from (oblique) aerial images. However, using such point clouds for traditional plane detection-based methods can result in significant errors and introduce noise into the reconstructed building models. To address this, this paper presents a method for extracting rooflines from true orthophotos using line detection for the reconstruction of building models at the LoD2 level. The approach is able to extract relatively complete rooflines without the need for pre-labeled training data or pre-trained models. These lines can directly be used in the LoD2 building model reconstruction process. The method is superior to existing plane detection-based methods and state-of-the-art deep learning methods in terms of the accuracy and completeness of the reconstructed building. Our source code is available at https://github.com/tudelft3d/Roofline-extraction-from-orthophotos. | 翻訳日:2023-10-04 22:20:16 公開日:2023-10-02 |
# 多様性の強さ:車両再識別のためのマルチブランチ表現学習 Strength in Diversity: Multi-Branch Representation Learning for Vehicle Re-Identification ( http://arxiv.org/abs/2310.01129v1 ) ライセンス: Link先を確認 | Eurico Almeida, Bruno Silva, Jorge Batista | (参考訳) 本稿では,車両再識別(v-reid)を改善するため,効率良く軽量なマルチブランチ深層アーキテクチャを提案する。
多くのV-ReID作業では、複雑なマルチブランチアーキテクチャを組み合わせて、堅牢で多様な埋め込みを抽出して再同定するが、単純で軽量なアーキテクチャは、性能を損なうことなくRe-IDタスクを実現するように設計されている。
機能多様性と特徴識別性を向上するマルチブランチアーキテクチャを設計するためのグループ畳み込みとロスブランチ分割の組み合わせを提案する。
ResNet50グローバルブランチアーキテクチャとBotNetセルフアテンションブランチアーキテクチャを組み合わせることで、どちらもLoss-Branch-Split(LBS)戦略で設計されています。
我々は、特殊損失分岐スプリッティングは、特殊再識別機能を生成することによって再識別タスクを改善するのに役立つと主張する。
グループ畳み込みを用いた軽量な解法も提案され, モデルサイズを大幅に削減しつつ, 複数埋め込みへのロススプリットの学習を模倣する。
さらに、カメラIDやポーズ情報などの追加メタデータを活用するための改良されたソリューションを設計し、パラメータを97%削減し、さらに再識別性能を改善した。
The State-of-the-art(SoTA)法と比較して,本手法は85.6% mAPと97.7% CMC1を達成し,Veri-Wildの88.1% mAPと96.3% CMC1の競合ソリューションよりも優れていた。
本研究は,車両再識別の改善に関する重要な知見を提供し,他の検索タスクの強力な基盤を提供する。
私たちのコードはhttps://github.com/videturfortuna/vehicle_reid_itsc2023で利用可能です。 This paper presents an efficient and lightweight multi-branch deep architecture to improve vehicle re-identification (V-ReID). While most V-ReID work uses a combination of complex multi-branch architectures to extract robust and diversified embeddings towards re-identification, we advocate that simple and lightweight architectures can be designed to fulfill the Re-ID task without compromising performance. We propose a combination of Grouped-convolution and Loss-Branch-Split strategies to design a multi-branch architecture that improve feature diversity and feature discriminability. We combine a ResNet50 global branch architecture with a BotNet self-attention branch architecture, both designed within a Loss-Branch-Split (LBS) strategy. We argue that specialized loss-branch-splitting helps to improve re-identification tasks by generating specialized re-identification features. A lightweight solution using grouped convolution is also proposed to mimic the learning of loss-splitting into multiple embeddings while significantly reducing the model size. In addition, we designed an improved solution to leverage additional metadata, such as camera ID and pose information, that uses 97% less parameters, further improving re-identification performance. In comparison to state-of-the-art (SoTA) methods, our approach outperforms competing solutions in Veri-776 by achieving 85.6% mAP and 97.7% CMC1 and obtains competitive results in Veri-Wild with 88.1% mAP and 96.3% CMC1. Overall, our work provides important insights into improving vehicle re-identification and presents a strong basis for other retrieval tasks. Our code is available at the https://github.com/videturfortuna/vehicle_reid_itsc2023. | 翻訳日:2023-10-04 22:14:15 公開日:2023-10-02 |
# 話者認識のための自己スーパービジョンによる音声とコンテンツの分離 Disentangling Voice and Content with Self-Supervision for Speaker Recognition ( http://arxiv.org/abs/2310.01128v1 ) ライセンス: Link先を確認 | Tianchi Liu, Kong Aik Lee, Qiongqiong Wang, Haizhou Li | (参考訳) 話者認識では,話者特性と内容が混在しているため,音声から正確な話者表現を抽出することは困難である。
本稿では,話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
異なる音声成分を抽出する学習可能な遷移モデルからなる3つのガウス推論層を用いて実現した。
特に、強化された遷移モデルは、複雑な音声力学をモデル化するために特別に設計されている。
また,話者識別以外のラベルを使わずにコンテンツを動的に切り離すセルフスーパービジョン手法を提案する。
提案フレームワークの有効性は,VoxCelebデータセットとSITWデータセットを用いて,それぞれEERおよびminDCFの平均減少率を9.56%,8.24%で検証した。
追加のモデルトレーニングやデータは特に必要とされないため、実用上容易に適用できる。 For speaker recognition, it is difficult to extract an accurate speaker representation from speech because of its mixture of speaker traits and content. This paper proposes a disentanglement framework that simultaneously models speaker traits and content variability in speech. It is realized with the use of three Gaussian inference layers, each consisting of a learnable transition model that extracts distinct speech components. Notably, a strengthened transition model is specifically designed to model complex speech dynamics. We also propose a self-supervision method to dynamically disentangle content without the use of labels other than speaker identities. The efficacy of the proposed framework is validated via experiments conducted on the VoxCeleb and SITW datasets with 9.56% and 8.24% average reductions in EER and minDCF, respectively. Since neither additional model training nor data is specifically needed, it is easily applicable in practical use. | 翻訳日:2023-10-04 22:13:40 公開日:2023-10-02 |
# 量子インスパイアハードウェアにおける3レベル量子メトリックの評価 Evaluating Three Levels of Quantum Metrics on Quantum-Inspire Hardware ( http://arxiv.org/abs/2310.01120v1 ) ライセンス: Link先を確認 | Ward van der Schoot, Robert Wezeman, Pieter Thijs Eendebak, Niels M. P. Neumann, Frank Phillipson | (参考訳) 量子コンピューティングの台頭により、多くの量子デバイスが開発され、我々が話すように多くのデバイスが開発されている。
このことは、どのデバイスがどのタスクを、どのように異なる量子デバイスを互いに比較するかという疑問を提起する。
答えは量子メトリクスによって与えられ、その多くがすでに存在している。
異なるメトリクスは(量子)デバイスの異なる側面に焦点を当て、あるデバイスを別のデバイスに対してベンチマークする適切なメトリックを選択することは難しい選択です。
本稿では,既存のメトリクスを3つのレベル(コンポーネントレベル,システムレベル,アプリケーションレベル)にグループ化することで,このメトリクスの動物園の概要を述べる。
この特徴付けでは、それぞれのレベルに対するメリットと利用についても述べています。
さらに、これらの指標を、クラウドアクセスを通じてQuantum-InspireのStarmon-5デバイス上で評価し、ユーザエクスペリエンスから現在までの量子デバイスの最も完全なベンチマークを提供する。 With the rise of quantum computing, many quantum devices have been developed and many more devices are being developed as we speak. This begs the question of which device excels at which tasks and how to compare these different quantum devices with one another. The answer is given by quantum metrics, of which many exist today already. Different metrics focus on different aspects of (quantum) devices and choosing the right metric to benchmark one device against another is a difficult choice. In this paper we aim to give an overview of this zoo of metrics by grouping established metrics in three levels: component level, system level and application level. With this characterisation we also mention what the merits and uses are for each of the different levels. In addition, we evaluate these metrics on the Starmon-5 device of Quantum-Inspire through the cloud access, giving the most complete benchmark of a quantum device from an user experience to date. | 翻訳日:2023-10-04 22:13:26 公開日:2023-10-02 |
# 大規模言語モデルの微調整による低リソース環境におけるテキストデータ拡張 Text Data Augmentation in Low-Resource Settings via Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2310.01119v1 ) ライセンス: Link先を確認 | Jean Kaddour, Qi Liu | (参考訳) 大規模言語モデル(LLM)のコンテキスト内学習能力により、比較的少ないラベル付き例で、ダウンストリームタスクを一般化することができる。
しかし、それらは膨大な計算資源をデプロイする必要がある。
あるいは、ラベル付きの例で微調整すれば、より小さなモデルは特定のタスクを解決できる。
しかし、これらの例は入手に費用がかかる。
両世界のベストを追求するために,より小さなモデルの下流性能を改善するために,教師llmによる微調整トレーニングデータのアノテーションと生成について検討した。
4つのテキスト分類と2つのテキスト生成タスクで、データ生成とアノテーションの両方がそれぞれの下流モデルのパフォーマンスを劇的に改善し、時には元のトレーニングデータセットのほんの一部しか必要としないことが分かった。 The in-context learning ability of large language models (LLMs) enables them to generalize to novel downstream tasks with relatively few labeled examples. However, they require enormous computational resources to be deployed. Alternatively, smaller models can solve specific tasks if fine-tuned with enough labeled examples. These examples, however, are expensive to obtain. In pursuit of the best of both worlds, we study the annotation and generation of fine-tuning training data via fine-tuned teacher LLMs to improve the downstream performance of much smaller models. In four text classification and two text generation tasks, we find that both data generation and annotation dramatically improve the respective downstream model's performance, occasionally necessitating only a minor fraction of the original training dataset. | 翻訳日:2023-10-04 22:13:10 公開日:2023-10-02 |
# 深層学習による非晶質物質からの結晶の出現予測 Predicting emergence of crystals from amorphous matter with deep learning ( http://arxiv.org/abs/2310.01117v1 ) ライセンス: Link先を確認 | Muratahan Aykol, Amil Merchant, Simon Batzner, Jennifer N. Wei, Ekin Dogus Cubuk | (参考訳) アモルファス相の準安定結晶への結晶化は、地質学から生物過程まで、実験室における新材料の合成と開発に至るまで、新物質の形成において重要な役割を担っている。
このような相転移の結果を確実に予測することは、これらの領域で新たな研究の方向性を可能にするが、分子モデリングやab-initio法には届かなかった。
ここでは, アモルファス相の結晶化生成物は, 局所構造モチーフの結晶化経路を, 普遍的な深層学習電位を用いてサンプリングすることにより, 無機化学において予測可能であることを示す。
このアプローチは, ポリモルフィック酸化物, 窒化物, 炭化物, フッ化物, 塩化物, カルコゲナイド, 金属合金など, 様々な材料系において, アモルファス前駆体の結晶構造を高精度に同定する。
以上の結果から,オストワルドのステージ制御は分子レベルでメカニックに活用でき,材料合成における非晶質相から新しい準安定結晶に予測的にアクセスできることが示された。 Crystallization of the amorphous phases into metastable crystals plays a fundamental role in the formation of new matter, from geological to biological processes in nature to synthesis and development of new materials in the laboratory. Predicting the outcome of such phase transitions reliably would enable new research directions in these areas, but has remained beyond reach with molecular modeling or ab-initio methods. Here, we show that crystallization products of amorphous phases can be predicted in any inorganic chemistry by sampling the crystallization pathways of their local structural motifs at the atomistic level using universal deep learning potentials. We show that this approach identifies the crystal structures of polymorphs that initially nucleate from amorphous precursors with high accuracy across a diverse set of material systems, including polymorphic oxides, nitrides, carbides, fluorides, chlorides, chalcogenides, and metal alloys. Our results demonstrate that Ostwald's rule of stages can be exploited mechanistically at the molecular level to predictably access new metastable crystals from the amorphous phase in material synthesis. | 翻訳日:2023-10-04 22:12:58 公開日:2023-10-02 |
# 逆問題に対するプロンプトチューニング潜在拡散モデル Prompt-tuning latent diffusion models for inverse problems ( http://arxiv.org/abs/2310.01110v1 ) ライセンス: Link先を確認 | Hyungjin Chung, Jong Chul Ye, Peyman Milanfar, Mauricio Delbracio | (参考訳) 本稿では,テキストから画像への遅延拡散モデルを用いた逆問題の画像化手法を提案する。
逆問題に潜伏拡散モデルを用いる既存の手法は、通常単純なnullテキストプロンプトに依存している。
この制限に対処するために,逆拡散処理を実行しながらオンザフライでテキスト埋め込みを最適化するプロンプトチューニング法を提案する。
これにより、以前の拡散に忠実な画像を生成することができる。
さらに,エンコーダの範囲空間内における潜在変数の進化を投影によって維持する手法を提案する。
これはピクセルベースの拡散モデルではなく潜在拡散モデルを使う際に大きな問題となる画像アーティファクトを減らすのに役立つ。
P2Lと呼ばれる組み合わせの手法は,超解像,デブロアリング,塗装などの様々なタスクにおいて,画像拡散モデルと潜時拡散モデルに基づく逆問題解法の両方に優れる。 We propose a new method for solving imaging inverse problems using text-to-image latent diffusion models as general priors. Existing methods using latent diffusion models for inverse problems typically rely on simple null text prompts, which can lead to suboptimal performance. To address this limitation, we introduce a method for prompt tuning, which jointly optimizes the text embedding on-the-fly while running the reverse diffusion process. This allows us to generate images that are more faithful to the diffusion prior. In addition, we propose a method to keep the evolution of latent variables within the range space of the encoder, by projection. This helps to reduce image artifacts, a major problem when using latent diffusion models instead of pixel-based diffusion models. Our combined method, called P2L, outperforms both image- and latent-diffusion model-based inverse problem solvers on a variety of tasks, such as super-resolution, deblurring, and inpainting. | 翻訳日:2023-10-04 22:12:35 公開日:2023-10-02 |
# R-divergenceによるモデル指向分布差の推定 R-divergence for Estimating Model-oriented Distribution Discrepancy ( http://arxiv.org/abs/2310.01109v1 ) ライセンス: Link先を確認 | Zhilin Zhao and Longbing Cao | (参考訳) 実生活データは複雑な分布と相互作用のためにしばしば非IIDであり、サンプルの分布に対する感度は学習モデルによって異なる。
したがって、教師付きまたは教師なしモデルにとって重要な疑問は、2つの与えられたデータセットの確率分布が同一視できるかどうかである。
この問題に対処するために、モデル指向分布の相違性を評価するために設計されたR分割を導入する。
中心的な洞察は、2つの分布が最適仮説が各分布に対して同じ期待されるリスクをもたらす場合、おそらく同一であるということである。
2つのデータセット間の分布差を推定するために、R分割は混合データ上で最小の仮説を学習し、それらの間の経験的リスク差を測定する。
教師なしタスクおよび教師なしタスクにおけるテストパワーの評価を行い、R分割が最先端のパフォーマンスを達成することを確認する。
R分割の実用性を実証するため、ノイズラベル付きサンプル上で頑健なニューラルネットワークをトレーニングするためにR分割を用いる。 Real-life data are often non-IID due to complex distributions and interactions, and the sensitivity to the distribution of samples can differ among learning models. Accordingly, a key question for any supervised or unsupervised model is whether the probability distributions of two given datasets can be considered identical. To address this question, we introduce R-divergence, designed to assess model-oriented distribution discrepancies. The core insight is that two distributions are likely identical if their optimal hypothesis yields the same expected risk for each distribution. To estimate the distribution discrepancy between two datasets, R-divergence learns a minimum hypothesis on the mixed data and then gauges the empirical risk difference between them. We evaluate the test power across various unsupervised and supervised tasks and find that R-divergence achieves state-of-the-art performance. To demonstrate the practicality of R-divergence, we employ R-divergence to train robust neural networks on samples with noisy labels. | 翻訳日:2023-10-04 22:12:18 公開日:2023-10-02 |
# ground-a-video:テキストから画像への拡散モデルを用いたゼロショットグラウンドビデオ編集 Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models ( http://arxiv.org/abs/2310.01107v1 ) ライセンス: Link先を確認 | Hyeonho Jeong and Jong Chul Ye | (参考訳) ビデオ編集における最近の取り組みは、テキストからビデオへのモデル(t2v)をテキストビデオデータでトレーニングするか、トレーニングフリーの方法を採用するかのどちらかで、単一属性の編集やスタイル転送タスクで有望な結果を示している。
しかし、多属性編集シナリオの複雑さに直面すると、意図した属性変更の省略や見落とし、入力ビデオの間違った要素の変更、入力ビデオの領域の保存の失敗といった欠点が現れる。
そこで本稿では,マルチアトリビュートビデオ編集のための新しいグラウンドガイド付きビデオからビデオへの翻訳フレームワークである ground-a-video を提案する。
ground-a-videoは、前述した欠点なく、トレーニングフリーで入力ビデオの時間的一貫性のあるマルチ属性編集を実現する。
本手法の中心となるクロスフレームゲート・アテンションの導入は,時間的に一貫性のある方法で,情報接地を潜在表現に組み込むとともに,変調されたクロスアテンションと光流誘導反転潜時平滑化を実現する。
広範囲な実験と応用により、グランド・ア・ビデオのゼロショットキャパシティは、編集精度とフレーム一貫性の観点から他のベースラインメソッドよりも優れていることが示されている。
さらなる結果とコードは、プロジェクトページ(http://ground-a-video.github.io)で提供されます。 Recent endeavors in video editing have showcased promising results in single-attribute editing or style transfer tasks, either by training text-to-video (T2V) models on text-video data or adopting training-free methods. However, when confronted with the complexities of multi-attribute editing scenarios, they exhibit shortcomings such as omitting or overlooking intended attribute changes, modifying the wrong elements of the input video, and failing to preserve regions of the input video that should remain intact. To address this, here we present a novel grounding-guided video-to-video translation framework called Ground-A-Video for multi-attribute video editing. Ground-A-Video attains temporally consistent multi-attribute editing of input videos in a training-free manner without aforementioned shortcomings. Central to our method is the introduction of Cross-Frame Gated Attention which incorporates groundings information into the latent representations in a temporally consistent fashion, along with Modulated Cross-Attention and optical flow guided inverted latents smoothing. Extensive experiments and applications demonstrate that Ground-A-Video's zero-shot capacity outperforms other baseline methods in terms of edit-accuracy and frame consistency. Further results and codes are provided at our project page (http://ground-a-video.github.io). | 翻訳日:2023-10-04 22:12:00 公開日:2023-10-02 |
# 一般費用のエネルギー誘導型連続エントロピーバリアセンター推定 Energy-Guided Continuous Entropic Barycenter Estimation for General Costs ( http://arxiv.org/abs/2310.01105v1 ) ライセンス: Link先を確認 | Alexander Kolesov, Petr Mokrov, Igor Udovichenko, Milena Gazdieva, Gudmund Pammer, Evgeny Burnaev, Alexander Korotin | (参考訳) 最適輸送(OT)バリセンターは、幾何学的性質を捉えながら確率分布を平均化する方法である。
要するに、バリセンターのタスクは、OTの相違点が与えられた確率分布の集合の平均を取ることである。
任意のOTコスト関数に対して連続的エントロピーOT(EOT)バリセンタを近似する新しいアルゴリズムを提案する。
我々のアプローチは、最近MLコミュニティの注目を集めている弱いOTに基づくEOT問題の二重再構成に基づいている。
新規性以外にも、我々の方法にはいくつかの利点がある。
(i)回収した溶液の品質境界を確立する。
(二)この手法は、関心事問題によく調整されたアルゴリズムの使用を可能にする、エネルギーベースモデル(EBM)学習手順と全く無関係である。
(iii)ミニマックス、強化、その他の複雑な技術的トリックを避けるための直感的な最適化スキームを提供する。
検証には,非ユークリッドコスト関数を含むいくつかの低次元シナリオと画像空間の設定を検討する。
さらに,事前学習した生成モデルで生成した画像多様体上でバリセンタを学習する実践的課題について検討し,実世界の応用への新たな方向について検討する。 Optimal transport (OT) barycenters are a mathematically grounded way of averaging probability distributions while capturing their geometric properties. In short, the barycenter task is to take the average of a collection of probability distributions w.r.t. given OT discrepancies. We propose a novel algorithm for approximating the continuous Entropic OT (EOT) barycenter for arbitrary OT cost functions. Our approach is built upon the dual reformulation of the EOT problem based on weak OT, which has recently gained the attention of the ML community. Beyond its novelty, our method enjoys several advantageous properties: (i) we establish quality bounds for the recovered solution; (ii) this approach seemlessly interconnects with the Energy-Based Models (EBMs) learning procedure enabling the use of well-tuned algorithms for the problem of interest; (iii) it provides an intuitive optimization scheme avoiding min-max, reinforce and other intricate technical tricks. For validation, we consider several low-dimensional scenarios and image-space setups, including non-Euclidean cost functions. Furthermore, we investigate the practical task of learning the barycenter on an image manifold generated by a pretrained generative model, opening up new directions for real-world applications. | 翻訳日:2023-10-04 22:11:37 公開日:2023-10-02 |
# HyMNet: 基礎写真と心臓メタボリックリスクファクターを用いた高血圧分類のためのマルチモーダル深層学習システム HyMNet: a Multimodal Deep Learning System for Hypertension Classification using Fundus Photographs and Cardiometabolic Risk Factors ( http://arxiv.org/abs/2310.01099v1 ) ライセンス: Link先を確認 | Mohammed Baharoon, Hessa Almatar, Reema Alduhayan, Tariq Aldebasi, Badr Alahmadi, Yahya Bokhari, Mohammed Alawad, Ahmed Almazroa, Abdulrhman Aljouie | (参考訳) 近年、深層学習は、基礎画像から高血圧(HTN)を予測することを約束している。
しかしながら、ほとんどの先行研究は、主に1種類のデータを分析することに重点を置いており、htnリスクの完全な複雑さを捉えていない可能性がある。
そこで本研究では,多変量ディープラーニング(mmdl,multimodal deep learning)システムであるhymnetを導入する。
当社のmmdlシステムは,imagenetで事前トレーニングされたdeepnet-201アーキテクチャを,基礎イメージングパスと年齢と性別パスの完全接続ニューラルネットワークとして使用する。
2つの経路は、融合ネットワークに供給される各経路から出力される64の特徴を連結することにより共同で訓練される。
このシステムはサウジアラビア国防省から収集された626人の網膜画像1,143枚で訓練された。
その結果, 眼底画像と年齢, 性別を併用したマルチモーダルモデルはAUC0.791 (CI: 0.735, 0.848] を達成し, 高血圧検出のためのAUC0.766 (CI: 0.705, 0.828) を達成した。 In recent years, deep learning has shown promise in predicting hypertension (HTN) from fundus images. However, most prior research has primarily focused on analyzing a single type of data, which may not capture the full complexity of HTN risk. To address this limitation, this study introduces a multimodal deep learning (MMDL) system, dubbed HyMNet, which combines fundus images and cardiometabolic risk factors, specifically age and gender, to improve hypertension detection capabilities. Our MMDL system uses the DenseNet-201 architecture, pre-trained on ImageNet, for the fundus imaging path and a fully connected neural network for the age and gender path. The two paths are jointly trained by concatenating 64 features output from each path that are then fed into a fusion network. The system was trained on 1,143 retinal images from 626 individuals collected from the Saudi Ministry of National Guard Health Affairs. The results show that the multimodal model that integrates fundus images along with age and gender achieved an AUC of 0.791 [CI: 0.735, 0.848], which outperforms the unimodal model trained solely on fundus photographs that yielded an AUC of 0.766 [CI: 0.705, 0.828] for hypertension detection. | 翻訳日:2023-10-04 22:11:18 公開日:2023-10-02 |
# 大規模言語モデルによるスマートコントラクト脆弱性検出 - 新しい展望 Large Language Model-Powered Smart Contract Vulnerability Detection: New Perspectives ( http://arxiv.org/abs/2310.01152v1 ) ライセンス: Link先を確認 | Sihao Hu, Tiansheng Huang, Fatih \.Ilhan, Selim Fukan Tekin, Ling Liu | (参考訳) 本稿では,LLMを利用してスマートコントラクト内の脆弱性を探索する可能性,課題,潜在的なソリューションを体系的に分析する。
スマートコントラクト脆弱性検出タスクでは、実用的なユーザビリティを実現するための鍵は、偽陽性の数を最小にしつつ、可能な限り多くの真の脆弱性を検出することだ。
しかし, LLM を検出ツールとして用いた実証実験では, 高いランダム性で回答を多く生成すると, 必然的に偽陽性の発生率が高くなり, 徹底的な手作業による検証が実施されるという興味深い結果が得られた。
この緊張を軽減するため,従来の1段階検出を2つの相乗的段階($-$)に分割し,プログレッシブ検出と微調整を行うGPTLens(GPTLens)という対戦型フレームワークを提案する。
監査者の目標は、中間推論で複数の多様な脆弱性を識別することであり、批判の目標は、特定された脆弱性の正確性を評価し、検出推論の完全性を調べることである。
実験結果と実例から, オーディエンスと批評家が協調して, 従来の一段階検出よりも大幅に改善したことを示す。
gptlensは直感的で、戦略的で、スマートコントラクトの専門知識に頼ることなく、完全にllm駆動であり、その方法論上の汎用性と幅広い脆弱性を検出する可能性を示している。
私たちのコードは、https://github.com/git-disl/GPTLens.comで利用可能です。 This paper provides a systematic analysis of the opportunities, challenges, and potential solutions of harnessing LLMs to dig out vulnerabilities within smart contracts based on our ongoing research. For the smart contract vulnerability detection task, the key to achieving practical usability lies in detecting as many true vulnerabilities as possible while minimizing the number of false positives. However, our empirical study using LLM as a detection tool reveals interesting yet contradictory findings: generating more answers with higher randomness largely increases the likelihood of a correct answer being generated while inevitably leading to a higher number of false positives, resulting in exhaustive manual verification efforts. To mitigate this tension, we propose an adversarial framework dubbed GPTLens that breaks the traditional one-stage detection into two synergistic stages $-$ generation and discrimination, for progressive detection and fine-tuning, wherein the LLM plays dual roles, i.e., auditor and critic, respectively. The goal of auditor is to identify multiple diverse vulnerabilities with intermediate reasoning, while the goal of critic is to evaluate the accuracy of identified vulnerabilities and to examine the integrity of the detection reasoning. Experimental results and illustrative examples demonstrate that auditor and critic work together harmoniously to yield significant improvements over the traditional one-stage detection. GPTLens is intuitive, strategic, and entirely LLM-driven without relying on specialist expertise in smart contracts, showcasing its methodical generality and potential to detect a broad spectrum of vulnerabilities. Our code is available at: https://github.com/git-disl/GPTLens. | 翻訳日:2023-10-04 22:02:54 公開日:2023-10-02 |
# ニューラルネットワークによる暗号ポートフォリオ最適化 Cryptocurrency Portfolio Optimization by Neural Networks ( http://arxiv.org/abs/2310.01148v1 ) ライセンス: Link先を確認 | Quoc Minh Nguyen, Dat Thanh Tran, Juho Kanniainen, Alexandros Iosifidis, Moncef Gabbouj | (参考訳) 多くの暗号通貨ブローカーは様々なデリバティブ資産を提供しており、トレーダーがヘッジや投機を行うことができる。
本稿では、これらの投資商品を利用するニューラルネットワークに基づく効果的なアルゴリズムを提案する。
提案アルゴリズムは,一対の負相関資産を含むポートフォリオを構成する。
シャープ比を最大化するために、各アセットの割り当て重量を時間間隔で出力するディープニューラルネットワークを訓練する。
ネットワークの特定の資産に対するバイアスを規制するために、ネットワークに最小分散戦略に近い割り当て戦略を学ぶよう強制するために、新たな損失項が提案されている。
提案手法の有効性を評価するため,19ヶ月にわたるBinanceのデータを用いて大規模な実験を行った。
バックテストの結果,提案アルゴリズムは,異なる市場状況で利益を出せるニューラルネットワークを生成できることが示された。 Many cryptocurrency brokers nowadays offer a variety of derivative assets that allow traders to perform hedging or speculation. This paper proposes an effective algorithm based on neural networks to take advantage of these investment products. The proposed algorithm constructs a portfolio that contains a pair of negatively correlated assets. A deep neural network, which outputs the allocation weight of each asset at a time interval, is trained to maximize the Sharpe ratio. A novel loss term is proposed to regulate the network's bias towards a specific asset, thus enforcing the network to learn an allocation strategy that is close to a minimum variance strategy. Extensive experiments were conducted using data collected from Binance spanning 19 months to evaluate the effectiveness of our approach. The backtest results show that the proposed algorithm can produce neural networks that are able to make profits in different market situations. | 翻訳日:2023-10-04 22:02:21 公開日:2023-10-02 |
# 並列時間確率数値ODEソルバ Parallel-in-Time Probabilistic Numerical ODE Solvers ( http://arxiv.org/abs/2310.01145v1 ) ライセンス: Link先を確認 | Nathanael Bosch, Adrien Corenflos, Fatemeh Yaghoobi, Filip Tronarp, Philipp Hennig, Simo S\"arkk\"a | (参考訳) 常微分方程式(ODE)の確率論的数値解法は、力学系の数値シミュレーションをベイズ状態推定の問題として扱う。
この定式化の利点は、ODE溶液上に後続分布を生成して数値近似誤差を定量化する以外に、ベイズフィルタと滑らか化の枠組みで数値シミュレーションを定式化することによって得られるアルゴリズムの柔軟性である。
本稿では、この柔軟性を活用し、反復拡張カルマンスムーダの時間並列定式化に基づいて並列時間確率数値ODEソルバを定式化する。
提案手法は,現在の確率的解法で行われているように,時系列的に力学系をシミュレートする代わりに,すべての時間ステップを並列に処理し,時間ステップ数における線形から対数へのスパンコストを削減する。
提案手法の有効性を様々なODE上で実証し,古典的および確率的数値ODE解法の両方と比較する。 Probabilistic numerical solvers for ordinary differential equations (ODEs) treat the numerical simulation of dynamical systems as problems of Bayesian state estimation. Aside from producing posterior distributions over ODE solutions and thereby quantifying the numerical approximation error of the method itself, one less-often noted advantage of this formalism is the algorithmic flexibility gained by formulating numerical simulation in the framework of Bayesian filtering and smoothing. In this paper, we leverage this flexibility and build on the time-parallel formulation of iterated extended Kalman smoothers to formulate a parallel-in-time probabilistic numerical ODE solver. Instead of simulating the dynamical system sequentially in time, as done by current probabilistic solvers, the proposed method processes all time steps in parallel and thereby reduces the span cost from linear to logarithmic in the number of time steps. We demonstrate the effectiveness of our approach on a variety of ODEs and compare it to a range of both classic and probabilistic numerical ODE solvers. | 翻訳日:2023-10-04 22:02:06 公開日:2023-10-02 |
# 地図の方程式は神経質になり The Map Equation Goes Neural ( http://arxiv.org/abs/2310.01144v1 ) ライセンス: Link先を確認 | Christopher Bl\"ocker, Chester Tan, Ingo Scholtes | (参考訳) コミュニティ検出とグラフクラスタリングは、教師なしデータ探索とネットワークシステムのハイレベルな組織理解に不可欠である。
近年、グラフクラスタリングは、グラフニューラルネットワークの未熟なプライマリタスクとして注目されている。
階層型グラフプーリングは、グラフとノードの分類タスクのパフォーマンスを改善することが示されているが、有意義なクラスタの識別には不十分である。
コミュニティ検出は、ネットワーク科学において長い歴史を持つが、一般的には、カスタムカスタマイズされた検索アルゴリズムによる客観的関数の最適化に依存しており、特にグラフニューラルネットワークによるディープラーニングの最近の進歩を活用していない。
本稿では,深層学習とネットワーク科学のコミュニティとのギャップを狭める。
地域検出のための情報理論目的関数であるマップ方程式を考察する。
ソフトクラスタ割り当てを生成する完全微分可能なテンソル形式で表現し、勾配降下による深層学習でマップ方程式を最適化する。
より具体的には、改革されたマップ方程式は、任意のグラフニューラルネットワークアーキテクチャと互換性のある損失関数であり、グラフ構造とデータ特徴の両方をエンドツーエンドでクラスタ化する柔軟なクラスタリングとグラフプーリングを可能にする。
本研究では,合成データと実データとの教師なしクラスタリングのために,異なるニューラルネットワークアーキテクチャを用いて実験的にアプローチを評価する。
以上の結果から,本手法はベースラインに対する競争性能を向上し,重複するコミュニティを自然に検出し,スパースグラフの過分割を回避する。 Community detection and graph clustering are essential for unsupervised data exploration and understanding the high-level organisation of networked systems. Recently, graph clustering has been highlighted as an under-explored primary task for graph neural networks. While hierarchical graph pooling has been shown to improve performance in graph and node classification tasks, it performs poorly in identifying meaningful clusters. Community detection has a long history in network science, but typically relies on optimising objective functions with custom-tailored search algorithms, not leveraging recent advances in deep learning, particularly from graph neural networks. In this paper, we narrow this gap between the deep learning and network science communities. We consider the map equation, an information-theoretic objective function for community detection. Expressing it in a fully differentiable tensor form that produces soft cluster assignments, we optimise the map equation with deep learning through gradient descent. More specifically, the reformulated map equation is a loss function compatible with any graph neural network architecture, enabling flexible clustering and graph pooling that clusters both graph structure and data features in an end-to-end way, automatically finding an optimum number of clusters without explicit regularisation. We evaluate our approach experimentally using different neural network architectures for unsupervised clustering in synthetic and real data. Our results show that our approach achieves competitive performance against baselines, naturally detects overlapping communities, and avoids over-partitioning sparse graphs. | 翻訳日:2023-10-04 22:01:42 公開日:2023-10-02 |
# [Re]CLRNet:レーン検出のためのクロス層リファインメントネットワーク [Re] CLRNet: Cross Layer Refinement Network for Lane Detection ( http://arxiv.org/abs/2310.01142v1 ) ライセンス: Link先を確認 | Viswesh N, Kaushal Jadhav, Avi Amalanshu, Bratin Mondal, Sabaris Waran, Om Sadhwani, Apoorv Kumar, Debashish Chakravarty | (参考訳) 次の作業はCLRNet: Cross Layer Refinement Network for Lane Detectionの再現性レポートである。
基本コードは著者によって利用可能になった。
本稿では,高レベルと低レベルの両方の特徴を車線検出に活用する,新しいクロスレイヤー・リファインメントネットワークを提案する。
著者らは,提案手法が3つの車線検出ベンチマークに新しい最新技術を設定することを主張する。 The following work is a reproducibility report for CLRNet: Cross Layer Refinement Network for Lane Detection. The basic code was made available by the author. The paper proposes a novel Cross Layer Refinement Network to utilize both high and low level features for lane detection. The authors assert that the proposed technique sets the new state-of-the-art on three lane-detection benchmarks | 翻訳日:2023-10-04 22:01:15 公開日:2023-10-02 |
# 三面ハイブリッドニューラルフィールドのニューラルプロセッシング Neural Processing of Tri-Plane Hybrid Neural Fields ( http://arxiv.org/abs/2310.01140v1 ) ライセンス: Link先を確認 | Adriano Cardace, Pierluigi Zama Ramirez, Francesco Ballerini, Allan Zhou, Samuele Salti, Luigi Di Stefano | (参考訳) 3Dデータの保存と通信のためのニューラルネットワークの魅力によって、分類や部分分割といったタスクに対処するための直接処理の問題が出現し、近年研究が進められている。
初期のアプローチでは、データセット全体でトレーニングされた共有ネットワークによってパラメータ化されたニューラルネットワークを採用し、優れたタスクパフォーマンスを実現しつつ、再構成品質を犠牲にしている。
後者の改良のために、後の手法では、大きな多層パーセプトロン(mlps)としてパラメータ化された個々の神経場に焦点を当てているが、重み空間の高次元、内在的な重み空間対称性、ランダム初期化に対する感受性のため、処理が困難である。
したがって、ポイントクラウドやメッシュといった明示的な表現を処理することで得られる結果よりも、結果が著しく劣ることがわかった。
一方、特に三面体に基づくハイブリッド表現は、ニューラルネットワークを実現するためのより効率的で効率的な代替手段として現れてきたが、その直接処理はまだ研究されていない。
本稿では,三平面離散データ構造がリッチな情報を符号化し,標準ディープラーニング機械で効果的に処理できることを示す。
我々は、占有率、符号付き/符号なし距離、および初めて放射場などの様々な分野をカバーする広範囲なベンチマークを定義する。
同じ再構成品質のフィールドを処理する一方で、大規模なMLPを処理するフレームワークよりもはるかに優れたタスク性能を実現しています。 Driven by the appealing properties of neural fields for storing and communicating 3D data, the problem of directly processing them to address tasks such as classification and part segmentation has emerged and has been investigated in recent works. Early approaches employ neural fields parameterized by shared networks trained on the whole dataset, achieving good task performance but sacrificing reconstruction quality. To improve the latter, later methods focus on individual neural fields parameterized as large Multi-Layer Perceptrons (MLPs), which are, however, challenging to process due to the high dimensionality of the weight space, intrinsic weight space symmetries, and sensitivity to random initialization. Hence, results turn out significantly inferior to those achieved by processing explicit representations, e.g., point clouds or meshes. In the meantime, hybrid representations, in particular based on tri-planes, have emerged as a more effective and efficient alternative to realize neural fields, but their direct processing has not been investigated yet. In this paper, we show that the tri-plane discrete data structure encodes rich information, which can be effectively processed by standard deep-learning machinery. We define an extensive benchmark covering a diverse set of fields such as occupancy, signed/unsigned distance, and, for the first time, radiance fields. While processing a field with the same reconstruction quality, we achieve task performance far superior to frameworks that process large MLPs and, for the first time, almost on par with architectures handling explicit representations. | 翻訳日:2023-10-04 22:01:08 公開日:2023-10-02 |
# ミニバッチSGDと局所SGDの安定性と一般化 Stability and Generalization for Minibatch SGD and Local SGD ( http://arxiv.org/abs/2310.01139v1 ) ライセンス: Link先を確認 | Yunwen Lei, Tao Sun, Mingrui Liu | (参考訳) データの規模が大きくなることで、最適化のスピードアップに並列性を活用する人気が高まっている。
ミニバッチ確率勾配降下(ミニバッチSGD)と局所SGDは並列最適化の2つの一般的な方法である。
既存の理論的研究は、最適化誤差によって測定される機械の数に関して、これらの手法の線形高速化を示している。
比較として、これらの手法の安定性と一般化はあまり研究されていない。
本稿では,ミニバッチとローカルsgdの安定性と一般化解析を行い,学習可能性について考察する。
トレーニングエラーを安定性解析に組み込むことで、過パラメータモデルの一般化にいかに役立つかを示す。
我々の安定性は、低騒音条件下で急速に崩壊する楽観的なリスク境界を暗示している。
最適リスク境界を達成するために,ミニバッチと局所SGDの両方が線形スピードアップを達成することを示す。 The increasing scale of data propels the popularity of leveraging parallelism to speed up the optimization. Minibatch stochastic gradient descent (minibatch SGD) and local SGD are two popular methods for parallel optimization. The existing theoretical studies show a linear speedup of these methods with respect to the number of machines, which, however, is measured by optimization errors. As a comparison, the stability and generalization of these methods are much less studied. In this paper, we pioneer the stability and generalization analysis of minibatch and local SGD to understand their learnability. We incorporate training errors into the stability analysis, which shows how small training errors help generalization for overparameterized models. Our stability bounds imply optimistic risk bounds which decay fast under a low noise condition. We show both minibatch and local SGD achieve a linear speedup to attain the optimal risk bounds. | 翻訳日:2023-10-04 22:00:41 公開日:2023-10-02 |
# ニュースにおける文脈的政治的バイアス検出 Target-Aware Contextual Political Bias Detection in News ( http://arxiv.org/abs/2310.01138v1 ) ライセンス: Link先を確認 | Iffat Maab, Edison Marrese-Taylor, Yutaka Matsuo | (参考訳) メディアバイアス検出には、複数のニュースソースからの情報を包括的に統合する必要がある。
ニュースにおける文レベルの政治的バイアス検出も例外ではなく、文脈を考慮したバイアスの理解を必要とする課題であることが証明されている。
人間が様々な書き方を示すという事実に触発され、様々な局所的文脈とグローバル的文脈を持つ様々なステートメントを生み出し、メディアバイアス検出における以前の研究は、この事実を利用するために拡張技術を提案している。
彼らの成功にもかかわらず、これらの手法はバイアスコンテキスト境界を過度に一般化することでノイズを生じさせ、性能を阻害する。
この問題を軽減するために,データ拡張のためのバイアスに敏感な目標認識手法を用いて,より注意深く文脈を探索する手法を提案する。
よく知られているBASILデータセットに関する包括的な実験は、BERTのような事前訓練されたモデルと組み合わせることで、我々の拡張技術が最先端の結果をもたらすことを示している。
提案手法は従来の手法よりも優れ,最先端バイアス検出タスクに対してF1スコア58.15を得る。 Media bias detection requires comprehensive integration of information derived from multiple news sources. Sentence-level political bias detection in news is no exception, and has proven to be a challenging task that requires an understanding of bias in consideration of the context. Inspired by the fact that humans exhibit varying degrees of writing styles, resulting in a diverse range of statements with different local and global contexts, previous work in media bias detection has proposed augmentation techniques to exploit this fact. Despite their success, we observe that these techniques introduce noise by over-generalizing bias context boundaries, which hinders performance. To alleviate this issue, we propose techniques to more carefully search for context using a bias-sensitive, target-aware approach for data augmentation. Comprehensive experiments on the well-known BASIL dataset show that when combined with pre-trained models such as BERT, our augmentation techniques lead to state-of-the-art results. Our approach outperforms previous methods significantly, obtaining an F1-score of 58.15 over state-of-the-art bias detection task. | 翻訳日:2023-10-04 22:00:28 公開日:2023-10-02 |
# LLMとBoWによる授業支援の自動評価:グローバル予測と特定のフィードバックを結びつける Automated Evaluation of Classroom Instructional Support with LLMs and BoWs: Connecting Global Predictions to Specific Feedback ( http://arxiv.org/abs/2310.01132v1 ) ライセンス: Link先を確認 | Jacob Whitehill and Jennifer LoCasale-Crouch | (参考訳) 教師により具体的で頻繁で行動可能な授業フィードバックを提供することを目的として,広範言語モデル(LLM)を用いて,広く使用されている観察プロトコルであるCLLASS(CLassroom Assessment Scoring System)の「インストラクショナルサポート」ドメインスコアを推定する方法について検討した。
教師の発話(openaiのささやきで自動的に書き起こされる)の個々の発話を11の行動指標で分類するために、メタのllama2モデルのゼロショットプロンプトと/または古典的な単語の袋(bow)モデルを使用する機械学習アーキテクチャを設計した。
そして、これらの発話レベル判定を15分間の観察セッション全体にわたって集約し、グローバルクラススコアを推定する。
幼児と幼稚園前教室の2つのCLASS符号化データセットを用いた実験では、(1)提案手法を用いて自動CLASS教育支援推定精度(Pearson $R$から0.46$まで)が、人体間の信頼性(R=0.55$まで)に近づくこと、(2)LLMがBoWよりも若干精度が高いこと、(3)LLMとBoWの両方から抽出される最良のモデルが組み合わさっていることが示されている。
最後に,モデルの出力を発話レベルで可視化し,どの発話が最も肯定的か否定的にクラス次元に関連付けられたかを教師に説明可能なフィードバックを与える方法を示す。 With the aim to provide teachers with more specific, frequent, and actionable feedback about their teaching, we explore how Large Language Models (LLMs) can be used to estimate ``Instructional Support'' domain scores of the CLassroom Assessment Scoring System (CLASS), a widely used observation protocol. We design a machine learning architecture that uses either zero-shot prompting of Meta's Llama2, and/or a classic Bag of Words (BoW) model, to classify individual utterances of teachers' speech (transcribed automatically using OpenAI's Whisper) for the presence of 11 behavioral indicators of Instructional Support. Then, these utterance-level judgments are aggregated over an entire 15-min observation session to estimate a global CLASS score. Experiments on two CLASS-coded datasets of toddler and pre-kindergarten classrooms indicate that (1) automatic CLASS Instructional Support estimation accuracy using the proposed method (Pearson $R$ up to $0.46$) approaches human inter-rater reliability (up to $R=0.55$); (2) LLMs yield slightly greater accuracy than BoW for this task; and (3) the best models often combined features extracted from both LLM and BoW. Finally, (4) we illustrate how the model's outputs can be visualized at the utterance level to provide teachers with explainable feedback on which utterances were most positively or negatively correlated with specific CLASS dimensions. | 翻訳日:2023-10-04 22:00:09 公開日:2023-10-02 |
# Commin: INN誘導拡散モデルを用いた逆問題としての意味的画像通信 CommIN: Semantic Image Communications as an Inverse Problem with INN-Guided Diffusion Models ( http://arxiv.org/abs/2310.01130v1 ) ライセンス: Link先を確認 | Jiakang Chen, Di You, Deniz G\"und\"uz, Pier Luigi Dragotti | (参考訳) 深層ニューラルネットワーク(deepjscc)に基づく音源チャネル符号化方式は,無線画像伝送において目覚ましい性能を達成している。
しかしながら、これらの手法は通常、より意味的な情報を運ぶ再構成の知覚的品質よりも、送信側のソースに対して、受信側の再構成信号の歪みのみに焦点を当てる。
その結果、低帯域幅や低信号対雑音比などの極端な条件下では、重度の知覚歪が生じる。
本研究では,劣化した復元画像からの高品質なソース画像の復元を逆問題とするComminを提案する。
これに対処するため、コンミンはインバータブルニューラルネットワーク(inn)と拡散モデルを組み合わせて、優れた知覚品質を目指している。
実験により,我々はDeepJSCCに比べて知覚品質が有意に向上し,DeepJSCCの他の逆問題アプローチよりも優れた結果を得た。 Joint source-channel coding schemes based on deep neural networks (DeepJSCC) have recently achieved remarkable performance for wireless image transmission. However, these methods usually focus only on the distortion of the reconstructed signal at the receiver side with respect to the source at the transmitter side, rather than the perceptual quality of the reconstruction which carries more semantic information. As a result, severe perceptual distortion can be introduced under extreme conditions such as low bandwidth and low signal-to-noise ratio. In this work, we propose CommIN, which views the recovery of high-quality source images from degraded reconstructions as an inverse problem. To address this, CommIN combines Invertible Neural Networks (INN) with diffusion models, aiming for superior perceptual quality. Through experiments, we show that our CommIN significantly improves the perceptual quality compared to DeepJSCC under extreme conditions and outperforms other inverse problem approaches used in DeepJSCC. | 翻訳日:2023-10-04 21:59:32 公開日:2023-10-02 |
# ナレッジトレースにおけるトランスフォーマーの進化的ニューラルアーキテクチャ探索 Evolutionary Neural Architecture Search for Transformer in Knowledge Tracing ( http://arxiv.org/abs/2310.01180v1 ) ライセンス: Link先を確認 | Shangshang Yang, Xiaoshan Yu, Ye Tian, Xueming Yan, Haiping Ma, and Xingyi Zhang | (参考訳) 知識追跡(KT)は、学生が演習で正しく答えるかどうかを予測することによって、学生の知識状態を追跡することを目的としている。
既存の Transformer ベースの KT アプローチの優れた性能にもかかわらず,統合のための手作業で選択した入力機能と,KT における学生の忘れ行動を直接キャプチャする単一グローバルコンテキストモデリングの欠陥は,関連レコードが現在の記録から遠い場合の問題点として批判されている。
そこで本稿では,まず,生徒の忘れ行動に使用する局所的コンテキストモデリング能力を高めるために,変換器に畳み込み操作を追加することを検討するとともに,入力特徴選択を自動化する進化的ニューラルネットワーク探索手法を提案し,局所的コンテキストモデリングのバランスを達成するためにどの操作を適用すべきかを自動決定する。
探索空間では、変換器にアテンションモジュールを含む元のグローバルパスを、異なる畳み込みを含むグローバルパスと局所パスの和に置き換え、入力特徴の選択も考慮される。
最適なアーキテクチャを探索するために,効率的な進化的アルゴリズムを用いて探索空間を探索し,アルゴリズムの収束を加速するための探索空間削減戦略を提案する。
2つの最大かつ最も困難な教育データセットの実験結果は、提案手法によって発見されたアーキテクチャの有効性を示す。 Knowledge tracing (KT) aims to trace students' knowledge states by predicting whether students answer correctly on exercises. Despite the excellent performance of existing Transformer-based KT approaches, they are criticized for the manually selected input features for fusion and the defect of single global context modelling to directly capture students' forgetting behavior in KT, when the related records are distant from the current record in terms of time. To address the issues, this paper first considers adding convolution operations to the Transformer to enhance its local context modelling ability used for students' forgetting behavior, then proposes an evolutionary neural architecture search approach to automate the input feature selection and automatically determine where to apply which operation for achieving the balancing of the local/global context modelling. In the search space, the original global path containing the attention module in Transformer is replaced with the sum of a global path and a local path that could contain different convolutions, and the selection of input features is also considered. To search the best architecture, we employ an effective evolutionary algorithm to explore the search space and also suggest a search space reduction strategy to accelerate the convergence of the algorithm. Experimental results on the two largest and most challenging education datasets demonstrate the effectiveness of the architecture found by the proposed approach. | 翻訳日:2023-10-04 21:53:06 公開日:2023-10-02 |
# 半教師付き医用画像分割のための横断的局所分布正規化 Cross-adversarial local distribution regularization for semi-supervised medical image segmentation ( http://arxiv.org/abs/2310.01176v1 ) ライセンス: Link先を確認 | Thanh Nguyen-Duc, Trung Le, Roland Bammer, He Zhao, Jianfei Cai, Dinh Phung | (参考訳) 医学的半教師付きセグメンテーション(medical semi-supervised segmentation)は、限定された注釈付きデータを用いて、医学的画像に興味のあるオブジェクトをセグメンテーションするようにモデルを訓練する技法である。
既存の半教師ありセグメンテーション法は通常滑らかさの仮定に基づいている。
この仮定は、2つの類似したデータサンプルのモデル出力分布が不変であると仮定する。
言い換えれば、滑らかさの仮定は、類似のサンプル(例えば、画像に小さな摂動を加えるなど)が同様の出力を持つべきであるというものである。
本稿では,半教師付き医用画像セグメンテーションタスクにおけるスムースネス仮定をさらに高めるために,新たなクロス・アドバンサリー局所分布(cross-ald)正則化を提案する。
我々は、LAとACDCのデータセットにおける最近の多くの手法に対して、Cross-ALDが最先端のパフォーマンスをアーカイブする包括的実験を行った。 Medical semi-supervised segmentation is a technique where a model is trained to segment objects of interest in medical images with limited annotated data. Existing semi-supervised segmentation methods are usually based on the smoothness assumption. This assumption implies that the model output distributions of two similar data samples are encouraged to be invariant. In other words, the smoothness assumption states that similar samples (e.g., adding small perturbations to an image) should have similar outputs. In this paper, we introduce a novel cross-adversarial local distribution (Cross-ALD) regularization to further enhance the smoothness assumption for semi-supervised medical image segmentation task. We conducted comprehensive experiments that the Cross-ALD archives state-of-the-art performance against many recent methods on the public LA and ACDC datasets. | 翻訳日:2023-10-04 21:52:42 公開日:2023-10-02 |
# Light Schr\"odinger Bridge Light Schr\"odinger Bridge ( http://arxiv.org/abs/2310.01174v1 ) ライセンス: Link先を確認 | Alexander Korotin, Nikita Gushchin, Evgeny Burnaev | (参考訳) 計算シュロディンガーブリッジ(SB)の分野での最近の進歩にもかかわらず、既存のSBソルバは依然として重み付けされており、複数のニューラルネットワークの複雑な最適化が必要である。
クラスタリングにおける$k$-means法、分類におけるロジスティック回帰、離散的最適輸送におけるシンクホーンアルゴリズムのように、SBの単純なyet効果ベースラインの役割を果たす主解法は存在しないことが判明した。
この問題に対処し、高速で簡単なSB解法を提案する。
私たちの開発は、最近この分野に登場した2つのアイデアの賢い組み合わせです。
(a)和指数二次関数を持つシュロディンガーポテンシャルのパラメータ化と
(b)エネルギー関数としてログシュレッディンガーポテンシャルを見ること。
これらのアイデアを組み合わせることで,軽量でシミュレーションフリーで理論的に正当化可能なsbソルバが,単純で簡単な最適化目標で実現できることを示す。
結果として、痛みを伴うハイパーパラメータ選択なしで、CPU上で数分で適度な次元でSBを解くことができる。
我々の光解法は密度推定に広く用いられているガウス混合モデルに似ている。
この類似性に着想を得て、光解法がSBの普遍近似であることを示す重要な理論的結果も証明した。
LightSBソルバのコードはhttps://github.com/ngushchin/LightSBにある。 Despite the recent advances in the field of computational Schrodinger Bridges (SB), most existing SB solvers are still heavy-weighted and require complex optimization of several neural networks. It turns out that there is no principal solver which plays the role of simple-yet-effective baseline for SB just like, e.g., $k$-means method in clustering, logistic regression in classification or Sinkhorn algorithm in discrete optimal transport. We address this issue and propose a novel fast and simple SB solver. Our development is a smart combination of two ideas which recently appeared in the field: (a) parameterization of the Schrodinger potentials with sum-exp quadratic functions and (b) viewing the log-Schrodinger potentials as the energy functions. We show that combined together these ideas yield a lightweight, simulation-free and theoretically justified SB solver with a simple straightforward optimization objective. As a result, it allows solving SB in moderate dimensions in a matter of minutes on CPU without a painful hyperparameter selection. Our light solver resembles the Gaussian mixture model which is widely used for density estimation. Inspired by this similarity, we also prove an important theoretical result showing that our light solver is a universal approximator of SBs. The code for the LightSB solver can be found at https://github.com/ngushchin/LightSB | 翻訳日:2023-10-04 21:52:25 公開日:2023-10-02 |
# 連続学習におけるパラメータ分離の保証に向けて Towards guarantees for parameter isolation in continual learning ( http://arxiv.org/abs/2310.01165v1 ) ライセンス: Link先を確認 | Giulia Lanzillotta, Sidak Pal Singh, Benjamin F. Grewe, Thomas Hofmann | (参考訳) ディープラーニングは、機械学習における多くの課題を解決するための、成功のパラダイムであることが証明されている。
しかし、ディープニューラルネットワークは、連続的な学習文献で破滅的な忘れ事として知られる、複数のタスクで逐次訓練された時に失敗する。
近年,この問題に対処する学習アルゴリズムが普及しているにもかかわらず,破滅的な忘れ込みに対する保証が欠如していることが判明した。
本研究では,ニューラルネットワークのロスランドスケープの幾何学的構造に着目し,学習と忘れとの関係について検討する。
我々は,パラメータ分離に基づく連続学習アルゴリズムのファミリー,すなわちパラメータ分離に基づく手法について統一的な視点を提供し,その一部で破滅的な忘れを確実にする。 Deep learning has proved to be a successful paradigm for solving many challenges in machine learning. However, deep neural networks fail when trained sequentially on multiple tasks, a shortcoming known as catastrophic forgetting in the continual learning literature. Despite a recent flourish of learning algorithms successfully addressing this problem, we find that provable guarantees against catastrophic forgetting are lacking. In this work, we study the relationship between learning and forgetting by looking at the geometry of neural networks' loss landscape. We offer a unifying perspective on a family of continual learning algorithms, namely methods based on parameter isolation, and we establish guarantees on catastrophic forgetting for some of them. | 翻訳日:2023-10-04 21:52:06 公開日:2023-10-02 |
# どんな建物でも Segment Any Building ( http://arxiv.org/abs/2310.01164v1 ) ライセンス: Link先を確認 | Lei Li | (参考訳) リモートセンシング画像における建物の識別とセグメンテーションは、一貫して学術研究の重要なポイントである。
本研究は,リモートセンシング画像におけるセグメンテーション構築を目的とした,多様なデータセットと高度な表現学習モデルの有効性を強調する。
さまざまなデータセットを融合させることで、学習リソースの範囲を広げ、複数のデータセットで模範的なパフォーマンスを実現しました。
本研究は,都市計画,災害管理,環境モニタリングといった重要分野において,我々の方法論の価値を実証するものである。
データセットの融合技術と事前訓練されたモデルからのプロンプトを組み合わせたアプローチは、セグメンテーションタスクを構築するための新しい前例を設定します。
本研究は今後の調査の基礎を提供し,建築セグメンテーション分野における新たな可能性を示すものである。 The identification and segmentation of buildings in remote sensing imagery has consistently been a important point of academic research. This work highlights the effectiveness of using diverse datasets and advanced representation learning models for the purpose of building segmentation in remote sensing images. By fusing various datasets, we have broadened the scope of our learning resources and achieved exemplary performance across several datasets. Our innovative joint training process demonstrates the value of our methodology in various critical areas such as urban planning, disaster management, and environmental monitoring. Our approach, which involves combining dataset fusion techniques and prompts from pre-trained models, sets a new precedent for building segmentation tasks. The results of this study provide a foundation for future exploration and indicate promising potential for novel applications in building segmentation field. | 翻訳日:2023-10-04 21:51:54 公開日:2023-10-02 |
# DINE: ノード埋め込みの次元的解釈可能性 DINE: Dimensional Interpretability of Node Embeddings ( http://arxiv.org/abs/2310.01162v1 ) ライセンス: Link先を確認 | Simone Piaggesi, Megha Khosla, Andr\'e Panisson, Avishek Anand | (参考訳) グラフは、社会的および技術的システムを相互作用する要素のネットワークとして表現する柔軟性のため、ユビキタスである。
ノード埋め込みのようなグラフ表現学習手法は、ノードを潜在ベクトル空間にマッピングするための強力なアプローチであり、様々なグラフタスクに使用できる。
その成功にもかかわらず、ノードの埋め込みを局所的に説明する研究はほとんどない。
さらに、ノード埋め込みのグローバルな説明は未検討のままであり、解釈可能性とデバッグポテンシャルは制限されている。
ノード埋め込みにおける次元の人間の理解可能な説明を開発することで、このギャップに対処する。
そこで我々はまず,グラフ構造予測への埋め込み次元の限界寄与に基づいて,埋め込みベクトルのグローバル解釈可能性を測定する新しい指標を開発した。
埋め込み次元は、コミュニティ構造のような入力グラフの理解可能な部分構造に忠実にマッピングできるなら、より解釈可能であると言う。
DINE(Dimension-based Interpretable Node Embedding)は、従来のノードの埋め込みを、タスクのパフォーマンスを犠牲にすることなく、より解釈可能なものにすることで、改善可能なアプローチである。
合成および実世界のグラフに関する広範囲な実験を行い,リンク予測において,高い解釈可能なノード埋め込みを効果的に学習できることを示した。 Graphs are ubiquitous due to their flexibility in representing social and technological systems as networks of interacting elements. Graph representation learning methods, such as node embeddings, are powerful approaches to map nodes into a latent vector space, allowing their use for various graph tasks. Despite their success, only few studies have focused on explaining node embeddings locally. Moreover, global explanations of node embeddings remain unexplored, limiting interpretability and debugging potentials. We address this gap by developing human-understandable explanations for dimensions in node embeddings. Towards that, we first develop new metrics that measure the global interpretability of embedding vectors based on the marginal contribution of the embedding dimensions to predicting graph structure. We say that an embedding dimension is more interpretable if it can faithfully map to an understandable sub-structure in the input graph - like community structure. Having observed that standard node embeddings have low interpretability, we then introduce DINE (Dimension-based Interpretable Node Embedding), a novel approach that can retrofit existing node embeddings by making them more interpretable without sacrificing their task performance. We conduct extensive experiments on synthetic and real-world graphs and show that we can simultaneously learn highly interpretable node embeddings with effective performance in link prediction. | 翻訳日:2023-10-04 21:51:43 公開日:2023-10-02 |
# 腹部臓器と腫瘍切開の反復的半監督学習 Iterative Semi-Supervised Learning for Abdominal Organs and Tumor Segmentation ( http://arxiv.org/abs/2310.01159v1 ) ライセンス: Link先を確認 | Jiaxin Zhuang and Luyang Luo and Zhixuan Chen, and Linshan Wu | (参考訳) 深層学習(DL)に基づく手法は,CTスキャンにおける腹部臓器と腫瘍の分節化において重要な役割を担っている。
しかし、注釈付きデータセットの大きな要求は、その開発を著しく制限する。
FLARE23チャレンジは、部分的データと完全注釈付きデータの両方を備えた大規模なデータセットを提供し、セグメンテーションの精度と計算効率の両方に焦点を当てている。
本研究では,FLARE23に対処するために,半教師付き学習(SSL)と反復的な擬似ラベリングの戦略を提案する。
当初は、完全な臓器アノテーション(約220スキャン)を備えたデータセットでトレーニングされたディープモデル(nn-UNet)が、データセット全体の擬似ラベルを生成する。
これらの擬似ラベルは、より強力なセグメンテーションモデルをトレーニングするために使用される。
FLARE23データセットを用いることで、臓器の平均DSCスコアは89.63%、オンラインバリデーションリーダーボードでは46.07%となる。
臓器セグメンテーションでは, 0.9007\% DSC と 0.9493\% NSD が得られた。
腫瘍セグメンテーションでは0.3785%のDSCと0.2842%のSDが得られた。
私たちのコードはhttps://github.com/ustguy/flare23で利用可能です。 Deep-learning (DL) based methods are playing an important role in the task of abdominal organs and tumors segmentation in CT scans. However, the large requirements of annotated datasets heavily limit its development. The FLARE23 challenge provides a large-scale dataset with both partially and fully annotated data, which also focuses on both segmentation accuracy and computational efficiency. In this study, we propose to use the strategy of Semi-Supervised Learning (SSL) and iterative pseudo labeling to address FLARE23. Initially, a deep model (nn-UNet) trained on datasets with complete organ annotations (about 220 scans) generates pseudo labels for the whole dataset. These pseudo labels are then employed to train a more powerful segmentation model. Employing the FLARE23 dataset, our approach achieves an average DSC score of 89.63% for organs and 46.07% for tumors on online validation leaderboard. For organ segmentation, We obtain 0.9007\% DSC and 0.9493\% NSD. For tumor segmentation, we obtain 0.3785% DSC and 0.2842% NSD. Our code is available at https://github.com/USTguy/Flare23. | 翻訳日:2023-10-04 21:51:23 公開日:2023-10-02 |
# RRR-Net:ディープバックボーンネットワークの再利用、削減、リサイクル RRR-Net: Reusing, Reducing, and Recycling a Deep Backbone Network ( http://arxiv.org/abs/2310.01157v1 ) ライセンス: Link先を確認 | Haozhe Sun (LISN, TAU, Inria), Isabelle Guyon (LISN, TAU, Inria), Felix Mohr, Hedi Tabia (IBISC) | (参考訳) コンピュータビジョンやその他の機械学習領域では、大規模なデータセットで事前トレーニングされたバックボーンネットワークをプリプロセッサとして再利用することが主流になっている。
通常は、最後のレイヤは浅い学習マシンに置き換えられる。新たに追加された分類ヘッドと(オプションで)より深いレイヤは、新しいタスクで微調整される。
パフォーマンスと単純さが強いため、トレーニング済みのバックボーンネットワークはResNet152だが、ResNet152は比較的大きく、推論遅延を引き起こす。
多くの場合、コンパクトで効率的なバックボーンと同じようなパフォーマンスは、より大きな、遅いバックボーンよりも望ましいでしょう。
本稿では,より小型で高速なモデルを作成する目的で,事前学習したバックボーンを再利用する手法について検討する。
ImageNetで事前トレーニングされた大規模なResNet152バックボーンから始めて、51ブロックから5ブロックに減らし、パラメータとFLOPの数を6倍以上に削減しました。
そして、3ブロック後のモデルを複数のブランチに分割し、同じ数のパラメータとFLOPを保存し、性能向上のためにサブネットワークのアンサンブルを作成しました。
様々なドメインから40ドルの画像分類データセットの大規模なベンチマーク実験を行った結果、より小さなモデルサイズとより高速な推論速度を実現しつつ、``classical backbone fine-tuning''のパフォーマンスに適合していることが示唆された。 It has become mainstream in computer vision and other machine learning domains to reuse backbone networks pre-trained on large datasets as preprocessors. Typically, the last layer is replaced by a shallow learning machine of sorts; the newly-added classification head and (optionally) deeper layers are fine-tuned on a new task. Due to its strong performance and simplicity, a common pre-trained backbone network is ResNet152.However, ResNet152 is relatively large and induces inference latency. In many cases, a compact and efficient backbone with similar performance would be preferable over a larger, slower one. This paper investigates techniques to reuse a pre-trained backbone with the objective of creating a smaller and faster model. Starting from a large ResNet152 backbone pre-trained on ImageNet, we first reduce it from 51 blocks to 5 blocks, reducing its number of parameters and FLOPs by more than 6 times, without significant performance degradation. Then, we split the model after 3 blocks into several branches, while preserving the same number of parameters and FLOPs, to create an ensemble of sub-networks to improve performance. Our experiments on a large benchmark of $40$ image classification datasets from various domains suggest that our techniques match the performance (if not better) of ``classical backbone fine-tuning'' while achieving a smaller model size and faster inference speed. | 翻訳日:2023-10-04 21:51:06 公開日:2023-10-02 |
# ディープラーニングにおけるモジュール性:調査 Modularity in Deep Learning: A Survey ( http://arxiv.org/abs/2310.01154v1 ) ライセンス: Link先を確認 | Haozhe Sun (LISN, TAU, Inria), Isabelle Guyon (TAU, LISN, Inria) | (参考訳) モジュラリティは多くの分野に存在する一般的な原理である。
概念化の容易さ,解釈性,スケーラビリティ,モジュールの可利用性,モジュール再利用性など,魅力的なメリットがある。
ディープラーニングコミュニティは、暗黙的にも明示的にも、モジュール性原則から着想を得ようと長年努力してきた。
近年、この関心は高まっている。
我々は、ディープラーニングのライフサイクルを特徴付けるデータ、タスク、モデルという3つの軸に関するディープラーニングにおけるモジュラリティの概念をレビューする。
データモジュラリティ(Data modularity)とは、さまざまな目的でデータグループを観察または作成することを指す。
タスクのモジュール化はタスクをサブタスクに分解することを指す。
モデルモジュラリティは、ニューラルネットワークシステムのアーキテクチャを識別可能なモジュールに分解できることを意味する。
モジュール性原理の異なるインスタンス化を記述し、その利点を異なるディープラーニングサブフィールドで文脈的に表現する。
最後に,モジュール性の定義と今後の研究の方向性について論じる。 Modularity is a general principle present in many fields. It offers attractive advantages, including, among others, ease of conceptualization, interpretability, scalability, module combinability, and module reusability. The deep learning community has long sought to take inspiration from the modularity principle, either implicitly or explicitly. This interest has been increasing over recent years. We review the notion of modularity in deep learning around three axes: data, task, and model, which characterize the life cycle of deep learning. Data modularity refers to the observation or creation of data groups for various purposes. Task modularity refers to the decomposition of tasks into sub-tasks. Model modularity means that the architecture of a neural network system can be decomposed into identifiable modules. We describe different instantiations of the modularity principle, and we contextualize their advantages in different deep learning sub-fields. Finally, we conclude the paper with a discussion of the definition of modularity and directions for future research. | 翻訳日:2023-10-04 21:50:39 公開日:2023-10-02 |
# ラベル付きラマ微調整 Label Supervised LLaMA Finetuning ( http://arxiv.org/abs/2310.01208v1 ) ライセンス: Link先を確認 | Zongxi Li, Xianming Li, Yuzhang Liu, Haoran Xie, Jing Li, Fu-lee Wang, Qing Li, Xiaoqin Zhong | (参考訳) 近年のLarge Language Models(LLM)の成功は、学術と産業の両方で大きな注目を集めている。
ファインタニングにより、オープンソースLLMのゼロショットおよび少数ショットの一般化能力を向上するための実質的な努力がなされている。
現在、一般的なアプローチは命令チューニングであり、自然言語命令によって誘導された応答を生成し、llmを実世界のタスクの完了に訓練する。
このようなアプローチがシーケンスとトークンの分類タスクで過小評価される可能性がある点に注意が必要だ。
テキスト生成タスクとは異なり、分類タスクはラベル空間が限られており、多種多様な人間的な応答を生成するよりも正確なラベル予測がより高く評価されている。
従来の研究では、命令調整されたLLMがBERTを上回り得ないことが明らかにされており、LLMの潜在表現を教師付きラベル予測に活用する可能性を探るためである。
本稿では,識別ラベルを用いてモデルを微調整することを目的としたラベル管理型LPMを提案する。
比較的小型のLLMであるLLaMA-2-7BをベースとしたラベルスーパービジョンLLaMA(LS-LLaMA)による本手法の評価を行った。
最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。
モデルはローランド適応(LoRA)によって微調整され、この損失を最小限に抑える。
LS-LLaMAは、複雑なエンジニアリングや外部知識を伴わずに、LLMの規模を10倍に向上させ、テキスト分類におけるBERT-LargeやRoBERTa-Largeのような堅牢なベースラインと比較して、一貫した改善を示している。
さらに、デコーダから因果マスクを除去することにより、LS-unLLaMAは名前付きエンティティ認識(NER)における最先端の性能を達成する。
我々の研究は、様々な下流タスクにLLMを適用する新しいアプローチに光を当てるでしょう。 The recent success of Large Language Models (LLMs) has gained significant attention in both academia and industry. Substantial efforts have been made to enhance the zero- and few-shot generalization capabilities of open-source LLMs through finetuning. Currently, the prevailing approach is instruction-tuning, which trains LLMs to complete real-world tasks by generating responses guided by natural language instructions. It is worth noticing that such an approach may underperform in sequence and token classification tasks. Unlike text generation tasks, classification tasks have a limited label space, where precise label prediction is more appreciated than generating diverse and human-like responses. Prior research has unveiled that instruction-tuned LLMs cannot outperform BERT, prompting us to explore the potential of leveraging latent representations from LLMs for supervised label prediction. In this paper, we introduce a label-supervised adaptation for LLMs, which aims to finetuning the model with discriminant labels. We evaluate this approach with Label Supervised LLaMA (LS-LLaMA), based on LLaMA-2-7B, a relatively small-scale LLM, and can be finetuned on a single GeForce RTX4090 GPU. We extract latent representations from the final LLaMA layer and project them into the label space to compute the cross-entropy loss. The model is finetuned by Low-Rank Adaptation (LoRA) to minimize this loss. Remarkably, without intricate prompt engineering or external knowledge, LS-LLaMA substantially outperforms LLMs ten times its size in scale and demonstrates consistent improvements compared to robust baselines like BERT-Large and RoBERTa-Large in text classification. Moreover, by removing the causal mask from decoders, LS-unLLaMA achieves the state-of-the-art performance in named entity recognition (NER). Our work will shed light on a novel approach to adapting LLMs for various downstream tasks. | 翻訳日:2023-10-04 21:41:42 公開日:2023-10-02 |
# learn to follow: 計画と学習による分散生涯のマルチエージェントパスファイニング Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via Planning and Learning ( http://arxiv.org/abs/2310.01207v1 ) ライセンス: Link先を確認 | Alexey Skrynnik, Anton Andreychuk, Maria Nesterova, Konstantin Yakovlev, Aleksandr Panov | (参考訳) MAPF(Multi-agent Pathfinding)問題は通常、グラフに閉じ込められたエージェントの集合に対するコンフリクトフリーパスの集合を見つけるよう求め、典型的には中央集権的な方法で解決される。
そこで,本研究では,エージェントの位置情報や目標に関する情報を収集する中央制御装置が欠如し,エージェントが環境の完全な状態にアクセスすることなく,自力で行動を決定する必要がある場合の分散mapf設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
この複雑な問題に対処するために,ヒューリスティック検索による計画とポリシー最適化による強化学習という,2つの補完的アプローチを統合する手法を提案する。
計画は個々の経路の構築と再計画に利用される。
我々は,システムの混雑回避とスループット向上のために,専用手法で計画アルゴリズムを強化した。
我々は,経路に沿ってエージェントを効果的に誘導する衝突回避ポリシーを発見するために強化学習を用いる。
このポリシはニューラルネットワークとして実装され、報酬シェーピングや外部ガイダンスなしで効果的にトレーニングされる。
我々は,この手法を最先端の解法と比較し,幅広い設定で評価した。
その結果,本手法は学習可能な競争相手よりも優れており,学習段階では見つからなかった地図に高いスループットと一般化能力を示すことがわかった。
さらに,我々の解法はスループットの点でルールベースよりも優れており,最先端の探索ベース解法よりも桁違いに高速である。 Multi-agent Pathfinding (MAPF) problem generally asks to find a set of conflict-free paths for a set of agents confined to a graph and is typically solved in a centralized fashion. Conversely, in this work, we investigate the decentralized MAPF setting, when the central controller that posses all the information on the agents' locations and goals is absent and the agents have to sequientially decide the actions on their own without having access to a full state of the environment. We focus on the practically important lifelong variant of MAPF, which involves continuously assigning new goals to the agents upon arrival to the previous ones. To address this complex problem, we propose a method that integrates two complementary approaches: planning with heuristic search and reinforcement learning through policy optimization. Planning is utilized to construct and re-plan individual paths. We enhance our planning algorithm with a dedicated technique tailored to avoid congestion and increase the throughput of the system. We employ reinforcement learning to discover the collision avoidance policies that effectively guide the agents along the paths. The policy is implemented as a neural network and is effectively trained without any reward-shaping or external guidance. We evaluate our method on a wide range of setups comparing it to the state-of-the-art solvers. The results show that our method consistently outperforms the learnable competitors, showing higher throughput and better ability to generalize to the maps that were unseen at the training stage. Moreover our solver outperforms a rule-based one in terms of throughput and is an order of magnitude faster than a state-of-the-art search-based solver. | 翻訳日:2023-10-04 21:41:08 公開日:2023-10-02 |
# 非マルコフ力学における量子メモリの局所的開示 Local disclosure of quantum memory in non-Markovian dynamics ( http://arxiv.org/abs/2310.01205v1 ) ライセンス: Link先を確認 | Charlotte B\"acker, Konstantin Beyer, and Walter T. Strunz | (参考訳) 非マルコフ過程は、環境自由度の記憶効果によって物理学で生じる可能性がある。
量子非マルコビアン性については、そのようなメモリ効果が検証可能な量子起源を持つかどうか、あるいは古典的メモリによって等しくモデル化されるかどうかを明らかにするための議論が進行中である。
本論文では,真の量子メモリをローカルにテストするための基準を提案する。
このアプローチは、関心のあるシステムの局所的なダイナミクスのみに依存するため、環境に関して不可知である。
実験的な実現は特に容易であり、システム自体の単一時間計測のみを行う必要がある。
我々は,時間離散の場合と時間連続ダイナミクスの両方において,身体的モチベーションの様々な例で記憶を研究する。
後者の場合、古典記憶を持つ非マルコフ的マスター方程式の興味深いクラスを提供し、物理的に測定可能な量子軌道表現を可能にする。 Non-Markovian processes may arise in physics due to memory effects of environmental degrees of freedom. For quantum non-Markovianity, it is an ongoing debate to clarify whether such memory effects have a verifiable quantum origin, or whether they might equally be modeled by a classical memory. In this contribution we propose a criterion to test locally for a truly quantum memory. The approach is agnostic with respect to the environment, as it solely depends on the local dynamics of the system of interest. Experimental realizations are particularly easy as only single-time measurements on the system itself have to be performed. We study memory in a variety of physically motivated examples, both for a time-discrete case, and for time-continuous dynamics. For the latter we are able to provide an interesting class of non-Markovian master equations with classical memory that allows for a physically measurable quantum trajectory representation. | 翻訳日:2023-10-04 21:40:36 公開日:2023-10-02 |
# 統一不確実性校正 Unified Uncertainty Calibration ( http://arxiv.org/abs/2310.01202v1 ) ライセンス: Link先を確認 | Kamalika Chaudhuri and David Lopez-Paz | (参考訳) To build robust, fair, and safe AI systems, we would like our classifiers to say ``I don't know'' when facing test examples that are difficult or fall outside of the training classes.The ubiquitous strategy to predict under uncertainty is the simplistic \emph{reject-or-classify} rule: abstain from prediction if epistemic uncertainty is high, classify otherwise.Unfortunately, this recipe does not allow different sources of uncertainty to communicate with each other, produces miscalibrated predictions, and it does not allow to correct for misspecifications in our uncertainty estimates.
これら3つの問題に対処するために,アレエータ的不確実性と認識的不確実性を組み合わせた包括的枠組みである \emph{unified uncertainty calibration (u2c)" を導入する。
U2Cは、不確実性推定のクリーンな学習理論分析を可能にし、さまざまなImageNetベンチマークでリジェクションや分類よりも優れている。 To build robust, fair, and safe AI systems, we would like our classifiers to say ``I don't know'' when facing test examples that are difficult or fall outside of the training classes.The ubiquitous strategy to predict under uncertainty is the simplistic \emph{reject-or-classify} rule: abstain from prediction if epistemic uncertainty is high, classify otherwise.Unfortunately, this recipe does not allow different sources of uncertainty to communicate with each other, produces miscalibrated predictions, and it does not allow to correct for misspecifications in our uncertainty estimates. To address these three issues, we introduce \emph{unified uncertainty calibration (U2C)}, a holistic framework to combine aleatoric and epistemic uncertainties. U2C enables a clean learning-theoretical analysis of uncertainty estimation, and outperforms reject-or-classify across a variety of ImageNet benchmarks. | 翻訳日:2023-10-04 21:40:23 公開日:2023-10-02 |
# swotted:テンソル分解から時間表現型への拡張 SWoTTeD: An Extension of Tensor Decomposition to Temporal Phenotyping ( http://arxiv.org/abs/2310.01201v1 ) ライセンス: Link先を確認 | Hana Sebia, Thomas Guyet, Etienne Audureau | (参考訳) テンソル分解は最近、電子健康記録(ehr)のような個々のトレースの分析のために機械学習コミュニティで注目を集めている。
しかし、データが複雑な時間パターンに従うと、このタスクは大幅に難しくなる。
本稿では,時間的特徴の配置として時相表現型の概念を導入し,隠れた時相パターンを探索する新しい手法であるswotted(sliding window for temporal tensor decomposition)を提案する。
swottedは、抽出された表現型の解釈性を高めるために、いくつかの制約と正規化を統合する。
本提案は,合成データと実世界データの両方を用いて検証し,大パリ大学病院のデータを用いた独自のユースケースを提案する。
その結果, SWoTTeDは最近のテンソル分解モデルと同等の精度で再現でき, 臨床医にとって有意義な時間的表現型を抽出できることがわかった。 Tensor decomposition has recently been gaining attention in the machine learning community for the analysis of individual traces, such as Electronic Health Records (EHR). However, this task becomes significantly more difficult when the data follows complex temporal patterns. This paper introduces the notion of a temporal phenotype as an arrangement of features over time and it proposes SWoTTeD (Sliding Window for Temporal Tensor Decomposition), a novel method to discover hidden temporal patterns. SWoTTeD integrates several constraints and regularizations to enhance the interpretability of the extracted phenotypes. We validate our proposal using both synthetic and real-world datasets, and we present an original usecase using data from the Greater Paris University Hospital. The results show that SWoTTeD achieves at least as accurate reconstruction as recent state-of-the-art tensor decomposition models, and extracts temporal phenotypes that are meaningful for clinicians. | 翻訳日:2023-10-04 21:40:08 公開日:2023-10-02 |
# オンライン公共サービスにおける情報セキュリティ姿勢に関する世界的概要 A worldwide overview on the information security posture of online public services ( http://arxiv.org/abs/2310.01200v1 ) ライセンス: Link先を確認 | Jo\~ao Marco Silva, Diogo Ribeiro, Luis Felipe Ramos and V\'itor Fonte | (参考訳) オンラインプラットフォームを通じた公共サービスの可用性は、世界中の市民に提供される必須サービスのカバレッジと効率を改善した。
これらのサービスは透明性を促進し、政府のプロセスへの市民の参加を促進する。
しかし、オンラインのプレゼンスの増加は、市民とサービスプロバイダの間で交換された機密データを幅広いセキュリティ脅威にさらしている。
したがって、オンラインサービスのセキュリティと信頼性を確保することは、電子政府(EGOV)の取り組みの成功に不可欠である。
したがって、この研究は、セキュアな通信プロトコルのサポート、デジタル証明書チェーンの信頼性、既知の脆弱性へのサービスの露出の3つの側面において、3068の政府ドメイン名でホストされたオンラインプラットフォームのセキュリティ姿勢を評価する。
その結果、急速な発展にもかかわらず、公共部門はいまだにサービスやインフラ管理における国際標準や最高のセキュリティプラクティスの採用に不足していることが示された。
この現実は、すべての地域や所得水準の市民やサービスに重大なリスクをもたらす。 The availability of public services through online platforms has improved the coverage and efficiency of essential services provided to citizens worldwide. These services also promote transparency and foster citizen participation in government processes. However, the increased online presence also exposes sensitive data exchanged between citizens and service providers to a wider range of security threats. Therefore, ensuring the security and trustworthiness of online services is crucial to Electronic Government (EGOV) initiatives' success. Hence, this work assesses the security posture of online platforms hosted in 3068 governmental domain names, across all UN Member States, in three dimensions: support for secure communication protocols; the trustworthiness of their digital certificate chains; and services' exposure to known vulnerabilities. The results indicate that despite its rapid development, the public sector still falls short in adopting international standards and best security practices in services and infrastructure management. This reality poses significant risks to citizens and services across all regions and income levels. | 翻訳日:2023-10-04 21:39:52 公開日:2023-10-02 |
# フェデレーションK平均クラスタリング Federated K-means Clustering ( http://arxiv.org/abs/2310.01195v1 ) ライセンス: Link先を確認 | Swier Garst and Marcel Reinders | (参考訳) フェデレートドラーニング(Federated Learning)とは、データをプールすることなく、機械学習目的で分散データセットを使用することで、データのプライバシとオーナシップを向上するテクニックである。
制御FL研究はここ数年で大きく成長してきたが、教師なしFL手法はいまだに乏しい。
この研究はK平均クラスタリングを連合的に実装するアルゴリズムを導入し、センター間で異なる数のクラスタの課題に対処し、より分離しやすいデータセットに収束する。 Federated learning is a technique that enables the use of distributed datasets for machine learning purposes without requiring data to be pooled, thereby better preserving privacy and ownership of the data. While supervised FL research has grown substantially over the last years, unsupervised FL methods remain scarce. This work introduces an algorithm which implements K-means clustering in a federated manner, addressing the challenges of varying number of clusters between centers, as well as convergence on less separable datasets. | 翻訳日:2023-10-04 21:39:37 公開日:2023-10-02 |
# 下着がなければ 寒冷な後遺症はありません If there is no underfitting, there is no Cold Posterior Effect ( http://arxiv.org/abs/2310.01189v1 ) ライセンス: Link先を確認 | Yijie Zhang, Yi-Shan Wu, Luis A. Ortega and Andr\'es R. Masegosa | (参考訳) ベイジアン深層学習におけるcold posterior effect (cpe) (wenzel et al., 2020) は、温度が$t<1$ である場合、結果として得られる後層予測はベイジアン後層 (t=1$) よりも優れた結果が得られることを示している。
ベイズ後部は完璧なモデル仕様の下で最適であることが知られているため、近年の多くの研究はCPEの存在をモデル不特定問題として研究している。
本研究は,ベイズ後部が不適合な場合にのみ,不特定性がCPEにつながることを示すため,より曖昧なCPEの理解を提供する。
実際、理論上、不適合がなければ、CPEは存在しないことが示される。 The cold posterior effect (CPE) (Wenzel et al., 2020) in Bayesian deep learning shows that, for posteriors with a temperature $T<1$, the resulting posterior predictive could have better performances than the Bayesian posterior ($T=1$). As the Bayesian posterior is known to be optimal under perfect model specification, many recent works have studied the presence of CPE as a model misspecification problem, arising from the prior and/or from the likelihood function. In this work, we provide a more nuanced understanding of the CPE as we show that misspecification leads to CPE only when the resulting Bayesian posterior underfits. In fact, we theoretically show that if there is no underfitting, there is no CPE. | 翻訳日:2023-10-04 21:39:26 公開日:2023-10-02 |
# ニューラルマシン翻訳における文脈依存の妥当性の定量化 Quantifying the Plausibility of Context Reliance in Neural Machine Translation ( http://arxiv.org/abs/2310.01188v1 ) ライセンス: Link先を確認 | Gabriele Sarti, Grzegorz Chrupa{\l}a, Malvina Nissim, Arianna Bisazza | (参考訳) 言語モデルが人間らしい方法でコンテキスト情報を利用できるかどうかを確立することは、実際の環境での安全な採用を確保するために重要である。
しかしながら、コンテキストのどの部分がモデル世代に影響を与えるかという問題は、一般的には個別に取り組まれており、現在の妥当性評価は、事実上少数の人工ベンチマークに限られている。
そこで本稿では,言語モデルの世代における文脈利用の定量化を目的としたエンドツーエンド解釈フレームワークであるcontext reliance(pecore)の信頼性評価を紹介する。
我々のアプローチはモデル内部を活用する
(i)生成されたテキスト中の文脈に敏感なターゲットトークンを対照的に識別し、
(ii)その予測を正当化する文脈的手がかりと結びつける。
我々はPECoReを用いて文脈認識機械翻訳モデルの妥当性を定量化し、モデル論理と人間のアノテーションを比較した。
最後に,この手法を無記名世代に適用し,モデル翻訳における(im)表現可能な文脈使用のインスタンスを強調表示する。 Establishing whether language models can use contextual information in a human-plausible way is important to ensure their safe adoption in real-world settings. However, the questions of when and which parts of the context affect model generations are typically tackled separately, and current plausibility evaluations are practically limited to a handful of artificial benchmarks. To address this, we introduce Plausibility Evaluation of Context Reliance (PECoRe), an end-to-end interpretability framework designed to quantify context usage in language models' generations. Our approach leverages model internals to (i) contrastively identify context-sensitive target tokens in generated texts and (ii) link them to contextual cues justifying their prediction. We use PECoRe to quantify the plausibility of context-aware machine translation models, comparing model rationales with human annotations across several discourse-level phenomena. Finally, we apply our method to unannotated generations to identify context-mediated predictions and highlight instances of (im)plausible context usage in model translations. | 翻訳日:2023-10-04 21:39:10 公開日:2023-10-02 |
# 時系列予測のためのモード対応変換器 Modality-aware Transformer for Time series Forecasting ( http://arxiv.org/abs/2310.01232v1 ) ライセンス: Link先を確認 | Hajar Emami, Xuan-Hong Dang, Yousaf Shah, Petros Zerfos | (参考訳) 時系列の予測は、特にその正確さが歴史的価値にのみ依存するのではなく、外部データソースに依存している場合、重大な課題となる。
この問題は、時系列の将来の行動が、様々な文献的報告や多くの経済指標から得られた情報と複雑に結びついている金融業界でよく見られる。
実際、重要な課題は、様々な情報源からのデータを活用し、ターゲットの時系列を正確に予測するための貴重な洞察を抽出できる信頼性のある時系列予測モデルを構築することである。
本研究では,この課題に対処し,Modality-aware Transformerと呼ばれる新しいマルチモーダルトランスモデルを導入する。
本モデルでは,分類的テキストと数値時系列の両方のパワーを探索し,対象時系列を効果的に予測し,その神経的注意機構を通じて洞察を与える。
これを実現するために、各データモダリティ内で最も関連性の高い機能にモデルを集中させる機能レベルの注意層を開発する。
提案する特徴レベルの注意を組み込むことにより,MHAに特徴と時間的注意の両方を取り入れた新しいモーダル多頭部注意(MHA),モーダル間MHA,モーダル目標MHAを開発した。
これにより、MHAはモダリティと特徴の重要性を考慮して時間的注意を発生させ、より情報的な埋め込みをもたらす。
提案するモダリティ認識構造により,各モダリティ内の情報を効果的に活用し,クロスモダリティ理解を育むことができる。
ファイナンシャルデータセットに関する広範な実験により、Modality-aware Transformerは既存の手法よりも優れており、マルチモーダル時系列予測の複雑な課題に対する新しい実用的な解決策を提供する。 Time series forecasting presents a significant challenge, particularly when its accuracy relies on external data sources rather than solely on historical values. This issue is prevalent in the financial sector, where the future behavior of time series is often intricately linked to information derived from various textual reports and a multitude of economic indicators. In practice, the key challenge lies in constructing a reliable time series forecasting model capable of harnessing data from diverse sources and extracting valuable insights to predict the target time series accurately. In this work, we tackle this challenging problem and introduce a novel multimodal transformer-based model named the Modality-aware Transformer. Our model excels in exploring the power of both categorical text and numerical timeseries to forecast the target time series effectively while providing insights through its neural attention mechanism. To achieve this, we develop feature-level attention layers that encourage the model to focus on the most relevant features within each data modality. By incorporating the proposed feature-level attention, we develop a novel Intra-modal multi-head attention (MHA), Inter-modal MHA and Modality-target MHA in a way that both feature and temporal attentions are incorporated in MHAs. This enables the MHAs to generate temporal attentions with consideration of modality and feature importance which leads to more informative embeddings. The proposed modality-aware structure enables the model to effectively exploit information within each modality as well as foster cross-modal understanding. Our extensive experiments on financial datasets demonstrate that Modality-aware Transformer outperforms existing methods, offering a novel and practical solution to the complex challenges of multi-modality time series forecasting. | 翻訳日:2023-10-04 21:33:53 公開日:2023-10-02 |
# 閉塞を伴うRGB-Dデータからの3次元人文の再構成 Reconstructing 3D Human Pose from RGB-D Data with Occlusions ( http://arxiv.org/abs/2310.01228v1 ) ライセンス: Link先を確認 | Bowen Dang, Xi Zhao, Bowen Zhang, He Wang | (参考訳) 本稿では,RGB-D画像からの3次元人体再構築手法を提案する。
最大の課題は、体と環境の間の閉塞によるRGB-Dデータの不完全性であり、重度の人為的侵入に苦しむ不確実な再建につながる。
意味的・物理的に有理な人体を再構築するために,シーン情報と事前知識に基づく解空間の削減を提案する。
我々のキーとなる考え方は、隠蔽された身体部分と可視な身体部分とを別々に考慮し、隠蔽された身体部分がシーンに浸透しないようなすべての可視的なポーズをモデル化し、奥行きデータを用いて可視な身体部分を制限することである。
具体的には、第1のコンポーネントは「フリーゾーン」と呼ばれる候補領域を推定するニューラルネットワークによって実現される。
第2のコンポーネントは、スキャンされたボディーポイント雲の「差し込み影ボリューム」を使用して、可視体部分を制限する。
さらに,人体と閉じ込められた領域をマッチングするために,表面マッチングよりも優れた性能を示すボリュームマッチング戦略を提案する。
提案手法はproxデータセット上で実験を行い,他の手法と比較して精度が高く,妥当な結果が得られることを示した。 We propose a new method to reconstruct the 3D human body from RGB-D images with occlusions. The foremost challenge is the incompleteness of the RGB-D data due to occlusions between the body and the environment, leading to implausible reconstructions that suffer from severe human-scene penetration. To reconstruct a semantically and physically plausible human body, we propose to reduce the solution space based on scene information and prior knowledge. Our key idea is to constrain the solution space of the human body by considering the occluded body parts and visible body parts separately: modeling all plausible poses where the occluded body parts do not penetrate the scene, and constraining the visible body parts using depth data. Specifically, the first component is realized by a neural network that estimates the candidate region named the "free zone", a region carved out of the open space within which it is safe to search for poses of the invisible body parts without concern for penetration. The second component constrains the visible body parts using the "truncated shadow volume" of the scanned body point cloud. Furthermore, we propose to use a volume matching strategy, which yields better performance than surface matching, to match the human body with the confined region. We conducted experiments on the PROX dataset, and the results demonstrate that our method produces more accurate and plausible results compared with other methods. | 翻訳日:2023-10-04 21:33:24 公開日:2023-10-02 |
# 深層学習による外惑星の大気パラメータの再構成 Reconstructing Atmospheric Parameters of Exoplanets Using Deep Learning ( http://arxiv.org/abs/2310.01227v1 ) ライセンス: Link先を確認 | Flavio Giobergia, Alkis Koudounas, Elena Baralis | (参考訳) 太陽系外惑星の探索は、現在の理解に反する多くの惑星系を明らかにすることで宇宙の理解を変えました。
大気を研究するために、分光観測は直接測定できない重要な大気特性を推測するために用いられる。
特定の大気モデル内で観測されたスペクトルに最も適する大気パラメータの推定は、モデル化が難しい複雑な問題である。
本稿では,マルチモーダルアーキテクチャ内での深層学習と逆モデリング技術を組み合わせて,外惑星からの大気パラメータを抽出する多目的確率回帰手法を提案する。
本手法は、計算の限界を克服し、これまでのアプローチを上回り、惑星外大気の効率的な分析を可能にする。
この研究は太陽系外惑星研究の進歩に貢献し、将来の研究に貴重な洞察を提供する。 Exploring exoplanets has transformed our understanding of the universe by revealing many planetary systems that defy our current understanding. To study their atmospheres, spectroscopic observations are used to infer essential atmospheric properties that are not directly measurable. Estimating atmospheric parameters that best fit the observed spectrum within a specified atmospheric model is a complex problem that is difficult to model. In this paper, we present a multi-target probabilistic regression approach that combines deep learning and inverse modeling techniques within a multimodal architecture to extract atmospheric parameters from exoplanets. Our methodology overcomes computational limitations and outperforms previous approaches, enabling efficient analysis of exoplanetary atmospheres. This research contributes to advancements in the field of exoplanet research and offers valuable insights for future studies. | 翻訳日:2023-10-04 21:32:57 公開日:2023-10-02 |
# 現代のネットワークのためのパスノルムツールキット:結果、約束、挑戦 A path-norm toolkit for modern networks: consequences, promises and challenges ( http://arxiv.org/abs/2310.01225v1 ) ライセンス: Link先を確認 | Antoine Gonon, Nicolas Brisebarre, Elisa Riccietti, R\'emi Gribonval | (参考訳) この研究はパスノルムに関する最初のツールキットを導入し、バイアスのある一般的なDAG ReLUネットワークを網羅し、接続をスキップし、最大プールする。
このツールキットにより、最も広く適用可能なパスノルムに基づくニューラルネットワークだけでなく、このタイプの最も鋭い既知の境界を回復または打ち負かすような、現実の現代のニューラルネットワークの一般化境界を確立することができる。
これらの拡張パスノルムは、計算の容易さ、ネットワークの対称性の下での不変性、および演算子のノルムの積と比較してフィードフォワードネットワークのシャープネスの改善など、パスノルムの通常の利点をさらに享受する。
ツールキットの汎用性と実装の容易さにより、imagenet上で最もシャープなresnet境界を数値的に評価することで、パスノルムベースの一般化境界の具体的な約束に挑戦できる。 This work introduces the first toolkit around path-norms that is fully able to encompass general DAG ReLU networks with biases, skip connections and max pooling. This toolkit notably allows us to establish generalization bounds for real modern neural networks that are not only the most widely applicable path-norm based ones, but also recover or beat the sharpest known bounds of this type. These extended path-norms further enjoy the usual benefits of path-norms: ease of computation, invariance under the symmetries of the network, and improved sharpness on feedforward networks compared to the product of operators' norms, another complexity measure most commonly used. The versatility of the toolkit and its ease of implementation allow us to challenge the concrete promises of path-norm-based generalization bounds, by numerically evaluating the sharpest known bounds for ResNets on ImageNet. | 翻訳日:2023-10-04 21:32:43 公開日:2023-10-02 |
# グラフによるモビリティモデリングの再検討: 次の関心点推薦のためのグラフトランスフォーマーモデル Revisiting Mobility Modeling with Graph: A Graph Transformer Model for Next Point-of-Interest Recommendation ( http://arxiv.org/abs/2310.01224v1 ) ライセンス: Link先を確認 | Xiaohang Xu, Toyotaro Suzumura, Jiawei Yong, Masatoshi Hanai, Chuang Yang, Hiroki Kanezashi, Renhe Jiang, Shintaro Fukushima | (参考訳) Next Point-of-Interest (POI)レコメンデーションは、都市移動アプリケーションにおいて重要な役割を果たす。
近年,グラフニューラルネットワーク(GNN)に基づくPOIレコメンデーションモデルが広く研究され,達成されているが,空間情報と時間情報の両方をGNNベースのモデルに効果的に組み込むことは依然として困難である。
ユーザが近隣のPOIを訪問する傾向があるため、時間情報にはしばしば空間情報が含まれるため、各情報に特有の特徴を抽出することは困難である。
この課題に対処するために、ユーザの移動パターンにおける空間的特徴と時間的特徴の両方をフル活用するグラフをフル活用できる、 \textbf{\underline{Mob}}ility \textbf{\underline{G}}raph \textbf{\underline{T}}ransformer (MobGT)を提案する。
MobGTは、個々の空間グラフエンコーダと時間グラフエンコーダを組み合わせて、ユニークな特徴とグローバルなユーザ位置関係をキャプチャする。
さらに、グラフトランスフォーマーに基づくモビリティエンコーダを組み込んで、pois間の高次情報を抽出する。
時空間データにおける長期化問題に対処するため、MobGTは新たな損失関数Tail Lossを導入した。
実験の結果、MobGTはさまざまなデータセットやメトリクスの最先端モデルよりも優れており、平均24倍の改善が達成されている。
我々のコードは \url{https://github.com/Yukayo/MobGT} で入手できる。 Next Point-of-Interest (POI) recommendation plays a crucial role in urban mobility applications. Recently, POI recommendation models based on Graph Neural Networks (GNN) have been extensively studied and achieved, however, the effective incorporation of both spatial and temporal information into such GNN-based models remains challenging. Extracting distinct fine-grained features unique to each piece of information is difficult since temporal information often includes spatial information, as users tend to visit nearby POIs. To address the challenge, we propose \textbf{\underline{Mob}}ility \textbf{\underline{G}}raph \textbf{\underline{T}}ransformer (MobGT) that enables us to fully leverage graphs to capture both the spatial and temporal features in users' mobility patterns. MobGT combines individual spatial and temporal graph encoders to capture unique features and global user-location relations. Additionally, it incorporates a mobility encoder based on Graph Transformer to extract higher-order information between POIs. To address the long-tailed problem in spatial-temporal data, MobGT introduces a novel loss function, Tail Loss. Experimental results demonstrate that MobGT outperforms state-of-the-art models on various datasets and metrics, achieving 24\% improvement on average. Our codes are available at \url{https://github.com/Yukayo/MobGT}. | 翻訳日:2023-10-04 21:32:25 公開日:2023-10-02 |
# シードトケナイザを用いたLLaMAシースと描画 Making LLaMA SEE and Draw with SEED Tokenizer ( http://arxiv.org/abs/2310.01218v1 ) ライセンス: Link先を確認 | Yuying Ge, Sijie Zhao, Ziyun Zeng, Yixiao Ge, Chen Li, Xintao Wang and Ying Shan | (参考訳) 大規模言語モデル(llms)の成功はマルチモダリティの可能性を広げ、汎用人工知能(agi)の段階的進化に寄与した。
真のAGIエージェントは、事前に定義されたマルチタスクを実行する能力を持つだけでなく、オープンワールドのコンテキストにおいて創発的な能力を持つべきである。
しかし、近年のマルチモーダル LLM によるかなりの進歩にもかかわらず、オープンワールドの創発的能力だけでなく、事実上の理解と生成タスクの統一に不足している。
本稿では,テキストとイメージを統一された自己回帰変換器内で相互に表現・処理できることが,現状の障害を克服する鍵である,と論じる。
この目的のために,SEE と Draw を同時に実現した精巧な画像トークンである SEED を紹介した。
1)画像トークンは2次元の物理的パッチ位置から独立し、1次元の因果依存性で生成され、LLMの左から右への自己回帰予測機構に適合する本質的な相互依存性を示す。
2)画像トークンは,単語の意味的抽象化の程度と一致した高レベル意味をキャプチャし,トークン化訓練段階での識別性と再構築に最適化する必要がある。
SEEDトークンを使用すると、LLMは元のトレーニングレシピ、すなわち次の単語予測に基づいてスケーラブルなマルチモーダル自動回帰を実行することができる。
したがってSEED-LLaMAは、インターリーブされたテキストおよび視覚データに対する大規模な事前学習と指導のチューニングによって作成され、多モード理解および生成タスクの幅広い範囲における印象的なパフォーマンスを示す。
さらに重要なのは、SEED-LLaMAは、AIアシスタントのように振る舞うマルチターンインコンテキストマルチモーダル生成のような、合成創発的な能力を示しています。 The great success of Large Language Models (LLMs) has expanded the potential of multimodality, contributing to the gradual evolution of General Artificial Intelligence (AGI). A true AGI agent should not only possess the capability to perform predefined multi-tasks but also exhibit emergent abilities in an open-world context. However, despite the considerable advancements made by recent multimodal LLMs, they still fall short in effectively unifying comprehension and generation tasks, let alone open-world emergent abilities. We contend that the key to overcoming the present impasse lies in enabling text and images to be represented and processed interchangeably within a unified autoregressive Transformer. To this end, we introduce SEED, an elaborate image tokenizer that empowers LLMs with the ability to SEE and Draw at the same time. We identify two crucial design principles: (1) Image tokens should be independent of 2D physical patch positions and instead be produced with a 1D causal dependency, exhibiting intrinsic interdependence that aligns with the left-to-right autoregressive prediction mechanism in LLMs. (2) Image tokens should capture high-level semantics consistent with the degree of semantic abstraction in words, and be optimized for both discriminativeness and reconstruction during the tokenizer training phase. With SEED tokens, LLM is able to perform scalable multimodal autoregression under its original training recipe, i.e., next-word prediction. SEED-LLaMA is therefore produced by large-scale pretraining and instruction tuning on the interleaved textual and visual data, demonstrating impressive performance on a broad range of multimodal comprehension and generation tasks. More importantly, SEED-LLaMA has exhibited compositional emergent abilities such as multi-turn in-context multimodal generation, acting like your AI assistant. | 翻訳日:2023-10-04 21:31:54 公開日:2023-10-02 |
# ScaLearn: スケール学習によるシンプルかつ高パラメータ効率なタスク転送 ScaLearn: Simple and Highly Parameter-Efficient Task Transfer by Learning to Scale ( http://arxiv.org/abs/2310.01217v1 ) ライセンス: Link先を確認 | Markus Frohmann, Carolin Holtermann, Shahed Masoudian, Anne Lauscher, Navid Rekabsaz | (参考訳) マルチタスク学習(MTL)は、特に事前学習言語モデル(PLM)を使用する場合、かなり実用的な利点を示している。
これは、共同最適化手順の下で$n$タスクを同時に学習することで、一般的に達成されるが、AdapterFusionのような最近の手法は、問題を2つの異なる段階に構造化する。
(i)タスク学習、あるタスクに固有の知識がパラメータのセット(\egアダプタ)にカプセル化されている場合、及び
(ii)転送、この既に学習済みの知識を対象タスクに活用する。
この懸念の分離は、再利用可能性の促進、データのプライバシと社会的な懸念を伴うケースへの対処など、多くのメリットを提供する。
本稿では,転送学習において,ソースアダプタの出力表現を線形にスケールするの有用性を活用して,この問題に対処する。
ScaLearnは、目的タスクへの効果的な知識伝達を可能にする最小限のスケーリングパラメータ集合を学習することにより、ソースタスクの知識を活用するシンプルで高パラメータ効率の2段階MTL手法である。
3つのベンチマーク(glue,superglue,humset)による実験では,2段階mtlのメリットに加えて,少ない転送パラメータ(adaptorfusionの約0.35%)で強いベースラインを一貫して上回っています。
注目すべきは、ScaLearnは、均一なスケーリングと層共有によってパラメータを減らしても、その強力な能力を維持し、ターゲットタスクごとにたった8ドルの転送パラメータで、同様の競合的な結果が得られることだ。
提案手法は,より効率的なタスク転送の約束として,単純なスケーリングの能力を示す。 Multi-task learning (MTL) has shown considerable practical benefits, particularly when using pre-trained language models (PLMs). While this is commonly achieved by simultaneously learning $n$ tasks under a joint optimization procedure, recent methods such as AdapterFusion structure the problem into two distinct stages: (i) task learning, where knowledge specific to a task is encapsulated within sets of parameters (\eg adapters), and (ii) transfer, where this already learned knowledge is leveraged for a target task. This separation of concerns provides numerous benefits, such as promoting reusability, and addressing cases involving data privacy and societal concerns; on the flip side, current two-stage MTL methods come with the cost of introducing a substantial number of additional parameters. In this work, we address this issue by leveraging the usefulness of linearly scaling the output representations of source adapters for transfer learning. We introduce ScaLearn, a simple and highly parameter-efficient two-stage MTL method that capitalizes on the knowledge of the source tasks by learning a minimal set of scaling parameters that enable effective knowledge transfer to a target task. Our experiments on three benchmarks (GLUE, SuperGLUE, and HumSet) show that our ScaLearn, in addition to facilitating the benefits of two-stage MTL, consistently outperforms strong baselines with only a small number of transfer parameters - roughly 0.35% of those of AdapterFusion. Remarkably, we observe that ScaLearn maintains its strong abilities even when further reducing parameters through uniform scaling and layer-sharing, achieving similarly competitive results with only $8$ transfer parameters for each target task. Our proposed approach thus demonstrates the power of simple scaling as a promise for more efficient task transfer. | 翻訳日:2023-10-04 21:31:20 公開日:2023-10-02 |
# レンガから橋へ:潜在空間通信を強化するための不変性の積 From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication ( http://arxiv.org/abs/2310.01211v1 ) ライセンス: Link先を確認 | Irene Cannistraci, Luca Moschella, Marco Fumero, Valentino Maiorca, Emanuele Rodol\`a | (参考訳) 異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。
幾何学的な観点では、変換のクラスとそれらの表現をつなぐ関連する不変性を特定することは、マージ、縫い合わせ、異なる神経モジュールの再利用といったアプリケーションをアンロックする上で基本である。
しかしながら、事前のタスク固有の変換の推定は、いくつかの要因(重みの初期化、トレーニングハイパーパラメーター、データモダリティなど)によって困難で費用がかかる可能性がある。
そこで本研究では,不変成分の積空間を潜在表現の上に構築し,不変成分の和の最適不変性に関する事前知識を必要とせずに直接表現に不変成分の組を組み込む汎用的な手法を提案する。
我々は,ゼロショットステッチング設定において,分類と再構築のタスク,一貫性のある潜伏性の観察,下流性能の向上に関するソリューションを検証する。
実験分析は、3つのモード(ビジョン、テキスト、グラフ)、12の事前訓練された基礎モデル、8のベンチマーク、およびいくつかのアーキテクチャで構成されている。 It has been observed that representations learned by distinct neural networks conceal structural similarities when the models are trained under similar inductive biases. From a geometric perspective, identifying the classes of transformations and the related invariances that connect these representations is fundamental to unlocking applications, such as merging, stitching, and reusing different neural modules. However, estimating task-specific transformations a priori can be challenging and expensive due to several factors (e.g., weights initialization, training hyperparameters, or data modality). To this end, we introduce a versatile method to directly incorporate a set of invariances into the representations, constructing a product space of invariant components on top of the latent representations without requiring prior knowledge about the optimal invariance to infuse. We validate our solution on classification and reconstruction tasks, observing consistent latent similarity and downstream performance improvements in a zero-shot stitching setting. The experimental analysis comprises three modalities (vision, text, and graphs), twelve pretrained foundational models, eight benchmarks, and several architectures trained from scratch. | 翻訳日:2023-10-04 21:30:48 公開日:2023-10-02 |
# グラフ畳み込みネットワークを用いたロバスト心筋セグメンテーションに向けて Towards Robust Cardiac Segmentation using Graph Convolutional Networks ( http://arxiv.org/abs/2310.01210v1 ) ライセンス: Link先を確認 | Gilles Van De Vyver, Sarina Thomas, Guy Ben-Yosef, Sindre Hellum Olaisen, H\r{a}vard Dalen, Lasse L{\o}vstakken, and Erik Smistad | (参考訳) 完全自動心筋分画は、心エコー検査から臨床測定を抽出する高速かつ再現可能な方法である。
u-netアーキテクチャは医学的なセグメンテーションのための最先端のディープラーニングアーキテクチャであり、平均的なエラーで心臓構造をリアルタイムでセグメンテーションすることができる。
しかし、このアーキテクチャは、しばしば解剖学的に正しくない大きな外れ値を生成する。
この研究はグラフ畳み込みニューラルネットワークの概念を用いて、各ピクセルをラベル付けするのではなく、興味のある構造の輪郭点を予測する。
本研究では,心臓解剖学に基づく2つの畳み込み輪を用いたグラフアーキテクチャを提案する。
さらに、この研究は、グラフ畳み込みアーキテクチャに関するアブレーション研究と、臨床HUNT4データセットに関する臨床測定の評価に寄与する。
最後に,U-Netとグラフネットワークのモデル間合意を,入力品質とセグメンテーション品質の両方の予測器として用いることを提案する。
この予測器は,分布外および不適な入力画像をリアルタイムに検出できることを示す。
ソースコード: https://github.com/gillesvntnu/gcn_multistructure Fully automatic cardiac segmentation can be a fast and reproducible method to extract clinical measurements from an echocardiography examination. The U-Net architecture is the current state-of-the-art deep learning architecture for medical segmentation and can segment cardiac structures in real-time with average errors comparable to inter-observer variability. However, this architecture still generates large outliers that are often anatomically incorrect. This work uses the concept of graph convolutional neural networks that predict the contour points of the structures of interest instead of labeling each pixel. We propose a graph architecture that uses two convolutional rings based on cardiac anatomy and show that this eliminates anatomical incorrect multi-structure segmentations on the publicly available CAMUS dataset. Additionally, this work contributes with an ablation study on the graph convolutional architecture and an evaluation of clinical measurements on the clinical HUNT4 dataset. Finally, we propose to use the inter-model agreement of the U-Net and the graph network as a predictor of both the input and segmentation quality. We show this predictor can detect out-of-distribution and unsuitable input images in real-time. Source code is available online: https://github.com/gillesvntnu/GCN_multistructure | 翻訳日:2023-10-04 21:30:27 公開日:2023-10-02 |
# 医用画像解析のための雑音正規化教師(SMART)を用いた自己蒸留仮面注意誘導マスク画像モデリング Self-distilled Masked Attention guided masked image modeling with noise Regularized Teacher (SMART) for medical image analysis ( http://arxiv.org/abs/2310.01209v1 ) ライセンス: Link先を確認 | Jue Jiang, Harini Veeraraghavan | (参考訳) 階層型シフトウィンドウトランスフォーマー(swin)は、プレーンビジョントランスフォーマーの計算効率が高く、より正確である。
マスク画像モデリング(mim)ベースのプリトレーニングは、様々な下流タスクへのモデルの転送性を高めるのに非常に効果的である。
しかし、より正確で効率的なMIMアプローチは、明示的なグローバルな注目を集めていないため、Swinでは実装が難しい。
そこで我々は,mimとの共蒸留を誘導する自己教師付注意のための意味クラス注目によるswainをアーキテクチャ的に拡張した。
また,教師の入力をパッチドロップアウトして学習規則化と精度を向上させるノイズ注入運動量教師も導入した。
提案手法は,複数の疾患部位の3次元コンピュータ断層撮影 (CT) で事前訓練を行い, 施設, 公共のデータセットから抽出した。
肺癌(LC)患者の3次元CT解析における複数の下流課題に対するSMARTの評価を行った。
(i)[Task I]による進行期LC(n = 200内部データセット)の免疫療法応答の予測
(ii)[Task II]手術前のLC早期再発を予測する(n = 156公開データセット)
(iii)[Task III]LCセグメンテーション(n = 200内部、21公開データセット)
(iv) [task iv] 胸部および腹部の臓器の教師なしクラスタリング(n = 1,743パブリックデータセット) \underline{without} 微調整。
SMARTは、AUCの0.916、AUCの0.793、Diceの精度0.81の分画LC、クラス間クラスター距離5.94のクラスター臓器による免疫療法反応を予測し、医用画像解析における注目誘導MIMの機能を示した。 Hierarchical shifted window transformers (Swin) are a computationally efficient and more accurate alternative to plain vision transformers. Masked image modeling (MIM)-based pretraining is highly effective in increasing models' transferability to a variety of downstream tasks. However, more accurate and efficient attention guided MIM approaches are difficult to implement with Swin due to it's lack of an explicit global attention. We thus architecturally enhanced Swin with semantic class attention for self-supervised attention guided co-distillation with MIM. We also introduced a noise injected momentum teacher, implemented with patch dropout of teacher's inputs for improved training regularization and accuracy. Our approach, called \underline{s}elf-distilled \underline{m}asked \underline{a}ttention MIM with noise \underline{r}egularized \underline{t}eacher (SMART) was pretrained with \textbf{10,412} unlabeled 3D computed tomography (CT)s of multiple disease sites and sourced from institutional and public datasets. We evaluated SMART for multiple downstream tasks involving analysis of 3D CTs of lung cancer (LC) patients for: (i) [Task I] predicting immunotherapy response in advanced stage LC (n = 200 internal dataset), (ii) [Task II] predicting LC recurrence in early stage LC before surgery (n = 156 public dataset), (iii) [Task III] LC segmentation (n = 200 internal, 21 public dataset), and (iv) [Task IV] unsupervised clustering of organs in the chest and abdomen (n = 1,743 public dataset) \underline{without} finetuning. SMART predicted immunotherapy response with an AUC of 0.916, LC recurrence with an AUC of 0.793, segmented LC with Dice accuracy of 0.81, and clustered organs with an inter-class cluster distance of 5.94, indicating capability of attention guided MIM for Swin in medical image analysis. | 翻訳日:2023-10-04 21:30:07 公開日:2023-10-02 |
# 非交換型コンフォーマルリスク制御 Non-Exchangeable Conformal Risk Control ( http://arxiv.org/abs/2310.01262v1 ) ライセンス: Link先を確認 | Ant\'onio Farinhas, Chrysoula Zerva, Dennis Ulmer, Andr\'e F. T. Martins | (参考訳) 分割共形予測は、ブラックボックスニューラルモデルによる予測に対して、公式に保証された不確実性セットや間隔を提供することで、実際の基底真理を包含する事前定義された確率を確保するために、最近大きな関心を集めている。
オリジナルの定式化はデータ交換可能性を想定しているが、いくつかの拡張は交換不能なデータを扱う。
並行して、f1-scoreの最高値のバウンドや期待値の偽陰性率の最小化など、幅広い目的に対して統計的な保証を提供する共形法でいくつかの進歩がなされている。
本稿では,データ交換不能時の単調損失関数の期待値を制御できる非交換性共形リスク制御を提案することにより,これら2つの作業線を活用・拡張する。
私たちのフレームワークは柔軟性があり、仮定が極めて少なく、テスト例との統計的類似性に基づいてデータを重み付けすることが可能です。
合成データと実世界データの両方を用いた実験により,本手法の有用性が示された。 Split conformal prediction has recently sparked great interest due to its ability to provide formally guaranteed uncertainty sets or intervals for predictions made by black-box neural models, ensuring a predefined probability of containing the actual ground truth. While the original formulation assumes data exchangeability, some extensions handle non-exchangeable data, which is often the case in many real-world scenarios. In parallel, some progress has been made in conformal methods that provide statistical guarantees for a broader range of objectives, such as bounding the best F1-score or minimizing the false negative rate in expectation. In this paper, we leverage and extend these two lines of work by proposing non-exchangeable conformal risk control, which allows controlling the expected value of any monotone loss function when the data is not exchangeable. Our framework is flexible, makes very few assumptions, and allows weighting the data based on its statistical similarity with the test examples; a careful choice of weights may result on tighter bounds, making our framework useful in the presence of change points, time series, or other forms of distribution drift. Experiments with both synthetic and real world data show the usefulness of our method. | 翻訳日:2023-10-04 21:22:11 公開日:2023-10-02 |
# SPELL: LLMに基づくセマンティックプロンプト進化 SPELL: Semantic Prompt Evolution based on a LLM ( http://arxiv.org/abs/2310.01260v1 ) ライセンス: Link先を確認 | Yujian Betterest Li, Kai Wu | (参考訳) Prompt Engineeringは、トレーニングされたニューラルネットワークモデルのパフォーマンスを向上させるための新しいパラダイムである。
テキストスタイルのプロンプトを最適化するために、既存のメソッドは通常、テキストの小さな部分をステップごとに個別に操作する。
大規模言語モデル(llm)はトークンによってコヒーレントなテキストを生成する強力な能力を持っているため、プロンプトを改善するためにllmを活用できるか?
この動機に基づき,本論文では,テキストジェネレータとして訓練されたLLMを考慮し,テキストの自動最適化のためのブラックボックス進化アルゴリズム,すなわちSPELL(Semantic Prompt Evolution based on a LLM)を設計する。
提案手法は,異なるテキストタスクにおける異なるLLMと進化パラメータを用いて評価する。
実験の結果,SPELLはプロンプトを急速に改善できることがわかった。
さらに,進化過程を探究し,限界,可能性,今後の課題について論じる。 Prompt engineering is a new paradigm for enhancing the performance of trained neural network models. For optimizing text-style prompts, existing methods usually individually operate small portions of a text step by step, which either breaks the fluency or could not globally adjust a prompt. Since large language models (LLMs) have powerful ability of generating coherent texts token by token, can we utilize LLMs for improving prompts? Based on this motivation, in this paper, considering a trained LLM as a text generator, we attempt to design a black-box evolution algorithm for automatically optimizing texts, namely SPELL (Semantic Prompt Evolution based on a LLM). The proposed method is evaluated with different LLMs and evolution parameters in different text tasks. Experimental results show that SPELL could rapidly improve the prompts indeed. We further explore the evolution process and discuss on the limitations, potential possibilities and future work. | 翻訳日:2023-10-04 21:21:50 公開日:2023-10-02 |
# MobileNVC: モバイルデバイス上のリアルタイム1080pニューラルビデオ圧縮 MobileNVC: Real-time 1080p Neural Video Compression on a Mobile Device ( http://arxiv.org/abs/2310.01258v1 ) ライセンス: Link先を確認 | Ties van Rozendaal, Tushar Singhal, Hoang Le, Guillaume Sautiere, Amir Said, Krishna Buska, Anjuman Raha, Dimitris Kalatzis, Hitarth Mehta, Frank Mayer, Liang Zhang, Markus Nagel, Auke Wiggers | (参考訳) ニューラルビデオコーデックは最近、低遅延設定でHEVCのような標準コーデックと競合している。
しかし、ほとんどのニューラルコーデックは大きな浮動小数点ネットワークであり、時間的モデリングにピクセル密度のワープ操作を使用するため、モバイルデバイスへの展開には計算コストがかかりすぎる。
最近の研究では、モバイルでリアルタイムにニューラルデコーダを実行することは可能であるが、720pのrgbビデオでのみ可能であり、yuv420フォーマットはプロダクションでより一般的に使用されている。
この研究は、1080p yuv420ビデオをモバイルデバイス上でリアルタイムにデコードする最初のニューラルビデオコーデックである。
私たちのコーデックは2つの大きな貢献に依存している。
まず,移動加速器のワープコア上で利用可能なブロックベースの動き補償アルゴリズムを用いた効率的なコーデックを設計し,このモデルを整数精度に定量化する方法を示す。
第2に,ニューラルネットワークコンポーネントをニューラルネットワークプロセッサ上で同時実行し,並列エントロピー符号化をモバイルgpu上で実行し,ワーピングコアをウォーピングする高速デコーダパイプラインを実装した。
我々のコーデックは、以前のデバイス上のコーデックを最大48%のBDレートの節約率で上回り、受信側のMAC数を10倍に削減する。
導入した動作補償スキームの効果を示すために注意深いアブレーションを行い,モデル量子化の効果を緩和する。 Neural video codecs have recently become competitive with standard codecs such as HEVC in the low-delay setting. However, most neural codecs are large floating-point networks that use pixel-dense warping operations for temporal modeling, making them too computationally expensive for deployment on mobile devices. Recent work has demonstrated that running a neural decoder in real time on mobile is feasible, but shows this only for 720p RGB video, while the YUV420 format is more commonly used in production. This work presents the first neural video codec that decodes 1080p YUV420 video in real time on a mobile device. Our codec relies on two major contributions. First, we design an efficient codec that uses a block-based motion compensation algorithm available on the warping core of the mobile accelerator, and we show how to quantize this model to integer precision. Second, we implement a fast decoder pipeline that concurrently runs neural network components on the neural signal processor, parallel entropy coding on the mobile GPU, and warping on the warping core. Our codec outperforms the previous on-device codec by a large margin with up to 48 % BD-rate savings, while reducing the MAC count on the receiver side by 10x. We perform a careful ablation to demonstrate the effect of the introduced motion compensation scheme, and ablate the effect of model quantization. | 翻訳日:2023-10-04 21:21:00 公開日:2023-10-02 |
# 効率的な階層的位置表現による個人軌道における事前学習型位置情報埋め込み Pre-training Contextual Location Embeddings in Personal Trajectories via Efficient Hierarchical Location Representations ( http://arxiv.org/abs/2310.01252v1 ) ライセンス: Link先を確認 | Chung Park, Taesan Kim, Junui Hong, Minsung Choi, Jaegul Choo | (参考訳) 人間の移動データから生成された位置の埋め込みを事前学習することは、位置情報ベースのサービスにとって一般的な方法となっている。
実際には、きめ細かい解像度や広範囲のターゲット領域を持つ状況で訓練すべき場所が多すぎるため、位置埋め込みのモデリングは高価すぎる。
これまでの研究では、実世界のアプリケーションでは不十分な1万の異なる場所を処理してきた。
そこで本研究では,複数のグリッドの組合せとして位置を表現することで,トレーニング対象の場所数を効率的に削減するGeo-Tokenizerを提案する。
geo-tokenizerでは、大きなスケールのグリッドは、小さなスケールで共通のグリッドの集合を共有します。
ジオトケナイザで前処理された位置のシーケンスは因果的位置埋め込みモデルを用いて位置の時間的依存性をキャプチャする。
このモデルは、軌道によって異なる目標位置の埋め込みベクトルを動的に計算する。
また,位置埋め込みモデルを効率的に事前学習するために,ジオ・トケナイザーの分解した位置を効果的に訓練するための階層的自己回帰位置モデルを提案する。
事前学習した位置モデルを用いて,2つの実世界のユーザトラジェクトリデータセットの実験を行った。
実験の結果,既存の位置埋め込み手法と比較して,モデルパラメータの少ない下流タスクの性能が大幅に向上することがわかった。 Pre-training the embedding of a location generated from human mobility data has become a popular method for location based services. In practice, modeling the location embedding is too expensive, due to the large number of locations to be trained in situations with fine-grained resolution or extensive target regions. Previous studies have handled less than ten thousand distinct locations, which is insufficient in the real-world applications. To tackle this problem, we propose a Geo-Tokenizer, designed to efficiently reduce the number of locations to be trained by representing a location as a combination of several grids at different scales. In the Geo-Tokenizer, a grid at a larger scale shares the common set of grids at smaller scales, which is a key factor in reducing the size of the location vocabulary. The sequences of locations preprocessed with the Geo-Tokenizer are utilized by a causal location embedding model to capture the temporal dependencies of locations. This model dynamically calculates the embedding vector of a target location, which varies depending on its trajectory. In addition, to efficiently pre-train the location embedding model, we propose the Hierarchical Auto-regressive Location Model objective to effectively train decomposed locations in the Geo-Tokenizer. We conducted experiments on two real-world user trajectory datasets using our pre-trained location model. The experimental results show that our model significantly improves the performance of downstream tasks with fewer model parameters compared to existing location embedding methods. | 翻訳日:2023-10-04 21:20:34 公開日:2023-10-02 |
# ベクトル量子化によるMRIの3次元脳腫瘍領域の生成 Generating 3D Brain Tumor Regions in MRI using Vector-Quantization Generative Adversarial Networks ( http://arxiv.org/abs/2310.01251v1 ) ライセンス: Link先を確認 | Meng Zhou, Matthias W Wagner, Uri Tabori, Cynthia Hawkins, Birgit B Ertl-Wagner, Farzad Khalvati | (参考訳) 医用画像解析は,特にGAN(Generative Adversarial Networks)を用いて,トレーニングデータセットを拡張可能な,現実的で多様な画像を生成することによって,ディープラーニングの進歩の大きな恩恵を受けている。
しかし、そのようなアプローチの有効性は、臨床現場で利用可能なデータ量によって制限されることが多い。
さらに、GANベースの一般的なアプローチは、関心領域(ROI)のみではなく、イメージボリューム全体を生成することである。
MRIを用いた深層学習に基づく脳腫瘍分類の研究により,腫瘍のROIを画像全体と比較して分類しやすくなった。
本研究では,ベクトル量子化GANとマスクトークンモデリングを取り入れたトランスフォーマーを用いて,高分解能で多様な3次元脳腫瘍ROIを生成し,脳腫瘍ROIの分類のための拡張データとして直接使用できる新しいフレームワークを提案する。
本手法をマイノリティクラスを拡大する2つの非バランスなデータセットに適用し,(1)高次グリオーマ (HGG) クラスとバランスをとるために新しい低次グリオーマ (LGG) ROIを生成するためのBraTS (Multimodal Brain tumor Segmentation Challenge) 2019データセット,(2)内科LGG (pLGG) データセット ROI とBRAF V600E 変異遺伝子マーカーを併用してBRAF Fusion 遺伝子マーカークラスとバランスをとる。
提案手法は,質的および定量的な測定において,様々なベースラインモデルに勝ることを示す。
生成されたデータは、脳腫瘍の分類タスクにおけるデータのバランスをとるために使用された。
拡張データを使用することで、BraTS 2019データセットではAUCが6.4%、内部のpLGGデータセットでは4.3%のベースラインモデルを超えています。
その結果, 腫瘍ROIは不均衡なデータ問題に効果的に対処できることが示唆された。
提案手法は,MRIでまれな脳腫瘍の正確な診断を容易にする可能性がある。 Medical image analysis has significantly benefited from advancements in deep learning, particularly in the application of Generative Adversarial Networks (GANs) for generating realistic and diverse images that can augment training datasets. However, the effectiveness of such approaches is often limited by the amount of available data in clinical settings. Additionally, the common GAN-based approach is to generate entire image volumes, rather than solely the region of interest (ROI). Research on deep learning-based brain tumor classification using MRI has shown that it is easier to classify the tumor ROIs compared to the entire image volumes. In this work, we present a novel framework that uses vector-quantization GAN and a transformer incorporating masked token modeling to generate high-resolution and diverse 3D brain tumor ROIs that can be directly used as augmented data for the classification of brain tumor ROI. We apply our method to two imbalanced datasets where we augment the minority class: (1) the Multimodal Brain Tumor Segmentation Challenge (BraTS) 2019 dataset to generate new low-grade glioma (LGG) ROIs to balance with high-grade glioma (HGG) class; (2) the internal pediatric LGG (pLGG) dataset tumor ROIs with BRAF V600E Mutation genetic marker to balance with BRAF Fusion genetic marker class. We show that the proposed method outperforms various baseline models in both qualitative and quantitative measurements. The generated data was used to balance the data in the brain tumor types classification task. Using the augmented data, our approach surpasses baseline models by 6.4% in AUC on the BraTS 2019 dataset and 4.3% in AUC on our internal pLGG dataset. The results indicate the generated tumor ROIs can effectively address the imbalanced data problem. Our proposed method has the potential to facilitate an accurate diagnosis of rare brain tumors using MRI scans. | 翻訳日:2023-10-04 21:20:10 公開日:2023-10-02 |
# 画像に基づくプレイリスト記述と音楽トピックにおける感情表現と凝集の改善:連続パラメータ化アプローチ Improving Emotional Expression and Cohesion in Image-Based Playlist Description and Music Topics: A Continuous Parameterization Approach ( http://arxiv.org/abs/2310.01248v1 ) ライセンス: Link先を確認 | Yuelyu Ji, Yuheng Song, Wei Wang, Ruoyi Xu, Zhongqian Xie, Huiyun Liu | (参考訳) 画像ベースのプラットフォーム、特に音楽関連コンテンツにおけるテキスト生成には、テキストスタイルの精密な制御と感情表現の取り込みが必要である。
しかしながら、既存のアプローチでは、生成されたテキストにおける外部要因の比率を制御し、望ましいテキスト生成のための連続制御条件を欠いた離散入力に依存することがしばしば必要となる。
本研究では,これらの制約を克服するためのCPCTG(Continuous Parameterization for Controled Text Generation)を提案する。
本稿では,言語モデル(LM)をスタイル学習の手段として活用し,セマンティック・コヒージョン(SC)と感情表現抽出(EEP)を統合した。
報酬法の強化とCPCTGレベルの操作により,プレイリスト記述と音楽トピック生成タスクの実験により,ROUGEスコアの大幅な改善が示され,生成したテキストの関連性と一貫性が向上した。 Text generation in image-based platforms, particularly for music-related content, requires precise control over text styles and the incorporation of emotional expression. However, existing approaches often need help to control the proportion of external factors in generated text and rely on discrete inputs, lacking continuous control conditions for desired text generation. This study proposes Continuous Parameterization for Controlled Text Generation (CPCTG) to overcome these limitations. Our approach leverages a Language Model (LM) as a style learner, integrating Semantic Cohesion (SC) and Emotional Expression Proportion (EEP) considerations. By enhancing the reward method and manipulating the CPCTG level, our experiments on playlist description and music topic generation tasks demonstrate significant improvements in ROUGE scores, indicating enhanced relevance and coherence in the generated text. | 翻訳日:2023-10-04 21:19:28 公開日:2023-10-02 |
# 計算ワークフローにおける異常検出のための自己教師型学習 Self-supervised Learning for Anomaly Detection in Computational Workflows ( http://arxiv.org/abs/2310.01247v1 ) ライセンス: Link先を確認 | Hongwei Jin, Krishnan Raghavan, George Papadimitriou, Cong Wang, Anirban Mandal, Ewa Deelman, Prasanna Balaprakash | (参考訳) 異常検出はシステムの異常な振る舞いを特定するタスクである。
計算ワークフローにおける異常検出は、サイバーセキュリティ、金融、ソーシャルネットワークといった様々な分野に広く影響するため、特に興味深い。
しかし、計算ワークフローにおける異常検出(しばしばグラフとしてモデル化される)は、比較的未探索の問題であり、異なる問題を引き起こす。
例えば、グラフデータ上で異常検出を行う場合には、ノードとエッジの複雑な相互依存、ノード属性の多様性、エッジタイプを考慮しなければならない。
グラフニューラルネットワークは複雑な依存関係をキャプチャするのに役立つが、ワークフローの実行によるラベル付き異常な例の不足は依然として大きな課題である。
この問題に対処するために,ラベルなしワークフローデータから要約統計を学習し,潜在空間における計算ワークフローの正常な振る舞いを推定する,自動エンコーダ駆動自己教師付き学習~(ssl)手法を提案する。
このアプローチでは,生成的学習目標と対比的学習目標を組み合わせて,要約統計から外れ値を検出する。
潜在空間における正常な挙動の分布を推定することにより、我々のベンチマークデータセットにおける最先端の異常検出方法より優れていることを示す。 Anomaly detection is the task of identifying abnormal behavior of a system. Anomaly detection in computational workflows is of special interest because of its wide implications in various domains such as cybersecurity, finance, and social networks. However, anomaly detection in computational workflows~(often modeled as graphs) is a relatively unexplored problem and poses distinct challenges. For instance, when anomaly detection is performed on graph data, the complex interdependency of nodes and edges, the heterogeneity of node attributes, and edge types must be accounted for. Although the use of graph neural networks can help capture complex inter-dependencies, the scarcity of labeled anomalous examples from workflow executions is still a significant challenge. To address this problem, we introduce an autoencoder-driven self-supervised learning~(SSL) approach that learns a summary statistic from unlabeled workflow data and estimates the normal behavior of the computational workflow in the latent space. In this approach, we combine generative and contrastive learning objectives to detect outliers in the summary statistics. We demonstrate that by estimating the distribution of normal behavior in the latent space, we can outperform state-of-the-art anomaly detection methods on our benchmark datasets. | 翻訳日:2023-10-04 21:19:12 公開日:2023-10-02 |
# 量子回路における熱浴 Heat bath in a quantum circuit ( http://arxiv.org/abs/2310.01246v1 ) ライセンス: Link先を確認 | Jukka P. Pekola and Bayan Karimi | (参考訳) 固体量子システムにおける熱浴の概念と実現について述べる。
まず, 真の抵抗器とは異なり, 有限一次元ジョセフソン接合アレイや非有線周波数間隔の伝送線路はカルデイラ・レゲット型散逸環境として厳格に適さないことを示す。
次に、量子2次系の集合を浴槽として考慮し、量子ビットの集まりとして実現する。
本研究は,2レベル系の高密度かつ広範囲なエネルギー分布のみが,適切な熱浴に特徴的な長時間のポインケア再発時間を確保できることを実証する。
この浴の代替品は、例えば超伝導共振器のような調和振動子の集まりである。 We discuss the concept and realization of a heat bath in solid state quantum systems. First we demonstrate that, unlike a true resistor, a finite one-dimensional Josephson junction array or analogously a transmission line with non-vanishing frequency spacing does not strictly qualify as a Caldeira-Leggett type dissipative environment. We then consider a set of quantum two-level systems as a bath, which can be realized as a collection of qubits. We demonstrate that only a dense and wide distribution of energies of the two-level systems can secure long Poincare recurrence times characteristic of a proper heat bath. An alternative for this bath is a collection of harmonic oscillators, for instance in form of superconducting resonators. | 翻訳日:2023-10-04 21:18:52 公開日:2023-10-02 |
# 拘束・透かし生成のためのミラー拡散モデル Mirror Diffusion Models for Constrained and Watermarked Generation ( http://arxiv.org/abs/2310.01236v1 ) ライセンス: Link先を確認 | Guan-Horng Liu, Tianrong Chen, Evangelos A. Theodorou, Molei Tao | (参考訳) 複雑な高次元データ分布の学習における拡散モデルの成功は、部分的には、解析的遷移核とスコア関数を持つ拡散過程を構築する能力に起因している。
トラクタビリティは、安定な回帰損失を持つシミュレーションのないフレームワークとなり、そこから逆生成過程を大規模に学習することができる。
しかし、データが標準ユークリッド空間とは対照的に制約された集合に制限されている場合、これらの望ましい特徴は以前の試みによって失われるように見える。
本研究では, トラクタビリティを損なうことなく凸拘束集合上のデータを生成する新しい拡散モデルであるミラー拡散モデル(MDM)を提案する。
これはミラー写像から構築された双対空間における拡散過程の学習によって達成され、これは決定的に標準ユークリッド空間である。
我々は,従来の手法よりもMDMの性能が大幅に向上した,simplicesや$\ell_2$-ballsなどの制約セットに対するミラーマップの効率的な計算法を導出した。
安全性とプライバシの目的でも、MDMが魅力的なアプローチとして機能する生成データに、目に見えないが定量的な情報(すなわち透かし)を埋め込む新しいメカニズムとして制約セットを探求する。
本研究は,複雑な領域における可搬拡散の学習に新たなアルゴリズム的機会をもたらす。 Modern successes of diffusion models in learning complex, high-dimensional data distributions are attributed, in part, to their capability to construct diffusion processes with analytic transition kernels and score functions. The tractability results in a simulation-free framework with stable regression losses, from which reversed, generative processes can be learned at scale. However, when data is confined to a constrained set as opposed to a standard Euclidean space, these desirable characteristics appear to be lost based on prior attempts. In this work, we propose Mirror Diffusion Models (MDM), a new class of diffusion models that generate data on convex constrained sets without losing any tractability. This is achieved by learning diffusion processes in a dual space constructed from a mirror map, which, crucially, is a standard Euclidean space. We derive efficient computation of mirror maps for popular constrained sets, such as simplices and $\ell_2$-balls, showing significantly improved performance of MDM over existing methods. For safety and privacy purposes, we also explore constrained sets as a new mechanism to embed invisible but quantitative information (i.e., watermarks) in generated data, for which MDM serves as a compelling approach. Our work brings new algorithmic opportunities for learning tractable diffusion on complex domains. | 翻訳日:2023-10-04 21:18:41 公開日:2023-10-02 |
# 知識のクロスワード:大規模言語モデルによる構造化知識の幾何学的推論 Knowledge Crosswords: Geometric Reasoning over Structured Knowledge with Large Language Models ( http://arxiv.org/abs/2310.01290v1 ) ライセンス: Link先を確認 | Wenxuan Ding, Shangbin Feng, Yuhan Liu, Zhaoxuan Tan, Vidhisha Balachandran, Tianxing He, Yulia Tsvetkov | (参考訳) 大規模言語モデル(LLM)は知識集約的なタスクで広く採用されており、その知識能力によって優れたパフォーマンスを実現している。
LLMは、原子的または線形(マルチホップ)なQAタスクにおいて顕著な性能を示してきたが、それらが、インターウィービング制約を伴う知識豊富なシナリオで推論できるかどうかはまだ未解決の問題である。
そこで本研究では,知識の一部がグラフ構造に連結され,モデルが不足する情報を埋める必要がある,構造化知識に対する幾何学的推論を提案する。
このような幾何学的知識推論は、構造化された知識、不確実性のある推論、事実の検証、エラーが発生した時のバックトラックを扱う能力を必要とする。
そこで我々は,不完全なエンティティネットワークの幾何学的制約を表現する自然言語質問と,すべての制約を満たしながら行方不明のエンティティの処理をllmが行う自然言語質問からなる,マルチブランクqaデータセットであるナレッジクロスワードを提案する。
知識クロスワードには2,101の個別の問題が含まれ、様々な知識領域をカバーし、さらに3つの困難レベルに分けられる。
我々はknowledge crosswordsベンチマークで既存のllmプロンプトアプローチを評価するための広範囲な実験を行う。
さらに,LLMのバックトラックと構造化制約の検証能力を高めるために,Staged PromptingとVerify-Allという2つの新しいアプローチを提案する。
提案するVerify-Allは,より簡単な問題に対してベースラインアプローチが良好に機能する一方で,他の手法よりも大きなマージンで性能が向上し,難しい問題に対して堅牢であることを示す。
さらなる分析により、llmsの構造化知識よりも幾何学的推論の能力は、選択肢の順序、特定の構造的パターン、正しい答えの存在の仮定など、共同創設者に影響を受けやすい、強固あるいは完全とは程遠いことが判明した。 Large language models (LLMs) are widely adopted in knowledge-intensive tasks and have achieved impressive performance thanks to their knowledge abilities. While LLMs have demonstrated outstanding performance on atomic or linear (multi-hop) QA tasks, whether they can reason in knowledge-rich scenarios with interweaving constraints remains an underexplored problem. In this work, we propose geometric reasoning over structured knowledge, where pieces of knowledge are connected in a graph structure and models need to fill in the missing information. Such geometric knowledge reasoning would require the ability to handle structured knowledge, reason with uncertainty, verify facts, and backtrack when an error occurs. We propose Knowledge Crosswords, a multi-blank QA dataset where each problem consists of a natural language question representing the geometric constraints of an incomplete entity network, where LLMs are tasked with working out the missing entities while meeting all factual constraints. Knowledge Crosswords contains 2,101 individual problems, covering various knowledge domains and further divided into three difficulty levels. We conduct extensive experiments to evaluate existing LLM prompting approaches on the Knowledge Crosswords benchmark. We additionally propose two new approaches, Staged Prompting and Verify-All, to augment LLMs' ability to backtrack and verify structured constraints. Our results demonstrate that while baseline approaches perform well on easier problems but struggle with hard ones, our proposed Verify-All outperforms other methods by a large margin and is more robust with hard problems. Further analysis reveals that LLMs' ability of geometric reasoning over structured knowledge is still far from robust or perfect, susceptible to confounders such as the order of options, certain structural patterns, assumption of existence of correct answer, and more. | 翻訳日:2023-10-04 21:14:01 公開日:2023-10-02 |
# オブジェクトパーマンスによるオフライン追跡 Offline Tracking with Object Permanence ( http://arxiv.org/abs/2310.01288v1 ) ライセンス: Link先を確認 | Xianzhong Liu, Holger Caesar | (参考訳) 自動走行データセットの手動ラベリングに要するコストを削減すべく、オフライン認識システムを用いてデータセットを自動的にラベリングする。
しかし、物体は時間的にオクルードされることがある。
このようなデータセットのオクルージョンシナリオは、オフラインのオートラベルでは未検討のままである。
本研究では,隠蔽対象トラックに着目したオフライン追跡モデルを提案する。
オブジェクト永続性(object permanence)という概念を利用しており、もはや観測されていなくてもオブジェクトは存在し続ける。
このモデルには、標準的なオンライントラッカー、閉塞前後のトラックレットを関連付ける再識別(Re-ID)モジュール、断片化されたトラックを補完するトラック補完モジュールの3つの部分が含まれている。
Re-IDモジュールとトラック完了モジュールは、ベクトル化されたマップを入力の1つとして使用し、オクルージョンで追跡結果を洗練する。
モデルは、閉塞された対象軌跡を効果的に回収することができる。
従来のオンライン追跡結果を45%のIDSと2%のAMOTAで改善し、3Dマルチオブジェクトトラッキングにおける最先端のパフォーマンスを実現する。 To reduce the expensive labor cost for manual labeling autonomous driving datasets, an alternative is to automatically label the datasets using an offline perception system. However, objects might be temporally occluded. Such occlusion scenarios in the datasets are common yet underexplored in offline autolabeling. In this work, we propose an offline tracking model that focuses on occluded object tracks. It leverages the concept of object permanence which means objects continue to exist even if they are not observed anymore. The model contains three parts: a standard online tracker, a re-identification (Re-ID) module that associates tracklets before and after occlusion, and a track completion module that completes the fragmented tracks. The Re-ID module and the track completion module use the vectorized map as one of the inputs to refine the tracking results with occlusion. The model can effectively recover the occluded object trajectories. It achieves state-of-the-art performance in 3D multi-object tracking by improving over the original online tracking result by 45% IDS and 2% AMOTA on the vehicle tracks. | 翻訳日:2023-10-04 21:13:26 公開日:2023-10-02 |
# スライスワッサーシュタインk平均クラスタリングによる多次元時系列データの自動状態検出 Automated regime detection in multidimensional time series data using sliced Wasserstein k-means clustering ( http://arxiv.org/abs/2310.01285v1 ) ライセンス: Link先を確認 | Qinmeng Luan and James Hamp | (参考訳) 最近の研究は、時系列データにおける状態を特定する強力な方法としてワッサーシュタインk平均(Wk平均)クラスタリングを提案している。
本稿では,合成一次元時系列データに適用したwasserstein k-meansクラスタリングアルゴリズムの挙動を詳細に検討することから始める。
アルゴリズムのダイナミクスを調査し,異なるハイパーパラメータの変動がランダム初期化に対するクラスタリングアルゴリズムの性能に与える影響について検討した。
私たちは、高品質のクラスタリングを特定するのに有用なシンプルなメトリクスを計算します。
次に,多次元ワッセルシュタイン距離をスライスワッセルシュタイン距離として近似することにより,多次元時系列データにワッセルシュタインk平均クラスタリングの手法を拡張し,その手法を「スライスワッセルシュタインk平均(swk平均)」クラスタリングと呼ぶ。
合成データを用いて,多次元時系列データにおける自動状態検出問題に対して,sWk-meansクラスタリング法を適用し,その妥当性を示す。
最後に、sWk-means法は、実数次元金融時系列において、公開為替スポットレートデータを用いて、異なる市場状況を特定するのに有効であることを示す。
我々は、我々のアプローチのいくつかの制限と、潜在的に補完的または代替的なアプローチについて、結論付けている。 Recent work has proposed Wasserstein k-means (Wk-means) clustering as a powerful method to identify regimes in time series data, and one-dimensional asset returns in particular. In this paper, we begin by studying in detail the behaviour of the Wasserstein k-means clustering algorithm applied to synthetic one-dimensional time series data. We study the dynamics of the algorithm and investigate how varying different hyperparameters impacts the performance of the clustering algorithm for different random initialisations. We compute simple metrics that we find are useful in identifying high-quality clusterings. Then, we extend the technique of Wasserstein k-means clustering to multidimensional time series data by approximating the multidimensional Wasserstein distance as a sliced Wasserstein distance, resulting in a method we call `sliced Wasserstein k-means (sWk-means) clustering'. We apply the sWk-means clustering method to the problem of automated regime detection in multidimensional time series data, using synthetic data to demonstrate the validity of the approach. Finally, we show that the sWk-means method is effective in identifying distinct market regimes in real multidimensional financial time series, using publicly available foreign exchange spot rate data as a case study. We conclude with remarks about some limitations of our approach and potential complementary or alternative approaches. | 翻訳日:2023-10-04 21:12:57 公開日:2023-10-02 |
# 協調行動が毒性に及ぼす影響 The influence of coordinated behavior on toxicity ( http://arxiv.org/abs/2310.01283v1 ) ライセンス: Link先を確認 | Edoardo Loru, Matteo Cinelli, Maurizio Tesconi, Walter Quattrociocchi | (参考訳) ソーシャルメディアの複雑な状況において、本物のコンテンツの拡散は多くの脅威によって変化するかもしれない。
CB(Coordinated Behavior)は、個人がユーザーのアイデンティティや意図を欺いたり誤解させたりするための組織的努力として定義され、オンラインの会話を活用または操作するための戦術として現れる。
この研究は、cbとtwitter上の有害な会話の関係を考察するものだ。
2019年のイギリス総選挙に先立ち、100万人のユーザーの1100万ツイートのデータセットを使用して、cbを表示するユーザーは、政治的提携に関係なく、通常、有害なコンテンツを広めることが示されている。
しかし、異なるcbコホート間で異なる毒性パターンが現れる。
非CB患者と比較して、CB参加者は原位置を考慮すると毒性レベルが極端に上昇している。
さらに、CBによる有害なコンテンツが非CBユーザに与える影響を政治的傾向に基づいて明らかにした。
以上の結果から,CBがデジタル談話に与える影響が示唆された。 In the intricate landscape of social media genuine content dissemination may be altered by a number of threats. Coordinated Behavior (CB), defined as orchestrated efforts by entities to deceive or mislead users about their identity and intentions, emerges as a tactic to exploit or manipulate online discourse. This study delves into the relationship between CB and toxic conversation on Twitter. Using a dataset of 11 million tweets from 1 million users preceding the 2019 UK General Elections, we show that users displaying CB typically disseminate less harmful content, irrespective of political affiliation. However, distinct toxicity patterns emerge among different CB cohorts. Compared to their non-CB counterparts, CB participants show marginally elevated toxicity levels only when considering their original posts. We further show the effects of CB-driven toxic content on non-CB users, gauging its impact based on political leanings. Our findings suggest a nuanced but statistically significant influence of CB on digital discourse. | 翻訳日:2023-10-04 21:12:16 公開日:2023-10-02 |
# Grasping AI:デザイナのための経験的なエクササイズ Grasping AI: experiential exercises for designers ( http://arxiv.org/abs/2310.01282v1 ) ライセンス: Link先を確認 | Dave Murray-Rust, Maria Luce Lupetti, Iohanna Nicenboim, Wouter van der Hoog | (参考訳) 人工知能(AI)と機械学習(ML)は、ますます物理的およびデジタル製品の機能に統合され、対話や機能に前例のない機会を生み出している。
しかし、デザイナーがこの創造的な風景の中で考え、技術の可能性と人間の相互作用の懸念のバランスをとることは困難である。
本稿では,AIシステムの相互作用能力,ユニークなリレーショナル可能性,より広範な社会的影響を探求し,考察する。
インタラクションデザインコース(n=100)9つの'AIエクササイズ'を導入し、人間設計、責任あるAI、投機的実践を駆使して、AIインタラクション設計に関する経験的な関与を生み出しました。
メタファーや制定に関する演習は、トレーニングや学習、プライバシ、同意、自律性、エージェンシーをより具体化し、学生がAIで設計し、その複雑な特性を設計プロセスと結果の両方でより反映し、責任を負うのを助ける。 Artificial intelligence (AI) and machine learning (ML) are increasingly integrated into the functioning of physical and digital products, creating unprecedented opportunities for interaction and functionality. However, there is a challenge for designers to ideate within this creative landscape, balancing the possibilities of technology with human interactional concerns. We investigate techniques for exploring and reflecting on the interactional affordances, the unique relational possibilities, and the wider social implications of AI systems. We introduced into an interaction design course (n=100) nine 'AI exercises' that draw on more than human design, responsible AI, and speculative enactment to create experiential engagements around AI interaction design. We find that exercises around metaphors and enactments make questions of training and learning, privacy and consent, autonomy and agency more tangible, and thereby help students be more reflective and responsible on how to design with AI and its complex properties in both their design process and outcomes. | 翻訳日:2023-10-04 21:11:28 公開日:2023-10-02 |
# カーボンフットプリントシナリオのオープンおよびリンクデータモデル Open and Linked Data Model for Carbon Footprint Scenarios ( http://arxiv.org/abs/2310.01278v1 ) ライセンス: Link先を確認 | Boris Ruf and Marcin Detyniecki | (参考訳) 炭素フットプリントの定量化は、個人と企業の両方にとって、炭素削減の可能性よりも優れた意思決定の鍵となる。
製品やサービスの多くの炭素フットプリントケース研究が最近流通している。
しかし、それぞれのシナリオにおける複雑な関係のため、基礎となる前提はしばしば理解しづらい。
また、シナリオをローカルや個別の状況に再利用し、適用するのは簡単な作業ではありません。
これらの課題を克服するため,我々は,設計によるデータ品質と透明性を向上させる炭素フットプリントシナリオのためのオープンでリンクされたデータモデルを提案する。
webベースのデータインタプリタプロトタイプを用いて,このアイデアの実装を実証する。 Carbon footprint quantification is key to well-informed decision making over carbon reduction potential, both for individuals and for companies. Many carbon footprint case studies for products and services have been circulated recently. Due to the complex relationships within each scenario, however, the underlying assumptions often are difficult to understand. Also, re-using and adapting a scenario to local or individual circumstances is not a straightforward task. To overcome these challenges, we propose an open and linked data model for carbon footprint scenarios which improves data quality and transparency by design. We demonstrate the implementation of our idea with a web-based data interpreter prototype. | 翻訳日:2023-10-04 21:11:04 公開日:2023-10-02 |
# 非エルミート準結晶における相関誘起相転移とモビリティエッジ Correlation-induced phase transitions and mobility edges in a non-Hermitian quasicrystal ( http://arxiv.org/abs/2310.01275v1 ) ライセンス: Link先を確認 | Tian Qian and Longwen Zhou | (参考訳) 非エルミート準結晶は、pt対称性の破断、局在、位相的三重相転移を伴う一意な無秩序開系を構成する。
本研究では,非エルミート準結晶の相転移と絡み合いダイナミクスに対する量子相関の影響を明らかにする。
準周期的に利得と損失を変調したボース・ハバード格子内の2つの相互作用ボソンに着目して,ボゾン間のオンサイト相互作用がptと局在遷移閾値を非相互作用の場合と比較して弱い障害領域へと引きずり込むことができることを見出した。
さらに、相互作用は、非相互作用系における三相転移の臨界点を、相互作用強度を調整してドメインを柔軟に制御できる移動端を持つ臨界相に拡張することを促進する。
スペクトル, 逆成分比, トポロジカル巻線数, ウェーブパケットダイナミクス, 絡み合いエントロピーの系統解析により, 系の相関駆動相と遷移について一貫した予測が導かれる。
我々の発見は、非エルミート量子物質における障害と相互作用の間の相互作用のさらなる研究の道を開く。 Non-Hermitian quasicrystal constitutes a unique class of disordered open system with PT-symmetry breaking, localization and topological triple phase transitions. In this work, we uncover the effect of quantum correlation on phase transitions and entanglement dynamics in non-Hermitian quasicrystals. Focusing on two interacting bosons in a Bose-Hubbard lattice with quasiperiodically modulated gain and loss, we find that the onsite interaction between bosons could drag the PT and localization transition thresholds towards weaker disorder regions compared with the noninteracting case. Moreover, the interaction facilitates the expansion of the critical point of a triple phase transition in the noninteracting system into a critical phase with mobility edges, whose domain could be flexibly controlled by tuning the interaction strength. Systematic analyses of the spectrum, inverse participation ratio, topological winding number, wavepacket dynamics and entanglement entropy lead to consistent predictions about the correlation-driven phases and transitions in our system. Our findings pave the way for further studies of the interplay between disorder and interaction in non-Hermitian quantum matter. | 翻訳日:2023-10-04 21:10:45 公開日:2023-10-02 |
# LEEC: 拡張ドメイン特化ラベルシステムによる法的要素抽出データセット LEEC: A Legal Element Extraction Dataset with an Extensive Domain-Specific Label System ( http://arxiv.org/abs/2310.01271v1 ) ライセンス: Link先を確認 | Xue Zongyue, Liu Huanghai, Hu Yiran, Kong Kangle, Wang Chenlu, Liu Yun and Shen Weixing | (参考訳) 自然言語処理における重要な課題として、要素抽出は法的領域において重要である。
司法文書から法的要素を抽出することは、訴訟の解釈的・分析的能力を高めるのに役立ち、様々な法律分野における幅広い下流の応用を促進する。
しかし、既存の要素抽出データセットは、法的知識へのアクセス制限とラベルのカバー不足によって制限されている。
この欠点に対処するために,15,831の司法文書と159のラベルからなる,より包括的で大規模な犯罪要素抽出データセットを導入する。
このデータセットは2つの主要なステップで構築された: まず, 犯罪事例におけるセンテンスの結果を生み出す重要な要因を特定した先行研究に基づいて, 我々の法専門家チームによるラベルシステムを設計し, 第二に, ラベルシステムとアノテーションガイドラインに従って, 法的知識を用いて司法文書に注釈をつける。
法要素エクストラCtionデータセット(LEEC)は、中国の法体系において最も広範囲かつドメイン固有の法要素抽出データセットである。
注釈付きデータを活用することで、文書イベント抽出(DEE)タスクにおけるLEECの適用性を検証する様々なSOTAモデルを採用した。
LEECデータセットはhttps://github.com/THUlawtech/LEEC で公開されている。 As a pivotal task in natural language processing, element extraction has gained significance in the legal domain. Extracting legal elements from judicial documents helps enhance interpretative and analytical capacities of legal cases, and thereby facilitating a wide array of downstream applications in various domains of law. Yet existing element extraction datasets are limited by their restricted access to legal knowledge and insufficient coverage of labels. To address this shortfall, we introduce a more comprehensive, large-scale criminal element extraction dataset, comprising 15,831 judicial documents and 159 labels. This dataset was constructed through two main steps: First, designing the label system by our team of legal experts based on prior legal research which identified critical factors driving and processes generating sentencing outcomes in criminal cases; Second, employing the legal knowledge to annotate judicial documents according to the label system and annotation guideline. The Legal Element ExtraCtion dataset (LEEC) represents the most extensive and domain-specific legal element extraction dataset for the Chinese legal system. Leveraging the annotated data, we employed various SOTA models that validates the applicability of LEEC for Document Event Extraction (DEE) task. The LEEC dataset is available on https://github.com/THUlawtech/LEEC . | 翻訳日:2023-10-04 21:09:57 公開日:2023-10-02 |
# 協調グラフニューラルネットワーク Cooperative Graph Neural Networks ( http://arxiv.org/abs/2310.01267v1 ) ライセンス: Link先を確認 | Ben Finkelshtein, Xingyue Huang, Michael Bronstein, \.Ismail \.Ilkan Ceylan | (参考訳) グラフニューラルネットワークは、一連の不変変換を通じて入力グラフのノード表現の反復計算に基づいて、グラフ機械学習の一般的なアーキテクチャである。
グラフニューラルネットワークの大規模なクラスは、標準的なメッセージパッシングパラダイムに従っている。すべてのレイヤにおいて、各ノード状態はその近隣からのメッセージの集約に基づいて更新される。
本研究では,グラフニューラルネットワークをトレーニングするための新しいフレームワークを提案する。このフレームワークでは,各ノードを,'listen','broadcast','listen and broadcast',または'isolate'のいずれかを選択するプレーヤとみなす。
標準のメッセージ伝達スキームは、全てのノードが全ての隣接ノードに対して「リストとブロードキャスト」を行うこのフレームワークの特別なケースと見なすことができる。
このアプローチは、各ノードが自身の状態に基づいて独自の戦略を決定でき、学習中にグラフトポロジーを効果的に探索できる、より柔軟で動的なメッセージパッシングパラダイムを提供する。
本稿では,合成データセットと実世界のデータセットの広範な経験的解析により,新たなメッセージパッシングスキームを理論的に解析する。 Graph neural networks are popular architectures for graph machine learning, based on iterative computation of node representations of an input graph through a series of invariant transformations. A large class of graph neural networks follow a standard message-passing paradigm: at every layer, each node state is updated based on an aggregate of messages from its neighborhood. In this work, we propose a novel framework for training graph neural networks, where every node is viewed as a player that can choose to either 'listen', 'broadcast', 'listen and broadcast', or to 'isolate'. The standard message propagation scheme can then be viewed as a special case of this framework where every node 'listens and broadcasts' to all neighbors. Our approach offers a more flexible and dynamic message-passing paradigm, where each node can determine its own strategy based on their state, effectively exploring the graph topology while learning. We provide a theoretical analysis of the new message-passing scheme which is further supported by an extensive empirical analysis on a synthetic dataset and on real-world datasets. | 翻訳日:2023-10-04 21:09:33 公開日:2023-10-02 |
# 長距離ホッピングを有するフェルミオン鎖の非平衡定常輸送に及ぼす脱灰の影響 Impact of dephasing on non-equilibrium steady-state transport in fermionic chains with long-range hopping ( http://arxiv.org/abs/2310.01323v1 ) ライセンス: Link先を確認 | Subhajit Sarkar, Bijay Kumar Agarwalla, Devendra Singh Bhakuni | (参考訳) 非平衡状態における量子輸送は、量子デバイスから生体システムまで、システムの特性を理解する上で重要な役割を果たす。
非平衡システムの重要な側面である強調は、ノイズの多い環境との相互作用から生まれ、輸送機能を大きく変えることができる。
ここでは、非相互作用フェルミオンの非平衡定常輸送特性が長距離ホッピングを持つ一次元格子(\sim \frac{1}{r^\alpha}$)に与える影響を検討する。
長距離ホッピングパラメータ$\alpha$が調整されているため、異なる輸送機構の出現を示す。
短距離極限 (\alpha \gg 1$) では輸送は拡散的であり、一方長距離極限 (\alpha \sim \mathcal{O}(1)$) では超拡散的輸送体制を観察する。
リンドブラッドマスター方程式の数値シミュレーションを用いて、現在の作用素ノルムの分析と相関し、臨界長距離ホッピングパラメータである$\alpha_c \approx 1.5$を同定する。
間欠的に、超拡散状態において、非平衡定常抵抗における対数式からパワーローシステムサイズの依存性は、$\alpha \leq 1$ から$\alpha \lesssim 1.5$ に変化する。
その結果,デファスメントとユニタリダイナミクスの複雑なバランスが解明され,新しい定常輸送特性が明らかになった。 Quantum transport in a non-equilibrium setting plays a fundamental role in understanding the properties of systems ranging from quantum devices to biological systems. Dephasing -- a key aspect of out-of-equilibrium systems, arises from the interactions with the noisy environment and can profoundly modify transport features. Here, we investigate the impact of dephasing on the non-equilibrium steady-state transport properties of non-interacting fermions on a one-dimensional lattice with long-range hopping ($\sim \frac{1}{r^\alpha}$). We show the emergence of distinct transport regimes as the long-range hopping parameter $\alpha$ is tuned. In the short-range limit ($\alpha \gg 1$), transport is diffusive, while for the long-range limit ($\alpha \sim \mathcal{O}(1)$), we observe a super-diffusive transport regime. Using the numerical simulation of the Lindblad master equation, and corroborated with the analysis of the current operator norm, we identify a critical long-range hopping parameter, $\alpha_c \approx 1.5$, below which super-diffusive transport becomes evident that quickly becomes independent of the dephasing strength. Interstingly, within the super-diffusive regime, we find a crossover from logarithmic to power-law system-size dependence in the non-equilibrium steady-state resistance when $\alpha$ varies from $\alpha \leq 1$ to $\alpha \lesssim 1.5$. Our results, thus, elucidate the intricate balance between dephasing and unitary dynamics, revealing novel steady-state transport features. | 翻訳日:2023-10-04 21:02:04 公開日:2023-10-02 |
# カラーとテクスチャ デュアルパイプライン 軽量スタイル転送 Color and Texture Dual Pipeline Lightweight Style Transfer ( http://arxiv.org/abs/2310.01321v1 ) ライセンス: Link先を確認 | ShiQi Jiang | (参考訳) スタイル転送方式は、通常、参照スタイルの色とテクスチャの結合の単一のスタイライズされた出力を生成し、色転送方式は、複数のテクスチャで参照画像を処理する際に歪みやアーティファクトをもたらす。
そこで本研究では,カラーとテクスチャの変換結果を同時に出力するデュアルパイプライン方式を用いた,カラーとテクスチャの2重パイプライン軽量スタイルトランスファーctdp法を提案する。
さらに,コンテンツの意味的部分に影響を及ぼすことなく,色伝達結果のアーティファクトやテクスチャ表現を抑えるために,マスク付き全変動損失を設計した。
さらに重要なことは、カラー転送結果に制御可能な強度を持つテクスチャ構造を初めて追加できるということです。
最後に,フレームワークのテクスチャ生成機構に関する特徴可視化解析を行い,入力画像の平滑化により,このテクスチャ構造をほぼ完全に排除できることを確認した。
比較実験では、CTDPが生成した色とテクスチャの伝達結果はどちらも最先端の性能を達成する。
さらに、カラー転送分岐モデルの重量は20k以下であり、これは他の最先端モデルの重量の100-1500倍である。 Style transfer methods typically generate a single stylized output of color and texture coupling for reference styles, and color transfer schemes may introduce distortion or artifacts when processing reference images with duplicate textures. To solve the problem, we propose a Color and Texture Dual Pipeline Lightweight Style Transfer CTDP method, which employs a dual pipeline method to simultaneously output the results of color and texture transfer. Furthermore, we designed a masked total variation loss to suppress artifacts and small texture representations in color transfer results without affecting the semantic part of the content. More importantly, we are able to add texture structures with controllable intensity to color transfer results for the first time. Finally, we conducted feature visualization analysis on the texture generation mechanism of the framework and found that smoothing the input image can almost completely eliminate this texture structure. In comparative experiments, the color and texture transfer results generated by CTDP both achieve state-of-the-art performance. Additionally, the weight of the color transfer branch model size is as low as 20k, which is 100-1500 times smaller than that of other state-of-the-art models. | 翻訳日:2023-10-04 21:01:33 公開日:2023-10-02 |
# アバロンの思考ゲーム:再帰的熟考による偽装との戦い Avalon's Game of Thoughts: Battle Against Deception through Recursive Contemplation ( http://arxiv.org/abs/2310.01320v1 ) ライセンス: Link先を確認 | Shenzhi Wang, Chang Liu, Zilong Zheng, Siyuan Qi, Shuo Chen, Qisen Yang, Andrew Zhao, Chaofei Wang, Shiji Song, Gao Huang | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、LLM-as-Agentの分野で大きな成功を収めている。
それにもかかわらず、llmsが処理する情報は一貫して正直であり、人間社会やaiが生成するコンテンツにおける広汎な誤解や誤解を招く情報を無視しているという仮定が一般的である。
この監視により、LSMは悪意のある操作を受けやすくなり、有害な結果をもたらす可能性がある。
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。
アバロンは誤った情報に満ちており、洗練された論理を必要とするため、「思考のゲーム」として表される。
アバロンゲームにおける人間の再帰的思考と視点取りの有効性に着想を得て,LLMの認知・認識能力を高めるための新しい枠組みであるRecursive Contemplation(ReCon)を導入する。
ReConは、定式化と洗練の熟考プロセスを組み合わせており、定式化は初期の思考とスピーチを生み出し、洗練の熟考はそれらをさらに洗練する。
さらに、これらのプロセスにそれぞれ一階および二階の視点遷移を組み込む。
具体的には、LLMエージェントが他人の精神状態を推測し、2階は他人がエージェントの精神状態をどう知覚するかを理解する。
reconを異なるllmと統合した後、avalon gameの広範な実験結果は、追加の微調整やデータなしで偽情報の識別と操作をllmに支援する効果を示している。
最後に、ReConの有効性の可能な説明を提供し、安全性、推論、話し方、フォーマットの観点からLLMの現在の限界を探求し、その後の研究の可能性を秘めている。 Recent breakthroughs in large language models (LLMs) have brought remarkable success in the field of LLM-as-Agent. Nevertheless, a prevalent assumption is that the information processed by LLMs is consistently honest, neglecting the pervasive deceptive or misleading information in human society and AI-generated content. This oversight makes LLMs susceptible to malicious manipulations, potentially resulting in detrimental outcomes. This study utilizes the intricate Avalon game as a testbed to explore LLMs' potential in deceptive environments. Avalon, full of misinformation and requiring sophisticated logic, manifests as a "Game-of-Thoughts". Inspired by the efficacy of humans' recursive thinking and perspective-taking in the Avalon game, we introduce a novel framework, Recursive Contemplation (ReCon), to enhance LLMs' ability to identify and counteract deceptive information. ReCon combines formulation and refinement contemplation processes; formulation contemplation produces initial thoughts and speech, while refinement contemplation further polishes them. Additionally, we incorporate first-order and second-order perspective transitions into these processes respectively. Specifically, the first-order allows an LLM agent to infer others' mental states, and the second-order involves understanding how others perceive the agent's mental state. After integrating ReCon with different LLMs, extensive experiment results from the Avalon game indicate its efficacy in aiding LLMs to discern and maneuver around deceptive information without extra fine-tuning and data. Finally, we offer a possible explanation for the efficacy of ReCon and explore the current limitations of LLMs in terms of safety, reasoning, speaking style, and format, potentially furnishing insights for subsequent research. | 翻訳日:2023-10-04 21:01:11 公開日:2023-10-02 |
# 通信ネットワークにおけるナノフォトニック量子メモリノードの絡み合い Entanglement of Nanophotonic Quantum Memory Nodes in a Telecommunication Network ( http://arxiv.org/abs/2310.01316v1 ) ライセンス: Link先を確認 | Can M. Knaut, Aziza Suleymanzade, Yan-Cheng Wei, Daniel R. Assumpcao, Pieter-Jan Stas, Yan Qi Huan, Bartholomeus Machielse, Erik N. Knall, Madison Sutula, Gefen Baranes, Neil Sinclair, Chawina De-Eknamkul, David S. Levonian, Mihir K. Bhaskar, Hongkun Park, Marko Lon\v{c}ar, Mikhail D. Lukin | (参考訳) 長距離量子通信のための実用的な量子ネットワークを実現する上での鍵となる課題は、ファイバー光インフラを介して接続される量子メモリノード間の強固な絡み合いである。
本稿では,ナノフォトニックダイヤモンドキャビティにおけるシリコン空孔(SiV)中心に基づくマルチキュービットレジスタで構成される2ノード量子ネットワークを,通信ファイバネットワークと統合した。
リモートエンタングルメントは、SiVの電子スピン量子ビットと光光子の間のキャビティ-エンハンス相互作用によって生成される。
分割ノードの堅牢な絡み合いには、時間ビン量子ビットを用いたシリアルスピン光子絡み込みゲート操作が使用される。
長寿命の核スピン量子ビットは、第2のエンタングルメントストレージと統合的なエラー検出を提供するために使用される。
光通信キュービットから通信周波数(1350nm)への効率的な双方向量子周波数変換を統合することで、ボストン近郊の都市環境に展開される40kmの低損失繊維と35kmの長繊維ループを通して、2つの核スピンメモリの絡み合いを実証し、実用的な量子リピータや大規模量子ネットワークへのステップを示す。 A key challenge in realizing practical quantum networks for long-distance quantum communication involves robust entanglement between quantum memory nodes connected via fiber optical infrastructure. Here, we demonstrate a two-node quantum network composed of multi-qubit registers based on silicon-vacancy (SiV) centers in nanophotonic diamond cavities integrated with a telecommunication fiber network. Remote entanglement is generated via the cavity-enhanced interactions between the SiV's electron spin qubits and optical photons. Serial, heralded spin-photon entangling gate operations with time-bin qubits are used for robust entanglement of separated nodes. Long-lived nuclear spin qubits are used to provide second-long entanglement storage and integrated error detection. By integrating efficient bi-directional quantum frequency conversion of photonic communication qubits to telecommunication frequencies (1350 nm), we demonstrate entanglement of two nuclear spin memories through 40 km spools of low-loss fiber and a 35 km long fiber loop deployed in the Boston area urban environment, representing an enabling step towards practical quantum repeaters and large-scale quantum networks. | 翻訳日:2023-10-04 21:00:40 公開日:2023-10-02 |
# パブリック勾配とプライベート勾配の結合は最適化に役立つ Coupling public and private gradient provably helps optimization ( http://arxiv.org/abs/2310.01304v1 ) ライセンス: Link先を確認 | Ruixuan Liu, Zhiqi Bu, Yu-xiang Wang, Sheng Zha, George Karypis | (参考訳) 大規模なニューラルネットワークの成功は、データの可用性によって決定される。
少数の公開データのみによるトレーニングや、豊富なプライベートデータによるプライベートなトレーニングは、望ましくない精度の低下につながることが観察されている。
本研究では、重み付き線形結合により勾配を結合することにより、プライベートデータとパブリックデータの両方を利用して最適化を改善する。
凸集合における最適重みに対する最適解を定式化し、重み係数が超パラメータ依存性であることを示す。
次に,非凸損失の収束の加速と,プライバシ予算,イテレーション数,バッチサイズ,モデルサイズなどのハイパーパラメータが重み付け係数の選択に与える影響を証明した。
言語と視覚のベンチマークによる実証実験による分析をサポートし、勾配結合の最適重みを選択するためのガイドラインを提供する。 The success of large neural networks is crucially determined by the availability of data. It has been observed that training only on a small amount of public data, or privately on the abundant private data can lead to undesirable degradation of accuracy. In this work, we leverage both private and public data to improve the optimization, by coupling their gradients via a weighted linear combination. We formulate an optimal solution for the optimal weight in the convex setting to indicate that the weighting coefficient should be hyperparameter-dependent. Then, we prove the acceleration in the convergence of non-convex loss and the effects of hyper-parameters such as privacy budget, number of iterations, batch size, and model size on the choice of the weighting coefficient. We support our analysis with empirical experiments across language and vision benchmarks, and provide a guideline for choosing the optimal weight of the gradient coupling. | 翻訳日:2023-10-04 20:59:51 公開日:2023-10-02 |
# エビデンスに対する期待最大化推論による医学的質問応答における説明の生成 Generating Explanations in Medical Question-Answering by Expectation Maximization Inference over Evidence ( http://arxiv.org/abs/2310.01299v1 ) ライセンス: Link先を確認 | Wei Sun, Mingxiao Li, Damien Sileo, Jesse Davis, and Marie-Francine Moens | (参考訳) 医療質問回答〜(医療QA)システムは、医療従事者の質問に対する回答を見つける上で、重要な役割を果たす。
しかし、単に医療用qaシステムで答えを提供するだけでは十分ではない。なぜなら、ユーザーは答えをサポートする要素とコンテキストを記述する自然言語におけるより分析的なステートメントを欲しがるからだ。
そこで本研究では,医療用qaシステムによって予測される回答に対する自然言語説明を生成する新しい手法を提案する。
医用教科書から知識を抽出し,説明生成過程における説明の質を高めるために,高品質な医用説明が求められている。
具体的には、これらのテキストで見つかった証拠を推論し、長い証拠の通過に注意を向ける効率的な方法を提供する、期待最大化アプローチを設計した。
2つのデータセット MQAE-diag と MQAE を用いて実験を行い,本フレームワークの有効性を実証した。
このアプローチは最先端モデルよりも優れており、ルージュ-1スコアの \textbf{6.86} と \textbf{9.43} のパーセンテージポイントをそれぞれbleu-4スコアの \textbf{8.23} と \textbf{7.82}パーセンテージポイントで大幅に改善した。 Medical Question Answering~(medical QA) systems play an essential role in assisting healthcare workers in finding answers to their questions. However, it is not sufficient to merely provide answers by medical QA systems because users might want explanations, that is, more analytic statements in natural language that describe the elements and context that support the answer. To do so, we propose a novel approach for generating natural language explanations for answers predicted by medical QA systems. As high-quality medical explanations require additional medical knowledge, so that our system extract knowledge from medical textbooks to enhance the quality of explanations during the explanation generation process. Concretely, we designed an expectation-maximization approach that makes inferences about the evidence found in these texts, offering an efficient way to focus attention on lengthy evidence passages. Experimental results, conducted on two datasets MQAE-diag and MQAE, demonstrate the effectiveness of our framework for reasoning with textual evidence. Our approach outperforms state-of-the-art models, achieving a significant improvement of \textbf{6.86} and \textbf{9.43} percentage points on the Rouge-1 score; \textbf{8.23} and \textbf{7.82} percentage points on the Bleu-4 score on the respective datasets. | 翻訳日:2023-10-04 20:59:37 公開日:2023-10-02 |
# 共同監査:AI生成コンテンツの二重チェックを支援するツール Co-audit: tools to help humans double-check AI-generated content ( http://arxiv.org/abs/2310.01297v1 ) ライセンス: Link先を確認 | Andrew D. Gordon, Carina Negreanu, Jos\'e Cambronero, Rasika Chakravarthy, Ian Drosos, Hao Fang, Bhaskar Mitra, Hannah Richardson, Advait Sarkar, Stephanie Simmons, Jack Williams, Ben Zorn | (参考訳) ユーザーはAIが生成したコンテンツを正しくチェックするよう警告されている。
それでも、LCM(および他の生成モデル)は、要約、テーブル、コードなどのより複雑な出力を生成するため、ユーザーが品質や正確性のために出力を監査または評価することが難しくなる。
そのため、AI生成したコンテンツの二重チェックを支援するツール支援体験の出現が見られます。
これを共同監査ツールと呼ぶ。
1つはユーザが入力プロンプトを構築するのを手助けし、もう1つは出力応答をチェックするのを手助けします。
具体的な例として、生成モデルを用いたスプレッドシート計算のための協調監査ツールについて述べる。
本稿では,品質が重要であり,エラーが連続的(スプレッドシート計算でよく見られる)な生成AIの応用において,コオーディット体験が不可欠である理由を説明する。
我々は,共同監査の原則の予備的リストを提案し,研究課題を概説する。 Users are increasingly being warned to check AI-generated content for correctness. Still, as LLMs (and other generative models) generate more complex output, such as summaries, tables, or code, it becomes harder for the user to audit or evaluate the output for quality or correctness. Hence, we are seeing the emergence of tool-assisted experiences to help the user double-check a piece of AI-generated content. We refer to these as co-audit tools. Co-audit tools complement prompt engineering techniques: one helps the user construct the input prompt, while the other helps them check the output response. As a specific example, this paper describes recent research on co-audit tools for spreadsheet computations powered by generative models. We explain why co-audit experiences are essential for any application of generative AI where quality is important and errors are consequential (as is common in spreadsheet computations). We propose a preliminary list of principles for co-audit, and outline research challenges. | 翻訳日:2023-10-04 20:59:07 公開日:2023-10-02 |
# 生成逆変換器を用いた効率的なリモートセンシングセグメンテーション Efficient Remote Sensing Segmentation With Generative Adversarial Transformer ( http://arxiv.org/abs/2310.01292v1 ) ライセンス: Link先を確認 | Luyi Qiu and Dayu Yu and Xiaofeng Zhang and Chenxiao Zhang | (参考訳) 高いセグメンテーション精度を達成するディープラーニング手法の多くは、ストレージとメモリスペースに制限のある組み込みデバイス上で実行するには重くて複雑すぎるディープネットワークアーキテクチャを必要とする。
本稿では,高精度なサイズを維持しつつ高精度なセマンティクスセグメンテーションを実現するための効率的な生成的逆向性トランスフォマー(gatrans)を提案する。
このフレームワークはGTNet(Global Transformer Network)をジェネレータとして利用し、残差接続を通じて効率的にマルチレベル特徴を抽出する。
gtnetは、段階的に線形な計算複雑性を持つグローバルトランスフォーマーブロックを使用して、学習可能な類似度関数に基づいてグローバルな特徴を再割り当てする。
GATransは、オブジェクトレベルの情報とピクセルレベルの情報に焦点を合わせるため、構造的類似性損失を組み合わせた目的関数を最適化する。
本手法の有効性を検証するために,vaihingenデータセットを用いた広範な実験を行い,平均f1スコアが90.17%,総合精度91.92%を得た。 Most deep learning methods that achieve high segmentation accuracy require deep network architectures that are too heavy and complex to run on embedded devices with limited storage and memory space. To address this issue, this paper proposes an efficient Generative Adversarial Transfomer (GATrans) for achieving high-precision semantic segmentation while maintaining an extremely efficient size. The framework utilizes a Global Transformer Network (GTNet) as the generator, efficiently extracting multi-level features through residual connections. GTNet employs global transformer blocks with progressively linear computational complexity to reassign global features based on a learnable similarity function. To focus on object-level and pixel-level information, the GATrans optimizes the objective function by combining structural similarity losses. We validate the effectiveness of our approach through extensive experiments on the Vaihingen dataset, achieving an average F1 score of 90.17% and an overall accuracy of 91.92%. | 翻訳日:2023-10-04 20:58:50 公開日:2023-10-02 |
# 3dhr-co:3次元人体再構築作業のための協調的なテスト時間改善フレームワーク 3DHR-Co: A Collaborative Test-time Refinement Framework for In-the-Wild 3D Human-Body Reconstruction Task ( http://arxiv.org/abs/2310.01291v1 ) ライセンス: Link先を確認 | Jonathan Samuel Lumentut and Kyoung Mu Lee | (参考訳) パラメトリックポーズと形状表現を利用した3次元人体再構成(3DHR)の分野は,近年顕著な進歩を遂げている。
しかし、実世界の多様なシーンを扱うための3DHR技術の適用は、いまだに限界に直面している。
主な課題は、様々な要因により、現場での正確な3次元ポーズの真理(GT)の算出が依然として困難であることである。
3DHRにおける最近の試験時間改善手法は、初期2Dオフザシェルフの人間のキーポイント情報を利用して、現場データにおける3D監視の欠如を支援する。
しかし,従来の3DHRのバックボーンに2Dの監視が加わっただけでオーバーフィッティングの問題が生じ,テストタイム改善作業が難しそうだ。
我々は,協調的アプローチで3dhrテストタイムリファインメント作業を補完する戦略を提案することで,この課題に答える。
具体的には、まず最初に、様々な3DHRモデルを単一のフレームワークで協調して初期出力を直接改善する、事前適応アプローチを適用する。
このアプローチはさらに,オーバーフィット問題を最小化して3DHRのパフォーマンスをさらに向上する,特定の設定下でのテスト時間適応作業と組み合わせられる。
フレームワーク全体を3DHR-Co(3DHR-Co)と呼び,実験側では,従来の3DHRバックボーンのスコアを最大-34mmのポーズ誤り抑制に大きく向上させることができることを示した。
このような成果は,従来の3DHRバックボーンの真の可能性を明らかにする上で有効であることを示している。
これらの知見に基づいて,提案手法の様々な設定について検討し,3DHRタスクにおける協調的アプローチの能力をより詳しく検討する。 The field of 3D human-body reconstruction (abbreviated as 3DHR) that utilizes parametric pose and shape representations has witnessed significant advancements in recent years. However, the application of 3DHR techniques to handle real-world, diverse scenes, known as in-the-wild data, still faces limitations. The primary challenge arises as curating accurate 3D human pose ground truth (GT) for in-the-wild scenes is still difficult to obtain due to various factors. Recent test-time refinement approaches on 3DHR leverage initial 2D off-the-shelf human keypoints information to support the lack of 3D supervision on in-the-wild data. However, we observed that additional 2D supervision alone could cause the overfitting issue on common 3DHR backbones, making the 3DHR test-time refinement task seem intractable. We answer this challenge by proposing a strategy that complements 3DHR test-time refinement work under a collaborative approach. Specifically, we initially apply a pre-adaptation approach that works by collaborating various 3DHR models in a single framework to directly improve their initial outputs. This approach is then further combined with the test-time adaptation work under specific settings that minimize the overfitting issue to further boost the 3DHR performance. The whole framework is termed as 3DHR-Co, and on the experiment sides, we showed that the proposed work can significantly enhance the scores of common classic 3DHR backbones up to -34 mm pose error suppression, putting them among the top list on the in-the-wild benchmark data. Such achievement shows that our approach helps unveil the true potential of the common classic 3DHR backbones. Based on these findings, we further investigate various settings on the proposed framework to better elaborate the capability of our collaborative approach in the 3DHR task. | 翻訳日:2023-10-04 20:58:32 公開日:2023-10-02 |
# 吸収境界規則の導出について On a Derivation of the Absorbing Boundary Rule ( http://arxiv.org/abs/2310.01343v1 ) ライセンス: Link先を確認 | Roderich Tumulka | (参考訳) 量子粒子が3空間で表面$S$に到達するのを待っている検出器を考える。
検出時間と位置の確率分布を予測するため, [arXiv:1601.03715] において吸収境界則 (ABR) と呼ばれる規則が提案され, 吸収境界条件が$S$の1-粒子Schr\"odinger方程式が関与した。
ABRの信頼性の議論はここでなされたが、検出器の顕微鏡モデルからABRを導出することが望ましい。
ここでは,文献から得られた既知の結果をまとめ,その導出について概説する。
私たちの導出は非利己的であり、将来的には厳格なバージョンを持つことが望ましいでしょう。 Consider detectors waiting for a quantum particle to arrive at a surface $S$ in 3-space. For predicting the probability distribution of the time and place of detection, a rule was proposed in [arXiv:1601.03715], called the absorbing boundary rule (ABR) and involving a 1-particle Schr\"odinger equation with an absorbing boundary condition on $S$. While plausibility arguments for the ABR were given there, it would be desirable to derive the ABR from a microscopic model of a detector. We outline here such a derivation by putting together known results from the literature. Our derivation is non-rigorous, and it would still be desirable to have a rigorous version of it in the future. | 翻訳日:2023-10-04 20:52:49 公開日:2023-10-02 |
# 対話管理を改善する: 品質データセット対モデル Improving Dialogue Management: Quality Datasets vs Models ( http://arxiv.org/abs/2310.01339v1 ) ライセンス: Link先を確認 | Miguel \'Angel Medina-Ram\'irez, Cayetano Guerra-Artal, Mario Hern\'andez-Tejera | (参考訳) タスク指向対話システム(TODS)は,自然言語を用いて機械やコンピュータと対話する上で重要である。
その重要なコンポーネントの1つが対話マネージャで、最善の応答を提供することで、会話をユーザの良い目標に向けて導く。
従来,ルールベースシステム (RBS) や強化学習 (RL) ,教師付き学習 (SL) などが,適切な対話管理のためのソリューションとして提案されてきた。
しかし、dmsの最大の原因は、これまで採用されてきたモデルではなく、データセットの品質にある、と本研究は主張している。
この仮説を実証するために、最も広く使われているデータセットであるmultiwoz 2.1とsgdにおける主なエラーを調査した。
そこで我々は,データセットに導入されたエラー量とタイプを完全に制御する合成対話生成器を設計した。
このジェネレータを用いて、データセットの誤差がモデルの性能に比例することを示した。 Task-oriented dialogue systems (TODS) have become crucial for users to interact with machines and computers using natural language. One of its key components is the dialogue manager, which guides the conversation towards a good goal for the user by providing the best possible response. Previous works have proposed rule-based systems (RBS), reinforcement learning (RL), and supervised learning (SL) as solutions for the correct dialogue management; in other words, select the best response given input by the user. However, this work argues that the leading cause of DMs not achieving maximum performance resides in the quality of the datasets rather than the models employed thus far; this means that dataset errors, like mislabeling, originate a large percentage of failures in dialogue management. We studied the main errors in the most widely used datasets, Multiwoz 2.1 and SGD, to demonstrate this hypothesis. To do this, we have designed a synthetic dialogue generator to fully control the amount and type of errors introduced in the dataset. Using this generator, we demonstrated that errors in the datasets contribute proportionally to the performance of the models | 翻訳日:2023-10-04 20:52:34 公開日:2023-10-02 |
# 方向適応動力学と不完全情報による計測による絡み合いの解明 Uncovering measurement-induced entanglement via directional adaptive dynamics and incomplete information ( http://arxiv.org/abs/2310.01338v1 ) ライセンス: Link先を確認 | Yu-Xin Wang, Alireza Seif, Aashish A. Clerk | (参考訳) 観測された量子系によって示される豊富な絡み合いのダイナミクスと遷移は通常条件状態にしか存在しないため、観測は非常に困難である。
本研究では,監視システムの条件付き絡み合いダイナミクスを模倣する一般的なレシピを,本システムと補助レジスタモードとの方向的相互作用を伴う対応する計測自由散逸系において構築する。
典型的な測定記録において、情報内容のごく一部を効果的に保持する計測フィードフォワードダイナミクスを自律的に実装する。
我々は,測定値の絡み合いと局所ユニタリダイナミクスの競合を特徴とするボソニックシステムにおける我々のアイデアを説明し,qubitシステムと真に多体システムの拡張についても論じる。 The rich entanglement dynamics and transitions exhibited by monitored quantum systems typically only exist in the conditional state, making observation extremely difficult. In this work we construct a general recipe for mimicking the conditional entanglement dynamics of a monitored system in a corresponding measurement-free dissipative system involving directional interactions between the original system and a set of auxiliary register modes. This mirror setup autonomously implements a measurement-feedforward dynamics that effectively retains a small fraction of the information content in a typical measurement record. We illustrate our ideas in a bosonic system featuring a competition between entangling measurements and local unitary dynamics, and also discuss extensions to qubit systems and truly many-body systems. | 翻訳日:2023-10-04 20:52:16 公開日:2023-10-02 |
# 合併、そして圧縮-効率的なSMoEをルーティング政策のヒントでデミスティフィケート Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy ( http://arxiv.org/abs/2310.01334v1 ) ライセンス: Link先を確認 | Pingzhi Li, Zhenyu Zhang, Prateek Yadav, Yi-Lin Sung, Yu Cheng, Mohit Bansal, Tianlong Chen | (参考訳) わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
(a)専門家としてのネットワーク層を複数のコピーに重複させることによるメモリ使用量の増加
b) 共通学習に基づくルーティングポリシーが表現的崩壊に苦しむ専門家の冗長性
したがって、バニラSMoEモデルはメモリ非効率であり、特にリソース制約のある下流シナリオではスケールできない。
本稿では,専門家情報を統合することで,コンパクトなSMoEモデルを構築できるだろうか?
複数の専門家をより少ないがより知識のある専門家にまとめる最良のレシピは何でしょう?
実験の結果,従来のモデルマージ手法はsmoeのエキスパートマージでは有効ではないことが明らかとなった。
潜在的な理由は、(1) 過剰な情報が専門家を覆い隠すこと、(2) 各専門家に適切なニューロン置換が欠如していることである。
そこで我々は,M-SMoEを提案する。このM-SMoEは,ルーティング統計を利用して,エキスパートのマージをガイドする。
具体的には、専門家のためのニューロン置換アライメントから始まり、その後、支配的な専門家とその「グループメンバー」が形成される。最後に、各専門家グループは、それぞれの専門家のアクティベーション周波数をマージのウェイトとして利用することにより、重要でない専門家の影響を減らし、単一の専門家にマージされる。
さらに,本提案手法は,合併した専門家の重み空間における低次元性を促進し,自然に圧縮の道を開くことを観察した。
したがって、最終手法であるMC-SMoE(Merge, then Compress SMoE)は、マージされた専門家を低ランクで構造的なスパースな代替品に分解する。
MC-SMoEの有効性を8つのベンチマークで検証した。
例えば、私たちのMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能の低下はほとんどありません。 Sparsely activated Mixture-of-Experts (SMoE) has shown promise to scale up the learning capacity of neural networks, however, they have issues like (a) High Memory Usage, due to duplication of the network layers into multiple copies as experts; and (b) Redundancy in Experts, as common learning-based routing policies suffer from representational collapse. Therefore, vanilla SMoE models are memory inefficient and non-scalable, especially for resource-constrained downstream scenarios. In this paper, we ask: Can we craft a compact SMoE model by consolidating expert information? What is the best recipe to merge multiple experts into fewer but more knowledgeable experts? Our pilot investigation reveals that conventional model merging methods fail to be effective in such expert merging for SMoE. The potential reasons are: (1) redundant information overshadows critical experts; (2) appropriate neuron permutation for each expert is missing to bring all of them in alignment. To address this, we propose M-SMoE, which leverages routing statistics to guide expert merging. Specifically, it starts with neuron permutation alignment for experts; then, dominant experts and their "group members" are formed; lastly, every expert group is merged into a single expert by utilizing each expert's activation frequency as their weight for merging, thus diminishing the impact of insignificant experts. Moreover, we observed that our proposed merging promotes a low dimensionality in the merged expert's weight space, naturally paving the way for additional compression. Hence, our final method, MC-SMoE (i.e., Merge, then Compress SMoE), further decomposes the merged experts into low-rank and structural sparse alternatives. Extensive experiments across 8 benchmarks validate the effectiveness of MC-SMoE. For instance, our MC-SMoE achieves up to 80% memory and a 20% FLOPs reduction, with virtually no loss in performance. | 翻訳日:2023-10-04 20:52:01 公開日:2023-10-02 |
# choicemates:マルチエージェント対話による不慣れなオンライン意思決定のサポート ChoiceMates: Supporting Unfamiliar Online Decision-Making with Multi-Agent Conversational Interactions ( http://arxiv.org/abs/2310.01331v1 ) ライセンス: Link先を確認 | Jeongeon Park, Bryan Min, Xiaojuan Ma, Juho Kim | (参考訳) 人々が適切なドメイン知識や専門知識を欠いた決定は、特にオンライン情報で検索し、理解し、決定するプロセスの複雑さと不確実性を高めます。
形成的調査(n=14)を通じて,多様な視点にアクセスし,関連情報を特定し,最終決定を行うための適切なタイミングを決定する上でのユーザの課題を観察した。
提案するChoiceMatesは,汎用的なドメイン理解と情報発見・管理を行うための,LLMエージェントの動的セットとの対話を可能にするシステムである。
エージェントは、意見のあるペルソナとして、柔軟に会話に参加し、応答を提供するだけでなく、各エージェントの好みを引き出すために会話する。
ChoiceMatesを従来のWeb検索やシングルエージェントと比較した結果,ChoiceMatesはより信頼性の高いWebと比較して,より深い情報発見,潜入,情報管理に有用であることが判明した。
また,マルチエージェント会話を意思決定プロセスでどのように活用するかについても述べる。 Unfamiliar decisions -- decisions where people lack adequate domain knowledge or expertise -- specifically increase the complexity and uncertainty of the process of searching for, understanding, and making decisions with online information. Through our formative study (n=14), we observed users' challenges in accessing diverse perspectives, identifying relevant information, and deciding the right moment to make the final decision. We present ChoiceMates, a system that enables conversations with a dynamic set of LLM-powered agents for a holistic domain understanding and efficient discovery and management of information to make decisions. Agents, as opinionated personas, flexibly join the conversation, not only providing responses but also conversing among themselves to elicit each agent's preferences. Our between-subjects study (n=36) comparing ChoiceMates to conventional web search and single-agent showed that ChoiceMates was more helpful in discovering, diving deeper, and managing information compared to Web with higher confidence. We also describe how participants utilized multi-agent conversations in their decision-making process. | 翻訳日:2023-10-04 20:51:28 公開日:2023-10-02 |
# 視覚言語データセットにおけるバイアスの報告に向けて--オブジェクト-属性関係の分離によるバイモーダル強化 Towards reporting bias in visual-language datasets: bimodal augmentation by decoupling object-attribute association ( http://arxiv.org/abs/2310.01330v1 ) ライセンス: Link先を確認 | Qiyu Wu, Mengjie Zhao, Yutong He, Lang Huang, Junya Ono, Hiromi Wakaki, Yuki Mitsufuji | (参考訳) バイアスの報告は、ある知識が普遍的に理解されていると仮定し、それゆえ、明示的な推論を必要としないときに生じる。
本稿では、オブジェクト属性アソシエーションとして具体化された視覚言語データセットにおけるレポートバイアスの存在を広く強調する。
このバイアスを緩和するために、オブジェクト属性分離によるbimodal augmentation(biaug)アプローチを提案し、オブジェクト属性ペアリングの豊富な配列で視覚的な例を柔軟に合成し、クロスモーダルハードネガティブを構築する。
対象対象物を抽出するために,大規模言語モデル(LLM)と接地対象検出器を併用する。
その後、LCMは各オブジェクトの詳細な属性記述を生成し、対応するハード負の相手を生成する。
次に、インペインティングモデルを使用して、これらの詳細なオブジェクト記述に基づいてイメージを作成する。
そうすることで、合成されたサンプルは、学習するために省略されたオブジェクトと属性を明示的に補完し、ハードネガティブペアは、オブジェクト属性を識別するためにモデルを制御します。
実験の結果,BiAugはオブジェクト属性理解に優れていた。
さらに、BiAugは、MSCOCOやFlickr30Kといった一般的なベンチマークでのゼロショット検索タスクのパフォーマンスも改善している。
BiAugはテキストイメージデータセットの収集方法を洗練する。
レポートバイアスの緩和は、モデルが視覚言語現象をより深く理解し、現実のシナリオの豊かさと多様性を包含する、単なる頻繁なパターンを越えて拡張するのに役立つ。 Reporting bias arises when people assume that some knowledge is universally understood and hence, do not necessitate explicit elaboration. In this paper, we focus on the wide existence of reporting bias in visual-language datasets, embodied as the object-attribute association, which can subsequentially degrade models trained on them. To mitigate this bias, we propose a bimodal augmentation (BiAug) approach through object-attribute decoupling to flexibly synthesize visual-language examples with a rich array of object-attribute pairing and construct cross-modal hard negatives. We employ large language models (LLMs) in conjunction with a grounding object detector to extract target objects. Subsequently, the LLM generates a detailed attribute description for each object and produces a corresponding hard negative counterpart. An inpainting model is then used to create images based on these detailed object descriptions. By doing so, the synthesized examples explicitly complement omitted objects and attributes to learn, and the hard negative pairs steer the model to distinguish object attributes. Our experiments demonstrated that BiAug is superior in object-attribute understanding. In addition, BiAug also improves the performance on zero-shot retrieval tasks on general benchmarks like MSCOCO and Flickr30K. BiAug refines the way of collecting text-image datasets. Mitigating the reporting bias helps models achieve a deeper understanding of visual-language phenomena, expanding beyond mere frequent patterns to encompass the richness and diversity of real-world scenarios. | 翻訳日:2023-10-04 20:51:10 公開日:2023-10-02 |
# BTR: 効率的な検索言語モデルのためのバイナリトークン表現 BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models ( http://arxiv.org/abs/2310.01329v1 ) ライセンス: Link先を確認 | Qingqing Cao, Sewon Min, Yizhong Wang, Hannaneh Hajishirzi | (参考訳) 検索拡張は幻覚、停滞、プライバシリークなど、大きな言語モデルにおける多くの重要な問題に対処する。
しかし,検索拡張言語モデル(LM)の実行は遅く,大量の検索テキストを処理するため,スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入し,推論時の計算量を大幅に削減する。
精度が失われる可能性があるにもかかわらず、新しい校正技術と訓練目標は性能を回復させる。
オフライン圧縮とランタイム圧縮を組み合わせると、wikipediaで30億トークンをエンコードするのに127gbのディスクスペースしか必要なくなる。
実験により,5つの知識集約型nlpタスクにおいて,btrは最大4倍の最先端推論を高速化し,95%以上のタスク性能を維持しつつストレージを100倍以上削減することを示した。 Retrieval augmentation addresses many critical problems in large language models such as hallucination, staleness, and privacy leaks. However, running retrieval-augmented language models (LMs) is slow and difficult to scale due to processing large amounts of retrieved text. We introduce binary token representations (BTR), which use 1-bit vectors to precompute every token in passages, significantly reducing computation during inference. Despite the potential loss of accuracy, our new calibration techniques and training objectives restore performance. Combined with offline and runtime compression, this only requires 127GB of disk space for encoding 3 billion tokens in Wikipedia. Our experiments show that on five knowledge-intensive NLP tasks, BTR accelerates state-of-the-art inference by up to 4x and reduces storage by over 100x while maintaining over 95% task performance. | 翻訳日:2023-10-04 20:50:43 公開日:2023-10-02 |
# TACTiS-2:多変量時系列のためのより良く、より速く、よりシンプルな注意コプラ TACTiS-2: Better, Faster, Simpler Attentional Copulas for Multivariate Time Series ( http://arxiv.org/abs/2310.01327v1 ) ライセンス: Link先を確認 | Arjun Ashok, \'Etienne Marcotte, Valentina Zantedeschi, Nicolas Chapados, Alexandre Drouin | (参考訳) 本稿では,多変量確率時系列予測のための新しいモデルを提案する。
パウラ理論を基礎として,最近導入された変圧器を用いた注意パウラ (TACTiS) の簡易な目的について提案する。
新しい目的には、トレーニングカリキュラムの導入が必要であり、それは元のアーキテクチャに必要となる変更と密接に関連している。
得られたモデルでは,非整合および不整合時系列のシームレスなハンドリングなど,先行作業の柔軟性を維持しつつ,様々な実世界の予測タスクをまたいだ最先端のパフォーマンスを実現することができる。 We introduce a new model for multivariate probabilistic time series prediction, designed to flexibly address a range of tasks including forecasting, interpolation, and their combinations. Building on copula theory, we propose a simplified objective for the recently-introduced transformer-based attentional copulas (TACTiS), wherein the number of distributional parameters now scales linearly with the number of variables instead of factorially. The new objective requires the introduction of a training curriculum, which goes hand-in-hand with necessary changes to the original architecture. We show that the resulting model has significantly better training dynamics and achieves state-of-the-art performance across diverse real-world forecasting tasks, while maintaining the flexibility of prior work, such as seamless handling of unaligned and unevenly-sampled time series. | 翻訳日:2023-10-04 20:50:30 公開日:2023-10-02 |
# シャッフルラベルを用いた線形回帰の最適推定 Optimal Estimator for Linear Regression with Shuffled Labels ( http://arxiv.org/abs/2310.01326v1 ) ライセンス: Link先を確認 | Hang Zhang and Ping Li | (参考訳) 本稿では,シャッフルラベルを用いた線形回帰処理,すなわち $\mathbf Y = \mathbf \Pi \mathbf X \mathbf B + \mathbf W$, where $\mathbf Y \in \mathbb R^{n\times m}, \mathbf Pi \in \mathbb R^{n\times n}, \mathbf X\in \mathbb R^{n\times p}, \mathbf B \in \mathbb R^{p\times m}$, $\mathbf W\in \mathbb R^{n\times m}$について考察する。
観測値 $\mathbf y$ とセンシング行列 $\mathbf x$ を考えると、我々は$(\mathbf \pi, \mathbf b)$ を再構成する一段階推定器を提案する。
計算の観点からは、我々の推定器の複雑性は$o(n^3 + np^2m)$であり、これは線形代入アルゴリズム(例えば$o(n^3)$)と最小二乗アルゴリズム(例えば$o(np^2)の最大複雑性よりも大きい。
m)$。
統計的観点から、最小の$snr$要件を、未知、ハード、中、容易な4つのレギュレーションに分割し、各レギュレーションの下で正しい順列回復のための十分な条件を示す。
(i)$ $snr \geq \Omega(1)$ in the easy regime; $
(ii)$ $snr \geq \Omega(\log n)$ in the medium regime; and $
(iii)$ $snr \geq \omega((\log n)^{c_0}\cdot n^{{c_1}/{srank(\mathbf b)}}) hard regime (c_0, c_1$ はいくつかの正定数、$srank(\mathbf b)$ は$\mathbf b$ の安定ランクを表す)。
最後に,上記の主張を確認するための数値実験も実施する。 This paper considers the task of linear regression with shuffled labels, i.e., $\mathbf Y = \mathbf \Pi \mathbf X \mathbf B + \mathbf W$, where $\mathbf Y \in \mathbb R^{n\times m}, \mathbf Pi \in \mathbb R^{n\times n}, \mathbf X\in \mathbb R^{n\times p}, \mathbf B \in \mathbb R^{p\times m}$, and $\mathbf W\in \mathbb R^{n\times m}$, respectively, represent the sensing results, (unknown or missing) corresponding information, sensing matrix, signal of interest, and additive sensing noise. Given the observation $\mathbf Y$ and sensing matrix $\mathbf X$, we propose a one-step estimator to reconstruct $(\mathbf \Pi, \mathbf B)$. From the computational perspective, our estimator's complexity is $O(n^3 + np^2m)$, which is no greater than the maximum complexity of a linear assignment algorithm (e.g., $O(n^3)$) and a least square algorithm (e.g., $O(np^2 m)$). From the statistical perspective, we divide the minimum $snr$ requirement into four regimes, e.g., unknown, hard, medium, and easy regimes; and present sufficient conditions for the correct permutation recovery under each regime: $(i)$ $snr \geq \Omega(1)$ in the easy regime; $(ii)$ $snr \geq \Omega(\log n)$ in the medium regime; and $(iii)$ $snr \geq \Omega((\log n)^{c_0}\cdot n^{{c_1}/{srank(\mathbf B)}})$ in the hard regime ($c_0, c_1$ are some positive constants and $srank(\mathbf B)$ denotes the stable rank of $\mathbf B$). In the end, we also provide numerical experiments to confirm the above claims. | 翻訳日:2023-10-04 20:50:13 公開日:2023-10-02 |
# ZeroI2V:画像からビデオへの事前学習トランスフォーマーのゼロコスト適応 ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video ( http://arxiv.org/abs/2310.01324v1 ) ライセンス: Link先を確認 | Xinhao Li, Limin Wang | (参考訳) ビデオ領域に画像モデルを適用することは、ビデオ認識タスクの効率的なパラダイムになりつつある。
画像モデルの膨大なパラメータと効果的な転送性のため、完全な微調整は効率が悪く、さらに不要である。
このように、近年の研究はパラメータ効率のよい画像から映像への適応に焦点を移している。
しかし、これらの適応戦略は必然的に、ビデオの領域ギャップと時間的モデリングを扱うために余分な計算コストをもたらす。
本稿では,画像変換器を映像認識タスクに転送するゼロコスト適応パラダイム(ZeroI2V)を提案する。
この目的を達成するために、2つのコア設計を提案する。
まず,映像のダイナミックスをキャプチャし,映像から映像への適応の難しさを低減すべく,自己注意の柔軟性を活用し,余分なパラメータや計算量ゼロの時間モデリング能力で画像トランスフォーマを効率的に付与する空間-時間的二重頭部注意(stdha)を導入する。
次に,画像と映像の領域間ギャップに対処するために,画像モデルを完全にビデオ認識に移すために,軽量で密配置された線形アダプタを用いた線形適応戦略を提案する。
カスタマイズされたリニア設計のため、新たに追加されたアダプタはすべて、トレーニング後の構造再パラメータ化によって元のモジュールと容易にマージでき、推論時に追加コストがゼロになる。
広範に使用されている4つのビデオ認識ベンチマークの大規模な実験により、ZeroI2Vは、優れたパラメータと推論効率を享受しながら、従来の最先端の手法にマッチしたり、性能を上回ります。 Adapting image models to video domain is becoming an efficient paradigm for solving video recognition tasks. Due to the huge number of parameters and effective transferability of image models, performing full fine-tuning is less efficient and even unnecessary. Thus, recent research is shifting its focus towards parameter-efficient image-to-video adaptation. However, these adaptation strategies inevitably introduce extra computational cost to deal with the domain gap and temporal modeling in videos. In this paper, our goal is to present a zero-cost adaptation paradigm (ZeroI2V) to transfer the image transformers to video recognition tasks (i.e., introduce zero extra cost to the adapted models during inference). To achieve this goal, we present two core designs. First, to capture the dynamics in videos and reduce the difficulty of achieving image-to-video adaptation, we exploit the flexibility of self-attention and introduce the spatial-temporal dual-headed attention (STDHA) that efficiently endow the image transformers with temporal modeling capability at zero extra parameters and computation. Second, to handle the domain gap between images and videos, we propose a linear adaption strategy which utilizes lightweight densely placed linear adapters to fully transfer the frozen image models to video recognition. Due to its customized linear design, all newly added adapters could be easily merged with the original modules through structural reparameterization after training, thus achieving zero extra cost during inference. Extensive experiments on four widely-used video recognition benchmarks show that our ZeroI2V can match or even outperform previous state-of-the-art methods while enjoying superior parameter and inference efficiency. | 翻訳日:2023-10-04 20:49:15 公開日:2023-10-02 |
# 軽量化による艦隊政策学習とロボットツール利用への応用 Fleet Policy Learning via Weight Merging and An Application to Robotic Tool-Use ( http://arxiv.org/abs/2310.01362v1 ) ライセンス: Link先を確認 | Lirui Wang, Kaiqing Zhang, Allan Zhou, Max Simchowitz, Russ Tedrake | (参考訳) ロボットのフリートは、環境と対話することによって生成される大量のストリーミングデータを、簡単に保存または送信できるものよりもはるかに多く取り込む。
同時に、ロボットのチームがさまざまな環境で経験を通じて多様なスキルを共用できることを願っています。
艦隊規模のデータの送信や集中化を必要とせずに、このような艦隊レベルの学習を可能にするにはどうすればいいのか?
本稿では,政策の分散学習を潜在的解決策として検討する。
分散環境でのポリシを効率的にマージするために、繰り返しニューラルネットワークによってパラメータ化される学習ポリシーで生じる対称性を考慮した分散学習のインスタンス化であるFleet-mergeを提案する。
我々は,フリートマージがメタワールド環境での50個のタスクで訓練されたポリシーの動作を統合し,テスト時にほぼすべてのトレーニングタスクで優れたパフォーマンスを達成することを示す。
さらに,コンポジションおよび接触に富んだロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール用ベンチマークであるFleet-toolsを導入し,Fleet-mergeの有効性を検証する。 Fleets of robots ingest massive amounts of streaming data generated by interacting with their environments, far more than those that can be stored or transmitted with ease. At the same time, we hope that teams of robots can co-acquire diverse skills through their experiences in varied settings. How can we enable such fleet-level learning without having to transmit or centralize fleet-scale data? In this paper, we investigate distributed learning of policies as a potential solution. To efficiently merge policies in the distributed setting, we propose fleet-merge, an instantiation of distributed learning that accounts for the symmetries that can arise in learning policies that are parameterized by recurrent neural networks. We show that fleet-merge consolidates the behavior of policies trained on 50 tasks in the Meta-World environment, with the merged policy achieving good performance on nearly all training tasks at test time. Moreover, we introduce a novel robotic tool-use benchmark, fleet-tools, for fleet policy learning in compositional and contact-rich robot manipulation tasks, which might be of broader interest, and validate the efficacy of fleet-merge on the benchmark. | 翻訳日:2023-10-04 20:42:21 公開日:2023-10-02 |
# GenSim:大規模言語モデルによるロボットシミュレーションタスクの生成 GenSim: Generating Robotic Simulation Tasks via Large Language Models ( http://arxiv.org/abs/2310.01361v1 ) ライセンス: Link先を確認 | Lirui Wang, Yiyang Ling, Zhecheng Yuan, Mohit Shridhar, Chen Bao, Yuzhe Qin, Bailin Wang, Huazhe Xu, Xiaolong Wang | (参考訳) 一般的なロボットポリシーを訓練するために大量の現実世界のインタラクションデータを収集することは、しばしば違法に高価であり、シミュレーションデータの使用を動機付けている。
しかし、既存のデータ生成手法は、新しいタスクを考え検証するのに必要な人的労力のため、一般的にタスクレベルの多様性ではなく、シーンレベルの多様性(例えば、オブジェクトインスタンスとポーズ)に焦点を当ててきた。
これにより、シミュレーションデータに基づいて訓練されたポリシーが重要なタスクレベルの一般化を示すことが困難になった。
本稿では,大規模言語モデル(llm)のグラウンドとコーディング能力を活用し,リッチなシミュレーション環境とエキスパートデモンストレーションを自動的に生成する手法を提案する。
GenSimと呼ばれる我々の手法には、目標タスクをLLMに付与するゴール指向生成と、目標タスクを解くためのタスクカリキュラムの提案と、以前のタスクからLLMブートストラップを抽出し、より複雑なタスクを解くのに役立つ新しいタスクを反復的に提案する探索生成という2つのモードがある。
我々は、GPT4を用いて既存のベンチマークを10回以上100タスクに拡張し、ロボットシミュレーションタスクのコード生成において、微調整GPTやCode Llamaを含む複数のLCMを教師付き微調整し、評価する。
さらに、マルチタスクポリシートレーニングに使用する場合、LCMの生成したシミュレーションプログラムはタスクレベルの一般化を大幅に向上させることができる。
さらに,最小のsim-to-real適応により,gpt4生成シミュレーションタスクに事前学習したマルチタスクポリシは,実世界で認識できない長時間ホリゾンタスクへの転送が強くなり,ベースラインを25%上回ることがわかった。
コード、デモ、ビデオのプロジェクトwebサイト(https://liruiw.github.io/gensim)を参照。 Collecting large amounts of real-world interaction data to train general robotic policies is often prohibitively expensive, thus motivating the use of simulation data. However, existing methods for data generation have generally focused on scene-level diversity (e.g., object instances and poses) rather than task-level diversity, due to the human effort required to come up with and verify novel tasks. This has made it challenging for policies trained on simulation data to demonstrate significant task-level generalization. In this paper, we propose to automatically generate rich simulation environments and expert demonstrations by exploiting a large language models' (LLM) grounding and coding ability. Our approach, dubbed GenSim, has two modes: goal-directed generation, wherein a target task is given to the LLM and the LLM proposes a task curriculum to solve the target task, and exploratory generation, wherein the LLM bootstraps from previous tasks and iteratively proposes novel tasks that would be helpful in solving more complex tasks. We use GPT4 to expand the existing benchmark by ten times to over 100 tasks, on which we conduct supervised finetuning and evaluate several LLMs including finetuned GPTs and Code Llama on code generation for robotic simulation tasks. Furthermore, we observe that LLMs-generated simulation programs can enhance task-level generalization significantly when used for multitask policy training. We further find that with minimal sim-to-real adaptation, the multitask policies pretrained on GPT4-generated simulation tasks exhibit stronger transfer to unseen long-horizon tasks in the real world and outperform baselines by 25%. See the project website (https://liruiw.github.io/gensim) for code, demos, and videos. | 翻訳日:2023-10-04 20:42:02 公開日:2023-10-02 |
# NEUCORE: 合成画像検索のためのニューラルコンセプト推論 NEUCORE: Neural Concept Reasoning for Composed Image Retrieval ( http://arxiv.org/abs/2310.01358v1 ) ライセンス: Link先を確認 | Shu Zhao, Huijuan Xu | (参考訳) 対象画像を特定するための参照画像とテキスト修飾子を組み合わせた合成画像検索は困難な課題であり、視覚と言語の両方のモダリティとその相互作用を理解するモデルが必要である。
既存のアプローチでは、総合的なマルチモーダルインタラクションモデリングに重点を置いており、参照画像とテキスト修飾子の合成と補完性を無視している。
効果的な情報融合と検索のために,マルチモーダル入力の相補性をよりよく活用するために,マルチモーダル理解を概念レベルで細粒度に移行し,マルチモーダル概念アライメントを学習して,テキスト修飾子に対応する参照画像や対象画像の視覚的位置を特定する。
本稿では,マルチモーダル概念アライメントとプログレッシブ・マルチモーダル融合を組み合わせたニューラル・コンセプト・推論(neucore)モデルを提案する。
具体的には、テキスト修飾子が参照画像に存在しない意味概念を参照し、対象画像に付加する必要があることを考慮し、画像と文レベルの弱い教師付き複数インスタンス学習フレームワークを用いて、テキスト修飾子と参照画像と対象画像の連結との間の多様概念アラインメントを学習する。
さらに,アライメントされた概念に基づき,正確な対象画像検索のための入力モダリティの識別的融合特徴を形成するために,出席する言語意味概念によってインスタンス化される統一実行アーキテクチャを用いたプログレッシブ融合戦略を提案する。
提案手法は3つのデータセットで評価し,最新の結果を得た。 Composed image retrieval which combines a reference image and a text modifier to identify the desired target image is a challenging task, and requires the model to comprehend both vision and language modalities and their interactions. Existing approaches focus on holistic multi-modal interaction modeling, and ignore the composed and complimentary property between the reference image and text modifier. In order to better utilize the complementarity of multi-modal inputs for effective information fusion and retrieval, we move the multi-modal understanding to fine-granularity at concept-level, and learn the multi-modal concept alignment to identify the visual location in reference or target images corresponding to text modifier. Toward the end, we propose a NEUral COncept REasoning (NEUCORE) model which incorporates multi-modal concept alignment and progressive multimodal fusion over aligned concepts. Specifically, considering that text modifier may refer to semantic concepts not existing in the reference image and requiring to be added into the target image, we learn the multi-modal concept alignment between the text modifier and the concatenation of reference and target images, under multiple-instance learning framework with image and sentence level weak supervision. Furthermore, based on aligned concepts, to form discriminative fusion features of the input modalities for accurate target image retrieval, we propose a progressive fusion strategy with unified execution architecture instantiated by the attended language semantic concepts. Our proposed approach is evaluated on three datasets and achieves state-of-the-art results. | 翻訳日:2023-10-04 20:41:31 公開日:2023-10-02 |
# less is more: 基礎モデルによるゼロショットローカルシーングラフ生成に向けて Less is More: Toward Zero-Shot Local Scene Graph Generation via Foundation Models ( http://arxiv.org/abs/2310.01356v1 ) ライセンス: Link先を確認 | Shu Zhao, Huijuan Xu | (参考訳) 人間は本来、選択的視覚知覚を通じて物体を認識し、視覚野から構造化された象徴的知識へと特定の領域を変換し、人間の目標に沿った限られた注意資源の配分に基づいて、地域間の関係を推論する。
人間には直感的だが、現代の知覚システムは複雑な認知能力と常識的な知識によって構造情報を抽出するのに支障をきたす。
このギャップを埋めるために,ローカルシーングラフ生成という新しいタスクを提案する。
画像中のすべてのオブジェクトと関係を包含する従来のシーングラフ生成タスクとは別として,提案するタスクは,関連する構造情報を部分オブジェクトとそれらの関係を抽象化し,高度な理解と推論能力を必要とする下流タスクを促進することを目的としている。
一方,zEro-shot Local scEne GrAph geNeraTion (ELEGANT) は,基礎モデルの強力な認識と常識推論で有名な基盤モデルを活用するフレームワークであり,基礎モデル間の協調と情報通信が優れた結果をもたらし,ラベル付き監督を必要としないゼロショットローカルシーングラフ生成を実現する。
さらに,限定ラベル空間を超越することで,従来のクローズドセット評価指標を超越し,より広範な評価を提供する,新しいオープンエンド評価指標であるEntity-level CLIPScorE(ECLIPSE)を提案する。
実験の結果,提案手法はオープンエンド評価設定におけるベースラインを著しく上回り,クローズセット設定における従来手法よりも最大24.58%の大幅な性能向上を実現し,提案手法の有効性と強力な推論能力を示した。 Humans inherently recognize objects via selective visual perception, transform specific regions from the visual field into structured symbolic knowledge, and reason their relationships among regions based on the allocation of limited attention resources in line with humans' goals. While it is intuitive for humans, contemporary perception systems falter in extracting structural information due to the intricate cognitive abilities and commonsense knowledge required. To fill this gap, we present a new task called Local Scene Graph Generation. Distinct from the conventional scene graph generation task, which encompasses generating all objects and relationships in an image, our proposed task aims to abstract pertinent structural information with partial objects and their relationships for boosting downstream tasks that demand advanced comprehension and reasoning capabilities. Correspondingly, we introduce zEro-shot Local scEne GrAph geNeraTion (ELEGANT), a framework harnessing foundation models renowned for their powerful perception and commonsense reasoning, where collaboration and information communication among foundation models yield superior outcomes and realize zero-shot local scene graph generation without requiring labeled supervision. Furthermore, we propose a novel open-ended evaluation metric, Entity-level CLIPScorE (ECLIPSE), surpassing previous closed-set evaluation metrics by transcending their limited label space, offering a broader assessment. Experiment results show that our approach markedly outperforms baselines in the open-ended evaluation setting, and it also achieves a significant performance boost of up to 24.58% over prior methods in the close-set setting, demonstrating the effectiveness and powerful reasoning ability of our proposed framework. | 翻訳日:2023-10-04 20:41:01 公開日:2023-10-02 |
# RA-DIT:検索拡張デュアルインストラクションチューニング RA-DIT: Retrieval-Augmented Dual Instruction Tuning ( http://arxiv.org/abs/2310.01352v1 ) ライセンス: Link先を確認 | Xi Victoria Lin, Xilun Chen, Mingda Chen, Weijia Shi, Maria Lomeli, Rich James, Pedro Rodriguez, Jacob Kahn, Gergely Szilvasy, Mike Lewis, Luke Zettlemoyer, Scott Yih | (参考訳) Retrieval-augmented Language Model (RALMs)は、外部データストアから長いテールと最新の知識にアクセスすることでパフォーマンスを向上させるが、構築は困難である。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,LLMに検索機能を持たせることで第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning(RA-DIT)を紹介する。
提案手法は,(1)事前学習したLMを更新して,検索した情報をよりよく活用する方法,(2)検索者がより関連性の高い結果を返す方法,の2つのステップで動作する。
知識利用と文脈認識の両方を必要とするタスクを微調整することで、各ステージが大きなパフォーマンス向上をもたらし、両方を使用することでさらなる利益をもたらすことを示す。
我々の最良のモデルであるRA-DIT 65Bは、知識集約型のゼロショットと少数ショットの学習ベンチマークで最先端のパフォーマンスを達成し、0ショット設定では最大8.9%、平均5ショット設定では+1.4%という、既存のコンテキスト内RALMアプローチを著しく上回っている。 Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average. | 翻訳日:2023-10-04 20:40:30 公開日:2023-10-02 |
# 自律走行のためのストリーミングモーション予測 Streaming Motion Forecasting for Autonomous Driving ( http://arxiv.org/abs/2310.01351v1 ) ライセンス: Link先を確認 | Ziqi Pang, Deva Ramanan, Mengtian Li, Yu-Xiong Wang | (参考訳) 軌道予測は自律航法において広く研究されている問題である。
しかし、既存のベンチマークでは、連続したデータストリームで動作する実世界のアプリケーションの代表ではない、軌道の独立したスナップショットに基づいて予測を評価する。
このギャップを埋めるため,ストリーミングデータにおける将来の軌跡を継続的にクエリするベンチマークを導入し,これを「ストリーミング予測」と呼ぶ。
当社のベンチマークは,エージェントの消失と再出現を本質的に捉え,スナップショットベースのベンチマークでは見過ごされている安全性クリティカルな問題であるoccludedエージェントの予測に関する新たな課題を提示した。
さらに、連続するタイムスタンプの文脈での予測は、隣接するタイムスタンプからの予測の間に時間的コヒーレンスを求める。
このベンチマークに基づいて,ストリーミング予測のためのソリューションと分析をさらに提供します。
我々は,任意のスナップショットベースの予測器をストリーミング予測器に適応させることのできる,"Predictive Streamer"と呼ばれるプラグアンドプレイメタアルゴリズムを提案する。
提案アルゴリズムは, 時間的整合性を確保するために, 多モードトラジェクトリを用いて位置を伝搬することにより, 隠蔽エージェントの状態を予測する。
オクルージョン推論と時間的コヒーレンス戦略の両方が予測品質を大幅に改善し、オクルージョン剤のエンドポイントエラーが25%小さくなり、軌道変動が10-20%小さくなる。
本研究は,本質的なストリーミング環境における動き予測の重要性を強調し,コミュニティ内での関心を高めることを目的としている。
コードはhttps://github.com/ziqipang/StreamingForecasting.comで入手できる。 Trajectory forecasting is a widely-studied problem for autonomous navigation. However, existing benchmarks evaluate forecasting based on independent snapshots of trajectories, which are not representative of real-world applications that operate on a continuous stream of data. To bridge this gap, we introduce a benchmark that continuously queries future trajectories on streaming data and we refer to it as "streaming forecasting." Our benchmark inherently captures the disappearance and re-appearance of agents, presenting the emergent challenge of forecasting for occluded agents, which is a safety-critical problem yet overlooked by snapshot-based benchmarks. Moreover, forecasting in the context of continuous timestamps naturally asks for temporal coherence between predictions from adjacent timestamps. Based on this benchmark, we further provide solutions and analysis for streaming forecasting. We propose a plug-and-play meta-algorithm called "Predictive Streamer" that can adapt any snapshot-based forecaster into a streaming forecaster. Our algorithm estimates the states of occluded agents by propagating their positions with multi-modal trajectories, and leverages differentiable filters to ensure temporal consistency. Both occlusion reasoning and temporal coherence strategies significantly improve forecasting quality, resulting in 25% smaller endpoint errors for occluded agents and 10-20% smaller fluctuations of trajectories. Our work is intended to generate interest within the community by highlighting the importance of addressing motion forecasting in its intrinsic streaming setting. Code is available at https://github.com/ziqipang/StreamingForecasting. | 翻訳日:2023-10-04 20:40:03 公開日:2023-10-02 |
# 動的インフォームド深層学習モデルによる脆性損傷予測 A peridynamic-informed deep learning model for brittle damage prediction ( http://arxiv.org/abs/2310.01350v1 ) ライセンス: Link先を確認 | Roozbeh Eghbalpoor, Azadeh Sheidaei | (参考訳) 本研究では, 脆性材料の準静的損傷とひび割れ進展を予測するために, 周辺力学(pd)理論とピン理論を組み合わせた新しい手法を提案する。
高予測精度と収束率を達成するために、線形化されたPD支配方程式をPINNの残留基損失関数に適用する。
提案するpd-innは,クラック前の位置や長さなど,異なる幾何学的パラメータに関連する複雑な変位パターンを学習し,捉えることができる。
サイクリックアニーリングスケジュールや変形勾配認識最適化といったいくつかの改良が提案され、モデルが自明な解に留まらないようにしている。
モデルの性能評価は、トレーニングプロセス全体を通して損失関数の挙動を監視して行われる。
PD-INN予測は、PD直接数値法や拡張有限要素法などの高忠実度手法を用いて、いくつかのベンチマークケースで検証される。
以上の結果から,非局所pd-innは損傷や亀裂進展を正確にかつ効率的に予測できることがわかった。 In this study, a novel approach that combines the principles of peridynamic (PD) theory with PINN is presented to predict quasi-static damage and crack propagation in brittle materials. To achieve high prediction accuracy and convergence rate, the linearized PD governing equation is enforced in the PINN's residual-based loss function. The proposed PD-INN is able to learn and capture intricate displacement patterns associated with different geometrical parameters, such as pre-crack position and length. Several enhancements like cyclical annealing schedule and deformation gradient aware optimization technique are proposed to ensure the model would not get stuck in its trivial solution. The model's performance assessment is conducted by monitoring the behavior of loss function throughout the training process. The PD-INN predictions are also validated through several benchmark cases with the results obtained from high-fidelity techniques such as PD direct numerical method and Extended-Finite Element Method. Our results show the ability of the nonlocal PD-INN to predict damage and crack propagation accurately and efficiently. | 翻訳日:2023-10-04 20:39:38 公開日:2023-10-02 |
# 低エネルギー状態のハミルトン人は$\Omega(n)$Tゲートを必要とする Hamiltonians whose low-energy states require $\Omega(n)$ T gates ( http://arxiv.org/abs/2310.01347v1 ) ライセンス: Link先を確認 | Nolan J. Coble, Matthew Coudron, Jon Nelson, and Seyed Sajjad Nezhadi | (参考訳) NLTS Conjecture[ABN22]の最近の解決は、新たに構築されたQLDPC符号[LZ22]を新規に使用することにより、量子PCP(QPCP) Conjectureの前提条件を確立する。
NLTSが解決されたとしても、[GL22]の NLSS Conjecture など、QPCP Conjecture には独立で未解決の前提条件が多数残っている。
本研究では、NLSS と QPCP Conjecture の両方に対する特異かつ自然な前提、すなわち低エネルギー状態がすべて準備するために$\omega(\log n)$ T ゲートを必要とする局所ハミルトンの存在に焦点を当てる。
実際、どちらの予想にも必ずしも含まないより強い結果が証明される: 低エネルギー状態が$\omega(n)$ t のゲートを必要とする局所ハミルトニアンを構成する。
これまでの研究 [CCNN23] に続いて、我々は、[ABN22] の NLTS Hamiltonians に対して、低エネルギー状態が${\Omega}(\log n)$-depth と $\Omega(n)$ T ゲートの両方を必要とする局所ハミルトニアンを得るための手続きを適用できることを示した。
近年,低T数状態(GIKL23a, GIKL23b, GIKL23c)の学習に応用されたT数群と安定化群を関連づけた。 The recent resolution of the NLTS Conjecture [ABN22] establishes a prerequisite to the Quantum PCP (QPCP) Conjecture through a novel use of newly-constructed QLDPC codes [LZ22]. Even with NLTS now solved, there remain many independent and unresolved prerequisites to the QPCP Conjecture, such as the NLSS Conjecture of [GL22]. In this work we focus on a specific and natural prerequisite to both NLSS and the QPCP Conjecture, namely, the existence of local Hamiltonians whose low-energy states all require $\omega(\log n)$ T gates to prepare. In fact, we prove a stronger result which is not necessarily implied by either conjecture: we construct local Hamiltonians whose low-energy states require $\Omega(n)$ T gates. Following a previous work [CCNN23], we further show that our procedure can be applied to the NLTS Hamiltonians of [ABN22] to yield local Hamiltonians whose low-energy states require both ${\Omega}(\log n)$-depth and $\Omega(n)$ T gates to prepare. Our results utilize a connection between T-count and stabilizer groups, which was recently applied in the context of learning low T-count states [GIKL23a, GIKL23b, GIKL23c]. | 翻訳日:2023-10-04 20:39:19 公開日:2023-10-02 |
# 超伝導準粒子増幅トランスモン:MeVスケールフォノンと単一THz光子のためのQubitベースのセンサ The Superconducting Quasiparticle-Amplifying Transmon: A Qubit-Based Sensor for meV Scale Phonons and Single THz Photons ( http://arxiv.org/abs/2310.01345v1 ) ライセンス: Link先を確認 | Caleb W. Fink, Chiara Salemi, Betty A. Young, David I. Schuster, Noah A. Kurinsky | (参考訳) 量子コンピューティングコミュニティから大きな関心が寄せられ、超伝導量子ビットの改善に多大な研究開発が費やされてきた。
これらの量子ビットの設計と製造のために開発された技術は、超低閾値粒子検出器、例えば低質量ダークマターや遠赤外線フォトンセンシングへの応用に直接適用することができる。
本稿では,トランスモン量子ビットアーキテクチャに基づく新しいセンサと,信号エンハンシング超電導準粒子増幅段を提案する。
これらのセンサをSQUATs: Superconducting Quasi Particle-Amplifying Transmonsと呼ぶ。
この新しいセンサの動作原理と設計について詳述し、これらのセンサでパターン化された固体検出器は、最小の研究開発努力で、単一のTHz光子に対する感度、および1,\mathrm{meV}$フォノンに対する感度を、$\mu\mathrm{s}$タイムスケールの検出器吸収基板上の1,\mathrm{meV}$フォノンに達成できると予測する。 With great interest from the quantum computing community, an immense amount of R&D effort has been invested into improving superconducting qubits. The technologies developed for the design and fabrication of these qubits can be directly applied to applications for ultra-low threshold particle detectors, e.g. low-mass dark matter and far-IR photon sensing. We propose a novel sensor based on the transmon qubit architecture combined with a signal-enhancing superconducting quasiparticle amplification stage. We refer to these sensors as SQUATs: Superconducting Quasiparticle-Amplifying Transmons. We detail the operating principle and design of this new sensor and predict that with minimal R&D effort, solid-state based detectors patterned with these sensors can achieve sensitivity to single THz photons, and sensitivity to $1\,\mathrm{meV}$ phonons in the detector absorber substrate on the $\mu\mathrm{s}$ timescale. | 翻訳日:2023-10-04 20:38:48 公開日:2023-10-02 |
# 原子保持による重力測定 Measuring gravity by holding atoms ( http://arxiv.org/abs/2310.01344v1 ) ライセンス: Link先を確認 | Cristian D. Panda, Matthew J. Tao, Miguel Ceja, Holger M\"uller | (参考訳) 大規模な自然界における支配的な力であるにもかかわらず、重力は実験的な測定に比較的強い。
小さなスケールでの振る舞いや、暗黒物質やダークエネルギーに起因する現象における役割など、多くの疑問が残っている。
原子干渉計は、地球の重力、重力定数、ダークエネルギー理論、一般相対性理論を調べる強力な道具である。
しかし、通常は原子を自由落下に使用し、測定時間は数秒に制限され、原子と静止した源の質量との相互作用を測定する際にはさらに短い間隔に制限される。
近年、光学格子に70秒間懸濁した原子による干渉計が実証されている。
しかし、原子が落ちないようにするためには、光学格子は数十億倍の強度を持つ力を適用しなければならないため、小さな欠陥でさえ感度を低下させ、複雑な体系的な効果を生み出す。
その結果、格子干渉計は自由落下計と同等の精度と精度を示しておらず、精度測定にはまだ使われていない。
ここでは格子干渉計の感度を最適化し、信号反転とスイッチのシステムを用いて系統効果の抑制と定量化を行う。
これにより、ミニチュアソース質量の引力を測定することができ、その自然パラメータ空間上の遮蔽ダークエネルギー理論の存在を除外できる。
さらに重要なことは、6.2~\rm{nm/s}^2$の組合せ精度は、自由落下原子と最もよく似た測定値の4倍であり、基礎物理学測定における格子干渉計の利点を示している。
さらなるアップグレードにより、サブミリメートル範囲の力、重力アハロノフ-ボーム効果、重力定数、コンパクト重力測定、重力場自体が量子特性を持つかどうかの検証が可能になる。 Despite being the dominant force of nature on large scales, gravity remains relatively elusive to experimental measurement. Many questions remain, such as its behavior at small scales or its role in phenomena ascribed to dark matter and dark energy. Atom interferometers are powerful tools for probing Earth's gravity, the gravitational constant, dark energy theories and general relativity. However, they typically use atoms in free fall, which limits the measurement time to only a few seconds, and to even briefer intervals when measuring the interaction of the atoms with a stationary source mass. Recently, interferometers with atoms suspended for as long as 70 seconds in an optical lattice have been demonstrated. To keep the atoms from falling, however, the optical lattice must apply forces that are billion-fold as strong as the putative signals, so even tiny imperfections reduce sensitivity and generate complex systematic effects. As a result, lattice interferometers have yet to demonstrate precision and accuracy on par with their free fall counterparts and have yet to be used for precision measurement. Here, we optimize the sensitivity of a lattice interferometer and use a system of signal inversions and switches to suppress and quantify systematic effects. This enables us to measure the attraction of a miniature source mass, ruling out the existence of screened dark energy theories over their natural parameter space. More importantly, the combined accuracy of $6.2~\rm{nm/s}^2$ is four times as good as the best similar measurements with freely falling atoms, demonstrating the advantages of lattice interferometry in fundamental physics measurements. Further upgrades may enable measuring forces at sub-millimeter ranges, the gravitational Aharonov-Bohm effect and the gravitational constant, compact gravimetry, and testing whether the gravitational field itself has quantum properties. | 翻訳日:2023-10-04 20:38:26 公開日:2023-10-02 |
# LLMを圧縮する:真実は極めて純粋でシンプルではない Compressing LLMs: The Truth is Rarely Pure and Never Simple ( http://arxiv.org/abs/2310.01382v1 ) ライセンス: Link先を確認 | Ajay Jaiswal, Zhe Gan, Xianzhi Du, Bowen Zhang, Zhangyang Wang, Yinfei Yang | (参考訳) 彼らの顕著な業績にもかかわらず、現代のLarge Language Models (LLMs) は計算量とメモリフットプリントに遭遇する。
近年, LLMのトレーニングフリー・データフリー圧縮(プルーニングと量子化)において, 50~60%の幅を実現し, ビット幅を3~4ビットに減らし, 圧縮されていないベースライン上での非無視的なパープレキシティ劣化を実現している。
最近の研究がますます高度な圧縮手法の開発に力を入れている中、我々の研究は一歩後退し、非常に単純で広く疑問視されている(密集したllmであっても)パープレキシティーに依存する既存のsoma圧縮手法の有効性を再評価しています。
本稿では, 圧縮LDMの評価プロトコルを再定義する精巧なタスクの集合であるLLM-KICK(Knowledge-Intensive Compressed LLM BenchmarK)を紹介する。
LLM-KICKは、現在のSoTA圧縮手法の利点や不運な点を多数明らかにしている: 全てのプルーニング手法は、時に自明なスパーシティ比(例えば25-30%)で大幅な性能劣化を被り、知識集約的なタスクにおいてN:Mのスパーシリティに失敗する; 現在の量子化手法はプルーニングよりも成功している; しかし、$\geq 50$%のプルーニング LLMは、コンテキスト内検索と要約システムに堅牢である。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
より優れたLCM圧縮法の開発を促進することを願っている。
関連コードはすべてオープンソースになる予定です。 Despite their remarkable achievements, modern Large Language Models (LLMs) encounter exorbitant computational and memory footprints. Recently, several works have shown significant success in training-free and data-free compression (pruning and quantization) of LLMs achieving 50-60% sparsity and reducing the bit-width down to 3 or 4 bits per weight, with negligible perplexity degradation over the uncompressed baseline. As recent research efforts are focused on developing increasingly sophisticated compression methods, our work takes a step back, and re-evaluates the effectiveness of existing SoTA compression methods, which rely on a fairly simple and widely questioned metric, perplexity (even for dense LLMs). We introduce Knowledge-Intensive Compressed LLM BenchmarK (LLM-KICK), a collection of carefully-curated tasks to re-define the evaluation protocol for compressed LLMs, which have significant alignment with their dense counterparts, and perplexity fail to capture subtle change in their true capabilities. LLM-KICK unveils many favorable merits and unfortunate plights of current SoTA compression methods: all pruning methods suffer significant performance degradation, sometimes at trivial sparsity ratios (e.g., 25-30%), and fail for N:M sparsity on knowledge-intensive tasks; current quantization methods are more successful than pruning; yet, pruned LLMs even at $\geq 50$% sparsity are robust in-context retrieval and summarization systems; among others. LLM-KICK is designed to holistically access compressed LLMs' ability for language understanding, reasoning, generation, in-context retrieval, in-context summarization, etc. We hope our study can foster the development of better LLM compression methods. All our related codes are planed to be open-sourced. | 翻訳日:2023-10-04 20:32:36 公開日:2023-10-02 |
# DiffAR:生音声波形生成のための拡散自己回帰モデル DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation ( http://arxiv.org/abs/2310.01381v1 ) ライセンス: Link先を確認 | Roi Benita, Michael Elad, Joseph Keshet | (参考訳) 拡散モデルは近年,高品質な音声生成に関係があることが示されている。
ほとんどの研究はスペクトログラムの生成に焦点が当てられており、それ故に、スペクトログラムを波形(ボコーダ)に変換するためのその後のモデルが必要である。
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
提案するモデルは自己回帰的であり、重複するフレームを順次生成し、各フレームが予め生成されたフレームの一部で条件付けされる。
これにより,高忠実度合成と時間的コヒーレンスを保ちながら,音声の持続時間の無制限化を効果的に行うことができる。
提案手法では,音素,振幅,ピッチ値の入力列によって音声を駆動できる非条件・条件付き音声生成モデルを実装した。
波形を直接扱うことには経験的な利点がある。
具体的には、発声フライのような局所的な音波の振る舞いを作成できるので、全体の波形がより自然に聞こえる。
さらに,提案した拡散モデルは確率的であり決定的ではないため,各推論はわずかに異なる波形変化を発生させ,有効な実現が可能となる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して高品質な音声を生成することが示された。 Diffusion models have recently been shown to be relevant for high-quality speech generation. Most work has been focused on generating spectrograms, and as such, they further require a subsequent model to convert the spectrogram to a waveform (i.e., a vocoder). This work proposes a diffusion probabilistic end-to-end model for generating a raw speech waveform. The proposed model is autoregressive, generating overlapping frames sequentially, where each frame is conditioned on a portion of the previously generated one. Hence, our model can effectively synthesize an unlimited speech duration while preserving high-fidelity synthesis and temporal coherence. We implemented the proposed model for unconditional and conditional speech generation, where the latter can be driven by an input sequence of phonemes, amplitudes, and pitch values. Working on the waveform directly has some empirical advantages. Specifically, it allows the creation of local acoustic behaviors, like vocal fry, which makes the overall waveform sounds more natural. Furthermore, the proposed diffusion model is stochastic and not deterministic; therefore, each inference generates a slightly different waveform variation, enabling abundance of valid realizations. Experiments show that the proposed model generates speech with superior quality compared with other state-of-the-art neural speech generation systems. | 翻訳日:2023-10-04 20:31:59 公開日:2023-10-02 |
# オフライン強化学習のための悲観的非線形最小二乗値反復 Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning ( http://arxiv.org/abs/2310.01380v1 ) ライセンス: Link先を確認 | Qiwei Di and Heyang Zhao and Jiafan He and Quanquan Gu | (参考訳) 近年,行動方針によって収集されたデータに基づいて最適な政策を学習することを目的としたオフライン強化学習(RL)が注目されている。
線形関数近似を持つオフラインRLは、ある仮定の下で最適な結果が得られるように広く研究されているが、多くの研究は、非線形関数近似を持つオフラインRLに焦点を移している。
しかし、非線形関数近似を伴うオフラインrlの限定作業は、インスタンス依存の後悔を保証する。
本稿では,非線形最小二乗値反復法 (PNLSVI) を非線形関数近似を用いたオフラインRLに対して提案する。
アルゴリズム設計は,(1)多様な関数クラスに適用可能な分散に基づく重み付き回帰スキーム,(2)分散推定のためのサブルーチン,(3)悲観的な値反復手法を利用する計画フェーズの3つの革新的コンポーネントから構成される。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
我々の研究は、線形関数や微分可能関数のようなより単純な関数クラス内で、以前のインスタンス依存の結果をより一般的なフレームワークに拡張する。 Offline reinforcement learning (RL), where the agent aims to learn the optimal policy based on the data collected by a behavior policy, has attracted increasing attention in recent years. While offline RL with linear function approximation has been extensively studied with optimal results achieved under certain assumptions, many works shift their interest to offline RL with non-linear function approximation. However, limited works on offline RL with non-linear function approximation have instance-dependent regret guarantees. In this paper, we propose an oracle-efficient algorithm, dubbed Pessimistic Nonlinear Least-Square Value Iteration (PNLSVI), for offline RL with non-linear function approximation. Our algorithmic design comprises three innovative components: (1) a variance-based weighted regression scheme that can be applied to a wide range of function classes, (2) a subroutine for variance estimation, and (3) a planning phase that utilizes a pessimistic value iteration approach. Our algorithm enjoys a regret bound that has a tight dependency on the function class complexity and achieves minimax optimal instance-dependent regret when specialized to linear function approximation. Our work extends the previous instance-dependent results within simpler function classes, such as linear and differentiable function to a more general framework. | 翻訳日:2023-10-04 20:31:40 公開日:2023-10-02 |
# EXTRACTER:大規模画像超解像のための注意とグラディエンシングによる効率的なテクスチャマッチング EXTRACTER: Efficient Texture Matching with Attention and Gradient Enhancing for Large Scale Image Super Resolution ( http://arxiv.org/abs/2310.01379v1 ) ライセンス: Link先を確認 | Esteban Reyes-Saldana and Mariano Rivera | (参考訳) 最近の参照ベース画像スーパーレゾリューション(refsr)は、参照高レゾリューション画像から高レゾリューションテクスチャを転送することにより、低レゾリューション画像の注意機構を導入するsof深部法を改善した。
主なアイデアは、機能空間におけるLRと参照イメージペアを使用してパッチ間のマッチを検索し、深層アーキテクチャを使ってそれらをマージすることである。
しかし、既存の手法ではテクスチャの正確な検索ができない。
イメージを可能な限り多くのパッチに分割するため、メモリ使用効率が悪く、大きなイメージは管理できない。
そこで本研究では,画像パッチ数を大幅に削減し,高分解能の参照パッチに対して,各低解像度パッチに対して最も関連するテクスチャマッチをk$で求める,より効率的なメモリ使用率を備えたディープサーチを提案する。
我々は,PSNRとSSMIの競合指標を示す単純な残差アーキテクチャを用いて,勾配密度情報を追加するスーパーレゾリューション結果を強化する。 Recent Reference-Based image super-resolution (RefSR) has improved SOTA deep methods introducing attention mechanisms to enhance low-resolution images by transferring high-resolution textures from a reference high-resolution image. The main idea is to search for matches between patches using LR and Reference image pair in a feature space and merge them using deep architectures. However, existing methods lack the accurate search of textures. They divide images into as many patches as possible, resulting in inefficient memory usage, and cannot manage large images. Herein, we propose a deep search with a more efficient memory usage that reduces significantly the number of image patches and finds the $k$ most relevant texture match for each low-resolution patch over the high-resolution reference patches, resulting in an accurate texture match. We enhance the Super Resolution result adding gradient density information using a simple residual architecture showing competitive metrics results: PSNR and SSMI. | 翻訳日:2023-10-04 20:31:19 公開日:2023-10-02 |
# グリッドグラフの到達性とパズルゲームについて On Grid Graph Reachability and Puzzle Games ( http://arxiv.org/abs/2310.01378v1 ) ライセンス: Link先を確認 | Miquel Bofill, Cristina Borralleras, Joan Espasa, and Mateu Villaret | (参考訳) Sokobanのようなパズルゲームの多くは、迷路にエージェントを移動させる。
到達可能な場所は通常、人間のプレイヤーにとって明らかであり、ゲームの難易度は、主に(到達可能な)ボックスを押すなど、オブジェクトに対するアクションの実行に関連している。
このため、特定のレベルの難易度はしばしば、解を見つけるのに必要なエージェントウォーキング以外のオブジェクトに対するアクションの数として測定される。
本稿では,このような問題を解決するためのCPとSATのアプローチについて検討する。
いくつかのリーチビリティーエンコーディングをレビューし、新しいエンコーディングを提案する。
SATパラダイムとして計画する際のパズル問題,特に複数のアクションを並列に実行する場合に,新たなエンコーディングが適していることを示す。 Many puzzle video games, like Sokoban, involve moving some agent in a maze. The reachable locations are usually apparent for a human player, and the difficulty of the game is mainly related to performing actions on objects, such as pushing (reachable) boxes. For this reason, the difficulty of a particular level is often measured as the number of actions on objects, other than agent walking, needed to find a solution. In this paper we study CP and SAT approaches for solving these kind of problems. We review some reachability encodings and propose a new one. We empirically show that the new encoding is well-suited for solving puzzle problems in the planning as SAT paradigm, especially when considering the execution of several actions in parallel. | 翻訳日:2023-10-04 20:30:59 公開日:2023-10-02 |
# UltraFeedback: 高品質なフィードバックを備えた言語モデル UltraFeedback: Boosting Language Models with High-quality Feedback ( http://arxiv.org/abs/2310.01377v1 ) ライセンス: Link先を確認 | Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Wei Zhu, Yuan Ni, Guotong Xie, Zhiyuan Liu, Maosong Sun | (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要な技術となっている。
RLHFの実践では、嗜好データは人間の生産性とLLMをブリッジする上で重要な役割を果たす。
しかしながら、LLM出力に対する人間の嗜好に関する多様で自然主義的なデータセットの欠如は、オープンソースコミュニティ内のフィードバック学習研究だけでなく、RLHFにとって大きな課題となっている。
現在のプライオリティデータセットは、プロプライエタリか、サイズとプロンプトのバラエティに制限があるが、オープンソースモデルでのrlhfの採用が制限され、さらなる調査が妨げられる。
本研究では,これらの制限を克服し,RLHF開発を促進するために設計された大規模で高品質で多様な選好データセットであるULTRAFEEDBACKを提案する。
ULTRAFEEDBACKを作成するために、複数のソースから多様な命令とモデルをコンパイルし、比較データを生成する。
我々はアノテーション命令を慎重に考案し、GPT-4を用いて数値とテキストの双方で詳細なフィードバックを提供する。
ULTRAFEEDBACKは再現可能で拡張可能な好みデータ構築パイプラインを確立し、将来のRLHFとフィードバック学習研究の基盤となる。
ULTRAFEEDBACKを用いて、報酬モデルUltraRM、チャット言語モデルUltraLM-13B-PPO、批判モデルUltraCMなど、様々なモデルをトレーニングし、その効果を実証する。
実験の結果,我々のモデルは既存のオープンソースモデルより優れており,複数のベンチマークで最高の性能を達成していることがわかった。
我々のデータとモデルはhttps://github.com/thunlp/UltraFeedback.comで利用可能です。 Reinforcement learning from human feedback (RLHF) has become a pivot technique in aligning large language models (LLMs) with human preferences. In RLHF practice, preference data plays a crucial role in bridging human proclivity and LLMs. However, the scarcity of diverse, naturalistic datasets of human preferences on LLM outputs at scale poses a great challenge to RLHF as well as feedback learning research within the open-source community. Current preference datasets, either proprietary or limited in size and prompt variety, result in limited RLHF adoption in open-source models and hinder further exploration. In this study, we propose ULTRAFEEDBACK, a large-scale, high-quality, and diversified preference dataset designed to overcome these limitations and foster RLHF development. To create ULTRAFEEDBACK, we compile a diverse array of instructions and models from multiple sources to produce comparative data. We meticulously devise annotation instructions and employ GPT-4 to offer detailed feedback in both numerical and textual forms. ULTRAFEEDBACK establishes a reproducible and expandable preference data construction pipeline, serving as a solid foundation for future RLHF and feedback learning research. Utilizing ULTRAFEEDBACK, we train various models to demonstrate its effectiveness, including the reward model UltraRM, chat language model UltraLM-13B-PPO, and critique model UltraCM. Experimental results indicate that our models outperform existing open-source models, achieving top performance across multiple benchmarks. Our data and models are available at https://github.com/thunlp/UltraFeedback. | 翻訳日:2023-10-04 20:30:50 公開日:2023-10-02 |
# 分布非依存の一般化カテゴリー発見に向けて Towards Distribution-Agnostic Generalized Category Discovery ( http://arxiv.org/abs/2310.01376v1 ) ライセンス: Link先を確認 | Jianhong Bai, Zuozhu Liu, Hualiang Wang, Ruizhe Chen, Lianrui Mu, Xiaomeng Li, Joey Tianyi Zhou, Yang Feng, Jian Wu, Haoji Hu | (参考訳) データ不均衡と開放分布は、現実の視覚世界の本質的な特徴である。
それぞれの課題を個別に取り組むことで進歩を奨励する一方で、現実のシナリオに向けてそれらを統合するための作品はほとんどない。
これまでのいくつかの研究は、クローズドセットのサンプルの分類や、テスト中のオープンセットのサンプルの検出に力を入れてきました。
本稿では,より現実的なタスクを分散非依存な一般化カテゴリ発見(da-gcd)として定式化する。
そこで本研究では,da-gcd課題を解決するための対話的監督を行うために,コントラスト学習分枝と擬似ラベル分枝からなる自己バランス協調型コントラストフレームワーク(bacon)を提案する。
特に、コントラスト学習枝は、疑似ラベル分岐の予測を正則化する信頼できる分布推定を提供し、その結果、自己バランスの知識伝達と提案される新しいコントラスト損失を通じてコントラスト学習を導く。
我々はBaConと2つの密接に関連する分野、不均衡な半教師付き学習と一般化されたカテゴリー発見の最先端手法を比較した。
BaConの有効性は、すべてのベースラインよりも優れたパフォーマンスと、さまざまなデータセットにわたる包括的な分析で実証されている。
私たちのコードは公開されています。 Data imbalance and open-ended distribution are two intrinsic characteristics of the real visual world. Though encouraging progress has been made in tackling each challenge separately, few works dedicated to combining them towards real-world scenarios. While several previous works have focused on classifying close-set samples and detecting open-set samples during testing, it's still essential to be able to classify unknown subjects as human beings. In this paper, we formally define a more realistic task as distribution-agnostic generalized category discovery (DA-GCD): generating fine-grained predictions for both close- and open-set classes in a long-tailed open-world setting. To tackle the challenging problem, we propose a Self-Balanced Co-Advice contrastive framework (BaCon), which consists of a contrastive-learning branch and a pseudo-labeling branch, working collaboratively to provide interactive supervision to resolve the DA-GCD task. In particular, the contrastive-learning branch provides reliable distribution estimation to regularize the predictions of the pseudo-labeling branch, which in turn guides contrastive learning through self-balanced knowledge transfer and a proposed novel contrastive loss. We compare BaCon with state-of-the-art methods from two closely related fields: imbalanced semi-supervised learning and generalized category discovery. The effectiveness of BaCon is demonstrated with superior performance over all baselines and comprehensive analysis across various datasets. Our code is publicly available. | 翻訳日:2023-10-04 20:30:21 公開日:2023-10-02 |
# ペナル化推定器の有限アンサンブルに対する補正一般化クロスバリデーション Corrected generalized cross-validation for finite ensembles of penalized estimators ( http://arxiv.org/abs/2310.01374v1 ) ライセンス: Link先を確認 | Pierre Bellec, Jin-Hong Du, Takuya Koriyama, Pratik Patil, Kai Tan | (参考訳) 一般化クロスバリデーション(gcv)は、二乗訓練誤差に対して(乗法的な意味で)スカラー自由度調整を用いた二乗外予測リスクを推定するための広く用いられる手法である。
本稿では,最小二乗推定器の任意のアンサンブルの予測リスクを推定するためのGCVの整合性を検討する。
GCVは1以上の大きさの有限アンサンブルに対して不整合であることを示す。
この欠点を修復するために,各アンサンブルコンポーネントからの自由度調整されたトレーニングエラーに基づいて,追加のスカラー補正(加法的意味)を含む補正を同定する。
提案する推定器(cgcv)はgcvの計算上の利点を保ち、サンプル分割やモデル修正、バッグ外リスク推定は必要としない。
この推定器は、アンサンブルリスク分解の精細な検査と、この分解の成分に対する2つの中間リスク推定器に由来する。
本稿では,Gauss的特徴と線形応答モデルの下での凸ペナル化推定器のアンサンブルに対するCGCVと中間リスク推定器の非漸近解析を行った。
リッジ回帰の特別な場合には、cgcvのモデルフリー一様整合性を確立するランダム行列理論を用いて解析を一般特徴量と応答分布に拡張する。 Generalized cross-validation (GCV) is a widely-used method for estimating the squared out-of-sample prediction risk that employs a scalar degrees of freedom adjustment (in a multiplicative sense) to the squared training error. In this paper, we examine the consistency of GCV for estimating the prediction risk of arbitrary ensembles of penalized least squares estimators. We show that GCV is inconsistent for any finite ensemble of size greater than one. Towards repairing this shortcoming, we identify a correction that involves an additional scalar correction (in an additive sense) based on degrees of freedom adjusted training errors from each ensemble component. The proposed estimator (termed CGCV) maintains the computational advantages of GCV and requires neither sample splitting, model refitting, or out-of-bag risk estimation. The estimator stems from a finer inspection of ensemble risk decomposition and two intermediate risk estimators for the components in this decomposition. We provide a non-asymptotic analysis of the CGCV and the two intermediate risk estimators for ensembles of convex penalized estimators under Gaussian features and a linear response model. In the special case of ridge regression, we extend the analysis to general feature and response distributions using random matrix theory, which establishes model-free uniform consistency of CGCV. | 翻訳日:2023-10-04 20:29:53 公開日:2023-10-02 |
# ウィンドウベースモデル平均化によるヘテロジニアスフェデレーション学習の一般化 Window-based Model Averaging Improves Generalization in Heterogeneous Federated Learning ( http://arxiv.org/abs/2310.01366v1 ) ライセンス: Link先を確認 | Debora Caldarola, Barbara Caputo, Marco Ciccone | (参考訳) Federated Learning (FL)は、分散ユーザからグローバルモデルを学び、プライバシを保護することを目的としている。
しかし、データが均一に分散されると、学習プロセスはノイズが多く、不安定になり、最後に見られたクライアントのデータに偏り、収束を遅くする。
これらの問題に対処し,グローバルモデルのロバスト性と一般化能力を向上させるため,wima(window-based model averaging)を提案する。
wimaはウィンドウベースのアプローチで異なるラウンドからグローバルモデルを集約し、複数のユーザからの知識を効果的に捉え、最後のラウンドからのバイアスを減らす。
ラウンドのウィンドウビューを採用することで、WIMAをトレーニングの初期段階から適用することができる。
重要なことに、この手法では追加の通信やクライアント側の計算オーバーヘッドは発生しない。
本実験は,WIMAの分散シフトに対する堅牢性やクライアントサンプリングの悪さを実証し,よりスムーズで安定した学習傾向を示した。
加えて、WIMAは最先端のアルゴリズムと容易に統合できる。
我々は,標準FLベンチマークに対するアプローチを広く評価し,その有効性を実証した。 Federated Learning (FL) aims to learn a global model from distributed users while protecting their privacy. However, when data are distributed heterogeneously the learning process becomes noisy, unstable, and biased towards the last seen clients' data, slowing down convergence. To address these issues and improve the robustness and generalization capabilities of the global model, we propose WIMA (Window-based Model Averaging). WIMA aggregates global models from different rounds using a window-based approach, effectively capturing knowledge from multiple users and reducing the bias from the last ones. By adopting a windowed view on the rounds, WIMA can be applied from the initial stages of training. Importantly, our method introduces no additional communication or client-side computation overhead. Our experiments demonstrate the robustness of WIMA against distribution shifts and bad client sampling, resulting in smoother and more stable learning trends. Additionally, WIMA can be easily integrated with state-of-the-art algorithms. We extensively evaluate our approach on standard FL benchmarks, demonstrating its effectiveness. | 翻訳日:2023-10-04 20:29:30 公開日:2023-10-02 |
# elephant neural networks: 継続的学習者として生まれた Elephant Neural Networks: Born to Be a Continual Learner ( http://arxiv.org/abs/2310.01365v1 ) ライセンス: Link先を確認 | Qingfeng Lan, A. Rupam Mahmood | (参考訳) 破滅的な忘れ物は、数十年にわたって継続的な学習にとって重要な課題である。
近年の研究ではこの問題を軽減する効果的な手法が提案されているが、アルゴリズム的な側面に重点を置いている。
一方で、ニューラルネットワークのアーキテクチャ的性質が破滅的な忘れに繋がるかどうか、私たちは完全には理解していません。
本研究では,ニューラルネットワークのトレーニングダイナミクスにおけるアクティベーション機能の役割と,その破壊的忘れ方への影響について検討することで,このギャップを埋めることを目的とする。
本研究は, 疎表現に加えて, 活性化関数の勾配空間性も, 忘れの軽減に重要な役割を果たすことを明らかにした。
この知見に基づき, スパース表現とスパース勾配の両方を生成できる新しい活性化関数であるエレファント活性化関数を提案する。
古典的な活性化関数を象の活性化関数に置き換えることで、破滅的な忘れ物に対するニューラルネットワークのレジリエンスを大幅に改善できることを示す。
本手法は,回帰学習,クラスインクリメンタル学習,強化学習タスクにおいて,幅広い適用性と利点を有する。
具体的には、リプレイバッファやタスク境界情報、事前学習を使わずに、単一のパスでSplit MNISTデータセット上で優れたパフォーマンスを実現する。 Catastrophic forgetting remains a significant challenge to continual learning for decades. While recent works have proposed effective methods to mitigate this problem, they mainly focus on the algorithmic side. Meanwhile, we do not fully understand what architectural properties of neural networks lead to catastrophic forgetting. This study aims to fill this gap by studying the role of activation functions in the training dynamics of neural networks and their impact on catastrophic forgetting. Our study reveals that, besides sparse representations, the gradient sparsity of activation functions also plays an important role in reducing forgetting. Based on this insight, we propose a new class of activation functions, elephant activation functions, that can generate both sparse representations and sparse gradients. We show that by simply replacing classical activation functions with elephant activation functions, we can significantly improve the resilience of neural networks to catastrophic forgetting. Our method has broad applicability and benefits for continual learning in regression, class incremental learning, and reinforcement learning tasks. Specifically, we achieves excellent performance on Split MNIST dataset in just one single pass, without using replay buffer, task boundary information, or pre-training. | 翻訳日:2023-10-04 20:29:13 公開日:2023-10-02 |
# humannorm: 高品質かつ現実的な3d生成のための正規拡散モデル HumanNorm: Learning Normal Diffusion Model for High-quality and Realistic 3D Human Generation ( http://arxiv.org/abs/2310.01406v1 ) ライセンス: Link先を確認 | Xin Huang, Ruizhi Shao, Qi Zhang, Hongwen Zhang, Ying Feng, Yebin Liu, Qing Wang | (参考訳) 拡散モデルを用いた最近のテキスト・ツー・3D法は, 人間の3次元生成に大きな進歩をもたらした。
しかし,これらの手法は3次元構造の理解に欠けるテキスト・画像拡散モデルの限界により,課題に直面している。
その結果、これらの手法は高品質な人間生成を達成するのに苦労し、滑らかな幾何学や漫画のような外観をもたらす。
本稿では,通常の地図を用いた微調整テキスト・画像拡散モデルにより,テキスト・画像拡散モデルへの適応が可能となり,大規模データセットから学習した先行データを保存しつつ,3次元幾何学の2次元認識が向上することを示した。
そこで我々は, 正規適応拡散モデルと正規適応拡散モデルを含む正規拡散モデルを学習し, 高品質でリアルな3次元人文生成手法であるHumanNormを提案する。
正規適応拡散モデルは、ビュー依存テキストのプロンプトに対応する高忠実度正規写像を生成することができる。
正規配向拡散モデルは、通常の地図に沿った色画像を生成することを学習し、物理的幾何学的詳細を現実的な外観に変換する。
提案する正規拡散モデルを用いて, 3次元人体生成の効率とロバスト性を高めるために, プログレッシブな幾何生成戦略と粗粒間テクスチャ生成戦略を考案する。
包括的実験により,複雑な形状とリアルな外観を持つ3次元人間を生成できることが,既存のテクスト・トゥ・3d法を幾何とテクスチャ品質の両方において著しく上回っている。
HumanNormのプロジェクトページはhttps://humannorm.github.io/。 Recent text-to-3D methods employing diffusion models have made significant advancements in 3D human generation. However, these approaches face challenges due to the limitations of the text-to-image diffusion model, which lacks an understanding of 3D structures. Consequently, these methods struggle to achieve high-quality human generation, resulting in smooth geometry and cartoon-like appearances. In this paper, we observed that fine-tuning text-to-image diffusion models with normal maps enables their adaptation into text-to-normal diffusion models, which enhances the 2D perception of 3D geometry while preserving the priors learned from large-scale datasets. Therefore, we propose HumanNorm, a novel approach for high-quality and realistic 3D human generation by learning the normal diffusion model including a normal-adapted diffusion model and a normal-aligned diffusion model. The normal-adapted diffusion model can generate high-fidelity normal maps corresponding to prompts with view-dependent text. The normal-aligned diffusion model learns to generate color images aligned with the normal maps, thereby transforming physical geometry details into realistic appearance. Leveraging the proposed normal diffusion model, we devise a progressive geometry generation strategy and coarse-to-fine texture generation strategy to enhance the efficiency and robustness of 3D human generation. Comprehensive experiments substantiate our method's ability to generate 3D humans with intricate geometry and realistic appearances, significantly outperforming existing text-to-3D methods in both geometry and texture quality. The project page of HumanNorm is https://humannorm.github.io/. | 翻訳日:2023-10-04 20:21:47 公開日:2023-10-02 |
# H-InDex: Dexterous Manipulationのための手書き表現を用いた視覚強化学習 H-InDex: Visual Reinforcement Learning with Hand-Informed Representations for Dexterous Manipulation ( http://arxiv.org/abs/2310.01404v1 ) ライセンス: Link先を確認 | Yanjie Ze, Yuyao Liu, Ruizhe Shi, Jiaxin Qin, Zhecheng Yuan, Jiashun Wang, Huazhe Xu | (参考訳) 人間の手は目覚ましいデクスター性を持ち、ロボット操作のインスピレーションの源となっている。
本研究では,強化学習を伴う難解な$\textbf{dex}$terous操作タスク($\textbf{h-index}$)を解決するために,人間の$\textbf{h}$and$\textbf{-in}$formed visual representation learningフレームワークを提案する。
私たちの枠組みは3つの段階からなる。
(i)3次元人手ポーズ推定による事前学習表現
(ii)自己教師付きキーポイント検出によるオフライン適応表現、及び
(iii)指数移動平均バッチノルムによる強化学習
最後の2つの段階は、事前訓練された表現の$0.36\%$パラメータを総じて変更するだけで、事前訓練からの知識が十分に維持される。
我々は12の難解な操作タスクを経験的に研究し、h-indexが強力なベースラインメソッドと最近の運動制御のためのvisual foundationモデルを大きく超えることを見出した。
コードはhttps://yanjieze.com/H-InDexで入手できる。 Human hands possess remarkable dexterity and have long served as a source of inspiration for robotic manipulation. In this work, we propose a human $\textbf{H}$and$\textbf{-In}$formed visual representation learning framework to solve difficult $\textbf{Dex}$terous manipulation tasks ($\textbf{H-InDex}$) with reinforcement learning. Our framework consists of three stages: (i) pre-training representations with 3D human hand pose estimation, (ii) offline adapting representations with self-supervised keypoint detection, and (iii) reinforcement learning with exponential moving average BatchNorm. The last two stages only modify $0.36\%$ parameters of the pre-trained representation in total, ensuring the knowledge from pre-training is maintained to the full extent. We empirically study 12 challenging dexterous manipulation tasks and find that H-InDex largely surpasses strong baseline methods and the recent visual foundation models for motor control. Code is available at https://yanjieze.com/H-InDex . | 翻訳日:2023-10-04 20:21:05 公開日:2023-10-02 |
# CLIPSelf:視覚変換器はオープンボキャブラリディエンス予測のために自分自身を希釈する CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction ( http://arxiv.org/abs/2310.01403v1 ) ライセンス: Link先を確認 | Size Wu and Wenwei Zhang and Lumin Xu and Sheng Jin and Xiangtai Li and Wentao Liu and Chen Change Loy | (参考訳) Contrastive Language- Image Pre-training (CLIP) の成功により、オブジェクト検出や画像セグメント化などのオープン語彙密集予測タスクが進んでいる。
CLIPモデル、特に視覚変換器(ViT)を組み込んだモデルは、ゼロショット画像分類において顕著な一般化能力を示した。
しかし,大域画像表現から局所画像表現へクリップの視覚言語アライメントを移行する際,クリップvitsは全画像から局所画像領域への領域シフトに苦しむ。
本稿では,クリップモデルにおける地域言語アライメントの詳細な解析を行い,下流のボキャブラリー密集予測タスクに不可欠である。
次に,クリップvitの画像レベルの認識能力を,領域テキストペアを必要とせずに局所画像領域に適用する,クリップ自己という手法を提案する。
CLIPSelfは、その高密度特徴写像から抽出された領域表現と対応する画像作物の画像レベル表現とを合わせることで、ViTを蒸留する権限を与える。
拡張されたCLIP ViTにより、オープン語彙オブジェクトの検出、セマンティックセグメンテーション、および様々なベンチマークにおけるパノプティクスセグメンテーションにおいて、最先端のパフォーマンスを実現する。
モデルとコードはhttps://github.com/wusize/clipselfで入手できる。 Open-vocabulary dense prediction tasks including object detection and image segmentation have been advanced by the success of Contrastive Language-Image Pre-training (CLIP). CLIP models, particularly those incorporating vision transformers (ViTs), have exhibited remarkable generalization ability in zero-shot image classification. However, when transferring the vision-language alignment of CLIP from global image representation to local region representation for the open-vocabulary dense prediction tasks, CLIP ViTs suffer from the domain shift from full images to local image regions. In this paper, we embark on an in-depth analysis of the region-language alignment in CLIP models, which is essential for downstream open-vocabulary dense prediction tasks. Subsequently, we propose an approach named CLIPSelf, which adapts the image-level recognition ability of CLIP ViT to local image regions without needing any region-text pairs. CLIPSelf empowers ViTs to distill itself by aligning a region representation extracted from its dense feature map with the image-level representation of the corresponding image crop. With the enhanced CLIP ViTs, we achieve new state-of-the-art performance on open-vocabulary object detection, semantic segmentation, and panoptic segmentation across various benchmarks. Models and code will be available at https://github.com/wusize/CLIPSelf. | 翻訳日:2023-10-04 20:20:38 公開日:2023-10-02 |
# マルチビュー3次元物体検出のためのピクセルアラインリカレントクエリ Pixel-Aligned Recurrent Queries for Multi-View 3D Object Detection ( http://arxiv.org/abs/2310.01401v1 ) ライセンス: Link先を確認 | Yiming Xie, Huaizu Jiang, Georgia Gkioxari, Julian Straub | (参考訳) 本稿では,マルチビュー3Dオブジェクト検出器であるPARQについて述べる。
学習可能な機能やデコーダ内のクエリとして3Dポイント位置のみをエンコードする以前の作業とは異なり、PARQは3D空間の参照ポイントから初期化された外観に強化されたクエリを活用して、3D位置を更新する。
画素アライメント機能とクロスアテンションを組み込むことで、必要な3Dから2D対応を符号化し、入力画像のグローバルなコンテキスト情報をキャプチャすることができる。
PARQは、ScanNetとARKitScenesデータセットの前のベストメソッドよりも優れており、学習と検出が速く、参照ポイントの分散シフトに対して堅牢であり、再トレーニングなしで追加のインプットビューを活用することができ、反復回数を変更して推論計算を適用することができる。 We present PARQ - a multi-view 3D object detector with transformer and pixel-aligned recurrent queries. Unlike previous works that use learnable features or only encode 3D point positions as queries in the decoder, PARQ leverages appearance-enhanced queries initialized from reference points in 3D space and updates their 3D location with recurrent cross-attention operations. Incorporating pixel-aligned features and cross attention enables the model to encode the necessary 3D-to-2D correspondences and capture global contextual information of the input images. PARQ outperforms prior best methods on the ScanNet and ARKitScenes datasets, learns and detects faster, is more robust to distribution shifts in reference points, can leverage additional input views without retraining, and can adapt inference compute by changing the number of recurrent iterations. | 翻訳日:2023-10-04 20:19:56 公開日:2023-10-02 |
# グループ拡散プロセスを用いた逐次データ生成 Sequential Data Generation with Groupwise Diffusion Process ( http://arxiv.org/abs/2310.01400v1 ) ライセンス: Link先を確認 | Sangyun Lee, Gayoung Lee, Hyunsu Kim, Junho Kim, Youngjung Uh | (参考訳) 本稿では,データを複数のグループに分け,1つのグループを1つの時間間隔で拡散する群分割拡散モデル(gdm)を提案する。
GDMは1つのグループから1つの間隔で連続的にデータを生成し、いくつかの興味深い特性をもたらす。
まず、拡散モデルの拡張として、GDMはある種の自己回帰モデルとカスケード拡散モデルを一般化する。
統一されたフレームワークとして、GDMは、データグループ化戦略や生成順序など、これまで見過ごされてきた設計選択を調査できる。
さらに、初期雑音の一群が生成されたデータのあるグループのみに影響を与えるため、潜在空間はグループごとに解釈可能な意味を持っている。
さらに、前処理が各周波数成分群を逐次拡散させる周波数領域にGDMを拡張できる。
データの周波数帯域をグループとして分割することで、潜在変数は階層的な表現となり、個々のグループが異なる抽象レベルでデータをエンコードする。
意味属性の絡み合い,画像編集,バリエーション生成など,このような表現の応用例をいくつか紹介する。 We present the Groupwise Diffusion Model (GDM), which divides data into multiple groups and diffuses one group at one time interval in the forward diffusion process. GDM generates data sequentially from one group at one time interval, leading to several interesting properties. First, as an extension of diffusion models, GDM generalizes certain forms of autoregressive models and cascaded diffusion models. As a unified framework, GDM allows us to investigate design choices that have been overlooked in previous works, such as data-grouping strategy and order of generation. Furthermore, since one group of the initial noise affects only a certain group of the generated data, latent space now possesses group-wise interpretable meaning. We can further extend GDM to the frequency domain where the forward process sequentially diffuses each group of frequency components. Dividing the frequency bands of the data as groups allows the latent variables to become a hierarchical representation where individual groups encode data at different levels of abstraction. We demonstrate several applications of such representation including disentanglement of semantic attributes, image editing, and generating variations. | 翻訳日:2023-10-04 20:19:14 公開日:2023-10-02 |
# スパースゴシップネットワークにおける公平なタイムラインのための学習ベーススキーム A Learning Based Scheme for Fair Timeliness in Sparse Gossip Networks ( http://arxiv.org/abs/2310.01396v1 ) ライセンス: Link先を確認 | Purbesh Mitra and Sennur Ulukus | (参考訳) 我々は、ソースの情報を追跡する$n$ノードからなるゴシップネットワークを考える。
ソースはPoissonの到着プロセスで情報を更新し、ネットワーク内のノードに更新を送信する。
ノード自身は情報を交換して可能な限りタイムリーにすることができる。
しかし、ネットワーク構造は狭く不規則であり、すなわち、全てのノードがネットワーク内の他の全てのノードに接続されているわけではなく、接続の順序が低く、異なるノード間で異なる。
このネットワークの非対称性は、ネットワーク内のノードが時間軸で等しく機能しないことを意味する。
ネットワークのゴシピング特性のため、一部のノードはソースを非常にタイムリーに追跡できるが、一部のノードはバージョンにかなり遅れている。
本研究では,レート制約のあるソースが更新率をネットワーク全体に分散し,時系列性を維持すること,すなわちネットワークの最悪の場合の性能を最小化する方法について検討する。
最適なレート割り当てのための連続探索空間のため、この問題を連続武装バンディット問題として定式化し、ガウス過程に基づくベイズ最適化を用いて探索とエクスプロイトのトレードオフを順次満たす。 We consider a gossip network, consisting of $n$ nodes, which tracks the information at a source. The source updates its information with a Poisson arrival process and also sends updates to the nodes in the network. The nodes themselves can exchange information among themselves to become as timely as possible. However, the network structure is sparse and irregular, i.e., not every node is connected to every other node in the network, rather, the order of connectivity is low, and varies across different nodes. This asymmetry of the network implies that the nodes in the network do not perform equally in terms of timelines. Due to the gossiping nature of the network, some nodes are able to track the source very timely, whereas, some nodes fall behind versions quite often. In this work, we investigate how the rate-constrained source should distribute its update rate across the network to maintain fairness regarding timeliness, i.e., the overall worst case performance of the network can be minimized. Due to the continuous search space for optimum rate allocation, we formulate this problem as a continuum-armed bandit problem and employ Gaussian process based Bayesian optimization to meet a trade-off between exploration and exploitation sequentially. | 翻訳日:2023-10-04 20:18:51 公開日:2023-10-02 |
# DST-Det: オープンボキャブラリ物体検出のための簡易動的自己訓練 DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2310.01393v1 ) ライセンス: Link先を確認 | Shilin Xu, Xiangtai Li, Size Wu, Wenwei Zhang, Yining Li, Guangliang Cheng, Yunhai Tong, Kai Chen, Chen Change Loy | (参考訳) open-vocabulary object detection (ovod) は、トレーニング中に観測されるカテゴリを超えるオブジェクトを検出することを目的としている。
この研究は、CLIPのような事前訓練された視覚言語モデル(VLM)のゼロショット分類能力を生かした、シンプルだが効果的な戦略を示し、全ての新しいクラスの提案を直接分類する。
学習中に新しいクラスを無視し、新しいオブジェクト検出のための地域提案ネットワーク(RPN)にのみ依存する従来の研究とは異なり、本手法は特定の設計基準に基づいて提案を選択的にフィルタリングする。
特定された提案のセットは、トレーニングフェーズ中に新しいクラスの擬似ラベルとして機能する。
これは、追加のアノテーションやデータセットを必要とせずに、自己学習方法で新しいクラスのリコールと正確性を向上させるためのセルフトレーニング戦略を可能にします。
さらに,物体検出装置を洗練するための簡易オフライン擬似ラベル生成戦略を提案する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、推論中に追加のパラメータや計算コストを発生させることなく、ベースラインのパフォーマンスを大幅に改善したことを示している。
特に,従来のF-VLMと比較して,LVISデータセットの1.7~2.0%,最近の挑戦的なV3Detデータセットの2.3~3.8%の改善を実現している。
また,COCO濃度を6%向上させる方法も提案した。
コードとモデルはhttps://github.com/xushilin1/dst-detで公開されている。 Open-vocabulary object detection (OVOD) aims to detect the objects beyond the set of categories observed during training. This work presents a simple yet effective strategy that leverages the zero-shot classification ability of pre-trained vision-language models (VLM), such as CLIP, to classify proposals for all possible novel classes directly. Unlike previous works that ignore novel classes during training and rely solely on the region proposal network (RPN) for novel object detection, our method selectively filters proposals based on specific design criteria. The resulting sets of identified proposals serve as pseudo-labels for novel classes during the training phase. It enables our self-training strategy to improve the recall and accuracy of novel classes in a self-training manner without requiring additional annotations or datasets. We further propose a simple offline pseudo-label generation strategy to refine the object detector. Empirical evaluations on three datasets, including LVIS, V3Det, and COCO, demonstrate significant improvements over the baseline performance without incurring additional parameters or computational costs during inference. In particular, compared with previous F-VLM, our method achieves a 1.7-2.0% improvement on LVIS dataset and 2.3-3.8% improvement on the recent challenging V3Det dataset. Our method also boosts the strong baseline by 6% mAP on COCO. The code and models will be publicly available at https://github.com/xushilin1/dst-det. | 翻訳日:2023-10-04 20:18:24 公開日:2023-10-02 |
# MBRが完全にダウン:最小ベイズリスクのレンズによる最新世代の技術 It's MBR All the Way Down: Modern Generation Techniques Through the Lens of Minimum Bayes Risk ( http://arxiv.org/abs/2310.01387v1 ) ライセンス: Link先を確認 | Amanda Bertsch, Alex Xie, Graham Neubig, Matthew R. Gormley | (参考訳) 最小ベイズリスク(MBR)復号法(英: Minimum Bayes Risk, MBR)は、最も高い確率で出力するだけでなく、複数の候補の間で最も低いリスク(予測誤差)を持つ出力に基づいて、機械学習システムの出力を選択する方法である。
推論時の追加コストに対して、MBRは、追加のデータやトレーニングを必要とせずに、幅広いタスクに対して、メトリクス間で信頼性のある複数ポイントの改善を提供します。
それにもかかわらず、MBRはNLP作品には頻繁に適用されず、メソッド自体の知識は限られている。
まず本手法と最近の文献について紹介する。
MBRを参考にしない最近のいくつかの手法は、MBRの特殊な事例として記述できることを示し、この改定はこれらの手法の性能を理論的に正当化し、これまで経験的であったいくつかの結果を説明する。
我々は,様々なMBR変種の有効性に関する理論的および実証的な結果を提供し,今後の方向を含むNLPモデルへのMBRの適用について具体的な勧告を行う。 Minimum Bayes Risk (MBR) decoding is a method for choosing the outputs of a machine learning system based not on the output with the highest probability, but the output with the lowest risk (expected error) among multiple candidates. It is a simple but powerful method: for an additional cost at inference time, MBR provides reliable several-point improvements across metrics for a wide variety of tasks without any additional data or training. Despite this, MBR is not frequently applied in NLP works, and knowledge of the method itself is limited. We first provide an introduction to the method and the recent literature. We show that several recent methods that do not reference MBR can be written as special cases of MBR; this reformulation provides additional theoretical justification for the performance of these methods, explaining some results that were previously only empirical. We provide theoretical and empirical results about the effectiveness of various MBR variants and make concrete recommendations for the application of MBR in NLP models, including future directions in this area. | 翻訳日:2023-10-04 20:18:00 公開日:2023-10-02 |
# ChatGPTって誰?
心理ベンチを用いたLCMの心理的ポートフォリオのベンチマーク Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using PsychoBench ( http://arxiv.org/abs/2310.01386v1 ) ライセンス: Link先を確認 | Jen-tse Huang, Wenxuan Wang, Eric John Li, Man Ho Lam, Shujie Ren, Youliang Yuan, Wenxiang Jiao, Zhaopeng Tu, Michael R. Lyu | (参考訳) 大規模言語モデル(llm)は最近、自然言語処理タスクだけでなく、臨床医学、法務相談、教育といった様々な分野にまたがって、目覚ましい能力を見せている。
LLMは単なるアプリケーション以上のものになり、多様なユーザリクエストに対処できるアシスタントへと進化する。
これは人間と人工知能エージェントの区別を狭め、llm内の個性、気質、感情の潜在的顕現に関する興味深い疑問を提起する。
本稿では, LLMの多様な心理学的側面を評価するためのフレームワーク, PsychoBenchを提案する。
臨床心理学で一般的に用いられる13の尺度からなり、サイコベンチはこれらの尺度を、性格特性、対人関係、動機づけテスト、感情能力の4つのカテゴリーに分類する。
本研究は, texttt{text-davinci-003}, ChatGPT, GPT-4, LLaMA-2-7b, LLaMA-2-13bの5つの人気モデルについて検討した。
さらに,安全性アライメントプロトコルをバイパスし,llmの本質性をテストするためにジェイルブレイクアプローチを採用している。
われわれは、AcrioBenchを、 \url{https://github.com/CUHK-ARISE/PsychoBench}を通じて公開している。 Large Language Models (LLMs) have recently showcased their remarkable capacities, not only in natural language processing tasks but also across diverse domains such as clinical medicine, legal consultation, and education. LLMs become more than mere applications, evolving into assistants capable of addressing diverse user requests. This narrows the distinction between human beings and artificial intelligence agents, raising intriguing questions regarding the potential manifestation of personalities, temperaments, and emotions within LLMs. In this paper, we propose a framework, PsychoBench, for evaluating diverse psychological aspects of LLMs. Comprising thirteen scales commonly used in clinical psychology, PsychoBench further classifies these scales into four distinct categories: personality traits, interpersonal relationships, motivational tests, and emotional abilities. Our study examines five popular models, namely \texttt{text-davinci-003}, ChatGPT, GPT-4, LLaMA-2-7b, and LLaMA-2-13b. Additionally, we employ a jailbreak approach to bypass the safety alignment protocols and test the intrinsic natures of LLMs. We have made PsychoBench openly accessible via \url{https://github.com/CUHK-ARISE/PsychoBench}. | 翻訳日:2023-10-04 20:17:39 公開日:2023-10-02 |
# REMEDI:強化学習による原発性硬化性胆管炎進行の適応代謝モデル REMEDI: REinforcement learning-driven adaptive MEtabolism modeling of primary sclerosing cholangitis DIsease progression ( http://arxiv.org/abs/2310.01426v1 ) ライセンス: Link先を確認 | Chang Hu, Krishnakant V. Saboo, Ahmad H. Ali, Brian D. Juran, Konstantinos N. Lazaridis, Ravishankar K. Iyer | (参考訳) 原発性硬化性胆管炎(psc)は胆汁酸代謝異常が持続性肝障害に寄与する稀な疾患である。
本稿では, 胆汁酸動態とPSC進行時の身体適応反応を捉えるためのフレームワークであるREMEDIを紹介する。
REMEDIは、生体のPSCへの適応を継続的にエミュレートするために、胆汁酸代謝と強化学習(RL)を記述した微分方程式(DE)ベースの力学モデルを統合する。
適応の目的は、胆汁酸代謝に関与する酵素を調節することによりホメオスタシスを維持することである。
これらの酵素はDESのパラメータに対応する。
REMEDIはRLを利用してPSCの適応を近似し、ホメオスタシスを報酬信号として扱い、DEパラメータを対応するアクションとして調整する。
実世界のデータでは, 胆汁酸の動態とパラメータの調整が公表された結果と一致した。
また,本研究は胆汁酸合成抑制薬の早期投与がPSC治療に有効である可能性についても検討した。 Primary sclerosing cholangitis (PSC) is a rare disease wherein altered bile acid metabolism contributes to sustained liver injury. This paper introduces REMEDI, a framework that captures bile acid dynamics and the body's adaptive response during PSC progression that can assist in exploring treatments. REMEDI merges a differential equation (DE)-based mechanistic model that describes bile acid metabolism with reinforcement learning (RL) to emulate the body's adaptations to PSC continuously. An objective of adaptation is to maintain homeostasis by regulating enzymes involved in bile acid metabolism. These enzymes correspond to the parameters of the DEs. REMEDI leverages RL to approximate adaptations in PSC, treating homeostasis as a reward signal and the adjustment of the DE parameters as the corresponding actions. On real-world data, REMEDI generated bile acid dynamics and parameter adjustments consistent with published findings. Also, our results support discussions in the literature that early administration of drugs that suppress bile acid synthesis may be effective in PSC treatment. | 翻訳日:2023-10-04 20:10:17 公開日:2023-10-02 |
# GPT-Driver: GPTでドライブを学ぶ GPT-Driver: Learning to Drive with GPT ( http://arxiv.org/abs/2310.01415v1 ) ライセンス: Link先を確認 | Jiageng Mao, Yuxi Qian, Hang Zhao, Yue Wang | (参考訳) 我々は,OpenAI GPT-3.5モデルを自律走行車のための信頼性の高い運動プランナに変換する,シンプルで効果的なアプローチを提案する。
運動計画は自動運転における中核的な課題であり、安全で快適な運転経路を計画することを目指している。
既存の運動プランナーは、主にヒューリスティックな手法を用いて運転軌跡を予測するが、これらの手法は、新規で目に見えない運転シナリオに直面した上での一般化能力が不十分であることを示す。
本稿では,大規模言語モデル(llm)に固有の強力な推論能力と一般化可能性を活かした動き計画手法を提案する。
我々のアプローチの基本的な洞察は、言語モデリング問題としての運動計画の再構築である。
具体的には、プランナーの入力と出力を言語トークンとして表現し、LLMを利用して座標位置の言語記述を通して駆動軌道を生成する。
さらに,llmの数値推論ポテンシャルを刺激する新しいprogging-reasoning-finetuning strategyを提案する。
この戦略により、LLMは高精度な軌道座標と、自然言語における内部決定過程を記述できる。
我々は,大規模な nuScenes データセットに対するアプローチを評価し,GPT ベースの運動プランナの有効性,一般化能力,解釈可能性について検証した。
コードは受理時にリリースされる。 We present a simple yet effective approach that can transform the OpenAI GPT-3.5 model into a reliable motion planner for autonomous vehicles. Motion planning is a core challenge in autonomous driving, aiming to plan a driving trajectory that is safe and comfortable. Existing motion planners predominantly leverage heuristic methods to forecast driving trajectories, yet these approaches demonstrate insufficient generalization capabilities in the face of novel and unseen driving scenarios. In this paper, we propose a novel approach to motion planning that capitalizes on the strong reasoning capabilities and generalization potential inherent to Large Language Models (LLMs). The fundamental insight of our approach is the reformulation of motion planning as a language modeling problem, a perspective not previously explored. Specifically, we represent the planner inputs and outputs as language tokens, and leverage the LLM to generate driving trajectories through a language description of coordinate positions. Furthermore, we propose a novel prompting-reasoning-finetuning strategy to stimulate the numerical reasoning potential of the LLM. With this strategy, the LLM can describe highly precise trajectory coordinates and also its internal decision-making process in natural language. We evaluate our approach on the large-scale nuScenes dataset, and extensive experiments substantiate the effectiveness, generalization ability, and interpretability of our GPT-based motion planner. Code will be released upon acceptance. | 翻訳日:2023-10-04 20:09:57 公開日:2023-10-02 |
# 小児脳腫瘍ネットワークによる臨床放射線画像の多施設的分析 A multi-institutional pediatric dataset of clinical radiology MRIs by the Children's Brain Tumor Network ( http://arxiv.org/abs/2310.01413v1 ) ライセンス: Link先を確認 | Ariana M. Familiar, Anahita Fathi Kazerooni, Hannah Anderson, Aliaksandr Lubneuski, Karthik Viswanathan, Rocky Breslow, Nastaran Khalili, Sina Bagheri, Debanjan Haldar, Meen Chul Kim, Sherjeel Arif, Rachel Madhogarhia, Thinh Q. Nguyen, Elizabeth A. Frenkel, Zeinab Helili, Jessica Harrison, Keyvan Farahani, Marius George Linguraru, Ulas Bagci, Yury Velichko, Jeffrey Stevens, Sarah Leary, Robert M. Lober, Stephani Campion, Amy A. Smith, Denise Morinigo, Brian Rood, Kimberly Diamond, Ian F. Pollack, Melissa Williams, Arastoo Vossough, Jeffrey B. Ware, Sabine Mueller, Phillip B. Storm, Allison P. Heath, Angela J. Waanders, Jena V. Lilly, Jennifer L. Mason, Adam C. Resnick, Ali Nabavizadeh | (参考訳) 小児脳と脊髄がんは、子供のがん関連死の主要な原因である。
しかし, 標準治療を通じて収集した放射線画像データを利用した小児神経腫瘍学における臨床的決定支援の進歩は, 他の領域に大きく影響している。
このようなデータは、大規模なデータセットを必要とする人工知能(AI)メソッドのような予測分析での使用に適しています。
我々は,小児脳腫瘍ネットワークの一環として,1,526人の脳腫瘍患者の定期治療を通じて取得した23,101個の多パラメータMRI検査の多施設的,大規模データセットを提供する。
これには、様々ながん診断における縦方向MRI、関連する患者レベル臨床情報、デジタル病理スライド、および組織遺伝子型およびオミクスデータが含まれる。
下流解析を容易にするために,nci小児がんデータイニシアチブを通じて,370名の患者に対する治療用na\"iveイメージを処理し,公開した。
これらの画像レポジトリを継続的に構築する取り組みを通じて、現実世界のデータによる発見と翻訳AIモデルを加速し、究極的には子供の精密医療を強化することを目的としています。 Pediatric brain and spinal cancers remain the leading cause of cancer-related death in children. Advancements in clinical decision-support in pediatric neuro-oncology utilizing the wealth of radiology imaging data collected through standard care, however, has significantly lagged other domains. Such data is ripe for use with predictive analytics such as artificial intelligence (AI) methods, which require large datasets. To address this unmet need, we provide a multi-institutional, large-scale pediatric dataset of 23,101 multi-parametric MRI exams acquired through routine care for 1,526 brain tumor patients, as part of the Children's Brain Tumor Network. This includes longitudinal MRIs across various cancer diagnoses, with associated patient-level clinical information, digital pathology slides, as well as tissue genotype and omics data. To facilitate downstream analysis, treatment-na\"ive images for 370 subjects were processed and released through the NCI Childhood Cancer Data Initiative via the Cancer Data Service. Through ongoing efforts to continuously build these imaging repositories, our aim is to accelerate discovery and translational AI models with real-world data, to ultimately empower precision medicine for children. | 翻訳日:2023-10-04 20:09:33 公開日:2023-10-02 |
# drivegpt4: 大言語モデルによるエンドツーエンドの自動運転 DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model ( http://arxiv.org/abs/2310.01412v1 ) ライセンス: Link先を確認 | Zhenhua Xu, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kenneth K.Y. Wong, Zhenguo Li, Hengshuang Zhao | (参考訳) 過去10年間、自動運転は学界と産業の両方で急速に発展してきた。
しかし、その限定的な解釈性は重要な未解決問題であり、自動運転車の商業化とさらなる開発を著しく妨げている。
従来の小さな言語モデルを用いたアプローチでは、柔軟性、一般化能力、堅牢性に欠けていたため、この問題に対処できなかった。
近年、マルチモーダルな大言語モデル(LLM)は、テキストによる非テキストデータ(画像やビデオなど)の処理と推論能力について、研究コミュニティから大きな注目を集めている。
本稿では,LLMを利用した解釈可能なエンドツーエンド自動運転システムDriveGPT4を提案する。
DriveGPT4は、車両の動作を解釈し、対応する推論を提供するとともに、人間のユーザによる多様な質問に答えて、対話を強化することができる。
さらに、DriveGPT4は車両の低レベル制御信号をエンドツーエンドで予測する。
これらの機能は、自動運転用に特別に設計されたカスタマイズされた視覚命令チューニングデータセットに由来する。
私たちの知る限り、drivegpt4は、解釈可能なエンドツーエンドの自動運転に焦点を当てた最初の作業です。
従来の手法やビデオ理解LLMと並行して複数のタスクで評価すると,DriveGPT4は質的,定量的に優れた性能を示す。
さらに、drivegpt4はゼロショット方式で一般化でき、より目に見えないシナリオに対応できる。
プロジェクトページはhttps://tonyxuqaq.github.io/projects/drivegpt4/。 In the past decade, autonomous driving has experienced rapid development in both academia and industry. However, its limited interpretability remains a significant unsolved problem, severely hindering autonomous vehicle commercialization and further development. Previous approaches utilizing small language models have failed to address this issue due to their lack of flexibility, generalization ability, and robustness. Recently, multimodal large language models (LLMs) have gained considerable attention from the research community for their capability to process and reason non-text data (e.g., images and videos) by text. In this paper, we present DriveGPT4, an interpretable end-to-end autonomous driving system utilizing LLMs. DriveGPT4 is capable of interpreting vehicle actions and providing corresponding reasoning, as well as answering diverse questions posed by human users for enhanced interaction. Additionally, DriveGPT4 predicts vehicle low-level control signals in an end-to-end fashion. These capabilities stem from a customized visual instruction tuning dataset specifically designed for autonomous driving. To the best of our knowledge, DriveGPT4 is the first work focusing on interpretable end-to-end autonomous driving. When evaluated on multiple tasks alongside conventional methods and video understanding LLMs, DriveGPT4 demonstrates superior qualitative and quantitative performance. Additionally, DriveGPT4 can be generalized in a zero-shot fashion to accommodate more unseen scenarios. The project page is available at https://tonyxuqaq.github.io/projects/DriveGPT4/ . | 翻訳日:2023-10-04 20:09:11 公開日:2023-10-02 |
# LEAP: カメラケースからのスパースビュー3Dモデリング LEAP: Liberate Sparse-view 3D Modeling from Camera Poses ( http://arxiv.org/abs/2310.01410v1 ) ライセンス: Link先を確認 | Hanwen Jiang, Zhenyu Jiang, Yue Zhao, Qixing Huang | (参考訳) マルチビュー3dモデリングにカメラポーズは必要か?
既存のアプローチは、主に正確なカメラポーズへのアクセスを前提としている。
この仮定は、密集したビューに当てはまるかもしれないが、カメラのポーズを正確に推定することは、しばしば明白である。
解析の結果,既存のスパースビュー3次元モデリング手法ではノイズ推定値が劣化することがわかった。
この問題に対処するため,新しいポーズレスアプローチであるLEAPを提案し,カメラのポーズが不可欠であるという考えに挑戦する。
LEAPはポーズベースの操作を捨て、データから幾何学的知識を学ぶ。
LEAPは、シーン間で共有されるニューラルボリュームを備え、幾何学やテクスチャの先行を符号化するためにパラメータ化されている。
入ってくるシーンごとに、2D画像の特徴を特徴相似的に集約することで、ニューラルボリュームを更新する。
更新されたニューラルボリュームは放射場にデコードされ、任意の視点から新しいビュー合成を可能にする。
オブジェクト中心とシーンレベルの両方のデータセットにおいて、LEAPは最先端のポーズ推定器から予測されたポーズを用いる場合、先行手法よりも顕著に優れていることを示す。
特に、LEAPは、PixelNeRFよりも400\times$高速で実行しながら、グランドトルースポーズを使用する以前のアプローチと同等である。
LEAPは,新しい対象カテゴリやシーンに一般化し,エピポーラ幾何学によく似た知識を学習する。
プロジェクトページ: https://hwjiang1510.github.io/LEAP/ Are camera poses necessary for multi-view 3D modeling? Existing approaches predominantly assume access to accurate camera poses. While this assumption might hold for dense views, accurately estimating camera poses for sparse views is often elusive. Our analysis reveals that noisy estimated poses lead to degraded performance for existing sparse-view 3D modeling methods. To address this issue, we present LEAP, a novel pose-free approach, therefore challenging the prevailing notion that camera poses are indispensable. LEAP discards pose-based operations and learns geometric knowledge from data. LEAP is equipped with a neural volume, which is shared across scenes and is parameterized to encode geometry and texture priors. For each incoming scene, we update the neural volume by aggregating 2D image features in a feature-similarity-driven manner. The updated neural volume is decoded into the radiance field, enabling novel view synthesis from any viewpoint. On both object-centric and scene-level datasets, we show that LEAP significantly outperforms prior methods when they employ predicted poses from state-of-the-art pose estimators. Notably, LEAP performs on par with prior approaches that use ground-truth poses while running $400\times$ faster than PixelNeRF. We show LEAP generalizes to novel object categories and scenes, and learns knowledge closely resembles epipolar geometry. Project page: https://hwjiang1510.github.io/LEAP/ | 翻訳日:2023-10-04 20:08:51 公開日:2023-10-02 |
# general animal imitator: 万能運動を先取りしたアジャイルロコモーション Generalized Animal Imitator: Agile Locomotion with Versatile Motion Prior ( http://arxiv.org/abs/2310.01408v1 ) ライセンス: Link先を確認 | Ruihan Yang, Zhuoqun Chen, Jianhan Ma, Chongyi Zheng, Yiyu Chen, Quan Nguyen, Xiaolong Wang | (参考訳) 動物の俊敏性、特にランニング、ターン、ジャンプ、バックフリップといった複雑な活動において、ロボットシステム設計の模範となっている。
この一連の行動群を脚のあるロボットシステムに移すと、必須の質問がもたらされる。ロボットはどのようにして複数の歩行行動を同時に学ぶことができるのか?
ロボットはどのようにしてこれらのタスクをスムーズに実行するのか?
そして、これらのスキルを統合的に利用するための戦略は何でしょう?
本稿では,高度ロボットアプリケーションに適した多様なアジャイルロコモーションタスクを組み込んだ強化学習フレームワークであるVersatile Instructable Motion Prior (VIM)を紹介する。
本フレームワークは,動物の動作を模倣し,機能報酬とスタイライズ報酬を手動で設計することで,ロボットが多様なアジャイルの低レベルスキルを習得することを可能にする。
機能報酬はロボットが様々なスキルを身につける能力を導くが、スティライズ報酬は参照動作とパフォーマンスアライメントを保証する。
シミュレーション環境と実環境の両方にまたがるVIMフレームワークの評価を行った。
私たちの理解では、これはロボットが特異なコントローラを使って多様なアジャイルのロコモーションタスクを同時に学習できる最初の仕事です。
詳細と支援メディアは、プロジェクトのサイト(https://rchalyang.github.io/VIM)で確認できます。 The agility of animals, particularly in complex activities such as running, turning, jumping, and backflipping, stands as an exemplar for robotic system design. Transferring this suite of behaviors to legged robotic systems introduces essential inquiries: How can a robot be trained to learn multiple locomotion behaviors simultaneously? How can the robot execute these tasks with a smooth transition? And what strategies allow for the integrated application of these skills? This paper introduces the Versatile Instructable Motion prior (VIM) - a Reinforcement Learning framework designed to incorporate a range of agile locomotion tasks suitable for advanced robotic applications. Our framework enables legged robots to learn diverse agile low-level skills by imitating animal motions and manually designed motions with Functionality reward and Stylization reward. While the Functionality reward guides the robot's ability to adopt varied skills, the Stylization reward ensures performance alignment with reference motions. Our evaluations of the VIM framework span both simulation environments and real-world deployment. To our understanding, this is the first work that allows a robot to concurrently learn diverse agile locomotion tasks using a singular controller. Further details and supportive media can be found at our project site: https://rchalyang.github.io/VIM . | 翻訳日:2023-10-04 20:08:27 公開日:2023-10-02 |
# 条件拡散蒸留 Conditional Diffusion Distillation ( http://arxiv.org/abs/2310.01407v1 ) ライセンス: Link先を確認 | Kangfu Mei and Mauricio Delbracio and Hossein Talebi and Zhengzhong Tu and Vishal M. Patel and Peyman Milanfar | (参考訳) 生成拡散モデルは、テキストから画像への生成に強い優先順位を与え、画像編集、復元、超解像といった条件付き生成タスクの基盤となる。
しかし、拡散モデルの主な制限はサンプリング時間の遅いことである。
そこで本研究では, 拡散前処理を画像条件の助けを借りて補うように設計した条件蒸留法を提案する。
共同学習により,無条件予習を単段で直接蒸留し,蒸留と条件微調整の両方を別々に行う前段階の手順を単純化した。
さらに, 共有凍結非条件バックボーンと少量の添加パラメータのみを併用して各タスクを蒸留する, 新たなパラメータ効率の高い蒸留機構を実現する。
超解像、画像編集、深度画像生成を含む複数のタスクを対象とした実験により、本手法はサンプリング時間において既存の蒸留技術より優れていることを示した。
特に本手法は, 非常に遅い微調整条件拡散モデルの性能に適合する最初の蒸留法である。 Generative diffusion models provide strong priors for text-to-image generation and thereby serve as a foundation for conditional generation tasks such as image editing, restoration, and super-resolution. However, one major limitation of diffusion models is their slow sampling time. To address this challenge, we present a novel conditional distillation method designed to supplement the diffusion priors with the help of image conditions, allowing for conditional sampling with very few steps. We directly distill the unconditional pre-training in a single stage through joint-learning, largely simplifying the previous two-stage procedures that involve both distillation and conditional finetuning separately. Furthermore, our method enables a new parameter-efficient distillation mechanism that distills each task with only a small number of additional parameters combined with the shared frozen unconditional backbone. Experiments across multiple tasks including super-resolution, image editing, and depth-to-image generation demonstrate that our method outperforms existing distillation techniques for the same sampling time. Notably, our method is the first distillation strategy that can match the performance of the much slower fine-tuned conditional diffusion models. | 翻訳日:2023-10-04 20:08:05 公開日:2023-10-02 |
# pddlによるモデリングとプロット解決の課題 Challenges in Modelling and Solving Plotting with PDDL ( http://arxiv.org/abs/2310.01470v1 ) ライセンス: Link先を確認 | Joan Espasa, Ian Miguel, Peter Nightingale, Andr\'as Z. Salamon, Mateu Villaret | (参考訳) 1989年にタイトーが発表したタイルマッチングパズルゲーム「Plotting」に基づく計画問題について検討した。
このゲームの目的は、グリッドに順次ブロックを発射することで、グリッドから色付きブロックのターゲット数を取り除くことである。
プロッティングはショット毎に複雑な遷移を特徴とし、様々なブロックが直接影響を受ける一方、他のブロックは重力によって間接的に影響を受ける。
PDDLでPlottingをモデル化する上での課題と,それを基盤とした最先端のプランナで解決する上での課題を強調した。 We study a planning problem based on Plotting, a tile-matching puzzle video game published by Taito in 1989. The objective of this game is to remove a target number of coloured blocks from a grid by sequentially shooting blocks into the grid. Plotting features complex transitions after every shot: various blocks are affected directly, while others can be indirectly affected by gravity. We highlight the challenges of modelling Plotting with PDDL and of solving it with a grounding-based state-of-the-art planner. | 翻訳日:2023-10-04 19:50:10 公開日:2023-10-02 |
# LLMの嘘:幻覚はバグではなく、逆の例としての特徴 LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples ( http://arxiv.org/abs/2310.01469v1 ) ライセンス: Link先を確認 | Jia-Yu Yao, Kun-Peng Ning, Zhen-Hui Liu, Mu-Nan Ning, Li Yuan | (参考訳) GPT-3.5、LLaMA、PaLMを含む大規模言語モデル(LLM)は知識があり、多くのタスクに適応できるようである。
しかし、LLMは幻覚に苦しむため、ユーザを疑うために既存の事実を偽造するので、まだその答えを完全には信用できない。
そして、その存在と普及の理由は不明である。
本稿では,ランダムトークンからなる非センスプロンプトが,幻覚で応答するllmを誘発できることを実証する。
この現象は、幻覚は敵の例の別の見方であり、従来の敵の例と類似した特徴をLLMの基本的特徴として共有する。
そこで我々は,幻覚攻撃として自動幻覚誘発法を対角的に定式化する。
最後に、攻撃された敵のプロンプトの基本的特徴について検討し、シンプルで効果的な防衛戦略を提案する。
私たちのコードはGitHubでリリースされています。 Large Language Models (LLMs), including GPT-3.5, LLaMA, and PaLM, seem to be knowledgeable and able to adapt to many tasks. However, we still can not completely trust their answer, since LLMs suffer from hallucination--fabricating non-existent facts to cheat users without perception. And the reasons for their existence and pervasiveness remain unclear. In this paper, we demonstrate that non-sense prompts composed of random tokens can also elicit the LLMs to respond with hallucinations. This phenomenon forces us to revisit that hallucination may be another view of adversarial examples, and it shares similar features with conventional adversarial examples as the basic feature of LLMs. Therefore, we formalize an automatic hallucination triggering method as the hallucination attack in an adversarial way. Finally, we explore basic feature of attacked adversarial prompts and propose a simple yet effective defense strategy. Our code is released on GitHub. | 翻訳日:2023-10-04 19:50:01 公開日:2023-10-02 |
# entity-deduction arena: llmの会話的推論と計画能力の探求のための遊び場 The Entity-Deduction Arena: A playground for probing the conversational reasoning and planning capabilities of LLMs ( http://arxiv.org/abs/2310.01468v1 ) ライセンス: Link先を確認 | Yizhe Zhang, Jiarui Lu, Navdeep Jaitly | (参考訳) 大規模言語モデル(llm)は現在、明確に質問された質問に答えるのに有効である。
しかし、あいまいなクエリに直面すると予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
この能力は複雑な理解、状態追跡、推論、複数の会話のターンでの計画を必要とする。
しかし、直接これを測定することは困難である。
本稿では, LLMが未知のエンティティを自身に推論する能力の評価を行うが, 裁判官に一連のクエリーを問うことによって, 判断者に明らかにする代理問題を提案する。
この \textit{entity-deducing game} は、言語モデルの会話的推論と計画能力を調査するための評価フレームワークとして機能する。
我々は,様々なLLMを体系的に評価し,その性能に有意な差が認められた。
GPT-4のような強力なLLMは、人間のプレイヤーよりも大きなマージンで優れています。
さらに,より弱いモデルがより強固なモデルを模倣し,より強固なモデルからのデモンストレーションのみを用いて,データやドメインに一般化できるかどうかを調べるために,行動クローニング(behavior clone, bc)も採用する。
我々は最終的に、強化学習を用いて、ゲームプレイのエピソードを通じてヴィクナモデルの推論と計画能力を向上させることを提案し、性能改善につながった。
この問題は、あいまいな状況において、自律的なエージェントがよりインテリジェントに振る舞うように訓練される方法に関する洞察を提供してくれることを期待しています。 Large language models (LLMs) are currently effective at answering questions that are clearly asked. However, when faced with ambiguous queries they can act unpredictably and produce incorrect outputs. This underscores the need for the development of intelligent agents capable of asking clarification questions to resolve ambiguities effectively. This capability requires complex understanding, state tracking, reasoning and planning over multiple conversational turns. However, directly measuring this can be challenging. In this paper, we offer a surrogate problem which assesses an LLMs's capability to deduce an entity unknown to itself, but revealed to a judge, by asking the judge a series of queries. This \textit{entity-deducing game} can serve as an evaluation framework to probe the conversational reasoning and planning capabilities of language models. We systematically evaluate various LLMs and discover significant differences in their performance on this task. We find that strong LLMs like GPT-4 outperform human players by a large margin. We further employ Behavior Cloning (BC) to examine whether a weaker model is capable of imitating a stronger model and generalizing to data or domains, using only the demonstrations from a stronger model. We finally propose to use Reinforcement Learning to enhance reasoning and planning capacity of Vicuna models through episodes of game playing, which lead to significant performance improvement. We hope that this problem offers insights into how autonomous agents could be trained to behave more intelligently in ambiguous circumstances. | 翻訳日:2023-10-04 19:49:45 公開日:2023-10-02 |
# FedBPT: 大規模言語モデルのための効率的なフェデレーションブラックボックスプロンプトチューニング FedBPT: Efficient Federated Black-box Prompt Tuning for Large Language Models ( http://arxiv.org/abs/2310.01467v1 ) ライセンス: Link先を確認 | Jingwei Sun, Ziyue Xu, Hongxu Yin, Dong Yang, Daguang Xu, Yiran Chen, Holger R. Roth | (参考訳) プレトレーニング言語モデル (PLM) はNLPのランドスケープに革命をもたらし、様々なタスクで星間パフォーマンスを達成した。
これらのモデルは、膨大なトレーニングデータから恩恵を受ける一方で、下流の異なるタスクに対応するために、特定のデータを微調整する必要があることが多い。
しかし、このデータ適応プロセスには固有のセキュリティとプライバシの懸念がある。
フェデレートラーニング(FL)は、集中的なデータ収集なしに、協調的なモデルの微調整を可能にするソリューションを提供する。
しかし、FLの適用は、制限されたモデルパラメータアクセス、高い計算要求、通信オーバーヘッドなどの課題によって妨げられている。
本稿では,これらの課題に対処するためのフレームワークであるFederated Black-box Prompt Tuning(FedBPT)を紹介する。
FedBPTは、クライアントがモデルパラメータにアクセスする必要はない。
最適プロンプトの訓練と勾配のない最適化手法を利用することで、FedBPTは交換変数の数を減らし、通信効率を向上し、計算と記憶のコストを最小化する。
実験では、競争性能を維持しながら通信とメモリコストを大幅に削減するフレームワークの能力を強調している。
最終的に、FedBPTは、大規模言語モデルの時代におけるPLMの効率的かつプライバシー保護的な微調整のための有望なソリューションを提供する。 Pre-trained language models (PLM) have revolutionized the NLP landscape, achieving stellar performances across diverse tasks. These models, while benefiting from vast training data, often require fine-tuning on specific data to cater to distinct downstream tasks. However, this data adaptation process has inherent security and privacy concerns, primarily when leveraging user-generated, device-residing data. Federated learning (FL) provides a solution, allowing collaborative model fine-tuning without centralized data collection. However, applying FL to finetune PLMs is hampered by challenges, including restricted model parameter access, high computational requirements, and communication overheads. This paper introduces Federated Black-box Prompt Tuning (FedBPT), a framework designed to address these challenges. FedBPT does not require the clients to access the model parameters. By focusing on training optimal prompts and utilizing gradient-free optimization methods, FedBPT reduces the number of exchanged variables, boosts communication efficiency, and minimizes computational and storage costs. Experiments highlight the framework's ability to drastically cut communication and memory costs while maintaining competitive performance. Ultimately, FedBPT presents a promising solution for efficient, privacy-preserving fine-tuning of PLM in the age of large language models. | 翻訳日:2023-10-04 19:49:24 公開日:2023-10-02 |
# NarrativePlay: インタラクティブなナラティブ理解 NarrativePlay: Interactive Narrative Understanding ( http://arxiv.org/abs/2310.01459v1 ) ライセンス: Link先を確認 | Runcong Zhao and Wenjia Zhang and Jiazheng Li and Lixing Zhu and Yanran Li and Yulan He and Lin Gui | (参考訳) 本稿では,小説などの物語において,ユーザが架空のキャラクターをロールプレイし,他のキャラクターと対話できる新しいシステムであるNarrativePlayを紹介する。
我々は,大言語モデル(llm)を用いて,物語から抽出された人格的特徴に導かれる人間的応答を生成する。
このシステムは、物語設定、人物像、文字音声の自動生成視覚表示を取り入れ、ユーザエクスペリエンスを大幅に向上させる。
提案手法は,ユーザ選択キャラクタの観点から物語から抽出した主ストーリーラインイベントに着目し,事前に定義されたサンドボックスを抽出する。
ストーリープレイは、探偵物語と冒険物語の2つのタイプで評価されており、ユーザーは世界を探検するか、会話を通じて物語のキャラクターに好意性を高めることができる。 In this paper, we introduce NarrativePlay, a novel system that allows users to role-play a fictional character and interact with other characters in narratives such as novels in an immersive environment. We leverage Large Language Models (LLMs) to generate human-like responses, guided by personality traits extracted from narratives. The system incorporates auto-generated visual display of narrative settings, character portraits, and character speech, greatly enhancing user experience. Our approach eschews predefined sandboxes, focusing instead on main storyline events extracted from narratives from the perspective of a user-selected character. NarrativePlay has been evaluated on two types of narratives, detective and adventure stories, where users can either explore the world or improve their favorability with the narrative characters through conversations. | 翻訳日:2023-10-04 19:48:59 公開日:2023-10-02 |
# ベイズ最適化による核融合炉の磁場コイル形成 Shaping of Magnetic Field Coils in Fusion Reactors using Bayesian Optimisation ( http://arxiv.org/abs/2310.01455v1 ) ライセンス: Link先を確認 | Timothy Nunn, Vignesh Gopakumar, Sebastien Kahn | (参考訳) 磁気閉じ込めを用いた核融合は持続可能エネルギーの方法として有望である。
しかし、ほとんどの核融合装置は実験段階にあり、我々はエネルギー原子炉に向かっているため、新しい工学パラダイムに参入している。
核融合炉の設計を計算することは高次元多出力最適化プロセスである。
この研究を通じて、デザイン検索空間を探索し、最適なパラメータを識別するAI駆動戦略の実証を実証する。
多出力ベイズ最適化スキームを利用することで、トカマクのトロイダル磁場コイル形状の最適化に関連するパレートフロントを識別することができる。
最適化は、磁気リップルを最小化することでプラズマの安定性を最大化しながら、発生するコストを最小化する設計パラメータを特定するのに役立つ。 Nuclear fusion using magnetic confinement holds promise as a viable method for sustainable energy. However, most fusion devices have been experimental and as we move towards energy reactors, we are entering into a new paradigm of engineering. Curating a design for a fusion reactor is a high-dimensional multi-output optimisation process. Through this work we demonstrate a proof-of-concept of an AI-driven strategy to help explore the design search space and identify optimum parameters. By utilising a Multi-Output Bayesian Optimisation scheme, our strategy is capable of identifying the Pareto front associated with the optimisation of the toroidal field coil shape of a tokamak. The optimisation helps to identify design parameters that would minimise the costs incurred while maximising the plasma stability by way of minimising magnetic ripples. | 翻訳日:2023-10-04 19:48:45 公開日:2023-10-02 |
# ランダム化潜在表現によるテクスチャフードラーの摂食 Fooling the Textual Fooler via Randomizing Latent Representations ( http://arxiv.org/abs/2310.01452v1 ) ライセンス: Link先を確認 | Duy C. Hoang, Quang H. Nguyen, Saurav Manchanda, MinLong Peng, Kok-Seng Wong, Khoa D. Doan | (参考訳) 様々なnlpタスクに優れた性能があるにもかかわらず、近年の研究により、nlpモデルは、モデルの誤用を引き起こす入力をわずかにゆるめる敵の攻撃に対して脆弱であることが判明した。
これらの攻撃のうち、敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
これらの攻撃はブラックボックス設定で動作するため、モデルアーキテクチャやモデルパラメータへのアクセスを必要としないため、既存のNLPアプリケーションには有害である。
攻撃を行うために、敵は被害者モデルに何度も問い合わせ、入力テキストで最も重要な単語を判定し、それらの単語を対応する同義語に置き換える。
本稿では,これらのクエリベースのブラックボックス攻撃において,逆行的な例を生成するプロセスを複雑化させることを主目的とする,軽量で攻撃に依存しない防御手法を提案する。
このディフェンスはAdvFoolerと呼ばれ、推論時に入力の潜在表現をランダムにすることで機能する。
既存の防御とは異なり、advfoolerはトレーニング中に追加の計算オーバーヘッドを必要とせず、モデルの正確性に無視できる影響を与えながら、潜在的な敵対的摂動集合についての仮定に依存する。
理論的・実証的分析では, 潜在空間のランダム化による敵意の混乱と, クリーン精度へのランダム化の影響から生じる頑健性の重要性を浮き彫りにした。
最後に,AdvFoolerの2つのベンチマークデータセットに対する単語レベルの代表的攻撃に対する最先端の堅牢性を実証的に示す。 Despite outstanding performance in a variety of NLP tasks, recent studies have revealed that NLP models are vulnerable to adversarial attacks that slightly perturb the input to cause the models to misbehave. Among these attacks, adversarial word-level perturbations are well-studied and effective attack strategies. Since these attacks work in black-box settings, they do not require access to the model architecture or model parameters and thus can be detrimental to existing NLP applications. To perform an attack, the adversary queries the victim model many times to determine the most important words in an input text and to replace these words with their corresponding synonyms. In this work, we propose a lightweight and attack-agnostic defense whose main goal is to perplex the process of generating an adversarial example in these query-based black-box attacks; that is to fool the textual fooler. This defense, named AdvFooler, works by randomizing the latent representation of the input at inference time. Different from existing defenses, AdvFooler does not necessitate additional computational overhead during training nor relies on assumptions about the potential adversarial perturbation set while having a negligible impact on the model's accuracy. Our theoretical and empirical analyses highlight the significance of robustness resulting from confusing the adversary via randomizing the latent space, as well as the impact of randomization on clean accuracy. Finally, we empirically demonstrate near state-of-the-art robustness of AdvFooler against representative adversarial word-level attacks on two benchmark datasets. | 翻訳日:2023-10-04 19:48:33 公開日:2023-10-02 |
# 交通画像分割のための弾性相互作用エネルギー損失 Elastic Interaction Energy Loss for Traffic Image Segmentation ( http://arxiv.org/abs/2310.01449v1 ) ライセンス: Link先を確認 | Yaxin Feng, Yuan Lan, Luchan Zhang and Yang Xiang | (参考訳) セグメンテーションは画像のピクセルレベルの分類である。
画像セグメンテーションの精度と高速推論速度は、自動運転の安全性に不可欠である。
微細で複雑な幾何学的対象は、歩行者、交通標識、車線などの交通シーンにおいて最も難しいが重要な認識対象である。
本稿では,リアルタイム交通シーン理解における多クラスセグメンテーションのための,簡易かつ効率的な幾何感性エネルギーベース損失関数を畳み込みニューラルネットワーク(CNN)に提案する。
具体的に言うと、2つの境界の間の弾性相互作用エネルギー(EIE)は、完全に重なるまで基底真理に向かう予測を導く。
EIE損失関数はCNNに組み込まれ、微細構造セグメンテーションの精度を高める。
特に、小または不規則な形状の物体をより正確に識別することができ、細い物体の連続性の問題を改善することができる。
本手法は,都市シーンのセグメンテーションや車線検出など,セグメンテーションに基づく様々な問題に適用できる。
本手法は都市景観データcityscapes, lane data tusimple, culaneの3つの交通データから定量的に定量的に解析する。
提案手法は,特に自律運転に適したリアルタイム軽量ネットワークをバックボーンとして使用する場合,一貫した性能向上を図っている。 Segmentation is a pixel-level classification of images. The accuracy and fast inference speed of image segmentation are crucial for autonomous driving safety. Fine and complex geometric objects are the most difficult but important recognition targets in traffic scene, such as pedestrians, traffic signs and lanes. In this paper, a simple and efficient geometry-sensitive energy-based loss function is proposed to Convolutional Neural Network (CNN) for multi-class segmentation on real-time traffic scene understanding. To be specific, the elastic interaction energy (EIE) between two boundaries will drive the prediction moving toward the ground truth until completely overlap. The EIE loss function is incorporated into CNN to enhance accuracy on fine-scale structure segmentation. In particular, small or irregularly shaped objects can be identified more accurately, and discontinuity issues on slender objects can be improved. Our approach can be applied to different segmentation-based problems, such as urban scene segmentation and lane detection. We quantitatively and qualitatively analyze our method on three traffic datasets, including urban scene data Cityscapes, lane data TuSimple and CULane. The results show that our approach consistently improves performance, especially when using real-time, lightweight networks as the backbones, which is more suitable for autonomous driving. | 翻訳日:2023-10-04 19:48:08 公開日:2023-10-02 |
# テンソルリング最適化量子強化テンソルニューラルネットワーク Tensor Ring Optimized Quantum-Enhanced Tensor Neural Networks ( http://arxiv.org/abs/2310.01515v1 ) ライセンス: Link先を確認 | Debanjan Konar, Dheeraj Peddireddy, Vaneet Aggarwal and Bijaya K. Panigrahi | (参考訳) 量子機械学習の研究者は、しばしば、Tensor Networks (TN)をDeep Neural Networks (DNN)と変分最適化に組み込むことに頼っている。
しかしながら、各モデル層の収縮訓練可能な重みをトレーニングするために使用される標準最適化技術は、古典的実装におけるモデルパラメータ間の相関と絡み合い構造に苦しむ。
この問題を解決するために、TNの完全連結(高密度)層を置き換えるカスケードエンタングゲートからなるテンソルリング最適化量子学習分類器(Quan-TR)の多層設計を提案し、テンソルリング最適化量子強化テンソルニューラルネットワーク(TR-QNet)と呼ぶ。
TR-QNetパラメータは、量子ビット測定における確率勾配降下アルゴリズムによって最適化される。
提案するtr-qnetは,iris,mnist,cifar-10の3つの異なるデータセットを用いて評価し,バイナリ分類精度の向上を実証した。
量子シミュレーションにおいて、提案されたTR-QNetは、それぞれIris、MNIST、CIFAR-10データセット上で、94.5\%$と86.16\%$と83.54\%の有望な精度を達成する。
TR-QNetの有効性を示すため、TNモデルの最先端量子および古典的な実装に関するベンチマーク研究が行われた。
さらに、TR-QNetのスケーラビリティは、大規模にディープラーニングアプリケーションを示す可能性を強調している。
TR-QNetのPyTorch実装はGithubで公開されている。 Quantum machine learning researchers often rely on incorporating Tensor Networks (TN) into Deep Neural Networks (DNN) and variational optimization. However, the standard optimization techniques used for training the contracted trainable weights of each model layer suffer from the correlations and entanglement structure between the model parameters on classical implementations. To address this issue, a multi-layer design of a Tensor Ring optimized variational Quantum learning classifier (Quan-TR) comprising cascading entangling gates replacing the fully connected (dense) layers of a TN is proposed, and it is referred to as Tensor Ring optimized Quantum-enhanced tensor neural Networks (TR-QNet). TR-QNet parameters are optimized through the stochastic gradient descent algorithm on qubit measurements. The proposed TR-QNet is assessed on three distinct datasets, namely Iris, MNIST, and CIFAR-10, to demonstrate the enhanced precision achieved for binary classification. On quantum simulations, the proposed TR-QNet achieves promising accuracy of $94.5\%$, $86.16\%$, and $83.54\%$ on the Iris, MNIST, and CIFAR-10 datasets, respectively. Benchmark studies have been conducted on state-of-the-art quantum and classical implementations of TN models to show the efficacy of the proposed TR-QNet. Moreover, the scalability of TR-QNet highlights its potential for exhibiting in deep learning applications on a large scale. The PyTorch implementation of TR-QNet is available on Github:https://github.com/konar1987/TR-QNet/ | 翻訳日:2023-10-04 19:38:55 公開日:2023-10-02 |
# 消去量子ビットを用いた量子センシング Quantum Sensing with Erasure Qubits ( http://arxiv.org/abs/2310.01512v1 ) ライセンス: Link先を確認 | Pradeep Niroula, Jack Dolde, Xin Zheng, Jacob Bringewatt, Adam Ehrenberg, Kevin C. Cox, Jeff Thompson, Michael J. Gullans, Shimon Kolkowitz, Alexey V. Gorshkov | (参考訳) 消去量子ビット」における支配的なノイズは消去であり、発生と位置を検出できるエラーの一種である。
erasure qubitsはフォールトトレランスに伴うオーバーヘッドを削減する可能性がある。
これまで、消去量子ビットの研究は主に量子コンピューティングと量子ネットワークアプリケーションに焦点を当ててきた。
本稿では,量子センシングとメトロジーへの消去量子ビットの適用性を検討する。
理論的には、同じレベルのノイズに対して、消去量子ビットは非消去量子ビットよりも正確なセンサやクロックとして機能する。
そこで本研究では,(原子損失の形で)消去誤差を人工的に注入するか,差動光格子クロック比較に誤りを強調することにより,同じ注入誤差率で消去誤差を消去する場合の精度向上を実証する。
センシングに対する消去量子ビットの同様の利点は、ライドバーグ原子や超伝導量子ビットのような他の量子プラットフォームで実現できる。 The dominant noise in an "erasure qubit" is an erasure -- a type of error whose occurrence and location can be detected. Erasure qubits have potential to reduce the overhead associated with fault tolerance. To date, research on erasure qubits has primarily focused on quantum computing and quantum networking applications. Here, we consider the applicability of erasure qubits to quantum sensing and metrology. We show theoretically that, for the same level of noise, an erasure qubit acts as a more precise sensor or clock compared to its non-erasure counterpart. We experimentally demonstrate this by artificially injecting either erasure errors (in the form of atom loss) or dephasing errors into a differential optical lattice clock comparison, and observe enhanced precision in the case of erasure errors for the same injected error rate. Similar benefits of erasure qubits to sensing can be realized in other quantum platforms like Rydberg atoms and superconducting qubits | 翻訳日:2023-10-04 19:38:22 公開日:2023-10-02 |
# CODA:コンセプトドリフトシミュレータによる時間領域一般化 CODA: Temporal Domain Generalization via Concept Drift Simulator ( http://arxiv.org/abs/2310.01508v1 ) ライセンス: Link先を確認 | Chia-Yuan Chang, Yu-Neng Chuang, Zhimeng Jiang, Kwei-Herng Lai, Anxiao Jiang, Na Zou | (参考訳) 現実世界のアプリケーションでは、機械学習モデルは、"概念ドリフト"として知られる現象である時間的潮流の根底から生じる合同分布の変化によって、しばしば時代遅れになる。
既存の研究は、近未来領域における時間的一般化を実現するためのモデル固有の戦略を提案する。
しかし、実際のデータセットの多様な特性は、カスタマイズされた予測モデルアーキテクチャを必要とする。
この目的のために、様々なデータモダリティやアーキテクチャの共通性を維持するモデルに依存しない時間領域の一般化アプローチが緊急に求められている。
本研究では,データとモデル間の相互作用を考慮し,データ中心の観点からのドリフト問題に対処することを目的とする。
このようなフレームワークの開発は、非自明な課題を提示します。
(i)既存の生成モデルは、流通先データの生成に苦慮し、
(II) 時系列領域に沿った関節分布の時間的傾向を正確に把握することは不可能である。
そこで本研究では,モデル学習のための将来のデータをシミュレートするために,予測特徴相関行列を組み込んだコンセプトドリフトシミュレータ(coda)フレームワークを提案する。
特に、CODAは特徴相関を利用して特定の時点のデータ特性を表現し、計算コストを回避している。
実験により,CODA生成データをトレーニング入力として使用することにより,異なるモデルアーキテクチャ間の時間領域の一般化が効果的に達成されることが示された。 In real-world applications, machine learning models often become obsolete due to shifts in the joint distribution arising from underlying temporal trends, a phenomenon known as the "concept drift". Existing works propose model-specific strategies to achieve temporal generalization in the near-future domain. However, the diverse characteristics of real-world datasets necessitate customized prediction model architectures. To this end, there is an urgent demand for a model-agnostic temporal domain generalization approach that maintains generality across diverse data modalities and architectures. In this work, we aim to address the concept drift problem from a data-centric perspective to bypass considering the interaction between data and model. Developing such a framework presents non-trivial challenges: (i) existing generative models struggle to generate out-of-distribution future data, and (ii) precisely capturing the temporal trends of joint distribution along chronological source domains is computationally infeasible. To tackle the challenges, we propose the COncept Drift simulAtor (CODA) framework incorporating a predicted feature correlation matrix to simulate future data for model training. Specifically, CODA leverages feature correlations to represent data characteristics at specific time points, thereby circumventing the daunting computational costs. Experimental results demonstrate that using CODA-generated data as training input effectively achieves temporal domain generalization across different model architectures. | 翻訳日:2023-10-04 19:38:10 公開日:2023-10-02 |
# direct inversion: 3行のコードで拡散ベースの編集を促進する Direct Inversion: Boosting Diffusion-based Editing with 3 Lines of Code ( http://arxiv.org/abs/2310.01506v1 ) ライセンス: Link先を確認 | Xuan Ju, Ailing Zeng, Yuxuan Bian, Shaoteng Liu, Qiang Xu | (参考訳) テキスト誘導拡散モデルは画像生成と編集に革命をもたらし、例外的なリアリズムと多様性を提供している。
具体的には、ターゲットプロンプトに応じてソース画像が編集される拡散ベース編集の文脈において、拡散モデルを介してソース画像に対応するノイズの潜在ベクトルを取得して処理を開始する。
このベクトルはその後、編集のために別々のソースとターゲット拡散ブランチに供給される。
この反転過程の精度は、最終的な編集結果に大きく影響し、ソース画像の必須コンテンツ保存と、ターゲットプロンプトに応じた編集忠実度の両方に影響を与える。
先行反転技術は、ソースとターゲットの拡散ブランチの両方で統一解を見つけることを目的としている。
しかし,本研究の理論的・実証的分析により,本質的コンテンツの保存と編集の忠実性を確保するための責任が分担されることが判明した。
この知見に基づいて、3行のコードで両方のブランチの最適なパフォーマンスを実現する新技術であるDirect Inversionを紹介する。
画像編集性能を評価するために,多様なシーンと編集タイプを示す700画像の編集ベンチマークpie-benchと,多彩なアノテーションと総合的な評価指標を提案する。
最先端の最適化に基づく逆変換技術と比較して、我々のソリューションは8つの編集方法にまたがる優れた性能を得るだけでなく、ほぼ1桁のスピードアップも達成する。 Text-guided diffusion models have revolutionized image generation and editing, offering exceptional realism and diversity. Specifically, in the context of diffusion-based editing, where a source image is edited according to a target prompt, the process commences by acquiring a noisy latent vector corresponding to the source image via the diffusion model. This vector is subsequently fed into separate source and target diffusion branches for editing. The accuracy of this inversion process significantly impacts the final editing outcome, influencing both essential content preservation of the source image and edit fidelity according to the target prompt. Prior inversion techniques aimed at finding a unified solution in both the source and target diffusion branches. However, our theoretical and empirical analyses reveal that disentangling these branches leads to a distinct separation of responsibilities for preserving essential content and ensuring edit fidelity. Building on this insight, we introduce "Direct Inversion," a novel technique achieving optimal performance of both branches with just three lines of code. To assess image editing performance, we present PIE-Bench, an editing benchmark with 700 images showcasing diverse scenes and editing types, accompanied by versatile annotations and comprehensive evaluation metrics. Compared to state-of-the-art optimization-based inversion techniques, our solution not only yields superior performance across 8 editing methods but also achieves nearly an order of speed-up. | 翻訳日:2023-10-04 19:37:50 公開日:2023-10-02 |
# factorioブループリントの自動設計に向けて Towards Automatic Design of Factorio Blueprints ( http://arxiv.org/abs/2310.01505v1 ) ライセンス: Link先を確認 | Sean Patterson and Joan Espasa and Mun See Chang and Ruth Hoffmann | (参考訳) factorioは、複雑さを増すアイテムを生産するために自動化された工場を構築することに関する2d構築と管理のシミュレーションゲームである。
ゲームの中核となる特徴は青写真システムであり、プレイヤーは簡単にデザインの一部を保存し複製することができる。
ブループリントはゲーム内の任意のオブジェクトのレイアウトを再現できるが、通常、非基本オブジェクトの生成のような複雑な振る舞いをカプセル化するために使用される。
一度作成されると、これらの青写真は基本的なビルディングブロックとして使用され、プレイヤーは抽象レイヤを作成できる。
青写真の使用により、工場の拡張が容易になるだけでなく、ゲームコミュニティとのデザインの共有も容易になる。
ブループリントのレイアウトは、使用するトータルスペースや最終的な生産スループットなど、さまざまな基準を使って最適化することができる。
最適青写真の設計は難しい組合せ問題であり、ビンパッキング、ルーティング、ネットワーク設計といった多くのよく研究された問題の要素をインターリーブする。
本研究は,新たな課題を提起し,ファクターの青写真化,正確性,最適性,性能のバランスを最適化する制約モデルの実現可能性を検討する。 Factorio is a 2D construction and management simulation video game about building automated factories to produce items of increasing complexity. A core feature of the game is its blueprint system, which allows players to easily save and replicate parts of their designs. Blueprints can reproduce any layout of objects in the game, but are typically used to encapsulate a complex behaviour, such as the production of a non-basic object. Once created, these blueprints are then used as basic building blocks, allowing the player to create a layer of abstraction. The usage of blueprints not only eases the expansion of the factory but also allows the sharing of designs with the game's community. The layout in a blueprint can be optimised using various criteria, such as the total space used or the final production throughput. The design of an optimal blueprint is a hard combinatorial problem, interleaving elements of many well-studied problems such as bin-packing, routing or network design. This work presents a new challenging problem and explores the feasibility of a constraint model to optimise Factorio blueprints, balancing correctness, optimality, and performance. | 翻訳日:2023-10-04 19:37:27 公開日:2023-10-02 |
# パズルのモデルに向けて Towards a Model of Puzznic ( http://arxiv.org/abs/2310.01503v1 ) ライセンス: Link先を確認 | Joan Espasa and Ian P. Gent and Ian Miguel and Peter Nightingale and Andr\'as Z. Salamon and Mateu Villaret | (参考訳) ブロックの整合によってグリッドをクリアする動きのシーケンスをプレイヤーが計画する必要があるビデオゲームであるPuzznicのモデル化と解決の進歩について報告する。
ここで動くブロックのないレベルにフォーカスします。
ベンチマークインスタンスの小さなセットで,計画手法と3つの制約プログラミング手法を比較した。
現在,計画手法は制約プログラミング手法よりも優れているが,制約モデルを改善するための提案を概説する。 We report on progress in modelling and solving Puzznic, a video game requiring the player to plan sequences of moves to clear a grid by matching blocks. We focus here on levels with no moving blocks. We compare a planning approach and three constraint programming approaches on a small set of benchmark instances. The planning approach is at present superior to the constraint programming approaches, but we outline proposals for improving the constraint models. | 翻訳日:2023-10-04 19:37:07 公開日:2023-10-02 |
# エンタングルメントエントロピー計算のための再仮定に基づく量子モンテカルロ Resummation-based Quantum Monte Carlo for Entanglement Entropy Computation ( http://arxiv.org/abs/2310.01490v1 ) ライセンス: Link先を確認 | Menghan Song Ting-Tung Wang, Zi Yang Meng | (参考訳) 最近開発されたSU($N$)スピンとループガスモデルに対する量子モンテカルロ法に基づいて, エンタングルメントエントロピー(EE)を計算し, 効率を大幅に向上させるアルゴリズムResumEEを開発した。
我々のResumEEは、$\langle e^{-S^{(2)}}\rangle$, where $S^{(2)}$は2次 R\'enyi EE の指数的に小さい値の評価を、一般的な 2D 量子 SU($N$) スピンモデルに対する$S^{(2)}$ のような多項式精度を持つ重要なサンプリングプロセスに変換する。
提案したS^{(2)}$ 1Dおよび2D SU($2$)ハイゼンベルクスピンシステムの推定器を用いてアルゴリズムをベンチマークし、その優れた性能を明らかにするとともに、2D SU($N$)ハイゼンベルクモデル上でのN'eel-to-VBS遷移のエンタングルメントスケーリングデータを検出する。
我々のResumEEアルゴリズムは、多体系の量子エンタングルメントを正確に評価する重要な問題を解き、高いエンタングルド量子物質に対する共形場理論データへの信頼性の高いアクセスに重要な影響を与える。 Based on the recently developed resummation-based quantum Monte Carlo method for the SU($N$) spin and loop-gas models, we develop a new algorithm, dubbed ResumEE, to compute the entanglement entropy (EE) with greatly enhanced efficiency. Our ResumEE converts the evaluation of the exponentially small value of the $\langle e^{-S^{(2)}}\rangle$, where $S^{(2)}$ is the 2nd order R\'enyi EE, to an important sampling process with polynomial accuracy such that the $S^{(2)}$ for a generic 2D quantum SU($N$) spin models can be readily computed without facing the exponential explosion of its variance. We benchmark our algorithm with the previously proposed estimators of $S^{(2)}$ on 1D and 2D SU($2$) Heisenberg spin systems to reveal its superior performance and then use it to detect the entanglement scaling data of the N\'eel-to-VBS transition on 2D SU($N$) Heisenberg model with continuously varying $N$. Our ResumEE algorithm solves the critical problem of precisely evaluating the quantum entanglement in many-body systems and will have a significant impact on reliable access to the conformal field theory data for the highly entangled quantum matter. | 翻訳日:2023-10-04 19:37:00 公開日:2023-10-02 |
# タマ量子論における複雑性 Complexity in Tame Quantum Theories ( http://arxiv.org/abs/2310.01484v1 ) ライセンス: Link先を確認 | Thomas W. Grimm, Lorenz Schlechter, Mick van Vliet | (参考訳) 物理系は有限量の情報や複雑性しか持たないという概念に着想を得て,関数や集合を指定するのに必要な論理情報の量を定量化する枠組みを導入する。
次に, この手法を様々な物理系に適用し, パラメータ依存物理観測器の複雑性と, 効果的なラグランジアンに現れる結合関数を導出する。
これらの概念を実装するためには、o-最小構造で定義できる物理理論を考えることが不可欠である。
数学的論理学の概念である O-minimality は、テイムネスの原理をカプセル化している。
この性質は、多くの既知の量子場理論に固有のものであり、理論のUV完備化と関連していると最近議論された。
これらの理論における各ステートメントに複雑性を割り当てるためには、許容される最小構造をさらに制約する必要がある。
これを実証するために、多くの物理系が、よく確立された複雑性の概念を持つ Pfaffian o-minimal 構造を用いて定式化可能であることを示す。
より一般的に、Binyamini と Novikov が最近導入した急激な O-minimal 構造を、量子論における複雑性を測定するための包括的なフレームワークとして採用することを提案する。 Inspired by the notion that physical systems can contain only a finite amount of information or complexity, we introduce a framework that allows for quantifying the amount of logical information needed to specify a function or set. We then apply this methodology to a variety of physical systems and derive the complexity of parameter-dependent physical observables and coupling functions appearing in effective Lagrangians. In order to implement these ideas, it is essential to consider physical theories that can be defined in an o-minimal structure. O-minimality, a concept from mathematical logic, encapsulates a tameness principle. It was recently argued that this property is inherent to many known quantum field theories and is linked to the UV completion of the theory. To assign a complexity to each statement in these theories one has to further constrain the allowed o-minimal structures. To exemplify this, we show that many physical systems can be formulated using Pfaffian o-minimal structures, which have a well-established notion of complexity. More generally, we propose adopting sharply o-minimal structures, recently introduced by Binyamini and Novikov, as an overarching framework to measure complexity in quantum theories. | 翻訳日:2023-10-04 19:36:30 公開日:2023-10-02 |
# 粒子崩壊における3体絡み合い Three-body Entanglement in Particle Decays ( http://arxiv.org/abs/2310.01477v1 ) ライセンス: Link先を確認 | Kazuki Sakurai and Michael Spannowsky | (参考訳) 量子の絡み合いは、量子力学を理解する上で基礎的な柱となり、主に2粒子系に焦点が当てられている。
我々は絡み合いの研究を3体崩壊の領域に拡張し、量子相関のより複雑な理解を提供する。
本稿では, 絡み合うモノトーン共起の原理と単元性を利用して, 3粒子系に対する新しいアプローチを提案する。
本研究は,標準モデルからの偏差の研究の可能性を強調し,粒子現象学におけるその意義を強調した。
この研究は、特に重いフェルミオンやハドロンの崩壊において、多粒子量子絡み合いによる粒子物理学の新しい洞察の道を開く。 Quantum entanglement has long served as a foundational pillar in understanding quantum mechanics, with a predominant focus on two-particle systems. We extend the study of entanglement into the realm of three-body decays, offering a more intricate understanding of quantum correlations. We introduce a novel approach for three-particle systems by utilising the principles of entanglement monotone concurrence and the monogamy property. Our findings highlight the potential of studying deviations from the Standard Model and emphasise its significance in particle phenomenology. This work paves the way for new insights into particle physics through multi-particle quantum entanglement, particularly in decays of heavy fermions and hadrons. | 翻訳日:2023-10-04 19:36:09 公開日:2023-10-02 |
# 良い雪だるまは計画が難しい A Good Snowman is Hard to Plan ( http://arxiv.org/abs/2310.01471v1 ) ライセンス: Link先を確認 | Miquel Bofill, Cristina Borralleras, Joan Espasa, Gerard Mart\'in, Gustavo Patow, Mateu Villaret | (参考訳) この作品では、難易度の高いパズルビデオゲームに直面します。
ゲームの目的は、雪玉を離散グリッド上に移動して積み重ねることで雪だるまを作ることである。
プレイヤーがゲームに参加するためには、デザイナーが期待していたよりもずっと簡単な解決策を見出すのを避けることが興味深い。
したがって、ソリューションの最適性を証明できるツールを持つことが不可欠である。
ゲームは計画問題として記述でき、PDDLで自然にモデル化できるが、SATへの直接翻訳は、既成の最先端プランナーよりも明らかに優れていることを示す。
これは主として、到達可能性特性がsatで簡単にモデル化でき、より短い計画が可能であり、pddlで到達可能性の導出述語を表現する公理を用いることは、考慮された計画者による解決時間の大幅な削減にはなりません。
私たちは、オリジナルとクラフトの両方で51のレベルに対応し、43の問題を解決し、8の挑戦的なインスタンスはまだ解決されていない。 In this work we face a challenging puzzle video game: A Good Snowman is Hard to Build. The objective of the game is to build snowmen by moving and stacking snowballs on a discrete grid. For the sake of player engagement with the game, it is interesting to avoid that a player finds a much easier solution than the one the designer expected. Therefore, having tools that are able to certify the optimality of solutions is crucial. Although the game can be stated as a planning problem and can be naturally modelled in PDDL, we show that a direct translation to SAT clearly outperforms off-the-shelf state-of-the-art planners. As we show, this is mainly due to the fact that reachability properties can be easily modelled in SAT, allowing for shorter plans, whereas using axioms to express a reachability derived predicate in PDDL does not result in any significant reduction of solving time with the considered planners. We deal with a set of 51 levels, both original and crafted, solving 43 and with 8 challenging instances still remaining to be solved. | 翻訳日:2023-10-04 19:35:56 公開日:2023-10-02 |
# 補足的専門知識を持つ住宅モデル Fusing Models with Complementary Expertise ( http://arxiv.org/abs/2310.01542v1 ) ライセンス: Link先を確認 | Hongyi Wang, Felipe Maia Polo, Yuekai Sun, Souvik Kundu, Eric Xing, Mikhail Yurochkin | (参考訳) タスクやドメインをまたいで一般化するAIモデルを訓練することは、AI研究を推進しているオープンな問題のひとつだ。
Foundation Modelsの出現により、与えられたタスクのエキスパートモデルを簡単に取得できるようになったが、テスト時に遭遇する可能性のあるデータの異質性は、単一の専門家が不十分であることを意味することが多い。
我々は,データ分布に関する補完的知識と専門家モデルの出力を融合し,教師付き学習の例として定式化する,専門家問題(foe)を考える。
本手法は識別的タスクと生成的タスクの両方に適用可能であり,画像とテキストの分類,テキスト要約,複数選択QA,生成テキストの自動評価において,大幅な性能向上をもたらす。
また、テスト時のエキスパートモデル評価の回数を減らすことを望む「フルーガル」設定にもメソッドを拡張します。 Training AI models that generalize across tasks and domains has long been among the open problems driving AI research. The emergence of Foundation Models made it easier to obtain expert models for a given task, but the heterogeneity of data that may be encountered at test time often means that any single expert is insufficient. We consider the Fusion of Experts (FoE) problem of fusing outputs of expert models with complementary knowledge of the data distribution and formulate it as an instance of supervised learning. Our method is applicable to both discriminative and generative tasks and leads to significant performance improvements in image and text classification, text summarization, multiple-choice QA, and automatic evaluation of generated text. We also extend our method to the "frugal" setting where it is desired to reduce the number of expert model evaluations at test time. | 翻訳日:2023-10-04 19:30:35 公開日:2023-10-02 |
# 幾何学的局所古典および量子回路のパワーについて On the power of geometrically-local classical and quantum circuits ( http://arxiv.org/abs/2310.01540v1 ) ライセンス: Link先を確認 | Kishor Bharti and Rahul Jain | (参考訳) マジックスクエアゲームの並列反復に基づいて、確率を指数関数的に1$(Worst-case input)、深さ1D$(uniform)、深さ2$、幾何学的局所、ノイズ(しきい値以下)、ファンインの4$、量子回路で解決できる関係を示す。
ファンイン2ドルのNANDゲートからなる古典回路の幾何学的局所的(一様でない)サブ線形深度で1D$(一様ではない)の指数的に少ない成功確率で、同じ関係を解くことはできないことを示す。
量子回路と古典回路は、それぞれ絡み合いとランダム性を持つ入力非依存(幾何学的に非局所的な)リソース状態を使用することができる。
我々の知る限り、量子回路と古典回路のタスクに対する以前の最良の(アナログ的な)深さ分離は、一般的な(幾何学的に非局所的な)回路では、定数 v/s 準対数的であった。
我々の古典回路の硬度結果は、ジャイナとクンドゥの古典的通信プロトコルに関する直積定理 [JK22] に基づいている。
応用として、NISQ時代に検証可能な量子優位性を実証できるプロトコルを提案する。
また、より高次元の回路とより広い種類のベルゲームに対する結果の一般化も提供する。 We show a relation, based on parallel repetition of the Magic Square game, that can be solved, with probability exponentially close to $1$ (worst-case input), by $1D$ (uniform) depth $2$, geometrically-local, noisy (noise below a threshold), fan-in $4$, quantum circuits. We show that the same relation cannot be solved, with an exponentially small success probability (averaged over inputs drawn uniformly), by $1D$ (non-uniform) geometrically-local, sub-linear depth, classical circuits consisting of fan-in $2$ NAND gates. Quantum and classical circuits are allowed to use input-independent (geometrically-non-local) resource states, that is entanglement and randomness respectively. To the best of our knowledge, previous best (analogous) depth separation for a task between quantum and classical circuits was constant v/s sub-logarithmic, although for general (geometrically non-local) circuits. Our hardness result for classical circuits is based on a direct product theorem about classical communication protocols from Jain and Kundu [JK22]. As an application, we propose a protocol that can potentially demonstrate verifiable quantum advantage in the NISQ era. We also provide generalizations of our result for higher dimensional circuits as well as a wider class of Bell games. | 翻訳日:2023-10-04 19:30:20 公開日:2023-10-02 |
# フェデレーション物のインターネットにおける非パラメトリック部分空間モニタリングによるクライアント検出 Adversarial Client Detection via Non-parametric Subspace Monitoring in the Internet of Federated Things ( http://arxiv.org/abs/2310.01537v1 ) ライセンス: Link先を確認 | Xianjian Xie, Xiaochen Xian, Dan Li, Andi Wang | (参考訳) Internet of Federated Things (IoFT)は、相互接続されたシステムのネットワークであり、フェデレートされた学習をバックボーンとして、個々のシステムのデータプライバシを確保しながら、協調的な知識獲得を促進する。
しかし、IoFTの普及はセキュリティ上の懸念、特に敵の攻撃に対するフェデレートされた学習ネットワークの感受性によって妨げられている。
本稿では,フェデレーション学習によって生成された送信パラメータ更新の低ランク特徴を活用し,逆攻撃問題に対処する効果的な非パラメトリック手法を提案する。
また,提案手法は,攻撃を起こさずに,敵のクライアントを正確に検出し,誤報率を制御することができる。
MNISTデータセットを用いた数値認識実験により,本手法の利点が検証された。 The Internet of Federated Things (IoFT) represents a network of interconnected systems with federated learning as the backbone, facilitating collaborative knowledge acquisition while ensuring data privacy for individual systems. The wide adoption of IoFT, however, is hindered by security concerns, particularly the susceptibility of federated learning networks to adversarial attacks. In this paper, we propose an effective non-parametric approach FedRR, which leverages the low-rank features of the transmitted parameter updates generated by federated learning to address the adversarial attack problem. Besides, our proposed method is capable of accurately detecting adversarial clients and controlling the false alarm rate under the scenario with no attack occurring. Experiments based on digit recognition using the MNIST datasets validated the advantages of our approach. | 翻訳日:2023-10-04 19:29:52 公開日:2023-10-02 |
# エージェントの世界の表現における行動の代数 Algebras of actions in an agent's representations of the world ( http://arxiv.org/abs/2310.01536v1 ) ライセンス: Link先を確認 | Alexander Dean, Eduardo Alonso and Esther Mondragon | (参考訳) 本稿では,世界の変換の代数をエージェントの観点から抽出する枠組みを提案する。
出発点として、我々は [1] によって提唱された対称性に基づく非交叉表現学習(SBDRL)形式主義から対称性に基づく表現を再現するために、我々のフレームワークを使用します。
次に、簡単な強化学習シナリオで生じる特徴を持つ世界の変換の代数について研究する。
そこで,我々が開発した計算手法を用いて,これらの世界の変換の代数を抽出し,それらの性質に応じて分類する。
最後に、SBDRLの2つの重要な結果(同値条件と非有界定義)を、対称性に基づく表現のみを扱うから、任意の代数に対する変換を伴う世界の変換特性を捉える表現を扱うまで一般化する。
最後に、一般化された等方性条件と一般化された等方性定義を組み合わせることで、不整合部分代数がそれぞれ独立に扱われる独自の等方性条件を持つことができることを示す。 In this paper, we propose a framework to extract the algebra of the transformations of worlds from the perspective of an agent. As a starting point, we use our framework to reproduce the symmetry-based representations from the symmetry-based disentangled representation learning (SBDRL) formalism proposed by [1]; only the algebra of transformations of worlds that form groups can be described using symmetry-based representations. We then study the algebras of the transformations of worlds with features that occur in simple reinforcement learning scenarios. Using computational methods, that we developed, we extract the algebras of the transformations of these worlds and classify them according to their properties. Finally, we generalise two important results of SBDRL - the equivariance condition and the disentangling definition - from only working with symmetry-based representations to working with representations capturing the transformation properties of worlds with transformations for any algebra. Finally, we combine our generalised equivariance condition and our generalised disentangling definition to show that disentangled sub-algebras can each have their own individual equivariance conditions, which can be treated independently. | 翻訳日:2023-10-04 19:29:27 公開日:2023-10-02 |
# 核動力学を介する電子超放射能 Electronic superradiance mediated by nuclear dynamics ( http://arxiv.org/abs/2310.01535v1 ) ライセンス: Link先を確認 | Xuecheng Tao, John P. Philbin, Prineha Narang | (参考訳) エミッタの集団的挙動が強化された放射崩壊を発生できる超放射は、ディッケモデルとして知られるモデルによって最初に予測され、これらには2段階のシステム(エミッタ)がすべて同じフォトニックモードと相互作用する。
本稿では,核運動が超放射能放射に与える影響を明らかにするため,オリジナルのディックモデルを拡張した。
我々の電子系、核系、フォトニック系の力学シミュレーションは、暗黒のサブラジアント状態の集団リークに起因する新しい時間スケールを明らかにしている。
さらに、この暗黒状態放出経路は、核ポテンシャルエネルギーの景観を調整することによって制御できる。
これらの発見は、超ラジアント状態と分子自由度を量子光学系でどのように活用し利用できるかに影響を及ぼす。 Superradiance, in which the collective behavior of emitters can generate enhanced radiative decay, was first predicted by a model, now known as the Dicke model, that contains a collection of two-level systems (the emitters) all interacting with the same photonic mode. In this article, we extend the original Dicke model to elucidate the influence of nuclear motion on superradiant emission. Our dynamical simulations of the combined electronic, nuclear, and photonic system reveal a new time scale attributed to the population leakage of the dark, subradiant states. Furthermore, this dark state emission pathway can be controlled by tuning the nuclear potential energy landscape. These findings impact how superradiant states and molecular degrees of freedom can be leveraged and utilized in quantum optical systems. | 翻訳日:2023-10-04 19:28:54 公開日:2023-10-02 |
# プログレッシブディープSSM:画像と形状の深部モデルの訓練手法 Progressive DeepSSM: Training Methodology for Image-To-Shape Deep Models ( http://arxiv.org/abs/2310.01529v1 ) ライセンス: Link先を確認 | Abu Zahid Bin Aziz, Jadie Adams, Shireen Elhabian | (参考訳) 統計形状モデリング(SSM)は、様々な医学応用において解剖学的形状を研究するための定量的ツールである。
しかし、これらのアプリケーションで3dイメージを直接使うことは、まだまだ道のりは長い。
近年の深層学習手法は、未分割画像から直接SSMを構築するための実質的な前処理ステップを減らすための道を開いた。
しかし、これらのモデルの性能は目印には達していない。
マルチスケール・マルチレゾリューション学習に着想を得て,画像から形状へのディープラーニングモデルを学習するための新しいトレーニング戦略であるprogressive deepssmを提案する。
トレーニングは複数のスケールで行われ、各スケールは前のスケールからの出力を利用する。
この戦略により、モデルは最初のスケールで粗い形状の特徴を学習し、後のスケールで詳細な形状特徴を徐々に学習することができる。
セグメンテーション誘導型マルチタスク学習による形状事前の活用と,各スケールでの学習を確保するために,深い監視損失を用いる。
実験は、定量的および質的な観点から提案された戦略によって訓練されたモデルの優越性を示す。
医用画像から解剖学の統計的表現を推測する深層学習法の安定性と精度を向上させるため、既存の深層学習法を用いてモデルの精度とトレーニング安定性を向上させることができる。 Statistical shape modeling (SSM) is an enabling quantitative tool to study anatomical shapes in various medical applications. However, directly using 3D images in these applications still has a long way to go. Recent deep learning methods have paved the way for reducing the substantial preprocessing steps to construct SSMs directly from unsegmented images. Nevertheless, the performance of these models is not up to the mark. Inspired by multiscale/multiresolution learning, we propose a new training strategy, progressive DeepSSM, to train image-to-shape deep learning models. The training is performed in multiple scales, and each scale utilizes the output from the previous scale. This strategy enables the model to learn coarse shape features in the first scales and gradually learn detailed fine shape features in the later scales. We leverage shape priors via segmentation-guided multi-task learning and employ deep supervision loss to ensure learning at each scale. Experiments show the superiority of models trained by the proposed strategy from both quantitative and qualitative perspectives. This training methodology can be employed to improve the stability and accuracy of any deep learning method for inferring statistical representations of anatomies from medical images and can be adopted by existing deep learning methods to improve model accuracy and training stability. | 翻訳日:2023-10-04 19:28:23 公開日:2023-10-02 |
# マルチヘッドcnnとディープジェネレーティブモデルを用いた日頭限界放射の現在キャスティング Nowcasting day-ahead marginal emissions using multi-headed CNNs and deep generative models ( http://arxiv.org/abs/2310.01524v1 ) ライセンス: Link先を確認 | Dhruv Suri, Anela Arifi, Ines Azevedo | (参考訳) 分散エネルギー資源の柔軟性と浸透性が高い電力システムにとって、日々の限界排出要因がますます重要になっている。
天然ガスや石炭発電所からのファームジェネレーションのかなりの割合で、現在のエネルギーシステムにおける日頭排出量の予測が広く研究されている。
対照的に、柔軟な電力市場、ディスパッチ可能な電源、大規模バッテリーや水素貯蔵などの低コストな発電を特徴とするエネルギーシステムに移行するにつれて、システムオペレーターは、異なる世代と排出経路の混合から選択することができる。
与えられたディスパッチスケジュールの排出影響を完全に発展させるためには、2つのレイヤを持つほぼリアルタイムのワークフローが必要です。
第1層は、セキュリティに制約のある経済ディスパッチモデルを継続的に解決する市場モデルである。
第2の層は、この論文の主題である市場モデルの出力に基づいて、限界排出を決定する。
本稿では,複数の頭を持つ畳み込みニューラルネットワークを用いて,ある独立系演算子の日平均放射の日平均予測を生成することを提案する。 Nowcasting day-ahead marginal emissions factors is increasingly important for power systems with high flexibility and penetration of distributed energy resources. With a significant share of firm generation from natural gas and coal power plants, forecasting day-ahead emissions in the current energy system has been widely studied. In contrast, as we shift to an energy system characterized by flexible power markets, dispatchable sources, and competing low-cost generation such as large-scale battery or hydrogen storage, system operators will be able to choose from a mix of different generation as well as emission pathways. To fully develop the emissions implications of a given dispatch schedule, we need a near real-time workflow with two layers. The first layer is a market model that continuously solves a security-constrained economic dispatch model. The second layer determines the marginal emissions based on the output of the market model, which is the subject of this paper. We propose using multi-headed convolutional neural networks to generate day-ahead forecasts of marginal and average emissions for a given independent system operator. | 翻訳日:2023-10-04 19:27:56 公開日:2023-10-02 |
# Fetal-BET:胎児MRIのための脳抽出ツール Fetal-BET: Brain Extraction Tool for Fetal MRI ( http://arxiv.org/abs/2310.01523v1 ) ライセンス: Link先を確認 | Razieh Faghihpirayesh, Davood Karimi, Deniz Erdo\u{g}mu\c{s}, Ali Gholipour | (参考訳) 胎児脳抽出は、ほとんどの計算胎児脳MRIパイプラインにおいて必要な第一歩である。
しかし、標準的な胎児の頭部ポーズ、検査中の胎児の動き、発達する胎児の脳と近隣の胎児および母体解剖の様々な配列とスキャン条件の異種な出現など、非常に困難な課題であった。
このタスクに効果的に対処する機械学習手法の開発には、これまで利用できなかった大規模で豊富なラベル付きデータセットが必要である。
結果として、様々な胎児MRIで正確な胎児脳の抽出方法が現在存在しない。
本研究ではまず,約72,000個の胎児脳MRI画像の注釈付きデータセットを構築した。
本データセットでは,T2強調,拡散強調,機能MRIの3つのMRIシーケンスを異なるスキャナーで取得した。
また、正常脳と病理脳も含む。
このデータセットを用いて,U-Netスタイルアーキテクチャ,アテンション機構,マルチコントラスト特徴学習,高速で正確で一般化可能な自動胎児脳抽出のためのデータ拡張などを活用した深層学習手法の開発と検証を行った。
本手法では,マルチコントラスト(マルチシーケンス)胎児MRIデータからの豊富な情報を活用し,胎児の脳構造を正確に把握する。
独立試験データを用いた評価では, 異なるスキャナー, 病的脳, および様々な妊娠段階において, 異種検査データから正確な脳抽出が達成されている。
この堅牢性は、胎児脳のイメージングと画像解析におけるディープラーニングモデルの有用性を裏付けるものです。 Fetal brain extraction is a necessary first step in most computational fetal brain MRI pipelines. However, it has been a very challenging task due to non-standard fetal head pose, fetal movements during examination, and vastly heterogeneous appearance of the developing fetal brain and the neighboring fetal and maternal anatomy across various sequences and scanning conditions. Development of a machine learning method to effectively address this task requires a large and rich labeled dataset that has not been previously available. As a result, there is currently no method for accurate fetal brain extraction on various fetal MRI sequences. In this work, we first built a large annotated dataset of approximately 72,000 2D fetal brain MRI images. Our dataset covers the three common MRI sequences including T2-weighted, diffusion-weighted, and functional MRI acquired with different scanners. Moreover, it includes normal and pathological brains. Using this dataset, we developed and validated deep learning methods, by exploiting the power of the U-Net style architectures, the attention mechanism, multi-contrast feature learning, and data augmentation for fast, accurate, and generalizable automatic fetal brain extraction. Our approach leverages the rich information from multi-contrast (multi-sequence) fetal MRI data, enabling precise delineation of the fetal brain structures. Evaluations on independent test data show that our method achieves accurate brain extraction on heterogeneous test data acquired with different scanners, on pathological brains, and at various gestational stages. This robustness underscores the potential utility of our deep learning model for fetal brain imaging and image analysis. | 翻訳日:2023-10-04 19:27:29 公開日:2023-10-02 |
# 多様な計画における構造的類似性と意味的類似性の橋渡し Bridging the Gap between Structural and Semantic Similarity in Diverse Planning ( http://arxiv.org/abs/2310.01520v1 ) ライセンス: Link先を確認 | Mustafa F. Abdelwahed, Joan Espasa, Alice Toniolo, Ian P. Gent | (参考訳) 分散計画は、与えられた問題仕様の複数の計画を見つける問題であり、これは多くの現実世界のアプリケーションの中核にある。
例えば、多様計画は、ノイズや不足した観測を扱う場合の計画認識システムの効率にとって重要な要素である。
多様なソリューションを提供することは、制約が高価すぎる、あるいはモデル化が不可能な状況にも役立ちます。
現在の多種多様なプランナーは、複数のプランを生成して、選択手順を適用して、類似度メトリックを使用して多様なソリューションを抽出する。
一般に、現在の類似度指標は与えられた計画の構造的特性のみを考慮する。
このアプローチは、そのようなメトリクスが2つの計画が異なる理由を把握できないような制限である、と私たちは主張する。
本研究では,与えられた2つの計画間の差異に関する情報をドメインに依存しない視点で捉えることができる,2つの新しいドメイン独立メトリクスを提案する。
現在使用されているメトリクスが計画間の類似性を捉えることができず、いくつかの構造的対称性を捉えることができない状況において、これらのユーティリティを実証する。 Diverse planning is the problem of finding multiple plans for a given problem specification, which is at the core of many real-world applications. For example, diverse planning is a critical piece for the efficiency of plan recognition systems when dealing with noisy and missing observations. Providing diverse solutions can also benefit situations where constraints are too expensive or impossible to model. Current diverse planners operate by generating multiple plans and then applying a selection procedure to extract diverse solutions using a similarity metric. Generally, current similarity metrics only consider the structural properties of the given plans. We argue that this approach is a limitation that sometimes prevents such metrics from capturing why two plans differ. In this work, we propose two new domain-independent metrics which are able to capture relevant information on the difference between two given plans from a domain-dependent viewpoint. We showcase their utility in various situations where the currently used metrics fail to capture the similarity between plans, failing to capture some structural symmetries. | 翻訳日:2023-10-04 19:27:04 公開日:2023-10-02 |
# 動的グレーボックスモデル作成におけるノイズ注入の利点 The Benefit of Noise-Injection for Dynamic Gray-Box Model Creation ( http://arxiv.org/abs/2310.01517v1 ) ライセンス: Link先を確認 | Mohamed Kandil, J.J. McArthur | (参考訳) グレーボックスモデルは、トレーニング領域外のモデルに対する信頼性を高めるため、機器のための機器エミュレータ開発のためのブラックボックスアプローチよりも大きな利益をもたらす。
しかし、モデル非線形性、非モデルダイナミクス、局所ミニマといった課題は、現代のアプローチが克服できなかったグレイボックスの生成に不確実性をもたらし、ブラックボックスモデルに比べて性能が低くなる。
本稿では,トレーニングデータセットにノイズを注入することで,これらの不確実性に対処する。
このノイズ注入はデータセットを豊かにし、そのような不確実性に対する堅牢性の尺度を提供する。
水対水熱交換器の動的モデルがこのアプローチの実証ケースとして使われ、実データストリーミングを備えた2つの実デバイスを用いてテストされている。
非処理信号データと比較すると、ノイズインジェクションの適用によりモデリングエラー(根平均二乗誤差)が大幅に減少し、0.68から0.27{\deg}cに減少した。
この改善は、トレーニングセットで評価すると60%向上し、テストセットと検証セットに対して検証した場合、それぞれ50%と45%の改善となる。 Gray-box models offer significant benefit over black-box approaches for equipment emulator development for equipment since their integration of physics provides more confidence in the model outside of the training domain. However, challenges such as model nonlinearity, unmodeled dynamics, and local minima introduce uncertainties into grey-box creation that contemporary approaches have failed to overcome, leading to their under-performance compared with black-box models. This paper seeks to address these uncertainties by injecting noise into the training dataset. This noise injection enriches the dataset and provides a measure of robustness against such uncertainties. A dynamic model for a water-to-water heat exchanger has been used as a demonstration case for this approach and tested using a pair of real devices with live data streaming. Compared to the unprocessed signal data, the application of noise injection resulted in a significant reduction in modeling error (root mean square error), decreasing from 0.68 to 0.27{\deg}C. This improvement amounts to a 60% enhancement when assessed on the training set, and improvements of 50% and 45% when validated against the test and validation sets, respectively. | 翻訳日:2023-10-04 19:26:49 公開日:2023-10-02 |
# 計画による計画のための反復的オプション発見 Iterative Option Discovery for Planning, by Planning ( http://arxiv.org/abs/2310.01569v1 ) ライセンス: Link先を確認 | Kenny Young, Richard S. Sutton | (参考訳) オプションという形で有用な時間的抽象化を見つけることは、ますます複雑なドメインに強化学習と計画を適用する上で鍵となると広く考えられている。
alphazeroで使用されるポリシ学習に対するエキスパートイテレーションアプローチの実証的成功に基づいて,オプション発見の類似的なアプローチであるoption iterationを提案する。
任意の場所で検索結果にマッチするように訓練された単一の強力なポリシーを学ぶのではなく、オプションイテレーションは、各状態が遭遇するたびに、セット内の少なくとも1つのポリシーが、将来に向けて検索結果にマッチするように訓練された一連のオプションポリシーを学ぶ。
直感的には、現在の状態の詳細に複雑な依存関係を持つ単一のグローバルな強いポリシーを学ぶよりも、アルゴリズムが賭けをヘッジできるため、これはかなり簡単かもしれない。
このようなローカルな強力なポリシーの集合を学習することで、より優れた選択肢がより良い検索結果に結びつき、より良い選択肢のトレーニングを可能にする、希少なサイクルをもたらす検索アルゴリズムをガイドすることができる。
実験により,オプションイテレーションで学習したオプションを用いたプランニングは,プリミティブアクションの空間で動作する類似の計画アルゴリズムと,エキスパートイテレーションによる単一ロールアウトポリシーの学習と比較して,計画環境に挑戦する上で大きなメリットをもたらすことが示された。 Discovering useful temporal abstractions, in the form of options, is widely thought to be key to applying reinforcement learning and planning to increasingly complex domains. Building on the empirical success of the Expert Iteration approach to policy learning used in AlphaZero, we propose Option Iteration, an analogous approach to option discovery. Rather than learning a single strong policy that is trained to match the search results everywhere, Option Iteration learns a set of option policies trained such that for each state encountered, at least one policy in the set matches the search results for some horizon into the future. Intuitively, this may be significantly easier as it allows the algorithm to hedge its bets compared to learning a single globally strong policy, which may have complex dependencies on the details of the current state. Having learned such a set of locally strong policies, we can use them to guide the search algorithm resulting in a virtuous cycle where better options lead to better search results which allows for training of better options. We demonstrate experimentally that planning using options learned with Option Iteration leads to a significant benefit in challenging planning environments compared to an analogous planning algorithm operating in the space of primitive actions and learning a single rollout policy with Expert Iteration. | 翻訳日:2023-10-04 19:19:15 公開日:2023-10-02 |
# 権限識別攻撃に対する防御 Defending Against Authorship Identification Attacks ( http://arxiv.org/abs/2310.01568v1 ) ライセンス: Link先を確認 | Haining Wang | (参考訳) 著者の識別は、機密個人情報が慎重に省略された場合でも、署名されていない文書の著者の身元を推測するのに不安定に有効であることが証明されている。
デジタル時代には、個人は、ソーシャルメディアに投稿されたり、雇用主のコンピュータに保管されたり、あるいは他の場所にあったりして、書かれたコンテンツを通じてデジタルの足跡を残している。
個人が公の場でコミュニケーションを取る必要があるが、匿名を希望する場合は、望ましくない著者の身元確認から保護することはほとんどできない。
このプライバシーに対する前例のない脅威は、内部告発のようなシナリオで明らかだ。
著者識別攻撃に対する防御は、主に文章のスタイルを曖昧にすることを目的としており、それによって、元の意味と文法的完全性を同時に保持しながら、既存の文章とリンクできないようにしている。
この論文は、過去20年以上にわたるこの研究領域の進歩に関する総合的なレビューを提供する。
著者識別攻撃を避けるために考案された修正および世代ベースの戦略の方法論的枠組みを強調し、差分プライバシーコミュニティによる共同の取り組みを強調している。
現在の研究の限界について論じ、オープンチャレンジと潜在的研究の道に注目する。 Authorship identification has proven unsettlingly effective in inferring the identity of the author of an unsigned document, even when sensitive personal information has been carefully omitted. In the digital era, individuals leave a lasting digital footprint through their written content, whether it is posted on social media, stored on their employer's computers, or located elsewhere. When individuals need to communicate publicly yet wish to remain anonymous, there is little available to protect them from unwanted authorship identification. This unprecedented threat to privacy is evident in scenarios such as whistle-blowing. Proposed defenses against authorship identification attacks primarily aim to obfuscate one's writing style, thereby making it unlinkable to their pre-existing writing, while concurrently preserving the original meaning and grammatical integrity. The presented work offers a comprehensive review of the advancements in this research area spanning over the past two decades and beyond. It emphasizes the methodological frameworks of modification and generation-based strategies devised to evade authorship identification attacks, highlighting joint efforts from the differential privacy community. Limitations of current research are discussed, with a spotlight on open challenges and potential research avenues. | 翻訳日:2023-10-04 19:18:52 公開日:2023-10-02 |
# InSAR画像による大規模ハリケーン後の急激な建物被害検出 Causality-informed Rapid Post-hurricane Building Damage Detection in Large Scale from InSAR Imagery ( http://arxiv.org/abs/2310.01565v1 ) ライセンス: Link先を確認 | Chenguang Wang, Yepeng Liu, Xiaojian Zhang, Xuechun Li, Vladimir Paramygin, Arthriya Subgranon, Peter Sheng, Xilei Zhao, Susu Xu | (参考訳) ハリケーンによる建物被害のタイムリーかつ正確な評価は、ハリケーン後の効果的な応答と復旧に不可欠である。
近年, リモートセンシング技術は, 災害直後の大規模・干渉型合成開口レーダ(insar)画像データを提供し, 迅速な建築物損傷評価に利用できる。
光衛星画像と比較すると、Synthetic Aperture Radarは雲の覆いを貫通し、様々な気象条件下で損傷したゾーンのより完全な空間被覆を提供することができる。
しかし、これらのInSAR画像は、建物被害、洪水・風害による植生変化、および人為的活動によって引き起こされる高いノイズと混合信号を含むことが多く、正確な建物被害情報の抽出が困難である。
本稿では,InSAR画像からハリケーン後の建物被害の迅速検出手法を提案する。
このアプローチは、風、洪水、建物損傷、InSAR画像間の複雑な因果関係を、全体論的因果ネットワークを用いて符号化する。
因果ベイズネットワークをベースとして,InSAR画像からの情報を,地上の真理ラベルを必要とせず,既往の洪水・風の物理的モデルと融合することにより,大規模未観測建築物の損傷を推定した。
さらに,2022年のハリケーン「イアン」の被害予測結果を検証した。
フロリダ州リー郡において,建築被害地盤真理データを集めて注釈付けを行い,導入手法の推定結果を地盤真理と比較し,提案手法の有効性を評価するための最先端モデルと比較した。
その結果,従来の手動検査法に比べて処理時間が大幅に短縮され,建物損傷の迅速かつ正確な検出が可能であった。 Timely and accurate assessment of hurricane-induced building damage is crucial for effective post-hurricane response and recovery efforts. Recently, remote sensing technologies provide large-scale optical or Interferometric Synthetic Aperture Radar (InSAR) imagery data immediately after a disastrous event, which can be readily used to conduct rapid building damage assessment. Compared to optical satellite imageries, the Synthetic Aperture Radar can penetrate cloud cover and provide more complete spatial coverage of damaged zones in various weather conditions. However, these InSAR imageries often contain highly noisy and mixed signals induced by co-occurring or co-located building damage, flood, flood/wind-induced vegetation changes, as well as anthropogenic activities, making it challenging to extract accurate building damage information. In this paper, we introduced an approach for rapid post-hurricane building damage detection from InSAR imagery. This approach encoded complex causal dependencies among wind, flood, building damage, and InSAR imagery using a holistic causal Bayesian network. Based on the causal Bayesian network, we further jointly inferred the large-scale unobserved building damage by fusing the information from InSAR imagery with prior physical models of flood and wind, without the need for ground truth labels. Furthermore, we validated our estimation results in a real-world devastating hurricane -- the 2022 Hurricane Ian. We gathered and annotated building damage ground truth data in Lee County, Florida, and compared the introduced method's estimation results with the ground truth and benchmarked it against state-of-the-art models to assess the effectiveness of our proposed method. Results show that our method achieves rapid and accurate detection of building damage, with significantly reduced processing time compared to traditional manual inspection methods. | 翻訳日:2023-10-04 19:18:33 公開日:2023-10-02 |
# スパースランダムCSPにおける局所アルゴリズムと対数深さ量子優位性の失敗 Local algorithms and the failure of log-depth quantum advantage on sparse random CSPs ( http://arxiv.org/abs/2310.01563v1 ) ライセンス: Link先を確認 | Antares Chen, Neng Huang, Kunal Marwaha | (参考訳) 我々は,ランダムCSPと平均場Isingスピングラスの接続により,El Alaoui,Montanari,Sellke for Maximum Cut (arXiv:2111.06813) を一般化し,大節密度でランダム制約満足問題(CSP)に対するメッセージパッシングアルゴリズムを構築し,解析する。
偶数述語を持つ CSP に対して、アルゴリズムは漸近的にパリ変分法に双対する確率的最適制御問題を解く。
これにより、huang と sellke [arxiv:2110.07847] の分岐重なりギャップ特性によって阻害されるアルゴリズム間の最適制約の分数、特に、最大$\epsilon \cdot \log n$ の有界度アーキテクチャ上の量子近似最適化アルゴリズムと全ての量子回路を含む。 We construct and analyze a message-passing algorithm for random constraint satisfaction problems (CSPs) at large clause density, generalizing work of El Alaoui, Montanari, and Sellke for Maximum Cut [arXiv:2111.06813] through a connection between random CSPs and mean-field Ising spin glasses. For CSPs with even predicates, the algorithm asymptotically solves a stochastic optimal control problem dual to an extended Parisi variational principle. This gives an optimal fraction of satisfied constraints among algorithms obstructed by the branching overlap gap property of Huang and Sellke [arXiv:2110.07847], notably including the Quantum Approximate Optimization Algorithm and all quantum circuits on a bounded-degree architecture of up to $\epsilon \cdot \log n$ depth. | 翻訳日:2023-10-04 19:18:02 公開日:2023-10-02 |
# 意味不明な文脈にロバストな検索言語モデルの構築 Making Retrieval-Augmented Language Models Robust to Irrelevant Context ( http://arxiv.org/abs/2310.01558v1 ) ライセンス: Link先を確認 | Ori Yoran, Tomer Wolfson, Ori Ram, Jonathan Berant | (参考訳) Retrieval-augmented Language Model (RALM) は、事実、効率的、最新の言語理解システムを作成することを約束している。
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立ち、そうでない場合にはパフォーマンスを害しないことである。
これは、無関係な証拠の誤用がカスケードエラーを引き起こす、マルチホップ推論シナリオにおいて特に重要である。
しかし,近年の研究では,検索の強化が性能に悪影響を及ぼすことがある。
本研究では,5つのオープンドメイン質問応答ベンチマークを網羅的に分析し,検索精度が低下するケースを特徴付ける。
次に,この問題を軽減する2つの方法を提案する。
まず、自然言語推論(NLI)モデルに従って、質問応答ペアを含まない検索されたパスをフィルタリングする単純なベースライン。
これは性能低下を防ぐのに有効であるが、関連する通路を廃棄するコストもかかる。
そこで本研究では,学習時に関連するコンテキストと無関係なコンテキストを混在させて,検索したパスを適切に活用するために,言語モデルを微調整するデータの自動生成手法を提案する。
経験的に、1000の例でも、関連する例では高いパフォーマンスを維持しながら、無関係なコンテキストに対して堅牢なモデルをトレーニングするのに十分であることを示す。 Retrieval-augmented language models (RALMs) hold promise to produce language understanding systems that are are factual, efficient, and up-to-date. An important desideratum of RALMs, is that retrieved information helps model performance when it is relevant, and does not harm performance when it is not. This is particularly important in multi-hop reasoning scenarios, where misuse of irrelevant evidence can lead to cascading errors. However, recent work has shown that retrieval augmentation can sometimes have a negative effect on performance. In this work, we present a thorough analysis on five open-domain question answering benchmarks, characterizing cases when retrieval reduces accuracy. We then propose two methods to mitigate this issue. First, a simple baseline that filters out retrieved passages that do not entail question-answer pairs according to a natural language inference (NLI) model. This is effective in preventing performance reduction, but at a cost of also discarding relevant passages. Thus, we propose a method for automatically generating data to fine-tune the language model to properly leverage retrieved passages, using a mix of relevant and irrelevant contexts at training time. We empirically show that even 1,000 examples suffice to train the model to be robust to irrelevant contexts while maintaining high performance on examples with relevant ones. | 翻訳日:2023-10-04 19:17:42 公開日:2023-10-02 |
# SmartPlay : インテリジェントエージェントとしてのLCMのベンチマーク SmartPlay : A Benchmark for LLMs as Intelligent Agents ( http://arxiv.org/abs/2310.01557v1 ) ライセンス: Link先を確認 | Yue Wu, Xuan Tang, Tom M. Mitchell, Yuanzhi Li | (参考訳) 近年の大規模言語モデル(LLM)は、インテリジェントエージェントや次世代自動化に対して大きな可能性を示しているが、LLMのエージェントとしての能力を評価するための体系的なベンチマークは存在しない。
SmartPlay: LLMをエージェントとして評価するための、挑戦的なベンチマークと方法論の両方を紹介します。
SmartPlayはRock-Paper-Scissors, Tower of Hanoi, Minecraftなど6種類のゲームで構成されている。
各ゲームには独自の設定があり、最大20評価設定と無限環境のバリエーションを提供する。
smartplayの各ゲームは、オブジェクト依存の推論、計画、空間的推論、歴史からの学習、ランダム性理解を含む、インテリジェントなllmエージェントの9つの重要な機能のサブセットに独特に挑戦する。
各ゲームテストの能力セットを区別することで、各能力を別々に分析することができます。
SmartPlayは、LLMエージェントの全体的なパフォーマンスを評価するための厳格なテスト基盤としてだけでなく、現在の方法論におけるギャップを識別するためのロードマップとしても機能する。
ベンチマークはgithub.com/llmsmartplay/smartplayでリリースします。 Recent large language models (LLMs) have demonstrated great potential toward intelligent agents and next-gen automation, but there currently lacks a systematic benchmark for evaluating LLMs' abilities as agents. We introduce SmartPlay: both a challenging benchmark and a methodology for evaluating LLMs as agents. SmartPlay consists of 6 different games, including Rock-Paper-Scissors, Tower of Hanoi, Minecraft. Each game features a unique setting, providing up to 20 evaluation settings and infinite environment variations. Each game in SmartPlay uniquely challenges a subset of 9 important capabilities of an intelligent LLM agent, including reasoning with object dependencies, planning ahead, spatial reasoning, learning from history, and understanding randomness. The distinction between the set of capabilities each game test allows us to analyze each capability separately. SmartPlay serves not only as a rigorous testing ground for evaluating the overall performance of LLM agents but also as a road-map for identifying gaps in current methodologies. We release our benchmark at github.com/LLMsmartplay/SmartPlay | 翻訳日:2023-10-04 19:17:20 公開日:2023-10-02 |
# 決定木学習における選択力の活用 Harnessing the Power of Choices in Decision Tree Learning ( http://arxiv.org/abs/2310.01551v1 ) ライセンス: Link先を確認 | Guy Blanc, Jane Lange, Chirag Pabbaraju, Colin Sullivan, Li-Yang Tan, Mo Tiwari | (参考訳) 本稿では,ID3,C4.5,CARTなどの決定木学習アルゴリズムの簡易な一般化を提案する。
これらのアルゴリズムは、機械学習の中心として何十年も使われてきたが、本質的には、最良の属性を反復的に分割することで決定木を成長させる。
当社のアルゴリズムであるtop-$k$は、単一のベスト属性ではなく、可能な限りの分割として$k$を考慮します。
我々は、理論上、経験的に、この単純な一般化の力を示す。
まず、"sl greediness hierarchy theorem} を証明し、すべての$k \in \mathbb{n}$, top-$(k+1)$ がtop-$k$よりも劇的に強力になることを示した。
次に、広範囲な実験を通じて、トップ$k$が決定木学習の2つの主要なアプローチ、すなわち古典的な欲望アルゴリズムとより最近の「最適決定木」アルゴリズムを上回ることを示した。
一方、Top-k$は、幅広いベンチマークでグレーディアルゴリズムよりも高い精度を常に享受している。
一方、top-$k$は最適決定木アルゴリズムよりも著しくスケーラブルであり、これらのアルゴリズムの到達範囲をはるかに超えるデータセットや特徴量を扱うことができる。 We propose a simple generalization of standard and empirically successful decision tree learning algorithms such as ID3, C4.5, and CART. These algorithms, which have been central to machine learning for decades, are greedy in nature: they grow a decision tree by iteratively splitting on the best attribute. Our algorithm, Top-$k$, considers the $k$ best attributes as possible splits instead of just the single best attribute. We demonstrate, theoretically and empirically, the power of this simple generalization. We first prove a {\sl greediness hierarchy theorem} showing that for every $k \in \mathbb{N}$, Top-$(k+1)$ can be dramatically more powerful than Top-$k$: there are data distributions for which the former achieves accuracy $1-\varepsilon$, whereas the latter only achieves accuracy $\frac1{2}+\varepsilon$. We then show, through extensive experiments, that Top-$k$ outperforms the two main approaches to decision tree learning: classic greedy algorithms and more recent "optimal decision tree" algorithms. On one hand, Top-$k$ consistently enjoys significant accuracy gains over greedy algorithms across a wide range of benchmarks. On the other hand, Top-$k$ is markedly more scalable than optimal decision tree algorithms and is able to handle dataset and feature set sizes that remain far beyond the reach of these algorithms. | 翻訳日:2023-10-04 19:17:02 公開日:2023-10-02 |
# ガウス・ボネットからの自発的相互作用量子ビット Spontaneously interacting qubits from Gauss-Bonnet ( http://arxiv.org/abs/2310.01550v1 ) ライセンス: Link先を確認 | Sean Prudhoe, Rishabh Kumar, Sarah Shandera | (参考訳) 局所的に相互作用する小さな量子系の集合が、高次元の単一粒子系から自発的に対称性を破り、どのように出現するかを調べる以前の構成に基づいて、幾何損失関数のより大きなファミリーを考え、「量子ビットについて知る」(KAQ)いくつかの重要なメトリクスのクラスを明示的に構築する。
損失関数は、自発的対称性の破れを許容する順序パラメータを導入するガウス・ボネット項を付加したリッチスカラーからなる。
この方法の魅力は2つある。
(i)Ricciスカラーは既にKAQクリティカルメトリクスを持っていることが示されている。
(ii)運動の正確な方程式は、2つの微分の一般曲率項を持つ損失函数で知られている。
本稿では,ガウス・ボンネット項を含む損失汎関数に対して,左不変計量の空間における運動方程式の解であるKAQクリティカルメトリクスが存在することを示す。
部分代数構造を利用すると、ランダムなハミルトニアンの慣れ親しんだ分布(gue, goe, gse)を含むkaqメトリクスの自然なクラスがもたらされることがわかった。
本解析では,数値的集約的ではあるが,他の損失関数や高次元システムへの拡張を可能にするツールを導入する。 Building on previous constructions examining how a collection of small, locally interacting quantum systems might emerge via spontaneous symmetry breaking from a single-particle system of high dimension, we consider a larger family of geometric loss functionals and explicitly construct several classes of critical metrics which "know about qubits" (KAQ). The loss functional consists of the Ricci scalar with the addition of the Gauss-Bonnet term, which introduces an order parameter that allows for spontaneous symmetry breaking. The appeal of this method is two-fold: (i) the Ricci scalar has already been shown to have KAQ critical metrics and (ii) exact equations of motions are known for loss functionals with generic curvature terms up to two derivatives. We show that KAQ critical metrics, which are solutions to the equations of motion in the space of left-invariant metrics with fixed determinant, exist for loss functionals that include the Gauss-Bonnet term. We find that exploiting the subalgebra structure leads us to natural classes of KAQ metrics which contain the familiar distributions (GUE, GOE, GSE) for random Hamiltonians. We introduce tools for this analysis that will allow for straightfoward, although numerically intensive, extension to other loss functionals and higher-dimension systems. | 翻訳日:2023-10-04 19:16:38 公開日:2023-10-02 |
# 有界平均に対する賭け信頼集合の準最適性について On the near-optimality of betting confidence sets for bounded means ( http://arxiv.org/abs/2310.01547v1 ) ライセンス: Link先を確認 | Shubhanshu Shekhar and Aaditya Ramdas | (参考訳) 独立分布と同一分布の観測からの一変量分布の平均に対する漸近的信頼区間(CI)を構築することは統計学における基本的な課題である。
有界な観測では、古典的な非パラメトリックなアプローチは、ホッフィングやベルンシュタインの不等式のような標準濃度境界を反転させることで進行する。
近年、CIとその時間一様変種を定義するための代替ベッティングベースのアプローチである信頼シーケンス (CS) が、古典的手法よりも経験的に優れていることが示されている。
本稿では,このベッティングCIとCSの実証性能の改善を理論的に正当化する。
主な貢献は以下の通りである。
(i)まず第一次漸近幅($\sqrt{n}$)の値を用いてCIを比較し,2023年のWaudby-SmithとRamdasの賭けCIは既存の経験的Bernstein(EB)-CIよりも幅が小さいことを示す。
次に、ある逆情報投影の観点からCI/CSを構築する方法によって達成可能な最小幅を特徴付ける2つの下位境界を確立する。
3) 最後に, ベッティングCIとCSが基本限界に一致し, 加算対数項と乗法定数を変調することを示した。
これらの結果は、ベンティングCI~(およびCS)が既存の最先端のEB-CI~(およびCS)よりも強い理論的保証を認めることを示唆している。 Constructing nonasymptotic confidence intervals (CIs) for the mean of a univariate distribution from independent and identically distributed (i.i.d.) observations is a fundamental task in statistics. For bounded observations, a classical nonparametric approach proceeds by inverting standard concentration bounds, such as Hoeffding's or Bernstein's inequalities. Recently, an alternative betting-based approach for defining CIs and their time-uniform variants called confidence sequences (CSs), has been shown to be empirically superior to the classical methods. In this paper, we provide theoretical justification for this improved empirical performance of betting CIs and CSs. Our main contributions are as follows: (i) We first compare CIs using the values of their first-order asymptotic widths (scaled by $\sqrt{n}$), and show that the betting CI of Waudby-Smith and Ramdas (2023) has a smaller limiting width than existing empirical Bernstein (EB)-CIs. (ii) Next, we establish two lower bounds that characterize the minimum width achievable by any method for constructing CIs/CSs in terms of certain inverse information projections. (iii) Finally, we show that the betting CI and CS match the fundamental limits, modulo an additive logarithmic term and a multiplicative constant. Overall these results imply that the betting CI~(and CS) admit stronger theoretical guarantees than the existing state-of-the-art EB-CI~(and CS); both in the asymptotic and finite-sample regimes. | 翻訳日:2023-10-04 19:16:13 公開日:2023-10-02 |
# RF-ULM: 高周波超音波局在顕微鏡のための深層学習 RF-ULM: Deep Learning for Radio-Frequency Ultrasound Localization Microscopy ( http://arxiv.org/abs/2310.01545v1 ) ライセンス: Link先を確認 | Christopher Hahne, Georges Chabouh, Arthur Chavignon, Olivier Couture, Raphael Sznitman | (参考訳) 超音波局在顕微鏡(ultrasound Localization Microscopy, ULM)では、高解像度画像を得るには、連続するビームフォーミングフレーム間のコントラスト剤粒子の正確な局在化に依存する。
しかし、我々の研究は、遅延・サマービームフォーミングの過程がラジオ周波数(RF)データの可逆的低減につながるという大きな可能性を明らかにした。
RF波面内に埋め込まれたリッチなコンテキスト情報は、その双曲的な形状とフェーズを含み、ローカライゼーションシナリオに挑戦するディープニューラルネットワーク(DNN)を導くための大きな約束を提供する。
このデータをフル活用するために,RF信号中の散乱体を直接ローカライズする手法を提案する。
本手法は,学習特徴チャネルシャッフルを用いたカスタムスーパーレゾリューションdnnと,rf入力データの信頼性と正確な位置決めに適した,新しい半グローバル畳み込みサンプリングブロックを含む。
さらに、BモードとRF空間間のシームレスなマッピングを容易にする幾何学的点変換を導入する。
提案手法の有効性を検証し,ビームフォーミングの影響を理解するため,ULMのState-Of-The-Art(SOTA)技術との比較を行った。
RFをトレーニングしたDNNによる生体内実験を行い,実世界の実用性を強調した。
その結果,rf-ulmは合成データと実データの間の領域ギャップを橋渡しし,精度と複雑さの面で大きな利点をもたらすことがわかった。
私たちの発見から幅広い研究コミュニティが恩恵を受けられるように、私たちのコードと関連するsomaメソッドはhttps://github.com/hahnec/rf-ulm.com/で利用可能です。 In Ultrasound Localization Microscopy (ULM), achieving high-resolution images relies on the precise localization of contrast agent particles across consecutive beamformed frames. However, our study uncovers an enormous potential: The process of delay-and-sum beamforming leads to an irreversible reduction of Radio-Frequency (RF) data, while its implications for localization remain largely unexplored. The rich contextual information embedded within RF wavefronts, including their hyperbolic shape and phase, offers great promise for guiding Deep Neural Networks (DNNs) in challenging localization scenarios. To fully exploit this data, we propose to directly localize scatterers in RF signals. Our approach involves a custom super-resolution DNN using learned feature channel shuffling and a novel semi-global convolutional sampling block tailored for reliable and accurate localization in RF input data. Additionally, we introduce a geometric point transformation that facilitates seamless mapping between B-mode and RF spaces. To validate the effectiveness of our method and understand the impact of beamforming, we conduct an extensive comparison with State-Of-The-Art (SOTA) techniques in ULM. We present the inaugural in vivo results from an RF-trained DNN, highlighting its real-world practicality. Our findings show that RF-ULM bridges the domain gap between synthetic and real datasets, offering a considerable advantage in terms of precision and complexity. To enable the broader research community to benefit from our findings, our code and the associated SOTA methods are made available at https://github.com/hahnec/rf-ulm. | 翻訳日:2023-10-04 19:15:47 公開日:2023-10-02 |
# K-12教育における自然言語処理教育のためのデジタル学習環境の検討 A Review of Digital Learning Environments for Teaching Natural Language Processing in K-12 Education ( http://arxiv.org/abs/2310.01603v1 ) ライセンス: Link先を確認 | Xiaoyi Tian and Kristy Elizabeth Boyer | (参考訳) 自然言語処理(NLP)は私たちの日常生活において重要な役割を担い、K-12における人工知能(AI)教育の不可欠な部分となっている。
子どもたちはNLPを利用したアプリケーションで成長するにつれて、言語処理、言語生成、AIとNLPの倫理的意味についての理解を深め、NLPの概念を導入することが不可欠である。
本稿では,K-12でNLPを教えるためのデジタル学習環境について概観する。
具体的には、既存のデジタル学習ツールを調査し、特定のnlpタスクや手順をどのようにサポートするかを説明し、その説明可能性や評価結果を教育的文脈で検討する。
これらのツールの強みと限界を調べることで、本論文はk-12教育におけるnlp学習ツールの現状を明らかにした。
既存のツールを改良し、新しいツールを開発し、NLPをK-12の教育コンテキストに統合するためのより効果的で包括的な戦略を探るため、今後の研究の指針となることを目的としている。 Natural Language Processing (NLP) plays a significant role in our daily lives and has become an essential part of Artificial Intelligence (AI) education in K-12. As children grow up with NLP-powered applications, it is crucial to introduce NLP concepts to them, fostering their understanding of language processing, language generation, and ethical implications of AI and NLP. This paper presents a comprehensive review of digital learning environments for teaching NLP in K-12. Specifically, it explores existing digital learning tools, discusses how they support specific NLP tasks and procedures, and investigates their explainability and evaluation results in educational contexts. By examining the strengths and limitations of these tools, this literature review sheds light on the current state of NLP learning tools in K-12 education. It aims to guide future research efforts to refine existing tools, develop new ones, and explore more effective and inclusive strategies for integrating NLP into K-12 educational contexts. | 翻訳日:2023-10-04 19:09:45 公開日:2023-10-02 |
# CAT-LM: 標準化されたコードとテストによる言語モデルのトレーニング CAT-LM: Training Language Models on Aligned Code And Tests ( http://arxiv.org/abs/2310.01602v1 ) ライセンス: Link先を確認 | Nikitha Rao, Kush Jain, Uri Alon, Claire Le Goues, Vincent J. Hellendoorn | (参考訳) テストはソフトウェア開発プロセスにおいて不可欠な部分です。
しかし、テストを書くのに時間がかかり、しばしば無視される。
EvoSuiteのような古典的なテスト生成ツールは、カバレッジを最適化することで振る舞いテストスイートを生成するが、理解しにくいテストを生成する傾向がある。
コードでトレーニングされた言語モデルは、人間が書いたものと非常によく似たコードを生成することができるが、現在のモデルは、自然言語処理の標準的なプラクティスと同様に、各ファイルを別々に生成するように訓練されているため、テストファイルを生成する際にテスト中のコンテキストを考慮できない。
本稿では,Python および Java プロジェクトのコーパスでトレーニングされた,270 億のパラメータを持つ GPT スタイルの言語モデルである Aligned Code And Tests Language Model (CAT-LM) を提案する。
我々は、利用可能なコードとテストファイル間のマッピングを明確に検討する新しい事前学習信号を利用する。
また、入力の最大シーケンス長を通常のコード生成モデルより4倍多い8,192トークンに劇的に増やし、テストコードを生成する際にモデルにコードコンテキストが利用可能になるようにしました。
フィルタによるサンプリング(例えば、コンパイル性やカバレッジ)によって、開発者が記述スタイルに類似したカバレッジを実現するテストが効率的に作成できることを示すことで、現実的なアプリケーションでの有用性を分析した。
コードコンテキストを利用することで、CAT-LMはより多くのデータ(CodeGen 16BとStarCoder)でトレーニングされたより大きな言語モデルよりも有効なテストを生成し、テスト完了時に最新のテスト固有モデル(TeCo)を大幅に上回っている。
全体として、コードのための言語モデルをトレーニングする場合、ソフトウェア固有の洞察を取り入れることの重要性を強調し、より強力な自動テスト生成への道を開く。 Testing is an integral part of the software development process. Yet, writing tests is time-consuming and therefore often neglected. Classical test generation tools such as EvoSuite generate behavioral test suites by optimizing for coverage, but tend to produce tests that are hard to understand. Language models trained on code can generate code that is highly similar to that written by humans, but current models are trained to generate each file separately, as is standard practice in natural language processing, and thus fail to consider the code-under-test context when producing a test file. In this work, we propose the Aligned Code And Tests Language Model (CAT-LM), a GPT-style language model with 2.7 Billion parameters, trained on a corpus of Python and Java projects. We utilize a novel pretraining signal that explicitly considers the mapping between code and test files when available. We also drastically increase the maximum sequence length of inputs to 8,192 tokens, 4x more than typical code generation models, to ensure that the code context is available to the model when generating test code. We analyze its usefulness for realistic applications, showing that sampling with filtering (e.g., by compilability, coverage) allows it to efficiently produce tests that achieve coverage similar to ones written by developers while resembling their writing style. By utilizing the code context, CAT-LM generates more valid tests than even much larger language models trained with more data (CodeGen 16B and StarCoder) and substantially outperforms a recent test-specific model (TeCo) at test completion. Overall, our work highlights the importance of incorporating software-specific insights when training language models for code and paves the way to more powerful automated test generation. | 翻訳日:2023-10-04 19:09:29 公開日:2023-10-02 |
# 適切なトポロジカル領域を用いたプール型アクティブラーニング Pool-Based Active Learning with Proper Topological Regions ( http://arxiv.org/abs/2310.01597v1 ) ライセンス: Link先を確認 | Lies Hadjadj, Emilie Devijver, Remi Molinier, Massih-Reza Amini | (参考訳) 機械学習の手法は通常、優れた性能を得るために大きなサンプルサイズに依存するが、多くのアプリケーションでラベル付きセットを提供することは困難である。
プールベースのアクティブな学習手法は、ラベルのないデータの集合の中で、トレーニングに最も関係のあるものを検出する。
本稿では,適切なトポロジカル領域に基づく多クラス分類タスクの文脈におけるプール型アクティブラーニング戦略のメタアプローチを提案する。
PTRは、トポロジカルデータ分析(TDA)に基づいて、コールドスタート点のサンプリングやアクティブラーニングスキーム内の関連する領域である。
提案手法は,様々なベンチマークデータセット上で実証的に示され,文献の古典的手法と競合する。 Machine learning methods usually rely on large sample size to have good performance, while it is difficult to provide labeled set in many applications. Pool-based active learning methods are there to detect, among a set of unlabeled data, the ones that are the most relevant for the training. We propose in this paper a meta-approach for pool-based active learning strategies in the context of multi-class classification tasks based on Proper Topological Regions. PTR, based on topological data analysis (TDA), are relevant regions used to sample cold-start points or within the active learning scheme. The proposed method is illustrated empirically on various benchmark datasets, being competitive to the classical methods from the literature. | 翻訳日:2023-10-04 19:08:58 公開日:2023-10-02 |
# ImagenHub:条件付き画像生成モデルの標準化 ImagenHub: Standardizing the evaluation of conditional image generation models ( http://arxiv.org/abs/2310.01596v1 ) ライセンス: Link先を確認 | Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang, Wenhu Chen | (参考訳) 近年,テキスト対画像生成,テキストガイド画像編集,主題駆動画像生成,制御ガイド画像生成など,さまざまな下流タスクを行うための条件付き画像生成・編集モデルが数多く開発されている。
しかし,実験条件では,データセット,推論,評価指標の公正比較が困難である。
本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。
まず,7つのタスクを定義し,高品質な評価データセットをキュレートする。
次に、公正な比較を保証するために、統一的な推論パイプラインを構築しました。
第3に,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。
提案した指標に基づいてモデル出力を評価するために,専門家のレーダを訓練する。
評価の結果,0.4以上の76%モデルにおいて,krippendorff's alphaの高い同僚間合意が得られた。
1) 既存のモデルの性能はテキスト誘導画像生成と主観駆動画像生成を除いて概ね不満足であり, 74% のモデルが 0.5 未満のスコアを達成している。
2) 論文のクレームを検証したところ, 83%が例外を除いて保持していることがわかった。
(3)既存の自動測度のうち,主観駆動画像生成以外のスピアマン相関は0.2以上である。
今後は、新たに公開されたモデルの評価と、条件付き画像生成の進捗状況を追跡するためのリーダーボードの更新を進めていく。 Recently, a myriad of conditional image generation and editing models have been developed to serve different downstream tasks, including text-to-image generation, text-guided image editing, subject-driven image generation, control-guided image generation, etc. However, we observe huge inconsistencies in experimental conditions: datasets, inference, and evaluation metrics - render fair comparisons difficult. This paper proposes ImagenHub, which is a one-stop library to standardize the inference and evaluation of all the conditional image generation models. Firstly, we define seven prominent tasks and curate high-quality evaluation datasets for them. Secondly, we built a unified inference pipeline to ensure fair comparison. Thirdly, we design two human evaluation scores, i.e. Semantic Consistency and Perceptual Quality, along with comprehensive guidelines to evaluate generated images. We train expert raters to evaluate the model outputs based on the proposed metrics. Our human evaluation achieves a high inter-worker agreement of Krippendorff's alpha on 76% models with a value higher than 0.4. We comprehensively evaluated a total of around 30 models and observed three key takeaways: (1) the existing models' performance is generally unsatisfying except for Text-guided Image Generation and Subject-driven Image Generation, with 74% models achieving an overall score lower than 0.5. (2) we examined the claims from published papers and found 83% of them hold with a few exceptions. (3) None of the existing automatic metrics has a Spearman's correlation higher than 0.2 except subject-driven image generation. Moving forward, we will continue our efforts to evaluate newly published models and update our leaderboard to keep track of the progress in conditional image generation. | 翻訳日:2023-10-04 19:08:46 公開日:2023-10-02 |
# オブジェクトローカライゼーションのためのメモリ効率なパーティクルフィルタ繰り返しニューラルネットワーク Memory-efficient particle filter recurrent neural network for object localization ( http://arxiv.org/abs/2310.01595v1 ) ライセンス: Link先を確認 | Roman Korkin, Ivan Oseledets, Aleksandr Katrutsa | (参考訳) 本研究では、オブジェクトの局所化問題を解決するために、新しいメモリ効率のリカレントニューラルネットワーク(RNN)アーキテクチャを提案する。
この問題は、ノイズの多い環境で物体の状態と動きを回復することである。
古典的粒子フィルタの概念をGRU RNNアーキテクチャと組み合わせる。
結果として生じるメモリ効率の粒子フィルタRNNモデル(mePFRNN)の重要な特徴は、異なるサイズの環境を処理するために同じ数のパラメータを必要とすることである。
したがって、提案するmePFRNNアーキテクチャは、以前提案したPFRNNモデルと比較してメモリ消費が少なく、パラメータを保存することができる。
モデルの性能を示すために,フィルタアルゴリズムにおいて極めて困難である対称環境および雑音環境上でテストを行った。
実験では、mepfrnnモデルが競合相手よりも正確な位置決めを提供し、より少ない訓練パラメータを必要とする。 This study proposes a novel memory-efficient recurrent neural network (RNN) architecture specified to solve the object localization problem. This problem is to recover the object states along with its movement in a noisy environment. We take the idea of the classical particle filter and combine it with GRU RNN architecture. The key feature of the resulting memory-efficient particle filter RNN model (mePFRNN) is that it requires the same number of parameters to process environments of different sizes. Thus, the proposed mePFRNN architecture consumes less memory to store parameters compared to the previously proposed PFRNN model. To demonstrate the performance of our model, we test it on symmetric and noisy environments that are incredibly challenging for filtering algorithms. In our experiments, the mePFRNN model provides more precise localization than the considered competitors and requires fewer trained parameters. | 翻訳日:2023-10-04 19:08:21 公開日:2023-10-02 |
# 知識誘導型機械学習による土地管理のための所定の火災モデル Prescribed Fire Modeling using Knowledge-Guided Machine Learning for Land Management ( http://arxiv.org/abs/2310.01593v1 ) ライセンス: Link先を確認 | Somya Sharma Chatterjee, Kelly Lindsay, Neel Chatterjee, Rohan Patil, Ilkay Altintas De Callafon, Michael Steinbach, Daniel Giron, Mai H. Nguyen, Vipin Kumar | (参考訳) 近年、山火事の脅威が高まっているため、効果的な所定の消防管理の必要性が強調されている。
プロセスベースのコンピュータシミュレーションは伝統的に、山火事防止のための所定の火災計画に使われてきた。
しかし、QUIC-Fireのような単純化されたプロセスモデルでさえ、特に気象条件が急速に変化する場合、リアルタイムな意思決定に使用するには計算集約的すぎる。
従来の機械学習手法は、計算スピードアップを提供するが、物理的に矛盾する予測、クラス不均衡による偏りのある予測、延焼面積、拡散率など)の偏りのある推定値、分布外風条件での一般化性に苦慮している。
本稿では,これらの問題に対処しながら,所定の火災を迅速にエミュレーションできる機械学習(ML)フレームワークを提案する。
提案手法は, ドメイン知識を取り入れることで, 燃料密度推定の物理的不整合を低減できる。
予測における大多数のクラスバイアスを克服するために、既存のソースドメインデータを活用してトレーニングデータを強化し、火の拡散をより効果的に学習する。
最後に, 燃料密度と燃焼領域の相互依存性を捉えるため, 階層的モデリング構造を組み込むことにより, 延焼指標の偏差推定の問題を克服する。
特に、我々のフレームワークによって提供される火力計(例えば、燃えている領域)の見積もりの改善は、火力計の見積もりを所定の火力管理の決定に頼る火力管理者に役立ちます。
さらに,本フレームワークは,風条件や着火パターンにまたがる他のMLベースの火災モデリング手法よりも優れた一般化能力を示す。 In recent years, the increasing threat of devastating wildfires has underscored the need for effective prescribed fire management. Process-based computer simulations have traditionally been employed to plan prescribed fires for wildfire prevention. However, even simplified process models like QUIC-Fire are too compute-intensive to be used for real-time decision-making, especially when weather conditions change rapidly. Traditional ML methods used for fire modeling offer computational speedup but struggle with physically inconsistent predictions, biased predictions due to class imbalance, biased estimates for fire spread metrics (e.g., burned area, rate of spread), and generalizability in out-of-distribution wind conditions. This paper introduces a novel machine learning (ML) framework that enables rapid emulation of prescribed fires while addressing these concerns. By incorporating domain knowledge, the proposed method helps reduce physical inconsistencies in fuel density estimates in data-scarce scenarios. To overcome the majority class bias in predictions, we leverage pre-existing source domain data to augment training data and learn the spread of fire more effectively. Finally, we overcome the problem of biased estimation of fire spread metrics by incorporating a hierarchical modeling structure to capture the interdependence in fuel density and burned area. Notably, improvement in fire metric (e.g., burned area) estimates offered by our framework makes it useful for fire managers, who often rely on these fire metric estimates to make decisions about prescribed burn management. Furthermore, our framework exhibits better generalization capabilities than the other ML-based fire modeling methods across diverse wind conditions and ignition patterns. | 翻訳日:2023-10-04 19:08:09 公開日:2023-10-02 |
# コントラスト学習における表現とアロケーション・ハームの検討 An Investigation of Representation and Allocation Harms in Contrastive Learning ( http://arxiv.org/abs/2310.01583v1 ) ライセンス: Link先を確認 | Subha Maity, Mayank Agarwal, Mikhail Yurochkin, Yuekai Sun | (参考訳) 少数集団のパフォーマンスに対する過小表現の影響は、教師あり学習環境において深刻な問題であることが知られているが、これまでは自己監督学習(ssl)の文脈で過小評価されてきた。
本稿では,SSL の一般的な変種であるコントラッシブラーニング (CL) が,一部の多数派を持つ少数派群の表現を崩壊させる傾向にあることを示す。
本稿では,この現象を表現障害と呼び,対応するCL手法を用いて画像およびテキストデータセットに示す。
さらに,下流分類タスクにおける割当害の因果的調停分析により,表象害が部分的に責任を負うことが明らかとなり,表象害の研究と緩和の重要性が強調された。
最後に, 確率的ブロックモデルを用いた表現障害の理論的説明を行い, 対照的な学習環境下での表現的神経崩壊を導いた。 The effect of underrepresentation on the performance of minority groups is known to be a serious problem in supervised learning settings; however, it has been underexplored so far in the context of self-supervised learning (SSL). In this paper, we demonstrate that contrastive learning (CL), a popular variant of SSL, tends to collapse representations of minority groups with certain majority groups. We refer to this phenomenon as representation harm and demonstrate it on image and text datasets using the corresponding popular CL methods. Furthermore, our causal mediation analysis of allocation harm on a downstream classification task reveals that representation harm is partly responsible for it, thus emphasizing the importance of studying and mitigating representation harm. Finally, we provide a theoretical explanation for representation harm using a stochastic block model that leads to a representational neural collapse in a contrastive learning setting. | 翻訳日:2023-10-04 19:07:41 公開日:2023-10-02 |
# オープンソースの大規模言語モデルの安全性について:アライメントは本当に誤用を防ぐのか? On the Safety of Open-Sourced Large Language Models: Does Alignment Really Prevent Them From Being Misused? ( http://arxiv.org/abs/2310.01581v1 ) ライセンス: Link先を確認 | Hangfan Zhang, Zhimeng Guo, Huaisheng Zhu, Bochuan Cao, Lu Lin, Jinyuan Jia, Jinghui Chen, Dinghao Wu | (参考訳) 大規模言語モデル(LLM)は自然言語生成(NLG)タスクにおいて前例のない性能を達成した。
しかし、既存の多くの研究では、望ましくないコンテンツを生成するために誤用されることが示されている。
これに対して、LLMをパブリックアクセス向けにリリースする前に、モデル開発者は通常、Supervised Fine-Tuning (SFT)またはReinforcement Learning with Human Feedback (RLHF)を通じてこれらの言語モデルを調整する。
そのため、これら大手言語モデルは、潜在的に有害な/不適切な要求に直面した場合に、望ましくないコンテンツを生成することを拒否する。
自然な疑問は、"これらのオープンソースの大きな言語モデルは、望ましくないコンテンツを生成するために誤用されることを本当に防げるのか?
本研究では,この問題に対する否定的な回答を提供する。
特に,これらオープンソースでアライメントされた大規模言語モデルは,重い計算や注意深い設計をすることなく,望ましくないコンテンツを生成するために容易に誤解される可能性がある。
私たちの重要なアイデアは、オープンソースllmの生成プロセスを直接操作して、有害あるいは偏った情報やプライベートデータを含む望ましくないコンテンツを生成します。
提案手法は4つのオープンソース LLM 上で公開されており,より高度な LLM 対策の必要性が指摘されている。 Large Language Models (LLMs) have achieved unprecedented performance in Natural Language Generation (NLG) tasks. However, many existing studies have shown that they could be misused to generate undesired content. In response, before releasing LLMs for public access, model developers usually align those language models through Supervised Fine-Tuning (SFT) or Reinforcement Learning with Human Feedback (RLHF). Consequently, those aligned large language models refuse to generate undesired content when facing potentially harmful/unethical requests. A natural question is "could alignment really prevent those open-sourced large language models from being misused to generate undesired content?''. In this work, we provide a negative answer to this question. In particular, we show those open-sourced, aligned large language models could be easily misguided to generate undesired content without heavy computations or careful prompt designs. Our key idea is to directly manipulate the generation process of open-sourced LLMs to misguide it to generate undesired content including harmful or biased information and even private data. We evaluate our method on 4 open-sourced LLMs accessible publicly and our finding highlights the need for more advanced mitigation strategies for open-sourced LLMs. | 翻訳日:2023-10-04 19:07:26 公開日:2023-10-02 |
# 対話型ディジットパターン生成と視覚表現によるニューラルネットワークの能動的学習 Active Learning on Neural Networks through Interactive Generation of Digit Patterns and Visual Representation ( http://arxiv.org/abs/2310.01580v1 ) ライセンス: Link先を確認 | Dong H. Jeong, Jin-Hee Cho, Feng Chen, Audun Josang, Soo-Yeon Ji | (参考訳) ニューラルネットワーク(ANN)は、さまざまなデータを分析し、異なるドメイン問題を解決するために広く利用されている。
しかし、ニューラルネットワーク(nns)は、その基盤となる計算と意味が隠れているため、長年にわたりブラックボックス操作と見なされてきた。
この性質のため、ユーザーはnnのメカニズムとその利用の利点を理解するのに苦労することが多い。
本稿では,ユーザのnnsの学習と理解を改善するために,デジタルパターンを作成し,それをリアルタイムで認識するための対話型学習システムを提案する。
ディジットパターンの視覚的差異(すなわち0~9)と結果をNNで明確に理解するために、可視化を統合することで、複数のユーザインタラクションをサポートする2次元表示空間に全てのディジットパターンを表示することができる。
複数のデータセットによる評価を行い、アクティブな学習のユーザビリティを決定する。
さらに、非公式なユーザテストは、ワークショップ参加者にシステムの使用を依頼することで、夏のワークショップで管理される。 Artificial neural networks (ANNs) have been broadly utilized to analyze various data and solve different domain problems. However, neural networks (NNs) have been considered a black box operation for years because their underlying computation and meaning are hidden. Due to this nature, users often face difficulties in interpreting the underlying mechanism of the NNs and the benefits of using them. In this paper, to improve users' learning and understanding of NNs, an interactive learning system is designed to create digit patterns and recognize them in real time. To help users clearly understand the visual differences of digit patterns (i.e., 0 ~ 9) and their results with an NN, integrating visualization is considered to present all digit patterns in a two-dimensional display space with supporting multiple user interactions. An evaluation with multiple datasets is conducted to determine its usability for active learning. In addition, informal user testing is managed during a summer workshop by asking the workshop participants to use the system. | 翻訳日:2023-10-04 19:07:03 公開日:2023-10-02 |
# グローバルワークスペースプリミティブの収縮特性 Contraction Properties of the Global Workspace Primitive ( http://arxiv.org/abs/2310.01571v1 ) ライセンス: Link先を確認 | Michaela Ennis, Leo Kozachkov, Jean-Jacques Slotine | (参考訳) 多領域リカレントニューラルネットワーク(rnn)を取り巻く重要な新興研究分野を推進するために、kozachkovらが"rnn of rnns: recursive construction of stable assemblies of recurrent neural networks"で紹介したrnnの理論的および実証的に拡張する。
我々は、このアーキテクチャの特別な場合、特にグローバルワークスペースモジュラー構造において、安定条件が緩和されたことを証明した。
次に、グローバルなワークスペースのスパースコンボネットにおいて、少量のトレーニング可能なパラメータで実証的な成功を示し、強力なテストパフォーマンスだけでなく、個々のサブネットワークの除去に対するレジリエンスも向上させた。
グローバルワークスペース間トポロジにおけるこれらの実験結果は安定性の維持に重きを置いており、モジュラーRNNの成功を実現するための理論的研究の意義を強調している。
さらに、異なるサブネットワークモジュール間の接続構造をより広範囲に拡張することにより、ベンチマークシーケンス処理タスクにおける安定したrnnの技術性能を向上し、多領域rnnのための特殊グラフ構造の汎用性を高める。 To push forward the important emerging research field surrounding multi-area recurrent neural networks (RNNs), we expand theoretically and empirically on the provably stable RNNs of RNNs introduced by Kozachkov et al. in "RNNs of RNNs: Recursive Construction of Stable Assemblies of Recurrent Neural Networks". We prove relaxed stability conditions for salient special cases of this architecture, most notably for a global workspace modular structure. We then demonstrate empirical success for Global Workspace Sparse Combo Nets with a small number of trainable parameters, not only through strong overall test performance but also greater resilience to removal of individual subnetworks. These empirical results for the global workspace inter-area topology are contingent on stability preservation, highlighting the relevance of our theoretical work for enabling modular RNN success. Further, by exploring sparsity in the connectivity structure between different subnetwork modules more broadly, we improve the state of the art performance for stable RNNs on benchmark sequence processing tasks, thus underscoring the general utility of specialized graph structures for multi-area RNNs. | 翻訳日:2023-10-04 19:06:46 公開日:2023-10-02 |
# テンソル法によるランダムサンプル量子波動関数の再構成 Reconstruction of Randomly Sampled Quantum Wavefunctions using Tensor Methods ( http://arxiv.org/abs/2310.01628v1 ) ライセンス: Link先を確認 | Aaron Stahl and Glen Evenbly | (参考訳) 波動関数振幅のランダムサンプルから開始した(未知)局所ハミルトニアンの基底状態を再構成するためのいくつかのテンソルネットワークに基づくアルゴリズムを提案し,検証する。
これらのアルゴリズムは、すべての局所ブロックに平均されるブロックレニエンタングルメントエントロピーを最小化することで波動関数の完成を基礎としており、1次元格子上の局所ハミルトニアンの基底状態を高い忠実度に確実に再構成することを数値的に証明し、また、全体の波動関数振幅のわずか数パーセントのランダムサンプルから始めることができる。 We propose and test several tensor network based algorithms for reconstructing the ground state of an (unknown) local Hamiltonian starting from a random sample of the wavefunction amplitudes. These algorithms, which are based on completing a wavefunction by minimizing the block Renyi entanglement entropy averaged over all local blocks, are numerically demonstrated to reliably reconstruct ground states of local Hamiltonians on 1D lattices to high fidelity, often at the limit of double-precision numerics, while potentially starting from a random sample of only a few percent of the total wavefunction amplitudes. | 翻訳日:2023-10-04 18:58:59 公開日:2023-10-02 |
# VAL: GPTダイアログ解析による対話型タスク学習 VAL: Interactive Task Learning with GPT Dialog Parsing ( http://arxiv.org/abs/2310.01627v1 ) ライセンス: Link先を確認 | Lane Lawley, Christopher J. MacLellan | (参考訳) 強化学習はしばしば、静的なブラックボックスモデルを作成するために何百万もの例を必要とする。
対照的に、対話型タスク学習(ITL)は、自然言語などのモダリティにおいて人間によって提供される限られた命令から、段階的な知識獲得を強調する。
しかし、実際には、itlシステムはしばしば不安定でエラーを起こしやすい言語解析に苦しむ。
大規模言語モデル(LLM)は脆性に耐性があるが、解釈不可能であり、漸進的に学習することはできない。
LLM/シンボリック統合のための新しい哲学を持つIPLシステムであるVALを提案する。
アルゴリズムフレームワーク内で述語や引数選択などの特定のタスクにのみllmを使用することで、valは自然言語からの階層的タスク知識のインタラクティブな学習をサポートするためにllmの利点を享受する。
獲得した知識は人間の解釈可能であり、追加のトレーニングなしで新しいタスクの実行をサポートするために一般化される。
ゲーム環境におけるVALのユーザインタラクションについて検討し,VALが自然であると感じた言語を用いて,ほとんどのユーザがVALを学べることを発見した。 Reinforcement learning often requires millions of examples to produce static, black-box models. In contrast, interactive task learning (ITL) emphasizes incremental knowledge acquisition from limited instruction provided by humans in modalities such as natural language. However, in practice, ITL systems often suffers from brittle, error-prone language parsing. Large language models (LLMs) are resistant to brittleness but are not interpretable and cannot learn incrementally. We present VAL, an ITL system with a new philosophy for LLM/symbolic integration. By using LLMs only for specific tasks -- such as predicate and argument selection -- within an algorithmic framework, VAL reaps the benefits of LLMs to support interactive learning of hierarchical task knowledge from natural language. Acquired knowledge is human interpretable and generalizes to support execution of novel tasks without additional training. We studied users' interactions with VAL in a video game setting, finding that most users could successfully teach VAL using language they felt was natural. | 翻訳日:2023-10-04 18:58:44 公開日:2023-10-02 |
# 演算子学習と数値解析:反復的手法によるニューラルネットワークの改善 Operator Learning Meets Numerical Analysis: Improving Neural Networks through Iterative Methods ( http://arxiv.org/abs/2310.01618v1 ) ライセンス: Link先を確認 | Emanuele Zappala, Daniel Levine, Sizhuang He, Syed Rizvi, Sacha Levy and David van Dijk | (参考訳) ディープニューラルネットワークは、多くの応用で成功したにも拘わらず、しばしば理論の基礎を確立せずに機能する。
本稿では,このギャップを深層学習と古典的数値解析の並列性として橋渡しする。
ニューラルネットワークを所望の解を表す固定点を持つ演算子としてフレーミングすることにより、演算子方程式の反復法に基づく理論的枠組みを開発する。
定義条件の下では、不動点理論に基づく収束証明を示す。
拡散モデルやAlphaFoldのような一般的なアーキテクチャは本質的に反復的演算子学習を採用する。
経験的評価では、ネットワークオペレータによるイテレーションの実行がパフォーマンスの向上を強調する。
また、反復的なグラフニューラルネットワークであるPIGNを導入し、反復の利点をさらに示す。
本研究の目的は,数値解析の知見を融合して深層学習の理解を深めることであり,より明確な理論的基盤を持つ将来のネットワークの設計を導き,性能を向上させることである。 Deep neural networks, despite their success in numerous applications, often function without established theoretical foundations. In this paper, we bridge this gap by drawing parallels between deep learning and classical numerical analysis. By framing neural networks as operators with fixed points representing desired solutions, we develop a theoretical framework grounded in iterative methods for operator equations. Under defined conditions, we present convergence proofs based on fixed point theory. We demonstrate that popular architectures, such as diffusion models and AlphaFold, inherently employ iterative operator learning. Empirical assessments highlight that performing iterations through network operators improves performance. We also introduce an iterative graph neural network, PIGN, that further demonstrates benefits of iterations. Our work aims to enhance the understanding of deep learning by merging insights from numerical analysis, potentially guiding the design of future networks with clearer theoretical underpinnings and improved performance. | 翻訳日:2023-10-04 18:58:29 公開日:2023-10-02 |
# 情報融合を用いた動的時空間要約 Dynamic Spatio-Temporal Summarization using Information Based Fusion ( http://arxiv.org/abs/2310.01617v1 ) ライセンス: Link先を確認 | Humayra Tasnim, Soumya Dutta, Melanie Moses | (参考訳) 急成長するデータ生成の時代において、大規模な時変データセットの管理と保存には大きな課題がある。
スーパーコンピューティングの能力が高まり、生成されるデータの量は急増し、ストレージとi/oオーバーヘッドが増大した。
そこで本研究では,重要時間ステップにおける情報的特徴を識別し,より少ない情報的特徴を融合する動的時空間データ要約手法を提案する。
このアプローチは、データダイナミクスを維持しながら、ストレージ要件を最小化する。
既存の手法とは異なり,本手法は生と要約の両方のタイムステップを保持し,時間とともに情報の変化を包括的に把握する。
情報理論の手法を用いて融合プロセスの導出を行い,本質的なデータパターンを捉える視覚的表現を実現する。
我々は,粒子ベースのフローシミュレーション,セキュリティと監視の応用,免疫システム内の生体細胞間相互作用など,多様なデータセットにまたがる手法の汎用性を実証した。
私たちの研究はデータ管理の領域に大きく貢献し、様々な分野にわたる効率性の向上と深い洞察をもたらします。
我々は,in situ解析やポストホック解析に適用可能な大規模データセットを扱うための合理化手法を提案する。
これは、データストレージとi/oオーバーヘッドの増大する課題に対処するだけでなく、インフォームド意思決定の可能性を解き放ちます。
本手法は,ストレージ要件を最小化し,複雑なデータ行動をより効果的かつ直感的に理解する上で重要な時間的ダイナミクスを探索する。 In the era of burgeoning data generation, managing and storing large-scale time-varying datasets poses significant challenges. With the rise of supercomputing capabilities, the volume of data produced has soared, intensifying storage and I/O overheads. To address this issue, we propose a dynamic spatio-temporal data summarization technique that identifies informative features in key timesteps and fuses less informative ones. This approach minimizes storage requirements while preserving data dynamics. Unlike existing methods, our method retains both raw and summarized timesteps, ensuring a comprehensive view of information changes over time. We utilize information-theoretic measures to guide the fusion process, resulting in a visual representation that captures essential data patterns. We demonstrate the versatility of our technique across diverse datasets, encompassing particle-based flow simulations, security and surveillance applications, and biological cell interactions within the immune system. Our research significantly contributes to the realm of data management, introducing enhanced efficiency and deeper insights across diverse multidisciplinary domains. We provide a streamlined approach for handling massive datasets that can be applied to in situ analysis as well as post hoc analysis. This not only addresses the escalating challenges of data storage and I/O overheads but also unlocks the potential for informed decision-making. Our method empowers researchers and experts to explore essential temporal dynamics while minimizing storage requirements, thereby fostering a more effective and intuitive understanding of complex data behaviors. | 翻訳日:2023-10-04 18:58:16 公開日:2023-10-02 |
# マルチバッチ強化学習におけるサンプル効率:次元依存適応性の必要性 Sample-Efficiency in Multi-Batch Reinforcement Learning: The Need for Dimension-Dependent Adaptivity ( http://arxiv.org/abs/2310.01616v1 ) ライセンス: Link先を確認 | Emmeran Johnson, Ciara Pike-Burke, Patrick Rebeschini | (参考訳) 強化学習におけるサンプル効率と適応性の関係を理論的に検討する。
アルゴリズムは、問題の次元$d$の多項式である環境に対して、多くのクエリ$n$を使用する場合、サンプリング効率がよい。
適応性とは、クエリが送信され、クエリ戦略を更新するためにフィードバックが処理される頻度を指す。
この相互作用を調べるために、我々は、K$のバッチでクエリを送信できる学習フレームワークを使用し、フィードバックは処理され、各バッチ後にクエリが更新される。
このモデルは、非適応的な「オフライン」(K=1$)から完全に適応的な(K=n$)シナリオまで、適応スペクトル全体を含む。
$d$次元線形関数近似の下での政策評価と最良政治的識別の問題に対して、$n = O(poly(d))$クエリでサンプル効率のアルゴリズムに必要なバッチ数に対して$\Omega(\log \log d)$低い境界を確立する。
その結果,適応性(k>1$)を持つだけではサンプル効率が保証されないことがわかった。
特に、サンプル効率に対する適応性境界は、サンプル効率が不可能であることが判明したオフライン強化学習(K=1$)と適応設定の間にはない。
その代わり、境界は異なる適応性の体系の間にあり、問題次元に依存する。 We theoretically explore the relationship between sample-efficiency and adaptivity in reinforcement learning. An algorithm is sample-efficient if it uses a number of queries $n$ to the environment that is polynomial in the dimension $d$ of the problem. Adaptivity refers to the frequency at which queries are sent and feedback is processed to update the querying strategy. To investigate this interplay, we employ a learning framework that allows sending queries in $K$ batches, with feedback being processed and queries updated after each batch. This model encompasses the whole adaptivity spectrum, ranging from non-adaptive 'offline' ($K=1$) to fully adaptive ($K=n$) scenarios, and regimes in between. For the problems of policy evaluation and best-policy identification under $d$-dimensional linear function approximation, we establish $\Omega(\log \log d)$ lower bounds on the number of batches $K$ required for sample-efficient algorithms with $n = O(poly(d))$ queries. Our results show that just having adaptivity ($K>1$) does not necessarily guarantee sample-efficiency. Notably, the adaptivity-boundary for sample-efficiency is not between offline reinforcement learning ($K=1$), where sample-efficiency was known to not be possible, and adaptive settings. Instead, the boundary lies between different regimes of adaptivity and depends on the problem dimension. | 翻訳日:2023-10-04 18:57:51 公開日:2023-10-02 |
# 混合schur変換:効率的な量子回路とその応用 The mixed Schur transform: efficient quantum circuit and applications ( http://arxiv.org/abs/2310.01613v1 ) ライセンス: Link先を確認 | Quynh T. Nguyen | (参考訳) ユニタリ群 $\mathbf{U}_d$ on $n$ qudits のテンソル表現 $U^{\otimes n}$ をブロック対角化するシュル変換は、量子情報や理論物理学において重要な原始的である。
我々は、ベーコン、チュアン、ハロー(soda 2007)による量子回路実装の一般化を、混合テンソル $u^{\otimes n} \otimes \bar{u}^{\otimes m}$ に対して与え、ここで$\bar{u}$ は双対表現である。
この表現はユニタリ同値チャネルの対称性であり、量子多数決、マルチポートベースのテレポーテーション、非対称状態クローニング、ブラックボックスユニタリ変換など様々な応用が見られる。
混合シューア変換(mixed schur transform)は、シュール変換で使われる表現論のいくつかの自然な拡張を含み、主な成分は混合テンソル表現と壁付きブラウアー代数の間の双対性である。
もう一つの要素は "dual" clebsch-gordan変換の$\bar{u}$に対する効率的な実装である。
回路全体の複雑性は$\widetilde{O} ((n+m)d^4)$である。
最後に、混合schur変換が様々な設定におけるユニタリ同変チャネルの効率的な実装を可能にし、部分的転置を含む置換量子コンピューティングの拡張を含む他の潜在的な応用について論じる。 The Schur transform, which block-diagonalizes the tensor representation $U^{\otimes n}$ of the unitary group $\mathbf{U}_d$ on $n$ qudits, is an important primitive in quantum information and theoretical physics. We give a generalization of its quantum circuit implementation due to Bacon, Chuang, and Harrow (SODA 2007) to the case of mixed tensor $U^{\otimes n} \otimes \bar{U}^{\otimes m}$, where $\bar{U}$ is the dual representation. This representation is the symmetry of unitary-equivariant channels, which find various applications in quantum majority vote, multiport-based teleportation, asymmetric state cloning, black-box unitary transformations, etc. The "mixed" Schur transform contains several natural extensions of the representation theory used in the Schur transform, in which the main ingredient is a duality between the mixed tensor representations and the walled Brauer algebra. Another element is an efficient implementation of a "dual" Clebsch-Gordan transform for $\bar{U}$. The overall circuit has complexity $\widetilde{O} ((n+m)d^4)$. Finally, we show how the mixed Schur transform enables efficient implementation of unitary-equivariant channels in various settings and discuss other potential applications, including an extension of permutational quantum computing that includes partial transposes. | 翻訳日:2023-10-04 18:57:21 公開日:2023-10-02 |
# 勾配法に基づく離散対数学習の難易度 Intractability of Learning the Discrete Logarithm with Gradient-Based Methods ( http://arxiv.org/abs/2310.01611v1 ) ライセンス: Link先を確認 | Rustem Takhanov, Maxat Tezekbayev, Artur Pak, Arman Bolatov, Zhibek Kadyrsizova, Zhenisbek Assylbekov | (参考訳) 離散対数問題は、暗号プロトコルに重要な意味を持つ数論における根本的な問題である。
本稿では,次数有限巡回群における離散対数のパリティビットを学習するための勾配に基づく手法の限界について検討する。
本研究の主な成果は, 理論解析と実証的検証によって支えられ, 対数基底とは独立に, 一定点付近の損失関数の勾配が集中していることが判明した。
この濃度特性は、トレーニングされるネットワークアーキテクチャの複雑さに関係なく、勾配に基づく手法を用いてパリティビットを効率的に学習する能力を制限する。
我々の証明は内積空間におけるボアス=ベルマンの不等式に依存しており、ある行列のスペクトルノルムを通して離散対数のパリティビット函数の近似直交性を確立する。
ニューラルネットワークベースのアプローチを用いた実証実験は、勾配に基づく学習の限界をさらに検証し、グループの順序が増加するにつれてパリティビットを予測する成功率の低下を示す。 The discrete logarithm problem is a fundamental challenge in number theory with significant implications for cryptographic protocols. In this paper, we investigate the limitations of gradient-based methods for learning the parity bit of the discrete logarithm in finite cyclic groups of prime order. Our main result, supported by theoretical analysis and empirical verification, reveals the concentration of the gradient of the loss function around a fixed point, independent of the logarithm's base used. This concentration property leads to a restricted ability to learn the parity bit efficiently using gradient-based methods, irrespective of the complexity of the network architecture being trained. Our proof relies on Boas-Bellman inequality in inner product spaces and it involves establishing approximate orthogonality of discrete logarithm's parity bit functions through the spectral norm of certain matrices. Empirical experiments using a neural network-based approach further verify the limitations of gradient-based learning, demonstrating the decreasing success rate in predicting the parity bit as the group order increases. | 翻訳日:2023-10-04 18:56:53 公開日:2023-10-02 |
# 不完全な状態準備を有するデコイ状態bb84プロトコルのセキュリティ Security of the decoy-state BB84 protocol with imperfect state preparation ( http://arxiv.org/abs/2310.01610v1 ) ライセンス: Link先を確認 | Aleksei Reutov, Andrey Tayduganov, Vladimir Mayboroda and Oleg Fat'yanov | (参考訳) 量子鍵分布(QKD)により、2人のリモートユーザーが共通の情報理論の安全な秘密鍵を共有することができる。
実用的なqkd実装のセキュリティを保証するためには、物理的システムを完全に特徴づける必要があり、現実的なデバイスの様々な不完全さによる理想的なプロトコルからの逸脱をセキュリティ証明に考慮する必要がある。
本研究では,不完全強度と偏光変調によるソース欠陥が存在する場合の効率的なデコイ状態bb84 qkdプロトコルの安全性について検討する。
本研究では,コヒーレント状態強度変動による非ポアソン光子数統計と非理想分極状態準備によるソースの基底依存性について検討する。
この分析は、強度と位相分布の実験的評価によって支持される。 The quantum key distribution (QKD) allows two remote users to share a common information-theoretic secure secret key. In order to guarantee the security of a practical QKD implementation, the physical system has to be fully characterized and all deviations from the ideal protocol due to various imperfections of realistic devices have to be taken into account in the security proof. In this work, we study the security of the efficient decoy-state BB84 QKD protocol in the presence of source flaws, caused by imperfect intensity and polarization modulation. We investigate the non-Poissonian photon-number statistics due to coherent-state intensity fluctuations and the basis-dependence of the source due to non-ideal polarization state preparation. The analysis is supported by experimental characterization of intensity and phase distributions. | 翻訳日:2023-10-04 18:56:36 公開日:2023-10-02 |
# 敵のコンテキストバンディットがカーネル化 Adversarial Contextual Bandits Go Kernelized ( http://arxiv.org/abs/2310.01609v1 ) ライセンス: Link先を確認 | Gergely Neu, Julia Olkhovskaya, Sattar Vakili | (参考訳) 本研究では,複雑な意思決定シナリオをより柔軟にモデル化できるカーネルヒルベルト空間に属する損失関数を組み込むことにより,逆線形文脈バンディットにおけるオンライン学習問題の一般化について検討する。
本稿では,損失関数に対する新しい楽観的に偏りのある推定器を用い,基礎となるカーネル上での固有値減衰仮定の多種多様さの下で,ほぼ最適の後悔保証を実現するアルゴリズムを提案する。
具体的には、多項式固有デカイと指数 $c>1$ の仮定の下で、後悔は$\widetilde{o}(kt^{\frac{1}{2}(1+\frac{1}{c})})$であり、ここで$t$はラウンド数、$k$はアクション数を表す。
さらに、固有デカイが指数的パターンに従うと、より厳密な後悔値が$\widetilde{o}(\sqrt{t})$となる。
これらの値は、下限が全く知られていない特別な場合のすべての下限と一致し、よりよく研究された確率的問題に対して利用可能な最もよく知られた上限と一致する。 We study a generalization of the problem of online learning in adversarial linear contextual bandits by incorporating loss functions that belong to a reproducing kernel Hilbert space, which allows for a more flexible modeling of complex decision-making scenarios. We propose a computationally efficient algorithm that makes use of a new optimistically biased estimator for the loss functions and achieves near-optimal regret guarantees under a variety of eigenvalue decay assumptions made on the underlying kernel. Specifically, under the assumption of polynomial eigendecay with exponent $c>1$, the regret is $\widetilde{O}(KT^{\frac{1}{2}(1+\frac{1}{c})})$, where $T$ denotes the number of rounds and $K$ the number of actions. Furthermore, when the eigendecay follows an exponential pattern, we achieve an even tighter regret bound of $\widetilde{O}(\sqrt{T})$. These rates match the lower bounds in all special cases where lower bounds are known at all, and match the best known upper bounds available for the more well-studied stochastic counterpart of our problem. | 翻訳日:2023-10-04 18:56:21 公開日:2023-10-02 |
# 深層強化学習を用いた二次割当て問題の解法 Solving the Quadratic Assignment Problem using Deep Reinforcement Learning ( http://arxiv.org/abs/2310.01604v1 ) ライセンス: Link先を確認 | Puneet S. Bagga, Arthur Delarue | (参考訳) 旅行セールスマン問題(TSP)のような他の組合せ問題とは異なり、高度な整数プログラミング技術を用いて数百から数千の場所を持つインスタンスに対して最適に解決できるが、30以上のサイズのQAPインスタンスを正確に解く方法は知られていない。
QAPの解決は、電子配線設計や設備配置選択など、多くの重要な応用のために重要である。
深部強化学習を用いたQAPのオリジナルのクープマン・ベックマン定式化の解法を提案する。
提案手法は,次の施設を配置する場所と,前の場所に設置する施設とを交互に選択する,新しい二重ポインタネットワークに依存する。
合成インスタンスの大規模なデータセット上でA2Cを使用してモデルをトレーニングし、インスタンス固有の再トレーニングを必要としないソリューションを生成します。
サンプルからすると、私たちのソリューションは、高品質なローカル検索ベースラインの7.5%以内で、インスタンスの1.2%よりも優れています。 The Quadratic Assignment Problem (QAP) is an NP-hard problem which has proven particularly challenging to solve: unlike other combinatorial problems like the traveling salesman problem (TSP), which can be solved to optimality for instances with hundreds or even thousands of locations using advanced integer programming techniques, no methods are known to exactly solve QAP instances of size greater than 30. Solving the QAP is nevertheless important because of its many critical applications, such as electronic wiring design and facility layout selection. We propose a method to solve the original Koopmans-Beckman formulation of the QAP using deep reinforcement learning. Our approach relies on a novel double pointer network, which alternates between selecting a location in which to place the next facility and a facility to place in the previous location. We train our model using A2C on a large dataset of synthetic instances, producing solutions with no instance-specific retraining necessary. Out of sample, our solutions are on average within 7.5% of a high-quality local search baseline, and even outperform it on 1.2% of instances. | 翻訳日:2023-10-04 18:56:00 公開日:2023-10-02 |
# 大規模事前学習モデルの等変適応 Equivariant Adaptation of Large Pre-Trained Models ( http://arxiv.org/abs/2310.01647v1 ) ライセンス: Link先を確認 | Arnab Kumar Mondal, Siba Smarak Panigrahi, S\'ekou-Oumar Kaba, Sai Rajeswar, Siamak Ravanbakhsh | (参考訳) 等価ネットワークは、入力変換のセットに関して一貫した振る舞いを保証するよう特別に設計されており、高いサンプル効率とより正確でロバストな予測をもたらす。
しかしながら、一般的なディープニューラルネットワークアーキテクチャの各コンポーネントを再設計して、選択された等価性を達成することは難しい問題であり、トレーニングと推論の両方において計算コストの高いネットワークとなる可能性がある。
アーキテクチャ上の制約を取り除くために最近提案された等価性(equivariance)の代替案は、入力を標準形式に変換して、制約のない予測ネットワークに渡す単純な標準化ネットワークを使用することである。
ここでは,この手法を大規模事前学習ネットワークの等価化に効果的に利用できることを示す。
しかし, 生成した正準方向は, トレーニング分布の方向と誤一致し, 性能を阻害することが観察された。
標準化関数にデータセット依存の事前情報を使うことで、性能を維持しながら、事前学習された大規模モデルに等価性を持たせることができる。
これにより、回転のようなデータの決定論的変換にこれらのモデルの堅牢性を大幅に改善する。
この大きな事前訓練されたモデルの同変適応は、既知の対称性を持つ領域固有の応用に役立つと信じている。 Equivariant networks are specifically designed to ensure consistent behavior with respect to a set of input transformations, leading to higher sample efficiency and more accurate and robust predictions. However, redesigning each component of prevalent deep neural network architectures to achieve chosen equivariance is a difficult problem and can result in a computationally expensive network during both training and inference. A recently proposed alternative towards equivariance that removes the architectural constraints is to use a simple canonicalization network that transforms the input to a canonical form before feeding it to an unconstrained prediction network. We show here that this approach can effectively be used to make a large pre-trained network equivariant. However, we observe that the produced canonical orientations can be misaligned with those of the training distribution, hindering performance. Using dataset-dependent priors to inform the canonicalization function, we are able to make large pre-trained models equivariant while maintaining their performance. This significantly improves the robustness of these models to deterministic transformations of the data, such as rotations. We believe this equivariant adaptation of large pre-trained models can help their domain-specific applications with known symmetry priors. | 翻訳日:2023-10-04 18:49:59 公開日:2023-10-02 |
# 欠陥パッチスクリーニング近似による点欠陥のGW計算の高速化 Accelerating GW calculations of point defects with the defect-patched screening approximation ( http://arxiv.org/abs/2310.01644v1 ) ライセンス: Link先を確認 | Du Li, Zhen-Fei Liu, Li Yang | (参考訳) GW近似は多電子効果を含む欠陥レベルを計算するためのab initioツールとして広く受け入れられている。
しかしながら、gwシミュレーションのコストはシステムサイズによって劇的に増加し、残念ながら大きなスーパーセルは実験的に関連する低密度欠陥をモデル化するためにしばしば必要となる。
本研究では,計算ボトルネックである多電子スクリーニングのシミュレーションコストを低減し,点欠陥のgw計算を高速化する。
多電子スクリーニングのランダム位相近似は、プリシン構造の単位セルを用いて計算される内在的スクリーニングと、小さなエネルギーウィンドウ内のスーパーセルを用いて計算された欠陥誘発スクリーニングの2つの部分に分けられる。
特定の欠陥によっては、本質的なスクリーニングを検討するか、欠陥貢献を含めるだけでよい。
このアプローチはスーパーセルの多くの伝導状態の総和を避け、シミュレーション時間を著しく削減する。
小型・大型のバンドギャップを持つ2次元およびバルク系の中性および帯電欠陥を含む様々な点欠陥の計算に応用した。
結果は直接GWシミュレーションの結果から成り、直接GWシミュレーションでは実験的に関係するが極めて困難である希薄な欠陥限界でさらに改善される。
この欠陥パッチによるスクリーニングアプローチは、多電子スクリーニングにおける欠陥の役割を明らかにするだけでなく、単一光子源、量子量子ビット、量子センサーを含む新しい応用のための高速スクリーン欠陥構造や材料への道を開く。 The GW approximation has been widely accepted as an ab initio tool for calculating defect levels with many-electron effect included. However, the GW simulation cost increases dramatically with the system size, and, unfortunately, large supercells are often required to model low-density defects that are experimentally relevant. In this work, we propose to accelerate GW calculations of point defects by reducing the simulation cost of the many-electron screening, which is the primary computational bottleneck. The random-phase approximation of many-electron screening is divided into two parts: one is the intrinsic screening, calculated using a unit cell of pristine structures, and the other is the defect-induced screening, calculated using the supercell within a small energy window. Depending on specific defects, one may only need to consider the intrinsic screening or include the defect contribution. This approach avoids the summation of many conductions states of supercells and significantly reduces the simulation time. We have applied it to calculating various point defects, including neutral and charged defects in two-dimensional and bulk systems with small or large bandgaps. The results consist with those from the direct GW simulations, and the agreements are further improved at the dilute-defect limit, which is experimentally relevant but extremely challenging for direct GW simulations. This defect-patched screening approach not only clarifies the roles of defects in many-electron screening but also paves the way to fast screen defect structures/materials for novel applications, including single-photon sources, quantum qubits, and quantum sensors. | 翻訳日:2023-10-04 18:49:41 公開日:2023-10-02 |
# ハグ顔やその他のモデルハブにおける事前学習深層学習モデルの命名規約(および欠陥)の探索 Exploring Naming Conventions (and Defects) of Pre-trained Deep Learning Models in Hugging Face and Other Model Hubs ( http://arxiv.org/abs/2310.01642v1 ) ライセンス: Link先を確認 | Wenxin Jiang, Chingwo Cheung, George K. Thiruvathukal, James C. Davis | (参考訳) ディープラーニングのイノベーションが進むにつれて、多くのエンジニアが、事前訓練されたディープラーニングモデル(ptm)をコンピュータシステムのコンポーネントとして採用したいと考えている。
PTMは、研究者がPTMを公開し、エンジニアが品質やパフォーマンスに適応し、デプロイする、調査から実践までのパイプラインの一部である。
もし PTM の著者が PTM の適切な名前を選択すると、モデル発見と再利用が容易になる。
しかしながら、以前の研究では、モデル名が必ずしも良い選択ではなく、時には誤ったものであると報告されている。
PTMパッケージの命名規則と命名欠陥は体系的に研究されていないが,本論文では,PTMパッケージの命名規則と関連するPTM命名規則に関する最初の研究を報告する。
メタデータからパッケージ名と要求アーキテクチャを含む,PTMパッケージ名のコンポーネントを定義した。
本研究は, PTMエコシステムにおける命名の性質を特徴付けることに焦点を当てた最初の研究である。
そこで我々は,意味的および構文的パターンを自動的に抽出する自動命名評価手法を開発した。
そこで我々は,DNNARchitecture Assessment Pipeline (DARA) を設計上の違いに基づいてクラスタリングするための新しいアルゴリズムを開発した。
本研究は, PTMの命名規則を提唱し, PTMエコシステムにおける研究・実践関係のシグナルとして命名規則を定めている。
今後,ptmのメタ機能を活用したモデル検索と再利用に関するさらなる実証研究を行う予定である。 As innovation in deep learning continues, many engineers want to adopt Pre-Trained deep learning Models (PTMs) as components in computer systems. PTMs are part of a research-to-practice pipeline: researchers publish PTMs, which engineers adapt for quality or performance and then deploy. If PTM authors choose appropriate names for their PTMs, it could facilitate model discovery and reuse. However, prior research has reported that model names are not always well chosen, and are sometimes erroneous. The naming conventions and naming defects for PTM packages have not been systematically studied - understanding them will add to our knowledge of how the research-to-practice process works for PTM packages In this paper, we report the first study of PTM naming conventions and the associated PTM naming defects. We define the components of a PTM package name, comprising the package name and claimed architecture from the metadata. We present the first study focused on characterizing the nature of naming in PTM ecosystem. To this end, we developed a novel automated naming assessment technique that can automatically extract the semantic and syntactic patterns. To identify potential naming defects, we developed a novel algorithm, automated DNN ARchitecture Assessment pipeline (DARA), to cluster PTMs based on architectural differences. Our study suggests the naming conventions for PTMs, and frames the naming conventions as signal of the research-to-practice relationships in the PTM ecosystem. We envision future works on further empirical study on leveraging meta-features of PTMs to support model search and reuse. | 翻訳日:2023-10-04 18:49:15 公開日:2023-10-02 |
# リアルタイムと汎用的なマルチタスクを一度だけ見る You Only Look at Once for Real-time and Generic Multi-Task ( http://arxiv.org/abs/2310.01641v1 ) ライセンス: Link先を確認 | Jiayuan Wang, Q. M. Jonathan Wu and Ning Zhang | (参考訳) 高精度、軽量、リアルタイムの応答性は、自動運転を実装するための3つの必須要件である。
それらすべてを同時に考えることは課題です。
本研究では,オブジェクト検出,ドリブル領域分割,レーン検出を同時に行うように設計された適応的,リアルタイム,軽量なマルチタスクモデルを提案する。
この研究目的を達成するために,統一的かつ合理化されたセグメンテーション構造を持つエンドツーエンドのマルチタスクモデルを開発した。
我々のモデルは特定のカスタマイズ構造や損失関数を必要とせずに動作する。
BDD100kデータセット上で、特に視覚化結果の競合的な結果を達成したのです。
その結果, 物体検出用mAP50は81.1%, 乾燥領域分割用mIoUは91.0%, レーン線分割用IoUは28.8%であった。
さらに、実際のシーンでモデルのパフォーマンスを評価するために、リアルタイムデータセットを導入しました。
これは、我々のモデルは競争性能を示すだけでなく、既存のマルチタスクモデルよりも柔軟で高速であることを示している。
ソースコードと事前訓練済みモデルはhttps://github.com/JiayuanWang-JW/YOLOv8-multi-taskで公開されている。 High precision, lightweight, and real-time responsiveness are three essential requirements for implementing autonomous driving. Considering all of them simultaneously is a challenge. In this study, we present an adaptive, real-time, and lightweight multi-task model designed to concurrently handle object detection, drivable area segmentation, and lane detection tasks. To achieve this research objective, we developed an end-to-end multi-task model with a unified and streamlined segmentation structure. Our model operates without the need for any specific customization structure or loss function. We achieved competitive results on the BDD100k dataset, particularly in visualization outcomes. The performance results show a mAP50 of 81.1% for object detection, a mIoU of 91.0% for drivable area segmentation, and an IoU of 28.8% for lane line segmentation. Additionally, we introduced a real-road dataset to evaluate our model's performance in a real scene, which significantly outperforms competitors. This demonstrates that our model not only exhibits competitive performance but is also more flexible and faster than existing multi-task models. The source codes and pre-trained models are released at https://github.com/JiayuanWang-JW/YOLOv8-multi-task | 翻訳日:2023-10-04 18:48:51 公開日:2023-10-02 |
# 狭いフェシュバッハ共鳴近傍の原子分子超流動の安定性とダイナミクス Stability and Dynamics of Atom-Molecule Superfluids Near a Narrow Feshbach Resonance ( http://arxiv.org/abs/2310.01639v1 ) ライセンス: Link先を確認 | Zhiqiang Wang, Ke Wang, Zhendong Zhang, Shu Nagata, Cheng Chin, K. Levin | (参考訳) ボゾン原子の凝縮と関連する「超化学」ダイナミクスから生じる安定な分子凝縮物の最近の観測は、興味深い一連の疑問を引き起こしている。
ここでは、原子-分子超流体の予期せぬ安定性とダイナミクスを微視的に理解し、これらの現象の背後にある1つの重要な要素は19.849gで$^{133}$csの非常に狭いfeshbach共鳴である。
理論と実験を比較することで、この狭い共鳴が、ユニタリティー付近に現れる大きな閉チャネル分子分数超流動を動的に生成できることを示す。
理論的には、観測された超化学 (\textit{i.e.}, Bose enhanced reaction ofatom and molecules) は、反対モータを持つボゾン原子のクーパー対の形成によって補助される。
重要なことに、この狭い共鳴は、より一般的なフェシュバッハ共鳴の近くでは不可能な、分子のボース超流動と関連する現象の量子臨界点を探索する可能性を開く。 The recent observations of a stable molecular condensate emerging from a condensate of bosonic atoms and related ``super-chemical" dynamics have raised an intriguing set of questions. Here we provide a microscopic understanding of this unexpected stability and dynamics in atom-molecule superfluids; we show one essential element behind these phenomena is an extremely narrow Feshbach resonance in $^{133}$Cs at 19.849G. Comparing theory and experiment we demonstrate how this narrow resonance enables the dynamical creation of a large closed-channel molecular fraction superfluid, appearing in the vicinity of unitarity. Theoretically the observed superchemistry (\textit{i.e.}, Bose enhanced reactions of atoms and molecules), is found to be assisted by the formation of Cooper pairs of bosonic atoms having opposite momenta. Importantly, this narrow resonance opens the possibility to explore the quantum critical point of a molecular Bose superfluid and related phenomena which would not be possible near a more typically broad Feshbach resonance. | 翻訳日:2023-10-04 18:48:31 公開日:2023-10-02 |
# ポートベーステレポーテーションのための効率的な量子アルゴリズム Efficient Quantum Algorithm for Port-based Teleportation ( http://arxiv.org/abs/2310.01637v1 ) ライセンス: Link先を確認 | Jiani Fei, Sydney Timmerman, and Patrick Hayden | (参考訳) 本稿では,プログラム可能な量子プロセッサを構築し,即時非局所計算(NLQC)を実行するのに有用な,ポートベーステレポーテーションの最初の効率的なアルゴリズムを提案する。
後者の接続は、バルク計算を境界NLQCとして実現するAdS/CFTにおいて重要である。
我々のアルゴリズムは、利用可能な絡み合いの量とNLQCを用いて実装できる任意のユニタリの非局所部分の複雑さとの既知の関係を指数関数的に改善する。
同様に、我々のアルゴリズムは、近似普遍的プログラマブル量子プロセッサのための最初の非自明な効率的なアルゴリズムを提供する。
このアプローチの鍵となるのは、ツイスト・シュア=ワイル双対性(英語版)と呼ばれるシュア=ワイル双対性の一般化と、ツイスト・シュア変換(英語版)のための効率的なアルゴリズムであり、これは部分変換された置換代数の部分群既約基底に変換し、その双対は$U^{\otimes n-k} \otimes (U^*)^{\otimes k}$ユニタリ群の表現である。 In this paper, we provide the first efficient algorithm for port-based teleportation, a unitarily equivariant version of teleportation useful for constructing programmable quantum processors and performing instantaneous nonlocal computation (NLQC). The latter connection is important in AdS/CFT, where bulk computations are realized as boundary NLQC. Our algorithm yields an exponential improvement to the known relationship between the amount of entanglement available and the complexity of the nonlocal part of any unitary that can be implemented using NLQC. Similarly, our algorithm provides the first nontrivial efficient algorithm for an approximate universal programmable quantum processor. The key to our approach is a generalization of Schur-Weyl duality we call twisted Schur-Weyl duality, as well as an efficient algorithm we develop for the twisted Schur transform, which transforms to a subgroup-reduced irrep basis of the partially transposed permutation algebra, whose dual is the $U^{\otimes n-k} \otimes (U^*)^{\otimes k}$ representation of the unitary group. | 翻訳日:2023-10-04 18:48:09 公開日:2023-10-02 |
# 適応的視覚シーン理解:インクリメンタルシーングラフ生成 Adaptive Visual Scene Understanding: Incremental Scene Graph Generation ( http://arxiv.org/abs/2310.01636v1 ) ライセンス: Link先を確認 | Naitik Khandelwal, Xiao Liu and Mengmi Zhang | (参考訳) シーングラフ生成(SGG)は、画像を分析し、オブジェクトとその関係に関する意味のある情報を抽出する。
視覚世界のダイナミックな性質を考えると、AIシステムは新しいオブジェクトを検出し、既存のオブジェクトとの新たな関係を確立することが重要である。
SGGにおける連続学習手法の欠如に対処するため,3つの学習シナリオと8つの評価指標とともにCSEGGデータセットを包括的に導入した。
本研究は,既存のSGG手法の継続学習性能が,既存オブジェクトの保持や,新しいオブジェクトを学習する際の関連性について検討する。
さらに、連続物体検出が未知物体上の既知の関係を分類する際の一般化をいかに促進するかについても検討する。
本研究では,古典的な2段階SGG法と最新のトランスフォーマーベースSGG法を連続学習環境でベンチマークし,解析し,CSEGG問題に対する貴重な知見を得る。
私たちはこの新たな研究分野を探求するために研究コミュニティを招待します。 Scene graph generation (SGG) involves analyzing images to extract meaningful information about objects and their relationships. Given the dynamic nature of the visual world, it becomes crucial for AI systems to detect new objects and establish their new relationships with existing objects. To address the lack of continual learning methodologies in SGG, we introduce the comprehensive Continual ScenE Graph Generation (CSEGG) dataset along with 3 learning scenarios and 8 evaluation metrics. Our research investigates the continual learning performances of existing SGG methods on the retention of previous object entities and relationships as they learn new ones. Moreover, we also explore how continual object detection enhances generalization in classifying known relationships on unknown objects. We conduct extensive experiments benchmarking and analyzing the classical two-stage SGG methods and the most recent transformer-based SGG methods in continual learning settings, and gain valuable insights into the CSEGG problem. We invite the research community to explore this emerging field of study. | 翻訳日:2023-10-04 18:47:40 公開日:2023-10-02 |
# グラフデータに基づくノイズの多い擬似ラベルへの深い洞察 Deep Insights into Noisy Pseudo Labeling on Graph Data ( http://arxiv.org/abs/2310.01634v1 ) ライセンス: Link先を確認 | Botao Wang, Jia Li, Yang Liu, Jiashun Cheng, Yu Rong, Wenjia Wang, Fugee Tsung | (参考訳) Pseudo labeling (PL) は、トレーニングプロセス中に潜在的なサンプルを自己アノテーションすることでラベル付きデータセットを拡大するための幅広い戦略である。
いくつかの研究により、グラフ学習モデルの性能を全般的に改善できることが示されている。
しかし,グラフ学習プロセスでは,誤ラベルが致命的になる可能性がある。
不適切なPLは、特にノイズが伝播可能なグラフデータにおいて、性能劣化をもたらす可能性がある。
驚いたことに、対応する誤りは理論上はほとんど分析されない。
本稿では,グラフ学習モデルにおけるPLの深い洞察を提供することを目的とする。
まず,PL の閾値の信頼度と多視点予測の整合性によって誤差が有界であることを示し,PL 戦略の誤差解析を行う。
次に,PLが収束特性に及ぼす影響を理論的に説明する。
そこで本研究では,高い信頼性と多視点整合性を有するサンプルを疑似ラベル付けする,慎重な擬似ラベル付け手法を提案する。
最後に,提案手法がグラフ学習プロセスを改善し,リンク予測やノード分類タスクにおいて他のPL戦略より優れていることを示す。 Pseudo labeling (PL) is a wide-applied strategy to enlarge the labeled dataset by self-annotating the potential samples during the training process. Several works have shown that it can improve the graph learning model performance in general. However, we notice that the incorrect labels can be fatal to the graph training process. Inappropriate PL may result in the performance degrading, especially on graph data where the noise can propagate. Surprisingly, the corresponding error is seldom theoretically analyzed in the literature. In this paper, we aim to give deep insights of PL on graph learning models. We first present the error analysis of PL strategy by showing that the error is bounded by the confidence of PL threshold and consistency of multi-view prediction. Then, we theoretically illustrate the effect of PL on convergence property. Based on the analysis, we propose a cautious pseudo labeling methodology in which we pseudo label the samples with highest confidence and multi-view consistency. Finally, extensive experiments demonstrate that the proposed strategy improves graph learning process and outperforms other PL strategies on link prediction and node classification tasks. | 翻訳日:2023-10-04 18:47:24 公開日:2023-10-02 |
# 最適輸送による観察からの模倣学習 Imitation Learning from Observation through Optimal Transport ( http://arxiv.org/abs/2310.01632v1 ) ライセンス: Link先を確認 | Wei-Di Chang, Scott Fujimoto, David Meger, Gregory Dudek | (参考訳) ILfO(Imitation Learning from Observation)とは、観察データのみを使用し、実演行動を直接指導することなく、学習者が専門家の行動を模倣しようとする環境である。
本稿では,学習者の状態軌跡と熟練者の状態軌跡との間のワッサースタイン距離に基づいて報酬が生成されるilに対する最適輸送の利用を再検討する。
学習モデルや逆学習を必要とせずに、既存の手法を単純化して報酬関数を生成することができることを示す。
他の多くの最先端手法とは異なり、このアプローチは任意のrlアルゴリズムと統合することができ、ilfoに適応できる。
我々は,この単純アプローチが様々な連続制御タスクにおいて有効であることを実証し,ilfo設定の技量を超え,単一の熟練者軌道のみを動作なしで観察した場合であっても,評価領域全体でのエキスパートレベルのパフォーマンスを実現することを見出した。 Imitation Learning from Observation (ILfO) is a setting in which a learner tries to imitate the behavior of an expert, using only observational data and without the direct guidance of demonstrated actions. In this paper, we re-examine the use of optimal transport for IL, in which a reward is generated based on the Wasserstein distance between the state trajectories of the learner and expert. We show that existing methods can be simplified to generate a reward function without requiring learned models or adversarial learning. Unlike many other state-of-the-art methods, our approach can be integrated with any RL algorithm, and is amenable to ILfO. We demonstrate the effectiveness of this simple approach on a variety of continuous control tasks and find that it surpasses the state of the art in the IlfO setting, achieving expert-level performance across a range of evaluation domains even when observing only a single expert trajectory without actions. | 翻訳日:2023-10-04 18:47:07 公開日:2023-10-02 |
# 低温QAOAマシンにおける温度間帯域幅低減 Inter-temperature Bandwidth Reduction in Cryogenic QAOA Machines ( http://arxiv.org/abs/2310.01630v1 ) ライセンス: Link先を確認 | Yosuke Ueno, Yuna Tomida, Teruo Tanimoto, Masamitsu Tanaka, Yutaka Tabuchi, Koji Inoue, Hiroshi Nakamura | (参考訳) 極低温環境と室温環境の帯域制限は、超伝導中規模量子コンピュータにおける重要なボトルネックである。
本稿では,量子近似最適化アルゴリズムを対象とし,この問題を解決するためのアルゴリズム認識システムレベルの最適化の最初の試みを提案する。
単一流束量子論理を用いた対向型極低温アーキテクチャは, 超伝導量子コンピュータのスケーラビリティに寄与する高温ケーブルの熱流入と周辺電力消費を減少させる。 The bandwidth limit between cryogenic and room-temperature environments is a critical bottleneck in superconducting noisy intermediate-scale quantum computers. This paper presents the first trial of algorithm-aware system-level optimization to solve this issue by targeting the quantum approximate optimization algorithm. Our counter-based cryogenic architecture using single-flux quantum logic shows exponential bandwidth reduction and decreases heat inflow and peripheral power consumption of inter-temperature cables, which contributes to the scalability of superconducting quantum computers. | 翻訳日:2023-10-04 18:46:50 公開日:2023-10-02 |
# STARS:ソナー画像における難破船のセグメンテーションのためのゼロショットシミュレート STARS: Zero-shot Sim-to-Real Transfer for Segmentation of Shipwrecks in Sonar Imagery ( http://arxiv.org/abs/2310.01667v1 ) ライセンス: Link先を確認 | Advaith Venkatramanan Sethuraman, Katherine A. Skinner | (参考訳) 本稿では,訓練中に興味のある対象の実例,すなわちセグメンテーションのためのゼロショットsim-to-real転送にアクセスできない場合,対象セグメンテーションに対するsim-to-real転送の問題に対処する。
サイドスキャンソナー画像における難破セグメンテーションの応用に焦点を当てた。
提案する新しいセグメンテーションネットワークであるstarsは,予測された変形場と異常体積を融合することにより,実ソナー画像への一般化と,画像セグメンテーションのためのより効果的なゼロショットsim-to-real転送を実現する。
自律型水中探査機(auv)を用いた現場調査から収集した難破船のソナーデータを用いて,本手法のsim-to-real転送性能を評価する。
スターは完全にシミュレーションで訓練され、実データに微調整を加えることなくゼロショットの難破船セグメンテーションを行う。
本手法は, 最良ベースラインと比較して, 目標艦艇級のセグメンテーション性能が20%向上することを示す。 In this paper, we address the problem of sim-to-real transfer for object segmentation when there is no access to real examples of an object of interest during training, i.e. zero-shot sim-to-real transfer for segmentation. We focus on the application of shipwreck segmentation in side scan sonar imagery. Our novel segmentation network, STARS, addresses this challenge by fusing a predicted deformation field and anomaly volume, allowing it to generalize better to real sonar images and achieve more effective zero-shot sim-to-real transfer for image segmentation. We evaluate the sim-to-real transfer capabilities of our method on a real, expert-labeled side scan sonar dataset of shipwrecks collected from field work surveys with an autonomous underwater vehicle (AUV). STARS is trained entirely in simulation and performs zero-shot shipwreck segmentation with no additional fine-tuning on real data. Our method provides a significant 20% increase in segmentation performance for the targeted shipwreck class compared to the best baseline. | 翻訳日:2023-10-04 18:40:12 公開日:2023-10-02 |
# Artemis: 効果的なプライバシ保護機械学習のためのHE対応トレーニング Artemis: HE-Aware Training for Efficient Privacy-Preserving Machine Learning ( http://arxiv.org/abs/2310.01664v1 ) ライセンス: Link先を確認 | Yeonsoo Jeon, Mattan Erez, Michael Orshansky | (参考訳) ホモモルフィック暗号化(HE)に基づくプライバシ保護ML(PPML)は,将来性のある基本プライバシ技術である。
より実用的なものにするには、特に現代の大規模深層ニューラルネットワークを扱う際に計算コストを下げる必要がある。
プルーニングによるモデル圧縮は,従来の平文MLでは極めて有効であるが,HE-PPMLには適用できない。
HEに基づく推論のための高効率DNNプルーニング手法であるArtemisを提案する。
畳み込みにおける計算時間を支配する回転操作数を減らすため,2つの平滑な刈り込み戦略(位置的および対角的)を調査した。
パレート最適解は完全に対角的プルーニングに基づいていることが分かる。
アルテミスの利点は、新しいグループのラッソ正規化目標によって駆動されるDNNトレーニングと、HE固有のコスト削減(回転操作によって支配される)を最大化するプルーニングとの結合にある。
その結果,artemisは3つのデータセットにまたがる現代的な畳み込みモデル(resnet18とresnet18)をターゲットとして1.2~6倍改善できることが分かった。 Privacy-Preserving ML (PPML) based on Homomorphic Encryption (HE) is a promising foundational privacy technology. Making it more practical requires lowering its computational cost, especially, in handling modern large deep neural networks. Model compression via pruning is highly effective in conventional plaintext ML but cannot be effectively applied to HE-PPML as is. We propose Artemis, a highly effective DNN pruning technique for HE-based inference. We judiciously investigate two HE-aware pruning strategies (positional and diagonal) to reduce the number of Rotation operations, which dominate compute time in HE convolution. We find that Pareto-optimal solutions are based fully on diagonal pruning. Artemis' benefits come from coupling DNN training, driven by a novel group Lasso regularization objective, with pruning to maximize HE-specific cost reduction (dominated by the Rotation operations). We show that Artemis improves on prior HE-oriented pruning and can achieve a 1.2-6x improvement when targeting modern convolutional models (ResNet18 and ResNet18) across three datasets. | 翻訳日:2023-10-04 18:39:52 公開日:2023-10-02 |
# 内視鏡における単眼深度予測のためのタスク誘導領域ギャップ低減 Task-guided Domain Gap Reduction for Monocular Depth Prediction in Endoscopy ( http://arxiv.org/abs/2310.01663v1 ) ライセンス: Link先を確認 | Anita Rau, Binod Bhattarai, Lourdes Agapito, Danail Stoyanov | (参考訳) 大腸癌は世界で最も致命的ながんの1つである。
近年,コンピュータ支援手法は,癌検診の強化と,サブタスクの自動化による大腸粘膜の質と可用性の向上を目的としている。
そのようなタスクの1つは、鏡視下ナビゲーションを補助する単眼ビデオフレームからの深さの予測である。
ハードウェアの制約により、標準的 in-vivo 大腸内視鏡の真理深度は依然として達成不可能であるため、2つのアプローチは、実際のトレーニングデータの必要性を回避することを目的としている。
しかし、自己監督手法は、エッジ、自己閉塞、照明の不整合に苦しむ信頼できない損失関数に依存する。
合成データに基づいて訓練された方法は、合成ジオメトリの正確な深さを提供することができるが、実際のデータからの幾何学的監視信号は使用せず、合成解剖学や特性に過剰に適合する。
本研究は,ラベル付き合成およびラベルなし実データを活用する新しい手法を提案する。
従来のドメイン適応手法では,両入力データモダリティの分布の一致を無差別に強制するが,最終タスク,深さ予測,入力ドメイン間の必須情報のみを翻訳する。
本手法により, 実大腸内視鏡像のよりレジリエントで高精度な深度マップが得られた。 Colorectal cancer remains one of the deadliest cancers in the world. In recent years computer-aided methods have aimed to enhance cancer screening and improve the quality and availability of colonoscopies by automatizing sub-tasks. One such task is predicting depth from monocular video frames, which can assist endoscopic navigation. As ground truth depth from standard in-vivo colonoscopy remains unobtainable due to hardware constraints, two approaches have aimed to circumvent the need for real training data: supervised methods trained on labeled synthetic data and self-supervised models trained on unlabeled real data. However, self-supervised methods depend on unreliable loss functions that struggle with edges, self-occlusion, and lighting inconsistency. Methods trained on synthetic data can provide accurate depth for synthetic geometries but do not use any geometric supervisory signal from real data and overfit to synthetic anatomies and properties. This work proposes a novel approach to leverage labeled synthetic and unlabeled real data. While previous domain adaptation methods indiscriminately enforce the distributions of both input data modalities to coincide, we focus on the end task, depth prediction, and translate only essential information between the input domains. Our approach results in more resilient and accurate depth maps of real colonoscopy sequences. | 翻訳日:2023-10-04 18:39:30 公開日:2023-10-02 |
# SYRAC: 合成、ランク、カウント SYRAC: Synthesize, Rank, and Count ( http://arxiv.org/abs/2310.01662v1 ) ライセンス: Link先を確認 | Adriano D'Alessandro, Ali Mahdavi-Amiri and Ghassan Hamarneh | (参考訳) クラウドカウントはコンピュータビジョンにおいて重要なタスクであり、いくつかの重要な応用がある。
しかし、既存の計数法は労働集約密度マップアノテーションに依存しており、個々の歩行者の手動位置決めを必要とする。
近年、弱い学習や半教師あり学習によるアノテーションの負担軽減が試みられているが、これらのアプローチは作業負荷を大幅に削減するものではない。
本稿では, 遅延拡散モデルを用いて合成データを生成することによって, アノテーションの負担を軽減する手法を提案する。
しかし、これらのモデルはオブジェクトの量を確実に理解するのに苦労しており、特定の量のオブジェクトで画像を生成すると、ノイズの多いアノテーションが発生する。
これを解決するために、潜伏拡散モデルを用いて、実際の画像から歩行者を除去し、弱いが信頼性の高い物体量信号でランク付けされた画像対を生成し、また、所定の数の物体で合成画像を生成し、強いがノイズの多い計数信号を提供する2種類の合成データを生成する。
本手法では,事前学習にランキング画像ペアを活用し,群集量特徴を用いたノイズ合成画像に線形層を適合させる。
教師なしの群衆数に対する最先端の成果を報告する。 Crowd counting is a critical task in computer vision, with several important applications. However, existing counting methods rely on labor-intensive density map annotations, necessitating the manual localization of each individual pedestrian. While recent efforts have attempted to alleviate the annotation burden through weakly or semi-supervised learning, these approaches fall short of significantly reducing the workload. We propose a novel approach to eliminate the annotation burden by leveraging latent diffusion models to generate synthetic data. However, these models struggle to reliably understand object quantities, leading to noisy annotations when prompted to produce images with a specific quantity of objects. To address this, we use latent diffusion models to create two types of synthetic data: one by removing pedestrians from real images, which generates ranked image pairs with a weak but reliable object quantity signal, and the other by generating synthetic images with a predetermined number of objects, offering a strong but noisy counting signal. Our method utilizes the ranking image pairs for pre-training and then fits a linear layer to the noisy synthetic images using these crowd quantity features. We report state-of-the-art results for unsupervised crowd counting. | 翻訳日:2023-10-04 18:39:07 公開日:2023-10-02 |
# Home Electricity Data Generator (HEDGE): 電気自動車、住宅需要、およびPV生成プロファイルのオープンアクセスツール Home Electricity Data Generator (HEDGE): An open-access tool for the generation of electric vehicle, residential demand, and PV generation profiles ( http://arxiv.org/abs/2310.01661v1 ) ライセンス: Link先を確認 | Flora Charbonnier, Thomas Morstyn, Malcolm McCulloch | (参考訳) 本稿では,現実的な住宅エネルギーデータをランダムに生成するためのオープンアクセスツールであるHome Electricity Data Generator (HEDGE)を提案する。
HEDGEは、実生活の英国データセットに基づいて、住宅用PV生成、家庭用電力負荷、電気自動車の消費と家庭での可用性の現実的な日々のプロファイルを生成する。
使用可能なデータの欠如は、特に機械学習ベースの予測や強化学習ベースの制御といったデータ駆動手法を使用する場合、住宅用分散エネルギー資源の特徴付けと調整に関する研究において大きなハードルとなる。
大きな問題は、大規模なデータバンクが利用可能だが、使用可能なフォーマットではなく、その後数日間の特定の単一家庭のデータが利用できないことだ。
これらのギャップをオープンアクセスのHEDGEツールで埋める。これは、プロファイルの規模と行動クラスタの両方において、単一の家庭で一貫した方法で、数日間にわたってエネルギーデータのデータシーケンスを生成する。
生データセットから、不完全なデータシーケンスやクラスタリングプロファイルを振る舞いクラスタに埋め込むなど、前処理のステップが実行される。
次に、GAN(Generative Adversarial Network)を訓練し、実際の行動パターンと物理パターンに整合した各行動群を表す現実的な合成データを生成する。 In this paper, we present the Home Electricity Data Generator (HEDGE), an open-access tool for the random generation of realistic residential energy data. HEDGE generates realistic daily profiles of residential PV generation, household electric loads, and electric vehicle consumption and at-home availability, based on real-life UK datasets. The lack of usable data is a major hurdle for research on residential distributed energy resources characterisation and coordination, especially when using data-driven methods such as machine learning-based forecasting and reinforcement learning-based control. A key issue is that while large data banks are available, they are not in a usable format, and numerous subsequent days of data for a given single home are unavailable. We fill these gaps with the open-access HEDGE tool which generates data sequences of energy data for several days in a way that is consistent for single homes, both in terms of profile magnitude and behavioural clusters. From raw datasets, pre-processing steps are conducted, including filling in incomplete data sequences and clustering profiles into behaviour clusters. Generative adversarial networks (GANs) are then trained to generate realistic synthetic data representative of each behaviour groups consistent with real-life behavioural and physical patterns. | 翻訳日:2023-10-04 18:38:41 公開日:2023-10-02 |
# タイム・オブ・フライカメラで車内ジェスチャー認識をパーソナライズ It's all about you: Personalized in-Vehicle Gesture Recognition with a Time-of-Flight Camera ( http://arxiv.org/abs/2310.01659v1 ) ライセンス: Link先を確認 | Amr Gomaa, Guillermo Reyes, Michael Feld | (参考訳) ジェスチャー認識技術の進歩にもかかわらず、運転環境におけるジェスチャーの認識は、限られた費用がかかるデータと、その動的で絶え間なく変化する性質のために困難である。
本研究では,CNNLSTMモデルのトレーニングをパーソナライズし,データ要求を低減しつつ認識精度を向上させるモデル適応手法を提案する。
本手法は,運転時の動的手振り認識の分野に寄与し,個々の利用者向けにカスタマイズ可能なより効率的で正確な方法を提供し,最終的には車内インタラクションの安全性と利便性,さらには運転経験やシステム信頼を高める。
我々は,飛行時間カメラを用いたハードウェア強化と,データ拡張,パーソナライズされた適応,インクリメンタル学習技術によるアルゴリズム強化を組み込んだ。
本手法の性能を認識精度の観点から評価し,最大90\%まで達成し,ユーザ中心設計におけるパーソナライズ適応とインクリメンタル学習の有効性を示す。 Despite significant advances in gesture recognition technology, recognizing gestures in a driving environment remains challenging due to limited and costly data and its dynamic, ever-changing nature. In this work, we propose a model-adaptation approach to personalize the training of a CNNLSTM model and improve recognition accuracy while reducing data requirements. Our approach contributes to the field of dynamic hand gesture recognition while driving by providing a more efficient and accurate method that can be customized for individual users, ultimately enhancing the safety and convenience of in-vehicle interactions, as well as driver's experience and system trust. We incorporate hardware enhancement using a time-of-flight camera and algorithmic enhancement through data augmentation, personalized adaptation, and incremental learning techniques. We evaluate the performance of our approach in terms of recognition accuracy, achieving up to 90\%, and show the effectiveness of personalized adaptation and incremental learning for a user-centered design. | 翻訳日:2023-10-04 18:37:58 公開日:2023-10-02 |
# polysketchformer:多項式核のスケッチによる高速トランスフォーマー PolySketchFormer: Fast Transformers via Sketches for Polynomial Kernels ( http://arxiv.org/abs/2310.01655v1 ) ライセンス: Link先を確認 | Praneeth Kacham, Vahab Mirrokni, Peilin Zhong | (参考訳) トランスフォーマーアーキテクチャにおける注意の二次的複雑さは、長いコンテキストで大規模基礎モデルをスケールアップする上で、依然として大きなボトルネックとなっている。
実際、最近の理論結果は、強い指数時間仮説を仮定した亜四次時間におけるソフトマックス注意機構の出力を近似する難しさを示している。
本稿では,softmaxを多項式関数と多項式スケッチに置き換えることで,この理論上の障壁を破る方法について述べる。
特に、ランダム化された数値線形代数の文献からポリノミアル・カーネルのスケッチを用いて多項式の注意を近似し、それまで多くの研究で行われてきた注意行列のスパース構造を仮定することなく、より高速な注意機構を実現できることを示す。
さらに,n \times n$ attention matrixを明示的に認識することなく,注意行列に因果マスクを適用し,文脈長に線形な時間に多項式注意機構の出力を計算する効率的なブロックベースアルゴリズムを提案する。
ブロックベースのアルゴリズムは、Performer が注意行列に因果マスクを適用するために用いた \emph{cumulative sum} アルゴリズムを大幅に高速化する。
これらの観測は、証明可能な保証付き言語モデリングのための実用的な線形時間変換アーキテクチャである \emph{PolySketchFormer} の設計に役立つ。
長い文脈長を持つ言語モデルを訓練することで、経験的に設計を検証する。
まず、私たちのモデルのevalパープレクティビティは、ソフトマックスで訓練されたモデルと同等であることを示す。
そして、大きなコンテキストでは、トレーニング時間がフラッシュアテンションよりも大幅に速いことを示します。 The quadratic complexity of attention in transformer architectures remains a big bottleneck in scaling up large foundation models for long context. In fact, recent theoretical results show the hardness of approximating the output of softmax attention mechanism in sub-quadratic time assuming Strong Exponential Time Hypothesis. In this paper, we show how to break this theoretical barrier by replacing softmax with a polynomial function and polynomial sketching. In particular we show that sketches for Polynomial Kernel from the randomized numerical linear algebra literature can be used to approximate the polynomial attention which leads to a significantly faster attention mechanism without assuming any sparse structure for the attention matrix that has been done in many previous works. In addition, we propose an efficient block-based algorithm that lets us apply the causal mask to the attention matrix without explicitly realizing the $n \times n$ attention matrix and compute the output of the polynomial attention mechanism in time linear in the context length. The block-based algorithm gives significant speedups over the \emph{cumulative sum} algorithm used by Performer to apply the causal mask to the attention matrix. These observations help us design \emph{PolySketchFormer}, a practical linear-time transformer architecture for language modeling with provable guarantees. We validate our design empirically by training language models with long context lengths. We first show that the eval perplexities of our models are comparable to that of models trained with softmax attention. We then show that for large context lengths our training times are significantly faster than FlashAttention. | 翻訳日:2023-10-04 18:37:14 公開日:2023-10-02 |
# 恥ずかしいほど単純な置換で(ビジョンと)言語モデルを作る Fool Your (Vision and) Language Model With Embarrassingly Simple Permutations ( http://arxiv.org/abs/2310.01651v1 ) ライセンス: Link先を確認 | Yongshuo Zong, Tingyang Yu, Bingchen Zhao, Ruchika Chavhan, Timothy Hospedales | (参考訳) 大規模言語と視覚言語モデルは、命令の追従、コンテキスト内学習などにおける印象的な能力のおかげで、急速にデプロイされている。
このことは、ステークホルダーが特定のアプリケーションに頼れるほど信頼できるモデルかどうかを理解できるように、彼らの堅牢さを慎重に分析する緊急の要求を提起する。
本稿では,多選択質問応答(MCQA)における置換感度という,人気モデルの特定の脆弱性を強調する。
具体的には,マルチチョイスプロンプトのための解集合の逆順置換に対して,ポピュラーモデルが脆弱であることを実証的に示す。
これらの脆弱性はさまざまなモデルサイズにわたって持続し、非常に最近の言語モデルや視覚言語モデルに存在する。
コードは \url{https://github.com/ys-zong/FoolyourVLLMs} で入手できる。 Large language and vision-language models are rapidly being deployed in practice thanks to their impressive capabilities in instruction following, in-context learning, and so on. This raises an urgent need to carefully analyse their robustness so that stakeholders can understand if and when such models are trustworthy enough to be relied upon in any given application. In this paper, we highlight a specific vulnerability in popular models, namely permutation sensitivity in multiple-choice question answering (MCQA). Specifically, we show empirically that popular models are vulnerable to adversarial permutation in answer sets for multiple-choice prompting, which is surprising as models should ideally be as invariant to prompt permutation as humans are. These vulnerabilities persist across various model sizes, and exist in very recent language and vision-language models. Code is available at \url{https://github.com/ys-zong/FoolyourVLLMs}. | 翻訳日:2023-10-04 18:36:41 公開日:2023-10-02 |
# CoDBench: 継続的動的システムのためのデータ駆動モデルの批判的評価 CoDBench: A Critical Evaluation of Data-driven Models for Continuous Dynamical Systems ( http://arxiv.org/abs/2310.01650v1 ) ライセンス: Link先を確認 | Priyanshu Burark, Karn Tiwari, Meer Mehran Rashid, Prathosh A P, N M Anoop Krishnan | (参考訳) 連続力学系は微分方程式によって特徴づけられ、プラズマ力学、多孔質媒質中の流れ、気象予報、流行のダイナミクスといったいくつかの重要な問題をモデル化するためにユビキタスに使われている。
近年、様々なデータ駆動モデルが、これらのシステムのモデル化に成功している。
しかし、コンピュータビジョンのような確立された分野とは対照的に、科学的な機械学習において決定を下す可能性のあるモデルの様々なクラスの強みと潜在的な応用を分析する研究は限られている。
本稿では、微分方程式を解くための11の最先端データ駆動モデルからなる徹底的なベンチマークスイートであるCodBenchを紹介する。
具体的には,流体力学と固体力学の課題を包含する8つの広く適用可能なベンチマークデータセットに対して,モデルviz.,フィードフォワードニューラルネットワーク,ディープオペレータ回帰モデル,周波数ベースニューラルネットワーク,トランスフォーマーアーキテクチャの4つの異なるカテゴリを包括的に評価した。
学習におけるオペレータの能力,ゼロショット超解像,データ効率,雑音に対するロバスト性,計算効率を評価する。
興味深いことに、現在のオペレータが新しいメカニクスデータセットに苦労していることが、より堅牢な神経オペレータの必要性を動機付けている。
データセットとコードはすべて、科学コミュニティにとって使いやすい方法で共有されます。
このリソースが、動的システムのモデリングにおける進捗の加速と探索の原動力となることを願っています。 Continuous dynamical systems, characterized by differential equations, are ubiquitously used to model several important problems: plasma dynamics, flow through porous media, weather forecasting, and epidemic dynamics. Recently, a wide range of data-driven models has been used successfully to model these systems. However, in contrast to established fields like computer vision, limited studies are available analyzing the strengths and potential applications of different classes of these models that could steer decision-making in scientific machine learning. Here, we introduce CodBench, an exhaustive benchmarking suite comprising 11 state-of-the-art data-driven models for solving differential equations. Specifically, we comprehensively evaluate 4 distinct categories of models, viz., feed forward neural networks, deep operator regression models, frequency-based neural operators, and transformer architectures against 8 widely applicable benchmark datasets encompassing challenges from fluid and solid mechanics. We conduct extensive experiments, assessing the operators' capabilities in learning, zero-shot super-resolution, data efficiency, robustness to noise, and computational efficiency. Interestingly, our findings highlight that current operators struggle with the newer mechanics datasets, motivating the need for more robust neural operators. All the datasets and codes will be shared in an easy-to-use fashion for the scientific community. We hope this resource will be an impetus for accelerated progress and exploration in modeling dynamical systems. | 翻訳日:2023-10-04 18:36:12 公開日:2023-10-02 |
# 微分制約ニューラルネットワークの訓練について On Training Derivative-Constrained Neural Networks ( http://arxiv.org/abs/2310.01649v1 ) ライセンス: Link先を確認 | KaiChieh Lo, Daniel Huang | (参考訳) 本稿では、ニューラルネットワーク(NN)の入力に対する予測の(部分的)微分が、微分制約(DC)NNとして追加の訓練信号として使用される設定について述べる。
この状況は自然科学の物理学的な設定でよく見られる。
直流NNのトレーニングを改善するための統合RELU(IRELU)アクティベーション機能を提案する。
また,DCトレーニングの安定化を支援するため,非正規化やラベル再スケーリングも検討した。
我々は,量子化学やSciML(SciML)タスクなど,物理インフォームドセッティングの手法を評価する。
ireluアクティベーションと非正規化とラベルリスケーリングを組み合わせた既存のアーキテクチャは、デリバティブ制約によって提供されるトレーニング信号をうまく組み込むことができる。 We refer to the setting where the (partial) derivatives of a neural network's (NN's) predictions with respect to its inputs are used as additional training signal as a derivative-constrained (DC) NN. This situation is common in physics-informed settings in the natural sciences. We propose an integrated RELU (IReLU) activation function to improve training of DC NNs. We also investigate denormalization and label rescaling to help stabilize DC training. We evaluate our methods on physics-informed settings including quantum chemistry and Scientific Machine Learning (SciML) tasks. We demonstrate that existing architectures with IReLU activations combined with denormalization and label rescaling better incorporate training signal provided by derivative constraints. | 翻訳日:2023-10-04 18:35:47 公開日:2023-10-02 |
# すべてを支配する一つのモデル?
エンドツーエンド共同話者ダイアリゼーションと音声認識に向けて One model to rule them all ? Towards End-to-End Joint Speaker Diarization and Speech Recognition ( http://arxiv.org/abs/2310.01688v1 ) ライセンス: Link先を確認 | Samuele Cornell, Jee-weon Jung, Shinji Watanabe, Stefano Squartini | (参考訳) 本稿では,slidar (sliding-window diarization-augmented recognition) と呼ばれる話者ダイアリゼーション(sd)と自動音声認識(asr)の新たな枠組みを提案する。
SLIDARは任意の長さの入力を処理でき、任意の数の話者を処理できる。
SLIDARは、スライディングウインドウアプローチを活用し、各ウインドウに対してローカルに書き起こし、ダイアリゼーション、ダイアリゼーション、話者埋め込みを提供するエンドツーエンドダイアリゼーション拡張音声書き起こし(E2E DAST)モデルで構成される。
E2E DASTモデルはエンコーダ・デコーダアーキテクチャに基づいており、シリアライズされた出力トレーニングや ``Whisper-style' プロンプトといった最近の技術を活用している。
ローカル出力は、グローバルな話者識別を得るために話者埋め込みをクラスタ化することで、最終的なSD+ASR結果を得るために結合される。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。 This paper presents a novel framework for joint speaker diarization (SD) and automatic speech recognition (ASR), named SLIDAR (sliding-window diarization-augmented recognition). SLIDAR can process arbitrary length inputs and can handle any number of speakers, effectively solving ``who spoke what, when'' concurrently. SLIDAR leverages a sliding window approach and consists of an end-to-end diarization-augmented speech transcription (E2E DAST) model which provides, locally, for each window: transcripts, diarization and speaker embeddings. The E2E DAST model is based on an encoder-decoder architecture and leverages recent techniques such as serialized output training and ``Whisper-style" prompting. The local outputs are then combined to get the final SD+ASR result by clustering the speaker embeddings to get global speaker identities. Experiments performed on monaural recordings from the AMI corpus confirm the effectiveness of the method in both close-talk and far-field speech scenarios. | 翻訳日:2023-10-04 18:29:56 公開日:2023-10-02 |
# 安定性からカオスへ:二次回帰における勾配降下ダイナミクスの解析 From Stability to Chaos: Analyzing Gradient Descent Dynamics in Quadratic Regression ( http://arxiv.org/abs/2310.01687v1 ) ライセンス: Link先を確認 | Xuxing Chen, Krishnakumar Balasubramanian, Promit Ghosal, Bhavya Agrawalla | (参考訳) 本研究では,2次回帰モデルの文脈における高次定数ステップサイズを用いた勾配降下のダイナミクスを包括的に研究する。
このフレームワーク内では、ダイナミックスを特定の立方体マップにカプセル化でき、ステップサイズによって自然にパラメータ化することができる。
ステップサイズパラメータに関する細粒度分岐解析により,(1)単調,(2)カタパルト,(3)周期,(4)カオス,(5)分岐の5つの異なる訓練位相を,各位相の境界を正確に決定する。
例として,直交学習データを用いて,二次活性化関数と定数外層を用いた位相検索と2層ニューラルネットワークの例を示す。
シミュレーションの結果,これら5つの相は一般の非直交データでも現れることがわかった。
また, 各種非単調(および非発振)位相のトレーニングにおける一般化性能を実験的に検討した。
特に,エルゴード軌道平均化は非単調(および非発散)相における試験誤差を安定化させる。 We conduct a comprehensive investigation into the dynamics of gradient descent using large-order constant step-sizes in the context of quadratic regression models. Within this framework, we reveal that the dynamics can be encapsulated by a specific cubic map, naturally parameterized by the step-size. Through a fine-grained bifurcation analysis concerning the step-size parameter, we delineate five distinct training phases: (1) monotonic, (2) catapult, (3) periodic, (4) chaotic, and (5) divergent, precisely demarcating the boundaries of each phase. As illustrations, we provide examples involving phase retrieval and two-layer neural networks employing quadratic activation functions and constant outer-layers, utilizing orthogonal training data. Our simulations indicate that these five phases also manifest with generic non-orthogonal data. We also empirically investigate the generalization performance when training in the various non-monotonic (and non-divergent) phases. In particular, we observe that performing an ergodic trajectory averaging stabilizes the test error in non-monotonic (and non-divergent) phases. | 翻訳日:2023-10-04 18:29:33 公開日:2023-10-02 |
# 医用画像のための機械学習における解釈可能性の枠組み A Framework for Interpretability in Machine Learning for Medical Imaging ( http://arxiv.org/abs/2310.01685v1 ) ライセンス: Link先を確認 | Alan Q. Wang, Batuhan K. Karaman, Heejong Kim, Jacob Rosenthal, Rachit Saluja, Sean I. Young, Mert R. Sabuncu | (参考訳) 医療画像(MLMI)における機械学習モデルの解釈可能性は研究の重要な方向である。
しかし、解釈可能性の意味には全般的な混乱感がある。
なぜMLMIにおける解釈可能性の必要性が生じるのか?
解釈可能性が必要なとき、実際に対処しようとする目標は何でしょう?
これらの疑問に答えるために、MLMIにおける解釈可能性の目標と要素を形式化する必要性を特定する。
医用画像解析と機械学習との共通点の両方に共通する実世界の課題と目標を推論することにより、我々は、解釈可能性の4つの中核となる要素を同定する。
本稿では,医療画像の文脈における解釈可能性の必要性を定式化し,具体的MLMI固有の目標と考察を明確にし,手法設計の指導と実世界の利用改善を図る。
私たちの目標は、モデル設計者や実践者に対して実践的でディダクティックな情報を提供し、医療画像分野のモデルの開発者を刺激し、解釈可能性の達成についてより深く推論し、解釈可能性研究の今後の方向性を提案することである。 Interpretability for machine learning models in medical imaging (MLMI) is an important direction of research. However, there is a general sense of murkiness in what interpretability means. Why does the need for interpretability in MLMI arise? What goals does one actually seek to address when interpretability is needed? To answer these questions, we identify a need to formalize the goals and elements of interpretability in MLMI. By reasoning about real-world tasks and goals common in both medical image analysis and its intersection with machine learning, we identify four core elements of interpretability: localization, visual recognizability, physical attribution, and transparency. Overall, this paper formalizes interpretability needs in the context of medical imaging, and our applied perspective clarifies concrete MLMI-specific goals and considerations in order to guide method design and improve real-world usage. Our goal is to provide practical and didactic information for model designers and practitioners, inspire developers of models in the medical imaging field to reason more deeply about what interpretability is achieving, and suggest future directions of interpretability research. | 翻訳日:2023-10-04 18:29:15 公開日:2023-10-02 |
# 新規非現実的説明による血糖予防のためのユーザ中心行動介入の設計 Designing User-Centric Behavioral Interventions to Prevent Dysglycemia with Novel Counterfactual Explanations ( http://arxiv.org/abs/2310.01684v1 ) ライセンス: Link先を確認 | Asiful Arefeen and Hassan Ghasemzadeh | (参考訳) 生活習慣を通じて正常な血糖値を維持することは、健康維持と疾患予防の中心である。
高血糖や低血糖などの異常なグルコースイベントに頻繁に曝露すると、糖尿病、腎臓病、透析、心筋梗塞、脳卒中、切断、死亡などの慢性合併症が引き起こされる。
したがって、血糖値の予測や、食事、運動、薬物の異常なグリセミックイベントを防止する方法に関するフィードバックをユーザに提供できるツールは、社会に大きな影響を与える可能性がある。
対実的な説明は、モデルが元の入力と似ているが異なる予測結果をもたらす仮説的なインスタンスを生成することによって、モデルが特定の予測を行った理由に関する洞察を与えることができる。
したがって、偽物は、高血糖などの有害な健康結果を防止するためにai主導の健康介入を設計する手段と見なすことができる。
本稿では,グルコース制御のための逆ファクトな説明を生成するフレームワークであるGlyCoachを設計する。
逆学習からの洞察を活用して、グリコーハは高次元の健康データに対する決定境界を特徴付け、グリッド検索を実行し、実行可能な介入を生成する。
GlyCoachは、もっともらしい説明のユーザの好みに関する事前知識を、対実生成のプロセスに統合することに特有である。
グルコース応答を予測した先行研究から, 2つの実世界のデータセットと外部シミュレータを用いてグリコーアを広範囲に評価した。
グリコーハはシミュレーション支援の検証において87\%の感度を達成し、偽の説明を少なくとも10\%$で生成する最先端の手法を上回っている。
さらに、GlyCoachのカウンターファクトリーは、従来の研究と比べて正常化距離が32.5%改善している。 Maintaining normal blood glucose levels through lifestyle behaviors is central to maintaining health and preventing disease. Frequent exposure to dysglycemia (i.e., abnormal glucose events such as hyperlycemia and hypoglycemia) leads to chronic complications including diabetes, kidney disease and need for dialysis, myocardial infarction, stroke, amputation, and death. Therefore, a tool capable of predicting dysglycemia and offering users actionable feedback about how to make changes in their diet, exercise, and medication to prevent abnormal glycemic events could have significant societal impacts. Counterfactual explanations can provide insights into why a model made a particular prediction by generating hypothetical instances that are similar to the original input but lead to a different prediction outcome. Therefore, counterfactuals can be viewed as a means to design AI-driven health interventions to prevent adverse health outcomes such as dysglycemia. In this paper, we design GlyCoach, a framework for generating counterfactual explanations for glucose control. Leveraging insights from adversarial learning, GlyCoach characterizes the decision boundary for high-dimensional health data and performs a grid search to generate actionable interventions. GlyCoach is unique in integrating prior knowledge about user preferences of plausible explanations into the process of counterfactual generation. We evaluate GlyCoach extensively using two real-world datasets and external simulators from prior studies that predict glucose response. GlyCoach achieves 87\% sensitivity in the simulation-aided validation, surpassing the state-of-the-art techniques for generating counterfactual explanations by at least $10\%$. Besides, counterfactuals from GlyCoach exhibit a $32\%$ improved normalized distance compared to previous research. | 翻訳日:2023-10-04 18:28:55 公開日:2023-10-02 |
# ディープニューラルネットワークにおける可換幅と深度スケーリング Commutative Width and Depth Scaling in Deep Neural Networks ( http://arxiv.org/abs/2310.01683v1 ) ライセンス: Link先を確認 | Soufiane Hayou | (参考訳) 本稿では,深部ニューラルネットワークにおける無限幅および深度制限の可換性について,Cultative Scaling of Width and Depth (WD)シリーズの第2弾となる。
私たちの目標は、幅と深さが(ある意味では)無限になるにつれて、ニューラルネットワーク(ニューラルネットワークモデルに依存する関数)の挙動を理解し、最終的に可換性が保持する設定、すなわち、どの幅と深さ制限が取られても、神経関数は同じ制限を受ける傾向があることを識別することにあります。
本稿では,可換性フレームワークを正式に導入,定義し,ニューラルネットワークの設計とスケーリングに与える影響について論じる。
ネットワーク層がデータを分離する方法を反映したニューラル共分散カーネルの可換性について検討する。
その結果,[55]では, 枝が爆発的な振る舞いを避けるために適切にスケールされた場合, 枝の幅と深さをスキップ接続のあるディープニューラルネットワークにおいて無限大にすることで, どのような制限を取ろうとも, 同じ共分散構造になることがわかった。
このことは、本稿で論じる理論的および実践的な意味を持つ。
本論文の証明手法は,確率計算に慣れていない読者(WD(I)の証明に使用される)に対して,よりアクセスしやすいツールに頼っている。 This paper is the second in the series Commutative Scaling of Width and Depth (WD) about commutativity of infinite width and depth limits in deep neural networks. Our aim is to understand the behaviour of neural functions (functions that depend on a neural network model) as width and depth go to infinity (in some sense), and eventually identify settings under which commutativity holds, i.e. the neural function tends to the same limit no matter how width and depth limits are taken. In this paper, we formally introduce and define the commutativity framework, and discuss its implications on neural network design and scaling. We study commutativity for the neural covariance kernel which reflects how network layers separate data. Our findings extend previous results established in [55] by showing that taking the width and depth to infinity in a deep neural network with skip connections, when branches are suitably scaled to avoid exploding behaviour, result in the same covariance structure no matter how that limit is taken. This has a number of theoretical and practical implications that we discuss in the paper. The proof techniques in this paper are novel and rely on tools that are more accessible to readers who are not familiar with stochastic calculus (used in the proofs of WD(I))). | 翻訳日:2023-10-04 18:28:26 公開日:2023-10-02 |
# 注釈付き医用画像分割のためのキーポイント強化自己監督学習 Keypoint-Augmented Self-Supervised Learning for Medical Image Segmentation with Limited Annotation ( http://arxiv.org/abs/2310.01680v1 ) ライセンス: Link先を確認 | Zhangsihao Yang, Mengwei Ren, Kaize Ding, Guido Gerig, Yalin Wang | (参考訳) 自己スーパービジョンによるcnnモデル(すなわちunet)の事前トレーニングは、低いアノテーション条件下で医用画像のセグメンテーションを促進するための強力なアプローチとなっている。
最近のコントラスト学習手法は、同じ画像が異なる変換を受けたときに同様のグローバル表現を奨励し、あるいは本質的に相関している異なる画像/パッチの特徴に対して不変性を強制する。
しかしながら、cnnが抽出したグローバルおよびローカルの特徴は、生物学的解剖学に不可欠な長距離空間依存を捉えることに制限されている。
この目的のために,短距離および長距離の自己着脱を保存する表現を抽出したキーポイント提示型核融合層を提案する。
特に、局所化キーポイント特徴間の長距離空間自己アテンションを学習する追加入力を組み込むことにより、CNN機能マップを複数スケールで拡張する。
さらに,グローバルおよびローカルの自己教師付き事前学習についても紹介する。
グローバルスケールでは、UNetのボトルネックと、マルチスケールのキーポイント機能を集約することで、グローバルな表現を得る。
これらのグローバルな特徴はその後、画像レベルのコントラスト目的によって規則化される。
局所スケールでは、まずキーポイント間の対応を確立し、特徴間の類似性を促進するための距離ベースの基準を定義する。
CNN と Transformer ベースの UNets と比較して,すべてのアーキテクチャがランダムに初期化重みでトレーニングされている場合,MRI と CT のセグメンテーションタスクの広範な実験を通じて,提案手法のアーキテクチャ上の利点を実証する。
提案した事前学習戦略により,より堅牢な自己アテンションを生成し,最先端のセグメンテーション結果を得ることにより,既存のSSL手法よりも優れる。
コードはhttps://github.com/zshyang/kaf.gitで入手できる。 Pretraining CNN models (i.e., UNet) through self-supervision has become a powerful approach to facilitate medical image segmentation under low annotation regimes. Recent contrastive learning methods encourage similar global representations when the same image undergoes different transformations, or enforce invariance across different image/patch features that are intrinsically correlated. However, CNN-extracted global and local features are limited in capturing long-range spatial dependencies that are essential in biological anatomy. To this end, we present a keypoint-augmented fusion layer that extracts representations preserving both short- and long-range self-attention. In particular, we augment the CNN feature map at multiple scales by incorporating an additional input that learns long-range spatial self-attention among localized keypoint features. Further, we introduce both global and local self-supervised pretraining for the framework. At the global scale, we obtain global representations from both the bottleneck of the UNet, and by aggregating multiscale keypoint features. These global features are subsequently regularized through image-level contrastive objectives. At the local scale, we define a distance-based criterion to first establish correspondences among keypoints and encourage similarity between their features. Through extensive experiments on both MRI and CT segmentation tasks, we demonstrate the architectural advantages of our proposed method in comparison to both CNN and Transformer-based UNets, when all architectures are trained with randomly initialized weights. With our proposed pretraining strategy, our method further outperforms existing SSL methods by producing more robust self-attention and achieving state-of-the-art segmentation results. The code is available at https://github.com/zshyang/kaf.git. | 翻訳日:2023-10-04 18:28:03 公開日:2023-10-02 |
# 確率的保護特徴を有する従来型公平度指標の推定と実装 Estimating and Implementing Conventional Fairness Metrics With Probabilistic Protected Features ( http://arxiv.org/abs/2310.01679v1 ) ライセンス: Link先を確認 | Hadi Elzayn, Emily Black, Patrick Vossler, Nathanael Jo, Jacob Goldin, Daniel E. Ho | (参考訳) 公正なモデルを訓練するほとんどの技術は、列車時または生産時に保護された属性(例えば、人種、性別)へのアクセスを必要とする。
しかし、多くの重要なアプリケーションでは、この保護属性はほとんど利用できない。
本論文では,保護属性ラベルへのアクセスが制限された設定において,公平性違反を計測・低減する手法を開発する。
具体的には、興味のあるデータセットの小さなサブセットで保護された属性ラベルにアクセスするが、残りのデータセットに対して保護された属性ラベル(例えばベイジアン改良された名前ジオコーディング)の確率的推定のみを仮定する。
そこで本研究では,既存のモデルに対する共通フェアネスメトリクスの境界を推定する手法と,制約付き非凸最適化問題を解くことでフェアネス違反を制限できるモデルのトレーニング手法を提案する。
類似の既存手法とは異なり、我々の手法はコンテキスト情報(特にモデルの予測と保護属性の確率的予測の関係、真の保護属性が与えられた場合、およびその逆)を活用して、真の相違についてより厳密な境界を提供する。
投票データを用いた方法の実証的な例を示す。
まず,本手法は従来の手法よりも5.5倍の厳密な距離を確保できることを示す。
そこで,本手法は,保護属性へのアクセスが制限された他の公正最適化手法に比べて,不公平さを効果的に低減し,不公平なトレードオフを発生させることを実証する。 The vast majority of techniques to train fair models require access to the protected attribute (e.g., race, gender), either at train time or in production. However, in many important applications this protected attribute is largely unavailable. In this paper, we develop methods for measuring and reducing fairness violations in a setting with limited access to protected attribute labels. Specifically, we assume access to protected attribute labels on a small subset of the dataset of interest, but only probabilistic estimates of protected attribute labels (e.g., via Bayesian Improved Surname Geocoding) for the rest of the dataset. With this setting in mind, we propose a method to estimate bounds on common fairness metrics for an existing model, as well as a method for training a model to limit fairness violations by solving a constrained non-convex optimization problem. Unlike similar existing approaches, our methods take advantage of contextual information -- specifically, the relationships between a model's predictions and the probabilistic prediction of protected attributes, given the true protected attribute, and vice versa -- to provide tighter bounds on the true disparity. We provide an empirical illustration of our methods using voting data. First, we show our measurement method can bound the true disparity up to 5.5x tighter than previous methods in these applications. Then, we demonstrate that our training technique effectively reduces disparity while incurring lesser fairness-accuracy trade-offs than other fair optimization methods with limited access to protected attributes. | 翻訳日:2023-10-04 18:27:32 公開日:2023-10-02 |
# スコアダイナミクス:条件拡散モデルによるピコ秒時間ステップによる分子動力学のスケーリング Score dynamics: scaling molecular dynamics with picosecond timesteps via conditional diffusion model ( http://arxiv.org/abs/2310.01678v1 ) ライセンス: Link先を確認 | Tim Hsu, Babak Sadigh, Vasily Bulatov, Fei Zhou | (参考訳) 分子動力学(MD)シミュレーションから,原子論の効率的な進化演算子を学習するための一般的なフレームワークであるスコアダイナミクス(SD)を提案する。
sdは、動的自由度に関する遷移ログ確率のスコア、または導関数を中心に構成される。
後者はmdの力場と同じ役割を担っているが、拡散確率モデルを推論し、典型的なmd時間ステップよりも桁違いに大きいsd時間ステップ内の力学変数の離散遷移を生成するのに用いられる。
本研究では、1〜psの時間ステップで進化する現実的な分子系のグラフニューラルネットワークに基づくスコアダイナミクスモデルを構築する。
水溶液中におけるアラニンジペプチドおよび短いアルカンのケーススタディにおいてスコアダイナミクスの有効性を示す。
条件付き確率の定常分布と遷移速度および遷移経路の速度論的予測から導かれる平衡予測は,約8-18倍の壁面速度でMDとよく一致している。
オープンチャレンジと、スコアダイナミクスを改善するための将来の改善の可能性についても論じる。 We propose score dynamics (SD), a general framework for learning effective evolution operators for atomistic as well as coarse-grained dynamics from molecular-dynamics (MD) simulations. SD is centered around scores, or derivatives of the transition log-probability with respect to the dynamical degrees of freedom. The latter play the same role as force fields in MD but are used in denoising diffusion probability models to generate discrete transitions of the dynamical variables in an SD timestep, which can be orders of magnitude larger than a typical MD timestep. In this work, we construct graph neural network based score dynamics models of realistic molecular systems that are evolved with 1~ps timesteps. We demonstrate the efficacy of score dynamics with case studies of alanine dipeptide and short alkanes in aqueous solution. Both equilibrium predictions derived from the stationary distributions of the conditional probability and kinetic predictions for the transition rates and transition paths are in good agreement with MD at about 8-18 fold wall-clock speedup. Open challenges and possible future remedies to improve score dynamics are also discussed. | 翻訳日:2023-10-04 18:27:06 公開日:2023-10-02 |
# 高度なIoTベースのリモートヘルスモニタリングのためのVersatile Data Fabric A Versatile Data Fabric for Advanced IoT-Based Remote Health Monitoring ( http://arxiv.org/abs/2310.01673v1 ) ライセンス: Link先を確認 | Italo Buleje, Vince S. Siu, Kuan Yu Hsieh, Nigel Hinds, Bing Dang, Erhan Bilal, Thanhnha Nguyen, Ellen E. Lee, Colin A. Depp, Jeffrey L. Rogers | (参考訳) 本稿では,デジタルヘルスアプリケーション用に設計されたデータセントリックでセキュリティを重視したデータファブリックを提案する。
デジタルヘルス研究への関心が高まり、スマートフォン、ウェアラブル、環境センサーから得られるIoT(Internet of Things)データ量が急増している。
多様なデータタイプとさまざまな時間スケールを含む、膨大な量のデータを管理することが重要です。
さらに、規制や契約上の義務の遵守が不可欠である。
提案するデータファブリックは、さまざまな環境にわたる異種データソースの統合を容易にするアーキテクチャとツールキットで構成され、ダッシュボード内のデータの統一ビューを提供する。
さらに、データファブリックは、再利用可能な構成可能なデータ統合コンポーネントの開発をサポートします。
これらのコンポーネントは、デプロイされ、クラウドまたはオンプレミスで実行されるようにスケジュールされたデータパイプラインを生成するために使用される。
また,本研究では,高齢者を対象に,カリフォルニア大学サンディエゴ校(ucsd)と共同で行う在宅遠隔監視研究プロジェクトにおいて,データファブリックの実装について紹介する。
この研究は、さまざまなiotセンサーとモバイルアプリケーションから収集されたデータの合理化された統合を示し、さらなる分析と研究のために、高齢者の健康状態の統一ビューを作成する。 This paper presents a data-centric and security-focused data fabric designed for digital health applications. With the increasing interest in digital health research, there has been a surge in the volume of Internet of Things (IoT) data derived from smartphones, wearables, and ambient sensors. Managing this vast amount of data, encompassing diverse data types and varying time scales, is crucial. Moreover, compliance with regulatory and contractual obligations is essential. The proposed data fabric comprises an architecture and a toolkit that facilitate the integration of heterogeneous data sources, across different environments, to provide a unified view of the data in dashboards. Furthermore, the data fabric supports the development of reusable and configurable data integration components, which can be shared as open-source or inner-source software. These components are used to generate data pipelines that can be deployed and scheduled to run either in the cloud or on-premises. Additionally, we present the implementation of our data fabric in a home-based telemonitoring research project involving older adults, conducted in collaboration with the University of California, San Diego (UCSD). The study showcases the streamlined integration of data collected from various IoT sensors and mobile applications to create a unified view of older adults' health for further analysis and research. | 翻訳日:2023-10-04 18:26:52 公開日:2023-10-02 |
# GNNにおける局所性を考慮したグラフ検索 Locality-Aware Graph-Rewiring in GNNs ( http://arxiv.org/abs/2310.01668v1 ) ライセンス: Link先を確認 | Federico Barbero, Ameya Velingker, Amin Saberi, Michael Bronstein, Francesco Di Giovanni | (参考訳) グラフニューラルネットワーク(GNN)は、一般的にメッセージパスパラダイムに従うグラフ上での機械学習の一般的なモデルである。
入力グラフ上でメッセージを交換することで、GNNに強い帰納バイアスを与える一方で、GNNを過度な監視を受けやすくすることで、与えられたグラフ内の長距離インタラクションをキャプチャできないようにする。
この問題を是正するために,グラフ接続を変更することで情報フローを改善する手段として,グラフリウィリング手法が提案されている。
本研究では,グラフ検索のためのデシデラタを3つ同定する。
(i)過密を減らす。
(ii)グラフの局所性を尊重し、
(iii)グラフの空間性を保存する。
空間的およびスペクトル的リウィリング技術の間に生じる基本的なトレードオフを強調する。
(i)および
(ii)しかしそうではない
(三)一般的には後者が満足する
(i)および
(iii)犠牲にして
(ii)
我々は、これら全てを満たす新しいリウィーリングフレームワークを提案する。
(i)--
(iii)リワイリング操作の局所性認識シーケンスを通して。
次に、そのようなリワイアフレームワークの特定の事例について議論し、実世界のいくつかのベンチマークでその有効性を検証し、既存のリワイアアプローチにマッチするか、大幅に上回っていることを示す。 Graph Neural Networks (GNNs) are popular models for machine learning on graphs that typically follow the message-passing paradigm, whereby the feature of a node is updated recursively upon aggregating information over its neighbors. While exchanging messages over the input graph endows GNNs with a strong inductive bias, it can also make GNNs susceptible to over-squashing, thereby preventing them from capturing long-range interactions in the given graph. To rectify this issue, graph rewiring techniques have been proposed as a means of improving information flow by altering the graph connectivity. In this work, we identify three desiderata for graph-rewiring: (i) reduce over-squashing, (ii) respect the locality of the graph, and (iii) preserve the sparsity of the graph. We highlight fundamental trade-offs that occur between spatial and spectral rewiring techniques; while the former often satisfy (i) and (ii) but not (iii), the latter generally satisfy (i) and (iii) at the expense of (ii). We propose a novel rewiring framework that satisfies all of (i)--(iii) through a locality-aware sequence of rewiring operations. We then discuss a specific instance of such rewiring framework and validate its effectiveness on several real-world benchmarks, showing that it either matches or significantly outperforms existing rewiring approaches. | 翻訳日:2023-10-04 18:26:33 公開日:2023-10-02 |
# トランスフォーマーは効率的な階層的化学グラフ学習者である Transformers are efficient hierarchical chemical graph learners ( http://arxiv.org/abs/2310.01704v1 ) ライセンス: Link先を確認 | Zihan Pengmei, Zimu Li, Chih-chan Tien, Risi Kondor, Aaron R. Dinner | (参考訳) 自然言語処理から適応したトランスフォーマーが,グラフ表現学習の指導的アプローチとして登場している。
現代のグラフ変換器はノードやエッジを別々のトークンとして扱うことが多い。
このアプローチはトークン数による自己注意複雑性の2次スケーリングによる中等度グラフの計算上の問題を引き起こす。
本稿では,メッセージパッシング機構によって情報を集約するサブグラフ上で動作するグラフトランスフォーマーであるsubformerを提案する。
このアプローチはトークンの数を減らし、長距離インタラクションの学習を強化する。
化学構造から分子特性を予測するためのベンチマークでSubFormerを実証し、計算コストのごく一部で最先端のグラフ変換器と競合し、コンシューマグレードのグラフィックカード上で数分のトレーニング時間を持つことを示す。
我々は化学構造の観点から注意重みを解釈する。
従来のグラフニューラルネットワークでは,subformerが過剰スモーシングを制限し,過剰スケーシングを回避できることが示されている。 Transformers, adapted from natural language processing, are emerging as a leading approach for graph representation learning. Contemporary graph transformers often treat nodes or edges as separate tokens. This approach leads to computational challenges for even moderately-sized graphs due to the quadratic scaling of self-attention complexity with token count. In this paper, we introduce SubFormer, a graph transformer that operates on subgraphs that aggregate information by a message-passing mechanism. This approach reduces the number of tokens and enhances learning long-range interactions. We demonstrate SubFormer on benchmarks for predicting molecular properties from chemical structures and show that it is competitive with state-of-the-art graph transformers at a fraction of the computational cost, with training times on the order of minutes on a consumer-grade graphics card. We interpret the attention weights in terms of chemical structures. We show that SubFormer exhibits limited over-smoothing and avoids over-squashing, which is prevalent in traditional graph neural networks. | 翻訳日:2023-10-04 18:17:17 公開日:2023-10-02 |
# テキストから画像への拡散によるドメインの変換:ドメイン適応へのソースフリーアプローチ Transcending Domains through Text-to-Image Diffusion: A Source-Free Approach to Domain Adaptation ( http://arxiv.org/abs/2310.01701v1 ) ライセンス: Link先を確認 | Shivang Chopra, Suraj Kothawade, Houda Aynaou, Aman Chadha | (参考訳) ドメイン適応(da)は、モデルが関連するソースドメインから取得した情報を十分なラベル付きデータで適用することにより、不適切なアノテートデータを持つ対象ドメインにおけるモデルの性能を向上させる手法である。
HIPAA、COPPA、FERPAなどのデータプライバシ規制の実施が、ソースデータに直接アクセスする必要を回避しつつ、新しいドメインにモデルを適用することへの関心を高め、ソースフリードメイン適応(Source-free Domain Adaptation、SFDA)と呼ばれる問題を引き起こした。
本稿では,対象ドメインのサンプルに基づいて訓練されたテキスト・画像拡散モデルを用いて,ソースデータを生成する新しいSFDAフレームワークを提案する。
提案手法は,ラベル付き対象領域のサンプルに対してテキスト間拡散モデルをトレーニングし,事前学習したソースモデルを用いて微調整を行い,ソースデータに近いサンプルを生成する。
最後に、ドメイン適応技術を用いて、人工的に生成されたソースデータを対象のドメインデータと整合させることにより、ターゲットのドメイン上でのモデルの性能が大幅に向上する。
標準のoffice-31, office-home, visdaベンチマークにおける複数のベースラインとの比較を行い,sfdaタスクに対するアプローチの有効性を実証した。 Domain Adaptation (DA) is a method for enhancing a model's performance on a target domain with inadequate annotated data by applying the information the model has acquired from a related source domain with sufficient labeled data. The escalating enforcement of data-privacy regulations like HIPAA, COPPA, FERPA, etc. have sparked a heightened interest in adapting models to novel domains while circumventing the need for direct access to the source data, a problem known as Source-Free Domain Adaptation (SFDA). In this paper, we propose a novel framework for SFDA that generates source data using a text-to-image diffusion model trained on the target domain samples. Our method starts by training a text-to-image diffusion model on the labeled target domain samples, which is then fine-tuned using the pre-trained source model to generate samples close to the source data. Finally, we use Domain Adaptation techniques to align the artificially generated source data with the target domain data, resulting in significant performance improvements of the model on the target domain. Through extensive comparison against several baselines on the standard Office-31, Office-Home, and VisDA benchmarks, we demonstrate the effectiveness of our approach for the SFDA task. | 翻訳日:2023-10-04 18:17:03 公開日:2023-10-02 |
# 量子エンタングルメント位相遷移と計算複雑性:イジングモデルからの考察 Quantum Entanglement Phase Transitions and Computational Complexity: Insights from Ising Models ( http://arxiv.org/abs/2310.01699v1 ) ライセンス: Link先を確認 | Hanchen Liu, Vikram Ravindranath, and Xiao Chen | (参考訳) 本稿では,2次元のバイパートイトクラスタ状態を構築し,バルク量子ビットの単一量子ビット計測を行う。
測定されていない1次元境界状態の絡み合いスケーリングを考察し、ある条件下では、境界状態が測定角度の変化によって駆動される領域則絡み転移に体積則を適用できることを示す。
この境界状態絡み合い遷移と非単位1+1次元回路における測定誘起相転移を伝達行列法により橋渡しする。
計算複雑性問題に対するこの絡み合い遷移の適用についても検討する。
具体的には、境界状態の絡み合い遷移と、複雑なパラメータを持つ対応するイジング分割関数の計算複雑性に直接関係する2部2ドルのクラスター状態のサンプリング複雑性との関係を定式化する。
境界状態の絡み合いスケーリングを調べることにより,2ドルの量子状態が効率的にサンプリングできるパラメータレジームを数値的に同定し,イジング分割関数をそのような領域で効率的に評価できることを示す。 In this paper, we construct 2-dimensional bipartite cluster states and perform single-qubit measurements on the bulk qubits. We explore the entanglement scaling of the unmeasured 1-dimensional boundary state and show that under certain conditions, the boundary state can undergo a volume-law to an area-law entanglement transition driven by variations in the measurement angle. We bridge this boundary state entanglement transition and the measurement-induced phase transition in the non-unitary 1+1-dimensional circuit via the transfer matrix method. We also explore the application of this entanglement transition on the computational complexity problems. Specifically, we establish a relation between the boundary state entanglement transition and the sampling complexity of the bipartite $2$d cluster state, which is directly related to the computational complexity of the corresponding Ising partition function with complex parameters. By examining the boundary state entanglement scaling, we numerically identify the parameter regime for which the $2$d quantum state can be efficiently sampled, which indicates that the Ising partition function can be evaluated efficiently in such a region. | 翻訳日:2023-10-04 18:16:39 公開日:2023-10-02 |
# 近似対角化による長い列のロバスト化状態空間モデル Robustifying State-space Models for Long Sequences via Approximate Diagonalization ( http://arxiv.org/abs/2310.01698v1 ) ライセンス: Link先を確認 | Annan Yu, Arnur Nigmetov, Dmitriy Morozov, Michael W. Mahoney and N. Benjamin Erichson | (参考訳) 状態空間モデル(ssms)は最近、長距離シーケンスタスクを学習するためのフレームワークとして登場した。
例えば、HiPPO初期化フレームワークの対角+低ランク構造を用いる構造化状態空間シーケンス(S4)層がある。
しかし、S4層の複雑な構造は課題を生じさせ、これらの課題に対処するためにS4DやS5のようなモデルは純粋に対角構造と見なされている。
この選択は実装を単純化し、計算効率を改善し、チャネル通信を可能にする。
しかし、HiPPOフレームワークの対角化はそれ自体が誤った問題である。
本稿では,機械学習における不適切な対角化問題に対する一般的な解法を提案する。
我々は、非正規作用素の擬スペクトル理論に基づいて、ssmを定義する非正規行列の近似対角化として解釈される、ジェネリックで後方安定な "perturb-then-diagonalize" (ptd) 方法論を導入する。
そこで本研究では,S4-PTDモデルとS5-PTDモデルを紹介する。
異なる初期化スキームの伝達関数の理論的解析を通じて、S4-PTD/S5-PTD初期化はHiPPOフレームワークに強く収束し、S4D/S5初期化は弱い収束しか達成しないことを示した。
その結果, s4d/s5 モデルでは実現できない特性であるフーリエモードノイズ摂動入力に対するレジリエンスが得られた。
堅牢性の改善に加えて、我々のS5-PTDモデルはLong-Range Arenaベンチマークで平均87.6%の精度を示し、PTD手法がディープラーニングモデルの精度向上に役立つことを示した。 State-space models (SSMs) have recently emerged as a framework for learning long-range sequence tasks. An example is the structured state-space sequence (S4) layer, which uses the diagonal-plus-low-rank structure of the HiPPO initialization framework. However, the complicated structure of the S4 layer poses challenges; and, in an effort to address these challenges, models such as S4D and S5 have considered a purely diagonal structure. This choice simplifies the implementation, improves computational efficiency, and allows channel communication. However, diagonalizing the HiPPO framework is itself an ill-posed problem. In this paper, we propose a general solution for this and related ill-posed diagonalization problems in machine learning. We introduce a generic, backward-stable "perturb-then-diagonalize" (PTD) methodology, which is based on the pseudospectral theory of non-normal operators, and which may be interpreted as the approximate diagonalization of the non-normal matrices defining SSMs. Based on this, we introduce the S4-PTD and S5-PTD models. Through theoretical analysis of the transfer functions of different initialization schemes, we demonstrate that the S4-PTD/S5-PTD initialization strongly converges to the HiPPO framework, while the S4D/S5 initialization only achieves weak convergences. As a result, our new models show resilience to Fourier-mode noise-perturbed inputs, a crucial property not achieved by the S4D/S5 models. In addition to improved robustness, our S5-PTD model averages 87.6% accuracy on the Long-Range Arena benchmark, demonstrating that the PTD methodology helps to improve the accuracy of deep learning models. | 翻訳日:2023-10-04 18:16:21 公開日:2023-10-02 |
# dani: トポロジカル構造を保存した高速拡散認識ネットワーク推論 DANI: Fast Diffusion Aware Network Inference with Preserving Topological Structure Property ( http://arxiv.org/abs/2310.01696v1 ) ライセンス: Link先を確認 | Maryam Ramezani, Aryan Ahadinia, Erfan Farhadi, Hamid R. Rabiee | (参考訳) 近年のソーシャルネットワークの急速な成長とデータアクセス制限により、これらのネットワークの完全なトポロジを得るのが困難になっている。
しかし、これらのネットワーク上での拡散情報は利用可能であり、この情報を用いて基盤となるネットワークを推定するための多くのアルゴリズムが提案されている。
前述したアルゴリズムは、より多くのリンクを推測し、基礎となるソーシャルネットワークの重要なトポロジー特性を無視することだけに焦点を当てている。
本稿では,DANIと呼ばれる新しい手法を提案し,その構造特性を保ちながら基礎となるネットワークを推定する。
これは、時系列カスケードに由来するマルコフ遷移行列と、構造的な観点からカスケードの挙動で観測できるノード-ノード類似性に基づいている。
さらに、提案手法は線形時間複雑性(ノード数、カスケード数、カスケードの平均長さの2乗に線形に増加する)を持ち、mapreduceフレームワークにおける分散バージョンもスケーラブルである。
提案手法を実ネットワークと合成ネットワークの両方に適用した。
実験の結果,DANIはよく知られたネットワーク推定法よりも,モジュール構造,次数分布,連結成分,密度,クラスタリング係数などの構造特性を維持しつつ,精度が高く,実行時間も低いことがわかった。 The fast growth of social networks and their data access limitations in recent years has led to increasing difficulty in obtaining the complete topology of these networks. However, diffusion information over these networks is available, and many algorithms have been proposed to infer the underlying networks using this information. The previously proposed algorithms only focus on inferring more links and ignore preserving the critical topological characteristics of the underlying social networks. In this paper, we propose a novel method called DANI to infer the underlying network while preserving its structural properties. It is based on the Markov transition matrix derived from time series cascades, as well as the node-node similarity that can be observed in the cascade behavior from a structural point of view. In addition, the presented method has linear time complexity (increases linearly with the number of nodes, number of cascades, and square of the average length of cascades), and its distributed version in the MapReduce framework is also scalable. We applied the proposed approach to both real and synthetic networks. The experimental results showed that DANI has higher accuracy and lower run time while maintaining structural properties, including modular structure, degree distribution, connected components, density, and clustering coefficients, than well-known network inference methods. | 翻訳日:2023-10-04 18:15:52 公開日:2023-10-02 |
# 神経性テキスト変性症例のクローン化 Closing the Curious Case of Neural Text Degeneration ( http://arxiv.org/abs/2310.01693v1 ) ライセンス: Link先を確認 | Matthew Finlayson, John Hewitt, Alexander Koller, Swabha Swayamdipta, Ashish Sabharwal | (参考訳) 言語生成のユビキタスさにもかかわらず、なぜ核サンプリングのような切断サンプリングヒューリスティックがこれほど効果的なのかは不明である。
本稿では,ある確率しきい値以下にトークンを破棄するトランケーション法(最も一般的な種類のトランケーション)が,すべてのサンプルトークンが真ではないことを保証できることを証明し,トランケーションサンプリングの有効性を理論的に説明する。
しかし、閾値は粗いヒューリスティックであり、必然的に非ゼロの真確率を持つトークンを破棄する。
より正確なサンプリング戦略を追求するため、我々は既知のモデルエラーの源であるソフトマックスボトルネックを利用して、特定のトークンが閾値に頼らずに非ゼロの真の確率を持つことを証明できることを示した。
本研究は,本手法の有望性を示す実験的トランケーション戦略とパイロット実験である。
提案手法は,低エントロピー(greedyに近い)オープンテキスト生成のための自動評価指標と人的評価指標で,しきい値に基づく評価よりも優れていることを示す。
我々の理論的な発見とパイロット実験は、なぜトランケーションサンプリングが機能するのかという知見と、より大きな言語モデルの生成能力をよりよく表すより表現力のあるサンプリングアルゴリズムへの進歩の両方を提供する。 Despite their ubiquity in language generation, it remains unknown why truncation sampling heuristics like nucleus sampling are so effective. We provide a theoretical explanation for the effectiveness of the truncation sampling by proving that truncation methods that discard tokens below some probability threshold (the most common type of truncation) can guarantee that all sampled tokens have nonzero true probability. However, thresholds are a coarse heuristic, and necessarily discard some tokens with nonzero true probability as well. In pursuit of a more precise sampling strategy, we show that we can leverage a known source of model errors, the softmax bottleneck, to prove that certain tokens have nonzero true probability, without relying on a threshold. Based on our findings, we develop an experimental truncation strategy and the present pilot studies demonstrating the promise of this type of algorithm. Our evaluations show that our method outperforms its threshold-based counterparts under automatic and human evaluation metrics for low-entropy (i.e., close to greedy) open-ended text generation. Our theoretical findings and pilot experiments provide both insight into why truncation sampling works, and make progress toward more expressive sampling algorithms that better surface the generative capabilities of large language models. | 翻訳日:2023-10-04 18:15:31 公開日:2023-10-02 |
# ゼロショット連続プロンプト転送:言語モデル間のタスクセマンティクスの一般化 Zero-Shot Continuous Prompt Transfer: Generalizing Task Semantics Across Language Models ( http://arxiv.org/abs/2310.01691v1 ) ライセンス: Link先を確認 | Zijun Wu, Yongkang Wu, Lili Mou | (参考訳) 自然言語処理(NLP)におけるプロンプトチューニングは、大規模言語モデルを特定のタスクに適応させる手法として、ますます人気が高まっている。
しかし、これらのプロンプト、特に連続的なプロンプトの異なるモデル間の転送性は依然として課題である。
本研究では,ソースプロンプトを相対空間にエンコードし,対応するターゲットプロンプトを探索して対象モデルに転送するゼロショット連続プロンプト転送法を提案する。
実験の結果,連続的なプロンプトにおける「タスクセマンティクス」が様々な言語モデルで一般化できることを示した。
さらに、複数のソースモデルから「タスクセマンティクス」を組み合わせることで、転送の一般化性をさらに高めることができる。 Prompt tuning in natural language processing (NLP) has become an increasingly popular method for adapting large language models to specific tasks. However, the transferability of these prompts, especially continuous prompts, between different models remains a challenge. In this work, we propose a zero-shot continuous prompt transfer method, where source prompts are encoded into relative space and the corresponding target prompts are searched for transferring to target models. Experimental results confirm the effectiveness of our method, showing that 'task semantics' in continuous prompts can be generalized across various language models. Moreover, we find that combining 'task semantics' from multiple source models can further enhance the generalizability of transfer. | 翻訳日:2023-10-04 18:15:06 公開日:2023-10-02 |
# カスケード拡散モデルによる熱帯サイクロンの予測 Forecasting Tropical Cyclones with Cascaded Diffusion Models ( http://arxiv.org/abs/2310.01690v1 ) ライセンス: Link先を確認 | Pritthijit Nath, Pancham Shukla, C\'esar Quilodr\'an-Casas | (参考訳) 気候変動によってサイクロンがより激しくなるにつれて、aiベースのモデリングの台頭は、数学的モデルに基づく従来の方法よりも安価でアクセスしやすいアプローチを提供する。
本研究は, 衛星画像, リモートセンシング, 大気データの統合によるサイクロン軌道と降水パターンの予測に拡散モデルを用いており, 予測, 超解像, 降水モデリングを組み込んだカスケード手法を用いて, 6大盆地から51サイクロンのデータセットを訓練している。
実験により, 3つのタスクすべてに対して, SSIMおよびPSNR値が0.5および20dBを超える36時間ロールアウトまでの正確な予測が得られた。
この研究はまた、サイクロン予測のような高性能ニーズのための拡散モデルのようなaiメソッドの有望な効率を強調すると同時に、計算量的に手頃な価格のままで、重要な予測ニーズと財務上の制約のある高度に脆弱な地域に適している。
url{https://github.com/nathzi1505/forecast-diffmodels} でアクセス可能なコード。 As cyclones become more intense due to climate change, the rise of AI-based modelling provides a more affordable and accessible approach compared to traditional methods based on mathematical models. This work leverages diffusion models to forecast cyclone trajectories and precipitation patterns by integrating satellite imaging, remote sensing, and atmospheric data, employing a cascaded approach that incorporates forecasting, super-resolution, and precipitation modelling, with training on a dataset of 51 cyclones from six major basins. Experiments demonstrate that the final forecasts from the cascaded models show accurate predictions up to a 36-hour rollout, with SSIM and PSNR values exceeding 0.5 and 20 dB, respectively, for all three tasks. This work also highlights the promising efficiency of AI methods such as diffusion models for high-performance needs, such as cyclone forecasting, while remaining computationally affordable, making them ideal for highly vulnerable regions with critical forecasting needs and financial limitations. Code accessible at \url{https://github.com/nathzi1505/forecast-diffmodels}. | 翻訳日:2023-10-04 18:14:52 公開日:2023-10-02 |
# L2MAC:非有界コード生成のための大規模言語モデル自動計算機 L2MAC: Large Language Model Automatic Computer for Unbounded Code Generation ( http://arxiv.org/abs/2310.02003v1 ) ライセンス: Link先を確認 | Samuel Holt, Max Ruiz Luyten, Mihaela van der Schaar | (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定されたコンテキストウィンドウによって制約され、長い論理的に一貫したコードを生成する能力を妨げる。
メモリ拡張 LLM は有望なソリューションだが、現在のアプローチでは、(1) メモリの読み込みのみに集中し、新しいメモリの結合への進化を減らすか、(2) 他のドメインに適応できない非常に特殊なメモリを使用するため、長いコード生成タスクを処理できない。
本稿では,L2MACについて述べる。L2MACは,LLMをベースとした,長大かつ一貫したコード生成のための,最初の実用的プログラム自動計算機である。
そのメモリには2つのコンポーネントがある: 命令レジストリは、ユーザ登録タスクを解決するプロンプトプログラムで集約され、ファイルストアは、最終的な出力と中間出力を含む。
各命令は別個のLCMインスタンスによって実行され、そのコンテキストは制御ユニットによって管理され、メモリの読み書きが正確にでき、ファイルストアとの効果的な相互作用が保証される。
これらのコンポーネントにより、L2MACは、複雑なユーザ指定要求を満たすコードを生成しながら、有限コンテキストウィンドウの制約を回避して、事実上非有界なコード構造を生成することができる。
我々は、L2MACがシステム設計タスクの大規模なコードベースを生成することに成功し、他のコーディングメソッドがユーザ要求の実装に不足していることを実証的に示し、このパフォーマンスギャップの理由について洞察を提供する。 Transformer-based large language models (LLMs) are constrained by the fixed context window of the underlying transformer architecture, hindering their ability to produce long and logically consistent code. Memory-augmented LLMs are a promising solution, but current approaches cannot handle long code generation tasks since they (1) only focus on reading memory and reduce its evolution to the concatenation of new memories or (2) use very specialized memories that cannot adapt to other domains. This paper presents L2MAC, the first practical LLM-based stored-program automatic computer for long and consistent code generation. Its memory has two components: the instruction registry, which is populated with a prompt program to solve the user-given task, and a file store, which will contain the final and intermediate outputs. Each instruction is executed by a separate LLM instance, whose context is managed by a control unit capable of precise memory reading and writing to ensure effective interaction with the file store. These components enable L2MAC to generate virtually unbounded code structures, bypassing the constraints of the finite context window while producing code that fulfills complex user-specified requirements. We empirically show that L2MAC succeeds in generating large code bases for system design tasks where other coding methods fall short in implementing user requirements and provide insight into the reasons for this performance gap. | 翻訳日:2023-10-04 14:31:01 公開日:2023-10-02 |
# 適応型オンライン非確率制御 Adaptive Online Non-stochastic Control ( http://arxiv.org/abs/2310.02261v1 ) ライセンス: Link先を確認 | Naram Mhaisen, George Iosifidis | (参考訳) 制御環境に適応するアルゴリズムを得ることを目的として,非統計的制御の問題に取り組む。
つまり、状態の存在、あるいはメモリの存在がオンライン決定の効果を結合する動的システムに対して、ftrlフレームワークを調整します。
システムのメモリを考慮した新しい正規化手法を設計することで、新しいサブリニアデータ適応ポリシーリフレッシュバウンドを持つコントローラを得る。
さらに, 将来のコストに対する信頼できない予測を付加することで, 予測の正確性に適応した最初の楽観的なftrlベースのコントローラの設計が可能となり, 全て失敗しても下位線形のままで精度が低下する。 We tackle the problem of Non-stochastic Control with the aim of obtaining algorithms that adapt to the controlled environment. Namely, we tailor the FTRL framework to dynamical systems where the existence of a state, or equivalently a memory, couples the effect of the online decisions. By designing novel regularization techniques that take the system's memory into consideration, we obtain controllers with new sub-linear data adaptive policy regret bounds. Furthermore, we append these regularizers with untrusted predictions of future costs, which enables the design of the first Optimistic FTRL-based controller whose regret bound is adaptive to the accuracy of the predictions, shrinking when they are accurate while staying sub-linear even when they all fail. | 翻訳日:2023-10-04 12:48:50 公開日:2023-10-02 |
# Ada-NAV:ロボットナビゲーションのための適応軌道に基づく効率的な政策学習 Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for Robotic Navigation ( http://arxiv.org/abs/2306.06192v3 ) ライセンス: Link先を確認 | Bhrij Patel, Kasun Weerakoon, Wesley A. Suttle, Alec Koppel, Brian M. Sadler, Tianyi Zhou, Amrit Singh Bedi and Dinesh Manocha | (参考訳) 強化学習はロボットナビゲーションの分野で大きな注目を集めている。
しかし、絶え間ない課題はサンプルの非効率であり、主に探検を促進する固有の複雑さによるものである。
トレーニング中、移動エージェントは最適な振る舞いを効率的に学習するために可能な限り探索する必要がある。
本稿では,ロボットナビゲーションタスクにおける強化学習アルゴリズムのトレーニングサンプル効率を高めるために,新しい適応軌道長スキームであるAda-NAVを紹介する。
軌道長を固定されたハイパーパラメータとして扱う従来のアプローチとは異なり、Ada-NAVは下層のナビゲーションポリシーのエントロピーに基づいて動的に調整する。
本稿では,2つのポリシ勾配法であるREINFORCEとPPOを用いて,AdaNAVの有効性を実証的に検証する。
シミュレーションと実世界のロボット実験により,ada-navは,一定またはランダムにサンプリングされた軌道長を用いた従来の手法を上回っていることを実証した。
具体的には、一定のサンプル予算に対して、ada-navはナビゲーション成功率を18%増加させ、ナビゲーション経路の長さを20-38%減少させ、標高コストを9.32%減少させる。
さらに, ada-navをclearpath huskyロボットに統合し, 複雑な屋外環境に適用性を示すことにより, 汎用性を示す。 Reinforcement learning has gained significant traction in the field of robotic navigation. However, a persistent challenge is its sample inefficiency, primarily due to the inherent complexities of encouraging exploration. During training, the mobile agent must explore as much as possible to efficiently learn optimal behaviors. We introduce Ada-NAV, a novel adaptive trajectory length scheme designed to enhance the training sample efficiency of reinforcement learning algorithms in robotic navigation tasks. Unlike traditional approaches that treat trajectory length as a fixed hyperparameter, Ada-NAV dynamically adjusts it based on the entropy of the underlying navigation policy. We empirically validate the efficacy of AdaNAV using two popular policy gradient methods: REINFORCE and Proximal Policy Optimization (PPO). We demonstrate through both simulated and real-world robotic experiments that Ada-NAV outperforms conventional methods that employ constant or randomly sampled trajectory lengths. Specifically, for a fixed sample budget, Ada-NAV achieves an 18% increase in navigation success rate, a 20-38% reduction in navigation path length, and a 9.32% decrease in elevation costs. Furthermore, we showcase the versatility of Ada-NAV by integrating it with the Clearpath Husky robot, illustrating its applicability in complex, outdoor environments. | 翻訳日:2023-10-04 11:00:14 公開日:2023-10-02 |
# Supersonic: C/C++でソースコード最適化を学習する Supersonic: Learning to Generate Source Code Optimizations in C/C++ ( http://arxiv.org/abs/2309.14846v3 ) ライセンス: Link先を確認 | Zimin Chen, Sen Fang and Martin Monperrus | (参考訳) ソフトウェア最適化は、機能を維持しながら、リソース効率のプログラムを洗練する。
伝統的に、これは開発者とコンパイラが行うプロセスである。
本稿では,第3の選択肢であるソースコードレベルでの自動最適化を提案する。
最適化のためのマイナーソースコード修正を目的としたニューラルネットワークであるSupersonicを提案する。
seq2seqモデルを使用して、SupersonicはC/C++プログラムペア($x_{t}$, $x_{t+1}$)でトレーニングされ、$x_{t+1}$は$x_{t}$の最適化バージョンであり、差分を出力する。
Supersonicのパフォーマンスは、OpenAIのGPT-3.5-TurboとGPT-4の競合プログラミングタスクに対してベンチマークされる。
実験の結果、Supersonicはコード最適化タスクにおいて両方のモデルを上回るだけでなく、GPT-3.5-Turboより600倍以上、GPT-4より3700倍小さいモデルで変更の程度を最小化できることがわかった。 Software optimization refines programs for resource efficiency while preserving functionality. Traditionally, it is a process done by developers and compilers. This paper introduces a third option, automated optimization at the source code level. We present Supersonic, a neural approach targeting minor source code modifications for optimization. Using a seq2seq model, Supersonic is trained on C/C++ program pairs ($x_{t}$, $x_{t+1}$), where $x_{t+1}$ is an optimized version of $x_{t}$, and outputs a diff. Supersonic's performance is benchmarked against OpenAI's GPT-3.5-Turbo and GPT-4 on competitive programming tasks. The experiments show that Supersonic not only outperforms both models on the code optimization task but also minimizes the extent of the change with a model more than 600x smaller than GPT-3.5-Turbo and 3700x smaller than GPT-4. | 翻訳日:2023-10-04 10:54:07 公開日:2023-10-02 |
# nnSAM: nnUNetのパフォーマンスを改善するプラグインとプレイのセグメンテーションモデル nnSAM: Plug-and-play Segment Anything Model Improves nnUNet Performance ( http://arxiv.org/abs/2309.16967v2 ) ライセンス: Link先を確認 | Yunxiang Li, Bowen Jing, Zihan Li, Jing Wang, You Zhang | (参考訳) 最近のコンピュータビジョンの基礎モデル、特にsegment anything model(sam)の開発により、スケーラブルでドメインに依存しない画像セグメンテーションが汎用セグメンテーションツールとして機能する。
並行して、医療画像セグメンテーションの分野は、ドメイン固有のデータセットに基づいてトレーニングされ、特定のセグメンテーション課題に合わせて自動的にネットワークを設定するnnUNetのような特殊なニューラルネットワークから大きな恩恵を受けている。
基礎モデルとドメイン固有モデルの利点を組み合わせるために, SAMモデルをnnUNetモデルと相乗的に統合し, より正確で堅牢な医用画像セグメンテーションを実現するnnSAMを提案する。
nnSAMモデルは、SAMの強力で堅牢な特徴抽出機能を活用すると同時に、nnUNetの自動設定機能を活用して、データセットに適した学習を促進する。
トレーニングサンプルの大きさの異なるnnSAMモデルを総合的に評価した結果,高品質で注釈付きデータが少ない医療画像のセグメンテーションに高い関連性を持つ少数ショット学習が可能であることが示唆された。
両方の前任者の強みを融合させることで、nnSAMは医療画像セグメンテーションの新しいベンチマークとして自らを位置づけ、幅広い応用性と特殊な効率性を組み合わせたツールを提供する。
コードはhttps://github.com/Kent0n-Li/Medical-Image-Segmentationで公開されている。 The recent developments of foundation models in computer vision, especially the Segment Anything Model (SAM), allow scalable and domain-agnostic image segmentation to serve as a general-purpose segmentation tool. In parallel, the field of medical image segmentation has benefited significantly from specialized neural networks like the nnUNet, which is trained on domain-specific datasets and can automatically configure the network to tailor to specific segmentation challenges. To combine the advantages of foundation models and domain-specific models, we present nnSAM, which synergistically integrates the SAM model with the nnUNet model to achieve more accurate and robust medical image segmentation. The nnSAM model leverages the powerful and robust feature extraction capabilities of SAM, while harnessing the automatic configuration capabilities of nnUNet to promote dataset-tailored learning. Our comprehensive evaluation of nnSAM model on different sizes of training samples shows that it allows few-shot learning, which is highly relevant for medical image segmentation where high-quality, annotated data can be scarce and costly to obtain. By melding the strengths of both its predecessors, nnSAM positions itself as a potential new benchmark in medical image segmentation, offering a tool that combines broad applicability with specialized efficiency. The code is available at https://github.com/Kent0n-Li/Medical-Image-Segmentation. | 翻訳日:2023-10-04 09:10:13 公開日:2023-10-02 |
# スパースプラス低ランク行列分解:離散最適化アプローチ Sparse Plus Low Rank Matrix Decomposition: A Discrete Optimization Approach ( http://arxiv.org/abs/2109.12701v3 ) ライセンス: Link先を確認 | Dimitris Bertsimas, Ryan Cory-Wright and Nicholas A. G. Johnson | (参考訳) 本研究では,劣化したデータ行列を摂動のスパース行列と基底真理を含むローランク行列に分解する問題であるスパースプラスローランク分解問題(slr)について検討する。
SLRは、データ圧縮、潜時セマンティックインデックス、協調フィルタリング、医用画像など、さまざまなアプリケーションで発生するオペレーションリサーチと機械学習の根本的な問題である。
基礎となる離散性を直接モデル化する新しいslrの定式化を提案する。
この定式化のために、高品質な解を計算する交互最小化ヒューリスティックと、ヒューリスティックによって返される解に有意な境界を与える新しい半定緩和を開発する。
我々はまた、我々のヒューリスティックかつ凸緩和を利用して、SLRの小さなインスタンスを証明可能な(ほぼ)最適性に解決する独自の分岐結合アルゴリズムを開発した。
入力$n$-by-$n$行列が与えられた場合、我々のヒューリスティックスケールは$n=10000$ in minutesのインスタンスを解決し、緩和スケールは$n=200$ in hoursのインスタンスにスケールし、分岐とバウンドのアルゴリズムは$n=25$ in minutesのインスタンスにスケールします。
数値計算の結果,我々のアプローチは,同等のランタイムを維持しながら,既存の最先端のアプローチよりもランク,スパーシティ,平均2乗誤差の点で優れていることがわかった。 We study the Sparse Plus Low-Rank decomposition problem (SLR), which is the problem of decomposing a corrupted data matrix into a sparse matrix of perturbations plus a low-rank matrix containing the ground truth. SLR is a fundamental problem in Operations Research and Machine Learning which arises in various applications, including data compression, latent semantic indexing, collaborative filtering, and medical imaging. We introduce a novel formulation for SLR that directly models its underlying discreteness. For this formulation, we develop an alternating minimization heuristic that computes high-quality solutions and a novel semidefinite relaxation that provides meaningful bounds for the solutions returned by our heuristic. We also develop a custom branch-and-bound algorithm that leverages our heuristic and convex relaxations to solve small instances of SLR to certifiable (near) optimality. Given an input $n$-by-$n$ matrix, our heuristic scales to solve instances where $n=10000$ in minutes, our relaxation scales to instances where $n=200$ in hours, and our branch-and-bound algorithm scales to instances where $n=25$ in minutes. Our numerical results demonstrate that our approach outperforms existing state-of-the-art approaches in terms of rank, sparsity, and mean-square error while maintaining a comparable runtime. | 翻訳日:2023-10-03 21:52:20 公開日:2023-10-02 |
# 可視性によるシンメトリーとしての量子理論 Quantum Theory as Symmetry Broken by Vitality ( http://arxiv.org/abs/1907.02432v5 ) ライセンス: Link先を確認 | Blake C. Stacey | (参考訳) 量子系は内在的な隠れ変数を持たないが、参照測定を用いて理解できるという基本的な物理原理から量子理論を再構築することを目的とした研究プログラムをまとめる。
このプログラムは、なぜ量子形式主義が実験的に成功したのかという物理的問題を、なぜ複素ベクトル空間に等角直線の完全集合が存在するのかという数学的問題に還元する。
私の第一の目的は、数付き定理の閉冊子を提示するのではなく、動機づけを明確にすることであり、その結果、議論はprlよりも口頭で行われます。 I summarize a research program that aims to reconstruct quantum theory from a fundamental physical principle that, while a quantum system has no intrinsic hidden variables, it can be understood using a reference measurement. This program reduces the physical question of why the quantum formalism is empirically successful to the mathematical question of why complete sets of equiangular lines appear to exist in complex vector spaces when they do not exist in real ones. My primary goal is to clarify motivations, rather than to present a closed book of numbered theorems, and consequently the discussion is more in the manner of a colloquium than a PRL. | 翻訳日:2023-10-03 21:48:01 公開日:2023-10-02 |
# glisp-r:収束保証付き選好に基づく最適化アルゴリズム GLISp-r: A preference-based optimization algorithm with convergence guarantees ( http://arxiv.org/abs/2202.01125v2 ) ライセンス: Link先を確認 | Davide Previtali, Mirko Mazzoleni, Antonio Ferramosca, Fabio Previdi | (参考訳) 選好に基づく最適化アルゴリズムは、複数の異なるチューニング間の比較のみに基づいて決定ベクトルの最適キャリブレーションを求める反復的な手順である。
それぞれのイテレーションで、人間の意思決定者は、2つのキャリブレーション(サンプル)のどちらがどちらよりも優れているかを強調する。
最適化手順は、観察された選好を使用して、意思決定者が最も好む決定ベクトルのチューニングを見つけなければならないが、比較の数を最小にする。
本研究では,実用理論の観点から選好に基づく最適化問題を定式化する。
そして、GLISpと呼ばれる最近の嗜好に基づく最適化手法の拡張であるGLISp-rを提案する。
後者は、決定者の味を記述するためにラジアル基底関数サロゲートを使用する。
反復的に、glispはサーロゲートモデルの活用と決定空間の探索を交換することで得られる最良のキャリブレーションと比較する新しいサンプルを提案する。
GLISp-rでは、ブラックボックス最適化フレームワークMSRSにインスパイアされた新しい候補サンプルを探す際に使用する異なる基準を提案する。
GLISpと比較すると、GLISp-rは好みに基づく最適化問題の局所最適化に悩まされる可能性が低い。
我々は,いくつかのベンチマーク最適化問題に対する glisp と glisp-r の性能を比較することにより,この主張を理論上,大域収束の証明とともに動機づける。 Preference-based optimization algorithms are iterative procedures that seek the optimal calibration of a decision vector based only on comparisons between couples of different tunings. At each iteration, a human decision-maker expresses a preference between two calibrations (samples), highlighting which one, if any, is better than the other. The optimization procedure must use the observed preferences to find the tuning of the decision vector that is most preferred by the decision-maker, while also minimizing the number of comparisons. In this work, we formulate the preference-based optimization problem from a utility theory perspective. Then, we propose GLISp-r, an extension of a recent preference-based optimization procedure called GLISp. The latter uses a Radial Basis Function surrogate to describe the tastes of the decision-maker. Iteratively, GLISp proposes new samples to compare with the best calibration available by trading off exploitation of the surrogate model and exploration of the decision space. In GLISp-r, we propose a different criterion to use when looking for new candidate samples that is inspired by MSRS, a popular procedure in the black-box optimization framework. Compared to GLISp, GLISp-r is less likely to get stuck on local optima of the preference-based optimization problem. We motivate this claim theoretically, with a proof of global convergence, and empirically, by comparing the performances of GLISp and GLISp-r on several benchmark optimization problems. | 翻訳日:2023-10-03 21:38:33 公開日:2023-10-02 |
# 非ホモフィラスグラフに対する分離自己教師付き学習 Decoupled Self-supervised Learning for Non-Homophilous Graphs ( http://arxiv.org/abs/2206.03601v3 ) ライセンス: Link先を確認 | Teng Xiao, Zhengyu Chen, Zhimeng Guo, Zeyang Zhuang, Suhang Wang | (参考訳) 本稿では,グラフ上でのノード表現学習における自己教師あり学習の課題について述べる。
既存の自己教師付き学習手法の多くは、グラフがホモフィル性であると仮定しており、連結ノードは、しばしば同じクラスに属するか、同様の特徴を持つ。
しかし、そのようなホモフィリーの仮定は実世界のグラフにおいて常に成り立つとは限らない。
グラフニューラルネットワークのための分離自己教師付き学習(DSSL)フレームワークを開発することでこの問題に対処する。
DSSLはノードの生成過程を模倣し、セマンティック構造を潜在変数モデリングからリンクし、異なる地区間で異なるセマンティックスを自己教師付き学習プロセスに分離する。
当社のDSSLフレームワークはエンコーダに非依存であり,前処理の強化を必要としないため,異なるグラフに対して柔軟性がある。
フレームワークを効果的に最適化するために,自己教師付き目標の限界を低くした証拠を導出し,変動推論を用いたスケーラブルなトレーニングアルゴリズムを開発した。
我々は、DSSLがより下流のパフォーマンスを享受していることを正当化する理論的分析を提供する。
グラフベンチマークの多種多様な実験により,提案するフレームワークは,競合するベースラインと比較して性能が向上することを示した。 This paper studies the problem of conducting self-supervised learning for node representation learning on graphs. Most existing self-supervised learning methods assume the graph is homophilous, where linked nodes often belong to the same class or have similar features. However, such assumptions of homophily do not always hold in real-world graphs. We address this problem by developing a decoupled self-supervised learning (DSSL) framework for graph neural networks. DSSL imitates a generative process of nodes and links from latent variable modeling of the semantic structure, which decouples different underlying semantics between different neighborhoods into the self-supervised learning process. Our DSSL framework is agnostic to the encoders and does not need prefabricated augmentations, thus is flexible to different graphs. To effectively optimize the framework, we derive the evidence lower bound of the self-supervised objective and develop a scalable training algorithm with variational inference. We provide a theoretical analysis to justify that DSSL enjoys the better downstream performance. Extensive experiments on various types of graph benchmarks demonstrate that our proposed framework can achieve better performance compared with competitive baselines. | 翻訳日:2023-10-03 21:30:24 公開日:2023-10-02 |
# スパースニューラルネットワークのためのpac-bayes oracle不等式 A PAC-Bayes oracle inequality for sparse neural networks ( http://arxiv.org/abs/2204.12392v2 ) ライセンス: Link先を確認 | Maximilian F. Steffen, Mathias Trabs | (参考訳) 非パラメトリック回帰設定における疎深層ニューラルネットワークのgibbs後方分布について検討した。
後方はメトロポリスが調整したランジュバンアルゴリズムでアクセスできる。
ネットワーク重みのスパース集合上の均一な先行集合上の混合物を用いて、この手法が回帰関数の未知の正則性と階層構造に適応することを示すオラクル不等式を証明した。
推定器は(対数係数まで)最小最適収束率を達成する。 We study the Gibbs posterior distribution for sparse deep neural nets in a nonparametric regression setting. The posterior can be accessed via Metropolis-adjusted Langevin algorithms. Using a mixture over uniform priors on sparse sets of network weights, we prove an oracle inequality which shows that the method adapts to the unknown regularity and hierarchical structure of the regression function. The estimator achieves the minimax-optimal rate of convergence (up to a logarithmic factor). | 翻訳日:2023-10-03 21:28:51 公開日:2023-10-02 |
# LDPC符号:連続変動ベイズ推定を用いた非定常チャネルノイズの追跡 LDPC codes: tracking non-stationary channel noise using sequential variational Bayesian estimates ( http://arxiv.org/abs/2204.07037v2 ) ライセンス: Link先を確認 | J du Toit, J du Preez, R Wolhuter | (参考訳) 本稿では,確率的グラフィカルモデルを用いたLDPC符号の非定常信号-雑音比の逐次学習手法を提案する。
我々は,LDPCコードをクラスタグラフとして表現し,LTRIPアルゴリズムと呼ばれる汎用クラスタグラフ構築アルゴリズムを用いて表現する。
チャネルノイズ推定器はグローバルガンマクラスタであり,非定常ノイズ変動のベイズ追跡を可能にするために拡張されている。
提案モデルを実世界の5gドライブテストデータで評価する。
その結果,本モデルでは,非定常チャネルノイズの追跡が可能であり,実際の平均チャネルノイズの知識を固定したLDPCコードよりも優れていることがわかった。 We present a sequential Bayesian learning method for tracking non-stationary signal-to-noise ratios in LDPC codes using probabilistic graphical models. We represent the LDPC code as a cluster graph using a general purpose cluster graph construction algorithm called the layered trees running intersection property (LTRIP) algorithm. The channel noise estimator is a global Gamma cluster, which we extend to allow for Bayesian tracking of non-stationary noise variation. We evaluate our proposed model on real-world 5G drive test data. Our results show that our model is capable of tracking non-stationary channel noise, which outperforms an LDPC code with a fixed knowledge of the actual average channel noise. | 翻訳日:2023-10-03 21:28:43 公開日:2023-10-02 |
# LDPC符号:クラスタグラフとファクタグラフの比較 LDPC codes: comparing cluster graphs to factor graphs ( http://arxiv.org/abs/2204.06350v2 ) ライセンス: Link先を確認 | J du Toit, J du Preez, R Wolhuter | (参考訳) 本稿では,LDPC符号のクラスタと因子グラフの表現の比較検討を行う。
確率的グラフィカルモデルでは、クラスタグラフは、計算コスト、収束速度、限界確率の精度の点で有利である推論中にランダム変数間の有用な依存性を保持する。
本研究では,これらの利点をldpc符号の文脈で検討し,クラスタグラフ表現が従来の因子グラフ表現よりも優れていることを示す。 We present a comparison study between a cluster and factor graph representation of LDPC codes. In probabilistic graphical models, cluster graphs retain useful dependence between random variables during inference, which are advantageous in terms of computational cost, convergence speed, and accuracy of marginal probabilities. This study investigates these benefits in the context of LDPC codes and shows that a cluster graph representation outperforms the traditional factor graph representation. | 翻訳日:2023-10-03 21:28:32 公開日:2023-10-02 |
# 因果仮説テストのためのスケーラブルな量子ゲートベース実装 A scalable quantum gate-based implementation for causal hypothesis testing ( http://arxiv.org/abs/2209.02016v4 ) ライセンス: Link先を確認 | Akash Kundu, Tamal Acharya, Aritra Sarkar | (参考訳) 本研究では,因果推論を加速するために量子コンピューティングアルゴリズムを研究する。
具体的には,[\textit{nat commun} 10, 1472 (2019)]で示された因果仮説検定の形式性を検討する。
我々は、量子回路の実装を開発し、それを用いて、先行研究で導入された誤差確率が修正を必要とすることを示す。
理論的記述に従う実際のシナリオは、IBM Qiskit上でスケーラブルな量子ゲートベースのアルゴリズムとして構築されている。
我々は,因果仮説を組み込んだオラクルの回路構成と関連するゲート複合体を評価する。
さらに,シミュレータプラットフォームを用いた実験により,予測速度の検証が可能となった。
本稿では,バイオインフォマティクスと人工知能における因果推論の応用について論じる。 In this work, we study quantum computing algorithms for accelerating causal inference. Specifically, we consider the formalism of causal hypothesis testing presented in [\textit{Nat Commun} 10, 1472 (2019)]. We develop a quantum circuit implementation and use it to demonstrate that the error probability introduced in the previous work requires modification. The practical scenario, which follows a theoretical description, is constructed as a scalable quantum gate-based algorithm on IBM Qiskit. We present the circuit construction of the oracle embedding the causal hypothesis and assess the associated gate complexities. Additionally, our experiments on a simulator platform validate the predicted speedup. We discuss applications of this framework for causal inference use cases in bioinformatics and artificial general intelligence. | 翻訳日:2023-10-03 21:20:07 公開日:2023-10-02 |
# 非ガラスイジングモデルとしての多体量子符号構造 Many-body quantum sign structures as non-glassy Ising models ( http://arxiv.org/abs/2207.10675v2 ) ライセンス: Link先を確認 | Tom Westerhout, Mikhail I. Katsnelson, Andrey A. Bagrov | (参考訳) 多体量子系の固有状態の非自明な位相構造は、量子モンテカルロ法、変分法および機械学習法の適用性を著しく制限する。
本研究では,フラストレーション量子スピン系の実数値符号基底波関数について検討し,波動関数の振幅と符号を分離するタスクを仮定すると,振幅からサインを容易にブートストラップできることを示す。
符号構造を求める問題をヒルベルト空間基底の部分集合上で定義される補助古典イジングモデルに写像する。
イジングモデルは、非常にフラストレーションの高いペアレント量子システムでも大きなフラストレーションを示しておらず、完全に決定論的な$o(k\log k)$-time combinatorialアルゴリズム(ここでは$k$はイジングモデルサイズ)で解くことができる。
基底状態振幅を考慮し、フラストレーションのある量子モデルの基底状態の符号を再構成し、多体符号構造の隠れた単純さを明らかにする。 The non-trivial phase structure of the eigenstates of many-body quantum systems severely limits the applicability of quantum Monte Carlo, variational, and machine learning methods. Here, we study real-valued signful ground-state wave functions of frustrated quantum spin systems and, assuming that the tasks of finding wave function amplitudes and signs can be separated, show that the signs can be easily bootstrapped from the amplitudes. We map the problem of finding the sign structure to an auxiliary classical Ising model defined on a subset of the Hilbert space basis. We show that the Ising model does not exhibit significant frustrations even for highly frustrated parental quantum systems, and is solvable with a fully deterministic $O(K\log K)$-time combinatorial algorithm (where $K$ is the Ising model size). Given the ground state amplitudes, we reconstruct the signs of the ground states of several frustrated quantum models, thereby revealing the hidden simplicity of many-body sign structures. | 翻訳日:2023-10-03 21:18:56 公開日:2023-10-02 |
# 配当一般化と配当外検出とを併用した監督適応化 Supervision Adaptation Balancing In-distribution Generalization and Out-of-distribution Detection ( http://arxiv.org/abs/2206.09380v2 ) ライセンス: Link先を確認 | Zhilin Zhao and Longbing Cao and Kun-Yu Lin | (参考訳) In-distribution (ID) と Out-of-distribution (OOD) の区別は、ディープニューラルネットワークにおける \textit{distributional weak} につながる可能性がある。
これは主にトレーニング中にOODサンプルが存在しないためであり、ネットワークを適切に制約することができない。
この問題に対処するため、いくつかの最先端メソッドでは、トレーニングに追加のOODサンプルを追加し、手動で定義したラベルを割り当てる。
しかし、この慣行は信頼できないラベリングを導入し、ID分類に悪影響を及ぼす。
分散脆弱性は,IDの一般化とOOD検出のバランスをとることで,OOD耐性IDの分類を目指す非IIDディープラーニングにとって重要な課題である。
本稿では,OODサンプルに対する適応的な監視情報を生成するために,新しい‘textit{supervision adaptation} アプローチを導入し,IDサンプルとの互換性を高める。
まず,IDサンプルとラベル間の依存関係を相互情報を用いて測定し,すべてのクラスにおいて負の確率で監視情報を表現できることを明らかにする。
次に,idとoodサンプル間のデータ相関を,より明確に分離可能なidクラスに対する監督情報を精査することを目的として,バイナリ回帰問題を解いて検討する。
先進的な4つのネットワークアーキテクチャ,2つのIDデータセット,11の多様化されたOODデータセットに関する広範な実験により,ID分類とOOD検出機能の改善において,我々の監視適応アプローチの有効性が示された。 The discrepancy between in-distribution (ID) and out-of-distribution (OOD) samples can lead to \textit{distributional vulnerability} in deep neural networks, which can subsequently lead to high-confidence predictions for OOD samples. This is mainly due to the absence of OOD samples during training, which fails to constrain the network properly. To tackle this issue, several state-of-the-art methods include adding extra OOD samples to training and assign them with manually-defined labels. However, this practice can introduce unreliable labeling, negatively affecting ID classification. The distributional vulnerability presents a critical challenge for non-IID deep learning, which aims for OOD-tolerant ID classification by balancing ID generalization and OOD detection. In this paper, we introduce a novel \textit{supervision adaptation} approach to generate adaptive supervision information for OOD samples, making them more compatible with ID samples. Firstly, we measure the dependency between ID samples and their labels using mutual information, revealing that the supervision information can be represented in terms of negative probabilities across all classes. Secondly, we investigate data correlations between ID and OOD samples by solving a series of binary regression problems, with the goal of refining the supervision information for more distinctly separable ID classes. Our extensive experiments on four advanced network architectures, two ID datasets, and eleven diversified OOD datasets demonstrate the efficacy of our supervision adaptation approach in improving both ID classification and OOD detection capabilities. | 翻訳日:2023-10-03 21:18:37 公開日:2023-10-02 |
# ツリーテンソルネットワークの最適線形縮約順序について On the Optimal Linear Contraction Order of Tree Tensor Networks, and Beyond ( http://arxiv.org/abs/2209.12332v4 ) ライセンス: Link先を確認 | Mihail Stoian, Richard Milbradt, Christian B. Mendl | (参考訳) テンソルネットワークの収縮コストは、収縮順序に依存する。
しかし、最適収縮順序付け問題はNPハードであることが知られている。
そこで,木テンソルネットワークの線形縮約順序問題は,データベース結合順序付けへの接続を描画することで多項式時間アルゴリズムを許容することを示す。
この結果は、局所的な比較に基づいて収縮順序のグローバル決定を可能にする収縮コストの隣接シーケンス交換特性に依存する。
そこで我々は,木テンソルネットワークの線形縮合順序を求めるために,IKKBZデータベース結合順序付けアルゴリズムの修正版を指定する。
最後に、アルゴリズムをヒューリスティックとして一般収縮順序と任意のテンソルネットワークトポロジに拡張する。 The contraction cost of a tensor network depends on the contraction order. However, the optimal contraction ordering problem is known to be NP-hard. We show that the linear contraction ordering problem for tree tensor networks admits a polynomial-time algorithm, by drawing connections to database join ordering. The result relies on the adjacent sequence interchange property of the contraction cost, which enables a global decision of the contraction order based on local comparisons. Based on that, we specify a modified version of the IKKBZ database join ordering algorithm to find the optimal tree tensor network linear contraction order. Finally, we extend our algorithm as a heuristic to general contraction orders and arbitrary tensor network topologies. | 翻訳日:2023-10-03 21:09:34 公開日:2023-10-02 |
# 未知測定ノイズを持つ物理形ニューラルネットワーク Physics-informed neural networks with unknown measurement noise ( http://arxiv.org/abs/2211.15498v3 ) ライセンス: Link先を確認 | Philipp Pilar, Niklas Wahlstr\"om | (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、解の発見と偏微分方程式のパラメータの同定の両方に対する柔軟なアプローチである。
ほとんどの作業はノイズのないデータや、ガウス雑音によって汚染されたデータを想定している。
標準の pinn フレームワークが非ガウスノイズの場合に分解されることを示す。
本稿では,この基本的な問題を解決する方法を提供し,エネルギーベースモデル(EBM)を協調訓練して,正しい雑音分布を学習することを提案する。
複数の例を用いて,提案手法の性能改善について述べる。 Physics-informed neural networks (PINNs) constitute a flexible approach to both finding solutions and identifying parameters of partial differential equations. Most works on the topic assume noiseless data, or data contaminated by weak Gaussian noise. We show that the standard PINN framework breaks down in case of non-Gaussian noise. We give a way of resolving this fundamental issue and we propose to jointly train an energy-based model (EBM) to learn the correct noise distribution. We illustrate the improved performance of our approach using multiple examples. | 翻訳日:2023-10-03 20:50:46 公開日:2023-10-02 |
# 量子コンピュータの状態形成のための投影アルゴリズム Projection algorithm for state preparation on quantum computers ( http://arxiv.org/abs/2211.10545v3 ) ライセンス: Link先を確認 | I. Stetcu, A. Baroni, and J. Carlson | (参考訳) 本稿では,量子ハードウェア上で多体系の状態を作り,まず個々の量子数を分離し,次に時間発展を用いてエネルギーを分離する効率的な方法を提案する。
最も単純な形式では、補助キュービットを1つ追加するだけでよい。
正確な解法のために進化した総時間は、試験状態のスペクトル範囲と最低励起状態とのギャップの比に比例し、時間とともに指数関数的に精度が上昇する。
量子数の分離は既知の固有値のため効率的であり、ギャップを増加させることで伝播時間を短縮できる。
アルゴリズムの成功率(または所望の状態を生成する確率)は、測定時間と位相の単純な関数であり、元の状態と所望の状態との2乗重なりによって支配される。
本稿では核シェルモデルとハイゼンベルク模型の例を示す。
我々は,このアルゴリズムと先行アルゴリズムを比較し,さらなる改善の可能性について議論する。 We present an efficient method to prepare states of a many-body system on quantum hardware, first isolating individual quantum numbers and then using time evolution to isolate the energy. Our method in its simplest form requires only one additional auxiliary qubit. The total time evolved for an accurate solution is proportional to the ratio of the spectrum range of the trial state to the gap to the lowest excited state, and the accuracy increases exponentially with the time evolved. Isolating the quantum numbers is efficient because of the known eigenvalues, and increases the gap thus shortening the propagation time required. The success rate of the algorithm, or the probability of producing the desired state, is a simple function of measurement times and phases and is dominated by the square overlap of the original state to the desired state. We present examples from the nuclear shell model and the Heisenberg model. We compare this algorithm to previous algorithms for short evolution times and discuss potential further improvements. | 翻訳日:2023-10-03 20:48:10 公開日:2023-10-02 |
# 連続動作を用いた準最適強化学習 Quasi-optimal Reinforcement Learning with Continuous Actions ( http://arxiv.org/abs/2301.08940v2 ) ライセンス: Link先を確認 | Yuhan Li, Wenzhuo Zhou, Ruoqing Zhu | (参考訳) 強化学習(RL)の現実的な応用の多くは、継続的な行動環境において意思決定を必要とする。
特に、最適な線量レベルを決定することは、医療体制の発達に重要な役割を果たす。
しかし、既存のRLアルゴリズムを医療応用に適用する上での課題の1つは、一般的な無限のサポート確率的ポリシー(例えばガウスのポリシー)がリスクの高い高用量を割り当て、患者を重く傷つける可能性があることである。
したがって、準最適行動のみを含む政策クラスを誘導し、有効性と信頼性のための行動探索領域を縮小することが重要である。
そこで本研究では,一般関数近似の下での収束を保証しながら,オフポリティ設定で容易に最適化できる,新しい「emph{quasi-optimal learning algorithm」を開発した。
理論的には,提案アルゴリズムの一貫性,サンプル複雑性,適応性,収束性を解析する。
本アルゴリズムを総合的なシミュレーション実験と,オハイオ1型糖尿病データセットへの用量提案実例を用いて評価した。 Many real-world applications of reinforcement learning (RL) require making decisions in continuous action environments. In particular, determining the optimal dose level plays a vital role in developing medical treatment regimes. One challenge in adapting existing RL algorithms to medical applications, however, is that the popular infinite support stochastic policies, e.g., Gaussian policy, may assign riskily high dosages and harm patients seriously. Hence, it is important to induce a policy class whose support only contains near-optimal actions, and shrink the action-searching area for effectiveness and reliability. To achieve this, we develop a novel \emph{quasi-optimal learning algorithm}, which can be easily optimized in off-policy settings with guaranteed convergence under general function approximations. Theoretically, we analyze the consistency, sample complexity, adaptability, and convergence of the proposed algorithm. We evaluate our algorithm with comprehensive simulated experiments and a dose suggestion real application to Ohio Type 1 diabetes dataset. | 翻訳日:2023-10-03 20:39:44 公開日:2023-10-02 |
# 新しい生成型adversarial networkベースのフレームワークによる短命ssvepデータ拡張 Short-length SSVEP data extension by a novel generative adversarial networks based framework ( http://arxiv.org/abs/2301.05599v5 ) ライセンス: Link先を確認 | Yudong Pan, Ning Li, Yangsong Zhang, Peng Xu and Dezhong Yao | (参考訳) 定常視覚誘発電位(SSVEPs)ベースの脳-コンピュータインタフェース(BCI)は、情報伝達率(ITR)が高く、ターゲットの量が多いことから注目されている。
しかし、周波数同定手法の性能は、ユーザキャリブレーションデータ量とデータ長に大きく左右されるため、実際のアプリケーションへの展開を妨げている。
近年,合成脳波(EEG)データを作成するためにGAN(Generative Adversarial Network)ベースのデータ生成手法が広く採用され,これらの課題に対処することが約束されている。
本稿では,TEGANと呼ばれる時間ウィンドウ長拡張のためのGANベースのエンドツーエンド信号変換ネットワークを提案する。
TEGANは短いSSVEP信号を長い人工SSVEP信号に変換する。
新たなU-Netジェネレータアーキテクチャと補助分類器をネットワークアーキテクチャに組み込むことで、TEGANは合成データに条件付き特徴を生成することができた。
さらに,ネットワーク実装中にganのトレーニングプロセスを規則化する2段階のトレーニング戦略とlecam-divergence正規化用語を導入した。
TEGANは2つの公開SSVEPデータセット(4クラスデータセットと12クラスデータセット)で評価された。
teganの支援により、従来の周波数認識法とディープラーニングに基づく手法の性能は、限られた校正データで大幅に向上した。
また,様々な周波数認識手法の分類性能ギャップを狭めている。
本研究では,高速BCIシステムの開発のために,短時間SSVEP信号に対するデータ長を拡張できる手法の有効性を実証する。
提案手法はキャリブレーション時間を短縮し,様々な実世界のBCIベースのアプリケーションに対する予算を削減できる大きな可能性を秘めている。 Steady-state visual evoked potentials (SSVEPs) based brain-computer interface (BCI) has received considerable attention due to its high information transfer rate (ITR) and available quantity of targets. However, the performance of frequency identification methods heavily hinges on the amount of user calibration data and data length, which hinders the deployment in real-world applications. Recently, generative adversarial networks (GANs)-based data generation methods have been widely adopted to create synthetic electroencephalography (EEG) data, holds promise to address these issues. In this paper, we proposed a GAN-based end-to-end signal transformation network for Time-window length Extension, termed as TEGAN. TEGAN transforms short-length SSVEP signals into long-length artificial SSVEP signals. By incorporating a novel U-Net generator architecture and an auxiliary classifier into the network architecture, the TEGAN could produce conditioned features in the synthetic data. Additionally, we introduced a two-stage training strategy and the LeCam-divergence regularization term to regularize the training process of GAN during the network implementation. The proposed TEGAN was evaluated on two public SSVEP datasets (a 4-class dataset and a 12-class dataset). With the assistance of TEGAN, the performance of traditional frequency recognition methods and deep learning-based methods have been significantly improved under limited calibration data. And the classification performance gap of various frequency recognition methods has been narrowed. This study substantiates the feasibility of the proposed method to extend the data length for short-time SSVEP signals for developing a high-performance BCI system. The proposed GAN-based methods have the great potential of shortening the calibration time and cutting down the budget for various real-world BCI-based applications. | 翻訳日:2023-10-03 20:39:27 公開日:2023-10-02 |
# 制約プログラミング解法における汎用的価値選択ヒューリスティックの学習 Learning a Generic Value-Selection Heuristic Inside a Constraint Programming Solver ( http://arxiv.org/abs/2301.01913v3 ) ライセンス: Link先を確認 | Tom Marty, Tristan Fran\c{c}ois, Pierre Tessier, Louis Gauthier, Louis-Martin Rousseau, Quentin Cappart | (参考訳) 制約プログラミングは組合せ問題の効率的な解法として知られている。
解法における重要な設計選択は分岐ヒューリスティックスであり、探索を最小限の時間で最良の解に導くように設計されている。
しかし、これらのヒューリスティックスの開発は、問題固有の専門知識を必要とする時間を要するプロセスである。
この観察は、専門家の介入なしに機械学習を使って効率的なヒューリスティックを自動的に学習する多くの努力を動機付けてきた。
私たちの知る限りでは、まだオープンな研究課題である。
いくつかのジェネリック変数選択ヒューリスティックは文献で利用可能であるが、ジェネリック値選択ヒューリスティックの選択肢は少ない。
本稿では,制約プログラミングソルバの内部において,価値選択ヒューリスティックを得るために使用できる汎用学習手順を導入することで,この問題に取り組むことを提案する。
これは、深いq学習アルゴリズム、カスタマイズされた報酬信号、異種グラフニューラルネットワークアーキテクチャの組み合わせによって達成されている。
グラフの彩色,最大独立集合,最大カット問題に関する実験は,汎用的ながら大量のバックトラックを必要とせずに,最適に近いより良い解を見つけることができることを示した。 Constraint programming is known for being an efficient approach for solving combinatorial problems. Important design choices in a solver are the branching heuristics, which are designed to lead the search to the best solutions in a minimum amount of time. However, developing these heuristics is a time-consuming process that requires problem-specific expertise. This observation has motivated many efforts to use machine learning to automatically learn efficient heuristics without expert intervention. To the best of our knowledge, it is still an open research question. Although several generic variable-selection heuristics are available in the literature, the options for a generic value-selection heuristic are more scarce. In this paper, we propose to tackle this issue by introducing a generic learning procedure that can be used to obtain a value-selection heuristic inside a constraint programming solver. This has been achieved thanks to the combination of a deep Q-learning algorithm, a tailored reward signal, and a heterogeneous graph neural network architecture. Experiments on graph coloring, maximum independent set, and maximum cut problems show that our framework is able to find better solutions close to optimality without requiring a large amounts of backtracks while being generic. | 翻訳日:2023-10-03 20:37:46 公開日:2023-10-02 |
# 量子エンタングル光子を用いたスペクトル選択性を持つ励起子ダイナミクスの探索 Probing exciton dynamics with spectral selectivity through the use of quantum entangled photons ( http://arxiv.org/abs/2212.11519v2 ) ライセンス: Link先を確認 | Yuta Fujihashi, Kuniyuki Miwa, Masahiro Higashi, Akihito Ishizaki | (参考訳) 量子光は光測定技術を開発するための有望な資源としてますます認識されている。
量子エンタングル光子間の非古典的相関を用いて、古典的手法を超えて測定の精度を高めることには特に注意が払われている。
近年の量子光学技術の進歩により、絡み合った光子のスペクトルと時間特性の操作が可能となり、光子相関は従来の方法に比べて比較的単純な光学系による物質情報の抽出を容易にする。
これらの点において、絡み合った光子の時間分解分光への応用は、複雑な分子・材料系における動的過程に関する情報を曖昧に抽出するための新しい道を開くことができる。
本稿では、絡み合った光子の非古典的相関を利用して、特定の信号寄与を選択的に増強する時間分解分光法を提案する。
絡み合い時間は、絡み合い双生児間の相互遅延を特徴付け、光子相関のスペクトル分布を決定する。
絡み合い時間は、動的プロセスのアクセス可能な時間領域とスペクトル選択度の制御のノブとして二重の役割を担っている。
この意味では、絡み合い時間の役割は古典的レーザーパルスの時間幅と実質的に等価である。
その結果, 量子エンタングル光子の時間分解分光への応用により, 複雑な分子・材料系における動的過程の観察が可能となり, 集束スペクトルから所望の信号寄与を選択的に抽出することが可能となった。
我々は、より精巧に設計された光子状態が量子光分光の可能性を広げると予測している。 Quantum light is increasingly recognized as a promising resource for developing optical measurement techniques. Particular attention has been paid to enhancing the precision of the measurements beyond classical techniques by using nonclassical correlations between quantum entangled photons. Recent advances in quantum optics technology have made it possible to manipulate the spectral and temporal properties of entangled photons, and the photon correlations can facilitate the extraction of matter information with relatively simple optical systems compared to conventional schemes. In these respects, the applications of entangled photons to time-resolved spectroscopy can open new avenues for unambiguously extracting information on dynamical processes in complex molecular and materials systems. Here, we propose time-resolved spectroscopy in which specific signal contributions are selectively enhanced by harnessing the nonclassical correlations of entangled photons. The entanglement time characterizes the mutual delay between an entangled twin and determines the spectral distribution of the photon correlations. The entanglement time plays a dual role as the knob for controlling the accessible time region of dynamical processes and the degrees of spectral selectivity. In this sense, the role of the entanglement time is substantially equivalent to the temporal width of the classical laser pulse. The results demonstrate that the application of quantum entangled photons to time-resolved spectroscopy leads to monitoring dynamical processes in complex molecular and materials systems by selectively extracting desired signal contributions from congested spectra. We anticipate that more elaborately engineered photon states would broaden the availability of quantum light spectroscopy. | 翻訳日:2023-10-03 20:37:06 公開日:2023-10-02 |
# 自己フィードバックによるドメイン非依存的分子生成 Domain-Agnostic Molecular Generation with Self-feedback ( http://arxiv.org/abs/2301.11259v5 ) ライセンス: Link先を確認 | Yin Fang, Ningyu Zhang, Zhuo Chen, Lingbing Guo, Xiaohui Fan, Huajun Chen | (参考訳) 望ましい性質を持つ分子の生成は、科学者が分子構造を設計する方法に革命をもたらし、化学や薬品の設計に価値ある支援を提供するという大きな人気を集めている。
しかし、分子生成における言語モデルの可能性にもかかわらず、構文的または化学的に欠陥のある分子の生成、狭い領域の焦点、そして注釈付きデータや外部の分子データベースによって多様で方向的に実現可能な分子を作成する際の制限など、多くの課題に直面している。
これらの課題に対処するために,分子生成に特化した分子言語モデルであるMolGenを紹介する。
1億以上の分子SELFIESを再構築することで、モルゲンは深い構造的および文法的な洞察を内包する。
これはドメインに依存しない分子プレフィックスチューニングによってさらに強化され、多様なドメイン間の堅牢な知識伝達を促進する。
重要なことに、私たちの自己フィードバックパラダイムは、モデルを‘分子幻覚’から遠ざけ、モデルの推定確率と実世界の化学選好の調整を確実にします。
良く知られたベンチマークに関する大規模な実験は、Penalized logP、QED、分子ドッキングなどの特性におけるMollGenの最適化能力を裏付けるものである。
さらなる分析により、分子の分布を正確に把握し、複雑な構造パターンを識別し、化学空間を効率的に探索する能力が確認された。
コードはhttps://github.com/zjunlp/molgenで入手できる。 The generation of molecules with desired properties has gained tremendous popularity, revolutionizing the way scientists design molecular structures and providing valuable support for chemical and drug design. However, despite the potential of language models in molecule generation, they face numerous challenges such as the generation of syntactically or chemically flawed molecules, narrow domain focus, and limitations in creating diverse and directionally feasible molecules due to a dearth of annotated data or external molecular databases. To tackle these challenges, we introduce MolGen, a pre-trained molecular language model tailored specifically for molecule generation. Through the reconstruction of over 100 million molecular SELFIES, MolGen internalizes profound structural and grammatical insights. This is further enhanced by domain-agnostic molecular prefix tuning, fostering robust knowledge transfer across diverse domains. Importantly, our self-feedback paradigm steers the model away from ``molecular hallucinations'', ensuring alignment between the model's estimated probabilities and real-world chemical preferences. Extensive experiments on well-known benchmarks underscore MolGen's optimization capabilities in properties such as penalized logP, QED, and molecular docking. Additional analyses affirm its proficiency in accurately capturing molecule distributions, discerning intricate structural patterns, and efficiently exploring the chemical space. Code is available at https://github.com/zjunlp/MolGen. | 翻訳日:2023-10-03 20:27:50 公開日:2023-10-02 |
# 微分論理仕様による協調学習計画・制御政策 Co-learning Planning and Control Policies Constrained by Differentiable Logic Specifications ( http://arxiv.org/abs/2303.01346v3 ) ライセンス: Link先を確認 | Zikang Xiong, Daniel Lawson, Joe Eappen, Ahmed H. Qureshi, Suresh Jagannathan | (参考訳) ロボットの計画と制御ポリシーの合成は基本的なタスクであり、複雑な論理仕様や高次元ロボットのダイナミクスといった要素によってさらに複雑になる。
本稿では,複雑な論理仕様を持つ高次元ロボットナビゲーション課題を協調学習計画と制御ポリシーによって解決する新しい強化学習手法を提案する。
特に、このアプローチはトレーニングにおけるサンプルの複雑さを著しく減らし、既存の強化学習アルゴリズムよりもはるかに少ないサンプルで高品質なポリシーを訓練することができる。
さらに,地図画像からの複雑な仕様抽出を効率化し,地図レイアウトの異なる長軸ロボットの動作経路を効率的に生成する手法を提案する。
さらに,本手法では,高次元制御と政策アライメントによる準最適政策の回避も実現している。
本手法の有効性は,タスク仕様の異なる実世界差動駆動ロボット(TurtleBot3)と高次元四足ロボットのシミュレーションによる実験により実証された。 Synthesizing planning and control policies in robotics is a fundamental task, further complicated by factors such as complex logic specifications and high-dimensional robot dynamics. This paper presents a novel reinforcement learning approach to solving high-dimensional robot navigation tasks with complex logic specifications by co-learning planning and control policies. Notably, this approach significantly reduces the sample complexity in training, allowing us to train high-quality policies with much fewer samples compared to existing reinforcement learning algorithms. In addition, our methodology streamlines complex specification extraction from map images and enables the efficient generation of long-horizon robot motion paths across different map layouts. Moreover, our approach also demonstrates capabilities for high-dimensional control and avoiding suboptimal policies via policy alignment. The efficacy of our approach is demonstrated through experiments involving simulated high-dimensional quadruped robot dynamics and a real-world differential drive robot (TurtleBot3) under different types of task specifications. | 翻訳日:2023-10-03 20:18:57 公開日:2023-10-02 |
# EvoPrompting: コードレベルのニューラルアーキテクチャ検索のための言語モデル EvoPrompting: Language Models for Code-Level Neural Architecture Search ( http://arxiv.org/abs/2302.14838v2 ) ライセンス: Link先を確認 | Angelica Chen, David M. Dohan, David R. So | (参考訳) コード生成のための言語モデル(lms)の最近の印象的な成果を踏まえ、進化的ニューラルアーキテクチャ探索(nas)アルゴリズムの適応的変異とクロスオーバー演算子としてのlmsの使用について検討する。
nasは、プロンプトのみを通じてlmsが成功するには、まだタスクが難しいことを証明していますが、進化的プロンプトエンジニアリングとソフトプロンプトチューニングの組み合わせは、私たちが"evoprompting"と呼ぶ方法であり、一貫して多様でハイパフォーマンスなモデルを見つけることが分かりました。
最初に、EvoPromptingは、人間の専門家が設計したものと、精度とモデルサイズの両方で数発のプロンプトの両方を上回り、畳み込みアーキテクチャの変種を生成する、計算効率の良いMNIST-1Dデータセットに有効であることを示す。
次に,提案手法をCLRS Algorithmic Reasoning Benchmark上でグラフニューラルネットワークの探索に適用する。EvoPromptingは,同モデルサイズを維持しながら,30のアルゴリズム推論タスク中21の最先端モデルよりも優れた,新しいアーキテクチャを設計することができる。
EvoPromptingは、さまざまな機械学習タスクにわたる正確で効率的なニューラルネットワークアーキテクチャの設計に成功し、ニューラルネットワーク設計以外のタスクへの容易に適応できるような汎用性も備えている。 Given the recent impressive accomplishments of language models (LMs) for code generation, we explore the use of LMs as adaptive mutation and crossover operators for an evolutionary neural architecture search (NAS) algorithm. While NAS still proves too difficult a task for LMs to succeed at solely through prompting, we find that the combination of evolutionary prompt engineering with soft prompt-tuning, a method we term EvoPrompting, consistently finds diverse and high performing models. We first demonstrate that EvoPrompting is effective on the computationally efficient MNIST-1D dataset, where EvoPrompting produces convolutional architecture variants that outperform both those designed by human experts and naive few-shot prompting in terms of accuracy and model size. We then apply our method to searching for graph neural networks on the CLRS Algorithmic Reasoning Benchmark, where EvoPrompting is able to design novel architectures that outperform current state-of-the-art models on 21 out of 30 algorithmic reasoning tasks while maintaining similar model size. EvoPrompting is successful at designing accurate and efficient neural network architectures across a variety of machine learning tasks, while also being general enough for easy adaptation to other tasks beyond neural network design. | 翻訳日:2023-10-03 20:18:11 公開日:2023-10-02 |
# PDIWS:侵入警報システムにおける人物検出のための熱画像データセット PDIWS: Thermal Imaging Dataset for Person Detection in Intrusion Warning Systems ( http://arxiv.org/abs/2302.13293v2 ) ライセンス: Link先を確認 | Nguyen Duc Thuan, Le Hai Anh and Hoang Si Hong | (参考訳) 本稿では,侵入警報システム(PDIWS)における人物検出のための合成熱画像データセットを提案する。
データセットは2000イメージのトレーニングセットと500イメージのテストセットで構成されている。
各画像は、修正されたポアソン画像編集方法を用いて被写体(イントルーダ)と背景とを合成して合成される。
背景は50種類あり、1000名近い被験者が5つのクラスに分かれている(スキン、クロール、スヌーピング、クライミングなど)。
最初の4つのポーズが検出されれば、侵入者の存在を確認する。
高度なオブジェクト検出アルゴリズムがこのデータセットで実装され、それぞれ0.5のIoUと0.75のMAP値が95.5%、90.9%の比較的良好な結果が得られた。
このデータセットは、https://github.com/thuan-researcher/Intruder-Thermal-Dataset.comで無料で公開されている。 In this paper, we present a synthetic thermal imaging dataset for Person Detection in Intrusion Warning Systems (PDIWS). The dataset consists of a training set with 2000 images and a test set with 500 images. Each image is synthesized by compounding a subject (intruder) with a background using the modified Poisson image editing method. There are a total of 50 different backgrounds and nearly 1000 subjects divided into five classes according to five human poses: creeping, crawling, stooping, climbing and other. The presence of the intruder will be confirmed if the first four poses are detected. Advanced object detection algorithms have been implemented with this dataset and give relatively satisfactory results, with the highest mAP values of 95.5% and 90.9% for IoU of 0.5 and 0.75 respectively. The dataset is freely published online for research purposes at https://github.com/thuan-researcher/Intruder-Thermal-Dataset. | 翻訳日:2023-10-03 20:17:44 公開日:2023-10-02 |
# 建設番号:グラフの作り方? Construction numbers: How to build a graph? ( http://arxiv.org/abs/2302.13186v3 ) ライセンス: Link先を確認 | Paul C. Kainen | (参考訳) 部分順序の線型拡大の数を数えることは、約50年前にスタンレーによって検討された。
包含によって決定されるグラフの頂点と辺の部分順序について、各辺がその両端に従うように、グラフに対してそのような線型拡張 {\it construction sequences} を呼ぶ。
経路、周期、星、二重星、完全なグラフに対するそのような配列の数が見つかる。
経路については、スタンレー(タンジェント数)に同意し、他のクラスの公式を得る。
構造や応用も研究されている。 Counting the number of linear extensions of a partial order was considered by Stanley about 50 years ago. For the partial order on the vertices and edges of a graph determined by inclusion, we call such linear extensions {\it construction sequences} for the graph as each edge follows both of its endpoints. The number of such sequences for paths, cycles, stars, double-stars, and complete graphs is found. For paths, we agree with Stanley (the Tangent numbers) and get formulas for the other classes. Structure and applications are also studied. | 翻訳日:2023-10-03 20:17:30 公開日:2023-10-02 |
# HUST Bearing:ボールベアリング断層診断のための実践的データセット HUST bearing: a practical dataset for ball bearing fault diagnosis ( http://arxiv.org/abs/2302.12533v2 ) ライセンス: Link先を確認 | Nguyen Duc Thuan and Hoang Si Hong | (参考訳) 本研究では,異なる球軸受の振動データに対して,大量の振動データを提供するハスト軸受という実用的なデータセットを提案する。
このデータセットは、90種類の生振動データ(インナークラック、アウタークラック、ボールクラック、およびそれらの2-コンビネーション)を3つの作業条件で5種類の軸受に格納し、サンプルレートは毎秒51,200サンプルである。
導入したデータセットのエンベロープ解析と順序追跡分析を確立し,データの初期評価を可能にした。
多くの古典的機械学習分類法は、異なるドメインの特徴を用いてデータセットのベアリング障害を特定するために用いられる。
典型的な教師なし転送学習アルゴリズムは、データセット内の知識の転送可能性を監視するためにも機能する。
データセットに対する検討手法の実験結果は、分類タスクで100%、教師なし転帰学習で60-80%の精度で分岐する。 In this work, we introduce a practical dataset named HUST bearing, that provides a large set of vibration data on different ball bearings. This dataset contains 90 raw vibration data of 6 types of defects (inner crack, outer crack, ball crack, and their 2-combinations) on 5 types of bearing at 3 working conditions with the sample rate of 51,200 samples per second. We established the envelope analysis and order tracking analysis on the introduced dataset to allow an initial evaluation of the data. A number of classical machine learning classification methods are used to identify bearing faults of the dataset using features in different domains. The typical advanced unsupervised transfer learning algorithms also perform to observe the transferability of knowledge among parts of the dataset. The experimental results of examined methods on the dataset gain divergent accuracy up to 100% on classification task and 60-80% on unsupervised transfer learning task. | 翻訳日:2023-10-03 20:17:19 公開日:2023-10-02 |
# Memotion 3: Codemixed Hindi- English Memes の知覚と感情分析に関するデータセット Memotion 3: Dataset on Sentiment and Emotion Analysis of Codemixed Hindi-English Memes ( http://arxiv.org/abs/2303.09892v3 ) ライセンス: Link先を確認 | Shreyash Mishra, S Suryavardan, Parth Patwa, Megha Chakraborty, Anku Rani, Aishwarya Reganti, Aman Chadha, Amitava Das, Amit Sheth, Manoj Chinnakotla, Asif Ekbal and Srijan Kumar | (参考訳) ミームはソーシャルメディアサイトにおけるユーモアの新しい年齢搬送メカニズムである。
ミームには画像やテキストが含まれることが多い。
ミームは偽情報や憎悪の促進に使用できるため、詳細を調査することが重要である。
memotion 3は10,000の注釈付きミームを持つ新しいデータセットである。
memotion 3は、memotionの以前のイテレーションを含む、ドメイン内の他の一般的なデータセットとは異なり、ヒンズー英語のcodemixed memeを導入している。
本稿では,Memotionタスク,データ収集,データセット作成手法について述べる。
タスクのベースラインも提供しています。
ベースラインコードとデータセットはhttps://github.com/Shreyashm16/Memotion-3.0で公開される。 Memes are the new-age conveyance mechanism for humor on social media sites. Memes often include an image and some text. Memes can be used to promote disinformation or hatred, thus it is crucial to investigate in details. We introduce Memotion 3, a new dataset with 10,000 annotated memes. Unlike other prevalent datasets in the domain, including prior iterations of Memotion, Memotion 3 introduces Hindi-English Codemixed memes while prior works in the area were limited to only the English memes. We describe the Memotion task, the data collection and the dataset creation methodologies. We also provide a baseline for the task. The baseline code and dataset will be made available at https://github.com/Shreyashm16/Memotion-3.0 | 翻訳日:2023-10-03 20:10:56 公開日:2023-10-02 |
# 画像統計と人間の知覚の関連性について Disentangling the Link Between Image Statistics and Human Perception ( http://arxiv.org/abs/2303.09874v2 ) ライセンス: Link先を確認 | Alexander Hepburn, Valero Laparra, Ra\'ul Santos-Rodriguez, Jes\'us Malo | (参考訳) 1950年代、BarlowとAttneaveは生物学的ビジョンと情報の最大化の関係を仮説づけた。
シャノンの後、自然画像の確率を用いて情報を定義する。
多くの生理的・精神物理学的現象は、インフォマックス、効率的なコーディング、最適デノイジングといった原理から導かれてきた。
しかし、このリンクが画像の確率から数学的にどのように表現されるかは定かではない。
まず, 古典的導出は, 確率モデルとセンサの挙動に強い仮定を課した。
さらに, 仮説の直接評価は, 確率の正確な推定を行うために, 古典的画像モデルの不可能性によって制限された。
本研究では, 自然画像の高度な生成モデルを用いて画像の確率を直接評価し, 現状の主観的画像品質指標の感度を通じて, 確率関連因子を組み合わせて人間の知覚を予測する方法について分析する。
我々は情報理論と回帰分析を用いて主観的指標との0.8相関を達成する2つの確率関連因子の組合せを求める。
この確率に基づく感度は、コントラスト感度関数の基本的な傾向、その超越的な変動、ウェバーローとマスキングの傾向を再現して心理物理学的に検証される。 In the 1950s, Barlow and Attneave hypothesised a link between biological vision and information maximisation. Following Shannon, information was defined using the probability of natural images. A number of physiological and psychophysical phenomena have been derived ever since from principles like info-max, efficient coding, or optimal denoising. However, it remains unclear how this link is expressed in mathematical terms from image probability. First, classical derivations were subjected to strong assumptions on the probability models and on the behaviour of the sensors. Moreover, the direct evaluation of the hypothesis was limited by the inability of the classical image models to deliver accurate estimates of the probability. In this work we directly evaluate image probabilities using an advanced generative model for natural images, and we analyse how probability-related factors can be combined to predict human perception via sensitivity of state-of-the-art subjective image quality metrics. We use information theory and regression analysis to find a combination of just two probability-related factors that achieves 0.8 correlation with subjective metrics. This probability-based sensitivity is psychophysically validated by reproducing the basic trends of the Contrast Sensitivity Function, its suprathreshold variation, and trends of the Weber-law and masking. | 翻訳日:2023-10-03 20:10:43 公開日:2023-10-02 |
# ドメイン適応ディエンス予測のためのスパースビジュアルプロンプトの探索 Exploring Sparse Visual Prompt for Domain Adaptive Dense Prediction ( http://arxiv.org/abs/2303.09792v2 ) ライセンス: Link先を確認 | Senqiao Yang, Jiarui Wu, Jiaming Liu, Xiaoqi Li, Qizhe Zhang, Mingjie Pan, Yulu Gan, Zehui Chen, Shanghang Zhang | (参考訳) 視覚的プロンプトは、視覚的クロスドメイン問題に対処する効果的な方法を提供している。
以前の作品では、visual domain prompt (vdp) がまずドメインプロンプトを導入し、各ターゲットドメインに対する画像レベルのプロンプトと微調整プロンプトを警告することで、分類テスト時間適応(tta)問題に取り組む。
しかし、画像レベルのプロンプトは、プロンプト配置された領域における連続的な空間的詳細をマスクするので、特に密集した予測TTA問題を扱う場合、コンテキスト情報の正確さやドメイン知識の抽出に悩まされる。
これらの課題を克服するために,画像レベルのプロンプトに最小のトレーニング可能なパラメータ(0.1\%など)を保持し,入力の空間情報を保持する新しいスパースビジュアルドメインプロンプト(svdp)アプローチを提案する。
ドメイン固有知識の抽出にSVDPをよりよく適用するために、大きな分布シフトを持つ画素上でSVDPのトレーニング可能なパラメータを適応的に割り当てるDomain Prompt Placement (DPP)法を導入する。
さらに、各対象ドメインサンプルが独自のドメインシフトを示すことを認識して、各サンプルに対してプロンプトパラメータを最適化し、ターゲットドメインへの効率的な適応を容易にするドメインプロンプト更新(DPU)戦略を設計する。
広範に使用されているTTAおよび連続TTAベンチマークを用いて実験を行い,提案手法はセマンティックセグメンテーションと深度推定の両タスクにおいて最先端の性能を実現する。 The visual prompts have provided an efficient manner in addressing visual cross-domain problems. In previous works, Visual Domain Prompt (VDP) first introduces domain prompts to tackle the classification Test-Time Adaptation (TTA) problem by warping image-level prompts on the input and fine-tuning prompts for each target domain. However, since the image-level prompts mask out continuous spatial details in the prompt-allocated region, it will suffer from inaccurate contextual information and limited domain knowledge extraction, particularly when dealing with dense prediction TTA problems. To overcome these challenges, we propose a novel Sparse Visual Domain Prompts (SVDP) approach, which holds minimal trainable parameters (e.g., 0.1\%) in the image-level prompt and reserves more spatial information of the input. To better apply SVDP in extracting domain-specific knowledge, we introduce the Domain Prompt Placement (DPP) method to adaptively allocates trainable parameters of SVDP on the pixels with large distribution shifts. Furthermore, recognizing that each target domain sample exhibits a unique domain shift, we design Domain Prompt Updating (DPU) strategy to optimize prompt parameters differently for each sample, facilitating efficient adaptation to the target domain. Extensive experiments were conducted on widely-used TTA and continual TTA benchmarks, and our proposed method achieves state-of-the-art performance in both semantic segmentation and depth estimation tasks. | 翻訳日:2023-10-03 20:10:23 公開日:2023-10-02 |
# 人口格差を超えて:平等な待遇を再定義する Beyond Demographic Parity: Redefining Equal Treatment ( http://arxiv.org/abs/2303.08040v3 ) ライセンス: Link先を確認 | Carlos Mougan, Laura State, Antonio Ferrara, Salvatore Ruggieri, Steffen Staab | (参考訳) 自由主義志向の政治哲学は、全ての個人が保護された特徴とは独立して扱われるべきである。
機械学習における関連する研究は、 \emph{equal treatment} の概念を \emph{equal outcome} という用語に翻訳し、それを \emph{demographic parity} ( \emph{statistical parity} とも呼ばれる) として測定した。
分析の結果,平等な結果と平等な治療という2つの概念が分岐していることが判明した。
我々は平等な治療のための新しい公式化を提案する。
(i)特徴値が予測に与える影響を考慮し、例えば、その特徴をまたがって予測を分解するシャプリー値によって計算する。
(ii)説明の分布を定めること、及び
(iii)保護特性の異なる個体群間の説明分布の比較
等価治療の概念の理論的性質を示し, 等価治療検査者のAUCに基づく分類器2サンプル試験を考案する。
合成データと自然データに等しい処理の形式化について検討する。
私たちは、メソッドとチュートリアルを備えたオープンソースのpythonパッケージである \texttt{explanationspace}をリリースします。 Liberalism-oriented political philosophy reasons that all individuals should be treated equally independently of their protected characteristics. Related work in machine learning has translated the concept of \emph{equal treatment} into terms of \emph{equal outcome} and measured it as \emph{demographic parity} (also called \emph{statistical parity}). Our analysis reveals that the two concepts of equal outcome and equal treatment diverge; therefore, demographic parity does not faithfully represent the notion of \emph{equal treatment}. We propose a new formalization for equal treatment by (i) considering the influence of feature values on predictions, such as computed by Shapley values decomposing predictions across its features, (ii) defining distributions of explanations, and (iii) comparing explanation distributions between populations with different protected characteristics. We show the theoretical properties of our notion of equal treatment and devise a classifier two-sample test based on the AUC of an equal treatment inspector. We study our formalization of equal treatment on synthetic and natural data. We release \texttt{explanationspace}, an open-source Python package with methods and tutorials. | 翻訳日:2023-10-03 20:08:38 公開日:2023-10-02 |
# 階層的関係性: シーングラフ生成の新たな視点 Hierarchical Relationships: A New Perspective to Enhance Scene Graph Generation ( http://arxiv.org/abs/2303.06842v3 ) ライセンス: Link先を確認 | Bowen Jiang and Camillo J. Taylor | (参考訳) 本稿では,関係やオブジェクトのラベル間の階層構造を活用することで,シーングラフ生成システムの性能を大幅に向上できることを示す。
この研究の焦点は、オブジェクトと関係カテゴリを系統的に非結合的なスーパーカテゴリに分割できる情報的階層構造を作ることである。
具体的には、一対のオブジェクトインスタンス間の関係のスーパーカテゴリと、そのスーパーカテゴリ内の詳細な関係を同時に予測するベイズ予測ヘッドを導入し、より情報的な予測を容易にする。
結果として得られたモデルは、データセットアノテーションを超えてより広範な述語セットを生成し、低アノテーション品質の一般的な問題に取り組む能力を示す。
本稿では予備的な知見を提示するが,視覚ゲノムデータセットを用いた実験では,特に述語分類やゼロショット設定において,その高い性能を示す。 This paper presents a finding that leveraging the hierarchical structures among labels for relationships and objects can substantially improve the performance of scene graph generation systems. The focus of this work is to create an informative hierarchical structure that can divide object and relationship categories into disjoint super-categories in a systematic way. Specifically, we introduce a Bayesian prediction head to jointly predict the super-category of relationships between a pair of object instances, as well as the detailed relationship within that super-category simultaneously, facilitating more informative predictions. The resulting model exhibits the capability to produce a more extensive set of predicates beyond the dataset annotations, and to tackle the prevalent issue of low annotation quality. While our paper presents preliminary findings, experiments on the Visual Genome dataset show its strong performance, particularly in predicate classifications and zero-shot settings, that demonstrates the promise of our approach. | 翻訳日:2023-10-03 20:08:18 公開日:2023-10-02 |
# 超伝導量子ドット上の任意の量子論理ゲートの直接パルスレベルコンパイル Direct pulse-level compilation of arbitrary quantum logic gates on superconducting qutrits ( http://arxiv.org/abs/2303.04261v2 ) ライセンス: Link先を確認 | Yujin Cho, Kristin M. Beck, Alessandro R. Castelli, Kyle A. Wendt, Bram Evert, Matthew J. Reagor, Jonathan L DuBois | (参考訳) 量子コンピュータの高度なシミュレーションと計算は、量子回路の高忠実性実装を必要とする。
普遍ゲートセットアプローチは、小さな校正された高忠実な原始ゲートの集合から引き出された多くのゲートから複雑なユニタリを構築する。
クエトリットのような高次元論理要素を持つプロセッサの複雑なユニタリをコンパイルすると、より長いゲートシーケンスを必要とするため、ユニタリ当たりの累積誤差が増大する。
最適制御法は時間と資源効率のよいコンパクトゲート列を約束する。
これらの方法は、原理上、量子デバイス上の任意の複素ユニタリを直接実装できるパルスを生成する。
本研究では,任意のクエットゲートを高忠実度で実現できることを実証する。
2つのqutrit互換プロセッサである llnl quantum device and integration testbed (qudit) standard qpu と rigetti aspen-11 上でランダムに選択された多数の任意のユニタリのパルスを生成しテストし、平均99%の忠実性を得た。
最適制御ゲートは少なくとも3日間は校正を必要とせず、全ての実装ゲートに対して同じ校正パラメータを使用できることを示す。
本研究は,最適制御ゲートのキャリブレーションオーバヘッドを,この手法に基づく効率的な量子回路を実現するために十分に小さくすることができることを示す。 Advanced simulations and calculations on quantum computers require high fidelity implementations of quantum circuits. The universal gateset approach builds complex unitaries from many gates drawn from a small set of calibrated high-fidelity primitive gates, which results in a lower combined fidelity. Compiling a complex unitary for processors with higher-dimensional logical elements, such as qutrits, exacerbates the accumulated error per unitary because a longer gate sequence is needed. Optimal control methods promise time and resource efficient compact gate sequences and, therefore, higher fidelity. These methods generate pulses that can, in principle, directly implement any complex unitary on a quantum device. In this work, we demonstrate that any arbitrary qutrit gate can be realized with high fidelity. We generated and tested pulses for a large set of randomly selected arbitrary unitaries on two separate qutrit compatible processors, LLNL Quantum Device and Integration Testbed (QuDIT) standard QPU and Rigetti Aspen-11, achieving an average fidelity around 99 %. We show that the optimal control gates do not require recalibration for at least three days and the same calibration parameters can be used for all implemented gates. Our work shows that the calibration overheads for optimal control gates can be made small enough to enable efficient quantum circuits based on this technique. | 翻訳日:2023-10-03 20:07:18 公開日:2023-10-02 |
# IFAN:人間とNLPモデルのための説明可能性に基づくインタラクションフレームワーク IFAN: An Explainability-Focused Interaction Framework for Humans and NLP Models ( http://arxiv.org/abs/2303.03124v2 ) ライセンス: Link先を確認 | Edoardo Mosca, Daryna Dementieva, Tohid Ebrahim Ajdari, Maximilian Kummeth, Kirill Gringauz, Yutong Zhou and Georg Groh | (参考訳) 解釈可能性と人間の監視は、複雑なNLPモデルを現実世界のアプリケーションにデプロイする基本的な柱である。
しかし、説明可能性と人道的手法を適用するには、技術的熟練が必要である。
モデル理解と分析のための既存のツールキットにもかかわらず、人間のフィードバックを統合するオプションはまだ限られている。
NLPモデルとのリアルタイムな説明に基づくインタラクションフレームワークIFANを提案する。
IFANのインターフェースを通じて、ユーザーは選択したモデル説明に対してフィードバックを提供することができる。
本稿では,ヘイトスピーチ分類器の性能への影響を最小限に抑えるために,システムの有効性を示す。
IFANはまた、モデル(とデータセット)を管理し、アクセス権を制御するビジュアルアドミンシステムとAPIも提供する。
デモはhttps://ifan.ml.comで公開されている。 Interpretability and human oversight are fundamental pillars of deploying complex NLP models into real-world applications. However, applying explainability and human-in-the-loop methods requires technical proficiency. Despite existing toolkits for model understanding and analysis, options to integrate human feedback are still limited. We propose IFAN, a framework for real-time explanation-based interaction with NLP models. Through IFAN's interface, users can provide feedback to selected model explanations, which is then integrated through adapter layers to align the model with human rationale. We show the system to be effective in debiasing a hate speech classifier with minimal impact on performance. IFAN also offers a visual admin system and API to manage models (and datasets) as well as control access rights. A demo is live at https://ifan.ml. | 翻訳日:2023-10-03 20:06:53 公開日:2023-10-02 |
# tube mpc誘導データ拡張を用いたロバスト適応ポリシーの効率的な深層学習 Efficient Deep Learning of Robust, Adaptive Policies using Tube MPC-Guided Data Augmentation ( http://arxiv.org/abs/2303.15688v2 ) ライセンス: Link先を確認 | Tong Zhao, Andrea Tagliabue, Jonathan P. How | (参考訳) 困難な非構造環境でのアジャイルな自律システムの展開には、不確実性への適応性と堅牢性が必要です。
モデル予測制御(mpc)に基づいた既存のロバストで適応性のあるコントローラは、オンライン上の重い計算コストを犠牲にして素晴らしい性能を達成できる。
MPCからの堅牢でデプロイ可能なポリシを効率的に学習する戦略が登場したが、基本的な適応能力は欠如している。
本研究は,MPCからの堅牢なポリシー学習のための既存の効率的なImitation Learning(IL)アルゴリズムを拡張し,挑戦的なモデル/環境の不確実性に適応したポリシー学習を可能にする。
提案手法の鍵となる考え方は,オンラインで効率的に推定できる学習された低次元モデル/環境表現にポリシーを条件付けることで,IL手順を変更することである。
我々は,マルチロケータ上での課題外乱下での軌跡追跡のための適応的位置と姿勢制御ポリシーの学習課題へのアプローチを調整した。
シミュレーションによる評価は、高品質な適応ポリシーが約1.3ドル時間で得られることを示している。
さらに,トレーニング中の最大風速よりも約50\%,最大風速より36\%の風乱下での平均位置誤差を6.1$cm達成し,トレーニング内およびトレーニング外分布の不確実性への迅速な適応を実証的に実証した。 The deployment of agile autonomous systems in challenging, unstructured environments requires adaptation capabilities and robustness to uncertainties. Existing robust and adaptive controllers, such as those based on model predictive control (MPC), can achieve impressive performance at the cost of heavy online onboard computations. Strategies that efficiently learn robust and onboard-deployable policies from MPC have emerged, but they still lack fundamental adaptation capabilities. In this work, we extend an existing efficient Imitation Learning (IL) algorithm for robust policy learning from MPC with the ability to learn policies that adapt to challenging model/environment uncertainties. The key idea of our approach consists in modifying the IL procedure by conditioning the policy on a learned lower-dimensional model/environment representation that can be efficiently estimated online. We tailor our approach to the task of learning an adaptive position and attitude control policy to track trajectories under challenging disturbances on a multirotor. Evaluations in simulation show that a high-quality adaptive policy can be obtained in about $1.3$ hours. We additionally empirically demonstrate rapid adaptation to in- and out-of-training-distribution uncertainties, achieving a $6.1$ cm average position error under wind disturbances that correspond to about $50\%$ of the weight of the robot, and that are $36\%$ larger than the maximum wind seen during training. | 翻訳日:2023-10-03 19:58:37 公開日:2023-10-02 |
# mask and restore: masked autoencoderによるテスト時のブラインドバックドア防御 Mask and Restore: Blind Backdoor Defense at Test Time with Masked Autoencoder ( http://arxiv.org/abs/2303.15564v2 ) ライセンス: Link先を確認 | Tao Sun, Lu Pang, Chao Chen, Haibin Ling | (参考訳) ディープニューラルネットワークはバックドア攻撃に対して脆弱であり、敵は特別なトリガーで画像をオーバーレイすることでモデルの振る舞いを悪質に操作する。
既存のバックドア防御手法では、モデルがクラウドサービスとして提供される場合など、多くの現実のアプリケーションでは実用的でないいくつかの検証データとモデルパラメータにアクセスする必要がある。
本稿では,特にブラックボックスモデルにおいて,テスト時のブラインドバックドア防御の実践的課題について述べる。
全てのテスト画像の真のラベルは、画像の良否に関わらず、不審なモデルから即時に回収する必要がある。
意味的内容を保ちながらトリガーを無効にする,テスト時の画像浄化手法に着目する。
多様なトリガーパターンとサイズのため、画像空間におけるヒューリスティックトリガー探索はスケールできない。
我々は、生成モデルの強力な再構築力を活用して、そのような障壁を回避するとともに、Blind Defense with Masked AutoEncoder (BDMAE) の枠組みを提案する。
テスト画像とMAE復元の間の画像構造的類似性とラベルの整合性を用いて、トークン空間で可能なトリガを検出する。
検出結果はトリガートポロジーを考慮して洗練される。
最後に,MAE復元を適応的に精製した画像に融合して予測を行う。
私たちのアプローチは、モデルアーキテクチャ、トリガーパターン、イメージの良性に盲目です。
異なるバックドア設定下での広範囲な実験は、その有効性と一般化性を検証する。
コードはhttps://github.com/tsun/BDMAEで入手できる。 Deep neural networks are vulnerable to backdoor attacks, where an adversary maliciously manipulates the model behavior through overlaying images with special triggers. Existing backdoor defense methods often require accessing a few validation data and model parameters, which are impractical in many real-world applications, e.g., when the model is provided as a cloud service. In this paper, we address the practical task of blind backdoor defense at test time, in particular for black-box models. The true label of every test image needs to be recovered on the fly from a suspicious model regardless of image benignity. We focus on test-time image purification methods that incapacitate possible triggers while keeping semantic contents intact. Due to diverse trigger patterns and sizes, the heuristic trigger search in image space can be unscalable. We circumvent such barrier by leveraging the strong reconstruction power of generative models, and propose a framework of Blind Defense with Masked AutoEncoder (BDMAE). It detects possible triggers in the token space using image structural similarity and label consistency between the test image and MAE restorations. The detection results are then refined by considering trigger topology. Finally, we fuse MAE restorations adaptively into a purified image for making prediction. Our approach is blind to the model architectures, trigger patterns and image benignity. Extensive experiments under different backdoor settings validate its effectiveness and generalizability. Code is available at https://github.com/tsun/BDMAE. | 翻訳日:2023-10-03 19:58:12 公開日:2023-10-02 |
# 信頼感と自己監督型画像異常局所化 Confidence-Aware and Self-Supervised Image Anomaly Localisation ( http://arxiv.org/abs/2303.13227v2 ) ライセンス: Link先を確認 | Johanna P. M\"uller, Matthew Baugh, Jeremy Tan, Mischa Dombrowski, Bernhard Kainz | (参考訳) ユニバーサル異常検出は、マシンラーニングと医療画像解析において依然として難しい問題である。
例えば、疫学的な不確実性推定、自動エンコードモデル、あるいは自己監督的な方法で合成異常から、単一の規範的サンプルから期待される分布を学ぶことができる。
自己教師付き異常検出手法の性能は、未知のクラスからの例を用いて決定境界を形成する手法と比較しても劣っている。
しかし、異常露光法はしばしば未知の未知物を識別しない。
本稿では,特徴の局所性制約を緩める確率的推論の近似を支援する,自己教師付き単クラス学習戦略の改善について述べる。
ヒストグラム等化画像を用いた勾配のアップスケーリングは,最近提案された自己超越課題に有益であることを示す。
本手法は,複数のout-of-distribution (ood) 検出モデルに統合されており,本手法が様々なベンチマークデータセットで最先端技術を上回ることを示す。 Universal anomaly detection still remains a challenging problem in machine learning and medical image analysis. It is possible to learn an expected distribution from a single class of normative samples, e.g., through epistemic uncertainty estimates, auto-encoding models, or from synthetic anomalies in a self-supervised way. The performance of self-supervised anomaly detection approaches is still inferior compared to methods that use examples from known unknown classes to shape the decision boundary. However, outlier exposure methods often do not identify unknown unknowns. Here we discuss an improved self-supervised single-class training strategy that supports the approximation of probabilistic inference with loosen feature locality constraints. We show that up-scaling of gradients with histogram-equalised images is beneficial for recently proposed self-supervision tasks. Our method is integrated into several out-of-distribution (OOD) detection models and we show evidence that our method outperforms the state-of-the-art on various benchmark datasets. | 翻訳日:2023-10-03 19:57:18 公開日:2023-10-02 |
# マルチモーダル変分オートエンコーダによる複数画像モダリティの規範的モデリング Multi-modal Variational Autoencoders for normative modelling across multiple imaging modalities ( http://arxiv.org/abs/2303.12706v4 ) ライセンス: Link先を確認 | Ana Lawry Aguila, James Chapman, Andre Altmann | (参考訳) 一般的な神経疾患の研究の課題の1つは、疾患の多様性であり、原因の違い、神経画像の特徴、共生性、遺伝的変異などが含まれる。
規範的モデリングは、生理システムの「正常」な振る舞いがモデル化されるようなコホートを研究する一般的な方法となり、疾患の病理に関する偏差を検出するために被験者レベルで使用できる。
多くの異種疾患では、様々な神経画像および生物学的変数にまたがる異常を観察することを期待する。
しかし、これまでは単一のイメージングモダリティを研究するための規範モデルが主に開発されてきた。
我々は,複数モーダル変数間で異常を集約し,ユニモーダルベースラインよりも偏差を検出するマルチモーダル規範モデリングフレームワークを開発することを目的とする。
本稿では,T1およびDTIデータ間の主観レベルずれを検出するための2つのマルチモーダルVAE規範モデルを提案する。
提案モデルは, 基礎的アプローチよりも, 病人検出, 疾病重症度把握, 患者認知との関連性が良好であった。
また,多変量潜在空間の偏差を測定する多変量潜在空間偏差測定法を提案し,特徴量よりも優れていた。 One of the challenges of studying common neurological disorders is disease heterogeneity including differences in causes, neuroimaging characteristics, comorbidities, or genetic variation. Normative modelling has become a popular method for studying such cohorts where the 'normal' behaviour of a physiological system is modelled and can be used at subject level to detect deviations relating to disease pathology. For many heterogeneous diseases, we expect to observe abnormalities across a range of neuroimaging and biological variables. However, thus far, normative models have largely been developed for studying a single imaging modality. We aim to develop a multi-modal normative modelling framework where abnormality is aggregated across variables of multiple modalities and is better able to detect deviations than uni-modal baselines. We propose two multi-modal VAE normative models to detect subject level deviations across T1 and DTI data. Our proposed models were better able to detect diseased individuals, capture disease severity, and correlate with patient cognition than baseline approaches. We also propose a multivariate latent deviation metric, measuring deviations from the joint latent space, which outperformed feature-based metrics. | 翻訳日:2023-10-03 19:56:27 公開日:2023-10-02 |
# 徒弟学習による主題駆動テキストから画像への生成 Subject-driven Text-to-Image Generation via Apprenticeship Learning ( http://arxiv.org/abs/2304.00186v5 ) ライセンス: Link先を確認 | Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Ruiz, Xuhui Jia, Ming-Wei Chang, William W. Cohen | (参考訳) dreamboothのような最近のテキストから画像への生成モデルは、いくつかの例から与えられた主題に対して‘専門家モデル’を微調整することで、高度にカスタマイズされた対象のイメージを生成するという大きな進歩を遂げている。
しかし、このプロセスは高価であり、各主題について新しい専門家モデルを学ぶ必要がある。
本稿では,主題固有の微調整を文脈内学習に置き換える,主題駆動型テキスト対画像生成器sutiについて述べる。
新たな主題のデモがいくつかあると、SuTIは主題固有の最適化を使わずに、異なる場面で対象の新たな再帰を即座に生成できる。
SuTIは見習いの学習を利用しており、そこでは、多数の主題固有のエキスパートモデルによって生成されたデータから、単一の見習いモデルが学習される。
具体的には、インターネットから何百万ものイメージクラスタを発掘し、それぞれが特定のビジュアルテーマを中心にしています。
これらのクラスタを採用して、さまざまな分野を専門とする、多数のエキスパートモデルをトレーニングしています。
その後、見習いモデルのSuTIは、これらの細かい訓練を受けた専門家の行動を真似ることを学ぶ。
SuTIは最適化ベースのSoTA法よりも20倍高速で高品質でカスタマイズされた画像を生成することができる。
挑戦的なDreamBenchとDreamBench-v2では、SuTIが既存のモデルであるInstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen、DreamBoothを大きく上回っていることを示しています。 Recent text-to-image generation models like DreamBooth have made remarkable progress in generating highly customized images of a target subject, by fine-tuning an ``expert model'' for a given subject from a few examples. However, this process is expensive, since a new expert model must be learned for each subject. In this paper, we present SuTI, a Subject-driven Text-to-Image generator that replaces subject-specific fine tuning with in-context learning. Given a few demonstrations of a new subject, SuTI can instantly generate novel renditions of the subject in different scenes, without any subject-specific optimization. SuTI is powered by apprenticeship learning, where a single apprentice model is learned from data generated by a massive number of subject-specific expert models. Specifically, we mine millions of image clusters from the Internet, each centered around a specific visual subject. We adopt these clusters to train a massive number of expert models, each specializing in a different subject. The apprentice model SuTI then learns to imitate the behavior of these fine-tuned experts. SuTI can generate high-quality and customized subject-specific images 20x faster than optimization-based SoTA methods. On the challenging DreamBench and DreamBench-v2, our human evaluation shows that SuTI significantly outperforms existing models like InstructPix2Pix, Textual Inversion, Imagic, Prompt2Prompt, Re-Imagen and DreamBooth, especially on the subject and text alignment aspects. | 翻訳日:2023-10-03 19:48:19 公開日:2023-10-02 |
# 最大度法における性能保証正則化:kullback-leibler divergenceにおけるゲージ対称性 Performance-guaranteed regularization in maximum likelihood method: Gauge symmetry in Kullback -- Leibler divergence ( http://arxiv.org/abs/2303.16721v2 ) ライセンス: Link先を確認 | Akihisa Ichiki | (参考訳) 最大確率法はデータの背後にある確率を推定する最もよく知られた方法である。
しかし,従来の手法では経験的分布に最も近い確率モデルが得られ,過度に適合する。
その後、正規化法はモデルが間違った確率に過度に近づくのを防ぐが、その性能について体系的にはほとんど知られていない。
正規化の考え方は誤り訂正符号と似ており、最適復号法は最適解と誤受信符号を混合することで得られる。
誤差訂正符号の最適復号はゲージ対称性に基づいて達成される。
そこで本稿では,Kulback のゲージ対称性に着目し,最大極大法の正規化を理論的に保証する。
本手法では,正規化に頻繁に現れるハイパーパラメータを探索することなく最適なモデルを得る。 The maximum likelihood method is the best-known method for estimating the probabilities behind the data. However, the conventional method obtains the probability model closest to the empirical distribution, resulting in overfitting. Then regularization methods prevent the model from being excessively close to the wrong probability, but little is known systematically about their performance. The idea of regularization is similar to error-correcting codes, which obtain optimal decoding by mixing suboptimal solutions with an incorrectly received code. The optimal decoding in error-correcting codes is achieved based on gauge symmetry. We propose a theoretically guaranteed regularization in the maximum likelihood method by focusing on a gauge symmetry in Kullback -- Leibler divergence. In our approach, we obtain the optimal model without the need to search for hyperparameters frequently appearing in regularization. | 翻訳日:2023-10-03 19:46:29 公開日:2023-10-02 |
# MiniGPT-4: 高度な大規模言語モデルによるビジョン言語理解の強化 MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models ( http://arxiv.org/abs/2304.10592v2 ) ライセンス: Link先を確認 | Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny | (参考訳) 最近のgpt-4は、手書きテキストから直接webサイトを生成し、画像内のユーモラスな要素を識別するなど、異例のマルチモーダル能力を示している。
これらの特徴は、以前の視覚言語モデルではまれである。
しかし、GPT-4の技術的な詳細はまだ明らかになっていない。
GPT-4のマルチモーダル生成能力の強化は,高度な大規模言語モデル (LLM) の活用に起因していると考えている。
この現象を調べるために, 凍結した視覚エンコーダを1つのプロジェクション層を用いて, 凍結したLLM, Vicunaと整列させるMiniGPT-4を提案する。
我々の研究は、視覚的特徴を高度な大規模言語モデルに適切に整合させることで、手書きのドラフトから詳細な画像記述生成やWebサイト作成など、GPT-4で実証された多くの高度なマルチモーダル能力を持つことを初めて明らかにした。
さらに,minigpt-4では,与えられた画像に触発された物語や詩の書き方,食事写真に基づく料理の作り方など,他の新たな機能が注目されている。
実験の結果、短い画像キャプションペアで訓練したモデルが不自然な言語出力(繰り返しや断片化など)を生成できることがわかった。
この問題に対処するため,第2段階で詳細な画像記述データセットをキュレートし,モデルを微調整することで,モデル生成の信頼性とユーザビリティを向上した。
私たちのコード、事前トレーニングされたモデル、収集されたデータセットは、https://minigpt-4.github.io/で利用可能です。 The recent GPT-4 has demonstrated extraordinary multi-modal abilities, such as directly generating websites from handwritten text and identifying humorous elements within images. These features are rarely observed in previous vision-language models. However, the technical details behind GPT-4 continue to remain undisclosed. We believe that the enhanced multi-modal generation capabilities of GPT-4 stem from the utilization of sophisticated large language models (LLM). To examine this phenomenon, we present MiniGPT-4, which aligns a frozen visual encoder with a frozen advanced LLM, Vicuna, using one projection layer. Our work, for the first time, uncovers that properly aligning the visual features with an advanced large language model can possess numerous advanced multi-modal abilities demonstrated by GPT-4, such as detailed image description generation and website creation from hand-drawn drafts. Furthermore, we also observe other emerging capabilities in MiniGPT-4, including writing stories and poems inspired by given images, teaching users how to cook based on food photos, and so on. In our experiment, we found that the model trained on short image caption pairs could produce unnatural language outputs (e.g., repetition and fragmentation). To address this problem, we curate a detailed image description dataset in the second stage to finetune the model, which consequently improves the model's generation reliability and overall usability. Our code, pre-trained model, and collected dataset are available at https://minigpt-4.github.io/. | 翻訳日:2023-10-03 19:38:34 公開日:2023-10-02 |
# 量子制御のためのサンプル効率モデルベース強化学習 Sample-efficient Model-based Reinforcement Learning for Quantum Control ( http://arxiv.org/abs/2304.09718v2 ) ライセンス: Link先を確認 | Irtaza Khalid, Carrie A. Weidner, Edmond A. Jonckheere, Sophie G. Shermer, Frank C. Langbein | (参考訳) モデルフリーなRLに対するサンプル複雑性を改善した,ノイズの多い時間依存ゲート最適化のためのモデルベース強化学習(RL)手法を提案する。
サンプル複雑性は、物理システムとのコントローラインタラクションの数である。
ニューラル常微分方程式(ODE)の最近の進歩に触発された帰納バイアスを利用して、学習可能なハミルトンアンサッツによってパラメトリされた自己微分可能なODEを用いて、制御を含む時間依存部分が完全に知られている環境を近似するモデルを表現する。
連続時間非依存パラメータのハミルトン学習を伴う制御は、システムとの相互作用によって解決される。
実数値実験において, 単一ショット計測, 任意のヒルベルト空間切断, ハミルトンパラメータの不確かさを組み込んだ実数値実験において, 標準モデルフリー rl に対する本手法のサンプル複雑性における1桁の利点を実証した。
また、学習したハミルトニアンは、GRAPEのような既存の制御手法によって、RLが初期化として見いだした制御器によるさらなる勾配に基づく最適化に活用することができる。
本稿では,窒素空孔(NV)中心とトランスモンに応用したアルゴリズムについて述べる。 We propose a model-based reinforcement learning (RL) approach for noisy time-dependent gate optimization with improved sample complexity over model-free RL. Sample complexity is the number of controller interactions with the physical system. Leveraging an inductive bias, inspired by recent advances in neural ordinary differential equations (ODEs), we use an auto-differentiable ODE parametrised by a learnable Hamiltonian ansatz to represent the model approximating the environment whose time-dependent part, including the control, is fully known. Control alongside Hamiltonian learning of continuous time-independent parameters is addressed through interactions with the system. We demonstrate an order of magnitude advantage in the sample complexity of our method over standard model-free RL in preparing some standard unitary gates with closed and open system dynamics, in realistic numerical experiments incorporating single shot measurements, arbitrary Hilbert space truncations and uncertainty in Hamiltonian parameters. Also, the learned Hamiltonian can be leveraged by existing control methods like GRAPE for further gradient-based optimization with the controllers found by RL as initializations. Our algorithm that we apply on nitrogen vacancy (NV) centers and transmons in this paper is well suited for controlling partially characterised one and two qubit systems. | 翻訳日:2023-10-03 19:38:09 公開日:2023-10-02 |
# エネルギー誘導型エントロピー神経輸送 Energy-guided Entropic Neural Optimal Transport ( http://arxiv.org/abs/2304.06094v3 ) ライセンス: Link先を確認 | Petr Mokrov and Alexander Korotin and Alexander Kolesov and Nikita Gushchin and Evgeny Burnaev | (参考訳) エネルギーベースのモデル(EBM)は、機械学習コミュニティで数十年にわたって知られている。
エネルギポテンシャル(非正規化可能性関数)を用いて生成モデリング問題を解決する効率的な方法が数多く存在する。
対照的に、最適輸送(ot)の領域、特にニューラルotソルバは、最近のいくつかの研究(otを損失関数としてそれ自身をモデル化しないwganベースのアプローチを除く)によって、探索や制限がはるかに少ない。
本研究では,EBMとEntropy-regularized OTのギャップを埋める。
本稿では,前者の最近の発展と技術的改善を活かし,後者を豊かにするための新しい手法を提案する。
理論的な観点から、我々の手法の一般化境界を証明する。
実際、toy 2dとimageドメインでその適用性を検証する。
スケーラビリティを示すために、トレーニング済みのstyleganでメソッドをエンパワーし、ハイレゾafhq 512\times 512$ unpaired i2i translationに適用します。
単純さのために、私たちはエネルギー誘導のエントロピーotアプローチのバックボーンとして、簡単な短期および長期のebmを選択します。
私たちのコードは公開されています。 Energy-based models (EBMs) are known in the Machine Learning community for decades. Since the seminal works devoted to EBMs dating back to the noughties, there have been a lot of efficient methods which solve the generative modelling problem by means of energy potentials (unnormalized likelihood functions). In contrast, the realm of Optimal Transport (OT) and, in particular, neural OT solvers is much less explored and limited by few recent works (excluding WGAN-based approaches which utilize OT as a loss function and do not model OT maps themselves). In our work, we bridge the gap between EBMs and Entropy-regularized OT. We present a novel methodology which allows utilizing the recent developments and technical improvements of the former in order to enrich the latter. From the theoretical perspective, we prove generalization bounds for our technique. In practice, we validate its applicability in toy 2D and image domains. To showcase the scalability, we empower our method with a pre-trained StyleGAN and apply it to high-res AFHQ $512\times 512$ unpaired I2I translation. For simplicity, we choose simple short- and long-run EBMs as a backbone of our Energy-guided Entropic OT approach, leaving the application of more sophisticated EBMs for future research. Our code is publicly available. | 翻訳日:2023-10-03 19:37:12 公開日:2023-10-02 |
# 合成データを用いた深層学習による眼画像における角膜反射の精密局在 Precise localization of corneal reflections in eye images using deep learning trained on synthetic data ( http://arxiv.org/abs/2304.05673v2 ) ライセンス: Link先を確認 | Sean Anthony Byrne, Marcus Nystr\"om, Virmarie Maquiling, Enkelejda Kasneci, Diederick C. Niehorster | (参考訳) 眼球画像中の1つの角膜反射(CR)の中心を正確に位置決めする深層学習法を提案する。
従来のアプローチとは異なり、シミュレーションデータのみを使用してトレーニングされた畳み込みニューラルネットワーク(cnn)を使用する。
シミュレーションデータのみを使用することで、実眼画像の教師付きトレーニングに必要な手動アノテーションの時間を要するプロセスを完全に回避できるというメリットがある。
提案手法の精度を体系的に評価するために,まず,異なる背景にCRを配置し,様々なノイズレベルに埋め込まれた画像上で実験を行った。
第2に,実眼で撮影した高品質ビデオを用いて実験を行った。
本手法は,実眼画像における空間精度の35%削減による最先端アルゴリズム手法よりも優れており,空間精度の面ではシミュレーション画像の最先端アルゴリズムと比較し,cr中心位置推定の高精度な手法を提供し,視線推定のための深層学習モデルの開発における重要な障害の一つであるデータ可用性問題に対する解決策を提供する。
CR中心のより優れた局在化と適用容易性により、CRベースのアイトラッカーの精度と精度を向上させる可能性がある。 We present a deep learning method for accurately localizing the center of a single corneal reflection (CR) in an eye image. Unlike previous approaches, we use a convolutional neural network (CNN) that was trained solely using simulated data. Using only simulated data has the benefit of completely sidestepping the time-consuming process of manual annotation that is required for supervised training on real eye images. To systematically evaluate the accuracy of our method, we first tested it on images with simulated CRs placed on different backgrounds and embedded in varying levels of noise. Second, we tested the method on high-quality videos captured from real eyes. Our method outperformed state-of-the-art algorithmic methods on real eye images with a 35% reduction in terms of spatial precision, and performed on par with state-of-the-art on simulated images in terms of spatial accuracy.We conclude that our method provides a precise method for CR center localization and provides a solution to the data availability problem which is one of the important common roadblocks in the development of deep learning models for gaze estimation. Due to the superior CR center localization and ease of application, our method has the potential to improve the accuracy and precision of CR-based eye trackers | 翻訳日:2023-10-03 19:36:38 公開日:2023-10-02 |
# ChemCrow: 化学ツールによる大規模言語モデルの強化 ChemCrow: Augmenting large-language models with chemistry tools ( http://arxiv.org/abs/2304.05376v5 ) ライセンス: Link先を確認 | Andres M Bran, Sam Cox, Oliver Schilter, Carlo Baldassari, Andrew D White, Philippe Schwaller | (参考訳) 過去数十年間、優れた計算化学ツールが開発されてきた。
アクセシビリティが強化された単一のプラットフォームに統合することで、急な学習曲線を克服することで、その潜在能力を最大限に活用することができる。
近年,大規模言語モデル (LLM) は領域間のタスクにおいて高い性能を示したが,化学問題に苦慮している。
さらに、これらのモデルは外部の知識ソースにアクセスできず、科学的応用における有用性を制限している。
本研究では, 有機合成, 創薬, 材料設計における課題を遂行するLLM化学剤であるChemCrowを紹介する。
18のエキスパート設計ツールを統合することで、化学におけるLLMのパフォーマンスが向上し、新たな能力が出現する。
我々のエージェントは、昆虫忌避剤、3つの有機触媒の合成を自律的に計画し実行し、新しいクロモフォアの発見を導いた。
llmとエキスパートアセスメントの両方を含む評価は,化学タスクの多種多様な自動化におけるchemcrowの有効性を示す。
驚くべきことに,GPT-4を評価器として用いると,GPT-4の完成度とChemcrowの性能を区別できない。
我々の研究は、専門家の化学者を助け、非専門家の障壁を下げるだけでなく、実験化学と計算化学のギャップを埋めることによって科学的進歩を促進する。 Over the last decades, excellent computational chemistry tools have been developed. Integrating them into a single platform with enhanced accessibility could help reaching their full potential by overcoming steep learning curves. Recently, large-language models (LLMs) have shown strong performance in tasks across domains, but struggle with chemistry-related problems. Moreover, these models lack access to external knowledge sources, limiting their usefulness in scientific applications. In this study, we introduce ChemCrow, an LLM chemistry agent designed to accomplish tasks across organic synthesis, drug discovery, and materials design. By integrating 18 expert-designed tools, ChemCrow augments the LLM performance in chemistry, and new capabilities emerge. Our agent autonomously planned and executed the syntheses of an insect repellent, three organocatalysts, and guided the discovery of a novel chromophore. Our evaluation, including both LLM and expert assessments, demonstrates ChemCrow's effectiveness in automating a diverse set of chemical tasks. Surprisingly, we find that GPT-4 as an evaluator cannot distinguish between clearly wrong GPT-4 completions and Chemcrow's performance. Our work not only aids expert chemists and lowers barriers for non-experts, but also fosters scientific advancement by bridging the gap between experimental and computational chemistry. | 翻訳日:2023-10-03 19:36:12 公開日:2023-10-02 |
# factify 2: マルチモーダルな偽ニュースと風刺ニュースデータセット Factify 2: A Multimodal Fake News and Satire News Dataset ( http://arxiv.org/abs/2304.03897v2 ) ライセンス: Link先を確認 | S Suryavardan, Shreyash Mishra, Parth Patwa, Megha Chakraborty, Anku Rani, Aishwarya Reganti, Aman Chadha, Amitava Das, Amit Sheth, Manoj Chinnakotla, Asif Ekbal, Srijan Kumar | (参考訳) インターネットは世界に対し、自分の見解を表現し、ストーリーを共有するためのオープンなプラットフォームを提供します。
これは非常に価値があるが、偽ニュースは社会の最も差し迫った問題の一つとなっている。
手動の事実チェックプロセスは時間を要するため、重大な害を引き起こす前に誤解を招く主張を否定することは困難である。
これは自動事実またはクレーム検証への関心を喚起している。
既存のデータセットのいくつかは、ファクトチェックの自動化技術の開発をサポートすることを目的としているが、その多くはテキストベースである。
マルチモーダルな事実検証は比較的注目されている。
本稿では,新たなデータソースと風刺記事の追加により,factify 2 と呼ばれるマルチモーダルファクトチェックデータセットを提供する。
factify 2には50,000の新しいデータインスタンスがある。
FACTIFY 1.0と同様に、私たちは3つの幅広いカテゴリ、すなわち、サポート、証拠なし、反響があり、視覚的およびテキスト的データの詳細に基づいたサブカテゴリがあります。
bert and vison transformerベースのベースラインも提供し,テストセットで65%のf1スコアを達成した。
ベースラインコードとデータセットはhttps://github.com/surya1701/Factify-2.0で公開される。 The internet gives the world an open platform to express their views and share their stories. While this is very valuable, it makes fake news one of our society's most pressing problems. Manual fact checking process is time consuming, which makes it challenging to disprove misleading assertions before they cause significant harm. This is he driving interest in automatic fact or claim verification. Some of the existing datasets aim to support development of automating fact-checking techniques, however, most of them are text based. Multi-modal fact verification has received relatively scant attention. In this paper, we provide a multi-modal fact-checking dataset called FACTIFY 2, improving Factify 1 by using new data sources and adding satire articles. Factify 2 has 50,000 new data instances. Similar to FACTIFY 1.0, we have three broad categories - support, no-evidence, and refute, with sub-categories based on the entailment of visual and textual data. We also provide a BERT and Vison Transformer based baseline, which achieves 65% F1 score in the test set. The baseline codes and the dataset will be made available at https://github.com/surya1701/Factify-2.0. | 翻訳日:2023-10-03 19:35:34 公開日:2023-10-02 |
# LibCity: 都市空間・時間予測の効率化と総合化を目指す統一図書館 LibCity: A Unified Library Towards Efficient and Comprehensive Urban Spatial-Temporal Prediction ( http://arxiv.org/abs/2304.14343v6 ) ライセンス: Link先を確認 | Jiawei Jiang, Chengkai Han, Wenjun Jiang, Wayne Xin Zhao, Jingyuan Wang | (参考訳) 深層学習技術が進歩し、都市空間時空間データが蓄積するにつれて、都市空間時空間予測問題を解決するための深層学習モデルが増えている。
しかし、既存の分野には、さまざまなフォーマットで、使いづらいオープンソースのデータ、コードとデータをオープンに利用可能にする論文、さまざまなフレームワークやプラットフォームを使用するオープンソースモデルなど、制限があり、比較が難しい。
これらのメソッドを実装し評価するには、標準化されたフレームワークが緊急に必要です。
これらの問題に対処するために,研究者に信頼性のある実験ツールと便利な開発フレームワークを提供するオープンソースライブラリであるLibCityを提案する。
本図書館では,65の空間-時間予測モデルを再現し,55の空間-時間データセットを収集した。
公平なモデル比較を可能にし、統一されたデータストレージフォーマットを設計し、新しいモデルの開発プロセスを簡単にすることで、libcityは空間-時間予測分野に大きな貢献をする準備が整っている。 As deep learning technology advances and more urban spatial-temporal data accumulates, an increasing number of deep learning models are being proposed to solve urban spatial-temporal prediction problems. However, there are limitations in the existing field, including open-source data being in various formats and difficult to use, few papers making their code and data openly available, and open-source models often using different frameworks and platforms, making comparisons challenging. A standardized framework is urgently needed to implement and evaluate these methods. To address these issues, we propose LibCity, an open-source library that offers researchers a credible experimental tool and a convenient development framework. In this library, we have reproduced 65 spatial-temporal prediction models and collected 55 spatial-temporal datasets, allowing researchers to conduct comprehensive experiments conveniently. By enabling fair model comparisons, designing a unified data storage format, and simplifying the process of developing new models, LibCity is poised to make significant contributions to the spatial-temporal prediction field. | 翻訳日:2023-10-03 17:45:01 公開日:2023-10-02 |
# ボディードビュー合成のための変形可能なシーン再構成 Total-Recon: Deformable Scene Reconstruction for Embodied View Synthesis ( http://arxiv.org/abs/2304.12317v2 ) ライセンス: Link先を確認 | Chonghyuk Song, Gengshan Yang, Kangle Deng, Jun-Yan Zhu, Deva Ramanan | (参考訳) 変形可能なシーンのモノクロ映像から映像合成を具体化する作業について検討する。
ペットと対話する人の1分間のrgbd映像を撮ると、俳優のシーンの動きから得られた新しいカメラの軌跡から、(1)ターゲット俳優の視点をシミュレートするエゴセントリックカメラ、(2)俳優に追随する3人のカメラのシーンを描き出す。
このようなシステムを構築するには、各アクターの根体と関節の動きを再構築し、自由視点合成をサポートするシーン表現が必要である。
より長いビデオは、さまざまな視点からシーンを捉え(再構成を助ける)が、より大きな動きを含む(再構成を複雑にする)傾向も高い。
そこで本研究では,長大のrgbdビデオから変形可能なシーンをフォトリアリスティックに再構成する最初の手法であるtotal-reconを提案する。
要は,長いビデオにスケールするために,シーンを背景とオブジェクトに階層的に分解し,その動作を注意深く初期化した根体運動と局所的な調音に分解する。
このような「地中」の再構築とビュー合成を定量化するために、11の挑戦的なビデオのための特別ステレオRGBDキャプチャーリグから地中真実データを収集し、先行手法を著しく上回った。
私たちのコード、モデル、データはhttps://andrewsonga.github.io/totalrecon.comにあります。 We explore the task of embodied view synthesis from monocular videos of deformable scenes. Given a minute-long RGBD video of people interacting with their pets, we render the scene from novel camera trajectories derived from the in-scene motion of actors: (1) egocentric cameras that simulate the point of view of a target actor and (2) 3rd-person cameras that follow the actor. Building such a system requires reconstructing the root-body and articulated motion of every actor, as well as a scene representation that supports free-viewpoint synthesis. Longer videos are more likely to capture the scene from diverse viewpoints (which helps reconstruction) but are also more likely to contain larger motions (which complicates reconstruction). To address these challenges, we present Total-Recon, the first method to photorealistically reconstruct deformable scenes from long monocular RGBD videos. Crucially, to scale to long videos, our method hierarchically decomposes the scene into the background and objects, whose motion is decomposed into carefully initialized root-body motion and local articulations. To quantify such "in-the-wild" reconstruction and view synthesis, we collect ground-truth data from a specialized stereo RGBD capture rig for 11 challenging videos, significantly outperforming prior methods. Our code, model, and data can be found at https://andrewsonga.github.io/totalrecon . | 翻訳日:2023-10-03 17:44:03 公開日:2023-10-02 |
# 指数的家族推定のための等速的メカニズム The Isotonic Mechanism for Exponential Family Estimation ( http://arxiv.org/abs/2304.11160v3 ) ライセンス: Link先を確認 | Yuling Yan, Weijie J. Su, Jianqing Fan | (参考訳) 2023年、ICML(International Conference on Machine Learning)は、複数の投稿者に対して、認識された品質に基づいて応募をランク付けするよう要求した。
本稿では,これら著者特定ランキングを用いて,等張的メカニズムを指数関数的家族分布に拡張することにより,機械学習および人工知能会議におけるピアレビューを強化することを目的とする。
この機構は、著者特定ランキングに固執しながら、元のスコアと密接に一致する調整されたスコアを生成する。
指数関数分布の幅広いスペクトルに適用できるにもかかわらず、このメカニズムの実装は特定の分布形式に関する知識を必要としない。
著者は,調整済みレビュースコアの凸付加関数の形式を取ると,正確なランク付けを行うようにインセンティブが付与される。
指数関数的家族分布のある種のサブクラスについて、著者が真に報告するのは、その質問が提出物間のペア比較のみを含む場合に限り、真に情報を引き出す際のランク付けの最適性を示す。
さらに, 調整したスコアは, 原点よりも推定精度が劇的に向上し, 接地トラススコアが総変動に束縛された場合, ほぼ最小の最適性が得られることを示した。
本論文はICML 2023ランキングデータを用いて,イソトニック機構を用いた有意な推定ゲインを示す実験を行った。 In 2023, the International Conference on Machine Learning (ICML) required authors with multiple submissions to rank their submissions based on perceived quality. In this paper, we aim to employ these author-specified rankings to enhance peer review in machine learning and artificial intelligence conferences by extending the Isotonic Mechanism to exponential family distributions. This mechanism generates adjusted scores that closely align with the original scores while adhering to author-specified rankings. Despite its applicability to a broad spectrum of exponential family distributions, implementing this mechanism does not require knowledge of the specific distribution form. We demonstrate that an author is incentivized to provide accurate rankings when her utility takes the form of a convex additive function of the adjusted review scores. For a certain subclass of exponential family distributions, we prove that the author reports truthfully only if the question involves only pairwise comparisons between her submissions, thus indicating the optimality of ranking in truthful information elicitation. Moreover, we show that the adjusted scores improve dramatically the estimation accuracy compared to the original scores and achieve nearly minimax optimality when the ground-truth scores have bounded total variation. We conclude the paper by presenting experiments conducted on the ICML 2023 ranking data, which show significant estimation gain using the Isotonic Mechanism. | 翻訳日:2023-10-03 17:43:13 公開日:2023-10-02 |
# FreMIM:フーリエ変換は、医療画像セグメンテーションのための仮面画像モデリングを実現する FreMIM: Fourier Transform Meets Masked Image Modeling for Medical Image Segmentation ( http://arxiv.org/abs/2304.10864v2 ) ライセンス: Link先を確認 | Wenxuan Wang, Jing Wang, Chen Chen, Jianbo Jiao, Lichao Sun, Yuanxiu Cai, Shanshan Song, Jiangyun Li | (参考訳) The research community has witnessed the powerful potential of self-supervised Masked Image Modeling (MIM), which enables the models capable of learning visual representation from unlabeled data.In this paper, to incorporate both the crucial global structural information and local details for dense prediction tasks, we alter the perspective to the frequency domain and present a new MIM-based framework named FreMIM for self-supervised pre-training to better accomplish medical image segmentation task.
詳細な構造情報は、主に高周波成分に関係しており、低周波成分には高レベルの意味が豊富であるという観測に基づいて、事前学習期間中の表現学習を指導するための多段階監視を更に取り入れる。
3つのベンチマークデータセットに対する大規模な実験は、従来の最先端MIM法よりもFreMIMの方が優れていることを示している。
ゼロからトレーニングされたさまざまなベースラインと比較して、FreMIMは一貫してモデルパフォーマンスに大幅な改善をもたらすことができます。
コードは公開される予定だ。 The research community has witnessed the powerful potential of self-supervised Masked Image Modeling (MIM), which enables the models capable of learning visual representation from unlabeled data.In this paper, to incorporate both the crucial global structural information and local details for dense prediction tasks, we alter the perspective to the frequency domain and present a new MIM-based framework named FreMIM for self-supervised pre-training to better accomplish medical image segmentation task. Based on the observations that the detailed structural information mainly lies in the high-frequency components and the high-level semantics are abundant in the low-frequency counterparts, we further incorporate multi-stage supervision to guide the representation learning during the pre-training phase. Extensive experiments on three benchmark datasets show the superior advantage of our FreMIM over previous state-of-the-art MIM methods. Compared with various baselines trained from scratch, our FreMIM could consistently bring considerable improvements to model performance. The code will be made publicly available. | 翻訳日:2023-10-03 17:42:49 公開日:2023-10-02 |
# ボールオルタナティブが欠如する一様性に対する離散分布ヒストグラムの試験におけるミニマックスリスク The minimax risk in testing the histogram of discrete distributions for uniformity under missing ball alternatives ( http://arxiv.org/abs/2305.18111v4 ) ライセンス: Link先を確認 | Alon Kipnis | (参考訳) 我々は,多くのカテゴリからカテゴリ上の一様分布に対する項目のサンプルの適合性をテストする問題を考える。
代替仮説のクラスとして、半径$\epsilon$ の $\ell_p$ の球を、$p \leq 2$ の均一レート列の周りに取り除くことを考える。
n$ のサンプル数と $n$ のカテゴリ数が infinity のとき、$\epsilon$ が 0 のとき、minimax のリスク $r_\epsilon^*$ は標本のヒストグラム(欠落したカテゴリ、シングルトン、衝突数、...)に基づいて、通常の cdf に対して$\phi(x)$ で$2\phi(-n n^{2-2/p} \epsilon^2/\sqrt{8n})$ となる。
この特徴付けにより、以前に提案された多くの推定器を、リスクの収束率よりも一定のレベルで比較することができる。
minimax テストは、主に $n/n$ が小さい場合の衝突に依存するが、さもなければ chisquared テストのように振る舞う。
種々の問題パラメータに関する実証的な研究により、この推定は有限標本において正確であり、我々のテストは衝突のみを用いるチフタッドテストやテストよりもはるかに優れていることが示された。
本解析は,ヒストグラム順序の漸近的正規性,ミニマックス設定とベイズ設定の等価性,および多次元最適化問題を1次元問題に還元することにより,最善の優先条件のキャラクタリゼーションに依存する。 We consider the problem of testing the fit of a sample of items from many categories to the uniform distribution over the categories. As a class of alternative hypotheses, we consider the removal of an $\ell_p$ ball of radius $\epsilon$ around the uniform rate sequence for $p \leq 2$. When the number of samples $n$ and number of categories $N$ go to infinity while $\epsilon$ goes to zero, the minimax risk $R_\epsilon^*$ in testing based on the sample's histogram (number of absent categories, singletons, collisions, ...) asymptotes to $2\Phi(-n N^{2-2/p} \epsilon^2/\sqrt{8N})$, with $\Phi(x)$ the normal CDF. This characterization allows comparing the many estimators previously proposed for this problem at the constant level rather than the rate of convergence of their risks. The minimax test mostly relies on collisions when $n/N$ is small, but otherwise behaves like the chisquared test. Empirical studies over a range of problem parameters show that this estimate is accurate in finite samples and that our test is significantly better than the chisquared test or a test that only uses collisions. Our analysis relies on the asymptotic normality of histogram ordinates, the equivalence between the minimax setting and a Bayesian setting, and the characterization of the least favorable prior by reducing a multi-dimensional optimization problem to a one-dimensional problem. | 翻訳日:2023-10-03 17:36:23 公開日:2023-10-02 |
# スケッチによる部分微分方程式に対するモンテカルロ法とテンソルネットワーク法の組み合わせ Combining Monte Carlo and Tensor-network Methods for Partial Differential Equations via Sketching ( http://arxiv.org/abs/2305.17884v4 ) ライセンス: Link先を確認 | Yian Chen, Yuehaw Khoo | (参考訳) 本稿では,テンソルネットワークを用いて高次元偏微分方程式を解くための一般的な枠組みを提案する。
本手法はモンテカルロシミュレーションを用いて解の更新を行い,最近提案するテンソルトレインスケッチ手法を用いて,サンプルから新しい解をテンソルネットワークとして再評価する。
ランジュバン力学によるフォッカー・プランク方程式のシミュレートと補助場量子モンテカルロによる量子想像時間進化の2つのシナリオに適用することで、このアプローチの汎用性と柔軟性を示す。
また,提案手法の有効性を示すために,収束保証と数値実験も提供する。 In this paper, we propose a general framework for solving high-dimensional partial differential equations with tensor networks. Our approach uses a Monte-Carlo simulations to update the solution and re-estimates the new solution from samples as a tensor-network using a recently proposed tensor train sketching technique. We showcase the versatility and flexibility of our approach by applying it to two specific scenarios: simulating the Fokker-Planck equation through Langevin dynamics and quantum imaginary time evolution via auxiliary-field quantum Monte Carlo. We also provide convergence guarantees and numerical experiments to demonstrate the efficacy of the proposed method. | 翻訳日:2023-10-03 17:35:46 公開日:2023-10-02 |
# モダリティ非依存教師が弱い教師の視聴覚イベントパーサに出会う Modality-Independent Teachers Meet Weakly-Supervised Audio-Visual Event Parser ( http://arxiv.org/abs/2305.17343v2 ) ライセンス: Link先を確認 | Yung-Hsuan Lai, Yen-Chun Chen, Yu-Chiang Frank Wang | (参考訳) 音声視覚学習はマルチモーダル機械学習の主要な柱であり、コミュニティは主にそのモダリティに沿った設定に焦点を当てている。
look, listen, parse dataset (llp) を用いて未検討のアンアライメント設定を調査し,弱ラベルのみ観察したビデオ内の音声と視覚イベントの認識を目標とした。
このような弱いビデオレベルのラベルは、知覚されるモダリティ(オーディオ、視覚、またはその両方)を知らずに、何が起こるかのみを知らせる。
この困難な環境での学習を強化するために,モダリティ教師として大規模コントラスト・事前学習モデルを取り入れた。
VALOR(Visual-Audio Label Elaboration)と呼ばれる、シンプルで効果的で汎用的な手法は、トレーニングイベントのモダリティラベルを抽出するために革新されている。
経験的な研究では、収穫されたラベルは平均f-score (type@av) で8.0の注目ベースラインを大幅に改善している。
驚くことに、モダリティ非依存の教師は、モダリティと融合した教師よりも、他の非アライメントモダリティよりもノイズ耐性が高いことが分かりました。
さらに,本モデルでは,LLPのすべての測定値における新たな最先端化を実現している(Type@AVでは+5.4Fスコア)。
VALORはAudio-Visual Event Localizationにさらに一般化され、新しい最先端技術も実現している。
コードはhttps://github.com/franklin905/valor.com/。 Audio-visual learning has been a major pillar of multi-modal machine learning, where the community mostly focused on its modality-aligned setting, i.e., the audio and visual modality are both assumed to signal the prediction target. With the Look, Listen, and Parse dataset (LLP), we investigate the under-explored unaligned setting, where the goal is to recognize audio and visual events in a video with only weak labels observed. Such weak video-level labels only tell what events happen without knowing the modality they are perceived (audio, visual, or both). To enhance learning in this challenging setting, we incorporate large-scale contrastively pre-trained models as the modality teachers. A simple, effective, and generic method, termed Visual-Audio Label Elaboration (VALOR), is innovated to harvest modality labels for the training events. Empirical studies show that the harvested labels significantly improve an attentional baseline by 8.0 in average F-score (Type@AV). Surprisingly, we found that modality-independent teachers outperform their modality-fused counterparts since they are noise-proof from the other potentially unaligned modality. Moreover, our best model achieves the new state-of-the-art on all metrics of LLP by a substantial margin (+5.4 F-score for Type@AV). VALOR is further generalized to Audio-Visual Event Localization and achieves the new state-of-the-art as well. Code is available at: https://github.com/Franklin905/VALOR. | 翻訳日:2023-10-03 17:35:34 公開日:2023-10-02 |
# モノトーンゲームにおける学習へのスリングショット摂動 Slingshot Perturbation to Learning in Monotone Games ( http://arxiv.org/abs/2305.16610v2 ) ライセンス: Link先を確認 | Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki | (参考訳) 本稿では, 戦略プロファイル空間において, ペイオフ関数の勾配が単調であり, 付加雑音を含むような, モノトーンゲームにおけるナッシュ均衡学習の問題に対処する。
楽観的な学習アルゴリズムのファミリーは、楽観的なフォロー・ザ・レギュラライズド・リーダーと楽観的なミラーの降下によって例示され、ノイズのないシナリオにおいてラストイテレート収束を達成し、ダイナミクスをnash平衡へと導く。
最近のトレンドは、支払い関数がアンカーからの距離、すなわち {\it slingshot} の戦略に基づいて摂動されるという、摂動アプローチの可能性を浮き彫りにしている。
これに対し,我々はまずモノトーンゲームにおける均衡学習のための統一的なフレームワークを構築し,完全なフィードバックとノイズフィードバックの両方を収容する。
第二に, 雑音の存在にかかわらず近似平衡への収束率を構成する。
第3に,slingshot戦略をアップデートし,現在の戦略を有限間隔でアンカーすることで,ツイストを導入する。
この革新は、基礎となるゲームの正確なナッシュ均衡を保証されたレートで識別する権限を与えてくれます。
提案されたフレームワークはすべて包括的であり、既存のペイオフ摂動アルゴリズムを統合する。
最後に、この枠組みを基盤とした我々のアルゴリズムは、かなり加速された収束を示す。 This paper addresses the problem of learning Nash equilibria in {\it monotone games} where the gradient of the payoff functions is monotone in the strategy profile space, potentially containing additive noise. The optimistic family of learning algorithms, exemplified by optimistic Follow-the-Regularized-Leader and optimistic Mirror Descent, successfully achieves last-iterate convergence in scenarios devoid of noise, leading the dynamics to a Nash equilibrium. A recent emerging trend underscores the promise of the perturbation approach, where payoff functions are perturbed based on the distance from an anchoring, or {\it slingshot}, strategy. In response, we first establish a unified framework for learning equilibria in monotone games, accommodating both full and noisy feedback. Second, we construct the convergence rates toward an approximated equilibrium, irrespective of noise presence. Thirdly, we introduce a twist by updating the slingshot strategy, anchoring the current strategy at finite intervals. This innovation empowers us to identify the exact Nash equilibrium of the underlying game with guaranteed rates. The proposed framework is all-encompassing, integrating existing payoff-perturbed algorithms. Finally, empirical demonstrations affirm that our algorithms, grounded in this framework, exhibit significantly accelerated convergence. | 翻訳日:2023-10-03 17:35:08 公開日:2023-10-02 |
# 可視グラフと移動学習によるPSGの振幅非依存機械学習 Amplitude-Independent Machine Learning for PPG through Visibility Graphs and Transfer Learning ( http://arxiv.org/abs/2305.14062v2 ) ライセンス: Link先を確認 | Yuyang Miao, Harry J. Davies, Danilo P. Mandic | (参考訳) photoplethysmography (ppg) は、光を用いた血液量の変化の測定であり、ほとんどのウェアラブルデバイスの特徴である。
PPGシグナルは、身体の循環系に関する洞察を与え、心拍数や血管老化などの様々な生体機能を引き出すために用いられる。
この目的のためにいくつかのアルゴリズムが提案されているが、人間のキャリブレーション、高い信号品質要求、一般化の欠如など多くの制限がある。
本稿では,グラフ理論とコンピュータビジョンアルゴリズムを統合したPSG信号処理フレームワークを導入し,振幅非依存かつアフィン変換に不変な解析フレームワークを提案する。
また、最小限の事前処理を必要とし、RGBチャネルを通じて情報を融合し、タスクやデータセットをまたいだ堅牢な一般化を示す。
提案するvgtl-netは血管老化の予測において最先端の性能を達成し,連続血圧波形のロバストな推定を示す。 Photoplethysmography (PPG) refers to the measurement of variations in blood volume using light and is a feature of most wearable devices. The PPG signals provide insight into the body's circulatory system and can be employed to extract various bio-features, such as heart rate and vascular ageing. Although several algorithms have been proposed for this purpose, many exhibit limitations, including heavy reliance on human calibration, high signal quality requirements, and a lack of generalisation. In this paper, we introduce a PPG signal processing framework that integrates graph theory and computer vision algorithms, to provide an analysis framework which is amplitude-independent and invariant to affine transformations. It also requires minimal preprocessing, fuses information through RGB channels and exhibits robust generalisation across tasks and datasets. The proposed VGTL-net achieves state-of-the-art performance in the prediction of vascular ageing and demonstrates robust estimation of continuous blood pressure waveforms. | 翻訳日:2023-10-03 17:34:07 公開日:2023-10-02 |
# mlpのスケーリング: 帰納的バイアスの話 Scaling MLPs: A Tale of Inductive Bias ( http://arxiv.org/abs/2306.13575v2 ) ライセンス: Link先を確認 | Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann | (参考訳) 本研究では、ディープラーニングにおける最も基本的な構成要素である多層パーセプトロン(MLP)を再検討し、視覚タスクにおけるその性能の限界について検討する。
MLPに対する経験的洞察は、複数の理由から重要である。
1) 変圧器による畳み込みモデルによる近年の物語「非帰納的バイアスは良い」を考えると、この仮説の限界を探求するのは自然である。
そのため、MDPは視覚特有の誘導バイアスを欠いているため、理想的なテストベッドを提供する。
2) MLPは, より複雑なアーキテクチャで観察される経験的現象を説明するプロキシとして機能し, 数学的単純さから, 深層学習理論文学の主役に過ぎなかった。
驚くべきことに、MLPの実験的なデータポイントは、特に大規模な事前学習プロトコルと組み合わせた場合、文献では非常に見つからない。
mlpは実践モデルによって示された経験的進歩を反映していますか?
それとも理論家は、MLPをプロキシとしての役割を再考する必要があるのだろうか?
これら2つの側面に洞察を与えます。
CIFAR10では94%,CIFAR100では81%,ImageNet ReaLでは58%) MLPの性能が大幅に向上し, 誘導バイアスの欠如が実際に補償可能であることを示す。
我々は,MLPが現代人の行動に忠実に模倣しているのを観察し,学習環境のいくつかの構成要素は,強い行動や予期せぬ行動を示す。
計算効率が本質的に高いため、学術研究者にとって大きな事前学習実験がより利用できるようになる。
私たちの実験はすべて、1つのGPU上で実行されました。 In this work we revisit the most fundamental building block in deep learning, the multi-layer perceptron (MLP), and study the limits of its performance on vision tasks. Empirical insights into MLPs are important for multiple reasons. (1) Given the recent narrative "less inductive bias is better", popularized due to transformers eclipsing convolutional models, it is natural to explore the limits of this hypothesis. To that end, MLPs offer an ideal test bed, as they lack any vision-specific inductive bias. (2) MLPs have almost exclusively been the main protagonist in the deep learning theory literature due to their mathematical simplicity, serving as a proxy to explain empirical phenomena observed for more complex architectures. Surprisingly, experimental datapoints for MLPs are very difficult to find in the literature, especially when coupled with large pre-training protocols. This discrepancy between practice and theory is worrying: Do MLPs reflect the empirical advances exhibited by practical models? Or do theorists need to rethink the role of MLPs as a proxy? We provide insights into both these aspects. We show that the performance of MLPs drastically improves with scale (94% on CIFAR10, 81% on CIFAR100, 58% on ImageNet ReaL), highlighting that lack of inductive bias can indeed be compensated. We observe that MLPs mimic the behaviour of their modern counterparts faithfully, with some components in the learning setting however exhibiting stronger or unexpected behaviours. Due to their inherent computational efficiency, large pre-training experiments become more accessible for academic researchers. All of our experiments were run on a single GPU. | 翻訳日:2023-10-03 17:25:55 公開日:2023-10-02 |
# AIによるリアルタイム位置推定手法の可能性とロバスト性の検討 AI Driven Near Real-time Locational Marginal Pricing Method: A Feasibility and Robustness Study ( http://arxiv.org/abs/2306.10080v2 ) ライセンス: Link先を確認 | Naga Venkata Sai Jitin Jami, Juraj Kardo\v{s}, Olaf Schenk and Harald K\"ostler | (参考訳) 市場参加者にとって価格の正確な予測は、運用スケジュールや入札戦略を最適化するために不可欠である。
ロケーション・マージナル・プライシング (Locational Marginal Pricing, LMP) は、多くの現代の電力市場において、従来の手法では最適電力フロー (OPF) 解決器を用いている。
しかし、大規模な電力網では、このプロセスは極めて時間がかかり、計算集約的になる。
機械学習(ML)ベースの予測は、特に再生可能エネルギーのような断続的なソースを持つエネルギー市場において、LMP予測のための効率的なツールを提供する可能性がある。
本研究では、複数の電力網上でのLMP予測において、一般的な機械学習モデルとディープラーニングモデルの性能を評価する。
複数のシナリオを考慮したLMP予測におけるモデルの精度とロバスト性を評価する。
その結果,MLモデルは従来のOPFソルバよりも5~6倍高速でLMP 4-5オーダーを予測でき,現代のHPCクラスタにおけるマルチコアCPUやGPUといったハードウェアインフラストラクチャの助けを借りて,LMP予測におけるMLモデルの可能性を強調した。 Accurate price predictions are essential for market participants in order to optimize their operational schedules and bidding strategies, especially in the current context where electricity prices become more volatile and less predictable using classical approaches. The Locational Marginal Pricing (LMP) pricing mechanism is used in many modern power markets, where the traditional approach utilizes optimal power flow (OPF) solvers. However, for large electricity grids this process becomes prohibitively time-consuming and computationally intensive. Machine learning (ML) based predictions could provide an efficient tool for LMP prediction, especially in energy markets with intermittent sources like renewable energy. This study evaluates the performance of popular machine learning and deep learning models in predicting LMP on multiple electricity grids. The accuracy and robustness of these models in predicting LMP is assessed considering multiple scenarios. The results show that ML models can predict LMP 4-5 orders of magnitude faster than traditional OPF solvers with 5-6\% error rate, highlighting the potential of ML models in LMP prediction for large-scale power models with the assistance of hardware infrastructure like multi-core CPUs and GPUs in modern HPC clusters. | 翻訳日:2023-10-03 17:25:04 公開日:2023-10-02 |
# MUBen:分子表現モデルの不確かさのベンチマーク MUBen: Benchmarking the Uncertainty of Molecular Representation Models ( http://arxiv.org/abs/2306.10060v2 ) ライセンス: Link先を確認 | Yinghao Li, Lingkai Kong, Yuanqi Du, Yue Yu, Yuchen Zhuang, Wenhao Mu, Chao Zhang | (参考訳) 巨大なラベルのないデータで事前学習された大きな分子表現モデルは、分子特性の予測に大きな成功を収めている。
しかし、これらのモデルは微調整データに過度に適合する傾向があり、トレーニング分布の外にあるテストデータに対する過密な予測をもたらす。
この問題を解決するために、モデルのキャリブレーションを改善するために不確実量化法(UQ)を用いることができる。
多くのUQアプローチが存在するが、それらすべてが性能改善につながるわけではない。
分子前訓練モデルを改善するためのUQを含む研究もあるが、適切なバックボーンの選択プロセスと信頼性の高い分子不確実性推定のためのUQ法はまだ未定である。
このギャップに対処するため,我々は,最先端のバックボーン分子表現モデルのための異なるuq法を評価するmubenを提案する。
異なる分子記述子を異なるカテゴリのUQ手法で入力として様々なバックボーンを微調整することにより、アーキテクチャ決定とトレーニング戦略の影響を批判的に評価する。
本研究は、材料科学や薬物発見などの分野における不確実性クリティカルな応用の研究を促進するために、バックボーンモデルのUQを選択するための洞察を提供する。 Large molecular representation models pre-trained on massive unlabeled data have shown great success in predicting molecular properties. However, these models may tend to overfit the fine-tuning data, resulting in over-confident predictions on test data that fall outside of the training distribution. To address this issue, uncertainty quantification (UQ) methods can be used to improve the models' calibration of predictions. Although many UQ approaches exist, not all of them lead to improved performance. While some studies have included UQ to improve molecular pre-trained models, the process of selecting suitable backbone and UQ methods for reliable molecular uncertainty estimation remains underexplored. To address this gap, we present MUBen, which evaluates different UQ methods for state-of-the-art backbone molecular representation models to investigate their capabilities. By fine-tuning various backbones using different molecular descriptors as inputs with UQ methods from different categories, we critically assess the influence of architectural decisions and training strategies. Our study offers insights for selecting UQ for backbone models, which can facilitate research on uncertainty-critical applications in fields such as materials science and drug discovery. | 翻訳日:2023-10-03 17:24:40 公開日:2023-10-02 |
# マイクロステートモデルによるブラックホールの相補性:ブラックホール内部における情報複製とエンコーディングに関する研究 Black hole complementarity from microstate models: A study of information replication and the encoding in the black hole interior ( http://arxiv.org/abs/2307.04799v2 ) ライセンス: Link先を確認 | Tanay Kibe, Sukrut Mondkar, Ayan Mukhopadhyay, Hareram Swain | (参考訳) ブラックホールの相補性原理が、局所半古典近似における量子重力力学からどのように生まれるかを研究する。
さらに, ほぼ極端ブラックホールの破断不安定性に基づくマイクロステートモデルの開発と単純化により, 入射情報の複製(クローン化はしないが)の鍵は, 様々な自由度の解離であることがわかった。
落下する物質は、非等尺的に物質の初期状態をエンコードする毛髪に残留時間依存の量子状態を保持する内部から分離する。
エネルギー吸収とデカップリングの後の内部の非線形なリングダウンも初期状態を符号化し、情報をホーキング放射に転送する。
ホーキング蒸発過程の間、断片化された喉は互いに切り離され、髪は喉から切り離される。
毛髪は,分断した喉当たりの平均質量(温度の指標)が固定された場合,エントロピーの対数(入射時)にスケールする脱カップリング時間後に潜伏する情報を鏡に映し出す。
ミラー化された情報の復号化プロトコルは内部の知識を必要とせず、ホーキング放射からの限られた情報しか必要としない。
ブラックホールにおける情報処理の様々な側面を照らすためのモデルの範囲について論じる。 We study how the black hole complementarity principle can emerge from quantum gravitational dynamics within a local semiclassical approximation. Further developing and then simplifying a microstate model based on the fragmentation instability of a near-extremal black hole, we find that the key to the replication (but not cloning) of infalling information is the decoupling of various degrees of freedom. The infalling matter decouples from the interior retaining a residual time-dependent quantum state in the hair which encodes the initial state of the matter non-isometrically. The non-linear ringdown of the interior after energy absorption and decoupling also encodes the initial state, and transfers the information to Hawking radiation. During the Hawking evaporation process, the fragmented throats decouple from each other and the hair decouples from the throats. We find that the hair mirrors infalling information after the decoupling time which scales with the logarithm of the entropy (at the time of infall) when the average mass per fragmented throat (a proxy for the temperature) is held fixed. The decoding protocol for the mirrored information does not require knowledge of the interior, and only limited information from the Hawking radiation, as can be argued to be necessitated by the complementarity principle. We discuss the scope of the model to illuminate various aspects of information processing in a black hole. | 翻訳日:2023-10-03 17:16:45 公開日:2023-10-02 |
# DADO -- ディープアクティブ設計最適化のための低コストクエリ戦略 DADO -- Low-Cost Query Strategies for Deep Active Design Optimization ( http://arxiv.org/abs/2307.04536v2 ) ライセンス: Link先を確認 | Jens Decke, Christian Gruhl, Lukas Rauch, Bernhard Sick | (参考訳) 本報告では,計算コストの高い数値シミュレーションの数を減らすために,設計最適化の分野に深層アクティブラーニングを適用する。
形状をパラメータのセットで記述した構造コンポーネントの設計を最適化することに興味がある。
これらのパラメータに基づいて性能を予測でき、シミュレーションの有望な候補のみを考慮すれば、コンピューティングパワーを節約できる可能性は非常に大きい。
我々は,多目的設計最適化問題における計算コストを削減するために,自己最適化のための2つの選択戦略を提案する。
提案手法は,適用が容易な直感的アプローチを提供し,ランダムサンプリングよりも大幅に改善し,不確実性推定の必要性を回避する。
我々は流体力学の領域から大規模データセットの戦略を評価し、モデルの性能を決定するために2つの新しい評価指標を導入する。
評価の結果,設計最適化の高速化における選択戦略の有効性が示された。
提案手法は他の自己最適化問題に容易に移行できると考えている。 In this experience report, we apply deep active learning to the field of design optimization to reduce the number of computationally expensive numerical simulations. We are interested in optimizing the design of structural components, where the shape is described by a set of parameters. If we can predict the performance based on these parameters and consider only the promising candidates for simulation, there is an enormous potential for saving computing power. We present two selection strategies for self-optimization to reduce the computational cost in multi-objective design optimization problems. Our proposed methodology provides an intuitive approach that is easy to apply, offers significant improvements over random sampling, and circumvents the need for uncertainty estimation. We evaluate our strategies on a large dataset from the domain of fluid dynamics and introduce two new evaluation metrics to determine the model's performance. Findings from our evaluation highlights the effectiveness of our selection strategies in accelerating design optimization. We believe that the introduced method is easily transferable to other self-optimization problems. | 翻訳日:2023-10-03 17:16:20 公開日:2023-10-02 |
# 音声テキストと大規模言語モデル統合のためのデコーダのみアーキテクチャについて On decoder-only architecture for speech-to-text and large language model integration ( http://arxiv.org/abs/2307.03917v3 ) ライセンス: Link先を確認 | Jian Wu, Yashesh Gaur, Zhuo Chen, Long Zhou, Yimeng Zhu, Tianrui Wang, Jinyu Li, Shujie Liu, Bo Ren, Linquan Liu, Yu Wu | (参考訳) 大規模言語モデル (LLM) は自然言語処理の分野で大きな成功を収めており、自然言語を用いた人間とコンピュータの相互作用が向上している。
しかし,LLMへの音声信号のシームレスな統合は十分に研究されていない。
デコーダのみ"アーキテクチャも音声処理タスクではあまり研究されていない。
本研究では,音声情報をテキストベース大規模言語モデルに効果的に組み込む新しい手法であるSpeech-LLaMAを提案する。
本手法は,圧縮音響特徴をLLMの連続的意味空間にマッピングするために,コネクショニスト時間分類と簡単なオーディオエンコーダを利用する。
さらに,音声対テキストタスクのためのデコーダのみのアーキテクチャについても,音声対テキストペアデータのみから,より小規模のランダム初期化音声ラマモデルをトレーニングすることで検討した。
音声からテキストへの変換におけるデコーダのみのモデルの有効性を強調して,多言語音声からテキストへの変換タスクの実験を行い,強いベースラインに対する大幅な改善を示す。 Large language models (LLMs) have achieved remarkable success in the field of natural language processing, enabling better human-computer interaction using natural language. However, the seamless integration of speech signals into LLMs has not been explored well. The "decoder-only" architecture has also not been well studied for speech processing tasks. In this research, we introduce Speech-LLaMA, a novel approach that effectively incorporates acoustic information into text-based large language models. Our method leverages Connectionist Temporal Classification and a simple audio encoder to map the compressed acoustic features to the continuous semantic space of the LLM. In addition, we further probe the decoder-only architecture for speech-to-text tasks by training a smaller scale randomly initialized speech-LLaMA model from speech-text paired data alone. We conduct experiments on multilingual speech-to-text translation tasks and demonstrate a significant improvement over strong baselines, highlighting the potential advantages of decoder-only models for speech-to-text conversion. | 翻訳日:2023-10-03 17:16:05 公開日:2023-10-02 |
# テキストアライメントを活用した共同ストリーミングASRとSTのためのトークンレベルシリアライズ出力トレーニング Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments ( http://arxiv.org/abs/2307.03354v2 ) ライセンス: Link先を確認 | Sara Papi, Peidong Wang, Junkun Chen, Jian Xue, Jinyu Li, Yashesh Gaur | (参考訳) 現実世界のアプリケーションでは、特にインクリメンタルな生成が必要なストリーミングシナリオにおいて、ユーザーは理解を深めるために、翻訳と音声の書き起こしの両方を必要とすることが多い。
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
最小レイテンシでASRとSTのコンテンツを効果的に生成するために,オフザシェルフテキストアライメント装置を活用して,ソースとターゲット語をインターリーブする共同トークンレベルのシリアライズ出力トレーニング手法を提案する。
単言語 (it-en) と多言語 (\{de,es,it\}-en) における実験は、我々のアプローチが最高の品質・相対性バランスを達成することを示している。
平均ASRレイテンシは1s,STレイテンシは1.3sであり,ASRモデルとSTモデルを比較した結果,出力品質は低下せず,多言語では平均1.1WERと0.4BLEUが向上した。 In real-world applications, users often require both translations and transcriptions of speech to enhance their comprehension, particularly in streaming scenarios where incremental generation is necessary. This paper introduces a streaming Transformer-Transducer that jointly generates automatic speech recognition (ASR) and speech translation (ST) outputs using a single decoder. To produce ASR and ST content effectively with minimal latency, we propose a joint token-level serialized output training method that interleaves source and target words by leveraging an off-the-shelf textual aligner. Experiments in monolingual (it-en) and multilingual (\{de,es,it\}-en) settings demonstrate that our approach achieves the best quality-latency balance. With an average ASR latency of 1s and ST latency of 1.3s, our model shows no degradation or even improves output quality compared to separate ASR and ST models, yielding an average improvement of 1.1 WER and 0.4 BLEU in the multilingual case. | 翻訳日:2023-10-03 17:15:33 公開日:2023-10-02 |
# 有限ハイゼンベルク群の $\mathbb z_n$ 上の中心保存自己同型 Center Preserving Automorphisms of Finite Heisenberg Group over $\mathbb Z_N$ ( http://arxiv.org/abs/2307.00874v3 ) ライセンス: Link先を確認 | T.Hashimoto, M.Horibe, A.Hayashi | (参考訳) 離散位相空間上の有限次元量子力学において生じる、$\mathbb Z_N$ と $U(1)$ 上の有限ハイゼンベルク群の中心保存自己同型の群構造について検討する。
明示的な分割を構成すると、$N=2(2k+1)$ に対して、群は $Sp_N$ と $\mathbb Z_N^2$ の半直積に同型である。
さらに、N が 2^l (l \ge 2)$ で割り切れるとき、群は非自明な 2-サイクルを持ち、その明示的な形式が提供される。
この分割を利用して対応する射影ヴェイユ表現を線型表現へ持ち上げることができることを示す。 We investigate the group structure of center-preserving automorphisms of the finite Heisenberg group over $\mathbb Z_N$ with $U(1)$ extension, which arises in finite-dimensional quantum mechanics on a discrete phase space. Constructing an explicit splitting, it is shown that, for $N=2(2k+1)$, the group is isomorphic to the semidirect product of $Sp_N$ and $\mathbb Z_N^2$. Moreover, when N is divisible by $2^l (l \ge 2)$, the group has a non-trivial 2-cocycle, and its explicit form is provided. By utilizing the splitting, it is demonstrated that the corresponding projective Weil representation can be lifted to linear representation. | 翻訳日:2023-10-03 17:15:11 公開日:2023-10-02 |
# Deep LearningがAdaptive Filteringと出会う: スタインの偏見のないリスク推定手法 Deep Learning Meets Adaptive Filtering: A Stein's Unbiased Risk Estimator Approach ( http://arxiv.org/abs/2307.16708v2 ) ライセンス: Link先を確認 | Zahra Esmaeilbeig and Mojtaba Soltanalian | (参考訳) 本稿では,アルゴリズム展開のレンズを通して,再帰的最小二乗法 (rls) と等価適応音源分離法 (easi) の2つの特徴ある適応フィルタリングアルゴリズムについて検討する。
アンロール手法に基づいて,Deep RLSとDeep EASIと称される新しいタスクベースディープラーニングフレームワークを導入する。
これらのアーキテクチャは、元のアルゴリズムのイテレーションをディープニューラルネットワークのレイヤーに変換し、トレーニングプロセスを利用して効率的なソース信号推定を可能にする。
さらに,Stein's unbiased risk estimator (SURE) に基づく損失関数を用いて,これらの深層学習ネットワークを訓練することを提案する。
実験により,このSUREに基づく音源信号推定手法の有効性を実証した。 This paper revisits two prominent adaptive filtering algorithms through the lens of algorithm unrolling, namely recursive least squares (RLS) and equivariant adaptive source separation (EASI), in the context of source estimation and separation. Building upon the unrolling methodology, we introduce novel task-based deep learning frameworks, denoted as Deep RLS and Deep EASI. These architectures transform the iterations of the original algorithms into layers of a deep neural network, thereby enabling efficient source signal estimation by taking advantage of a training process. To further enhance performance, we propose training these deep unrolled networks utilizing a loss function grounded on a Stein's unbiased risk estimator (SURE). Our empirical evaluations demonstrate the efficacy of this SURE-based approach for enhanced source signal estimation. | 翻訳日:2023-10-03 17:04:53 公開日:2023-10-02 |
# マイクロカノニカル以外のアンサンブルの正典型性 Canonical Typicality For Other Ensembles Than Micro-Canonical ( http://arxiv.org/abs/2307.15624v2 ) ライセンス: Link先を確認 | Stefan Teufel, Roderich Tumulka, Cornelia Vogel | (参考訳) 高次元球面上の一様確率分布の濃度測定結果であるl\'evyの補題を、より一般的な測度のクラス、いわゆるギャップ測度に一般化する。
分離可能なヒルベルト空間上の任意の密度行列 $\rho$ に対して、gap$(\rho)$ は密度行列 $\rho$ を持ち、したがって一様分布の自然な一般化を形成する $\mathcal{h}$ の単位球面上の最も拡散した確率測度である。
最大固有値$\|\rho\|$ の$\rho$ が小さいとき、集中度測定が証明される。
我々はこの事実を利用して、量子統計力学のよく知られた重要な典型をGAP測度、すなわち標準典型と動的典型に一般化し改善する。
正典型性(canonical typicality)とは、与えられたアンサンブルの$\psi$'純状態に対して、十分小さいサブシステムの密度行列は$\psi$非独立行列に非常に近いという主張である。
動的典型性(Dynamical typicality)とは、任意の観測可能かつ任意のユニタリな時間進化に対して、与えられたアンサンブルから$\psi$(粗い粒度の)の値から$\psi$(\psi$-非依存分布に非常に近いという主張である。
これまでのところ、標準の典型性と力学の典型性は、有限次元球面上の一様分布、マイクロカノニカルアンサンブルに対応する、より特殊な平均値アンサンブルとして知られていた。
その結果, 密度行列 $\rho$ で記述された系では, 固有値が小さい系では, これらの典型的結果が一般的であることがわかった。
ある種のGAP測度は古典力学の正準アンサンブルの量子アナログであるため、我々の結果はアンサンブルの等価性のバージョンと見なすこともできる。 We generalize L\'evy's lemma, a concentration-of-measure result for the uniform probability distribution on high-dimensional spheres, to a much more general class of measures, so-called GAP measures. For any given density matrix $\rho$ on a separable Hilbert space $\mathcal{H}$, GAP$(\rho)$ is the most spread out probability measure on the unit sphere of $\mathcal{H}$ that has density matrix $\rho$ and thus forms the natural generalization of the uniform distribution. We prove concentration-of-measure whenever the largest eigenvalue $\|\rho\|$ of $\rho$ is small. We use this fact to generalize and improve well-known and important typicality results of quantum statistical mechanics to GAP measures, namely canonical typicality and dynamical typicality. Canonical typicality is the statement that for ``most'' pure states $\psi$ of a given ensemble, the reduced density matrix of a sufficiently small subsystem is very close to a $\psi$-independent matrix. Dynamical typicality is the statement that for any observable and any unitary time-evolution, for ``most'' pure states $\psi$ from a given ensemble the (coarse-grained) Born distribution of that observable in the time-evolved state $\psi_t$ is very close to a $\psi$-independent distribution. So far, canonical typicality and dynamical typicality were known for the uniform distribution on finite-dimensional spheres, corresponding to the micro-canonical ensemble, and for rather special mean-value ensembles. Our result shows that these typicality results hold in general for systems described by a density matrix $\rho$ with small eigenvalues. Since certain GAP measures are quantum analogs of the canonical ensemble of classical mechanics, our results can also be regarded as a version of equivalence of ensembles. | 翻訳日:2023-10-03 17:04:00 公開日:2023-10-02 |
# 神経抽象化の効率性と精度のトレードオフについて On the Trade-off Between Efficiency and Precision of Neural Abstraction ( http://arxiv.org/abs/2307.15546v2 ) ライセンス: Link先を確認 | Alec Edwards, Mirco Giacobbe, Alessandro Abate | (参考訳) ニューラル抽象化は、複雑な非線形力学モデルの形式近似として最近導入された。
それらは、抽象ニューラルネットワークと具体的力学モデルの間の誤差について、ニューラルネットワークodeと認定された上限から構成されている。
これまでの神経抽象化は、すべて$ReLU$アクティベーション関数からなるニューラルネットワークとしてのみ得られており、結果として、断片的なアフィンダイナミクスを持ち、等価に線形ハイブリッドオートマトンとして解釈できるニューラルODEモデルが得られる。
シナリオによっては、分析が容易な粗い抽象化が必要な場合もありますが、他のシナリオではより複雑で洗練された抽象化が必要な場合もあります。
したがって、別の形状の神経的抽象化、すなわち、断片的定数または非線形非ポリノミカル(特にシグモダル活性化によって得られる)を考える。
我々は形式的帰納的合成法を用いて、これらのセマンティクスを用いた動的モデルをもたらすニューラル抽象化を生成する。
経験的に、これらの異なるニューラルネットワーク抽象化テンプレートが、その正確性と合成時間、および安全性検証に必要な時間(到達可能性計算による)を持っているというトレードオフを実証する。
高次元モデルの抽象化を可能にする既存の合成技術を改善し、さらにこれらのモデルの到達可能性解析の効率を向上させるために複雑なニューラルネットワークのodeの抽象化についても論じる。 Neural abstractions have been recently introduced as formal approximations of complex, nonlinear dynamical models. They comprise a neural ODE and a certified upper bound on the error between the abstract neural network and the concrete dynamical model. So far neural abstractions have exclusively been obtained as neural networks consisting entirely of $ReLU$ activation functions, resulting in neural ODE models that have piecewise affine dynamics, and which can be equivalently interpreted as linear hybrid automata. In this work, we observe that the utility of an abstraction depends on its use: some scenarios might require coarse abstractions that are easier to analyse, whereas others might require more complex, refined abstractions. We therefore consider neural abstractions of alternative shapes, namely either piecewise constant or nonlinear non-polynomial (specifically, obtained via sigmoidal activations). We employ formal inductive synthesis procedures to generate neural abstractions that result in dynamical models with these semantics. Empirically, we demonstrate the trade-off that these different neural abstraction templates have vis-a-vis their precision and synthesis time, as well as the time required for their safety verification (done via reachability computation). We improve existing synthesis techniques to enable abstraction of higher-dimensional models, and additionally discuss the abstraction of complex neural ODEs to improve the efficiency of reachability analysis for these models. | 翻訳日:2023-10-03 17:03:17 公開日:2023-10-02 |
# モバイルエッジコンピューティングにおける深層強化学習によるタスクグラフオフロード Task Graph offloading via Deep Reinforcement Learning in Mobile Edge Computing ( http://arxiv.org/abs/2309.10569v2 ) ライセンス: Link先を確認 | Jiagang Liu, Yun Mi, Xinyu Zhang | (参考訳) 依存タスクを構成するさまざまなモバイルアプリケーションが広く普及し、ますます複雑になっている。
これらのアプリケーションは、しばしば低レイテンシ要件を持ち、コンピューティングリソースの需要が大幅に急増する。
モバイルエッジコンピューティング(MEC)の出現により、高品質なユーザエクスペリエンスを得るために、モバイルネットワークのエッジにデプロイされた小規模デバイスにアプリケーションタスクをオフロードする上で、最も重要な問題となる。
しかし、MECの環境は動的であるため、専門家の知識や正確な分析モデルに大きく依存するタスクグラフのオフロードに焦点を当てた既存の作業は、そのような環境変化に完全に適応できず、ユーザエクスペリエンスが低下する。
本稿では,エッジコンピューティングデバイスの時間変動計算能力を考慮したMECにおけるタスクグラフのオフロードについて検討する。
環境変化に対応するために,計算オフロードのためのタスクグラフスケジューリングをMarkov Decision Process (MDP) としてモデル化する。
次に,環境とのインタラクションからタスクスケジューリング戦略を学習し,ユーザエクスペリエンスを向上させるために,深層強化学習アルゴリズム(sata-drl)を設計する。
シミュレーションにより、SATA-DRLは平均メイトパンと期限違反を減らす点で既存の戦略よりも優れていることが示された。 Various mobile applications that comprise dependent tasks are gaining widespread popularity and are increasingly complex. These applications often have low-latency requirements, resulting in a significant surge in demand for computing resources. With the emergence of mobile edge computing (MEC), it becomes the most significant issue to offload the application tasks onto small-scale devices deployed at the edge of the mobile network for obtaining a high-quality user experience. However, since the environment of MEC is dynamic, most existing works focusing on task graph offloading, which rely heavily on expert knowledge or accurate analytical models, fail to fully adapt to such environmental changes, resulting in the reduction of user experience. This paper investigates the task graph offloading in MEC, considering the time-varying computation capabilities of edge computing devices. To adapt to environmental changes, we model the task graph scheduling for computation offloading as a Markov Decision Process (MDP). Then, we design a deep reinforcement learning algorithm (SATA-DRL) to learn the task scheduling strategy from the interaction with the environment, to improve user experience. Extensive simulations validate that SATA-DRL is superior to existing strategies in terms of reducing average makespan and deadline violation. | 翻訳日:2023-10-03 16:56:24 公開日:2023-10-02 |
# 表層異常検出のための自己教師型学習の限界を理解する Understanding the limitations of self-supervised learning for tabular anomaly detection ( http://arxiv.org/abs/2309.08374v2 ) ライセンス: Link先を確認 | Kimberly T. Mai, Toby Davies, Lewis D. Griffin | (参考訳) 自己教師付き学習は、コンピュータビジョンや自然言語処理における異常検出を改善するが、表データにメリットがあるかどうかは定かではない。
本稿では,タブ状異常検出における自己スーパービジョンの限界について検討する。
26のベンチマークデータセットで様々なプリテキストタスクにまたがる実験を行い、これがなぜそうなるのかを理解した。
自己スーパービジョンから導かれる表現は,データの生表現を用いた場合に比べ,表状異常検出性能が向上しない。
これは、異常検出器の有効性を低下させる無関係な特徴を導入したニューラルネットワークによるものである。
しかし、ニューラルネットワークの表現のサブスペースを使用することで、性能を回復できることを示す。 While self-supervised learning has improved anomaly detection in computer vision and natural language processing, it is unclear whether tabular data can benefit from it. This paper explores the limitations of self-supervision for tabular anomaly detection. We conduct several experiments spanning various pretext tasks on 26 benchmark datasets to understand why this is the case. Our results confirm representations derived from self-supervision do not improve tabular anomaly detection performance compared to using the raw representations of the data. We show this is due to neural networks introducing irrelevant features, which reduces the effectiveness of anomaly detectors. However, we demonstrate that using a subspace of the neural network's representation can recover performance. | 翻訳日:2023-10-03 16:55:40 公開日:2023-10-02 |
# ロボットの深部強化学習のための自動逆関数デザイナとしての自己精製大言語モデル Self-Refined Large Language Model as Automated Reward Function Designer for Deep Reinforcement Learning in Robotics ( http://arxiv.org/abs/2309.06687v2 ) ライセンス: Link先を確認 | Jiayang Song, Zhehua Zhou, Jiawei Liu, Chunrong Fang, Zhan Shu, Lei Ma | (参考訳) 深層強化学習(drl)は多くのロボットアプリケーションで顕著な成功を収めているが、高いパフォーマンスの報酬関数の設計は、しばしばかなりの手動入力を必要とする課題である。
近年,大規模言語モデル(llm)が,推論や計画など,深い知識を必要とするタスクに広く採用されている。
報酬関数の設計もそのような知識と本質的に結びついていることを認識し、LLMはこの文脈において有望なポテンシャルを提供する。
そこで本研究では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
このフレームワークは、自然言語入力に基づいて初期報酬関数を定式化するllmで始まる。
そして、報奨関数の性能を評価し、その結果をLSMに提示して自己補充プロセスの導出を行う。
提案フレームワークの性能を,3つのロボットシステムにわたる連続ロボット制御タスクを通して検証した。
その結果, LLMが設計した報酬関数は, 手作業で設計した報酬関数と競合したり, 越えることが可能であることが示唆された。 Although Deep Reinforcement Learning (DRL) has achieved notable success in numerous robotic applications, designing a high-performing reward function remains a challenging task that often requires substantial manual input. Recently, Large Language Models (LLMs) have been extensively adopted to address tasks demanding in-depth common-sense knowledge, such as reasoning and planning. Recognizing that reward function design is also inherently linked to such knowledge, LLM offers a promising potential in this context. Motivated by this, we propose in this work a novel LLM framework with a self-refinement mechanism for automated reward function design. The framework commences with the LLM formulating an initial reward function based on natural language inputs. Then, the performance of the reward function is assessed, and the results are presented back to the LLM for guiding its self-refinement process. We examine the performance of our proposed framework through a variety of continuous robotic control tasks across three diverse robotic systems. The results indicate that our LLM-designed reward functions are able to rival or even surpass manually designed reward functions, highlighting the efficacy and applicability of our approach. | 翻訳日:2023-10-03 16:55:30 公開日:2023-10-02 |
# 心房細動検出のための圧縮機に基づく分類 Compressor-Based Classification for Atrial Fibrillation Detection ( http://arxiv.org/abs/2308.13328v2 ) ライセンス: Link先を確認 | Nikita Markov, Konstantin Ushenin, Yakov Bozhko, Olga Solovyova | (参考訳) 心房細動(英: atrial fibrillation、AF)は、公衆衛生に問題のある最も一般的な不整脈の1つである。
したがって,ecgにおけるafエピソードの自動検出は,生体工学における重要な課題の一つである。
本稿では,近年導入された圧縮機を用いたテキスト分類法を,AF検出のためのgzipアルゴリズムを用いて適用した。
RR-interval と $\Delta$RR-interval に適用される正規化圧縮距離 ($\Delta$RR-interval is the difference between subsequent RR-intervals) について検討した。
そこで、k-nearest近傍の分類器の構成、最適なウィンドウ長、圧縮のためのデータ型の選択について分析した。
mit-bih心房細動データベース(avg:best special af detection algorithm)を用いて,良好な分類結果を得た。
感度 = 97.1\%,avg。
特異度=91.7\%、最良の感度:99.8\%、最良の特異度:97.6\%。
さらに,マイズショット学習環境下での分類性能の評価を行った。
この結果から,gzip圧縮に基づく分類は,生医学的データや量子化された連続確率列に適していると考えられた。 Atrial fibrillation (AF) is one of the most common arrhythmias with challenging public health implications. Therefore, automatic detection of AF episodes on ECG is one of the essential tasks in biomedical engineering. In this paper, we applied the recently introduced method of compressor-based text classification with gzip algorithm for AF detection (binary classification between heart rhythms). We investigated the normalized compression distance applied to RR-interval and $\Delta$RR-interval sequences ($\Delta$RR-interval is the difference between subsequent RR-intervals). Here, the configuration of the k-nearest neighbour classifier, an optimal window length, and the choice of data types for compression were analyzed. We achieved good classification results while learning on the full MIT-BIH Atrial Fibrillation database, close to the best specialized AF detection algorithms (avg. sensitivity = 97.1\%, avg. specificity = 91.7\%, best sensitivity of 99.8\%, best specificity of 97.6\% with fivefold cross-validation). In addition, we evaluated the classification performance under the few-shot learning setting. Our results suggest that gzip compression-based classification, originally proposed for texts, is suitable for biomedical data and quantized continuous stochastic sequences in general. | 翻訳日:2023-10-03 16:53:59 公開日:2023-10-02 |
# ホログラムの弱い測定 Holographic Weak Measurement ( http://arxiv.org/abs/2309.15896v2 ) ライセンス: Link先を確認 | Xinyu Sun, Shao-Kai Jian | (参考訳) 本稿では,共形場理論(CFT)における弱測定のホログラフィック記述について述べる。
弱測定は、恒等作用素と射影作用素を補間するソフトプロジェクションと見なすことができ、測定されていないCFTとは異なる効果的な中心電荷を誘導することができる。
界面ブレーンによる弱測定をモデル化し、測定後の状態と測定されていないcftとで異なるジオメトリを分離する。
無限系では、弱い測定は時空回転によってICFTと関連付けられる。
欠陥点に位置するツイスト演算子によるホログラフィックエンタングルメントエントロピーは,ICFTの計算と弱い測定の両方において一致していることがわかった。
さらに, 境界エントロピーをホログラフィックの絡み合いと分割関数によって計算する。
有限系では、弱い測定は豊富な位相図に導かれる: 限界測定では、創発的ブレーンは2つのAdS測度を分離するが、無関係な測定では、後測度幾何学は、ブレーンによって分離されるAdS時空とブラックホール時空を特徴とする。
後の段階では測定は無関係であるが、測定後の幾何はPythonのランチを実現することができる。 In this paper, we study a holographic description of weak measurements in conformal field theories (CFTs). Weak measurements can be viewed as a soft projection that interpolates between an identity operator and a projection operator, and can induce an effective central charge distinct from the unmeasured CFT. We model the weak measurement by an interface brane, separating different geometries dual to the post-measurement state and the unmeasured CFT, respectively. In an infinite system, the weak measurement is related to ICFT via a spacetime rotation. We find that the holographic entanglement entropy with twist operators located on the defect is consistent in both calculations for ICFT and weak measurements. We additionally calculate the boundary entropy via holographic entanglement as well as partition function. In a finite system, the weak measurement can lead to a rich phase diagram: for marginal measurements the emergent brane separates two AdS geometries, while for irrelevant measurements the post-measurement geometry features an AdS spacetime and a black hole spacetime that are separated by the brane. Although the measurement is irrelevant in the later phase, the post-measurement geometry can realize a Python's lunch. | 翻訳日:2023-10-03 16:45:20 公開日:2023-10-02 |
# Schr\odinger方程式に対するノイマンおよびロビン境界条件の物理的意味 Physical Meaning of Neumann and Robin Boundary Conditions for the Schr\"odinger Equation ( http://arxiv.org/abs/2309.15835v2 ) ライセンス: Link先を確認 | Roderich Tumulka | (参考訳) 境界を持つ領域 $\omega\subset \mathbb{r}^n$ 上の非相対論的schr\"odinger方程式は、しばしば均質なディリクレ境界条件 (\psi(x)=0$ for $x$ on the boundary) または均質なノイマン境界条件 (\partial_n \psi(x)=0$ for $x$ on the boundary and $\partial_n$ the normal derivative) あるいはロビン境界条件 (\partial_n\psi(x)=\alpha\psi(x)$ for $x$ on the boundary and $\alpha$ a real parameter) と共に考慮される。
物理的に、ディリクレ条件は、$\Omega$ の外側のポテンシャルが内側よりもはるかに高い場合に適用される(`potential well'')。
ノイマンやロビンの状態はいつ物理的に当てはまるのか?
我々の答えは、ポテンシャルがポテンシャル井戸よりも薄い層において(適切なレベルで)はるかに低いとき、または、適切な強度の負のデルタ電位が電位井戸に近く加わったときである。 The non-relativistic Schr\"odinger equation on a domain $\Omega\subset \mathbb{R}^n$ with boundary is often considered with homogeneous Dirichlet boundary conditions ($\psi(x)=0$ for $x$ on the boundary) or homogeneous Neumann boundary conditions ($\partial_n \psi(x)=0$ for $x$ on the boundary and $\partial_n$ the normal derivative) or Robin boundary conditions ($\partial_n\psi(x)=\alpha\psi(x)$ for $x$ on the boundary and $\alpha$ a real parameter). Physically, the Dirichlet condition applies if outside of $\Omega$ the potential is much higher than inside (``potential well''). We ask, when does the Neumann or Robin condition apply physically? Our answer is, when the potential is much lower (at the appropriate level) in a thin layer before a potential well, or when a negative delta potential of the appropriate strength is added close to the potential well. | 翻訳日:2023-10-03 16:44:58 公開日:2023-10-02 |
# ICML 2023 トポロジカルディープラーニングチャレンジ : 設計と結果 ICML 2023 Topological Deep Learning Challenge : Design and Results ( http://arxiv.org/abs/2309.15188v2 ) ライセンス: Link先を確認 | Mathilde Papillon, Mustafa Hajij, Florian Frantzen, Josef Hoppe, Helen Jenne, Johan Mathe, Audun Myers, Theodore Papamarkou, Michael T. Schaub, Ghada Zamzmi, Tolga Birdal, Tamal Dey, Tim Doster, Tegan Emerson, Gurusankar Gopalakrishnan, Devendra Govil, Vincent Grande, Aldo Guzm\'an-S\'aenz, Henry Kvinge, Neal Livesay, Jan Meisner, Soham Mukherjee, Shreyas N. Samaga, Karthikeyan Natesan Ramamurthy, Maneel Reddy Karri, Paul Rosen, Sophia Sanborn, Michael Scholkemper, Robin Walters, Jens Agerberg, Georg B\"okman, Sadrodin Barikbin, Claudio Battiloro, Gleb Bazhenov, Guillermo Bernardez, Aiden Brent, Sergio Escalera, Simone Fiorellino, Dmitrii Gavrilev, Mohammed Hassanin, Paul H\"ausner, Odin Hoff Gardaa, Abdelwahed Khamis, Manuel Lecha, German Magai, Tatiana Malygina, Pavlo Melnyk, Rub\'en Ballester, Kalyan Nadimpalli, Alexander Nikitin, Abraham Rabinowitz, Alessandro Salatiello, Simone Scardapane, Luca Scofano, Suraj Singh, Jens Sj\"olund, Pavel Snopov, Indro Spinelli, Lev Telyatnikov, Lucia Testa, Maosheng Yang, Yixiao Yue, Olga Zaghen, Ali Zia, Nina Miolane | (参考訳) 本稿では、ICML 2023 Workshop on Topology and Geometry in Machine Learningにホストされたトポロジ的深層学習に関する計算課題について述べる。
コンペティションは参加者に対して、PythonパッケージのTopoNetX(データ処理)とTopoModelX(ディープラーニング)にコントリビュートすることで、文献からトポロジカルニューラルネットワークのオープンソース実装を提供するように求めた。
この挑戦は2ヶ月の期間で28の応募を惹きつけた。
本稿では,課題の設計について述べるとともに,その主な知見を概説する。 This paper presents the computational challenge on topological deep learning that was hosted within the ICML 2023 Workshop on Topology and Geometry in Machine Learning. The competition asked participants to provide open-source implementations of topological neural networks from the literature by contributing to the python packages TopoNetX (data processing) and TopoModelX (deep learning). The challenge attracted twenty-eight qualifying submissions in its two-month duration. This paper describes the design of the challenge and summarizes its main findings. | 翻訳日:2023-10-03 16:44:25 公開日:2023-10-02 |
# 4つのミンコフスキー真空状態からのAdS$_3$真空状態 AdS$_3$ Vacuum State from Four Minkowski Vacuum States ( http://arxiv.org/abs/2309.15107v3 ) ライセンス: Link先を確認 | Lucas Kocia Kovalsky | (参考訳) 4つの特定の 1{+}2$ minkowski の真空状態のテンソル積は、パリティや時間反転対称性のないすべての非零スカラー曲率からなる3次元反ド・ジッター時空の無限集合に対する自己整合真空状態である。 We show that a tensor product of four specific $1{+}2$ Minkowski vacuum states is a self-consistent vacuum state for an infinite set of three-dimensional anti-de Sitter spacetimes, which consist of all non-zero scalar curvatures without parity or time-reversal symmetry. | 翻訳日:2023-10-03 16:44:14 公開日:2023-10-02 |
# ゆるやかに変動するオーバーハウザー場勾配の効率的適応ベイズ推定 Efficient adaptive Bayesian estimation of a slowly fluctuating Overhauser field gradient ( http://arxiv.org/abs/2309.15014v2 ) ライセンス: Link先を確認 | Jacob Benestad, Jan A. Krzywda, Evert van Nieuwenburg, Jeroen Danon | (参考訳) オーバーハウザー場の遅いゆらぎは、III-V半導体量子ドットにホストされるスピン量子ビットにおけるデコヒーレンスの重要な源である。
2重ドート単項三重項量子ビットに対する磁場勾配の影響に着目し,一連の自由誘導減衰実験により勾配の大きさを推定する2つの適応ベイズスキームを提案する。
我々は、スキームのリアルタイム実装を念頭に置いて、計算オーバーヘッドの削減に集中する。
さらに,従来の推定手法と比較して,推定精度が大幅に向上することを示す。
我々は,デファスティングの効果と勾配自体のドリフトの分析を含む。 Slow fluctuations of Overhauser fields are an important source for decoherence in spin qubits hosted in III-V semiconductor quantum dots. Focusing on the effect of the field gradient on double-dot singlet-triplet qubits, we present two adaptive Bayesian schemes to estimate the magnitude of the gradient by a series of free induction decay experiments. We concentrate on reducing the computational overhead, with a real-time implementation of the schemes in mind. We show how it is possible to achieve a significant improvement of estimation accuracy compared to more traditional estimation methods. We include an analysis of the effects of dephasing and the drift of the gradient itself. | 翻訳日:2023-10-03 16:44:06 公開日:2023-10-02 |
# 共同音声と音声の理解 Joint Audio and Speech Understanding ( http://arxiv.org/abs/2309.14405v2 ) ライセンス: Link先を確認 | Yuan Gong, Alexander H. Liu, Hongyin Luo, Leonid Karlinsky, James Glass | (参考訳) 人間は音声と非音声の両方を含む音声信号に囲まれている。
音声および非音声音声イベントの認識と理解は、両者の関係を深く理解すると共に、基本的な認知能力を構成する。
概念的に類似した普遍的なオーディオ知覚と高度な推論能力を持つ、ltu-asと呼ばれる機械学習モデルが初めて構築されました。
具体的には、Whisperを知覚モジュールとして、LLaMAを推論モジュールとして統合することにより、LTU-ASは音声テキスト、音声パラ言語学、非音声音声イベントを同時に認識し、共同理解することができる。 Humans are surrounded by audio signals that include both speech and non-speech sounds. The recognition and understanding of speech and non-speech audio events, along with a profound comprehension of the relationship between them, constitute fundamental cognitive capabilities. For the first time, we build a machine learning model, called LTU-AS, that has a conceptually similar universal audio perception and advanced reasoning ability. Specifically, by integrating Whisper as a perception module and LLaMA as a reasoning module, LTU-AS can simultaneously recognize and jointly understand spoken text, speech paralinguistics, and non-speech audio events - almost everything perceivable from audio signals. | 翻訳日:2023-10-03 16:43:55 公開日:2023-10-02 |
# オープンソースツールキットと公開データを用いたウィスパースタイルの再現訓練 Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data ( http://arxiv.org/abs/2309.13876v2 ) ライセンス: Link先を確認 | Yifan Peng, Jinchuan Tian, Brian Yan, Dan Berrebbi, Xuankai Chang, Xinjian Li, Jiatong Shi, Siddhant Arora, William Chen, Roshan Sharma, Wangyou Zhang, Yui Sudo, Muhammad Shakeel, Jee-weon Jung, Soumi Maiti, Shinji Watanabe | (参考訳) 大量のデータで事前学習した音声モデルは、大きな成功を収めている。
OpenAI Whisperは680k時間の教師付き音声データに基づいてトレーニングされた多言語マルチタスクモデルである。
ゼロショット設定であっても、音声認識や翻訳のベンチマークによく当てはまる。
しかし、そのようなモデルを開発するための完全なパイプライン(データ収集からトレーニングまで)は公開されていないため、研究者がパフォーマンスを改善し、効率性、堅牢性、公正性、バイアスといったトレーニング関連の問題に対処することは困難である。
本研究は,オープンソースツールキットと公開データを用いたWhisperスタイルのトレーニングを再現するOpen Whisperスタイル音声モデル(OWSM)を提案する。
owsmはさらに多くの翻訳方向をサポートし、より効率的にトレーニングできる。
データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、オープンサイエンスを促進するための事前訓練されたモデルとトレーニングログを公開します。 Pre-training speech models on large volumes of data has achieved remarkable success. OpenAI Whisper is a multilingual multitask model trained on 680k hours of supervised speech data. It generalizes well to various speech recognition and translation benchmarks even in a zero-shot setup. However, the full pipeline for developing such models (from data collection to training) is not publicly accessible, which makes it difficult for researchers to further improve its performance and address training-related issues such as efficiency, robustness, fairness, and bias. This work presents an Open Whisper-style Speech Model (OWSM), which reproduces Whisper-style training using an open-source toolkit and publicly available data. OWSM even supports more translation directions and can be more efficient to train. We will publicly release all scripts used for data preparation, training, inference, and scoring as well as pre-trained models and training logs to promote open science. | 翻訳日:2023-10-03 16:43:44 公開日:2023-10-02 |
# 在庫管理における後方予測 : 分類手法とコストの考察 Backorder Prediction in Inventory Management: Classification Techniques and Cost Considerations ( http://arxiv.org/abs/2309.13837v2 ) ライセンス: Link先を確認 | Sarit Maitra, Sukanya Kundu | (参考訳) 本稿では,在庫管理における後方予測のための高度な分析手法を紹介する。
秩序とは、株式の枯渇により直ちに達成できない命令のこと。
ROC-AUC や PR-AUC などの性能評価指標を用いて, 平衡バッグ分類器, ファジィ論理, 変分オートエンコーダ, 多層パーセプトロン分類器などの複数の分類手法の評価を行った。
さらに、在庫管理や受注処理に関連する金銭的意味やコストを考慮すると、利益関数と誤分類コストが組み込まれている。
その結果,インベントリシステムのサービスレベル向上における予測モデルの有効性が示され,顧客満足度と組織全体のパフォーマンスが得られた。
商業アプリケーションでaiを使用する場合、解釈可能性を考えると、特徴の重要性を決定するために選択されたモデルに置換の重要性が適用される。
本研究は, 予測分析の進歩に寄与し, 後方予測における今後の調査や意思決定のための在庫管理最適化に有用な知見を提供する。 This article introduces an advanced analytical approach for predicting backorders in inventory management. Backorder refers to an order that cannot be immediately fulfilled due to stock depletion. Multiple classification techniques, including Balanced Bagging Classifiers, Fuzzy Logic, Variational Autoencoder - Generative Adversarial Networks, and Multi-layer Perceptron classifiers, are assessed in this work using performance evaluation metrics such as ROC-AUC and PR-AUC. Moreover, this work incorporates a profit function and misclassification costs, considering the financial implications and costs associated with inventory management and backorder handling. The results demonstrate the effectiveness of the predictive model in enhancing inventory system service levels, which leads to customer satisfaction and overall organizational performance. Considering interpretability is a significant aspect of using AI in commercial applications, permutation importance is applied to the selected model to determine the importance of features. This research contributes to the advancement of predictive analytics and offers valuable insights for future investigations in backorder forecasting and inventory control optimization for decision-making. | 翻訳日:2023-10-03 16:43:29 公開日:2023-10-02 |
# RCOT:思考の連鎖逆転による推論の不整合の検出と抑制 RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought ( http://arxiv.org/abs/2305.11499v2 ) ライセンス: Link先を確認 | Tianci Xue, Ziqi Wang, Zhenhailong Wang, Chi Han, Pengfei Yu, Heng Ji | (参考訳) 大規模言語モデル(LLM)は、ステップ・バイ・ステップ・チェーン・オブ・シークレット(CoT)プロンプトを導入し、算術推論タスクにおいて有望な性能を達成した。
しかし、LLMは、推論中の事実整合性の維持、条件見落としの傾向、疑わしい解釈、与えられた問題に対する条件幻覚といった課題に直面している。
既存の方法は、粗いフィードバック(例えば、答えが正しいかどうか)を使って、事実整合性を改善する。
本研究では, LLMにおける事実整合性を自動的に検出し, 修正することにより, LLMの推論能力を向上させる新しい手法である RCoT (Reversing Chain-of-Thought) を提案する。
事実整合性を検出するために、RCoT はまず LLM に対して、生成した解に基づいて問題を再構築するよう要求する。
そして、元の問題と再構成された問題の細かな比較は、元の解の事実的矛盾を露呈する。
解を正すために、RCoT式は、実際の矛盾を検出してきめ細かいフィードバックを与え、解の修正にLSMを導く。
実験により、7つの算術データセット間での標準CoT, 自己整合性, 自己整合性に対するRCoTの改善が示された。
さらに、手書きのきめ細かいフィードバックは、LCMの推論能力(例えば、ChatGPTはGSM8Kで94.6%の精度に達する)を劇的に向上させ、よりきめ細かいフィードバック生成方法の探求を促している。 Large language Models (LLMs) have achieved promising performance on arithmetic reasoning tasks by incorporating step-by-step chain-of-thought (CoT) prompting. However, LLMs face challenges in maintaining factual consistency during reasoning, exhibiting tendencies to condition overlooking, question misinterpretation, and condition hallucination over given problems. Existing methods use coarse-grained feedback (e.g., whether the answer is correct) to improve factual consistency. In this work, we propose RCoT (Reversing Chain-of-Thought), a novel method to improve LLMs' reasoning abilities by automatically detecting and rectifying factual inconsistency in LLMs, generated solutions. To detect factual inconsistency, RCoT first asks LLMs to reconstruct the problem based on generated solutions. Then fine-grained comparisons between the original problem and the reconstructed problem expose the factual inconsistency in the original solutions. To rectify the solution, RCoT formulates detected factual inconsistency into fine-grained feedback to guide LLMs in revising solutions. Experimental results demonstrate improvements of RCoT over standard CoT, Self-Consistency and Self-Refine across seven arithmetic datasets. Moreover, we find that manually written fine-grained feedback can dramatically improve LLMs' reasoning abilities (e.g., ChatGPT reaches 94.6% accuracy on GSM8K), encouraging the community to further explore the fine-grained feedback generation methods. | 翻訳日:2023-10-03 14:53:35 公開日:2023-10-02 |
# LLMのマルチステップ推論における自己整合性の2つの失敗 Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs ( http://arxiv.org/abs/2305.14279v3 ) ライセンス: Link先を確認 | Angelica Chen, Jason Phang, Alicia Parrish, Vishakh Padmakumar, Chen Zhao, Samuel R. Bowman, Kyunghyun Cho | (参考訳) 大規模言語モデル(LLM)は、様々なコンテキスト内数ショットタスクで広く成功しているが、この成功は通常、一貫性よりも正確性によって評価される。
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。
本稿では,多段階推論において特に重要な自己整合性(仮説的他の文脈における出力の予測能力)と構成的整合性(中間的なサブステップをそれらのステップの出力に置き換える際のモデルの最終出力の整合性)の2つのタイプを提案する。
GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの一貫性の低下を示す。 Large language models (LLMs) have achieved widespread success on a variety of in-context few-shot tasks, but this success is typically evaluated via correctness rather than consistency. We argue that self-consistency is an important criteria for valid multi-step reasoning in tasks where the solution is composed of the answers to multiple sub-steps. We propose two types of self-consistency that are particularly important for multi-step reasoning -- hypothetical consistency (a model's ability to predict what its output would be in a hypothetical other context) and compositional consistency (consistency of a model's final outputs when intermediate sub-steps are replaced with the model's outputs for those steps). We demonstrate that multiple variants of the GPT-3/-4 models exhibit poor consistency rates across both types of consistency on a variety of tasks. | 翻訳日:2023-10-03 14:43:45 公開日:2023-10-02 |
# エージェントと言語モデルにおける能動的因果戦略の受動的学習 Passive learning of active causal strategies in agents and language models ( http://arxiv.org/abs/2305.16183v2 ) ライセンス: Link先を確認 | Andrew Kyle Lampinen and Stephanie C Y Chan and Ishita Dasgupta and Andrew J Nam and Jane X Wang | (参考訳) 受動的データから因果関係と実験について何を学ぶことができるか?
ツール使用のような対話型ドメインにおける受動的に訓練された言語モデルの成功を考えると、この問題は健全である。
受動的学習は本質的に限定的である。
しかし、純粋受動的学習は、エージェントがテスト時に介入できる限り、エージェントが因果構造を決定・使用するための一般化可能な戦略を学習できることを示す。
我々は、まず実験し、次に目標を求める戦略を学習することで、受動的学習を原則として一般化できることを正式に説明する。
そして、専門家データに対する模倣によって訓練されたエージェントが、訓練データに存在しない因果関係を推論し、使用するために実際にテスト時に一般化できることを実証的に示す。
さらに,自然言語による説明を援用した,より複雑な環境においても,受動的データから因果的介入と搾取の戦略を一般化できることを示した。
説明は、受動的学習者が完全なトレーニングデータから分散を一般化することを可能にする。
最後に,受動的次単語予測のみを訓練した言語モデルは,説明や推論とともに,実験の例を含む数発のプロンプトから因果的介入戦略を一般化できることを示す。
これらの結果は、アクティブ因果戦略の受動的学習の驚くべき力を強調し、言語モデルの振る舞いや能力を理解するのに役立つかもしれない。 What can be learned about causality and experimentation from passive data? This question is salient given recent successes of passively-trained language models in interactive domains such as tool use. Passive learning is inherently limited. However, we show that purely passive learning can in fact allow an agent to learn generalizable strategies for determining and using causal structures, as long as the agent can intervene at test time. We formally illustrate that learning a strategy of first experimenting, then seeking goals, can allow generalization from passive learning in principle. We then show empirically that agents trained via imitation on expert data can indeed generalize at test time to infer and use causal links which are never present in the training data; these agents can also generalize experimentation strategies to novel variable sets never observed in training. We then show that strategies for causal intervention and exploitation can be generalized from passive data even in a more complex environment with high-dimensional observations, with the support of natural language explanations. Explanations can even allow passive learners to generalize out-of-distribution from perfectly-confounded training data. Finally, we show that language models, trained only on passive next-word prediction, can generalize causal intervention strategies from a few-shot prompt containing examples of experimentation, together with explanations and reasoning. These results highlight the surprising power of passive learning of active causal strategies, and may help to understand the behaviors and capabilities of language models. | 翻訳日:2023-10-03 14:33:00 公開日:2023-10-02 |
# 教師なしによるデータセットのクラス分離可能性推定法とllms微調整への応用 An Unsupervised Method for Estimating Class Separability of Datasets with Application to LLMs Fine-Tuning ( http://arxiv.org/abs/2305.15016v2 ) ライセンス: Link先を確認 | Najah Ghalyan, Kostis Gourgoulias, Yash Satsangi, Sean Moran, Maxime Labonne, Joseph Sabelja | (参考訳) 本稿では,データ多様体の位相特性を利用してラベルを必要とせずにデータのクラス分離性を推定する教師なし手法を提案する。
提案手法により推定されたクラス分離性と,FDR(Fisher Discriminant Ratio)などの教師付き指標とラベルを必要とする分類器の相互検証との間には,明確な相関関係と整合性を示す。
これにより、半教師付き学習やトランスダクティブ学習のようなラベル付きデータとラベルなしデータの両方から学習することを目的とした学習パラダイムの実装が可能になる。
これは、ラベル付きデータと学習プロセスを強化するために使用できる比較的大きなラベル付きデータセットがある場合に特に有用です。
組込み空間多様体のクラス分離性を教師なし設定で監視することにより,自動停止基準付き言語モデルの微調整を実現する。
提案手法は,FDRによって計算されたクラス分離性とクラス分離性との間に明確な整合性を示す合成データ上で検証された。
この手法は、パブリックデータと内部データの両方に実装されている。
その結果、提案手法は、ラベルを必要とせずに、言語モデルの微調整をいつ停止または継続するかの決定を効果的に支援することができ、また、埋め込み多様体のクラス分離可能性の定量化により、最大分類性能を達成することが期待される。 This paper proposes an unsupervised method that leverages topological characteristics of data manifolds to estimate class separability of the data without requiring labels. Experiments conducted in this paper on several datasets demonstrate a clear correlation and consistency between the class separability estimated by the proposed method with supervised metrics like Fisher Discriminant Ratio~(FDR) and cross-validation of a classifier, which both require labels. This can enable implementing learning paradigms aimed at learning from both labeled and unlabeled data, like semi-supervised and transductive learning. This would be particularly useful when we have limited labeled data and a relatively large unlabeled dataset that can be used to enhance the learning process. The proposed method is implemented for language model fine-tuning with automated stopping criterion by monitoring class separability of the embedding-space manifold in an unsupervised setting. The proposed methodology has been first validated on synthetic data, where the results show a clear consistency between class separability estimated by the proposed method and class separability computed by FDR. The method has been also implemented on both public and internal data. The results show that the proposed method can effectively aid -- without the need for labels -- a decision on when to stop or continue the fine-tuning of a language model and which fine-tuning iteration is expected to achieve a maximum classification performance through quantification of the class separability of the embedding manifold. | 翻訳日:2023-10-03 14:30:20 公開日:2023-10-02 |
# qudit量子力学のフレーム表現 Frame representations of qudit quantum mechanics ( http://arxiv.org/abs/2305.19287v6 ) ライセンス: Link先を確認 | Nicolae Cotfas | (参考訳) quditsのwigner関数を定義する試みは数多くあり、それぞれにその利点と限界がある。
既存の有限バージョンは単純な定義を持つが、構成上は人工的であり、直感的な状態解析を許さない。
連続バージョンはより複雑な定義を持つが、元のウィグナー関数と類似しており、量子状態の可視化を可能にする。
我々が提示するタイトフレームの概念に基づくバージョンは有限であるが、連続バージョンと似た特性と応用がある。 There exist many attempts to define a Wigner function for qudits, each of them coming with its advantages and limitations. The existing finite versions have simple definitions, but they are artificial in their construction and do not allow an intuitive state analysis. The continuous versions have more complicated definitions, but they are similar to the original Wigner function and allow a visualization of the quantum states. The version based on the concept of tight frame we present is finite, but it has certain properties and applications similar to those of continuous versions. | 翻訳日:2023-10-03 14:23:21 公開日:2023-10-02 |
# 2層ニューラルネットワークの学習方法 How Two-Layer Neural Networks Learn, One (Giant) Step at a Time ( http://arxiv.org/abs/2305.18270v2 ) ライセンス: Link先を確認 | Yatin Dandi, Florent Krzakala, Bruno Loureiro, Luca Pesce, Ludovic Stephan | (参考訳) 本研究では,2層ニューラルネットワークの特徴がターゲット関数の構造にどのように適応するかを,いくつかのバッチ勾配降下ステップを通じて理論的に検討し,初期化に関する近似容量の改善に繋がる。
バッチサイズと複数の(しかし、有限個の)ステップの影響を比較する。
単一の勾配ステップでは、サイズ$n = \mathcal{O}(d)$のバッチは、単一の方向しか学べないが、ターゲット関数と整合するのに必要で十分である。
対照的に、$n = \mathcal{O}(d^2)$は単一の勾配ステップで標的の複数の関連方向を専門化するニューロンにとって必須である。
この場合でさえ、$n = \mathcal{o}(d^\ell)$ のサンプルを必要とする ``hard''' 方向が存在する可能性を示し、ここで$\ell$ は目標の leap index として知られている。
図は、複数の勾配ステップを大幅に改善する:$n = \mathcal{O}(d)$のバッチサイズは、階段の特性を満たす複数の目標方向を学習するのに十分であることを示す。
最後に、これらの方向が初期化に対する近似容量と一般化誤差を劇的に改善し、ランダム特徴/遅延レジームと特徴学習レジーム間のスケールの分離を示す。
技術分析では, 濃度, 投影型条件づけ, ガウス同値に関する手法を組み合わせることで, それぞれが独立に関心を持つと考えられる。
特殊化と学習に必要な条件をピン留めすることで、我々はバッチサイズと反復回数の相互作用を強調し、学習性能が時間とバッチサイズとともに正確性を示す階層的な描写をもたらし、ニューラルネットワークがデータの特徴にどのように適応するかを新たな光を当てる。 We investigate theoretically how the features of a two-layer neural network adapt to the structure of the target function through a few large batch gradient descent steps, leading to improvement in the approximation capacity with respect to the initialization. We compare the influence of batch size and that of multiple (but finitely many) steps. For a single gradient step, a batch of size $n = \mathcal{O}(d)$ is both necessary and sufficient to align with the target function, although only a single direction can be learned. In contrast, $n = \mathcal{O}(d^2)$ is essential for neurons to specialize to multiple relevant directions of the target with a single gradient step. Even in this case, we show there might exist ``hard'' directions requiring $n = \mathcal{O}(d^\ell)$ samples to be learned, where $\ell$ is known as the leap index of the target. The picture drastically improves over multiple gradient steps: we show that a batch-size of $n = \mathcal{O}(d)$ is indeed enough to learn multiple target directions satisfying a staircase property, where more and more directions can be learned over time. Finally, we discuss how these directions allows to drastically improve the approximation capacity and generalization error over the initialization, illustrating a separation of scale between the random features/lazy regime, and the feature learning regime. Our technical analysis leverages a combination of techniques related to concentration, projection-based conditioning, and Gaussian equivalence which we believe are of independent interest. By pinning down the conditions necessary for specialization and learning, our results highlight the interaction between batch size and number of iterations, and lead to a hierarchical depiction where learning performance exhibits a stairway to accuracy over time and batch size, shedding new light on how neural networks adapt to features of the data. | 翻訳日:2023-10-03 14:22:12 公開日:2023-10-02 |
# 皮質表面再構成のためのスライスワッサースタイン距離最適化による異方性変形 Diffeomorphic Deformation via Sliced Wasserstein Distance Optimization for Cortical Surface Reconstruction ( http://arxiv.org/abs/2305.17555v2 ) ライセンス: Link先を確認 | Tung Le, Khai Nguyen, Shanlin Sun, Kun Han, Nhat Ho, Xiaohui Xie | (参考訳) メッシュ変形は3次元メッシュ再構築のコアタスクであるが、予測メッシュとターゲットメッシュの効率的な相違を定義することは未解決の問題である。
現在のディープラーニングにおける一般的なアプローチは、2つのメッシュからランダムにサンプリングされた2つのポイントクラウドと、chamferの擬似距離を比較して、2つの表面間の不一致を測定するセットベースアプローチである。
それにもかかわらず、集合ベースのアプローチには、サンプリングされた点クラウド内の点数を選択する理論的保証の欠如、シャムファーの発散の擬計量性と二次複雑性など、まだ限界がある。
そこで本稿では,メッシュ変形の学習のための新しい指標を提案する。
この計量は、セットベースのアプローチを一般化する確率測度として表されるメッシュ上のワッサーシュタイン距離をスライスして定義される。
確率測度空間を利用することで、連続的、経験的、離散的測度といった様々な形式の確率測度を用いてメッシュを符号化する柔軟性を得ることができる。
確率測度を符号化した後, 最適な輸送距離であるスライスワッサースタイン距離と線形計算複雑性を用いてメッシュを比較できるとともに, メッシュ表面を近似する高速統計速度を提供することができる。
さらに,入力面を対象形状に変形させるために,入力面上の点の軌跡をモデル化する神経常微分方程式(ode)を用いる。
皮質表面再構成実験は,複数のデータセットとメトリクスにおいて,他の競合する方法を超えることを実証する。 Mesh deformation is a core task for 3D mesh reconstruction, but defining an efficient discrepancy between predicted and target meshes remains an open problem. A prevalent approach in current deep learning is the set-based approach which measures the discrepancy between two surfaces by comparing two randomly sampled point-clouds from the two meshes with Chamfer pseudo-distance. Nevertheless, the set-based approach still has limitations such as lacking a theoretical guarantee for choosing the number of points in sampled point-clouds, and the pseudo-metricity and the quadratic complexity of the Chamfer divergence. To address these issues, we propose a novel metric for learning mesh deformation. The metric is defined by sliced Wasserstein distance on meshes represented as probability measures that generalize the set-based approach. By leveraging probability measure space, we gain flexibility in encoding meshes using diverse forms of probability measures, such as continuous, empirical, and discrete measures via \textit{varifold} representation. After having encoded probability measures, we can compare meshes by using the sliced Wasserstein distance which is an effective optimal transport distance with linear computational complexity and can provide a fast statistical rate for approximating the surface of meshes. Furthermore, we employ a neural ordinary differential equation (ODE) to deform the input surface into the target shape by modeling the trajectories of the points on the surface. Our experiments on cortical surface reconstruction demonstrate that our approach surpasses other competing methods in multiple datasets and metrics. | 翻訳日:2023-10-03 14:21:38 公開日:2023-10-02 |
# GeoVLN:視覚・言語ナビゲーションのためのスロット注意による幾何学的視覚表現の学習 GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation ( http://arxiv.org/abs/2305.17102v2 ) ライセンス: Link先を確認 | Jingyang Huo, Qiang Sun, Boyan Jiang, Haitao Lin, Yanwei Fu | (参考訳) Room-to-Room VLN問題はRGB画像のみを用いており、周囲の環境に関する十分な視覚的手がかりが不足している候補ビューに関するローカルコンテキストを考慮していない。
さらに、自然言語には複雑な意味情報が含まれており、視覚入力との相関は、単に横断的な注意だけではモデル化が困難である。
本稿では,ロバストな視覚言語ナビゲーションのためのスロットアテンションに基づいて,幾何エンハンスド視覚表現を学習するgeovlnを提案する。
rgb画像は対応する深度マップとomnidataが予測した正常マップを視覚入力として補償する。
技術的には,局所スロットアテンションとクリップモデルを組み合わせた2段階モジュールを導入し,入力から幾何エンハンスド表現を生成する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
さらに、視覚入力から最も関連性の高い特徴を活用するために、入力命令の異なるフレーズを奨励する新しいマルチウェイアテンションモジュールが設計されている。
大規模実験により,新たに設計したモジュールの有効性を実証し,提案手法の有効性を示す。 Most existing works solving Room-to-Room VLN problem only utilize RGB images and do not consider local context around candidate views, which lack sufficient visual cues about surrounding environment. Moreover, natural language contains complex semantic information thus its correlations with visual inputs are hard to model merely with cross attention. In this paper, we propose GeoVLN, which learns Geometry-enhanced visual representation based on slot attention for robust Visual-and-Language Navigation. The RGB images are compensated with the corresponding depth maps and normal maps predicted by Omnidata as visual inputs. Technically, we introduce a two-stage module that combine local slot attention and CLIP model to produce geometry-enhanced representation from such input. We employ V&L BERT to learn a cross-modal representation that incorporate both language and vision informations. Additionally, a novel multiway attention module is designed, encouraging different phrases of input instruction to exploit the most related features from visual input. Extensive experiments demonstrate the effectiveness of our newly designed modules and show the compelling performance of the proposed method. | 翻訳日:2023-10-03 14:21:12 公開日:2023-10-02 |
# 浅部ReLUネットワークによるニューロンの学習 : 相関入力のダイナミクスとインプシットバイアス Learning a Neuron by a Shallow ReLU Network: Dynamics and Implicit Bias for Correlated Inputs ( http://arxiv.org/abs/2306.06479v2 ) ライセンス: Link先を確認 | Dmitry Chistikov, Matthias Englert, Ranko Lazic | (参考訳) 1つのニューロンを学習する基本的な回帰タスクにおいて、小さな初期化から勾配流による任意の幅の1重層reluネットワークの訓練はゼロ損失に収束し、暗黙的にバイアスを負ってネットワークパラメータのランクを最小化することが証明される。
トレーニングポイントが教師ニューロンと相関していると仮定して,直交データセットを考慮した先行研究を補完する。
本研究は, トレーニング中, 隠れたニューロンの動態の非漸近的解析に基づいて行った。
また、最小ランクの補間ネットワークと最小ユークリッドノルムの補間ネットワークのこの設定において、驚くべき区別を示し、特徴付ける。
最後に,様々な数値実験を行い,理論的な知見を裏付ける。 We prove that, for the fundamental regression task of learning a single neuron, training a one-hidden layer ReLU network of any width by gradient flow from a small initialisation converges to zero loss and is implicitly biased to minimise the rank of network parameters. By assuming that the training points are correlated with the teacher neuron, we complement previous work that considered orthogonal datasets. Our results are based on a detailed non-asymptotic analysis of the dynamics of each hidden neuron throughout the training. We also show and characterise a surprising distinction in this setting between interpolator networks of minimal rank and those of minimal Euclidean norm. Finally we perform a range of numerical experiments, which corroborate our theoretical findings. | 翻訳日:2023-10-03 14:12:36 公開日:2023-10-02 |
# pagar: 逆強化学習における報酬誤用 : 主人公アンタゴニストによる模倣学習 PAGAR: Taming Reward Misalignment in Inverse Reinforcement Learning-Based Imitation Learning with Protagonist Antagonist Guided Adversarial Reward ( http://arxiv.org/abs/2306.01731v2 ) ライセンス: Link先を確認 | Weichao Zhou, Wenchao Li | (参考訳) 多くの模倣学習(il)アルゴリズムは、実証された行動に基づいて、専門家が暗黙的に最適化している報酬関数を推論するために逆強化学習(irl)を用いる。
しかし、推測された報酬と真のタスク目標とのミスアライメントは、タスクの失敗をもたらす可能性がある。
本稿では、IRLベースのILにおける報酬不一致問題に対処するための半教師付き報酬設計パラダイムであるPAGAR(Protagonist Antagonist Guided Adversarial Reward)を紹介する。
我々は、PAGARが保証できる候補報酬関数の条件を特定し、基礎となるタスクを成功させるポリシーを誘導する。
さらに、IRLベースのILにPAGARを実装するための実践的なオン・アンド・オフポリシー手法を提案する。
実験結果から,本アルゴリズムは,移動環境における複雑なILタスクとゼロショットILタスクの競合ベースラインよりも,限られた実演で優れていた。 Many imitation learning (IL) algorithms employ inverse reinforcement learning (IRL) to infer the underlying reward function that an expert is implicitly optimizing for, based on their demonstrated behaviors. However, a misalignment between the inferred reward and the true task objective can result in task failures. In this paper, we introduce Protagonist Antagonist Guided Adversarial Reward (PAGAR), a semi-supervised reward design paradigm to tackle this reward misalignment problem in IRL-based IL. We identify the conditions on the candidate reward functions under which PAGAR can guarantee to induce a policy that succeeds in the underlying task. Furthermore, we present a practical on-and-off policy approach to implement PAGAR in IRL-based IL. Experimental results show that our algorithm outperforms competitive baselines on complex IL tasks and zero-shot IL tasks in transfer environments with limited demonstrations. | 翻訳日:2023-10-03 14:10:55 公開日:2023-10-02 |
# 教科書は必要なだけ Textbooks Are All You Need ( http://arxiv.org/abs/2306.11644v2 ) ライセンス: Link先を確認 | Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio C\'esar Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, S\'ebastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li | (参考訳) phi-1は1.3Bパラメータを持つトランスフォーマーベースのモデルで、8A100sで4日間トレーニングされ、Webから `textbook Quality" データのセレクション(6Bトークン)と、GPT-3.5(1Bトークン)で合成生成された教科書とエクササイズを使用しています。
この小さなスケールにもかかわらず、phi-1はHumanEvalで50.6%、MBPPで55.5%の精度でパス@1に達する。
また、コーディング演習のデータセットを微調整する前のモデルである phi-1-base や、HumanEval で 45% を達成する phi-1-small と同じパイプラインで 350M のパラメータをトレーニングした小さなモデルである phi-1-small と比較すると、驚くべき創発的な特性も示しています。 We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8 A100s, using a selection of ``textbook quality" data from the web (6B tokens) and synthetically generated textbooks and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays surprising emergent properties compared to phi-1-base, our model before our finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller model with 350M parameters trained with the same pipeline as phi-1 that still achieves 45% on HumanEval. | 翻訳日:2023-10-03 14:05:25 公開日:2023-10-02 |
# molインストラクション:大規模言語モデルのための大規模生体分子インストラクションデータセット Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models ( http://arxiv.org/abs/2306.08018v3 ) ライセンス: Link先を確認 | Yin Fang, Xiaozhuan Liang, Ningyu Zhang, Kangwei Liu, Rui Huang, Zhuo Chen, Xiaohui Fan, Huajun Chen | (参考訳) 大規模言語モデル(LLM)は、タスクハンドリング能力と革新的な出力を持ち、様々な分野において大きな進歩をもたらした。
しかし、生体分子研究などの専門領域での能力は限られている。
この課題に対処するために,生体分子ドメイン用に設計された包括的命令データセットであるMoll-Instructionsを導入する。
Mol-Instructionsは分子指向命令、タンパク質指向命令、生体分子テキスト命令の3つの重要な構成要素を含んでいる。
各コンポーネントは、生体分子の特徴や行動に関するLCMの理解と予測能力の向上を目的としている。
本研究では,生体分子研究の複雑な領域における大規模モデルの性能向上におけるモルインストラクションの有効性を実証し,生体分子研究コミュニティの進展を促す。
Mol-Instructionsは、現在進行中の研究のために公開されている。 Large Language Models (LLMs), with their remarkable task-handling capabilities and innovative outputs, have catalyzed significant advancements across a spectrum of fields. However, their proficiency within specialized domains such as biomolecular studies remains limited. To address this challenge, we introduce Mol-Instructions, a comprehensive instruction dataset designed for the biomolecular domain. Mol-Instructions encompasses three key components: molecule-oriented instructions, protein-oriented instructions, and biomolecular text instructions. Each component aims to improve the understanding and prediction capabilities of LLMs concerning biomolecular features and behaviors. Through extensive instruction tuning experiments on LLMs, we demonstrate the effectiveness of Mol-Instructions in enhancing large models' performance in the intricate realm of biomolecular studies, thus fostering progress in the biomolecular research community. Mol-Instructions is publicly available for ongoing research and will undergo regular updates to enhance its applicability. | 翻訳日:2023-10-03 14:01:53 公開日:2023-10-02 |
# 逆拡散モンテカルロ Reverse Diffusion Monte Carlo ( http://arxiv.org/abs/2307.02037v2 ) ライセンス: Link先を確認 | Xunpeng Huang, Hanze Dong, Yifan Hao, Yian Ma, Tong Zhang | (参考訳) 現代の生成モデルの有効性は、拡散経路に沿ったスコア推定の精度に共通しており、拡散モデルと高品質なデータサンプルを生成する能力に注目している。
本研究はモンテカルロサンプリングへの逆拡散の適用について考察する。
スコア推定は遷移核の分解によって平均推定問題に変換できることを示した。
後方分布の平均を推定することにより,従来のマルコフ連鎖モンテカルロ法とは異なる逆拡散法からモンテカルロサンプリングアルゴリズムを導出する。
後続分布の誤差要件とサンプルサイズを算出し,その結果を用いて,対象分布を任意の精度で近似できるアルゴリズムを導出する。
さらに, 後部分布の対数ソボレフ定数を推定することにより, 従来のMCMC法を用いて, 対象分布からの直接サンプリングよりも, 後部からのサンプリングが容易であることを示す。
ガウス混合モデルでは, 従来のランジュバン型mcmcサンプリング法に比べて, 理論上, 実質的にも大きな改善が得られた。
我々のアルゴリズムは、古典的MCMCアルゴリズムを超える新しい視点と解決策を提供し、複雑な分布に挑戦する。 The efficacy of modern generative models is commonly contingent upon the precision of score estimation along the diffusion path, with a focus on diffusion models and their ability to generate high-quality data samples. This study delves into the application of reverse diffusion to Monte Carlo sampling. It is shown that score estimation can be transformed into a mean estimation problem via the decomposition of the transition kernel. By estimating the mean of the posterior distribution, we derive a novel Monte Carlo sampling algorithm from the reverse diffusion process, which is distinct from traditional Markov Chain Monte Carlo (MCMC) methods. We calculate the error requirements and sample size for the posterior distribution, and use the result to derive an algorithm that can approximate the target distribution to any desired accuracy. Additionally, by estimating the log-Sobolev constant of the posterior distribution, we show under suitable conditions the problem of sampling from the posterior can be easier than direct sampling from the target distribution using traditional MCMC techniques. For Gaussian mixture models, we demonstrate that the new algorithm achieves significant improvement over the traditional Langevin-style MCMC sampling methods both theoretically and practically. Our algorithm offers a new perspective and solution beyond classical MCMC algorithms for challenging complex distributions. | 翻訳日:2023-10-03 13:54:16 公開日:2023-10-02 |
# 量子不確かさの量子化 Quantizing the Quantum Uncertainty ( http://arxiv.org/abs/2307.01061v2 ) ライセンス: Link先を確認 | Etera R. Livine | (参考訳) 波動関数の拡散、すなわち量子不確実性は、量子力学において重要な概念である。
先行順序では、位置と運動量演算子の二次モーメントが特徴である。
これらは位置と運動量期待値から独立して進化し変動する。
それらは古典力学に比べて余分な量子力学であり、波束の形状をエンコードする。
量子力学を量子場理論に持ち上げなければならないという論理に従うと、場の空間上の波動関数に作用する作用素としての量子不確実性の量子化を議論し、その離散スペクトルを導出し、演算子 $\hat{x}^{2}$, $\hat{p}^{2}$ と $\widehat{xp}$ によって形成される $\textrm{sl}_{2}$ Lie algebra から継承する。
さらに、このスペクトルが、拡張ガウス波束の進化をSchr\\odinger方程式に従って駆動する有効共形ポテンシャルのカップリングの値にどのように現れるかを示し、量子不確実性は有効固有角運動量と同じ役割を果たす。
非相対論的物理学における量子不確かさの量子化の実験的なシグネチャは、量子力学からqftレジームへの脱却を意味するだろうか? The spread of the wave-function, or quantum uncertainty, is a key notion in quantum mechanics. At leading order, it is characterized by the quadratic moments of the position and momentum operators. These evolve and fluctuate independently from the position and momentum expectation values. They are extra degrees of quantum mechanics compared to classical mechanics, and encode the shape of wave-packets. Following the logic that quantum mechanics must be lifted to quantum field theory, we discuss the quantization of the quantum uncertainty as an operator acting on wave-functions over field space and derive its discrete spectrum, inherited from the $\textrm{sl}_{2}$ Lie algebra formed by the operators $\hat{x}^{2}$, $\hat{p}^{2}$ and $\widehat{xp}$. We further show how this spectrum appears in the value of the coupling of the effective conformal potential driving the evolution of extended Gaussian wave-packets according to Schr\"odinger equation, with the quantum uncertainty playing the same role as an effective intrinsic angular momentum. We conclude with an open question: is it possible to see experimental signatures of the quantization of the quantum uncertainty in non-relativistic physics, which would signal the departure from quantum mechanics to a QFT regime? | 翻訳日:2023-10-03 13:53:16 公開日:2023-10-02 |
# RefSAM: ビデオオブジェクトのセグメンテーション参照のためのセグメンテーションモデルへの適応 RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation ( http://arxiv.org/abs/2307.00997v2 ) ライセンス: Link先を確認 | Yonglin Li and Jing Zhang and Xiao Teng and Long Lan | (参考訳) Segment Anything Model (SAM) は画像セグメンテーションにおける顕著な性能で注目されている。
しかし、正確なユーザ対話的なプロンプトが必要であり、言語や視覚といった様々なモダリティの理解が限られているため、ビデオオブジェクトセグメンテーション(RVOS)を参照する能力に欠ける。
本稿では,様々なモダリティや連続フレームからの多視点情報を異なるタイムスタンプでオンラインに組み込むことにより,RVOS におけるSAM の可能性を探る RefSAM モデルを提案する。
提案手法は,参照表現のテキスト埋め込みを疎密な埋め込みにプロンプトとして投影する軽量なクロスモーダルMLPを用いることで,モダリティ学習を強化するためにオリジナルのSAMモデルに適応する。
さらに,細粒度密埋込みを実現するために,階層的視覚意味情報と疎埋め込みを融合する階層的密集注意モジュールと,トラックトークンを生成し,マスクデコーダに履歴情報を提供する暗黙追跡モジュールを導入した。
さらに,言語と視覚の特徴を効果的に整合させ,融合させるために,パラメータ効率の調整手法を用いる。
包括的アブレーション研究を通じて,本モデルの実用的かつ効果的な設計選択を実証する。
Ref-Youtu-VOS、Ref-DAVIS17、および3つの参照画像セグメンテーションデータセットによる大規模な実験により、既存の手法よりもRefSAMモデルの優位性と有効性を検証した。
コードとモデルは \href{https://github.com/LancasterLi/RefSAM}{github.com/LancasterLi/RefSAM} で公開される。 The Segment Anything Model (SAM) has gained significant attention for its impressive performance in image segmentation. However, it lacks proficiency in referring video object segmentation (RVOS) due to the need for precise user-interactive prompts and a limited understanding of different modalities, such as language and vision. This paper presents the RefSAM model, which explores the potential of SAM for RVOS by incorporating multi-view information from diverse modalities and successive frames at different timestamps in an online manner. Our proposed approach adapts the original SAM model to enhance cross-modality learning by employing a lightweight Cross-Modal MLP that projects the text embedding of the referring expression into sparse and dense embeddings, serving as user-interactive prompts. Additionally, we have introduced the hierarchical dense attention module to fuse hierarchical visual semantic information with sparse embeddings in order to obtain fine-grained dense embeddings, and an implicit tracking module to generate a track token and provide historical information for the mask decoder. Furthermore, we employ a parameter-efficient tuning strategy to effectively align and fuse the language and vision features. Through comprehensive ablation studies, we demonstrate the practical and effective design choices of our model. Extensive experiments conducted on Ref-Youtu-VOS, Ref-DAVIS17, and three referring image segmentation datasets validate the superiority and effectiveness of our RefSAM model over existing methods. The code and models will be made publicly at \href{https://github.com/LancasterLi/RefSAM}{github.com/LancasterLi/RefSAM}. | 翻訳日:2023-10-03 13:52:43 公開日:2023-10-02 |
# 双方向積分近似による完全拡散反転 Exact Diffusion Inversion via Bi-directional Integration Approximation ( http://arxiv.org/abs/2307.10829v4 ) ライセンス: Link先を確認 | Guoqiang Zhang and J. P. Lewis and W. Bastiaan Kleijn | (参考訳) 近年,EDICT[36]やNull-textインバージョン[22]などの画像編集を可能にするために,DDIMインバージョンの不整合問題に対処する様々な手法が提案されている。
しかし、上記の手法は計算オーバーヘッドがかなり大きい。
本稿では,BDIA(emph{bi-directional integration approximation)と呼ばれる新しい手法を提案する。
次の拡散状態 $\boldsymbol{z}_{i-1}$ at timestep $t_i$ と履歴情報 $(i,\boldsymbol{z}_i)$ と $(i+1,\boldsymbol{z}_{i+1})$ を推定する。
まず、推定されたガウスノイズ $\hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i)$ を取得し、次に次回の時間スロット$[t_i, t_{i-1}]$ と前回の時間スロット$[t_i, t_{t+1}]$ を後方方向に近似するためにDDIM更新手順を2回適用する。
以前の時間スロットのDDIMステップは、$\boldsymbol{z}_i$を計算する際に以前になされた積分近似を洗練するために使用される。
BDIA-DDIMのよい性質は、$\boldsymbol{z}_{i-1}$の更新式が$(\boldsymbol{z}_{i+1}, \boldsymbol{z}_i, \hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i))$の線形結合であることである。
これにより、$\boldsymbol{z}_{i+1}$が与えられた$(\boldsymbol{z}_i, \boldsymbol{z}_{i-1})$の正確な逆計算が可能になり、正確な拡散反転をもたらす。
bdia-ddimが特に画像編集に有効であることを実験により実証した。
さらに,BDIA-DDIMはテキスト・ツー・イメージ生成において,DDIMよりも優れた画像サンプリング特性が得られることを示した。
BDIAはDDIMに加えて他のODEソルバの性能向上にも応用できる。
本研究では,BDIAをEDMサンプリング法に適用することにより,CIFAR10上でのSOTA性能が向上することが確認された。 Recently, various methods have been proposed to address the inconsistency issue of DDIM inversion to enable image editing, such as EDICT [36] and Null-text inversion [22]. However, the above methods introduce considerable computational overhead. In this paper, we propose a new technique, named \emph{bi-directional integration approximation} (BDIA), to perform exact diffusion inversion with neglible computational overhead. Suppose we would like to estimate the next diffusion state $\boldsymbol{z}_{i-1}$ at timestep $t_i$ with the historical information $(i,\boldsymbol{z}_i)$ and $(i+1,\boldsymbol{z}_{i+1})$. We first obtain the estimated Gaussian noise $\hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i)$, and then apply the DDIM update procedure twice for approximating the ODE integration over the next time-slot $[t_i, t_{i-1}]$ in the forward manner and the previous time-slot $[t_i, t_{t+1}]$ in the backward manner. The DDIM step for the previous time-slot is used to refine the integration approximation made earlier when computing $\boldsymbol{z}_i$. A nice property of BDIA-DDIM is that the update expression for $\boldsymbol{z}_{i-1}$ is a linear combination of $(\boldsymbol{z}_{i+1}, \boldsymbol{z}_i, \hat{\boldsymbol{\epsilon}}(\boldsymbol{z}_i,i))$. This allows for exact backward computation of $\boldsymbol{z}_{i+1}$ given $(\boldsymbol{z}_i, \boldsymbol{z}_{i-1})$, thus leading to exact diffusion inversion. It is demonstrated with experiments that (round-trip) BDIA-DDIM is particularly effective for image editing. Our experiments further show that BDIA-DDIM produces markedly better image sampling qualities than DDIM for text-to-image generation. BDIA can also be applied to improve the performance of other ODE solvers in addition to DDIM. In our work, it is found that applying BDIA to the EDM sampling procedure produces new SOTA performance over CIFAR10. | 翻訳日:2023-10-03 13:45:53 公開日:2023-10-02 |
# 片道流による対向的確率推定 Adversarial Likelihood Estimation With One-Way Flows ( http://arxiv.org/abs/2307.09882v3 ) ライセンス: Link先を確認 | Omri Ben-Dov, Pravir Singh Gupta, Victoria Abrevaya, Michael J. Black, Partha Ghosh | (参考訳) generative adversarial network (gans) は高品質なサンプルを生成できるが、サンプル周辺の確率密度の推定はできない。
しかしながら、エネルギーに基づく設定において、ログの類似度を最大化することは、判別器が非正規化された密度(しばしばエネルギーと呼ばれる)を提供する敵の枠組みにつながる可能性がある。
我々は、この視点をさらに発展させ、重要サンプリングを取り入れ、
1)wasserstein ganは分割関数の偏り推定を行い、代わりに偏りのない推定器を使うように提案する。
2) 可能性に最適化する場合は, 生成エントロピーを最大化する必要がある。
これは、より良いモードカバレッジを提供すると仮定される。
従来の研究と異なり、生成したサンプルの密度を明示的に計算する。
これは分割関数の偏りのない推定器の設計とジェネレータエントロピー項の計算の鍵となる。
ジェネレータ密度は、一方向フローネットワークと呼ばれる新しいタイプのフローネットワークによって得られるが、従順な逆関数を必要としないため、アーキテクチャの面では制約が小さい。
実験の結果,本手法はより高速に収束し,類似したアーキテクチャでGANに匹敵するサンプル品質が得られ,一般的なデータセットへの過度な適合を回避し,トレーニングデータのスムーズな低次元潜在表現を生成することができた。 Generative Adversarial Networks (GANs) can produce high-quality samples, but do not provide an estimate of the probability density around the samples. However, it has been noted that maximizing the log-likelihood within an energy-based setting can lead to an adversarial framework where the discriminator provides unnormalized density (often called energy). We further develop this perspective, incorporate importance sampling, and show that 1) Wasserstein GAN performs a biased estimate of the partition function, and we propose instead to use an unbiased estimator; and 2) when optimizing for likelihood, one must maximize generator entropy. This is hypothesized to provide a better mode coverage. Different from previous works, we explicitly compute the density of the generated samples. This is the key enabler to designing an unbiased estimator of the partition function and computation of the generator entropy term. The generator density is obtained via a new type of flow network, called one-way flow network, that is less constrained in terms of architecture, as it does not require a tractable inverse function. Our experimental results show that our method converges faster, produces comparable sample quality to GANs with similar architecture, successfully avoids over-fitting to commonly used datasets and produces smooth low-dimensional latent representations of the training data. | 翻訳日:2023-10-03 13:44:14 公開日:2023-10-02 |
# mBLIP:多言語ビジョンLLMの効率的なブートストラップ mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs ( http://arxiv.org/abs/2307.06930v2 ) ライセンス: Link先を確認 | Gregor Geigle, Abhay Jain, Radu Timofte, Goran Glava\v{s} | (参考訳) モジュラービジョン言語モデル (vision-llms) は、事前学習された画像エンコーダを凍結した大型言語モデル (llm) と整合させる。
vision-llms 代わりに post-hoc condition llms はイメージエンコーダの出力を 'understand' する。
高品質な英語画像テキストデータとモノリンガルな英語LLMが豊富にあるため、研究は英語のみのビジョンLLMに焦点が当てられている。
テキストのみの多言語コーパスを補足した限られた多言語画像データに基づいて訓練された比較的小さなモデルが得られる。
本研究は,コンシューマハードウェア上で,数百万のトレーニング例を用いて計算的に効率よく得られる最初の多言語ビジョン-LLMであるmBLIPについて,事前学習した多言語LLMを活用して紹介する。
この目的のために、我々は、以前英語のLLMにチューニングされた画像エンコーダを、新しい多言語LLMに変換し、視覚と言語を混在するタスクから多言語データを活用し、高品質の英語データを95言語に機械翻訳することで得られる。
IGLUEベンチマークでは、mBLIPは最先端のモデルと競合する結果を得る。
さらに、XM3600の画像キャプションでは、mBLIP(ゼロショット)はPaLI-X(55Bパラメータのモデル)よりも優れています。
スクラッチから訓練したこれらの非常に大きな多言語視覚言語モデルと比較して、大小データのパラメータを桁違いに減らしてmBLIPを得る。
私たちはモデルとコードを \url{https://github.com/gregor-ge/mBLIP} でリリースします。 Modular vision-language models (Vision-LLMs) align pretrained image encoders with frozen large language models (LLMs), representing a computationally much more efficient alternative to end-to-end training of large vision-language models from scratch, which is prohibitively expensive for most researchers and practitioners. Vision-LLMs instead post-hoc condition LLMs to `understand' the output of an image encoder. With the abundance of readily available high-quality English image-text data as well as monolingual English LLMs, the research focus has been on English-only Vision-LLMs. Multilingual vision-language models are still predominantly obtained via expensive end-to-end pretraining, resulting in comparatively smaller models, trained on limited multilingual image data supplemented with text-only multilingual corpora. In this work, we present mBLIP, the first multilingual Vision-LLM, which we obtain in a computationally efficient manner -- on consumer hardware and using only a few million training examples -- by leveraging a pretrained multilingual LLM. To this end, we \textit{re-align} an image encoder previously tuned to an English LLM to a new, multilingual LLM -- for this, we leverage multilingual data from a mix of vision-and-language tasks, which we obtain by machine-translating high-quality English data to 95 languages. On the IGLUE benchmark, mBLIP yields results competitive with state-of-the-art models. Moreover, in image captioning on XM3600, mBLIP (zero-shot) even outperforms PaLI-X (a model with 55B parameters). Compared to these very large multilingual vision-language models trained from scratch, we obtain mBLIP by training orders of magnitude fewer parameters on magnitudes less data. We release our model and code at \url{https://github.com/gregor-ge/mBLIP}. | 翻訳日:2023-10-03 13:42:52 公開日:2023-10-02 |
# サンプル周辺における損失関数の曲率レンズによる記憶 Memorization Through the Lens of Curvature of Loss Function Around Samples ( http://arxiv.org/abs/2307.05831v2 ) ライセンス: Link先を確認 | Isha Garg, Deepak Ravikumar and Kaushik Roy | (参考訳) ディープニューラルネットワークは過度にパラメータ化され、トレーニングするデータセットに簡単に適合する。
極端な場合、これらのネットワークは完全にランダム化されたラベルでトレーニングセットを記憶できることが示されている。
そこで本研究では,各サンプルの記憶の指標として,トレーニング期間の平均値である各サンプルの損失関数の曲率を用いることを提案する。
この測定値を用いて,一般的な画像データセットにおける異なるサンプルの一般化と記憶特性を調査し,質的および定量的に記憶統計をよく捉えていることを示す。
まず、高い曲率のサンプルは、長い尾、ラベルのずれ、あるいは矛盾するサンプルと視覚的に対応していることを示します。
この分析は、私たちの知る限り、CIFAR100とImageNetデータセットの新たな障害モードを見つけるのに役立ちます。
定量的に2つの方法を用いてスコアの妥当性を相関づける。
まず,feldman と zhang (2020) がリリースした記憶スコアと高いコサイン類似性を示すことにより,独立かつ包括的に計算されたベースラインに対してスコアを検証する。
次に,ネットワークによって記憶された劣化したサンプルを注入し,高い曲率で学習することを示す。
この目的のために、データセットのランダムなサブセットを合成的に誤ラベルする。
ネットワークを重畳し、曲率によるソートは、破損したサンプルを特定するために高いAUROC値が得られることを示す。
我々の方法の利点は、ベースラインによって訓練された数千のネットワークに対して、単一のネットワークのみをトレーニングすると同時に、ベースラインが識別できない前述の障害モードをキャプチャすることである。 Deep neural networks are over-parameterized and easily overfit the datasets they train on. In the extreme case, it has been shown that these networks can memorize a training set with fully randomized labels. We propose using the curvature of loss function around each training sample, averaged over training epochs, as a measure of memorization of the sample. We use this metric to study the generalization versus memorization properties of different samples in popular image datasets and show that it captures memorization statistics well, both qualitatively and quantitatively. We first show that the high curvature samples visually correspond to long-tailed, mislabeled, or conflicting samples, those that are most likely to be memorized. This analysis helps us find, to the best of our knowledge, a novel failure mode on the CIFAR100 and ImageNet datasets: that of duplicated images with differing labels. Quantitatively, we corroborate the validity of our scores via two methods. First, we validate our scores against an independent and comprehensively calculated baseline, by showing high cosine similarity with the memorization scores released by Feldman and Zhang (2020). Second, we inject corrupted samples which are memorized by the network, and show that these are learned with high curvature. To this end, we synthetically mislabel a random subset of the dataset. We overfit a network to it and show that sorting by curvature yields high AUROC values for identifying the corrupted samples. An added advantage of our method is that it is scalable, as it requires training only a single network as opposed to the thousands trained by the baseline, while capturing the aforementioned failure mode that the baseline fails to identify. | 翻訳日:2023-10-03 13:42:19 公開日:2023-10-02 |
# 量子機構としての相対論的時間拡張 Relativistic time dilation as a quantum mechanism ( http://arxiv.org/abs/2307.04254v2 ) ライセンス: Link先を確認 | Esteban Mart\'inez-Vargas | (参考訳) 従来の直観に最も挑戦する相対性理論の1つの概念は時間拡張と空間収縮である。
量子系における相対論的効果を記述する通常のアプローチは、これらの効果を物理的制約として仮定するだけである。
本稿では,量子システムを用いた時間拡張機構を提案する。
我々は、異なる参照フレームからの量子状態の変化に敏感な作用素の族を導入する。
参照フレーム間の変化はガリレオ変換によって行われるので、この場合の拡張の源は可観測性に由来する。
これらの観測物は時間とともに線形に成長し、状態の基準フレームによって線形成長はその傾きが変化するので、同じ点まで成長するのに時間がかかる。
このようなメカニズムは、時空に対する通常の理解とは異なる見方を意味する。 One of the concepts of Relativity theory that challenge conventional intuition the most is time dilation and space contraction. Usual approaches for describing relativistic effects in quantum systems merely postulate the consequences these effects as physical constraints. Here, we propose a mechanism for time dilation using quantum systems. We introduce a family of operators that are sensitive to the changes of quantum states from different frames of reference. The change between reference frames is done via a Galilean transformation, therefore, the source of the dilation in our case comes from the observable. These observables grow linearly in time and depending on the reference frame of the state the linear growth changes its slope, therefore it takes longer to grow to the same point. Such mechanism implies a different view from the usual understanding of spacetime. | 翻訳日:2023-10-03 13:41:50 公開日:2023-10-02 |
# MeetEval: 会議記述システムのための単語誤り率計算用ツールキット MeetEval: A Toolkit for Computation of Word Error Rates for Meeting Transcription Systems ( http://arxiv.org/abs/2307.11394v2 ) ライセンス: Link先を確認 | Thilo von Neumann, Christoph Boeddeker, Marc Delcroix, Reinhold Haeb-Umbach | (参考訳) meetevalは、あらゆる種類の会議転写システムを評価するためのオープンソースのツールキットである。
一般に使われているワードエラー率(WER)、特にcpWER、ORC WER、MIMO WERの計算に統一されたインターフェースを提供する。
我々は,時間的制約によってcpwer計算を拡張し,時間的アライメントが妥当な場合にのみ単語が正しいと認識されるようにする。
これにより、仮説文字列と実際の書き起こし品質によりよく似た参照文字列とのマッチングの品質が向上し、時間が不足している場合にペナルティが課される。
単語レベルのタイミング情報はしばしば入手できないため、セグメントレベルのタイミング(例えば文)から正確な単語レベルのタイミングを近似する方法を示し、その近似が正確な単語レベルのアノテーションと一致したWERにつながることを示す。
同時に、時間制約はマッチングアルゴリズムの高速化につながるため、タイムスタンプの処理によるオーバーヘッドが増大する。 MeetEval is an open-source toolkit to evaluate all kinds of meeting transcription systems. It provides a unified interface for the computation of commonly used Word Error Rates (WERs), specifically cpWER, ORC WER and MIMO WER along other WER definitions. We extend the cpWER computation by a temporal constraint to ensure that only words are identified as correct when the temporal alignment is plausible. This leads to a better quality of the matching of the hypothesis string to the reference string that more closely resembles the actual transcription quality, and a system is penalized if it provides poor time annotations. Since word-level timing information is often not available, we present a way to approximate exact word-level timings from segment-level timings (e.g., a sentence) and show that the approximation leads to a similar WER as a matching with exact word-level annotations. At the same time, the time constraint leads to a speedup of the matching algorithm, which outweighs the additional overhead caused by processing the time stamps. | 翻訳日:2023-10-03 13:30:52 公開日:2023-10-02 |
# モーメントプローブによる事前学習モデルのチューニング Tuning Pre-trained Model via Moment Probing ( http://arxiv.org/abs/2307.11342v3 ) ライセンス: Link先を確認 | Mingze Gao and Qilong Wang and Zhenyi Lin and Pengfei Zhu and Qinghua Hu and Jingbo Zhou | (参考訳) 近年、大規模事前学習モデルの効率的な微調整が研究の興味を惹きつけ、基本モジュールとしての線形探索(LP)がタスク依存分類の最終表現の活用に関与している。
しかし,既存の手法のほとんどは,学習可能なパラメータのいくつかを効果的に導入する方法に重点を置いている。
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
最終特徴(例えばvitの単語トークン)や分類トークンの平均に基づいて線形分類ヘッドを構築するlpと区別して,特徴分布の線形分類を行い,特徴に固有のより豊かな統計情報を活用することにより,より強力な表現能力を提供する。
具体的には,特徴関数を用いて特徴分布を表現し,特徴の1次および2次モーメントを用いて効率よく近似する。
さらに, 2次モーメントを効率的かつ効果的に計算するためのマルチヘッド畳み込み共分散(MHC$^3$)を提案する。
また,MPが特徴学習に影響を及ぼす可能性を考慮し,MPをベースとした2つのバックボーン(PSRP)、すなわちMP$_{+}$を学習するための部分共有モジュールを導入する。
様々なモデルを用いた10のベンチマーク実験の結果、MPはLPを著しく上回り、トレーニングコストが低いのに対して、MP$_{+}$は最先端のパフォーマンスを実現していることがわかった。 Recently, efficient fine-tuning of large-scale pre-trained models has attracted increasing research interests, where linear probing (LP) as a fundamental module is involved in exploiting the final representations for task-dependent classification. However, most of the existing methods focus on how to effectively introduce a few of learnable parameters, and little work pays attention to the commonly used LP module. In this paper, we propose a novel Moment Probing (MP) method to further explore the potential of LP. Distinguished from LP which builds a linear classification head based on the mean of final features (e.g., word tokens for ViT) or classification tokens, our MP performs a linear classifier on feature distribution, which provides the stronger representation ability by exploiting richer statistical information inherent in features. Specifically, we represent feature distribution by its characteristic function, which is efficiently approximated by using first- and second-order moments of features. Furthermore, we propose a multi-head convolutional cross-covariance (MHC$^3$) to compute second-order moments in an efficient and effective manner. By considering that MP could affect feature learning, we introduce a partially shared module to learn two recalibrating parameters (PSRP) for backbones based on MP, namely MP$_{+}$. Extensive experiments on ten benchmarks using various models show that our MP significantly outperforms LP and is competitive with counterparts at less training cost, while our MP$_{+}$ achieves state-of-the-art performance. | 翻訳日:2023-10-03 13:30:33 公開日:2023-10-02 |
# 言語に基づく行動概念空間は自己指導型学習を改善する Language-based Action Concept Spaces Improve Video Self-Supervised Learning ( http://arxiv.org/abs/2307.10922v2 ) ライセンス: Link先を確認 | Kanchana Ranasinghe and Michael Ryoo | (参考訳) 最近のコントラスト言語画像事前学習は、高度に転送可能で堅牢な画像表現の学習につながっている。
しかし、これらのモデルを最小限の監督でビデオドメインに適応させることは、まだ未解決の問題である。
画像CLIPモデルをビデオ領域に適応させるために,言語による自己教師型学習を用いて,その方向への簡単なステップを探索する。
時間的モデリングのために修正されたバックボーンは、アクションコンセプト空間で動作する列車の目的と自己蒸留設定の下で訓練される。
関連するテキストプロンプトを用いて言語エンコーダから抽出した様々なアクション概念の特徴ベクトルがこの空間を構成する。
本稿では, 従来の表現の汎用性を保ちつつ, 動作と属性の関係を強制する, 概念蒸留と概念アライメントという2つの列車目標を紹介する。
提案手法は3つの行動認識ベンチマークにおいてゼロショットおよび線形探索性能を向上させる。 Recent contrastive language image pre-training has led to learning highly transferable and robust image representations. However, adapting these models to video domains with minimal supervision remains an open problem. We explore a simple step in that direction, using language tied self-supervised learning to adapt an image CLIP model to the video domain. A backbone modified for temporal modeling is trained under self-distillation settings with train objectives operating in an action concept space. Feature vectors of various action concepts extracted from a language encoder using relevant textual prompts construct this space. We introduce two train objectives, concept distillation and concept alignment, that retain generality of original representations while enforcing relations between actions and their attributes. Our approach improves zero-shot and linear probing performance on three action recognition benchmarks. | 翻訳日:2023-10-03 13:30:09 公開日:2023-10-02 |
# 正規化ワッサースタイン近似によるノイズフリーサンプリングアルゴリズム Noise-Free Sampling Algorithms via Regularized Wasserstein Proximals ( http://arxiv.org/abs/2308.14945v3 ) ライセンス: Link先を確認 | Hong Ye Tan, Stanley Osher, Wuchen Li | (参考訳) ポテンシャル関数が支配する分布からサンプリングする問題を考察する。
この研究は、決定論的である明示的なスコアに基づくMCMC法を提案し、確率微分方程式の進化よりも粒子の決定論的進化をもたらす。
スコア項は、サンプリングによって近似されるカーネル畳み込みを用いて、正則化ワッサーシュタイン近似によって閉形式で与えられる。
我々は,様々な問題に対する高速収束を示し,ガウス分布の場合の混合時間境界の次元依存性を,unadjusted langevin algorithm (ula) と metropolis-adjusted langevin algorithm (mala) と比較検討した。
さらに、二次ポテンシャル関数に対する各イテレートの分布に対する閉形式式を導出し、分散還元を特徴付ける。
実験の結果、粒子は組織的に振る舞うことが示され、ポテンシャルのレベルセットの輪郭の上に横たわる。
さらに,提案手法の後方平均推定器は,ベイジアンロジスティック回帰の文脈において,ULAやMALAと比較して最大アテリオリ推定器に近いことが示されている。
その他の例は、ベイジアンニューラルネットワークトレーニングの競合性能を示している。 We consider the problem of sampling from a distribution governed by a potential function. This work proposes an explicit score based MCMC method that is deterministic, resulting in a deterministic evolution for particles rather than a stochastic differential equation evolution. The score term is given in closed form by a regularized Wasserstein proximal, using a kernel convolution that is approximated by sampling. We demonstrate fast convergence on various problems and show improved dimensional dependence of mixing time bounds for the case of Gaussian distributions compared to the unadjusted Langevin algorithm (ULA) and the Metropolis-adjusted Langevin algorithm (MALA). We additionally derive closed form expressions for the distributions at each iterate for quadratic potential functions, characterizing the variance reduction. Empirical results demonstrate that the particles behave in an organized manner, lying on level set contours of the potential. Moreover, the posterior mean estimator of the proposed method is shown to be closer to the maximum a-posteriori estimator compared to ULA and MALA in the context of Bayesian logistic regression. Additional examples demonstrate competitive performance for Bayesian neural network training. | 翻訳日:2023-10-03 13:23:54 公開日:2023-10-02 |
# Pairwise-Distance Estimator を用いた迅速かつ正確なてんかん不確かさ推定 Escaping the Sample Trap: Fast and Accurate Epistemic Uncertainty Estimation with Pairwise-Distance Estimators ( http://arxiv.org/abs/2308.13498v2 ) ライセンス: Link先を確認 | Lucas Berry, David Meger | (参考訳) 機械学習では、モデル予測の不確実性を評価する能力は、意思決定、安全クリティカルなアプリケーション、モデル一般化可能性に不可欠である。
本研究は,ペアワイズ距離推定器(PaiDEs)を用いたアンサンブルモデルに対する新しい不確実性推定手法を提案する。
これらの推定器は、モデルコンポーネント間のペアワイズ距離を利用してエントロピーの境界を確立する。
最近のディープラーニング手法である、サンプルベースのモンテカルロ推定値に依存する認識不確実性推定とは異なり、payesは、より大きな入力空間(最大100倍)よりも100倍早く認識不確実性を推定し、より高い次元でより正確に実行することができる。
1d sinusoidal data, $\textit{pendulum-v0}$, $\textit{hopper-v2}$, $\textit{ant-v2}$, $\textit{humanoid-v2}$, $\textit{humanoid-v2}$。
各実験環境において, 心的不確実性評価のためのPaiDEの利点を示すために, アクティブラーニングフレームワークを適用した。 In machine learning, the ability to assess uncertainty in model predictions is crucial for decision-making, safety-critical applications, and model generalizability. This work introduces a novel approach for epistemic uncertainty estimation for ensemble models using pairwise-distance estimators (PaiDEs). These estimators utilize the pairwise-distance between model components to establish bounds on entropy, which are then used as estimates for information-based criterion. Unlike recent deep learning methods for epistemic uncertainty estimation, which rely on sample-based Monte Carlo estimators, PaiDEs are able to estimate epistemic uncertainty up to 100 times faster, over a larger input space (up to 100 times) and perform more accurately in higher dimensions. To validate our approach, we conducted a series of experiments commonly used to evaluate epistemic uncertainty estimation: 1D sinusoidal data, $\textit{Pendulum-v0}$, $\textit{Hopper-v2}$, $\textit{Ant-v2}$ and $\textit{Humanoid-v2}$. For each experimental setting, an Active Learning framework was applied to demonstrate the advantages of PaiDEs for epistemic uncertainty estimation. | 翻訳日:2023-10-03 13:23:33 公開日:2023-10-02 |
# 共同設立者による縦断的電子健康記録のカウンターファクトフェアモデル A Counterfactual Fair Model for Longitudinal Electronic Health Records via Deconfounder ( http://arxiv.org/abs/2308.11819v3 ) ライセンス: Link先を確認 | Zheng Liu, Xiaohan Li and Philip Yu | (参考訳) 臨床データモデリングの公平性の問題、特にElectronic Health Records(EHRs)は、EHRの複雑な潜伏構造と潜在的選択バイアスのために最も重要である。
モデル全体の精度を実際に維持しながら、健康格差を軽減することがしばしば必要である。
しかし、従来の手法は、観測されたデータを超えた基礎となる要因を捉えることができないため、正確さと公平さのトレードオフに遭遇することが多い。
この課題に対処するために、縦型電子健康記録(EHR)モデリングにおける公平性と正確性の両方を達成することを目的とした、Fair Longitudinal Medical Deconfounder(FLMD)と呼ばれる新しいモデルを提案する。
FLMDは2段階のトレーニングプロセスを採用している。
第一段階では、flmdは観察されていない共同創設者を、患者の遺伝子型や生活習慣といった観察されたehr以外の医学的要因を効果的に表わす。
この観察されていない共同創設者は、正確さとフェアネスのジレンマに対処するために不可欠である。
第2段階では、FLMDは学習した潜在表現と他の関連する特徴を組み合わせて予測を行う。
対物公正などの適切な公正基準を取り入れることで、FLMDは健康格差を最小化しつつ高い予測精度を維持することを保証する。
我々は、FLMDの有効性を示すために、2つの実世界のEHRデータセットの総合的な実験を行った。
公平性と正確性の観点からのベースライン法とflmd変種の比較を別にして、乱れ/不均衡/合成データセットにおける全てのモデルの性能を評価し、異なる設定におけるflmdの優位性を示し、その能力に関する貴重な洞察を提供する。 The fairness issue of clinical data modeling, especially on Electronic Health Records (EHRs), is of utmost importance due to EHR's complex latent structure and potential selection bias. It is frequently necessary to mitigate health disparity while keeping the model's overall accuracy in practice. However, traditional methods often encounter the trade-off between accuracy and fairness, as they fail to capture the underlying factors beyond observed data. To tackle this challenge, we propose a novel model called Fair Longitudinal Medical Deconfounder (FLMD) that aims to achieve both fairness and accuracy in longitudinal Electronic Health Records (EHR) modeling. Drawing inspiration from the deconfounder theory, FLMD employs a two-stage training process. In the first stage, FLMD captures unobserved confounders for each encounter, which effectively represents underlying medical factors beyond observed EHR, such as patient genotypes and lifestyle habits. This unobserved confounder is crucial for addressing the accuracy/fairness dilemma. In the second stage, FLMD combines the learned latent representation with other relevant features to make predictions. By incorporating appropriate fairness criteria, such as counterfactual fairness, FLMD ensures that it maintains high prediction accuracy while simultaneously minimizing health disparities. We conducted comprehensive experiments on two real-world EHR datasets to demonstrate the effectiveness of FLMD. Apart from the comparison of baseline methods and FLMD variants in terms of fairness and accuracy, we assessed the performance of all models on disturbed/imbalanced and synthetic datasets to showcase the superiority of FLMD across different settings and provide valuable insights into its capabilities. | 翻訳日:2023-10-03 13:22:48 公開日:2023-10-02 |
# 視覚言語データセット蒸留 Vision-Language Dataset Distillation ( http://arxiv.org/abs/2308.07545v2 ) ライセンス: Link先を確認 | Xindi Wu, Byron Zhang, Zhiwei Deng, Olga Russakovsky | (参考訳) データセット蒸留法は、大規模なデータセットを、新しいモデルをスクラッチからトレーニングするための十分な情報を保存する(潜在的に合成された)トレーニング例のかなり小さなセットに削減することを約束する。
これまで画像分類のためのデータセット蒸留法が開発されてきた。
しかし、視覚言語モデル(vlms)の能力が高まり、特にこれらのモデルの訓練に必要なデータセットの規模を考えると、データセットの蒸留法を画像分類以外にも拡張する時期が熟した。
本研究では, 軌跡マッチングのアイデアを拡張し, 視覚言語データセットの蒸留法を作成することで, この目標に向けて第一歩を踏み出す。
重要な課題は、視覚言語データセットが離散クラスの集合を持っていないことである。
そこで本研究では,画像テキスト対をコントラスト的に蒸留するビジョン言語データセット蒸留法を提案する。
既存のベースラインがないため、我々のアプローチを3つのコアセット選択方法(トレーニングデータセットの戦略的なサブサンプリング)と比較し、視覚言語の設定に適応する。
例えばflickr30kでは、トレーニングのために1000のイメージテキストペアを選択する最良のコアセット選択方法が、5.6%のイメージからテキストへの検索精度(recall@1)を達成しています。 Dataset distillation methods promise to reduce large-scale datasets down to significantly smaller sets of (potentially synthetic) training examples, which preserve sufficient information for training a new model from scratch. So far, dataset distillation methods have been developed for image classification. However, with the rise in capabilities of vision-language models (VLMs), and especially given the scale of datasets necessary to train these models, the time is ripe to expand dataset distillation methods beyond image classification. In this work, we take the first steps towards this goal by expanding the idea of trajectory matching to create a distillation method for vision-language datasets. A key challenge is that vision-language datasets do not have a set of discrete classes. To overcome this, our proposed vision-language dataset distillation method jointly distills the image-text pairs in a contrastive formulation. Since there are no existing baselines, we compare our approach to three coreset selection methods (strategic subsampling of the training dataset), which we adapt to the vision-language setting. We demonstrate significant improvements on the challenging Flickr30K and COCO retrieval benchmarks: for example, on Flickr30K, the best coreset selection method selecting 1000 image-text pairs for training achieves only 5.6% image-to-text retrieval accuracy (i.e., recall@1); in contrast, our dataset distillation approach almost doubles that to 9.9% with just 100 (an order of magnitude fewer) training pairs. | 翻訳日:2023-10-03 13:20:42 公開日:2023-10-02 |
# MMICL:マルチモーダルインコンテキスト学習による視覚言語モデルの構築 MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning ( http://arxiv.org/abs/2309.07915v2 ) ライセンス: Link先を確認 | Haozhe Zhao, Zefan Cai, Shuzheng Si, Xiaojian Ma, Kaikai An, Liang Chen, Zixuan Liu, Sheng Wang, Wenjuan Han, Baobao Chang | (参考訳) ディープラーニングの復活以来,大規模言語モデル (LLM) によって強化された視覚言語モデル (VLM) が急速に普及してきた。
しかし、LLMは背景知識やタスク情報をコンテキスト内学習に利用できるが、多くのVLMは複雑なマルチモーダルプロンプトを複数の画像で理解することに苦慮しているため、VLMは下流の視覚言語タスクでは効果が低い。
本稿では,上記の制限について述べる。
1 MMICLの導入は、VLMがマルチモーダル入力を効率的に処理するための新しいアプローチである。
2) VLMの文脈内学習能力を高めるための新しい文脈スキームの提案
3)マルチモーダル・イン・コンテキスト・ラーニング(mic)データセットの構築は、vlmが複雑なマルチモーダル・プロンプトを理解する能力を高めるために設計されている。
実験の結果,MME や MMBench などの複雑なベンチマークにおいて,多種多様な視覚言語タスクにおいて,MMICL が新たなゼロショット性能を実現することを確認した。
解析の結果,MMICLは複雑なマルチモーダル素早い理解の課題に効果的に取り組み,印象的なICL能力を実現していることがわかった。
さらに,mmiclはvlmsにおける言語バイアスの軽減に成功しており,広義のテキスト文脈に直面すると幻覚を生じやすいvlmsの一般的な問題である。 Since the resurgence of deep learning, vision-language models (VLMs) enhanced by large language models (LLMs) have grown exponentially in popularity. However, while LLMs can utilize extensive background knowledge and task information with in-context learning, most VLMs still struggle with understanding complex multi-modal prompts with multiple images, making VLMs less effective in downstream vision-language tasks. In this paper, we address the limitation above by 1) introducing MMICL, a new approach to allow the VLM to deal with multi-modal inputs efficiently; 2) proposing a novel context scheme to augment the in-context learning ability of the VLM; 3) constructing the Multi-modal In-Context Learning (MIC) dataset, designed to enhance the VLM's ability to understand complex multi-modal prompts. Our experiments confirm that MMICL achieves new state-of-the-art zero-shot performance on a wide range of general vision-language tasks, especially for complex benchmarks, including MME and MMBench. Our analysis demonstrates that MMICL effectively tackles the challenge of complex multi-modal prompt understanding and emerges the impressive ICL ability. Furthermore, we observe that MMICL successfully alleviates language bias in VLMs, a common issue for VLMs that often leads to hallucination when faced with extensive textual context. | 翻訳日:2023-10-03 13:11:36 公開日:2023-10-02 |
# 非断熱的および非循環的進化による状態独立な幾何学的量子ゲート State-independent geometric quantum gates via nonadiabatic and noncyclic evolution ( http://arxiv.org/abs/2309.01323v2 ) ライセンス: Link先を確認 | Yue Chen, Li-Na Ji, Yan Liang and Zheng-Yuan Xue | (参考訳) 幾何学的位相は局所雑音に対して頑健であり、非断熱的位相は進化時間を短縮できるため、非断熱的幾何学的ゲートは強い堅牢性を持ち、高い忠実性に近づくことができる。
しかし、幾何位相の利点は以前の研究で完全には研究されていない。
本稿では,滑らかな進化経路から純非断熱および非循環幾何位相を持つ普遍量子ゲートのスキームを提案する。
提案手法では, 幾何学的位相のみを高速に蓄積できるため, 局所的雑音抵抗特性を十分に活用するだけでなく, 実験的実現の困難さを低減できる。
数値計算の結果, 幾何学的ゲートは動的ゲートよりも強固であり, 環状経路を持つ幾何学的スキームは強固であることがわかった。
さらに、単一量子ビットゲートと非自明な2量子ビットゲートがそれぞれ99.97\%$と99.87\%$となるように、超伝導回路上に普遍量子ゲートを構築することを提案する。
したがって、これらの高忠実性量子ゲートは大規模なフォールトトレラント量子計算に有望である。 Geometric phases are robust to local noises and the nonadiabatic ones can reduce the evolution time, thus nonadiabatic geometric gates have strong robustness and can approach high fidelity. However, the advantage of geometric phase has not being fully explored in previous investigations. Here, we propose a scheme for universal quantum gates with pure nonadiabatic and noncyclic geometric phases from smooth evolution paths. In our scheme, only geometric phase can be accumulated in a fast way, and thus it not only fully utilizes the local noise resistant property of geometric phase but also reduces the difficulty in experimental realization. Numerical results show that the implemented geometric gates have stronger robustness than dynamical gates and the geometric scheme with cyclic path. Furthermore, we propose to construct universal quantum gate on superconducting circuits, with the fidelities of single-qubit gate and nontrivial two-qubit gate can achieve $99.97\%$ and $99.87\%$, respectively. Therefore, these high-fidelity quantum gates are promising for large-scale fault-tolerant quantum computation. | 翻訳日:2023-10-03 13:09:27 公開日:2023-10-02 |
# MVDream:3次元生成のための多視点拡散 MVDream: Multi-view Diffusion for 3D Generation ( http://arxiv.org/abs/2308.16512v2 ) ライセンス: Link先を確認 | Yichun Shi, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, Xiao Yang | (参考訳) 本稿では,テキストプロンプトから一貫した多視点画像を生成可能な多視点拡散モデルMVDreamを紹介する。
2次元データと3次元データの両方から学習すると、マルチビュー拡散モデルは2次元拡散モデルの一般化性と3次元レンダリングの一貫性を達成することができる。
このようなマルチビュー先行は、3D表現に非依存な一般化可能な3D先行として機能することを示す。
スコア蒸留サンプリングによる3次元生成に適用でき、既存の2次元リフト法の一貫性と安定性が著しく向上する。
dreamboothのような、いくつかの2d例から新しい概念を学べるが、3d生成には向いていない。 We introduce MVDream, a multi-view diffusion model that is able to generate consistent multi-view images from a given text prompt. Learning from both 2D and 3D data, a multi-view diffusion model can achieve the generalizability of 2D diffusion models and the consistency of 3D renderings. We demonstrate that such a multi-view prior can serve as a generalizable 3D prior that is agnostic to 3D representations. It can be applied to 3D generation via Score Distillation Sampling, significantly enhancing the consistency and stability of existing 2D-lifting methods. It can also learn new concepts from a few 2D examples, akin to DreamBooth, but for 3D generation. | 翻訳日:2023-10-03 13:08:38 公開日:2023-10-02 |
# Sparkles:マルチモーダルインストラクション追従モデルのための複数の画像間のチャットのアンロック Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models ( http://arxiv.org/abs/2308.16463v2 ) ライセンス: Link先を確認 | Yupan Huang and Zaiqiao Meng and Fangyu Liu and Yixuan Su and Nigel Collier and Yutong Lu | (参考訳) 大きな言語モデルでは、命令追従データで微調整された場合、様々なタスクでゼロショット性能が向上する。
マルチモーダル命令追従モデルは、テキストと画像を統合することでこれらの機能を拡張する。
しかし、MiniGPT-4のような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で困難に直面している。
主な理由は、この重要なアプリケーションに特別なデータセットがないことである。
これらのギャップを埋めるために、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを提案する。
トレーニングを支援するために,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介した。
さらに,複数の画像と対話方向をまたいだモデルの会話能力を定量的に評価するためのGPT支援ベンチマークであるSparklesEvalを構築した。
実験では,複数の画像と対話の順番に対する理解と推論におけるsparkleschatの有効性を検証する。
特にsparkleschatは、bisonバイナリ画像選択タスクやnlvr2ビジュアル推論タスクなど、確立された視覚言語ベンチマークでminigpt-4を上回っている。
さらにSparklesChatはSparklesEvalで10点中8.56点を獲得し、MiniGPT-4のスコアは3.91点、GPT-4のスコアは9.26点に近かった。
質的評価は、現実世界のアプリケーションを扱う際のsparkleschatの汎用性をさらに示している。
すべてのリソースはhttps://github.com/HYPJUDY/Sparklesで入手できる。 Large language models exhibit enhanced zero-shot performance on various tasks when fine-tuned with instruction-following data. Multimodal instruction-following models extend these capabilities by integrating both text and images. However, existing models such as MiniGPT-4 face challenges in maintaining dialogue coherence in scenarios involving multiple images. A primary reason is the lack of a specialized dataset for this critical application. To bridge these gaps, we present SparklesChat, a multimodal instruction-following model for open-ended dialogues across multiple images. To support the training, we introduce SparklesDialogue, the first machine-generated dialogue dataset tailored for word-level interleaved multi-image and text interactions. Furthermore, we construct SparklesEval, a GPT-assisted benchmark for quantitatively assessing a model's conversational competence across multiple images and dialogue turns. Our experiments validate the effectiveness of SparklesChat in understanding and reasoning across multiple images and dialogue turns. Specifically, SparklesChat outperformed MiniGPT-4 on established vision-and-language benchmarks, including the BISON binary image selection task and the NLVR2 visual reasoning task. Moreover, SparklesChat scored 8.56 out of 10 on SparklesEval, substantially exceeding MiniGPT-4's score of 3.91 and nearing GPT-4's score of 9.26. Qualitative evaluations further demonstrate SparklesChat's generality in handling real-world applications. All resources are available at https://github.com/HYPJUDY/Sparkles. | 翻訳日:2023-10-03 13:08:26 公開日:2023-10-02 |
# カークウッド-ディラック準確率の非古典性に基づく量子コヒーレンスの特徴付け Characterizing quantum coherence based on the nonclassicality of the Kirkwood-Dirac quasiprobability ( http://arxiv.org/abs/2309.09162v2 ) ライセンス: Link先を確認 | Agung Budiyono, Joel F. Sumbowo, Mohammad K. Agusta and Bagus E. B. Nurhandoko | (参考訳) 近年、量子情報処理の資源として、量子力学の非古典的特徴である量子コヒーレンスの特性、量子化、操作に大きな関心が寄せられている。
一方、初期の頃から、量子現象の非古典的な側面を示すために、いくつかの準確率分布の非古典的な値、すなわち従来の実確率と非負確率から逸脱する値を用いた研究プログラムが存在する。
これまで、量子力学のこの2つの非古典的特徴を関連付け、量子状態におけるコヒーレンスを、関連するカークウッド・ディラック(kd)準確率の完全な非現実性を用いて定量的に特徴づけることができることを示した。
本稿では、kd準確率の実部の全非正則性と全負性を同時に捉えるkd非古典性に基づくコヒーレンスの忠実な定量化法を開発する。
これはKD準確率の実際の部分が虚部とは独立に現れるという事実が動機であり、その負性性は量子科学と技術の様々な領域における量子性の特徴付けに使われている。
提案するコヒーレンス定量化器は、kd-非古典性コヒーレンスと呼ばれ、l_1$-ノルムコヒーレンスに対する下限を与える。
また、アントロピー指数1/2$のツァリスエントロピーの半分で定量化される非コヒーレントな正則基底に対応するプロジェクション値測度によって説明される測定結果の不確実性への低い境界を与える。
任意の純状態に対して、それらは同一であることが示されている。
さらに、kd-非古典性コヒーレンスは状態純度によって上限され、最大コヒーレント状態によって最大化される。
次に,実験室における直接推定のための変分スキームをスケッチし,静的感受性評価への応用について検討する。 In recent years, there is a huge interest in the characterization, quantification and manipulation of quantum coherence, a defining nonclassical feature of quantum mechanics, by regarding it as a resource in quantum information processing. On the other hand, since the early days, there has been a research program using the nonclassical values of some quasiprobability distributions, i.e., those that deviate from the conventional real and nonnegative probability, to indicate the nonclassical aspects of quantum phenomena. Previously, we linked this two nonclassical features of quantum mechanics, showing that coherence in a quantum state can indeed be quantitatively characterized by using the total nonreality of the associated Kirkwood-Dirac (KD) quasiprobability. Here, we develop another faithful quantifier of coherence based on the KD nonclassicality which captures simultaneously the total nonreality and the total negativity of the real part of the KD quasiprobability. This is motivated by the fact that the real part of the KD quasiprobability appears independently of the imaginary part, and its negativity has been used to characterize quantumness in different areas of quantum science and technology. The proposed coherence quantifier, which we call KD-nonclassicality coherence, gives a lower bound to the $l_1$-norm coherence. It also gives a lower bound to the uncertainty of outcomes of measurement described by a projection-valued measure corresponding to the incoherent orthonormal basis quantified by half of the Tsallis entropy with entropy index $1/2$. For arbitrary pure states, they are shown to be identical. Moreover, KD-nonclassicality coherence is upper bounded by the state purity and maximized by the maximally coherent states. We then sketch a variational scheme for its direct estimation in laboratory and discuss an application for the characterization of static susceptibility. | 翻訳日:2023-10-03 13:00:11 公開日:2023-10-02 |
# 従来の中国語モデルの評価の強化:総合ベンチマークスイートを目指して Advancing the Evaluation of Traditional Chinese Language Models: Towards a Comprehensive Benchmark Suite ( http://arxiv.org/abs/2309.08448v2 ) ライセンス: Link先を確認 | Chan-Jan Hsu, Chang-Le Liu, Feng-Ting Liao, Po-Chun Hsu, Yi-Chang Chen, Da-shan Shiu | (参考訳) 大規模言語モデルの評価は、言語理解と生成の分野において重要な課題である。
言語モデルが進歩を続けるにつれ、パフォーマンスを評価する効果的なベンチマークの必要性が高まっている。
伝統的な中国語の文脈では、DRCD、TTQA、CMDQA、FGCデータセットのような特定のベンチマークが存在するにもかかわらず、言語モデルの能力を評価するための包括的で多様なベンチマークが不足している。
このギャップに対処するために,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。
これらのベンチマークは、文脈的質問処理、要約、分類、テーブル理解など、幅広いタスクを包含する。
提案したベンチマークは包括的な評価フレームワークを提供し、異なるタスクにわたる言語モデルの能力の評価を可能にする。
本稿では,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。
評価の結果,本モデルであるmodel 7-cはgpt-3.5に匹敵する性能を評価能力の一部として達成した。
従来の中国語における言語モデルの評価を推進し,さらなる研究を促進するため,我々はベンチマークをオープンソース化し,試行錯誤のためのモデルを公開した。 The evaluation of large language models is an essential task in the field of language understanding and generation. As language models continue to advance, the need for effective benchmarks to assess their performance has become imperative. In the context of Traditional Chinese, there is a scarcity of comprehensive and diverse benchmarks to evaluate the capabilities of language models, despite the existence of certain benchmarks such as DRCD, TTQA, CMDQA, and FGC dataset. To address this gap, we propose a novel set of benchmarks that leverage existing English datasets and are tailored to evaluate language models in Traditional Chinese. These benchmarks encompass a wide range of tasks, including contextual question-answering, summarization, classification, and table understanding. The proposed benchmarks offer a comprehensive evaluation framework, enabling the assessment of language models' capabilities across different tasks. In this paper, we evaluate the performance of GPT-3.5, Taiwan-LLaMa-v1.0, and Model 7-C, our proprietary model, on these benchmarks. The evaluation results highlight that our model, Model 7-C, achieves performance comparable to GPT-3.5 with respect to a part of the evaluated capabilities. In an effort to advance the evaluation of language models in Traditional Chinese and stimulate further research in this field, we have open-sourced our benchmark and opened the model for trial. | 翻訳日:2023-10-03 12:59:37 公開日:2023-10-02 |
# Landscape-Sketch-Step: 代理最適化問題のためのAI/MLベースメタヒューリスティック Landscape-Sketch-Step: An AI/ML-Based Metaheuristic for Surrogate Optimization Problems ( http://arxiv.org/abs/2309.07936v2 ) ライセンス: Link先を確認 | Rafael Monteiro and Kartik Sau | (参考訳) 本稿では,コスト関数の広範な評価が高価であり,アクセス不能であり,あるいは禁止であるシナリオにおいて,グローバル最適化のための新しいヒューリスティックスを提案する。
この手法はLandscape-Sketch-and-Step (LSS) と呼ばれ、機械学習、確率最適化、強化学習技術を組み合わせて、以前にサンプリングされた点からの履歴情報に頼り、コスト関数を評価すべきパラメータ値の偏見的な選択を行う。
レプリカ交換モンテカルロ法(英語版)による最適化とは異なり、この手法で必要とされるコスト関数の評価の数は、シミュレーションアニーリングで使用されるものと同等であり、高スループットコンピューティングや高性能コンピューティングタスクなどにおいて特に重要な品質であり、計算コストがかかるか、あるいは実行に時間がかかる。
また、目的関数の近似や再構成を目的とした代理モデルを構築しないため、標準的な代理最適化手法とは異なる。
本手法を低次元最適化問題(dimensions 1, 2, 4, 8)に適用し,コスト関数が局所的ミニマ (minima) に苦しめられている凝縮物質物理学でよく見られる頑丈なエネルギー環境の最小化の難しさを模倣した。
古典的なシミュレートアニーリングと比較すると、lssは最適化プロセスの効果的な加速を示す。 In this paper, we introduce a new heuristics for global optimization in scenarios where extensive evaluations of the cost function are expensive, inaccessible, or even prohibitive. The method, which we call Landscape-Sketch-and-Step (LSS), combines Machine Learning, Stochastic Optimization, and Reinforcement Learning techniques, relying on historical information from previously sampled points to make judicious choices of parameter values where the cost function should be evaluated at. Unlike optimization by Replica Exchange Monte Carlo methods, the number of evaluations of the cost function required in this approach is comparable to that used by Simulated Annealing, quality that is especially important in contexts like high-throughput computing or high-performance computing tasks, where evaluations are either computationally expensive or take a long time to be performed. The method also differs from standard Surrogate Optimization techniques, for it does not construct a surrogate model that aims at approximating or reconstructing the objective function. We illustrate our method by applying it to low dimensional optimization problems (dimensions 1, 2, 4, and 8) that mimick known difficulties of minimization on rugged energy landscapes often seen in Condensed Matter Physics, where cost functions are rugged and plagued with local minima. When compared to classical Simulated Annealing, the LSS shows an effective acceleration of the optimization process. | 翻訳日:2023-10-03 12:58:58 公開日:2023-10-02 |
# 分散シフトを考慮したオフ・ポリティ・インターバル推定:統一誤差定量化フレームワーク Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework ( http://arxiv.org/abs/2309.13278v2 ) ライセンス: Link先を確認 | Wenzhuo Zhou, Yuhan Li, Ruoqing Zhu, Annie Qu | (参考訳) 本研究では,未知行動政策から事前収集したオフラインデータのみを用いて,目標政策値に対する信頼区間(ci)を確立することを目的とした,無限ホリゾンマルコフ決定過程の文脈における高信頼オフポリシー評価について検討する。
このタスクは,CI推定における包括的かつ厳密なエラー定量化の提供と,ターゲットポリシとオフラインデータ生成プロセスによる分散の相違による分散シフトへの対処という,2つの課題に直面する。
再帰的統一的誤差解析によって得られた2つの推定誤差は, 限界化重みのモデル化における誤特定誤差と, サンプリングによる統計的不確実性である。
この統一されたフレームワークは、ciの厳しさを損なうエラー間の以前の隠れたトレードオフを明らかにする。
慎重に設計された差別化関数に基づいて、提案された推定子は、最も厳しいCIを達成するためにトレードオフの呪いを破り、分散シフトに対する堅牢性を確保するためにCIを適用するという2つの目的を達成する。
本手法は,局所スーパーマーチンゲール/マーチンゲール構造を利用して,弱い依存条件を仮定することなく,時間依存データに適用できる。
理論的には,本アルゴリズムは,非線型関数近似設定においても,サンプリング効率,誤差ローバスト,および有意収束性を示す。
提案手法の数値計算性能は, 合成データセットおよびOttoT1DMモバイルヘルススタディで検証した。 We study high-confidence off-policy evaluation in the context of infinite-horizon Markov decision processes, where the objective is to establish a confidence interval (CI) for the target policy value using only offline data pre-collected from unknown behavior policies. This task faces two primary challenges: providing a comprehensive and rigorous error quantification in CI estimation, and addressing the distributional shift that results from discrepancies between the distribution induced by the target policy and the offline data-generating process. Motivated by an innovative unified error analysis, we jointly quantify the two sources of estimation errors: the misspecification error on modeling marginalized importance weights and the statistical uncertainty due to sampling, within a single interval. This unified framework reveals a previously hidden tradeoff between the errors, which undermines the tightness of the CI. Relying on a carefully designed discriminator function, the proposed estimator achieves a dual purpose: breaking the curse of the tradeoff to attain the tightest possible CI, and adapting the CI to ensure robustness against distributional shifts. Our method is applicable to time-dependent data without assuming any weak dependence conditions via leveraging a local supermartingale/martingale structure. Theoretically, we show that our algorithm is sample-efficient, error-robust, and provably convergent even in non-linear function approximation settings. The numerical performance of the proposed method is examined in synthetic datasets and an OhioT1DM mobile health study. | 翻訳日:2023-10-03 12:50:13 公開日:2023-10-02 |
# マルチコアアーキテクチャにおける最適化量子回路マッピングのためのハンガリー量子ビット割り当て Hungarian Qubit Assignment for Optimized Mapping of Quantum Circuits on Multi-Core Architectures ( http://arxiv.org/abs/2309.12182v2 ) ライセンス: Link先を確認 | Pau Escofet, Anabel Ovide, Carmen G. Almudever, Eduard Alarc\'on, and Sergi Abadal | (参考訳) モジュラー量子コンピューティングアーキテクチャは、現在の量子コンピュータのスケーリング制限を克服するために、モノリシックな設計に代わる有望な選択肢を提供する。
小さなプロトタイプ以上のスケーラビリティを実現するために、量子アーキテクチャは、これらのクラスタ間のスペーサー接続を備えた密結合量子ビットのクラスタを特徴とするモジュラーアプローチを採用することが期待されている。
複数の処理コアにキュービットを効率よく分散させることは、量子コンピューティングシステムの性能とスケーラビリティを向上させる上で重要である。
この課題に対処するために,我々は,ハンガリーのアルゴリズムを利用して量子ビットからコアへの割り当てを改善する,ハンガリーの量子ビット割り当て(hqa)アルゴリズムを提案する。
hqaアルゴリズムは、回路全体のキュービット間の相互作用を考慮し、きめ細かなパーティショニングと量子ビット利用の強化を可能にする。
実世界の量子アルゴリズムとランダム量子回路を用いた包括的実験を通じて,hqaアルゴリズムと最先端の代替手法を比較した。
その結果,提案手法は従来の手法よりも優れており,平均的な改善率は1.28$\times$であった。 Modular quantum computing architectures offer a promising alternative to monolithic designs for overcoming the scaling limitations of current quantum computers. To achieve scalability beyond small prototypes, quantum architectures are expected to adopt a modular approach, featuring clusters of tightly connected quantum bits with sparser connections between these clusters. Efficiently distributing qubits across multiple processing cores is critical for improving quantum computing systems' performance and scalability. To address this challenge, we propose the Hungarian Qubit Assignment (HQA) algorithm, which leverages the Hungarian algorithm to improve qubit-to-core assignment. The HQA algorithm considers the interactions between qubits over the entire circuit, enabling fine-grained partitioning and enhanced qubit utilization. We compare the HQA algorithm with state-of-the-art alternatives through comprehensive experiments using both real-world quantum algorithms and random quantum circuits. The results demonstrate the superiority of our proposed approach, outperforming existing methods, with an average improvement of 1.28$\times$. | 翻訳日:2023-10-03 12:47:56 公開日:2023-10-02 |
# 量子コンピューティング、数学、物理学(qcamp:quantum computing in high schools)の紹介 Quantum Computing, Math, and Physics (QCaMP): Introducing quantum computing in high schools ( http://arxiv.org/abs/2309.16788v2 ) ライセンス: Link先を確認 | Megan Ivory, Alisa Bettale, Rachel Boren, Ashlyn D. Burch, Jake Douglass, Lisa Hackett, Boris Kiefer, Alina Kononov, Maryanne Long, Mekena Metcalf, Tzula B. Propp, and Mohan Sarovar | (参考訳) 量子情報科学とテクノロジーの初期段階で急速に成長している分野は、熟練した量子労働者の需要が増加し、当初から多様な労働力を創出する機会となった。
この要求に応えて、STEMにおける女性や少数民族にQISTのキャリアを考えるよう促すため、我々は、必要条件のない高校レベルの教師や生徒に量子コンピューティングを導入するカリキュラムを開発した。
2022年、このカリキュラムは2週間のサマーキャンプで提供され、1つは教師、もう1つは学生をターゲットにした。
ここでは, 目的, カリキュラム, 活動の概要と, 両キャンプの形式的評価, 今後のQCaMP拡大の展望について概説する。 The nascent but rapidly growing field of Quantum Information Science and Technology has led to an increased demand for skilled quantum workers and an opportunity to build a diverse workforce at the outset. In order to meet this demand and encourage women and underrepresented minorities in STEM to consider a career in QIST, we have developed a curriculum for introducing quantum computing to teachers and students at the high school level with no prerequisites. In 2022, this curriculum was delivered over the course of two one-week summer camps, one targeting teachers and another targeting students. Here, we present an overview of the objectives, curriculum, and activities, as well as results from the formal evaluation of both camps and the outlook for expanding QCaMP in future years. | 翻訳日:2023-10-03 12:42:21 公開日:2023-10-02 |
# Lyra: 自動定理証明における二重補正のオーケストレーション Lyra: Orchestrating Dual Correction in Automated Theorem Proving ( http://arxiv.org/abs/2309.15806v2 ) ライセンス: Link先を確認 | Chuanyang Zheng, Haiming Wang, Enze Xie, Zhengying Liu, Jiankai Sun, Huajian Xin, Jianhao Shen, Zhenguo Li, Yu Li | (参考訳) 大言語モデル (LLMs) は、公式な定理証明の分野における探索の興味深い道を示す。
それにもかかわらず、幻覚の緩和と証明エラーメッセージによる洗練に関する彼らの潜在能力は、まだ完全には調査されていない領域である。
この分野におけるllmsの有効性を高めるために,ツール補正(tc)と推測補正(cc)の2つの異なる補正機構を用いる新しいフレームワークであるlyraを紹介する。
形式的証明の後処理にツール補正を実装するために、事前の知識を活用して、事前定義された証明ツール(例えば、Sledgehammer)を使って不正なツールの置き換えを導く。
ツール補正は幻覚の緩和に大きく寄与し、証明の全体的な精度を向上させる。
さらに,証明者と対話し,形式的証明予想を証明者エラーメッセージで洗練するエラーフィードバック機構であるConjecture Correctionを導入する。
従来の改良フレームワークと比較して、提案手法は命令による生成を洗練するが、ペア(生成、エラー、改良)プロンプトを収集しない。
提案手法は, MiniF2F 検証 (48.0% -> 55.3%) とテスト (45.5% -> 51.2%) の両方で最先端 (SOTA) 性能を達成した。
また,lyra が解いた3つの imo 問題についても述べる。
ツール補正(幻覚の緩和プロセス)とコンジェクチュア補正(環境との相互作用による副次的な調整)が今後の研究の道筋となると信じている。 Large Language Models (LLMs) present an intriguing avenue for exploration in the field of formal theorem proving. Nevertheless, their full potential, particularly concerning the mitigation of hallucinations and refinement through prover error messages, remains an area that has yet to be thoroughly investigated. To enhance the effectiveness of LLMs in the field, we introduce the Lyra, a new framework that employs two distinct correction mechanisms: Tool Correction (TC) and Conjecture Correction (CC). To implement Tool Correction in the post-processing of formal proofs, we leverage prior knowledge to utilize predefined prover tools (e.g., Sledgehammer) for guiding the replacement of incorrect tools. Tool Correction significantly contributes to mitigating hallucinations, thereby improving the overall accuracy of the proof. In addition, we introduce Conjecture Correction, an error feedback mechanism designed to interact with prover to refine formal proof conjectures with prover error messages. Compared to the previous refinement framework, the proposed Conjecture Correction refines generation with instruction but does not collect paired (generation, error & refinement) prompts. Our method has achieved state-of-the-art (SOTA) performance on both miniF2F validation (48.0% -> 55.3%) and test (45.5% -> 51.2%). We also present 3 IMO problems solved by Lyra. We believe Tool Correction (post-process for hallucination mitigation) and Conjecture Correction (subgoal adjustment from interaction with environment) could provide a promising avenue for future research in this field. | 翻訳日:2023-10-03 12:42:04 公開日:2023-10-02 |
# SGDは、ほぼ最適サンプル複素数を持つ2層ニューラルネットワークにおけるチューンの特徴を見いだす:XOR問題におけるケーススタディ SGD Finds then Tunes Features in Two-Layer Neural Networks with near-Optimal Sample Complexity: A Case Study in the XOR problem ( http://arxiv.org/abs/2309.15111v2 ) ライセンス: Link先を確認 | Margalit Glasgow | (参考訳) 本研究では,二次基底真理関数によって分離されたデータを持つ2層ニューラルネットワーク上でのミニバッチ確率勾配降下(sgd)の最適化過程について検討する。
二次的な ``xor'' 関数 $y = -x_ix_j$ でラベル付けされた$d$-dimensional boolean hypercube から引き出されたデータがあれば、$d \:\text{polylog}(d)$ のサンプルで人口エラー $o(1)$ にトレーニングすることができる。
本研究では,ロジスティック損失に対する標準ミニバッチsgdによるreluアクティベーションを用いて,二層神経ネットワークの両層を同時にトレーニングする。
私たちの知る限りでは、この研究は標準ニューラルネットワーク上の等方性データのxor関数を標準トレーニングで効率的に学習するために、最初に$\tilde{o}(d)$のサンプル複雑性を与える。
我々の主な手法は、ネットワークが小さく、多くのニューロンが独立して機能を見つけるために進化する$\textit{signal-finding}$フェーズと、SGDが機能を維持しバランスをとる$\textit{signal-heavy}$フェーズである。
我々は,2層目の重みの同時成長によって,2層目の重みが増幅されるため,少数のニューロンだけが特徴を学習するのに十分であることを示すために,重みの同時訓練を利用する。 In this work, we consider the optimization process of minibatch stochastic gradient descent (SGD) on a 2-layer neural network with data separated by a quadratic ground truth function. We prove that with data drawn from the $d$-dimensional Boolean hypercube labeled by the quadratic ``XOR'' function $y = -x_ix_j$, it is possible to train to a population error $o(1)$ with $d \:\text{polylog}(d)$ samples. Our result considers simultaneously training both layers of the two-layer-neural network with ReLU activations via standard minibatch SGD on the logistic loss. To our knowledge, this work is the first to give a sample complexity of $\tilde{O}(d)$ for efficiently learning the XOR function on isotropic data on a standard neural network with standard training. Our main technique is showing that the network evolves in two phases: a $\textit{signal-finding}$ phase where the network is small and many of the neurons evolve independently to find features, and a $\textit{signal-heavy}$ phase, where SGD maintains and balances the features. We leverage the simultaneous training of the layers to show that it is sufficient for only a small fraction of the neurons to learn features, since those neurons will be amplified by the simultaneous growth of their second layer weights. | 翻訳日:2023-10-03 12:41:10 公開日:2023-10-02 |
# 局所・グローバル情報統合のためのモデル非依存グラフニューラルネットワーク A Model-Agnostic Graph Neural Network for Integrating Local and Global Information ( http://arxiv.org/abs/2309.13459v2 ) ライセンス: Link先を確認 | Wenzhuo Zhou, Annie Qu, Keiland W. Cooper, Norbert Fortin, Babak Shahbaba | (参考訳) グラフニューラルネットワーク(gnns)は、さまざまなグラフ指向タスクで有望なパフォーマンスを達成している。
その成功にもかかわらず、既存のGNNには、ブラックボックスの性質による結果の解釈可能性の欠如と、さまざまな順序の表現を学べない2つの大きな制限がある。
これらの課題に対処するために,様々な順序の情報を逐次統合し,高次隣人から知識を抽出し,影響力のあるコンパクトグラフ構造を同定して有意義かつ解釈可能な結果を提供する,新しいモデル非依存グラフニューラルネットワーク(MaGNet)フレームワークを提案する。
特に、マグネットは、グラフトポロジーの下での複素関係の潜在表現の推定モデルと、影響のあるノード、エッジ、重要なノード特徴を識別する解釈モデルという2つのコンポーネントで構成されている。
理論的には、経験的ラデマッハ複雑性によりMaGNetの一般化誤差を確立し、その層状近傍混合を表現する力を示す。
シミュレーションデータを用いて総合的な数値実験を行い, 最新技術と比較し, マグネットの性能を実証した。
さらに,脳活動データからタスククリティカル情報を抽出することを目的とした実世界のケーススタディにMaGNetを適用し,科学研究の進展におけるその効果を明らかにする。 Graph Neural Networks (GNNs) have achieved promising performance in a variety of graph-focused tasks. Despite their success, existing GNNs suffer from two significant limitations: a lack of interpretability in results due to their black-box nature, and an inability to learn representations of varying orders. To tackle these issues, we propose a novel Model-agnostic Graph Neural Network (MaGNet) framework, which is able to sequentially integrate information of various orders, extract knowledge from high-order neighbors, and provide meaningful and interpretable results by identifying influential compact graph structures. In particular, MaGNet consists of two components: an estimation model for the latent representation of complex relationships under graph topology, and an interpretation model that identifies influential nodes, edges, and important node features. Theoretically, we establish the generalization error bound for MaGNet via empirical Rademacher complexity, and showcase its power to represent layer-wise neighborhood mixing. We conduct comprehensive numerical studies using simulated data to demonstrate the superior performance of MaGNet in comparison to several state-of-the-art alternatives. Furthermore, we apply MaGNet to a real-world case study aimed at extracting task-critical information from brain activity data, thereby highlighting its effectiveness in advancing scientific research. | 翻訳日:2023-10-03 12:38:44 公開日:2023-10-02 |
# Stackelbergのバッチポリシ学習 Stackelberg Batch Policy Learning ( http://arxiv.org/abs/2309.16188v2 ) ライセンス: Link先を確認 | Wenzhuo Zhou, Annie Qu | (参考訳) バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。
ログ化された経験から値関数モデルクラスを校正し、学習モデルの下である種の悲観的評価を行う、最悪の最適性アルゴリズムが、バッチRLの有望なパラダイムとして登場した。
しかし、この流れに関する現代の作品は、最適化の風景に隠れた階層的な意思決定構造を見落としている。
本稿では,ゲーム理論的な視点を採用し,政策学習図をリーダ・フォロワー構造を持つ2プレイヤー汎用ゲームとしてモデル化する。
提案手法は,通常の個々の勾配ではなく,目標の完全な導出に従って,リーダープレイヤーが更新する確率的勾配に基づく学習アルゴリズムであるstackelberglearnerを提案する。
派生学習力学は、StackelbergLearnerをゲーム理論の解釈に自然に結び付け、微分可能なStackelberg平衡に対する収束を保証する。
理論的な観点からは、一般的な関数近似を伴うインスタンス依存の後悔境界を提供し、アルゴリズムがバッチデータでカバーされる任意のコンパレータポリシーに対抗できる最善のエフォートポリシーを学習できることを示します。
特に、我々の理論的後悔の保証は、データカバレッジと強い関数近似条件、例えばベルマン閉包(bellman closedness)のない実現可能性のみを必要とする。
包括的実験により,本アルゴリズムはバッチrlベンチマークや実世界のデータセットにおいて,最先端の手法と同等以上の性能を発揮することがわかった。 Batch reinforcement learning (RL) defines the task of learning from a fixed batch of data lacking exhaustive exploration. Worst-case optimality algorithms, which calibrate a value-function model class from logged experience and perform some type of pessimistic evaluation under the learned model, have emerged as a promising paradigm for batch RL. However, contemporary works on this stream have commonly overlooked the hierarchical decision-making structure hidden in the optimization landscape. In this paper, we adopt a game-theoretical viewpoint and model the policy learning diagram as a two-player general-sum game with a leader-follower structure. We propose a novel stochastic gradient-based learning algorithm: StackelbergLearner, in which the leader player updates according to the total derivative of its objective instead of the usual individual gradient, and the follower player makes individual updates and ensures transition-consistent pessimistic reasoning. The derived learning dynamic naturally lends StackelbergLearner to a game-theoretic interpretation and provides a convergence guarantee to differentiable Stackelberg equilibria. From a theoretical standpoint, we provide instance-dependent regret bounds with general function approximation, which shows that our algorithm can learn a best-effort policy that is able to compete against any comparator policy that is covered by batch data. Notably, our theoretical regret guarantees only require realizability without any data coverage and strong function approximation conditions, e.g., Bellman closedness, which is in contrast to prior works lacking such guarantees. Through comprehensive experiments, we find that our algorithm consistently performs as well or better as compared to state-of-the-art methods in batch RL benchmark and real-world datasets. | 翻訳日:2023-10-03 10:56:33 公開日:2023-10-02 |
# 視覚トランスフォーマーとライン統合によるファサード解析の改善 Improving Facade Parsing with Vision Transformers and Line Integration ( http://arxiv.org/abs/2309.15523v3 ) ライセンス: Link先を確認 | Bowen Wang, Jiaxing Zhang, Ran Zhang, Yunqin Li, Liangzhi Li, Yuta Nakashima | (参考訳) ファサード解析は重要なコンピュータビジョンタスクであり、アーキテクチャ、都市計画、エネルギー効率といった分野の幅広いアプリケーションを扱う。
ディープラーニングベースの手法が、特定のオープンソースデータセットで印象的な結果をもたらすことに成功しているにも関わらず、現実のアプリケーションに対するその生存性は、いまだに不明である。
現実世界のシナリオはかなり複雑で、計算効率が向上する。
既存のデータセットはこれらの設定を表現するのに不足することが多く、以前の手法は精度を高めるために余分なモデルに依存することが多い。
本稿では,実世界のファサード解析タスクの複雑さを網羅したデータセットであるComprehensive Facade Parsing (CFP)を紹介する。
合計602枚の高解像度ストリートビュー画像からなるこのデータセットは、傾斜角や密集した建物など、さまざまな難易度シナリオを捉え、各画像に注意深い注釈を付ける。
Revision-based Transformer Facade Parsing (RTFP) と呼ばれる新しいパイプラインを導入する。
これはファサード解析における視覚トランスフォーマー(vit)の先駆的利用を示し,その効果を実験的に検証した。
また、ファサードの事前知識を用いた単純な線検出のみでセグメント結果を改善することができる効率的かつ正確な修正アルゴリズムであるLine Acquisition, Filtering, Revision (LAFR) を設計する。
ECP 2011, RueMonge 2014およびCFPにおいて, 本手法の優位性を評価した。
データセットとコードはhttps://github.com/wbw520/rtfpで入手できる。 Facade parsing stands as a pivotal computer vision task with far-reaching applications in areas like architecture, urban planning, and energy efficiency. Despite the recent success of deep learning-based methods in yielding impressive results on certain open-source datasets, their viability for real-world applications remains uncertain. Real-world scenarios are considerably more intricate, demanding greater computational efficiency. Existing datasets often fall short in representing these settings, and previous methods frequently rely on extra models to enhance accuracy, which requires much computation cost. In this paper, we introduce Comprehensive Facade Parsing (CFP), a dataset meticulously designed to encompass the intricacies of real-world facade parsing tasks. Comprising a total of 602 high-resolution street-view images, this dataset captures a diverse array of challenging scenarios, including sloping angles and densely clustered buildings, with painstakingly curated annotations for each image. We introduce a new pipeline known as Revision-based Transformer Facade Parsing (RTFP). This marks the pioneering utilization of Vision Transformers (ViT) in facade parsing, and our experimental results definitively substantiate its merit. We also design Line Acquisition, Filtering, and Revision (LAFR), an efficient yet accurate revision algorithm that can improve the segment result solely from simple line detection using prior knowledge of the facade. In ECP 2011, RueMonge 2014, and our CFP, we evaluate the superiority of our method. The dataset and code are available at https://github.com/wbw520/RTFP. | 翻訳日:2023-10-03 10:56:02 公開日:2023-10-02 |
# 高分解能低光画像強調のためのブートストラップ拡散モデル曲線推定 Bootstrap Diffusion Model Curve Estimation for High Resolution Low-Light Image Enhancement ( http://arxiv.org/abs/2309.14709v3 ) ライセンス: Link先を確認 | Jiancheng Huang, Yifan Liu, Shifeng Chen | (参考訳) 学習に基づく手法は多くの研究の関心を集め、低照度画像の強化に大きな改善をもたらした。
しかし、それらの多くは、高解像度画像における高価な計算コストと、同時拡張とデノイングにおける不満足なパフォーマンスの2つの大きな問題に悩まされている。
これらの問題に対処するため,我々は,通常の光画像ではなく曲線パラメータの分布を学習するブートストラップ拡散モデルであるbdceを提案する。
具体的には,ブートストラップ拡散モデルにより曲線パラメータを推定する高分解能画像を扱うために曲線推定法を採用する。
さらに、曲線調整の各イテレーションに denoise モジュールを適用して、各イテレーションの中間強化結果を denoise する。
我々は,BDCEを一般的なベンチマークデータセットで評価し,最先端の質的,定量的な性能が得られることを示す。 Learning-based methods have attracted a lot of research attention and led to significant improvements in low-light image enhancement. However, most of them still suffer from two main problems: expensive computational cost in high resolution images and unsatisfactory performance in simultaneous enhancement and denoising. To address these problems, we propose BDCE, a bootstrap diffusion model that exploits the learning of the distribution of the curve parameters instead of the normal-light image itself. Specifically, we adopt the curve estimation method to handle the high-resolution images, where the curve parameters are estimated by our bootstrap diffusion model. In addition, a denoise module is applied in each iteration of curve adjustment to denoise the intermediate enhanced result of each iteration. We evaluate BDCE on commonly used benchmark datasets, and extensive experiments show that it achieves state-of-the-art qualitative and quantitative performance. | 翻訳日:2023-10-03 10:55:36 公開日:2023-10-02 |
# 信頼できる最適化:16ビットニューラルネットワークトレーニングにおける数値不安定対策の新しいアプローチ Trustworthy Optimization: A Novel Approach to Counter Numerical Instability in 16-bit Neural Network Training ( http://arxiv.org/abs/2307.16189v4 ) ライセンス: Link先を確認 | Juyoung Yun | (参考訳) 本研究では,機械学習モデルの16ビット計算で観測される数値不安定性に関する重要な信頼性の懸念に対処する。
このような不安定性、特にRMSPropやAdamのような一般的な最適化アルゴリズムを採用する場合、しばしばディープニューラルネットワークの信頼性の低いトレーニングにつながる。
これは学習プロセスを損なうだけでなく、現実のアプリケーションに信頼性のあるモデルをデプロイする上でも大きな課題となる。
本研究は, この不安定性の原因として, エプシロンハイパーパラメーターを同定した。
16ビットの計算でepsilonに微調整を加えることでrmspropとadamの信頼性が向上し、16ビットのニューラルネットワークのより信頼できるトレーニングが可能になる。
本稿では,Adamオプティマイザからの更新を利用して学習プロセスの安定性を高める,新しい信頼性の高いアプローチを提案する。
当社のコントリビューションは、低精度計算における最適化の課題に対する深い洞察を提供し、ディープニューラルネットワークトレーニングの信頼性と安定性を保証するためのソリューションを提供し、さまざまなアプリケーションで信頼できる使用方法を提供します。 In this research, we address critical trustworthiness concerns related to the numerical instability observed in 16-bit computations of machine learning models. Such instability, particularly when employing popular optimization algorithms like RMSProp and Adam, often leads to unreliable training of deep neural networks. This not only disrupts the learning process but also poses significant challenges in deploying dependable models in real-world applications. Our investigation identifies the epsilon hyperparameter as the primary source of this instability. A nuanced exploration reveals that subtle adjustments to epsilon within 16-bit computations can enhance the reliability of RMSProp and Adam, enabling more trustworthy training of 16-bit neural networks. We propose a novel, dependable approach that leverages updates from the Adam optimizer to bolster the stability of the learning process. Our contributions provide deeper insights into optimization challenges in low-precision computations and offer solutions to ensure the trustworthiness and stability of deep neural network training, paving the way for their dependable use in various applications. | 翻訳日:2023-10-03 10:55:20 公開日:2023-10-02 |
# quantum alphatron: カーネルとノイズを用いた学習における量子アドバンテージ Quantum Alphatron: quantum advantage for learning with kernels and noise ( http://arxiv.org/abs/2108.11670v4 ) ライセンス: Link先を確認 | Siyi Yang, Naixu Guo, Miklos Santha, Patrick Rebentrost | (参考訳) 多くの機械学習アルゴリズムは、確率勾配降下を伴う損失関数を最適化し、カーネル手法を用いて線形学習タスクを非線形学習タスクに拡張する。
どちらの考え方も量子コンピューティングの文脈で議論されており、特に変分法を持つ短期量子コンピューティングやデータの特徴をエンコードするヒルベルト空間の利用について論じられている。
本稿では,フォールトトレラント量子コンピューティングモデルにおいて,証明可能な学習保証を持つ量子アルゴリズムについて述べる。
よく定義された学習モデルでは、この量子アルゴリズムは基礎となる概念クラスの幅広いパラメータの多項式のスピードアップを提供することができる。
本稿では,カーネルマトリックスの評価と,確率勾配降下法における勾配評価の2種類の速度アップについて検討する。
また、2層ニューラルネットワークの学習における量子優位性についても論じる。
我々の研究は、カーネルとサンプルによる量子学習の研究に貢献している。 Many machine learning algorithms optimize a loss function with stochastic gradient descent and use kernel methods to extend linear learning tasks to non-linear learning tasks. Both ideas have been discussed in the context of quantum computing, especially for near-term quantum computing with variational methods and the use of the Hilbert space to encode features of data. In this work, we discuss a quantum algorithm with provable learning guarantee in the fault-tolerant quantum computing model. In a well-defined learning model, this quantum algorithm is able to provide a polynomial speedup for a large range of parameters of the underlying concept class. We discuss two types of speedups, one for evaluating the kernel matrix and one for evaluating the gradient in the stochastic gradient descent procedure. We also discuss the quantum advantage in the context of the learning of two-layer neural networks. Our work contributes to the study of quantum learning with kernels and from samples. | 翻訳日:2023-10-03 10:54:43 公開日:2023-10-02 |
# L2CEval: 大規模言語モデルの言語間コード生成能力の評価 L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models ( http://arxiv.org/abs/2309.17446v2 ) ライセンス: Link先を確認 | Ansong Ni, Pengcheng Yin, Yilun Zhao, Martin Riddell, Troy Feng, Rui Shen, Stephen Yin, Ye Liu, Semih Yavuz, Caiming Xiong, Shafiq Joty, Yingbo Zhou, Dragomir Radev, Arman Cohan | (参考訳) 近年、大規模言語モデル(LLM)、特にコードで事前訓練された言語は、数ショットまたはゼロショットの方法で自然言語入力からプログラムを生成する強力な能力を示している。
有望な結果にもかかわらず、言語からコードへの生成能力に関する包括的な評価が欠けている。
既存の研究は、しばしば特定のタスク、モデルアーキテクチャ、学習パラダイムに焦点を合わせ、全体像を断片的に理解する。
本研究では,L2CEvalを提案する。L2CEvalは,セマンティック解析,数学推論,Pythonプログラミングの領域領域にまたがる7つのタスクに対して,LLMの言語対コード生成能力を体系的に評価し,モデルサイズ,事前学習データ,命令チューニング,異なるプロンプト手法などの性能に影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
これにより、さまざまなタスクやモデルにまたがる典型的な障害モードを特定し、分析することができます。
L2CEvalは、言語対コード生成におけるLLMの機能と制限を包括的に理解する。
評価フレームワークとすべてのモデルアウトプットもリリースし、この領域におけるさらなる研究の基礎を築きたいと考えています。 Recently, large language models (LLMs), especially those that are pretrained on code, have demonstrated strong capabilities in generating programs from natural language inputs in a few-shot or even zero-shot manner. Despite promising results, there is a notable lack of a comprehensive evaluation of these models language-to-code generation capabilities. Existing studies often focus on specific tasks, model architectures, or learning paradigms, leading to a fragmented understanding of the overall landscape. In this work, we present L2CEval, a systematic evaluation of the language-to-code generation capabilities of LLMs on 7 tasks across the domain spectrum of semantic parsing, math reasoning and Python programming, analyzing the factors that potentially affect their performance, such as model size, pretraining data, instruction tuning, and different prompting methods. In addition to assessing model performance, we measure confidence calibration for the models and conduct human evaluations of the output programs. This enables us to identify and analyze the typical failure modes across various tasks and models. L2CEval offers a comprehensive understanding of the capabilities and limitations of LLMs in language-to-code generation. We also release the evaluation framework and all model outputs, hoping to lay the groundwork for further future research in this domain. | 翻訳日:2023-10-03 10:49:43 公開日:2023-10-02 |
# LLM地上映像拡散モデル LLM-grounded Video Diffusion Models ( http://arxiv.org/abs/2309.17444v2 ) ライセンス: Link先を確認 | Long Lian, Baifeng Shi, Adam Yala, Trevor Darrell, Boyi Li | (参考訳) テキストコンディション拡散モデルは、神経ビデオ生成の有望なツールとして登場した。
しかし、現在のモデルは複雑な時空間的プロンプトに苦戦し、しばしば制限されたまたは誤った動きを生じさせる(例えば、左から右へ移動する物体に対して誘導する能力が欠如している)。
これらの制約に対処するため,LLM-grounded Video Diffusion (LVD)を導入する。
lvdはテキスト入力から直接ビデオを生成する代わりに、まず大きな言語モデル(llm)を利用してテキスト入力に基づいて動的シーンレイアウトを生成し、その後生成されたレイアウトを使用してビデオ生成のための拡散モデルをガイドする。
LLMはテキストのみから複雑な時空間力学を理解でき、現実世界でよく見られるプロンプトと物体の動きパターンの両方と密接に一致したレイアウトを生成する。
次に,アテンションマップの調整により,これらのレイアウトで映像拡散モデルを導くことを提案する。
我々のアプローチはトレーニングフリーであり、分類器のガイダンスを付加したビデオ拡散モデルに統合できる。
以上の結果から,LVDの動画拡散モデルと,所望の属性と動作パターンを忠実に生成する強力なベースライン法が著しく優れていることが示された。 Text-conditioned diffusion models have emerged as a promising tool for neural video generation. However, current models still struggle with intricate spatiotemporal prompts and often generate restricted or incorrect motion (e.g., even lacking the ability to be prompted for objects moving from left to right). To address these limitations, we introduce LLM-grounded Video Diffusion (LVD). Instead of directly generating videos from the text inputs, LVD first leverages a large language model (LLM) to generate dynamic scene layouts based on the text inputs and subsequently uses the generated layouts to guide a diffusion model for video generation. We show that LLMs are able to understand complex spatiotemporal dynamics from text alone and generate layouts that align closely with both the prompts and the object motion patterns typically observed in the real world. We then propose to guide video diffusion models with these layouts by adjusting the attention maps. Our approach is training-free and can be integrated into any video diffusion model that admits classifier guidance. Our results demonstrate that LVD significantly outperforms its base video diffusion model and several strong baseline methods in faithfully generating videos with the desired attributes and motion patterns. | 翻訳日:2023-10-03 10:49:17 公開日:2023-10-02 |
# 時空間グラフニューラルネットワークを用いた分散Flocking Controllerの学習 Learning Decentralized Flocking Controllers with Spatio-Temporal Graph Neural Network ( http://arxiv.org/abs/2309.17437v2 ) ライセンス: Link先を確認 | Siji Chen, Yanshen Sun, Peihan Li, Lifeng Zhou, Chang-Tien Lu | (参考訳) 近年、Swarm Roboticsにおける分散制御のためのグラフニューラルネットワーク(GNN)の利用が研究されている。
しかし、近隣の国家にのみ依存することは、中央集権的な統制政策を模倣するには不十分である。
この制限に対処するために、以前の研究は$l$-hop遅延状態を計算に組み込むことを提案した。
このアプローチは有望であるが、遠方の群れ構成員の間でのコンセンサスの欠如と小さな群れの形成を招き、結束的な群れ行動の失敗をもたらす可能性がある。
提案手法は時空間拡張と時空間拡張の両方を含む時空間GNNであるSTGNNを利用する。
空間展開は遠方の隣人から遅延状態を集め、時間展開は直近の隣人から前の状態を取り込む。
両方の拡張から収集されたより広範で包括的な情報は、より効果的で正確な予測をもたらす。
本研究では,ロボット群を制御するためのエキスパートアルゴリズムを開発し,本アルゴリズムに基づく分散STGNNモデルの訓練に模倣学習を用いる。
提案したSTGNNアプローチを様々な設定でシミュレートし,グローバルエキスパートアルゴリズムをエミュレートするための分散化能力を示す。
さらに,クラジフリードローン群による凝集性フラッキング,リーダ追跡,障害物回避を実現するためのアプローチも実施した。
STGNNの性能は、結束群、リーダー追従および障害物回避タスクを達成するための効果的で信頼性の高いアプローチとしての可能性を示している。 Recently a line of researches has delved the use of graph neural networks (GNNs) for decentralized control in swarm robotics. However, it has been observed that relying solely on the states of immediate neighbors is insufficient to imitate a centralized control policy. To address this limitation, prior studies proposed incorporating $L$-hop delayed states into the computation. While this approach shows promise, it can lead to a lack of consensus among distant flock members and the formation of small clusters, consequently resulting in the failure of cohesive flocking behaviors. Instead, our approach leverages spatiotemporal GNN, named STGNN that encompasses both spatial and temporal expansions. The spatial expansion collects delayed states from distant neighbors, while the temporal expansion incorporates previous states from immediate neighbors. The broader and more comprehensive information gathered from both expansions results in more effective and accurate predictions. We develop an expert algorithm for controlling a swarm of robots and employ imitation learning to train our decentralized STGNN model based on the expert algorithm. We simulate the proposed STGNN approach in various settings, demonstrating its decentralized capacity to emulate the global expert algorithm. Further, we implemented our approach to achieve cohesive flocking, leader following and obstacle avoidance by a group of Crazyflie drones. The performance of STGNN underscores its potential as an effective and reliable approach for achieving cohesive flocking, leader following and obstacle avoidance tasks. | 翻訳日:2023-10-03 10:48:57 公開日:2023-10-02 |
# データフィルタリングネットワーク Data Filtering Networks ( http://arxiv.org/abs/2309.17425v2 ) ライセンス: Link先を確認 | Alex Fang, Albin Madappally Jose, Amit Jain, Ludwig Schmidt, Alexander Toshev, Vaishaal Shankar | (参考訳) 大規模なトレーニングセットは機械学習の基盤となり、言語モデリングとマルチモーダル学習の最近の進歩の基礎となっている。
事前トレーニングのためのデータキュレーションは、しばしばアドホックであるが、一般的なパラダイムの一つは、まずWebから大量のデータを収集し、この候補プールを様々なヒューリスティックを通して実際のトレーニングセットにフィルタリングすることである。
本研究では,データフィルタリングネットワーク(dfn)を学習する問題を,大規模な未計算データセットをフィルタリングする第2段階として検討する。
例えば、ImageNetでよく機能するモデルでは、少量の高品質なデータに基づいてトレーニングされるImageNetの精度が低いモデルよりも、トレーニングセットが悪くなります。
この知見に基づいて,最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
具体的には、私たちの最高のパフォーマンスデータセットDFN-5Bは、計算予算に対する最先端モデルのトレーニングを可能にします。さまざまなタスクの改善の中で、データセットでトレーニングされたViT-Hは、ImageNet上で83.0%のゼロショット転送精度を実現します。
データセット設計のさらなる研究を促進するため、新たに20億のサンプルデータセットDFN-2Bをリリースし、公開データのみを使用して、高速なデータフィルタリングネットワークをゼロからトレーニング可能であることを示す。 Large training sets have become a cornerstone of machine learning and are the foundation for recent advances in language modeling and multimodal learning. While data curation for pre-training is often still ad-hoc, one common paradigm is to first collect a massive pool of data from the Web and then filter this candidate pool down to an actual training set via various heuristics. In this work, we study the problem of learning a data filtering network (DFN) for this second step of filtering a large uncurated dataset. Our key finding is that the quality of a network for filtering is distinct from its performance on downstream tasks: for instance, a model that performs well on ImageNet can yield worse training sets than a model with low ImageNet accuracy that is trained on a small amount of high-quality data. Based on our insights, we construct new data filtering networks that induce state-of-the-art image-text datasets. Specifically, our best performing dataset DFN-5B enables us to train state-of-the-art models for their compute budgets: among other improvements on a variety of tasks, a ViT-H trained on our dataset achieves 83.0% zero-shot transfer accuracy on ImageNet, out-performing models trained on other datasets such as LAION-2B, DataComp-1B, or OpenAI's WIT. In order to facilitate further research in dataset design, we also release a new 2 billion example dataset DFN-2B and show that high performance data filtering networks can be trained from scratch using only publicly available data. | 翻訳日:2023-10-03 10:48:35 公開日:2023-10-02 |
# PlaceNav: 位置認識によるトポロジカルナビゲーション PlaceNav: Topological Navigation through Place Recognition ( http://arxiv.org/abs/2309.17260v2 ) ライセンス: Link先を確認 | Lauri Suomela, Jussi Kalliola, Harry Edelman, Joni-Kristian K\"am\"ar\"ainen | (参考訳) 近年,ロボット非依存およびロボット固有成分にトポロジカルナビゲーションを分割することで,ロボット非依存部分を異なるロボットタイプから収集したデータで訓練することにより,ナビゲーション性能が向上することが示唆された。
しかしながら、適切なトレーニングデータの不足により、ナビゲーション手法は依然として制限され、計算スケールの悪さに苦しめられている。
本研究では,ロボットに依存しない部分をナビゲーション固有の汎用コンピュータビジョンコンポーネントに分割する。
トポロジカルナビゲーションパイプラインのサブゴール選択に視覚的位置認識を利用する。
これにより、サブゴア選択の効率が向上し、非ロボットソースからの大規模データセットの活用が可能になり、トレーニングデータの可用性が向上する。
位置認識によって実現されるベイズフィルタリングは、サブゴールの時間的一貫性を高め、ナビゲーション性能をさらに向上させる。
実験の結果, 室内での成功率は76%, 屋外ナビゲーションで23%, 計算効率が高かった。 Recent results suggest that splitting topological navigation into robot-independent and robot-specific components improves navigation performance by enabling the robot-independent part to be trained with data collected by different robot types. However, the navigation methods are still limited by the scarcity of suitable training data and suffer from poor computational scaling. In this work, we present~\methodname, subdividing the robot-independent part into navigation-specific and generic computer vision components. We utilize visual place recognition for the subgoal selection of the topological navigation pipeline. This makes subgoal selection more efficient and enables leveraging large-scale datasets from non-robotics sources, increasing training data availability. Bayes filtering, enabled by place recognition, further improves navigation performance by increasing the temporal consistency of subgoals. Our experimental results verify the design and the new model obtains a 76% higher success rate in indoor and 23% higher in outdoor navigation tasks with higher computational efficiency. | 翻訳日:2023-10-03 10:48:07 公開日:2023-10-02 |
# latticegen: クラウド上のプライバシアウェア生成のための格子に生成されたテキストを隠す協調フレームワーク LatticeGen: A Cooperative Framework which Hides Generated Text in a Lattice for Privacy-Aware Generation on Cloud ( http://arxiv.org/abs/2309.17157v2 ) ライセンス: Link先を確認 | Mengke Zhang, Tianxing He, Tianle Wang, Lu Mi, Fatemehsadat Mireshghallah, Binyi Chen, Hao Wang, Yulia Tsvetkov | (参考訳) クラウド上の大規模言語モデル(LLM)で生成を誘導する現在のユーザサーバインタラクションパラダイムでは、サーバが生成プロセスを完全に制御し、生成したテキストを自分自身に保持したいユーザのための選択肢がゼロになる。
我々は,ユーザがサンプリング操作を制御する間,サーバが依然としてほとんどの計算処理を行う協調的なフレームワークであるLatticeGenを提案する。
鍵となる考え方は、真の生成シーケンスがユーザによるノイズトークンと混在し、ノイズ格子に隠されていることである。
疑似悪意のあるサーバからの攻撃の可能性と、ユーザがそれに対して防御できる方法を考慮し、繰り返しビーム探索攻撃と混合ノイズスキームを提案する。
実験では、LatticeGenを使ってプロンプトとジェネレーションの両方を保護します。
ノイズ格子は生成品質を劣化させるが、LatticeGenは強力な攻撃の下で真の世代を顕著に保護する(BERTScoreが測定したようにセマンティックの50%以上が隠されている)。 In the current user-server interaction paradigm of prompted generation with large language models (LLM) on cloud, the server fully controls the generation process, which leaves zero options for users who want to keep the generated text to themselves. We propose LatticeGen, a cooperative framework in which the server still handles most of the computation while the user controls the sampling operation. The key idea is that the true generated sequence is mixed with noise tokens by the user and hidden in a noised lattice. Considering potential attacks from a hypothetically malicious server and how the user can defend against it, we propose the repeated beam-search attack and the mixing noise scheme. In our experiments we apply LatticeGen to protect both prompt and generation. It is shown that while the noised lattice degrades generation quality, LatticeGen successfully protects the true generation to a remarkable degree under strong attacks (more than 50% of the semantic remains hidden as measured by BERTScore). | 翻訳日:2023-10-03 10:47:50 公開日:2023-10-02 |
# 前立腺分割のための協調学習手法のベンチマーク Benchmarking Collaborative Learning Methods Cost-Effectiveness for Prostate Segmentation ( http://arxiv.org/abs/2309.17097v2 ) ライセンス: Link先を確認 | Lucia Innocenti, Michela Antonelli, Francesco Cremonesi, Kenaan Sarhan, Alejandro Granados, Vicky Goh, Sebastien Ourselin, Marco Lorenzi | (参考訳) 医療データは、しばしば複数の病院にまたがる中小規模のコレクションに分割され、プライバシー規制によってアクセスされる。
これは、機械学習とディープラーニングモデルの開発にそれらを使うのに困難をもたらします。
この制限を克服する1つの方法は、病院がローカルデータを明示的に共有することなく、共同で作業してタスクを解決できるコラボレーティブラーニング(CL)手法を使用することである。
本稿では,統合学習(FL)とコンセンサスベース手法(CBM)の2つの異なるアプローチを比較することで,MRIによる前立腺分節問題に対処する。
私たちの知る限りでは、これはラベル融合技術のようなcbmが協調学習の問題を解決するために使われる最初の仕事です。
この設定では、CBMは局所的に訓練されたモデルからの予測を組み合わせて、理想的に堅牢性と予測分散性を向上した連邦化された強学習者を得る。
実験の結果, 実用シナリオでは, cbm は fl と同等かそれ以上の結果をもたらすが, コスト効率は高い。
以上の結果から,コンセンサスパラダイムは医用画像の典型的な訓練タスクにおけるflの有効な代替案である可能性が示唆された。 Healthcare data is often split into medium/small-sized collections across multiple hospitals and access to it is encumbered by privacy regulations. This brings difficulties to use them for the development of machine learning and deep learning models, which are known to be data-hungry. One way to overcome this limitation is to use collaborative learning (CL) methods, which allow hospitals to work collaboratively to solve a task, without the need to explicitly share local data. In this paper, we address a prostate segmentation problem from MRI in a collaborative scenario by comparing two different approaches: federated learning (FL) and consensus-based methods (CBM). To the best of our knowledge, this is the first work in which CBM, such as label fusion techniques, are used to solve a problem of collaborative learning. In this setting, CBM combine predictions from locally trained models to obtain a federated strong learner with ideally improved robustness and predictive variance properties. Our experiments show that, in the considered practical scenario, CBMs provide equal or better results than FL, while being highly cost-effective. Our results demonstrate that the consensus paradigm may represent a valid alternative to FL for typical training tasks in medical imaging. | 翻訳日:2023-10-03 10:47:30 公開日:2023-10-02 |
# グラフモチーフパラメータに対するWeisfeiler-Lemanテストのパワーについて On the Power of the Weisfeiler-Leman Test for Graph Motif Parameters ( http://arxiv.org/abs/2309.17053v2 ) ライセンス: Link先を確認 | Matthias Lanzinger, Pablo Barcel\'o | (参考訳) グラフニューラルネットワーク(GNN)の分野におけるセミナル研究は、GNNの表現能力と、グラフ同型を検証する広く認められた方法である$k$-dimensional Weisfeiler-Leman(k$WL)テストとの直接的な対応を明らかにした。
この関係は、$k$WL テストによって識別可能な特定のグラフ特性の解釈に再び興味を抱いている。
この分野での研究の中心は、最小次元$k$を決定することであり、$k$WLはパターングラフ$P$の異なる回数のグラフを識別することができる。
我々は、このパターンカウント問題のWL次元として、少なくとも$k$を参照する。
この調査は伝統的に、サブグラフのカウントとサブグラフのカウントというパターンに関連する2つの異なるカウント問題に分解する。
興味深いことに、一見異なるアプローチの別の課題として最初に現れたにもかかわらず、これらの問題は、より包括的な問題である「グラフモチーフパラメーター」の相互接続されたコンポーネントである。
本稿では,ラベル付きグラフモチーフパラメータのWL次元を正確に評価する。
この結果の具体例として,ラベル付きパターン $p$ に対して,サブグラフカウントの wl 次元とサブグラフカウントの問題の特性を求める。
さらに、$k$wl テストが$p$ パターンの出現頻度が異なるグラフを区別する場合、$p$ の正確な発生回数は、対応する gnn の最後の層のローカル情報のみを使用して一様に計算できることを実証する。
最終的に、様々なグラフパラメータのWL次元を認識するという課題を掘り下げる。
与えられたパターン$P$に対する部分グラフカウント問題のWL次元を決定する多項式時間アルゴリズムを,以前の研究からオープンな質問に答える。 Seminal research in the field of graph neural networks (GNNs) has revealed a direct correspondence between the expressive capabilities of GNNs and the $k$-dimensional Weisfeiler-Leman ($k$WL) test, a widely-recognized method for verifying graph isomorphism. This connection has reignited interest in comprehending the specific graph properties effectively distinguishable by the $k$WL test. A central focus of research in this field revolves around determining the least dimensionality $k$, for which $k$WL can discern graphs with different number of occurrences of a pattern graph $P$. We refer to such a least $k$ as the WL-dimension of this pattern counting problem. This inquiry traditionally delves into two distinct counting problems related to patterns: subgraph counting and induced subgraph counting. Intriguingly, despite their initial appearance as separate challenges with seemingly divergent approaches, both of these problems are interconnected components of a more comprehensive problem: "graph motif parameters". In this paper, we provide a precise characterization of the WL-dimension of labeled graph motif parameters. As specific instances of this result, we obtain characterizations of the WL-dimension of the subgraph counting and induced subgraph counting problem for every labeled pattern $P$. We additionally demonstrate that in cases where the $k$WL test distinguishes between graphs with varying occurrences of a pattern $P$, the exact number of occurrences of $P$ can be computed uniformly using only local information of the last layer of a corresponding GNN. We finally delve into the challenge of recognizing the WL-dimension of various graph parameters. We give a polynomial time algorithm for determining the WL-dimension of the subgraph counting problem for given pattern $P$, answering an open question from previous work. | 翻訳日:2023-10-03 10:47:08 公開日:2023-10-02 |
# UniQuadric: 未知の剛体オブジェクトトラッキングと軽量モデリングのためのSLAMバックエンド UniQuadric: A SLAM Backend for Unknown Rigid Object 3D Tracking and Light-Weight Modeling ( http://arxiv.org/abs/2309.17036v2 ) ライセンス: Link先を確認 | Linghao Yang, Yanmin Wu, Yu Deng, Rui Tian, Xinggang Hu, Tiefeng Ma | (参考訳) 環境における未知の剛体物体の追跡とモデリングは、自律的な無人システムや仮想現実のインタラクティブアプリケーションにおいて重要な役割を果たす。
しかし、多くの既存のSLAMMOTメソッドは、特定のオブジェクトのポーズを推定することに集中しており、オブジェクトのスケールを推定できないため、未知のオブジェクトを効果的に追跡できない。
本稿では,エゴモーショントラッキング,剛体物体の動き追跡,および共同最適化フレームワーク内でのモデリングを統一する新しいSLAMバックエンドを提案する。
認識部では,Segment Anything Model (SAM) とDeAOTに基づく画素レベルの非同期オブジェクトトラッカー (AOT) を設計した。
モデリング部では、静的および動的オブジェクトの初期化と最適化の両方を統一する、新しいオブジェクト中心二次パラメータ化を提案する。
次に,オブジェクト状態推定の一環として,ハイブリッド制約を統合推定のための新しいデュアルスライディングウィンドウ最適化フレームワークに組み込んだ,オブジェクトポーズとスケール推定のための密結合最適化モデルを提案する。
私たちの知る限りでは、quadricを使って動的オブジェクトと静的オブジェクトの軽量モデリングと、オブジェクトのポーズトラッキングを密結合した最初の例です。
シミュレーションデータセットと実世界のデータセットの質的、定量的な実験を行い、動き推定とモデリングにおける最先端のロバスト性と正確性を示す。
本システムは,複雑な動的シーンにおける物体知覚の潜在的応用を示す。 Tracking and modeling unknown rigid objects in the environment play a crucial role in autonomous unmanned systems and virtual-real interactive applications. However, many existing Simultaneous Localization, Mapping and Moving Object Tracking (SLAMMOT) methods focus solely on estimating specific object poses and lack estimation of object scales and are unable to effectively track unknown objects. In this paper, we propose a novel SLAM backend that unifies ego-motion tracking, rigid object motion tracking, and modeling within a joint optimization framework. In the perception part, we designed a pixel-level asynchronous object tracker (AOT) based on the Segment Anything Model (SAM) and DeAOT, enabling the tracker to effectively track target unknown objects guided by various predefined tasks and prompts. In the modeling part, we present a novel object-centric quadric parameterization to unify both static and dynamic object initialization and optimization. Subsequently, in the part of object state estimation, we propose a tightly coupled optimization model for object pose and scale estimation, incorporating hybrids constraints into a novel dual sliding window optimization framework for joint estimation. To our knowledge, we are the first to tightly couple object pose tracking with light-weight modeling of dynamic and static objects using quadric. We conduct qualitative and quantitative experiments on simulation datasets and real-world datasets, demonstrating the state-of-the-art robustness and accuracy in motion estimation and modeling. Our system showcases the potential application of object perception in complex dynamic scenes. | 翻訳日:2023-10-03 10:46:36 公開日:2023-10-02 |
# CLIPデータのデマイズ Demystifying CLIP Data ( http://arxiv.org/abs/2309.16671v3 ) ライセンス: Link先を確認 | Hu Xu, Saining Xie, Xiaoqing Ellen Tan, Po-Yao Huang, Russell Howes, Vasu Sharma, Shang-Wen Li, Gargi Ghosh, Luke Zettlemoyer, Christoph Feichtenhofer | (参考訳) Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行い、現代の認識システムと生成モデルを活性化するアプローチである。
clipの成功の主な要因は、モデルアーキテクチャやトレーニング対象ではなく、そのデータであると考えています。
しかし、クリップはそのデータとその収集方法に関する限られた情報しか提供せず、モデルパラメータでフィルタリングすることでクリップのデータを再現することを目的としている。
本研究は,クリップのデータキュレーションアプローチを明らかにし,メタデータによる言語イメージ事前トレーニング(metaclip)をコミュニティに公開することを目的としています。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
実験では,データのみに集中して,モデルとトレーニング設定を厳格に分離した。
MetaCLIPはCommonCrawlに4億の画像テキストデータペアで適用され、CLIPのデータを複数の標準ベンチマークで上回る。
ゼロショットイメージネット分類では、MetaCLIPは70.8%の精度で、ViT-BモデルでCLIPの68.3%を上回っている。
1Bデータへのスケーリングは同じトレーニング予算を維持しながら、72.4%に達する。
我々の観測は、ViT-Hが80.5%、ベル・アンド・ウィストルを使わずに、様々なモデルサイズにまたがっている。
メタデータのキュレーションコードとトレーニングデータの配布はhttps://github.com/facebookresearch/MetaCLIPで公開されている。 Contrastive Language-Image Pre-training (CLIP) is an approach that has advanced research and applications in computer vision, fueling modern recognition systems and generative models. We believe that the main ingredient to the success of CLIP is its data and not the model architecture or pre-training objective. However, CLIP only provides very limited information about its data and how it has been collected, leading to works that aim to reproduce CLIP's data by filtering with its model parameters. In this work, we intend to reveal CLIP's data curation approach and in our pursuit of making it open to the community introduce Metadata-Curated Language-Image Pre-training (MetaCLIP). MetaCLIP takes a raw data pool and metadata (derived from CLIP's concepts) and yields a balanced subset over the metadata distribution. Our experimental study rigorously isolates the model and training settings, concentrating solely on data. MetaCLIP applied to CommonCrawl with 400M image-text data pairs outperforms CLIP's data on multiple standard benchmarks. In zero-shot ImageNet classification, MetaCLIP achieves 70.8% accuracy, surpassing CLIP's 68.3% on ViT-B models. Scaling to 1B data, while maintaining the same training budget, attains 72.4%. Our observations hold across various model sizes, exemplified by ViT-H achieving 80.5%, without any bells-and-whistles. Curation code and training data distribution on metadata is made available at https://github.com/facebookresearch/MetaCLIP. | 翻訳日:2023-10-03 10:46:08 公開日:2023-10-02 |