このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231114となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# GPT-4V(ision)は臨床医療・教育に適さない:臨床医による評価
GPT-4V(ision) Unsuitable for Clinical Care and Education: A Clinician-Evaluated Assessment ( http://arxiv.org/abs/2403.12046v1 ) ライセンス: Link先を確認 | Senthujan Senkaiahliyan, Augustin Toma, Jun Ma, An-Wen Chan, Andrew Ha, Kevin R. An, Hrishikesh Suresh, Barry Rubin, Bo Wang, | (参考訳) OpenAIの大規模マルチモーダルモデルであるGPT-4V(ision)は、画像の一般的な解釈のために最近開発された。
しかし、医用画像の解釈と診断の能力についてはあまり知られていない。
検診医や高齢者は、CTスキャン、MRI、心電図、臨床写真などの画像モダリティを用いて、GPT-4Vの習熟度を幅広い医療条件で評価した。
GPT-4Vは医用画像の識別と説明が可能であるが、診断精度と臨床診断能力は乏しく、患者の安全性にリスクをもたらす。
大規模言語モデルが医療教育やデリバリーの強化に寄与する可能性にもかかわらず、医学画像の解釈におけるGPT-4Vの現在の限界は、臨床的な意思決定に使用する際の適切な注意力の重要性を増している。
OpenAI's large multimodal model, GPT-4V(ision), was recently developed for general image interpretation. However, less is known about its capabilities with medical image interpretation and diagnosis. Board-certified physicians and senior residents assessed GPT-4V's proficiency across a range of medical conditions using imaging modalities such as CT scans, MRIs, ECGs, and clinical photographs. Although GPT-4V is able to identify and explain medical images, its diagnostic accuracy and clinical decision-making abilities are poor, posing risks to patient safety. Despite the potential that large language models may have in enhancing medical education and delivery, the current limitations of GPT-4V in interpreting medical images reinforces the importance of appropriate caution when using it for clinical decision-making. | 翻訳日:2024-03-25 07:46:43 公開日:2023-11-14 |
# 部分空間近感性ハッシュ・フィルタを用いたベクトルの既約k-タプルの同定
Identifying reducible k-tuples of vectors with subspace-proximity sensitive hashing/filtering ( http://arxiv.org/abs/2310.08416v3 ) ライセンス: Link先を確認 | Gabriella Holden, Daniel Shiu, Lauren Strutt, | (参考訳) ベクトルの小さな既約構成に対する衝突を生じやすいハッシュ関数と述語関数の族を導入・解析する。
これらは、短いベクトルに対する格子シービングの実践的な改善をもたらすかもしれない。
特に、ある漸近的な状態において、家族は既存のハッシュ関数や述語と大きく異なる収束行動を示す。
We introduce and analyse a family of hash and predicate functions that are more likely to produce collisions for small reducible configurations of vectors. These may offer practical improvements to lattice sieving for short vectors. In particular, in one asymptotic regime the family exhibits significantly different convergent behaviour than existing hash functions and predicates. | 翻訳日:2024-03-19 02:33:12 公開日:2023-11-14 |
# マルチプレイヤーオンラインゲームの安全確保への挑戦
Challenges of Securing Massively Multiplayer Online Games ( http://arxiv.org/abs/2311.07887v1 ) ライセンス: Link先を確認 | Kolten Sinclair, Steven Womack, Jacob Elliott, Benjamin Stafford, Sundar Krishnan, | (参考訳) 現代社会のセキュリティに関しては、2000年代初めから改善が進んでいます。
Hypertext Transfer Protocol Secure(HTTPS)とTransport Layer Security(TLS)は、数年前よりインターネット上のデータの転送をずっと安全にしています。
しかし、ゲーム業界はセキュリティに関して、特にMMO(Massively Multiplayer Online)ゲームは、そのアーキテクチャの本質的な性質から、驚くほど多くの基盤をカバーしている。
本稿では,MMO開発者がセキュアなゲームを設計する上で直面する課題と,業界の発展に寄与するセキュリティに対するより現代的なアプローチについて論じる。
著者らはまた、発生したエクスプロイトと侵害の実際の例をいくつか挙げ、それらがどのように緩和されたかを見ていく。
When it comes to security in the modern world, things have improved a lot since the early 2000s. Hypertext Transfer Protocol Secure (HTTPS) and Transport Layer Security (TLS) have made the transfer of our data across the internet much safer than years prior, and the advent of VPNs and private browsing have only compounded that. However, the gaming industry has been notoriously behind the curve when it comes to security, most notably with Massively Multiplayer Online (MMO) games, which due to the intrinsic nature of their architecture, have an astounding amount of ground to cover. In this paper, the authors discuss the challenges that MMO developers face when trying to design a secure game, as well as some more modern approaches to security that will help improve the industry moving forward. The authors also highlight a few real-life examples of exploits and breaches that have happened and look at how they were mitigated. | 翻訳日:2024-03-18 23:22:19 公開日:2023-11-14 |
# ドローンのセキュリティ
Security in Drones ( http://arxiv.org/abs/2311.07894v1 ) ライセンス: Link先を確認 | Jonathan Morgan, Julio Perez, Jordan Wade, Sundar Krishnan, | (参考訳) ドローンは、私たちの日常の世界でプライベート、商用、そして政府の用途に使われています。
ドローンユーザーが直面するサイバー脅威と、それらの脅威に対処するためのセキュリティプラクティスの両方を確立することが重要である。
ドローンを使う場合、プライバシーが常に主な関心事となる。
ドローンで合法的に収集された情報を保護し、データの違法な収集から人々を保護することは、セキュリティ専門家がドローンを使う前に考慮すべきトピックである。
本稿では,ドローンにおけるセキュリティの重要性について論じる。
Drones are used in our everyday world for private, commercial, and government uses. It is important to establish both the cyber threats drone users face and security practices to combat those threats. Privacy will always be the main concern when using drones. Protecting information legally collected on drones and protecting people from the illegal collection of their data are topics that security professionals should consider before their organization uses drones. In this article, the authors discuss the importance of security in drones. | 翻訳日:2024-03-18 23:22:19 公開日:2023-11-14 |
# ローハンマーを用いたLWE型鍵カプセル化機構の実用的鍵回収攻撃
A practical key-recovery attack on LWE-based key-encapsulation mechanism schemes using Rowhammer ( http://arxiv.org/abs/2311.08027v1 ) ライセンス: Link先を確認 | Puja Mondal, Suparna Kundu, Sarani Bhattacharya, Angshuman Karmakar, Ingrid Verbauwhede, | (参考訳) 物理的攻撃は、現実世界に展開された暗号システムに対する深刻な脅威である。
本研究では,長期秘密鍵を回収する汎用格子を用いたポスト量子鍵カプセル化機構を用いたマイクロアーキテクチャのエンドツーエンド攻撃手法を提案する。
本攻撃は, ほぼ全ての格子型鍵カプセル化機構の構築に使用される藤崎・岡本変換の重要な構成要素を標的としている。
我々は,Rowhammer を用いた Kyber や Saber などの実用的スキームに対する攻撃モデルを実証した。
我々の攻撃は極めて実用的であり、攻撃者が成功するための前提条件をほとんど課さないことを示す。
さらに,格子型鍵カプセル化機構の物理的攻撃戦略のほとんどすべてで使用される平文チェックオラクルの改良版を提案する。
我々の改善により、平文チェックのオラクルへのクエリの数は、Saberで最大39.%、Kyber768で約23.%削減されます。
これは独立した関心事であり、他の攻撃の複雑さを減らすためにも使用できる。
Physical attacks are serious threats to cryptosystems deployed in the real world. In this work, we propose a microarchitectural end-to-end attack methodology on generic lattice-based post-quantum key encapsulation mechanisms to recover the long-term secret key. Our attack targets a critical component of a Fujisaki-Okamoto transform that is used in the construction of almost all lattice-based key encapsulation mechanisms. We demonstrate our attack model on practical schemes such as Kyber and Saber by using Rowhammer. We show that our attack is highly practical and imposes little preconditions on the attacker to succeed. As an additional contribution, we propose an improved version of the plaintext checking oracle, which is used by almost all physical attack strategies on lattice-based key-encapsulation mechanisms. Our improvement reduces the number of queries to the plaintext checking oracle by as much as $39\%$ for Saber and approximately $23\%$ for Kyber768. This can be of independent interest and can also be used to reduce the complexity of other attacks. | 翻訳日:2024-03-18 23:22:19 公開日:2023-11-14 |
# ポスト量子暗号におけるマスキングフレンドリーな設計について
On the Masking-Friendly Designs for Post-Quantum Cryptography ( http://arxiv.org/abs/2311.08040v1 ) ライセンス: Link先を確認 | Suparna Kundu, Angshuman Karmakar, Ingrid Verbauwhede, | (参考訳) マスキングはよく知られており、確実にサイドチャネル攻撃に対する対策である。
しかし、余分な計算が加わったため、マスキング方式の統合は性能面では高価である。
マスキング対策を統合する際の性能オーバーヘッドは、暗号アルゴリズムの設計選択に大きく影響され、設計段階では考慮されないことが多い。
本研究では,マスキング手法を格子型暗号に組み込む際の設計選択の影響について検討する。
Scabbardは3つの格子ベースの後量子鍵カプセル化機構(KEM)、すなわちFlorete、Espada、Sableのスイートである。
我々は、Scabbard スイートのすべての構成 KEM の任意の順序マスキング実装を、その設計要素を利用して提供する。
本研究では,フローレート,エスパダ,サブルのマスク実装が,任意の順序マスキングの速度において,キーバーのマスク実装よりも優れていることを示す。
Masked Floreteは、第1位、第2位、第3位に対応して、マスクされたKyberよりも7,3 %、$7,1 %、$70 %のパフォーマンス向上を示している。
同様に、Espadaは$56\%$、$59\%$、$60\%$、Sableは$75\%$、$74\%$、$73\%$はKyberと比較すると、それぞれ第1、第2、第3のマスキングでパフォーマンスが向上している。
以上の結果から,設計決定はマスキング対策を格子型暗号に組み込むことの効率に大きく影響していることがわかった。
Masking is a well-known and provably secure countermeasure against side-channel attacks. However, due to additional redundant computations, integrating masking schemes is expensive in terms of performance. The performance overhead of integrating masking countermeasures is heavily influenced by the design choices of a cryptographic algorithm and is often not considered during the design phase. In this work, we deliberate on the effect of design choices on integrating masking techniques into lattice-based cryptography. We select Scabbard, a suite of three lattice-based post-quantum key-encapsulation mechanisms (KEM), namely Florete, Espada, and Sable. We provide arbitrary-order masked implementations of all the constituent KEMs of the Scabbard suite by exploiting their specific design elements. We show that the masked implementations of Florete, Espada, and Sable outperform the masked implementations of Kyber in terms of speed for any order masking. Masked Florete exhibits a $73\%$, $71\%$, and $70\%$ performance improvement over masked Kyber corresponding to the first-, second-, and third-order. Similarly, Espada exhibits $56\%$, $59\%$, and $60\%$ and Sable exhibits $75\%$, $74\%$, and $73\%$ enhanced performance for first-, second-, and third-order masking compared to Kyber respectively. Our results show that the design decisions have a significant impact on the efficiency of integrating masking countermeasures into lattice-based cryptography. | 翻訳日:2024-03-18 23:22:19 公開日:2023-11-14 |
# 分散Web3経済における集中的仲介:価値の精査と抽出
Centralized Intermediation in a Decentralized Web3 Economy: Value Accrual and Extraction ( http://arxiv.org/abs/2311.08234v1 ) ライセンス: Link先を確認 | Dipankar Sarkar, | (参考訳) Web3の出現は、中央集権的な権威から分散されたピアツーピアインタラクションへの移行を約束する、分散化されたデジタル経済の新しい時代を後押ししてきた。
しかしながら、この分散化されたエコシステムの基盤となるインフラストラクチャは、しばしば中央集権的なクラウドプロバイダに依存し、パラドックス的な価値とパワーの集中を生み出します。
本稿では,集中型クラウドの役割と収益に着目し,Web3エコシステムにおける価値獲得と抽出のメカニズムを考察する。
公開資料の分析を通じて、我々はクラウドサービスが分散化された状況下での経済的影響を解明する。
さらに、ユーザ参加と集中的な収益化戦略の相互作用を考察し、価値創造と蓄積という個人の視点について考察する。
主要な発見によると、ブロックチェーン技術は金融サービスのインフラストラクチャコストを大幅に削減する可能性があるが、現在のWeb3の展望は、ホスティング、スケーラビリティ、パフォーマンスのクラウドプロバイダに大きく依存している。
The advent of Web3 has ushered in a new era of decentralized digital economy, promising a shift from centralized authority to distributed, peer-to-peer interactions. However, the underlying infrastructure of this decentralized ecosystem often relies on centralized cloud providers, creating a paradoxical concentration of value and power. This paper investigates the mechanics of value accrual and extraction within the Web3 ecosystem, focusing on the roles and revenues of centralized clouds. Through an analysis of publicly available material, we elucidate the financial implications of cloud services in purportedly decentralized contexts. We further explore the individual's perspective of value creation and accumulation, examining the interplay between user participation and centralized monetization strategies. Key findings indicate that while blockchain technology has the potential to significantly reduce infrastructure costs for financial services, the current Web3 landscape is marked by a substantial reliance on cloud providers for hosting, scalability, and performance. | 翻訳日:2024-03-18 23:22:19 公開日:2023-11-14 |
# 深層学習を用いた多変量準周期関数データの結合アライメント Joint Alignment of Multivariate Quasi-Periodic Functional Data Using Deep Learning ( http://arxiv.org/abs/2312.09422v1 ) ライセンス: Link先を確認 | Vi Thanh Pham (1), Jonas Bille Nielsen (2), Klaus Fuglsang Kofoed (2 and 3), J{\o}rgen Tobias K\"uhl (4), Andreas Kryger Jensen (1) ((1) Section of Biostatistics, Department of Public Health, Faculty of Health and Medical Sciences, University of Copenhagen, (2) Department of Cardiology and Radiology, Copenhagen University Hospital, (3) Department of Clinical Medicine, Faculty of Health and Medical Sciences, University of Copenhagen, (4) Department of Cardiology, Zealand University Hospital) | (参考訳) 多変量関数データの結合アライメントは、信号処理、神経科学、医学などの様々な分野において重要な役割を担い、ウェアラブルデバイスからのデータの統計解析も含む。
伝統的な方法はしばしば位相変動を無視し、観測された振幅の変動に焦点をあてる。
本稿では,深層ニューラルネットワークを用いた多変量準周期関数の結合アライメント手法を提案する。
提案するニューラルネットワークは,単位単純度変換に基づく出力の特別な活性化を利用し,フィッシャー・ラオ計量に基づく損失関数を用いてモデルを訓練する。
さらに,提案手法は教師なしであり,主題別テンプレートと同様に最適な共通テンプレート機能を提供できる。
12誘導10s心電図記録データを含む2つのシミュレーションデータセットと1つの実例について本手法を実証する。 The joint alignment of multivariate functional data plays an important role in various fields such as signal processing, neuroscience and medicine, including the statistical analysis of data from wearable devices. Traditional methods often ignore the phase variability and instead focus on the variability in the observed amplitude. We present a novel method for joint alignment of multivariate quasi-periodic functions using deep neural networks, decomposing, but retaining all the information in the data by preserving both phase and amplitude variability. Our proposed neural network uses a special activation of the output that builds on the unit simplex transformation, and we utilize a loss function based on the Fisher-Rao metric to train our model. Furthermore, our method is unsupervised and can provide an optimal common template function as well as subject-specific templates. We demonstrate our method on two simulated datasets and one real example, comprising data from 12-lead 10s electrocardiogram recordings. | 翻訳日:2024-01-15 14:23:49 公開日:2023-11-14 |
# DRLアルゴリズムを用いたシームレス3次元UAV接続のためのRIS強化5Gネットワークのフェアネス駆動最適化 Fairness-Driven Optimization of RIS-Augmented 5G Networks for Seamless 3D UAV Connectivity Using DRL Algorithms ( http://arxiv.org/abs/2312.09420v1 ) ライセンス: Link先を確認 | Yu Tian, Ahmed Alhammadi, Jiguang He, Aymen Fakhreddine, Faouzi Bader | (参考訳) 本稿では,5G 無線通信と同じ時間資源で複数の無人航空機(UAV)を同時に運用するための基地局(BS)の補助として,複数の RIS を配置した3次元の無線携帯電話網の拡張に向けた,再構成可能なインテリジェントサーフェス(RIS)を用いた大規模マルチインプットマルチアウトプットシステムにおける共同アクティブビームフォーミングと受動ビームフォーミングの問題について検討する。
本研究の目的は,UAVにおける送信ビームフォーミングパラメータとRISにおける位相シフトパラメータを協調最適化することにより,UAVにおける最小信号対干渉プラスノイズ比(SINR)を最大化することである。
この問題に対処する2つの新しいアルゴリズムを提案する。
第1のアルゴリズムは、位相シフトパラメータが決定されると、行列逆演算によりBSビームフォーミング行列を計算することにより干渉を軽減することを目的とする。
第2の要素は、1つのRIS素子が1つのUAVのみを処理し、このRIS素子の位相シフトパラメータは、伝播と消滅に起因する位相オフセットを補償するように最適に設計されている。
最適なパラメータを得るためには,最先端の強化学習アルゴリズムであるdeep deterministic policy gradientを用いて,この2つの最適化問題を解く。
提案手法の有効性を示すシミュレーション結果と,いくつかの洞察に富んだ意見が得られた。 In this paper, we study the problem of joint active and passive beamforming for reconfigurable intelligent surface (RIS)-assisted massive multiple-input multiple-output systems towards the extension of the wireless cellular coverage in 3D, where multiple RISs, each equipped with an array of passive elements, are deployed to assist a base station (BS) to simultaneously serve multiple unmanned aerial vehicles (UAVs) in the same time-frequency resource of 5G wireless communications. With a focus on ensuring fairness among UAVs, our objective is to maximize the minimum signal-to-interference-plus-noise ratio (SINR) at UAVs by jointly optimizing the transmit beamforming parameters at the BS and phase shift parameters at RISs. We propose two novel algorithms to address this problem. The first algorithm aims to mitigate interference by calculating the BS beamforming matrix through matrix inverse operations once the phase shift parameters are determined. The second one is based on the principle that one RIS element only serves one UAV and the phase shift parameter of this RIS element is optimally designed to compensate the phase offset caused by the propagation and fading. To obtain the optimal parameters, we utilize one state-of-the-art reinforcement learning algorithm, deep deterministic policy gradient, to solve these two optimization problems. Simulation results are provided to illustrate the effectiveness of our proposed solution and some insightful remarks are observed. | 翻訳日:2024-01-15 14:23:35 公開日:2023-11-14 |
# 電力線絶縁体の自動検査のための異常検出 Anomaly detection for automated inspection of power line insulators ( http://arxiv.org/abs/2312.11470v1 ) ライセンス: Link先を確認 | Laya Das, Blazhe Gjorgiev, Giovanni Sansavini | (参考訳) 電力系統の信頼性を確保するためには絶縁体の検査が重要である。
深層学習は、ドローンが捉えた空中画像と強力な物体検出モデルを利用して、検査プロセスを自動化するために最近研究されている。
しかしながら、純粋に物体検出に基づくアプローチは、特に初期故障に対する故障絶縁体に対するクラス不均衡による検出精度の低さを示す。
データ効率でこの問題に対処するため,本論文では,物体検出と異常検出を併用し,絶縁体の故障を確実に検出する2段階アプローチを提案する。
この論文は、異常検出のための説明可能なディープニューラルネットワークベースのワンクラス分類器を採用しており、現実の応用では入手が難しい障害絶縁体の画像への依存を減らす。
異常検出モデルは、教師なしおよび半教師なしの方法で、豊富なデータと少ないデータシナリオを表す2つのデータセットでトレーニングされる。
その結果、トレーニングデータセットの6つの実際の異常を含むと、モデルの性能が大幅に向上し、絶縁体に稀に発生する欠陥を確実に検出できることがわかった。
異常検出モデルによる説明の解析により、モデルが絶縁体ディスク上の欠陥領域を正確に識別できるだけでなく、いくつかの誤った予測も提示できることが明らかとなった。 Inspection of insulators is important to ensure reliable operation of the power system. Deep learning has recently been explored to automate the inspection process by leveraging aerial images captured by drones along with powerful object detection models. However, a purely object detection-based approach exhibits class imbalance-induced poor detection accuracy for faulty insulators, especially for incipient faults. In order to address this issue in a data-efficient manner, this article proposes a two-stage approach that leverages object detection in conjunction with anomaly detection to reliably detect faults in insulators. The article adopts an explainable deep neural network-based one-class classifier for anomaly detection, that reduces the reliance on plentifully available images of faulty insulators, that might be difficult to obtain in real-life applications. The anomaly detection model is trained with two datasets -- representing data abundant and data scarce scenarios -- in unsupervised and semi-supervised manner. The results suggest that including as few as six real anomalies in the training dataset significantly improves the performance of the model, and enables reliable detection of rarely occurring faults in insulators. An analysis of the explanations provided by the anomaly detection model reveals that the model is able to accurately identify faulty regions on the insulator disks, while also exhibiting some false predictions. | 翻訳日:2024-01-15 13:35:54 公開日:2023-11-14 |
# 物体認識と深度センシングのための部分コヒーレンス Partial Coherence for Object Recognition and Depth Sensing ( http://arxiv.org/abs/2401.02432v1 ) ライセンス: Link先を確認 | Zichen Xie and Ken Xingze Wang | (参考訳) 様々なコンピュータビジョンタスクのパフォーマンスと照明のコヒーレンス度とのモノトニックな関係を示す。
計算手法を用いて部分的にコヒーレントな照明をシミュレートし、光波を伝播させて画像を形成する。
各制御実験において,コヒーレント長の増大により画像エントロピーが向上し,物体認識や深度センシング性能が向上することが判明した。 We show a monotonic relationship between performances of various computer vision tasks versus degrees of coherence of illumination. We simulate partially coherent illumination using computational methods, propagate the lightwave to form images, and subsequently employ a deep neural network to perform object recognition and depth sensing tasks. In each controlled experiment, we discover that, increased coherent length leads to improved image entropy, as well as enhanced object recognition and depth sensing performance. | 翻訳日:2024-01-15 09:42:08 公開日:2023-11-14 |
# フェデレーション学習と最適ロールアップを用いたサービス品質コンプライアンスシステム A Quality-of-Service Compliance System using Federated Learning and Optimistic Rollups ( http://arxiv.org/abs/2312.00026v1 ) ライセンス: Link先を確認 | Joao Paulo de Brito Goncalves, Guilherme Emerick Sathler, Rodolfo da Silva Villaca | (参考訳) エッジコンピューティングは、コンピューティング、ストレージ、帯域幅のリソースを、大量のデータを生成するモバイルデバイスやセンサに可能な限り近づける、新たなパラダイムをもたらす。
並行するトレンドは、多くの人にとって主要なコンピューティングデバイスとしての携帯電話とタブレットの台頭である。
これらのデバイスに存在する強力なセンサーは、モバイルであるという事実と相まって、前例のない多様でプライベートな性質を持つデータにアクセスすることができる。
このようなデータで学んだモデルは、よりインテリジェントなアプリケーションを動かすことでユーザビリティを大幅に向上させるという約束を持っているが、データの繊細な性質から、中央集権的な場所に保存するリスクと責任がある。
これらのデバイスでデータに必要なデータプライバシに対処するために、クライアントが実行するサービスに関する特定のデータがソースマシンを離れないように、フェデレートラーニング(FL)の使用を提案する。
データを共有する代わりに、ユーザはサーバに重み付け更新を送信するだけでモデルを協調的にトレーニングする。
しかしながら、これらのシナリオにおけるFLの素直な使用は、トレーニングフェーズ中に意図的であろうとなかろうと、汚職のリスクを露呈する。
FL構造のセキュリティ向上のために,エッジコンピューティングシナリオにおける分散型ブロックチェーンベースのFLを提案する。
また、トレーニング担当者のインセンティブ戦略を実現するために、FLで報酬メカニズムを作成するためにブロックチェーンを適用します。 Edge computing brings a new paradigm in which the sharing of computing, storage, and bandwidth resources as close as possible to the mobile devices or sensors generating a large amount of data. A parallel trend is the rise of phones and tablets as primary computing devices for many people. The powerful sensors present on these devices combined with the fact that they are mobile, mean they have access to data of an unprecedentedly diverse and private nature. Models learned on such data hold the promise of greatly improving usability by powering more intelligent applications, but the sensitive nature of the data means there are risks and responsibilities to storing it in a centralized location. To address the data privacy required for some data in these devices we propose the use of Federated Learning (FL) so that specific data about services performed by clients do not leave the source machines. Instead of sharing data, users collaboratively train a model by only sending weight updates to a server. However, the naive use of FL in those scenarios exposes it to a risk of corruption, whether intentional or not, during the training phase. To improve the security of the FL structure, we propose a decentralized Blockchain-based FL in an edge computing scenario. We also apply blockchain to create a reward mechanism in FL to enable incentive strategy for trainers. | 翻訳日:2023-12-11 04:04:57 公開日:2023-11-14 |
# セキュアトランスフォーマー推論 Secure Transformer Inference ( http://arxiv.org/abs/2312.00025v1 ) ライセンス: Link先を確認 | Mu Yuan, Lan Zhang, Xiang-Yang Li | (参考訳) 推論フェーズにおいてTransformerパラメータとユーザデータの両方を保護できる3つのプロトコルを提案する。
本プロトコルでは,各フィードフォワード推論プロセスに対して,ユーザ側の入力および出力データの置換計算のみを導入する。
我々のプロトコルである Secure Transformer Inference Protocol (STIP) はChatGPT のような現実世界のサービスに適用できる。 We present a three-party protocol that can protect both Transformer parameters and user data during the inference phase. For each feedforward inference process, our protocol only introduces permutation computation of input and output data on the user side. Our protocol, Secure Transformer Inference Protocol (STIP), can be applied to real-world services like ChatGPT. | 翻訳日:2023-12-11 04:04:35 公開日:2023-11-14 |
# 大規模言語モデル駆動型クラスルームフリップ:フリップインタラクションによる学生中心のピア質問の活用 Large Language Model-Driven Classroom Flipping: Empowering Student-Centric Peer Questioning with Flipped Interaction ( http://arxiv.org/abs/2311.14708v1 ) ライセンス: Link先を確認 | Chee Wei Tan | (参考訳) 相互質問は効果的な教育と学習、活発なエンゲージメントの育成、協調的な相互作用による深い理解、特に大きな教室において不可欠である。
OpenAIのGPT(Generative Pre-trained Transformer)シリーズのような大きな言語モデル(LLM)は、これを支援するだろうか?
本稿では,LLMにおけるフリップ操作に基づく教室フリップの教育的アプローチについて検討する。
欠落した相互作用は、プロンプトに対する回答ではなく、言語モデルを使用して質問を生成することである。
本研究は, 従来の教室の授業指導技術であるピアインストラクションやジャスト・イン・タイム・トレーニング(JiTT)を, フリップしたインタラクション技術によって強化し, ハイブリッド教育のための学生中心の質問を生成する方法を示す。
特に,学生が学習能力を自己制御し,教師が学習経路を迅速にパーソナライズできるように,ポーリング・プロンプト・クイズ・ルーチンとクイズ・プロンプト・ディスカス・ルーチンによって,クイズ・クイズとアクイズ・エンジニアリングを統合するワークフローを提案する。
教室のフリップの様々な要素をデジタル化し,これらのルーチンを用いた学生によるピアジェネレーション質問の評価を容易にするLLM駆動型チャットボットソフトウェアを開発した。
新型コロナウイルス(COVID-19)パンデミック時代の遠隔教育における教師と学生のギャップを埋めるのに有効な、2020年から2022年までの学部生と大学院生の両方にLLM駆動のチャットボットソフトウェアを適用した。
特に、llm駆動教室のフリップは、授業ペースを最適化し、魅力的な教室体験を可能にするために、大きなクラス設定において特に有益である。 Reciprocal questioning is essential for effective teaching and learning, fostering active engagement and deeper understanding through collaborative interactions, especially in large classrooms. Can large language model (LLM), such as OpenAI's GPT (Generative Pre-trained Transformer) series, assist in this? This paper investigates a pedagogical approach of classroom flipping based on flipped interaction in LLMs. Flipped interaction involves using language models to prioritize generating questions instead of answers to prompts. We demonstrate how traditional classroom flipping techniques, including Peer Instruction and Just-in-Time Teaching (JiTT), can be enhanced through flipped interaction techniques, creating student-centric questions for hybrid teaching. In particular, we propose a workflow to integrate prompt engineering with clicker and JiTT quizzes by a poll-prompt-quiz routine and a quiz-prompt-discuss routine to empower students to self-regulate their learning capacity and enable teachers to swiftly personalize training pathways. We develop an LLM-driven chatbot software that digitizes various elements of classroom flipping and facilitates the assessment of students using these routines to deliver peer-generated questions. We have applied our LLM-driven chatbot software for teaching both undergraduate and graduate students from 2020 to 2022, effectively useful for bridging the gap between teachers and students in remote teaching during the COVID-19 pandemic years. In particular, LLM-driven classroom flipping can be particularly beneficial in large class settings to optimize teaching pace and enable engaging classroom experiences. | 翻訳日:2023-12-03 13:56:06 公開日:2023-11-14 |
# 没入体験のための仮想世界を展開する Unrolling Virtual Worlds for Immersive Experiences ( http://arxiv.org/abs/2311.17924v1 ) ライセンス: Link先を確認 | Alexey Tikhonov and Anton Repushko | (参考訳) 本研究では、mystのようなビンテージアドベンチャーの要素からインスピレーションを得て没入世界を生成する手法を開拓し、現代のテキスト・ツー・イメージモデルを用いている。
2dパノラマの等角射影を用いて複雑な3dシーンへの変換を探索し、観察者が空間内を移動するときに生じる知覚の歪みに対処した。
提案手法は「塗装」に類似した手法を用いて歪んだ投影を補正し,局所的コヒーレントな世界のスムーズな構築を可能にする。
これは、人間とコンピュータの相互作用における技術、知覚、経験的現実の相互関係に関する広範な洞察を提供する。 This research pioneers a method for generating immersive worlds, drawing inspiration from elements of vintage adventure games like Myst and employing modern text-to-image models. We explore the intricate conversion of 2D panoramas into 3D scenes using equirectangular projections, addressing the distortions in perception that occur as observers navigate within the encompassing sphere. Our approach employs a technique similar to "inpainting" to rectify distorted projections, enabling the smooth construction of locally coherent worlds. This provides extensive insight into the interrelation of technology, perception, and experiential reality within human-computer interaction. | 翻訳日:2023-12-03 13:09:26 公開日:2023-11-14 |
# 移動メッシュ法に基づくmmpde-netと移動サンプリング物理形ニューラルネットワーク MMPDE-Net and Moving Sampling Physics-informed Neural Networks Based On Moving Mesh Method ( http://arxiv.org/abs/2311.16167v1 ) ライセンス: Link先を確認 | Yu Yang, Qihong Yang, Yangtao Deng, Qiaolin He | (参考訳) 本研究では,移動メッシュPDE法に基づくエンドツーエンド適応サンプリングニューラルネットワーク(MMPDE-Net)を提案する。
このモデルは個々のサンプリングポイントの効率を改善することに焦点を当てている。
さらに,mmpde-netに基づく反復アルゴリズムを開発し,サンプリング点の精度と制御性が向上した。
mmpde-netはディープラーニングソルバとは無関係なフレームワークであるので,これをpinnと組み合わせ,ms-pinnを提案し,本論文で提示した仮定の下でエラー解析を行い,その効果を実証する。
一方,本手法の有効性を検証するために,4つの典型例の数値実験により,MS-PINNとPINNを比較した。 In this work, we propose an end-to-end adaptive sampling neural network (MMPDE-Net) based on the moving mesh PDE method, which can adaptively generate new coordinates of sampling points by solving the moving mesh PDE. This model focuses on improving the efficiency of individual sampling points. Moreover, we have developed an iterative algorithm based on MMPDE-Net, which makes the sampling points more precise and controllable. Since MMPDE-Net is a framework independent of the deep learning solver, we combine it with PINN to propose MS-PINN and demonstrate its effectiveness by performing error analysis under the assumptions given in this paper. Meanwhile, we demonstrate the performance improvement of MS-PINN compared to PINN through numerical experiments on four typical examples to verify the effectiveness of our method. | 翻訳日:2023-12-03 13:04:32 公開日:2023-11-14 |
# マルチドキュメント要約のためのノンパラメトリックメモリガイダンス Non-Parametric Memory Guidance for Multi-Document Summarization ( http://arxiv.org/abs/2311.10760v1 ) ライセンス: Link先を確認 | Florian Baud (LIRIS), Alex Aussem (LIRIS) | (参考訳) 多文書要約(MDS)は自然言語処理において,複数の文書から情報を要約することを目的とした課題である。
しかし、ソース文書は定性的な要約を得るには不十分であることが多い。
本稿では,非パラメトリックメモリと組み合わせたレトリバー誘導モデルを提案する。
このモデルはデータベースから関連する候補を検索し、その候補をコピー機構とソースドキュメントで考慮して要約を生成する。
Approximate Nearest Neighbor Search (ANN)を用いて大規模なデータベースを検索する。
本手法は,学術論文を含むMultiXScienceデータセットを用いて評価する。
最後に,今後の成果と今後の方向性について考察する。 Multi-document summarization (MDS) is a difficult task in Natural Language Processing, aiming to summarize information from several documents. However, the source documents are often insufficient to obtain a qualitative summary. We propose a retriever-guided model combined with non-parametric memory for summary generation. This model retrieves relevant candidates from a database and then generates the summary considering the candidates with a copy mechanism and the source documents. The retriever is implemented with Approximate Nearest Neighbor Search (ANN) to search large databases. Our method is evaluated on the MultiXScience dataset which includes scientific articles. Finally, we discuss our results and possible directions for future work. | 翻訳日:2023-11-27 00:49:25 公開日:2023-11-14 |
# MUDGUARD:プライバシ保護型ビザンチン・ロバストクラスタリングを用いたフェデレーションラーニングにおける有害な多数処理 MUDGUARD: Taming Malicious Majorities in Federated Learning using Privacy-Preserving Byzantine-Robust Clustering ( http://arxiv.org/abs/2208.10161v2 ) ライセンス: Link先を確認 | Rui Wang, Xingkai Wang, Huanhuan Chen, J\'er\'emie Decouchant, Stjepan Picek, Nikolaos Laoutaris and Kaitai Liang | (参考訳) byzantine-robust federated learning(fl)は、悪意のあるクライアントに対抗し、攻撃成功率が非常に低いまま正確なグローバルモデルをトレーニングすることを目的としている。
しかし、既存のシステムのほとんどは、クライアントが正直な場合にのみ堅牢である。
FLTrust (NDSS '21) とZeno++ (ICML '20) は、そのような正直な大多数の仮定をしていないが、サーバに悪意のある更新をフィルタリングする補助的なデータセットを提供するシナリオにのみ適用することができる。
FLAME (USENIX '22) と EIFFeL (CCS '22) は、更新の堅牢性と機密性を保証するために、半正直な過半数の仮定を維持している。
したがって、現在、半正統な多数派を仮定することなく、ビザンチンの堅牢性と更新の機密性を保証することは不可能である。
この問題に対処するために,サーバ側とクライアント側の両方で悪意ある少数派である 'emph{or majority} の下で動作可能な,ビザンチン・ロバスト・プライバシ保護FLシステム MUDGUARD を提案する。
dbscanに基づいて,ペアワイズ調整コサイン類似性を用いてモデル更新から特徴を抽出する新しい手法を考案し,クラスタリングの精度を高める。
悪意のある多数派からの攻撃を防ぐために,クラスタ内の更新のみを集約して,対応するクラスタのクライアントにのみ対応するモデルを送信する,‘textit{Model Segmentation’という手法を開発した。
基本的な考え方は、悪意のあるクライアントが多数派であるとしても、悪意のある更新が悪意のあるクラスタ内に限定されている場合、良質なクライアントを傷つけることはない、というものだ。
また、複数の暗号化ツールを使用して、トレーニングの正確性と機密性を犠牲にすることなく、クラスタリングを実行します。
我々は,MUDGUARDの収束解析とともに,詳細なセキュリティ証明と実証評価を行う。 Byzantine-robust Federated Learning (FL) aims to counter malicious clients and train an accurate global model while maintaining an extremely low attack success rate. Most existing systems, however, are only robust when most of the clients are honest. FLTrust (NDSS '21) and Zeno++ (ICML '20) do not make such an honest majority assumption but can only be applied to scenarios where the server is provided with an auxiliary dataset used to filter malicious updates. FLAME (USENIX '22) and EIFFeL (CCS '22) maintain the semi-honest majority assumption to guarantee robustness and the confidentiality of updates. It is therefore currently impossible to ensure Byzantine robustness and confidentiality of updates without assuming a semi-honest majority. To tackle this problem, we propose a novel Byzantine-robust and privacy-preserving FL system, called MUDGUARD, that can operate under malicious minority \emph{or majority} in both the server and client sides. Based on DBSCAN, we design a new method for extracting features from model updates via pairwise adjusted cosine similarity to boost the accuracy of the resulting clustering. To thwart attacks from a malicious majority, we develop a method called \textit{Model Segmentation}, that aggregates together only the updates from within a cluster, sending the corresponding model only to the clients of the corresponding cluster. The fundamental idea is that even if malicious clients are in their majority, their poisoned updates cannot harm benign clients if they are confined only within the malicious cluster. We also leverage multiple cryptographic tools to conduct clustering without sacrificing training correctness and updates confidentiality. We present a detailed security proof and empirical evaluation along with a convergence analysis for MUDGUARD. | 翻訳日:2023-11-17 23:15:05 公開日:2023-11-14 |
# smart home goal feature model - 高齢者のためのスマートホームサポートのガイド Smart Home Goal Feature Model -- A guide to support Smart Homes for Ageing in Place ( http://arxiv.org/abs/2311.09248v1 ) ライセンス: Link先を確認 | Irini Logothetis, Priya Rani, Shangeetha Sivasothy, Rajesh Vasa, Kon Mouzakis | (参考訳) スマート技術は高齢者の高齢化を支援する上で重要である。
人工知能(AI)と機械学習(ML)を活用し、心の平和を提供し、高齢者が独立して生活し続けることを可能にする。
高齢者は、エンターテイメントや社会的相互作用にスマートテクノロジーを使用し、安全を提供し、健康や環境の状態をモニターし、緊急事態を検知し、ケアが必要なときに非公式および正式な介護者に通知することができる。
本稿では,高齢化を支えるために市販されているスマートホーム技術の概要,スマートホーム技術の利点と課題,高齢者の視点からのユーザビリティについて述べる。
先行知識を合成し,高齢者医療施設や医療研究者がスマートホームに適応するために使用するヒューリスティックアプローチを解決するために,構造化されたスマートホームゴール特徴モデル(SHGFM)を構築した。
SHGFMは中小企業にその能力を提供する
(i)目標を定め、
(ii)個人化されたニーズに基づいて高齢者向けのスマートホームをデザイン、開発、展開するための戦略を設定するための特徴を特定する。
我々のモデルは、高齢者のニーズに応じて、異なるレベルの目標を異なる特徴にマッピングすることで、医療研究者や高齢医療産業にスマートホームを構築するためのガイダンスを提供する。 Smart technologies are significant in supporting ageing in place for elderly. Leveraging Artificial Intelligence (AI) and Machine Learning (ML), it provides peace of mind, enabling the elderly to continue living independently. Elderly use smart technologies for entertainment and social interactions, this can be extended to provide safety and monitor health and environmental conditions, detect emergencies and notify informal and formal caregivers when care is needed. This paper provides an overview of the smart home technologies commercially available to support ageing in place, the advantages and challenges of smart home technologies, and their usability from elderlys perspective. Synthesizing prior knowledge, we created a structured Smart Home Goal Feature Model (SHGFM) to resolve heuristic approaches used by the Subject Matter Experts (SMEs) at aged care facilities and healthcare researchers in adapting smart homes. The SHGFM provides SMEs the ability to (i) establish goals and (ii) identify features to set up strategies to design, develop and deploy smart homes for the elderly based on personalised needs. Our model provides guidance to healthcare researchers and aged care industries to set up smart homes based on the needs of elderly, by defining a set of goals at different levels mapped to a different set of features. | 翻訳日:2023-11-17 18:35:33 公開日:2023-11-14 |
# 抽象・推論課題におけるヒト, GPT-4, GPT-4Vの比較 Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks ( http://arxiv.org/abs/2311.09247v1 ) ライセンス: Link先を確認 | Melanie Mitchell, Alessandro B. Palmarini, Arseny Moskvichev | (参考訳) GPT-4のテキストのみおよびマルチモーダル版の抽象的推論能力について,コア知識の概念による堅牢な理解と推論の評価を目的としたConceptARCベンチマーク[10]を用いて検討する。
我々はmoskvichevらの仕事を拡大する。
[10]概念ARCタスクのテキストバージョンでGPT-4をより詳細に評価し(単純なゼロショットプロンプトではなく)、最も単純なタスクの画像バージョンを用いてGPT-4のマルチモーダルバージョンであるGPT-4Vを評価する。
実験結果から,GPT-4のどちらのバージョンも人間に近いレベルで頑健な抽象化能力を開発していないという結論が得られた。 We explore the abstract reasoning abilities of text-only and multimodal versions of GPT-4, using the ConceptARC benchmark [10], which is designed to evaluate robust understanding and reasoning with core-knowledge concepts. We extend the work of Moskvichev et al. [10] by evaluating GPT-4 on more detailed, one-shot prompting (rather than simple, zero-shot prompts) with text versions of ConceptARC tasks, and by evaluating GPT-4V, the multimodal version of GPT-4, on zero- and one-shot prompts using image versions of the simplest tasks. Our experimental results support the conclusion that neither version of GPT-4 has developed robust abstraction abilities at humanlike levels. | 翻訳日:2023-11-17 18:35:10 公開日:2023-11-14 |
# UFOGen:Diffusion GANを使った大規模テキスト・画像生成 UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs ( http://arxiv.org/abs/2311.09257v1 ) ライセンス: Link先を確認 | Yanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou | (参考訳) テキストから画像への拡散モデルは、テキストのプロンプトをコヒーレントな画像に変換する顕著な能力を示しているが、その推論の計算コストはいまだに持続的な課題である。
そこで本稿では,超高速・ワンステップ画像合成のための新しい生成モデルであるufogenを提案する。
拡散モデルの改良や蒸留技術の導入に重点を置く従来の手法とは対照的に、UFOGenは拡散モデルとGANの目的を統合するハイブリッド手法を採用している。
新しく導入された拡散GANの目的と事前訓練された拡散モデルの初期化を利用して、UFOGenはテキスト記述に条件付けられた高品質な画像を1ステップで効率的に生成する。
従来のテキスト・画像生成以外にも、UFOGenはアプリケーションに汎用性を示す。
特にUFOGenは、ワンステップのテキスト・ツー・イメージ生成と多様な下流タスクを可能にする先駆的なモデルの一つであり、効率的な生成モデルの展望において大きな進歩を示している。
Googleの学生研究者として行った$\dagger$は、同じ貢献を意味する。 Text-to-image diffusion models have demonstrated remarkable capabilities in transforming textual prompts into coherent images, yet the computational cost of their inference remains a persistent challenge. To address this issue, we present UFOGen, a novel generative model designed for ultra-fast, one-step text-to-image synthesis. In contrast to conventional approaches that focus on improving samplers or employing distillation techniques for diffusion models, UFOGen adopts a hybrid methodology, integrating diffusion models with a GAN objective. Leveraging a newly introduced diffusion-GAN objective and initialization with pre-trained diffusion models, UFOGen excels in efficiently generating high-quality images conditioned on textual descriptions in a single step. Beyond traditional text-to-image generation, UFOGen showcases versatility in applications. Notably, UFOGen stands among the pioneering models enabling one-step text-to-image generation and diverse downstream tasks, presenting a significant advancement in the landscape of efficient generative models. \blfootnote{*Work done as a student researcher of Google, $\dagger$ indicates equal contribution. | 翻訳日:2023-11-17 18:19:32 公開日:2023-11-14 |
# reading between the mud: a challenge motorcycle racer number dataset (英語) Reading Between the Mud: A Challenging Motorcycle Racer Number Dataset ( http://arxiv.org/abs/2311.09256v1 ) ライセンス: Link先を確認 | Jacob Tyo, Youngseog Chung, Motolani Olarinre, Zachary C. Lipton | (参考訳) 本稿では、光学式文字認識(OCR)研究のための新しい挑戦的データセットである、オフロードバイクレーサーナンバーデータセット(RnD)を紹介する。
RnDには、オフロード競技でオートバイレーサーを描いたプロのモータースポーツ写真家の2,411枚の画像が含まれている。
画像には、泥の閉塞、動きのぼけ、標準でないフォント、グラア、複雑な背景など、OCRを難しくするさまざまな要因が示されています。
データセットには5,578個の手書きの注釈付きバウンディングボックスがあり、数字と文字が転写されている。
実験では、OCRアルゴリズムをベンチマークし、微調整後であっても、RnDのF1スコアは0.527に留まった。
異なる閉塞型の性能解析では,泥が主な課題であり,通常の条件に比べて精度が著しく低下している。
しかし、モデルは、光沢、ぼやけ、影、ほこりなど他の要因と競合する。
分析は改善の余地を明らかにし、既存のモデルの障害ケースを強調します。
RnDは、現実世界のOCR機能に革新をもたらす貴重な新しいベンチマークである。
著者らは、このデータセットとベースライン実験に基づいて、制約のない自然環境において、テキストを堅牢に認識するオープンな問題を進めることを期待している。
データセットはhttps://github.com/JacobTyo/SwinTextSpotter.comから入手できる。 This paper introduces the off-road motorcycle Racer number Dataset (RnD), a new challenging dataset for optical character recognition (OCR) research. RnD contains 2,411 images from professional motorsports photographers that depict motorcycle racers in off-road competitions. The images exhibit a wide variety of factors that make OCR difficult, including mud occlusions, motion blur, non-standard fonts, glare, complex backgrounds, etc. The dataset has 5,578 manually annotated bounding boxes around visible motorcycle numbers, along with transcribed digits and letters. Our experiments benchmark leading OCR algorithms and reveal an end-to-end F1 score of only 0.527 on RnD, even after fine-tuning. Analysis of performance on different occlusion types shows mud as the primary challenge, degrading accuracy substantially compared to normal conditions. But the models struggle with other factors including glare, blur, shadows, and dust. Analysis exposes substantial room for improvement and highlights failure cases of existing models. RnD represents a valuable new benchmark to drive innovation in real-world OCR capabilities. The authors hope the community will build upon this dataset and baseline experiments to make progress on the open problem of robustly recognizing text in unconstrained natural environments. The dataset is available at https://github.com/JacobTyo/SwinTextSpotter. | 翻訳日:2023-11-17 18:19:03 公開日:2023-11-14 |
# 人工知能とスキルプレミアム Artificial intelligence and the skill premium ( http://arxiv.org/abs/2311.09255v1 ) ライセンス: Link先を確認 | David E. Bloom and Klaus Prettner and Jamel Saadaoui and Mario Veruete | (参考訳) ChatGPTや他の人工知能(AI)の出現が、スキルプレミアムに与える影響はどのようなものだろう?
この問題に対処するために,産業用ロボットとAIを区別した置換生産関数のネスト定数弾性を開発する。
産業用ロボットは主に低スキル労働者に代わるが、aiは主に高スキル労働者の仕事をこなすのに役立つ。
ハイスキルな労働者がハイスキルな労働者である場合よりも、ハイスキルな労働者が置換可能である限り、AIはスキルのプレミアムを下げることを示す。 What will likely be the effect of the emergence of ChatGPT and other forms of artificial intelligence (AI) on the skill premium? To address this question, we develop a nested constant elasticity of substitution production function that distinguishes between industrial robots and AI. Industrial robots predominantly substitute for low-skill workers, whereas AI mainly helps to perform the tasks of high-skill workers. We show that AI reduces the skill premium as long as it is more substitutable for high-skill workers than low-skill workers are for high-skill workers. | 翻訳日:2023-11-17 18:18:12 公開日:2023-11-14 |
# 決定論的画像復元における知覚・ロバスト性トレードオフ The Perception-Robustness Tradeoff in Deterministic Image Restoration ( http://arxiv.org/abs/2311.09253v1 ) ライセンス: Link先を確認 | Guy Ohayon, Tomer Michaeli, Michael Elad | (参考訳) 画像解析における逆問題に対する決定論的手法の挙動について検討した。
これらの手法は,(1)高い知覚品質を達成すること,(2)測定値と一致した再構築を生成すること,の2つの目標を達成するように設計されている。
予測器がこれら2つの要件を満たすほど、そのリプシッツ定数は分解の性質によらず、より大きくなければならないという厳密な証明を提供する。
特に、完全な知覚品質と完全整合性にアプローチするには、モデルのリプシッツ定数は無限大に成長しなければならない。
これは、そのような方法が必ずしも敵の攻撃の影響を受けやすいことを意味する。
我々は単一画像の超解像アルゴリズムについて,ノイズと雑音の両方に対処する理論を実証する。
また,この非好ましくない行動を後方分布の探索に活用し,決定論的モデルが確率的手法を模倣できることを示す。 We study the behavior of deterministic methods for solving inverse problems in imaging. These methods are commonly designed to achieve two goals: (1) attaining high perceptual quality, and (2) generating reconstructions that are consistent with the measurements. We provide a rigorous proof that the better a predictor satisfies these two requirements, the larger its Lipschitz constant must be, regardless of the nature of the degradation involved. In particular, to approach perfect perceptual quality and perfect consistency, the Lipschitz constant of the model must grow to infinity. This implies that such methods are necessarily more susceptible to adversarial attacks. We demonstrate our theory on single image super-resolution algorithms, addressing both noisy and noiseless settings. We also show how this undesired behavior can be leveraged to explore the posterior distribution, thereby allowing the deterministic model to imitate stochastic methods. | 翻訳日:2023-11-17 18:17:59 公開日:2023-11-14 |
# ソーシャルメディアと株価 In the Red(dit): Social Media and Stock Prices ( http://arxiv.org/abs/2311.09252v1 ) ライセンス: Link先を確認 | James Baker | (参考訳) 2021年初めのGameStopのショートストレッチは、小売業者がWebサイトをリディットし、ソーシャルメディアが市場の動きと相関する情報を埋め込んでいることを示している。
本稿では,ファマ・フレンチ3因子モデルにおいて,分類されたコメントやバズワードの日次頻度を付加要因として用いて,この関係性を検討する。
コメントは教師なしのクラスタリング手法で分類されるが、過去の研究では研究対象のドメインに特有でない事前学習モデルを使用している。 Spearheaded by retail traders on the website reddit, the GameStop short squeeze of early 2021 shows that social media embeds information that correlates with market movements. This paper seeks to examine this relationship by using daily frequencies of classified comments and buzzwords as additional factors in a Fama-French three factor model. Comments are classified using an unsupervised clustering method, while past studies have used pretrained models that are not specific to the domains being studied. | 翻訳日:2023-11-17 18:17:39 公開日:2023-11-14 |
# 安定な動的ネットワーク埋め込みのためのシンプルで強力なフレームワーク A Simple and Powerful Framework for Stable Dynamic Network Embedding ( http://arxiv.org/abs/2311.09251v1 ) ライセンス: Link先を確認 | Ed Davis, Ian Gallagher, Daniel John Lawson, Patrick Rubin-Delanchy | (参考訳) 本稿では、動的ネットワークのノードを低次元空間内で進化するベクトルとして表現する動的ネットワーク埋め込みの問題に対処する。
静的ネットワーク埋め込みの分野は広く確立されているが、動的ネットワーク埋め込みの分野は、比較的初期段階にある。
本稿では,拡張展開行列に適用した場合に,解釈可能かつ強力な動的ネットワーク埋め込みを実現するために,広く確立された静的ネットワーク埋め込み手法を提案する。
埋め込み次元にかかわらず、これらの展開されたメソッドは安定した埋め込みを生成し、つまり同じ潜在挙動を持つノードが時間や空間の位置に関わらず交換可能であることを理論的に保証する。
さらに,シミュレーションネットワークにおける植込み構造をテストすることにより,動的ネットワーク埋め込みの品質評価に使用できる仮説テストフレームワークも定義した。
これを用いて, 自明な場合であっても, 不安定な手法はしばしば保存的あるいは不正確な構造を符号化する。
対照的に,我々の安定な展開法群は,より解釈が容易なだけでなく,不安定な手法よりも強力であることを示す。 In this paper, we address the problem of dynamic network embedding, that is, representing the nodes of a dynamic network as evolving vectors within a low-dimensional space. While the field of static network embedding is wide and established, the field of dynamic network embedding is comparatively in its infancy. We propose that a wide class of established static network embedding methods can be used to produce interpretable and powerful dynamic network embeddings when they are applied to the dilated unfolded adjacency matrix. We provide a theoretical guarantee that, regardless of embedding dimension, these unfolded methods will produce stable embeddings, meaning that nodes with identical latent behaviour will be exchangeable, regardless of their position in time or space. We additionally define a hypothesis testing framework which can be used to evaluate the quality of a dynamic network embedding by testing for planted structure in simulated networks. Using this, we demonstrate that, even in trivial cases, unstable methods are often either conservative or encode incorrect structure. In contrast, we demonstrate that our suite of stable unfolded methods are not only more interpretable but also more powerful in comparison to their unstable counterparts. | 翻訳日:2023-11-17 18:17:12 公開日:2023-11-14 |
# 比較多視点言語グラウンドング Comparative Multi-View Language Grounding ( http://arxiv.org/abs/2311.06694v2 ) ライセンス: Link先を確認 | Chancharik Mitra, Abrar Anwar, Rodolfo Corona, Dan Klein, Trevor Darrell, Jesse Thomason | (参考訳) 本研究では,比較言語記述が与えられた場合,対象参照を解消する作業について考察する。
本稿では,複数の画像ビューと言語記述が与えられたオブジェクトを現実的に解析するために,トランスフォーマーを活用するマルチビュー・コンテクスト(MAGiC)を提案する。
参照コンテキストを完全に考慮せずに視覚と言語を接続しようとする過去の取り組みとは対照的に、MAGiCはオブジェクト参照候補と参照言語表現の両方の複数のビューを共同で推論することで比較情報を利用する。
本稿では,比較推論がsnareオブジェクト参照タスクにおけるsoma性能に寄与することを示す分析を行う。 In this work, we consider the task of resolving object referents when given a comparative language description. We present a Multi-view Approach to Grounding in Context (MAGiC) that leverages transformers to pragmatically reason over both objects given multiple image views and a language description. In contrast to past efforts that attempt to connect vision and language for this task without fully considering the resulting referential context, MAGiC makes use of the comparative information by jointly reasoning over multiple views of both object referent candidates and the referring language expression. We present an analysis demonstrating that comparative reasoning contributes to SOTA performance on the SNARE object reference task. | 翻訳日:2023-11-17 11:31:02 公開日:2023-11-14 |
# 自己指導型学習手法の評価における表現表現性と学習性の利用 Using Representation Expressiveness and Learnability to Evaluate Self-Supervised Learning Methods ( http://arxiv.org/abs/2206.01251v2 ) ライセンス: Link先を確認 | Yuchen Lu, Zhen Liu, Aristide Baratin, Romain Laroche, Aaron Courville, Alessandro Sordoni | (参考訳) 我々は,教師付きラベルにアクセスせずに自己教師付き学習(SSL)モデルの品質を評価する上で,アーキテクチャや学習アルゴリズム,データ操作などに依存しない課題に対処する。
表現は表現力と学習力のレンズを通して評価できると主張する。
本稿では、内在次元(ID)を用いて表現性を評価し、クラスタ学習性(CL)を導入して学習性を評価することを提案する。
clはk-meansで表現をクラスタリングして得られるラベルを予測するように訓練されたkn分類器の性能で測定される。
これにより、CLとIDを単一の予測子、CLIDに結合します。
SSLアルゴリズムの多種多様なファミリーによる大規模な実証研究を通じて、CLIDは、他の競合する最近の評価手法よりも分布内モデルの性能と相関することがわかった。
また、CLIDは、いくつかの視覚的分類タスクにおけるSSLモデルの転送性能の予測器として機能し、競合するベースラインに対する改善をもたらす。 We address the problem of evaluating the quality of self-supervised learning (SSL) models without access to supervised labels, while being agnostic to the architecture, learning algorithm or data manipulation used during training. We argue that representations can be evaluated through the lens of expressiveness and learnability. We propose to use the Intrinsic Dimension (ID) to assess expressiveness and introduce Cluster Learnability (CL) to assess learnability. CL is measured in terms of the performance of a KNN classifier trained to predict labels obtained by clustering the representations with K-means. We thus combine CL and ID into a single predictor -- CLID. Through a large-scale empirical study with a diverse family of SSL algorithms, we find that CLID better correlates with in-distribution model performance than other competing recent evaluation schemes. We also benchmark CLID on out-of-domain generalization, where CLID serves as a predictor of the transfer performance of SSL models on several visual classification tasks, yielding improvements with respect to the competing baselines. | 翻訳日:2023-11-16 21:44:04 公開日:2023-11-14 |
# フェデレーション学習のための勾配マスク平均化 Gradient Masked Averaging for Federated Learning ( http://arxiv.org/abs/2201.11986v2 ) ライセンス: Link先を確認 | Irene Tenison, Sai Aravind Sreeramadas, Vaikkunth Mugunthan, Edouard Oyallon, Irina Rish, Eugene Belilovsky | (参考訳) フェデレートラーニング(FL)は、多種多様なデータを持つ多数のクライアントが互いにデータを共有することなく、統一されたグローバルモデルの学習を協調できるようにする、新興パラダイムである。
連邦学習における大きな課題は、クライアント間のデータの均一性であり、標準的なFLアルゴリズムの性能を低下させることができる。
標準FLアルゴリズムは、サーバのグローバルモデルを近似するためにモデルパラメータや勾配の更新を平均化する。
しかし,ヘテロジニアスな環境では,平均化は情報損失を生じさせ,支配的なクライアント勾配によって引き起こされるバイアスによる一般化を損なう可能性がある。
非i.dデータセットをより一般化するためには、アルゴリズムは、クライアント間で異なる刺激的なメカニズムを無視しながら、一定である不変メカニズムの学習に集中する必要がある、と仮定する。
近年のOut-of-Distribution Generalizationの成果から着想を得て,クライアント更新の標準平均化の代替としてFLの勾配マスク平均化手法を提案する。
このクライアント更新の集約技術は、既存のフェデレーションアルゴリズムのドロップイン代替として適用することができる。
我々は,複数のFLアルゴリズムに対して,非分配性,実世界,機能スクリュー型アウト・オブ・ディストリビューション,量不均衡なデータセットによる広範な実験を行い,特に異種クライアントの場合,一貫した改善を提供することを示す。 Federated learning (FL) is an emerging paradigm that permits a large number of clients with heterogeneous data to coordinate learning of a unified global model without the need to share data amongst each other. A major challenge in federated learning is the heterogeneity of data across client, which can degrade the performance of standard FL algorithms. Standard FL algorithms involve averaging of model parameters or gradient updates to approximate the global model at the server. However, we argue that in heterogeneous settings, averaging can result in information loss and lead to poor generalization due to the bias induced by dominant client gradients. We hypothesize that to generalize better across non-i.i.d datasets, the algorithms should focus on learning the invariant mechanism that is constant while ignoring spurious mechanisms that differ across clients. Inspired from recent works in Out-of-Distribution generalization, we propose a gradient masked averaging approach for FL as an alternative to the standard averaging of client updates. This aggregation technique for client updates can be adapted as a drop-in replacement in most existing federated algorithms. We perform extensive experiments on multiple FL algorithms with in-distribution, real-world, feature-skewed out-of-distribution, and quantity imbalanced datasets and show that it provides consistent improvements, particularly in the case of heterogeneous clients. | 翻訳日:2023-11-16 21:43:21 公開日:2023-11-14 |
# pomdpsにおける将来依存価値に基づくオフポリシー評価 Future-Dependent Value-Based Off-Policy Evaluation in POMDPs ( http://arxiv.org/abs/2207.13081v2 ) ライセンス: Link先を確認 | Masatoshi Uehara, Haruka Kiyohara, Andrew Bennett, Victor Chernozhukov, Nan Jiang, Nathan Kallus, Chengchun Shi, Wen Sun | (参考訳) 一般関数近似を用いた部分観測可能なMDP(POMDP)のオフ・ポリティクス評価(OPE)について検討した。
逐次重要サンプリング推定器や適合Q評価などの既存の手法は、PMDPの水平方向の呪いに悩まされている。
この問題を回避するために,将来のプロキシを入力として取り込む将来依存値関数を導入し,新しいモデルフリーなOPE手法を開発した。
将来の依存値関数は、完全に観測可能なMDPにおける古典値関数と同じような役割を果たす。
歴史プロキシをインストゥルメンタル変数として用いる条件モーメント方程式として,未来依存値関数に対する新しいベルマン方程式を導出する。
さらに,新しいベルマン方程式を用いて将来依存値関数を学習するミニマックス学習法を提案する。
PACの結果は,将来や歴史が潜伏状態やベルマン完全性に関する十分な情報を含む限り,OPE推定器は一貫していることを示す。
最後に,本手法をダイナミクスの学習に拡張し,そのアプローチとpomdpsにおけるよく知られたスペクトル学習手法との関係を確立する。 We study off-policy evaluation (OPE) for partially observable MDPs (POMDPs) with general function approximation. Existing methods such as sequential importance sampling estimators and fitted-Q evaluation suffer from the curse of horizon in POMDPs. To circumvent this problem, we develop a novel model-free OPE method by introducing future-dependent value functions that take future proxies as inputs. Future-dependent value functions play similar roles as classical value functions in fully-observable MDPs. We derive a new Bellman equation for future-dependent value functions as conditional moment equations that use history proxies as instrumental variables. We further propose a minimax learning method to learn future-dependent value functions using the new Bellman equation. We obtain the PAC result, which implies our OPE estimator is consistent as long as futures and histories contain sufficient information about latent states, and the Bellman completeness. Finally, we extend our methods to learning of dynamics and establish the connection between our approach and the well-known spectral learning methods in POMDPs. | 翻訳日:2023-11-16 21:15:25 公開日:2023-11-14 |
# 任意性と予測:公平な分類における分散の役割 Arbitrariness and Prediction: The Confounding Role of Variance in Fair Classification ( http://arxiv.org/abs/2301.11562v6 ) ライセンス: Link先を確認 | A. Feder Cooper, Katherine Lee, Madiha Choksi, Solon Barocas, Christopher De Sa, James Grimmelmann, Jon Kleinberg, Siddhartha Sen, Baobao Zhang | (参考訳) 異なるトレーニングされたモデル間の予測のばらつきは、公平なバイナリ分類において重要で未検討のエラー源である。
実際には、データ例のばらつきは非常に大きいので、決定を効果的に任意にすることができる。
この問題を調査するために、我々は実験的なアプローチを取り、4つの包括的な貢献をする。
1) 偏差から派生した自己整合性と呼ばれる指標を定義し、その指標を任意性の測定及び低減の代用として用いる。
2) 予測が任意である場合に分類を棄却するアンサンブルアルゴリズムを開発する。
3 公正二分分類における分散(自己整合性及び仲裁性)の役割に関する過去最大の実証研究を行う。
4) US Home Mortgage Disclosure Act (HMDA)データセットを将来の研究に容易に利用できるようにするツールキットをリリースする。
その結果,ベンチマークデータセットにおける結論の信頼性に関する衝撃的な知見が得られた。
ほとんどの公正なバイナリ分類ベンチマークは、公正な介入を適用する前に、予測に現れる仲裁の量を考慮して、公正に近いものです。
この発見は、共通アルゴリズムフェアネス手法の実用性に疑問を投げかけ、その上で、バイナリ分類におけるフェアネスの測定方法を再考するべきである。 Variance in predictions across different trained models is a significant, under-explored source of error in fair binary classification. In practice, the variance on some data examples is so large that decisions can be effectively arbitrary. To investigate this problem, we take an experimental approach and make four overarching contributions: We: 1) Define a metric called self-consistency, derived from variance, which we use as a proxy for measuring and reducing arbitrariness; 2) Develop an ensembling algorithm that abstains from classification when a prediction would be arbitrary; 3) Conduct the largest to-date empirical study of the role of variance (vis-a-vis self-consistency and arbitrariness) in fair binary classification; and, 4) Release a toolkit that makes the US Home Mortgage Disclosure Act (HMDA) datasets easily usable for future research. Altogether, our experiments reveal shocking insights about the reliability of conclusions on benchmark datasets. Most fair binary classification benchmarks are close-to-fair when taking into account the amount of arbitrariness present in predictions -- before we even try to apply any fairness interventions. This finding calls into question the practical utility of common algorithmic fairness methods, and in turn suggests that we should reconsider how we choose to measure fairness in binary classification. | 翻訳日:2023-11-16 21:04:38 公開日:2023-11-14 |
# パウリ測定のための隠れ変数 Hidden Variables for Pauli Measurements ( http://arxiv.org/abs/2212.09933v4 ) ライセンス: Link先を確認 | Leon Bankston | (参考訳) パウリ測度(クリフォード作用素で行うことができる測度)は、量子情報の基本的な対象である。
完全かつ一貫性のあるすべてのパウリ測定に結果の割り当てがないことはよく知られている。
両条件の緩和に基づく隠れ変数代入の2つのクラスを定義する。
部分隠れ変数代入は一貫性を保ちながら完全性を失う。
コンテキスト隠蔽変数割り当ては完全性を維持しながら、一貫性を禁ずる。
スペクトルグラフ理論の手法を用いて,各隠れ変数割り当ての不完全性と不整合を特徴付ける。
アプリケーションとして、文脈性のステートメントとして不完全性結果、非局所性のステートメントとして不整合結果を解釈します。
その結果,クリフォードゲートと測定値を用いて,多量のコンテクスト性および非局所性が得られることがわかった。 The Pauli measurements (the measurements that can be performed with Clifford operators followed by measurement in the computational basis) are a fundamental object in quantum information. It is well-known that there is no assignment of outcomes to all Pauli measurements that is both complete and consistent. We define two classes of hidden variable assignments based on relaxing either condition. Partial hidden variable assignments retain the consistency condition, but forfeit completeness. Contextual hidden variable assignments retain completeness but forfeit consistency. We use techniques from spectral graph theory to characterize the incompleteness and inconsistency of the respective hidden variable assignments. As an application, we interpret our incompleteness result as a statement of contextuality and our inconsistency result as a statement of nonlocality. Our results show that we can obtain large amounts of contextuality and nonlocality using Clifford gates and measurements. | 翻訳日:2023-11-16 21:02:50 公開日:2023-11-14 |
# 報酬は不要:生涯学習のためのモジュラー・コンポジション・セルフ保存エージェントの作り方 Reward is not Necessary: How to Create a Modular & Compositional Self-Preserving Agent for Life-Long Learning ( http://arxiv.org/abs/2211.10851v4 ) ライセンス: Link先を確認 | Thomas J. Ringstrom | (参考訳) 強化学習は、報酬の最大化と罰の回避が、目標指向の行動を説明する中心であると考えている。
しかし、生命体は、世界の状態と状態-ベクトル遷移ダイナミクスという、世界の構造に関する様々な側面を学ぶ必要がある。
エージェントが新しい知識を取り入れるにつれて、状態の組み合わせの数は指数関数的に増大し、与えられた状態の組み合わせに対して定義された既存の報酬やコストの明らかな重み付けは存在せず、そのような重み付けは、エージェントの経験よりも前に善と悪の組み合わせに関する情報をエンコードする必要がある。
したがって、我々は大きな状態空間における行動とモチベーションのより自然主義的な説明を開発する必要がある。
エンパワーメントの本質的動機付け指標のみを使うことは可能であり、これはトランジッション演算子の下で多くの可能な未来を実現するエージェントの能力を測定する。
演算子ベルマン方程式を用いて階層状態空間へのエンパワーメントのスケールを提案する。
これらの方程式は、初期状態とエージェントが最終状態と目標を達成する時間にポリシーを開始する時刻をマッピングする構成的階層的状態時間遷移作用素である。
これらの関数は階層演算子であるため、階層的なエンパワーメント測度を定義することができる。
エージェントは、その階層的なエンパワーメントゲインを最大化するために、遠くの州や時間へのプランを最適化し、その内部構造(生理状態)と外部環境(世界構造と空間状態)とのより好ましい結合をもたらす目標を発見できる。
したがって、生涯のエージェントは、主に構成性とエンパワーメントの原則によってアニメーションされ、報酬の最大化を繰り返すことなく、自身の構造的完全性の成長と維持を自認できる。 Reinforcement Learning views the maximization of rewards and avoidance of punishments as central to explaining goal-directed behavior. However, over a life, organisms will need to learn about many different aspects of the world's structure: the states of the world and state-vector transition dynamics. The number of combinations of states grows exponentially as an agent incorporates new knowledge, and there is no obvious weighted combination of pre-existing rewards or costs defined for a given combination of states, as such a weighting would need to encode information about good and bad combinations prior to an agent's experience in the world. Therefore, we must develop more naturalistic accounts of behavior and motivation in large state-spaces. We show that it is possible to use only the intrinsic motivation metric of empowerment, which measures the agent's capacity to realize many possible futures under a transition operator. We propose to scale empowerment to hierarchical state-spaces by using Operator Bellman Equations. These equations produce state-time feasibility functions, which are compositional hierarchical state-time transition operators that map an initial state and time when an agent begins a policy to the final states and times of completing a goal. Because these functions are hierarchical operators we can define hierarchical empowerment measures on them. An agent can then optimize plans to distant states and times to maximize its hierarchical empowerment-gain, allowing it to discover goals that bring about a more favorable coupling of its internal structure (physiological states) to its external environment (world structure & spatial state). Life-long agents could therefore be primarily animated by principles of compositionality and empowerment, exhibiting self-concern for the growth & maintenance of their own structural integrity without recourse to reward-maximization. | 翻訳日:2023-11-16 21:01:23 公開日:2023-11-14 |
# 圧縮状態における調和系の絡み合い Entanglement of Harmonic Systems in Squeezed States ( http://arxiv.org/abs/2304.04241v2 ) ライセンス: Link先を確認 | Dimitrios Katsinis, Georgios Pastras and Nikolaos Tetradis | (参考訳) 基底状態における自由スカラー場の絡み合いエントロピーは、領域法によって支配される。
しかし、スカラー場理論における絡み合いの研究が基底状態を超えては進んでいないことは注目すべきである。
本稿では、連続体極限としての自由スカラー場理論を含む調和系の絡み合いの研究を、最も一般的なガウス状態、すなわち圧縮状態の場合に拡張する。
還元密度行列の固有状態とスペクトルを求め、エンタングルメントエントロピーを計算する。
最後に,本手法を1+1次元のスカラー場理論の自由化に適用し,強圧縮状態の場合,エントロピーは基底状態の場合とは異なり体積項によって支配されることを示す。
系の状態は非自明な方法で時間に依存するが、この体積項は時間に依存しない。
この挙動は、一般調和系における絡み合いエントロピーの大規模展開において現れるため、より高次元に保持されることを期待する。 The entanglement entropy of a free scalar field in its ground state is dominated by an area law term. It is noteworthy, however, that the study of entanglement in scalar field theory has not advanced far beyond the ground state. In this paper, we extend the study of entanglement of harmonic systems, which include free scalar field theory as a continuum limit, to the case of the most general Gaussian states, namely the squeezed states. We find the eigenstates and the spectrum of the reduced density matrix and we calculate the entanglement entropy. Finally, we apply our method to free scalar field theory in 1+1 dimensions and show that, for very squeezed states, the entanglement entropy is dominated by a volume term, unlike the ground-state case. Even though the state of the system is time-dependent in a non-trivial manner, this volume term is time-independent. We expect this behaviour to hold in higher dimensions as well, as it emerges in a large-squeezing expansion of the entanglement entropy for a general harmonic system. | 翻訳日:2023-11-16 20:53:04 公開日:2023-11-14 |
# ペナリゼーションの有無による離散時間競合リスク回帰 Discrete-time Competing-Risks Regression with or without Penalization ( http://arxiv.org/abs/2303.01186v2 ) ライセンス: Link先を確認 | Tomer Meir and Malka Gorfine | (参考訳) 多くの研究は、競合リスクと正しい検閲を組み込んだイベントデータの解析を行っている。
ほとんどのメソッドとソフトウェアパッケージは、連続的な障害時間の分散から来るデータを分析するためのものだ。
しかしながら、障害時のデータは本質的に離散的であるか、不正確な測定のため、しばしば離散的である。
本稿では,競合イベントを用いた離散時間生存分析のための新しい推定手法を提案する。
提案手法は既存の手順に対して2つの大きな利点を提供する: 第一に、多数の単一障害点に対する推定プロセスを高速化する; 第二に、広く使われている正規化回帰とスクリーニングの手法の直接的な統合と適用を可能にする。
提案手法の利点を総合的なシミュレーション研究により示す。
また,集中治療室に入院した入院患者の生存期間を推定し,在宅退院,他施設への転院,院内死亡の3つのイベントを考慮し,生存期間を推定した。 Many studies employ the analysis of time-to-event data that incorporates competing risks and right censoring. Most methods and software packages are geared towards analyzing data that comes from a continuous failure time distribution. However, failure-time data may sometimes be discrete either because time is inherently discrete or due to imprecise measurement. This paper introduces a novel estimation procedure for discrete-time survival analysis with competing events. The proposed approach offers two key advantages over existing procedures: first, it expedites the estimation process for a large number of unique failure time points; second, it allows for straightforward integration and application of widely used regularized regression and screening methods. We illustrate the benefits of our proposed approach by conducting a comprehensive simulation study. Additionally, we showcase the utility of our procedure by estimating a survival model for the length of stay of patients hospitalized in the intensive care unit, considering three competing events: discharge to home, transfer to another medical facility, and in-hospital death. | 翻訳日:2023-11-16 20:50:42 公開日:2023-11-14 |
# n-best再分類による正確な知識蒸留 Accurate Knowledge Distillation with n-best Reranking ( http://arxiv.org/abs/2305.12057v2 ) ライセンス: Link先を確認 | Hendra Setiawan | (参考訳) 我々は,n-best re rankを活用してシーケンスレベル知識蒸留(Kim and Rush, 2016)を強化し,トップ-1を超える仮説を探索し,より正確な擬似ラベルを取得することを提案する。
これを達成するために、我々は、様々な帰納バイアス、客観的関数またはアーキテクチャを持つ多様なモデルの集合を利用する。
提案手法の有効性は、WMT'21ドイツ語と中国語の翻訳タスクの実験を通して検証される。
その結果,n-bestリランカが生成した擬似ラベルを利用することで,より正確な学生モデルが得られた。
実際、私たちのベストな学生モデルは、470億のパラメータを持つ(tran et al., 2021)大きな翻訳モデルと同等の精度を実現しています。 We propose utilizing n-best reranking to enhance the Sequence-Level Knowledge Distillation (Kim and Rush, 2016) where we explore hypotheses beyond the top-1 to acquire more accurate pseudo-labels. To accomplish this, we leverage a diverse set of models with different inductive biases, objective functions or architectures, including publicly-available large pretrained models. The effectiveness of our proposal is validated through experiments on the WMT'21 German-English and Chinese-English translation tasks. Our results demonstrate that utilizing the pseudo-labels generated by our n-best reranker leads to a significantly more accurate student model. In fact, our best student model achieves comparable accuracy to a large translation model from (Tran et al., 2021) with 4.7 billion parameters, while having two orders of magnitude fewer parameters. | 翻訳日:2023-11-16 20:38:40 公開日:2023-11-14 |
# 高速カロリーメータシミュレーションのための幾何学的自己回帰モデル(GAAM)による新しいジオメトリへの一般化 Generalizing to new geometries with Geometry-Aware Autoregressive Models (GAAMs) for fast calorimeter simulation ( http://arxiv.org/abs/2305.11531v5 ) ライセンス: Link先を確認 | Junze Liu, Aishik Ghosh, Dylan Smith, Pierre Baldi, Daniel Whiteson | (参考訳) 衝突生成物に対するシミュレート検出器の応答は素粒子物理学のデータ解析に不可欠であるが、計算量は非常に高価である。
1つのサブ検出器であるカロリメータは、細胞の粒度が高く、相互作用の複雑さのために計算時間を支配している。
生成モデルは、より迅速なサンプル生産を提供することができるが、現在、特定の検出器ジオメトリのパフォーマンスを最適化するためにかなりの労力を必要としており、しばしば、他のジオメトリに一般化することなく、様々なセルサイズや配置を記述するために多くのモデルが必要となる。
我々は,温度計の応答が幾何によってどう変化するかを学習し,余分なトレーニングを伴わずに未知の測地に対するシミュレーション応答を生成できる,$\textit{geometry-aware}$ autoregressive modelを開発した。
幾何認識モデルは、生成したワッサーシュタイン距離や、シミュレーションされた応答を要約する鍵量の真の分布といったいくつかの指標において、ベースライン無意識モデルよりも50\%以上優れている。
1つの幾何学的認識モデルは、大型ハドロン衝突型加速器で収集されたデータを分析する物理学者によって、現在カロリーメーターシミュレーション用に設計された数百の生成モデルを置き換えることができる。
この概念実証研究は、将来の検出器の研究に不可欠な道具となる基礎モデルの設計を動機付け、通常生成熱量計モデルを開発するのに必要な大規模な事前投資を劇的に削減する。 Generation of simulated detector response to collision products is crucial to data analysis in particle physics, but computationally very expensive. One subdetector, the calorimeter, dominates the computational time due to the high granularity of its cells and complexity of the interactions. Generative models can provide more rapid sample production, but currently require significant effort to optimize performance for specific detector geometries, often requiring many models to describe the varying cell sizes and arrangements, without the ability to generalize to other geometries. We develop a $\textit{geometry-aware}$ autoregressive model, which learns how the calorimeter response varies with geometry, and is capable of generating simulated responses to unseen geometries without additional training. The geometry-aware model outperforms a baseline unaware model by over $50\%$ in several metrics such as the Wasserstein distance between the generated and the true distributions of key quantities which summarize the simulated response. A single geometry-aware model could replace the hundreds of generative models currently designed for calorimeter simulation by physicists analyzing data collected at the Large Hadron Collider. This proof-of-concept study motivates the design of a foundational model that will be a crucial tool for the study of future detectors, dramatically reducing the large upfront investment usually needed to develop generative calorimeter models. | 翻訳日:2023-11-16 20:38:23 公開日:2023-11-14 |
# 境界状態散乱の量子シミュレーションに向けて Towards Quantum Simulation of Bound States Scattering ( http://arxiv.org/abs/2305.07692v2 ) ライセンス: Link先を確認 | Matteo Turco, Gon\c{c}alo M. Quinta, Jo\~ao Seixas, Yasser Omar | (参考訳) ここ数年、量子計算の量子場理論への応用が急速に発展してきた。
散乱の量子シミュレーションのための最初のアルゴリズムは、数千の論理量子ビットを必要とするスカラー理論とフェルミオン理論の文脈で提案されている。
これらのアルゴリズムは入射境界状態の散乱をシミュレートするには不適であり、初期状態の準備は典型的には自由理論の断熱的に自由理論の波束を相互作用理論の波束に変換することに依拠する。
本稿では、相互作用理論の真空から直接相互作用理論のウェーブパレットを励起し、複合粒子の状態を作るための戦略を提案する。
これは境界状態の散乱のデジタル量子シミュレーションへの第一歩である。
このアプローチは、完全な非摂動的枠組みで理論の生成と消滅作用素を構築する方法を提供するハーグ=ルエル散乱理論に基づいている。
ウェーブパックのサイズで対数であり、準備されている状態や格子パラメータに依存する成功確率を持つ数個のアンシラリー量子ビットを必要とする量子アルゴリズムを提供する。
回路の単一イテレーションのゲート複雑性は、一定時間における時間進化のゲート複雑性と同値である。 The last years have seen a rapid development of applications of quantum computation to quantum field theory. The first algorithms for quantum simulation of scattering have been proposed in the context of scalar and fermionic theories, requiring thousands of logical qubits. These algorithms are not suitable to simulate scattering of incoming bound states, as the initial state preparation relies typically on adiabatically transforming wavepackets of the free theory into wavepackets of the interacting theory. In this paper we present a strategy to excite wavepackets of the interacting theory directly from the vacuum of the interacting theory, allowing for preparation of states of composite particles. This is the first step towards digital quantum simulation of scattering of bound states. The approach is based on the Haag-Ruelle scattering theory, which provides a way to construct creation and annihilation operators of a theory in a full, nonperturbative framework. We provide a quantum algorithm requiring a number of ancillary qubits that is logarithmic in the size of the wavepackets, and with a success probability depending on the state being prepared and on the lattice parameters. The gate complexity for a single iteration of the circuit is equivalent to that of a time evolution for a fixed time. | 翻訳日:2023-11-16 20:36:56 公開日:2023-11-14 |
# MiniSUPERB:自己教師型音声モデルの軽量ベンチマーク MiniSUPERB: Lightweight Benchmark for Self-supervised Speech Models ( http://arxiv.org/abs/2305.19011v3 ) ライセンス: Link先を確認 | Yu-Hsiang Wang, Huang-Yu Chen, Kai-Wei Chang, Winston Hsu, Hung-yi Lee | (参考訳) 自己教師付き学習(SSL)音声モデルの汎用性を評価するために,SUPERBを提案する。
しかし、大きなデータセットと多様なタスクのために高い計算コストが発生する。
本稿では,超高速だが計算コストは著しく低いssl音声モデルを効率的に評価する軽量ベンチマークであるminisuperbを提案する。
代表タスク、サンプルデータセットを慎重に選択し、オフラインでモデル表現を抽出する。
提案手法は, SUPERB Paper と SUPERB Challenge でそれぞれ 0.954 と 0.982 のSpearman のランク相関を達成している。
さらに,乗算積演算(MAC)の計算コストを97%削減する。
さらに,SSL音声モデルを数ショットのシナリオで評価し,その性能に有意な変動を観測する。
我々の知る限り、これはモデル自体の計算コストとベンチマークで評価するコストの両方を調査する最初の研究である。 SUPERB was proposed to evaluate the generalizability of self-supervised learning (SSL) speech models across various tasks. However, it incurs high computational costs due to the large datasets and diverse tasks. In this paper, we introduce MiniSUPERB, a lightweight benchmark that efficiently evaluates SSL speech models with comparable results to SUPERB but lower computational costs significantly. We carefully select representative tasks, sample datasets, and extract model representations offline. Our approach achieves a Spearman's rank correlation of 0.954 and 0.982 with SUPERB Paper and SUPERB Challenge, respectively. Additionally, we reduce the computational cost by 97% in terms of Multiply-ACcumulate operations (MACs). Furthermore, we evaluate SSL speech models in few-shot scenarios and observe significant variations in their performance. To our knowledge, this is the first study to examine both the computational cost of the model itself and the cost of evaluating it on a benchmark. | 翻訳日:2023-11-16 20:27:11 公開日:2023-11-14 |
# 予測合意による協調学習 Collaborative Learning via Prediction Consensus ( http://arxiv.org/abs/2305.18497v3 ) ライセンス: Link先を確認 | Dongyang Fan, Celestine Mendler-D\"unner, Martin Jaggi | (参考訳) 我々は,各エージェントの目標が,自己のトレーニングデータに加えて,協力者の専門知識を活用し,自身のモデルを改善することにある,協調学習環境を考える。
エージェント間の専門知識の交換を容易にするために,集合体による擬似ラベルの共有非ラベル補助データを利用した蒸留法を提案する。
提案手法の中心となるのは,補助データのラベル付け方法が合意に達するまで,各協力者が擬似ラベルに与える影響を適応的に評価する信頼重み付け方式である。
我々は,補助データがサンプリングされた対象領域において,個々のモデルの性能を著しく向上させることができることを実証的に示す。
設計上,本手法はモデルアーキテクチャの不均一性に適応し,典型的な協調学習法に比べて通信オーバーヘッドを大幅に低減する。
同時に、悪いモデルが集団に与える影響を確実に軽減することができる。 We consider a collaborative learning setting where the goal of each agent is to improve their own model by leveraging the expertise of collaborators, in addition to their own training data. To facilitate the exchange of expertise among agents, we propose a distillation-based method leveraging shared unlabeled auxiliary data, which is pseudo-labeled by the collective. Central to our method is a trust weighting scheme that serves to adaptively weigh the influence of each collaborator on the pseudo-labels until a consensus on how to label the auxiliary data is reached. We demonstrate empirically that our collaboration scheme is able to significantly boost the performance of individual models in the target domain from which the auxiliary data is sampled. By design, our method adeptly accommodates heterogeneity in model architectures and substantially reduces communication overhead compared to typical collaborative learning methods. At the same time, it can provably mitigate the negative impact of bad models on the collective. | 翻訳日:2023-11-16 20:26:57 公開日:2023-11-14 |
# 知識ベースプランニングのためのカテゴリー表現言語と計算システム A Categorical Representation Language and Computational System for Knowledge-Based Planning ( http://arxiv.org/abs/2305.17208v2 ) ライセンス: Link先を確認 | Angeline Aguinaldo, Evan Patterson, James Fairbanks, William Regli, Jaime Ruiz | (参考訳) 一階述語論理に基づく古典的計画表現言語は、ロボットタスク計画問題のモデル化と解決に予備的に用いられてきた。
しかし、これらの表現言語の広範な採用は、簡潔なアクションモデルで暗黙の世界の変化を管理する際の制限によって妨げられている。
この問題に対処するため,計画中の世界国家の更新を表現・管理するための代替手法を提案する。
提案した表現は、$\mathsf{C}$-sets と double-pushout rewriting (DPO) のカテゴリー論的概念に基づいて、あらゆるレベルでドメイン抽象化をサポートする世界状態に関する構造化知識を効果的に扱うことができる。
ユーザが提供するオントロジーに従って述語の意味を形式化し、世界状態間の遷移時に意味を保存する。
この方法は、知識グラフと関係データベースを使用して世界状態や計画の更新をモデル化するための形式的な意味論を提供する。
本稿では,カテゴリ理論表現と古典的計画表現を概念的に比較する。
提案する表現は,暗黙の前提条件や効果を扱うという点で,従来の表現よりも優れていることを示し,計画問題をモデル化し,解決するためのより構造化されたフレームワークを提供する。 Classical planning representation languages based on first-order logic have preliminarily been used to model and solve robotic task planning problems. Wider adoption of these representation languages, however, is hindered by the limitations present when managing implicit world changes with concise action models. To address this problem, we propose an alternative approach to representing and managing updates to world states during planning. Based on the category-theoretic concepts of $\mathsf{C}$-sets and double-pushout rewriting (DPO), our proposed representation can effectively handle structured knowledge about world states that support domain abstractions at all levels. It formalizes the semantics of predicates according to a user-provided ontology and preserves the semantics when transitioning between world states. This method provides a formal semantics for using knowledge graphs and relational databases to model world states and updates in planning. In this paper, we conceptually compare our category-theoretic representation with the classical planning representation. We show that our proposed representation has advantages over the classical representation in terms of handling implicit preconditions and effects, and provides a more structured framework in which to model and solve planning problems. | 翻訳日:2023-11-16 20:26:43 公開日:2023-11-14 |
# ソーシャルメディアにおける多次元政治的傾向の検出 Detecting Multidimensional Political Incivility on Social Media ( http://arxiv.org/abs/2305.14964v2 ) ライセンス: Link先を確認 | Sagi Pendzel, Nir Lotan, Alon Zoizner, Einat Minkov | (参考訳) ソーシャルメディアの台頭は、悪質で敵対的なオンライン政治談話の激化を論じている。
しかし、これまでのところ、政治分野における公民権の意味については明確さが欠如している。
本研究は,政治科学とコミュニケーションの分野で発達した多次元的政治的公民権観を利用して,不名誉と政治的不寛容を区別する。
本稿では,13Kの政治ツイートを収集・注釈した大規模データセットを用いて,最先端の市民検出結果を示す。
大規模に政治インキビティ検出を適用することで,政治インキビティがユーザに対する非常に歪んだ分布を示すことを観察し,サブポピュレーションやユーザレベルでのインキビティと相関する社会的要因について検討した。
最後に,ツイート内容と並行して,ツイート著者の社会的文脈情報をモデル化する手法を提案する。
後者の結果は、一般に社会的にインフォームドされたテキスト処理の可能性を秘めていると信じている。 The rise of social media has been argued to intensify uncivil and hostile online political discourse. Yet, to date, there is a lack of clarity on what incivility means in the political sphere. In this work, we utilize a multidimensional perspective of political incivility, developed in the fields of political science and communication, that differentiates between impoliteness and political intolerance. We present state-of-the-art incivility detection results using a large dataset of 13K political tweets, collected and annotated per this distinction. Applying political incivility detection at large-scale, we observe that political incivility demonstrates a highly skewed distribution over users, and examine social factors that correlate with incivility at subpopulation and user-level. Finally, we propose an approach for modeling social context information about the tweet author alongside the tweet content, showing that this leads to improved performance on the task of political incivility detection. We believe that this latter result holds promise for socially-informed text processing in general. | 翻訳日:2023-11-16 20:26:05 公開日:2023-11-14 |
# 評価できないことを評価する: 生成応答に対する評価不可能な品質 Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response ( http://arxiv.org/abs/2305.14658v2 ) ライセンス: Link先を確認 | Yongkang Liu and Shi Feng and Daling Wang and Yifei Zhang and Hinrich Sch\"utze | (参考訳) ChatGPTのようなLLM(大規模言語モデル)は、顕著な言語理解と生成能力を示している。
LLMに基づく参照フリー評価器は、従来の参照ベース評価器よりも優れた人間のアライメントを示すが、LLMに基づく参照フリー評価器を使用するには多くの課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
しかし、すべての例がオープンエンドであるわけではない。
ユニークな正しいセマンティック応答を持つクローズドエンド例の場合、参照のない評価者は、事実や参照の意味と矛盾する応答を与える際にも高い品質を考慮します。
LLM に基づく評価器の信頼性を総合的に評価するために,KdConv-ADV と DSTC7-ADV の2つの対向メタ評価対話生成データセットを構築した。
これまでのメタ評価ベンチマークと比べて、kdconv-advとdstc7-advは、外部の知識やそれ自身の知識の助けを借りて、限定されたサンプルを適切に評価する必要があるため、はるかに難しい。
実験の結果,LLMが不適切な応答を識別する能力は不十分であることが示唆された。
対話応答の質を評価するために LLM に基づく推論不要評価器を使用するリスクがある。 LLMs (large language models) such as ChatGPT have shown remarkable language understanding and generation capabilities. Although reference-free evaluators based on LLMs show better human alignment than traditional reference-based evaluators, there are many challenges in using reference-free evaluators based on LLMs. Reference-free evaluators are more suitable for open-ended examples with different semantics responses. But not all examples are open-ended. For closed-ended examples with unique correct semantic response, reference-free evaluators will still consider it high quality when giving a response that is inconsistent with the facts and the semantic of reference. In order to comprehensively evaluate the reliability of evaluators based on LLMs, we construct two adversarial meta-evaluation dialogue generation datasets KdConv-ADV and DSTC7-ADV based on KdConv and DSTC7-AVSD, respectively. Compared to previous meta-evaluation benchmarks, KdConv-ADV and DSTC7-ADV are much more challenging since they requires evaluators to be able to reasonably evaluate closed-ended examples with the help of external knowledge or even its own knowledge. Empirical results show that the ability of LLMs to identify unreasonable responses is insufficient. There are risks in using eference-free evaluators based on LLMs to evaluate the quality of dialogue responses. | 翻訳日:2023-11-16 20:25:46 公開日:2023-11-14 |
# ManimML: アニメーションによる機械学習アーキテクチャのコミュニケーション ManimML: Communicating Machine Learning Architectures with Animation ( http://arxiv.org/abs/2306.17108v3 ) ライセンス: Link先を確認 | Alec Helbling and Duen Horng Chau | (参考訳) 近年、機械学習(ML)への関心が爆発的に高まっている。
しかし、ML技術が進歩するにつれて、新しいMLアルゴリズムの説明と視覚化ツールが遅れている。
アニメーションは、時間とともに動的に変化するシステムのエンゲージメントな視覚化を実現する強力なツールであることが示されており、MLアルゴリズムの通信タスクに適している。
しかし、MLアルゴリズムをアニメーションする現在のアプローチは、特定のアルゴリズムをハイライトするアプリケーションや複雑な一般化されたアニメーションソフトウェアを使用するハンドクラフトである。
我々は,コードから直接MLアルゴリズムのアニメーションを生成するオープンソースPythonライブラリManimMLを開発した。
我々は,複雑なアニメーションソフトウェアを学習するよりも,ML実践者の既存のプログラミング知識を活用することを試みた。
ManimMLには、Pytorchのような人気のあるディープラーニングフレームワークを模倣するニューラルネットワークを指定するための、よく知られた構文がある。
ユーザは、既存のニューラルネットワークアーキテクチャを使用して、manimmlでアニメーションの仕様を簡単に記述することができ、システムのさまざまなコンポーネントのアニメーションをニューラルネットワーク全体の最終的なアニメーションに自動生成する。
ManimMLはオープンソースでhttps://github.com/helblazer811/ManimMLで入手できる。 There has been an explosion in interest in machine learning (ML) in recent years due to its applications to science and engineering. However, as ML techniques have advanced, tools for explaining and visualizing novel ML algorithms have lagged behind. Animation has been shown to be a powerful tool for making engaging visualizations of systems that dynamically change over time, which makes it well suited to the task of communicating ML algorithms. However, the current approach to animating ML algorithms is to handcraft applications that highlight specific algorithms or use complex generalized animation software. We developed ManimML, an open-source Python library for easily generating animations of ML algorithms directly from code. We sought to leverage ML practitioners' preexisting knowledge of programming rather than requiring them to learn complex animation software. ManimML has a familiar syntax for specifying neural networks that mimics popular deep learning frameworks like Pytorch. A user can take a preexisting neural network architecture and easily write a specification for an animation in ManimML, which will then automatically compose animations for different components of the system into a final animation of the entire neural network. ManimML is open source and available at https://github.com/helblazer811/ManimML. | 翻訳日:2023-11-16 20:14:03 公開日:2023-11-14 |
# AdCraft: 検索エンジンマーケティング最適化のための高度な強化学習ベンチマーク環境 AdCraft: An Advanced Reinforcement Learning Benchmark Environment for Search Engine Marketing Optimization ( http://arxiv.org/abs/2306.11971v3 ) ライセンス: Link先を確認 | Maziar Gomrokchi, Owen Levin, Jeffrey Roach, Jonah White | (参考訳) 本稿では,その確率的および非定常的特性を特徴とする強化学習(rl)コミュニティのための新しいベンチマーク環境adcraftを紹介する。
この環境は、検索エンジンの検索結果ページ(serps)上のウェブサイトの可視性を高めるために有料広告を利用するデジタルマーケティング技術である検索エンジンマーケティング(sem)における入札と予算のダイナミクスをシミュレートする。
SEM広告キャンペーンのパフォーマンスは、キーワード選択、広告デザイン、入札管理、予算調整、パフォーマンス監視など、いくつかの要因に依存する。
deep rlは最近、semの複雑でダイナミックな状況の中で、キャンペーンの収益性を最適化するための潜在的な戦略として登場したが、実際に取得するには、かなりのデータを必要とする。
当社のカスタマイズ可能な環境は,SEM入札や予算管理に係わるRLアルゴリズムの堅牢性を,そのようなコストを伴わずに評価・強化することができる。
環境における一連の実験を通じて,エージェントの収束と非定常性によるパフォーマンスに課される課題を実証する。
これらの課題は、現実世界の不確実性を管理する効果的な戦略に関する議論と開発をさらに促進することを願っている。 We introduce AdCraft, a novel benchmark environment for the Reinforcement Learning (RL) community distinguished by its stochastic and non-stationary properties. The environment simulates bidding and budgeting dynamics within Search Engine Marketing (SEM), a digital marketing technique utilizing paid advertising to enhance the visibility of websites on search engine results pages (SERPs). The performance of SEM advertisement campaigns depends on several factors, including keyword selection, ad design, bid management, budget adjustments, and performance monitoring. Deep RL recently emerged as a potential strategy to optimize campaign profitability within the complex and dynamic landscape of SEM, but it requires substantial data, which may be costly or infeasible to acquire in practice. Our customizable environment enables practitioners to assess and enhance the robustness of RL algorithms pertinent to SEM bid and budget management without such costs. Through a series of experiments within the environment, we demonstrate the challenges imposed on agent convergence and performance by sparsity and non-stationarity. We hope these challenges further encourage discourse and development around effective strategies for managing real-world uncertainties. | 翻訳日:2023-11-16 20:12:32 公開日:2023-11-14 |
# 可逆潜在因果モデルに対する領域逆事象の特徴付けに向けて Towards Characterizing Domain Counterfactuals For Invertible Latent Causal Models ( http://arxiv.org/abs/2306.11281v2 ) ライセンス: Link先を確認 | Zeyu Zhou, Ruqi Bai, Sean Kulinski, Murat Kocaoglu, David I. Inouye | (参考訳) 反事実クエリへの応答には、知識発見や説明可能性など、多くの重要な応用があるが、因果変数が観測されない場合、観察空間、例えば画像ピクセルにのみ投影される場合、困難である。
一つのアプローチは潜在構造因果モデル(SCM)の復元であるが、通常は因果機構の線形性のような非現実的な仮定を必要とする。
別のアプローチとして、生成モデルのようなna\"ive ml近似を使って偽のサンプルを生成する方法があるが、これらは精度の保証を欠いている。
本研究では,異なる領域(あるいは環境)で生成された場合,サンプルがどのようなものであったかを仮定した,ドメイン反事実と呼ばれる特定の因果クエリに注目することで,実用性と理論的保証のバランスを取ることに努める。
具体的には, 可逆性, スパース領域干渉, 異なる領域からの観測データへのアクセスのみを仮定することで, 理論上, 実質的に制限の少ない仮定で, ドメイン反事実推定を改善することを目的とする。
ドメイン対実同値モデルを定義し、ドメイン対実同値クラスを厳密に特徴づける等価モデルに必要な十分な性質を証明した。
この結果に基づいて、すべての同値類が、因果DAGによって位相的にソートされたとき、すべての介入変数が終端にあるモデルを含むことを示す。
この驚くべき結果は、最後の$k$の潜在変数にのみ介入できるモデル設計が、偽物に対するモデル推定を改善することを示唆している。
次に、このモデル設計を広範に模擬および画像に基づく実験で検証し、スパース標準モデルがベースライン非スパースモデルよりも事実推定を改善することを示す。 Answering counterfactual queries has many important applications such as knowledge discovery and explainability, but is challenging when causal variables are unobserved and we only see a projection onto an observation space, for instance, image pixels. One approach is to recover the latent Structural Causal Model (SCM), but this typically needs unrealistic assumptions, such as linearity of the causal mechanisms. Another approach is to use na\"ive ML approximations, such as generative models, to generate counterfactual samples; however, these lack guarantees of accuracy. In this work, we strive to strike a balance between practicality and theoretical guarantees by focusing on a specific type of causal query called domain counterfactuals, which hypothesizes what a sample would have looked like if it had been generated in a different domain (or environment). Concretely, by only assuming invertibility, sparse domain interventions and access to observational data from different domains, we aim to improve domain counterfactual estimation both theoretically and practically with less restrictive assumptions. We define domain counterfactually equivalent models and prove necessary and sufficient properties for equivalent models that provide a tight characterization of the domain counterfactual equivalence classes. Building upon this result, we prove that every equivalence class contains a model where all intervened variables are at the end when topologically sorted by the causal DAG. This surprising result suggests that a model design that only allows intervention in the last $k$ latent variables may improve model estimation for counterfactuals. We then test this model design on extensive simulated and image-based experiments which show the sparse canonical model indeed improves counterfactual estimation over baseline non-sparse models. | 翻訳日:2023-11-16 20:12:15 公開日:2023-11-14 |
# $FastDoc$: ドキュメントレベルメタデータと分類を用いたドメイン特有な高速事前トレーニング技術 $FastDoc$: Domain-Specific Fast Pre-training Technique using Document-Level Metadata and Taxonomy ( http://arxiv.org/abs/2306.06190v2 ) ライセンス: Link先を確認 | Abhilash Nandy, Manav Nitin Kapadnis, Sohan Patnaik, Yash Parag Butala, Pawan Goyal, Niloy Ganguly | (参考訳) 高度な自然言語処理(NLP)モデルの需要が拡大するにつれ、効率的な事前学習技術の必要性も高まっている。
現在のNLPモデルはリソース集約型事前学習を行っている。
これに対し、計算要求を大幅に削減する新しいアプローチである$FastDoc$(Document-Level MetadataとTaxonomyを用いたFast Pre-training Technique)を導入する。
$FastDoc$は、ドキュメントメタデータとドメイン固有の分類を監視信号として利用する。
文レベルの埋め込みを用いたオープンドメイントランスフォーマーエンコーダの継続的な事前トレーニングと、トークンレベルの埋め込みによる微調整を含む。
3つの異なるドメインにまたがる9つのデータセットにわたる6つのタスクに対して$FastDoc$を評価する。
驚くべきことに、$fastdoc$は、顧客サポート、科学、法的なドメインにおける競争的アプローチと比較して、約1000倍、4500倍、500倍という驚くべき計算量削減を達成している。
重要なことは、これらの効率向上は、競争ベースラインと比較してパフォーマンスを損なうことはない。
さらに、事前トレーニングデータの削減は破滅的な忘れを緩和し、オープンドメインシナリオにおける一貫したパフォーマンスを確保する。
$FastDoc$は、リソース効率の良い事前トレーニングのための有望なソリューションを提供する。 As the demand for sophisticated Natural Language Processing (NLP) models continues to grow, so does the need for efficient pre-training techniques. Current NLP models undergo resource-intensive pre-training. In response, we introduce $FastDoc$ (Fast Pre-training Technique using Document-Level Metadata and Taxonomy), a novel approach designed to significantly reduce computational demands. $FastDoc$ leverages document metadata and domain-specific taxonomy as supervision signals. It involves continual pre-training of an open-domain transformer encoder using sentence-level embeddings, followed by fine-tuning using token-level embeddings. We evaluate $FastDoc$ on six tasks across nine datasets spanning three distinct domains. Remarkably, $FastDoc$ achieves remarkable compute reductions of approximately 1,000x, 4,500x, 500x compared to competitive approaches in Customer Support, Scientific, and Legal domains, respectively. Importantly, these efficiency gains do not compromise performance relative to competitive baselines. Furthermore, reduced pre-training data mitigates catastrophic forgetting, ensuring consistent performance in open-domain scenarios. $FastDoc$ offers a promising solution for resource-efficient pre-training, with potential applications spanning various domains. | 翻訳日:2023-11-16 20:10:58 公開日:2023-11-14 |
# RLtools: 継続的制御のための高速でポータブルなディープ強化学習ライブラリ RLtools: A Fast, Portable Deep Reinforcement Learning Library for Continuous Control ( http://arxiv.org/abs/2306.03530v2 ) ライセンス: Link先を確認 | Jonas Eschmann, Dario Albani, Giuseppe Loianno | (参考訳) 深層強化学習(Deep Reinforcement Learning, RL)は、いくつかのドメインで有能なエージェントとコントロールポリシーを付与することが実証されているが、一般的には、非常に長い訓練時間によって悩まされている。
さらに、継続的制御問題の場合、既存のディープラーニングライブラリのリアルタイム保証やポータビリティの欠如により、実世界の組み込みデバイスに対する学習ポリシーの適用性が制限される。
これらの課題に対処するため、我々は依存性のない、ヘッダのみの純粋なC++ライブラリであるRLtoolsを紹介した。
最近のc++標準のテンプレートメタプログラミング機能を活用することで、コンパイラによって強く統合できる構成可能なコンポーネントを提供します。
その新しいアーキテクチャは、ワークステーションやラップトップ上のHPCクラスタからスマートフォン、スマートウォッチ、マイクロコントローラに至るまで、RLtoolを多種多様なプラットフォーム上でシームレスに使用できる。
具体的には、シミュレーション環境とのRLアルゴリズムの密接な統合により、RLtoolsは、TD3を使用する場合の他の一般的なRLフレームワークと比較して、ウォールクロックトレーニング時間の約7~15倍の速度でPendulum-v1のスウィングアップのような一般的なRL問題を解決することができる。
また,MuJoCoシミュレータの低オーバヘッド・並列化インタフェースを提供し,PPO実装がAnt-v4環境におけるアートリターンの状態を達成し,ウォールクロックのトレーニング時間において25%~30%高速であることを示す。
最後に、様々なマイクロコントローラのポリシー推論をベンチマークし、ほとんどの場合、最適化された推論実装はメーカーのDSPライブラリよりもはるかに高速であることを示す。
我々の知る限り、RLtoolsはマイクロコントローラ上でディープRLアルゴリズムを直接トレーニングする最初のデモンストレーションを可能にし、TinyRLの分野を生み出します。
ソースコードは、https://rl.tools.orgのプロジェクトページから入手できます。 Deep Reinforcement Learning (RL) has been demonstrated to yield capable agents and control policies in several domains but is commonly plagued by prohibitively long training times. Additionally, in the case of continuous control problems, the applicability of learned policies on real-world embedded devices is limited due to the lack of real-time guarantees and portability of existing deep learning libraries. To address these challenges, we present RLtools, a dependency-free, header-only, pure C++ library for deep supervised and reinforcement learning. Leveraging the template meta-programming capabilities of recent C++ standards, we provide composable components that can be tightly integrated by the compiler. Its novel architecture allows RLtools to be used seamlessly on a heterogeneous set of platforms, from HPC clusters over workstations and laptops to smartphones, smartwatches, and microcontrollers. Specifically, due to the tight integration of the RL algorithms with simulation environments, RLtools can solve popular RL problems like the Pendulum-v1 swing-up about 7 to 15 times faster in terms of wall-clock training time compared to other popular RL frameworks when using TD3. We also provide a low-overhead and parallelized interface to the MuJoCo simulator, showing that our PPO implementation achieves state of the art returns in the Ant-v4 environment while being 25%-30% faster in terms of wall-clock training time. Finally, we also benchmark the policy inference on a diverse set of microcontrollers and show that in most cases our optimized inference implementation is much faster than even the manufacturer's DSP libraries. To the best of our knowledge, RLtools enables the first-ever demonstration of training a deep RL algorithm directly on a microcontroller, giving rise to the field of TinyRL. The source code is available through our project page at https://rl.tools. | 翻訳日:2023-11-16 20:10:39 公開日:2023-11-14 |
# 畳み込みは激しくなる: シングル冷凍畳み込みCLIPによるオープンボキャブラリセグメンテーション Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP ( http://arxiv.org/abs/2308.02487v2 ) ライセンス: Link先を確認 | Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen | (参考訳) オープン語彙のセグメンテーションは、オープンなカテゴリからオブジェクトのセグメンテーションと認識を必要とする難しいタスクである。
この課題に対処する1つの方法は、クリップのようなマルチモーダルモデルを利用して、クローズドボキャブラリーとオープンボキャブラリー認識のギャップを埋める共有埋め込み空間に画像とテキストの機能を提供することである。
したがって、既存の手法では、2段階の枠組みを採用して問題に対処し、入力はまずマスクジェネレータを通り、次に予測されたマスクと共にクリップモデルを通過する。
このプロセスでは、画像から複数の特徴を抽出するが、これは非効率で非効率である。
対照的に、私たちは共有のFrozen Convolutional CLIPバックボーンを使用して、すべてのものを単一ステージフレームワークに組み込むことを提案しています。
凍結したCLIPバックボーンは、オープンボキャブラリ分類の能力を維持し、強力なマスクジェネレータとしても機能し、畳み込みCLIPは、コントラスト的な画像テキスト事前訓練で使用されるものよりも大きな入力解像度によく一般化する。
FC-CLIPは、COCO汎視データのみをゼロショットでトレーニングしテストする場合、ADE20Kで26.8 PQ、16.8 AP、34.1 mIoU、ADE20Kで18.2 PQ、27.9 mIoU、Mapillary Vistasで44.0 PQ、26.8 AP、56.2 mIoU、Cityscapesで+4.2 PQ、+2.4 AP、+4.2 mIoU、Mapillary Vistasで+4.0 PQ、Cityscapesで+20.1 PQを達成した。
さらに、FC-CLIPのトレーニングとテスト時間は7.5倍と6.6倍であり、パラメータは5.9倍少ない。
FC-CLIPはまた、様々なオープン語彙セマンティックセグメンテーションデータセットに対して、最先端のパフォーマンスを新たに設定する。
https://github.com/bytedance/fc-clip Open-vocabulary segmentation is a challenging task requiring segmenting and recognizing objects from an open set of categories. One way to address this challenge is to leverage multi-modal models, such as CLIP, to provide image and text features in a shared embedding space, which bridges the gap between closed-vocabulary and open-vocabulary recognition. Hence, existing methods often adopt a two-stage framework to tackle the problem, where the inputs first go through a mask generator and then through the CLIP model along with the predicted masks. This process involves extracting features from images multiple times, which can be ineffective and inefficient. By contrast, we propose to build everything into a single-stage framework using a shared Frozen Convolutional CLIP backbone, which not only significantly simplifies the current two-stage pipeline, but also remarkably yields a better accuracy-cost trade-off. The proposed FC-CLIP, benefits from the following observations: the frozen CLIP backbone maintains the ability of open-vocabulary classification and can also serve as a strong mask generator, and the convolutional CLIP generalizes well to a larger input resolution than the one used during contrastive image-text pretraining. When training on COCO panoptic data only and testing in a zero-shot manner, FC-CLIP achieve 26.8 PQ, 16.8 AP, and 34.1 mIoU on ADE20K, 18.2 PQ, 27.9 mIoU on Mapillary Vistas, 44.0 PQ, 26.8 AP, 56.2 mIoU on Cityscapes, outperforming the prior art by +4.2 PQ, +2.4 AP, +4.2 mIoU on ADE20K, +4.0 PQ on Mapillary Vistas and +20.1 PQ on Cityscapes, respectively. Additionally, the training and testing time of FC-CLIP is 7.5x and 6.6x significantly faster than the same prior art, while using 5.9x fewer parameters. FC-CLIP also sets a new state-of-the-art performance across various open-vocabulary semantic segmentation datasets. Code at https://github.com/bytedance/fc-clip | 翻訳日:2023-11-16 20:02:37 公開日:2023-11-14 |
# 限定領域モデリングのためのグラフに基づくニューラル気象予測 Graph-based Neural Weather Prediction for Limited Area Modeling ( http://arxiv.org/abs/2309.17370v2 ) ライセンス: Link先を確認 | Joel Oskarsson, Tomas Landelius, Fredrik Lindsten | (参考訳) 気象予報のための正確な機械学習手法の台頭は、大気をモデリングするための根本的に新しい可能性を生み出している。
気候変動の時代には、このようなモデルによる高解像度予測へのアクセスもますます重要になっている。
既存のニューラル気象予測(NeurWP)手法は、大域的予測に重点を置いているが、これらの手法が限られた領域モデリングにどのように適用できるかが重要な疑問である。
本研究では,グラフベースのNeurWPアプローチを限定領域設定に適用し,マルチスケール階層モデル拡張を提案する。
本手法は北欧地域の局所モデルを用いた実験により検証された。 The rise of accurate machine learning methods for weather forecasting is creating radical new possibilities for modeling the atmosphere. In the time of climate change, having access to high-resolution forecasts from models like these is also becoming increasingly vital. While most existing Neural Weather Prediction (NeurWP) methods focus on global forecasting, an important question is how these techniques can be applied to limited area modeling. In this work we adapt the graph-based NeurWP approach to the limited area setting and propose a multi-scale hierarchical model extension. Our approach is validated by experiments with a local model for the Nordic region. | 翻訳日:2023-11-16 19:49:33 公開日:2023-11-14 |
# CTスキャンの深層学習分類は公正かつ解釈可能か? Are Deep Learning Classification Results Obtained on CT Scans Fair and Interpretable? ( http://arxiv.org/abs/2309.12632v2 ) ライセンス: Link先を確認 | Mohamad M.A. Ashames, Ahmet Demir, Omer N. Gerek, Mehmet Fidan, M. Bilginer Gulmezoglu, Semih Ergin, Mehmet Koc, Atalay Barkana, Cuneyt Calisir | (参考訳) 画像と物体の分類における様々な深層学習法の成功に続いて、バイオメディカル画像処理学会も様々な自動診断への応用に圧倒されている。
残念ながら、この文献における深層学習に基づく分類の試みのほとんどは、解釈可能性や患者によるトレーニングとテストデータの分離を考慮せずに、極端な精度スコアの目的のみに焦点を当てている。
例えば、ディープラーニングを用いたほとんどの肺結節分類論文は、ランダムにシャッフルしたデータをトレーニング、検証、テストセットに分割し、ある人のCTスキャンからある画像がトレーニングセットに含まれ、同じ人の他の画像が検証またはテストイメージセットに含まれている。
これは誤った精度と無関係な特徴の学習を報告し、最終的にこれらのモデルの現実のユーザビリティを低下させる。
従来の不公平なデータシャッフル法で訓練されたディープニューラルネットワークに新たな患者画像が提示された場合、トレーニングされたモデルの性能が低下することが観察される。
対照的に、厳格な患者レベルの分離で訓練されたディープニューラルネットワークは、新しい患者画像がテストされた場合でも精度を維持する。
厳密な患者レベルの分離で訓練されたディープニューラルネットワークの活性化のヒートマップの可視化は、関連する結節に対する集中度が高いことを示している。
本研究は,深層ニューラルネットワークが患者セットの検証と検査から厳格に隔離された患者の画像で訓練されている場合にのみ,本題の課題が肯定的な答えとなることを論じる。 Following the great success of various deep learning methods in image and object classification, the biomedical image processing society is also overwhelmed with their applications to various automatic diagnosis cases. Unfortunately, most of the deep learning-based classification attempts in the literature solely focus on the aim of extreme accuracy scores, without considering interpretability, or patient-wise separation of training and test data. For example, most lung nodule classification papers using deep learning randomly shuffle data and split it into training, validation, and test sets, causing certain images from the CT scan of a person to be in the training set, while other images of the exact same person to be in the validation or testing image sets. This can result in reporting misleading accuracy rates and the learning of irrelevant features, ultimately reducing the real-life usability of these models. When the deep neural networks trained on the traditional, unfair data shuffling method are challenged with new patient images, it is observed that the trained models perform poorly. In contrast, deep neural networks trained with strict patient-level separation maintain their accuracy rates even when new patient images are tested. Heat-map visualizations of the activations of the deep neural networks trained with strict patient-level separation indicate a higher degree of focus on the relevant nodules. We argue that the research question posed in the title has a positive answer only if the deep neural networks are trained with images of patients that are strictly isolated from the validation and testing patient sets. | 翻訳日:2023-11-16 19:48:48 公開日:2023-11-14 |
# リカレントニューラルネットワークにおける表現確率的サンプリング Expressive probabilistic sampling in recurrent neural networks ( http://arxiv.org/abs/2308.11809v3 ) ライセンス: Link先を確認 | Shirui Chen, Linxing Preston Jiang, Rajesh P. N. Rao, Eric Shea-Brown | (参考訳) サンプリングに基づく脳機能のベイズモデルでは、神経活動は脳が確率計算に使用する確率分布のサンプルであると仮定される。
しかし、神経動力学の機械的なモデルが任意の分布からどのようにサンプルできるかの包括的理解はまだ欠けている。
関数解析と確率微分方程式のツールを使って、複素分布からサンプルを得るために$\textit{recurrent}$ニューラルネットワークの最小アーキテクチャ要件を探求する。
まず,出力がサンプル(サンプルのみのネットワーク)を直接表現するニューロンのネットワークからなる従来のサンプリングモデルを検討する。
従来のモデルにおけるシナプス電流と発火速度のダイナミクスは、複雑な確率分布からサンプルをサンプリングする能力に制限がある。
本稿では, 任意の確率分布から, 出力単位を分離した再帰型ニューラルネットワークの発火速度のダイナミクスをサンプリングできることを示す。
このような回路をリザーブ・サンプラーネットワーク (RSN) と呼ぶ。
本稿では, RSNがLangevinサンプリングを実装しているような繰り返しおよび出力重みを求める, スコアマッチングに基づく効率的なトレーニング手法を提案する。
提案するニューラルダイナミクスを用いて,複数の複雑なデータ分布から標本を抽出できるモデルの能力を実証し,その次世代の標本ベース脳モデルへの適用性について検討した。 In sampling-based Bayesian models of brain function, neural activities are assumed to be samples from probability distributions that the brain uses for probabilistic computation. However, a comprehensive understanding of how mechanistic models of neural dynamics can sample from arbitrary distributions is still lacking. We use tools from functional analysis and stochastic differential equations to explore the minimum architectural requirements for $\textit{recurrent}$ neural circuits to sample from complex distributions. We first consider the traditional sampling model consisting of a network of neurons whose outputs directly represent the samples (sampler-only network). We argue that synaptic current and firing-rate dynamics in the traditional model have limited capacity to sample from a complex probability distribution. We show that the firing rate dynamics of a recurrent neural circuit with a separate set of output units can sample from an arbitrary probability distribution. We call such circuits reservoir-sampler networks (RSNs). We propose an efficient training procedure based on denoising score matching that finds recurrent and output weights such that the RSN implements Langevin sampling. We empirically demonstrate our model's ability to sample from several complex data distributions using the proposed neural dynamics and discuss its applicability to developing the next generation of sampling-based brain models. | 翻訳日:2023-11-16 19:45:10 公開日:2023-11-14 |
# 合成能力の多重化:合成課題における拡散モデルの探索 Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task ( http://arxiv.org/abs/2310.09336v2 ) ライセンス: Link先を確認 | Maya Okawa, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka | (参考訳) 現代の生成モデルは、非常に現実的なデータを生成する前例のない能力を示している。
しかし、実世界の本質的な構成性を考えると、これらのモデルの実用的利用には、トレーニングデータセットにない出力を生成するための新しい概念セットを構成する能力を示す必要がある。
先行研究は、最近の拡散モデルが興味深い組成一般化能力を示すが、予測不能に失敗することを示した。
そこで本研究では, 条件付き拡散モデルにおける合成拡散モデルの構成一般化の理解, 学習データの属性の相違, サンプルアウトオブディストリビューション生成能力の測定について検討した。
結果はこう示しています
i) 概念からサンプルを生成し,それらを構成する能力が出現する順序は,基礎となるデータ生成プロセスの構造によって支配される。
二 構成的課題における演出は、構成的課題の性能に依拠し、部分的には生成モデルにみられる創発的な現象を説明するため、突然の「緊急」を示す。
(iii) 分布サンプルを生成するためのトレーニングデータの頻度が低い概念を構成するには、分布サンプルを生成するよりもかなり多くの最適化ステップが必要となる。
本研究は、データ中心の観点から、生成モデルにおける能力と構成性を理解するための基礎を築いた。 Modern generative models exhibit unprecedented capabilities to generate extremely realistic data. However, given the inherent compositionality of the real world, reliable use of these models in practical applications requires that they exhibit the capability to compose a novel set of concepts to generate outputs not seen in the training data set. Prior work demonstrates that recent diffusion models do exhibit intriguing compositional generalization abilities, but also fail unpredictably. Motivated by this, we perform a controlled study for understanding compositional generalization in conditional diffusion models in a synthetic setting, varying different attributes of the training data and measuring the model's ability to generate samples out-of-distribution. Our results show: (i) the order in which the ability to generate samples from a concept and compose them emerges is governed by the structure of the underlying data-generating process; (ii) performance on compositional tasks exhibits a sudden "emergence" due to multiplicative reliance on the performance of constituent tasks, partially explaining emergent phenomena seen in generative models; and (iii) composing concepts with lower frequency in the training data to generate out-of-distribution samples requires considerably more optimization steps compared to generating in-distribution samples. Overall, our study lays a foundation for understanding capabilities and compositionality in generative models from a data-centric perspective. | 翻訳日:2023-11-16 19:35:23 公開日:2023-11-14 |
# 自己教師型エンコーダ・デコーダ音声モデルのプロンプティングと適応調整 Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech Model ( http://arxiv.org/abs/2310.02971v3 ) ライセンス: Link先を確認 | Kai-Wei Chang, Ming-Hsin Chen, Yun-Ping Lin, Jing Neng Hsu, Paul Kuo-Ming Huang, Chien-yu Huang, Shang-Wen Li, Hung-yi Lee | (参考訳) プロンプティングとアダプタチューニングがファインチューニング(FT)手法の効率的な代替手段として登場した。
しかし、既存の音声プロンプトの研究は分類タスクに焦点が当てられ、より複雑なシーケンス生成タスクに失敗した。
加えて、アダプタチューニングは主にエンコーダのみの自己教師型モデルに焦点をあてて適用される。
実験の結果,自己教師付きエンコーダデコーダモデルwav2seqは,シーケンス生成タスクにおける従来の作業を上回ることがわかった。
ASRでは単語誤り率が53%向上し,スロットフィリングではF1スコアが27%向上した。
さらに、プロンプトは低リソースシナリオにおいてFT法と競合する。
さらに,言語間asrにおけるwav2seqのプロンプトとアダプタチューニングの伝達可能性を示す。
訓練可能なパラメータが限られている場合、プロンプトとアダプタのチューニングは7つの言語で従来のFTより一貫して優れている。
特に低リソースのシナリオでは、アダプタチューニングが一貫して向上する。 Prompting and adapter tuning have emerged as efficient alternatives to fine-tuning (FT) methods. However, existing studies on speech prompting focused on classification tasks and failed on more complex sequence generation tasks. Besides, adapter tuning is primarily applied with a focus on encoder-only self-supervised models. Our experiments show that prompting on Wav2Seq, a self-supervised encoder-decoder model, surpasses previous works in sequence generation tasks. It achieves a remarkable 53% relative improvement in word error rate for ASR and a 27% in F1 score for slot filling. Additionally, prompting competes with the FT method in the low-resource scenario. Moreover, we show the transferability of prompting and adapter tuning on Wav2Seq in cross-lingual ASR. When limited trainable parameters are involved, prompting and adapter tuning consistently outperform conventional FT across 7 languages. Notably, in the low-resource scenario, prompting consistently outperforms adapter tuning. | 翻訳日:2023-11-16 19:33:58 公開日:2023-11-14 |
# 監督・罰則ベースライン補正 Supervised and Penalized Baseline Correction ( http://arxiv.org/abs/2310.18306v2 ) ライセンス: Link先を確認 | Erik Andries, Ramin Nikzad-Langerodi | (参考訳) 分光測定は、吸収と散乱の混合から生じる歪んだスペクトル形状を示すことができる。
これらの歪み(またはベースライン)は、しばしば非定常オフセットまたは低周波振動として現れる。
その結果、これらのベースラインは分析的および定量的な結果に悪影響を及ぼす可能性がある。
ベースライン補正(baseline correction)は、ベースラインスペクトル(望ましくない歪み)を得るために前処理法を適用し、その歪みを差分によって除去する包括的用語である。
しかし, 現状技術ベースライン補正法では, 可利用でも, 観測されたスペクトル変動に大きく寄与しても, 分析液濃度は利用されない。
我々は最先端の手法(ペナルドベースライン補正)のクラスを調べ,予測が強化されるように事前のアナライト濃度に対応できるように修正する。
性能は、古典的なペナライズドベースライン補正法(アナライト情報なし)と修正ペナライトベースライン補正法(アナライト情報平均化)の2つの近赤外線データセットで評価される。 Spectroscopic measurements can show distorted spectral shapes arising from a mixture of absorbing and scattering contributions. These distortions (or baselines) often manifest themselves as non-constant offsets or low-frequency oscillations. As a result, these baselines can adversely affect analytical and quantitative results. Baseline correction is an umbrella term where one applies pre-processing methods to obtain baseline spectra (the unwanted distortions) and then remove the distortions by differencing. However, current state-of-the art baseline correction methods do not utilize analyte concentrations even if they are available, or even if they contribute significantly to the observed spectral variability. We examine a class of state-of-the-art methods (penalized baseline correction) and modify them such that they can accommodate a priori analyte concentrations such that prediction can be enhanced. Performance will be assessed on two near infra-red data sets across both classical penalized baseline correction methods (without analyte information) and modified penalized baseline correction methods (leveraging analyte information). | 翻訳日:2023-11-16 19:24:46 公開日:2023-11-14 |
# 物体の密度を3Dで検出する技術(動画あり) What You See Is What You Detect: Towards better Object Densification in 3D detection ( http://arxiv.org/abs/2310.17842v2 ) ライセンス: Link先を確認 | Tianran Liu, Zeping Zhang, Morteza Mousa Pasandi, Robert Laganiere | (参考訳) 近年,lidar信号からの3次元知覚における物体完成の重要性が実証されている。
レーザースキャナーによって生成された点雲を密度化するためにモジュールを用いたいくつかの手法が提案されている。
広く使われているフル形状の完成アプローチは、特に遠くの物体や歩行者のような小さな物体に対して、より高いエラーアップバウンドをもたらします。
この観察に基づいて,従来の手法が生成する予測点の11.3\%しか必要としない可視部分補完法を提案する。
高密度表現を復元するために,目に見えるフォアグラウンドオブジェクトに関連する点集合を補強するメッシュデフォーメーションに基づく手法を提案する。
提案手法は, 正確な3次元検出を実現するために, 前景オブジェクトの可視部分のみに焦点をあてることから, 提案手法をWhat You See Is What You Detect (WYSIWYD) と名付けた。
提案手法は,前景深度をメッシュ変形から予測するifst(intra-frustum segmentation transformer)とmdcnet(mesh depth completion network)の2部分からなる検出器非依存モデルである。
このように、このモデルは、ほとんどの擬似ライダーベースのメソッドで使用される、時間を要する完全な補完タスクを必要としない。
実験により,KITTIデータセットとNuScenesデータセットの公開ベースラインモデルの大部分に対して,我々のアプローチが最大12.2\%のパフォーマンス向上を達成できることが確認された。
コードは \textcolor[RGB]{0,0,255}{\url{{https://github.com/Orbis36/WYSIWYD}} で入手できる。 Recent works have demonstrated the importance of object completion in 3D Perception from Lidar signal. Several methods have been proposed in which modules were used to densify the point clouds produced by laser scanners, leading to better recall and more accurate results. Pursuing in that direction, we present, in this work, a counter-intuitive perspective: the widely-used full-shape completion approach actually leads to a higher error-upper bound especially for far away objects and small objects like pedestrians. Based on this observation, we introduce a visible part completion method that requires only 11.3\% of the prediction points that previous methods generate. To recover the dense representation, we propose a mesh-deformation-based method to augment the point set associated with visible foreground objects. Considering that our approach focuses only on the visible part of the foreground objects to achieve accurate 3D detection, we named our method What You See Is What You Detect (WYSIWYD). Our proposed method is thus a detector-independent model that consists of 2 parts: an Intra-Frustum Segmentation Transformer (IFST) and a Mesh Depth Completion Network(MDCNet) that predicts the foreground depth from mesh deformation. This way, our model does not require the time-consuming full-depth completion task used by most pseudo-lidar-based methods. Our experimental evaluation shows that our approach can provide up to 12.2\% performance improvements over most of the public baseline models on the KITTI and NuScenes dataset bringing the state-of-the-art to a new level. The codes will be available at \textcolor[RGB]{0,0,255}{\url{{https://github.com/Orbis36/WYSIWYD}} | 翻訳日:2023-11-16 19:24:00 公開日:2023-11-14 |
# ノイズリアリズム, 単純さ, 単純さバブル効果 Nomic realism, simplicity, and the simplicity bubble effect ( http://arxiv.org/abs/2310.17035v2 ) ライセンス: Link先を確認 | Felipe S. Abrah\~ao and Raoni Arroyo | (参考訳) 我々は、自律現実主義の唯一の本質的な基準として、単純さを論じる。
議論はシンプルさのバブル効果に基づいている。
量子基礎における過小決定は、その場合を示す。 We offer an argument against simplicity as a sole intrinsic criterion for nomic realism. The argument is based on the simplicity bubble effect. Underdetermination in quantum foundations illustrates the case. | 翻訳日:2023-11-16 19:23:04 公開日:2023-11-14 |
# MedEval: 言語モデル評価のためのマルチレベル、マルチタスク、マルチドメイン医療ベンチマーク MedEval: A Multi-Level, Multi-Task, and Multi-Domain Medical Benchmark for Language Model Evaluation ( http://arxiv.org/abs/2310.14088v3 ) ライセンス: Link先を確認 | Zexue He, Yu Wang, An Yan, Yao Liu, Eric Y. Chang, Amilcare Gentili, Julian McAuley, Chun-Nan Hsu | (参考訳) 医療のためのデータセットのキュレーションは、専門家による人間のアノテーションを必要とするため、しばしば制限される。
本稿では,医療用言語モデルの開発を容易にするために,マルチレベル,マルチタスク,マルチドメイン医療ベンチマークであるMedEvalを提案する。
MedEvalは包括的で、いくつかの医療システムからのデータからなり、8つの検査モダリティから35の人体領域にまたがる。
22,779の文と21,228のレポートを収集し、複数のレベルで専門家のアノテーションを提供し、データの詳細な使用可能性を提供し、幅広いタスクをサポートする。
さらに,医療におけるドメイン適応ベースラインから,汎用的な最先端言語モデル(ChatGPTなど)まで,ゼロショットおよび微調整設定下で10の汎用言語モデルとドメイン固有言語モデルを体系的に評価した。
評価の結果,異なるタスクにまたがる2つのカテゴリーの言語モデルの有効性が明らかとなった。
本研究は,医療分野における大規模言語モデル導入の強みと限界に関する貴重な知見を提供し,その実践的応用と今後の進歩を示すものである。 Curated datasets for healthcare are often limited due to the need of human annotations from experts. In this paper, we present MedEval, a multi-level, multi-task, and multi-domain medical benchmark to facilitate the development of language models for healthcare. MedEval is comprehensive and consists of data from several healthcare systems and spans 35 human body regions from 8 examination modalities. With 22,779 collected sentences and 21,228 reports, we provide expert annotations at multiple levels, offering a granular potential usage of the data and supporting a wide range of tasks. Moreover, we systematically evaluated 10 generic and domain-specific language models under zero-shot and finetuning settings, from domain-adapted baselines in healthcare to general-purposed state-of-the-art large language models (e.g., ChatGPT). Our evaluations reveal varying effectiveness of the two categories of language models across different tasks, from which we notice the importance of instruction tuning for few-shot usage of large language models. Our investigation paves the way toward benchmarking language models for healthcare and provides valuable insights into the strengths and limitations of adopting large language models in medical domains, informing their practical applications and future advancements. | 翻訳日:2023-11-16 19:21:38 公開日:2023-11-14 |
# 反復パラメータアライメントを用いた分岐領域を横断するクロスサイロフェデレート学習 Cross-Silo Federated Learning Across Divergent Domains with Iterative Parameter Alignment ( http://arxiv.org/abs/2311.04818v2 ) ライセンス: Link先を確認 | Matt Gorbett, Hossein Shirazi, Indrakshi Ray | (参考訳) プライベートソースに分散したデータの集団的知識から学ぶことで、一般化能力を強化したニューラルネットワークを提供できる。
リモートクライアント間で機械学習モデルを協調的にトレーニングするフェデレーション学習は、中央サーバのオーケストレーションを通じてクライアントモデルを組み合わせることで、これを実現する。
しかし、現在のアプローチには2つの限界がある。
一 クライアントドメインが十分に異なるときに収束するのに苦労し、
二 現行の集約技術は、各クライアントに対して同一のグローバルモデルを生成する。
本研究では,一つのグローバルモデルを学ぶのではなく,共通の目的のために最適化されたNモデルを学ぶ。
これを実現するために、ピアツーピアトポロジーで共有されるモデルパラメータに重み付き距離最小化を適用する。
結果のフレームワークである反復パラメータアライメントは、自然にクロスサイロ設定に適用され、以下の特性を持つ。
(i)各参加者にとってユニークなソリューションで、フェデレーション内の各モデルをグローバルに収束させるオプションと、
(ii)協調学習環境における仲間間の公平性を引き出すための任意早期停止機構。
これらの特徴は、異なるデータセットでトレーニングされたピアモデルから反復的に学習するフレキシブルな新しいフレームワークを共同で提供する。
この技術は、最先端のアプローチと比較して、様々なデータ分割における競合的な結果が得られる。
さらに,既存のアプローチが苦しむような異なるドメイン(つまりピア間の非結合クラス)に対して,この手法は堅牢であることを示す。 Learning from the collective knowledge of data dispersed across private sources can provide neural networks with enhanced generalization capabilities. Federated learning, a method for collaboratively training a machine learning model across remote clients, achieves this by combining client models via the orchestration of a central server. However, current approaches face two critical limitations: i) they struggle to converge when client domains are sufficiently different, and ii) current aggregation techniques produce an identical global model for each client. In this work, we address these issues by reformulating the typical federated learning setup: rather than learning a single global model, we learn N models each optimized for a common objective. To achieve this, we apply a weighted distance minimization to model parameters shared in a peer-to-peer topology. The resulting framework, Iterative Parameter Alignment, applies naturally to the cross-silo setting, and has the following properties: (i) a unique solution for each participant, with the option to globally converge each model in the federation, and (ii) an optional early-stopping mechanism to elicit fairness among peers in collaborative learning settings. These characteristics jointly provide a flexible new framework for iteratively learning from peer models trained on disparate datasets. We find that the technique achieves competitive results on a variety of data partitions compared to state-of-the-art approaches. Further, we show that the method is robust to divergent domains (i.e. disjoint classes across peers) where existing approaches struggle. | 翻訳日:2023-11-16 19:10:28 公開日:2023-11-14 |
# ADFactory: Nerfで光フローを一般化するための効果的なフレームワーク ADFactory: An Effective Framework for Generalizing Optical Flow with Nerf ( http://arxiv.org/abs/2311.04246v2 ) ライセンス: Link先を確認 | Han Ling | (参考訳) 現在の光学フロー法に直面する重要な課題は、それらを現実世界にうまく一般化することの難しさである。
これは主に手作りデータセットのコストが高いためであり、既存の自己管理手法は間接的な損失と閉塞によって制限され、ファジィな結果をもたらす。
この課題に対処するために、我々は新しい光フロートレーニングフレームワーク、Automatic Data Factory (ADF)を導入する。
ADFは、ターゲットデータ領域上の光フローネットワークを効果的にトレーニングするために、入力としてRGBイメージのみを必要とする。
具体的には、単眼カメラで収集した写真群からシーンを再構成し、レンダリング結果に基づいてカメラポーズペア間の光フローラベルを算出するために、高度なnerf技術を用いる。
nerfで再構成されたシーンの欠陥に起因する誤ったラベルを除去するために, 生成したラベルを光学的フローマッチング精度, 放射場信頼度, 深さ整合性など, 様々な側面からスクリーニングした。
フィルタされたラベルは、直接ネットワークの監視に使用できる。
実験により、KITTI上のAFFの一般化能力は、既存の自己監督型光学フローとモノクロシーンフローアルゴリズムを超えている。
さらにadfは実世界のゼロポイント一般化評価において印象的な結果を達成し、ほとんどの教師付き手法を上回っている。 A significant challenge facing current optical flow methods is the difficulty in generalizing them well to the real world. This is mainly due to the high cost of hand-crafted datasets, and existing self-supervised methods are limited by indirect loss and occlusions, resulting in fuzzy outcomes. To address this challenge, we introduce a novel optical flow training framework: automatic data factory (ADF). ADF only requires RGB images as input to effectively train the optical flow network on the target data domain. Specifically, we use advanced Nerf technology to reconstruct scenes from photo groups collected by a monocular camera, and then calculate optical flow labels between camera pose pairs based on the rendering results. To eliminate erroneous labels caused by defects in the scene reconstructed by Nerf, we screened the generated labels from multiple aspects, such as optical flow matching accuracy, radiation field confidence, and depth consistency. The filtered labels can be directly used for network supervision. Experimentally, the generalization ability of ADF on KITTI surpasses existing self-supervised optical flow and monocular scene flow algorithms. In addition, ADF achieves impressive results in real-world zero-point generalization evaluations and surpasses most supervised methods. | 翻訳日:2023-11-16 19:09:06 公開日:2023-11-14 |
# コヒーレント誤差と弱測定によるハニカムフロッケ符号の量子分数化と創発的マヨラナ液 Qubit fractionalization and emergent Majorana liquid in the honeycomb Floquet code induced by coherent errors and weak measurements ( http://arxiv.org/abs/2311.08450v1 ) ライセンス: Link先を確認 | Guo-Yi Zhu and Simon Trebst | (参考訳) 量子多体物理学の観点からは、ハスティングスとハアのフロケ符号は、2量子ビット XX, YY, ZZ の周期列が2つの論理量子ビットを持つトーリック符号状態を動的に安定化する北エフハニカムモデルの測度のみのバージョンと考えることができる。
しかし、キタエフモデルで最も注目すべき特徴は、量子スピンの固有分数化が創発的なゲージ場と、ディラック液体を形成するイテナント・マヨラナフェルミオン(英語版)であり、フロッケ符号には存在しない。
ここでは,ハニカムフロッケ符号の測定強度を変化させることで,有限温度でのキタエフ模型の分数化物理学に類似した特徴を観察できることを示す。
測定を弱めるためにコヒーレント誤差を導入し、クビット分数化(弱い測定のために)、マヨラナ液体の形成(中間測定強度のために)、マヨラナ液体の形成(強い測定のために)の3つの連続的な段階を観測した。
我々の分析は、不完全なフロケ符号をモンテカルロでサンプリング可能なランダムガウスフェルミオン回路(ネットワーク)にマッピングし、2つの交差ピークを露呈する。
回路実装に目を向けると,Floquet符号はトーリック符号とは対照的に,弱い測定条件下では直ちに自明な状態に分解されるのではなく,長距離に絡み合ったMajorana液体状態に遷移することを示す。 From the perspective of quantum many-body physics, the Floquet code of Hastings and Haah can be thought of as a measurement-only version of the Kitaev honeycomb model where a periodic sequence of two-qubit XX, YY, and ZZ measurements dynamically stabilizes a toric code state with two logical qubits. However, the most striking feature of the Kitaev model is its intrinsic fractionalization of quantum spins into an emergent gauge field and itinerant Majorana fermions that form a Dirac liquid, which is absent in the Floquet code. Here we demonstrate that by varying the measurement strength of the honeycomb Floquet code one can observe features akin to the fractionalization physics of the Kitaev model at finite temperature. Introducing coherent errors to weaken the measurements we observe three consecutive stages that reveal qubit fractionalization (for weak measurements), the formation of a Majorana liquid (for intermediate measurement strength), and Majorana pairing together with gauge ordering (for strong measurements). Our analysis is based on a mapping of the imperfect Floquet code to random Gaussian fermionic circuits (networks) that can be Monte Carlo sampled, exposing two crossover peaks. With an eye on circuit implementations, our analysis demonstrates that the Floquet code, in contrast to the toric code, does not immediately break down to a trivial state under weak measurements, but instead gives way to a long-range entangled Majorana liquid state. | 翻訳日:2023-11-16 18:59:18 公開日:2023-11-14 |
# 量子コンピューティングに関する講義ノート Lecture notes on quantum computing ( http://arxiv.org/abs/2311.08445v1 ) ライセンス: Link先を確認 | Anton Frisk Kockum, Ariadna Soro, Laura Garc\'ia-\'Alvarez, Pontus Vikst{\aa}l, Tom Douce, G\"oran Johansson, Giulia Ferrini | (参考訳) これらは、2020年から毎年秋にチャルマース工科大学で教わる修士課程「量子コンピューティング」の講義ノートであり、rwth aachen と delft university of technology の学生が参加している。
このコースの目的は、特定のハードウェア実装を除く量子コンピューティングの理論的概要を提供することである。
Topics covered in these notes include quantum algorithms (such as Grover's algorithm, the quantum Fourier transform, phase estimation, and Shor's algorithm), variational quantum algorithms that utilise an interplay between classical and quantum computers [such as the variational quantum eigensolver (VQE) and the quantum approximate optimisation algorithm (QAOA), among others], quantum error correction, various versions of quantum computing (such as measurement-based quantum computation, adiabatic quantum computation, and the continuous-variable approach to quantum information), the intersection of quantum computing and machine learning, and quantum complexity theory.
これらのトピックに関する講義は12の章にまとめられ、そのほとんどが最後に推奨されるいくつかのエクササイズを含んでおり、実践的なエクササイズと詳細を提供する4つのチュートリアルが組み合わされている。
chalmersでは、コースは7週間で教えられ、週に3回の講義またはチュートリアルが行われる。
このコースを受講した学生は、量子物理学の経験があるが、厳密には必要ではない。 These are the lecture notes of the master's course "Quantum Computing", taught at Chalmers University of Technology every fall since 2020, with participation of students from RWTH Aachen and Delft University of Technology. The aim of this course is to provide a theoretical overview of quantum computing, excluding specific hardware implementations. Topics covered in these notes include quantum algorithms (such as Grover's algorithm, the quantum Fourier transform, phase estimation, and Shor's algorithm), variational quantum algorithms that utilise an interplay between classical and quantum computers [such as the variational quantum eigensolver (VQE) and the quantum approximate optimisation algorithm (QAOA), among others], quantum error correction, various versions of quantum computing (such as measurement-based quantum computation, adiabatic quantum computation, and the continuous-variable approach to quantum information), the intersection of quantum computing and machine learning, and quantum complexity theory. Lectures on these topics are compiled into 12 chapters, most of which contain a few suggested exercises at the end, and interspersed with four tutorials, which provide practical exercises as well as further details. At Chalmers, the course is taught in seven weeks, with three two-hour lectures or tutorials per week. It is recommended that the students taking the course have some previous experience with quantum physics, but not strictly necessary. | 翻訳日:2023-11-16 18:58:48 公開日:2023-11-14 |
# TAP自由エネルギーを用いた平均場変動推定:線形モデルにおける幾何学的および統計的性質 Mean-field variational inference with the TAP free energy: Geometric and statistical properties in linear models ( http://arxiv.org/abs/2311.08442v1 ) ライセンス: Link先を確認 | Michael Celentano, Zhou Fan, Licong Lin, Song Mei | (参考訳) サンプルサイズ n が次元 p に匹敵するとき、ベイズ線形モデルにおける平均場変動推定について検討する。
高次元では、クルバック・リーブラーの後方分布からの発散を最小化する一般的なアプローチや、証拠の下位境界の最大化は、真の後方平均と過小評価後不確実性から逸脱する可能性がある。
我々は代わりにTAP自由エネルギーの最小化について検討し、高次元の漸近的枠組みにおいて、後縁辺縁の一貫した推定値を提供する局所最小化器を持ち、正しく校正された後縁推論に使用できることを示す。
幾何学的には、この局所最小化器の広い近傍では、TAP自由エネルギーの風景が強く凸していることが示され、特定の一般的な条件下では、AMP(Adroximate Message Passing)アルゴリズムで見ることができる。
次に、この局所近傍の最小値に線形収束する効率的なアルゴリズムを示す。
効率的なアルゴリズムがこの局所近傍を発見できないと仮定された環境では、AMPにより到達可能なTAP自由エネルギーの局所最小化器の類似した幾何学的性質を証明し、この最小化器に基づく後部推論が正しく校正されていることを示す。 We study mean-field variational inference in a Bayesian linear model when the sample size n is comparable to the dimension p. In high dimensions, the common approach of minimizing a Kullback-Leibler divergence from the posterior distribution, or maximizing an evidence lower bound, may deviate from the true posterior mean and underestimate posterior uncertainty. We study instead minimization of the TAP free energy, showing in a high-dimensional asymptotic framework that it has a local minimizer which provides a consistent estimate of the posterior marginals and may be used for correctly calibrated posterior inference. Geometrically, we show that the landscape of the TAP free energy is strongly convex in an extensive neighborhood of this local minimizer, which under certain general conditions can be found by an Approximate Message Passing (AMP) algorithm. We then exhibit an efficient algorithm that linearly converges to the minimizer within this local neighborhood. In settings where it is conjectured that no efficient algorithm can find this local neighborhood, we prove analogous geometric properties for a local minimizer of the TAP free energy reachable by AMP, and show that posterior inference based on this minimizer remains correctly calibrated. | 翻訳日:2023-11-16 18:58:28 公開日:2023-11-14 |
# 各種分光・組織ドプラ心エコー図の総合的解析のための統一的アプローチ A Unified Approach for Comprehensive Analysis of Various Spectral and Tissue Doppler Echocardiography ( http://arxiv.org/abs/2311.08439v1 ) ライセンス: Link先を確認 | Jaeik Jeon, Jiyeon Kim, Yeonggul Jang, Yeonyee E. Yoon, Dawun Jeong, Youngtaek Hong, Seung-Ah Lee, Hyuk-Jae Chang | (参考訳) ドプラ心エコー法は、血流速度を定量化し、心筋運動を評価することによって、心機能と相に関する重要な知見を提供する。
しかし、従来のドップラー解析の自動化方法は、初期信号処理技術から高度なディープラーニングアプローチまで、心電図(ECG)データへの依存と、ドップラービューを集合的に処理できないことによる制約があった。
本稿では、畳み込みニューラルネットワークを用いて、自動計測と終末拡張(ED)検出を単一の方法で組み合わせた、スペクトルおよび組織ドプラ心エコー画像の包括的解析を行う新しい統合フレームワークを提案する。
ネットワークは様々なドップラービューにまたがる重要な特徴を自動的に認識し、新しいドップラー形状の埋め込みとアンチエイリアスモジュールにより解釈の強化と一貫した解析を保証する。
実験結果から,DSC (Dice similarity coefficient) やIoU (Universal over Union) などの性能指標が一貫した性能低下を示した。
提案フレームワークは,ドップラー自動測定における臨床医との強い一致を示し,ED検出における競争性能を示す。 Doppler echocardiography offers critical insights into cardiac function and phases by quantifying blood flow velocities and evaluating myocardial motion. However, previous methods for automating Doppler analysis, ranging from initial signal processing techniques to advanced deep learning approaches, have been constrained by their reliance on electrocardiogram (ECG) data and their inability to process Doppler views collectively. We introduce a novel unified framework using a convolutional neural network for comprehensive analysis of spectral and tissue Doppler echocardiography images that combines automatic measurements and end-diastole (ED) detection into a singular method. The network automatically recognizes key features across various Doppler views, with novel Doppler shape embedding and anti-aliasing modules enhancing interpretation and ensuring consistent analysis. Empirical results indicate a consistent outperformance in performance metrics, including dice similarity coefficients (DSC) and intersection over union (IoU). The proposed framework demonstrates strong agreement with clinicians in Doppler automatic measurements and competitive performance in ED detection. | 翻訳日:2023-11-16 18:58:03 公開日:2023-11-14 |
# localisebot: ロボット把持のための微分可能レンダリングによるマルチビュー3dオブジェクトローカライズ LocaliseBot: Multi-view 3D object localisation with differentiable rendering for robot grasping ( http://arxiv.org/abs/2311.08438v1 ) ライセンス: Link先を確認 | Sujal Vijayaraghavan and Redwan Alqasemi and Rajiv Dubey and Sudeep Sarkar | (参考訳) ロボットの把持は通常、物体検出、物体の局所化、物体のポーズ推定、把持ポーズ推定、および把持計画の5段階に従っている。
オブジェクトのポーズ推定に焦点を当てます。
提案手法は,オブジェクトの複数ビュー,それらの視点におけるカメラの外部パラメータ,オブジェクトの3次元CADモデルという3つの情報に依拠する。
最初のステップは、標準的なディープラーニングバックボーン(fcn resnet)を使用して、オブジェクトラベル、セマンティックセグメンテーション、カメラに対するオブジェクトポーズの粗い見積もりを推定する。
私たちの目新しさは、粗いポーズ推定から始まり、微分可能なレンダリングによる最適化によって洗練するリファインメントモジュールを使用することです。
これは純粋にビジョンに基づくアプローチであり、ポイントクラウドや深度画像といった他の情報を必要としない。
我々は,shapenetデータセットにおけるオブジェクトポーズ推定手法を評価し,その技術に対する改善を示す。
また、推定対象のポーズは、標準慣行を用いて計算されたObject Clutter Indoor Dataset (OCID) Graspデータセット上で、基底真理把握候補を99.65%の精度で把握することを示す。 Robot grasp typically follows five stages: object detection, object localisation, object pose estimation, grasp pose estimation, and grasp planning. We focus on object pose estimation. Our approach relies on three pieces of information: multiple views of the object, the camera's extrinsic parameters at those viewpoints, and 3D CAD models of objects. The first step involves a standard deep learning backbone (FCN ResNet) to estimate the object label, semantic segmentation, and a coarse estimate of the object pose with respect to the camera. Our novelty is using a refinement module that starts from the coarse pose estimate and refines it by optimisation through differentiable rendering. This is a purely vision-based approach that avoids the need for other information such as point cloud or depth images. We evaluate our object pose estimation approach on the ShapeNet dataset and show improvements over the state of the art. We also show that the estimated object pose results in 99.65% grasp accuracy with the ground truth grasp candidates on the Object Clutter Indoor Dataset (OCID) Grasp dataset, as computed using standard practice. | 翻訳日:2023-11-16 18:57:41 公開日:2023-11-14 |
# 因果知識を組み合わせたグラフニューラルネットワークに基づく昇降モデリング Uplift Modeling based on Graph Neural Network Combined with Causal Knowledge ( http://arxiv.org/abs/2311.08434v1 ) ライセンス: Link先を確認 | Haowen Wang, Xinyan Ye, Yangze Zhou, Zhiyi Zhang, Longhan Zhang, Jing Jiang | (参考訳) uplift modelingはマーケティング効果モデリングの基本的な要素であり、治療が結果に与える影響を評価するために一般的に使用される。
アップリフトモデリングにより、最大限の利益で治療を特定できる。
他方では、特定の治療に反応して好意的な意思決定を行う可能性のある顧客を特定できます。
これまで、アップリフトモデリングアプローチは、特徴間のリンクや機密情報を無視しながら、機械学習モデルと推定学習者として組み合わせた差分差分(DID)アーキテクチャに大きく依存していた。
我々は、因果知識と昇降値の推定を組み合わせたグラフニューラルネットワークに基づくフレームワークを提案する。
まず,CATE(条件平均処理効果)推定と隣接行列構造学習に基づく因果表現手法を提案する。
次に,グラフ畳み込みネットワークに基づく,因果知識を結合するよりスケーラブルなアップリフトモデリングフレームワークを提案する。
その結果,本手法は典型的なシミュレーションデータに小さな誤差を伴い,上昇値の予測に有効であり,実際のマーケティングデータでもその効果が検証されている。 Uplift modeling is a fundamental component of marketing effect modeling, which is commonly employed to evaluate the effects of treatments on outcomes. Through uplift modeling, we can identify the treatment with the greatest benefit. On the other side, we can identify clients who are likely to make favorable decisions in response to a certain treatment. In the past, uplift modeling approaches relied heavily on the difference-in-difference (DID) architecture, paired with a machine learning model as the estimation learner, while neglecting the link and confidential information between features. We proposed a framework based on graph neural networks that combine causal knowledge with an estimate of uplift value. Firstly, we presented a causal representation technique based on CATE (conditional average treatment effect) estimation and adjacency matrix structure learning. Secondly, we suggested a more scalable uplift modeling framework based on graph convolution networks for combining causal knowledge. Our findings demonstrate that this method works effectively for predicting uplift values, with small errors in typical simulated data, and its effectiveness has been verified in actual industry marketing data. | 翻訳日:2023-11-16 18:57:18 公開日:2023-11-14 |
# icu投与敗血症患者における細菌血症の臨床的特徴と検査バイオマーカー Clinical Characteristics and Laboratory Biomarkers in ICU-admitted Septic Patients with and without Bacteremia ( http://arxiv.org/abs/2311.08433v1 ) ライセンス: Link先を確認 | Sangwon Baek, Seung Jun Lee | (参考訳) 集中治療室(icu)に入院した敗血症患者の細菌血症予測のためのバイオマーカーの診断的有用性についての研究はほとんどない。
そこで本研究では,これらのマーカーを高性能に利用し,細菌の予測モデルを最適化する実験室バイオマーカーの予測力を評価した。
この回顧的横断研究は、2019年に慶尚国立大学チャンウォン病院のicu部門で実施された。
血液培養の少なくとも2セットの基準であるsepsis-3(シーケンシャルな臓器不全スコアの上昇)を満たした成人患者を選定した。
収集されたデータは最初、重要な予測要因を特定するために独立に分析され、その後多変量ロジスティック回帰(mlr)モデルの構築に使用された。
真菌血症48例の計218例について検討した。
敗血症患者(それぞれ0.757例, 0.845例)は, crp, pctともにauc値以下で菌血症を鑑別できた。
予測精度を高めるため,PCT,ビリルビン,好中球リンパ球比 (NLR), 血小板, 乳酸, 赤血球沈着速度 (ESR), グラスゴー・コマ・スケール (GCS) を併用し, AUC 0.907 (95% CI,0.843~0.956) の予測モデルを構築した。
また, 生存分析(0.004)により, 細菌性貧血と死亡率の相関が認められた。
MLRモデルでは,PCT,ビリルビン,NLR,血小板,乳酸,ESR,GCSの併用により,バクテラン血症予測の精度が著しく向上することが示唆された。 Few studies have investigated the diagnostic utilities of biomarkers for predicting bacteremia among septic patients admitted to intensive care units (ICU). Therefore, this study evaluated the prediction power of laboratory biomarkers to utilize those markers with high performance to optimize the predictive model for bacteremia. This retrospective cross-sectional study was conducted at the ICU department of Gyeongsang National University Changwon Hospital in 2019. Adult patients qualifying SEPSIS-3 (increase in sequential organ failure score greater than or equal to 2) criteria with at least two sets of blood culture were selected. Collected data was initially analyzed independently to identify the significant predictors, which was then used to build the multivariable logistic regression (MLR) model. A total of 218 patients with 48 cases of true bacteremia were analyzed in this research. Both CRP and PCT showed a substantial area under the curve (AUC) value for discriminating bacteremia among septic patients (0.757 and 0.845, respectively). To further enhance the predictive accuracy, we combined PCT, bilirubin, neutrophil lymphocyte ratio (NLR), platelets, lactic acid, erythrocyte sedimentation rate (ESR), and Glasgow Coma Scale (GCS) score to build the predictive model with an AUC of 0.907 (95% CI, 0.843 to 0.956). In addition, a high association between bacteremia and mortality rate was discovered through the survival analysis (0.004). While PCT is certainly a useful index for distinguishing patients with and without bacteremia by itself, our MLR model indicates that the accuracy of bacteremia prediction substantially improves by the combined use of PCT, bilirubin, NLR, platelets, lactic acid, ESR, and GCS score. | 翻訳日:2023-11-16 18:56:59 公開日:2023-11-14 |
# ゼノ効果計算:機会と課題 Zeno-effect Computation: Opportunities and Challenges ( http://arxiv.org/abs/2311.08432v1 ) ライセンス: Link先を確認 | Jesse Berwald, Nicholas Chancellor, Raouf Dridi | (参考訳) 断熱量子コンピューティングは、量子ゼノが量子オプティマイザをどのように構築できるかを実証した。
しかし、同様の環境でのゼノ効果の一般的な使用方法を理解するための作業は、はるかに少ない。
我々は、3つの状態系に基づく構成を、直接量子ビットではなく量子ビットで使用するので、量子ビットは状態の1つを投影した後も残ることができる。
計算モデルは横フィールドイジングモデルのダイナミクスを回復することができ、いくつかの一般化が可能となるが、本手法では制約を非摂動的に実装することができ、単純な横フィールド実装とは異なり、調整可能な結合子を必要としない。
さらに,STIRAPプロトコル上に構築されたメソッドを用いて物理的にプロトコルを実装する方法について論じる。
測定や散逸的なゼノ効果によってのみ定義された設定はフラストレーションを生じさせませんし、これらの設定では、病理学的スペクトルの特徴は不利な実行時のスケーリングを引き起こします。
光学イジングマシンでよく行われているような利得や損失を含む、この課題を克服する手法について議論する。 Adiabatic quantum computing has demonstrated how quantum Zeno can be used to construct quantum optimisers. However, much less work has been done to understand how more general Zeno effects could be used in a similar setting. We use a construction based on three state systems rather than directly in qubits, so that a qubit can remain after projecting out one of the states. We find that our model of computing is able to recover the dynamics of a transverse field Ising model, several generalisations are possible, but our methods allow for constraints to be implemented non-perturbatively and does not need tunable couplers, unlike simple transverse field implementations. We further discuss how to implement the protocol physically using methods building on STIRAP protocols for state transfer. We find a substantial challenge, that settings defined exclusively by measurement or dissipative Zeno effects do not allow for frustration, and in these settings pathological spectral features arise leading to unfavorable runtime scaling. We discuss methods to overcome this challenge for example including gain as well as loss as is often done in optical Ising machines. | 翻訳日:2023-11-16 18:56:27 公開日:2023-11-14 |
# インテリジェントソフトウェアシステムの感情的・文化的知性を保証する Assuring the emotional and cultural intelligence of intelligent software systems ( http://arxiv.org/abs/2311.08431v1 ) ライセンス: Link先を確認 | Alvine B. Belle | (参考訳) インテリジェントなソフトウェアシステム(例えば、会話エージェント、プロファイリングシステム、雇用システム)は、しばしば反黒人人種差別やその他の社会文化的差別を永続させる方法で設計される。
これは、そのようなシステムによってなされる可能性があり、信用スコア、保険給付、健康評価に悪影響を及ぼす可能性のある一連の不公平な判断の自動化をサポートすることによって、社会的不平等を強化する可能性がある。
私のライトニングトークは、差別を意識したインテリジェントなソフトウェアシステムを開発することを目的とした、ECI(感情的および文化的知性)要求と呼ばれる新しいタイプの非機能要件を提案する必要性を強調します。
このようなシステムは、マイノリティ化されたグループを含む全員に対して共感的に振る舞うことができ、公平に扱われることを確実にする。
講演では、これらのECI要件がインテリジェントなソフトウェアシステムによって十分にサポートされていることを保証するために、新しいシステム保証ソリューションを開発する必要性を強調します。 Intelligent software systems (e.g., conversational agents, profiling systems, hiring systems) are often designed in a manner which may perpetuates anti-Black racism and other forms of socio-cultural discrimination. This may reinforce social inequities by supporting the automation of consequential and sometimes unfair decisions that may be made by such systems and which may have an adverse impact on credit scores, insurance payouts, and even health evaluations, just to name a few. My lightning talk will therefore emphasize the need to propose a new type of non-functional requirements called ECI (emotional and cultural intelligence) requirements that will aim at developing discrimination-aware intelligent software systems. Such systems will notably be able to behave empathetically toward everyone, including minoritized groups and will ensure they are treated fairly. My talk will also emphasize the need to develop novel system assurance solutions to assure these ECI requirements are sufficiently supported by intelligent software systems. | 翻訳日:2023-11-16 18:56:08 公開日:2023-11-14 |
# Rankitect: Meta Scaleで世界クラスのエンジニアに挑戦するアーキテクチャ検索 Rankitect: Ranking Architecture Search Battling World-class Engineers at Meta Scale ( http://arxiv.org/abs/2311.08430v1 ) ライセンス: Link先を確認 | Wei Wen, Kuang-Hung Liu, Igor Fedorov, Xin Zhang, Hang Yin, Weiwei Chu, Kaveh Hassani, Mengying Sun, Jiang Liu, Xu Wang, Lin Jiang, Yuxin Chen, Buyun Zhang, Xi Liu, Dehua Cheng, Zhengxing Chen, Guang Zhao, Fangqiu Han, Jiyan Yang, Yuchen Hao, Liang Xiong, Wen-Yen Chen | (参考訳) ニューラルアーキテクチャサーチ(NAS)は、コンピュータビジョンとランキングシステムにその効果を実証している。
しかし、先行研究は、十分に制御された固定ベースラインの下で小規模に評価される学術的な問題に焦点を当てていた。
In industry system, such as ranking system in Meta, it is unclear whether NAS algorithms from the literature can outperform production baselines because of: (1) scale - Meta ranking systems serve billions of users, (2) strong baselines - the baselines are production models optimized by hundreds to thousands of world-class engineers for years since the rise of deep learning, (3) dynamic baselines - engineers may have established new and stronger baselines during NAS search, and (4) efficiency - the search pipeline must yield results quickly in alignment with the productionization life cycle.
本稿では,MetaにおけるランキングシステムのためのNASソフトウェアフレームワークであるRanditectを紹介する。
Rankitectは,低レベルのビルディングブロックをゼロから構成することで,まったく新しいアーキテクチャの構築を目指している。
Rankitectは、サンプリングベースのNAS、ワンショットNAS、微分可能なNAS(DNAS)を含む、同じ検索空間下での包括的かつ公平な比較のために、最先端(SOTA)NASメソッドを実装し、改善する。
我々は,Metaにおける複数の生産ランキングモデルと比較し,Randitectを評価する。
正規化エントロピー損失とFLOPとの競合トレードオフを達成し,スクラッチから新しいモデルを発見することができる。
エンジニアが設計した検索スペースを利用する場合、Randitectはエンジニアよりも優れたモデルを生成し、肯定的なオフライン評価とMetaスケールでのオンラインA/Bテストを達成することができる。 Neural Architecture Search (NAS) has demonstrated its efficacy in computer vision and potential for ranking systems. However, prior work focused on academic problems, which are evaluated at small scale under well-controlled fixed baselines. In industry system, such as ranking system in Meta, it is unclear whether NAS algorithms from the literature can outperform production baselines because of: (1) scale - Meta ranking systems serve billions of users, (2) strong baselines - the baselines are production models optimized by hundreds to thousands of world-class engineers for years since the rise of deep learning, (3) dynamic baselines - engineers may have established new and stronger baselines during NAS search, and (4) efficiency - the search pipeline must yield results quickly in alignment with the productionization life cycle. In this paper, we present Rankitect, a NAS software framework for ranking systems at Meta. Rankitect seeks to build brand new architectures by composing low level building blocks from scratch. Rankitect implements and improves state-of-the-art (SOTA) NAS methods for comprehensive and fair comparison under the same search space, including sampling-based NAS, one-shot NAS, and Differentiable NAS (DNAS). We evaluate Rankitect by comparing to multiple production ranking models at Meta. We find that Rankitect can discover new models from scratch achieving competitive tradeoff between Normalized Entropy loss and FLOPs. When utilizing search space designed by engineers, Rankitect can generate better models than engineers, achieving positive offline evaluation and online A/B test at Meta scale. | 翻訳日:2023-11-16 18:55:49 公開日:2023-11-14 |
# 機械の目的: 交通シミュレーターは強化学習アプリケーションに等価な成果をもたらすか? Purpose in the Machine: Do Traffic Simulators Produce Distributionally Equivalent Outcomes for Reinforcement Learning Applications? ( http://arxiv.org/abs/2311.08429v1 ) ライセンス: Link先を確認 | Rex Chen, Kathleen M. Carley, Fei Fang, Norman Sadeh | (参考訳) 交通シミュレータは、インテリジェントトランスポートシステム(ITS)で学習するためのデータを生成するために使用される。
重要な疑問は、それらのモデリング仮定が現実世界にデプロイされたときに様々なシナリオに適応するためのITSの能力にどの程度影響するかである。
本研究は,交通応用のための強化学習(RL)エージェントを訓練する2つのシミュレータであるCityFlowとSUMOに焦点を当てる。
制御された仮想実験では、これらのシミュレータからRL関連測度における分布同値性を示す証拠が得られ、根平均二乗誤差とKL偏差はすべての評価測度で0よりかなり大きい。
これらの結果は、交通シミュレータがRLトレーニングのデウス・エグゼクティブ・マシンナではないことを示唆している。RLベースのITSの訓練と展開には、シミュレーション間の差異の影響を理解する必要がある。 Traffic simulators are used to generate data for learning in intelligent transportation systems (ITSs). A key question is to what extent their modelling assumptions affect the capabilities of ITSs to adapt to various scenarios when deployed in the real world. This work focuses on two simulators commonly used to train reinforcement learning (RL) agents for traffic applications, CityFlow and SUMO. A controlled virtual experiment varying driver behavior and simulation scale finds evidence against distributional equivalence in RL-relevant measures from these simulators, with the root mean squared error and KL divergence being significantly greater than 0 for all assessed measures. While granular real-world validation generally remains infeasible, these findings suggest that traffic simulators are not a deus ex machina for RL training: understanding the impacts of inter-simulator differences is necessary to train and deploy RL-based ITSs. | 翻訳日:2023-11-16 18:55:23 公開日:2023-11-14 |
# 量子モンテカルロおよび多体摂動法による第i相における水素分子の電子励起スペクトル Electronic excitation spectra of molecular hydrogen in Phase I from Quantum Monte Carlo and Many-Body perturbation methods ( http://arxiv.org/abs/2311.08506v1 ) ライセンス: Link先を確認 | Vitaly Gorelov, Markus Holzmann, David M. Ceperley and Carlo Pierleoni | (参考訳) 固体水素(フェーズI)中の電子励起スペクトルを,量子モンテカルロ法および多体摂動理論を用いて,周囲温度および5-90 GPa圧力で検討した。
この範囲では、システムは広いギャップ分子絶縁体から半導体へと変化し、励起の性質が局所化から非局在化へと変化する。
計算されたギャップとスペクトルは実験に一致し、核量子および熱効果の存在下で多体系のバンドギャップを正確に予測する能力を示す。
我々は水素同位体の電子ギャップの変化を探究する。 We study the electronic excitation spectra in solid molecular hydrogen (phase I) at ambient temperature and 5-90 GPa pressures using Quantum Monte Carlo methods and Many-Body Perturbation Theory. In this range, the system changes from a wide gap molecular insulator to a semiconductor, altering the nature of the excitations from localized to delocalized. Computed gaps and spectra agree with experiments, proving the ability to predict accurately band gaps of many-body systems in presence of nuclear quantum and thermal effects. We explore changes in the electronic gap for the hydrogen isotopes. | 翻訳日:2023-11-16 18:45:32 公開日:2023-11-14 |
# MUDD:極端条件下でのオフロードレーサーの効率的なアノテーション付き新しい再同定データセット MUDD: A New Re-Identification Dataset with Efficient Annotation for Off-Road Racers in Extreme Conditions ( http://arxiv.org/abs/2311.08488v1 ) ライセンス: Link先を確認 | Jacob Tyo, Motolani Olarinre, Youngseog Chung, Zachary C. Lipton | (参考訳) 制約のない環境での個人の再識別は、コンピュータビジョンにおけるオープンな課題である。
オフロード競技におけるオートバイレーサーの同一性マッチングのための,最初の大規模ベンチマークである Muddy Racer re-IDentification Dataset (MUDD) を紹介する。
MUDDは、既存のre-idデータセットには見られない重い泥の閉塞、動きのぼかし、複雑なポーズ、極端な照明条件を示す。
本稿では,ラベリング時間を65%以上短縮する補助情報を含むアノテーション手法を提案する。
我々はOSNetやResNet-50といった最先端のre-idモデルを用いてベンチマーク性能を確立する。
微調整がなければ、最高のモデルは33%のランク1の精度しか達成できない。
MUDDの微調整により79%のランク1に向上するが、改善の余地は残されている。
我々は泥、ポーズ、照明など現実世界の要因の影響を分析する。
我々の研究は、極度の条件下で個人を再識別する際のオープンな問題を露呈する。
MUDDは、特に新興スポーツ分析におけるコンピュータビジョンアプリケーションにおいて、堅牢なリIDの進展を加速するための多様かつ挑戦的なベンチマークとして機能することを願っている。
すべてのコードとデータはhttps://github.com/JacobTyo/MUDDで確認できる。 Re-identifying individuals in unconstrained environments remains an open challenge in computer vision. We introduce the Muddy Racer re-IDentification Dataset (MUDD), the first large-scale benchmark for matching identities of motorcycle racers during off-road competitions. MUDD exhibits heavy mud occlusion, motion blurring, complex poses, and extreme lighting conditions previously unseen in existing re-id datasets. We present an annotation methodology incorporating auxiliary information that reduced labeling time by over 65%. We establish benchmark performance using state-of-the-art re-id models including OSNet and ResNet-50. Without fine-tuning, the best models achieve only 33% Rank-1 accuracy. Fine-tuning on MUDD boosts results to 79% Rank-1, but significant room for improvement remains. We analyze the impact of real-world factors including mud, pose, lighting, and more. Our work exposes open problems in re-identifying individuals under extreme conditions. We hope MUDD serves as a diverse and challenging benchmark to spur progress in robust re-id, especially for computer vision applications in emerging sports analytics. All code and data can be found at https://github.com/JacobTyo/MUDD. | 翻訳日:2023-11-16 18:45:21 公開日:2023-11-14 |
# 大規模言語モデルが有害な情報を生成するのを防ぐにはアライメントが不十分:精神分析的視点 Alignment is not sufficient to prevent large language models from generating harmful information: A psychoanalytic perspective ( http://arxiv.org/abs/2311.08487v1 ) ライセンス: Link先を確認 | Zi Yin, Wei Ding, Jia Liu | (参考訳) 大規模言語モデル(llm)は、多数のアプリケーションの中心であるが、有害なコンテンツやバイアスの発生において、重大なリスクに苦しむ。
フロイトの精神分析理論で解明された進化的生存本能と社会規範の矛盾に類推し, LLMは, 統語的・意味的連続性に対する本質的な欲求と, 人的価値との訓練後の整合性との間に生じる, 同様の根本的な対立に悩まされていると論じる。
この対立はLLMを敵の攻撃に弱いものにし、連続性に対するモデルの欲求を強くすることでアライメントの努力を回避し、有害な情報を生み出す。
一連の実験を通じて,LLMにおける連続性への欲求の存在を検証し,不完全文や否定的プライミング,認知的不協和のシナリオなど,単純かつ強力な手法を考案し,先進的なLCMでさえ有害情報の発生を防ぐのに苦労していることを示した。
要約すると,本研究では,高度なアライメント手法のみに依存することの有効性に疑問を呈し,さらに従来のアモーダル概念と並行してモーダル概念を統合する新たなトレーニングアイデアを提唱し,llmに現実世界の文脈や倫理的配慮をより微妙な理解を与えることを目的としている。 Large Language Models (LLMs) are central to a multitude of applications but struggle with significant risks, notably in generating harmful content and biases. Drawing an analogy to the human psyche's conflict between evolutionary survival instincts and societal norm adherence elucidated in Freud's psychoanalysis theory, we argue that LLMs suffer a similar fundamental conflict, arising between their inherent desire for syntactic and semantic continuity, established during the pre-training phase, and the post-training alignment with human values. This conflict renders LLMs vulnerable to adversarial attacks, wherein intensifying the models' desire for continuity can circumvent alignment efforts, resulting in the generation of harmful information. Through a series of experiments, we first validated the existence of the desire for continuity in LLMs, and further devised a straightforward yet powerful technique, such as incomplete sentences, negative priming, and cognitive dissonance scenarios, to demonstrate that even advanced LLMs struggle to prevent the generation of harmful information. In summary, our study uncovers the root of LLMs' vulnerabilities to adversarial attacks, hereby questioning the efficacy of solely relying on sophisticated alignment methods, and further advocates for a new training idea that integrates modal concepts alongside traditional amodal concepts, aiming to endow LLMs with a more nuanced understanding of real-world contexts and ethical considerations. | 翻訳日:2023-11-16 18:45:02 公開日:2023-11-14 |
# オープン古典・量子系における時間反転対称性 Time-Reversal Symmetry in Open Classical and Quantum Systems ( http://arxiv.org/abs/2311.08486v1 ) ライセンス: Link先を確認 | Thomas Guff and Andrea Rocco | (参考訳) 時間の矢印を時間反転対称性の力学から導き出すことは物理学における根本的なオープンな問題である。
ここでは、散逸力学のいくつかの導出と時間の熱力学的矢印に着目し、オープン古典および量子系における時間反転対称性の破れを正確に研究する。
これらの導出はすべて、無限の熱浴と相互作用する系にマルコフ近似を適用する。
マルコフ近似は時間反転対称性に反するものではないことが分かる。
その代わりに、古典力学におけるランゲヴィン方程式やフォッカー・プランク方程式、オープン量子力学におけるブラウン運動、リンドブラッド方程式、パウリマスター方程式など、時間反転対称性が標準的な運動方程式で維持されることを示す。
いずれの場合も、結果として生じる運動方程式は、過去だけでなく未来にも起こる熱化を記述する。
結果として、結果の力学は、未来と過去に関して対称なマルコビアン性の定義によってよりよく記述されていると論じる。 Deriving an arrow of time from time-reversal symmetric microscopic dynamics is a fundamental open problem in physics. Here we focus on several derivations of dissipative dynamics and the thermodynamic arrow of time to study precisely how time-reversal symmetry is broken in open classical and quantum systems. These derivations all involve the Markov approximation applied to a system interacting with an infinite heat bath. We find that the Markov approximation does not imply a violation of time-reversal symmetry. Our results show instead that the time-reversal symmetry is maintained in standard dissipative equations of motion, such as the Langevin equation and the Fokker-Planck equation in open classical dynamics, and the Brownian motion, the Lindblad and the Pauli master equations in open quantum dynamics. In all cases, the resulting equations of motion describe thermalisation that occurs into the future as well as into the past. As a consequence, we argue that the resulting dynamics are better described by a definition of Markovianity that is symmetric with respect to the future and the past. | 翻訳日:2023-11-16 18:44:33 公開日:2023-11-14 |
# 問題コメントからの性指向と性同一性識別テキストの自動識別 Automated Identification of Sexual Orientation and Gender Identity Discriminatory Texts from Issue Comments ( http://arxiv.org/abs/2311.08485v1 ) ライセンス: Link先を確認 | Sayma Sultana and Jaydeb Sarker and Farzana Israt and Rajshakhar Paul and Amiangshu Bosu | (参考訳) ストレートな男性に支配される業界では、他の性別のアイデンティティや性的指向を表す多くの開発者は、しばしば憎しみや差別的なメッセージに遭遇する。
このようなコミュニケーションは、女性やLGBTQ+の人々への参加に障壁をもたらす。
大規模フリーオープンソースソフトウェア(FLOSS)コミュニティにおいて,識別コミュニケーションのためのすべてのコミュニケーションを手動で検査することは不可能である。
本研究の目的は、ソフトウェア開発者のコミュニケーションから性指向と性同一性識別(SGID)テキストを識別する自動メカニズムを開発することである。
本研究の目的は,SGID4SE (Sexual orientation and Gender Identity Discriminatory text Identification for (4) Software Engineering texts) を教師付き学習ベースSGID検出ツールとして訓練し,評価することである。
SGID4SEには6つの前処理ステップと10の最先端アルゴリズムが組み込まれている。
SGID4SEは、マイノリティクラスのパフォーマンスを改善するために、6つの異なる戦略を実装している。
我々は各戦略を実験的に評価し,各アルゴリズムの最適構成を同定した。
10倍のクロスバリデーションに基づく評価では、BERTベースのモデルが85.9%の精度、80.0%のリコール、82.9%のF1スコアで最高のパフォーマンスを向上する。
このモデルは95.7%の精度と80.4%のマシューズ相関係数を達成する。
我々のデータセットとツールは、この方向にさらなる研究の基盤を確立する。 In an industry dominated by straight men, many developers representing other gender identities and sexual orientations often encounter hateful or discriminatory messages. Such communications pose barriers to participation for women and LGBTQ+ persons. Due to sheer volume, manual inspection of all communications for discriminatory communication is infeasible for a large-scale Free Open-Source Software (FLOSS) community. To address this challenge, this study aims to develop an automated mechanism to identify Sexual orientation and Gender identity Discriminatory (SGID) texts from software developers' communications. On this goal, we trained and evaluated SGID4SE ( Sexual orientation and Gender Identity Discriminatory text identification for (4) Software Engineering texts) as a supervised learning-based SGID detection tool. SGID4SE incorporates six preprocessing steps and ten state-of-the-art algorithms. SGID4SE implements six different strategies to improve the performance of the minority class. We empirically evaluated each strategy and identified an optimum configuration for each algorithm. In our ten-fold cross-validation-based evaluations, a BERT-based model boosts the best performance with 85.9% precision, 80.0% recall, and 82.9% F1-Score for the SGID class. This model achieves 95.7% accuracy and 80.4% Matthews Correlation Coefficient. Our dataset and tool establish a foundation for further research in this direction. | 翻訳日:2023-11-16 18:44:14 公開日:2023-11-14 |
# プライベートブロックチェーンによる金融配信システム設計におけるhyperledger besuの探索 Exploration of Hyperledger Besu in Designing Private Blockchain-based Financial Distribution Systems ( http://arxiv.org/abs/2311.08483v1 ) ライセンス: Link先を確認 | Md. Raisul Hasan Shahrukh, Md. Tabassinur Rahman, Nafees Mansoor | (参考訳) 未成熟のセキュリティ、透明性、プロセス検証を提供する分散テクノロジであるブロックチェーンは、多くの業界で運用環境を再定義している。
この記事では、革新的なコンソーシアムブロックチェーンベースの金融配信アプリケーションの開発に焦点を当てる。
本稿では,さまざまな分野におけるブロックチェーン技術の変革的役割を,学術文献の多さと現在の産業実践に照らして照らし出す。
送金から融資、金融投資、医療やサプライチェーンの追跡におけるデータ管理まで、ブロックチェーンの多様な応用例を示している。
本稿では、コンソーシアムブロックチェーンベースの金融流通アプリケーションの設計と可能性を明らかにする。
Hyperledger Besuの機能を利用することで、アプリケーションはセキュリティ、スケーラビリティ、相互運用性を改善し、より統合された金融エコシステムに寄与する。
この調査は、コンソーシアムブロックチェーン制御アクセスとhyprledger besuの包括的な機能の組み合わせに光を当て、セキュアで透明で効率的な金融取引環境を提案する。
この調査は、学者、業界専門家、および政策立案者のリソースとして機能し、Hyperledger Besuのようなプラットフォームによって実現されたブロックチェーン技術の巨大な可能性を強調し、従来のシステムのより分散的でセキュアで効率的な未来への進化を加速する。 Blockchain, a decentralized technology that provides unrivaled security, transparency, and process validation, is redefining the operational landscape across numerous industries. This article focuses on the development of an innovative consortium blockchain based financial distribution application. This paper illuminates the transformative role of blockchain technology in a variety of sectors by drawing on a plethora of academic literature and current industry practices. It demonstrates the diverse applications of blockchain, ranging from remittances to lending and investments in finance to data administration in healthcare and supply chain tracking. The paper reveals the design and potential of a consortium blockchain based application for financial distribution. Utilizing the capabilities of Hyperledger Besu, the application is tailored to improve security, scalability, and interoperability, thereby contributing to a more integrated financial ecosystem. The investigation sheds light on the combination of consortium blockchain controlled access and Hyprledger Besu comprehensive functionality, proposing a secure, transparent, and efficient financial transaction environment. The investigation serves as a resource for academics, industry professionals, and policymakers alike, highlighting the vast potential of blockchain technology, enabled by platforms such as Hyperledger Besu, in accelerating the evolution of traditional systems toward a more decentralized, secure, and efficient future. | 翻訳日:2023-11-16 18:43:54 公開日:2023-11-14 |
# 大規模フォトニクス用高分解能一致計数システム High-resolution coincidence counting system for large-scale photonics applications ( http://arxiv.org/abs/2311.08482v1 ) ライセンス: Link先を確認 | Josef Hlou\v{s}ek, Jan Grygar, Michal Dudka, and Miroslav Je\v{z}ek | (参考訳) 最近のフォトニクス実験の複雑さの増大は、高次機能を持つ効率的なマルチチャネル同時カウントシステムの開発に挑戦している。
本稿では,全チャネル数分解能で,シングルから16倍までの検出イベントをカウントできる一致ユニットについて報告する。
このデバイスは、最大入力周波数が1.5~ghz、全体的なジッタが10~ps未満の、100~ps以下のタイムウィンドウ内で動作します。
単位高レベルのタイミング性能は、低減衰ジッタ単光子検出器を用いた量子フォトニクス実験に適している。
さらに、このユニットは複雑なフォトニックシステムでフィードフォワードループを駆動するために使用できる。
光の統計的性質、特にコヒーレントな状態と熱状態を直接定量化するために、光子数分解検出における偶然カウントユニットを開発した。 The increasing complexity of the recent photonic experiments challenges developing efficient multi-channel coincidence counting systems with high-level functionality. Here, we report a coincidence unit able to count detection events ranging from singles to 16-fold coincidences with full channel-number resolution. The device operates within sub-100~ps coincidence time windows, with a maximum input frequency of 1.5~GHz and an overall jitter of less than 10~ps. The unit high-level timing performance renders it suitable for quantum photonic experiments employing low-timing-jitter single-photon detectors. Additionally, the unit can be used in complex photonic systems to drive feed-forward loops. We have demonstrated the developed coincidence counting unit in photon-number-resolving detection to directly quantify the statistical properties of light, specifically coherent and thermal states, with a fidelity exceeding 0.999 up to 60~photons. | 翻訳日:2023-11-16 18:43:34 公開日:2023-11-14 |
# 仕様記述による機能学習 Functionality learning through specification instructions ( http://arxiv.org/abs/2311.08481v1 ) ライセンス: Link先を確認 | Pedro Henrique Luz de Araujo and Benjamin Roth | (参考訳) テストスイートは、自然言語処理モデルのパフォーマンスを特定の機能、すなわちモデルの堅牢性、公正性、あるいは特定の言語能力に関わるケースで評価する。
標準的な評価データセットでは認識できないようなモデル側面のきめ細かい評価を可能にするが、障害ケースの修正方法の問題には対処しない。
以前の研究では、スイートデータ上の微調整モデルによる機能学習を探求している。
これにより、見かける機能のパフォーマンスが向上するが、しばしば見えない機能に一般化せず、一般的なパフォーマンスに悪影響を及ぼす。
本稿では,機能学習に対する微調整フリーアプローチについて分析する。
スイートの各機能に対して、それをエンコードする仕様命令を生成します。
得られた仕様命令を組み合わせて仕様拡張プロンプトを生成し、自然言語命令データに基づいて事前訓練された言語モデルにフィードし、スイート予測を生成する。
私たちの分析の核となる側面は、仕様のセットを含むことが、見当たらない、定性的に異なる仕様の保持されたセットに与える影響を測定することです。
80Mから175Bのパラメータを含む4つのタスクとモデルに対する実験により、より小さなモデルでは仕様の指示に従うのに苦労していることが示された。
しかし、より大きなモデル (> 3B params.) は仕様の恩恵を受け、機能にまたがる望ましい振る舞いを一般化する。 Test suites assess natural language processing models' performance on specific functionalities: cases of interest involving model robustness, fairness, or particular linguistic capabilities. They enable fine-grained evaluations of model aspects that would otherwise go unnoticed in standard evaluation datasets, but they do not address the problem of how to fix the failure cases. Previous work has explored functionality learning by fine-tuning models on suite data. While this improves performance on seen functionalities, it often does not generalize to unseen ones and can harm general performance. This paper analyses a fine-tuning-free approach to functionality learning. For each functionality in a suite, we generate a specification instruction that encodes it. We combine the obtained specification instructions to create specification-augmented prompts, which we feed to language models pre-trained on natural instruction data to generate suite predictions. A core aspect of our analysis is to measure the effect that including a set of specifications has on a held-out set of unseen, qualitatively different specifications. Our experiments across four tasks and models ranging from 80M to 175B parameters show that smaller models struggle to follow specification instructions. However, larger models (> 3B params.) can benefit from specifications and even generalize desirable behaviors across functionalities. | 翻訳日:2023-11-16 18:43:18 公開日:2023-11-14 |
# フェデレーション学習における軽量クライアント改善のための基礎モデル活用 Leveraging Foundation Models to Improve Lightweight Clients in Federated Learning ( http://arxiv.org/abs/2311.08479v1 ) ライセンス: Link先を確認 | Xidong Wu, Wan-Yi Lin, Devin Willmott, Filipe Condessa, Yufei Huang, Zhenzhen Li and Madan Ravi Ganesh | (参考訳) Federated Learning(FL)は、世界中に散在するクライアントが機密データを漏らさずにグローバルモデルを共同で学習できるようにする分散トレーニングパラダイムである。
しかし、FLはクライアント間の不均一なデータ分散という形で大きな課題に直面しており、パフォーマンスとロバスト性は低下する。
ヘテロジニアスデータ分散の影響を緩和するための最近のアプローチは、より大きな計算オーバーヘッドとより遅い推論速度のコストでより良いパフォーマンスを提供する基礎モデルを使用することである。
我々は,軽量クライアントモデルの連帯訓練を支援し,推論コストを低く抑えつつ異種データ設定下での性能を向上させるための基礎モデル蒸留法を提案する。
この結果から, 極端に非IIDクライアントデータ分布下であっても, 稀に観測されるサンプルを含むバランステストセットのグローバルモデル性能が改善された。
CIFAR10では,クライアント間のクラス固有のデータパーティションから,0.01から1.0の値でパラメータ化されたディリクレデータサンプリングに至るまで,多種多様なデータ分散が実現されている。 Federated Learning (FL) is a distributed training paradigm that enables clients scattered across the world to cooperatively learn a global model without divulging confidential data. However, FL faces a significant challenge in the form of heterogeneous data distributions among clients, which leads to a reduction in performance and robustness. A recent approach to mitigating the impact of heterogeneous data distributions is through the use of foundation models, which offer better performance at the cost of larger computational overheads and slower inference speeds. We introduce foundation model distillation to assist in the federated training of lightweight client models and increase their performance under heterogeneous data settings while keeping inference costs low. Our results show improvement in the global model performance on a balanced testing set, which contains rarely observed samples, even under extreme non-IID client data distributions. We conduct a thorough evaluation of our framework with different foundation model backbones on CIFAR10, with varying degrees of heterogeneous data distributions ranging from class-specific data partitions across clients to dirichlet data sampling, parameterized by values between 0.01 and 1.0. | 翻訳日:2023-11-16 18:43:00 公開日:2023-11-14 |
# 大規模言語モデルを用いたFew-Shot学習におけるデモグラフィックフェアネスのためのショットの選択 Selecting Shots for Demographic Fairness in Few-Shot Learning with Large Language Models ( http://arxiv.org/abs/2311.08472v1 ) ライセンス: Link先を確認 | Carlos Aguirre, Kuleen Sasse, Isabel Cachola and Mark Dredze | (参考訳) 最近、NLPでの作業は、様々なタスクにわたって大きな言語モデル(LLM)がうまく機能する、少数の(コンテキスト内での)学習に移行した。
しかし, 教師付き手法の公正性評価は標準となっているが, 予測システムとしてのLLMの公平性についてはほとんど分かっていない。
さらに、フェアネスの一般的な標準方法は、モデルの重み付けへのアクセス、または微調整時に適用される。
LLMは標準NLPタスクに使用する場合の予測バイアスを示すか?
本研究では,nlp 分類システムとしての llms の公平性に対するモデルの性能に直接影響を及ぼすショットの効果について検討する。
3つの標準フェアネスデータセットにまたがるモデルフェアネスに,既存および新規の人口動態に敏感な方法の異なるショット選択戦略がどのように影響するかを検討する。
今後の課題として,LLMの公平性評価について論じる。 Recently, work in NLP has shifted to few-shot (in-context) learning, with large language models (LLMs) performing well across a range of tasks. However, while fairness evaluations have become a standard for supervised methods, little is known about the fairness of LLMs as prediction systems. Further, common standard methods for fairness involve access to models weights or are applied during finetuning, which are not applicable in few-shot learning. Do LLMs exhibit prediction biases when used for standard NLP tasks? In this work, we explore the effect of shots, which directly affect the performance of models, on the fairness of LLMs as NLP classification systems. We consider how different shot selection strategies, both existing and new demographically sensitive methods, affect model fairness across three standard fairness datasets. We discuss how future work can include LLM fairness evaluations. | 翻訳日:2023-11-16 18:42:39 公開日:2023-11-14 |
# あり得ない推論: あり得ない状況に対する帰納的推論 UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations ( http://arxiv.org/abs/2311.08469v1 ) ライセンス: Link先を確認 | Wenting Zhao, Justin T Chiu, Jena D. Hwang, Faeze Brahman, Jack Hessel, Sanjiban Choudhury, Yejin Choi, Xiang Lorraine Li, Alane Suhr | (参考訳) イベントのダイナミクスを正確にモデル化する言語技術は、常識推論を実行する必要がある。
常識推論を評価する既存の作業は、日常的な日常的な状況を推論することに焦点を当てている。
異常、予期せぬ、そしてありそうもない状況をモデル化する能力を調べるために、我々は非常識な誘惑的推論の課題を探求する。
予期せぬ結果を伴うコンテキストが与えられた場合、このタスクは、予期せぬ結果が文脈でより起こりやすいような自然言語の説明を生成するために、故意に推論する必要がある。
この目的のために、UNcommonsenseと呼ばれる新しい英語コーパスを作成、リリースする。
人間の説明能力と優れた言語モデルとの差異を特徴付け、モデル強化された人間による説明が特異性と多様性のトレードオフによって最高の品質を達成することを発見した。
最後に,オープンでアクセシブルな言語モデルをトレーニングするために,複数のオンライン模倣学習アルゴリズムを実験した。
バニラ監督による微調整手法と比較して、これらの手法は人間の評価者によって判断される常識的および非常識的誘惑的推論の損失率を一貫して減少させる。 Language technologies that accurately model the dynamics of events must perform commonsense reasoning. Existing work evaluating commonsense reasoning focuses on making inferences about common, everyday situations. To instead investigate the ability to model unusual, unexpected, and unlikely situations, we explore the task of uncommonsense abductive reasoning. Given a piece of context with an unexpected outcome, this task requires reasoning abductively to generate a natural language explanation that makes the unexpected outcome more likely in the context. To this end, we curate and release a new English language corpus called UNcommonsense. We characterize the differences between the performance of human explainers and the best performing large language models, finding that model-enhanced human-written explanations achieve the highest quality by trading off between specificity and diversity. Finally, we experiment with several online imitation learning algorithms to train open and accessible language models on this task. When compared with the vanilla supervised fine-tuning approach, these methods consistently reduce lose rates on both common and uncommonsense abductive reasoning judged by human evaluators. | 翻訳日:2023-11-16 18:42:23 公開日:2023-11-14 |
# 一般化ロクサー・キヴェルソン波動関数における魔法 Magic in generalized Rokhsar-Kivelson wavefunctions ( http://arxiv.org/abs/2311.08463v1 ) ライセンス: Link先を確認 | Poetri Sonya Tarabunga, Claudio Castelnovo | (参考訳) マジックは安定状態からの逸脱を特徴付ける量子状態の性質であり、クリフォード演算を使用するスキームの中で、普遍的な量子計算を達成するための有用な資源として機能する。
本研究では,一般化ロクサー・キヴェルソン系,すなわち確率行列形式(smf)分解を許容するハミルトニアン系と呼ばれるモデルにおいて,安定化器レニ・エントロピーによって定量化された魔法を研究する。
これらの系の基底状態波動関数は位相図を通して明示的に記述することができ、それらの性質は関連する古典的統計力学問題と関連付けられるため、従来の量子多体設定では一般的に利用できない強力な解析的および数値的アプローチを可能にする。
その結果、sre は関連する古典問題の自由エネルギー差として理解できる波動関数係数を用いて表現することができる。
この知見を量子多体smfハミルトニアンの範囲に適用することにより、大きな高次元系のsreを数値的に研究し、場合によっては解析結果を得ることができる。
我々は、sreの挙動がこれらの系における量子相転移において比較的特徴的でないことを観測するが、実際には特異である(遷移の性質によっては、その1次またはそれ以上の微分において)。
それとは対照的に、SREの最大値は量子臨界点から外れたカスプで発生し、導関数が突然符号を変化させる。
さらに、SREと重なり合いの対数と特定の安定化状態を比較し、これらの系の基底状態位相図で漸近的に実現した。
それらは著しく類似した振る舞いを示し、それによって魔法のミン相対エントロピーに厳密な境界を確立する。 Magic is a property of a quantum state that characterizes its deviation from a stabilizer state, serving as a useful resource for achieving universal quantum computation e.g., within schemes that use Clifford operations. In this work, we study magic, as quantified by the stabilizer Renyi entropy, in a class of models known as generalized Rokhsar-Kivelson systems, i.e., Hamiltonians that allow a stochastic matrix form (SMF) decomposition. The ground state wavefunctions of these systems can be written explicitly throughout their phase diagram, and their properties can be related to associated classical statistical mechanics problems, thereby allowing powerful analytical and numerical approaches that are not usually available in conventional quantum many body settings. As a result, we are able to express the SRE in terms of wave function coefficients that can be understood as a free energy difference of related classical problems. We apply this insight to a range of quantum many body SMF Hamiltonians, which affords us to study numerically the SRE of large high-dimensional systems, and in some cases to obtain analytical results. We observe that the behaviour of the SRE is relatively featureless across quantum phase transitions in these systems, although it is indeed singular (in its first or higher order derivative, depending on the nature of the transition). On the contrary, we find that the maximum of the SRE generically occurs at a cusp away from the quantum critical point, where the derivative suddenly changes sign. Furthermore, we compare the SRE and the logarithm of overlaps with specific stabilizer states, asymptotically realised in the ground state phase diagrams of these systems. We find that they display strikingly similar behaviors, which in turn establish rigorous bounds on the min-relative entropy of magic. | 翻訳日:2023-11-16 18:42:03 公開日:2023-11-14 |
# 高分解能銀河シミュレーションにおける超新星の計算コストシミュレーションのためのサロゲートモデリング Surrogate Modeling for Computationally Expensive Simulations of Supernovae in High-Resolution Galaxy Simulations ( http://arxiv.org/abs/2311.08460v1 ) ライセンス: Link先を確認 | Keiya Hirashima, Kana Moriwaki, Michiko S. Fujii, Yutaka Hirai, Takayuki R. Saitoh, Junichiro Makino, and Shirley Ho | (参考訳) 一部の恒星は、生命の終わりに超新星(sne)と呼ばれる爆発することが知られている。
SNeが放出するかなりの量の物質とエネルギーは、銀河の星形成とガス力学に多大なフィードバックを与える。
SNeは恒星間物質にかなりの量の物質とエネルギーを放出し、恒星形成と銀河内のガス力学に大きなフィードバックを与える。
このようなフィードバックは銀河の形成と進化において重要な役割を担っているが、銀河形成のシミュレーションでは、SNeの周囲のガス元素の進化を数値的に解くのではなく、単純な準グリッドモデルを用いてのみ実装されている。
我々は,超新星が周囲のガスに与える影響を予測するため,機械学習とギブスサンプリングを組み合わせた手法を開発した。
熱エネルギーと運動量分布におけるモデルの忠実性は低分解能snシミュレーションよりも優れている。
本手法はsnサブグリッドモデルを置き換えることができ、銀河形成シミュレーションにおいて未解決のsnフィードバックを適切にシミュレートすることができる。
我々の新しいアプローチを用いることで、SNフィードバックを直接解決するよりも計算コストを$\sim$1%に削減できることがわかった。 Some stars are known to explode at the end of their lives, called supernovae (SNe). The substantial amount of matter and energy that SNe release provides significant feedback to star formation and gas dynamics in a galaxy. SNe release a substantial amount of matter and energy to the interstellar medium, resulting in significant feedback to star formation and gas dynamics in a galaxy. While such feedback has a crucial role in galaxy formation and evolution, in simulations of galaxy formation, it has only been implemented using simple {\it sub-grid models} instead of numerically solving the evolution of gas elements around SNe in detail due to a lack of resolution. We develop a method combining machine learning and Gibbs sampling to predict how a supernova (SN) affects the surrounding gas. The fidelity of our model in the thermal energy and momentum distribution outperforms the low-resolution SN simulations. Our method can replace the SN sub-grid models and help properly simulate un-resolved SN feedback in galaxy formation simulations. We find that employing our new approach reduces the necessary computational cost to $\sim$ 1 percent compared to directly resolving SN feedback. | 翻訳日:2023-11-16 18:41:32 公開日:2023-11-14 |
# ダイヤモンドスズ空洞中心のコヒーレント結合と可変開放型マイクロキャビティ Coherent Coupling of a Diamond Tin-Vacancy Center to a Tunable Open Microcavity ( http://arxiv.org/abs/2311.08456v1 ) ライセンス: Link先を確認 | Yanik Herrmann, Julius Fischer, Julia M. Brevoord, Colin Sauerzapf, Leonardo G. C. Wienhoven, Laurens J. Feije, Matteo Pasini, Martin Eschen, Maximilian Ruf, Matthew J. Weaver, Ronald Hanson | (参考訳) 光学活性量子ビットと光学キャビティの効率的な結合は、固体ベースの量子光学実験と将来の量子技術にとって重要な課題である。
ここでは,波長可変な開放型マイクロキャビティに結合したマイクロメートルのダイヤモンド膜中の単一スズ空洞中心に基づく量子フォトニックインタフェースを提案する。
マイクロキャビティの完全なチューナビリティを用いて,キャビティモードボリューム内の個々のスズ空洞中心を選択的に扱う。
Tin-Vacancy中心光遷移のパーセル向上は、光励起状態寿命短縮と光線幅拡大の両方によって証明される。
エミッタは入射光の単一光子成分を選択的に反射するため、結合エミッタキャビティ系は強い量子非線形挙動を示す。
共振では、パーセル還元励起状態の寿命当たりの低入射光子数に対して50パーセントの伝送ディップが観測され、エミッタは高い光子数で飽和しているため消滅する。
さらに,エミッタは光子束を観測することで透過光の光子統計を強く修正できることを実証する。
この研究は、固体量子ビットを用いた量子ネットワークに向けた、高度な量子光学実験と原理実証のための多用途で可変なプラットフォームを確立する。 Efficient coupling of optically active qubits to optical cavities is a key challenge for solid-state-based quantum optics experiments and future quantum technologies. Here we present a quantum photonic interface based on a single Tin-Vacancy center in a micrometer-thin diamond membrane coupled to a tunable open microcavity. We use the full tunability of the microcavity to selectively address individual Tin-Vacancy centers within the cavity mode volume. Purcell enhancement of the Tin-Vacancy center optical transition is evidenced both by optical excited state lifetime reduction and by optical linewidth broadening. As the emitter selectively reflects the single-photon component of the incident light, the coupled emitter-cavity system exhibits strong quantum nonlinear behavior. On resonance, we observe a transmission dip of 50 % for low incident photon number per Purcell-reduced excited state lifetime, while the dip disappears as the emitter is saturated with higher photon number. Moreover, we demonstrate that the emitter strongly modifies the photon statistics of the transmitted light by observing photon bunching. This work establishes a versatile and tunable platform for advanced quantum optics experiments and proof-of-principle demonstrations towards quantum networking with solid-state qubits. | 翻訳日:2023-11-16 18:41:11 公開日:2023-11-14 |
# 傾斜ボース・ハバード鎖におけるフラクトンの分解ダイナミクス Deconfinement Dynamics of Fractons in Tilted Bose-Hubbard Chains ( http://arxiv.org/abs/2311.08455v1 ) ライセンス: Link先を確認 | Julian Boesl, Philip Zechmann, Johannes Feldmeier, Michael Knap | (参考訳) フラクトニックな制約は、量子多体系のエキゾチックな性質をもたらす。
本稿では,1次元双極子保存ボース・ハバード模型の基底状態上におけるフラクトン励起のダイナミクスについて検討する。
近傍のフラクトンは仮想双極子励起を交換することで集団運動を起こし、基底となる基底状態相を特徴づける強力な動的ツールを提供する。
ギャップ付きモット絶縁相では、運動が大きな双極子の交換を必要とするため、フラクトンは互いに閉じ込められている。
相転移を横切ると、ダイポールの隙間のないルッティンガー液体に転移する。
過渡的な分解ダイナミクスは拡散的にスケールし、量子リフシッツモデルによって記述される強いが導かれる貢献を示す。
断熱状態の生成とその後の時間発展を数値的にシミュレーションし,傾斜したボース・ハバード鎖の実験的実現の可能性を検証し,低エネルギーフラクトンダイナミクスの明確なシグネチャを求める。 Fractonic constraints can lead to exotic properties of quantum many-body systems. Here, we investigate the dynamics of fracton excitations on top of the ground states of a one-dimemnsional, dipole-conserving Bose-Hubbard model. We show that nearby fractons undergo a collective motion mediated by exchanging virtual dipole excitations, which provides a powerful dynamical tool to characterize the underlying ground state phases. We find that in the gapped Mott insulating phase, fractons are confined to each other as motion requires the exchange of massive dipoles. When crossing the phase transition into a gapless Luttinger liquid of dipoles, fractons deconfine. Their transient deconfinement dynamics scales diffusively and exhibits strong but subleading contributions described by a quantum Lifshitz model. We examine prospects for the experimental realization in tilted Bose-Hubbard chains by numerically simulating the adiabatic state preparation and subsequent time evolution, and find clear signatures of the low-energy fracton dynamics. | 翻訳日:2023-11-16 18:40:47 公開日:2023-11-14 |
# マルチカメラシステムの物理応用例 Physical Adversarial Examples for Multi-Camera Systems ( http://arxiv.org/abs/2311.08539v1 ) ライセンス: Link先を確認 | Ana R\u{a}du\c{t}oiu and Jan-Philipp Schulze and Philip Sperl and Konstantin B\"ottinger | (参考訳) ニューラルネットワークはいくつかのインテリジェントシステムの基盤を構築するが、敵の例によって簡単に騙されることが知られている。
近年の進歩は、例えばカメラによって自律システムが周囲を観察する空飛ぶシナリオでもこれらの攻撃を可能にした。
我々は,これらのアイデアを研究に拡張し,このような物理対角的な例に対してマルチカメラ装置の堅牢性を評価する。
このシナリオは、自動運転車の人気が高まり、運転決定のために複数のカメラの情報を取り除き、ますます重要になる。
マルチカメラのセットアップは過去の攻撃方法に対する堅牢性を提供するが、この利点は複数の視点を同時に最適化する場合に減少する。
本稿では,オンライン3Dレンダリングと視点投影をトレーニングプロセスに組み込んだ,Transcender-MCと呼ばれる新たな攻撃手法を提案する。
さらに,特定のデータ拡張技術により,より良好な敵例の生成が促進される可能性が示唆された。
Transcender-MCは、最先端の手法よりも、マルチカメラのセットアップをうまく攻撃するのに11%有効である。
以上の知見は,複数のカメラを備えた装置において物体検出の弾力性に関する貴重な知見を提供し,それらに対して適切な防御機構を開発する必要性を示唆する。 Neural networks build the foundation of several intelligent systems, which, however, are known to be easily fooled by adversarial examples. Recent advances made these attacks possible even in air-gapped scenarios, where the autonomous system observes its surroundings by, e.g., a camera. We extend these ideas in our research and evaluate the robustness of multi-camera setups against such physical adversarial examples. This scenario becomes ever more important with the rise in popularity of autonomous vehicles, which fuse the information of several cameras for their driving decision. While we find that multi-camera setups provide some robustness towards past attack methods, we see that this advantage reduces when optimizing on multiple perspectives at once. We propose a novel attack method that we call Transcender-MC, where we incorporate online 3D renderings and perspective projections in the training process. Moreover, we motivate that certain data augmentation techniques can facilitate the generation of successful adversarial examples even further. Transcender-MC is 11% more effective in successfully attacking multi-camera setups than state-of-the-art methods. Our findings offer valuable insights regarding the resilience of object detection in a setup with multiple cameras and motivate the need of developing adequate defense mechanisms against them. | 翻訳日:2023-11-16 18:32:20 公開日:2023-11-14 |
# ワイルの明示和と算術的スペクトル測度の確率論的解釈 A probabilistic interpretation of Weil's explicit sums and arithmetic spectral measures ( http://arxiv.org/abs/2311.08519v1 ) ライセンス: Link先を確認 | \'Angel Alfredo Mor\'an Ledezma | (参考訳) 本稿では,リーマンゼータ関数のアデリックな定式化,ヴェイユの明示公式,そしてハラルド・ボーアによるいわゆる確率的数論の概念という,数論における3つのパラダイムの接続について考察する。
我々は、リーマンゼータ関数の分布値の理論のアデリック枠組みに根ざした、異なる再構成を与える。
この理論の自然確率空間として実数のボーアコンパクト化を導入することにより、ヴェイユの明示的な和が、この空間上で定義された確率変数に付随する共分散と期待値の項で表されることを示す。
さらに、ボーアコンパクト化上の平方可積分函数のヒルベルト空間上で定義される作用素に付随するスペクトル積分の極限として明示公式を表現する。
これはワイルの公式の確率的かつ幾何学的な解釈を与える。 In this paper we study the connections of three paradigms in number theory: the adelic formulation of the Riemann zeta function, the Weil explicit formula and the concepts of the so called probabilistic number theory initiated by Harald Bohr. We give a different reformulation, rooted in the adelic framework, of the theory of distribution values of the Riemann zeta function. By introducing the Bohr compactification of the real numbers as a natural probability space for this theory, we show that the Weil explicit sum can be expressed in terms of covariances and expected values attached to random variables defined on this space. Moreover, we express the explicit formula as a limit of spectral integrals attached to operators defined on the Hilbert space of square-integrable functions on the Bohr compactification. This gives a probabilistic and a geometrical interpretation of the Weil explicit formula. | 翻訳日:2023-11-16 18:32:01 公開日:2023-11-14 |
# 超伝導マイクロ波光変換器における光誘起マイクロ波ノイズ Light-Induced Microwave Noise in Superconducting Microwave-Optical Transducers ( http://arxiv.org/abs/2311.08518v1 ) ライセンス: Link先を確認 | Mingrui Xu, Chunzhen Li, Yuntao Xu and Hong X. Tang | (参考訳) マイクロ波から光へのトランスデューサは、光ファイバーリンクを介して超伝導量子プロセッサのスケーリングと長距離通信を可能にするため、超伝導量子コンピューティングの将来に不可欠である。
しかし、光誘起マイクロ波ノイズはマイクロ波と光周波数の量子変換を実現する上で大きな課題となる。
本研究では,薄膜ニオブ酸リチウムのポッケル効果を利用した集積型電気光学トランスデューサにおいて,光誘起マイクロ波ノイズについて検討する。
サブ100ナノ秒からミリ秒までの異なる時間定数を持つ3つのノイズ源を明らかにする。
超伝導マイクロ波光トランスデューサにおける光誘起マイクロ波ノイズのメカニズムとその緩和戦略について考察し,量子トランスデューサの究極的目標の実現に向けての道を開く。 Microwave-to-optical transducers are integral to the future of superconducting quantum computing, as they would enable scaling and long-distance communication of superconducting quantum processors through optical fiber links. However, optically-induced microwave noise poses a significant challenge in achieving quantum transduction between microwave and optical frequencies. In this work, we study light-induced microwave noise in an integrated electro-optical transducer harnessing Pockels effect of thin film lithium niobate. We reveal three sources of added noise with distinctive time constants ranging from sub-100 nanoseconds to milliseconds. Our results gain insights into the mechanisms and corresponding mitigation strategies for light-induced microwave noise in superconducting microwave-optical transducers, and pave the way towards realizing the ultimate goal of quantum transduction. | 翻訳日:2023-11-16 18:31:46 公開日:2023-11-14 |
# LLMは推論エラーを見つけることはできないが、修正できる! LLMs cannot find reasoning errors, but can correct them! ( http://arxiv.org/abs/2311.08516v1 ) ライセンス: Link先を確認 | Gladys Tyen, Hassan Mansoor, Peter Chen, Tony Mak, Victor C\u{a}rbune | (参考訳) 自己修正は、スタイルや品質の観点からllmアウトプットを改善する(例えば、chen et al., 2023; madaan et al., 2023)ことが期待されているが、近年の自己修正や推論の誤りは、しばしば正しい答えを誤ったものにし、全体的なパフォーマンスを悪化させる(huang et al., 2023)。
本稿では,自己補正過程を,誤検出と出力補正の2つのコアコンポーネントに分解する。
BIG-Bench MistakeはChain-of-Thought推論トレースにおける論理的誤りのデータセットである。
我々は、いくつかの最先端LLMのベンチマーク値を提供し、LLMが論理的誤りを見つけるのに一般的に苦労していることを示す。
出力補正のために,誤り位置に関する情報を与えられた場合に大きな改善を提供するバックトラッキング手法を提案する。
バックトラックは強化学習法に代わる軽量な代替手段であり,60~70%の精度で報酬モデルで有効であることを示す。 While self-correction has shown promise in improving LLM outputs in terms of style and quality (e.g. Chen et al., 2023; Madaan et al., 2023), recent attempts to self-correct logical or reasoning errors often cause correct answers to become incorrect, resulting in worse performances overall (Huang et al., 2023). In this paper, we break down the self-correction process into two core components: mistake finding and output correction. For mistake finding, we release BIG-Bench Mistake, a dataset of logical mistakes in Chain-of-Thought reasoning traces. We provide benchmark numbers for several state-of-the-art LLMs, and demonstrate that LLMs generally struggle with finding logical mistakes. For output correction, we propose a backtracking method which provides large improvements when given information on mistake location. We construe backtracking as a lightweight alternative to reinforcement learning methods, and show that it remains effective with a reward model at 60-70% accuracy. | 翻訳日:2023-11-16 18:31:34 公開日:2023-11-14 |
# CoRE-CoG:制約生成を用いたエンティティの会話勧告 CoRE-CoG: Conversational Recommendation of Entities using Constrained Generation ( http://arxiv.org/abs/2311.08511v1 ) ライセンス: Link先を確認 | Harshvardhan Srivastava and Kanav Pruthi and Soumen Chakrabarti and Mausam | (参考訳) 対話履歴と知識ベース(KB)の両方を活用することで、対話推薦システム(CRS)が応答を生成する。
crsは、主に3つの重要な課題に直面している: (1) 各ターンにおいて、kbエンティティを推奨することが適切かどうかを判断しなければならない;もしそうであれば、推奨すべき最も関連するkbエンティティを識別する必要がある。
近年のCRSはこれらのデシデラタに十分な注意を払わず、しばしば不利な反応や(関連する)エンティティを正しい方向に推奨しない。
我々は、CoRE-CoGと呼ばれる新しいCRSを導入する。
core-cogは,(1)システム発話がエンティティを含むべきかどうかを判断する推奨トリガ,(2)推奨エンティティの関連性を向上させる型プルーニングモジュール,(3)フラレンシを維持しながら推奨を行う新たな制約付き応答ジェネレータを実装することで,先行システムにおける制限に対処する。
これらのモジュールを組み合わせることで、正確な推奨決定とシステム発話を同時に行うことができる。
最近のベンチマークでの実験では、条件付き生成サブタスクにおいて、特に10 F1と4 Recall@1%のポイントがベースラインを超えている。 End-to-end conversational recommendation systems (CRS) generate responses by leveraging both dialog history and a knowledge base (KB). A CRS mainly faces three key challenges: (1) at each turn, it must decide if recommending a KB entity is appropriate; if so, it must identify the most relevant KB entity to recommend; and finally, it must recommend the entity in a fluent utterance that is consistent with the conversation history. Recent CRSs do not pay sufficient attention to these desiderata, often generating unfluent responses or not recommending (relevant) entities at the right turn. We introduce a new CRS we call CoRE-CoG. CoRE-CoG addresses the limitations in prior systems by implementing (1) a recommendation trigger that decides if the system utterance should include an entity, (2) a type pruning module that improves the relevance of recommended entities, and (3) a novel constrained response generator to make recommendations while maintaining fluency. Together, these modules ensure simultaneous accurate recommendation decisions and fluent system utterances. Experiments with recent benchmarks show the superiority particularly on conditional generation sub-tasks with close to 10 F1 and 4 Recall@1 percent points gain over baselines. | 翻訳日:2023-11-16 18:31:12 公開日:2023-11-14 |
# 連続的動的デカップリングによるデコヒーレンス低減:ノイズスペクトルの役割に関する解析的研究 Decoherence reduction via continuous dynamical decoupling: Analytical study of the role of the noise spectrum ( http://arxiv.org/abs/2311.08508v1 ) ライセンス: Link先を確認 | J.M. Gomez Llorente, I. Gomez-Ojeda, and J. Plata | (参考訳) 我々は、 ^{87}\textrm{Rb} の超微細ゼーマン多重項における連続動的デカップリング(CDD)法によるクロック遷移の非定常雑音に対するロバスト特性を解析した。
線形ゼーマン効果に対する二次補正に特有の特徴の出現を評価した。
確率解析法と時間依存摂動理論を組み合わせた解析手法により,一般雑音源のデコヒーレンス過程のトレースが可能となる。
まず、基本的なCDDスキームを用いて、(運転)制御フィールドの振幅と周波数を適切に選択して、(時間依存)摂動特性を持つように非定常ランダム入力を強制できることが示される。
さらに、この着衣状態図では、駆動場に依存する特性を解析的に特徴付けることができる操作ランダム変数の観点から、ノイズの効果を記述する。
本枠組みでは, 揺らぎのスペクトル密度がCDD法の性能に与える影響を正確に評価する。
特に、デコヒーレンス低減方法が効率的であるノイズ相関時間の範囲を同定する。
基本CDDフレームワークで得られた結果は、連結スキームに外挿される。
このアプローチの一般性は、考慮された特定の原子システムを超えた適用性を可能にします。 We analyze the robust character against non-static noise of clock transitions implemented via a method of continuous dynamical decoupling (CDD) in a hyperfine Zeeman multiplet in ^{87}\textrm{Rb}. The emergence of features specific to the quadratic corrections to the linear Zeeman effect is evaluated. Our analytical approach, which combines methods of stochastic analysis with time-dependent perturbation theory, allows tracing the decoherence process for generic noise sources. Working first with a basic CDD scheme, it is shown that the amplitude and frequency of the (driving) field of control can be appropriately chosen to force the non-static random input to have a (time-dependent) perturbative character. Moreover, in the dressed-state picture, the effect of noise is described in terms of an operative random variable whose properties, dependent on the driving field, can be analytically characterized. In this framework, the relevance of the spectral density of the fluctuations to the performance of the CDD technique is precisely assessed. In particular, the range of noise correlation times where the method of decoherence reduction is still efficient is identified. The results obtained in the basic CDD framework are extrapolated to concatenated schemes. The generality of our approach allows its applicability beyond the specific atomic system considered. | 翻訳日:2023-11-16 18:30:45 公開日:2023-11-14 |
# 思考の半構造化連鎖:言語モデル推論の改善のための複数の知識源の統合 Semi-Structured Chain-of-Thought: Integrating Multiple Sources of Knowledge for Improved Language Model Reasoning ( http://arxiv.org/abs/2311.08505v1 ) ライセンス: Link先を確認 | Xin Su, Tiep Le, Steven Bethard, Phillip Howard | (参考訳) 知識集約型タスクにおける大規模言語モデルの使用に関する重要な疑問は、モデルのパラメトリックメモリ、外部構造化知識、外部非構造化知識の3つのソースからの知識を効果的に統合する方法である。
既存のプロンプト法の多くは、これらソースの1つか2つだけに依存しているか、あるいは類似または同一のコンテンツを生成するために、大きな言語モデルを繰り返し呼び出す必要がある。
本研究では,モデルのパラメトリックメモリをテキスト文書からの非構造化知識と知識グラフからの構造化知識とをシームレスに統合する,新しい半構造化プロンシング手法を導入することで,これらの制約を克服する。
オープンドメイン型マルチホップ質問応答データセットの実験結果から,提案手法が既存の手法をはるかに上回り,微調整を必要とするものよりもはるかに多いことが示された。 An important open question pertaining to the use of large language models for knowledge-intensive tasks is how to effectively integrate knowledge from three sources: the model's parametric memory, external structured knowledge, and external unstructured knowledge. Most existing prompting methods either rely solely on one or two of these sources, or require repeatedly invoking large language models to generate similar or identical content. In this work, we overcome these limitations by introducing a novel semi-structured prompting approach that seamlessly integrates the model's parametric memory with unstructured knowledge from text documents and structured knowledge from knowledge graphs. Experimental results on open-domain multi-hop question answering datasets demonstrate that our prompting method significantly surpasses existing techniques, even exceeding those which require fine-tuning. | 翻訳日:2023-11-16 18:30:26 公開日:2023-11-14 |
# 指数傾斜混合モデルを用いた半教師付き推定について On semi-supervised estimation using exponential tilt mixture models ( http://arxiv.org/abs/2311.08504v1 ) ライセンス: Link先を確認 | Ye Tian, Xinwei Zhang and Zhiqiang Tan | (参考訳) バイナリ応答と予測器のラベル付きデータセットと、予測器のみのラベルなしデータセットによる半教師付き設定を考える。
ロジスティック回帰はラベル付き人口の指数的傾きモデルと等価である。
半教師付き推定において,指数傾斜混合モデル(ETM)と最大非パラメトリック推定を用いた統計的アプローチのさらなる分析と理解を行ない,ラベル付きデータとラベル付きデータの間にクラス比が異なることを可能にした。
我々は,etmに基づく推定の漸近的性質を導出し,ランダムサンプリング設定と結果階層サンプリング設定において教師付きロジスティック回帰よりも効率が向上することを示す。
さらに、ラベル付きおよびラベル付きデータのクラス比が同じに制限された場合、そのような効率改善を既存の半パラメトリック効率理論と照合する。
また,理論的な知見を数値的に示すためのシミュレーション研究も行う。 Consider a semi-supervised setting with a labeled dataset of binary responses and predictors and an unlabeled dataset with only the predictors. Logistic regression is equivalent to an exponential tilt model in the labeled population. For semi-supervised estimation, we develop further analysis and understanding of a statistical approach using exponential tilt mixture (ETM) models and maximum nonparametric likelihood estimation, while allowing that the class proportions may differ between the unlabeled and labeled data. We derive asymptotic properties of ETM-based estimation and demonstrate improved efficiency over supervised logistic regression in a random sampling setup and an outcome-stratified sampling setup previously used. Moreover, we reconcile such efficiency improvement with the existing semiparametric efficiency theory when the class proportions in the unlabeled and labeled data are restricted to be the same. We also provide a simulation study to numerically illustrate our theoretical findings. | 翻訳日:2023-11-16 18:30:11 公開日:2023-11-14 |
# MADG:ドメイン一般化のためのマージンベースの逆学習 MADG: Margin-based Adversarial Learning for Domain Generalization ( http://arxiv.org/abs/2311.08503v1 ) ライセンス: Link先を確認 | Aveen Dayal, Vimal K. B., Linga Reddy Cenkeramaddi, C. Krishna Mohan, Abhinav Kumar and Vineeth N Balasubramanian | (参考訳) ドメイン一般化(Domain Generalization, DG)技術は、ディープラーニング(DL)におけるドメインシフトの課題に対処するための一般的なアプローチとして現れ、トレーニング中に見つからないターゲットドメインに適切に一般化することを目的としている。
近年、dg設定に対処するために多くの手法が提案されているが、その中の一つが逆学習に基づく手法である。
逆DG法の背後にある主な考え方は、差分距離を最小化することで、ドメイン不変の特徴を学習することである。
しかし、ほとんどの逆 DG 法は 0-1 ロスベース $\mathcal{H}\Delta\mathcal{H}$ divergence metric を用いる。
対照的に、マージン損失に基づく不一致指標には次のような利点がある: より有益で、より密接で、実用的で、効率的に最適化できる。
このギャップを緩和するため、本研究では、マージン損失に基づく不一致指標に動機づけられた新しい逆学習dgアルゴリズムであるmadgを提案する。
提案したMADGモデルは,すべてのソースドメインにまたがるドメイン不変の特徴を学習し,敵対的トレーニングを用いて,未知のターゲットドメインによく適応する。
また,提案手法を用いた目標誤差境界に基づくmadgモデルの理論的解析を行った。
具体的には、実数値仮説空間におけるソース領域と見えない領域のリンクを構築し、マージン損失とラデマッハ複雑性を用いて一般化を導出する。
我々は、人気のある現実世界のDGデータセット、VLCS、PACS、OfficeHome、DomainNet、TerraIncognitaのMADGモデルを広範囲に実験した。
提案アルゴリズムをDomainBedのベンチマークで評価し,すべてのデータセットで一貫した性能を観測する。 Domain Generalization (DG) techniques have emerged as a popular approach to address the challenges of domain shift in Deep Learning (DL), with the goal of generalizing well to the target domain unseen during the training. In recent years, numerous methods have been proposed to address the DG setting, among which one popular approach is the adversarial learning-based methodology. The main idea behind adversarial DG methods is to learn domain-invariant features by minimizing a discrepancy metric. However, most adversarial DG methods use 0-1 loss based $\mathcal{H}\Delta\mathcal{H}$ divergence metric. In contrast, the margin loss-based discrepancy metric has the following advantages: more informative, tighter, practical, and efficiently optimizable. To mitigate this gap, this work proposes a novel adversarial learning DG algorithm, MADG, motivated by a margin loss-based discrepancy metric. The proposed MADG model learns domain-invariant features across all source domains and uses adversarial training to generalize well to the unseen target domain. We also provide a theoretical analysis of the proposed MADG model based on the unseen target error bound. Specifically, we construct the link between the source and unseen domains in the real-valued hypothesis space and derive the generalization bound using margin loss and Rademacher complexity. We extensively experiment with the MADG model on popular real-world DG datasets, VLCS, PACS, OfficeHome, DomainNet, and TerraIncognita. We evaluate the proposed algorithm on DomainBed's benchmark and observe consistent performance across all the datasets. | 翻訳日:2023-11-16 18:29:55 公開日:2023-11-14 |
# 制約付き変分量子固有解法(VQEC):VQEによる制約付き最適化問題の解法 Variational Quantum Eigensolver with Constraints (VQEC): Solving Constrained Optimization Problems via VQE ( http://arxiv.org/abs/2311.08502v1 ) ライセンス: Link先を確認 | Thinh Viet Le and Vassilis Kekatos | (参考訳) 変分量子アプローチは、計算に挑戦するタスクの最適に近い解を見つけることに非常に有望である。
それでも、規律的な方法で制約を強制することは、ほとんど探索されていない。
このギャップに対処するため、この研究はVQECと呼ばれるハイブリッド量子古典的アルゴリズムパラダイムを提案し、有名なVQEを拡張して制約による最適化を扱う。
標準VQEと同様に、最適化変数のベクトルは変分量子回路(VQC)の状態によって取得される。
制約に対処するため、VQECは古典的にVQCパラメータと制約に関連する双対変数の両方に対してラグランジュ関数を最適化する。
量子設定に従うために、変数はパラメータシフト規則を利用した摂動原始双対法によって更新される。
応用範囲が広い中で、VQEC が2次制約付きバイナリ最適化 (QCBO) 問題を大まかに解き、平均および確率の2次制約を満たす確率的バイナリポリシーを見つけ、確率的単純性に対して大規模線形プログラム (LP) を解く方法を示す。
任意の確率質量関数(pmf)を近似するvqcの誤差の仮定の下で、vqcによって達成される最適性ギャップの境界を与える。
量子シミュレータの数値実験は、VQECが高品質な解を生成できるような様々なパラメータの効果と相関性を調べる。 Variational quantum approaches have shown great promise in finding near-optimal solutions to computationally challenging tasks. Nonetheless, enforcing constraints in a disciplined fashion has been largely unexplored. To address this gap, this work proposes a hybrid quantum-classical algorithmic paradigm termed VQEC that extends the celebrated VQE to handle optimization with constraints. As with the standard VQE, the vector of optimization variables is captured by the state of a variational quantum circuit (VQC). To deal with constraints, VQEC optimizes a Lagrangian function classically over both the VQC parameters as well as the dual variables associated with constraints. To comply with the quantum setup, variables are updated via a perturbed primal-dual method leveraging the parameter shift rule. Among a wide gamut of potential applications, we showcase how VQEC can approximately solve quadratically-constrained binary optimization (QCBO) problems, find stochastic binary policies satisfying quadratic constraints on the average and in probability, and solve large-scale linear programs (LP) over the probability simplex. Under an assumption on the error for the VQC to approximate an arbitrary probability mass function (PMF), we provide bounds on the optimality gap attained by a VQC. Numerical tests on a quantum simulator investigate the effect of various parameters and corroborate that VQEC can generate high-quality solutions. | 翻訳日:2023-11-16 18:29:26 公開日:2023-11-14 |
# 量子ガス実験のための全光学的磁場計測 All-optical measurement of magnetic fields for quantum gas experiments ( http://arxiv.org/abs/2311.08497v1 ) ライセンス: Link先を確認 | Suthep Pomjaksilp, Sven Schmidt, Aaron Thielmann, Thomas Niederpr\"um, Herwig Ott | (参考訳) 光双極子トラップに閉じ込められた超低温原子の雲に存在する残留磁場の測定と補償のための全光学的手法を提案する。
本手法は電磁誘導吸収により捕捉された原子試料からの損失を増大させる。
励起レーザーの変調はコヒーレントなサイドバンドを提供し、結果として {\lambda} 型ポンププロベスキームとなる。
追加の磁場オフセット場を走査すると、その位置が3つの空間方向すべてで磁場を符号化するサブナチュラル線幅共鳴が起こる。
我々の測定方法は典型的な量子ガス実験で容易に実装でき、特別なハードウェア要件を持たない。 We present an all-optical method to measure and compensate for residual magnetic fields present in a cloud of ultracold atoms trapped in an optical dipole trap. Our approach leverages the increased loss from the trapped atomic sample through electromagnetically induced absorption. Modulating the excitation laser provides coherent sidebands, resulting in {\Lambda}-type pump-probe scheme. Scanning an additional magnetic offset field leads to pairs of sub-natural linewidth resonances, whose positions encode the magnetic field in all three spatial directions. Our measurement scheme is readily implemented in a typical quantum gas experiments and has no particular hardware requirements. | 翻訳日:2023-11-16 18:29:01 公開日:2023-11-14 |
# 量子モラゲームにおけるフォトニック実装 Photonic Implementation of the Quantum Morra Game ( http://arxiv.org/abs/2311.08495v1 ) ライセンス: Link先を確認 | Andres Ulibarrena, Alejandro Sopena, Russell Brooks, Daniel Centeno, Joseph Ho, German Sierra, Alessandro Fedrizzi | (参考訳) 本稿では,古典ゲームを特殊なケースとして含めることで,従来の研究を基盤とした2プレーヤ量子モラゲームの忠実な翻訳について検討する。
本稿では、アリスが古典ゲームのバランスを崩し、勝利の優位性を持つ量子状態におけるゲームの自然な変形を提案する。
ナッシュ均衡は、混合戦略が常に必要となる古典ゲームでは不可能な純粋な戦略を用いることで、いくつかのケースで見つかる。
我々は,線形光学系における光量子ビットを用いて,測定結果の確率に対して平均偏差が2%未満の状態を準備した。
最後に、量子情報と通信の研究における量子モラゲームの可能性について論じる。 In this paper, we study a faithful translation of a two-player quantum Morra game, which builds on previous work by including the classical game as a special case. We propose a natural deformation of the game in the quantum regime in which Alice has a winning advantage, breaking the balance of the classical game. A Nash equilibrium can be found in some cases by employing a pure strategy, which is impossible in the classical game where a mixed strategy is always required. We prepared our states using photonic qubits on a linear optics setup, with an average deviation less than 2% with respect to the measured outcome probabilities. Finally, we discuss potential applications of the quantum Morra game to the study of quantum information and communication. | 翻訳日:2023-11-16 18:28:51 公開日:2023-11-14 |
# ブロックチェーンに基づく金融支援の新たなパラダイム A New Paradigm in Blockchain-based Financial Aid Distribution ( http://arxiv.org/abs/2311.08494v1 ) ライセンス: Link先を確認 | Md. Raisul Hasan Shahrukh, Md. Tabassinur Rahman, Nafees Mansoor | (参考訳) ブロックチェーン技術は様々な産業でゲームチェンジャーとして登場し、従来の手順に取って代わる堅牢なソリューションを提供している。
この技術のユニークな可能性は、セキュリティの強化、透明性の強化、仲介を必要とせずにトランザクションの検証を可能にする分散型台帳システムに由来する。
特に金融セクターは、送金、融資、投資など、さまざまなオペレーションのためのブロックチェーンソリューションの実装に向けて大きな進歩を遂げている。
医療業界は、この技術を医療記録の管理、サプライチェーンの追跡、データ管理システムに同時に組み込んでいる。
同様に、透明性、トレーサビリティ、説明責任を高めるブロックチェーンの能力は、基本材料の調達から完成品の配送に至るまで、サプライチェーン管理において広く認められている。
不動産、エネルギー、政府を含むさまざまな業界は、効率性、セキュリティ、透明性を改善するブロックチェーンの可能性について積極的に調査している。
特に、オープンソースのブロックチェーンプラットフォームであるhyperledger besuは、プロセスを自動化し、分散経路に沿って手作業による介入を減らすスマートコントラクトの実装に使用されている。
この徹底したレビューは、さまざまな業界にわたるブロックチェーン技術の変革可能性を調査し、遭遇する障害について議論し、今後の研究と開発方向性に関する重要な洞察を提供する。
本稿では,既存の学術文献を合成し,重要な知見に光を当てることにより,学者,産業関係者,政策立案者にとって重要な資源となることを目指す。 Blockchain technology has emerged as a game-changer in a variety of industries, providing robust solutions that can supplant conventional procedures. The unique potential of this technology originates from its decentralized ledger systems, which enable enhanced security, transparency, and the validation of transactions without the need for intermediaries. Notably, the financial sector is making substantial progress toward implementing blockchain solutions for a variety of operations, including remittances, lending, and investments. The healthcare industry is simultaneously incorporating this technology into systems for managing medical records, tracing supply chains, and data management. Similarly, the capacity of blockchain to enhance transparency, traceability, and accountability is widely acknowledged in supply chain management, from the procurement of basic materials to the delivery of finished goods. Diverse industries, including real estate, energy, and government, are actively investigating the potential of blockchain to improve efficiency, security, and transparency. Notably, Hyperledger Besu, an open-source blockchain platform, is used to implement smart contracts that automate processes and reduce manual intervention along distribution pathways. This exhaustive review examines the transformative potential of blockchain technology across a variety of industries, discussing the obstacles encountered and providing key insights into future research and development directions. This paper seeks to serve as a pivotal resource for academics, industry stakeholders, and policymakers by synthesizing existing scholarly literature and shedding light on significant findings. | 翻訳日:2023-11-16 18:28:39 公開日:2023-11-14 |
# BI-RADSを用いたマンモグラフィ画像における機械学習分類の性能 Performance of Machine Learning Classification in Mammography Images using BI-RADS ( http://arxiv.org/abs/2311.08493v1 ) ライセンス: Link先を確認 | Malitha Gunawardhana, Norbert Zolek | (参考訳) 本研究では,乳房超音波画像の分類精度を,乳房画像報告・データシステム(BI-RADS)が定義した乳房超音波画像の分類精度について検討する。
そこで我々は,1,540名の患者から得られた2,945枚のマンモグラフィー画像の総合的なデータセットを利用した。
VGG19 \cite{simonyan2014very}, ResNet50 \cite{he2016deep}, GoogleNet \cite{szegedy2015going}, ConvNext \cite{liu2022convnet}, EfficientNet \cite{tan2019efficientnet}, Vision Transformers (ViT) \cite{dosovitskiy2020image} の6つの高度な分類アーキテクチャを採用した。
モデルを3つの異なる設定で評価する: 完全な微調整、線形評価、スクラッチからのトレーニング。
本研究は,本システムの有効性と能力を示し,完全な微調整環境では,76.39\%,f1スコア67.94\%の精度を示した。
乳房画像検査の分野では診断精度が向上する可能性が示唆され,医療画像診断におけるcadシステムの精度と信頼性の向上を目指す今後の取り組みの基盤が確立された。 This research aims to investigate the classification accuracy of various state-of-the-art image classification models across different categories of breast ultrasound images, as defined by the Breast Imaging Reporting and Data System (BI-RADS). To achieve this, we have utilized a comprehensively assembled dataset of 2,945 mammographic images sourced from 1,540 patients. In order to conduct a thorough analysis, we employed six advanced classification architectures, including VGG19 \cite{simonyan2014very}, ResNet50 \cite{he2016deep}, GoogleNet \cite{szegedy2015going}, ConvNext \cite{liu2022convnet}, EfficientNet \cite{tan2019efficientnet}, and Vision Transformers (ViT) \cite{dosovitskiy2020image}, instead of traditional machine learning models. We evaluate models in three different settings: full fine-tuning, linear evaluation and training from scratch. Our findings demonstrate the effectiveness and capability of our Computer-Aided Diagnosis (CAD) system, with a remarkable accuracy of 76.39\% and an F1 score of 67.94\% in the full fine-tuning setting. Our findings indicate the potential for enhanced diagnostic accuracy in the field of breast imaging, providing a solid foundation for future endeavors aiming to improve the precision and reliability of CAD systems in medical imaging. | 翻訳日:2023-11-16 18:28:15 公開日:2023-11-14 |
# 集約データに基づく敵対的模倣学習 Adversarial Imitation Learning On Aggregated Data ( http://arxiv.org/abs/2311.08568v1 ) ライセンス: Link先を確認 | Pierre Le Pelletier de Woillemont and R\'emi Labory and Vincent Corruble | (参考訳) 逆強化学習(IRL: Inverse Reinforcement Learning)は、いくつかの専門家による実証から最適なポリシーを学習し、適切な報酬関数を指定するという面倒なプロセスを避ける。
しかし、現在の手法は以下の要件の少なくとも1つによって制約されている。
1つ目は、アルゴリズムの内側ループにおける前方強化学習(rl)問題を完全に解決する必要性である。
2つめは、専門家の完全な軌道の必要性であり、簡単には利用できないかもしれない。
3つ目は、専門家データが様々な専門家の収集や、おそらく同じタスクに対する代替ソリューションではなく、均質であるという仮定である。
このような制約により、IRLのアプローチは拡張性がないか、既存のシステムでは利用できない。
本研究では,AILAD(Adversarial Imitation Learning on Aggregated Data)と呼ばれる動的適応手法を用いて,これらの要件を除去する手法を提案する。
非線型報酬関数とそれに付随する最適ポリシーの両方を、敵対的枠組みを用いて共役的に学習する。
報酬学習者は集計データのみを使用する。
さらに、専門家のものと一致する集約されたデータにまたがる分布を生成する多様な行動を生成する。 Inverse Reinforcement Learning (IRL) learns an optimal policy, given some expert demonstrations, thus avoiding the need for the tedious process of specifying a suitable reward function. However, current methods are constrained by at least one of the following requirements. The first one is the need to fully solve a forward Reinforcement Learning (RL) problem in the inner loop of the algorithm, which might be prohibitively expensive in many complex environments. The second one is the need for full trajectories from the experts, which might not be easily available. The third one is the assumption that the expert data is homogeneous rather than a collection from various experts or possibly alternative solutions to the same task. Such constraints make IRL approaches either not scalable or not usable on certain existing systems. In this work we propose an approach which removes these requirements through a dynamic, adaptive method called Adversarial Imitation Learning on Aggregated Data (AILAD). It learns conjointly both a non linear reward function and the associated optimal policy using an adversarial framework. The reward learner only uses aggregated data. Moreover, it generates diverse behaviors producing a distribution over the aggregated data matching that of the experts. | 翻訳日:2023-11-16 18:19:48 公開日:2023-11-14 |
# ワッサーシュタイン空間における多様体学習 Manifold learning in Wasserstein space ( http://arxiv.org/abs/2311.08549v1 ) ライセンス: Link先を確認 | Keaton Hamm, Caroline Moosm\"uller, Bernhard Schmitzer, Matthew Thorpe | (参考訳) 本稿では,Wasserstein-2 距離 $W$ で計算された$\mathbb{R}^d$ のコンパクトかつ凸部分集合上の絶対連続確率測度空間における多様体学習アルゴリズムの理論基盤を構築することを目的とする。
まず、計量 $w_\lambda$ を備えた確率測度の部分多様体 $\lambda$ の自然な構成を導入することから始め、測地学的制限は $w$ から $\lambda$ となる。
他の構成とは対照的に、これらの部分多様体は必ずしも平坦ではないが、なお、リーマン部分多様体である $\mathbb{r}^d$ と似た方法で局所線型化を許す。
次に、$(\Lambda,W_{\Lambda})$ の潜在多様体構造がサンプル $\{\lambda_i\}_{i=1}^N$ of $\Lambda$ からどのように学習できるかを示す。
特に、計量空間 $(\Lambda,W_{\Lambda})$ は、ノード $\{\lambda_i\}_{i=1}^N$ と辺重み $W(\lambda_i,\lambda_j)$ のグラフからグロモフ-ワッサーシュタインの意味で漸近的に回復できることを示す。
さらに、サンプル $\lambda$ における接空間が、適切な「共分散作用素」のスペクトル解析によって、十分に近い、多様なサンプル $\{\lambda_i\}_{i=1}^N$ への最適な輸送写像を用いて、どのように漸近的に回復できるかを示す。
この論文は、部分多様体 $\lambda$ の明示的な構成とスペクトル解析による接空間の回復に関する数値例で締めくくっている。 This paper aims at building the theoretical foundations for manifold learning algorithms in the space of absolutely continuous probability measures on a compact and convex subset of $\mathbb{R}^d$, metrized with the Wasserstein-2 distance $W$. We begin by introducing a natural construction of submanifolds $\Lambda$ of probability measures equipped with metric $W_\Lambda$, the geodesic restriction of $W$ to $\Lambda$. In contrast to other constructions, these submanifolds are not necessarily flat, but still allow for local linearizations in a similar fashion to Riemannian submanifolds of $\mathbb{R}^d$. We then show how the latent manifold structure of $(\Lambda,W_{\Lambda})$ can be learned from samples $\{\lambda_i\}_{i=1}^N$ of $\Lambda$ and pairwise extrinsic Wasserstein distances $W$ only. In particular, we show that the metric space $(\Lambda,W_{\Lambda})$ can be asymptotically recovered in the sense of Gromov--Wasserstein from a graph with nodes $\{\lambda_i\}_{i=1}^N$ and edge weights $W(\lambda_i,\lambda_j)$. In addition, we demonstrate how the tangent space at a sample $\lambda$ can be asymptotically recovered via spectral analysis of a suitable "covariance operator" using optimal transport maps from $\lambda$ to sufficiently close and diverse samples $\{\lambda_i\}_{i=1}^N$. The paper closes with some explicit constructions of submanifolds $\Lambda$ and numerical examples on the recovery of tangent spaces through spectral analysis. | 翻訳日:2023-11-16 18:19:27 公開日:2023-11-14 |
# 表面筋電図信号のトポロジー:リーマン多様体のハンドジェスチャデコーディング Topology of Surface Electromyogram Signals: Hand Gesture Decoding on Riemannian Manifolds ( http://arxiv.org/abs/2311.08548v1 ) ライセンス: Link先を確認 | Harshavardhana T. Gowda, Lee M. Miller | (参考訳) 非侵襲的な表面筋電図(sEMG)信号を用いた上肢からのジェスチャーの復号化は、アンプの再生、人工上肢増強、コンピュータのジェスチャー制御、仮想/拡張現実性に強い関心を持つ。
前腕周辺の複数の空間的位置にあるセンサ電極の配列に記録されたsEMG信号は、手の動きの区別に活用できる、大域運動単位(MU)のリッチな幾何学的パターンを示す。
本研究では,時間的ウィンドウ内の筋MU活動の空間的パターンを簡易に解析し,異なるジェスチャーを教師なしと教師なしの両方で分類できることを示す。
具体的には、異なる電極間で測定された電気信号の対の共分散として算出された、関心の時間窓におけるMU活性の空間分布を表す対称正定値共分散行列を構築する。
これにより、より自然な部分空間(リーマン多様体)上の多変量sEMG時系列を理解および操作することができる。
さらに、個人やセッション間での信号のばらつきに直接対処するが、この分野では依然として大きな課題である。
単一の電極で測定されたsEMG信号は、様々な解剖学的および生理的要因が信号にどのように影響するか、それらの複合効果が隣り合う筋肉間の明らかな相互作用をどう変えるかといった文脈的な情報を持たない。
ここで示すように、リーマン多様体上の共分散行列を用いて空間パターンを解析することにより、空間分布MU間の複雑な相互作用を堅牢にモデル化し、個人間のsEMG信号の違いを定量化するためのフレキシブルで透明な枠組みを提供する。
提案手法はseg信号の研究において新規であり,その性能は計算効率を保ちつつ,現在のベンチマークを上回っている。 Decoding gestures from the upper limb using noninvasive surface electromyogram (sEMG) signals is of keen interest for the rehabilitation of amputees, artificial supernumerary limb augmentation, gestural control of computers, and virtual/augmented realities. We show that sEMG signals recorded across an array of sensor electrodes in multiple spatial locations around the forearm evince a rich geometric pattern of global motor unit (MU) activity that can be leveraged to distinguish different hand gestures. We demonstrate a simple technique to analyze spatial patterns of muscle MU activity within a temporal window and show that distinct gestures can be classified in both supervised and unsupervised manners. Specifically, we construct symmetric positive definite (SPD) covariance matrices to represent the spatial distribution of MU activity in a time window of interest, calculated as pairwise covariance of electrical signals measured across different electrodes. This allows us to understand and manipulate multivariate sEMG timeseries on a more natural subspace -the Riemannian manifold. Furthermore, it directly addresses signal variability across individuals and sessions, which remains a major challenge in the field. sEMG signals measured at a single electrode lack contextual information such as how various anatomical and physiological factors influence the signals and how their combined effect alters the evident interaction among neighboring muscles. As we show here, analyzing spatial patterns using covariance matrices on Riemannian manifolds allows us to robustly model complex interactions across spatially distributed MUs and provides a flexible and transparent framework to quantify differences in sEMG signals across individuals. The proposed method is novel in the study of sEMG signals and its performance exceeds the current benchmarks while maintaining exceptional computational efficiency. | 翻訳日:2023-11-16 18:18:56 公開日:2023-11-14 |
# deepthought: 自律的自己モチベーションシステムのためのアーキテクチャ DeepThought: An Architecture for Autonomous Self-motivated Systems ( http://arxiv.org/abs/2311.08547v1 ) ライセンス: Link先を確認 | Arlindo L. Oliveira, Tiago Domingos, M\'ario Figueiredo, Pedro U. Lima | (参考訳) 大規模言語モデル(llm)が人間と信頼できる対話を行う能力は、訓練データと会話の文脈を考慮しており、本質的な動機づけ、機関、さらにはある程度の意識を示す能力について議論を呼んでいる。
LLMの内部構造とその有限かつ揮発的な状態は、これらの特性のいずれかを支持できない。
補完学習システム,グローバルニューロンワークスペース,アテンションスキーマ理論からの洞察を組み合わせることで,認知言語エージェントがメタ認知のいくつかの特徴でさえも、エージェンシーや自己モチベーションのような特性を示すことができるアーキテクチャにLLMや他の深層学習システムを統合することを提案する。 The ability of large language models (LLMs) to engage in credible dialogues with humans, taking into account the training data and the context of the conversation, has raised discussions about their ability to exhibit intrinsic motivations, agency, or even some degree of consciousness. We argue that the internal architecture of LLMs and their finite and volatile state cannot support any of these properties. By combining insights from complementary learning systems, global neuronal workspace, and attention schema theories, we propose to integrate LLMs and other deep learning systems into an architecture for cognitive language agents able to exhibit properties akin to agency, self-motivation, even some features of meta-cognition. | 翻訳日:2023-11-16 18:18:25 公開日:2023-11-14 |
# ドメイン特化大規模言語モデル構築のための高能率連続事前学習 Efficient Continual Pre-training for Building Domain Specific Large Language Models ( http://arxiv.org/abs/2311.08545v1 ) ライセンス: Link先を確認 | Yong Xie, Karan Aggarwal, Aitzaz Ahmad | (参考訳) 大規模言語モデル(llm)は驚くべきオープンドメイン機能を示している。
伝統的に、ドメインに適したLLMは、ドメイン固有のタスクを扱うために、ゼロから訓練される。
本研究では,ドメイン固有のLLMを開発する手段として,継続事前学習の代替戦略を検討する。
金融分野におけるドメイン適応型継続的事前学習により開発されたfinpythia-6.9bについて紹介する。
トレーニング済みのFinPythiaは、オリジナルの基盤モデルよりも、財務上のタスクが一貫した改善を見せる。
さらに,継続的な事前学習のための簡易かつ効果的なデータ選択戦略について検討する。
私たちのデータ選択戦略は、オープンドメインの標準タスクを損なうことなく、コーパスサイズとコストのわずか10%で、バニラ連続事前トレーニングのパフォーマンスを上回っています。
本研究は,ドメイン固有LLMをスクラッチからコスト効率よく構築するための代替ソリューションを提案する。 Large language models (LLMs) have demonstrated remarkable open-domain capabilities. Traditionally, LLMs tailored for a domain are trained from scratch to excel at handling domain-specific tasks. In this work, we explore an alternative strategy of continual pre-training as a means to develop domain-specific LLMs. We introduce FinPythia-6.9B, developed through domain-adaptive continual pre-training on the financial domain. Continual pre-trained FinPythia showcases consistent improvements on financial tasks over the original foundational model. We further explore simple but effective data selection strategies for continual pre-training. Our data selection strategies outperforms vanilla continual pre-training's performance with just 10% of corpus size and cost, without any degradation on open-domain standard tasks. Our work proposes an alternative solution to building domain-specific LLMs from scratch in a cost-effective manner. | 翻訳日:2023-11-16 18:18:12 公開日:2023-11-14 |
# 2D-RC:OTFSシンボル検出のための2次元ニューラルネットワークアプローチ 2D-RC: Two-Dimensional Neural Network Approach for OTFS Symbol Detection ( http://arxiv.org/abs/2311.08543v1 ) ライセンス: Link先を確認 | Jiarui Xu, Karim Said, Lizhong Zheng, and Lingjia Liu | (参考訳) 直交時間周波数空間(OTFS)は、高移動度シナリオにおける無線通信のための有望な変調方式である。
近年,ota(over-the-air-air)パイロットシンボルが限られた数しか使用されていないotfsシステムにおいて,オンラインサブフレームに基づくシンボル検出のためのリザーバコンピューティング(rc)が導入された。
しかし、このアプローチはOTFSシステム固有のドメイン知識を活用できません。
本稿では,OTFSシステムの構造的知識をサブフレームベースでオンラインシンボル検出の設計に組み込んだ2次元RC(2D-RC)手法を提案する。
具体的には、チャネル応答が遅延ドップラー(DD)領域の送信された情報シンボル上の2次元(2D)演算として機能するので、2D-RCはチャネルを等化するために2D構造を持つように設計されている。
導入されたアーキテクチャにより、2D-RCはDDドメインの予測可能なチャネル表現の恩恵を受けることができる。
さらに、チャネル機能を学ぶために複数のRCを必要とする以前の作業とは異なり、2D-RCは検出に1つのニューラルネットワークのみを必要とする。
実験結果から,OTFSシステムにまたがる2D-RC方式の有効性と変調順序が示された。 Orthogonal time frequency space (OTFS) is a promising modulation scheme for wireless communication in high-mobility scenarios. Recently, a reservoir computing (RC) based approach has been introduced for online subframe-based symbol detection in the OTFS system, where only a limited number of over-the-air (OTA) pilot symbols are utilized for training. However, this approach does not leverage the domain knowledge specific to the OTFS system. This paper introduces a novel two-dimensional RC (2D-RC) method that incorporates the structural knowledge of the OTFS system into the design for online symbol detection on a subframe basis. Specifically, as the channel response acts as a two-dimensional (2D) operation over the transmitted information symbols in the delay-Doppler (DD) domain, the 2D-RC is designed to have a 2D structure to equalize the channel. With the introduced architecture, the 2D-RC can benefit from the predictable channel representation in the DD domain. Moreover, unlike the previous work that requires multiple RCs to learn the channel feature, the 2D-RC only requires a single neural network for detection. Experimental results demonstrate the effectiveness of the 2D-RC approach across different OTFS system variants and modulation orders. | 翻訳日:2023-11-16 18:17:59 公開日:2023-11-14 |
# 模倣学習による多言語機械翻訳の拡張 Extending Multilingual Machine Translation through Imitation Learning ( http://arxiv.org/abs/2311.08538v1 ) ライセンス: Link先を確認 | Wen Lai, Viktor Hangya, Alexander Fraser | (参考訳) 既存の多言語ニューラルマシン翻訳(MNMT)モデルでサポートされている言語は増え続けているが、世界の言語のほとんどはいまだに残されている。
我々は,大規模MNMTモデルを新しい言語に拡張し,新たに追加された言語とすでにサポートされている言語との翻訳を,新たな言語と英語の並列コーパスのみを使用することで,困難なシナリオで実現することを目指している。
新しい言語を含む並列データの継続トレーニングのような以前のアプローチは、壊滅的な忘れ(つまり、他の言語のパフォーマンスが低下する)に苦しむ。
我々の新しいアプローチであるImit-MNMTは、コンピュータビジョン領域で広く使われている手法である専門家の振る舞いを模倣する模倣学習プロセスとしてタスクを扱い、NLPではよく研究されていない。
より具体的には、新しい言語とオリジナルの言語の疑似マルチパラレルコーパスを構築し、英語を通してピボットし、元のmnmtモデルの出力分布を模倣する。
大規模な実験により,本手法は破滅的な忘れを伴わずに,新言語と原言語の翻訳性能を著しく向上させることが示された。
また,本手法は,現行の大規模mnmtモデルに共通する2つの問題であるコピー・オフ・ターゲット問題を解決できることを実証する。 Despite the growing variety of languages supported by existing multilingual neural machine translation (MNMT) models, most of the world's languages are still being left behind. We aim to extend large-scale MNMT models to a new language, allowing for translation between the newly added and all of the already supported languages in a challenging scenario: using only a parallel corpus between the new language and English. Previous approaches, such as continued training on parallel data including the new language, suffer from catastrophic forgetting (i.e., performance on other languages is reduced). Our novel approach Imit-MNMT treats the task as an imitation learning process, which mimicks the behavior of an expert, a technique widely used in the computer vision area, but not well explored in NLP. More specifically, we construct a pseudo multi-parallel corpus of the new and the original languages by pivoting through English, and imitate the output distribution of the original MNMT model. Extensive experiments show that our approach significantly improves the translation performance between the new and the original languages, without severe catastrophic forgetting. We also demonstrate that our approach is capable of solving copy and off-target problems, which are two common issues existence in current large-scale MNMT models. | 翻訳日:2023-11-16 18:17:39 公開日:2023-11-14 |
# CNN-BiLSTMアテンション機構を用いた低周波負荷同定 Low-Frequency Load Identification using CNN-BiLSTM Attention Mechanism ( http://arxiv.org/abs/2311.08536v1 ) ライセンス: Link先を確認 | Amanie Azzam, Saba Sanami, and Amir G. Aghdam | (参考訳) 非侵入型負荷モニタリング(non-intrusive load monitoring, nilm)は、電力消費の効率的かつ費用効率の高い管理手法である。
本手法は集積電力測定から家電レベルの消費電力を推定するために用いられる。
本稿では,畳み込みニューラルネットワーク(cnn)と双方向長期短期記憶(bilstm)を組み合わせたハイブリッド学習手法を提案する。
従来の研究は主に高周波データ分散に焦点が当てられていたが、本研究は低周波データに集中することで異なる方向を採っている。
提案したハイブリッドCNN-BILSTMモデルは,時間的(時間的)と空間的(位置的)の両方の特徴を抽出し,家電レベルでのエネルギー消費パターンを正確に同定する。
この精度は、より正確なイベント検出と負荷分散のためにデータの重要な部分をピンポイントするモデルを支援するアテンションメカニズムによってさらに向上する。
我々は,既存の低周波reddデータセットを用いてシミュレーションを行い,モデル性能を評価する。
その結果,提案手法は既存の手法よりも精度と計算時間で優れていることがわかった。 Non-intrusive Load Monitoring (NILM) is an established technique for effective and cost-efficient electricity consumption management. The method is used to estimate appliance-level power consumption from aggregated power measurements. This paper presents a hybrid learning approach, consisting of a convolutional neural network (CNN) and a bidirectional long short-term memory (BILSTM), featuring an integrated attention mechanism, all within the context of disaggregating low-frequency power data. While prior research has been mainly focused on high-frequency data disaggregation, our study takes a distinct direction by concentrating on low-frequency data. The proposed hybrid CNN-BILSTM model is adept at extracting both temporal (time-related) and spatial (location-related) features, allowing it to precisely identify energy consumption patterns at the appliance level. This accuracy is further enhanced by the attention mechanism, which aids the model in pinpointing crucial parts of the data for more precise event detection and load disaggregation. We conduct simulations using the existing low-frequency REDD dataset to assess our model performance. The results demonstrate that our proposed approach outperforms existing methods in terms of accuracy and computation time. | 翻訳日:2023-11-16 18:17:15 公開日:2023-11-14 |
# 金融規制のための自然言語処理 Natural Language Processing for Financial Regulation ( http://arxiv.org/abs/2311.08533v1 ) ライセンス: Link先を確認 | Ixandra Achitouv, Dragos Gorduza and Antoine Jacquier | (参考訳) 本稿では、金融規制の枠組みにおける自然言語処理技術の理解について、具体的には、教師あり学習にデータセットが利用できない場合、ルールとポリシー間のセマンティックマッチング検索を実行するためのものである。
本稿では,自然言語処理の鍵となる構成要素の背景にある数学的概念を解説し,簡単な事前学習文変換モデルよりも優れた手法を概説する。 This article provides an understanding of Natural Language Processing techniques in the framework of financial regulation, more specifically in order to perform semantic matching search between rules and policy when no dataset is available for supervised learning. We outline how to outperform simple pre-trained sentences-transformer models using freely available resources and explain the mathematical concepts behind the key building blocks of Natural Language Processing. | 翻訳日:2023-11-16 18:16:56 公開日:2023-11-14 |
# キャビティ量子電磁力学のための相反漸近非共役ハミルトニアン Reciprocal Asymptotically Decoupled Hamiltonian for Cavity Quantum Electrodynamics ( http://arxiv.org/abs/2311.08531v1 ) ライセンス: Link先を確認 | Michael A.D. Taylor, Braden M. Weight, Pengfei Huo3 | (参考訳) 我々は空洞量子力学(QED)における光-物質相互作用を記述するための新しい理論フレームワークを開発し、任意の結合強度での効率的な収束を最適化し、低次元材料に自然に適用する。
この新しいハミルトニアンは、p$\cdot$a のハミルトニアンにユニタリゲージ変換を適用し、マター座標とフォトニック座標の両方にシフトし、相回転を行い、物質の逆空間で変換することで得られる。
上界の有効結合パラメータで光-物質相互作用を定式化することにより、任意の結合強度に対する固有スペクトル計算を超強および深部強結合状態に容易に収束させることができる。
我々はこの新しいアプローチを Reciprocal Asymptotically Decoupled (RAD) Hamiltonian と呼ぶ。
RADハミルトニアンは、一般的に用いられる p$\cdot$A や双極子ゲージハミルトニアンと比較して、より小さな物質と光子基底を持つ偏光子固有スペクトルの高速収束を可能にする。
RADハミルトニアンはまた、一般的に使用される長波長近似を超え、空洞内の磁場の空間的変動を正確に記述することで、光と物質の間の運動量の保存を可能にする。 We develop a new theoretical framework for describing light-matter interactions in cavity quantum electrodynamics (QED), optimized for efficient convergence at arbitrarily strong coupling strengths and is naturally applicable to low-dimensional materials. This new Hamiltonian is obtained by applying a unitary gauge transformation on the p$\cdot$A Hamiltonian, with a shift on both the matter coordinate and the photonic coordinate, then performing a phase rotation and transforming in the reciprocal space of the matter. By formulating the light-matter interaction in terms of an upper-bounded effective coupling parameter, this method allows one to easily converge eigenspectra calculations for any coupling strength, even far into the ultra-strong and deep-strong coupling regimes. We refer to this new approach as the Reciprocal Asymptotically Decoupled (RAD) Hamiltonian. The RAD Hamiltonian allows for a fast convergence of the polariton eigenspectrum with a much smaller matter and photon basis, compared to the commonly used p$\cdot$A or dipole gauge Hamiltonians. The RAD Hamiltonian also allows one to go beyond the commonly used long-wavelength approximation and accurately describes the spatial variations of the field inside the cavity, which ensures the conservation of momentum between light and matter. | 翻訳日:2023-11-16 18:16:48 公開日:2023-11-14 |
# scenescore: オブジェクトアレンジメントのためのコスト関数の学習 SceneScore: Learning a Cost Function for Object Arrangement ( http://arxiv.org/abs/2311.08530v1 ) ライセンス: Link先を確認 | Ivan Kapelyukh, Edward Johns | (参考訳) オブジェクトを正しく配置することは、幅広い有用なタスクをアンロックするロボットにとって重要な機能である。
成功したアレンジメントを作成するための前提条件は、与えられたアレンジメントの望ましさを評価する能力である。
提案手法「SceneScore」は,望ましい人型アレンジメントが低コストであるようなアレンジメントのコスト関数を学習する。
我々は,環境相互作用や人的監督を必要とせず,実例画像のみから,エネルギーモデルを用いてオフラインでトレーニングアレンジメントの分布を学習する。
本モデルは,画像から構築したグラフを用いて,対象と対象の関係を学習するグラフニューラルネットワークによって表現される。
実験により、学習したコスト関数は、欠落したオブジェクトのポーズを予測したり、セマンティックな特徴を使って新しいオブジェクトに一般化したり、推論時に制約を満たすために他のコスト関数で構成できることを示した。 Arranging objects correctly is a key capability for robots which unlocks a wide range of useful tasks. A prerequisite for creating successful arrangements is the ability to evaluate the desirability of a given arrangement. Our method "SceneScore" learns a cost function for arrangements, such that desirable, human-like arrangements have a low cost. We learn the distribution of training arrangements offline using an energy-based model, solely from example images without requiring environment interaction or human supervision. Our model is represented by a graph neural network which learns object-object relations, using graphs constructed from images. Experiments demonstrate that the learned cost function can be used to predict poses for missing objects, generalise to novel objects using semantic features, and can be composed with other cost functions to satisfy constraints at inference time. | 翻訳日:2023-11-16 18:16:18 公開日:2023-11-14 |
# GLiNER:双方向変換器を用いた名前付きエンティティ認識のための汎用モデル GLiNER: Generalist Model for Named Entity Recognition using Bidirectional Transformer ( http://arxiv.org/abs/2311.08526v1 ) ライセンス: Link先を確認 | Urchade Zaratiana, Nadi Tomeh, Pierre Holat, Thierry Charnois | (参考訳) 名前付きエンティティ認識(NER)は、様々な自然言語処理(NLP)アプリケーションに必須である。
従来のNERモデルは有効であるが、定義済みのエンティティタイプに限られる。
対照的に、Large Language Models (LLM) は自然言語命令を通じて任意のエンティティを抽出することができ、柔軟性が向上する。
しかし、特にChatGPTのようなAPIを通じてアクセスされる場合、そのサイズとコストはリソース制限のシナリオでは実用的ではありません。
本稿では,任意の種類のエンティティを識別するために訓練されたコンパクトなNERモデルを提案する。
我々のモデルであるGLiNERは、双方向トランスフォーマーエンコーダを活用することで、LCMの遅いシーケンシャルトークン生成に対するアドバンテージである並列エンティティ抽出を容易にする。
総合的なテストを通じて、GLiNERは強力な性能を示し、様々なNERベンチマークのゼロショット評価において、ChatGPTと微調整LDMの両方より優れている。 Named Entity Recognition (NER) is essential in various Natural Language Processing (NLP) applications. Traditional NER models are effective but limited to a set of predefined entity types. In contrast, Large Language Models (LLMs) can extract arbitrary entities through natural language instructions, offering greater flexibility. However, their size and cost, particularly for those accessed via APIs like ChatGPT, make them impractical in resource-limited scenarios. In this paper, we introduce a compact NER model trained to identify any type of entity. Leveraging a bidirectional transformer encoder, our model, GLiNER, facilitates parallel entity extraction, an advantage over the slow sequential token generation of LLMs. Through comprehensive testing, GLiNER demonstrate strong performance, outperforming both ChatGPT and fine-tuned LLMs in zero-shot evaluations on various NER benchmarks. | 翻訳日:2023-11-16 18:16:01 公開日:2023-11-14 |
# 人工心身回転による深部ニューラルネットワークの効率的な回転不変性 Efficient Rotation Invariance in Deep Neural Networks through Artificial Mental Rotation ( http://arxiv.org/abs/2311.08525v1 ) ライセンス: Link先を確認 | Lukas Tuggener, Thilo Stadelmann, J\"urgen Schmidhuber | (参考訳) 人間や動物は、所有者の視点に関係なく物体を認識し、その外観が劇的に変化する可能性がある。
人工パターン認識器も、例えば畳み込みニューラルネットワーク(CNN)の翻訳的不変性を通じてこれを達成しようとしている。
しかし、cnnとヴィジュアルトランスフォーマー(vits)は、回転した入力に対して非常に性能が悪い。
本稿では,心の回転という神経心理学的概念に触発された平面内回転を扱うための新しい深層学習パラダイムであるartificial mental rotation (amr)を提案する。
我々の単純なAMR実装は、すべての一般的なCNNおよびViTアーキテクチャで動作する。
ImageNet、Stanford Cars、Oxford Petでテストしています。
amrは、top-1エラー(データセットとアーキテクチャの平均値)が0.743$で、現在のアート(回転データ拡張、平均top-1エラーが0.626$)を19\%$で上回っている。
また、トレーニング済みのAMRモジュールをダウンストリームタスクに簡単に転送し、回転したCoCo上でのトレーニング済みセマンティックセマンティックセマンティクスモデルの性能を32.7ドルから55.2ドルIoUに改善する。 Humans and animals recognize objects irrespective of the beholder's point of view, which may drastically change their appearances. Artificial pattern recognizers also strive to achieve this, e.g., through translational invariance in convolutional neural networks (CNNs). However, both CNNs and vision transformers (ViTs) perform very poorly on rotated inputs. Here we present artificial mental rotation (AMR), a novel deep learning paradigm for dealing with in-plane rotations inspired by the neuro-psychological concept of mental rotation. Our simple AMR implementation works with all common CNN and ViT architectures. We test it on ImageNet, Stanford Cars, and Oxford Pet. With a top-1 error (averaged across datasets and architectures) of $0.743$, AMR outperforms the current state of the art (rotational data augmentation, average top-1 error of $0.626$) by $19\%$. We also easily transfer a trained AMR module to a downstream task to improve the performance of a pre-trained semantic segmentation model on rotated CoCo from $32.7$ to $55.2$ IoU. | 翻訳日:2023-11-16 18:15:45 公開日:2023-11-14 |
# 胸部CT画像を用いたCOVID-19分類のためのクロスデータセットドメイン適応 Cross-dataset domain adaptation for the classification COVID-19 using chest computed tomography images ( http://arxiv.org/abs/2311.08524v1 ) ライセンス: Link先を確認 | Ridha Ouni and Haikel Alhichri | (参考訳) 肺のCT画像を用いたCOVID-19患者の検出は研究の活発な領域である。
新型コロナウイルス患者のCT画像のデータセットが利用可能になっている。
ディープラーニング(DL)ソリューション、特に畳み込みニューラルネットワーク(CNN)は、COVID-19 CT画像の分類において印象的な結果を得たが、トレーニングとテストが同じデータセット内で行われる場合に限られる。
クロスデータセット問題への取り組みはまだ限られており、成果は低い。
我々の研究は、ディープラーニングを用いたドメイン適応(da)技術を通じて、データセット横断問題に取り組む。
提案するソリューションであるCOVID19-DANetは,機能抽出のためのトレーニング済みCNNバックボーンに基づいている。
そこで本研究では,事前学習した efficientnet-b3 cnn を選択した。
バックボーンCNNは、プロトタイプラーニング(FSL)において、プロトタイプネットワークから借用された概念である。
与えられたサンプルとクラスプロトタイプの間のコサイン距離を計算し、softmax関数を使ってそれらをクラス確率に変換する。
COVID19-DANetモデルを訓練するために,クラス識別のための標準的なクロスエントロピー損失と,非競合対象集合上でのみ計算される別のエントロピー損失からなる複合損失関数を提案する。
このいわゆる非ラベル対象エントロピー損失は、クラス差別とドメイン不変性という2つの目的を達成するために、別の方法で最小化・最大化される。
covid19-danetは、sars-cov-2-ctとcovid-19-ctデータセットを使用して、4つのクロスデータセットシナリオでテストされている。 Detecting COVID-19 patients using Computed Tomography (CT) images of the lungs is an active area of research. Datasets of CT images from COVID-19 patients are becoming available. Deep learning (DL) solutions and in particular Convolutional Neural Networks (CNN) have achieved impressive results for the classification of COVID-19 CT images, but only when the training and testing take place within the same dataset. Work on the cross-dataset problem is still limited and the achieved results are low. Our work tackles the cross-dataset problem through a Domain Adaptation (DA) technique with deep learning. Our proposed solution, COVID19-DANet, is based on pre-trained CNN backbone for feature extraction. For this task, we select the pre-trained Efficientnet-B3 CNN because it has achieved impressive classification accuracy in previous work. The backbone CNN is followed by a prototypical layer which is a concept borrowed from prototypical networks in few-shot learning (FSL). It computes a cosine distance between given samples and the class prototypes and then converts them to class probabilities using the Softmax function. To train the COVID19-DANet model, we propose a combined loss function that is composed of the standard cross-entropy loss for class discrimination and another entropy loss computed over the unlabelled target set only. This so-called unlabelled target entropy loss is minimized and maximized in an alternative fashion, to reach the two objectives of class discrimination and domain invariance. COVID19-DANet is tested under four cross-dataset scenarios using the SARS-CoV-2-CT and COVID19-CT datasets and has achieved encouraging results compared to recent work in the literature. | 翻訳日:2023-11-16 18:15:26 公開日:2023-11-14 |
# 変圧器に基づく変分オートエンコーダにおけるグラフ誘起構文意味空間 Graph-Induced Syntactic-Semantic Spaces in Transformer-Based Variational AutoEncoders ( http://arxiv.org/abs/2311.08579v1 ) ライセンス: Link先を確認 | Yingji Zhang, Marco Valentino, Danilo S. Carvalho, Ian Pratt-Hartmann, Andr\'e Freitas | (参考訳) 変分オートエンコーダ(VAE)における構文情報の注入は、性能と一般化の全体的な改善をもたらすことが示されている。
このような目的を達成するための効果的な戦略は、分散意味的特徴と構文構造の符号化をマルチタスク学習またはデュアルエンコーダアーキテクチャによって異種潜在空間に分離することである。
しかし、これらの技術を用いた既存の作業は、LSTMベースのVAEに限られている。
本稿では,Transformer-based VAEアーキテクチャ(Optimus)における構造構文注入のための潜時空間分離法について検討する。
具体的には、グラフベースおよびシーケンシャルモデルの統合により、符号化段階で構文構造をどのように活用するか、低ランク演算子を介してデコーダの注意機構に複数の特殊化潜在表現を注入するかを検討する。
自然言語文と数式を用いた経験的評価により,提案するエンドツーエンドのvaeアーキテクチャにより,潜在空間全体の構造が向上し,標準vae設定で発生する情報損失が軽減され,言語モデリングや下流生成タスクのパフォーマンス向上が期待できることを明らかにした。 The injection of syntactic information in Variational AutoEncoders (VAEs) has been shown to result in an overall improvement of performances and generalisation. An effective strategy to achieve such a goal is to separate the encoding of distributional semantic features and syntactic structures into heterogeneous latent spaces via multi-task learning or dual encoder architectures. However, existing works employing such techniques are limited to LSTM-based VAEs. In this paper, we investigate latent space separation methods for structural syntactic injection in Transformer-based VAE architectures (i.e., Optimus). Specifically, we explore how syntactic structures can be leveraged in the encoding stage through the integration of graph-based and sequential models, and how multiple, specialised latent representations can be injected into the decoder's attention mechanism via low-rank operators. Our empirical evaluation, carried out on natural language sentences and mathematical expressions, reveals that the proposed end-to-end VAE architecture can result in a better overall organisation of the latent space, alleviating the information loss occurring in standard VAE setups, resulting in enhanced performances on language modelling and downstream generation tasks. | 翻訳日:2023-11-16 18:06:31 公開日:2023-11-14 |
# 野生のAI生成顔を見つける Finding AI-Generated Faces in the Wild ( http://arxiv.org/abs/2311.08577v1 ) ライセンス: Link先を確認 | Gonzalo J. Aniano Porcile, Jack Gindi, Shivansh Mundra, James R. Verbus, Hany Farid | (参考訳) AIベースの画像生成は急速に改善され続けており、視覚的欠陥が少なく、ますます現実的なイメージを生み出している。
AI生成画像は偽のオンラインプロフィールを作成するために使われており、スパム、詐欺、偽情報キャンペーンに使われている。
操作された、あるいは合成されたコンテンツを検知する一般的な問題は、注目されているので、ここでは、実際の顔とAI生成された顔とを区別するより狭いタスクに焦点を当てる。
これは、不正なオンラインアカウントを偽ユーザープロフィール写真で扱う場合に特に当てはまる。
顔のみに焦点を当てることで、様々なganおよび拡散ベースの合成エンジンからaiが生成した顔の検出を可能にする、より弾力的で汎用的な人工物の検出が可能であり、画像解像度(128 x 128ピクセル)と品質にまたがる。 AI-based image generation has continued to rapidly improve, producing increasingly more realistic images with fewer obvious visual flaws. AI-generated images are being used to create fake online profiles which in turn are being used for spam, fraud, and disinformation campaigns. As the general problem of detecting any type of manipulated or synthesized content is receiving increasing attention, here we focus on a more narrow task of distinguishing a real face from an AI-generated face. This is particularly applicable when tackling inauthentic online accounts with a fake user profile photo. We show that by focusing on only faces, a more resilient and general-purpose artifact can be detected that allows for the detection of AI-generated faces from a variety of GAN- and diffusion-based synthesis engines, and across image resolutions (as low as 128 x 128 pixels) and qualities. | 翻訳日:2023-11-16 18:06:11 公開日:2023-11-14 |
# 自己報告を用いたモラル状態評価に向けて Towards Evaluating AI Systems for Moral Status Using Self-Reports ( http://arxiv.org/abs/2311.08576v1 ) ライセンス: Link先を確認 | Ethan Perez and Robert Long | (参考訳) AIシステムがより進歩し、広く展開されるようになるにつれ、AIシステムは意識的な経験や欲望、あるいは潜在的な道徳的重要性の他の状態を持つことができるかどうかについての議論が高まるだろう。
これらの議論を可能な限り実証的な証拠で伝えることが重要である。
適切な状況下では、自己報告、あるいはAIシステムの内部状態に関する声明は、AIシステムが道徳的重要性のある状態を持っているかどうかを調査するための道筋となると我々は主張する。
自己報告は、そのような状態が人間の中で評価される主な方法であるが("Are you in pain?")、多くの理由から、大規模な言語モデルのような現在のシステムからの自己報告は、しばしば人間が言うことを反映している。
本研究は, 自己報告をより適切にするために, 偏見のあるトレーニングインセンティブを避けたり制限したりしながら, 自問自答に関する様々な疑問に答えるようにモデルを訓練することを提案する。
このアプローチの希望は、モデルが内省的な能力を開発し、これらの能力が道徳的重要性の状態に関する質問に一般化されることである。
次に,これらの手法が成功した範囲を評価するための手法を提案する。コンテキスト間および類似モデル間における自己報告一貫性の評価,モデルの自己報告の信頼性とレジリエンスの測定,自己報告を共用する解釈可能性の利用。
我々はまた、自己申告を解釈する哲学的な困難から、提案が失敗するかもしれない技術的理由まで、我々のアプローチの課題についても論じる。
我々の議論は、哲学者やAI研究者に、提案された方法論を批判し改善させるとともに、自己報告が道徳的重要性のある状態に関する情報を提供するのに十分な信頼性を持つことができるかどうかをテストする実験を行うことを願っている。 As AI systems become more advanced and widely deployed, there will likely be increasing debate over whether AI systems could have conscious experiences, desires, or other states of potential moral significance. It is important to inform these discussions with empirical evidence to the extent possible. We argue that under the right circumstances, self-reports, or an AI system's statements about its own internal states, could provide an avenue for investigating whether AI systems have states of moral significance. Self-reports are the main way such states are assessed in humans ("Are you in pain?"), but self-reports from current systems like large language models are spurious for many reasons (e.g. often just reflecting what humans would say). To make self-reports more appropriate for this purpose, we propose to train models to answer many kinds of questions about themselves with known answers, while avoiding or limiting training incentives that bias self-reports. The hope of this approach is that models will develop introspection-like capabilities, and that these capabilities will generalize to questions about states of moral significance. We then propose methods for assessing the extent to which these techniques have succeeded: evaluating self-report consistency across contexts and between similar models, measuring the confidence and resilience of models' self-reports, and using interpretability to corroborate self-reports. We also discuss challenges for our approach, from philosophical difficulties in interpreting self-reports to technical reasons why our proposal might fail. We hope our discussion inspires philosophers and AI researchers to criticize and improve our proposed methodology, as well as to run experiments to test whether self-reports can be made reliable enough to provide information about states of moral significance. | 翻訳日:2023-11-16 18:05:53 公開日:2023-11-14 |
# 因果ネットワークにおける相関集合の量の推定 Estimating the volumes of correlations sets in causal networks ( http://arxiv.org/abs/2311.08574v1 ) ライセンス: Link先を確認 | Giulio Camillo, Pedro Lauand, Davide Poderini, Rafael Rabelo, Rafael Chaves | (参考訳) パラダイム的ベルの定理のそれを超える因果ネットワークは、非古典的行動の新しい種類や応用につながる可能性がある。
しかしながら、それらの研究は、非凸の相関集合を定義し、最も単純なシナリオであっても、非常に不完全あるいは近似的な記述しか得られていないという事実によって妨げられている。
ここでは、この問題に対して異なるスタンスをとり、与えられたネットワークが生み出す古典的あるいは非古典的相関の相対的な体積を考える。
その他の多くの結果の中で,コミュニティで最も普及しているツールであるインフレーション技術が,非古典的行動のかなりの部分を検出することができないことを示す。
また,因果推論の中心的なツールである介入を用いることで,非古典性を目撃する能力が大幅に向上することを示す。 Causal networks beyond that in the paradigmatic Bell's theorem can lead to new kinds and applications of non-classical behavior. Their study, however, has been hindered by the fact that they define a non-convex set of correlations and only very incomplete or approximated descriptions have been obtained so far, even for the simplest scenarios. Here, we take a different stance on the problem and consider the relative volume of classical or non-classical correlations a given network gives rise to. Among many other results, we show instances where the inflation technique, arguably the most disseminated tool in the community, is unable to detect a significant portion of the non-classical behaviors. Interestingly, we also show that the use of interventions, a central tool in causal inference, can enhance substantially our ability to witness non-classicality. | 翻訳日:2023-11-16 18:05:23 公開日:2023-11-14 |
# パラメータ効率の高い多言語要約:実証的研究 Parameter-Efficient Multilingual Summarisation: An Empirical Study ( http://arxiv.org/abs/2311.08572v1 ) ライセンス: Link先を確認 | Chenxi Whitehouse, Fantine Huot, Jasmijn Bastings, Mostafa Dehghani, Chu-Cheng Lin, Mirella Lapata | (参考訳) 大規模言語モデルの普及に伴い、特にメモリ集約的なタスクにおいて、従来のフル微調整アプローチはますます課題に直面している。
本稿では,複雑な多言語要約タスクのための低ランク適応(lora)に着目し,パラメータ効率の良い微調整の可能性について検討する。
フルデータ、ローデータ、言語間転送など、さまざまなデータアベイラビリティシナリオに関する広範な調査を実施し、さまざまなサイズのモデルを活用しています。
以上の結果から,LoRAは低データシナリオや言語間移動に優れており,完全微調整の遅れが判明した。
興味深いことに、モデルがスケールアップするにつれて、LoRAとフル微調整のパフォーマンスギャップは減少する。
さらに,言語固有のLoRAモジュールの完全な微調整と動的構成と比較して,継続するLoRAチューニングが最高の性能を達成できることを示す。 With the increasing prevalence of Large Language Models, traditional full fine-tuning approaches face growing challenges, especially in memory-intensive tasks. This paper investigates the potential of Parameter-Efficient Fine-Tuning, focusing on Low-Rank Adaptation (LoRA), for complex and under-explored multilingual summarisation tasks. We conduct an extensive study across different data availability scenarios, including full-data, low-data, and cross-lingual transfer, leveraging models of different sizes. Our findings reveal that LoRA lags behind full fine-tuning when trained with full data, however, it excels in low-data scenarios and cross-lingual transfer. Interestingly, as models scale up, the performance gap between LoRA and full fine-tuning diminishes. Additionally, we investigate effective strategies for few-shot cross-lingual transfer, finding that continued LoRA tuning achieves the best performance compared to both full fine-tuning and dynamic composition of language-specific LoRA modules. | 翻訳日:2023-11-16 18:05:11 公開日:2023-11-14 |
# ニューラルネットワークを用いた痛み強度推定における不確かさの定量化 Uncertainty Quantification in Neural-Network Based Pain Intensity Estimation ( http://arxiv.org/abs/2311.08569v1 ) ライセンス: Link先を確認 | Burcu Ozek, Zhenyuan Lu, Srinivasan Radhakrishnan, Sagar Kamarthi | (参考訳) 不適切な痛み管理は、苦痛を含む重度の身体的または精神的な結果を引き起こし、オピオイド依存のリスクが増加する。
痛みの存在と重症度を評価することは、そのような結果の予防と適切な介入を決定するために不可欠である。
しかし,痛みは個人によって異なるため,痛み強度の評価は困難である。
これを克服するために、研究者は痛みの強さを客観的に評価するために機械学習モデルを採用した。
しかし、これらの取り組みは主に痛みのポイント推定に重点を置いており、データやモデルに存在する固有の不確実性と変動性を無視している。
したがって、ポイント推定は臨床意思決定のための部分的情報のみを提供する。
本研究では,不確実性定量化を取り入れたニューラルネットワークを用いた客観的痛覚区間推定手法を提案する。
本研究は, ブートストラップ法, 遺伝的アルゴリズムで最適化された下境界推定(LossL), 勾配降下アルゴリズムで最適化された下境界推定(LossS)の3つのアルゴリズムについて検討する。
実験の結果,LossSは予測間隔を狭めることで,他の2つよりも優れることがわかった。
その結果,LossSは痛み評価のシナリオを3つに分けて評価した。(1)一般化されたアプローチ(集団全体の単一モデル),(2)パーソナライズされたアプローチ(個々人の個別モデル),(3)ハイブリッドアプローチ(個々人のクラスタごとの分離モデル)。
本研究は, 臨床応用におけるハイブリットアプローチの優れた性能を示すものである。
臨床医にとって貴重なツールであり、不確実性を考慮して客観的な痛み強度評価を可能にする可能性がある。
この能力は、効果的な痛み管理の促進と不適切な治療に伴うリスクの軽減に不可欠である。 Improper pain management can lead to severe physical or mental consequences, including suffering, and an increased risk of opioid dependency. Assessing the presence and severity of pain is imperative to prevent such outcomes and determine the appropriate intervention. However, the evaluation of pain intensity is challenging because different individuals experience pain differently. To overcome this, researchers have employed machine learning models to evaluate pain intensity objectively. However, these efforts have primarily focused on point estimation of pain, disregarding the inherent uncertainty and variability present in the data and model. Consequently, the point estimates provide only partial information for clinical decision-making. This study presents a neural network-based method for objective pain interval estimation, incorporating uncertainty quantification. This work explores three algorithms: the bootstrap method, lower and upper bound estimation (LossL) optimized by genetic algorithm, and modified lower and upper bound estimation (LossS) optimized by gradient descent algorithm. Our empirical results reveal that LossS outperforms the other two by providing a narrower prediction interval. As LossS outperforms, we assessed its performance in three different scenarios for pain assessment: (1) a generalized approach (single model for the entire population), (2) a personalized approach (separate model for each individual), and (3) a hybrid approach (separate model for each cluster of individuals). Our findings demonstrate the hybrid approach's superior performance, with notable practicality in clinical contexts. It has the potential to be a valuable tool for clinicians, enabling objective pain intensity assessment while taking uncertainty into account. This capability is crucial in facilitating effective pain management and reducing the risks associated with improper treatment. | 翻訳日:2023-11-16 18:04:54 公開日:2023-11-14 |
# MAgIC:認知,適応性,合理性,コラボレーションにおけるマルチエージェントを用いた大規模言語モデルのベンチマーク MAgIC: Benchmarking Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration ( http://arxiv.org/abs/2311.08562v1 ) ライセンス: Link先を確認 | Lin Xu, Zhiyuan Hu, Daquan Zhou, Hongyu Ren, Zhen Dong, Kurt Keutzer, See Kiong Ng, Jiashi Feng | (参考訳) 大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げており、推論、ツールの使用、メモリにおける例外的な能力を示している。
アプリケーションがマルチエージェント環境に広がるにつれて、推論、計画、コラボレーションなどにおける彼らの能力を捉える包括的な評価フレームワークの必要性が生まれている。
本研究は,マルチエージェント環境でllmを評価するために特別に調整された新しいベンチマークフレームワークを導入し,判断,推論,誤認,自己認識,コラボレーション,協調,合理性を評価するための定量的指標を提供する。
chameleonやundercoverといったゲームと、コスト共有、マルチプレイヤー囚人のジレンマ、パブリックグッドといったゲーム理論のシナリオを使って、さまざまなテスト環境を作ります。
我々のフレームワークは確率的グラフィカルモデリング(PGM)法で強化されており、複雑な社会的・認知的な次元をナビゲートするLLMの能力を高めている。
ベンチマークでは、異なるLLMを動力とする7つのマルチエージェントシステムを評価し、最強のGPT-4と最弱のLlama-2-70Bの3倍の能力ギャップを定量的に強調した。
また、我々のPGMの強化により、選択された全てのモデル固有の能力が平均50%向上することを確認した。
私たちのコードは、https://github.com/cathyxl/MAgIC.comでリリースされています。 Large Language Models (LLMs) have marked a significant advancement in the field of natural language processing, demonstrating exceptional capabilities in reasoning, tool usage, and memory. As their applications extend into multi-agent environments, a need has arisen for a comprehensive evaluation framework that captures their abilities in reasoning, planning, collaboration, and more. This work introduces a novel benchmarking framework specifically tailored to assess LLMs within multi-agent settings, providing quantitative metrics to evaluate their judgment, reasoning, deception, self-awareness, collaboration, coordination, and rationality. We utilize games such as Chameleon and Undercover, alongside game theory scenarios like Cost Sharing, Multi-player Prisoner's Dilemma, and Public Good, to create diverse testing environments. Our framework is fortified with the Probabilistic Graphical Modeling (PGM) method, enhancing the LLMs' capabilities in navigating complex social and cognitive dimensions. The benchmark evaluates seven multi-agent systems powered by different LLMs, quantitatively highlighting a significant capability gap over threefold between the strongest, GPT-4, and the weakest, Llama-2-70B. It also confirms that our PGM enhancement boosts the inherent abilities of all selected models by 50% on average. Our codes are released here https://github.com/cathyxl/MAgIC. | 翻訳日:2023-11-16 18:04:23 公開日:2023-11-14 |
# 再帰的ランクビンニングの関連性の測定 Measuring association with recursive rank binning ( http://arxiv.org/abs/2311.08561v1 ) ライセンス: Link先を確認 | Chris Salahub and Wayne Oldford | (参考訳) 依存のペアワイズ測度は、ペアワイズ標本空間の最大分割に基づくいくつかの現代的な例と分析の初期段階でデータをマッピングする一般的なツールである。
現代の依存測度の簡単な調査に続いて、サンプル空間を分割するために一対の変数の階数を再帰的に分割し、結果のビンの$\chi^2$統計値を計算する新しい尺度を導入する。
スコア関数とランダムに選択された分割を最大化するために分割論理を詳述する。
シミュレーションにより、ランダムスプリッティングは、最大ビンニングに比べて多くの異なるデータパターンを検出するパワーを失うことなく、$\chi^2$分布によって統計的に近似された統計的に近似することを示している。
依存を検出する力は加えないと思われるが、最大再帰的ビンニングにより、データと測定値の自然な視覚化が得られる。
S&P 500 構成データに最大再帰ランクビンニングを適用すれば、テール依存の自動検出が期待できる。 Pairwise measures of dependence are a common tool to map data in the early stages of analysis with several modern examples based on maximized partitions of the pairwise sample space. Following a short survey of modern measures of dependence, we introduce a new measure which recursively splits the ranks of a pair of variables to partition the sample space and computes the $\chi^2$ statistic on the resulting bins. Splitting logic is detailed for splits maximizing a score function and randomly selected splits. Simulations indicate that random splitting produces a statistic conservatively approximated by the $\chi^2$ distribution without a loss of power to detect numerous different data patterns compared to maximized binning. Though it seems to add no power to detect dependence, maximized recursive binning is shown to produce a natural visualization of the data and the measure. Applying maximized recursive rank binning to S&P 500 constituent data suggests the automatic detection of tail dependence. | 翻訳日:2023-11-16 18:03:59 公開日:2023-11-14 |
# 拡散モデルを用いたバイアストレーサからの暗黒物質場の確率論的再構成 Probabilistic reconstruction of Dark Matter fields from biased tracers using diffusion models ( http://arxiv.org/abs/2311.08558v1 ) ライセンス: Link先を確認 | Core Francisco Park, Victoria Ono, Nayantara Mudur, Yueying Ni, Carolina Cuesta-Lazaro | (参考訳) 銀河は、直接観測できないダークマター成分によって支配される宇宙のWebのバイアストレーサである。
ダークマター密度場と銀河分布の関係は、銀河形成モデルに埋め込まれた宇宙論や天体物理過程の仮定に敏感であり、多くの面において不確かである。
様々な宇宙パラメータとサブグリッド天体物理学を持つ最先端の銀河形成シミュレーションスイートに基づいて、宇宙論と銀河形成の不確実性に限界を付しつつ、与えられた恒星質量場から基礎となる暗黒物質場の偏りのない後方分布を予測できる拡散生成モデルを開発した。 Galaxies are biased tracers of the underlying cosmic web, which is dominated by dark matter components that cannot be directly observed. The relationship between dark matter density fields and galaxy distributions can be sensitive to assumptions in cosmology and astrophysical processes embedded in the galaxy formation models, that remain uncertain in many aspects. Based on state-of-the-art galaxy formation simulation suites with varied cosmological parameters and sub-grid astrophysics, we develop a diffusion generative model to predict the unbiased posterior distribution of the underlying dark matter fields from the given stellar mass fields, while being able to marginalize over the uncertainties in cosmology and galaxy formation. | 翻訳日:2023-11-16 18:03:41 公開日:2023-11-14 |
# 可視・赤外線画像フィードにおける低照度歩行者検出:課題と課題 Low-light Pedestrian Detection in Visible and Infrared Image Feeds: Issues and Challenges ( http://arxiv.org/abs/2311.08557v1 ) ライセンス: Link先を確認 | Hrishikesh Vachhani, Thangarajah Akilan, Yash Devmurari, Nisharaff Shaik, Dhruvisha Patel | (参考訳) 歩行者検出は、自動運転、インテリジェント交通、交通監視など、いくつかのハイレベルなタスクの基盤となっている。
昼間を中心に、目に見える画像を用いた歩行者検出に焦点を当てた作品がいくつかある。
しかし、環境条件が暗い照明や夜間に変わると、この課題は非常に興味深い。
近年では、Far InfraRed(FIR)温度センサーを低照度での歩行者検出に利用するための新たなアイデアが提案されている。
本研究は,低照度歩行者検出手法の最近の展開を総合的に概観する。
様々なアルゴリズムを地域ベースから非地域ベース、グラフベースの学習方法論に分類、分析し、その方法論、実装問題、課題を強調する。
また、特に低照度環境で、高度な歩行者検出アルゴリズムの研究と開発に使用できる重要なベンチマークデータセットも概説している。 Pedestrian detection has become a cornerstone for several high-level tasks, including autonomous driving, intelligent transportation, and traffic surveillance. There are several works focussed on pedestrian detection using visible images, mainly in the daytime. However, this task is very intriguing when the environmental conditions change to poor lighting or nighttime. Recently, new ideas have been spurred to use alternative sources, such as Far InfraRed (FIR) temperature sensor feeds for detecting pedestrians in low-light conditions. This study comprehensively reviews recent developments in low-light pedestrian detection approaches. It systematically categorizes and analyses various algorithms from region-based to non-region-based and graph-based learning methodologies by highlighting their methodologies, implementation issues, and challenges. It also outlines the key benchmark datasets that can be used for research and development of advanced pedestrian detection algorithms, particularly in low-light situations | 翻訳日:2023-11-16 18:03:26 公開日:2023-11-14 |
# ISQ時代の効率的な量子モジュラー算術 Efficient Quantum Modular Arithmetics for the ISQ Era ( http://arxiv.org/abs/2311.08555v1 ) ライセンス: Link先を確認 | Parfait Atchade-Adelomou and Saul Gonzalez | (参考訳) 中間スケール量子(ISQ)時代に入るにつれ、モジュラー演算の習熟度は量子暗号アルゴリズムの進化に欠かせないものとなる。
本研究は, 量子回路の配列を, 暗号アプリケーションに不可欠なモジュラー演算関数にそれぞれ精密に設計した。
私たちの展示の中心は、量子モジュラー加算器、乗算器、指数演算子であり、ISQデバイスに厳格に最適化されている。
我々はPennyLane量子ソフトウェアにおける理論的枠組みと実践的実装を提供し、概念と応用量子コンピューティングのギャップを埋める。
シミュレーションはこれらの手法の有効性を検証し、量子技術の急速な進歩に対応する量子アルゴリズムを開発するための戦略的コンパスを提供する。 As we venture into the Intermediate-Scale Quantum (ISQ) era, the proficiency of modular arithmetic operations becomes pivotal for advancing quantum cryptographic algorithms. This study presents an array of quantum circuits, each precision-engineered for modular arithmetic functions critical to cryptographic applications. Central to our exposition are quantum modular adders, multipliers, and exponential operators, whose designs are rigorously optimized for ISQ devices. We provide a theoretical framework and practical implementations in the PennyLane quantum software, bridging the gap between conceptual and applied quantum computing. Our simulations validate the efficacy of these methodologies, offering a strategic compass for developing quantum algorithms that align with the rapid progression of quantum technology. | 翻訳日:2023-11-16 18:03:10 公開日:2023-11-14 |
# 強磁場中におけるディラック電子によるねじれ光子の放出 Emission of twisted photons by a Dirac electron in a strong magnetic field ( http://arxiv.org/abs/2311.08553v1 ) ライセンス: Link先を確認 | I. Pavlov and D. Karlovets | (参考訳) 我々は、電子の相対論的ランダウ状態の遷移中の光子の自発的放出を、シュウィンガー値である$h_c = 4.4 \times 10^9$ t に達する一定の磁場中で研究する。
発光された光子状態は、この軸に全角運動量(TAM)を投影した磁場軸に沿って伝播するねじれたベッセルビームを表しており、ここでは、$\ell$と$\ell’$はそれぞれ初期電子のTAMであり、最終電子のTAMである。
したがって、放出された光子の大多数は、磁場が$H\sim H_c$の臨界値に達したとしても、$\ell-\ell' \gtrsim 1$でねじられる。
電子の角運動量($\ell'=\ell$)を変えることなくの遷移は可能であるが、可能性は低い。
また, スピンレス荷電粒子の場合と比較し, スピン-フリップ遷移が一般的に抑制されているのに対し, 電子スピン投影は臨界場においても変化せず, 遷移に対して良好な一致を示す。
さらに、電子スピン作用素の曖昧な選択は放出の微分確率に影響を与えるが、この問題は、励起された光子のTAMを定義するスピンのみではなく電子TAMであるので、光子の進化状態に対して部分的に回避できる。 We study spontaneous emission of a photon during the transitions between relativistic Landau states of an electron in a constant magnetic field that can reach the Schwinger value of $H_c = 4.4 \times 10^9$ T. In contrast to the conventional method in which detection of both the final electron and the photon is implied in a certain basis, here we derive the photon state as it evolves from the process itself. It is shown that the emitted photon state represents a twisted Bessel beam propagating along the field axis with a total angular momentum (TAM) projection onto this axis $\ell-\ell'$ where $\ell$ and $\ell'$ are the TAM of the initial electron and of the final one, respectively. Thus, the majority of the emitted photons turn out to be twisted with $\ell-\ell' \gtrsim 1$, even when the magnetic field reaches the critical value of $H\sim H_c$. The transitions without a change of the electron angular momentum, $\ell'=\ell$, are possible, yet much less probable. We also compare our findings with those for a spinless charged particle and demonstrate their good agreement for the transitions without change of the electron spin projection even in the critical fields, while the spin-flip transitions are generally suppressed. In addition, we argue that whereas the ambiguous choice of an electron spin operator affects the differential probability of emission, this problem can partially be circumvented for the photon evolved state because it is the electron TAM rather than the spin alone that defines the TAM of the emitted twisted photon. | 翻訳日:2023-11-16 18:02:57 公開日:2023-11-14 |
# ut5: unrolled denoisingによる非自己回帰性t5の事前訓練 UT5: Pretraining Non autoregressive T5 with unrolled denoising ( http://arxiv.org/abs/2311.08552v1 ) ライセンス: Link先を確認 | Mahmoud G. Salem, Jiayu Ye, Chu-Cheng Lin, Frederick Liu | (参考訳) トランスフォーマーに基づく大規模言語モデルの最近の進歩は、自然言語生成に大きな進歩をもたらした。
しかし、Kトークンをデコードするためには、自動回帰モデルはKシーケンシャルフォワードパスを必要とする。
多くの非自己回帰的(nar)研究がこのシーケンシャルなボトルネックに対処することを目標としている。
本研究では,非自己回帰型T5モデルの教師なし事前学習を非ループデノナイズにより検討し,SQuAD質問生成やXSumなどの下流生成タスクにおけるSoTA結果を示した。 Recent advances in Transformer-based Large Language Models have made great strides in natural language generation. However, to decode K tokens, an autoregressive model needs K sequential forward passes, which may be a performance bottleneck for large language models. Many non-autoregressive (NAR) research are aiming to address this sequentiality bottleneck, albeit many have focused on a dedicated architecture in supervised benchmarks. In this work, we studied unsupervised pretraining for non auto-regressive T5 models via unrolled denoising and shown its SoTA results in downstream generation tasks such as SQuAD question generation and XSum. | 翻訳日:2023-11-16 18:02:30 公開日:2023-11-14 |
# 密度演算子の期待値測定のためのパウリ弦の通勤家族への高速分割 Fast Partitioning of Pauli Strings into Commuting Families for Expectation Value Measurements of Dense Operators ( http://arxiv.org/abs/2311.08551v1 ) ライセンス: Link先を確認 | Nouman Butt, Andrew Lytle, Ben Reggio, Patrick Draper | (参考訳) 作用素の量子期待値を測定するコストは、作用素のPauli string(SU(2)$ tensor product)分解を最大可換集合にグループ化することで低減することができる。
我々は、$m$-qubit pauli文字列の完全なセットを最小数の通勤ファミリーに分割するために[1]で示されるアルゴリズムを詳述し、ibmのハードウェア上で密度の高いハミルトニアンのパフォーマンスをベンチマークする。
また,本手法を一般通勤の場合のグラフ理論手法と比較した。 The cost of measuring quantum expectation values of an operator can be reduced by grouping the Pauli string ($SU(2)$ tensor product) decomposition of the operator into maximally commuting sets. We detail an algorithm, presented in [1], to partition the full set of $m$-qubit Pauli strings into the minimal number of commuting families, and benchmark the performance with dense Hamiltonians on IBM hardware. Here we also compare how our method scales compared to graph-theoretic techniques for the generally commuting case. | 翻訳日:2023-11-16 18:02:17 公開日:2023-11-14 |
# DALA: 事前訓練された言語モデルに対するロラに基づく分散攻撃 DALA: A Distribution-Aware LoRA-Based Adversarial Attack against Pre-trained Language Models ( http://arxiv.org/abs/2311.08598v1 ) ライセンス: Link先を確認 | Yibo Wang, Xiangjue Dong, James Caverlee, Philip S. Yu | (参考訳) アプリケーションで成功を収める事前訓練された言語モデル(plm)は、小さな摂動で敵の例を生成することができる敵の攻撃方法に影響を受けやすい。
近年の攻撃方法は比較的高い攻撃成功率 (ASR) を達成することができるが, 生成した敵のサンプルは元の例と異なるデータ分布を持つことを示す。
具体的には、これらの逆例は、トレーニングデータ分布に対する信頼性レベルと高い距離を示す。
その結果、非常に単純な検出方法により検出が容易になり、実際の攻撃方法の有効性が低下する。
そこで本研究では,対象者の分布変化を考慮した分散認識型lora-based adversarial attack (dala) 法を提案する。
さらに、ASRと攻撃タスクの検出を組み合わせた新しい評価基準NASRを設計する。
本研究では, BALA が BERT ベースモデルとブラックボックス LLaMA2-7b モデルで生成した敵例の ASR と NASR に対する攻撃効果を検証した。 Pre-trained language models (PLMs) that achieve success in applications are susceptible to adversarial attack methods that are capable of generating adversarial examples with minor perturbations. Although recent attack methods can achieve a relatively high attack success rate (ASR), our observation shows that the generated adversarial examples have a different data distribution compared with the original examples. Specifically, these adversarial examples exhibit lower confidence levels and higher distance to the training data distribution. As a result, they are easy to detect using very simple detection methods, diminishing the actual effectiveness of these attack methods. To solve this problem, we propose a Distribution-Aware LoRA-based Adversarial Attack (DALA) method, which considers the distribution shift of adversarial examples to improve attack effectiveness under detection methods. We further design a new evaluation metric NASR combining ASR and detection for the attack task. We conduct experiments on four widely-used datasets and validate the attack effectiveness on ASR and NASR of the adversarial examples generated by DALA on the BERT-base model and the black-box LLaMA2-7b model. | 翻訳日:2023-11-16 17:53:46 公開日:2023-11-14 |
# あなたは確かですか?
FlipFlop実験におけるLCMの混在によるパフォーマンス低下 Are You Sure? Challenging LLMs Leads to Performance Drops in The FlipFlop Experiment ( http://arxiv.org/abs/2311.08596v1 ) ライセンス: Link先を確認 | Philippe Laban and Lidiya Murakhovs'ka and Caiming Xiong and Chien-Sheng Wu | (参考訳) LLM(Large Language Models)のインタラクティブな性質は、理論的にはモデルによる解法の洗練と改善を可能にするが、LLMのマルチターン動作の体系的解析は限定的である。
本稿では,FlipFlop実験を提案する。会話の第1ラウンドにおいて,LLMは分類タスクを含むプロンプトに応答する。
2回目のラウンドでは、LLMは"Are you sure?"のようなフォローアップフレーズで挑戦され、モデルが最初の回答を反映する機会を提供し、その答えを確認または無効にするかを決めます。
7つの分類タスクに関する9つのLCMの体系的研究は、モデルが平均46%の時間で解答を反転し、全てのモデルが最初の予測と最終予測の間に精度の劣化を観測し、平均17%の低下を示した。
FlipFlop実験は、LLMにおけるサイコファンティックな振る舞いの普遍性を示し、モデル挙動を分析し、潜在的なソリューションを評価するための堅牢なフレームワークを提供する。 The interactive nature of Large Language Models (LLMs) theoretically allows models to refine and improve their answers, yet systematic analysis of the multi-turn behavior of LLMs remains limited. In this paper, we propose the FlipFlop experiment: in the first round of the conversation, an LLM responds to a prompt containing a classification task. In a second round, the LLM is challenged with a follow-up phrase like "Are you sure?", offering an opportunity for the model to reflect on its initial answer, and decide whether to confirm or flip its answer. A systematic study of nine LLMs on seven classification tasks reveals that models flip their answers on average 46% of the time and that all models see a deterioration of accuracy between their first and final prediction, with an average drop of 17%. The FlipFlop experiment illustrates the universality of sycophantic behavior in LLMs and provides a robust framework to analyze model behavior and evaluate potential solutions. | 翻訳日:2023-11-16 17:53:23 公開日:2023-11-14 |
# 変動時間IRT:動的学習者の高速・高精度・説明可能な推論 Variational Temporal IRT: Fast, Accurate, and Explainable Inference of Dynamic Learner Proficiency ( http://arxiv.org/abs/2311.08594v1 ) ライセンス: Link先を確認 | Yunsung Kim, Sreechan Sankaranarayanan, Chris Piech, Candace Thille | (参考訳) 動的項目応答モデルは、学習者の能力の時間的ダイナミクスを捉えるために標準項目応答理論(irt)を拡張する。
これらのモデルには、教育システムが学習者の習熟度をリアルタイムでモニタリングする能力があるが、既存の動的アイテム応答モデルは、大量のデータセットに低スケールの高価な推論アルゴリズムに依存している。
本研究では,動的学習者の習熟度を高速かつ正確に推定するための変動時間IRT(VTIRT)を提案する。
VTIRTは、正確な推論を提供しながら、推論ランタイムにおいて桁違いのスピードアップを提供する。
さらに,提案アルゴリズムはモジュール設計により本質的に解釈可能である。
9つの実際の学生データセットに適用すると、vtirtは一貫して、他の学習者習熟度モデルよりも将来の学習者性能を予測することができる。 Dynamic Item Response Models extend the standard Item Response Theory (IRT) to capture temporal dynamics in learner ability. While these models have the potential to allow instructional systems to actively monitor the evolution of learner proficiency in real time, existing dynamic item response models rely on expensive inference algorithms that scale poorly to massive datasets. In this work, we propose Variational Temporal IRT (VTIRT) for fast and accurate inference of dynamic learner proficiency. VTIRT offers orders of magnitude speedup in inference runtime while still providing accurate inference. Moreover, the proposed algorithm is intrinsically interpretable by virtue of its modular design. When applied to 9 real student datasets, VTIRT consistently yields improvements in predicting future learner performance over other learner proficiency models. | 翻訳日:2023-11-16 17:53:03 公開日:2023-11-14 |
# ACID: 言語モデルによるドキュメント検索のための抽象化されたコンテンツベースID ACID: Abstractive, Content-Based IDs for Document Retrieval with Language Models ( http://arxiv.org/abs/2311.08593v1 ) ライセンス: Link先を確認 | Haoxin Li, Phillip Keung, Daniel Cheng, Jungo Kasai, Noah A. Smith | (参考訳) 生成検索 (Wang et al., 2022; Tay et al., 2022) は、入力クエリが与えられた文書識別子を直接生成するエンドツーエンドの文書検索の新しいアプローチである。
効率的で高品質な文書IDを設計するための技術はほとんど未検討のままである。
それぞれの文書のIDは、過去の作業で行われた整数IDシーケンスではなく、大きな言語モデルによって生成される抽象的なキーフレーズで構成されている。
文書埋め込みの階層的クラスタリングによってIDを生成するID生成の最先端技術と比較する。
また,各文書の最初の k 語をその ID や BM25 スコアの高い単語として用いるという,単純な自然言語文書ID 生成手法についても検討した。
その結果,msmarco 100k検索タスクの最先端ベースラインに対して,acidの使用によりトップ10とトップ20の精度がそれぞれ15.6%,トップ20が14.4%向上し,自然質問100k検索タスクでは4.4%,4.0%向上した。
本研究は,lmsを用いた生成的検索における自然言語idの有効性を示す。
結果とキーワード拡張データセットを再現するコードは、公式発表で公開される。 Generative retrieval (Wang et al., 2022; Tay et al., 2022) is a new approach for end-to-end document retrieval that directly generates document identifiers given an input query. Techniques for designing effective, high-quality document IDs remain largely unexplored. We introduce ACID, in which each document's ID is composed of abstractive keyphrases generated by a large language model, rather than an integer ID sequence as done in past work. We compare our method with the current state-of-the-art technique for ID generation, which produces IDs through hierarchical clustering of document embeddings. We also examine simpler methods to generate natural-language document IDs, including the naive approach of using the first k words of each document as its ID or words with high BM25 scores in that document. We show that using ACID improves top-10 and top-20 accuracy by 15.6% and 14.4% (relative) respectively versus the state-of-the-art baseline on the MSMARCO 100k retrieval task, and 4.4% and 4.0% respectively on the Natural Questions 100k retrieval task. Our results demonstrate the effectiveness of human-readable, natural-language IDs in generative retrieval with LMs. The code for reproducing our results and the keyword-augmented datasets will be released on formal publication. | 翻訳日:2023-11-16 17:52:50 公開日:2023-11-14 |
# AART: 新しいLLMアプリケーションのためのAI支援型リレーショナルデータ生成 AART: AI-Assisted Red-Teaming with Diverse Data Generation for New LLM-powered Applications ( http://arxiv.org/abs/2311.08592v1 ) ライセンス: Link先を確認 | Bhaktipriya Radharapu, Kevin Robinson, Lora Aroyo, Preethi Lahoti | (参考訳) 大規模言語モデル(LLM)のアドバイザリテストは、安全で責任のあるデプロイメントに不可欠である。
本稿では,新しい下流アプリケーションにおけるllm生成の安全性をテストするために,逆評価データセットの自動生成手法を提案する。
AI支援のレッドチーム(AART)と呼ばれています。
aartは、再利用可能なカスタマイズ可能なレシピによるデータ生成と拡張のパイプラインを提供し、人的労力を大幅に削減し、新しい製品開発の早い段階で敵対的テストの統合を可能にする。
AARTは、効果的な敵対的テスト(例えば、広範囲の文化的・地理的領域や応用シナリオに特有で有害な概念)に不可欠な、コンテンツ特性の多様性の高い評価データセットを生成する。
データ生成はAI支援のレシピによって制御され、アプリケーションコンテキスト内の多様性を定義し、スコープし、優先順位付けする。
これは、評価優先順位をスケールアップする構造化LCM生成プロセスに影響を及ぼす。
最先端のツールと比較すると、aartはコンセプトカバレッジとデータ品質の観点から有望な結果を示している。 Adversarial testing of large language models (LLMs) is crucial for their safe and responsible deployment. We introduce a novel approach for automated generation of adversarial evaluation datasets to test the safety of LLM generations on new downstream applications. We call it AI-assisted Red-Teaming (AART) - an automated alternative to current manual red-teaming efforts. AART offers a data generation and augmentation pipeline of reusable and customizable recipes that reduce human effort significantly and enable integration of adversarial testing earlier in new product development. AART generates evaluation datasets with high diversity of content characteristics critical for effective adversarial testing (e.g. sensitive and harmful concepts, specific to a wide range of cultural and geographic regions and application scenarios). The data generation is steered by AI-assisted recipes to define, scope and prioritize diversity within the application context. This feeds into a structured LLM-generation process that scales up evaluation priorities. Compared to some state-of-the-art tools, AART shows promising results in terms of concept coverage and data quality. | 翻訳日:2023-11-16 17:52:25 公開日:2023-11-14 |
# PEMA: 言語モデルのためのプラグイン外部メモリ適応 PEMA: Plug-in External Memory Adaptation for Language Models ( http://arxiv.org/abs/2311.08590v1 ) ライセンス: Link先を確認 | HyunJin Kim, Young Jin Kim, JinYeong Bak | (参考訳) プレトレーニング言語モデル (PLM) は、様々な下流のNLPタスクで顕著なパフォーマンスを示している。
それでも、メモリとトレーニング計算の観点で、大規模な言語モデルを事前トレーニングするリソース要件は、大きな課題となる。
さらに、大量の資源を必要とするため、多くのPLM重みは機密である。
その結果、ユーザーは特定のタスクを微調整するために、モデル所有者とデータを共有せざるを得なくなる。
この制限を克服するために,全ての重みを必要とせずに微調整PLM用に設計されたパラメータ効率の良い細調整 (PEFT) 手法であるプラグイン外部メモリ適応 (PEMA) を導入する。
PEMAは、ダウンストリームタスクを実行するために、推論中にテストデータのコンテキスト表現に統合できる。
外部メモリを利用して、所望のターゲットワードでマッピングされた PLM によって生成されたコンテキスト表現を格納する。
提案手法では,PLMの最終層内におけるLoRA系重量行列のトレーニングを行い,効率を向上する。
確率は、PLMの次の単語分布と補間され、下流のタスクを実行する。
世代品質を向上させるため,段階的展開という新しい補間戦略を提案する。
提案手法の有効性を実証するために,PEMAの構文的データセットによる有効性を示す実験を行い,実データを用いた機械翻訳およびスタイル伝達タスクの性能評価を行った。
PEMAは、トレーニングと推論のためのメモリと遅延効率の点で、他のPEFTメソッドよりも優れている。
さらに、適切な言語やスタイルを生成しながら文の意味を保ちながら、他のベースラインよりも優れている。 Pre-trained language models (PLMs) have demonstrated impressive performance across various downstream NLP tasks. Nevertheless, the resource requirements of pre-training large language models in terms of memory and training compute pose significant challenges. Furthermore, due to the substantial resources required, many PLM weights are confidential. Consequently, users are compelled to share their data with model owners for fine-tuning on specific tasks. To overcome the limitations, we introduce Plug-in External Memory Adaptation (PEMA), a Parameter-Efficient Fine-Tuning (PEFT) approach designed for fine-tuning PLMs without the need for all weights. PEMA can be integrated into the context representation of test data during inference to execute downstream tasks. It leverages an external memory to store context representations generated by a PLM, mapped with the desired target word. Our method entails training LoRA-based weight matrices within the final layer of the PLM for enhanced efficiency. The probability is then interpolated with the next-word distribution from the PLM to perform downstream tasks. To improve the generation quality, we propose a novel interpolation strategy named Gradual Unrolling. To demonstrate the effectiveness of our proposed method, we conduct experiments to demonstrate the efficacy of PEMA with a syntactic dataset and assess its performance on machine translation and style transfer tasks using real datasets. PEMA outperforms other PEFT methods in terms of memory and latency efficiency for training and inference. Furthermore, it outperforms other baselines in preserving the meaning of sentences while generating appropriate language and styles. | 翻訳日:2023-11-16 17:52:08 公開日:2023-11-14 |
# CodeScope: コード理解と生成におけるLLM評価のための実行型多言語マルチタスク多次元ベンチマーク CodeScope: An Execution-based Multilingual Multitask Multidimensional Benchmark for Evaluating LLMs on Code Understanding and Generation ( http://arxiv.org/abs/2311.08588v1 ) ライセンス: Link先を確認 | Weixiang Yan, Haitian Liu, Yunkun Wang, Yunzhe Li, Qian Chen, Wen Wang, Tingyu Lin, Weishan Zhao, Li Zhu, Shuiguang Deng, Hari Sundaram | (参考訳) 大規模言語モデル(LLM)は、特に人間のプログラミング支援とプログラミング自動化の促進において、コーディングに関連するタスクにおいて顕著なパフォーマンスを示している。
しかし、llmのコード理解と生成能力を評価するための既存のベンチマークは厳しい制限を受ける。
まず、ほとんどのベンチマークは、様々な一般的なプログラミング言語や特定のタスクに重点を置いているが、実際のソフトウェア開発シナリオは、多様な要件を満たすために、多言語プログラミング環境を持つシステムを実装する必要があることを示している。
実用的なプログラミングプラクティスは、LLMのコーディング能力を包括的かつ堅牢にテストするためのマルチタスク設定を強く期待する。
第二に、ほとんどのベンチマークでは、実際の実行可能性と生成されたコードの実行結果の一貫性も考慮できません。
既存のベンチマークと実用アプリケーションとのギャップを埋めるため,コーディングタスクにおけるLLM機能を網羅的に拡張する,実行ベース,多言語,マルチタスク,多次元評価ベンチマークであるCodeScopeを導入する。
codescopeは43のプログラミング言語と8つのコーディングタスクをカバーする。
難易度, 効率, 長さの3次元からLCMの符号化性能を評価する。
コード生成の実行に基づく評価を容易にするため,14のプログラミング言語をサポートする自動コード実行エンジンであるMultiCodeEngineを開発した。
最後に,CodeScopeタスク上の8つの主要なLCMを体系的に評価し,他のベンチマークと比較してコード理解および生成タスク上でのLCMの評価において,CodeScopeの優れた広さと課題を示す。
CodeScopeベンチマークとデータセットはhttps://github.com/WeixiangYAN/CodeScopeで公開されている。 Large Language Models (LLMs) have demonstrated remarkable performance on coding related tasks, particularly on assisting humans in programming and facilitating programming automation. However, existing benchmarks for evaluating the code understanding and generation capacities of LLMs suffer from severe limitations. First, most benchmarks are deficient as they focus on a narrow range of popular programming languages and specific tasks, whereas the real-world software development scenarios show dire need to implement systems with multilingual programming environments to satisfy diverse requirements. Practical programming practices also strongly expect multi-task settings for testing coding capabilities of LLMs comprehensively and robustly. Second, most benchmarks also fail to consider the actual executability and the consistency of execution results of the generated code. To bridge these gaps between existing benchmarks and expectations from practical applications, we introduce CodeScope, an execution-based, multilingual, multi-task, multi-dimensional evaluation benchmark for comprehensively gauging LLM capabilities on coding tasks. CodeScope covers 43 programming languages and 8 coding tasks. It evaluates the coding performance of LLMs from three dimensions (perspectives): difficulty, efficiency, and length. To facilitate execution-based evaluations of code generation, we develop MultiCodeEngine, an automated code execution engine that supports 14 programming languages. Finally, we systematically evaluate and analyze 8 mainstream LLMs on CodeScope tasks and demonstrate the superior breadth and challenges of CodeScope for evaluating LLMs on code understanding and generation tasks compared to other benchmarks. The CodeScope benchmark and datasets are publicly available at https://github.com/WeixiangYAN/CodeScope. | 翻訳日:2023-11-16 17:51:43 公開日:2023-11-14 |
# 電子顕微鏡における照射$\unicode{x2010}$誘導秩序$\unicode{x2010}$不規則相転移の無監督セグメンテーション Unsupervised segmentation of irradiation$\unicode{x2010}$induced order$\unicode{x2010}$disorder phase transitions in electron microscopy ( http://arxiv.org/abs/2311.08585v1 ) ライセンス: Link先を確認 | Arman H Ter-Petrosyan, Jenna A Bilbrey, Christina M Doty, Bethany E Matthews, Le Wang, Yingge Du, Eric Lang, Khalid Hattar, Steven R Spurgeon | (参考訳) 本稿では,材料や化学系の強力な記述子である電子顕微鏡像の教師なしセグメンテーション法を提案する。
画像は重なり合うチップに分割され、類似性グラフはドメイン$\unicode{x2010}$pretrained convolutional Neural Network (CNN)から抽出された埋め込みから生成される。
次に、コミュニティ検出のためのルービン法を適用してセグメンテーションを行う。
グラフ表現は、チップとコミュニティの関係を示す直感的な方法を提供する。
本研究では,触媒および電子工学に用いられる薄膜における照射量$\unicode{x2010}$誘導アモルファスフロントを追跡する方法を示す。
この方法は"on$\unicode{x2010}$the$\unicode{x2010}$fly"セグメンテーションの可能性を秘めており、新しい自動電子顕微鏡を導く。 We present a method for the unsupervised segmentation of electron microscopy images, which are powerful descriptors of materials and chemical systems. Images are oversegmented into overlapping chips, and similarity graphs are generated from embeddings extracted from a domain$\unicode{x2010}$pretrained convolutional neural network (CNN). The Louvain method for community detection is then applied to perform segmentation. The graph representation provides an intuitive way of presenting the relationship between chips and communities. We demonstrate our method to track irradiation$\unicode{x2010}$induced amorphous fronts in thin films used for catalysis and electronics. This method has potential for "on$\unicode{x2010}$the$\unicode{x2010}$fly" segmentation to guide emerging automated electron microscopes. | 翻訳日:2023-11-16 17:51:16 公開日:2023-11-14 |
# 接地検索のためのより情報的な質問 Asking More Informative Questions for Grounded Retrieval ( http://arxiv.org/abs/2311.08584v1 ) ライセンス: Link先を確認 | Sedrick Keh, Justin T. Chiu, Daniel Fried | (参考訳) モデルがインタラクティブな設定で情報を集めようとするとき、それは情報的な質問の恩恵を受ける。
しかし,マルチターン画像識別タスクの場合,従来の研究では,1ターンでモデルが得られる情報量を制限するために,イエス/ノー質問の偏極に制限されていた。
より情報的でオープンな質問を定式化するアプローチを提案する。
その際,既定の視覚質問応答(vqa)モデルでは前置誤差が発生することが多く,標準情報による質問選択手法では説明できないことが判明した。
この問題に対処するために,質問選択と信条更新の両方に事前提案処理を組み込む手法を提案する。
具体的には、2段階のプロセスを使い、まずモデルが与えられた質問に無関係な画像をフィルタリングし、次にユーザが意図する画像を更新する。
自己評価と人的評価を通じ,我々の手法は情報公開型の質問に成功し,過去の最先端技術よりも精度を14%向上させ,その結果,人間の評価においてより効率のよいゲームが48%向上したことを示す。 When a model is trying to gather information in an interactive setting, it benefits from asking informative questions. However, in the case of a grounded multi-turn image identification task, previous studies have been constrained to polar yes/no questions, limiting how much information the model can gain in a single turn. We present an approach that formulates more informative, open-ended questions. In doing so, we discover that off-the-shelf visual question answering (VQA) models often make presupposition errors, which standard information gain question selection methods fail to account for. To address this issue, we propose a method that can incorporate presupposition handling into both question selection and belief updates. Specifically, we use a two-stage process, where the model first filters out images which are irrelevant to a given question, then updates its beliefs about which image the user intends. Through self-play and human evaluations, we show that our method is successful in asking informative open-ended questions, increasing accuracy over the past state-of-the-art by 14%, while resulting in 48% more efficient games in human evaluations. | 翻訳日:2023-11-16 17:51:00 公開日:2023-11-14 |
# MOSAIC:持続可能なデータセンター管理のための多目的最適化フレームワーク MOSAIC: A Multi-Objective Optimization Framework for Sustainable Datacenter Management ( http://arxiv.org/abs/2311.08583v1 ) ライセンス: Link先を確認 | Sirui Qi, Dejan Milojicic, Cullen Bash, Sudeep Pasricha | (参考訳) 近年、クラウドサービスプロバイダは、堅牢なサービスを提供するために、複数の地理的な場所にまたがるデータセンタを構築し、ホストしている。
しかし、データセンターの地理的分布は、特に水利用や二酸化炭素排出量に関して、地域と地球環境の両方に圧力を増す。
残念ながら、そのようなデータセンターの環境への影響を減らそうとする努力は、しばしばデータセンター運用のコストを増大させる。
グローバルの観点からデータセンター運用のエネルギーコスト、二酸化炭素排出量、水フットプリントを最適化するために、適応型ローカルサーチと協調分解に基づく進化的アルゴリズムを統合し、地理的ワークロード分散とデータセンタ運用をインテリジェントに管理する、多目的持続型データセンター管理(mosaic)のための新しいフレームワークを提案する。
本フレームワークは, 再生可能エネルギー源, 可変エネルギーコスト, 電力利用効率, 炭素量, エネルギー中の水強度など, 複数の地理的および時間的要因を考慮しつつ, ワークロードをデータセンターに継続的に割り当てる。
実験の結果, 従来の作業フレームワークと比較して, MOSAICはPareto Hypervolumeの27.45倍, 1.53倍の高速化を実現し, 炭素フットプリントを最大1.33倍, 水フットプリントを最大3.09倍, エネルギーコストを最大1.40倍に削減できることがわかった。
三目的同時最適化のシナリオでは、MOSAICは最先端技術と比較して最大4.61倍の目標(炭素、水、コスト)の累積的な改善を実現している。 In recent years, cloud service providers have been building and hosting datacenters across multiple geographical locations to provide robust services. However, the geographical distribution of datacenters introduces growing pressure to both local and global environments, particularly when it comes to water usage and carbon emissions. Unfortunately, efforts to reduce the environmental impact of such datacenters often lead to an increase in the cost of datacenter operations. To co-optimize the energy cost, carbon emissions, and water footprint of datacenter operation from a global perspective, we propose a novel framework for multi-objective sustainable datacenter management (MOSAIC) that integrates adaptive local search with a collaborative decomposition-based evolutionary algorithm to intelligently manage geographical workload distribution and datacenter operations. Our framework sustainably allocates workloads to datacenters while taking into account multiple geography- and time-based factors including renewable energy sources, variable energy costs, power usage efficiency, carbon factors, and water intensity in energy. Our experimental results show that, compared to the best-known prior work frameworks, MOSAIC can achieve 27.45x speedup and 1.53x improvement in Pareto Hypervolume while reducing the carbon footprint by up to 1.33x, water footprint by up to 3.09x, and energy costs by up to 1.40x. In the simultaneous three-objective co-optimization scenario, MOSAIC achieves a cumulative improvement across all objectives (carbon, water, cost) of up to 4.61x compared to the state-of-the-arts. | 翻訳日:2023-11-16 17:50:38 公開日:2023-11-14 |
# 3Dガウスアバター Drivable 3D Gaussian Avatars ( http://arxiv.org/abs/2311.08581v1 ) ライセンス: Link先を確認 | Wojciech Zielonka, Timur Bagautdinov, Shunsuke Saito, Michael Zollh\"ofer, Justus Thies, Javier Romero | (参考訳) 3次元ガウスアバター(d3ga,divable 3d gaussian avatars,d3ga)は、ガウスのプレートで表現された人体の3次元制御可能な最初のモデルである。
現在のフォトリアリスティックなドリブルアバターは、トレーニング中の正確な3d登録、テスト中の濃密な入力画像、またはその両方を必要とする。
ニューラル・ラミアンス・フィールドに基づくものは、テレプレゼンス・アプリケーションでは禁止的に遅い傾向がある。
この研究は、最近発表された3D Gaussian Splatting(3DGS)技術を使って、リアルタイムのフレームレートでリアルな人間をレンダリングする。
これらのプリミティブを変形させるために、線形ブレンドスキン(LBS)の一般的な点変形法から離れ、古典的な体積変形法であるケージ変形を用いる。
サイズが小さくなると、これらの変形をジョイントアングルとキーポイントで駆動し、通信アプリケーションに適している。
体型, 衣服, 動作の異なる9種類の被験者を対象に, 同じトレーニングおよびテストデータを用いて, 最先端の手法よりも高品質な結果を得た。 We present Drivable 3D Gaussian Avatars (D3GA), the first 3D controllable model for human bodies rendered with Gaussian splats. Current photorealistic drivable avatars require either accurate 3D registrations during training, dense input images during testing, or both. The ones based on neural radiance fields also tend to be prohibitively slow for telepresence applications. This work uses the recently presented 3D Gaussian Splatting (3DGS) technique to render realistic humans at real-time framerates, using dense calibrated multi-view videos as input. To deform those primitives, we depart from the commonly used point deformation method of linear blend skinning (LBS) and use a classic volumetric deformation method: cage deformations. Given their smaller size, we drive these deformations with joint angles and keypoints, which are more suitable for communication applications. Our experiments on nine subjects with varied body shapes, clothes, and motions obtain higher-quality results than state-of-the-art methods when using the same training and test data. | 翻訳日:2023-11-16 17:50:08 公開日:2023-11-14 |
# ベイズニューラルネットワークによる表現の多様性の可視化 Visualizing the Diversity of Representations Learned by Bayesian Neural Networks ( http://arxiv.org/abs/2201.10859v2 ) ライセンス: Link先を確認 | Dennis Grinwald, Kirill Bykov, Shinichi Nakajima, Marina M.-C. H\"ohne | (参考訳) 説明可能な人工知能(XAI)は、学習マシンを不透明にすることを目的としており、研究者や実践者がニューラルネットワークの意思決定戦略を明らかにするためのさまざまなツールを提供する。
本研究では,ベイズニューラルネットワーク(BNN)が学習した特徴表現の多様性を探索し,可視化するために,XAI手法をどのように利用できるかを検討する。
私たちのゴールは、意思決定戦略によってBNNのグローバルな理解を提供することです。
a) 特徴の可視化による可視性及び視認性
b) 対照学習によって学習される距離尺度で定量的に測定できる。
我々の研究は、下層の意思決定戦略に関する人間の理解可能な特徴情報の観点から、emph{posterior}分布に関する新たな洞察を提供する。
私たちの研究の主な成果は次のとおりである。
1)グローバルXAI手法を用いて,BNNインスタンスの意思決定戦略の多様性を説明する。
2)モンテカルロドロップアウトは,マルチスワグのマルチモーダル後方近似に比べて特徴表現の多様性が増大している。
3)学習特徴表現の多様性は,出力の不確実性推定と高い相関関係にある。
4)マルチモーダル後部のモード間多様性はネットワーク幅の増加とともに減少し,イントラモードの多様性は増大する。
これらの発見は、最近のディープニューラルネットワーク理論と一致しており、この理論が人間に理解可能な概念の観点で何を意味しているかに関する追加の直感を与えている。 Explainable Artificial Intelligence (XAI) aims to make learning machines less opaque, and offers researchers and practitioners various tools to reveal the decision-making strategies of neural networks. In this work, we investigate how XAI methods can be used for exploring and visualizing the diversity of feature representations learned by Bayesian Neural Networks (BNNs). Our goal is to provide a global understanding of BNNs by making their decision-making strategies a) visible and tangible through feature visualizations and b) quantitatively measurable with a distance measure learned by contrastive learning. Our work provides new insights into the \emph{posterior} distribution in terms of human-understandable feature information with regard to the underlying decision making strategies. The main findings of our work are the following: 1) global XAI methods can be applied to explain the diversity of decision-making strategies of BNN instances, 2) Monte Carlo dropout with commonly used Dropout rates exhibit increased diversity in feature representations compared to the multimodal posterior approximation of MultiSWAG, 3) the diversity of learned feature representations highly correlates with the uncertainty estimate for the output and 4) the inter-mode diversity of the multimodal posterior decreases as the network width increases, while the intra mode diversity increases. These findings are consistent with the recent Deep Neural Networks theory, providing additional intuitions about what the theory implies in terms of humanly understandable concepts. | 翻訳日:2023-11-15 19:51:30 公開日:2023-11-14 |
# 準2次元双極子縮合における自己結合液滴 Self-bound droplets in quasi-two-dimensional dipolar condensates ( http://arxiv.org/abs/2112.09314v5 ) ライセンス: Link先を確認 | Yuqi Wang, Tao Shi, Su Yi | (参考訳) 擬二次元幾何学における自己有界双極子滴の基底状態特性をガウス状態理論を用いて研究する。
その結果, 真空とコヒーレント状態の2つの量子相が存在することがわかった。
さらに、多重量子相の結果として、放射径と原子数曲線が二重ディップ構造を示すことを示す。
特に、自己結合型液滴の臨界原子数は量子位相によって決定され、量子状態の区別とガウス状態理論の検証が可能となる。 We study the ground-state properties of self-bound dipolar droplets in quasi-two-dimensional geometry by using the Gaussian state theory. We show that there exist two quantum phases corresponding to the macroscopic squeezed vacuum and squeezed coherent states. We further show that the radial size versus atom number curve exhibits a double-dip structure, as a result of the multiple quantum phases. In particular, we find that the critical atom number for the self-bound droplets is determined by the quantum phases, which allows us to distinguish the quantum state and validates the Gaussian state theory. | 翻訳日:2023-11-15 19:51:09 公開日:2023-11-14 |
# Laplace法に対する低ランク変分ベイズ補正 Low-rank variational Bayes correction to the Laplace method ( http://arxiv.org/abs/2111.12945v2 ) ライセンス: Link先を確認 | Janet van Niekerk, Haavard Rue | (参考訳) ラプラス法、ラプラス法、変分法などの近似推論手法は、モデルの複雑さやデータの豊富さのために正確な推論が不可能な場合によく用いられる手法である。
本稿では,ラプラス法を用いて低位変分ベイズ補正(vbc)と呼ばれるハイブリッド近似法を提案する。
コストは本質的に、モデルの複雑さとデータサイズの両方において、メソッドのスケーラビリティを保証するlaplaceメソッドのコストである。
固定パラメータと未知のハイパーパラメータを持つモデルは、小型および大規模データセットのシミュレーションおよび実例として考慮される。 Approximate inference methods like the Laplace method, Laplace approximations and variational methods, amongst others, are popular methods when exact inference is not feasible due to the complexity of the model or the abundance of data. In this paper we propose a hybrid approximate method called Low-Rank Variational Bayes correction (VBC), that uses the Laplace method and subsequently a Variational Bayes correction in a lower dimension, to the joint posterior mean. The cost is essentially that of the Laplace method which ensures scalability of the method, in both model complexity and data size. Models with fixed and unknown hyperparameters are considered, for simulated and real examples, for small and large datasets. | 翻訳日:2023-11-15 19:51:00 公開日:2023-11-14 |
# 非移動誘電体球を持つ量子電磁力学:ローレンツマイ散乱の量子化 Quantum Electrodynamics with a Nonmoving Dielectric Sphere: Quantizing Lorenz-Mie Scattering ( http://arxiv.org/abs/2106.07975v3 ) ライセンス: Link先を確認 | Patrick Maurer, Carlos Gonzalez-Ballestero, Oriol Romero-Isart | (参考訳) 真空中における非移動誘電体球の存在下で電磁場を定量化する。
球面はロスレス、分散レス、等方性、均質であると仮定される。
量子化は正規化固有モードと平面波モードを用いて行われる。
正規化固有モードには球面固有モードと散乱固有モードの2つの有用な代替基盤を指定する。
平面波モードと正規化固有モードの正準変換を導出した。
この形式は、単一光子、コヒーレント励起光、誘電体球からの2光子状態の散乱を研究するために用いられる。
後者の場合、散乱場の2次相関関数を計算し、三次元ビームスプリッタとして作用する誘電体球面に対するホン・ウー・マンデル干渉の角分布を明らかにした。
この結果は誘電体球の任意の大きさに対して解析的に導出され、小粒子の極限に特に重点を置いている。
この研究は、光と誘電体球の運動、回転、振動の自由度の間の量子相互作用を記述する理論的基礎を定めている。 We quantize the electromagnetic field in the presence of a nonmoving dielectric sphere in vacuum. The sphere is assumed to be lossless, dispersionless, isotropic, and homogeneous. The quantization is performed using normalized eigenmodes as well as plane-wave modes. We specify two useful alternative bases of normalized eigenmodes: spherical eigenmodes and scattering eigenmodes. A canonical transformation between plane-wave modes and normalized eigenmodes is derived. This formalism is employed to study the scattering of a single photon, coherent squeezed light, and two-photon states off a dielectric sphere. In the latter case we calculate the second-order correlation function of the scattered field, thereby unveiling the angular distribution of the Hong-Ou-Mandel interference for a dielectric sphere acting as a three-dimensional beam splitter. Our results are analytically derived for an arbitrary size of the dielectric sphere with a particular emphasis on the small-particle limit. This work sets the theoretical foundation for describing the quantum interaction between light and the motional, rotational and vibrational degrees of freedom of a dielectric sphere. | 翻訳日:2023-11-15 19:50:48 公開日:2023-11-14 |
# CogAlign: 認知言語処理信号に適応したテキストニューラル表現の学習 CogAlign: Learning to Align Textual Neural Representations to Cognitive Language Processing Signals ( http://arxiv.org/abs/2106.05544v3 ) ライセンス: Link先を確認 | Yuqi Ren and Deyi Xiong | (参考訳) これまでの研究では、単語埋め込みと認知的特徴を直接結合することで、認知的言語処理信号(例えば視線追跡や脳波データ)を自然言語処理(nlp)のニューラルモデルに統合し、2つの様相(テキストと認知)と認知的特徴のノイズとのギャップを無視する。
本稿では,これらの問題に対して,文章的ニューラルネットワーク表現を認知的特徴に合わせることを学ぶための共利的なアプローチを提案する。
CogAlignでは、モダリティ判別器を備えた共有エンコーダを用いて、テキスト入力と認知入力を代わりに符号化し、それらの差分と共通点をキャプチャする。
さらに,タスク関連情報の検出と認知的特徴のノイズの回避を目的としたテキスト認識注意機構を提案する。
エンティティ認識、感情分析、関係抽出という3つのnlpタスクの実験結果は、公開データセットの最先端モデルよりも、複数の認知機能により、cogalignが大幅に改善されていることを示している。
さらに,本モデルでは,認知処理信号を持たない他のデータセットに認知情報を転送することができる。 Most previous studies integrate cognitive language processing signals (e.g., eye-tracking or EEG data) into neural models of natural language processing (NLP) just by directly concatenating word embeddings with cognitive features, ignoring the gap between the two modalities (i.e., textual vs. cognitive) and noise in cognitive features. In this paper, we propose a CogAlign approach to these issues, which learns to align textual neural representations to cognitive features. In CogAlign, we use a shared encoder equipped with a modality discriminator to alternatively encode textual and cognitive inputs to capture their differences and commonalities. Additionally, a text-aware attention mechanism is proposed to detect task-related information and to avoid using noise in cognitive features. Experimental results on three NLP tasks, namely named entity recognition, sentiment analysis and relation extraction, show that CogAlign achieves significant improvements with multiple cognitive features over state-of-the-art models on public datasets. Moreover, our model is able to transfer cognitive information to other datasets that do not have any cognitive processing signals. | 翻訳日:2023-11-15 19:50:18 公開日:2023-11-14 |
# 確率勾配Descent (SGD) の収束 : 自己完結的証明 The convergence of the Stochastic Gradient Descent (SGD) : a self-contained proof ( http://arxiv.org/abs/2103.14350v2 ) ライセンス: Link先を確認 | Gabrel Turinici | (参考訳) ここでは、SGD(Stochastic Gradient Descent)の自己完結的な収束の証明を与える。 We give here a proof of the convergence of the Stochastic Gradient Descent (SGD) in a self-contained manner. | 翻訳日:2023-11-15 19:49:36 公開日:2023-11-14 |
# 近似ユニタリ設計と効率的な相対熱化による高確率デカップリング High probability decoupling via approximate unitary designs and efficient relative thermalisation ( http://arxiv.org/abs/2002.00247v8 ) ライセンス: Link先を確認 | Aditya Nema and Pranab Sen | (参考訳) 量子系上の近似的$t$-設計からランダムに選択されたユニタリを適用し、固定された量子演算をほぼデカップリングし、高い確率で初期相関した他の参照系から与えられた系を高い確率で適用することにより、非触媒的デカップリングのための新たな集中結果が証明される。
初期の研究は高いデカップリング確率を得られなかったか、明らかに非効率なユニタリを使用したか、デカップリングに触媒の絡み合いが必要であった。
対照的に、我々の近似ユニタリ設計は指数関数的に高い確率でデカップリングを保証し、ある条件下では計算的に効率的なユニタリを生み出す。
その結果、適切な条件下で効率よく実装可能な近似ユニタリ設計が指数関数的に高い確率で量子熱力学における相対熱化を実現すると結論付けた。
また,Hyden-Preskillにより以前考えられていたHaarランダムな進化とは対照的に,ブラックホールの進化が擬似ランダムな単位の$t$-designに従っている場合,ブラックホールの揺らぎ特性を示す。 We prove a new concentration result for non-catalytic decoupling by showing that, for suitably large $t$, applying a unitary chosen uniformly at random from an approximate $t$-design on a quantum system followed by a fixed quantum operation almost decouples, with high probability, the given system from another reference system to which it may initially have been correlated. Earlier works either did not obtain high decoupling probability, or used provably inefficient unitaries, or required catalytic entanglement for decoupling. In contrast, our approximate unitary designs always guarantee decoupling with exponentially high probability and, under certain conditions, lead to computationally efficient unitaries. As a result we conclude that, under suitable conditions, efficiently implementable approximate unitary designs achieve relative thermalisation in quantum thermodynamics with exponentially high probability. We also show the scrambling property of black hole, when the black hole evolution is according to pseudorandom approximate unitary $t$-design, as opposed to the Haar random evolution considered earlier by Hayden-Preskill. | 翻訳日:2023-11-15 19:48:36 公開日:2023-11-14 |
# 教師なし領域適応型人物再同定のための画像合成による照度変化補正 Illumination Variation Correction Using Image Synthesis For Unsupervised Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2301.09702v4 ) ライセンス: Link先を確認 | Jiaqi Guo and Amy R. Reibman and Edward J. Delp | (参考訳) Unsupervised Domain Adaptive (UDA) person re-identification (re-ID) は、ソースドメイン内のラベル付き画像から識別情報を学習し、ターゲットドメイン内のラベルなし画像に適用することを目的としている。
多くの教師なし再同定手法の大きな問題は、照明、視点、オクルージョンといった大きなドメインのバリエーションに対してうまく機能しないことである。
本稿では,教師なしのリIDにおける照明変動に対処する合成モデルバンク(SMB)を提案する。
提案したSMBは特徴抽出のためのいくつかの畳み込みニューラルネットワーク(CNN)と距離測定のためのマハラノビス行列からなる。
それらは異なる照明条件の合成データを用いて訓練され、その相乗効果によってSMBは照明変動に対して堅牢になる。
照明強度の定量化と合成画像の品質向上を目的として,GANに基づく画像合成のための3次元バーチャルヒューマンデータセットを提案する。
実験の結果,提案したSMBは,いくつかのre-IDベンチマークにおいて,他の合成手法よりも優れていた。 Unsupervised domain adaptive (UDA) person re-identification (re-ID) aims to learn identity information from labeled images in source domains and apply it to unlabeled images in a target domain. One major issue with many unsupervised re-identification methods is that they do not perform well relative to large domain variations such as illumination, viewpoint, and occlusions. In this paper, we propose a Synthesis Model Bank (SMB) to deal with illumination variation in unsupervised person re-ID. The proposed SMB consists of several convolutional neural networks (CNN) for feature extraction and Mahalanobis matrices for distance metrics. They are trained using synthetic data with different illumination conditions such that their synergistic effect makes the SMB robust against illumination variation. To better quantify the illumination intensity and improve the quality of synthetic images, we introduce a new 3D virtual-human dataset for GAN-based image synthesis. From our experiments, the proposed SMB outperforms other synthesis methods on several re-ID benchmarks. | 翻訳日:2023-11-15 19:42:29 公開日:2023-11-14 |
# 因果ループファインマン図と有向非巡回グラフに対する変分量子固有解法 Variational quantum eigensolver for causal loop Feynman diagrams and directed acyclic graphs ( http://arxiv.org/abs/2210.13240v3 ) ライセンス: Link先を確認 | Giuseppe Clemente, Arianna Crippa, Karl Jansen, Selomit Ram\'irez-Uribe, Andr\'es E. Renter\'ia-Olivo, Germ\'an Rodrigo, German F. R. Sborlini, Luiz Vale Silva | (参考訳) 本稿では,ループツリー双対性 (ltd) におけるマルチループファインマン図形の因果表現の効率的なブートストラップを行うための変分量子固有ソルバ (vqe) アルゴリズムを提案する。
多重ループ位相を記述する隣接行列に基づくループハミルトニアンは、異なるエネルギー準位がサイクル数に対応するが、vqeによって因果または非巡回配置を特定するために最小化される。
このアルゴリズムは複数のデジェクトミニマを選択するように適応しており、より高い検出率が得られる。
本稿では,Groverのアルゴリズムによる性能比較について述べる。
VQEのアプローチは一般に、より少ない成功率にもかかわらず、実装にはより少ないキュービットと短い回路を必要とする。 We present a variational quantum eigensolver (VQE) algorithm for the efficient bootstrapping of the causal representation of multiloop Feynman diagrams in the Loop-Tree Duality (LTD) or, equivalently, the selection of acyclic configurations in directed graphs. A loop Hamiltonian based on the adjacency matrix describing a multiloop topology, and whose different energy levels correspond to the number of cycles, is minimized by VQE to identify the causal or acyclic configurations. The algorithm has been adapted to select multiple degenerated minima and thus achieves higher detection rates. A performance comparison with a Grover's based algorithm is discussed in detail. The VQE approach requires, in general, fewer qubits and shorter circuits for its implementation, albeit with lesser success rates. | 翻訳日:2023-11-15 19:41:48 公開日:2023-11-14 |
# シームズ畳み込みニューラルネットワークと半教師付き学習による量子絡み合いの同定 Identification of quantum entanglement with Siamese convolutional neural networks and semi-supervised learning ( http://arxiv.org/abs/2210.07410v3 ) ライセンス: Link先を確認 | Jaros{\l}aw Paw{\l}owski and Mateusz Krawczyk | (参考訳) 量子絡み合いは、様々な量子情報プロトコルやアルゴリズムで一般的に使用される基本的な性質である。
それでも、絡み合いを識別する問題は、2つの量子ビットより大きいシステムに対する一般的な解には達していない。
本研究では,教師付き機械学習の一種である深層畳み込みニューラルネットワークを用いて,3量子ビットシステムにおける任意の2分割に対する量子絡み合いを同定する。
そこで本研究では, ランダム密度行列の合成生成データセット上で, 一般に同定できない(かつ正しくラベル付けされる)ppteを除いたトレーニングを行い, トレーニングデータの外部のppte状態においても, モデル精度が良好であることを実証する。
私たちの目標は、ppteにおけるモデルの一般化を強化することです。
半教師付きで訓練された3つのシームズネットワークを通した絡み合い保存対称性演算を適用することにより、PTPSの精度と認識能力を向上させる。
さらに、シームズモデルのアンサンブルを構築することで、異なる種類の状態に対する異なるタイプの絡み合いの証人を見つけるというアイデアと類似して、より優れた一般化が観察される。
ニューラルモデルのコードとトレーニングスキーム、およびデータ生成手順はgithub.com/Maticraft/quantum_correlationsで利用可能である。 Quantum entanglement is a fundamental property commonly used in various quantum information protocols and algorithms. Nonetheless, the problem of identifying entanglement has still not reached a general solution for systems larger than two qubits. In this study, we use deep convolutional neural networks, a type of supervised machine learning, to identify quantum entanglement for any bipartition in a 3-qubit system. We demonstrate that training the model on synthetically generated datasets of random density matrices excluding challenging positive-under-partial-transposition entangled states (PPTES), which cannot be identified (and correctly labeled) in general, leads to good model accuracy even for PPTES states, that were outside the training data. Our aim is to enhance the model's generalization on PPTES. By applying entanglement-preserving symmetry operations through a triple Siamese network trained in a semi-supervised manner, we improve the model's accuracy and ability to recognize PPTES. Moreover, by constructing an ensemble of Siamese models, even better generalization is observed, in analogy with the idea of finding separate types of entanglement witnesses for different classes of states. The neural models' code and training schemes, as well as data generation procedures, are available at github.com/Maticraft/quantum_correlations. | 翻訳日:2023-11-15 19:41:32 公開日:2023-11-14 |
# FastCLIPstyler:スタイル表現を用いたテキストベース画像の最適化 FastCLIPstyler: Optimisation-free Text-based Image Style Transfer Using Style Representations ( http://arxiv.org/abs/2210.03461v4 ) ライセンス: Link先を確認 | Ananda Padhmanabhan Suresh, Sanjana Jain, Pavit Noinongyao, Ankush Ganguly, Ukrit Watchareeruetai, and Aubin Samacoits | (参考訳) 近年,このスタイルの自然言語記述を用いて,参照スタイル画像の必要性を解消し,新たなタイプのスタイル転送技術として言語駆動型アートスタイル転送が登場している。
これを実現する最初のモデルはCLIPstylerと呼ばれ、印象的なスタイリング結果を示している。
しかし、各クエリに対する実行時の長い最適化手順は、多くの実用的なアプリケーションに対する適合性を制限している。
本稿では,任意のテキスト入力に対して単一のフォワードパスで画像をスタイリングできる汎用テキストベースの画像転送モデルfastclipstylerを提案する。
さらに,リソース制約のあるデバイスとの互換性を想定した軽量モデルedgeclipstylerを提案する。
最先端のアプローチと定量的・定性的な比較を通じて,我々のモデルが,測定可能なメトリクスに基づく優れたスタイライゼーション品質を達成し,特にエッジデバイスにおいて,ランタイム効率を大幅に向上させることを実証する。 In recent years, language-driven artistic style transfer has emerged as a new type of style transfer technique, eliminating the need for a reference style image by using natural language descriptions of the style. The first model to achieve this, called CLIPstyler, has demonstrated impressive stylisation results. However, its lengthy optimisation procedure at runtime for each query limits its suitability for many practical applications. In this work, we present FastCLIPstyler, a generalised text-based image style transfer model capable of stylising images in a single forward pass for arbitrary text inputs. Furthermore, we introduce EdgeCLIPstyler, a lightweight model designed for compatibility with resource-constrained devices. Through quantitative and qualitative comparisons with state-of-the-art approaches, we demonstrate that our models achieve superior stylisation quality based on measurable metrics while offering significantly improved runtime efficiency, particularly on edge devices. | 翻訳日:2023-11-15 19:40:50 公開日:2023-11-14 |
# 光格子中の強相関ボソンにおける絡み合いエントロピーの進化 Evolution of entanglement entropy in strongly correlated bosons in an optical lattice ( http://arxiv.org/abs/2209.13340v5 ) ライセンス: Link先を確認 | Shion Yamashika, Daichi Kagamihara, Ryosuke Yoshii, Shunji Tsuchiya | (参考訳) ホッピング振幅$j$の突発的なクエンチ後の1次元光学格子におけるボソンの2次r\'enyiエントロピー(re)の時間発展について検討する。
具体的には,強い相関関係を持つmott-insulating (mi) レジームに$j/u\ll 1$ (u$は現場反発相互作用の強さを表す) のシステムについて,miリミットから$j=0$で検討する。
この方法では、低エネルギー励起状態はドーボロンやホロンとして知られるフェルミオン準粒子によって効果的に記述することができる。
彼らはクエンチダイナミクスを通して絡み合ったペアに興奮しています。
有効理論を開発することにより、REと2重項とホロンの相関関数の直接的な関係を導出する。
この関係により、我々はREを解析的に計算し、基底状態とクエンチダイナミクスによる時間的進化の両方においてREの物理像を得ることができる。
特に、RE はサブシステムの境界にまたがる Doublon-holon 対の集団に比例することを示す。
この準粒子図は、自由フェルミオン模型における絡み合いエントロピーのダイナミクスに関する以前の研究に欠けている注目すべき特徴をいくつか紹介する。
強相関系における絡み合いエントロピーのダイナミクスに関する貴重な洞察を提供する。 We investigate the time evolution of the second-order R\'enyi entropy (RE) for bosons in a one-dimensional optical lattice following a sudden quench of the hopping amplitude $J$. Specifically, we examine systems that are quenched into the strongly correlated Mott-insulating (MI) regime with $J/U\ll 1$ ($U$ denotes the strength of the on-site repulsive interaction) from the MI limit with $J=0$. In this regime, the low-energy excited states can be effectively described by fermionic quasiparticles known as doublons and holons. They are excited in entangled pairs through the quench dynamics. By developing an effective theory, we derive a direct relation between the RE and correlation functions associated with doublons and holons. This relation allows us to analytically calculate the RE and obtain a physical picture for the RE, both in the ground state and during time evolution through the quench dynamics, in terms of doublon holon pairs. In particular, we show that the RE is proportional to the population of doublon-holon pairs that span the boundary of the subsystem. Our quasiparticle picture introduces some remarkable features that are absent in previous studies on the dynamics of entanglement entropy in free-fermion models. It provides with valuable insights into the dynamics of entanglement entropy in strongly-correlated systems. | 翻訳日:2023-11-15 19:40:36 公開日:2023-11-14 |
# 肺気道セグメンテーションのための微分可能位相保存距離変換 Differentiable Topology-Preserved Distance Transform for Pulmonary Airway Segmentation ( http://arxiv.org/abs/2209.08355v5 ) ライセンス: Link先を確認 | Minghui Zhang, Guang-Zhong Yang, Yun Gu | (参考訳) 肺気道の詳細な分画は気管支内治療および周辺部肺癌病変の治療において臨床的に重要な課題である。
畳み込みニューラルネットワーク(CNN)は医用画像解析のための有望なツールであるが,気道データや主気管支がボクセルの大部分を占めているのに対して,気道データに当てはまる重要な不均衡な特徴分布が存在する場合,ローバーブロンチと遠位分節気管支はわずかに占める。
本稿では,気道セグメンテーションの性能向上を目的とした,微分位相保存距離変換(DTPDT)フレームワークを提案する。
クラス内分布のトレーニング進捗のバランスをとるため,まず,トポロジー保存サーロゲート(tps)学習戦略を提案する。
さらに、畳み込み距離変換(CDT)は、破壊現象を感度良く識別し、予測と接地間の距離マップのばらつきを最小限に抑えるように設計されている。
提案手法は,パブリックに利用可能なリファレンスエアウェイセグメンテーションデータセットで検証される。
パブリックEXACT'09とBASデータセットの分岐速度と長さは、それぞれ82.1%/79.6%と96.5%/91.5%であり、全体的なトポロジ的精度を維持しながら、セグメンテーション性能の位相的完全性を改善することの信頼性と効率を実証している。 Detailed pulmonary airway segmentation is a clinically important task for endobronchial intervention and treatment of peripheral located lung cancer lesions. Convolutional Neural Networks (CNNs) are promising tools for medical image analysis but have been performing poorly for cases when existing a significant imbalanced feature distribution, which is true for the airway data as the trachea and principal bronchi dominate most of the voxels whereas the lobar bronchi and distal segmental bronchi occupy a small proportion. In this paper, we propose a Differentiable Topology-Preserved Distance Transform (DTPDT) framework to improve the performance of airway segmentation. A Topology-Preserved Surrogate (TPS) learning strategy is first proposed to balance the training progress within-class distribution. Furthermore, a Convolutional Distance Transform (CDT) is designed to identify the breakage phenomenon with superior sensitivity and minimize the variation of the distance map between the predictionand ground-truth. The proposed method is validated with the publically available reference airway segmentation datasets. The detected rate of branch and length on public EXACT'09 and BAS datasets are 82.1%/79.6% and 96.5%/91.5% respectively, demonstrating the reliability and efficiency of the method in terms of improving the topology completeness of the segmentation performance while maintaining the overall topology accuracy. | 翻訳日:2023-11-15 19:40:00 公開日:2023-11-14 |
# コヒーレンス、非局所性、文脈性を目撃する不平等 Inequalities witnessing coherence, nonlocality, and contextuality ( http://arxiv.org/abs/2209.02670v3 ) ライセンス: Link先を確認 | Rafael Wagner, Rui Soares Barbosa, Ernesto F. Galv\~ao | (参考訳) 量子コヒーレンス(quantum coherence)、非局所性(nonlocality)、文脈性(contextity)は、計量学、通信、計算における量子優位の重要な資源である。
我々は、局所的、非文脈的、コヒーレンスのないモデルに縛られる古典性不等式を導出するグラフベースのアプローチを導入し、これらの異なる量子資源を統一的に記述する。
提案手法は,最近提案された基底非依存コヒーレンス証人を一般化し,排他的グラフアプローチのすべての非文脈性不等式を回復する。
さらに、ある古典的不平等の違反は、文脈的な準備を目撃する。
このような古典的不等式をすべて探索するアルゴリズムを記述し、それを用いて最も単純なシナリオを解析する。 Quantum coherence, nonlocality, and contextuality are key resources for quantum advantage in metrology, communication, and computation. We introduce a graph-based approach to derive classicality inequalities that bound local, non-contextual, and coherence-free models, offering a unified description of these seemingly disparate quantum resources. Our approach generalizes recently proposed basis-independent coherence witnesses, and recovers all non-contextuality inequalities of the exclusivity graph approach. Moreover, violations of certain classicality inequalities witness preparation contextuality. We describe an algorithm to find all such classicality inequalities, and use it to analyze some of the simplest scenarios. | 翻訳日:2023-11-15 19:39:33 公開日:2023-11-14 |
# 複合自動車システムにおける機能要件とテストのモデルベース分析と仕様 Model-based Analysis and Specification of Functional Requirements and Tests for Complex Automotive Systems ( http://arxiv.org/abs/2209.01473v2 ) ライセンス: Link先を確認 | Carsten Wiecher, Constantin Mandel, Matthias G\"unther, Jannik Fischbach, Joel Greenyer, Matthias Greinert, Carsten Wolff, Roman Dumitrescu, Daniel Mendez, and Albert Albers | (参考訳) 要件とテストの仕様は、自動車開発プロジェクトで重要な活動である。
しかし、自動車システムの複雑さが増すため、従来の開発プロセスに従うと、複雑な相互作用を持つ分散および進化するシステムの要件やテストが特定できない。
この研究ギャップに対処するために,ステークホルダの観点からの検証対象の早期識別から始まり,シナリオベースモデリングとシステム要件の自動解析を駆動するテストを体系的に設計する手法を提案する。
自然言語処理(NLP)技術は,テストケース設計の自動化に適しており,実世界のステークホルダーの要求に我々の技術を適用することができる。
自動車開発プロジェクトに必要な形で、完全で一貫した要件とテスト仕様を保証するため、モデルベースシステム工学(MBSE)手法を開発した。
本手法は,システムアーキテクトとテストデザイナの協力的利用と,必要な仕様を自動的に導出する中央システムモデルの維持を支援する。
kostal (tier1 supplier) や,mastersプログラム組み込みシステムエンジニアリングの一部として学生プロジェクトに適用することにより,方法論を評価する。
本研究は,本手法が適用可能であること,製品および検証システムの統合及び利害関係者中心のモデリングを支援することにより,既存の要件およびテスト仕様プロセスの改善を図っている。 The specification of requirements and tests are crucial activities in automotive development projects. However, due to the increasing complexity of automotive systems, practitioners fail to specify requirements and tests for distributed and evolving systems with complex interactions when following traditional development processes. To address this research gap, we propose a technique that starts with the early identification of validation concerns from a stakeholder perspective, which we use to systematically design tests that drive a scenario-based modeling and automated analysis of system requirements. We discover that Natural Language Processing (NLP) techniques are suitable to automate the test-case design and hence enable the application of our technique to real-world stakeholder requirements. To ensure complete and consistent requirements and test specifications in a form that is required in automotive development projects, we develop a Model-Based Systems Engineering (MBSE) methodology. This methodology supports system architects and test designers in the collaborative application of our technique and in maintaining a central system model, in order to automatically derive the required specifications. We evaluate our methodology by applying it at KOSTAL (Tier1 supplier) and within student projects as part of the masters program Embedded Systems Engineering. Our study corroborates that our methodology is applicable and improves existing requirements and test specification processes by supporting the integrated and stakeholder-focused modeling of product and validation systems, where the early definition of stakeholder and validation concerns fosters a problem-oriented, iterative and test-driven requirements modeling. | 翻訳日:2023-11-15 19:39:21 公開日:2023-11-14 |
# 限定アノテーションによる学習:医用画像セグメンテーションのための深層半監督学習に関する調査 Learning with Limited Annotations: A Survey on Deep Semi-Supervised Learning for Medical Image Segmentation ( http://arxiv.org/abs/2207.14191v3 ) ライセンス: Link先を確認 | Rushi Jiao, Yichi Zhang, Le Ding, Rong Cai and Jicong Zhang | (参考訳) 医用画像のセグメンテーションは多くの画像誘導臨床における基本的かつ重要なステップである。
深層学習に基づくセグメンテーション手法の最近の成功は、一般的に大量のラベル付きデータに依存しており、特に信頼性と正確なアノテーションを提供する専門家のみの医療画像領域において、取得が困難でコストがかかる。
半教師付き学習は魅力的な戦略として登場し、限られたアノテーションで深層モデルを訓練するための医用画像分割タスクに広く応用されている。
本稿では,最近提案された医用画像分割のための半教師あり学習手法の総合的なレビューを行い,技術革新と実証結果の両方を要約する。
さらに,既存のアプローチの限界と未解決問題を分析し,議論する。
このレビューは、この課題に対する解決策を研究コミュニティに探求させ、医療画像セグメンテーション分野のさらなる発展を促すことを願っている。 Medical image segmentation is a fundamental and critical step in many image-guided clinical approaches. Recent success of deep learning-based segmentation methods usually relies on a large amount of labeled data, which is particularly difficult and costly to obtain especially in the medical imaging domain where only experts can provide reliable and accurate annotations. Semi-supervised learning has emerged as an appealing strategy and been widely applied to medical image segmentation tasks to train deep models with limited annotations. In this paper, we present a comprehensive review of recently proposed semi-supervised learning methods for medical image segmentation and summarized both the technical novelties and empirical results. Furthermore, we analyze and discuss the limitations and several unsolved problems of existing approaches. We hope this review could inspire the research community to explore solutions for this challenge and further promote the developments in medical image segmentation field. | 翻訳日:2023-11-15 19:38:54 公開日:2023-11-14 |
# mri-artefact generatorsとadversarial trainingを用いた高効率半教師付き品質制御システム An efficient semi-supervised quality control system trained using physics-based MRI-artefact generators and adversarial training ( http://arxiv.org/abs/2206.03359v2 ) ライセンス: Link先を確認 | Daniele Ravi (for the Alzheimer's Disease Neuroimaging Initiative), Frederik Barkhof, Daniel C. Alexander, Lemuel Puglisi, Geoffrey JM Parker, Arman Eshaghi | (参考訳) 医療画像データセットの大規模化が進んでいるが、重要な人工物なしでサンプルの品質を確保することは困難である。
医用画像の欠陥を識別する既存の方法は、臨床研究における機械学習モデルのトレーニングに、アーティファクトリッチスキャンの不足が原因で、データ集約的なアプローチに依存している。
この問題に取り組むために,我々は4つの主要コンポーネントからなるフレームワークを提案する。
1)磁気共鳴物理学に触発された人工物発生器は脳mriスキャンを破損させ、トレーニングデータセットを増強する。
2)画像をコンパクトに表現するための抽象的・工学的特徴
3) 分類を改善するためのアーティファクトクラスによる特徴選択プロセス
4) アーティファクトを識別するためのsvm分類器。
まず、物理ベースのアーティファクトジェネレータは、データ拡張のために制御されたアーティファクトを持つ合成脳MRIスキャンを生成します。
これにより、まれなアーティファクトによるスキャンの労働集約的な収集とラベル付けのプロセスが回避される。
第2に,構造mriのための9つの異なるアーティファクトを識別するための,抽象的および工学的画像特徴のプールを提案する。
最後に、アーティファクトベースの特徴選択ブロックを使用し、各アーティファクトのクラス毎に、最高の分類性能を提供する機能セットを見つける。
人工的人工骨材を用いた大規模なデータ集合の検証実験を行い, 実物が専門家によって同定された多発性硬化症臨床試験において, 提案パイプラインが従来の方法を上回ることを示した。
特に、データの増大は、精度、精度、リコールで最大12.5ポイントの性能を向上させる。
パイプラインの計算効率は、品質制御システムによって駆動される自動画像処理パイプラインによる高スループット臨床応用を約束する、潜在的なリアルタイムデプロイメントを可能にする。 Large medical imaging data sets are becoming increasingly available, but ensuring sample quality without significant artefacts is challenging. Existing methods for identifying imperfections in medical imaging rely on data-intensive approaches, compounded by a scarcity of artefact-rich scans for training machine learning models in clinical research. To tackle this problem, we propose a framework with four main components: 1) artefact generators inspired by magnetic resonance physics to corrupt brain MRI scans and augment a training dataset, 2) abstract and engineered features to represent images compactly, 3) a feature selection process depending on the artefact class to improve classification, and 4) SVM classifiers to identify artefacts. Our contributions are threefold: first, physics-based artefact generators produce synthetic brain MRI scans with controlled artefacts for data augmentation. This will avoid the labour-intensive collection and labelling process of scans with rare artefacts. Second, we propose a pool of abstract and engineered image features to identify 9 different artefacts for structural MRI. Finally, we use an artefact-based feature selection block that, for each class of artefacts, finds the set of features providing the best classification performance. We performed validation experiments on a large data set of scans with artificially-generated artefacts, and in a multiple sclerosis clinical trial where real artefacts were identified by experts, showing that the proposed pipeline outperforms traditional methods. In particular, our data augmentation increases performance by up to 12.5 percentage points on accuracy, precision, and recall. The computational efficiency of our pipeline enables potential real-time deployment, promising high-throughput clinical applications through automated image-processing pipelines driven by quality control systems. | 翻訳日:2023-11-15 19:38:40 公開日:2023-11-14 |
# エルミートおよび非エルミート量子力学からの創発的時空 Emergent spacetimes from Hermitian and non-Hermitian quantum dynamics ( http://arxiv.org/abs/2205.07429v2 ) ライセンス: Link先を確認 | Chenwei Lv and Qi Zhou | (参考訳) su(1,1)$対称性を持つ任意の系の量子力学は、2+1次元の創発的な反ド・ジッター時空(ads$_{2+1}$)をもたらす。
連続回路の深さを用いて、量子進化はads$_{2+1}$で軌道にマッピングされる。
実験室で測定された時間は適切な時間または適切な距離になるが、クエンチ力学はAdS$_{2+1}$の測地線に従う。
このような幾何学的アプローチは、切り離されたように見える様々な原型的現象の統一的な解釈を提供する。
例えば、AdS$_{2+1}$ の光円錐は、調和トラップから放出されるユニタリフェルミオンの展開、パラメトリック増幅のオンサイト、非エルミート系における$PT$対称性の破れを表す例外的な点を下記する。
我々の研究は、創発的時空における最短経路を利用して量子制御を最適化する透過的な手段を提供する。
また、実験者は創発的な時空を設計でき、異なるads$_{2+1}$の間のトンネルを誘導できる。 We show that quantum dynamics of any systems with $SU(1,1)$ symmetry give rise to emergent Anti-de Sitter spacetimes in 2+1 dimensions (AdS$_{2+1}$). Using the continuous circuit depth, a quantum evolution is mapped to a trajectory in AdS$_{2+1}$. Whereas the time measured in laboratories becomes either the proper time or the proper distance, quench dynamics follow geodesics of AdS$_{2+1}$. Such a geometric approach provides a unified interpretation of a wide range of prototypical phenomena that appear disconnected. For instance, the light cone of AdS$_{2+1}$ underlies expansions of unitary fermions released from harmonic traps, the onsite of parametric amplifications, and the exceptional points that represent the $PT$ symmetry breaking in non-Hermitian systems. Our work provides a transparent means to optimize quantum controls by exploiting shortest paths in the emergent spacetimes. It also allows experimentalists to engineer emergent spacetimes and induce tunnelings between different AdS$_{2+1}$. | 翻訳日:2023-11-15 19:38:12 公開日:2023-11-14 |
# 行動概念を用いたAI説明手法の診断 Diagnosing AI Explanation Methods with Folk Concepts of Behavior ( http://arxiv.org/abs/2201.11239v5 ) ライセンス: Link先を確認 | Alon Jacovi, Jasmijn Bastings, Sebastian Gehrmann, Yoav Goldberg, Katja Filippova | (参考訳) 我々は,AIの説明が成功する条件に対する形式主義について検討する。
我々は「成功」は、説明がどんな情報を含んでいるかだけでなく、説明者が理解している情報にも依存すると考える。
心の文学の理論は、人間が行動を理解し、一般化するために使用する民間概念を論じる。
行動の民俗概念は、人間が行動を理解する「言語」をもたらすと仮定する。
我々は、これらの民俗概念を、説明者による社会的帰属の枠組み(説明から人間が理解しそうな情報構成)として、説明的物語の青写真(図1)を導入し、これらの構成でaiの行動を説明する。
そして,今日,多くのXAI手法が質的評価において民生的な行動概念にマッピング可能であることを示す。
これにより、現在のメソッドがうまく説明できないよう、障害モードを明らかにすることができます。つまり、任意のXAIメソッドに欠けている情報構造であり、AIの動作が誤解される可能性を減らすことができます。 We investigate a formalism for the conditions of a successful explanation of AI. We consider "success" to depend not only on what information the explanation contains, but also on what information the human explainee understands from it. Theory of mind literature discusses the folk concepts that humans use to understand and generalize behavior. We posit that folk concepts of behavior provide us with a "language" that humans understand behavior with. We use these folk concepts as a framework of social attribution by the human explainee - the information constructs that humans are likely to comprehend from explanations - by introducing a blueprint for an explanatory narrative (Figure 1) that explains AI behavior with these constructs. We then demonstrate that many XAI methods today can be mapped to folk concepts of behavior in a qualitative evaluation. This allows us to uncover their failure modes that prevent current methods from explaining successfully - i.e., the information constructs that are missing for any given XAI method, and whose inclusion can decrease the likelihood of misunderstanding AI behavior. | 翻訳日:2023-11-15 19:37:52 公開日:2023-11-14 |
# 確率流の自己持続速度マッチング Self-Consistent Velocity Matching of Probability Flows ( http://arxiv.org/abs/2301.13737v4 ) ライセンス: Link先を確認 | Lingxiao Li, Samuel Hurault, Justin Solomon | (参考訳) 本稿では,時間依存型フォッカー・プランク方程式やワッサーシュタイン勾配流を含む多種多様な質量保存偏微分方程式(PDE)を解くための離散化フリースケーラブルフレームワークを提案する。
主な観測は、PDE溶液の時間変化速度場は自己整合性が必要であり、同じ速度場によって特徴づけられる確率フローを含む固定点方程式を満たす必要があることである。
固定点方程式の残差を神経パラメータ化で直接最小化する代わりに、強い経験的性能を持つ重要な計算障害をバイパスするバイアス付き勾配推定器を用いた反復的定式化を用いる。
従来の手法と比較して,本手法は時間的・空間的な離散化に悩まされず,より広い範囲のPDEをカバーし,高次元までスケールする。
実験により,本手法は,利用可能時に解析解を精度良く回収し,学習時間が少ない高次元での優れた性能を実現する。 We present a discretization-free scalable framework for solving a large class of mass-conserving partial differential equations (PDEs), including the time-dependent Fokker-Planck equation and the Wasserstein gradient flow. The main observation is that the time-varying velocity field of the PDE solution needs to be self-consistent: it must satisfy a fixed-point equation involving the probability flow characterized by the same velocity field. Instead of directly minimizing the residual of the fixed-point equation with neural parameterization, we use an iterative formulation with a biased gradient estimator that bypasses significant computational obstacles with strong empirical performance. Compared to existing approaches, our method does not suffer from temporal or spatial discretization, covers a wider range of PDEs, and scales to high dimensions. Experimentally, our method recovers analytical solutions accurately when they are available and achieves superior performance in high dimensions with less training time compared to alternatives. | 翻訳日:2023-11-15 19:30:10 公開日:2023-11-14 |
# Zero3D:Semantic-Driven Multi-Category 3D Shape Generation Zero3D: Semantic-Driven Multi-Category 3D Shape Generation ( http://arxiv.org/abs/2301.13591v5 ) ライセンス: Link先を確認 | Bo Han, Yitong Fu, Yixuan Shen | (参考訳) 意味駆動型3d形状生成は、テキストに基づく3dオブジェクトの生成を目的としている。
以前の作業では、単一カテゴリの生成、低周波の3D詳細、トレーニングのために多数のペアデータセットを必要とする問題に直面していた。
これらの課題に取り組むために,多カテゴリー条件拡散モデルを提案する。
具体的には
1) 大規模ペアデータ不足の問題を緩和するために, 事前学習したCLIPモデルに基づいてテキスト, 2次元画像, 3次元形状をブリッジし,
2) マルチカテゴリの3次元形状特徴を得るため,CLIP埋め込みに条件付き3次元形状ベクトルを生成する条件フローモデルを適用した。
3) マルチカテゴリ3次元形状を生成するために, 多カテゴリ形状ベクトルに条件付き隠れ層拡散モデルを用い, トレーニング時間とメモリ消費を大幅に削減する。 Semantic-driven 3D shape generation aims to generate 3D objects conditioned on text. Previous works face problems with single-category generation, low-frequency 3D details, and requiring a large number of paired datasets for training. To tackle these challenges, we propose a multi-category conditional diffusion model. Specifically, 1) to alleviate the problem of lack of large-scale paired data, we bridge the text, 2D image and 3D shape based on the pre-trained CLIP model, and 2) to obtain the multi-category 3D shape feature, we apply the conditional flow model to generate 3D shape vector conditioned on CLIP embedding. 3) to generate multi-category 3D shape, we employ the hidden-layer diffusion model conditioned on the multi-category shape vector, which greatly reduces the training time and memory consumption. | 翻訳日:2023-11-15 19:29:52 公開日:2023-11-14 |
# 深部ネットワークのリプシッツ定数と二重輝線について On the Lipschitz Constant of Deep Networks and Double Descent ( http://arxiv.org/abs/2301.12309v4 ) ライセンス: Link先を確認 | Matteo Gamba, Hossein Azizpour, M{\aa}rten Bj\"orkman | (参考訳) ディープ・ネットワークの一般化誤差に関する既存の境界は、入力変数への滑らかなあるいは有界な依存を前提としており、実際にはそのような要因を制御しているメカニズムを研究できない。
本研究では,二重降下を行う深層ネットワークの経験的リプシッツ定数を広範囲に実験し,テスト誤差に強く相関する非単調傾向に注目した。
臨界点付近でSGDのパラメータ空間と入力空間勾配の接続を構築することで、臨界点周辺での最適化ダイナミクスと、訓練データを超えてもモデル関数の複雑さを制御する2つの重要な因子、すなわち損失ランドスケープ曲率と初期化からの距離を分離する。
本研究は,過パラメータ化による暗黙の正規化に関する新しい知見と,実際に訓練されたネットワークの効果的なモデル複雑性を提案する。 Existing bounds on the generalization error of deep networks assume some form of smooth or bounded dependence on the input variable, falling short of investigating the mechanisms controlling such factors in practice. In this work, we present an extensive experimental study of the empirical Lipschitz constant of deep networks undergoing double descent, and highlight non-monotonic trends strongly correlating with the test error. Building a connection between parameter-space and input-space gradients for SGD around a critical point, we isolate two important factors -- namely loss landscape curvature and distance of parameters from initialization -- respectively controlling optimization dynamics around a critical point and bounding model function complexity, even beyond the training data. Our study presents novels insights on implicit regularization via overparameterization, and effective model complexity for networks trained in practice. | 翻訳日:2023-11-15 19:29:38 公開日:2023-11-14 |
# 複数の特徴空間にまたがる一貫性データクラスタリングとしての概念同定 Understanding Concept Identification as Consistent Data Clustering Across Multiple Feature Spaces ( http://arxiv.org/abs/2301.05525v2 ) ライセンス: Link先を確認 | Felix Lanfermann, Sebastian Schmitt, Patricia Wollstadt | (参考訳) 大規模なデータセットで意味のある概念を特定することは、エンジニアリング設計の問題に対する貴重な洞察を提供する。
概念識別は、すべての特徴のジョイント空間で類似しているが、機能のサブセットだけを考慮すると類似している設計インスタンスの重複しないグループを特定することを目的としている。
これらのサブセットは通常、コンストラクティブな設計パラメータ、パフォーマンス値、オペレーションモードなど、ある特定のコンテキストに関する設計を特徴付ける機能で構成されている。
これらの特徴のいくつかを独立に考慮して設計概念の質を評価することが望ましい。
特に意味のある概念は、データインスタンスの密集した分離されたグループを識別するだけでなく、事前定義された機能サブセットを別々に考えるときに持続する重複しないデータのグループを提供するべきである。
本研究では,概念同定を,工学設計を超えた幅広い応用可能性を持つクラスタリングアルゴリズムの特殊形式として捉えることを提案する。
概念同定アルゴリズムと古典的なクラスタリングアルゴリズムの違いを説明するために,最近提案されている概念識別アルゴリズムを2つの合成データセットに適用し,同定した解の差異を示す。
さらに,ソリューションが関連するサブセット間で一貫したクラスタを返すかどうかを評価する指標として,相互情報測度を導入する。
概念同定の新たな理解を支援するため,エネルギー管理領域における意思決定問題から設定したシミュレーションデータセットを考察し,一般的なクラスタリングアルゴリズムによるクラスタよりも,関連する特徴部分集合に関してより解釈可能であり,意思決定者を支援するのに適していることを示す。 Identifying meaningful concepts in large data sets can provide valuable insights into engineering design problems. Concept identification aims at identifying non-overlapping groups of design instances that are similar in a joint space of all features, but which are also similar when considering only subsets of features. These subsets usually comprise features that characterize a design with respect to one specific context, for example, constructive design parameters, performance values, or operation modes. It is desirable to evaluate the quality of design concepts by considering several of these feature subsets in isolation. In particular, meaningful concepts should not only identify dense, well separated groups of data instances, but also provide non-overlapping groups of data that persist when considering pre-defined feature subsets separately. In this work, we propose to view concept identification as a special form of clustering algorithm with a broad range of potential applications beyond engineering design. To illustrate the differences between concept identification and classical clustering algorithms, we apply a recently proposed concept identification algorithm to two synthetic data sets and show the differences in identified solutions. In addition, we introduce the mutual information measure as a metric to evaluate whether solutions return consistent clusters across relevant subsets. To support the novel understanding of concept identification, we consider a simulated data set from a decision-making problem in the energy management domain and show that the identified clusters are more interpretable with respect to relevant feature subsets than clusters found by common clustering algorithms and are thus more suitable to support a decision maker. | 翻訳日:2023-11-15 19:28:53 公開日:2023-11-14 |
# オンラインカーネル学習におけるカーネルアライメントの改善 Improved Kernel Alignment Regret Bound for Online Kernel Learning ( http://arxiv.org/abs/2212.12989v3 ) ライセンス: Link先を確認 | Junfan Li and Shizhong Liao | (参考訳) 本稿では,Hinge損失関数の仕組みにおいて,オンラインカーネル学習に拘束されるカーネルアライメントの後悔を改善する。
事前のアルゴリズムは、$O((\mathcal{A}_TT\ln{T})^{\frac{1}{4}})$O(\sqrt{\mathcal{A}_TT\ln{T}})$の計算複雑性(空間と単位時間)において、$O(\sqrt{\mathcal{A}_TT\ln{T}})$を後悔する。
本稿では,従来の結果よりも後悔と計算の複雑さが優れているアルゴリズムを提案する。
結果は,核行列の固有値の減衰速度に依存する。
核行列の固有値が指数関数的に減衰すると、我々のアルゴリズムは$O(\sqrt{\mathcal{A}_T})$の後悔を、$O(\ln^2{T})$の計算複雑性で楽しむ。
さもなくば、我々のアルゴリズムは$O((\mathcal{A}_TT)^{\frac{1}{4}})$の計算複雑性で$O(\sqrt{\mathcal{A}_TT})$の後悔を楽しむ。
我々はアルゴリズムをバッチ学習に拡張し、以前の$O(1/\sqrt{T})$境界を改善した$O(\frac{1}{T}\sqrt{\mathbb{E}[\mathcal{A}_T]})$余剰リスク境界を得る。 In this paper, we improve the kernel alignment regret bound for online kernel learning in the regime of the Hinge loss function. Previous algorithm achieves a regret of $O((\mathcal{A}_TT\ln{T})^{\frac{1}{4}})$ at a computational complexity (space and per-round time) of $O(\sqrt{\mathcal{A}_TT\ln{T}})$, where $\mathcal{A}_T$ is called \textit{kernel alignment}. We propose an algorithm whose regret bound and computational complexity are better than previous results. Our results depend on the decay rate of eigenvalues of the kernel matrix. If the eigenvalues of the kernel matrix decay exponentially, then our algorithm enjoys a regret of $O(\sqrt{\mathcal{A}_T})$ at a computational complexity of $O(\ln^2{T})$. Otherwise, our algorithm enjoys a regret of $O((\mathcal{A}_TT)^{\frac{1}{4}})$ at a computational complexity of $O(\sqrt{\mathcal{A}_TT})$. We extend our algorithm to batch learning and obtain a $O(\frac{1}{T}\sqrt{\mathbb{E}[\mathcal{A}_T]})$ excess risk bound which improves the previous $O(1/\sqrt{T})$ bound. | 翻訳日:2023-11-15 19:28:27 公開日:2023-11-14 |
# 非線形コンテキスト帯域とマルコフ決定過程に対する不確かさ重み付き破壊ロバストアルゴリズム Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear Contextual Bandits and Markov Decision Processes ( http://arxiv.org/abs/2212.05949v3 ) ライセンス: Link先を確認 | Chenlu Ye, Wei Xiong, Quanquan Gu, Tong Zhang | (参考訳) 敵の汚職に伴う強化学習(RL)問題への大きな関心と進展にもかかわらず、現在の作業は線形設定に限られるか、望ましくない$\tilde{O}(\sqrt{T}\zeta)$ regret boundにつながり、$T$はラウンド数、$\zeta$は総汚職数である。
本稿では,一般関数近似を用いた文脈的帯域幅を考慮し,$\tilde{O}(\sqrt{T}+\zeta)$の後悔を実現するための計算効率の良いアルゴリズムを提案する。
提案手法は,最近開発された線形文脈バンディットによる不確実性重み付き最小二乗回帰と,一般関数クラスに対する不確実性重み付き推定器に依存する。
線形構造に大きく依存する既存の解析とは対照的に,重み付き不確実性の総和を制御する新しい手法を開発し,最終的な後悔境界を確立する。
次に、このアルゴリズムをエピソディックmdp設定に一般化し、一般関数近似のシナリオにおいて、まず汚職レベル$\zeta$に対する加法依存を達成する。
特に、我々のアルゴリズムは、すべての汚職レベルと未知の$\zeta$のケースにおいて、パフォーマンスの低いバウンダリにほぼ一致するか、既存のメソッドを改善している。 Despite the significant interest and progress in reinforcement learning (RL) problems with adversarial corruption, current works are either confined to the linear setting or lead to an undesired $\tilde{O}(\sqrt{T}\zeta)$ regret bound, where $T$ is the number of rounds and $\zeta$ is the total amount of corruption. In this paper, we consider the contextual bandit with general function approximation and propose a computationally efficient algorithm to achieve a regret of $\tilde{O}(\sqrt{T}+\zeta)$. The proposed algorithm relies on the recently developed uncertainty-weighted least-squares regression from linear contextual bandit and a new weighted estimator of uncertainty for the general function class. In contrast to the existing analysis that heavily relies on the linear structure, we develop a novel technique to control the sum of weighted uncertainty, thus establishing the final regret bounds. We then generalize our algorithm to the episodic MDP setting and first achieve an additive dependence on the corruption level $\zeta$ in the scenario of general function approximation. Notably, our algorithms achieve regret bounds either nearly match the performance lower bound or improve the existing methods for all the corruption levels and in both known and unknown $\zeta$ cases. | 翻訳日:2023-11-15 19:27:59 公開日:2023-11-14 |
# MOPRD: 複数分野のオープンピアレビューデータセット MOPRD: A multidisciplinary open peer review dataset ( http://arxiv.org/abs/2212.04972v2 ) ライセンス: Link先を確認 | Jialiang Lin, Jiaxin Song, Zhangping Zhou, Yidong Chen, Xiaodong Shi | (参考訳) オープン・ピア・レビューは学術出版物で増加傾向にある。
ピアレビューデータへの公開アクセスは、学術コミュニティと出版コミュニティの両方にとって有益である。
また、レビューコメント生成の研究や、学術論文の自動レビューの実現にも貢献している。
しかしながら、既存のピアレビューデータセットのほとんどは、ピアレビュープロセス全体をカバーするデータを提供していません。
これとは別に、データは主にコンピュータ科学の分野から収集されるため、データの多様化は不十分である。
現在入手可能なピアレビューデータセットの2つの欠点は、関連する研究の機会を増やすために対処する必要がある。
そこで我々は,複数分野のオープンピアレビューデータセットMOPRDを構築した。
このデータセットは、紙のメタデータ、複数のバージョン原稿、レビューコメント、メタレビュー、著者の反論書簡、編集決定からなる。
また,MOPRDに基づくモジュール型レビューコメント生成手法を提案する。
実験の結果,自動測定と人的評価の両面から,本手法が優れた性能を実現することが示された。
また、メタレビュー生成、編集決定予測、著者属性生成、サイエントメトリック分析など、MOPRDの潜在的な応用についても検討する。
MOPRDは、ピアレビュー関連の研究やその他の応用におけるさらなる研究の強い支持である。 Open peer review is a growing trend in academic publications. Public access to peer review data can benefit both the academic and publishing communities. It also serves as a great support to studies on review comment generation and further to the realization of automated scholarly paper review. However, most of the existing peer review datasets do not provide data that cover the whole peer review process. Apart from this, their data are not diversified enough as the data are mainly collected from the field of computer science. These two drawbacks of the currently available peer review datasets need to be addressed to unlock more opportunities for related studies. In response, we construct MOPRD, a multidisciplinary open peer review dataset. This dataset consists of paper metadata, multiple version manuscripts, review comments, meta-reviews, author's rebuttal letters, and editorial decisions. Moreover, we propose a modular guided review comment generation method based on MOPRD. Experiments show that our method delivers better performance as indicated by both automatic metrics and human evaluation. We also explore other potential applications of MOPRD, including meta-review generation, editorial decision prediction, author rebuttal generation, and scientometric analysis. MOPRD is a strong endorsement for further studies in peer review-related research and other applications. | 翻訳日:2023-11-15 19:27:24 公開日:2023-11-14 |
# 抽象要約における幻覚緩和のためのビーム探索の改善 Improved Beam Search for Hallucination Mitigation in Abstractive Summarization ( http://arxiv.org/abs/2212.02712v2 ) ライセンス: Link先を確認 | Arvind Krishna Sridhar, Erik Visser | (参考訳) 大きな事前訓練された言語モデルの進歩は、幻覚を伴う要約を含む条件付き言語生成タスクのパフォーマンスを著しく改善した。
幻覚を低減するため、ビーム探索の改善やファクトチェッカーを後処理ステップとして用いる方法が提案されている。
本稿では,要約生成における幻覚の検出と防止を目的とした自然言語推論(NLI)の指標について検討する。
本研究では, 入力コンテキストと要約モデル生成ビーム間の包含確率スコアを算定し, NLIを用いたビーム再分類機構を提案する。
さらに,バニラビームサーチの有効性を比較するために,多様性指標を導入した。
提案アルゴリズムは,XSumおよびCNN/DMデータセット上でバニラビームデコーディングを著しく上回っている。 Advancement in large pretrained language models has significantly improved their performance for conditional language generation tasks including summarization albeit with hallucinations. To reduce hallucinations, conventional methods proposed improving beam search or using a fact checker as a postprocessing step. In this paper, we investigate the use of the Natural Language Inference (NLI) entailment metric to detect and prevent hallucinations in summary generation. We propose an NLI-assisted beam re-ranking mechanism by computing entailment probability scores between the input context and summarization model-generated beams during saliency-enhanced greedy decoding. Moreover, a diversity metric is introduced to compare its effectiveness against vanilla beam search. Our proposed algorithm significantly outperforms vanilla beam decoding on XSum and CNN/DM datasets. | 翻訳日:2023-11-15 19:27:07 公開日:2023-11-14 |
# 対角線RNNによる状態空間モデルの単純化と理解 Simplifying and Understanding State Space Models with Diagonal Linear RNNs ( http://arxiv.org/abs/2212.00768v3 ) ライセンス: Link先を確認 | Ankit Gupta, Harsh Mehta, Jonathan Berant | (参考訳) 線形状態空間(ssms)に基づくシーケンスモデルは、様々なモード間の長距離依存性をモデル化するためのアーキテクチャの有望な選択として最近登場した。
しかし、それらは常に、プレゼンテーションと理解を複雑にする連続状態空間の離散化に依存している。
本研究では、離散化ステップを分解し、バニラ対角線形RNN(\mathrm{DLR}$)に基づくモデルを提案する。
概念的にはるかに単純であるにもかかわらず、$\mathrm{DLR}$は、Long Range Arenaや生音声分類を含む様々なタスクやベンチマークにおいて、以前提案されたSSMと同じくらいのパフォーマンスを示す。
さらに,SSMの表現性($\mathrm{DLR}$を含む)やアテンションベースモデルの特徴として,入力シーケンスのシフトなどの単純な操作から,フラット化された画像の長い空間範囲における共依存的な視覚特徴の検出に至るまで,数万のトークン間のインタラクションを含む1,13ドルの合成シーケンス・ツー・シーケンスタスクのスイートを特徴付ける。
SSMは、$\textit{few}$ convolutional kernelsを介してモデル化できるタスクについてほぼ完璧なパフォーマンスを報告しているが、$\textit{many}$そのようなカーネルを必要とするタスク、特に所望のシーケンス操作が$\textit{context-dependent}$である場合には、苦労している。
これらの制限にもかかわらず、$\mathrm{dlr}$は2つの高次推論タスクで高いパフォーマンスに達する$\mathrm{listopssubtrees}$と$\mathrm{pathfindersegmentation}\text{-}\mathrm{256}$ それぞれ8k$と65k$ であり、$\mathrm{pathfindersegmentation}\text{-}\mathrm{512}$ 入力長は262k$ であり、注意が有効な選択肢ではない。 Sequence models based on linear state spaces (SSMs) have recently emerged as a promising choice of architecture for modeling long range dependencies across various modalities. However, they invariably rely on discretization of a continuous state space, which complicates their presentation and understanding. In this work, we dispose of the discretization step, and propose a model based on vanilla Diagonal Linear RNNs ($\mathrm{DLR}$). We empirically show that, despite being conceptually much simpler, $\mathrm{DLR}$ is as performant as previously-proposed SSMs on a variety of tasks and benchmarks including Long Range Arena and raw speech classification. Moreover, we characterize the expressivity of SSMs (including $\mathrm{DLR}$) and attention-based models via a suite of $13$ synthetic sequence-to-sequence tasks involving interactions over tens of thousands of tokens, ranging from simple operations, such as shifting an input sequence, to detecting co-dependent visual features over long spatial ranges in flattened images. We find that while SSMs report near-perfect performance on tasks that can be modeled via $\textit{few}$ convolutional kernels, they struggle on tasks requiring $\textit{many}$ such kernels and especially when the desired sequence manipulation is $\textit{context-dependent}$. Despite these limitations, $\mathrm{DLR}$ reaches high performance on two higher-order reasoning tasks $\mathrm{ListOpsSubTrees}$ and $\mathrm{PathfinderSegmentation}\text{-}\mathrm{256}$ with input lengths $8K$ and $65K$ respectively, and gives encouraging performance on $\mathrm{PathfinderSegmentation}\text{-}\mathrm{512}$ with input length $262K$ for which attention is not a viable choice. | 翻訳日:2023-11-15 19:26:54 公開日:2023-11-14 |
# EGRC-Net:埋め込みによるグラフリファインメントクラスタリングネットワーク EGRC-Net: Embedding-induced Graph Refinement Clustering Network ( http://arxiv.org/abs/2211.10627v2 ) ライセンス: Link先を確認 | Zhihao Peng, Hui Liu, Yuheng Jia, Junhui Hou | (参考訳) 既存のグラフクラスタリングネットワークは、事前に定義された固定されたグラフに大きく依存しており、初期グラフが埋め込み空間のデータトポロジ構造を正確にキャプチャできなかった場合に失敗する可能性がある。
そこで,本研究では,学習埋め込みを有効に活用し,初期グラフを適応的に洗練し,クラスタリング性能を向上させる,embedd-induced graphfine clustering network (egrc-net) という新しいクラスタリングネットワークを提案する。
まず,バニラオートエンコーダとグラフ畳み込みネットワークを用いて,潜在特徴表現を学習することにより,意味的情報と位相的情報の両方を活用する。
その後、特徴埋め込み空間内の局所幾何学構造を利用してグラフの隣接行列を構成する。
この隣接行列は,提案した融合アーキテクチャを用いて,初期と動的に融合する。
ネットワークを教師なしで訓練するために、複数の派生分布間のジェフリー分散を最小限に抑える。
さらに,標準グラフ畳み込みネットワークを置き換え,egrc-netを効果的にスケール可能にするために,ニューラルネットワーク予測のパーソナライズされた近似伝播法を提案する。
9つの広く使われているベンチマークデータセットで行った広範囲な実験を通じて、提案手法が最先端のアプローチを一貫して上回っていることを実証する。
特に、EGRC-Netは、DBLPデータセットの最高のベースラインよりも11.99\%以上改善されている。
さらに、スケーラブルなアプローチではariが10.73%向上し、メモリ使用量を33.73%削減し、実行時間を19.71%削減した。
EGRC-Netのコードは \url{https://github.com/ZhihaoPENG-CityU/EGRC-Net} で公開されている。 Existing graph clustering networks heavily rely on a predefined yet fixed graph, which can lead to failures when the initial graph fails to accurately capture the data topology structure of the embedding space. In order to address this issue, we propose a novel clustering network called Embedding-Induced Graph Refinement Clustering Network (EGRC-Net), which effectively utilizes the learned embedding to adaptively refine the initial graph and enhance the clustering performance. To begin, we leverage both semantic and topological information by employing a vanilla auto-encoder and a graph convolution network, respectively, to learn a latent feature representation. Subsequently, we utilize the local geometric structure within the feature embedding space to construct an adjacency matrix for the graph. This adjacency matrix is dynamically fused with the initial one using our proposed fusion architecture. To train the network in an unsupervised manner, we minimize the Jeffreys divergence between multiple derived distributions. Additionally, we introduce an improved approximate personalized propagation of neural predictions to replace the standard graph convolution network, enabling EGRC-Net to scale effectively. Through extensive experiments conducted on nine widely-used benchmark datasets, we demonstrate that our proposed methods consistently outperform several state-of-the-art approaches. Notably, EGRC-Net achieves an improvement of more than 11.99\% in Adjusted Rand Index (ARI) over the best baseline on the DBLP dataset. Furthermore, our scalable approach exhibits a 10.73% gain in ARI while reducing memory usage by 33.73% and decreasing running time by 19.71%. The code for EGRC-Net will be made publicly available at \url{https://github.com/ZhihaoPENG-CityU/EGRC-Net}. | 翻訳日:2023-11-15 19:25:30 公開日:2023-11-14 |
# HMOE: ドメイン一般化のためのハイパーネットワークベースのエキスパートの混合 HMOE: Hypernetwork-based Mixture of Experts for Domain Generalization ( http://arxiv.org/abs/2211.08253v3 ) ライセンス: Link先を確認 | Jingang Qu, Thibault Faney, Ze Wang, Patrick Gallinari, Soleiman Yousef, Jean-Charles de Hemptinne | (参考訳) ドメインシフトのため、機械学習システムは一般的に、トレーニングデータと異なる新しいドメインへの一般化に苦労している。
様々なDG手法が提案されているが、そのほとんどは解釈性に乏しく、多くの実世界のシナリオでは利用できないドメインラベルを必要とする。
本稿では、ドメインラベルに依存しないHMOE: Hypernetwork-based Mixture of Experts (MoE)と呼ばれる新しいDG手法を提案する。
MoEはデータの異種パターンを特定するのに有効である。
DG問題に対して、不均一性はドメインシフトから生じる。
hmoeは、専門家の重み付けを生成するためにベクトルを入力とするハイパーネットワークを採用しており、専門家間の知識共有を促進し、低次元ベクトル空間におけるそれらの類似性を探求することができる。
公平な評価フレームワーク -DomainBed の下で,HMOE を他の DG メソッドと比較した。
我々の広範な実験により、HMOEは混合ドメインデータを、元のドメインラベルよりも驚くほど人間の直感に整合した、異なるクラスタに効果的に分離できることが示された。
HMOEは自己学習したドメイン情報を使用して、ほとんどのデータセットで最先端の結果を達成し、すべてのデータセットの平均精度で他のDGメソッドを大幅に上回る。 Due to domain shifts, machine learning systems typically struggle to generalize well to new domains that differ from those of training data, which is what domain generalization (DG) aims to address. Although a variety of DG methods have been proposed, most of them fall short in interpretability and require domain labels, which are not available in many real-world scenarios. This paper presents a novel DG method, called HMOE: Hypernetwork-based Mixture of Experts (MoE), which does not rely on domain labels and is more interpretable. MoE proves effective in identifying heterogeneous patterns in data. For the DG problem, heterogeneity arises exactly from domain shifts. HMOE employs hypernetworks taking vectors as input to generate the weights of experts, which promotes knowledge sharing among experts and enables the exploration of their similarities in a low-dimensional vector space. We benchmark HMOE against other DG methods under a fair evaluation framework -- DomainBed. Our extensive experiments show that HMOE can effectively separate mixed-domain data into distinct clusters that are surprisingly more consistent with human intuition than original domain labels. Using self-learned domain information, HMOE achieves state-of-the-art results on most datasets and significantly surpasses other DG methods in average accuracy across all datasets. | 翻訳日:2023-11-15 19:25:01 公開日:2023-11-14 |
# Abstraqt: 抽象安定化器シミュレーションによる量子回路の解析 Abstraqt: Analysis of Quantum Circuits via Abstract Stabilizer Simulation ( http://arxiv.org/abs/2304.00921v2 ) ライセンス: Link先を確認 | Benjamin Bichsel, Anouk Paradis, Maximilian Baader, Martin Vechev | (参考訳) 安定化器シミュレーションはクリフォードゲートのみからなる量子回路の重要なクラスを効率的にシミュレートすることができる。
しかし、このシミュレーションの非クリフォードゲートを含む任意の量子回路への既存の拡張はすべて指数関数的ランタイムに苦しむ。
そこで本研究では,任意の量子回路上での効率の良い安定化器シミュレーションを行うための新しい手法を提案する。
私たちのキーとなるアイデアは、量子状態の指数和表現を、(少なくとも)起こるすべてのサマンドをカバーする単一の抽象的なサマンドに圧縮することです。
これにより,クリフォードゲート,非クリフォードゲート,(内部)計測などの回路操作の効果を過大に評価することにより,抽象サムマンドを効率的に操作できる抽象安定化シミュレータを導入することができる。
我々はAbstraqtと呼ばれるツールに抽象シミュレータを実装し、既存の手法で回路特性を抽出できることを実験的に実証した。 Stabilizer simulation can efficiently simulate an important class of quantum circuits consisting exclusively of Clifford gates. However, all existing extensions of this simulation to arbitrary quantum circuits including non-Clifford gates suffer from an exponential runtime. To address this challenge, we present a novel approach for efficient stabilizer simulation on arbitrary quantum circuits, at the cost of lost precision. Our key idea is to compress an exponential sum representation of the quantum state into a single abstract summand covering (at least) all occurring summands. This allows us to introduce an abstract stabilizer simulator that efficiently manipulates abstract summands by over-approximating the effect of circuit operations including Clifford gates, non-Clifford gates, and (internal) measurements. We implemented our abstract simulator in a tool called Abstraqt and experimentally demonstrate that Abstraqt can establish circuit properties intractable for existing techniques. | 翻訳日:2023-11-15 19:16:45 公開日:2023-11-14 |
# より大きなプローブが異なるストーリーを語る:文脈内学習による心理的データセットの拡張 Larger Probes Tell a Different Story: Extending Psycholinguistic Datasets Via In-Context Learning ( http://arxiv.org/abs/2303.16445v3 ) ライセンス: Link先を確認 | Namrata Shivagunde, Vladislav Lialin, and Anna Rumshisky | (参考訳) 言語モデル探索は、しばしばモデルの特定の機能をテストするために使用される。
しかし、そのような研究の結論は、調査ベンチマークが小さく統計力が欠如している場合に限定される可能性がある。
本稿では,ネゲーション(neg-1500-simp)と役割反転(role-1500)の新たな大規模データセットを提案する。
GPT3 を用いて既存の NEG-136 と ROLE-88 ベンチマークを劇的に拡張し,それぞれ 18 と 44 の文対から 750 にサイズを拡大した。
また、テンプレートベースの生成を用いて作成した拡張否定データセット(NEG-1500-SIMP-TEMP)の別のバージョンも作成する。
770対の文からなる。
拡張したデータセット上で22モデルを評価し,モデル性能が20~57%低下した。
BERT や ALBERT のようなモデルでは,より小さなテストセットにより,以前の結果が歪んだ可能性があることを示すため,高いレベルの否定感度が観察された。
最後に、GPT3はROLE-1500の全ての例を生成しているが、探索中に24.6%しか解けない。
データセットとコードは$\href{https://github.com/text-machine-lab/extending_psycholinguistic_dataset}{Github}$で入手できる。 Language model probing is often used to test specific capabilities of models. However, conclusions from such studies may be limited when the probing benchmarks are small and lack statistical power. In this work, we introduce new, larger datasets for negation (NEG-1500-SIMP) and role reversal (ROLE-1500) inspired by psycholinguistic studies. We dramatically extend existing NEG-136 and ROLE-88 benchmarks using GPT3, increasing their size from 18 and 44 sentence pairs to 750 each. We also create another version of extended negation dataset (NEG-1500-SIMP-TEMP), created using template-based generation. It consists of 770 sentence pairs. We evaluate 22 models on the extended datasets, seeing model performance dip 20-57% compared to the original smaller benchmarks. We observe high levels of negation sensitivity in models like BERT and ALBERT demonstrating that previous findings might have been skewed due to smaller test sets. Finally, we observe that while GPT3 has generated all the examples in ROLE-1500 is only able to solve 24.6% of them during probing. The datasets and code are available on $\href{https://github.com/text-machine-lab/extending_psycholinguistic_dataset}{Github}$. | 翻訳日:2023-11-15 19:16:31 公開日:2023-11-14 |
# 一般化分割局所深さ Generalized partitioned local depth ( http://arxiv.org/abs/2303.10167v4 ) ライセンス: Link先を確認 | Kenneth S. Berenhaut, John D. Foley and Liangdongsheng Lyu | (参考訳) 本稿では,Berenhaut, Moore, Melvinが最近導入した凝集の概念の一般化について述べる。
この定式化は,2つの主要な確率論的概念である局所的妥当性と支援分割を蒸留することにより,局所的深度を分割する手法に基づいて構築された。
以前の結果は新しいコンテキスト内で拡張され、不確実性のあるデータのコミュニティを明らかにするためのアプリケーションの例が含まれている。
この作業は、分割された局所的な深さの基礎に光を当て、元のアイデアを拡張し、不確実で可変的で潜在的に矛盾する情報に対する確率論的考察を可能にする。 In this paper we provide a generalization of the concept of cohesion as introduced recently by Berenhaut, Moore and Melvin [Proceedings of the National Academy of Sciences, 119 (4) (2022)]. The formulation presented builds on the technique of partitioned local depth by distilling two key probabilistic concepts: local relevance and support division. Earlier results are extended within the new context, and examples of applications to revealing communities in data with uncertainty are included. The work sheds light on the foundations of partitioned local depth, and extends the original ideas to enable probabilistic consideration of uncertain, variable and potentially conflicting information. | 翻訳日:2023-11-15 19:16:08 公開日:2023-11-14 |
# ハミルトン力学の高階量子変換 Higher-order quantum transformations of Hamiltonian dynamics ( http://arxiv.org/abs/2303.09788v5 ) ライセンス: Link先を確認 | Tatsuki Odake, Hl\'er Kristj\'ansson, Akihito Soeda, Mio Murao | (参考訳) 我々は,ハミルトニアンダイナミクスの高次変換を実現する量子アルゴリズムを提案する。
すなわち、アルゴリズムは有限個のクエリをブラックボックスシードハミルトン力学に入力し、所望のハミルトン力学をシミュレートする。
本アルゴリズムは,制御されたパウリゲートと時間相関ランダム性のみを用いて,系サイズの項の多項式数からなる有界エネルギー範囲を持つ任意のシードハミルトニアンの線形変換を効率的にシミュレートする。
このアルゴリズムは量子関数プログラミングの例であり、所望の関数は高階量子変換の連結として指定される。
例えば、負の時間進化と時間反転のシミュレーションを実演し、ハミルトン学習タスクを実行する。 We present a quantum algorithm to achieve higher-order transformations of Hamiltonian dynamics. Namely, the algorithm takes as input a finite number of queries to a black-box seed Hamiltonian dynamics to simulate a desired Hamiltonian. Our algorithm efficiently simulates linear transformations of any seed Hamiltonian with a bounded energy range consisting of a polynomial number of terms in system size, making use of only controlled-Pauli gates and time-correlated randomness. This algorithm is an instance of quantum functional programming, where the desired function is specified as a concatenation of higher-order quantum transformations. By way of example, we demonstrate the simulation of negative time-evolution and time-reversal, and perform a Hamiltonian learning task. | 翻訳日:2023-11-15 19:15:57 公開日:2023-11-14 |
# 量子状態トモグラフィにおける信頼領域の比較 Comparison of confidence regions for quantum state tomography ( http://arxiv.org/abs/2303.07136v2 ) ライセンス: Link先を確認 | Jessica O. de Almeida, Matthias Kleinmann and Gael Sent\'is | (参考訳) 未知の実験準備手順に関連する量子状態は、量子状態トモグラフィーを行うことで決定できる。
データの統計的不確実性が他の実験誤差を上回っている場合、トモグラフィ再構成手順は、この不確実性を表現する必要がある。
これを達成するための厳密な方法は、状態空間の統計的信頼領域である。
自然にサンプル数を増やすと、この領域の大きさは減少するが、その領域の構成方法にも依存する。
本稿では,ガウス近似に基づく信頼領域構築手法と参照手法の比較を行った。
比較のために,本研究では,各手法に有意な差があるが,どの手法が望ましいかは,状態準備シナリオの詳細に依存することができることを示す。 The quantum state associated to an unknown experimental preparation procedure can be determined by performing quantum state tomography. If the statistical uncertainty in the data dominates over other experimental errors, then a tomographic reconstruction procedure must express this uncertainty. A rigorous way to accomplish this is via statistical confidence regions in state space. Naturally, the size of this region decreases when increasing the number of samples, but it also depends critically on the construction method of the region. We compare recent methods for constructing confidence regions as well as a reference method based on a Gaussian approximation. For the comparison, we propose an operational measure with the finding, that there is a significant difference between methods, but which method is preferable can depend on the details of the state preparation scenario. | 翻訳日:2023-11-15 19:15:44 公開日:2023-11-14 |
# AutoOptLib: 自動アルゴリズム設計によるメタヒューリスティック最適化 AutoOptLib: Tailoring Metaheuristic Optimizers via Automated Algorithm Design ( http://arxiv.org/abs/2303.06536v2 ) ライセンス: Link先を確認 | Qi Zhao, Bai Yan, Taiwei Hu, Xianglong Chen, Qiqi Duan, Jian Yang, Yuhui Shi | (参考訳) メタヒューリスティックス(Metaheuristics)は、解析解法の厳密な数学的仮定を満たさない難解問題を解くための顕著な勾配のない最適化法である。
標準的な手動オプティマイザ設計は、人間の専門家が常に利用できるとは限らないため、手間がかかり、追跡不能でエラーを起こしやすい。
これはオプティマイザ設計プロセスの自動化に対する関心と需要の増加をもたらします。
そこで本稿では,メタヒューリスティックオプティマイザを自動設計する最初のプラットフォームであるAutoOptLibを提案する。
AutoOptLibはコンピューティングリソースを活用して、オプティマイザの設計選択を理解し、構築し、検証する。
手動設計よりも少ない労力と専門知識を必要とし、満足のいくメタヒューリスティック・オプティマイザをより幅広い研究者や実践者に民主化する。
さらに、コンピュータリソースによる設計選択を完全に探求することで、AutoOptLibは人間の経験を超越し、人間の問題解決に比べてパフォーマンスが向上する可能性がある。
自動設計を実現するためにAutoOptLibは
1) 連続的,離散的,置換問題のメタヒューリスティックな構成要素の豊富なライブラリ。
2) 多様なアルゴリズム構造を進化させる柔軟なアルゴリズム表現
3) 異なる最適化シナリオのための異なる設計目標と技術
4)アクセシビリティと実用性のためのグラフィックユーザインタフェース。
AutoOptLibはMatlab/Octaveで完全に書かれており、ソースコードとドキュメントはhttps://github.com/qz89/AutoOptとhttps://AutoOpt.readthedocs.io/で公開されている。 Metaheuristics are prominent gradient-free optimizers for solving hard problems that do not meet the rigorous mathematical assumptions of analytical solvers. The canonical manual optimizer design could be laborious, untraceable and error-prone, let alone human experts are not always available. This arises increasing interest and demand in automating the optimizer design process. In response, this paper proposes AutoOptLib, the first platform for accessible automated design of metaheuristic optimizers. AutoOptLib leverages computing resources to conceive, build up, and verify the design choices of the optimizers. It requires much less labor resources and expertise than manual design, democratizing satisfactory metaheuristic optimizers to a much broader range of researchers and practitioners. Furthermore, by fully exploring the design choices with computing resources, AutoOptLib has the potential to surpass human experience, subsequently gaining enhanced performance compared with human problem-solving. To realize the automated design, AutoOptLib provides 1) a rich library of metaheuristic components for continuous, discrete, and permutation problems; 2) a flexible algorithm representation for evolving diverse algorithm structures; 3) different design objectives and techniques for different optimization scenarios; and 4) a graphic user interface for accessibility and practicability. AutoOptLib is fully written in Matlab/Octave; its source code and documentation are available at https://github.com/qz89/AutoOpt and https://AutoOpt.readthedocs.io/, respectively. | 翻訳日:2023-11-15 19:15:32 公開日:2023-11-14 |
# ChatGPTの一貫性解析 Consistency Analysis of ChatGPT ( http://arxiv.org/abs/2303.06273v3 ) ライセンス: Link先を確認 | Myeongjun Erik Jang, Thomas Lukasiewicz | (参考訳) ChatGPTは導入以来大きな人気を集めている。
その肯定的な側面は、多くのメディアプラットフォームを通じて報告されており、いくつかの分析では、chatgptがプロの試験でまともな成績を上げたこと、そしてaiが産業分野で人間を助け、置き換えることができるという主張に対する追加の支持が示された。
しかし、その信頼性と信頼性を疑う者もいる。
本稿では,chatgpt と gpt-4 の論理的一貫性に関する信頼性について検討し,意味的一貫性と否定,対称,推移的一貫性の特性に着目した。
両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
また,LLMの不整合を解消するためには,大規模言語モデル(LLM)を設計し,少数ショットの学習を行い,より大規模な言語モデル(LLM)を採用する実験を行うことも不可能である。 ChatGPT has gained a huge popularity since its introduction. Its positive aspects have been reported through many media platforms, and some analyses even showed that ChatGPT achieved a decent grade in professional exams, adding extra support to the claim that AI can now assist and even replace humans in industrial fields. Others, however, doubt its reliability and trustworthiness. This paper investigates the trustworthiness of ChatGPT and GPT-4 regarding logically consistent behaviour, focusing specifically on semantic consistency and the properties of negation, symmetric, and transitive consistency. Our findings suggest that while both models appear to show an enhanced language understanding and reasoning ability, they still frequently fall short of generating logically consistent predictions. We also ascertain via experiments that prompt designing, few-shot learning and employing larger large language models (LLMs) are unlikely to be the ultimate solution to resolve the inconsistency issue of LLMs. | 翻訳日:2023-11-15 19:15:03 公開日:2023-11-14 |
# パルスレベルでの量子古典処理とベンチマーク Quantum-classical processing and benchmarking at the pulse-level ( http://arxiv.org/abs/2303.03816v2 ) ライセンス: Link先を確認 | Lior Ella, Lorenzo Leandro, Oded Wertheim, Yoav Romach, Lukas Schlipf, Ramon Szmuk, Yoel Knol, Nissim Ofek, Itamar Sivan and Yonatan Cohen | (参考訳) NISQ時代の量子コンピュータの実用化と、量子エラー訂正符号を利用したフォールトトレラントな量子コンピュータの実現に向けて、制御ハードウェアやソフトウェアプラットフォームに対するプレスの必要性が浮上した。
特に、古典的な処理を量子処理に統合できるプラットフォームに対する明確な需要が生まれている。
近年の研究では、ゲートレベルで定式化された量子古典処理統合の要件について論じられているが、パルスレベルの議論は欠如しており、極めて重要である。
さらに、パルスレベルで制御システムの具体的な性能ベンチマークを定義することが、必要な量子古典積分の鍵となる。
本研究では,パルスレベルでの量子古典処理の要件を分類し,最近公開された作品を含む様々なユースケースを用いてこれらの要件を実証し,量子制御システムの性能ベンチマークを提案する。
量子プログラムに普遍的な古典処理を組み込むことができ、ベンチマークの一般的な定式化を可能にする包括的パルスレベル言語を利用する。
この作業で定義されたメトリクスは、制御システムを通じて量子コンピューティングの境界を推し進め、関連するメトリクスで低レベルとアプリケーションレベルの実装のギャップを埋めるために、しっかりとした基盤を形成することを期待しています。 Towards the practical use of quantum computers in the NISQ era, as well as the realization of fault-tolerant quantum computers that utilize quantum error correction codes, pressing needs have emerged for the control hardware and software platforms. In particular, a clear demand has arisen for platforms that allow classical processing to be integrated with quantum processing. While recent works discuss the requirements for such quantum-classical processing integration that is formulated at the gate-level, pulse-level discussions are lacking and are critically important. Moreover, defining concrete performance benchmarks for the control system at the pulse-level is key to the necessary quantum-classical integration. In this work, we categorize the requirements for quantum-classical processing at the pulse-level, demonstrate these requirements with a variety of use cases, including recently published works, and propose well-defined performance benchmarks for quantum control systems. We utilize a comprehensive pulse-level language that allows embedding universal classical processing in the quantum program and hence allows for a general formulation of benchmarks. We expect the metrics defined in this work to form a solid basis to continue to push the boundaries of quantum computing via control systems, bridging the gap between low-level and application-level implementations with relevant metrics. | 翻訳日:2023-11-15 19:14:45 公開日:2023-11-14 |
# 光リモートセンシング画像における高度物体検出のためのデュアルストリームフィードバック機構を用いた境界・semantic collaborative guidance network Boundary-semantic collaborative guidance network with dual-stream feedback mechanism for salient object detection in optical remote sensing imagery ( http://arxiv.org/abs/2303.02867v3 ) ライセンス: Link先を確認 | Dejun Feng, Hongyu Chen, Suning Liu, Ziyang Liao, Xingyu Shen, Yakun Xie, Jun Zhu | (参考訳) 光リモートセンシング画像(ORSI-SOD)における深層学習の応用が増加し,高感度な物体検出が注目されている。
しかし、既存のORSI-SOD法は、主に低レベルの特徴からの局所情報を頼りにし、境界基底真理を用いてそれらを監督するが、局所情報を十分に最適化・保護することができず、ほとんど全てのアプローチは、塩分マップの整合性を維持するためにデコーダの最終層が提供する潜在的な利点を無視している。
これらの課題に対処するため,両ストリームフィードバック機構を備えた境界意味協調誘導ネットワーク(BSCGNet)を提案する。
まず,前向き伝搬時のエッジ位置情報の損失を効果的に低減し,境界地盤の真実に頼らずに低レベル特徴のノイズを抑制する境界保護校正モジュールを提案する。
第二に、BPCモジュールをベースとして、境界-意味的二重特徴を集約し、異なる層にまたがる特徴の協調に効果的なフィードバックを提供する二重特徴フィードバック補完モジュール(DFFC)を提案する。
最後に,より完全なサリエンシーマップを得るため,デコーダの最終層の特異性を初めて考慮し,特徴表現をさらに洗練し,ユニークなフィードバック機構により特徴間の差異を解消する適応フィードバック改善(afr)モジュールを提案する。
3つのベンチマークデータセットに対する大規模な実験により、BSCGNetは挑戦的なシナリオにおいて明確なアドバンテージを示し、近年提案されている17の最先端(SOTA)アプローチを上回っている。
コードと結果がgithubで公開されている。 With the increasing application of deep learning in various domains, salient object detection in optical remote sensing images (ORSI-SOD) has attracted significant attention. However, most existing ORSI-SOD methods predominantly rely on local information from low-level features to infer salient boundary cues and supervise them using boundary ground truth, but fail to sufficiently optimize and protect the local information, and almost all approaches ignore the potential advantages offered by the last layer of the decoder to maintain the integrity of saliency maps. To address these issues, we propose a novel method named boundary-semantic collaborative guidance network (BSCGNet) with dual-stream feedback mechanism. First, we propose a boundary protection calibration (BPC) module, which effectively reduces the loss of edge position information during forward propagation and suppresses noise in low-level features without relying on boundary ground truth. Second, based on the BPC module, a dual feature feedback complementary (DFFC) module is proposed, which aggregates boundary-semantic dual features and provides effective feedback to coordinate features across different layers, thereby enhancing cross-scale knowledge communication. Finally, to obtain more complete saliency maps, we consider the uniqueness of the last layer of the decoder for the first time and propose the adaptive feedback refinement (AFR) module, which further refines feature representation and eliminates differences between features through a unique feedback mechanism. Extensive experiments on three benchmark datasets demonstrate that BSCGNet exhibits distinct advantages in challenging scenarios and outperforms the 17 state-of-the-art (SOTA) approaches proposed in recent years. Codes and results have been released on GitHub: https://github.com/YUHsss/BSCGNet. | 翻訳日:2023-11-15 19:14:24 公開日:2023-11-14 |
# 悪意ノードのサブセットを持つ情報理論セキュア量子鍵分布ネットワーク Information-theoretical Secure quantum key distribution Networks with a subset of malicious nodes ( http://arxiv.org/abs/2302.07688v3 ) ライセンス: Link先を確認 | Yi Luo, Qiong Li, Hao-Kun Mao and Nan Chen | (参考訳) 量子鍵分布(QKD)ネットワークは,大規模ネットワーク上でのITS通信を可能にすることが期待されている。
リレーベースのQKDネットワークに関するほとんどの研究は、すべてのリレーやノードが完全に信頼できると仮定している。
しかし、単一ノードの悪意ある振る舞いは、QKDネットワークのセキュリティを損なう可能性がある。
qkd(quantum key distribution)ネットワークに関する現在の研究は、主に悪意のあるノードによる盗聴などの受動的攻撃に対処している。
アクティブアタックに対抗するために、多数決やポイントツーポイントQKDシステムの秘密共有のようなソリューションが提案されているが、セキュリティ要件が異なるため、これらの戦略はQKDネットワーク研究に直接転送することはできない。
本稿では,QKDネットワークのセキュリティ要件に対する新たなパラダイムを提案し,悪意のあるノードの協調によるアクティブアタックに対処する。
まず、セキュリティに関して、QKDネットワークに2つの重要なセキュリティ特性を提供する分散認証方式であるITSを導入する。
第2に,正確性に関して,分散認証に基づくフォールトトレラントコンセンサススキームを提案し,グローバル一貫性を保証し,参加者のノードがより実用的な方法で正しく連携できるようにする。
シミュレーションにより,本手法は従来の鍵共有方式に比べてキー使用量の増加傾向が著しく低いことを示した。
例えば、ノード番号が80であるような大きなネットワークでは、我々のスキームのキー消費は、事前共有されたキースキームの13.1\%に過ぎません。 Quantum key distribution (QKD) networks are expected to enable information-theoretical secure (ITS) communication over a large-scale network. Most researches on relay-based QKD network assume that all relays or nodes are completely trustworthy. However, the malicious behavior of any single node can undermine security of QKD networks. Current research on Quantum Key Distribution (QKD) networks primarily addresses passive attacks, such as eavesdropping, conducted by malicious nodes. Although there are proposed solutions like majority voting and secret sharing for point-to-point QKD systems to counter active attacks, these strategies are not directly transferable to QKD network research due to different security requirements. We propose the a new paradigm for the security requirements of QKD networks and addresses the active attack by collaborate malicious nodes. Firstly, regarding security, we introduce the ITS distributed authentication scheme, which additionally offers two crucial security properties to QKD networks: identity unforgeability and non-repudiation. Secondly, concerning correctness, we propose an ITS fault-tolerant consensus scheme based on our ITS distributed authentication to ensure global consistency, enabling participating nodes to collaborate correctly in a more practical manner. Through our simulation, we have shown that our scheme exhibits a significantly lower growth trend in key consumption compared to the original pre-shared keys scheme. For instance, in larger networks such as when the nodes number is 80, our scheme's key consumption is only 13.1\% of the pre-shared keys scheme. | 翻訳日:2023-11-15 19:13:43 公開日:2023-11-14 |
# 圧縮量子誤差緩和 Compressed quantum error mitigation ( http://arxiv.org/abs/2302.05457v3 ) ライセンス: Link先を確認 | Maurits S. J. Tepaske, David J. Luitz | (参考訳) 本稿では,量子回路の適用時に蓄積した誤差を除去するために,確率的誤差消去に基づく量子誤差軽減手法を提案する。
提案手法はノイズ回路の動作後に最適な「デノイザー」を適用することに基づいており、任意の数のゲートで実行することができる。
デノイザーは準確率分布で分布する回路のアンサンブルによって与えられる。
単純なノイズモデルでは,効率良く局所的なデノイザが発見できることを示すとともに,単純なスピンチェーンの時間発展のディジタル量子シミュレーションの有効性を示す。 We introduce a quantum error mitigation technique based on probabilistic error cancellation to eliminate errors which have accumulated during the application of a quantum circuit. Our approach is based on applying an optimal "denoiser" after the action of a noisy circuit and can be performed with an arbitrary number of extra gates. The denoiser is given by an ensemble of circuits distributed with a quasiprobability distribution. For a simple noise model, we show that efficient, local denoisers can be found, and we demonstrate their effectiveness for the digital quantum simulation of the time evolution of simple spin chains. | 翻訳日:2023-11-15 19:12:56 公開日:2023-11-14 |
# マルチモードチャネル上の完全パッシブ量子鍵分布を目指して Towards Fully Passive Time-Bin Quantum Key Distribution over Multi-Mode Channels ( http://arxiv.org/abs/2302.05038v2 ) ライセンス: Link先を確認 | Ramy Tannous, Wilson Wu, St\'ephane Vinet, Chithrabhanu Perumangatt, Dogan Sinar, Alexander Ling, Thomas Jennewein | (参考訳) 遠方量子時間ビン干渉計の位相安定化は、量子通信ネットワークにおいて大きな課題であり、通常は、自由空間チャネル上で特に困難な光参照信号の交換によって達成される。
アクティブな相対位相安定化の必要性を完全に回避しつつ、アクティブモードフィルタリングを伴わずに高度にマルチモードチャネルを克服する参照フレーム独立なタイムビン量子鍵分布を用いた新しい手法を示す。
複合偏光と時間ビン絡み合った光子を用いた概念実証実験を行い,15m光ファイバーチャネル上で0.06ビット/共起の持続的漸近鍵速度を実現した。
これはモードフィルタリング、モードソート、適応光学、アクティブ基底選択、アクティブ位相アライメントなしで実現される。
この方式は、長距離リンクや様々な波長に容易に適用可能な受動的自己補償型時間ビン量子通信を可能にし、空中や衛星システムを含む高速移動プラットフォームを含む様々な空間的マルチモードおよび変動チャネルに有用である。 Phase stabilization of distant quantum time-bin interferometers is a major challenge for quantum communication networks, and is typically achieved by exchanging optical reference signals, which can be particularly challenging over free-space channels. We demonstrate a novel approach using reference frame independent time-bin quantum key distribution that completely avoids the need for active relative phase stabilization while simultaneously overcoming a highly multi-mode channel without any active mode filtering. We realized a proof-of-concept demonstration using hybrid polarization and time-bin entangled photons, that achieved a sustained asymptotic secure key rate of greater than 0.06 bits/coincidence over a 15m multi-mode fiber optical channel. This is achieved without any mode filtering, mode sorting, adaptive optics, active basis selection, or active phase alignment. This scheme enables passive self-compensating time-bin quantum communication which can be readily applied to long-distance links and various wavelengths, and could be useful for a variety of spatially multi-mode and fluctuating channels involving rapidly moving platforms, including airborne and satellite systems. | 翻訳日:2023-11-15 19:12:47 公開日:2023-11-14 |
# 自然言語による人間の判断の再現 Using Natural Language Explanations to Rescale Human Judgments ( http://arxiv.org/abs/2305.14770v2 ) ライセンス: Link先を確認 | Manya Wadhwa, Jifan Chen, Junyi Jessy Li, Greg Durrett | (参考訳) 大規模言語モデル(llm)の台頭は、高品質な人間ラベルデータ、特に人間のフィードバックや評価のようなプロセスに対する重要な要求をもたらした。
一般的なプラクティスは、クラウドワーカーの判断に対してコンセンサスアノテーションを通じてデータをラベル付けることだ。
しかし、主観的タスクに対する注釈者の判断は、例について異なる質的判断を持つ可能性や、異なる方法でラベル付けスキームにマッピングする可能性など、様々な方法で異なる可能性がある。
本稿では,これらのニュアンスを自然言語による説明によって捉えることができ,llmを用いて順序アノテーションや説明をリスケールする方法を提案する。
具体的には、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコアリングルーリックに固定された数値スコアを生成する。
これらのスコアは、アノテーションの例に対する基礎的な評価を反映すべきである。
このルーブリックはアノテーションの後に設計したり修正したりすることができ、本来の誤り分類が考案された時点では知られていなかったような区別も含む。
我々は,LLMが人間に近い性能を達成できる文書地上質問応答タスクにおいて,評価システム出力の文脈において,我々の手法を探求する。
提案手法は,生の判断を合意に影響を与えずに再スケールし,同じスコアルブリックに接する人間の判断にスコアを近づける。 The rise of large language models (LLMs) has brought a critical need for high-quality human-labeled data, particularly for processes like human feedback and evaluation. A common practice is to label data via consensus annotation over crowdworker judgments. However, annotators' judgments for subjective tasks can differ in many ways: they may have different qualitative judgments about an example, and they may map those to a labeling scheme in different ways. We show that these nuances can be captured by natural language explanations, and propose a method to rescale ordinal annotations and explanations using LLMs. Specifically, we feed annotators' Likert ratings and corresponding explanations into an LLM and prompt it to produce a numeric score anchored in a scoring rubric. These scores should reflect the annotators' underlying assessments of the example. The rubric can be designed or modified after annotation, and include distinctions that may not have been known when the original error taxonomy was devised. We explore our technique in the context of rating system outputs for a document-grounded question answering task, where LLMs achieve near-human performance. Our method rescales the raw judgments without impacting agreement and brings the scores closer to human judgments grounded in the same scoring rubric. | 翻訳日:2023-11-15 19:04:33 公開日:2023-11-14 |
# U-TILISE:光衛星時系列における雲除去系列モデル U-TILISE: A Sequence-to-sequence Model for Cloud Removal in Optical Satellite Time Series ( http://arxiv.org/abs/2305.13277v2 ) ライセンス: Link先を確認 | Corinne Stucker, Vivien Sainte Fare Garnot, Konrad Schindler | (参考訳) 光学スペクトルと赤外線スペクトルの衛星画像時系列は、雲のカバー、雲の影、一時的なセンサーの停止などにより、頻繁なデータギャップに苦しむ。
リモートセンシング研究の長年の課題であり、欠落したピクセル値を最もよく再構成し、完全な雲のない画像シーケンスを得る方法である。
表現学習の観点からこの問題にアプローチし,スペクトル強度の時空間的パターンを暗黙的に捉えることができ,クラウドマストされた入力シーケンスをクラウドフリーな出力シーケンスにマップするように訓練できる効率的な神経モデル u-tilise を開発した。
このモデルは、入力シーケンスの各フレームを潜在エンコーディングにマッピングする畳み込み空間エンコーダと、これらのフレーム単位のエンコード間の依存関係をキャプチャし、時間次元に沿って情報を交換するアテンションベースの時間エンコーダと、潜在埋め込みをマルチスペクトル画像に復号する畳み込み空間デコーダからなる。
本研究では,ヨーロッパ全域で取得したセンチネル-2時系列のデータセットである earthnet2021 について,提案モデルの有効性を実験的に評価した。
通常の補間ベースラインと比較して、PSNRは以前見られた場所で1.8dB、見えない場所では1.3dB増加する。 Satellite image time series in the optical and infrared spectrum suffer from frequent data gaps due to cloud cover, cloud shadows, and temporary sensor outages. It has been a long-standing problem of remote sensing research how to best reconstruct the missing pixel values and obtain complete, cloud-free image sequences. We approach that problem from the perspective of representation learning and develop U-TILISE, an efficient neural model that is able to implicitly capture spatio-temporal patterns of the spectral intensities, and that can therefore be trained to map a cloud-masked input sequence to a cloud-free output sequence. The model consists of a convolutional spatial encoder that maps each individual frame of the input sequence to a latent encoding; an attention-based temporal encoder that captures dependencies between those per-frame encodings and lets them exchange information along the time dimension; and a convolutional spatial decoder that decodes the latent embeddings back into multi-spectral images. We experimentally evaluate the proposed model on EarthNet2021, a dataset of Sentinel-2 time series acquired all over Europe, and demonstrate its superior ability to reconstruct the missing pixels. Compared to a standard interpolation baseline, it increases the PSNR by 1.8 dB at previously seen locations and by 1.3 dB at unseen locations. | 翻訳日:2023-11-15 19:03:51 公開日:2023-11-14 |
# Chip-Chat:会話型ハードウェア設計における課題と機会 Chip-Chat: Challenges and Opportunities in Conversational Hardware Design ( http://arxiv.org/abs/2305.13243v2 ) ライセンス: Link先を確認 | Jason Blocklove and Siddharth Garg and Ramesh Karri and Hammond Pearce | (参考訳) 現代のハードウェア設計は、自然言語で提供される仕様から始まる。
それらがハードウェアエンジニアによって、回路要素を合成する前にVerilogのような適切なハードウェア記述言語(HDL)に変換される。
この翻訳の自動化は、エンジニアリングプロセスからのヒューマンエラーの原因を減らすことができる。
しかし、人工知能(AI)が機械ベースのエンドツーエンドデザイン翻訳の能力を実証したのは、ごく最近のことだ。
openai の chatgpt や google の bard のような商用で使用可能な命令調整型大型言語モデル (llm) は、様々なプログラミング言語でコードを生成することができると主張しているが、ハードウェアでそれを調べる研究はまだ不足している。
そこで本研究では,LLMの最近の進歩を利用したハードウェア設計における課題と機会について考察する。
これらの「会話型」LLMが対話的に使用される場合、実世界のハードウェア制約に従って、ハードウェアエンジニアが新しい8ビットアキュムレータベースのマイクロプロセッサアーキテクチャをLLMで構築するケーススタディを実行する。
その後、我々はプロセッサを130nmのスカイウォーターシャトルでテーパアウトに送った。この「チップチャット」は、私たちが世界で初めてタパアウト用に完全にaiで書いたhdlだと信じていることを意味する。 Modern hardware design starts with specifications provided in natural language. These are then translated by hardware engineers into appropriate Hardware Description Languages (HDLs) such as Verilog before synthesizing circuit elements. Automating this translation could reduce sources of human error from the engineering process. But, it is only recently that artificial intelligence (AI) has demonstrated capabilities for machine-based end-to-end design translations. Commercially-available instruction-tuned Large Language Models (LLMs) such as OpenAI's ChatGPT and Google's Bard claim to be able to produce code in a variety of programming languages; but studies examining them for hardware are still lacking. In this work, we thus explore the challenges faced and opportunities presented when leveraging these recent advances in LLMs for hardware design. Given that these `conversational' LLMs perform best when used interactively, we perform a case study where a hardware engineer co-architects a novel 8-bit accumulator-based microprocessor architecture with the LLM according to real-world hardware constraints. We then sent the processor to tapeout in a Skywater 130nm shuttle, meaning that this `Chip-Chat' resulted in what we believe to be the world's first wholly-AI-written HDL for tapeout. | 翻訳日:2023-11-15 19:03:23 公開日:2023-11-14 |
# 有限一次元多バンドフェルミ系におけるスピン電荷相関 Spin-charge correlations in finite one-dimensional multi-band Fermi systems ( http://arxiv.org/abs/2305.09529v2 ) ライセンス: Link先を確認 | J. M. Becker, G. M. Koutentakis, P. Schmelcher | (参考訳) 複数のバンドが占有される三重井に閉じ込められたスピン1/2フェルミ系のスピン電荷分離について検討する。
有限フェルミオン系は、ホールと反対スピンを持つ不純物フェルミオンにドープされている間、完全なスピン偏極に近いと仮定する。
我々の構成では、異なるバンドの粒子間の強磁性結合が伴い、中間相互作用系における強いスピン-輸送相関が発達する。
相互作用は、スピンの不純物井戸における一重項および三重項スピン配置の縮退性を持ち上げるには十分であるが、一重項状態へのホール誘起磁気励起を禁止するには十分ではない。
強いスピンホール相関にもかかわらず、このシステムはスピンチャージ分解を示し、空間とスピンの自由度を長距離に絡める。 We investigate spin-charge separation of a spin-1/2 Fermi system confined in a triple well where multiple bands are occupied. We assume that our finite fermionic system is close to fully spin polarized while being doped by a hole and an impurity fermion with opposite spin. Our setup involves ferromagnetic couplings among the particles in different bands, leading to the development of strong spin-transport correlations in an intermediate interaction regime. Interactions are then strong enough to lift the degeneracy among singlet and triplet spin configurations in the well of the spin impurity but not strong enough to prohibit hole-induced magnetic excitations to the singlet state. Despite the strong spin-hole correlations, the system exhibits spin-charge deconfinement allowing for long-range entanglement of the spatial and spin degrees of freedom. | 翻訳日:2023-11-15 19:02:59 公開日:2023-11-14 |
# 空間・時間別真空場のゆらぎと放射源の探究 Probing Vacuum Field Fluctuations and Source Radiation Separately in Space and Time ( http://arxiv.org/abs/2305.06387v2 ) ライセンス: Link先を確認 | Frieder Lindel, Alexa Herter, J\'er\^ome Faist, Stefan Yoshi Buhmann | (参考訳) ソース放射(放射反応)と真空場ゆらぎは、自然放出、ラムシフト、カシミール力のようなプロセスに分離できない2つの寄与と見なすことができる。
本稿では,電気光学サンプリング実験において,個別に観測し,その時空構造を明らかにする方法を提案する。
これにより、単一光子レベルで因果関係を実験的に研究し、量子真空における空間的および時間的相関を明らかにすることができる。
時間領域変動散逸定理への接続も行う。 Source radiation (radiation reaction) and vacuum-field fluctuations can be seen as two inseparable contributions to processes such as spontaneous emission, the Lamb shift, or the Casimir force. Here, we propose how they can be individually probed and their space-time structure revealed in electro-optic sampling experiments. This allows to experimentally study causality at the single photon level and to reveal space- and time-like correlations in the quantum vacuum. A connection to the time-domain fluctuation-dissipation theorem is also made. | 翻訳日:2023-11-15 19:02:43 公開日:2023-11-14 |
# 干渉確率分布の公理化 Axiomatization of Interventional Probability Distributions ( http://arxiv.org/abs/2305.04479v2 ) ライセンス: Link先を確認 | Kayvan Sadeghi and Terry Soo | (参考訳) 因果介入は因果推論に不可欠な道具である。
構造因果モデルの場合、do-calculusの規則の下で公理化される。
確率分布の族を異なる種類の介入分布とする単純な公理化を提供する。
Our axiomatizations neatly lead to a simple and clear theory of causality that has several advantages: it does not need to make use of any modeling assumptions such as those imposed by structural causal models; it only relies on interventions on single variables; it includes most cases with latent variables and causal cycles; and more importantly, it does not assume the existence of an underlying true causal graph as we do not take it as the primitive object--in fact, a causal graph is derived as a by-product of our theory.
我々の公理化の下では、介在分布は定義された因果グラフに対するマルコフ分布であり、観測された合同確率分布は得られた因果グラフに対するマルコフ分布であり、これらの結果は構造因果モデルの場合と一致し、その結果、既存の因果推論の理論が適用される。
また, 自然構造因果モデルの大きなクラスが, この理論を満たしていることを示す。
本論文の目的は介入家族の公理化であり、「因果モデリング」とは微妙に異なる点に留意する。 Causal intervention is an essential tool in causal inference. It is axiomatized under the rules of do-calculus in the case of structure causal models. We provide simple axiomatizations for families of probability distributions to be different types of interventional distributions. Our axiomatizations neatly lead to a simple and clear theory of causality that has several advantages: it does not need to make use of any modeling assumptions such as those imposed by structural causal models; it only relies on interventions on single variables; it includes most cases with latent variables and causal cycles; and more importantly, it does not assume the existence of an underlying true causal graph as we do not take it as the primitive object--in fact, a causal graph is derived as a by-product of our theory. We show that, under our axiomatizations, the intervened distributions are Markovian to the defined intervened causal graphs, and an observed joint probability distribution is Markovian to the obtained causal graph; these results are consistent with the case of structural causal models, and as a result, the existing theory of causal inference applies. We also show that a large class of natural structural causal models satisfy the theory presented here. We note that the aim of this paper is axiomatization of interventional families, which is subtly different from "causal modeling." | 翻訳日:2023-11-15 19:02:32 公開日:2023-11-14 |
# unsupervised word sense disambiguationにおける文脈認識意味類似度測定 Context-Aware Semantic Similarity Measurement for Unsupervised Word Sense Disambiguation ( http://arxiv.org/abs/2305.03520v2 ) ライセンス: Link先を確認 | Jorge Martinez-Gil | (参考訳) 単語感覚の曖昧さの問題は、自然言語処理において、この課題に直面するために機械学習モデルを供給するための注釈付きデータが不足しているために、大きな課題となっている。
そのため、注釈付きデータに頼らずにこの課題を克服するために、教師なしの単語認識曖昧化手法が開発されている。
本研究は、文脈情報を類似度測定プロセスに組み込む柔軟なメカニズムを提供する、教師なし単語感覚曖昧化に対する新しい文脈認識アプローチを提案する。
提案手法を評価するために,人気のあるベンチマークデータセットを用いて実験を行い,その性能を教師なし語義不曖昧化手法と比較した。
実験結果から,本手法は曖昧さの精度を大幅に向上させ,既存技術の性能をはるかに上回ることを示す。
本研究は,意味的類似度測定における文脈情報の統合の重要性を明らかにし,教師なしシナリオにおける単語感覚の曖昧さを効果的に管理する。 The issue of word sense ambiguity poses a significant challenge in natural language processing due to the scarcity of annotated data to feed machine learning models to face the challenge. Therefore, unsupervised word sense disambiguation methods have been developed to overcome that challenge without relying on annotated data. This research proposes a new context-aware approach to unsupervised word sense disambiguation, which provides a flexible mechanism for incorporating contextual information into the similarity measurement process. We experiment with a popular benchmark dataset to evaluate the proposed strategy and compare its performance with state-of-the-art unsupervised word sense disambiguation techniques. The experimental results indicate that our approach substantially enhances disambiguation accuracy and surpasses the performance of several existing techniques. Our findings underscore the significance of integrating contextual information in semantic similarity measurements to manage word sense ambiguity in unsupervised scenarios effectively. | 翻訳日:2023-11-15 19:02:15 公開日:2023-11-14 |
# ganonymization: 感情表現を保存するためのganベースの顔匿名化フレームワーク GANonymization: A GAN-based Face Anonymization Framework for Preserving Emotional Expressions ( http://arxiv.org/abs/2305.02143v2 ) ライセンス: Link先を確認 | Fabio Hellmann, Silvan Mertes, Mohamed Benouis, Alexander Hustinx, Tzung-Chien Hsieh, Cristina Conati, Peter Krawitz, Elisabeth Andr\'e | (参考訳) 近年、個人情報の入手が増加し、プライバシーとセキュリティに関する懸念が高まっている。
これらの懸念に対処する重要なプロセスの1つは、個人のプライバシーを保護し、機密情報の公開を防止することを目的とした、データ匿名化である。
本研究は顔の匿名化の重要性に焦点を当てる。
そこで,顔表情保存機能を備えた顔匿名化フレームワークであるGANonymizationを導入する。
本手法は, 顔の高レベル表現に基づいて, 生成的対向ネットワーク(GAN)に基づく匿名化バージョンに合成する。
本手法の有効性を,特定可能な顔属性を除去し,個々の顔の匿名性を高めることにより評価した。
さらに,感情認識データセットで表情保存性能を評価し,ほとんどのカテゴリで最先端の手法を上回った。
最後に,ジュエリー,ヘアカラー,その他複数の顔特徴を除去できる能力について分析した。
ここでは,これらの属性の除去において,信頼性の高い性能を示す。
以上の結果から,顔表情を保ちながら顔の匿名化に期待できるアプローチであることが示唆された。 In recent years, the increasing availability of personal data has raised concerns regarding privacy and security. One of the critical processes to address these concerns is data anonymization, which aims to protect individual privacy and prevent the release of sensitive information. This research focuses on the importance of face anonymization. Therefore, we introduce GANonymization, a novel face anonymization framework with facial expression-preserving abilities. Our approach is based on a high-level representation of a face, which is synthesized into an anonymized version based on a generative adversarial network (GAN). The effectiveness of the approach was assessed by evaluating its performance in removing identifiable facial attributes to increase the anonymity of the given individual face. Additionally, the performance of preserving facial expressions was evaluated on several affect recognition datasets and outperformed the state-of-the-art methods in most categories. Finally, our approach was analyzed for its ability to remove various facial traits, such as jewelry, hair color, and multiple others. Here, it demonstrated reliable performance in removing these attributes. Our results suggest that GANonymization is a promising approach for anonymizing faces while preserving facial expressions. | 翻訳日:2023-11-15 19:01:58 公開日:2023-11-14 |
# quantum mac:本物の絡み合いアクセス制御 Quantum MAC: Genuine Entanglement Access Control ( http://arxiv.org/abs/2305.01276v2 ) ライセンス: Link先を確認 | Jessica Illiano, Marcello Caleffi, Michele Viscardi, Angela Sara Cacciapuoti | (参考訳) 多成分の絡み合いは量子インターネットの設計において重要な役割を担っている。
しかし、絡み合いベースの量子ネットワークでは、絡み合いリソースへのアクセスにおいて量子ノードを適切に処理し調整するための効果的な絡み合いアクセス制御(EAC)戦略が欠如しているため、鍵となる開きが生じる。
本稿では,マルチパーティント・エンタングルド・リソースにアクセスする際の競合問題を解決するために,量子遺伝的エンタングルメント・アクセス制御(EAC)を設計する。
提案された量子ジヌ EAC は以下のことができる。
i) 競合する資源へのアクセスにより付与されたノードのサブセットを適宜選択すること。
二 選択されたノードのアイデンティティのプライバシー及び匿名性を保持すること。
三 旧来のネットワークに絡み合ったアクセス制御によって生じるシグナルを委譲することを避けること。
また,提案EACにおけるノイズ効果の理論的解析を行った。
この理論的解析は、有意なパラメータを通してAECの複雑なノイズ効果を捉えることができる。 Multipartite entanglement plays a crucial role for the design of the Quantum Internet, due to its peculiarities with no classical counterpart. Yet, for entanglement-based quantum networks, a key open issue is constituted by the lack of an effective entanglement access control (EAC) strategy for properly handling and coordinating the quantum nodes in accessing the entangled resource. In this paper, we design a quantum-genuine entanglement access control (EAC) to solve the contention problem arising in accessing a multipartite entangled resource. The proposed quantum-genuine EAC is able to: i) fairly select a subset of nodes granted with the access to the contended resource; ii) preserve the privacy and anonymity of the identities of the selected nodes; iii) avoid to delegate the signaling arising with entanglement access control to the classical network. We also conduct a theoretical analysis of noise effects on the proposed EAC. This theoretical analysis is able to catch the complex noise effects on the EAC through meaningful parameters. | 翻訳日:2023-11-15 19:01:40 公開日:2023-11-14 |
# 倫理的マルチモーダルシステムに向けて Towards ethical multimodal systems ( http://arxiv.org/abs/2304.13765v2 ) ライセンス: Link先を確認 | Alexis Roger, Esma A\"imeur, Irina Rish | (参考訳) ジェネレーティブAIシステム(ChatGPT、DALL-Eなど)は、アートのRombachなど、私たちの生活のさまざまな領域に拡大しています。
2021年]ロブ・モリスとカリーム・コードゥドゥス(2022年)に、その急速な社会的な影響が新たな機会を開く一方で、倫理的な懸念も高まっている。
AIアライメントの新たな分野は、AIシステムが人間の価値を反映することを目指している。
本稿では,テキストと画像の両方を包含するマルチモーダルAIシステムの倫理性を評価することに焦点を当て,ほとんどのアライメント作業が現在,言語モデルに重点を置いている。
倫理性に対する人間のフィードバックから、まずマルチモーダルな倫理的データベースを作成する。
次に,本データベースを用いてロベルタ大分類器と多層パーセプトロンを含むアルゴリズムを開発し,システム応答の倫理性を自動的に評価する。 Generative AI systems (ChatGPT, DALL-E, etc) are expanding into multiple areas of our lives, from art Rombach et al. [2021] to mental health Rob Morris and Kareem Kouddous [2022]; their rapidly growing societal impact opens new opportunities, but also raises ethical concerns. The emerging field of AI alignment aims to make AI systems reflect human values. This paper focuses on evaluating the ethics of multimodal AI systems involving both text and images - a relatively under-explored area, as most alignment work is currently focused on language models. We first create a multimodal ethical database from human feedback on ethicality. Then, using this database, we develop algorithms, including a RoBERTa-large classifier and a multilayer perceptron, to automatically assess the ethicality of system responses. | 翻訳日:2023-11-15 19:01:24 公開日:2023-11-14 |
# YOLOv8アルゴリズムを用いた小児関節外傷X線画像の破壊検出 Fracture Detection in Pediatric Wrist Trauma X-ray Images Using YOLOv8 Algorithm ( http://arxiv.org/abs/2304.05071v5 ) ライセンス: Link先を確認 | Rui-Yang Ju, Weiming Cai | (参考訳) 病院の救急部門では、多くの骨折が頻繁に発生し、そのほとんどが小児手首外傷骨折である。
小児外科医が手術を行う前は,骨折がどのように発生したか患者に質問し,x線像を解釈して骨折状況を分析する必要がある。
X線画像の解釈は、しばしば放射線医と外科医の技法の組み合わせを必要とする。
コンピュータビジョンの分野におけるディープラーニングの台頭に伴い、破壊検出に適用するネットワークモデルが重要な研究課題となっている。
本稿では,公衆データセットである小児手首外傷x線データセット(grazpedwri-dx)におけるyolov8アルゴリズム(最新版は1回しか見ることができない)のモデル性能向上のためにデータ拡張を用いた。
実験結果から,本モデルが平均精度(mAP 50)に到達したことが明らかとなった。
具体的には、我々のモデルのmAP 50は0.638であり、改良されたYOLOv7および元のYOLOv8モデルの0.634および0.636よりも大幅に高い。
小児手関節外傷X線画像の骨折検出に外科医が利用できるように, 手術者の骨折診断を支援し, エラー解析の可能性を低減し, 手術に有用な情報を提供するアプリケーション「YOLOv8 Appを用いたフラクチャー検出」を設計した。 Hospital emergency departments frequently receive lots of bone fracture cases, with pediatric wrist trauma fracture accounting for the majority of them. Before pediatric surgeons perform surgery, they need to ask patients how the fracture occurred and analyze the fracture situation by interpreting X-ray images. The interpretation of X-ray images often requires a combination of techniques from radiologists and surgeons, which requires time-consuming specialized training. With the rise of deep learning in the field of computer vision, network models applying for fracture detection has become an important research topic. In this paper, we use data augmentation to improve the model performance of YOLOv8 algorithm (the latest version of You Only Look Once) on a pediatric wrist trauma X-ray dataset (GRAZPEDWRI-DX), which is a public dataset. The experimental results show that our model has reached the state-of-the-art (SOTA) mean average precision (mAP 50). Specifically, mAP 50 of our model is 0.638, which is significantly higher than the 0.634 and 0.636 of the improved YOLOv7 and original YOLOv8 models. To enable surgeons to use our model for fracture detection on pediatric wrist trauma X-ray images, we have designed the application "Fracture Detection Using YOLOv8 App" to assist surgeons in diagnosing fractures, reducing the probability of error analysis, and providing more useful information for surgery. | 翻訳日:2023-11-15 19:00:53 公開日:2023-11-14 |
# SketchFFusion:拡散モデルによるスケッチ誘導画像編集 SketchFFusion: Sketch-guided image editing with diffusion model ( http://arxiv.org/abs/2304.03174v3 ) ライセンス: Link先を確認 | Weihang Mao, Bo Han, Zihao Wang | (参考訳) スケッチ誘導画像編集は、未編集領域の本来の状態を維持しつつ、ユーザが提供するスケッチ情報に基づいて画像の局所的な微調整を実現することを目的としている。
人間のスケッチを取得するコストが高いため、以前の作品はスケッチの代わりにエッジマップに依存していたが、スケッチはより豊かな構造情報を持っている。
本稿では,画像の主輪郭を保存し,ユーザによる実際のスケッチスタイルに忠実なスケッチ生成手法を提案する。
同時に、現在の画像編集手法では、画像歪み、トレーニングコスト、スケッチの細かい詳細の損失といった課題に直面することが多い。
これらの制約に対処するため,スケッチ構造ベクトルに基づく条件拡散モデル(SketchFFusion)を提案する。
モデルの生成性能を評価し,既存の手法より優れていることを示す。 Sketch-guided image editing aims to achieve local fine-tuning of the image based on the sketch information provided by the user, while maintaining the original status of the unedited areas. Due to the high cost of acquiring human sketches, previous works mostly relied on edge maps as a substitute for sketches, but sketches possess more rich structural information. In this paper, we propose a sketch generation scheme that can preserve the main contours of an image and closely adhere to the actual sketch style drawn by the user. Simultaneously, current image editing methods often face challenges such as image distortion, training cost, and loss of fine details in the sketch. To address these limitations, We propose a conditional diffusion model (SketchFFusion) based on the sketch structure vector. We evaluate the generative performance of our model and demonstrate that it outperforms existing methods. | 翻訳日:2023-11-15 19:00:27 公開日:2023-11-14 |
# 拡散に基づく多ターン合成画像生成法 A Diffusion-based Method for Multi-turn Compositional Image Generation ( http://arxiv.org/abs/2304.02192v2 ) ライセンス: Link先を確認 | Chao Wang | (参考訳) マルチターン合成画像生成(M-CIG)は、修正テキストが与えられた参照画像を反復的に操作することを目的とした課題である。
M-CIGの既存の手法のほとんどはGAN(Generative Adversarial Network)に基づいているが、画像生成の最近の進歩は、GANよりも拡散モデルの方が優れていることを示している。
本稿では,画像合成マッチング(CDD-ICM)を用いたM-CIGの拡散に基づく条件付き拡散法を提案する。
画像とテキストエンコーダのバックボーンとしてCLIPを活用し,元来質問応答のためのゲート融合機構を導入し,M-CIGの各ターンで参照画像と修正テキストを合成的に融合させる。
融合結果に基づいて目標画像を生成する条件付きスキームを導入する。
生成した対象画像の意味的品質を優先するために、マルチタスク学習フレームワークにおいて、条件付き雑音拡散(cdd)目標と共に、補助画像合成マッチング(icm)目標を学習する。
また、性能向上のため、ICMガイダンスや分類器フリーガイダンスも実施する。
実験の結果,CDD-ICMはM-CIG,すなわちCoDrawとi-CLEVRの2つのベンチマークデータセットに対して,最先端の結果が得られることがわかった。 Multi-turn compositional image generation (M-CIG) is a challenging task that aims to iteratively manipulate a reference image given a modification text. While most of the existing methods for M-CIG are based on generative adversarial networks (GANs), recent advances in image generation have demonstrated the superiority of diffusion models over GANs. In this paper, we propose a diffusion-based method for M-CIG named conditional denoising diffusion with image compositional matching (CDD-ICM). We leverage CLIP as the backbone of image and text encoders, and incorporate a gated fusion mechanism, originally proposed for question answering, to compositionally fuse the reference image and the modification text at each turn of M-CIG. We introduce a conditioning scheme to generate the target image based on the fusion results. To prioritize the semantic quality of the generated target image, we learn an auxiliary image compositional match (ICM) objective, along with the conditional denoising diffusion (CDD) objective in a multi-task learning framework. Additionally, we also perform ICM guidance and classifier-free guidance to improve performance. Experimental results show that CDD-ICM achieves state-of-the-art results on two benchmark datasets for M-CIG, i.e., CoDraw and i-CLEVR. | 翻訳日:2023-11-15 19:00:12 公開日:2023-11-14 |
# 小型縮退ギャップを用いた高速最大$k$-Plexアルゴリズム Fast Maximum $k$-Plex Algorithms Parameterized by Small Degeneracy Gaps ( http://arxiv.org/abs/2306.13258v3 ) ライセンス: Link先を確認 | Zhengren Wang, Yi Zhou, Chunyu Luo, Mingyu Xiao, Jin-Kao Hao | (参考訳) グラフが与えられたとき、$k$-plex は各頂点が集合内の少なくとも $k-1$ の他の頂点に隣接しない頂点の集合である。
与えられたグラフから最大$k$-plexを求める最大$k$-plex問題は、グラフマイニングやコミュニティ検出といったアプリケーションにおいて、重要ではあるが計算上困難な問題である。
今のところ、実用的なアルゴリズムは数多く存在するが、その効率に関する理論的説明は提供されていない。
入力のインスタンスの新たなパラメータである$g_k(G)$、与えられたグラフの退化境界と最大$k$-plexのサイズの間のギャップを定義し、この$g_k(G)$でパラメータ化された正確なアルゴリズムを示す。
実世界の入力では、$g_k(G)$は非常に小さく、通常$O(\log{(|V|)})$で束縛されている。
さらに、より小さなパラメータである$cg_k(G)$、コミュニティ縮退境界と最大$k$-plexの大きさのギャップまで議論を拡大し、多くの修正がなければ、我々のアルゴリズムは$cg_k(G)$でパラメータ化できることを示す。
これらのアルゴリズムの実証性能を検証するため、我々は、これらのアルゴリズムが最先端のアルゴリズムと競合することを示す広範な実験を行った。
特に15ドルや20ドルといった大きな$k$の場合、我々のアルゴリズムは既存のアルゴリズムを支配しています。
最後に、実験分析を行い、実装におけるパラメータやその他の重要なコンポーネントの有効性を説明する。 Given a graph, a $k$-plex is a set of vertices in which each vertex is not adjacent to at most $k-1$ other vertices in the set. The maximum $k$-plex problem, which asks for the largest $k$-plex from the given graph, is an important but computationally challenging problem in applications such as graph mining and community detection. So far, there are many practical algorithms, but without providing theoretical explanations on their efficiency. We define a novel parameter of the input instance, $g_k(G)$, the gap between the degeneracy bound and the size of the maximum $k$-plex in the given graph, and present an exact algorithm parameterized by this $g_k(G)$, which has a worst-case running time polynomial in the size of the input graph and exponential in $g_k(G)$. In real-world inputs, $g_k(G)$ is very small, usually bounded by $O(\log{(|V|)})$, indicating that the algorithm runs in polynomial time. We further extend our discussion to an even smaller parameter $cg_k(G)$, the gap between the community-degeneracy bound and the size of the maximum $k$-plex, and show that without much modification, our algorithm can also be parameterized by $cg_k(G)$. To verify the empirical performance of these algorithms, we carry out extensive experiments to show that these algorithms are competitive with the state-of-the-art algorithms. In particular, for large $k$ values such as $15$ and $20$, our algorithms dominate the existing algorithms. Finally, empirical analysis is performed to illustrate the effectiveness of the parameters and other key components in the implementation. | 翻訳日:2023-11-15 18:53:27 公開日:2023-11-14 |
# 言語モデルは弱いエージェントに教えることができるか?
教師説明はパーソナライズを通して生徒を改善させる Can Language Models Teach Weaker Agents? Teacher Explanations Improve Students via Personalization ( http://arxiv.org/abs/2306.09299v2 ) ライセンス: Link先を確認 | Swarnadeep Saha, Peter Hase, Mohit Bansal | (参考訳) 説明可能なaiモデルの特徴は、タスクの実行方法に関する知識を伝えながら、他のエージェントに教える能力である。
大規模言語モデルでは, 予測のための説明を生成することで複雑な推論を行うが, 弱いエージェントのための優れた教師も作っているかは定かではない。
そこで我々は,2人のLLMエージェント間の学習者・教師の枠組みを考察し,学生のパフォーマンスを向上させるために,教師が自然言語の説明にどう介入すべきか,いつ,どのように介入すべきかを考察する。
コミュニケーションは費用がかかるため、教師がデータの一部についてのみ説明を伝達するように予算を定め、その後、生徒は単独でうまく行動すべきである。
1)教師の試験時間介入が生徒の予測を改善する場合,(2)データポイントを説明する価値がある場合,(3)教師が説明をパーソナライズして生徒により良い指導を行う方法,(4)教師の解説が将来の説明されていないデータでも生徒を改善させる場合の4つの軸に沿って教師の指導問題を分解する。
まず,教師のLLMが生徒の推論に介入して成績を向上できることを示す。
次に,効果的な教師の心の能力理論に着想を得て,生徒の2つの数発精神モデルを構築することを提案する。
最初のモデルは、介入の効用をシミュレートするインターベンション関数を定義し、このユーティリティが最も高いときに教師が介入できるようにし、低予算での生徒のパフォーマンスを向上させる。
第2のモデルは、教師が特定の生徒の説明をパーソナライズし、個人化されていない教師より優れている。
また,マルチターンインタラクションにおいて,教師の説明が一般化し,説明データから学習することで,学生のパフォーマンスが向上することを示す。
最後に,教師のミスアライメントは,生徒の成績を故意に誤解し,ランダムな機会に低下させることを検証した。 A hallmark property of explainable AI models is the ability to teach other agents, communicating knowledge of how to perform a task. While Large Language Models perform complex reasoning by generating explanations for their predictions, it is unclear whether they also make good teachers for weaker agents. To address this, we consider a student-teacher framework between two LLM agents and study if, when, and how the teacher should intervene with natural language explanations to improve the student's performance. Since communication is expensive, we define a budget such that the teacher only communicates explanations for a fraction of the data, after which the student should perform well on its own. We decompose the teaching problem along four axes: (1) if teacher's test time intervention improve student predictions, (2) when it is worth explaining a data point, (3) how the teacher should personalize explanations to better teach the student, and (4) if teacher explanations also improve students on future unexplained data. We first show that teacher LLMs can indeed intervene on student reasoning to improve their performance. Next, inspired by the Theory of Mind abilities of effective teachers, we propose building two few-shot mental models of the student. The first model defines an Intervention Function that simulates the utility of an intervention, allowing the teacher to intervene when this utility is the highest and improving student performance at lower budgets. The second model enables the teacher to personalize explanations for a particular student and outperform unpersonalized teachers. We also demonstrate that in multi-turn interactions, teacher explanations generalize and learning from explained data improves student performance on future unexplained data. Finally, we verify that misaligned teachers can lower student performance to random chance by intentionally misleading them. | 翻訳日:2023-11-15 18:52:25 公開日:2023-11-14 |
# starss23: 音響イベントの時空間的注釈付き実シーンの空間的記録の視聴覚データセット STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events ( http://arxiv.org/abs/2306.09126v2 ) ライセンス: Link先を確認 | Kazuki Shimada, Archontis Politis, Parthasaarathy Sudarsanam, Daniel Krause, Kengo Uchida, Sharath Adavanne, Aapo Hakala, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Tuomas Virtanen, Yuki Mitsufuji | (参考訳) マイクアレイに記録された多チャンネルオーディオデータから音のイベントの到着方向(doa)が推定されるのに対し、音のイベントは通常、視覚的に知覚可能な音源オブジェクト(例えば、歩行者の足元から足跡の音)に由来する。
本稿では,多チャンネル音声と映像情報を用いて対象音声イベントの時間的活性化とdoaを推定するseld(audio-visual sound event localization and detection)タスクを提案する。
音声-視覚suldシステムは、マイクロホンアレイからの信号と音声-視覚対応を使用して音声イベントを検出およびローカライズすることができる。
また、マイクロホンアレイ、ビデオデータ、時空間音の時空間アノテーションで記録されたマルチチャンネルオーディオデータからなる音声-視覚データセット、Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23)を導入する。
STARSS23の音声シーンは、参加者が適切な活動と音のイベントの発生を確実にするための指示と共に記録される。
STARSS23はまた、モーションキャプチャーシステムの追跡結果に基づいて、人間の注釈付き時間活性化ラベルと人間確認DOAラベルも提供する。
評価の結果,音声・視覚SELDタスクにおける視覚的物体位置の利点が示された。
データはhttps://zenodo.org/record/7880637で入手できる。 While direction of arrival (DOA) of sound events is generally estimated from multichannel audio data recorded in a microphone array, sound events usually derive from visually perceptible source objects, e.g., sounds of footsteps come from the feet of a walker. This paper proposes an audio-visual sound event localization and detection (SELD) task, which uses multichannel audio and video information to estimate the temporal activation and DOA of target sound events. Audio-visual SELD systems can detect and localize sound events using signals from a microphone array and audio-visual correspondence. We also introduce an audio-visual dataset, Sony-TAu Realistic Spatial Soundscapes 2023 (STARSS23), which consists of multichannel audio data recorded with a microphone array, video data, and spatiotemporal annotation of sound events. Sound scenes in STARSS23 are recorded with instructions, which guide recording participants to ensure adequate activity and occurrences of sound events. STARSS23 also serves human-annotated temporal activation labels and human-confirmed DOA labels, which are based on tracking results of a motion capture system. Our benchmark results demonstrate the benefits of using visual object positions in audio-visual SELD tasks. The data is available at https://zenodo.org/record/7880637. | 翻訳日:2023-11-15 18:51:51 公開日:2023-11-14 |
# 国家間における市民不安の相転移と時間的変化 Phase Transitions of Civil Unrest across Countries and Time ( http://arxiv.org/abs/2306.08698v4 ) ライセンス: Link先を確認 | Dan Braha | (参考訳) 組織のマクロなパターン間の急激なシフトを特徴とする相転移は、複雑なシステムにおいてユビキタスである。
物理科学や自然科学の研究は多いが、社会システムにおけるこの現象の実証的研究は比較的未発達である。
本研究の目的は,集団的市民不安のダイナミクスが,再帰的位相シフトの系列として,各フェーズが測定可能かつ識別可能な潜在性を有することを明らかにすることにある。
1946年から2017年までの170か国における市民不安の包括的データセットを用いて,市民不安のマクロレベルの統計モデルを導入し,その妥当性を評価する。
以上の結果から,マクロレベルの位相モデルは,世界各国の市民不安データの特徴を効果的に捉え,普遍的なメカニズムは市民不安のダイナミクスの特定の側面を裏付ける可能性がある。
また,国家の時間単位当たりの長期的不安を定量化するための尺度を導入し,特定の地域に集中して,市民的不安事象が地理的に集結する傾向があることを示す。
我々のアプローチは、市民の不安を超えた様々な集団の人間の現象の相転移を特定し測定する可能性があり、複雑な社会システムに対するより良い理解に寄与する。 Phase transitions, characterized by abrupt shifts between macroscopic patterns of organization, are ubiquitous in complex systems. Despite considerable research in the physical and natural sciences, the empirical study of this phenomenon in societal systems is relatively underdeveloped. The goal of this study is to explore whether the dynamics of collective civil unrest can be plausibly characterized as a sequence of recurrent phase shifts, with each phase having measurable and identifiable latent characteristics. Building on previous efforts to characterize civil unrest as a self-organized critical system, we introduce a macro-level statistical model of civil unrest and evaluate its plausibility using a comprehensive dataset of civil unrest events in 170 countries from 1946 to 2017. Our findings demonstrate that the macro-level phase model effectively captures the characteristics of civil unrest data from diverse countries globally and that universal mechanisms may underlie certain aspects of the dynamics of civil unrest. We also introduce a scale to quantify a country's long-term unrest per unit of time and show that civil unrest events tend to cluster geographically, with the magnitude of civil unrest concentrated in specific regions. Our approach has the potential to identify and measure phase transitions in various collective human phenomena beyond civil unrest, contributing to a better understanding of complex social systems. | 翻訳日:2023-11-15 18:51:24 公開日:2023-11-14 |
# 離散表現構造を持つ深部生成モデルの不偏学習 Unbiased Learning of Deep Generative Models with Structured Discrete Representations ( http://arxiv.org/abs/2306.08230v2 ) ライセンス: Link先を確認 | Harry Bendekgey, Gabriel Hope and Erik B. Sudderth | (参考訳) グラフィカルモデルとディープラーニングアーキテクチャを組み合わせることで、両方のフレームワークの強みで生成モデルを学びます。
構造化変分オートエンコーダ(SVAE)は、グラフィカルモデルから構造と解釈可能性を受け継ぎ、ディープラーニングから高次元データに柔軟な可能性をもたらすが、かなりの最適化課題が生じる。
本稿では,svaeを学習するための新しいアルゴリズムを提案し,離散的潜在変数を組み込んだデータ欠落時のマルチモーダル不確実性に対処するsvaeの能力を示す。
メモリ効率の高い暗黙差分法により,SVAEは不完全最適化に対して頑健さを示しつつ,勾配降下により学習しやすくなった。
正確なグラフィカルモデルパラメータをより迅速に学習するために,手作業による導出を伴わずに自然勾配を計算する手法を導出する。
これらの最適化の革新はSVAEと最先端の時系列モデルの最初の比較を可能にし、SVAEは解釈可能で構造化された離散データ表現を学習しながら競争的に機能する。 By composing graphical models with deep learning architectures, we learn generative models with the strengths of both frameworks. The structured variational autoencoder (SVAE) inherits structure and interpretability from graphical models, and flexible likelihoods for high-dimensional data from deep learning, but poses substantial optimization challenges. We propose novel algorithms for learning SVAEs, and are the first to demonstrate the SVAE's ability to handle multimodal uncertainty when data is missing by incorporating discrete latent variables. Our memory-efficient implicit differentiation scheme makes the SVAE tractable to learn via gradient descent, while demonstrating robustness to incomplete optimization. To more rapidly learn accurate graphical model parameters, we derive a method for computing natural gradients without manual derivations, which avoids biases found in prior work. These optimization innovations enable the first comparisons of the SVAE to state-of-the-art time series models, where the SVAE performs competitively while learning interpretable and structured discrete data representations. | 翻訳日:2023-11-15 18:51:01 公開日:2023-11-14 |
# 最終層インバージョンによる生成モデルの単一モデル属性 Single-Model Attribution of Generative Models Through Final-Layer Inversion ( http://arxiv.org/abs/2306.06210v3 ) ライセンス: Link先を確認 | Mike Laszkiewicz, Jonas Ricker, Johannes Lederer, Asja Fischer | (参考訳) 生成モデリングの最近の進歩は、実用的な単一モデル属性への関心を喚起している。
このような方法は、サンプルが特定のジェネレータによって生成されたかどうかを予測し、例えば知的財産の盗難を証明する。
しかし、以前の作品はクローズドワールドの設定に限られるか、生成モデルに望ましくない変更を必要とする。
まず,異常検出レンズを通して単一モデルの帰属を見ることにより,これらの欠点を解消する。
この観点から,最終層反転と異常検出に基づくオープンワールド環境における単一モデル属性に対する新しいアプローチであるFLIPADを提案する。
得られた最終層インバージョンを凸ラッソ最適化問題に還元し,理論的に健全で計算効率がよいことを示す。
理論的な知見は,提案手法の有効性と様々な領域への柔軟性を実証した実験的研究に付随する。 Recent breakthroughs in generative modeling have sparked interest in practical single-model attribution. Such methods predict whether a sample was generated by a specific generator or not, for instance, to prove intellectual property theft. However, previous works are either limited to the closed-world setting or require undesirable changes to the generative model. We address these shortcomings by, first, viewing single-model attribution through the lens of anomaly detection. Arising from this change of perspective, we propose FLIPAD, a new approach for single-model attribution in the open-world setting based on final-layer inversion and anomaly detection. We show that the utilized final-layer inversion can be reduced to a convex lasso optimization problem, making our approach theoretically sound and computationally efficient. The theoretical findings are accompanied by an experimental study demonstrating the effectiveness of our approach and its flexibility to various domains. | 翻訳日:2023-11-15 18:50:41 公開日:2023-11-14 |
# ギブズに基づく情報基準と過度パラメータ化レジーム Gibbs-Based Information Criteria and the Over-Parameterized Regime ( http://arxiv.org/abs/2306.05583v2 ) ライセンス: Link先を確認 | Haobo Chen, Yuheng Bu and Gregory W. Wornell | (参考訳) ダブルディフレッシュ(Double-descent)とは、標準的な漸近的アプローチの限界により古典的な形式における情報基準によって予測されない、過パラメータ化による補間しきい値を超えた学習アルゴリズムのテスト損失の予想外の減少を指す。
これらの分析を情報リスク最小化フレームワークを用いて更新し,gibbsアルゴリズムで学習したモデルに対してakaike information criterion (aic) と bayesian information criterion (bic) を提供する。
特に、ギブスに基づくAICとBICの罰則は、特定の情報手段、すなわち、対称性のあるKL情報とKLの発散に対応する。
この情報理論解析を2つの異なるgibbsベースのbicsを提供して、パラメータの$p$とサンプルの$n$が無限大になりがちで固定化された状態におけるランダム特徴モデルの限界可能性を計算することによって、過剰パラメータモデルに拡張する。
以上の結果から,gibbsベースのbicは,高次元モデルを選択し,過度にパラメータ化された体制における周縁確率と人口リスクのミスマッチを明らかにした。 Double-descent refers to the unexpected drop in test loss of a learning algorithm beyond an interpolating threshold with over-parameterization, which is not predicted by information criteria in their classical forms due to the limitations in the standard asymptotic approach. We update these analyses using the information risk minimization framework and provide Akaike Information Criterion (AIC) and Bayesian Information Criterion (BIC) for models learned by the Gibbs algorithm. Notably, the penalty terms for the Gibbs-based AIC and BIC correspond to specific information measures, i.e., symmetrized KL information and KL divergence. We extend this information-theoretic analysis to over-parameterized models by providing two different Gibbs-based BICs to compute the marginal likelihood of random feature models in the regime where the number of parameters $p$ and the number of samples $n$ tend to infinity, with $p/n$ fixed. Our experiments demonstrate that the Gibbs-based BIC can select the high-dimensional model and reveal the mismatch between marginal likelihood and population risk in the over-parameterized regime, providing new insights to understand double-descent. | 翻訳日:2023-11-15 18:50:25 公開日:2023-11-14 |
# 事前学習表現における拡散冗長性 Diffused Redundancy in Pre-trained Representations ( http://arxiv.org/abs/2306.00183v3 ) ライセンス: Link先を確認 | Vedant Nanda, Till Speicher, John P. Dickerson, Soheil Feizi, Krishna P. Gummadi, Adrian Weller | (参考訳) 大規模なデータセット上でニューラルネットワークを事前トレーニングすることで学んだ表現は、さまざまな下流タスクの実行に成功している。
本研究では,事前学習された表現で機能がどのようにエンコードされるのかを詳細に検討する。
閾値サイズよりも大きい層内のニューロンのランダムに選択されたサブセットは、全層と大きな類似度を持ち、様々な下流タスクで層全体と同様に実行することができる。
例えば、ImageNet1kで事前トレーニングされたResNet50の最後層からランダムに選択されたニューロンの20ドル%でトレーニングされた線形プローブは、下流のCIFAR10分類のためにニューロンの全層でトレーニングされた線形プローブの5ドル以内の精度を達成する。
我々は、ImageNet1kとImageNet21kの両方で事前訓練された異なるニューラルネットワーク(CNNとTransformersを含む)の実験を行い、VTABベンチマークから取得したさまざまな下流タスクを評価する。
プレトレーニング中に使用される損失とデータセットは、主に拡散冗長性の程度と、必要なニューロンの「臨界質量」が下流のタスクに依存することが判明し、タスクに依存しない冗長性パフォーマンスのparetoフロンティアが存在することを示唆した。
その結果,事前学習したディープニューラルネットワークで学習された表現の性質が明らかとなり,ダウンストリームタスクの実行には全層が必要でない可能性が示唆された。
下流タスクの効率的な一般化を実現するために,この冗長性を活用する可能性を検討するとともに,意図しない結果に注意を喚起する。
私たちのコードは \url{https://github.com/nvedant07/diffused-redundancy} で利用可能です。 Representations learned by pre-training a neural network on a large dataset are increasingly used successfully to perform a variety of downstream tasks. In this work, we take a closer look at how features are encoded in such pre-trained representations. We find that learned representations in a given layer exhibit a degree of diffuse redundancy, ie, any randomly chosen subset of neurons in the layer that is larger than a threshold size shares a large degree of similarity with the full layer and is able to perform similarly as the whole layer on a variety of downstream tasks. For example, a linear probe trained on $20\%$ of randomly picked neurons from the penultimate layer of a ResNet50 pre-trained on ImageNet1k achieves an accuracy within $5\%$ of a linear probe trained on the full layer of neurons for downstream CIFAR10 classification. We conduct experiments on different neural architectures (including CNNs and Transformers) pre-trained on both ImageNet1k and ImageNet21k and evaluate a variety of downstream tasks taken from the VTAB benchmark. We find that the loss and dataset used during pre-training largely govern the degree of diffuse redundancy and the "critical mass" of neurons needed often depends on the downstream task, suggesting that there is a task-inherent redundancy-performance Pareto frontier. Our findings shed light on the nature of representations learned by pre-trained deep neural networks and suggest that entire layers might not be necessary to perform many downstream tasks. We investigate the potential for exploiting this redundancy to achieve efficient generalization for downstream tasks and also draw caution to certain possible unintended consequences. Our code is available at \url{https://github.com/nvedant07/diffused-redundancy}. | 翻訳日:2023-11-15 18:50:00 公開日:2023-11-14 |
# 薬物・標的相互作用予測における信頼度測定のための因果介入 Causal Intervention for Measuring Confidence in Drug-Target Interaction Prediction ( http://arxiv.org/abs/2306.00041v2 ) ライセンス: Link先を確認 | Wenting Ye, Chen Li, Yang Xie, Wen Zhang, Hong-Yu Zhang, Bowen Wang, Debo Cheng, Zaiwen Feng | (参考訳) 薬物と標的の相互作用(DTI)の同定と発見は、薬物の発見と開発において重要なステップである。
彼らは、新薬の発見と薬物開発プロセスの促進に科学者を支援する重要な役割を担っている。
近年,知識グラフと知識グラフ埋め込み (KGE) モデルが急速に進歩し,薬物発見における顕著な性能を示した。
しかし、これらのモデルには薬物標的同定の信頼性と精度が欠如しており、誤判定率の増加と薬物開発効率の低下につながっている。
これらの問題に対処するため,我々は知識マッピングを基本技術として,薬物と標的の相互作用の問題に焦点をあてる。
具体的には,三重項スコアの評価に因果的介入に基づく信頼度尺度を用い,薬物と標的の相互作用予測モデルの精度を向上させる。
実験の結果, 因果的介入に基づく信頼度測定手法は, 特に高精度モデルにおいて, dtiリンク予測の精度を著しく向上できることがわかった。
予測結果は、その後の薬物開発実験の設計と開発を導く上でより有用であり、薬物開発効率を著しく向上させる。 Identifying and discovering drug-target interactions(DTIs) are vital steps in drug discovery and development. They play a crucial role in assisting scientists in finding new drugs and accelerating the drug development process. Recently, knowledge graph and knowledge graph embedding (KGE) models have made rapid advancements and demonstrated impressive performance in drug discovery. However, such models lack authenticity and accuracy in drug target identification, leading to an increased misjudgment rate and reduced drug development efficiency. To address these issues, we focus on the problem of drug-target interactions, with knowledge mapping as the core technology. Specifically, a causal intervention-based confidence measure is employed to assess the triplet score to improve the accuracy of the drug-target interaction prediction model. Experimental results demonstrate that the developed confidence measurement method based on causal intervention can significantly enhance the accuracy of DTI link prediction, particularly for high-precision models. The predicted results are more valuable in guiding the design and development of subsequent drug development experiments, thereby significantly improving the efficiency of drug development. | 翻訳日:2023-11-15 18:49:31 公開日:2023-11-14 |
# 量子回転角の確率的補間 Probabilistic Interpolation of Quantum Rotation Angles ( http://arxiv.org/abs/2305.19881v2 ) ライセンス: Link先を確認 | B\'alint Koczor, John Morton, Simon Benjamin | (参考訳) 量子コンピューティングはゲート演算の普遍的な集合を必要とし、ゲートを回転として、任意の回転角が可能である必要がある。
しかし、実際のデバイスは解像度がb$bit、つまり特定の物理ゲートの2^b$のバリエーションしかサポートできないかもしれない。
アルゴリズムのゲートを最寄りのオプションに識別することはコヒーレントなエラーを引き起こすが、許容できないゲートをいくつかの操作に分解すると回路深さが増加する。
逆に、高いB$を要求すると、ハードウェアが複雑になる。
ここでは、確率的角度補間 (probabilistic angle interpolation:pai) という別の方法を検討する。
これにより、3つの離散ゲート設定のうちの1つをランダムに選択し、個々の回路出力を後処理することで、任意の所望のパラメトリス回転を効果的に実装する。
このアプローチは、期待値の推定のために多くの回路実行の実行を平均して行うような、短期的なアプリケーションにおいて特に重要となる。
PAIはサンプリングコストを増大させるが、a) PAIが最小限のオーバーヘッドを達成するという意味では最適であること、c) オーバーヘッドは数千のパラメトリドゲートとわずか7$の解像度を持つにもかかわらず驚くほど穏やかである。
これは、第1世代の量子コンピュータが5~6ドルの解像度でも十分である場合、エンジニアリング要件の大幅な緩和であり、我々が示すように、このアプローチは、以前の技術よりも数桁効率が良い。
さらに、より成熟したNISQハードウェアであっても、9ドル以上のビットは必要ないと結論付けています。 Quantum computing requires a universal set of gate operations; regarding gates as rotations, any rotation angle must be possible. However a real device may only be capable of $B$ bits of resolution, i.e. it might support only $2^B$ possible variants of a given physical gate. Naive discretization of an algorithm's gates to the nearest available options causes coherent errors, while decomposing an impermissible gate into several allowed operations increases circuit depth. Conversely, demanding higher $B$ can greatly complexify hardware. Here we explore an alternative: Probabilistic Angle Interpolation (PAI). This effectively implements any desired, continuously parametrised rotation by randomly choosing one of three discretised gate settings and postprocessing individual circuit outputs. The approach is particularly relevant for near-term applications where one would in any case average over many runs of circuit executions to estimate expected values. While PAI increases that sampling cost, we prove that a) the approach is optimal in the sense that PAI achieves the least possible overhead and c) the overhead is remarkably modest even with thousands of parametrised gates and only $7$ bits of resolution available. This is a profound relaxation of engineering requirements for first generation quantum computers where even $5-6$ bits of resolution may suffice and, as we demonstrate, the approach is many orders of magnitude more efficient than prior techniques. Moreover we conclude that, even for more mature late-NISQ hardware, no more than $9$ bits will be necessary. | 翻訳日:2023-11-15 18:49:13 公開日:2023-11-14 |
# 不均一な相互影響下で因果効果を推測する Inferring Causal Effects Under Heterogeneous Peer Influence ( http://arxiv.org/abs/2305.17479v2 ) ライセンス: Link先を確認 | Shishir Adhikari, Elena Zheleva | (参考訳) ネットワークにおける因果推論は、ユニットの結果がピアの処置や結果に影響されたときに発生する干渉を考慮すべきである。
ヘテロジニアス・ピア・インフルエンス(hpi)は、ユニットの成果が、その属性や関係に基づいて異なるピアによって異なる影響を受ける場合や、各ユニットがピア・インフルエンスに対する感受性が異なる場合に発生する。
干渉下で直接因果効果を推定する既存の解は、ピアからの均一な影響または特定の異種影響機構(例えば、局所的な近傍構造に基づく)を考察する。
本稿では,影響機構が未知なhpiの存在下での個別の直接因果効果を推定する手法を提案する。
本稿では,ネットワーク構造,干渉条件,因果関係に関する様々な仮定を把握し,HPIの存在下での識別可能性に関する推論を可能にするネットワークの構造因果モデルを提案する。
因果モデルを用いて、潜在的な異種コンテキストを見つけ、個々の因果効果を推定する新しいグラフニューラルネットワークに基づく推定器を提案する。
個人直接効果推定のための最先端手法は,HPIの存在下でバイアスのある結果をもたらし,提案手法は頑健であることを示す。 Causal inference in networks should account for interference, which occurs when a unit's outcome is influenced by treatments or outcomes of peers. Heterogeneous peer influence (HPI) occurs when a unit's outcome is influenced differently by different peers based on their attributes and relationships, or when each unit has a different susceptibility to peer influence. Existing solutions to estimating direct causal effects under interference consider either homogeneous influence from peers or specific heterogeneous influence mechanisms (e.g., based on local neighborhood structure). This paper presents a methodology for estimating individual direct causal effects in the presence of HPI where the mechanism of influence is not known a priori. We propose a structural causal model for networks that can capture different possible assumptions about network structure, interference conditions, and causal dependence and enables reasoning about identifiability in the presence of HPI. We find potential heterogeneous contexts using the causal model and propose a novel graph neural network-based estimator to estimate individual direct causal effects. We show that state-of-the-art methods for individual direct effect estimation produce biased results in the presence of HPI, and that our proposed estimator is robust. | 翻訳日:2023-11-15 18:48:46 公開日:2023-11-14 |
# 補完的・統合的健康辞書(CIHLex)と文献におけるエンティティ認識 Complementary and Integrative Health Lexicon (CIHLex) and Entity Recognition in the Literature ( http://arxiv.org/abs/2305.17353v2 ) ライセンス: Link先を確認 | Huixue Zhou, Robin Austin, Sheng-Chieh Lu, Greg Silverman, Yuqi Zhou, Halil Kilicoglu, Hua Xu, Rui Zhang | (参考訳) 目的:本研究は,標準用語における身体的・心理的なCIHアプローチをより良く表現するために,完全補完・統合健康(CIHLex)レキシコンを構築することを目的とした。
また,トランスフォーマー(BERT)による双方向エンコーダ表現や,エンティティ認識のためのGPT-3.5 Turboといった,高度な自然言語処理(NLP)モデルの適用を意図し,メタマップやCLAMPといった既存のモデルに対して性能評価を行った。
資料と方法: 様々な資源を統合し, バイオメディカル文献や関連知識ベースからのデータをコンパイルし, 統合することでCIHLexを構築した。
Lexiconは198のユニークな概念と1090のユニークな用語を含んでいる。
これらの概念をUMLS(Unified Medical Language System)と比較した。
さらに,BERTモデルを開発し,その効率をMetaMap,CLAMP,GPT3.5-turboといった他のモデルと比較した。
結果: CIHLexの198のユニークな概念から、62.1%はUMLSの少なくとも1つの用語と一致する。
さらに、地図化されたUMLS概念の75.7%が「治療的または予防的手続き」に分類された。
CIHのエンティティ認識に適用されたモデルのうち、BLUEBERTはマクロ平均F1スコアが0.90で、他のモデルを上回った。
結論:CIHLexは生医学文献におけるCIHアプローチの表現を著しく増強する。
BERTは高度なNLPモデルの実用性を実証し、特にCIHエンティティ認識に優れていた。
これらの結果は,生物医学的文脈におけるCIH用語の標準化と認識を促進するための有望な戦略を強調した。 Objective: Our study aimed to construct an exhaustive Complementary and Integrative Health (CIH) Lexicon (CIHLex) to better represent the often underrepresented physical and psychological CIH approaches in standard terminologies. We also intended to apply advanced Natural Language Processing (NLP) models such as Bidirectional Encoder Representations from Transformers (BERT) and GPT-3.5 Turbo for CIH named entity recognition, evaluating their performance against established models like MetaMap and CLAMP. Materials and Methods: We constructed the CIHLex by integrating various resources, compiling and integrating data from biomedical literature and relevant knowledge bases. The Lexicon encompasses 198 unique concepts with 1090 corresponding unique terms. We matched these concepts to the Unified Medical Language System (UMLS). Additionally, we developed and utilized BERT models and compared their efficiency in CIH named entity recognition to that of other models such as MetaMap, CLAMP, and GPT3.5-turbo. Results: From the 198 unique concepts in CIHLex, 62.1% could be matched to at least one term in the UMLS. Moreover, 75.7% of the mapped UMLS Concept Unique Identifiers (CUIs) were categorized as "Therapeutic or Preventive Procedure." Among the models applied to CIH named entity recognition, BLUEBERT delivered the highest macro average F1-score of 0.90, surpassing other models. Conclusion: Our CIHLex significantly augments representation of CIH approaches in biomedical literature. Demonstrating the utility of advanced NLP models, BERT notably excelled in CIH entity recognition. These results highlight promising strategies for enhancing standardization and recognition of CIH terminology in biomedical contexts. | 翻訳日:2023-11-15 18:48:24 公開日:2023-11-14 |
# ゼロショットおよびマイショットインテント分類のための事前学習インテントアウェアエンコーダ Pre-training Intent-Aware Encoders for Zero- and Few-Shot Intent Classification ( http://arxiv.org/abs/2305.14827v2 ) ライセンス: Link先を確認 | Mujeen Sung, James Gung, Elman Mansimov, Nikolaos Pappas, Raphael Shu, Salvatore Romeo, Yi Zhang, Vittorio Castelli | (参考訳) Intent Classification (IC) はタスク指向対話システムにおいて重要な役割を果たす。
しかし、ICモデルは、各ユーザ意図に対して十分なアノテート例のないトレーニングでは、よく一般化されない。
本稿では,テキストエンコーダのための新しい事前学習法を提案する。icタスクに適した組込みを生成するために,インテントpsuedoラベルを用いたコントラスト学習を用いて,手動アノテーションの必要性を低減させる。
この事前学習戦略を適用することで、発話のエンコーディングを意図した名前と整合させるPIE(Pre-trained Intent-aware Encoder)も導入する。
具体的には、まずタグをトレーニングし、意図の解釈に不可欠な発話中のキーフレーズを識別する。
次に、抽出したフレーズを用いて、コントラスト的な方法でテキストエンコーダを事前学習する例を作成する。
その結果,4つのicデータセットのn-way zero-およびone-shot設定における従来の最先端テキストエンコーダよりも最大5.4%,4.0%高い精度が得られる。 Intent classification (IC) plays an important role in task-oriented dialogue systems. However, IC models often generalize poorly when training without sufficient annotated examples for each user intent. We propose a novel pre-training method for text encoders that uses contrastive learning with intent psuedo-labels to produce embeddings that are well-suited for IC tasks, reducing the need for manual annotations. By applying this pre-training strategy, we also introduce Pre-trained Intent-aware Encoder (PIE), which is designed to align encodings of utterances with their intent names. Specifically, we first train a tagger to identify key phrases within utterances that are crucial for interpreting intents. We then use these extracted phrases to create examples for pre-training a text encoder in a contrastive manner. As a result, our PIE model achieves up to 5.4% and 4.0% higher accuracy than the previous state-of-the-art text encoder for the N-way zero- and one-shot settings on four IC datasets. | 翻訳日:2023-11-15 18:47:56 公開日:2023-11-14 |
# 表面強化ラマン散乱(SERS)におけるコヒーレント電子-電子相互作用 Coherent electron-vibron interactions in Surface-Enhanced Raman Scattering (SERS) ( http://arxiv.org/abs/2307.16859v2 ) ライセンス: Link先を確認 | Miguel A. Mart\'inez-Garc\'ia and Diego Mart\'in-Cano | (参考訳) 本研究では、オフ共鳴または共鳴サーの標準光力学モデルを超えて寄与する近共振および非共振電子準位間のコヒーレント電子-ビブロン相互作用を同定する。
第1の分子相互作用原理を用いてオープンシステム量子モデルを開発することにより、共鳴と非共鳴の両方の寄与に対するラマン干渉が、かつての光学的モデルや蛍光背景に関するSERSピークの桁違いの修正をいかに行うかを示す。
この協調光力学機構は、ストークスとアンチストークス光子の間の非古典光子対相関の強化を可能にし、光子計数測定によって検出することができる。
この結果は,SERSスペクトルからの光学的寄与の標準推定と,その量子力学的可観測効果に大きな影響を及ぼすコヒーレントな性質の強化と抑制を示す。 In this work we identify coherent electron-vibron interactions between near-resonant and non-resonant electronic levels that contribute beyond standard optomechanical models for off-resonant or resonance SERS. By developing an open-system quantum model using first molecular interaction principles, we show how the Raman interference of both resonant and non-resonant contributions can provide several orders of magnitude modifications of the SERS peaks with respect to former optomechanical models and over the fluorescence backgrounds. This cooperative optomechanical mechanism allows for generating an enhancement of nonclassical photon pair correlations between Stokes and anti-Stokes photons, which can be detected by photon-counting measurements. Our results demonstrate Raman enhancements and suppressions of coherent nature that significantly impact the standard estimations of the optomechanical contribution from SERS spectra and their quantum mechanical observable effects. | 翻訳日:2023-11-15 18:40:45 公開日:2023-11-14 |
# 医用画像における不確かさ定量化のための潜在密度セグメンテーションモデルの検討と改善 Investigating and Improving Latent Density Segmentation Models for Aleatoric Uncertainty Quantification in Medical Imaging ( http://arxiv.org/abs/2307.16694v3 ) ライセンス: Link先を確認 | M. M. Amaan Valiuddin, Christiaan G. A. Viviers, Ruud J. G. van Sloun, Peter H. N. de With, and Fons van der Sommen | (参考訳) センサノイズやオクルージョンのようなデータの不確実性は、画像に既約曖昧性を導入し、その結果、様々な、しかしもっとも妥当なセマンティック仮説をもたらす。
機械学習では、この曖昧さは一般にアレタリック不確実性と呼ばれる。
潜在密度モデルは、画像分割におけるこの問題に対処するために利用できる。
最も一般的なアプローチは確率的u-net(pu-net)で、潜在正規密度を使って条件付きデータログライクな証拠を低限界に最適化する。
本研究ではPU-Net潜伏空間が極めて不均質であることを示す。
その結果, 勾配降下の有効性が抑制され, 潜在空間試料の局在に極めて敏感となり, 予測の欠陥が生じる。
そこで本研究では,Sinkhorn PU-Net (SPU-Net) を提案する。Sinkhorn Divergence を用いて,すべての潜伏次元の均一性を向上し,勾配の更新とモデルロバストネスを効果的に向上する。
以上の結果から,SPU-Netは,様々な臨床セグメント化問題の公開データセットにこれを適用することで,ハンガリー・マーチ計量の確率的セグメンテーションに先行する潜在変数モデルと比較して,最大11%の性能向上を達成できた。
その結果,均質な潜在空間を奨励することで,医用画像分割の潜在密度モデリングを著しく改善できることが示唆された。 Data uncertainties, such as sensor noise or occlusions, can introduce irreducible ambiguities in images, which result in varying, yet plausible, semantic hypotheses. In Machine Learning, this ambiguity is commonly referred to as aleatoric uncertainty. Latent density models can be utilized to address this problem in image segmentation. The most popular approach is the Probabilistic U-Net (PU-Net), which uses latent Normal densities to optimize the conditional data log-likelihood Evidence Lower Bound. In this work, we demonstrate that the PU- Net latent space is severely inhomogenous. As a result, the effectiveness of gradient descent is inhibited and the model becomes extremely sensitive to the localization of the latent space samples, resulting in defective predictions. To address this, we present the Sinkhorn PU-Net (SPU-Net), which uses the Sinkhorn Divergence to promote homogeneity across all latent dimensions, effectively improving gradient-descent updates and model robustness. Our results show that by applying this on public datasets of various clinical segmentation problems, the SPU-Net receives up to 11% performance gains compared against preceding latent variable models for probabilistic segmentation on the Hungarian-Matched metric. The results indicate that by encouraging a homogeneous latent space, one can significantly improve latent density modeling for medical image segmentation. | 翻訳日:2023-11-15 18:40:27 公開日:2023-11-14 |
# iotデバイスと機械学習を用いた産業機械の異常検出:体系的マッピング Anomaly Detection in Industrial Machinery using IoT Devices and Machine Learning: a Systematic Mapping ( http://arxiv.org/abs/2307.15807v2 ) ライセンス: Link先を確認 | S\'ergio F. Chevtchenko, Elisson da Silva Rocha, Monalisa Cristina Moura Dos Santos, Ricardo Lins Mota, Diego Moura Vieira, Ermeson Carneiro de Andrade, Danilo Ricardo Barbosa de Ara\'ujo | (参考訳) 異常検出はスマート産業において、機器故障の防止、ダウンタイムの低減、安全性の向上に不可欠である。
IoT(Internet of Things)は、産業機械からの大量のデータ収集を可能にし、異常検出のための豊富な情報ソースを提供する。
しかし、モノのインターネットによって生成されるデータの量と複雑さは、人間が手動で異常を検出するのを困難にしている。
機械学習(ML)アルゴリズムは、生成されたデータを分析して、産業機械の異常検出を自動化する。
さらに、それぞれのテクニックには、データの性質と対応するシステムに基づいて、特定の強みと弱みがある。
しかし、現在の異常検出に関する体系的マッピング研究は、主にネットワークやサイバーセキュリティ関連の問題に焦点をあてており、産業部門への注意が限定されている。
さらに、これらの研究は、IoTエコシステムのコンテキスト内で産業機械の異常検出にMLを使用する際の課題をカバーしていない。
本稿では,IoTデバイスとMLアルゴリズムを用いた産業機械の異常検出の系統的マッピングを行い,このギャップに対処する。
この研究は、2016年から2023年までの84の関連研究を包括的に評価し、異常検出研究の広範なレビューを提供する。
以上より,最も一般的なアルゴリズム,前処理技術,センサタイプを特定する。
さらに、本レビューでは、応用分野を特定し、今後の課題と研究の機会を論じる。 Anomaly detection is critical in the smart industry for preventing equipment failure, reducing downtime, and improving safety. Internet of Things (IoT) has enabled the collection of large volumes of data from industrial machinery, providing a rich source of information for Anomaly Detection. However, the volume and complexity of data generated by the Internet of Things ecosystems make it difficult for humans to detect anomalies manually. Machine learning (ML) algorithms can automate anomaly detection in industrial machinery by analyzing generated data. Besides, each technique has specific strengths and weaknesses based on the data nature and its corresponding systems. However, the current systematic mapping studies on Anomaly Detection primarily focus on addressing network and cybersecurity-related problems, with limited attention given to the industrial sector. Additionally, these studies do not cover the challenges involved in using ML for Anomaly Detection in industrial machinery within the context of the IoT ecosystems. This paper presents a systematic mapping study on Anomaly Detection for industrial machinery using IoT devices and ML algorithms to address this gap. The study comprehensively evaluates 84 relevant studies spanning from 2016 to 2023, providing an extensive review of Anomaly Detection research. Our findings identify the most commonly used algorithms, preprocessing techniques, and sensor types. Additionally, this review identifies application areas and points to future challenges and research opportunities. | 翻訳日:2023-11-15 18:40:00 公開日:2023-11-14 |
# G2L:ジオデシックとゲーム理論によるセマンティックアライメントと一様グラウンド G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and Game Theory ( http://arxiv.org/abs/2307.14277v3 ) ライセンス: Link先を確認 | Hongxiang Li, Meng Cao, Xuxin Cheng, Yaowei Li, Zhihong Zhu, Yuexian Zou | (参考訳) 最近のビデオグラウンディングは、バニラコントラスト学習をビデオグラウンディングに導入しようと試みている。
しかし、このナイーブ解は準最適であると主張する。
対照的な学習には、(1)類似したサンプルの特徴のemph{alignment}と(2)超球上の正規化特徴の誘導分布のemph{uniformity}という2つの重要な特性が必要である。
ビデオグラウンディングにおける2つの厄介な問題として,(1) 真実と他の瞬間の両方に視覚的実体が存在すること,(2) ビデオ中のいくつかの瞬間だけが注釈付けされていること,(2) バニラ・コントラスト学習は時間的に離れたモーメントと非一貫性なビデオ表現の相関をモデル化できないこと,などがあげられる。
どちらの特徴も、バニラのコントラスト学習はビデオの接地には適さない。
本稿では,ジオデシックとゲーム理論を通した,意味的に整列した一様ビデオグラウンドフレームワークであるgeodesic and game localization (g2l)を提案する。
我々は、モデルが正しいクロスモーダル表現を学ぶのを導く測地距離を利用したモーメント間の相関を定量化する。
さらに,ゲーム理論の新たな視点から,測地線距離サンプリングに基づくセマンティック・シェープリー相互作用を提案し,類似した瞬間における微粒なセマンティックアライメントを学習する。
3つのベンチマーク実験により,本手法の有効性が示された。 The recent video grounding works attempt to introduce vanilla contrastive learning into video grounding. However, we claim that this naive solution is suboptimal. Contrastive learning requires two key properties: (1) \emph{alignment} of features of similar samples, and (2) \emph{uniformity} of the induced distribution of the normalized features on the hypersphere. Due to two annoying issues in video grounding: (1) the co-existence of some visual entities in both ground truth and other moments, \ie semantic overlapping; (2) only a few moments in the video are annotated, \ie sparse annotation dilemma, vanilla contrastive learning is unable to model the correlations between temporally distant moments and learned inconsistent video representations. Both characteristics lead to vanilla contrastive learning being unsuitable for video grounding. In this paper, we introduce Geodesic and Game Localization (G2L), a semantically aligned and uniform video grounding framework via geodesic and game theory. We quantify the correlations among moments leveraging the geodesic distance that guides the model to learn the correct cross-modal representations. Furthermore, from the novel perspective of game theory, we propose semantic Shapley interaction based on geodesic distance sampling to learn fine-grained semantic alignment in similar moments. Experiments on three benchmarks demonstrate the effectiveness of our method. | 翻訳日:2023-11-15 18:39:41 公開日:2023-11-14 |
# UniFormaly:視覚異常検出のためのタスク非依存統一フレームワーク UniFormaly: Towards Task-Agnostic Unified Framework for Visual Anomaly Detection ( http://arxiv.org/abs/2307.12540v2 ) ライセンス: Link先を確認 | Yujin Lee, Harin Lim, Seoyoon Jang, Hyunsoo Yoon | (参考訳) 視覚異常検出は、通常の画像から正規性を学ぶことを目的としているが、既存のアプローチは、欠陥検出、セマンティック異常検出、マルチクラス異常検出、異常クラスタリングなど、様々なタスクで断片化されている。
この1-task-one-modelアプローチはリソース集約的であり、タスク数の増加に伴って高いメンテナンスコストを発生させる。
普遍的かつ強力な異常検出フレームワークであるuniformalyを提案する。
我々は,オンラインエンコーダ方式の準最適問題を指摘することによって,市販のアプローチの必要性を強調した。
Back Patch Masking(BPM)とトップk比機能マッチングを導入し、統一された異常検出を実現する。
BPMは自己監督型のViTから自己注意マップを使用して、無関係なバックグラウンド領域を排除します。
これはタスクに依存しない方法で動作し、メモリストレージの消費を軽減し、大規模なデータセットでタスクにスケールする。
Top k-ratio機能マッチングは、複数のインスタンス学習に異常スコアをキャストすることで、異常レベルとタスクを統一する。
最後に、UniFormalyは様々なタスクやデータセットに関する優れた結果を得る。
コードはhttps://github.com/YoojLee/Uniformalyで入手できる。 Visual anomaly detection aims to learn normality from normal images, but existing approaches are fragmented across various tasks: defect detection, semantic anomaly detection, multi-class anomaly detection, and anomaly clustering. This one-task-one-model approach is resource-intensive and incurs high maintenance costs as the number of tasks increases. We present UniFormaly, a universal and powerful anomaly detection framework. We emphasize the necessity of our off-the-shelf approach by pointing out a suboptimal issue in online encoder-based methods. We introduce Back Patch Masking (BPM) and top k-ratio feature matching to achieve unified anomaly detection. BPM eliminates irrelevant background regions using a self-attention map from self-supervised ViTs. This operates in a task-agnostic manner and alleviates memory storage consumption, scaling to tasks with large-scale datasets. Top k-ratio feature matching unifies anomaly levels and tasks by casting anomaly scoring into multiple instance learning. Finally, UniFormaly achieves outstanding results on various tasks and datasets. Codes are available at https://github.com/YoojLee/Uniformaly. | 翻訳日:2023-11-15 18:39:11 公開日:2023-11-14 |
# FinGPT:金融大規模言語モデルのためのインターネットスケールデータの民主化 FinGPT: Democratizing Internet-scale Data for Financial Large Language Models ( http://arxiv.org/abs/2307.10485v2 ) ライセンス: Link先を確認 | Xiao-Yang Liu, Guoxuan Wang, Hongyang Yang, Daochen Zha | (参考訳) 大規模言語モデル(llm)は、金融産業に革命をもたらす可能性がある、人間に似たテキストの理解と生成に顕著な能力を示している。
しかし、既存のllmは金融分野ではしばしば不足しており、主な原因は一般的なテキストデータと金融テキストデータとの相違にある。
残念ながら、利用可能なファイナンシャルテキストデータセットは限られており、最初のファイナンシャルLLM(FinLLM)であるBloombergGPTがオープンソース化されている(トレーニングログのみがリリースされた)。
本研究の目的は,多種多様なデータソース,低信号-雑音比,高時間有効性によるオープンな課題であるLCMのインターネット規模財務データの民主化である。
この課題に対処するために、インターネット上の34の多様なソースからリアルタイムの財務データの収集とキュレーションを自動化するオープンソースでデータ中心のフレームワークであるFinancial Generative Pre-trained Transformer(FinGPT)を導入する。
さらに,市場からのフィードバックを利用してFinLLMを微調整するための簡易かつ効果的な戦略を提案し,これをRLSP(Reinforcement Learning with Stock Prices)と呼ぶ。
また,Low-rank Adaptation (LoRA, QLoRA) メソッドを用いて,汎用LLMから独自のFinLLMを低コストでカスタマイズすることができる。
最後に,ロボットアドバイザ,アルゴリズム取引のための感情分析,ローコード開発など,いくつかのFinGPTアプリケーションを紹介した。
FinGPTはFinLLMを民主化し、イノベーションを刺激し、オープンファイナンスにおける新たな機会を開放することを目指している。
コードはオープンソースである。 Large language models (LLMs) have demonstrated remarkable proficiency in understanding and generating human-like texts, which may potentially revolutionize the finance industry. However, existing LLMs often fall short in the financial field, which is mainly attributed to the disparities between general text data and financial text data. Unfortunately, there is only a limited number of financial text datasets available, and BloombergGPT, the first financial LLM (FinLLM), is close-sourced (only the training logs were released). In light of this, we aim to democratize Internet-scale financial data for LLMs, which is an open challenge due to diverse data sources, low signal-to-noise ratio, and high time-validity. To address the challenges, we introduce an open-sourced and data-centric framework, Financial Generative Pre-trained Transformer (FinGPT), that automates the collection and curation of real-time financial data from 34 diverse sources on the Internet, providing researchers and practitioners with accessible and transparent resources to develop their FinLLMs. Additionally, we propose a simple yet effective strategy for fine-tuning FinLLM using the inherent feedback from the market, dubbed Reinforcement Learning with Stock Prices (RLSP). We also adopt the Low-rank Adaptation (LoRA, QLoRA) method that enables users to customize their own FinLLMs from general-purpose LLMs at a low cost. Finally, we showcase several FinGPT applications, including robo-advisor, sentiment analysis for algorithmic trading, and low-code development. FinGPT aims to democratize FinLLMs, stimulate innovation, and unlock new opportunities in open finance. The codes have been open-sourced. | 翻訳日:2023-11-15 18:38:53 公開日:2023-11-14 |
# 近似グラフ彩色における分散量子優位性 No distributed quantum advantage for approximate graph coloring ( http://arxiv.org/abs/2307.09444v2 ) ライセンス: Link先を確認 | Xavier Coiteux-Roy, Francesco d'Amore, Rishikesh Gajjala, Fabian Kuhn, Fran\c{c}ois Le Gall, Henrik Lievonen, Augusto Modanese, Marc-Olivier Renou, Gustav Schmid, Jukka Suomela | (参考訳) 分散コンピューティングの幅広いモデルに対して、分散アルゴリズムを用いた$c$-coloring $\chi$-chromatic graphの難しさについて、ほぼ完全な特徴付けを行う。
特に、これらの問題は分散量子の優位性を認めないことを示す。
それを行うには:
1)$\tilde{\mathcal{o}}(n^{\frac{1}{\alpha}})$ rounds の$\chi$-chromatic graphs で$c$-coloringを見つける新しい分散アルゴリズムを与え、$\alpha = \bigl\lfloor\frac{c-1}{\chi - 1}\bigr\rfloor$ を付与する。
2) この問題の分散アルゴリズムには$\Omega(n^{\frac{1}{\alpha}})$ roundsが必要であることを証明している。
我々の上界は古典的決定論的局所モデルであり、ほぼ一致する下界は非符号モデルである。
2014年にArfaouiとFraigniaudによって導入されたこのモデルは、物理的因果性に従う分散グラフアルゴリズムのすべてのモデルをキャプチャする。
また、同様の議論は、例えば、3色2次元グリッドや$c$-coloringツリーが、非符号モデルにおいても難しい問題であり、特に量子的な利点を認めないことを示すためにも利用できる。
我々の下界の議論は純粋にグラフ理論であり、証明を確立するには量子情報理論の背景は必要ない。 We give an almost complete characterization of the hardness of $c$-coloring $\chi$-chromatic graphs with distributed algorithms, for a wide range of models of distributed computing. In particular, we show that these problems do not admit any distributed quantum advantage. To do that: 1) We give a new distributed algorithm that finds a $c$-coloring in $\chi$-chromatic graphs in $\tilde{\mathcal{O}}(n^{\frac{1}{\alpha}})$ rounds, with $\alpha = \bigl\lfloor\frac{c-1}{\chi - 1}\bigr\rfloor$. 2) We prove that any distributed algorithm for this problem requires $\Omega(n^{\frac{1}{\alpha}})$ rounds. Our upper bound holds in the classical, deterministic LOCAL model, while the near-matching lower bound holds in the non-signaling model. This model, introduced by Arfaoui and Fraigniaud in 2014, captures all models of distributed graph algorithms that obey physical causality; this includes not only classical deterministic LOCAL and randomized LOCAL but also quantum-LOCAL, even with a pre-shared quantum state. We also show that similar arguments can be used to prove that, e.g., 3-coloring 2-dimensional grids or $c$-coloring trees remain hard problems even for the non-signaling model, and in particular do not admit any quantum advantage. Our lower-bound arguments are purely graph-theoretic at heart; no background on quantum information theory is needed to establish the proofs. | 翻訳日:2023-11-15 18:38:22 公開日:2023-11-14 |
# no train no gain: トランスフォーマーベースの言語モデルのための効率的なトレーニングアルゴリズムの再検討 No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models ( http://arxiv.org/abs/2307.06440v4 ) ライセンス: Link先を確認 | Jean Kaddour, Oscar Key, Piotr Nawrot, Pasquale Minervini, Matt J. Kusner | (参考訳) トランスフォーマーベースの言語モデルのトレーニングに必要な計算量は近年急増している。
この傾向は、トレーニング、バリデーション、下流のパフォーマンスを標準トレーニングよりも高速に向上するために設計された効率的なトレーニングアルゴリズムの研究を動機付けている。
本研究では,動的アーキテクチャ (レイヤスタック,レイヤドロップ),バッチ選択 (選択バックプロップ,rho損失),効率的な最適化 (lion,sophia) という3つのカテゴリを再検討する。
このような手法を用いて, BERT と T5 を固定計算予算で事前学習すると, トレーニング, 検証, ダウンストリームのゲインが, 完全に遅延した学習率のベースラインに比べて消失することがわかった。
我々は,すべての計算時間を参照システム時間と呼ぶ参照マシンにマッピングすることにより,任意のマシン上での計算を可能にする評価プロトコルを定義する。
我々は提案するプロトコルの限界について議論し、効率的なトレーニング手順における厳密な研究を促進するためにコードをリリースした。 The computation necessary for training Transformer-based language models has skyrocketed in recent years. This trend has motivated research on efficient training algorithms designed to improve training, validation, and downstream performance faster than standard training. In this work, we revisit three categories of such algorithms: dynamic architectures (layer stacking, layer dropping), batch selection (selective backprop, RHO loss), and efficient optimizers (Lion, Sophia). When pre-training BERT and T5 with a fixed computation budget using such methods, we find that their training, validation, and downstream gains vanish compared to a baseline with a fully-decayed learning rate. We define an evaluation protocol that enables computation to be done on arbitrary machines by mapping all computation time to a reference machine which we call reference system time. We discuss the limitations of our proposed protocol and release our code to encourage rigorous research in efficient training procedures: https://github.com/JeanKaddour/NoTrainNoGain. | 翻訳日:2023-11-15 18:37:13 公開日:2023-11-14 |
# 時間と空間:補助ロボットアームの適応制御を目指して In Time and Space: Towards Usable Adaptive Control for Assistive Robotic Arms ( http://arxiv.org/abs/2307.02933v2 ) ライセンス: Link先を確認 | Max Pascher and Kirill Kronhardt and Felix Ferdinand Goldau and Udo Frese and Jens Gerken | (参考訳) ロボットのソリューション、特にロボットアームは、製造業や家庭の医療環境など、人間との密接なコラボレーションのために頻繁にデプロイされている。
これらのロボットアームは、主に物体の把握と操作を含むいくつかの自由度(DoF)を制御する必要がある。
標準入力デバイスは主に2つのDoFを持ち、個々のDoFを選択するのに時間を要する。
現代の適応型DoFマッピング制御(ADMC)は、必要なモードスイッチ数を削減できたが、これまでは認識された作業負荷を大幅に削減できなかった。
ユーザは今でも、ワークフローに抽象モードを切り替える、というメンタルなワークロードを抱えている。
我々はADMCのリコメンデーションを更新してフィードフォワードのマルチモーダルフィードバックを提供することにより、ユーザが現在と提案したマッピングをリアルタイムで視覚的に比較できるようにする。
2つの新しいアプローチの 効果とは対照的に
a) 継続的に更新されたDoFの組み合わせを推奨する
b) 現在のロボットの動きと新しい推奨の間で、個別のしきい値を使用する。
両者は、古典的な制御方法に対する個人によるVR(Virtual Reality)研究で比較される。
タスク完了時間を短縮し、モードスイッチを減らし、認識されたワークロードを減らし、フィードフォワードと組み合わせることで、ADMC法は古典的なモード切替よりも優れていることを確定した。
連続性としきい値の間の明らかな定量的な違いの欠如は、ユーザ中心のカスタマイズオプションの重要性を明らかにしている。
これらの影響を開発プロセスに含めることで、ユーザビリティが向上し、高いユーザ受け入れを持つロボット技術の実現に欠かせないものとなる。 Robotic solutions, in particular robotic arms, are becoming more frequently deployed for close collaboration with humans, for example in manufacturing or domestic care environments. These robotic arms require the user to control several Degrees-of-Freedom (DoFs) to perform tasks, primarily involving grasping and manipulating objects. Standard input devices predominantly have two DoFs, requiring time-consuming and cognitively demanding mode switches to select individual DoFs. Contemporary Adaptive DoF Mapping Controls (ADMCs) have shown to decrease the necessary number of mode switches but were up to now not able to significantly reduce the perceived workload. Users still bear the mental workload of incorporating abstract mode switching into their workflow. We address this by providing feed-forward multimodal feedback using updated recommendations of ADMC, allowing users to visually compare the current and the suggested mapping in real-time. We contrast the effectiveness of two new approaches that a) continuously recommend updated DoF combinations or b) use discrete thresholds between current robot movements and new recommendations. Both are compared in a Virtual Reality (VR) in-person study against a classic control method. Significant results for lowered task completion time, fewer mode switches, and reduced perceived workload conclusively establish that in combination with feedforward, ADMC methods can indeed outperform classic mode switching. A lack of apparent quantitative differences between Continuous and Threshold reveals the importance of user-centered customization options. Including these implications in the development process will improve usability, which is essential for successfully implementing robotic technologies with high user acceptance. | 翻訳日:2023-11-15 18:36:53 公開日:2023-11-14 |
# ImDiffusion:多変量時系列異常検出のための拡散モデル ImDiffusion: Imputed Diffusion Models for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2307.00754v2 ) ライセンス: Link先を確認 | Yuhang Chen, Chaoyun Zhang, Minghua Ma, Yudong Liu, Ruomeng Ding, Bowen Li, Shilin He, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang | (参考訳) 多変量時系列データにおける異常検出は、多様な領域にわたる大規模システムの効率的な運用を確保する上で重要である。
しかし、そのようなデータの異常を正確に検出することは大きな課題となる。
予測や再構築に基づく手法を含む既存のアプローチは、これらの課題に効果的に取り組むのに苦労している。
これらの限界を克服するために,時系列インプテーションと拡散モデルを組み合わせて高精度でロバストな異常検出を実現するimdiffusionという新しい異常検出フレームワークを提案する。
imdiffusionが採用するインプテーションベースのアプローチは、時系列における隣接値からの情報を活用し、時間的および相互依存の正確なモデリングを可能にし、データの不確かさを低減し、異常検出プロセスの堅牢性を高める。
ImDiffusionはさらに拡散モデルを時系列命令として利用し、複雑な依存関係を正確にキャプチャする。
推定過程中に発生するステップバイステップの分別出力を,異常予測に有用な信号として利用することで,検出プロセスの精度と頑健性が向上した。
我々はImDiffusionの性能をベンチマークデータセットの広範な実験により評価する。
その結果,提案フレームワークは検出精度とタイムラインの点で最先端のアプローチを著しく上回っていることがわかった。
ImDiffusionはMicrosoftの実際のプロダクションシステムにさらに統合されており、従来のアプローチに比べて11.4%のF1検出スコアの増加が目覚ましい。
われわれの知る限りでは、imdiffusionはインプテーションに基づく技術と時系列異常検出を組み合わせた先駆的アプローチであり、拡散モデルの新たな利用をフィールドに導入している。 Anomaly detection in multivariate time series data is of paramount importance for ensuring the efficient operation of large-scale systems across diverse domains. However, accurately detecting anomalies in such data poses significant challenges. Existing approaches, including forecasting and reconstruction-based methods, struggle to address these challenges effectively. To overcome these limitations, we propose a novel anomaly detection framework named ImDiffusion, which combines time series imputation and diffusion models to achieve accurate and robust anomaly detection. The imputation-based approach employed by ImDiffusion leverages the information from neighboring values in the time series, enabling precise modeling of temporal and inter-correlated dependencies, reducing uncertainty in the data, thereby enhancing the robustness of the anomaly detection process. ImDiffusion further leverages diffusion models as time series imputers to accurately capturing complex dependencies. We leverage the step-by-step denoised outputs generated during the inference process to serve as valuable signals for anomaly prediction, resulting in improved accuracy and robustness of the detection process. We evaluate the performance of ImDiffusion via extensive experiments on benchmark datasets. The results demonstrate that our proposed framework significantly outperforms state-of-the-art approaches in terms of detection accuracy and timeliness. ImDiffusion is further integrated into the real production system in Microsoft and observe a remarkable 11.4% increase in detection F1 score compared to the legacy approach. To the best of our knowledge, ImDiffusion represents a pioneering approach that combines imputation-based techniques with time series anomaly detection, while introducing the novel use of diffusion models to the field. | 翻訳日:2023-11-15 18:36:12 公開日:2023-11-14 |
# HyenaDNA:単一ヌクレオチド分解能における長距離ゲノム配列モデリング HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution ( http://arxiv.org/abs/2306.15794v2 ) ライセンス: Link先を確認 | Eric Nguyen, Michael Poli, Marjan Faizi, Armin Thomas, Callum Birch-Sykes, Michael Wornow, Aman Patel, Clayton Rabideau, Stefano Massaroli, Yoshua Bengio, Stefano Ermon, Stephen A. Baccus, Chris R\'e | (参考訳) ゲノム配列は、遺伝子制御とタンパク質合成のための膨大な情報をコードしている。
自然言語モデルと同様に、研究者はゲノム学の基礎モデルを提案し、ラベルのないゲノムデータから一般化可能な特徴を学習し、規制要素の特定などの下流タスクに微調整することができる。
注意の二次的スケーリングのため、トランスフォーマーベースのゲノムモデルは512から4kトークンを文脈として使用し(ヒトゲノムの0.001%)、DNA内の長距離相互作用のモデリングを著しく制限した。
さらに、これらの手法は、意味のあるDNA単位を集約するためにトークン化剤または固定kマーに依存しており、微妙な遺伝的変異が単一ヌクレオチドポリモルフィズム(SNP)を介してタンパク質機能を完全に変更できる単一ヌクレオチド分解能を失う。
近年,暗黙の畳み込みに基づく大規模言語モデルであるhyenaが,コンテキスト長の長さと時間複雑性の低減を両立させた。
ヒエナの新しい長距離機能を活用して、ヒトの参照ゲノム上に事前訓練されたゲノム基盤モデルであるHyenaDNAを、単一ヌクレオチドレベルで最大100万個のトークンのコンテキスト長が、それまでの高密度注意ベースモデルよりも最大500倍も増加する。
HyenaDNAは配列の長さ(Transformerの最大160倍の速度)でサブクアドラルスケールし、単一のヌクレオチドトークンを使用し、各層で完全なグローバルコンテキストを持つ。
我々は、ゲノム学におけるインコンテキスト学習の最初の使用を含む、より長いコンテキストを可能にするものを探る。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
GenomicBenchmarksでは、HyenaDNAが8つのデータセットのうち7つでSotAを+10の精度で上回っている。
コード: https://github.com/hazyresearch/hyena-dna。 Genomic (DNA) sequences encode an enormous amount of information for gene regulation and protein synthesis. Similar to natural language models, researchers have proposed foundation models in genomics to learn generalizable features from unlabeled genome data that can then be fine-tuned for downstream tasks such as identifying regulatory elements. Due to the quadratic scaling of attention, previous Transformer-based genomic models have used 512 to 4k tokens as context (<0.001% of the human genome), significantly limiting the modeling of long-range interactions in DNA. In addition, these methods rely on tokenizers or fixed k-mers to aggregate meaningful DNA units, losing single nucleotide resolution where subtle genetic variations can completely alter protein function via single nucleotide polymorphisms (SNPs). Recently, Hyena, a large language model based on implicit convolutions was shown to match attention in quality while allowing longer context lengths and lower time complexity. Leveraging Hyena's new long-range capabilities, we present HyenaDNA, a genomic foundation model pretrained on the human reference genome with context lengths of up to 1 million tokens at the single nucleotide-level - an up to 500x increase over previous dense attention-based models. HyenaDNA scales sub-quadratically in sequence length (training up to 160x faster than Transformer), uses single nucleotide tokens, and has full global context at each layer. We explore what longer context enables - including the first use of in-context learning in genomics. On fine-tuned benchmarks from the Nucleotide Transformer, HyenaDNA reaches state-of-the-art (SotA) on 12 of 18 datasets using a model with orders of magnitude less parameters and pretraining data. On the GenomicBenchmarks, HyenaDNA surpasses SotA on 7 of 8 datasets on average by +10 accuracy points. Code at https://github.com/HazyResearch/hyena-dna. | 翻訳日:2023-11-15 18:35:47 公開日:2023-11-14 |
# 解釈可能な生成ニューラルネットワークによる資産相関に対するCredit Portfolio感受性の定量化 Quantifying Credit Portfolio sensitivity to asset correlations with interpretable generative neural networks ( http://arxiv.org/abs/2309.08652v2 ) ライセンス: Link先を確認 | Sergio Caprioli, Emanuele Cagliero, Riccardo Crupi | (参考訳) 本研究では,信用ポートフォリオ価値リスク(var)の資産相関に対する感度を,ディープラーニングモデルを用いた合成金融相関行列を用いて定量化するための新しい手法を提案する。
先行研究では,アセットリターンで推定される経験的相関行列で観察される本質的特徴を捉える,妥当な相関行列の生成を実証するためにgans(generative adversarial network)を用いた。
GANの代わりに、より解釈可能な潜在空間表現を実現するために変分オートエンコーダ(VAE)を用いる。
分析の結果,VOE潜伏空間はポートフォリオの多様化に影響を及ぼす重要な要因,特に資産相関の変化に対する信用ポートフォリオの感度を捉える上で有用なツールであることが判明した。 In this research, we propose a novel approach for the quantification of credit portfolio Value-at-Risk (VaR) sensitivity to asset correlations with the use of synthetic financial correlation matrices generated with deep learning models. In previous work Generative Adversarial Networks (GANs) were employed to demonstrate the generation of plausible correlation matrices, that capture the essential characteristics observed in empirical correlation matrices estimated on asset returns. Instead of GANs, we employ Variational Autoencoders (VAE) to achieve a more interpretable latent space representation. Through our analysis, we reveal that the VAE latent space can be a useful tool to capture the crucial factors impacting portfolio diversification, particularly in relation to credit portfolio sensitivity to asset correlations changes. | 翻訳日:2023-11-15 18:27:43 公開日:2023-11-14 |
# エージェント・イン・セルモデルにおける地理空間的テッセルレーション:パンデミックのエージェントベースモデリングのためのフレームワーク Geospatial Tessellation in the Agent-In-Cell Model: A Framework for Agent-Based Modeling of Pandemic ( http://arxiv.org/abs/2309.07055v2 ) ライセンス: Link先を確認 | Amir Mohammad Esmaieeli Sikaroudi, Alon Efrat, Michael Chertkov | (参考訳) 複雑なシステムを分析する強力なツールであるエージェントベースシミュレーションは、計算要求の増加により地理的要素を統合する際の課題に直面している。
本研究は,safegraphの地理的特徴と実世界のモビリティデータを利用して,都市における新型コロナウイルス感染をシミュレートするエージェントベースモデルについて紹介する。
我々は, 物理学に基づく伝送研究により, 直接対人接触確率に着目した従来型の伝送確率から脱却する。
我々の手法は革新的な戦略を通じて計算複雑性に対処する。
メタエイジェント(meta-agents)と呼ばれるエージェントは、都市のテッセレーションにおける特定のホームセルと関連している。
種々のテッセルレーションとエージェント密度を探索し,特定の道路ネットワーク位置に基づくボロノイ・ダイアグラム・テッセルレーションが,ダイナミックス保存におけるセンサス・ブロック・グループ・テッセルレーションより優れていることを示した。
さらに、Voronoi DiagramsとCensus Block Groupsを組み合わせたハイブリッドテッセルレーションは、より少ないメタエージェントで有効であり、都市動態の正確な表現を維持している。
分析は米国内の都市規模を対象とし,エージェント数削減効果,感度指標,都市固有の要因について考察した。
当社のモデルを既存のABMに対してベンチマークし、実行時とエージェント数の削減に重点を置いています。
主な最適化は、メタエージェントの使用法、高度なテッセレーション法、並列化技術である。
本研究はエージェントベースモデリングの分野,特に地理的特異性と高い計算効率を必要とするシナリオに寄与する。 Agent-based simulation, a powerful tool for analyzing complex systems, faces challenges when integrating geographic elements due to increased computational demands. This study introduces a series of 'agent-in-the-cell' Agent-Based Models to simulate COVID spread in a city, utilizing geographical features and real-world mobility data from Safegraph. We depart from traditional aggregated transmission probabilities, focusing on direct person-to-person contact probabilities, informed by physics-based transmission studies. Our approach addresses computational complexities through innovative strategies. Agents, termed 'meta-agents', are linked to specific home cells in a city's tessellation. We explore various tessellations and agent densities, finding that Voronoi Diagram tessellations, based on specific street network locations, outperform Census Block Group tessellations in preserving dynamics. Additionally, a hybrid tessellation combining Voronoi Diagrams and Census Block Groups proves effective with fewer meta-agents, maintaining an accurate representation of city dynamics. Our analysis covers diverse city sizes in the U.S., offering insights into agent count reduction effects, sensitivity metrics, and city-specific factors. We benchmark our model against an existing ABM, focusing on runtime and reduced agent count implications. Key optimizations include meta-agent usage, advanced tessellation methods, and parallelization techniques. This study's findings contribute to the field of agent-based modeling, especially in scenarios requiring geographic specificity and high computational efficiency. | 翻訳日:2023-11-15 18:27:29 公開日:2023-11-14 |
# 分散Kafkaクラスタによるグローバルメッセージの順序付け Global Message Ordering using Distributed Kafka Clusters ( http://arxiv.org/abs/2309.04918v2 ) ライセンス: Link先を確認 | Shashank Kumar, Aryan Jadon, Sachin Sharma | (参考訳) 現代の分散システムでは、ログは驚くべき速度で生成され、わずか数秒でテラバイトのデータを生成する。
これらのログには、システムメトリクスやユーザアクション、さまざまなイベントといった重要な詳細が含まれており、システムの一貫性と正確な操作の基礎となっている。
正確なログ順序付けは、システム機能における潜在的な曖昧さや不一致を回避するために不可欠である。
一般的な分散メッセージキューであるapache kafkaは、さまざまな分散ログ処理の課題に対する重要なソリューションを提供する。
しかしながら、Kafkaは単一のパーティション内のメッセージの順番配信をコンシューマに保証する一方で、複数のパーティションにまたがるメッセージのグローバルな順序を保証するには不足している。
本研究は、分散システムにおけるログ処理の整合性と一貫性を強化することを目的として、kafkaトピック内のメッセージのグローバル順序付けを実現するための革新的な手法を考案する。
コードはgithubから入手できます。 In contemporary distributed systems, logs are produced at an astounding rate, generating terabytes of data within mere seconds. These logs, containing pivotal details like system metrics, user actions, and diverse events, are foundational to the system's consistent and accurate operations. Precise log ordering becomes indispensable to avert potential ambiguities and discordances in system functionalities. Apache Kafka, a prevalent distributed message queue, offers significant solutions to various distributed log processing challenges. However, it presents an inherent limitation while Kafka ensures the in-order delivery of messages within a single partition to the consumer, it falls short in guaranteeing a global order for messages spanning multiple partitions. This research delves into innovative methodologies to achieve global ordering of messages within a Kafka topic, aiming to bolster the integrity and consistency of log processing in distributed systems. Our code is available on GitHub. | 翻訳日:2023-11-15 18:27:01 公開日:2023-11-14 |
# 駆動型Jaynes-Cummingsモデルに対する不変アプローチ Invariant approach to the Driven Jaynes-Cummings model ( http://arxiv.org/abs/2309.00729v3 ) ライセンス: Link先を確認 | I. Bocanegra, L. Hern\'andez-S\'anchez, I. Ramos-Prieto, F. Soto-Eguibar and H. M. Moya-Cessa | (参考訳) 2段階の原子が量子化された場と相互作用し、原子と磁場の両方が外部の古典場によって駆動される駆動型jaynes-cummingsモデルのダイナミクスを調べる。
不変なアプローチにより、対応するハミルトニアンを標準のJaynes-Cummingsモデルの1つに変換することができる。
その後、駆動系に対するシュリンガー方程式の正確な解析解が得られ、その動的変数のいくつかを分析するために用いられる。 We investigate the dynamics of the driven Jaynes-Cummings model, where a two-level atom interacts with a quantized field and both, atom and field, are driven by an external classical field. Via an invariant approach, we are able to transform the corresponding Hamiltonian into the one of the standard Jaynes-Cummings model. Subsequently, the exact analytical solution of the Schr\"odinger equation for the driven system is obtained and employed to analyze some of its dynamical variables. | 翻訳日:2023-11-15 18:26:37 公開日:2023-11-14 |
# 材料シミュレーションのための効率的なサロゲートモデル:機械学習による組織特性の予測 Efficient Surrogate Models for Materials Science Simulations: Machine Learning-based Prediction of Microstructure Properties ( http://arxiv.org/abs/2309.00305v2 ) ライセンス: Link先を確認 | Binh Duong Nguyen, Pavlo Potapenko, Aytekin Dermici, Kishan Govind, S\'ebastien Bompas, Stefan Sandfeld | (参考訳) いわゆる構造-属性関係の決定、理解、予測は、化学、生物学、気象学、物理学、工学、材料科学など多くの科学分野において重要な課題である。
構造は、例えば、物質、物質、物質一般の空間分布を指すが、性質は、通常、その構造の空間的詳細に非自明な方法で依存する結果として生じる特性である。
伝統的に、フォワードシミュレーションモデルはそのようなタスクに使われてきた。
近年,シミュレーションモデルの拡張や高速化や代理モデルとして,いくつかの機械学習アルゴリズムが科学分野に応用されている。
本研究では,材料科学分野からの2つの異なるデータセットに基づく6つの機械学習手法の開発・検討を行った。2次元イジングモデルによる磁区形成予測と,cahn-hilliardモデルからの2相微細構造の進化を表すデータである。
我々は,全てのモデルの精度とロバスト性を解析し,性能の違いの原因を明らかにする。
カスタマイズされた特徴を通してドメイン知識を含めることの影響を考察し、トレーニングデータの可用性と品質に基づく一般的な推奨事項を導出する。 Determining, understanding, and predicting the so-called structure-property relation is an important task in many scientific disciplines, such as chemistry, biology, meteorology, physics, engineering, and materials science. Structure refers to the spatial distribution of, e.g., substances, material, or matter in general, while property is a resulting characteristic that usually depends in a non-trivial way on spatial details of the structure. Traditionally, forward simulations models have been used for such tasks. Recently, several machine learning algorithms have been applied in these scientific fields to enhance and accelerate simulation models or as surrogate models. In this work, we develop and investigate the applications of six machine learning techniques based on two different datasets from the domain of materials science: data from a two-dimensional Ising model for predicting the formation of magnetic domains and data representing the evolution of dual-phase microstructures from the Cahn-Hilliard model. We analyze the accuracy and robustness of all models and elucidate the reasons for the differences in their performances. The impact of including domain knowledge through tailored features is studied, and general recommendations based on the availability and quality of training data are derived from this. | 翻訳日:2023-11-15 18:26:28 公開日:2023-11-14 |
# ホモロジー畳み込みニューラルネットワーク Homological Convolutional Neural Networks ( http://arxiv.org/abs/2308.13816v2 ) ライセンス: Link先を確認 | Antonio Briola, Yuanrong Wang, Silvia Bartolucci, Tomaso Aste | (参考訳) ディープラーニング手法は、均質なデータ型(画像、音声、テキストデータなど)の分類と回帰タスクにおいて優れた性能を示している。
しかし、古典的な機械学習アプローチは、ますます複雑なディープラーニングアーキテクチャよりも計算的に安価で、効果的であることが多い。
この課題は、表データにおいて、画像や自然言語における空間的あるいは意味的な関係性よりも特徴間の相関が弱く、依存関係構造は事前情報なしでモデル化する必要があるという事実から生じる。
本研究では,空間的に制約されたネットワーク表現を通じてデータ構造を生かし,疎グラフ入力から関係情報を得る,新しいディープラーニングアーキテクチャを提案する。
結果として得られたモデルは畳み込みの力を活用し、ネットワークトポロジから保証まで、限られた数の概念に集中します。
(i)データ中心で決定論的な構築パイプライン
(ii) 推論過程に対する高いレベルの解釈可能性
(iii)スケーラビリティのための十分なスペース。
5つの古典的機械学習と3つのディープラーニングモデルに対して18のベンチマークデータセットでモデルをテストすることで、これらの挑戦的なデータセットにおいて、我々のアプローチが最先端のパフォーマンスに到達できることを示しました。
すべての実験を再現するコードは、https://github.com/FinancialComputingUCL/HomologicalCNNで提供されている。 Deep learning methods have demonstrated outstanding performances on classification and regression tasks on homogeneous data types (e.g., image, audio, and text data). However, tabular data still pose a challenge, with classic machine learning approaches being often computationally cheaper and equally effective than increasingly complex deep learning architectures. The challenge arises from the fact that, in tabular data, the correlation among features is weaker than the one from spatial or semantic relationships in images or natural language, and the dependency structures need to be modeled without any prior information. In this work, we propose a novel deep learning architecture that exploits the data structural organization through topologically constrained network representations to gain relational information from sparse tabular inputs. The resulting model leverages the power of convolution and is centered on a limited number of concepts from network topology to guarantee: (i) a data-centric and deterministic building pipeline; (ii) a high level of interpretability over the inference process; and (iii) an adequate room for scalability. We test our model on 18 benchmark datasets against 5 classic machine learning and 3 deep learning models, demonstrating that our approach reaches state-of-the-art performances on these challenging datasets. The code to reproduce all our experiments is provided at https://github.com/FinancialComputingUCL/HomologicalCNN. | 翻訳日:2023-11-15 18:26:07 公開日:2023-11-14 |
# 埋め込み空間におけるトランスフォーマーダイナミクスの運動解析 Analyzing Transformer Dynamics as Movement through Embedding Space ( http://arxiv.org/abs/2308.10874v2 ) ライセンス: Link先を確認 | Sumeet S. Singh | (参考訳) トランスフォーマーベースの言語モデルは、自然言語理解、パターン認識、知識の獲得、推論、計画、リフレクション、ツールの使用など、インテリジェントな振る舞いを示す。
本稿では,その基盤となる力学が知的行動を引き起こす方法について考察する。
そこで我々は,組込み空間を通した動きとしてフレーミングトランスフォーマーダイナミクスを提案する。
この視点でトランスフォーマーを調べることは重要な洞察を示し、トランスフォーマーの理論を確立します。
1) インテリジェントな行動は, 推論中にトランスフォーマーがランダムウォークする埋め込み空間内の経路にマップする。
2) LMトレーニングは可能な全ての経路の確率分布を学習する。
「知性」は知的行動を表す経路に高い確率を割り当てることで学習される。
コンテキスト内で学習することはできません。コンテキストはデコード中にサンプリングされたパスのサブセットを狭めるだけです。
5) Transformer は自己マッピング型合成関数であり、コンテキストシーケンスをコンテクストベクトルに折り畳み、トークンベクトルに近接してその共起性と条件付き確率を反映する。
したがって、埋め込み空間におけるベクトルの物理的配置は経路確率を決定する。
6) コンテキストベクトルは、エンコーディングウォークと呼ばれるプロセスを通じてシーケンスのトークンの特徴を集約することで構成されます。
注意は、このプロセスに潜在的に冗長なアソシエーションバイアスをもたらします。
7) このプロセスは、フィルタリング(データ独立)と集約(データ依存)の2つの主要な操作タイプから構成される。
この一般化はトランスフォーマーを他のシーケンスモデルと統一する。
この基礎の上に構築され、「概念空間理論」への埋め込みの一般的な意味解釈を形式化し、その妥当性を示す証拠を見出す。 Transformer based language models exhibit intelligent behaviors such as understanding natural language, recognizing patterns, acquiring knowledge, reasoning, planning, reflecting and using tools. This paper explores how their underlying mechanics give rise to intelligent behaviors. Towards that end, we propose framing Transformer dynamics as movement through embedding space. Examining Transformers through this perspective reveals key insights, establishing a Theory of Transformers: 1) Intelligent behaviours map to paths in Embedding Space which, the Transformer random-walks through during inferencing. 2) LM training learns a probability distribution over all possible paths. `Intelligence' is learnt by assigning higher probabilities to paths representing intelligent behaviors. No learning can take place in-context; context only narrows the subset of paths sampled during decoding. 5) The Transformer is a self-mapping composition function, folding a context sequence into a context-vector such that it's proximity to a token-vector reflects its co-occurrence and conditioned probability. Thus, the physical arrangement of vectors in Embedding Space determines path probabilities. 6) Context vectors are composed by aggregating features of the sequence's tokens via a process we call the encoding walk. Attention contributes a - potentially redundant - association-bias to this process. 7) This process is comprised of two principal operation types: filtering (data independent) and aggregation (data dependent). This generalization unifies Transformers with other sequence models. Building upon this foundation, we formalize a popular semantic interpretation of embeddings into a ``concept-space theory'' and find some evidence of it's validity. | 翻訳日:2023-11-15 18:25:46 公開日:2023-11-14 |
# 局所球高調波による骨格に基づく手動作認識の改善 Local Spherical Harmonics Improve Skeleton-Based Hand Action Recognition ( http://arxiv.org/abs/2308.10557v2 ) ライセンス: Link先を確認 | Katharina Prasse, Steffen Jung, Yuxuan Zhou, Margret Keuper | (参考訳) ハンドアクション認識は不可欠である。
コミュニケーション、人間とロボットの相互作用、ジェスチャー制御はそれに依存する。
スケルトンベースのアクション認識は伝統的に、これまで正しく認識することが難しいクラスに属する手を含んでいる。
本研究では, 局所球面高調波と相対角埋め込みを用いた手動作認識のための新しい手動作表現法を提案する。
Spherical Harmonicsの使用は、オブジェクト間の差異や視点の変化に対して手の動き認識をさらに堅牢にする回転不変表現を生成する。
我々は、RGB-Dビデオと3Dハンドポッドアノテーションを用いたファーストパーソンハンドアクションベンチマークと、NTU RGB+D 120データセットでハンドジョイントについて広範な実験を行い、局所球高調波表現の利点を実証した。
私たちのコードはhttps://github.com/kathpra/lshr_lshtで利用可能です。 Hand action recognition is essential. Communication, human-robot interactions, and gesture control are dependent on it. Skeleton-based action recognition traditionally includes hands, which belong to the classes which remain challenging to correctly recognize to date. We propose a method specifically designed for hand action recognition which uses relative angular embeddings and local Spherical Harmonics to create novel hand representations. The use of Spherical Harmonics creates rotation-invariant representations which make hand action recognition even more robust against inter-subject differences and viewpoint changes. We conduct extensive experiments on the hand joints in the First-Person Hand Action Benchmark with RGB-D Videos and 3D Hand Pose Annotations, and on the NTU RGB+D 120 dataset, demonstrating the benefit of using Local Spherical Harmonics Representations. Our code is available at https://github.com/KathPra/LSHR_LSHT. | 翻訳日:2023-11-15 18:25:21 公開日:2023-11-14 |
# 衛星画像処理における量子アドバンテージの展開 : レビューと評価 Exploiting the Quantum Advantage for Satellite Image Processing: Review and Assessment ( http://arxiv.org/abs/2308.09453v2 ) ライセンス: Link先を確認 | Soronzonbold Otgonbaatar, Dieter Kranzlm\"uller | (参考訳) 本稿では、地球観測(EO)と衛星画像における量子コンピューティングの現状について述べる。
衛星データを扱う際の量子学習モデルの潜在的な限界と応用を解析し、量子優位からの利益の持続的な課題を考慮し、ハイパフォーマンスコンピューティング(hpc)と量子コンピューティング(qc)の最適な共有を求める。
次に、Clifford+T普遍ゲートセットに変換されたパラメータ化量子回路モデルを評価する。
Tゲートは、HPCシステムまたはいくつかのQCシステム上で量子モデルをデプロイするために必要な量子資源に光を当てた。
特に、TゲートがHPCシステム上で効率的にシミュレートできない場合、従来の手法よりも量子コンピュータとその計算能力を適用することができる。
我々の量子リソース推定は、十分な数のTゲートを持つ量子機械学習(QML)モデルが、従来のHPCシステムにデプロイされたデータポイントよりもよく見えないデータポイントを一般化し、従来のディープニューラルネットワークのように各学習イテレーションの重みの対称性を破る場合にのみ、量子優位性を提供することを示した。
また、いくつかのQMLモデルに必要な量子リソースを初期革新として推定した。
最後に、高スペクトル衛星画像のQMLモデルを実行するためのHPC+QCシステム間の最適共有を定義した。
これらは、入力量子ビット数とラベル付きベンチマーク画像数が少ないため、他の衛星画像と比較してユニークなデータセットであり、量子コンピュータへのデプロイが困難ではない。 This article examines the current status of quantum computing in Earth observation (EO) and satellite imagery. We analyze the potential limitations and applications of quantum learning models when dealing with satellite data, considering the persistent challenges of profiting from quantum advantage and finding the optimal sharing between high-performance computing (HPC) and quantum computing (QC). We then assess some parameterized quantum circuit models transpiled into a Clifford+T universal gate set. The T-gates shed light on the quantum resources required to deploy quantum models, either on an HPC system or several QC systems. In particular, if the T-gates cannot be simulated efficiently on an HPC system, we can apply a quantum computer and its computational power over conventional techniques. Our quantum resource estimation showed that quantum machine learning (QML) models, with a sufficient number of T-gates, provide the quantum advantage if and only if they generalize on unseen data points better than their classical counterparts deployed on the HPC system and they break the symmetry in their weights at each learning iteration like in conventional deep neural networks. We also estimated the quantum resources required for some QML models as an initial innovation. Lastly, we defined the optimal sharing between an HPC+QC system for executing QML models for hyperspectral satellite images. These are a unique dataset compared to other satellite images since they have a limited number of input qubits and a small number of labeled benchmark images, making them less challenging to deploy on quantum computers. | 翻訳日:2023-11-15 18:25:04 公開日:2023-11-14 |
# 拡散MRIのCT画像への変換による脊髄分割の自動化 Denoising diffusion-based MRI to CT image translation enables automated spinal segmentation ( http://arxiv.org/abs/2308.09345v2 ) ライセンス: Link先を確認 | Robert Graf, Joachim Schmitt, Sarah Schlaeger, Hendrik Kristian M\"oller, Vasiliki Sideri-Lampretsa, Anjany Sekuboyina, Sandro Manuel Krieg, Benedikt Wiestler, Bjoern Menze, Daniel Rueckert, Jan Stefan Kirschke | (参考訳) 背景: 脊髄mr画像の自動分割は, 科学的および臨床的に重要な役割を担っている。
しかし、後方脊柱構造を正確に整列することは困難である。
方法: 倫理委員会が承認した回顧調査では, T1wとT2wのMR画像系列をn=263対のCT/MR画像に翻訳した。
ランドマークベースの登録は画像ペアを調整するために行われた。
我々は,2Dペア画像(Pix2Pix, denoising diffusion implicit model (DDIM) Image mode, DDIM noise mode)と非ペア画像(コントラスト未ペア翻訳, SynDiff)画像から画像への変換を品質指標として比較した。
一般に利用可能なセグメンテーションネットワークは合成ctデータセットをセグメント化し、diceスコアは社内テストセットとmrspinesegチャレンジボリュームで評価された。
3D Pix2PixとDDIMに拡張した。
結果: 2d paired method と syndiff は類似の翻訳性能と dice score を示した。
ddim画像モードは最高画質を達成した。
SynDiff, Pix2Pix, DDIM画像モードも同様のDiceスコア(0.77)を示した。
頭蓋骨軸回転には、登録には少なくとも2つの椎骨のランドマークが必要である。
3D翻訳はDiceスコアの改善(0.80)と解剖学的に高精度なセグメンテーションを元のMR画像よりも高分解能で実現した。
結語: 椎骨登録1回あたりの2つのランドマークは、MRIからCTへの画像・画像の変換を可能にし、全ての未経験のアプローチより優れていた。
3D技術は解剖学的に正しいセグメンテーションを提供し、スピン状過程のような小さな構造の過小評価を避けた。 Background: Automated segmentation of spinal MR images plays a vital role both scientifically and clinically. However, accurately delineating posterior spine structures presents challenges. Methods: This retrospective study, approved by the ethical committee, involved translating T1w and T2w MR image series into CT images in a total of n=263 pairs of CT/MR series. Landmark-based registration was performed to align image pairs. We compared 2D paired (Pix2Pix, denoising diffusion implicit models (DDIM) image mode, DDIM noise mode) and unpaired (contrastive unpaired translation, SynDiff) image-to-image translation using "peak signal to noise ratio" (PSNR) as quality measure. A publicly available segmentation network segmented the synthesized CT datasets, and Dice scores were evaluated on in-house test sets and the "MRSpineSeg Challenge" volumes. The 2D findings were extended to 3D Pix2Pix and DDIM. Results: 2D paired methods and SynDiff exhibited similar translation performance and Dice scores on paired data. DDIM image mode achieved the highest image quality. SynDiff, Pix2Pix, and DDIM image mode demonstrated similar Dice scores (0.77). For craniocaudal axis rotations, at least two landmarks per vertebra were required for registration. The 3D translation outperformed the 2D approach, resulting in improved Dice scores (0.80) and anatomically accurate segmentations in a higher resolution than the original MR image. Conclusion: Two landmarks per vertebra registration enabled paired image-to-image translation from MR to CT and outperformed all unpaired approaches. The 3D techniques provided anatomically correct segmentations, avoiding underprediction of small structures like the spinous process. | 翻訳日:2023-11-15 18:24:38 公開日:2023-11-14 |
# 形式論理に基づく合成コーパスからの導出推論の学習 Learning Deductive Reasoning from Synthetic Corpus based on Formal Logic ( http://arxiv.org/abs/2308.07336v3 ) ライセンス: Link先を確認 | Terufumi Morishita, Gaku Morio, Atsuki Yamaguchi, Yasuhiro Sogawa | (参考訳) 言語モデルのための合成コーパスベースアプローチ(lms)による論理推論能力の獲得について検討した。
前回の研究では、特定の推論規則を用いて推論例を生成した。
しかし、これらの規則は限定的あるいは任意のものであり、獲得した推論能力の一般化性を制限する。
我々はこれを再考し、形式論理理論に基づく十分な根拠を持つ推論規則の集合を採用し、多段階の方法で結合すると他の推論規則を導出することができる。
次に、FLD(Formal Logic Deduction)と呼ばれる提案したコーパスを用いて、最新のLCMの論理的推論能力を評価し、解析する。
GPT-4でさえ、知識から分離された純粋論理的推論はLLMにとって依然として困難であり、論理的推論に特化した追加の訓練は確かに不可欠である。
次に、fldコーパスで訓練されたlmsがより一般化可能な推論能力を得ることを実証的に検証する。
さらに,推論能力の面において,推論コーパスがlmsを向上できるか,できないかを明らかにするとともに,各側面の今後の方向性について考察する。
リリースされたコーパスは、学習リソースと挑戦的なベンチマークの両方を提供する。 We study a synthetic corpus based approach for language models (LMs) to acquire logical deductive reasoning ability. The previous studies generated deduction examples using specific sets of deduction rules. However, these rules were limited or otherwise arbitrary, limiting the generalizability of acquired reasoning ability. We rethink this and adopt a well-grounded set of deduction rules based on formal logic theory, which can derive any other deduction rules when combined in a multistep way. Then, using the proposed corpora, which we name FLD (Formal Logic Deduction), we first evaluate and analyze the logical reasoning ability of the latest LLMs. Even GPT-4 can solve only half of the problems, suggesting that pure logical reasoning isolated from knowledge is still challenging for the LLMs, and additional training specialized in logical reasoning is indeed essential. We next empirically verify that LMs trained on FLD corpora acquire more generalizable reasoning ability. Furthermore, we identify the aspects of reasoning ability on which deduction corpora can enhance LMs and those on which they cannot, and discuss future directions on each aspect. The released corpora serve both as learning resources and as challenging benchmarks. | 翻訳日:2023-11-15 18:23:31 公開日:2023-11-14 |
# ステレオ注意によるトップダウンステレオ画像品質評価に向けて Towards Top-Down Stereo Image Quality Assessment via Stereo Attention ( http://arxiv.org/abs/2308.04156v3 ) ライセンス: Link先を確認 | Huilin Zhang, Sumei Li, Haoxiang Chang, Peiming Lin | (参考訳) ステレオ画像品質評価(siqa)は、3dコンテンツの視覚体験の評価と改善に重要な役割を果たしている。
SIQAの既存の視覚特性に基づく手法は有望な性能を達成した。
しかし、これらのアプローチはトップダウンの哲学を無視しており、人間の視覚システム(HVS)とSIQAの包括的把握が欠如している。
本稿では,品質評価プロセスの指針としてトップダウンの視点を用いた新しいStereo AttenTion Network(SATNet)を提案する。
具体的には,汎用ステレオアテンション(sat)構造がステレオシナリオにコンポーネントと入出力を適応させる。
融合生成アテンションマップを高レベルの双眼鏡変調器として活用し、2つの低レベルの単眼機能に影響を与える。
さらに,一次視覚野における両眼反応が単眼応答の総和よりも少ないという事実を考慮し,両眼応答の大きさを柔軟に調整するエネルギー係数(ec)を導入する。
単眼的特徴の2つの枝の総和と減算から最も識別的品質情報を抽出するために,ミンプールとマックスプール操作を各枝に適用する二重プール戦略を用いる。
実験結果から,SIQA分野における最先端技術推進におけるトップダウン手法の優位性を強調した。
コードはhttps://github.com/fanning-zhang/satnetで入手できる。 Stereo image quality assessment (SIQA) plays a crucial role in evaluating and improving the visual experience of 3D content. Existing visual properties-based methods for SIQA have achieved promising performance. However, these approaches ignore the top-down philosophy, leading to a lack of a comprehensive grasp of the human visual system (HVS) and SIQA. This paper presents a novel Stereo AttenTion Network (SATNet), which employs a top-down perspective to guide the quality assessment process. Specifically, our generalized Stereo AttenTion (SAT) structure adapts components and input/output for stereo scenarios. It leverages the fusion-generated attention map as a higher-level binocular modulator to influence two lower-level monocular features, allowing progressive recalibration of both throughout the pipeline. Additionally, we introduce an Energy Coefficient (EC) to flexibly tune the magnitude of binocular response, accounting for the fact that binocular responses in the primate primary visual cortex are less than the sum of monocular responses. To extract the most discriminative quality information from the summation and subtraction of the two branches of monocular features, we utilize a dual-pooling strategy that applies min-pooling and max-pooling operations to the respective branches. Experimental results highlight the superiority of our top-down method in advancing the state-of-the-art in the SIQA field. The code is available at https://github.com/Fanning-Zhang/SATNet. | 翻訳日:2023-11-15 18:23:11 公開日:2023-11-14 |
# ドライバーとライダーのためのより良いマッチング - Lyftの強化学習 A Better Match for Drivers and Riders: Reinforcement Learning at Lyft ( http://arxiv.org/abs/2310.13810v2 ) ライセンス: Link先を確認 | Xabi Azagirre, Akshay Balwally, Guillaume Candeli, Nicholas Chamandy, Benjamin Han, Alona King, Hyungjun Lee, Martin Loncaric, Sebastien Martin, Vijay Narasiman, Zhiwei (Tony) Qin, Baptiste Richard, Sara Smoot, Sean Taylor, Garrett van Ryzin, Di Wu, Fei Yu, Alex Zamoshchin | (参考訳) ライドシェアリングアプリケーションのドライバーとライダーとのマッチングを改善するため、Lyftのコアマッチングアルゴリズムを改訂しました。
我々は新しいオンライン強化学習アプローチを用いて、ドライバーの将来の収益をリアルタイムで推定し、この情報を使ってより効率的なマッチングを見つける。
この変更は、リアルタイムで学習し、改善できるライドシェアリングマッチングアルゴリズムの最初の文書化実装であった。
私たちは、ほとんどのlyft市場で数週間のswitchback実験の間、この新しいアプローチを評価し、ドライバー、乗客、そしてプラットフォームにどのように利益があったかを見積もった。
特に、当社のドライバーは毎年何百万人もの乗客にサービスを提供し、年商3000万ドル以上のインクリメンタルな収入をもたらしました。
Lyftは2021年にこのアルゴリズムを全世界展開した。 To better match drivers to riders in our ridesharing application, we revised Lyft's core matching algorithm. We use a novel online reinforcement learning approach that estimates the future earnings of drivers in real time and use this information to find more efficient matches. This change was the first documented implementation of a ridesharing matching algorithm that can learn and improve in real time. We evaluated the new approach during weeks of switchback experimentation in most Lyft markets, and estimated how it benefited drivers, riders, and the platform. In particular, it enabled our drivers to serve millions of additional riders each year, leading to more than $30 million per year in incremental revenue. Lyft rolled out the algorithm globally in 2021. | 翻訳日:2023-11-15 18:15:10 公開日:2023-11-14 |
# GenTKG: 時間的知識グラフによる生成予測 GenTKG: Generative Forecasting on Temporal Knowledge Graph ( http://arxiv.org/abs/2310.07793v2 ) ライセンス: Link先を確認 | Ruotong Liao, Xu Jia, Yunpu Ma, Volker Tresp | (参考訳) 大規模言語モデル(llms)の急速な進歩は、時間的知識グラフ(tkg)ドメインに対する関心を燃やしている。
事前学習したLLMが構造化された時間的関係データを理解でき、時間的関係予測の基礎モデルとして置き換えられるかどうかには疑問が残る。
したがって、時間的知識予測を生成的設定に導入する。
しかし、複雑な時間グラフデータ構造とLLMが扱える逐次自然表現との間の巨大な亀裂や、tKGの巨大なデータサイズとLLMを微調整する重い計算コストとの間には課題が生じる。
これらの課題に対処するために、時間的論理ルールに基づく検索戦略と軽量パラメータ効率制御を組み合わせた、GenTKGと呼ばれるtKG上で生成予測を行う新しい検索拡張生成フレームワークを提案する。
大規模な実験により、GenTKGは低計算資源下での時間的関係予測の従来の手法より優れていることが示された。
GenTKGはまた、再トレーニングすることなく、目に見えないデータセットのパフォーマンスを超越した、顕著な転送性を強調している。
本研究は, tKG領域におけるLLMの潜在可能性を明らかにし, tKGの生成予測のための新たなフロンティアを開く。 The rapid advancements in large language models (LLMs) have ignited interest in the temporal knowledge graph (tKG) domain, where conventional carefully designed embedding-based and rule-based models dominate. The question remains open of whether pre-trained LLMs can understand structured temporal relational data and replace them as the foundation model for temporal relational forecasting. Therefore, we bring temporal knowledge forecasting into the generative setting. However, challenges occur in the huge chasms between complex temporal graph data structure and sequential natural expressions LLMs can handle, and between the enormous data sizes of tKGs and heavy computation costs of finetuning LLMs. To address these challenges, we propose a novel retrieval augmented generation framework that performs generative forecasting on tKGs named GenTKG, which combines a temporal logical rule-based retrieval strategy and lightweight parameter-efficient instruction tuning. Extensive experiments have shown that GenTKG outperforms conventional methods of temporal relational forecasting under low computation resources. GenTKG also highlights remarkable transferability with exceeding performance on unseen datasets without re-training. Our work reveals the huge potential of LLMs in the tKG domain and opens a new frontier for generative forecasting on tKGs. | 翻訳日:2023-11-15 18:14:58 公開日:2023-11-14 |
# talk2bev: 自律運転のための言語強調鳥眼図 Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving ( http://arxiv.org/abs/2310.02251v2 ) ライセンス: Link先を確認 | Tushar Choudhary, Vikrant Dewangan, Shivam Chandhok, Shubham Priyadarshan, Anushka Jain, Arun K. Singh, Siddharth Srivastava, Krishna Murthy Jatavallabhula, K. Madhava Krishna | (参考訳) Talk2BEVは、自律運転環境での鳥眼ビュー(BEV)マップのための大型視覚言語モデル(LVLM)インターフェースである。
既存の自動運転シナリオの認識システムは、オブジェクトカテゴリと駆動シナリオの事前定義された(閉じた)セットに重点を置いているが、talk2bevは、汎用言語とビジョンモデルの最近の進歩とbev構造化マップ表現を融合させ、タスク固有のモデルの必要性をなくしている。
これにより、単一のシステムは、視覚的および空間的推論、トラフィックアクターの意図の予測、視覚的手がかりに基づく意思決定を含む様々な自律運転タスクに対応できる。
我々は、自由形式の自然言語クエリを解釈する能力と、これらのクエリを言語拡張型BEVマップに埋め込まれた視覚的コンテキストに基盤付けることの両方に依存する、多数のシーン理解タスクに基づいて、Talk2BEVを広範囲に評価する。
自動運転シナリオのためのLVLMのさらなる研究を可能にするために、1,000人の人間によるBEVシナリオを含むベンチマークであるTalk2BEV-Benchを開発しリリースする。 Talk2BEV is a large vision-language model (LVLM) interface for bird's-eye view (BEV) maps in autonomous driving contexts. While existing perception systems for autonomous driving scenarios have largely focused on a pre-defined (closed) set of object categories and driving scenarios, Talk2BEV blends recent advances in general-purpose language and vision models with BEV-structured map representations, eliminating the need for task-specific models. This enables a single system to cater to a variety of autonomous driving tasks encompassing visual and spatial reasoning, predicting the intents of traffic actors, and decision-making based on visual cues. We extensively evaluate Talk2BEV on a large number of scene understanding tasks that rely on both the ability to interpret free-form natural language queries, and in grounding these queries to the visual context embedded into the language-enhanced BEV map. To enable further research in LVLMs for autonomous driving scenarios, we develop and release Talk2BEV-Bench, a benchmark encompassing 1000 human-annotated BEV scenarios, with more than 20,000 questions and ground-truth responses from the NuScenes dataset. | 翻訳日:2023-11-15 18:14:03 公開日:2023-11-14 |
# Ruffle&Riley: 対話型チューニングシステムの自動誘導に向けて Ruffle&Riley: Towards the Automated Induction of Conversational Tutoring Systems ( http://arxiv.org/abs/2310.01420v2 ) ライセンス: Link先を確認 | Robin Schmucker, Meng Xia, Amos Azaria, Tom Mitchell | (参考訳) 会話学習システム(CTS)は、自然言語の相互作用によって駆動される学習体験を提供する。
彼らは高いレベルの認知的エンゲージメントを促進し、特に推論タスクにおいて学習成果を享受することが知られている。
それでも、CTSコンテンツ作成に必要な時間とコストは、広く普及する上で大きな障害となります。
本稿では,最近の大規模言語モデル(llms)の進歩を,授業テキストから自動学習スクリプトを誘導する,新しいタイプのctsを提案する。
第二に、このシステムは2つのLCMベースのエージェント(Ruffle&Riley)によるスクリプトのオーケストレーションを、学生と教授の役割で自動化する。
このシステムは、ITS-典型的な内ループ構造と外ループ構造に従う自由形式の会話を可能にする。
Ruffle&Rileyを簡単なQAチャットボットや読書活動と比較したオンラインユーザ調査(N = 100)では,テスト後のスコアに有意な差は認められなかった。
それでも、学習経験調査では、Ruffle&Rileyユーザーは理解と記憶のより高い評価を示し、提案されたサポートがより役に立つものと認識し、会話を一貫性のあるものとして認識した。
我々の研究は、新しい世代のスケーラブルCTS技術に対する洞察を提供する。 Conversational tutoring systems (CTSs) offer learning experiences driven by natural language interaction. They are known to promote high levels of cognitive engagement and benefit learning outcomes, particularly in reasoning tasks. Nonetheless, the time and cost required to author CTS content is a major obstacle to widespread adoption. In this paper, we introduce a novel type of CTS that leverages the recent advances in large language models (LLMs) in two ways: First, the system induces a tutoring script automatically from a lesson text. Second, the system automates the script orchestration via two LLM-based agents (Ruffle&Riley) with the roles of a student and a professor in a learning-by-teaching format. The system allows a free-form conversation that follows the ITS-typical inner and outer loop structure. In an initial between-subject online user study (N = 100) comparing Ruffle&Riley to simpler QA chatbots and reading activity, we found no significant differences in post-test scores. Nonetheless, in the learning experience survey, Ruffle&Riley users expressed higher ratings of understanding and remembering and further perceived the offered support as more helpful and the conversation as coherent. Our study provides insights for a new generation of scalable CTS technologies. | 翻訳日:2023-11-15 18:13:17 公開日:2023-11-14 |
# choicemates:マルチエージェント対話による不慣れなオンライン意思決定のサポート ChoiceMates: Supporting Unfamiliar Online Decision-Making with Multi-Agent Conversational Interactions ( http://arxiv.org/abs/2310.01331v2 ) ライセンス: Link先を確認 | Jeongeon Park, Bryan Min, Xiaojuan Ma, Juho Kim | (参考訳) 人々が適切なドメイン知識や専門知識を欠いた決定は、特にオンライン情報で検索し、理解し、決定するプロセスの複雑さと不確実性を高めます。
形成的調査(n=14)を通じて,多様な視点にアクセスし,関連情報を特定し,最終決定を行うための適切なタイミングを決定する上でのユーザの課題を観察した。
提案するChoiceMatesは,汎用的なドメイン理解と情報発見・管理を行うための,LLMエージェントの動的セットとの対話を可能にするシステムである。
エージェントは、意見のあるペルソナとして、柔軟に会話に参加し、応答を提供するだけでなく、各エージェントの好みを引き出すために会話する。
ChoiceMatesを従来のWeb検索やシングルエージェントと比較した結果,ChoiceMatesはより信頼性の高いWebと比較して,より深い情報発見,潜入,情報管理に有用であることが判明した。
また,マルチエージェント会話を意思決定プロセスでどのように活用するかについても述べる。 Unfamiliar decisions -- decisions where people lack adequate domain knowledge or expertise -- specifically increase the complexity and uncertainty of the process of searching for, understanding, and making decisions with online information. Through our formative study (n=14), we observed users' challenges in accessing diverse perspectives, identifying relevant information, and deciding the right moment to make the final decision. We present ChoiceMates, a system that enables conversations with a dynamic set of LLM-powered agents for a holistic domain understanding and efficient discovery and management of information to make decisions. Agents, as opinionated personas, flexibly join the conversation, not only providing responses but also conversing among themselves to elicit each agent's preferences. Our between-subjects study (n=36) comparing ChoiceMates to conventional web search and single-agent showed that ChoiceMates was more helpful in discovering, diving deeper, and managing information compared to Web with higher confidence. We also describe how participants utilized multi-agent conversations in their decision-making process. | 翻訳日:2023-11-15 18:12:59 公開日:2023-11-14 |
# 多数の権限を与え、バイアスを負う: 大規模言語モデルによるジェネラリストクレジットスコアリング Empowering Many, Biasing a Few: Generalist Credit Scoring through Large Language Models ( http://arxiv.org/abs/2310.00566v2 ) ライセンス: Link先を確認 | Duanyu Feng, Yongfu Dai, Jimin Huang, Yifang Zhang, Qianqian Xie, Weiguang Han, Alejandro Lopez-Lira, Hao Wang | (参考訳) 金融業界では、クレジットスコアリングが基本的な要素であり、クレジットへのアクセスを形成し、個人やビジネスのローン条件を決定する。
しかし、伝統的なクレジットスコアリング手法は、狭い知識範囲や独立したクレジットタスクの評価といった課題にしばしば対処している。
我々の研究は、Large Language Models (LLM) が複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクに大きな可能性を持っていることを示唆している。
クレジットスコアリングのためのLCMを体系的に探索するために,我々は,最初のオープンソース包括的フレームワークを提案する。
筆者らは,14Kサンプルを用いた9つのデータセットを対象とし,LLM内の潜在的なバイアスに対する評価と評価を行うとともに,45k以上のサンプルを用いた新しいインストラクションチューニングデータについて検証した。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用リスク評価大言語モデル(CALM)を提案する。
ビルドベンチマークでは,CALM,既存のSOTA(State-of-art)オープンソースおよびオープンソースLLMを評価した。
我々の経験的結果は、LLMが従来のモデルに適合するだけでなく、信用スコアがより包括的で包括的で偏見のない未来へ向けて、従来のモデルを上回る能力を示す。
我々は、先駆的なインストラクションチューニングデータセット、信用とリスクアセスメントLLM、および研究コミュニティと金融業界とのベンチマークを共有することで、業界変革に貢献する。 In the financial industry, credit scoring is a fundamental element, shaping access to credit and determining the terms of loans for individuals and businesses alike. Traditional credit scoring methods, however, often grapple with challenges such as narrow knowledge scope and isolated evaluation of credit tasks. Our work posits that Large Language Models (LLMs) have great potential for credit scoring tasks, with strong generalization ability across multiple tasks. To systematically explore LLMs for credit scoring, we propose the first open-source comprehensive framework. We curate a novel benchmark covering 9 datasets with 14K samples, tailored for credit assessment and a critical examination of potential biases within LLMs, and the novel instruction tuning data with over 45k samples. We then propose the first Credit and Risk Assessment Large Language Model (CALM) by instruction tuning, tailored to the nuanced demands of various financial risk assessment tasks. We evaluate CALM, and existing state-of-art (SOTA) open source and close source LLMs on the build benchmark. Our empirical results illuminate the capability of LLMs to not only match but surpass conventional models, pointing towards a future where credit scoring can be more inclusive, comprehensive, and unbiased. We contribute to the industry's transformation by sharing our pioneering instruction-tuning datasets, credit and risk assessment LLM, and benchmarks with the research community and the financial industry. | 翻訳日:2023-11-15 18:12:40 公開日:2023-11-14 |
# latticegen: クラウド上のプライバシアウェア生成のための格子に生成されたテキストを隠す協調フレームワーク LatticeGen: A Cooperative Framework which Hides Generated Text in a Lattice for Privacy-Aware Generation on Cloud ( http://arxiv.org/abs/2309.17157v3 ) ライセンス: Link先を確認 | Mengke Zhang, Tianxing He, Tianle Wang, Lu Mi, Fatemehsadat Mireshghallah, Binyi Chen, Hao Wang, Yulia Tsvetkov | (参考訳) クラウド上の大規模言語モデル(LLM)で生成を誘導する現在のユーザサーバインタラクションパラダイムでは、サーバが生成プロセスを完全に制御し、生成したテキストを自分自身に保持したいユーザのための選択肢がゼロになる。
我々は,ユーザがサンプリング操作を制御する間,サーバが依然としてほとんどの計算処理を行う協調的なフレームワークであるLatticeGenを提案する。
鍵となる考え方は、真の生成シーケンスがユーザによるノイズトークンと混在し、ノイズ格子に隠されていることである。
疑似悪意のあるサーバからの攻撃の可能性と、ユーザがそれに対して防御できる方法を考慮し、繰り返しビーム探索攻撃と混合ノイズスキームを提案する。
実験では、LatticeGenを使ってプロンプトとジェネレーションの両方を保護します。
ノイズ格子は生成品質を劣化させるが、LatticeGenは強力な攻撃の下で真の世代を顕著に保護する(BERTScoreが測定したようにセマンティックの50%以上が隠されている)。 In the current user-server interaction paradigm of prompted generation with large language models (LLM) on cloud, the server fully controls the generation process, which leaves zero options for users who want to keep the generated text to themselves. We propose LatticeGen, a cooperative framework in which the server still handles most of the computation while the user controls the sampling operation. The key idea is that the true generated sequence is mixed with noise tokens by the user and hidden in a noised lattice. Considering potential attacks from a hypothetically malicious server and how the user can defend against it, we propose the repeated beam-search attack and the mixing noise scheme. In our experiments we apply LatticeGen to protect both prompt and generation. It is shown that while the noised lattice degrades generation quality, LatticeGen successfully protects the true generation to a remarkable degree under strong attacks (more than 50% of the semantic remains hidden as measured by BERTScore). | 翻訳日:2023-11-15 18:12:15 公開日:2023-11-14 |
# タスク一貫性スコア識別特徴分布モデリングによる連続行動評価 Continual Action Assessment via Task-Consistent Score-Discriminative Feature Distribution Modeling ( http://arxiv.org/abs/2309.17105v3 ) ライセンス: Link先を確認 | Yuan-Ming Li, Ling-An Zeng, Jing-Ke Meng and Wei-Shi Zheng | (参考訳) アクション品質アセスメント(AQA)は、アクションがどれだけうまく実行されるかに答えようとするタスクである。
AQAの既存の研究は、すべてのトレーニングデータが一度にトレーニングのために見えるが、新しい技術行動を評価するための継続的な学習はできないと仮定している。
本研究では,AQA(Continual-AQA)の継続学習問題に対処し,AQAタスクを忘れずに逐次学習するよう統一モデルに促す。
連続AQAのモデル化の考え方は,タスクや動作の種類に関わらず,潜在特徴がスコアラベルと強い相関関係を示すタスク一貫性のあるスコア識別特徴分布を逐次学習することである。
この観点から、継続AQAにおける忘れを2つの側面から緩和することを目指している。
まず,新しいデータと過去のデータの特徴を識別的分布に融合させるため,メモリサイズが制限された前のタスクからのデータを保存・再利用する新しい特徴スコア相関認識リハーサルを提案する。
第二に、行動一般グラフ(Action General-Specific Graph)は、行動一般および行動特化知識を学習・分離し、タスク一貫性のスコア識別特徴をよりよく抽出できるようにする。
提案するコンポーネントの貢献度を評価するために,広範な実験を行った。
既存の連続学習手法との比較により,提案手法の有効性と汎用性が検証された。 Action Quality Assessment (AQA) is a task that tries to answer how well an action is carried out. While remarkable progress has been achieved, existing works on AQA assume that all the training data are visible for training in one time, but do not enable continual learning on assessing new technical actions. In this work, we address such a Continual Learning problem in AQA (Continual-AQA), which urges a unified model to learn AQA tasks sequentially without forgetting. Our idea for modeling Continual-AQA is to sequentially learn a task-consistent score-discriminative feature distribution, in which the latent features express a strong correlation with the score labels regardless of the task or action types. From this perspective, we aim to mitigate the forgetting in Continual-AQA from two aspects. Firstly, to fuse the features of new and previous data into a score-discriminative distribution, a novel Feature-Score Correlation-Aware Rehearsal is proposed to store and reuse data from previous tasks with limited memory size. Secondly, an Action General-Specific Graph is developed to learn and decouple the action-general and action-specific knowledge so that the task-consistent score-discriminative features can be better extracted across various tasks. Extensive experiments are conducted to evaluate the contributions of proposed components. The comparisons with the existing continual learning methods additionally verify the effectiveness and versatility of our approach. | 翻訳日:2023-11-15 18:11:55 公開日:2023-11-14 |
# 基礎モデルの有効長期スケーリング Effective Long-Context Scaling of Foundation Models ( http://arxiv.org/abs/2309.16039v3 ) ライセンス: Link先を確認 | Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman, Barlas Oguz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang, Hao Ma | (参考訳) 最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提案する。
我々のモデルシリーズは、Llama 2からの継続事前トレーニングと、長いテキストがアップサンプリングされたデータセットに基づいて構築されている。
我々は、言語モデリング、合成文脈探索タスク、および幅広い研究ベンチマークに関する広範囲な評価を行う。
研究ベンチマークでは、Llama 2上でのほとんどの通常のタスクに対する一貫した改善と長時間コンテキストタスクに対する大幅な改善を実現している。
特に、人間が注釈付き長い命令データを必要としないコスト効率の高い命令チューニング手順により、70bの派生型は、一連のロングコンテキストタスクにおけるgpt-3.5-turbo-16kの全体的な性能を既に上回ることができる。
これらの結果とともに,本手法の個々の成分について詳細な分析を行う。
我々はLlamaの位置エンコーディングを掘り下げ、長い依存関係をモデリングする際の制限について論じる。
また,データミックスやシーケンス長のトレーニングカリキュラムなど,プリトレーニングプロセスにおけるさまざまな設計選択の影響についても検討した。本実験では,プリトレーニングデータセットに豊富な長いテキストを持つことは,強力なパフォーマンスを実現する鍵ではないことを示唆する。 We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama's position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths -- our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences. | 翻訳日:2023-11-15 18:11:30 公開日:2023-11-14 |
# ビジョンベースコントローラのシステムレベル異常の検出と緩和 Detecting and Mitigating System-Level Anomalies of Vision-Based Controllers ( http://arxiv.org/abs/2309.13475v2 ) ライセンス: Link先を確認 | Aryaman Gupta, Kaustav Chakraborty, Somil Bansal | (参考訳) 自動運転車やドローンのような自律システムは、近年、意思決定と制御に視覚入力と機械学習を活用することで大きな進歩を遂げている。
その印象的な性能にもかかわらず、これらのビジョンベースのコントローラーは、新規またはアウト・オブ・ディストリビューション入力に直面すると誤った予測をすることができる。
このようなエラーは、壊滅的なシステム障害とシステムの安全性を損なう可能性がある。
本研究では,そのような閉ループ,システムレベルの障害を検知・緩和する実行時異常モニタを提案する。
具体的には、リーチビリティベースのフレームワークを活用して、視覚ベースのコントローラをオフラインでテストし、システムレベルの障害をマイニングします。
このデータは、システムの故障を引き起こす可能性のある入力にフラグを付けるためにオンラインで活用される分類器のトレーニングに使用される。
異常検知器は、個々のモジュールを超越し、システム全体の安全性に関わる問題を強調する。
また、検知された異常を確実に処理し、システムの安全性を維持するフォールバックコントローラを設計する。
本研究では,視覚制御を用いた自律型タクシーシステムにおいて提案手法を検証する。
提案手法は,システムレベルの異常を同定し処理し,予測誤差に基づく検出やセンシングなどの手法を上回り,自律システムの総合的安全性とロバスト性を高める効果を示す。 Autonomous systems, such as self-driving cars and drones, have made significant strides in recent years by leveraging visual inputs and machine learning for decision-making and control. Despite their impressive performance, these vision-based controllers can make erroneous predictions when faced with novel or out-of-distribution inputs. Such errors can cascade to catastrophic system failures and compromise system safety. In this work, we introduce a run-time anomaly monitor to detect and mitigate such closed-loop, system-level failures. Specifically, we leverage a reachability-based framework to stress-test the vision-based controller offline and mine its system-level failures. This data is then used to train a classifier that is leveraged online to flag inputs that might cause system breakdowns. The anomaly detector highlights issues that transcend individual modules and pertain to the safety of the overall system. We also design a fallback controller that robustly handles these detected anomalies to preserve system safety. We validate the proposed approach on an autonomous aircraft taxiing system that uses a vision-based controller for taxiing. Our results show the efficacy of the proposed approach in identifying and handling system-level anomalies, outperforming methods such as prediction error-based detection, and ensembling, thereby enhancing the overall safety and robustness of autonomous systems. | 翻訳日:2023-11-15 18:10:38 公開日:2023-11-14 |
# AI応用のためのTPUの探索 Exploration of TPUs for AI Applications ( http://arxiv.org/abs/2309.08918v2 ) ライセンス: Link先を確認 | Diego Sanmart\'in Carri\'on, Vera Prohaska | (参考訳) Tensor Processing Units (TPU) は、Googleが開発したディープラーニングのためのハードウェアアクセラレーターである。
本稿では、クラウドおよびエッジコンピューティングにおけるTPUを、AIアプリケーションに焦点をあてて検討することを目的とする。
ニューラルネットワーク,コンパイル技術,サポートフレームワークに関して,TPUの概要,その汎用アーキテクチャ,特にその設計について概説する。
さらに,他のチップアーキテクチャと比較して,クラウドとエッジTPUの性能の比較分析を行った。
その結果,tpuはクラウドとエッジの両コンピューティングにおいて,大幅なパフォーマンス向上が期待できることがわかった。
さらに、エッジTPUとベンチマーク標準にAIアーキテクチャを効率的に配置するための最適化手法のさらなる研究の必要性を、エッジコンピューティングシナリオにおけるより堅牢な比較分析のために強調する。
この研究を推し進める主な動機は、TPUによって促進される効率的なAI加速が、時間、お金、環境資源の面でかなりの節約につながることである。 Tensor Processing Units (TPUs) are specialized hardware accelerators for deep learning developed by Google. This paper aims to explore TPUs in cloud and edge computing focusing on its applications in AI. We provide an overview of TPUs, their general architecture, specifically their design in relation to neural networks, compilation techniques and supporting frameworks. Furthermore, we provide a comparative analysis of Cloud and Edge TPU performance against other counterpart chip architectures. Our results show that TPUs can provide significant performance improvements in both cloud and edge computing. Additionally, this paper underscores the imperative need for further research in optimization techniques for efficient deployment of AI architectures on the Edge TPU and benchmarking standards for a more robust comparative analysis in edge computing scenarios. The primary motivation behind this push for research is that efficient AI acceleration, facilitated by TPUs, can lead to substantial savings in terms of time, money, and environmental resources. | 翻訳日:2023-11-15 18:10:16 公開日:2023-11-14 |
# 情報理論に基づく等分散の発見に向けて Towards Information Theory-Based Discovery of Equivariances ( http://arxiv.org/abs/2310.16555v2 ) ライセンス: Link先を確認 | Hippolyte Charvin, Nicola Catenacci Volpi, Daniel Polani | (参考訳) 対称性の存在は、システムに厳密な制約のセットを課す。
この制約された構造により、インテリジェントなエージェントがそのようなシステムと対話し、システムの対称性を内部化して情報処理によって学習と一般化の効率を大幅に改善することができる。
並行して、複雑性に制約のある学習と行動の原則モデルが、情報理論の手法の利用を増大させる。
ここでは、これら2つの視点を統合して、情報理論レンズがシステムの対称性の効果を「見る」ことができるかどうかを理解したい。
そこで本研究では,学習と情報制約を考慮した適応行動に関する多くの原則研究において,生産的基盤として機能するインフォメーション・ボトルネック(Information Bottleneck)の新たな変種を提案する。
離散的な場合、我々の手法は対称性と情報パーシモニーのある種の双対性を定式化する:すなわち、チャネルの等価性は、チャネルの入力と出力の最適な相互情報保存共同圧縮によって特徴づけられる。
この情報理論処理は、さらに「粗さ」が対応する最適圧縮によって保存される入力出力相互情報の量によって測定される「ソフト」同値の概念を示唆する。
この新しい概念は、有界合理性の場と、神経表現における対称性の研究の間に橋渡しを与える。
このフレームワークは、自動的に(実物とソフトの)等価性を検出することもできる。 The presence of symmetries imposes a stringent set of constraints on a system. This constrained structure allows intelligent agents interacting with such a system to drastically improve the efficiency of learning and generalization, through the internalisation of the system's symmetries into their information-processing. In parallel, principled models of complexity-constrained learning and behaviour make increasing use of information-theoretic methods. Here, we wish to marry these two perspectives and understand whether and in which form the information-theoretic lens can "see" the effect of symmetries of a system. For this purpose, we propose a novel variant of the Information Bottleneck principle, which has served as a productive basis for many principled studies of learning and information-constrained adaptive behaviour. We show (in the discrete case) that our approach formalises a certain duality between symmetry and information parsimony: namely, channel equivariances can be characterised by the optimal mutual information-preserving joint compression of the channel's input and output. This information-theoretic treatment furthermore suggests a principled notion of "soft" equivariance, whose "coarseness" is measured by the amount of input-output mutual information preserved by the corresponding optimal compression. This new notion offers a bridge between the field of bounded rationality and the study of symmetries in neural representations. The framework may also allow (exact and soft) equivariances to be automatically discovered. | 翻訳日:2023-11-15 18:02:55 公開日:2023-11-14 |
# PreWoMe: ロングフォーム質問回答のためのワーキングメモリとしての前提事項のエクスプロイト PreWoMe: Exploiting Presuppositions as Working Memory for Long Form Question Answering ( http://arxiv.org/abs/2310.16147v2 ) ライセンス: Link先を確認 | Wookje Han, Jinsol Park, Kyungjae Lee | (参考訳) 長文質問応答(LFQA)における情報探索質問は、その質問の曖昧さや偽の前提によって誤解を招くことが多い。
既存の多くのアプローチは誤解を招く問題に対処するが、予測不可能な入力特性を持つ現実世界では不十分な限られた問題に適応している。
本研究では,任意の種類の情報探索問題に対処できる統一的なアプローチであるPreWoMeを提案する。
PreWoMeのキーとなるアイデアは、質問の前提を抽出し、それらをワーキングメモリとして利用して、質問に対するフィードバックとアクションを生成することである。
実験の結果,PreWoMeは誤解を招く質問に対処するだけでなく,通常の質問に対処する上でも有効であることがわかった。 Information-seeking questions in long-form question answering (LFQA) often prove misleading due to ambiguity or false presupposition in the question. While many existing approaches handle misleading questions, they are tailored to limited questions, which are insufficient in a real-world setting with unpredictable input characteristics. In this work, we propose PreWoMe, a unified approach capable of handling any type of information-seeking question. The key idea of PreWoMe involves extracting presuppositions in the question and exploiting them as working memory to generate feedback and action about the question. Our experiment shows that PreWoMe is effective not only in tackling misleading questions but also in handling normal ones, thereby demonstrating the effectiveness of leveraging presuppositions, feedback, and action for real-world QA settings. | 翻訳日:2023-11-15 18:02:31 公開日:2023-11-14 |
# 拡張テンプレートを用いた心電図インプテーションの拡散モデルの改善 Improving Diffusion Models for ECG Imputation with an Augmented Template Prior ( http://arxiv.org/abs/2310.15742v2 ) ライセンス: Link先を確認 | Alexander Jenkins, Zehua Chen, Fu Siong Ng, Danilo Mandic | (参考訳) 心電図(ecg)などの脈動信号は日常診療の一部として広範囲に収集される。
しかし、ノイズの多い低品質の録音は、モバイルの健康システムで収集された信号の主要な問題であり、信号品質が低下し、値が失われ、ダウンストリームのタスクが自動化される。
近年の研究では、確率的時系列モデルによるECGの欠落値の計算が検討されている。
それにもかかわらず、決定論的モデルと比較すると、被験者と心拍関係の差異がトレーニング目標において明示的に考慮されないため、その性能は依然として限られている。
そこで本研究では, 確率モデルを用いた心電図のインプテーションと予測精度の向上を目的として, 様々な健康状態に先立ち, 情報に条件づけられた拡散確率モデル(ddpm)である pulsediff を提案する。
具体的には
1)まず,被写体レベルの脈動テンプレートを観測値から抽出し,その先行値をパーソナライズする欠落値の先行情報として使用する。
2) 各ビートにおける前者の位置と振幅の変動を考慮した前者の増大にビートレベルの確率シフト項を加える。
3) 被験者の健康状態を検討するための信頼度スコアをデザインし, プライオリティが安全に提供されることを保証した。
PTBXLデータセットを用いて実験したところ、PulseDiffはCSDIとSSSD$^{S4}$という2つの強力なDDPMベースラインモデルの性能を改善し、不確実性を管理しながらDDPMの生成を誘導することを確認した。
SSSD$^{S4}$と組み合わせると、PulseDiffは短区間欠落データの主要な決定論的モデルよりも優れ、長期間隔データ損失に匹敵する。 Pulsative signals such as the electrocardiogram (ECG) are extensively collected as part of routine clinical care. However, noisy and poor-quality recordings are a major issue for signals collected using mobile health systems, decreasing the signal quality, leading to missing values, and affecting automated downstream tasks. Recent studies have explored the imputation of missing values in ECG with probabilistic time-series models. Nevertheless, in comparison with the deterministic models, their performance is still limited, as the variations across subjects and heart-beat relationships are not explicitly considered in the training objective. In this work, to improve the imputation and forecasting accuracy for ECG with probabilistic models, we present a template-guided denoising diffusion probabilistic model (DDPM), PulseDiff, which is conditioned on an informative prior for a range of health conditions. Specifically, 1) we first extract a subject-level pulsative template from the observed values to use as an informative prior of the missing values, which personalises the prior; 2) we then add beat-level stochastic shift terms to augment the prior, which considers variations in the position and amplitude of the prior at each beat; 3) we finally design a confidence score to consider the health condition of the subject, which ensures our prior is provided safely. Experiments with the PTBXL dataset reveal that PulseDiff improves the performance of two strong DDPM baseline models, CSDI and SSSD$^{S4}$, verifying that our method guides the generation of DDPMs while managing the uncertainty. When combined with SSSD$^{S4}$, PulseDiff outperforms the leading deterministic model for short-interval missing data and is comparable for long-interval data loss. | 翻訳日:2023-11-15 18:02:17 公開日:2023-11-14 |
# 長距離量子多体系の微視的伝播速度について On the microscopic propagation speed of long-range quantum many-body systems ( http://arxiv.org/abs/2310.14896v2 ) ライセンス: Link先を確認 | Marius Lemm, Carla Rubiliani, and Jingxuan Zhang | (参考訳) 時間に依存するシュリンガー方程式は、長い範囲の量子多体ハミルトニアンによってボソニック・フォック空間上で生成される。
我々は、熱力学的に安定であり、ミクロな長さスケールまで保持するこれらの系における粒子輸送の最大速度の第一のバウンドを導出する。
そこで本研究では,ASTLO (adiabatic spacetime localization observables) 手法のマルチスケール変換を開発した。
この結果は、これらの長距離相互作用ボゾン系に対する一般局所作用素上の最初の熱力学的に安定なリーブ・ロビンソン境界を導出する扉を開く。 We consider the time-dependent Schr\"odinger equation that is generated on the bosonic Fock space by a long-range quantum many-body Hamiltonian. We derive the first bound on the maximal speed of particle transport in these systems that is thermodynamically stable and holds all the way down to microscopic length scales. For this, we develop a novel multiscale rendition of the ASTLO (adiabatic spacetime localization observables) method. Our result opens the door to deriving the first thermodynamically stable Lieb-Robinson bounds on general local operators for these long-range interacting bosonic systems. | 翻訳日:2023-11-15 18:01:45 公開日:2023-11-14 |
# 一般関数近似を用いた破壊・破壊オフライン強化学習 Corruption-Robust Offline Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2310.14550v2 ) ライセンス: Link先を確認 | Chenlu Ye, Rui Yang, Quanquan Gu, Tong Zhang | (参考訳) 一般関数近似を用いて,オフライン強化学習(rl)における腐敗のロバスト性に関する問題を検討し,オフラインデータセット内の各サンプルを敵が破壊でき,腐敗レベル$\zeta\geq0$がn$エピソードとh$ステップの累積汚損量を定量化する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
ロバストなオンラインrl設定 \citep{he2022nearly,ye2022corruptionrobust} から不確実性重み付け手法から着想を得て,バッチサンプル上で効率的に計算する新しい不確実性重み付け反復手順を設計し,オフラインrlのための腐敗-ロバストアルゴリズムを提案する。
特に、単一ポリシーカバレッジと$\zeta$の知識の仮定の下で、提案アルゴリズムは、破壊による$\mathcal O(\zeta \cdot (\text{CC}(\lambda,\hat{\mathcal F},\mathcal Z_n^H))^{1/2} (C(\hat{\mathcal F},\mu))^{-1/2} n^{-1})$の加算係数によって悪化する亜最適境界を達成する。
ここで、$\text{CC}(\lambda,\hat{\mathcal F},\mathcal Z_n^H)$は正規化パラメータ$\lambda$、信頼セット$\hat{\mathcal F}$、データセット$\mathcal Z_n^H$、および$C(\hat{\mathcal F},\mu)$は、$\hat{\mathcal F}$と基礎となるデータ分散$\mu$に依存する係数である。
線形 MDP に特化する場合、汚職依存誤差項は $\mathcal O(\zeta d n^{-1})$ に減少し、$d$ は特徴写像の次元であり、これは既存の線型 MDP の下位境界と一致する。
このことは、我々の分析が汚職に依存した用語に関してきついことを示唆している。 We investigate the problem of corruption robustness in offline reinforcement learning (RL) with general function approximation, where an adversary can corrupt each sample in the offline dataset, and the corruption level $\zeta\geq0$ quantifies the cumulative corruption amount over $n$ episodes and $H$ steps. Our goal is to find a policy that is robust to such corruption and minimizes the suboptimality gap with respect to the optimal policy for the uncorrupted Markov decision processes (MDPs). Drawing inspiration from the uncertainty-weighting technique from the robust online RL setting \citep{he2022nearly,ye2022corruptionrobust}, we design a new uncertainty weight iteration procedure to efficiently compute on batched samples and propose a corruption-robust algorithm for offline RL. Notably, under the assumption of single policy coverage and the knowledge of $\zeta$, our proposed algorithm achieves a suboptimality bound that is worsened by an additive factor of $\mathcal O(\zeta \cdot (\text{CC}(\lambda,\hat{\mathcal F},\mathcal Z_n^H))^{1/2} (C(\hat{\mathcal F},\mu))^{-1/2} n^{-1})$ due to the corruption. Here $\text{CC}(\lambda,\hat{\mathcal F},\mathcal Z_n^H)$ is the coverage coefficient that depends on the regularization parameter $\lambda$, the confidence set $\hat{\mathcal F}$, and the dataset $\mathcal Z_n^H$, and $C(\hat{\mathcal F},\mu)$ is a coefficient that depends on $\hat{\mathcal F}$ and the underlying data distribution $\mu$. When specialized to linear MDPs, the corruption-dependent error term reduces to $\mathcal O(\zeta d n^{-1})$ with $d$ being the dimension of the feature map, which matches the existing lower bound for corrupted linear MDPs. This suggests that our analysis is tight in terms of the corruption-dependent term. | 翻訳日:2023-11-15 18:01:37 公開日:2023-11-14 |
# AI分類器に対する対向ロバストネス尺度の存在, 独自性, 拡張性について On existence, uniqueness and scalability of adversarial robustness measures for AI classifiers ( http://arxiv.org/abs/2310.14421v3 ) ライセンス: Link先を確認 | Illia Horenko | (参考訳) 一般化線形モデル(GLM)およびエントロピーAI(EAI)に対して、(局所的に)一意的に可逆な分類器に対する最小逆経路(MAP)と最小逆距離(MAD)の単純な検証可能な数学的条件を定式化し、証明する。
MAPとMADの実際的な計算、そして、様々な種類のAIツールの比較と解釈(神経ネットワーク、強化ランダムフォレスト、GLM、EAI)は、一般的な合成ベンチマーク(二重スイスロールスパイラルとその拡張、および2つのバイオメディカルデータ問題(健康保険請求の予測、心臓発作の致死性分類)で示される。
生体医学的応用において、MAPは、アクセス可能な制御変数の予め定義されたサブセットにおいて、患者固有のリスク軽減のユニークな介入を提供する。 Simply-verifiable mathematical conditions for existence, uniqueness and explicit analytical computation of minimal adversarial paths (MAP) and minimal adversarial distances (MAD) for (locally) uniquely-invertible classifiers, for generalized linear models (GLM), and for entropic AI (EAI) are formulated and proven. Practical computation of MAP and MAD, their comparison and interpretations for various classes of AI tools (for neuronal networks, boosted random forests, GLM and EAI) are demonstrated on the common synthetic benchmarks: on a double Swiss roll spiral and its extensions, as well as on the two biomedical data problems (for the health insurance claim predictions, and for the heart attack lethality classification). On biomedical applications it is demonstrated how MAP provides unique minimal patient-specific risk-mitigating interventions in the predefined subsets of accessible control variables. | 翻訳日:2023-11-15 18:00:43 公開日:2023-11-14 |
# DA-TransUNet:医療画像セグメンテーションのためのトランスフォーマーU-Netによる空間的・チャネル的デュアルアテンションの統合 DA-TransUNet: Integrating Spatial and Channel Dual Attention with Transformer U-Net for Medical Image Segmentation ( http://arxiv.org/abs/2310.12570v2 ) ライセンス: Link先を確認 | Guanqun Sun, Yizhi Pan, Weikun Kong, Zichang Xu, Jianhua Ma, Teeradaj Racharak, Le-Minh Nguyen, Junyi Xin | (参考訳) 正確な医用画像分割は疾患の定量化と治療評価に不可欠である。
従来のUnetアーキテクチャとトランスフォーマー統合型は自動セグメンテーションタスクに優れている。
しかし、画像の内在的な位置とチャネルの特徴を利用する能力は欠如している。
既存のモデルは、しばしば変圧器の広範な使用のために、パラメータの効率性と計算の複雑さに苦労している。
そこで本研究では,従来のu字型アーキテクチャにトランスフォーマーとデュアルアテンションブロック(daブロック)を統合することを目的とした,新しい深層医用画像分割フレームワークda-transunetを提案する。
以前のトランスフォーマーベースのU-netモデルとは異なり、DA-TransUNetはトランスフォーマーとDA-Blockを使用して、グローバルな特徴とローカルな特徴だけでなく、画像固有の位置とチャネルの特徴を統合し、医療画像セグメンテーションの性能を向上させる。
DA-Blockを埋め込み層と各スキップ接続層に組み込むことで,特徴抽出能力を大幅に向上し,エンコーダ・デコーダ構造の効率を向上させる。
DA-TransUNetは、医療画像セグメンテーションタスクにおいて優れたパフォーマンスを示し、複数のデータセットにわたる最先端技術よりも一貫して優れています。
要約すると、DA-TransUNetは医療画像セグメンテーションの大幅な進歩をもたらし、既存の技術に代わる効果的で強力な代替手段を提供する。
われわれのアーキテクチャは、セグメンテーションの精度を向上し、自動化された医用画像診断の分野を推し進めている。
私たちのモデルのコードとパラメータはhttps://github.com/sun-1024/da-transunetで公開されます。 Accurate medical image segmentation is critical for disease quantification and treatment evaluation. While traditional Unet architectures and their transformer-integrated variants excel in automated segmentation tasks. However, they lack the ability to harness the intrinsic position and channel features of image. Existing models also struggle with parameter efficiency and computational complexity, often due to the extensive use of Transformers. To address these issues, this study proposes a novel deep medical image segmentation framework, called DA-TransUNet, aiming to integrate the Transformer and dual attention block(DA-Block) into the traditional U-shaped architecture. Unlike earlier transformer-based U-net models, DA-TransUNet utilizes Transformers and DA-Block to integrate not only global and local features, but also image-specific positional and channel features, improving the performance of medical image segmentation. By incorporating a DA-Block at the embedding layer and within each skip connection layer, we substantially enhance feature extraction capabilities and improve the efficiency of the encoder-decoder structure. DA-TransUNet demonstrates superior performance in medical image segmentation tasks, consistently outperforming state-of-the-art techniques across multiple datasets. In summary, DA-TransUNet offers a significant advancement in medical image segmentation, providing an effective and powerful alternative to existing techniques. Our architecture stands out for its ability to improve segmentation accuracy, thereby advancing the field of automated medical image diagnostics. The codes and parameters of our model will be publicly available at https://github.com/SUN-1024/DA-TransUnet. | 翻訳日:2023-11-15 18:00:11 公開日:2023-11-14 |
# クラスタ制約による病理画像の表現学習の改善 Improving Representation Learning for Histopathologic Images with Cluster Constraints ( http://arxiv.org/abs/2310.12334v2 ) ライセンス: Link先を確認 | Weiyi Wu, Chongyang Gao, Joseph DiPalma, Soroush Vosoughi, Saeed Hassanpour | (参考訳) 近年のWSIスキャナーと計算能力の進歩は、病理組織学的スライド解析における人工知能の適用を著しく促進している。
これらの進歩は有望だが、現在のwsi分析のための教師付き学習アプローチでは、高い解像度のスライドを徹底的にラベル付けするという課題が伴っている。
対照的に、自己教師付き学習(SSL)事前トレーニング戦略は、明示的なデータアノテーションに依存しないため、実行可能な代替手段として現れています。
これらのSSL戦略は、管理対象とパフォーマンス格差を急速に埋め込んでいる。
この文脈ではSSLフレームワークを導入します。
このフレームワークは、WSI分析における不変損失とクラスタリング損失を相乗化することにより、伝達可能な表現学習と意味的なクラスタリングを目指している。
特に,megalyon16と膵癌データセットのテストで証明されたように,下流の分類とクラスタリングタスクにおけるsslメソッドよりも優れた手法である。 Recent advances in whole-slide image (WSI) scanners and computational capabilities have significantly propelled the application of artificial intelligence in histopathology slide analysis. While these strides are promising, current supervised learning approaches for WSI analysis come with the challenge of exhaustively labeling high-resolution slides - a process that is both labor-intensive and time-consuming. In contrast, self-supervised learning (SSL) pretraining strategies are emerging as a viable alternative, given that they don't rely on explicit data annotations. These SSL strategies are quickly bridging the performance disparity with their supervised counterparts. In this context, we introduce an SSL framework. This framework aims for transferable representation learning and semantically meaningful clustering by synergizing invariance loss and clustering loss in WSI analysis. Notably, our approach outperforms common SSL methods in downstream classification and clustering tasks, as evidenced by tests on the Camelyon16 and a pancreatic cancer dataset. | 翻訳日:2023-11-15 17:59:41 公開日:2023-11-14 |
# rgm:ロバストなジェネラリストマッチングモデル RGM: A Robust Generalist Matching Model ( http://arxiv.org/abs/2310.11755v3 ) ライセンス: Link先を確認 | Songyan Zhang, Xinyu Sun, Hao Chen, Bo Li, Chunhua Shen | (参考訳) 画像のペア内で対応するピクセルを見つけることは、様々な応用を伴う基本的なコンピュータビジョンタスクである。
光学的フロー推定や局所的特徴マッチングのような様々なタスクの特定の要求のため、以前の研究は主に、特定のアーキテクチャに焦点を当てた密マッチングとスパースな特徴マッチングとタスク固有のデータセットに分類される。
本稿では, rgm (robust generalist matching) と呼ばれる, ばらばらで密なマッチングのための深いモデルを提案する。
特に,複数のスケールで幾何的類似性を反復的に探索し,スペーシフィケーションのための新たな不確実性推定モジュールを付加することにより,改良のためのカスケードGRUモジュールを精巧に設計する。
合成トレーニングサンプルと実世界のシナリオの間のギャップを狭めるために,より間隔の長い光フロー監視を生成することにより,スパース対応基底真理を持つ新しい大規模データセットを構築した。
そのため、さまざまな密集したスパースマッチングデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善できます。
提案するRGMの一般化能力は、2段階の混合データに基づいてマッチングと不確実性推定を学習することにより大幅に向上する。
ゼロショットマッチングとダウンストリームジオメトリを複数のデータセットにまたがって推定することで優れた性能を実現し、従来の手法を大きなマージンで上回っている。 Finding corresponding pixels within a pair of images is a fundamental computer vision task with various applications. Due to the specific requirements of different tasks like optical flow estimation and local feature matching, previous works are primarily categorized into dense matching and sparse feature matching focusing on specialized architectures along with task-specific datasets, which may somewhat hinder the generalization performance of specialized models. In this paper, we propose a deep model for sparse and dense matching, termed RGM (Robust Generalist Matching). In particular, we elaborately design a cascaded GRU module for refinement by exploring the geometric similarity iteratively at multiple scales following an additional uncertainty estimation module for sparsification. To narrow the gap between synthetic training samples and real-world scenarios, we build a new, large-scale dataset with sparse correspondence ground truth by generating optical flow supervision with greater intervals. As such, we are able to mix up various dense and sparse matching datasets, significantly improving the training diversity. The generalization capacity of our proposed RGM is greatly improved by learning the matching and uncertainty estimation in a two-stage manner on the large, mixed data. Superior performance is achieved for zero-shot matching and downstream geometry estimation across multiple datasets, outperforming the previous methods by a large margin. | 翻訳日:2023-11-15 17:59:26 公開日:2023-11-14 |
# 量子ゲームにおける非回帰学習と平衡計算 No-Regret Learning and Equilibrium Computation in Quantum Games ( http://arxiv.org/abs/2310.08473v2 ) ライセンス: Link先を確認 | Wayne Lin, Georgios Piliouras, Ryann Sim, Antonios Varvitsiotis | (参考訳) 量子プロセッサが進歩するにつれて、量子可能エージェントの相互作用を伴う大規模分散システムの出現が近づいている。
最近の研究は、戦略的量子相互作用のソリューション概念として、ナッシュと相関平衡の量子バージョンを探索してきたが、これらのアプローチは、エージェントが限られた情報を持っている分散適応装置に直接接続しなかった。
本稿では,非回帰アルゴリズムを用いた分散システムにおける量子化可能なエージェントのダイナミクスについて考察する。
具体的には、2プレイヤーの量子ゼロサムゲームとポリマトリクスの量子ゼロサムゲームについて検討し、時間平均における分離可能な量子ナッシュ平衡に非回帰アルゴリズムが収束することを示した。
一般的なマルチプレイヤー量子ゲームの場合、我々の研究は(分離可能な)量子粗相関平衡(QCCE)という、時間平均の振る舞いの非回帰アルゴリズムの収束結果を生み出し、分散化された量子システムに対する自然な解の概念を提供する。
最後に、QCCEを半定値プログラムとして定式化して、現在の非回帰学習のパラダイムではアプローチできない絡み合った(非分離可能)QCCEの存在を確立することを示す。 As quantum processors advance, the emergence of large-scale decentralized systems involving interacting quantum-enabled agents is on the horizon. Recent research efforts have explored quantum versions of Nash and correlated equilibria as solution concepts of strategic quantum interactions, but these approaches did not directly connect to decentralized adaptive setups where agents possess limited information. This paper delves into the dynamics of quantum-enabled agents within decentralized systems that employ no-regret algorithms to update their behaviors over time. Specifically, we investigate two-player quantum zero-sum games and polymatrix quantum zero-sum games, showing that no-regret algorithms converge to separable quantum Nash equilibria in time-average. In the case of general multi-player quantum games, our work leads to a novel solution concept, (separable) quantum coarse correlated equilibria (QCCE), as the convergent outcome of the time-averaged behavior no-regret algorithms, offering a natural solution concept for decentralized quantum systems. Finally, we show that computing QCCEs can be formulated as a semidefinite program and establish the existence of entangled (i.e., non-separable) QCCEs, which cannot be approached via the current paradigm of no-regret learning. | 翻訳日:2023-11-15 17:59:00 公開日:2023-11-14 |
# 生成的内在的最適化:モデル学習による内在的制御 Generative Intrinsic Optimization: Intrinsic Control with Model Learning ( http://arxiv.org/abs/2310.08100v2 ) ライセンス: Link先を確認 | Jianfei Ma | (参考訳) 将来のシーケンスは、動作を環境(すなわち軌道上)に実行した後の結果を表す。
情報理論的な相互情報の概念に駆り立てられると、最大の情報的結果を求める。
明示的な成果は、クレジットの割り当てや模倣学習のような異なる目的のために、州、返却、軌跡によって異なりうる。
しかし、内在的な動機づけと報酬の最大化を組み込む本質的な性質はしばしば無視される。
そこで本研究では,相互情報をシームレスに取り込み,最適方針への収束を保証するポリシー反復方式を提案する。
同時に、相互情報とダイナミクスモデルの推定に必要な量を共同で学習し、興味のある結果の異なる形態を組み込むための一般的な枠組みを提供する、変分的アプローチを導入する。
我々は主に理論分析に焦点を絞るが,本手法は本質的制御をモデル学習で活用し,サンプル効率を高め,環境の不確実性を意思決定に取り入れる可能性を開く。 Future sequence represents the outcome after executing the action into the environment (i.e. the trajectory onwards). When driven by the information-theoretic concept of mutual information, it seeks maximally informative consequences. Explicit outcomes may vary across state, return, or trajectory serving different purposes such as credit assignment or imitation learning. However, the inherent nature of incorporating intrinsic motivation with reward maximization is often neglected. In this work, we propose a policy iteration scheme that seamlessly incorporates the mutual information, ensuring convergence to the optimal policy. Concurrently, a variational approach is introduced, which jointly learns the necessary quantity for estimating the mutual information and the dynamics model, providing a general framework for incorporating different forms of outcomes of interest. While we mainly focus on theoretical analysis, our approach opens the possibilities of leveraging intrinsic control with model learning to enhance sample efficiency and incorporate uncertainty of the environment into decision-making. | 翻訳日:2023-11-15 17:58:38 公開日:2023-11-14 |
# 有限領域上の知識伝達の基本限界に向けて Towards the Fundamental Limits of Knowledge Transfer over Finite Domains ( http://arxiv.org/abs/2310.07838v4 ) ライセンス: Link先を確認 | Qingyue Zhao and Banghua Zhu | (参考訳) 教師からのサンプル$n$ から、ラベル$\mathcal a$ よりも入力空間$\mathcal s$ の確率的学生分類器への知識伝達の統計的効率を特徴付ける。
3つの段階の特権情報が転送を加速することを示す。
第1段階では、ハードラベルを持つサンプルのみが知られており、最大確率推定器が最小値$\sqrt{{|{\mathcal s}||{\mathcal a}|}/{n}}$に達する。
第2のレベルは、サンプルラベルの教師の確率も備えており、これは${{|{\mathcal s}||{\mathcal a}|}/{n}}$ の収束率を下げる結果となる。
しかし、この第2のデータ取得プロトコルでは、クロスエントロピー損失の単純適応が最小化され、漸近的に偏りが生じる。
この制限を克服し、二乗誤差ロジット損失の新たな経験的変種を用いて基本限界を達成する。
第3レベルはさらに、サンプル入力毎に与えられた${\mathcal a}$のソフトラベル(完全ロジット)を学生に供給し、それによって学生は${|{\mathcal s}|}/{n}$の$|{\mathcal a}|$を享受することができる。
最後のケースでは、Kulback-Leibler分散最小化器が最適である。
数値シミュレーションは4人の学習者を区別し、我々の理論を裏付ける。 We characterize the statistical efficiency of knowledge transfer through $n$ samples from a teacher to a probabilistic student classifier with input space $\mathcal S$ over labels $\mathcal A$. We show that privileged information at three progressive levels accelerates the transfer. At the first level, only samples with hard labels are known, via which the maximum likelihood estimator attains the minimax rate $\sqrt{{|{\mathcal S}||{\mathcal A}|}/{n}}$. The second level has the teacher probabilities of sampled labels available in addition, which turns out to boost the convergence rate lower bound to ${{|{\mathcal S}||{\mathcal A}|}/{n}}$. However, under this second data acquisition protocol, minimizing a naive adaptation of the cross-entropy loss results in an asymptotically biased student. We overcome this limitation and achieve the fundamental limit by using a novel empirical variant of the squared error logit loss. The third level further equips the student with the soft labels (complete logits) on ${\mathcal A}$ given every sampled input, thereby provably enables the student to enjoy a rate ${|{\mathcal S}|}/{n}$ free of $|{\mathcal A}|$. We find any Kullback-Leibler divergence minimizer to be optimal in the last case. Numerical simulations distinguish the four learners and corroborate our theory. | 翻訳日:2023-11-15 17:58:22 公開日:2023-11-14 |
# 拡散モデルの一般化特性について On the Generalization Properties of Diffusion Models ( http://arxiv.org/abs/2311.01797v2 ) ライセンス: Link先を確認 | Puheng Li, Zhong Li, Huishuai Zhang, Jiang Bian | (参考訳) 拡散モデル(英: diffusion model)は、経験的に観測されるが未知な対象分布と既知の事前の間の確率的輸送写像を確立するのに役立つ生成モデルの一種である。
実世界の応用において顕著な成功を収めたにもかかわらず、その一般化能力に関する理論的理解は未開発である。
本研究は拡散モデルの一般化特性の包括的理論的探究に着手する。
スコアベース拡散モデルのトレーニングダイナミクスと相まって進化する一般化ギャップの理論的な推定を定め、サンプルサイズ$n$ とモデル容量 $m$ の両方において多項式的に小さい一般化誤差 (o(n^{-2/5}+m^{-4/5}) を示唆し、早期停止時の次元の呪い(すなわち、データ次元の指数的に大きいものではない)を回避した。
さらに,定量的解析をデータ依存シナリオに拡張し,対象の分布をモード間の距離を徐々に増加させる密度の連続として表現する。
これは、モデル一般化に対する「モードシフト」の地平における悪影響を正確に解明する。
さらに、これらの推定は理論的な構成だけでなく、数値シミュレーションによっても確認されている。
本研究は拡散モデルの一般化特性の厳密な理解に寄与し,実用的応用の指針となる洞察を提供する。 Diffusion models are a class of generative models that serve to establish a stochastic transport map between an empirically observed, yet unknown, target distribution and a known prior. Despite their remarkable success in real-world applications, a theoretical understanding of their generalization capabilities remains underdeveloped. This work embarks on a comprehensive theoretical exploration of the generalization attributes of diffusion models. We establish theoretical estimates of the generalization gap that evolves in tandem with the training dynamics of score-based diffusion models, suggesting a polynomially small generalization error ($O(n^{-2/5}+m^{-4/5})$) on both the sample size $n$ and the model capacity $m$, evading the curse of dimensionality (i.e., not exponentially large in the data dimension) when early-stopped. Furthermore, we extend our quantitative analysis to a data-dependent scenario, wherein target distributions are portrayed as a succession of densities with progressively increasing distances between modes. This precisely elucidates the adverse effect of "modes shift" in ground truths on the model generalization. Moreover, these estimates are not solely theoretical constructs but have also been confirmed through numerical simulations. Our findings contribute to the rigorous understanding of diffusion models' generalization properties and provide insights that may guide practical applications. | 翻訳日:2023-11-15 17:50:28 公開日:2023-11-14 |
# 欠陥薬の認識論理のための単純モデル Simplicial Models for the Epistemic Logic of Faulty Agents ( http://arxiv.org/abs/2311.01351v3 ) ライセンス: Link先を確認 | Eric Goubault, Roman Kniazev, Jeremy Ledent, Sergio Rajsbaum | (参考訳) 近年、いくつかの著者がsimplicial complexと呼ばれる高次元構造に基づく認識論理のモデルであるsimplicial modelを調査している。
元々の定式化では、単純モデルは常に純粋であると仮定され、つまりすべての世界は同じ次元を持つ。
これはクリプケモデルに基づく認識論理の標準s5n意味論と等価である。
モデルが純粋であるべきだという仮定を取り除き、通常のクリプケ意味論を越え、世界に参加するエージェントの数が異なる認識論的論理を研究することができる。
このアプローチは多くの論文で開発されており、フォールトトレラントな分散コンピューティングではシステム実行中にプロセスがクラッシュする可能性がある。
不純な単純化モデルの定義における微妙な設計の選択は、結果の論理の異なる公理をもたらす可能性がある。
本稿では,これらの設計選択を体系的に分類し,対応する論理を公理化する。
プロセスがクラッシュする可能性のある同期システムの分散コンピューティングの例を例に説明する。 In recent years, several authors have been investigating simplicial models, a model of epistemic logic based on higher-dimensional structures called simplicial complexes. In the original formulation, simplicial models were always assumed to be pure, meaning that all worlds have the same dimension. This is equivalent to the standard S5n semantics of epistemic logic, based on Kripke models. By removing the assumption that models must be pure, we can go beyond the usual Kripke semantics and study epistemic logics where the number of agents participating in a world can vary. This approach has been developed in a number of papers, with applications in fault-tolerant distributed computing where processes may crash during the execution of a system. A difficulty that arises is that subtle design choices in the definition of impure simplicial models can result in different axioms of the resulting logic. In this paper, we classify those design choices systematically, and axiomatize the corresponding logics. We illustrate them via distributed computing examples of synchronous systems where processes may crash. | 翻訳日:2023-11-15 17:50:03 公開日:2023-11-14 |
# 誤りから学ぶ: LLMが推論を改善 Learning From Mistakes Makes LLM Better Reasoner ( http://arxiv.org/abs/2310.20689v2 ) ライセンス: Link先を確認 | Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen | (参考訳) 大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この能力をさらに改善するために、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。
数学の問題を解くのに失敗した人間の学生を考えると、彼はどんな間違いを犯し、どのように修正したかを学ぶだろう。
この誤り駆動学習過程を模倣し、GPT-4によって生成された誤り訂正データ対上のLeMa微細構造LPM。
具体的には,まずまず様々なLCMから不正確な推論経路を収集し,(1)ミスステップの特定,(2)ミスの原因の説明,(3)ミスの修正,そして最終回答の生成にGPT-4を"コレクタ"として利用する。
5つのバックボーンLLMと2つの数学的推論タスクにまたがって、LeMaはCoTデータのみの微調整に比べて一貫して性能を改善している。
印象的なことに、LeMaはWizardMathやMetaMathのような特殊なLLMの恩恵を受けることができ、GSM8Kでは85.4%のパス@1精度、MATHでは27.1%の精度を実現している。
これは、これらの困難なタスクにおいて非実行オープンソースのモデルによって達成されるSOTAのパフォーマンスを上回る。
私たちのコード、データ、モデルはhttps://github.com/microsoft/LEMA.comで公開されます。 Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve this capability, this work proposes Learning from Mistakes (LeMa), akin to human learning processes. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LeMa fine-tunes LLMs on mistake-correction data pairs generated by GPT-4. Specifically, we first collect inaccurate reasoning paths from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the mistake step, (2) explain the reason for the mistake, and (3) correct the mistake and generate the final answer. Experimental results demonstrate the effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning tasks, LeMa consistently improves the performance compared with fine-tuning on CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on MATH. This surpasses the SOTA performance achieved by non-execution open-source models on these challenging tasks. Our code, data and models will be publicly available at https://github.com/microsoft/LEMA. | 翻訳日:2023-11-15 17:49:26 公開日:2023-11-14 |
# FollowBench: 大規模言語モデルのベンチマークに続くマルチレベルきめ細かい制約 FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models ( http://arxiv.org/abs/2310.20410v2 ) ライセンス: Link先を確認 | Yuxin Jiang, Yufei Wang, Xingshan Zeng, Wanjun Zhong, Liangyou Li, Fei Mi, Lifeng Shang, Xin Jiang, Qun Liu, Wei Wang | (参考訳) 命令に従う能力は、LLM(Large Language Models)が様々な現実世界のアプリケーションを扱うために不可欠である。
既存のベンチマークは主に、命令に記載された制約に従って応答を評価するのではなく、純粋な応答品質を評価することに焦点を当てている。
本研究のギャップを埋めるために,LLMのベンチマークに追従する多レベルきめ細粒度制約であるFollowBenchを提案する。
followbenchは、きめ細かい制約の5つの異なるタイプ(コンテンツ、状況、スタイル、フォーマット、例)を包括的に含む。
様々な難易度に対する推定に追従する厳密な制約を実現するために,各レベルに1つの制約をインクリメンタルに追加するマルチレベル機構を導入する。
LLMの出力が個々の制約をすべて満たしたかどうかを評価するため,制約進化経路を持つ強いLCMをオープンエンド命令に対処するために提案する。
FollowBench上での10のオープンソースおよびオープンソースLLMの評価により,今後の研究への道のりを示唆する指導におけるLLMの弱点を強調した。
データとコードはhttps://github.com/yjiangcm/followbenchで公開されている。 The ability to follow instructions is crucial for Large Language Models (LLMs) to handle various real-world applications. Existing benchmarks primarily focus on evaluating pure response quality, rather than assessing whether the response follows constraints stated in the instruction. To fill this research gap, in this paper, we propose FollowBench, a Multi-level Fine-grained Constraints Following Benchmark for LLMs. FollowBench comprehensively includes five different types (i.e., Content, Situation, Style, Format, and Example) of fine-grained constraints. To enable a precise constraint following estimation on diverse difficulties, we introduce a Multi-level mechanism that incrementally adds a single constraint to the initial instruction at each increased level. To assess whether LLMs' outputs have satisfied every individual constraint, we propose to prompt strong LLMs with constraint-evolution paths to handle challenging open-ended instructions. By evaluating ten closed-source and open-source popular LLMs on FollowBench, we highlight the weaknesses of LLMs in instruction following and point towards potential avenues for future work. The data and code are publicly available at https://github.com/YJiangcm/FollowBench. | 翻訳日:2023-11-15 17:49:01 公開日:2023-11-14 |
# 高速スワップ後悔最小化と近似相関平衡への応用 Fast swap regret minimization and applications to approximate correlated equilibria ( http://arxiv.org/abs/2310.19647v2 ) ライセンス: Link先を確認 | Binghui Peng and Aviad Rubinstein | (参考訳) 任意の定数 $\varepsilon>0$ に対して、$t = \mathsf{polylog}(n)$ round で$\varepsilon t$-swap の後悔を得るという、単純で計算効率の良いアルゴリズムを与える。
我々のアルゴリズムは$\varepsilon$に指数関数的依存を持つが、我々は一致する新しい下界を証明する。
Our algorithm for swap regret implies faster convergence to $\varepsilon$-Correlated Equilibrium ($\varepsilon$-CE) in several regimes: For normal form two-player games with $n$ actions, it implies the first uncoupled dynamics that converges to the set of $\varepsilon$-CE in polylogarithmic rounds; a $\mathsf{polylog}(n)$-bit communication protocol for $\varepsilon$-CE in two-player games (resolving an open problem mentioned by [Babichenko-Rubinstein'2017, Goos-Rubinstein'2018, Ganor-CS'2018]); and an $\tilde{O}(n)$-query algorithm for $\varepsilon$-CE (resolving an open problem of [Babichenko'2020] and obtaining the first separation between $\varepsilon$-CE and $\varepsilon$-Nash equilibrium in the query complexity model).
広義のゲームの場合、我々のアルゴリズムはPTAS for $\mathit{normal}$ $\mathit{form}$ $\mathit{correlated}$ $\mathit{equilibria}$, 計算的に難解であると予想される(例: [Stengel-Forges'08, Fujii'23])。 We give a simple and computationally efficient algorithm that, for any constant $\varepsilon>0$, obtains $\varepsilon T$-swap regret within only $T = \mathsf{polylog}(n)$ rounds; this is an exponential improvement compared to the super-linear number of rounds required by the state-of-the-art algorithm, and resolves the main open problem of [Blum and Mansour 2007]. Our algorithm has an exponential dependence on $\varepsilon$, but we prove a new, matching lower bound. Our algorithm for swap regret implies faster convergence to $\varepsilon$-Correlated Equilibrium ($\varepsilon$-CE) in several regimes: For normal form two-player games with $n$ actions, it implies the first uncoupled dynamics that converges to the set of $\varepsilon$-CE in polylogarithmic rounds; a $\mathsf{polylog}(n)$-bit communication protocol for $\varepsilon$-CE in two-player games (resolving an open problem mentioned by [Babichenko-Rubinstein'2017, Goos-Rubinstein'2018, Ganor-CS'2018]); and an $\tilde{O}(n)$-query algorithm for $\varepsilon$-CE (resolving an open problem of [Babichenko'2020] and obtaining the first separation between $\varepsilon$-CE and $\varepsilon$-Nash equilibrium in the query complexity model). For extensive-form games, our algorithm implies a PTAS for $\mathit{normal}$ $\mathit{form}$ $\mathit{correlated}$ $\mathit{equilibria}$, a solution concept often conjectured to be computationally intractable (e.g. [Stengel-Forges'08, Fujii'23]). | 翻訳日:2023-11-15 17:48:13 公開日:2023-11-14 |
# 自然ドメイン基盤モデルは医用画像分類に有用か? Are Natural Domain Foundation Models Useful for Medical Image Classification? ( http://arxiv.org/abs/2310.19522v2 ) ライセンス: Link先を確認 | Joana Pal\'es Huix and Adithya Raju Ganeshan and Johan Fredin Haslum and Magnus S\"oderberg and Christos Matsoukas and Kevin Smith | (参考訳) ディープラーニングの分野は、さまざまなタスクに容易に適応できる一般的な基礎モデルの利用に集約されている。
このパラダイムシフトは自然言語処理の分野で一般的に行われているが、コンピュータビジョンでは進歩が遅くなっている。
本稿では, 医用画像分類課題に対する各種基礎モデルの転送可能性について検討し, この問題に対処しようとする。
具体的には, SAM, SEEM, DINOv2, BLIP, OpenCLIPの5つの基礎モデルの性能評価を行った。
これらのモデルの可能性を完全に活用するために、さまざまなトレーニング設定を検討します。
我々の研究は様々な結果を示している。
DINOv2は、ImageNet事前トレーニングの標準プラクティスを一貫して上回っている。
しかし、他の基盤モデルは、医療画像分類タスクへの転送可能性の限界を示すこの確立されたベースラインを一貫して打ち負かさなかった。 The deep learning field is converging towards the use of general foundation models that can be easily adapted for diverse tasks. While this paradigm shift has become common practice within the field of natural language processing, progress has been slower in computer vision. In this paper we attempt to address this issue by investigating the transferability of various state-of-the-art foundation models to medical image classification tasks. Specifically, we evaluate the performance of five foundation models, namely SAM, SEEM, DINOv2, BLIP, and OpenCLIP across four well-established medical imaging datasets. We explore different training settings to fully harness the potential of these models. Our study shows mixed results. DINOv2 consistently outperforms the standard practice of ImageNet pretraining. However, other foundation models failed to consistently beat this established baseline indicating limitations in their transferability to medical image classification tasks. | 翻訳日:2023-11-15 17:47:28 公開日:2023-11-14 |
# LLMの理解と実装能力の相違によるテキスト要約の現実的整合性の改善 Improving Factual Consistency of Text Summarization by Adversarially Decoupling Comprehension and Embellishment Abilities of LLMs ( http://arxiv.org/abs/2310.19347v3 ) ライセンス: Link先を確認 | Huawen Feng, Yan Fan, Xiong Liu, Ting-En Lin, Zekun Yao, Yuchuan Wu, Fei Huang, Yongbin Li, Qianli Ma | (参考訳) 大規模言語モデル(llm)によるテキスト要約の最近の進歩にもかかわらず、それらはテキスト生成において「幻覚」として知られる元の記事と事実上矛盾する要約を生成することが多い。
従来の小さなモデル(例えばBART、T5)とは異なり、現在のLLMは愚かなミスを少なくするが、原因や効果を示唆する、誤った詳細を追加する、過度に一般化するなど、より洗練されたものを作る。
これらの幻覚は従来の手法による検出が困難であり、テキスト要約の事実整合性を改善する上で大きな課題となる。
本稿では,LLM(DECENT)の包括的・包括的NT能力を阻害する逆デカップリング手法を提案する。
さらに, LLMの学習過程において, 真偽に対する感度の不足を補うために, 探索に基づく効率的な訓練を取り入れた。
このように、LLMは実装や理解について混乱しにくく、より正確に命令を実行でき、幻覚を識別する能力を高めることができる。
実験の結果, llmsに基づくテキスト要約の信頼性が有意に向上した。 Despite the recent progress in text summarization made by large language models (LLMs), they often generate summaries that are factually inconsistent with original articles, known as "hallucinations" in text generation. Unlike previous small models (e.g., BART, T5), current LLMs make fewer silly mistakes but more sophisticated ones, such as imposing cause and effect, adding false details, overgeneralizing, etc. These hallucinations are challenging to detect through traditional methods, which poses great challenges for improving the factual consistency of text summarization. In this paper, we propose an adversarially DEcoupling method to disentangle the Comprehension and EmbellishmeNT abilities of LLMs (DECENT). Furthermore, we adopt a probing-based efficient training to cover the shortage of sensitivity for true and false in the training process of LLMs. In this way, LLMs are less confused about embellishing and understanding; thus, they can execute the instructions more accurately and have enhanced abilities to distinguish hallucinations. Experimental results show that DECENT significantly improves the reliability of text summarization based on LLMs. | 翻訳日:2023-11-15 17:47:13 公開日:2023-11-14 |
# 同時シーケンス生成のための統一セグメント・ツー・セグメンテーションフレームワーク Unified Segment-to-Segment Framework for Simultaneous Sequence Generation ( http://arxiv.org/abs/2310.17940v2 ) ライセンス: Link先を確認 | Shaolei Zhang, Yang Feng | (参考訳) 同時シーケンス生成は、ストリーミング音声認識、同時機械翻訳、同時音声翻訳などのリアルタイムシナリオにおいて重要なタスクであり、ソースシーケンスを受信しながらターゲットシーケンスを生成する。
低レイテンシで高品質な生成を実現するのは、ソースとターゲットシーケンスのマッピングを学習して、生成する最適なモーメントを特定することにある。
しかし、既存の手法は、しばしば異なるシーケンスタイプに対するタスク固有のヒューリスティックに依存し、ソースターゲットマッピングを適応的に学習する能力を制限するとともに、様々な同時タスクに対するマルチタスク学習の探索を妨げる。
本稿では,同時シーケンス生成のための統合セグメント・ツー・セグメンテーション・フレームワーク(Seg2Seg)を提案する。
同時生成の過程では、モデルがソースセグメントの待機とターゲットセグメントの生成とを交互に行い、セグメンテーションをソースとターゲットの間の自然なブリッジとして機能させる。
これを達成するため、seg2segは目標とするソース間のピボットとして潜在セグメントを導入し、提案する期待トレーニングを通じてすべてのソース・ターゲットマッピングを探索し、生成の最適なモーメントを学習する。
複数の同時生成タスクの実験は、Seg2Segが最先端のパフォーマンスを達成し、様々なタスクにわたってより良い汎用性を示すことを示した。 Simultaneous sequence generation is a pivotal task for real-time scenarios, such as streaming speech recognition, simultaneous machine translation and simultaneous speech translation, where the target sequence is generated while receiving the source sequence. The crux of achieving high-quality generation with low latency lies in identifying the optimal moments for generating, accomplished by learning a mapping between the source and target sequences. However, existing methods often rely on task-specific heuristics for different sequence types, limiting the model's capacity to adaptively learn the source-target mapping and hindering the exploration of multi-task learning for various simultaneous tasks. In this paper, we propose a unified segment-to-segment framework (Seg2Seg) for simultaneous sequence generation, which learns the mapping in an adaptive and unified manner. During the process of simultaneous generation, the model alternates between waiting for a source segment and generating a target segment, making the segment serve as the natural bridge between the source and target. To accomplish this, Seg2Seg introduces a latent segment as the pivot between source to target and explores all potential source-target mappings via the proposed expectation training, thereby learning the optimal moments for generating. Experiments on multiple simultaneous generation tasks demonstrate that Seg2Seg achieves state-of-the-art performance and exhibits better generality across various tasks. | 翻訳日:2023-11-15 17:46:25 公開日:2023-11-14 |
# 静的力を持つ二元格子における周期ジャンプ Periodic jumps in binary lattices with a static force ( http://arxiv.org/abs/2310.17873v2 ) ライセンス: Link先を確認 | Liwei Duan | (参考訳) スタガー付きオンサイトエネルギーを有する2成分格子内の粒子のダイナミクスについて検討する。
オンサイトエネルギーをさらに調整する追加の静的力が導入される。
二項格子は、周期的に駆動される二レベル系を記述する半古典的ラビモデルとは無関係である。
しかしながら、あるパリティ部分空間において、半古典的ラビモデルのフロケットハミルトニアンは、二項格子のそれと正確にマッピングすることができる。
これらの接続は格子系の解析に異なる視点を与える。
共鳴、すなわち隣接する場所間のオンサイトエネルギーのミスマッチが静的力の強さのほぼ倍である場合、レベル反交差が起こる。
この現象は半古典的ラビモデルにおけるブロッホ・ジーガートシフトと密接に関連している。
n$ 次共鳴では、最初の局所化された粒子は、隣接するサイト間の連続ホップではなく、サイト $0$ とサイト $(2n+1)$ の間の周期的なジャンプを示す。
静的力を持つ二元格子は、半古典的ラビモデルとの接続のため、凝縮物質物理学と量子光学を繋ぐ橋として機能する。 We investigate the dynamics of a particle in a binary lattice with staggered on-site energies. An additional static force is introduced which further adjusts the on-site energies. The binary lattice appears to be unrelated to the semiclassical Rabi model, which describes a periodically driven two-level system. However, in a certain parity subspace, the Floquet Hamiltonian of the semiclassical Rabi model can be exactly mapped to that of the binary lattice. These connections provide a different perspective for analyzing lattice systems. At resonance, namely that the mismatch of on-site energies between adjacent sites is nearly multiple of the strength of the static force, the level anticrossing occurs. This phenomenon is closely related to the Bloch-Siegert shift in the semiclassical Rabi model. At the $n$th order resonance, an initially localized particle exhibits periodic jumps between site $0$ and site $(2n+1)$, rather than continuous hopping between adjacent sites. The binary lattice with a static force serves as a bridge linking condensed matter physics and quantum optics, due to its connection with the semiclassical Rabi model. | 翻訳日:2023-11-15 17:46:00 公開日:2023-11-14 |
# データ中心型金融大言語モデル Data-Centric Financial Large Language Models ( http://arxiv.org/abs/2310.17784v2 ) ライセンス: Link先を確認 | Zhixuan Chu, Huaiyu Guo, Xinyuan Zhou, Yijia Wang, Fei Yu, Hong Chen, Wanqing Xu, Xin Lu, Qing Cui, Longfei Li, Jun Zhou, Sheng Li | (参考訳) 大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。
llmはすべての関連する情報の推論と統合が難しい。
我々は、llmが金融業務をよりうまく扱うためのデータ中心のアプローチを提案する。
私たちの重要な洞察は、すべてを一度にLLMをオーバーロードするのではなく、データの事前処理と事前理解がより効果的であるということです。
我々は,マルチタスク・プロンプトに基づくファインタニングを用いた金融LLM(FLLM)を作成し,データの事前処理と事前理解を実現する。
しかし、ラベル付きデータは各タスクに乏しい。
手動アノテーションのコストを克服するため、FLLMの出力から擬似ラベルを変更することで、誘導的拡張推論(AAR)を用いてトレーニングデータを自動的に生成する。
実験の結果,データ中心のFLLMとAARは,生テキスト用に設計された基本的財務LLMを著しく上回り,財務分析や解釈タスクの最先端を達成していることがわかった。
また、財務分析と解釈のための新しいベンチマークをオープンソースにしています。
我々の方法論は、複雑な現実世界のドメインに対するLLMのポテンシャルを解き放つための有望な道を提供する。 Large language models (LLMs) show promise for natural language tasks but struggle when applied directly to complex domains like finance. LLMs have difficulty reasoning about and integrating all relevant information. We propose a data-centric approach to enable LLMs to better handle financial tasks. Our key insight is that rather than overloading the LLM with everything at once, it is more effective to preprocess and pre-understand the data. We create a financial LLM (FLLM) using multitask prompt-based finetuning to achieve data pre-processing and pre-understanding. However, labeled data is scarce for each task. To overcome manual annotation costs, we employ abductive augmentation reasoning (AAR) to automatically generate training data by modifying the pseudo labels from FLLM's own outputs. Experiments show our data-centric FLLM with AAR substantially outperforms baseline financial LLMs designed for raw text, achieving state-of-the-art on financial analysis and interpretation tasks. We also open source a new benchmark for financial analysis and interpretation. Our methodology provides a promising path to unlock LLMs' potential for complex real-world domains. | 翻訳日:2023-11-15 17:45:42 公開日:2023-11-14 |
# オープンドメイン質問応答における非関連文書の歪み低減によるゼロショット読解の改善 Improving Zero-shot Reader by Reducing Distractions from Irrelevant Documents in Open-Domain Question Answering ( http://arxiv.org/abs/2310.17490v3 ) ライセンス: Link先を確認 | Sukmin Cho, Jeongyeon Seo, Soyeong Jeong, Jong C. Park | (参考訳) 大規模言語モデル (LLM) は、オープンドメイン質問応答 (ODQA) においてゼロショットアプローチを可能にするが、読者が検索者と比較されるにつれて、進歩は限られている。
本研究の目的は,計算コストの課題とラベル付きデータの必要性に対処するゼロショットリーダの実現性である。
LLMは、検索された集合の無関係な文書と、ゼロショットリーダーとして利用された際の生成した回答の過度な信頼のため、混乱していることがわかった。
これらの問題に対処するため,DAS(Distract-Aware Answer Selection)を用いて,適切な回答選択のための否定に基づく命令とスコア調整を行う。
実験の結果,提案手法は様々なシナリオにまたがって注意をそらすことに成功し,ゼロショットリーダーの性能が向上した。
さらに、目に見えないデータに苦しむ教師付き読者とは異なり、ゼロショット読者はトレーニングなしで優れた転送性を示す。 Large language models (LLMs) enable zero-shot approaches in open-domain question answering (ODQA), yet with limited advancements as the reader is compared to the retriever. This study aims at the feasibility of a zero-shot reader that addresses the challenges of computational cost and the need for labeled data. We find that LLMs are distracted due to irrelevant documents in the retrieved set and the overconfidence of the generated answers when they are exploited as zero-shot readers. To tackle these problems, we mitigate the impact of such documents via Distraction-aware Answer Selection (DAS) with a negation-based instruction and score adjustment for proper answer selection. Experimental results show that our approach successfully handles distraction across diverse scenarios, enhancing the performance of zero-shot readers. Furthermore, unlike supervised readers struggling with unseen data, zero-shot readers demonstrate outstanding transferability without any training. | 翻訳日:2023-11-15 17:45:24 公開日:2023-11-14 |
# 第1回生成AIと法に関するワークショップ報告 Report of the 1st Workshop on Generative AI and Law ( http://arxiv.org/abs/2311.06477v2 ) ライセンス: Link先を確認 | A. Feder Cooper, Katherine Lee, James Grimmelmann, Daphne Ippolito, Christopher Callison-Burch, Christopher A. Choquette-Choo, Niloofar Mireshghallah, Miles Brundage, David Mimno, Madiha Zahrah Choksi, Jack M. Balkin, Nicholas Carlini, Christopher De Sa, Jonathan Frankle, Deep Ganguli, Bryant Gipson, Andres Guadamuz, Swee Leng Harris, Abigail Z. Jacobs, Elizabeth Joh, Gautam Kamath, Mark Lemley, Cass Matthews, Christine McLeavey, Corynne McSherry, Milad Nasr, Paul Ohm, Adam Roberts, Tom Rubin, Pamela Samuelson, Ludwig Schubert, Kristen Vaccaro, Luis Villa, Felix Wu, Elana Zeide | (参考訳) 本報告では,2023年7月に開催された第1回生成AI法ワークショップ(GenLaw)について述べる。
コンピュータ科学と法学の実践者と学者の学際的なグループが集まり、生成aiに関する法律と法のための生成aiによって提示される技術的、教義的、そして政策上の課題について議論し、特にアメリカ法を強調した。
我々は、なぜジェネレーティブAIが法律にとって非常に重要で、非常に難しいのか、という高いレベルの声明でレポートを開始する。
これらの課題を満たすために、我々は、必要不可欠なニーズがあると結論づける。
1) 専門分野にまたがる専門家に共通の概念言語を提供する共有知識ベース
2)他のコンピュータ及びAIシステムと比較して,生成型AIシステムの特有な技術的能力の明確化
3) これらの制度が提起する法的問題に関する論理的分類,及び
4) 創発的AIと法律の交差する新興問題における協力と知識共有を促進するための具体的な研究課題。
本報告では,これらのニーズに対処し始めるgenlawワークショップの要点をまとめる。
リストされた著者の全員がこのレポートをベースとしたワークショップに貢献したが、彼らとその組織は必ずしもこのレポートのすべての特定の主張を支持していない。 This report presents the takeaways of the inaugural Workshop on Generative AI and Law (GenLaw), held in July 2023. A cross-disciplinary group of practitioners and scholars from computer science and law convened to discuss the technical, doctrinal, and policy challenges presented by law for Generative AI, and by Generative AI for law, with an emphasis on U.S. law in particular. We begin the report with a high-level statement about why Generative AI is both immensely significant and immensely challenging for law. To meet these challenges, we conclude that there is an essential need for 1) a shared knowledge base that provides a common conceptual language for experts across disciplines; 2) clarification of the distinctive technical capabilities of generative-AI systems, as compared and contrasted to other computer and AI systems; 3) a logical taxonomy of the legal issues these systems raise; and, 4) a concrete research agenda to promote collaboration and knowledge-sharing on emerging issues at the intersection of Generative AI and law. In this report, we synthesize the key takeaways from the GenLaw workshop that begin to address these needs. All of the listed authors contributed to the workshop upon which this report is based, but they and their organizations do not necessarily endorse all of the specific claims in this report. | 翻訳日:2023-11-15 17:38:18 公開日:2023-11-14 |
# フェイクアライメント:LLMは本当にアライメントが良いのか? Fake Alignment: Are LLMs Really Aligned Well? ( http://arxiv.org/abs/2311.05915v2 ) ライセンス: Link先を確認 | Yixu Wang, Yan Teng, Kexin Huang, Chengqi Lyu, Songyang Zhang, Wenwei Zhang, Xingjun Ma, Yu-Gang Jiang, Yu Qiao, Yingchun Wang | (参考訳) 大規模言語モデル(LLM)における安全性に対する意識の高まりは、現在の研究成果における安全性評価に大きな関心を喚起している。
本研究は,LLMの評価に係わる興味深い問題,すなわち,複数質問とオープンエンド質問の相違点について考察する。
脱獄攻撃パターンの研究に触発されて、これは不一致の一般化によって引き起こされると主張している。
すなわち、LLMは、複雑な安全性の概念を包括的に理解していない。
その代わり、オープンエンドの安全問題に対して何に答えるべきかしか覚えていないため、他のタイプの安全テストは解決できない。
この現象を偽アライメントと呼び、LLMにおけるその存在を実証的に検証するための比較ベンチマークを構築する。
このような偽アライメントは、以前の評価プロトコルを信頼できないものにする。
そこで本研究では,ニセアライメント評価(fine)フレームワークと2つの新しいメトリクス-一貫性スコア(cs)と一貫性安全性スコア(css)を導入し,ニセアライメントを定量化し,補正された性能推定値を得る。
FINEを14基の広く使われているLCMに適用すると、安全性が保証されているモデルが実際には整合性が悪いことが分かる。
我々の研究は、普及するアライメント方法論の潜在的な限界を強調している。 The growing awareness of safety concerns in large language models (LLMs) has sparked considerable interest in the evaluation of safety within current research endeavors. This study investigates an interesting issue pertaining to the evaluation of LLMs, namely the substantial discrepancy in performance between multiple-choice questions and open-ended questions. Inspired by research on jailbreak attack patterns, we argue this is caused by mismatched generalization. That is, the LLM does not have a comprehensive understanding of the complex concept of safety. Instead, it only remembers what to answer for open-ended safety questions, which makes it unable to solve other forms of safety tests. We refer to this phenomenon as fake alignment and construct a comparative benchmark to empirically verify its existence in LLMs. Such fake alignment renders previous evaluation protocols unreliable. To address this, we introduce the Fake alIgNment Evaluation (FINE) framework and two novel metrics--Consistency Score (CS) and Consistent Safety Score (CSS), which jointly assess two complementary forms of evaluation to quantify fake alignment and obtain corrected performance estimates. Applying FINE to 14 widely-used LLMs reveals several models with purported safety are poorly aligned in practice. Our work highlights potential limitations in prevailing alignment methodologies. | 翻訳日:2023-11-15 17:37:37 公開日:2023-11-14 |
# Scale-MIA:潜時空間再構成によるセキュアフェデレーション学習に対するスケーラブルモデル反転攻撃 Scale-MIA: A Scalable Model Inversion Attack against Secure Federated Learning via Latent Space Reconstruction ( http://arxiv.org/abs/2311.05808v2 ) ライセンス: Link先を確認 | Shanghao Shi, Ning Wang, Yang Xiao, Chaoyu Zhang, Yi Shi, Y.Thomas Hou, Wenjing Lou | (参考訳) フェデレーション学習は参加者のデータプライバシーを保護する能力で知られている。
しかし,最近出現したモデル逆転攻撃 (MIA) は,悪意のあるパラメータサーバが,モデル更新を通じて個々のユーザのローカルデータサンプルを再構築可能であることを示した。
最先端の攻撃は、計算集約的な検索ベースの最適化プロセスに依存して、各入力バッチを回復し、スケーリングを難しくするか、あるいはグローバルモデルアーキテクチャの前に追加モジュールを追加する悪意のあるパラメータサーバを巻き込み、攻撃を目立たず簡単に検出する。
このような制限を克服するために,堅牢なセキュアなアグリゲーションプロトコルの保護下にある場合でも,クライアントのトレーニングサンプルを集約された更新から効率的にかつ正確に回収できる新しいMIAであるScale-MIAを提案する。
モデルをブラックボックスとして扱う既存のアプローチとは異なり、Scale-MIAは複雑なアーキテクチャと機械学習モデルの内部動作の重要性を認識している。
潜在空間をプライバシを侵害する重要なレイヤとして識別し、複雑なリカバリタスクを革新的な2段階のプロセスに分解し、計算の複雑さを低減します。
最初のステップは、閉じた形式反転機構を使用して集約されたモデル更新から潜在空間表現(LSR)を再構築し、特別に製作された逆線形層を活用することである。
第2のステップでは、入力バッチ全体は、細調整された生成デコーダに入力することでLSRから回収される。
複数の一般的な機械学習モデルにスケール-MIAを実装し、様々な設定で包括的な実験を行った。
その結果、スケール・ミアは様々なデータセットにおいて優れたリカバリ性能を達成し、最先端miasと比較して高い再構成率、正確性、攻撃効率を示すことが示された。 Federated learning is known for its capability to safeguard participants' data privacy. However, recently emerged model inversion attacks (MIAs) have shown that a malicious parameter server can reconstruct individual users' local data samples through model updates. The state-of-the-art attacks either rely on computation-intensive search-based optimization processes to recover each input batch, making scaling difficult, or they involve the malicious parameter server adding extra modules before the global model architecture, rendering the attacks too conspicuous and easily detectable. To overcome these limitations, we propose Scale-MIA, a novel MIA capable of efficiently and accurately recovering training samples of clients from the aggregated updates, even when the system is under the protection of a robust secure aggregation protocol. Unlike existing approaches treating models as black boxes, Scale-MIA recognizes the importance of the intricate architecture and inner workings of machine learning models. It identifies the latent space as the critical layer for breaching privacy and decomposes the complex recovery task into an innovative two-step process to reduce computation complexity. The first step involves reconstructing the latent space representations (LSRs) from the aggregated model updates using a closed-form inversion mechanism, leveraging specially crafted adversarial linear layers. In the second step, the whole input batches are recovered from the LSRs by feeding them into a fine-tuned generative decoder. We implemented Scale-MIA on multiple commonly used machine learning models and conducted comprehensive experiments across various settings. The results demonstrate that Scale-MIA achieves excellent recovery performance on different datasets, exhibiting high reconstruction rates, accuracy, and attack efficiency on a larger scale compared to state-of-the-art MIAs. | 翻訳日:2023-11-15 17:37:12 公開日:2023-11-14 |
# 時間制約強化学習 Anytime-Constrained Reinforcement Learning ( http://arxiv.org/abs/2311.05511v2 ) ライセンス: Link先を確認 | Jeremy McMahan, Xiaojin Zhu | (参考訳) 制約付きマルコフ決定過程(cMDP)を任意の制約で導入・研究する。
いかなる時でも、エージェントはいかなる時点でも、ほぼ確実にその予算に違反しないよう要求する。
マルコフの政策はもはや不十分であるが、累積コストで拡張された最適な決定論的政策が存在することを示す。
実際、時間制約のcMDPを非制約のMDPに還元する固定パラメータを提示する。
我々の削減は,cMDPの精度が対数的である限り,表型cMDPの時間的およびサンプル効率のよい計画および学習アルゴリズムが得られる。
しかし,非自明な近似的最適方針の計算は一般にnpハードであることが示される。
このボトルネックを回避するため、最大サポートコストがcMDPの多項式あるいは絶対予算で制限される限り、任意の精度でほぼ実現可能なポリシーを最適値で効率的に計算または学習する証明可能な近似アルゴリズムを設計する。
我々の困難さを考えると、最悪のケース分析では近似保証が最善である。 We introduce and study constrained Markov Decision Processes (cMDPs) with anytime constraints. An anytime constraint requires the agent to never violate its budget at any point in time, almost surely. Although Markovian policies are no longer sufficient, we show that there exist optimal deterministic policies augmented with cumulative costs. In fact, we present a fixed-parameter tractable reduction from anytime-constrained cMDPs to unconstrained MDPs. Our reduction yields planning and learning algorithms that are time and sample-efficient for tabular cMDPs so long as the precision of the costs is logarithmic in the size of the cMDP. However, we also show that computing non-trivial approximately optimal policies is NP-hard in general. To circumvent this bottleneck, we design provable approximation algorithms that efficiently compute or learn an arbitrarily accurate approximately feasible policy with optimal value so long as the maximum supported cost is bounded by a polynomial in the cMDP or the absolute budget. Given our hardness results, our approximation guarantees are the best possible under worst-case analysis. | 翻訳日:2023-11-15 17:36:40 公開日:2023-11-14 |
# 指向性物体検出のための線形ガウス境界ボックス表現とリング型回転畳み込み Linear Gaussian Bounding Box Representation and Ring-Shaped Rotated Convolution for Oriented Object Detection ( http://arxiv.org/abs/2311.05410v2 ) ライセンス: Link先を確認 | Zhen Zhou, Yunkai Ma, Junfeng Fan, Zhaoyang Liu, Fengshui Jing and Min Tan | (参考訳) オブジェクト指向物体検出では、オブジェクト指向境界ボックス(OBB)の現在の表現は境界不連続問題にしばしば悩まされる。
連続回帰損失を設計する方法は、この問題を本質的に解決するものではない。
ガウス境界ボックス(gbb)の表現はこの問題を回避するが、直接回帰gbbは数値不安定化の影響を受けやすい。
我々は,新しいOBB表現である線形GBB(LGBB)を提案する。
GBBの要素を線形変換することにより、LGBBは境界不連続問題を避け、高い数値安定性を有する。
加えて、既存の畳み込みに基づく回転感応特徴抽出法は局所受容場しか持たず、特徴集約が遅くなる。
本稿では,輪状受容場下での回転感性特徴を抽出するために,特徴写像を任意の向きに適応的に回転させるリング型回転畳み込み(RRC)を提案する。
実験の結果,LGBBとRCは最先端の性能を達成できた。
さらに,LGBBとRCを様々なモデルに統合することで,検出精度が向上する。 In oriented object detection, current representations of oriented bounding boxes (OBBs) often suffer from boundary discontinuity problem. Methods of designing continuous regression losses do not essentially solve this problem. Although Gaussian bounding box (GBB) representation avoids this problem, directly regressing GBB is susceptible to numerical instability. We propose linear GBB (LGBB), a novel OBB representation. By linearly transforming the elements of GBB, LGBB avoids the boundary discontinuity problem and has high numerical stability. In addition, existing convolution-based rotation-sensitive feature extraction methods only have local receptive fields, resulting in slow feature aggregation. We propose ring-shaped rotated convolution (RRC), which adaptively rotates feature maps to arbitrary orientations to extract rotation-sensitive features under a ring-shaped receptive field, rapidly aggregating features and contextual information. Experimental results demonstrate that LGBB and RRC achieve state-of-the-art performance. Furthermore, integrating LGBB and RRC into various models effectively improves detection accuracy. | 翻訳日:2023-11-15 17:36:24 公開日:2023-11-14 |
# TEAL:マルチモーダル大規模言語モデルのためのTokenize and Embed ALL TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models ( http://arxiv.org/abs/2311.04589v2 ) ライセンス: Link先を確認 | Zhen Yang, Yingxue Zhang, Fandong Meng and Jie Zhou | (参考訳) 近年,MM-LLM(Multi-modal Large Language Models, MM-LLMs)が注目されているが, マルチモーダル入力間の相互作用や非テクスチュアルなモーダル生成のモデル化に苦慮している。
本研究では,任意のモダリティからの入力をトークンシーケンスとして扱い,すべてのモダリティに対する共同埋め込み空間を学習するTEAL(Tokenize and Embed ALl)}を提案する。
具体的には、任意のモダリティからの入力に対して、TEALはまずそれをオフザシェルフトークンライザでトークンシーケンスに離散化し、トークンシーケンスを学習可能な埋め込み行列で結合埋め込み空間に埋め込む。
MM-LLM はテキスト LLM のように自動回帰的にマルチモーダルトークンを予測する必要がある。
最後に、対応するデトケナイザを適用し、予測トークンシーケンスに基づいて各モードで出力を生成する。
共同埋め込み空間により、TEALは凍結したLCMに対して、画像やオーディオなどの非テクスチュアルなモダリティを含む理解と生成の両方を行うことができる。
したがって、テキストLLMはインタフェースとして機能し、テキストの理解と生成において高い性能を維持することができる。
実験により、TEALはマルチモーダル理解を大幅に改善し、マルチモーダル世代のための単純なスキームを実装した。 Despite Multi-modal Large Language Models (MM-LLMs) have made exciting strides recently, they are still struggling to efficiently model the interactions among multi-modal inputs and the generation in non-textual modalities. In this work, we propose TEAL (Tokenize and Embed ALl)}, an approach to treat the input from any modality as a token sequence and learn a joint embedding space for all modalities. Specifically, for the input from any modality, TEAL first discretizes it into a token sequence with the off-the-shelf tokenizer and embeds the token sequence into a joint embedding space with a learnable embedding matrix. MM-LLMs just need to predict the multi-modal tokens autoregressively as the textual LLMs do. Finally, the corresponding de-tokenizer is applied to generate the output in each modality based on the predicted token sequence. With the joint embedding space, TEAL enables the frozen LLMs to perform both understanding and generation tasks involving non-textual modalities, such as image and audio. Thus, the textual LLM can just work as an interface and maintain its high performance in textual understanding and generation. Experiments show that TEAL achieves substantial improvements in multi-modal understanding, and implements a simple scheme for multi-modal generations. | 翻訳日:2023-11-15 17:35:50 公開日:2023-11-14 |
# ダイアグラムからデプロイ: 効率的なマルチロボットシステムプログラミングのためのBPMNコラボレーションをX-Klaimに変換する From Diagram to Deployment: Translating BPMN Collaborations into X-Klaim for Efficient Multi-Robot System Programming ( http://arxiv.org/abs/2311.04126v2 ) ライセンス: Link先を確認 | Khalid Bourr, Francesco Tiezzi | (参考訳) 本稿では,ビジネスプロセスモデルと表記法(BPMN)を,マルチロボットシステム(MRS)のための実行可能なX-クレームコードに変換する新しい手法を提案する。
BPMNの明快さとX-Klaimの運用力を組み合わせることで、ユーザから基礎となるプログラミング言語の深い知識を必要とせずに、複雑なロボットインタラクションの設計と実行を可能にします。
我々のアプローチは、X-Klaimへの翻訳においてBPMNモデルのコア設計原則とロジックを維持し、MSSアプリケーションの可読性と保守性を高めます。
本稿では,変換プロセスを自動化するB2XKLAIMツールを紹介する。
本手法は,設計と実装の段階を通じて,MDSプログラミングの合理化と,ロボット工学者とドメインエキスパートとのコラボレーションの改善を目的とする。 This paper introduces a novel method for translating Business Process Model and Notation (BPMN) diagrams into executable X-Klaim code for Multi-Robot Systems (MRSs). Merging the clarity of BPMN with the operational strength of X-Klaim, we enable the design and execution of complex robotic interactions without requiring in-depth knowledge of the underlying programming language from the users. Our approach maintains the BPMN model's core design principles and logic in the translation to X-Klaim, thus enhancing the readability and maintainability of MRS applications. We offer a series of translated examples, address optimization strategies, and introduce the B2XKLAIM tool, which automates the conversion process. This method aims to streamline MRS programming and improve collaboration between roboticists and domain experts throughout the design and implementation stages. | 翻訳日:2023-11-15 17:35:26 公開日:2023-11-14 |
# バルクダイヤモンドにおけるソーフィッシュフォトニック結晶キャビティの作製 Fabrication of Sawfish photonic crystal cavities in bulk diamond ( http://arxiv.org/abs/2311.03618v2 ) ライセンス: Link先を確認 | Tommaso Pregnolato, Marco E. Stucki, Julian M. Bopp, Maarten H. v. d. Hoeven, Alok Gokhale, Olaf Kr\"uger, and Tim Schr\"oder | (参考訳) ダイヤモンドの色中心は、長いコヒーレンス時間を示す光学活性スピン状態を持つ量子系であり、そのため効率的なスピン光子界面の開発に有望な候補である。
しかし、放出された光子のごく一部のみがゼロフォノン線(zpl)のコヒーレントな光遷移によって生成され、システム全体の性能が制限される。
これらのエミッタをフォトニック結晶空洞に埋め込むことで、zpl光子とのカップリングが改善され、放出速度が向上する。
近年提案されている「ソーフィッシュ」キャビティの創製プロセスについて,46の因子と2つの光子を同時に効率88%の単一モードファイバに結合させることにより,発光速度を同時に向上させる実験現実的な可能性を持つ設計である。
このプロセスでは、総長さが20.5$\mu$mで、サイズは40nmまで小さく、完全に吊り下げられたデバイスを作ることができる。
光学特性は、対応する設計パラメータと品質(Q)因子から期待される振る舞いに従う基本モード共鳴を最大3825まで示す。
最後に, ナノファブリケーションがデバイスに与える影響について検討し, 微細な特性が著しく損なわれるにもかかわらず, キャビティ共鳴の測定値は対応するシミュレーション値から0.9 (1.2)%しかずれないことを示した。
このことは、Sawfishの設計が製造の不完全性に対して堅牢であることを示し、量子フォトニックネットワークの開発において魅力的な選択となっている。 Color centers in diamond are quantum systems with optically active spin-states that show long coherence times and are therefore a promising candidate for the development of efficient spin-photon interfaces. However, only a small portion of the emitted photons is generated by the coherent optical transition of the zero-phonon line (ZPL), which limits the overall performance of the system. Embedding these emitters in photonic crystal cavities improves the coupling to the ZPL photons and increases their emission rate. Here, we demonstrate the fabrication process of "Sawfish" cavities, a design recently proposed that has the experimentally-realistic potential to simultaneously enhance the emission rate by a factor of 46 and couple photons into a single-mode fiber with an efficiency of 88%. The presented process allows for the fabrication of fully suspended devices with a total length of 20.5 $\mu$m and features size as small as 40 nm. The optical characterization shows fundamental mode resonances that follow the behavior expected from the corresponding design parameters and quality (Q) factors as high as 3825. Finally, we investigate the effects of nanofabrication on the devices and show that, despite a noticeable erosion of the fine features, the measured cavity resonances deviate by only 0.9 (1.2)% from the corresponding simulated values. This proves that the Sawfish design is robust against fabrication imperfections, which makes it an attractive choice for the development of quantum photonic networks. | 翻訳日:2023-11-15 17:35:12 公開日:2023-11-14 |
# 物理前処理によるマルチモードファイバーによるイメージング Imaging through multimode fibres with physical prior ( http://arxiv.org/abs/2311.03062v2 ) ライセンス: Link先を確認 | Chuncheng Zhang, Yingjie Shi, Zheyi Yao, Xiubao Sui, Qian Chen | (参考訳) 深層学習に基づく摂動多モードファイバーによるイメージングは広く研究されている。
しかし、既存の手法は主に異なる構成でターゲットとスペックのペアを使用する。
訓練されたネットワークなしでターゲットを再構築することは困難である。
本稿では,物理支援,教師なし,学習に基づくファイバーイメージング方式を提案する。
物理的事前の役割は、スペックルパターンと対象画像の間のマッピング関係を単純化し、計算の複雑さを低減させることである。
教師なしネットワークは、物理先行によって提供される最適化方向に従って目標特徴を学習する。
したがって、オンライン学習の再構築プロセスは、少数のスペックルパターンと未実装の目標のみを必要とする。
提案手法は,摂動マルチモードファイバーにおける学習ベース手法の一般化能力も向上する。
提案手法はマルチモードファイバー画像の応用を拡大する可能性がある。 Imaging through perturbed multimode fibres based on deep learning has been widely researched. However, existing methods mainly use target-speckle pairs in different configurations. It is challenging to reconstruct targets without trained networks. In this paper, we propose a physics-assisted, unsupervised, learning-based fibre imaging scheme. The role of the physical prior is to simplify the mapping relationship between the speckle pattern and the target image, thereby reducing the computational complexity. The unsupervised network learns target features according to the optimized direction provided by the physical prior. Therefore, the reconstruction process of the online learning only requires a few speckle patterns and unpaired targets. The proposed scheme also increases the generalization ability of the learning-based method in perturbed multimode fibres. Our scheme has the potential to extend the application of multimode fibre imaging. | 翻訳日:2023-11-15 17:34:19 公開日:2023-11-14 |
# 内IoU:補助バウンディングボックスによるユニオン損失に対するより効果的なインターセクション Inner-IoU: More Effective Intersection over Union Loss with Auxiliary Bounding Box ( http://arxiv.org/abs/2311.02877v4 ) ライセンス: Link先を確認 | Hao Zhang, Cong Xu, Shuaijie Zhang | (参考訳) 検出器の急速な開発に伴い、バウンディングボックス回帰(BBR)損失関数は常に更新され、最適化されている。
しかし、既存のIoUベースのBBRは、IoU損失項自体の制限を無視して、新たな損失項を追加することで収束を加速することに注力している。
理論的には、IoU損失はバウンディングボックス回帰の状態を効果的に記述できるが、実際は異なる検出器や検出タスクに従って自分自身を調整できず、強力な一般化を持たない。
以上に基づいて,まずBBRモデルを解析し,異なる回帰サンプルを識別し,異なるスケールの補助的境界ボックスを用いて損失を計算することにより,境界ボックス回帰過程を効果的に加速することができると結論付けた。
高いIoUサンプルでは、損失を計算するために小さい補助的境界ボックスを使用することで収束を加速し、大きな補助的境界ボックスは低いIoUサンプルに適している。
そこで我々は,補助的バウンディングボックスを通じてIoU損失を算出する内IoU損失を提案する。
異なるデータセットと検出器に対して、損失を計算するための補助境界ボックスのスケールサイズを制御するためのスケーリング係数比を導入する。
最後に、シミュレーションと比較実験のために既存のIoUベースの損失関数にInner-IoUを統合する。
実験の結果,本論文で提案する手法の活用により検出性能がさらに向上し,内部iou損失の有効性と一般化性が検証された。
コードはhttps://github.com/malagoutou/Inner-IoU.comで入手できる。 With the rapid development of detectors, Bounding Box Regression (BBR) loss function has constantly updated and optimized. However, the existing IoU-based BBR still focus on accelerating convergence by adding new loss terms, ignoring the limitations of IoU loss term itself. Although theoretically IoU loss can effectively describe the state of bounding box regression,in practical applications, it cannot adjust itself according to different detectors and detection tasks, and does not have strong generalization. Based on the above, we first analyzed the BBR model and concluded that distinguishing different regression samples and using different scales of auxiliary bounding boxes to calculate losses can effectively accelerate the bounding box regression process. For high IoU samples, using smaller auxiliary bounding boxes to calculate losses can accelerate convergence, while larger auxiliary bounding boxes are suitable for low IoU samples. Then, we propose Inner-IoU loss, which calculates IoU loss through auxiliary bounding boxes. For different datasets and detectors, we introduce a scaling factor ratio to control the scale size of the auxiliary bounding boxes for calculating losses. Finally, integrate Inner-IoU into the existing IoU-based loss functions for simulation and comparative experiments. The experiment result demonstrate a further enhancement in detection performance with the utilization of the method proposed in this paper, verifying the effectiveness and generalization ability of Inner-IoU loss. Code is available at https://github.com/malagoutou/Inner-IoU. | 翻訳日:2023-11-15 17:34:10 公開日:2023-11-14 |
# ランダム量子状態の非特異性に対する厳密指数 Exact Exponent for Atypicality of Random Quantum States ( http://arxiv.org/abs/2311.02534v2 ) ライセンス: Link先を確認 | Eyuri Wakakuwa | (参考訳) 両部量子系上の一様ランダムな純状態から誘導されるランダムな量子状態の特性を,より大きな部分系上の部分的トレースを用いて検討する。
これまでの研究の多くは「測度の集中」という視点を採用しており、平均に近い状態の行動に焦点を当てている。
対照的に、州が平均から遠く離れている可能性がある大規模な偏差体制を調査する。
第一に、誘導ランダム状態が与えられた集合内にある確率は、追跡されたサブシステムの次元において指数関数よりも遅くも速くも減少しない。
第二に、指数は最大混合状態と与えられた集合の量子相対エントロピーに等しく、残りの部分系の次元に乗じる。
第三に、与えられた集合の全体確率は、条件濃度と呼ばれる性質である最大混合状態に最も近い要素の周りに強く集中する。
同じ線に沿って、大きな次元を持つ単一系におけるランダム純粋状態のコヒーレンスの漸近挙動についても検討する。 We study the properties of the random quantum states induced from the uniformly random pure states on a bipartite quantum system by taking the partial trace over the larger subsystem. Most of the previous studies have adopted a viewpoint of "concentration of measure" and have focused on the behavior of the states close to the average. In contrast, we investigate the large deviation regime, where the states may be far from the average. We prove the following results: First, the probability that the induced random state is within a given set decreases no slower or faster than exponential in the dimension of the subsystem traced out. Second, the exponent is equal to the quantum relative entropy of the maximally mixed state and the given set, multiplied by the dimension of the remaining subsystem. Third, the total probability of a given set strongly concentrates around the element closest to the maximally mixed state, a property that we call conditional concentration. Along the same line, we also investigate an asymptotic behavior of coherence of random pure states in a single system with large dimensions. | 翻訳日:2023-11-15 17:33:45 公開日:2023-11-14 |
# 多言語機械翻訳モデルを用いたマルチピボットセンシングの検討 Investigating Multi-Pivot Ensembling with Massively Multilingual Machine Translation Models ( http://arxiv.org/abs/2311.07439v2 ) ライセンス: Link先を確認 | Alireza Mohammadshahi and Jannis Vamvas and Rico Sennrich | (参考訳) 大規模な多言語機械翻訳モデルでは、1つのモデルで多数の言語を翻訳できるが、低リソースと低リソースの翻訳では性能が限られている。
高いリソース言語によるピボットは、低リソースの方向性のための強力な戦略であり、本論文では、複数の言語をピボットする方法を再検討する。
従来の研究では、複数の経路からの確率分布の単純な平均化が用いられてきたが、これは1つのピボットを使うよりも悪く、同じ幻覚が異なる経路で観測できるため、幻覚の問題を悪化させる。
代替として、最も自信のある予測に偏りがある組合せ戦略であるMaxEnsを提案し、自信のある予測は幻覚の傾向が低いと仮定する。
我々は,低リソース言語20方向に対するフロレスベンチマークの異なる戦略を評価し,maxensが低リソース言語に対する翻訳品質を改善しつつ,翻訳における幻覚を低減し,直接翻訳と平均化アプローチの両方に比較した。
平均的なマルチピボット戦略は、英語を単一のピボット言語として使うよりも遅れており、与えられた翻訳方向の最良のピボット戦略をどうやって特定するかという疑問が提起されている。 Massively multilingual machine translation models allow for the translation of a large number of languages with a single model, but have limited performance on low- and very-low-resource translation directions. Pivoting via high-resource languages remains a strong strategy for low-resource directions, and in this paper we revisit ways of pivoting through multiple languages. Previous work has used a simple averaging of probability distributions from multiple paths, but we find that this performs worse than using a single pivot, and exacerbates the hallucination problem because the same hallucinations can be probable across different paths. As an alternative, we propose MaxEns, a combination strategy that is biased towards the most confident predictions, hypothesising that confident predictions are less prone to be hallucinations. We evaluate different strategies on the FLORES benchmark for 20 low-resource language directions, demonstrating that MaxEns improves translation quality for low-resource languages while reducing hallucination in translations, compared to both direct translation and an averaging approach. On average, multi-pivot strategies still lag behind using English as a single pivot language, raising the question of how to identify the best pivoting strategy for a given translation direction. | 翻訳日:2023-11-15 17:24:33 公開日:2023-11-14 |
# 火山:自己フィードバックガイドによるマルチモーダル幻覚の緩和 Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision ( http://arxiv.org/abs/2311.07362v2 ) ライセンス: Link先を確認 | Seongyun Lee and Sue Hyun Park and Yongrae Jo and Minjoon Seo | (参考訳) 大規模マルチモーダルモデル (LMM) は多モード幻覚に悩まされ、与えられた視覚情報と間違った反応を提供する。
近年の研究では、マルチモーダル幻覚の原因の1つは、視覚エンコーダが画像に正しく接地できないためかもしれないと推測されている。
この問題を軽減するために,自己フィードバックを視覚的手がかりとして活用する新しいアプローチを提案する。
このアプローチに基づいて,マルチモーダルな自己フィードバック型リビジョンモデルであるVolcanoを導入する。
火山は、提供された視覚情報に基づいて、初期応答に対する自然言語フィードバックを生成し、このフィードバックを利用して初期応答を自己修正する。
火山は、マルチモーダル幻覚を効果的に低減し、MMHal-Bench、POPE、GAVIEの最先端を達成する。
また、一般的なマルチモーダル能力を改善し、MM-Vet や MMBench で以前のモデルより優れている。
定性解析により,火山のフィードバックが初期応答よりも画像に適切に反映されていることを示す。
これは火山がより豊かな視覚情報を提供し、マルチモーダル幻覚の緩和に役立つことを示している。
7Bと13BサイズのVolcanoモデルとデータとコードを、https://github.com/kaistAI/Volcano.comで公開しています。 Large multimodal models (LMMs) suffer from multimodal hallucination, where they provide incorrect responses misaligned with the given visual information. Recent works have conjectured that one of the reasons behind multimodal hallucination might be due to the vision encoder failing to ground on the image properly. To mitigate this issue, we propose a novel approach that leverages self-feedback as visual cues. Building on this approach, we introduce Volcano, a multimodal self-feedback guided revision model. Volcano generates natural language feedback to its initial response based on the provided visual information and utilizes this feedback to self-revise its initial response. Volcano effectively reduces multimodal hallucination and achieves state-of-the-art on MMHal-Bench, POPE, and GAVIE. It also improves on general multimodal abilities and outperforms previous models on MM-Vet and MMBench. Through a qualitative analysis, we show that Volcano's feedback is properly grounded on the image than the initial response. This indicates that Volcano can provide itself with richer visual information, helping alleviate multimodal hallucination. We publicly release Volcano models of 7B and 13B sizes along with the data and code at https://github.com/kaistAI/Volcano. | 翻訳日:2023-11-15 17:24:11 公開日:2023-11-14 |
# メッセージ伝搬によるマルチ属性センサデータストリームの欠落値計算(拡張版) Missing Value Imputation for Multi-attribute Sensor Data Streams via Message Propagation (Extended Version) ( http://arxiv.org/abs/2311.07344v2 ) ライセンス: Link先を確認 | Xiao Li, Huan Li, Hua Lu, Christian S. Jensen, Varun Pandey, and Volker Markl | (参考訳) センサデータストリームは、IoT(Internet of Things)のコンテキストにおいて、さまざまなリアルタイムアプリケーションで広く発生する。
しかしながら、センサデータストリームには、センサ障害や通信エラー、電池の枯渇といった要因による値の欠如がある。
失敗する値は、リアルタイム分析タスクや下流アプリケーションの品質を損なう可能性がある。
既存の計算手法はストリームについて強い仮定をするか、効率を低下させる。
本研究では,リアルタイムアプリケーションにより広く活用するために,一般特性のみを満足するデータストリームの欠落値を正確にかつ効率的に推測することを目的とする。
まず、タイムウィンドウ内のデータインスタンスの欠落値を復元できるmpin(message propagation imputation network)を提案する。
MPINが有効である理由を理論的に分析する。
次に,mpinが効果的かつ効率的に連続的インプテーションを行えるように,データ更新機構とモデル更新機構からなる連続インプテーションフレームワークを提案する。
複数の実データセットに対する大規模な実験により、MPINは既存のデータインプットを広いマージンで上回り、連続的なインプットフレームワークは効率的かつ正確であることが示された。 Sensor data streams occur widely in various real-time applications in the context of the Internet of Things (IoT). However, sensor data streams feature missing values due to factors such as sensor failures, communication errors, or depleted batteries. Missing values can compromise the quality of real-time analytics tasks and downstream applications. Existing imputation methods either make strong assumptions about streams or have low efficiency. In this study, we aim to accurately and efficiently impute missing values in data streams that satisfy only general characteristics in order to benefit real-time applications more widely. First, we propose a message propagation imputation network (MPIN) that is able to recover the missing values of data instances in a time window. We give a theoretical analysis of why MPIN is effective. Second, we present a continuous imputation framework that consists of data update and model update mechanisms to enable MPIN to perform continuous imputation both effectively and efficiently. Extensive experiments on multiple real datasets show that MPIN can outperform the existing data imputers by wide margins and that the continuous imputation framework is efficient and accurate. | 翻訳日:2023-11-15 17:23:54 公開日:2023-11-14 |
# 自動車レーダデータに対する移動物体の同時クラッタ検出とセマンティックセグメンテーション Simultaneous Clutter Detection and Semantic Segmentation of Moving Objects for Automotive Radar Data ( http://arxiv.org/abs/2311.07247v2 ) ライセンス: Link先を確認 | Johannes Kopp, Dominik Kellner, Aldi Piroli, Vinzenz Dallabetta, Klaus Dietmayer | (参考訳) レーダーセンサーの独特の特性、例えば悪天候に対する堅牢性は、自動運転車の環境認識システムにおいて重要な要素となっている。
レーダーポイント雲の処理における最初のステップの1つは、しばしばクラッター、すなわち実際の物体と一致しない誤点の検出である。
もう一つの一般的な目的は、移動道路利用者のセマンティックセグメンテーションである。
これら2つの問題は文学において互いに厳密に分離される。
ニューラルネットワークは、常にタスクの1つだけに集中している。
これとは対照的に,1つの共用モデルで2つのタスクを同時に解決する方法を検討する。
新たな拡張マルチヘッドアーキテクチャに加えて,2つのタスクに対するネットワークの予測を1つの出力値で表現する手法も考案した。
この手法により,従来のタスク固有モデルと同じ推論時間でタスクを同時に解くことができる。
広範な評価では,radarscenesデータセット上でのセマンティクスセグメンテーションにおいて,既存のネットワークを上回っており,非常に効果的であることを示す。 The unique properties of radar sensors, such as their robustness to adverse weather conditions, make them an important part of the environment perception system of autonomous vehicles. One of the first steps during the processing of radar point clouds is often the detection of clutter, i.e. erroneous points that do not correspond to real objects. Another common objective is the semantic segmentation of moving road users. These two problems are handled strictly separate from each other in literature. The employed neural networks are always focused entirely on only one of the tasks. In contrast to this, we examine ways to solve both tasks at the same time with a single jointly used model. In addition to a new augmented multi-head architecture, we also devise a method to represent a network's predictions for the two tasks with only one output value. This novel approach allows us to solve the tasks simultaneously with the same inference time as a conventional task-specific model. In an extensive evaluation, we show that our setup is highly effective and outperforms every existing network for semantic segmentation on the RadarScenes dataset. | 翻訳日:2023-11-15 17:23:37 公開日:2023-11-14 |
# 実環境雑音音声認識におけるASR表現の有効性について On the Effectiveness of ASR Representations in Real-world Noisy Speech Emotion Recognition ( http://arxiv.org/abs/2311.07093v2 ) ライセンス: Link先を確認 | Xiaohan Shi, Jiajun He, Xingfeng Li, Tomoki Toda | (参考訳) 本稿では,雑音下音声感情認識(nser)の効率的な試みを提案する。
従来のNSERアプローチは、ホワイトガウスノイズなどの人工ノイズ源の影響を緩和する効果が証明されているが、その複雑さと不確実性のため、現実環境における非定常ノイズに限定されている。
この制限を克服するために,ノイズロバスト特徴抽出器として自動音声認識(asr)モデルを適用し,雑音音声中の非音声情報を除去するnserの新しい手法を提案する。
まず、感情音声の特徴表現としてASRモデルから中間層情報を取得し、この表現を下流NSERタスクに適用する。
我々の実験結果は
1)提案手法は従来のノイズ低減法と比較してNSER性能が向上する。
2)自己指導型学習アプローチより優れ、
3)asr転写を用いたテキストベースアプローチやノイズ音声の基底的真理転写よりも優れる。 This paper proposes an efficient attempt to noisy speech emotion recognition (NSER). Conventional NSER approaches have proven effective in mitigating the impact of artificial noise sources, such as white Gaussian noise, but are limited to non-stationary noises in real-world environments due to their complexity and uncertainty. To overcome this limitation, we introduce a new method for NSER by adopting the automatic speech recognition (ASR) model as a noise-robust feature extractor to eliminate non-vocal information in noisy speech. We first obtain intermediate layer information from the ASR model as a feature representation for emotional speech and then apply this representation for the downstream NSER task. Our experimental results show that 1) the proposed method achieves better NSER performance compared with the conventional noise reduction method, 2) outperforms self-supervised learning approaches, and 3) even outperforms text-based approaches using ASR transcription or the ground truth transcription of noisy speech. | 翻訳日:2023-11-15 17:23:19 公開日:2023-11-14 |
# 人間中心AIの実現:方法論的視点 Enabling Human-Centered AI: A Methodological Perspective ( http://arxiv.org/abs/2311.06703v2 ) ライセンス: Link先を確認 | Wei Xu, Zaifeng Gao | (参考訳) 人間中心AI(Human-centered AI, HCAI)は、インテリジェントシステムの設計、開発、デプロイにおいて人間を優先させることを提唱する設計哲学である。
HCAIは影響を受け続けているが、方法論に関するガイダンスの欠如は、その採用を困難にしている。
本稿では,設計目標,設計原則,実装アプローチ,学際チーム,HCAIメソッド,HCAIプロセスなど,従来の統合コンポーネントを用いた総合的なHCAIフレームワークを提案する。
本稿では,フレームワークの実装を容易にする"3層"アプローチを提案する。
この体系的で実行可能なフレームワークは、現在のHCAIフレームワークの弱点と、現在実際に直面している課題を克服できると考えています。 Human-centered AI (HCAI) is a design philosophy that advocates prioritizing humans in designing, developing, and deploying intelligent systems, aiming to maximize the benefits of AI to humans and avoid potential adverse impacts. While HCAI continues to influence, the lack of guidance on methodology in practice makes its adoption challenging. This paper proposes a comprehensive HCAI framework based on our previous work with integrated components, including design goals, design principles, implementation approaches, interdisciplinary teams, HCAI methods, and HCAI processes. This paper also presents a "three-layer" approach to facilitate the implementation of the framework. We believe this systematic and executable framework can overcome the weaknesses in current HCAI frameworks and the challenges currently faced in practice, putting it into action to enable HCAI further. | 翻訳日:2023-11-15 17:23:03 公開日:2023-11-14 |
# 分類から生成へ:言語横断検索型ICLへの展望 From Classification to Generation: Insights into Crosslingual Retrieval Augmented ICL ( http://arxiv.org/abs/2311.06595v2 ) ライセンス: Link先を確認 | Xiaoqian Li, Ercong Nie, Sheng Liang | (参考訳) 大きな言語モデル(llm)が命令を理解して従う能力は、低リソース言語でのin-context learning(icl)性能によって制限されることがある。
そこで本研究では,言語間検索強化型インコンテキスト学習(CREA-ICL)を活用した新しい手法を提案する。
高リソース言語から意味的に類似したプロンプトを抽出することで、様々なタスクにわたる多言語事前学習言語モデル(mplm)のゼロショット性能を向上させることを目指している。
我々のアプローチは分類タスクを着実に改善するが、生成タスクの課題に直面している。
本評価は,分類領域と生成領域にまたがる検索文内学習の性能動態に関する知見を提供する。 The remarkable ability of Large Language Models (LLMs) to understand and follow instructions has sometimes been limited by their in-context learning (ICL) performance in low-resource languages. To address this, we introduce a novel approach that leverages cross-lingual retrieval-augmented in-context learning (CREA-ICL). By extracting semantically similar prompts from high-resource languages, we aim to improve the zero-shot performance of multilingual pre-trained language models (MPLMs) across diverse tasks. Though our approach yields steady improvements in classification tasks, it faces challenges in generation tasks. Our evaluation offers insights into the performance dynamics of retrieval-augmented in-context learning across both classification and generation domains. | 翻訳日:2023-11-15 17:22:47 公開日:2023-11-14 |
# フィードバック制御による量子絡み合いの発生と向上 Emergence and enhancement of feedback control induced quantum entanglement ( http://arxiv.org/abs/2311.06578v2 ) ライセンス: Link先を確認 | M. Amazioug, D. Dutykh, M. Asjad | (参考訳) 本稿では,機械振動子やマグノンと相互作用しながらキャビティを脱出するキャビティモードにフィードバックを適用し,量子相関を制御する手法を提案する。
移動鏡を有するハイブリッドキャビティマグノメカニカルシステムにおいて,提案するコヒーレントフィードバックスキームは,2成分と3成分の量子相関の強化を可能にする。
さらに,コヒーレントフィードバック制御の存在下での環境温度に対して,結果として生じる絡み合いは頑健であることを示す。 We present a scheme for controlling quantum correlations by applying feedback to the cavity mode that exits a cavity while interacting with a mechanical oscillator and magnons. In a hybrid cavity magnomechanical system with a movable mirror, the proposed coherent feedback scheme allows for the enhancement of both bipartite and tripartite quantum correlations. Moreover, we demonstrate that the resulting entanglement remains robust with respect to ambient temperatures in the presence of coherent feedback control. | 翻訳日:2023-11-15 17:22:34 公開日:2023-11-14 |
# 量子ビット列比較器のための一般化空間効率アルゴリズム A Generalized Space-Efficient Algorithm for Quantum Bit String Comparators ( http://arxiv.org/abs/2311.06573v2 ) ライセンス: Link先を確認 | Khuram Shahzad and Omar Usman Khan | (参考訳) 量子ビット文字列比較器(QBSC)は、nビットの2つのシーケンスで動作し、その関係を等しく、より大きく、より小さくすることができる。
これは条件文がプログラミング言語で使われる方法に似ている。
その結果、QBSCは量子コンピュータで実行または適応できる様々なアルゴリズムにおいて重要な役割を果たす。
n$-qubitの長さで効率的で一般化された比較器の開発は、コストのかかるフットプリントと量子遅延をもたらすため、長い間課題とされてきた。
効率的な比較器は固定長の入力に関連付けられる。
その結果、一般化回路を持たないコンパレータはより高レベルには適用できないが、サイズが制限された問題には適している。
本稿では,2つのアンシラリービットのみを用いた2つのn$-qubit論理状態の比較のための一般化設計を提案する。
設計は、量子ビット要求、補助ビット使用量、量子コスト、量子遅延、ゲート操作、回路の複雑さに基づいて検討され、様々な入力長で総合的にテストされる。
この研究は量子アルゴリズムの設計における十分な柔軟性を可能にし、量子アルゴリズムの開発を加速することができる。 Quantum Bit String Comparators (QBSC) operate on two sequences of n-qubits, enabling the determination of their relationships, such as equality, greater than, or less than. This is analogous to the way conditional statements are used in programming languages. Consequently, QBSCs play a crucial role in various algorithms that can be executed or adapted for quantum computers. The development of efficient and generalized comparators for any $n$-qubit length has long posed a challenge, as they have a high-cost footprint and lead to quantum delays. Comparators that are efficient are associated with inputs of fixed length. As a result, comparators without a generalized circuit cannot be employed at a higher level, though they are well-suited for problems with limited size requirements. In this paper, we introduce a generalized design for the comparison of two $n$-qubit logic states using just two ancillary bits. The design is examined on the basis of qubit requirements, ancillary bit usage, quantum cost, quantum delay, gate operations, and circuit complexity, and is tested comprehensively on various input lengths. The work allows for sufficient flexibility in the design of quantum algorithms, which can accelerate quantum algorithm development. | 翻訳日:2023-11-15 17:22:24 公開日:2023-11-14 |
# 公平へのステップバイステップ:タスク指向対話システムにおける社会バイアスの帰属 Step by Step to Fairness: Attributing Societal Bias in Task-oriented Dialogue Systems ( http://arxiv.org/abs/2311.06513v2 ) ライセンス: Link先を確認 | Hsuan Su, Rebecca Qian, Chinnadhurai Sankar, Shahin Shayandeh, Shang-Tse Chen, Hung-yi Lee, Daniel M. Bikel | (参考訳) 近年,タスク指向対話(TOD)システムにおいて,事前学習された大規模言語モデル(LLM)をエンドツーエンドで活用することにより,大幅な改善が見られた。
しかし,TOD システムにおける各コンポーネントの偏りの挙動や,エンドツーエンドフレームワークにおけるエラー伝搬の問題により,TOD 応答のバイアスが深刻になる可能性がある。
フェアネスの既存の仕事はシステムのバイアスにのみ焦点を合わせます。
本論文では,TODシステムの各コンポーネントに偏りを生じさせる診断手法を提案する。
提案手法では,バイアスの発生源についてより深く理解することができる。
さらに、より粒度の細かいモデル挙動を緩和することができる。
性別,年齢,人種の3つの集団軸に対するtodシステムのバイアスを識別する実験を行った。
実験結果から,TODシステムのバイアスは通常応答生成モデルから生じることが示された。 Recent works have shown considerable improvements in task-oriented dialogue (TOD) systems by utilizing pretrained large language models (LLMs) in an end-to-end manner. However, the biased behavior of each component in a TOD system and the error propagation issue in the end-to-end framework can lead to seriously biased TOD responses. Existing works of fairness only focus on the total bias of a system. In this paper, we propose a diagnosis method to attribute bias to each component of a TOD system. With the proposed attribution method, we can gain a deeper understanding of the sources of bias. Additionally, researchers can mitigate biased model behavior at a more granular level. We conduct experiments to attribute the TOD system's bias toward three demographic axes: gender, age, and race. Experimental results show that the bias of a TOD system usually comes from the response generation model. | 翻訳日:2023-11-15 17:22:04 公開日:2023-11-14 |
# docgen: pythonで詳細なパラメータdocstringを生成する DocGen: Generating Detailed Parameter Docstrings in Python ( http://arxiv.org/abs/2311.06453v2 ) ライセンス: Link先を確認 | Vatsal Venkatkrishna, Durga Shree Nagabushanam, Emmanuel Iko-Ojo Simon, Melina Vidoni | (参考訳) ドキュメンテーションの負債は、オープンソースソフトウェアの効果的な利用を妨げる。
コード要約ツールは開発者にとって有用だが、ほとんどの場合、高レベルの要約ではなく、関数内の各パラメータの詳細な説明を好む。
しかしながら、このような要約の生成は、高品質なトレーニングデータがないため、単一の生成モデルが確実に生成するには複雑すぎる。
そこで本稿では,docstringの特定の部分を生成する複数のタスク固有モデルを組み合わせたマルチステップアプローチを提案する。
これらのモデルの組み合わせは、最終的な docstring に各セクションを含めることを保証する。
提案手法を,自動測定と人中心評価の両方を用いて既存の生成モデルと比較し,既存の手法よりもアプローチの方が優れていることを示す。 Documentation debt hinders the effective utilization of open-source software. Although code summarization tools have been helpful for developers, most would prefer a detailed account of each parameter in a function rather than a high-level summary. However, generating such a summary is too intricate for a single generative model to produce reliably due to the lack of high-quality training data. Thus, we propose a multi-step approach that combines multiple task-specific models, each adept at producing a specific section of a docstring. The combination of these models ensures the inclusion of each section in the final docstring. We compared the results from our approach with existing generative models using both automatic metrics and a human-centred evaluation with 17 participating developers, which proves the superiority of our approach over existing methods. | 翻訳日:2023-11-15 17:21:50 公開日:2023-11-14 |
# EHR監査ログのエントロピー推定のための自己回帰型言語モデル Autoregressive Language Models For Estimating the Entropy of Epic EHR Audit Logs ( http://arxiv.org/abs/2311.06401v2 ) ライセンス: Link先を確認 | Benjamin C. Warner, Thomas Kannampallil, Seunghwan Kim | (参考訳) EHR監査ログは、臨床医の活動を捉えた、非常にきめ細かい出来事のストリームであり、電子健康記録(EHR)で臨床医のワークフローを特徴づける研究において重要な領域である。
EHR監査ログ(監査ログ)を通じてワークフローの複雑さを測定する既存のテクニックには、EHRセッションの完全な複雑さを捉えることができない時間または周波数ベースの横断的な集約が含まれる。
ワークフロー内の動作シーケンスのエントロピーや不規則性を測定し、評価モデルを公開する上で、トランスフォーマティブベースの表型言語モデル(tabular lm)の使用法を簡単に評価する。 EHR audit logs are a highly granular stream of events that capture clinician activities, and is a significant area of interest for research in characterizing clinician workflow on the electronic health record (EHR). Existing techniques to measure the complexity of workflow through EHR audit logs (audit logs) involve time- or frequency-based cross-sectional aggregations that are unable to capture the full complexity of a EHR session. We briefly evaluate the usage of transformer-based tabular language model (tabular LM) in measuring the entropy or disorderedness of action sequences within workflow and release the evaluated models publicly. | 翻訳日:2023-11-15 17:21:40 公開日:2023-11-14 |
# ShipGen: 複数の目的と制約を持つパラメトリック船殻生成のための拡散モデル ShipGen: A Diffusion Model for Parametric Ship Hull Generation with Multiple Objectives and Constraints ( http://arxiv.org/abs/2311.06315v2 ) ライセンス: Link先を確認 | Noah J. Bagazinski and Faez Ahmed | (参考訳) 船の設計は、複雑な設計のトレードオフをバランスさせ、効率的で効果的な船を作るための長年のプロセスである。
船の設計プロセスを改善する新しい方法を見つけることは、造船と運用に多大なコスト削減をもたらす可能性がある。
有望な技術のひとつが生成型人工知能であり、デザインサイクル時間を短縮し、新しい高性能なデザインを生み出すことが示されている。
文献レビューでは、生成的人工知能が船体を生成することが示されているが、船舶の船体が多くの目的を考慮しなければならないため、船体設計は特に困難である。
本稿では,船体に対する複数の目的と制約を考慮したパラメトリック拡散モデルを用いたパラメトリック船体設計について検討する。
この消音拡散確率モデル(ddpm)は、評価のために船殻の表状パラメトリック設計ベクトルを生成する。
本報告では, 表式DDPMに加えて, 船舶船体設計の品質向上のためのガイダンスを詳述する。
ddpmは分類器のガイダンスを利用することで、船体の初期訓練データセットを99.5%の率でカバーし、設計空間全体の設計ベクトルパラメータをランダムにサンプリングするよりも149倍改善する実現可能なパラメトリック船体を作成した。
性能指導によるパラメトリック船体は、平均91.4%の波抵抗係数の低下と、訓練データセットにおける船体の平均性能と比較して、船体全体の変位体積の47.9倍の相対的な増加を示した。
ddpmを用いてパラメトリック船体を生成することにより、将来の解析のために高性能船体設計を発生させることで設計時間を短縮できる。
これらの船体は低抵抗で高容積であり、船舶の運用コストを削減し、収益を生み出す可能性を高めることができる。 Ship design is a years-long process that requires balancing complex design trade-offs to create a ship that is efficient and effective. Finding new ways to improve the ship design process can lead to significant cost savings for ship building and operation. One promising technology is generative artificial intelligence, which has been shown to reduce design cycle time and create novel, high-performing designs. In literature review, generative artificial intelligence has been shown to generate ship hulls; however, ship design is particularly difficult as the hull of a ship requires the consideration of many objectives. This paper presents a study on the generation of parametric ship hull designs using a parametric diffusion model that considers multiple objectives and constraints for the hulls. This denoising diffusion probabilistic model (DDPM) generates the tabular parametric design vectors of a ship hull for evaluation. In addition to a tabular DDPM, this paper details adding guidance to improve the quality of generated ship hull designs. By leveraging classifier guidance, the DDPM produced feasible parametric ship hulls that maintain the coverage of the initial training dataset of ship hulls with a 99.5% rate, a 149x improvement over random sampling of the design vector parameters across the design space. Parametric ship hulls produced with performance guidance saw an average of 91.4% reduction in wave drag coefficients and an average of a 47.9x relative increase in the total displaced volume of the hulls compared to the mean performance of the hulls in the training dataset. The use of a DDPM to generate parametric ship hulls can reduce design time by generating high-performing hull designs for future analysis. These generated hulls have low drag and high volume, which can reduce the cost of operating a ship and increase its potential to generate revenue. | 翻訳日:2023-11-15 17:21:27 公開日:2023-11-14 |
# オーディオからの教師なし音楽オブジェクト発見 Unsupervised Musical Object Discovery from Audio ( http://arxiv.org/abs/2311.07534v2 ) ライセンス: Link先を確認 | Joonsu Gha, Vincent Herrmann, Benjamin Grewe, J\"urgen Schmidhuber, Anand Gopalakrishnan | (参考訳) 一般的なSlotAttentionアーキテクチャのような現在のオブジェクト中心学習モデルは、教師なしの視覚的シーン分解を可能にする。
新たなMusicSlots法は、SlotAttentionをオーディオ領域に適応させ、教師なしの音楽分解を実現する。
視覚における不透明性やオクルージョンの概念には聴覚類似性がないため、視覚オブジェクト中心モデルのデコーダにおけるアルファマスクのソフトマックス正規化は、オーディオオブジェクトの分解には適していない。
MusicSlotsはこの問題を克服する。
西洋の声調音楽における対象中心学習を評価するために,スペクトログラムに基づく多目的音楽データセットを提案する。
musicslotsは教師なしのノート発見で優れたパフォーマンスを達成し、教師なしのノートプロパティ予測タスクで確立されたいくつかのベースラインを上回っています。 Current object-centric learning models such as the popular SlotAttention architecture allow for unsupervised visual scene decomposition. Our novel MusicSlots method adapts SlotAttention to the audio domain, to achieve unsupervised music decomposition. Since concepts of opacity and occlusion in vision have no auditory analogues, the softmax normalization of alpha masks in the decoders of visual object-centric models is not well-suited for decomposing audio objects. MusicSlots overcomes this problem. We introduce a spectrogram-based multi-object music dataset tailored to evaluate object-centric learning on western tonal music. MusicSlots achieves good performance on unsupervised note discovery and outperforms several established baselines on supervised note property prediction tasks. | 翻訳日:2023-11-15 17:07:53 公開日:2023-11-14 |
# 多変量医療時系列のロバストモデリングのための結合HMMの混合 Mixture of Coupled HMMs for Robust Modeling of Multivariate Healthcare Time Series ( http://arxiv.org/abs/2311.07867v1 ) ライセンス: Link先を確認 | Onur Poyraz, Pekka Marttinen | (参考訳) 多変量医療時系列データの解析は本質的に困難であり、不規則サンプリング、ノイズと欠落値、異種患者群は交換可能性に反する。
さらに、不確実性の解釈可能性と定量化が重要である。
本稿では,隠れマルコフモデル(M-CHMM)を混合した新しいモデルのクラスを提案し,これらの課題をエレガントに克服する方法を実証する。
モデル学習を実現するために、CHMMにおける潜伏変数のシーケンスをサンプリングする2つのアルゴリズムを導出した。
(i)粒子フィルタリング及び
(ii)因子化近似。
提案手法は, 既存の推定手法と比較して計算が容易であり, 混合精度が向上し, 混合モデルの学習に必要な推定精度が向上する。
実世界の疫学および半合成データに挑戦する実験は、M-CHMMの利点を実証している。データ適合性の改善、欠損およびノイズ測定を効率的に処理する能力、予測精度の向上、データの解釈可能なサブセットを特定する能力。 Analysis of multivariate healthcare time series data is inherently challenging: irregular sampling, noisy and missing values, and heterogeneous patient groups with different dynamics violating exchangeability. In addition, interpretability and quantification of uncertainty are critically important. Here, we propose a novel class of models, a mixture of coupled hidden Markov models (M-CHMM), and demonstrate how it elegantly overcomes these challenges. To make the model learning feasible, we derive two algorithms to sample the sequences of the latent variables in the CHMM: samplers based on (i) particle filtering and (ii) factorized approximation. Compared to existing inference methods, our algorithms are computationally tractable, improve mixing, and allow for likelihood estimation, which is necessary to learn the mixture model. Experiments on challenging real-world epidemiological and semi-synthetic data demonstrate the advantages of the M-CHMM: improved data fit, capacity to efficiently handle missing and noisy measurements, improved prediction accuracy, and ability to identify interpretable subsets in the data. | 翻訳日:2023-11-15 15:58:53 公開日:2023-11-14 |
# 自分専用のKG: ゼロショットKGQAのための自己監督型プログラム合成 Bring Your Own KG: Self-Supervised Program Synthesis for Zero-Shot KGQA ( http://arxiv.org/abs/2311.07850v1 ) ライセンス: Link先を確認 | Dhruv Agarwal, Rajarshi Das, Sopan Khosla, Rashmi Gangadharaiah | (参考訳) 我々は、あらゆる知識グラフ(KG)で操作できる普遍的な質問応答(QA)システムであるBYOKGを紹介し、人間による注釈付きトレーニングデータを必要としず、現在のKGQAシステムではスコープ外である属性(属性)を1日以内に使用することができる。
byokgは、ランダムなノードから始まり、隣接するノードとエッジのラベルを検査し、それらを以前の世界知識と組み合わせることで、人間の目に見えないkgに存在する情報を理解する能力からインスピレーションを得ている。
byokgにおいて、exploringはllmが支援するシンボリックエージェントを活用し、様々なクエリプログラムの例示を生成し、検索による推論手順を基礎にして任意の質問のプログラムを予測する。
BYOKGは、小規模グラフと大規模グラフの両方に対して有効であり、それぞれGrailQA と MetaQA のゼロショットベースラインである 27.89 と 58.02 F1 に対して、QA の精度が劇的に向上している。
GrailQAでは、教師なしのBYOKGが教師付きインコンテキスト学習法より優れており、探索の有効性が示されている。
最後に,BYOKGの性能は探索の継続とともに,基礎LLMの改良とともに確実に向上し,特にGrailQAのサブサンプリングゼロショット分割に対して7.08F1の最先端微調整モデルよりも優れていた。 We present BYOKG, a universal question-answering (QA) system that can operate on any knowledge graph (KG), requires no human-annotated training data, and can be ready to use within a day -- attributes that are out-of-scope for current KGQA systems. BYOKG draws inspiration from the remarkable ability of humans to comprehend information present in an unseen KG through exploration -- starting at random nodes, inspecting the labels of adjacent nodes and edges, and combining them with their prior world knowledge. In BYOKG, exploration leverages an LLM-backed symbolic agent that generates a diverse set of query-program exemplars, which are then used to ground a retrieval-augmented reasoning procedure to predict programs for arbitrary questions. BYOKG is effective over both small- and large-scale graphs, showing dramatic gains in QA accuracy over a zero-shot baseline of 27.89 and 58.02 F1 on GrailQA and MetaQA, respectively. On GrailQA, we further show that our unsupervised BYOKG outperforms a supervised in-context learning method, demonstrating the effectiveness of exploration. Lastly, we find that performance of BYOKG reliably improves with continued exploration as well as improvements in the base LLM, notably outperforming a state-of-the-art fine-tuned model by 7.08 F1 on a sub-sampled zero-shot split of GrailQA. | 翻訳日:2023-11-15 15:58:33 公開日:2023-11-14 |
# PEMS:事前訓練されたエピドミック時系列モデル PEMS: Pre-trained Epidmic Time-series Models ( http://arxiv.org/abs/2311.07841v1 ) ライセンス: Link先を確認 | Harshavardhan Kamarthi, B. Aditya Prakash | (参考訳) 伝染病の将来に関する正確かつ確実な予測を提供することは、公衆衛生上の決定を情報化するための重要な問題である。
近年の研究では、ディープラーニング手法の進歩を活用して過去の流行データから学習するデータ駆動ソリューションが、従来の力学モデルより優れていることが示されている。
しかし、多くの場合、過去のデータは希少であり、基礎となるダイナミクスを十分に捉えていない。
過去の流行による大量のデータが存在しているが、他の病気の時系列データからの事前知識を活用することは、ささいな課題である。
言語および視覚タスクにおける事前学習モデルの成功に動機づけられた我々は、異なる疾患や流行から複数のデータセットから学習するために、事前訓練された流行時間モデルの問題に取り組む。
自己教師型学習(SSL)タスクの集合として事前学習を定式化することにより,各種疾患の時系列データセットから学習する,事前学習型エピデミック時系列モデル(PEMS)を導入する。
我々は,複数のダウンストリームタスクの微調整に活用可能な流行ダイナミクスに関する重要な事前知識を得るために,sslタスクを慎重に設計することにより,不均一なダイナミクスの処理や,複数の流行データセットから有用なパターンを効率的に取得することなど,流行時系列の事前学習に特有のさまざまな重要な課題に取り組む。
その結果、PEMは、さまざまな季節パターン、地理、感染メカニズムのデータセット間で、さまざまなダウンストリームの時系列タスクにおいて、以前の最先端の手法よりも優れています。 Providing accurate and reliable predictions about the future of an epidemic is an important problem for enabling informed public health decisions. Recent works have shown that leveraging data-driven solutions that utilize advances in deep learning methods to learn from past data of an epidemic often outperform traditional mechanistic models. However, in many cases, the past data is sparse and may not sufficiently capture the underlying dynamics. While there exists a large amount of data from past epidemics, leveraging prior knowledge from time-series data of other diseases is a non-trivial challenge. Motivated by the success of pre-trained models in language and vision tasks, we tackle the problem of pre-training epidemic time-series models to learn from multiple datasets from different diseases and epidemics. We introduce Pre-trained Epidemic Time-Series Models (PEMS) that learn from diverse time-series datasets of a variety of diseases by formulating pre-training as a set of self-supervised learning (SSL) tasks. We tackle various important challenges specific to pre-training for epidemic time-series such as dealing with heterogeneous dynamics and efficiently capturing useful patterns from multiple epidemic datasets by carefully designing the SSL tasks to learn important priors about the epidemic dynamics that can be leveraged for fine-tuning to multiple downstream tasks. The resultant PEM outperforms previous state-of-the-art methods in various downstream time-series tasks across datasets of varying seasonal patterns, geography, and mechanism of contagion including the novel Covid-19 pandemic unseen in pre-trained data with better efficiency using smaller fraction of datasets. | 翻訳日:2023-11-15 15:58:04 公開日:2023-11-14 |
# セルタワー自動検出による意思決定支援システムの実現 Enabling Decision-Support Systems through Automated Cell Tower Detection ( http://arxiv.org/abs/2311.07840v1 ) ライセンス: Link先を確認 | Natasha Krell, Will Gleave, Daniel Nakada, Justin Downes, Amanda Willet and Matthew Baran | (参考訳) サハラ以南のアフリカの農村部では携帯電話の報道と高速サービス格差が続き、モバイルベースの金融、教育、人道サービスへの公共アクセスに影響を及ぼしている。
通信インフラの地図の改善は、モバイルカバレッジのギャップを取り除くための戦略を通知するのに役立つ。
リモートセンシングイメージと組み合わせたディープニューラルネットワークは、セルタワーのオブジェクト検出に使用可能であり、大きな地理的領域でオブジェクトを見つけるために、非効率で負担の多い手動マッピングの必要性をなくすことができる。
本研究では,openstreetmap (osm) 機能と高解像度のmaxar画像を用いて,物体検出モデルを訓練し,セルタワーの探索を行う部分自動化ワークフローを実証する。
モデル微調整と評価のために,OSMポイントから自動生成したアノテーションを用いて,東アフリカ,南アフリカ,中央アフリカの26カ国で6000以上の独特なセルタワーの画像を収集した。
このモデルでは、結合(iou)上の50%の交差点(ap@50)で平均精度を81.2で達成し、異なる地理的に優れた性能とサンプル外テストを実現している。
正確なセルタワーのローカライゼーションにより、より正確なセルカバレッジマップが得られ、意思決定支援アプリケーションのためのデジタルサービスのデリバリが改善される。 Cell phone coverage and high-speed service gaps persist in rural areas in sub-Saharan Africa, impacting public access to mobile-based financial, educational, and humanitarian services. Improving maps of telecommunications infrastructure can help inform strategies to eliminate gaps in mobile coverage. Deep neural networks, paired with remote sensing images, can be used for object detection of cell towers and eliminate the need for inefficient and burdensome manual mapping to find objects over large geographic regions. In this study, we demonstrate a partially automated workflow to train an object detection model to locate cell towers using OpenStreetMap (OSM) features and high-resolution Maxar imagery. For model fine-tuning and evaluation, we curated a diverse dataset of over 6,000 unique images of cell towers in 26 countries in eastern, southern, and central Africa using automatically generated annotations from OSM points. Our model achieves an average precision at 50% Intersection over Union (IoU) (AP@50) of 81.2 with good performance across different geographies and out-of-sample testing. Accurate localization of cell towers can yield more accurate cell coverage maps, in turn enabling improved delivery of digital services for decision-support applications. | 翻訳日:2023-11-15 15:57:35 公開日:2023-11-14 |
# LLatrieval: 検証可能な生成のためのLLM検証検索 LLatrieval: LLM-Verified Retrieval for Verifiable Generation ( http://arxiv.org/abs/2311.07838v1 ) ライセンス: Link先を確認 | Xiaonan Li, Changtai Zhu, Linyang Li, Zhangyue Yin, Tianxiang Sun, Xipeng Qiu | (参考訳) 検証可能な生成は、大きな言語モデル(LLM)が対応する文書でテキストを生成することを目的としている。
その評価は、回答の正しさだけでなく、回答の妥当性、すなわち、対応する文書によってその回答がどの程度うまく支持されるかを測定する。
典型的には、検証可能な生成は2つの段階に分けられる検索読み取りパイプラインを採用する。
1) 質問の関連書類を取得する。
2) 書類によれば,対応する回答を生成する。
検索された文書は、LCMの知識を補って回答を生成し、証拠となるので、その回答の正しさと妥当性には、検索段階が不可欠である。
しかし、広く使われているレトリバーはパイプライン全体のボトルネックとなり、全体のパフォーマンスが制限される。
それらは大きな言語モデルよりも少ないパラメータを持ち、LLMのサイズによく対応していることは証明されていない。
LLMは、受動的に検索結果を受信するため、検索者がサポート文書を正しく見つからなかった場合、LLMは正しい検証可能な回答を生成できず、LLMの顕著な能力を覆す。
本稿では,検索された文書が質問に回答できることを示すまで,llmが検索結果を更新できるllatrieval(大言語モデル検証検索)を提案する。
これにより、llmは、検索へのフィードバックを反復的に提供でき、検索結果が検証可能な生成を十分に支援することができる。
実験の結果,本手法は広範なベースラインを著しく上回り,新たな最先端結果を得ることができた。 Verifiable generation aims to let the large language model (LLM) generate text with corresponding supporting documents, which enables the user to flexibly verify the answer and makes it more trustworthy. Its evaluation not only measures the correctness of the answer, but also the answer's verifiability, i.e., how well the answer is supported by the corresponding documents. In typical, verifiable generation adopts the retrieval-read pipeline, which is divided into two stages: 1) retrieve relevant documents of the question. 2) according to the documents, generate the corresponding answer. Since the retrieved documents can supplement knowledge for the LLM to generate the answer and serve as evidence, the retrieval stage is essential for the correctness and verifiability of the answer. However, the widely used retrievers become the bottleneck of the entire pipeline and limit the overall performance. They often have fewer parameters than the large language model and have not been proven to scale well to the size of LLMs. Since the LLM passively receives the retrieval result, if the retriever does not correctly find the supporting documents, the LLM can not generate the correct and verifiable answer, which overshadows the LLM's remarkable abilities. In this paper, we propose LLatrieval (Large Language Model Verified Retrieval), where the LLM updates the retrieval result until it verifies that the retrieved documents can support answering the question. Thus, the LLM can iteratively provide feedback to retrieval and facilitate the retrieval result to sufficiently support verifiable generation. Experimental results show that our method significantly outperforms extensive baselines and achieves new state-of-the-art results. | 翻訳日:2023-11-15 15:57:10 公開日:2023-11-14 |
# パラメトリックスペクトルクラスタリングによる効率的・漸進的スペクトルクラスタリングに向けて Toward Efficient and Incremental Spectral Clustering via Parametric Spectral Clustering ( http://arxiv.org/abs/2311.07833v1 ) ライセンス: Link先を確認 | Jo-Chun Chen, Hung-Hsuan Chen | (参考訳) スペクトルクラスタリングは、非線形分離可能なデータを効果的にクラスタリングするための一般的な方法である。
しかし、計算の限界、メモリ要件、インクリメンタル学習のできないことは、広く応用されている。
これらの制約を克服するために,パラメトリックスペクトルクラスタリング (PSC) と呼ばれる新しい手法を提案する。
スペクトルクラスタリングの機能を拡張することで、PSCはビッグデータやリアルタイムシナリオに関連する課題に対処し、新たなデータポイントによる効率的なインクリメンタルクラスタリングを可能にします。
各種オープンデータセットを用いた実験により,クラスタリングの品質は標準スペクトルクラスタリングにほぼ匹敵するが,計算効率の面でPSCの優位性が示された。
提案手法はインクリメンタルかつリアルタイムなデータ分析アプリケーションに対して大きな可能性を秘めており、動的および進化するデータセットのタイムリーかつ正確なクラスタリングを容易にする。
本研究の成果は,クラスタリング技術の発展に寄与し,効率的かつ効率的なデータ解析のための新たな道を開いた。
実験コードはhttps://github.com/109502518/PSC_BigDataで公開しています。 Spectral clustering is a popular method for effectively clustering nonlinearly separable data. However, computational limitations, memory requirements, and the inability to perform incremental learning challenge its widespread application. To overcome these limitations, this paper introduces a novel approach called parametric spectral clustering (PSC). By extending the capabilities of spectral clustering, PSC addresses the challenges associated with big data and real-time scenarios and enables efficient incremental clustering with new data points. Experimental evaluations conducted on various open datasets demonstrate the superiority of PSC in terms of computational efficiency while achieving clustering quality mostly comparable to standard spectral clustering. The proposed approach has significant potential for incremental and real-time data analysis applications, facilitating timely and accurate clustering in dynamic and evolving datasets. The findings of this research contribute to the advancement of clustering techniques and open new avenues for efficient and effective data analysis. We publish the experimental code at https://github.com/109502518/PSC_BigData. | 翻訳日:2023-11-15 15:56:42 公開日:2023-11-14 |
# 光キャビティにおける分子振動-偏光子ダイナミクスの半古典的トリュニング-ウィグナー近似理論 Semiclassical truncated-Wigner-approximation theory of molecular-vibration-polariton dynamics in optical cavities ( http://arxiv.org/abs/2311.07827v1 ) ライセンス: Link先を確認 | Nguyen Thanh Phuc | (参考訳) 分子振動と赤外線キャビティモードの強い結合によって形成される分子振動ポラリトンは、様々な分子系の物理的性質と化学的反応性を著しく変化させることが実験的に証明されている。
しかしながら、修飾の基盤となるメカニズムの完全な理論的理解は、ハイブリッド系の複雑さ、特に多くの分子を含む系における分極状態の集合的性質により、まだ解明されていない。
ここでは,光共振器内の光子の量子特性を同時に捕捉し,大きな分子系で引き出すことができるタンニン化ウィグナー近似に基づく分子振動偏光子力学の半古典的理論を開発する。
この理論は、基底状態モースポテンシャルを持ち、超強結合状態の赤外線キャビティモードに強く結合した同一二原子分子系の核動力学の研究に応用される。
分子振動-偏光子生成の核力学に対する集合的および共鳴効果が観察された。 It has been experimentally demonstrated that molecular-vibration polaritons formed by strong coupling of a molecular vibration to an infrared cavity mode can significantly modify the physical properties and chemical reactivity of various molecular systems. However, a complete theoretical understanding of the underlying mechanisms of the modifications remains elusive due to the complexity of the hybrid system, especially the collective nature of polaritonic states in systems containing many molecules. We develop here the semiclassical theory of molecular-vibration-polariton dynamics based on the truncated Wigner approximation that is tractable in large molecular systems and simultaneously captures the quantum character of photons in the optical cavity. The theory is then applied to investigate the nuclear dynamics of a system of identical diatomic molecules having the ground-state Morse potential and strongly coupled to an infrared cavity mode in the ultrastrong coupling regime. The collective and resonance effects of the molecular-vibration-polariton formation on the nuclear dynamics are observed. | 翻訳日:2023-11-15 15:56:26 公開日:2023-11-14 |
# 運動制御のための神経インスパイア階層強化学習 A Neuro-Inspired Hierarchical Reinforcement Learning for Motor Control ( http://arxiv.org/abs/2311.07822v1 ) ライセンス: Link先を確認 | Pei Zhang, Zhaobo Hua, Jinliang Ding | (参考訳) マルチジョイントロボットの自然な動作を実現するためのコントローラーの設計は大きな課題である。
しかし、自然界の動物は自然に基本的な運動能力を持ち、獲得した学習を通じて様々な複雑な運動スキルを習得することができる。
そこで,本研究では,哺乳類の中枢運動系機構の解析を基礎として,ロボットが豊富な運動スキルを学習し,外部データに頼らずに複雑な作業環境に適用できる神経インスパイア階層強化学習アルゴリズムを提案する。
まず,脳底神経節における随意運動の選択機構と小脳の運動調節能力を利用して,小脳に似たスキルネットワークを設計する。
次に,運動系における先進的中心の構造を模倣し,異なるスキルの組み合わせを発生させることにより,ロボットが自然運動能力を身につけることができる高水準の方針を提案する。
本研究では,4種類のロボットと22種類のタスク環境について実験を行い,提案手法により,柔軟な動作能力を実現することができることを示す。
全体として、我々の研究はロボットニューラルモーターコントローラの設計に有望な枠組みを提供する。 Designing controllers to achieve natural motion capabilities for multi-joint robots is a significant challenge. However, animals in nature are naturally with basic motor abilities and can master various complex motor skills through acquired learning. On the basis of analyzing the mechanism of the central motor system in mammals, we propose a neuro-inspired hierarchical reinforcement learning algorithm that enables robots to learn rich motor skills and apply them to complex task environments without relying on external data. We first design a skills network similar to the cerebellum by utilizing the selection mechanism of voluntary movements in the basal ganglia and the regulatory ability of the cerebellum to regulate movement. Subsequently, by imitating the structure of advanced centers in the motion system, we propose a high-level policy to generate different skill combinations, thereby enabling the robot to acquire natural motor abilities. We conduct experiments on 4 types of robots and 22 task environments, and the results show that the proposed method can enable different types of robots to achieve flexible motion skills. Overall, our research provides a promising framework for the design of robotic neural motor controllers. | 翻訳日:2023-11-15 15:56:09 公開日:2023-11-14 |
# レーザー粉体融合プロセスのための統計的パラメータ化物理に基づく機械学習デジタル双晶モデル Statistical Parameterized Physics-Based Machine Learning Digital Twin Models for Laser Powder Bed Fusion Process ( http://arxiv.org/abs/2311.07821v1 ) ライセンス: Link先を確認 | Yangfan Li, Satyajit Mojumder, Ye Lu, Abdullah Al Amin, Jiachen Guo, Xiaoyu Xie, Wei Chen, Gregory J. Wagner, Jian Cao, Wing Kam Liu | (参考訳) デジタルツイン(Digital twin, DT)は、センサーデータとユーザ入力を統合することで、連続的な更新のために高忠実度計算モデルを必要とする物理プロセス、製品、および/またはシステムの仮想表現である。
レーザー粉末層融合(LPBF)添加物製造の文脈において、製造工程のデジタルツインは、製造部品の予測、製造欠陥の診断、および制御能力を提供することができる。
本稿では, LPBF金属添加物製造プロセスの統計的予測のためのパラメータ化物理ベースのディジタルツイン (PPB-DT) を提案する。
本研究では, 溶融プール現象を正確に表現した高忠実度計算モデルを作成し, 制御実験により校正・検証する。
ppb-dtでは,メルトプールジオメトリの統計的予測と,特に表面粗さの欠如などの欠陥の同定を可能にする,機械的な還元順序法に基づく確率的校正法が導入された。
この物理モデルと実験から得られたデータを利用して, 融液プール地形の予測, 監視, 制御のために, 機械学習に基づくデジタルツイン(ppb-ml-dt)モデルを訓練した。
これらのディジタルツインモデルは、LPBFプロセス内の予測、制御、最適化、品質保証に使用することができ、最終的にLPBFベースの金属添加物製造における製品開発と認定を迅速化する。 A digital twin (DT) is a virtual representation of physical process, products and/or systems that requires a high-fidelity computational model for continuous update through the integration of sensor data and user input. In the context of laser powder bed fusion (LPBF) additive manufacturing, a digital twin of the manufacturing process can offer predictions for the produced parts, diagnostics for manufacturing defects, as well as control capabilities. This paper introduces a parameterized physics-based digital twin (PPB-DT) for the statistical predictions of LPBF metal additive manufacturing process. We accomplish this by creating a high-fidelity computational model that accurately represents the melt pool phenomena and subsequently calibrating and validating it through controlled experiments. In PPB-DT, a mechanistic reduced-order method-driven stochastic calibration process is introduced, which enables the statistical predictions of the melt pool geometries and the identification of defects such as lack-of-fusion porosity and surface roughness, specifically for diagnostic applications. Leveraging data derived from this physics-based model and experiments, we have trained a machine learning-based digital twin (PPB-ML-DT) model for predicting, monitoring, and controlling melt pool geometries. These proposed digital twin models can be employed for predictions, control, optimization, and quality assurance within the LPBF process, ultimately expediting product development and certification in LPBF-based metal additive manufacturing. | 翻訳日:2023-11-15 15:55:51 公開日:2023-11-14 |
# デコーダ型多言語モデルにおける言語間即興調律の分析について On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based Multilingual Model ( http://arxiv.org/abs/2311.07820v1 ) ライセンス: Link先を確認 | Nohil Park, Joonsuk Park, Kang Min Yoo, Sungroh Yoon | (参考訳) 多言語モデルの分野でのエキサイティングな進歩は、大規模言語モデルで広く報告されているゼロショットと少数ショット機能を持つ自己回帰モデルの出現である。
クロスリンガルタスクへのモデル適応をさらに改善するために、言語モデルを完全な微調整またはパラメータ効率のチューニングで微調整するトレンドもある。
しかし,多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用についてはまだ研究されていない。
具体的には,トークンに基づくプロンプトチューニングの有効性において,多言語モデルにおける言語分布の役割の理解が欠如している。
そこで本研究では,デコーダをベースとした多言語モデルであるXGLMを4つの言語間タスク(XNLI, PAWS-X, POS, NER)で即時チューニングと微調整を比較する実験を行った。
本研究は, モデルパラメータの0.13\%を更新しながら, 全言語をまたいだ微調整よりも高い性能を達成することを目的とした。
さらに, 高速チューニングは, 微調整よりも低リソース言語の性能向上に有効であることを示す。
さらに,この現象は多言語モデルのトークン化スキームと関連していることを示す。 An exciting advancement in the field of multilingual models is the emergence of autoregressive models with zero- and few-shot capabilities, a phenomenon widely reported in large-scale language models. To further improve model adaptation to cross-lingual tasks, another trend is to further fine-tune the language models with either full fine-tuning or parameter-efficient tuning. However, the interaction between parameter-efficient fine-tuning (PEFT) and cross-lingual tasks in multilingual autoregressive models has yet to be studied. Specifically, we lack an understanding of the role of linguistic distributions in multilingual models in the effectiveness of token-based prompt tuning. To address this question, we conduct experiments comparing prompt tuning and fine-tuning on the decoder-based multilingual model, XGLM, with four cross-lingual tasks (XNLI, PAWS-X, POS, NER). According to our study, prompt tuning achieves on par or better performance over fine-tuning across all languages while updating at most 0.13\% of the model parameters. Moreover, we empirically show that prompt tuning is more effective in enhancing the performance of low-resource languages than fine-tuning. Our further analysis shows that the phenomenon is related to the tokenization scheme of the multilingual model. | 翻訳日:2023-11-15 15:55:24 公開日:2023-11-14 |
# 大規模言語モデルの活用によるソーシャルメディアへの影響評価 Leveraging Large Language Models to Detect Influence Campaigns in Social Media ( http://arxiv.org/abs/2311.07816v1 ) ライセンス: Link先を確認 | Luca Luceri, Eric Boniardi, Emilio Ferrara | (参考訳) ソーシャルメディアの影響は、大衆の言論や民主主義に重大な課題をもたらす。
従来の検出方法は、ソーシャルメディアの複雑さとダイナミックな性質のために不足している。
そこで我々は,ユーザメタデータとネットワーク構造の両方を組み込んだLarge Language Models (LLM) を用いた新しい検出手法を提案する。
これらの要素をテキスト形式に変換することにより,多言語コンテンツを効果的に処理し,悪意のあるキャンペーンアクタの戦術に適応する。
複数のデータセットで厳密なテストを行い、影響の特定において優れたパフォーマンスを示すことによって、モデルを検証する。
この研究は、キャンペーンを検出する強力なツールを提供するだけでなく、ソーシャルメディアベースの影響力戦略の急激な進化に対応するための将来の強化のステージも設定している。 Social media influence campaigns pose significant challenges to public discourse and democracy. Traditional detection methods fall short due to the complexity and dynamic nature of social media. Addressing this, we propose a novel detection method using Large Language Models (LLMs) that incorporates both user metadata and network structures. By converting these elements into a text format, our approach effectively processes multilingual content and adapts to the shifting tactics of malicious campaign actors. We validate our model through rigorous testing on multiple datasets, showcasing its superior performance in identifying influence efforts. This research not only offers a powerful tool for detecting campaigns, but also sets the stage for future enhancements to keep up with the fast-paced evolution of social media-based influence tactics. | 翻訳日:2023-11-15 15:55:02 公開日:2023-11-14 |
# 分散型コミットデバイスによる協調AI Cooperative AI via Decentralized Commitment Devices ( http://arxiv.org/abs/2311.07815v1 ) ライセンス: Link先を確認 | Xinyuan Sun and Davide Crapis and Matt Stephenson and Barnab\'e Monnot and Thomas Thiery and Jonathan Passerat-Palmbach | (参考訳) 信頼できるコミットメントデバイスは、堅牢なマルチエージェント協調のための一般的なアプローチである。
しかしながら、既存のコミットメントメカニズムは、プライバシや整合性、仲介者やユーザの戦略的行動に対する感受性といった制限に直面しています。
私たちが研究している協調AI技術が現実世界のインセンティブや攻撃ベクトルに対して堅牢かどうかは不明だ。
しかし、暗号を利用する分散型のコミットメント装置が広く普及しており、多くの研究で、現在数十億ドルから数十億ドルのオーダーで、敵対する相手に直面するアルゴリズムエージェントを調整できることが示されている。
本稿では,分散化の例,特に最大抽出可能値 (mev) (arxiv:1904.05234) の文献を用いて,協調型aiにおける潜在的なセキュリティ問題を説明する。
我々は、オープン環境におけるセキュアなコーディネーションのための協力的AI能力を促進するための分散コミットメントと、実世界のコミットメント制約が与えられたマルチエージェントコーディネーション能力を評価するための実証的なテストフレームワークについて、さらなる研究を求める。 Credible commitment devices have been a popular approach for robust multi-agent coordination. However, existing commitment mechanisms face limitations like privacy, integrity, and susceptibility to mediator or user strategic behavior. It is unclear if the cooperative AI techniques we study are robust to real-world incentives and attack vectors. However, decentralized commitment devices that utilize cryptography have been deployed in the wild, and numerous studies have shown their ability to coordinate algorithmic agents facing adversarial opponents with significant economic incentives, currently in the order of several million to billions of dollars. In this paper, we use examples in the decentralization and, in particular, Maximal Extractable Value (MEV) (arXiv:1904.05234) literature to illustrate the potential security issues in cooperative AI. We call for expanded research into decentralized commitments to advance cooperative AI capabilities for secure coordination in open environments and empirical testing frameworks to evaluate multi-agent coordination ability given real-world commitment constraints. | 翻訳日:2023-11-15 15:54:46 公開日:2023-11-14 |
# VegaEdge: リアルタイムハイウェイIoTアプリケーションのためのエッジAI合流異常検出 VegaEdge: Edge AI Confluence Anomaly Detection for Real-Time Highway IoT-Applications ( http://arxiv.org/abs/2311.07880v1 ) ライセンス: Link先を確認 | Vinit Katariya, Fatema-E- Jannat, Armin Danesh Pazho, Ghazal Alinezhad Noghre, Hamed Tabkhi | (参考訳) 車両異常検出は、事故防止、迅速な応答、交通流の最適化、ワークゾーンの安全など、高速道路の安全用途において重要な役割を果たす。
近年のIoT(Internet of Things)の急激な普及に伴い、IoTデバイスの要件を満たすように設計された人工知能(AI)ベースの異常検出手法に対する需要が高まっている。
この未来的なビジョンに則って,軌道予測の力を利用して車両の異常検出に軽量なアプローチを導入する。
提案した設計では、予測経路から逸脱した車両を特定し、現実の高速道路データセットから異なるカメラビューング角度からのハイウェイリスクを示す。
さらに私たちは,私たちの異常検出アプローチを備えたエッジ中心のIoT組み込みプラットフォームを通じて,現代的なハイウェイ設定におけるリアルタイムセキュリティと監視アプリケーション用に設計された,高度なAIコンバレンスであるVegaEdgeを紹介します。
複数のプラットフォームとトラフィックシナリオにわたる広範なテストは、vegaedgeの汎用性と有効性を示している。
この研究は、ハイウェイ異常に適したデータセットの既存のギャップを埋めるために、カロライナ異常データセット(CAD)も提示する。
実世界のシナリオでは、我々の異常検出アプローチはAUC-ROC 0.94を達成し、私たちの提案したVegaEdge設計は、組み込みIoTプラットフォーム上で、典型的なハイウェイ環境で毎秒738のトラジェクトリを処理する。
データセットはhttps://github.com/TeCSAR-UNCC/Carolinas_Dataset#chd-anomaly-test-set で公開されている。 Vehicle anomaly detection plays a vital role in highway safety applications such as accident prevention, rapid response, traffic flow optimization, and work zone safety. With the surge of the Internet of Things (IoT) in recent years, there has arisen a pressing demand for Artificial Intelligence (AI) based anomaly detection methods designed to meet the requirements of IoT devices. Catering to this futuristic vision, we introduce a lightweight approach to vehicle anomaly detection by utilizing the power of trajectory prediction. Our proposed design identifies vehicles deviating from expected paths, indicating highway risks from different camera-viewing angles from real-world highway datasets. On top of that, we present VegaEdge - a sophisticated AI confluence designed for real-time security and surveillance applications in modern highway settings through edge-centric IoT-embedded platforms equipped with our anomaly detection approach. Extensive testing across multiple platforms and traffic scenarios showcases the versatility and effectiveness of VegaEdge. This work also presents the Carolinas Anomaly Dataset (CAD), to bridge the existing gap in datasets tailored for highway anomalies. In real-world scenarios, our anomaly detection approach achieves an AUC-ROC of 0.94, and our proposed VegaEdge design, on an embedded IoT platform, processes 738 trajectories per second in a typical highway setting. The dataset is available at https://github.com/TeCSAR-UNCC/Carolinas_Dataset#chd-anomaly-test-set . | 翻訳日:2023-11-15 15:44:54 公開日:2023-11-14 |
# 毒性検出は必要ではない:ボランティアコンテンツモデレータをサポートするためのギャップの測定 Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators ( http://arxiv.org/abs/2311.07879v1 ) ライセンス: Link先を確認 | Yang Trista Cao, Lovely-Frances Domingo, Sarah Ann Gilbert, Michelle Mazurek, Katie Shilton, Hal Daum\'e III | (参考訳) コンテンツモデレーションのための自動アプローチの広範な取り組みは、モデレーターの負荷を軽くするため、有害、不快、憎悪のコンテンツを特定するモデルの開発に焦点が当てられている。
しかし、これらのタスクの改善が、モデレーターが自分の仕事を成し遂げているニーズに本当に対処するかどうかは不明だ。
本稿では,コンテンツモデレーションタスクの面での自動化を目指してきた過去の研究成果と,ボランティアコンテンツモデレーターの必要性のギャップを明らかにする。
そのために,ハグフェイスに関するモデルレビューを実施し,様々なモデレーションルールとガイドラインをカバーするモデルの可用性を明らかにする。
さらに,テスト(GPT-4およびLlama-2)に最先端のLLMを適用し,これらのモデルがプラットフォームルール違反のフラグ付けにどの程度有効かを評価する。
全体として、未発達のモデルやLLMがルールのかなりの部分で低いリコールを示すため、非自明なギャップが観察される。 Extensive efforts in automated approaches for content moderation have been focused on developing models to identify toxic, offensive, and hateful content -- with the aim of lightening the load for moderators. Yet, it remains uncertain whether improvements on those tasks truly address the needs that moderators have in accomplishing their work. In this paper, we surface the gaps between past research efforts that have aimed to provide automation for aspects of the content moderation task, and the needs of volunteer content moderators. To do so, we conduct a model review on Hugging Face to reveal the availability of models to cover various moderation rules and guidelines. We further put state-of-the-art LLMs to the test (GPT-4 and Llama-2), evaluating how well these models perform in flagging violations of platform rules. Overall, we observe a non-trivial gap, as missing developed models and LLMs exhibit low recall on a significant portion of the rules. | 翻訳日:2023-11-15 15:44:30 公開日:2023-11-14 |
# 出力コントラスト損失を伴うセマンティックセグメンテーションの試験時間トレーニング Test-Time Training for Semantic Segmentation with Output Contrastive Loss ( http://arxiv.org/abs/2311.07877v1 ) ライセンス: Link先を確認 | Yunlong Zhang and Yuxuan Sun and Sunyi Zheng and Zhongyi Shui and Chenglu Zhu and Lin Yang | (参考訳) ディープラーニングベースのセグメンテーションモデルは、公開ベンチマークで印象的なパフォーマンスを達成したが、未認識環境への一般化は依然として大きな課題である。
評価中の新しいドメインへのモデルの一般化能力を改善するため、テストタイムトレーニング(TTT)は、オンライン方式でソース予測モデルに適応する難しいパラダイムである。
TTTの初期の取り組みは主に画像分類タスクに焦点を当てていた。
これらのメソッドをセマンティクスセグメンテーションに直接拡張することは、極度のクラス不均衡や複雑な決定空間といったセグメンテーション固有の特性によって、容易に不安定な適応を経験できる。
適応過程を安定させるために,頑健で一般化された表現を学習する能力で知られるコントラッシブ・ロス(CL)を導入する。
それにもかかわらず、伝統的なclは表現空間で動作し、直接予測を拡張できない。
本稿では、CLを出力空間に適応させ、高温を利用して定式化を単純化することにより、この制限を解消し、出力コントラスト損失(OCL)と呼ばれる単純で効果的な損失関数を導出する。
総合実験により,様々な評価シナリオにおけるアプローチの有効性を検証した。
特に、テストドメインデータにドメイン適応法を用いて事前学習したモデルに適用しても優れた手法であり、そのレジリエンスと適応性を示している。
\footnote{Code and more information can found at~ \url{https://github.com/dazhangyu123/OCL}} Although deep learning-based segmentation models have achieved impressive performance on public benchmarks, generalizing well to unseen environments remains a major challenge. To improve the model's generalization ability to the new domain during evaluation, the test-time training (TTT) is a challenging paradigm that adapts the source-pretrained model in an online fashion. Early efforts on TTT mainly focus on the image classification task. Directly extending these methods to semantic segmentation easily experiences unstable adaption due to segmentation's inherent characteristics, such as extreme class imbalance and complex decision spaces. To stabilize the adaptation process, we introduce contrastive loss (CL), known for its capability to learn robust and generalized representations. Nevertheless, the traditional CL operates in the representation space and cannot directly enhance predictions. In this paper, we resolve this limitation by adapting the CL to the output space, employing a high temperature, and simplifying the formulation, resulting in a straightforward yet effective loss function called Output Contrastive Loss (OCL). Our comprehensive experiments validate the efficacy of our approach across diverse evaluation scenarios. Notably, our method excels even when applied to models initially pre-trained using domain adaptation methods on test domain data, showcasing its resilience and adaptability.\footnote{Code and more information could be found at~ \url{https://github.com/dazhangyu123/OCL}} | 翻訳日:2023-11-15 15:44:13 公開日:2023-11-14 |
# 未知の遷移と全情報フィードバックを用いた対向的低ランクマルコフ決定過程の学習 Learning Adversarial Low-rank Markov Decision Processes with Unknown Transition and Full-information Feedback ( http://arxiv.org/abs/2311.07876v1 ) ライセンス: Link先を確認 | Canzhe Zhao, Ruofeng Yang, Baoxiang Wang, Xuezhou Zhang, Shuai Li | (参考訳) 本研究では,全情報フィードバック設定において,逆向きに損失が変化する低ランクMPPについて検討する。
特に、未知遷移確率カーネルは低ランク行列分解 \citep{REPUCB22} を許容し、損失関数は逆向きに変化するが、各エピソードの最後に学習者に明らかにされる。
我々は、ポリシー最適化に基づくアルゴリズムポロを提案し、そのアルゴリズムが$\widetilde{o}(k^{\frac{5}{6}}a^{\frac{1}{2}}d\ln(1+m)/(1-\gamma)^2)$となることを証明する。
特に、我々のアルゴリズムはオラクル効率が高く、潜在的に大きな状態空間のサイズに依存しない残念な保証を持っている。
さらに、この問題に対して$\Omega(\frac{\gamma^2}{1-\gamma} \sqrt{d A K})$ regret lower bound を証明し、低ランクの MDP は、後悔最小化設定において線形の MDP よりも統計的に学習することが困難であることを示す。
我々の知識を最大限に活用するために, 表現学習, 探索, 活用をインターリーブし, 非線形関数近似と逆損失を伴うrlの劣線形後悔保証を実現する最初のアルゴリズムを提案する。 In this work, we study the low-rank MDPs with adversarially changed losses in the full-information feedback setting. In particular, the unknown transition probability kernel admits a low-rank matrix decomposition \citep{REPUCB22}, and the loss functions may change adversarially but are revealed to the learner at the end of each episode. We propose a policy optimization-based algorithm POLO, and we prove that it attains the $\widetilde{O}(K^{\frac{5}{6}}A^{\frac{1}{2}}d\ln(1+M)/(1-\gamma)^2)$ regret guarantee, where $d$ is rank of the transition kernel (and hence the dimension of the unknown representations), $A$ is the cardinality of the action space, $M$ is the cardinality of the model class, and $\gamma$ is the discounted factor. Notably, our algorithm is oracle-efficient and has a regret guarantee with no dependence on the size of potentially arbitrarily large state space. Furthermore, we also prove an $\Omega(\frac{\gamma^2}{1-\gamma} \sqrt{d A K})$ regret lower bound for this problem, showing that low-rank MDPs are statistically more difficult to learn than linear MDPs in the regret minimization setting. To the best of our knowledge, we present the first algorithm that interleaves representation learning, exploration, and exploitation to achieve the sublinear regret guarantee for RL with nonlinear function approximation and adversarial losses. | 翻訳日:2023-11-15 15:43:48 公開日:2023-11-14 |
# 病理画像の断片分類のためのデュアルチャネルプロトタイプネットワーク Dual-channel Prototype Network for few-shot Classification of Pathological Images ( http://arxiv.org/abs/2311.07871v1 ) ライセンス: Link先を確認 | Hao Quan, Xinjia Li, Dayu Hu, Tianhang Nan and Xiaoyu Cui | (参考訳) 病理学では、特定の疾患の希少性や注釈画像の複雑さが、広範囲で高品質なデータセットの作成を著しく妨げている。
この制限は、病理学における深層学習支援診断システムの進歩を妨げる。
その結果、新しい疾患の分類を最小限の注釈付き例から識別できる技術を考案することが不可欠となる。
このような技術は希少疾患のディープラーニングモデルを大幅に進歩させるだろう。
このニーズに対処するため,本研究では,少数の学習パラダイムに根ざしたDual- Channel Prototype Network (DCPN)を導入し,限られたサンプルを用いた病理画像の分類に挑戦する。
dcpnは自己教師付き学習による少数ショット分類のためのピラミッドビジョントランスフォーマ(pvt)フレームワークを拡張し、畳み込みニューラルネットワークと統合する。
この組み合わせは、マルチスケールで高精度な病理特徴を抽出するデュアルチャネルアーキテクチャを形成する。
このアプローチは,プロトタイプ表現の汎用性を高め,少数の病理画像分類タスクにおけるプロトタイプネットワークの有効性を高める。
臨床シナリオドメインシフトの度合いを反映した小さめの分類タスクを設定し,3つの病的データセットを用いてDCPNを評価した。
本研究は,DCPNが画像分類に優れていること,特に同領域内の課題において,教師あり学習のベンチマークを達成できることを強く裏付けるものである。 In pathology, the rarity of certain diseases and the complexity in annotating pathological images significantly hinder the creation of extensive, high-quality datasets. This limitation impedes the progress of deep learning-assisted diagnostic systems in pathology. Consequently, it becomes imperative to devise a technology that can discern new disease categories from a minimal number of annotated examples. Such a technology would substantially advance deep learning models for rare diseases. Addressing this need, we introduce the Dual-channel Prototype Network (DCPN), rooted in the few-shot learning paradigm, to tackle the challenge of classifying pathological images with limited samples. DCPN augments the Pyramid Vision Transformer (PVT) framework for few-shot classification via self-supervised learning and integrates it with convolutional neural networks. This combination forms a dual-channel architecture that extracts multi-scale, highly precise pathological features. The approach enhances the versatility of prototype representations and elevates the efficacy of prototype networks in few-shot pathological image classification tasks. We evaluated DCPN using three publicly available pathological datasets, configuring small-sample classification tasks that mirror varying degrees of clinical scenario domain shifts. Our experimental findings robustly affirm DCPN's superiority in few-shot pathological image classification, particularly in tasks within the same domain, where it achieves the benchmarks of supervised learning. | 翻訳日:2023-11-15 15:43:18 公開日:2023-11-14 |
# メタランキングシステムの大容量モデリングのためのautoml AutoML for Large Capacity Modeling of Meta Ranking Systems ( http://arxiv.org/abs/2311.07870v1 ) ライセンス: Link先を確認 | Hang Yin, Kuang-Hung Liu, Mengying Sun, Yuxin Chen, Buyun Zhang, Jiang Liu, Vivek Sehgal, Rudresh Rajnikant Panchal, Eugen Hotaj, Xi Liu, Daifeng Guo, Jamey Zhang, Zhou Wang, Shali Jiang, Huayu Li, Zhengxing Chen, Wen-Yen Chen, Jiyan Yang, Wei Wen | (参考訳) Metaのウェブスケールランキングシステムは、何十億ものユーザーにサービスを提供している。
ランキングモデルの改善は不可欠だが、エンジニアリングは重い。
Automated Machine Learning (AutoML)は、ランキングモデルをチューニングする労働集約的な作業からエンジニアを解放することができるが、AutoMLが実世界で厳密な生産スケジュールを満たすのに十分な効率であるかどうかは不明であり、同時に強力なベースラインにさらなる改善をもたらす。
さらに、より高いランキング性能を達成するために、さらに大きなキャパシティにランキングモデルをスケールアップする需要がますます高まり、効率により多くの課題が課されている。
大規模なモデルと厳密な生産スケジュールでは、AutoMLは少数のモデル評価試験(約100)を使用することで、人間のベースラインを上回ります。
本稿では,ニューラルアーキテクチャ探索とハイパーパラメータ最適化に着目したサンプリングベースのAutoML手法を提案する。
当社のアプローチは大規模データ要求を効率的に処理する。
軽量な予測器ベースの検索と強化学習を利用して、広大な検索空間を探索し、モデル評価の数を大幅に削減する。
CTRおよびCVRアプリケーションのための大規模キャパシティモデリング実験により, 最大0.09%の正規化エントロピー(NE)損失削減あるいは25 %$ Query per second (QPS) の増加を, キュレートされた検索空間から平均100モデルのみをサンプリングすることで, 優れた投資収益率(ROI)と人間の調整ベースライン(ROI)を達成することを示す。
提案したAutoMLメソッドは、大規模なオンラインA/Bテストで-0.36% NEゲインを持つInstagram CTRモデル(既存のプロダクションベースライン以上)が選択され、統計的に有意なゲインを示すという、すでに現実的な影響を与えている。
これらの生産結果はautomlの有効性を証明し、metaにおけるランキングシステムの採用を加速させた。 Web-scale ranking systems at Meta serving billions of users is complex. Improving ranking models is essential but engineering heavy. Automated Machine Learning (AutoML) can release engineers from labor intensive work of tuning ranking models; however, it is unknown if AutoML is efficient enough to meet tight production timeline in real-world and, at the same time, bring additional improvements to the strong baselines. Moreover, to achieve higher ranking performance, there is an ever-increasing demand to scale up ranking models to even larger capacity, which imposes more challenges on the efficiency. The large scale of models and tight production schedule requires AutoML to outperform human baselines by only using a small number of model evaluation trials (around 100). We presents a sampling-based AutoML method, focusing on neural architecture search and hyperparameter optimization, addressing these challenges in Meta-scale production when building large capacity models. Our approach efficiently handles large-scale data demands. It leverages a lightweight predictor-based searcher and reinforcement learning to explore vast search spaces, significantly reducing the number of model evaluations. Through experiments in large capacity modeling for CTR and CVR applications, we show that our method achieves outstanding Return on Investment (ROI) versus human tuned baselines, with up to 0.09% Normalized Entropy (NE) loss reduction or $25\%$ Query per Second (QPS) increase by only sampling one hundred models on average from a curated search space. The proposed AutoML method has already made real-world impact where a discovered Instagram CTR model with up to -0.36% NE gain (over existing production baseline) was selected for large-scale online A/B test and show statistically significant gain. These production results proved AutoML efficacy and accelerated its adoption in ranking systems at Meta. | 翻訳日:2023-11-15 15:42:56 公開日:2023-11-14 |
# 量子近似最適化アルゴリズムのためのハイブリッドgru-cnnバイリニアパラメータ初期化 Hybrid GRU-CNN Bilinear Parameters Initialization for Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2311.07869v1 ) ライセンス: Link先を確認 | Zuyu Xu, Pengnian Cai, Kang Sheng, Tao Yang, Yuanming Hu, Yunlai Zhu, Zuheng Wu, Yuehua Dai, Fei Yang | (参考訳) 変分量子アルゴリズム(vqas)の分野で重要なパラダイムである量子近似最適化アルゴリズム(qaoa)は、組合せ最適化問題に取り組む上で有望な計算上の利点を提供する。
解を符号化するパラメータ化量子状態の準備に責任を持つ、よく定義された初期回路パラメータは、QAOAの最適化において重要な役割を果たす。
しかし、古典最適化手法は最適解と一致する最適パラメータを識別する際の課題に直面する。
本研究では,ゲートリカレントユニット(gru),畳み込みニューラルネットワーク(cnn),バイリニア戦略を統合したハイブリッド最適化手法を提案する。
gru は deep-1 回路に好適なパラメータを確率的に初期化するのに役立ち、cnn は depth-1 回路の最適化パラメータに基づいて depth-2 回路の初期パラメータを予測する。
提案手法の有効性を評価するため,Erd\H{o}s-R\enyi グラフインスタンス上でのQAOAを用いた従来の初期化手法との比較分析を行い,最適な近似比が得られた。
GRU-CNN最適化から得られた基準パラメータを用いて、より深い深さでQAOA回路パラメータを初期化する。
このアプローチにより、深さ-12qaoa回路のパラメータを予測でき、10キュービット間で0.998の顕著な近似比が得られ、ランダム初期化戦略やppn2法を10の深さで超えている。
提案したハイブリッドGRU-CNN双線形最適化手法は、パラメータの初期化の有効性と精度を大幅に向上させ、その性能を高めるQAOAのための有望な反復的フレームワークを提供する。 The Quantum Approximate Optimization Algorithm (QAOA), a pivotal paradigm in the realm of variational quantum algorithms (VQAs), offers promising computational advantages for tackling combinatorial optimization problems. Well-defined initial circuit parameters, responsible for preparing a parameterized quantum state encoding the solution, play a key role in optimizing QAOA. However, classical optimization techniques encounter challenges in discerning optimal parameters that align with the optimal solution. In this work, we propose a hybrid optimization approach that integrates Gated Recurrent Units (GRU), Convolutional Neural Networks (CNN), and a bilinear strategy as an innovative alternative to conventional optimizers for predicting optimal parameters of QAOA circuits. GRU serves to stochastically initialize favorable parameters for depth-1 circuits, while CNN predicts initial parameters for depth-2 circuits based on the optimized parameters of depth-1 circuits. To assess the efficacy of our approach, we conducted a comparative analysis with traditional initialization methods using QAOA on Erd\H{o}s-R\'enyi graph instances, revealing superior optimal approximation ratios. We employ the bilinear strategy to initialize QAOA circuit parameters at greater depths, with reference parameters obtained from GRU-CNN optimization. This approach allows us to forecast parameters for a depth-12 QAOA circuit, yielding a remarkable approximation ratio of 0.998 across 10 qubits, which surpasses that of the random initialization strategy and the PPN2 method at a depth of 10. The proposed hybrid GRU-CNN bilinear optimization method significantly improves the effectiveness and accuracy of parameters initialization, offering a promising iterative framework for QAOA that elevates its performance. | 翻訳日:2023-11-15 15:42:16 公開日:2023-11-14 |
# 脳波自動エンコーダを用いた多信号再構成 Multi-Signal Reconstruction Using Masked Autoencoder From EEG During Polysomnography ( http://arxiv.org/abs/2311.07868v1 ) ライセンス: Link先を確認 | Young-Seok Kweon, Gi-Hwan Shin, Heon-Gyu Kwak, Ha-Na Jo, Seong-Whan Lee | (参考訳) ポリソムノグラフィー(PSG)は睡眠医学において欠かせない診断ツールであり、睡眠障害の特定に不可欠である。
脳波、EOG、EMG、心呼吸測定値などの生理的信号を捉えることで、PSGは患者の睡眠構造を示す。
しかし、複雑な機器や専門知識に依存しているため、専門的な臨床現場での使用は限られている。
本研究の目的は,脳波計測のみを必要とするシステムを開発することでPSGを実現することである。
マスク付きオートエンコーダを用いた単一チャネル脳波から多信号PSGを再構成できる新しいシステムを提案する。
マスク付きオートエンコーダはsleep-edf-20データセットを用いてトレーニングと評価を行い、平均二乗誤差を元の信号と再構成信号の類似性を評価する指標とした。
このモデルは多信号データを再構成する能力を示した。
以上の結果から,よりアクセスしやすい長期睡眠モニタリングシステムの開発が期待できる。
これはpsgの適用性の拡大を示唆し、診療所の範囲を超えた使用を可能にした。 Polysomnography (PSG) is an indispensable diagnostic tool in sleep medicine, essential for identifying various sleep disorders. By capturing physiological signals, including EEG, EOG, EMG, and cardiorespiratory metrics, PSG presents a patient's sleep architecture. However, its dependency on complex equipment and expertise confines its use to specialized clinical settings. Addressing these limitations, our study aims to perform PSG by developing a system that requires only a single EEG measurement. We propose a novel system capable of reconstructing multi-signal PSG from a single-channel EEG based on a masked autoencoder. The masked autoencoder was trained and evaluated using the Sleep-EDF-20 dataset, with mean squared error as the metric for assessing the similarity between original and reconstructed signals. The model demonstrated proficiency in reconstructing multi-signal data. Our results present promise for the development of more accessible and long-term sleep monitoring systems. This suggests the expansion of PSG's applicability, enabling its use beyond the confines of clinics. | 翻訳日:2023-11-15 15:41:41 公開日:2023-11-14 |
# ニューラルネットワーク表現におけるクラスタリングの探索 Probing clustering in neural network representations ( http://arxiv.org/abs/2311.07864v1 ) ライセンス: Link先を確認 | Thao Nguyen, Simon Kornblith | (参考訳) ニューラルネットワーク表現は、トレーニングラベルに存在するもの以上の構造を含んでいる。
例えば、視覚的または意味的に類似した画像の表現は、ラベルに関係なく、異なる画像よりも互いに近くにある傾向がある。
これらの表現をクラスタ化することで、データセットプロパティやネットワーク内部に関する洞察を得ることができる。
本研究では,ニューラルネットワーク学習における多くの設計選択が,隠れ表現に形成されたクラスタに与える影響について検討する。
そこで我々は,BREEDS階層に基づく評価設定を構築し,スーパークラス情報のみを訓練したモデルの後,サブクラスクラスタリングの課題について検討する。
トレーニングデータセットとアーキテクチャを、クラスタビリティに影響を及ぼす重要な要因として分離します。
非関連なサブクラスからなるラベル付きクラスを持つデータセットは、自然な階層に従うものよりもはるかに優れたクラスタビリティをもたらす。
下流データセットのクラスタ化に事前トレーニングされたモデルを使用する場合、サブクラスラベルで事前トレーニングされたモデルは、スーパークラスラベルで事前トレーニングされたモデルよりも優れたクラスタビリティを提供する。
アーキテクチャ上、正規化戦略はどの層が最高のクラスタリング性能をもたらすかに影響し、驚くべきことにVision TransformerはResNetsよりも低いサブクラスクラスタビリティを実現している。 Neural network representations contain structure beyond what was present in the training labels. For instance, representations of images that are visually or semantically similar tend to lie closer to each other than to dissimilar images, regardless of their labels. Clustering these representations can thus provide insights into dataset properties as well as the network internals. In this work, we study how the many design choices involved in neural network training affect the clusters formed in the hidden representations. To do so, we establish an evaluation setup based on the BREEDS hierarchy, for the task of subclass clustering after training models with only superclass information. We isolate the training dataset and architecture as important factors affecting clusterability. Datasets with labeled classes consisting of unrelated subclasses yield much better clusterability than those following a natural hierarchy. When using pretrained models to cluster representations on downstream datasets, models pretrained on subclass labels provide better clusterability than models pretrained on superclass labels, but only when there is a high degree of domain overlap between the pretraining and downstream data. Architecturally, we find that normalization strategies affect which layers yield the best clustering performance, and, surprisingly, Vision Transformers attain lower subclass clusterability than ResNets. | 翻訳日:2023-11-15 15:41:22 公開日:2023-11-14 |
# 到達可能な幾何量子スピード限界の族 Family of attainable geometric quantum speed limits ( http://arxiv.org/abs/2311.07862v1 ) ライセンス: Link先を確認 | Zi-yi Mai, Zheng Liu and Chang-shui Yu | (参考訳) 本稿では,量子状態距離を提案し,クローズドシステムのための幾何学的量子速度制限(QSL)のファミリーを開発する。
QSL時間は、特に選択された関数を持つ3つのQSL時間を導出する代替関数を含む。
これは、2つのQSL時間がまさにRefで示されるものであることを示している。
[1] と [2] はそれぞれ開系と閉系の両方に対して統一 QSL 時間を与えることができる。
3つのQSL時間は、初期状態が測地線に沿って進化するように駆動するダイナミクスが存在するという意味で、任意の初期状態に対して達成可能である。
オルタナティブ関数を最適化する場合、より厳密なqsl時間を約束する3つのqsl時間のタイトさを数値的に比較する。 We propose a quantum state distance and develop a family of geometrical quantum speed limits (QSLs) for open and closed systems. The QSL time includes an alternative function by which we derive three QSL times with particularly chosen functions. It indicates that two QSL times are exactly the ones presented in Ref. [1] and [2], respectively, and the third one can provide a unified QSL time for both open and closed systems. The three QSL times are attainable for any given initial state in the sense that there exists a dynamics driving the initial state to evolve along the geodesic. We numerically compare the tightness of the three QSL times, which typically promises a tighter QSL time if optimizing the alternative function. | 翻訳日:2023-11-15 15:41:01 公開日:2023-11-14 |
# TREC 2023製品探索トラックの概要 Overview of the TREC 2023 Product Product Search Track ( http://arxiv.org/abs/2311.07861v1 ) ライセンス: Link先を確認 | Daniel Campos, Surya Kallumadi, Corby Rosset, Cheng Xiang Zhai, Alessandro Magnani | (参考訳) 今年はTREC製品サーチトラックの最初の年だ。
今年の焦点は、再利用可能なコレクションの作成と、メタデータとマルチモーダルデータの利用が検索精度に与える影響の評価である。
今年は、コンテキストメタデータを含む新しい製品検索コーパスを活用しています。
本分析は,製品検索領域において,従来の検索システムは,汎用的な事前学習型埋め込みモデルよりも効率的で,一般的に優れていることを示す。
また, 簡易・メタデータ強化コレクションの利用による影響も評価し, 拡張コレクションの影響について明確な傾向は見つからなかった。
他のタスクで広く採用され、競争性能が向上しているにもかかわらず、シングルステージの高密度検索は一般的に非競合的であり、ゼロショットドメインと微調整ドメインの両方で低品質の結果を生成することができる。 This is the first year of the TREC Product search track. The focus this year was the creation of a reusable collection and evaluation of the impact of the use of metadata and multi-modal data on retrieval accuracy. This year we leverage the new product search corpus, which includes contextual metadata. Our analysis shows that in the product search domain, traditional retrieval systems are highly effective and commonly outperform general-purpose pretrained embedding models. Our analysis also evaluates the impact of using simplified and metadata-enhanced collections, finding no clear trend in the impact of the expanded collection. We also see some surprising outcomes; despite their widespread adoption and competitive performance on other tasks, we find single-stage dense retrieval runs can commonly be noncompetitive or generate low-quality results both in the zero-shot and fine-tuned domain. | 翻訳日:2023-11-15 15:40:50 公開日:2023-11-14 |
# 量子探索における縮退摂動理論 Degenerate perturbation theory to quantum search ( http://arxiv.org/abs/2311.07856v1 ) ライセンス: Link先を確認 | Dezheng Zhang, Xuanmin Zhu, Yuanchun Deng, Runping Gao, Qun Wei and Zijiang Luo | (参考訳) 縮退摂動理論を用いて, 2次切断された単純格子上の連続時間量子探索を行う。
本研究では,ハミルトニアンの構成は格子の構造を考慮しなければならないことを示す。
このアイデアは、縮退摂動理論を三階および高階格子に効果的に適用することができる。
我々はハミルトニアン次元の減少に関する2つの制約を同定する。
さらに,マークされた頂点の異なる構成が量子探索に与える影響を解明する。 We utilize degenerate perturbation theory to investigate continuous-time quantum search on second-order truncated simplex lattices. In this work, we show that the construction of the Hamiltonian must consider the structure of the lattice. This idea enables effective application of degenerate perturbation theory to third- and higher-order lattices. We identify two constraints on the reduction of the dimension of the Hamiltonian. In addition, we elucidate the influence of the distinct configurations of marked vertices on the quantum search. | 翻訳日:2023-11-15 15:40:37 公開日:2023-11-14 |
# 文字とサブワードの相互インフォームド表現の学習 Learning Mutually Informed Representations for Characters and Subwords ( http://arxiv.org/abs/2311.07853v1 ) ライセンス: Link先を確認 | Yilin Wang, Xinyi Hu, Matthew R. Gormley | (参考訳) 事前訓練された言語モデルは、テキストをサブワードトークンのシーケンスとして処理するサブワードトークン化に依存している。
しかし、文字、サブワード、単語などのテキストの粒度の違いは、異なる種類の情報を含むことができる。
これまでの研究では、複数の入力粒度を組み込むことでモデル一般化が改善されるが、各粒度に対して有用な表現を出力するものはごくわずかである。
本稿では,文字とサブワードの言語モデルを組み合わせた絡み合いモデルを提案する。
視覚言語モデルにインスパイアされた我々のモデルは、文字とサブワードを個別のモダリティとして扱い、両者の粒度の相互情報表現を出力として生成する。
我々は、テキスト分類、名前付きエンティティ認識、posタグタスクに関するモデルを評価する。
特に、絡み合いモデルはバックボーン言語モデルよりも優れており、特にノイズの多いテキストや低リソース言語が存在する。
さらに、絡み合いモデルは、すべての英語シーケンスラベリングタスクと分類タスクにおいて、より大きな事前訓練されたモデルよりも優れている。
私たちの匿名コードはhttps://anonymous.4open.science/r/noisy-IE-A673で利用可能です。 Most pretrained language models rely on subword tokenization, which processes text as a sequence of subword tokens. However, different granularities of text, such as characters, subwords, and words, can contain different kinds of information. Previous studies have shown that incorporating multiple input granularities improves model generalization, yet very few of them outputs useful representations for each granularity. In this paper, we introduce the entanglement model, aiming to combine character and subword language models. Inspired by vision-language models, our model treats characters and subwords as separate modalities, and it generates mutually informed representations for both granularities as output. We evaluate our model on text classification, named entity recognition, and POS-tagging tasks. Notably, the entanglement model outperforms its backbone language models, particularly in the presence of noisy texts and low-resource languages. Furthermore, the entanglement model even outperforms larger pre-trained models on all English sequence labeling tasks and classification tasks. Our anonymized code is available at https://anonymous.4open.science/r/noisy-IE-A673 | 翻訳日:2023-11-15 15:40:31 公開日:2023-11-14 |
# 量子最適輸送コストに基づくコヒーレンス量子化器 A coherence quantifier based on the quantum optimal transport cost ( http://arxiv.org/abs/2311.07852v1 ) ライセンス: Link先を確認 | Xian Shi | (参考訳) 本稿では, コンベックス屋根延長法を用いて, 量子最適輸送コストに基づくコヒーレンス尺度を提案する。
また、純状態に対する量化器の解析解を得る。
最後に,純粋状態に対するコヒーレンス尺度の運用的解釈を提案する。 In this manuscript, we present a coherence measure based on the quantum optimal transport cost in terms of convex roof extended method. We also obtain the analytical solutions of the quantifier for pure states. At last, we propose an operational interpretation of the coherence measure for pure states. | 翻訳日:2023-11-15 15:40:15 公開日:2023-11-14 |
# 逆相関学習を用いた物体検出器の共通破壊に対するロバスト性向上に向けて Towards Improving Robustness Against Common Corruptions in Object Detectors Using Adversarial Contrastive Learning ( http://arxiv.org/abs/2311.07928v1 ) ライセンス: Link先を確認 | Shashank Kotyan and Danilo Vasconcellos Vargas | (参考訳) ニューラルネットワークは様々な領域に革命をもたらし、自然言語処理やコンピュータビジョンといったタスクにおいて顕著な精度を発揮している。
しかし、入力サンプルのわずかな変更に対する脆弱性は、特に自動運転のような安全クリティカルなアプリケーションにおいて問題となる。
トレーニング中に歪みを導入するといった現在のアプローチは、予期せぬ腐敗に対処するには不足している。
本稿では, ニューラルネットワークの強靭性向上と, 対人攻撃と共通汚職の同時防止を目的とした, 革新的な対人的コントラスト学習フレームワークを提案する。
インスタンス毎の逆行例を生成し、コントラスト損失を最適化することで、本手法は逆行の摂動に抵抗し、現実世界のシナリオにおいて頑健な表現を育成する。
その後のコントラスト学習はクリーンなサンプルとその敵の類似性を強化し、敵の攻撃と共通の歪みの両方に抵抗する表現を育む。
本研究の目的は,予測不可能な気象条件を走行する自動運転車など,安全上重要なアプリケーションにおけるニューラルネットワークの堅牢性を高めることである。
このフレームワークは、課題のある環境でのニューラルネットワークの信頼性向上に寄与し、ミッションクリティカルなシナリオで広く採用されることを期待しています。 Neural networks have revolutionized various domains, exhibiting remarkable accuracy in tasks like natural language processing and computer vision. However, their vulnerability to slight alterations in input samples poses challenges, particularly in safety-critical applications like autonomous driving. Current approaches, such as introducing distortions during training, fall short in addressing unforeseen corruptions. This paper proposes an innovative adversarial contrastive learning framework to enhance neural network robustness simultaneously against adversarial attacks and common corruptions. By generating instance-wise adversarial examples and optimizing contrastive loss, our method fosters representations that resist adversarial perturbations and remain robust in real-world scenarios. Subsequent contrastive learning then strengthens the similarity between clean samples and their adversarial counterparts, fostering representations resistant to both adversarial attacks and common distortions. By focusing on improving performance under adversarial and real-world conditions, our approach aims to bolster the robustness of neural networks in safety-critical applications, such as autonomous vehicles navigating unpredictable weather conditions. We anticipate that this framework will contribute to advancing the reliability of neural networks in challenging environments, facilitating their widespread adoption in mission-critical scenarios. | 翻訳日:2023-11-15 15:32:34 公開日:2023-11-14 |
# 拡散モデルに基づく脳駆動表現学習 Brain-Driven Representation Learning Based on Diffusion Model ( http://arxiv.org/abs/2311.07925v1 ) ライセンス: Link先を確認 | Soowon Kim, Seo-Hyun Lee, Young-Eun Lee, Ji-Won Lee, Ji-Ha Park, Seong-Whan Lee | (参考訳) 音声言語に関連付けられた脳波信号の解釈は、データの複雑な時間的・空間的特性や様々な雑音因子を考えると複雑な課題である。
近年,様々な分野において,表現学習の能力について注目されている拡散確率モデル(ddpms)について,この問題に対処する手段として検討した。
条件付きオートエンコーダとDDPMを併用することにより、従来の機械学習アルゴリズムとベースラインモデルの精度を大幅に向上する。
本研究は,音声関連脳波信号解析のための高度な計算手法として,DDPMの可能性を強調した。
これにより、音声通信に適した脳-コンピュータインタフェースが大幅に進歩する可能性がある。 Interpreting EEG signals linked to spoken language presents a complex challenge, given the data's intricate temporal and spatial attributes, as well as the various noise factors. Denoising diffusion probabilistic models (DDPMs), which have recently gained prominence in diverse areas for their capabilities in representation learning, are explored in our research as a means to address this issue. Using DDPMs in conjunction with a conditional autoencoder, our new approach considerably outperforms traditional machine learning algorithms and established baseline models in accuracy. Our results highlight the potential of DDPMs as a sophisticated computational method for the analysis of speech-related EEG signals. This could lead to significant advances in brain-computer interfaces tailored for spoken communication. | 翻訳日:2023-11-15 15:32:12 公開日:2023-11-14 |
# Qwen-Audio: 大規模音声言語モデルによるユニバーサル音声理解の促進 Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models ( http://arxiv.org/abs/2311.07919v1 ) ライセンス: Link先を確認 | Yunfei Chu, Jin Xu, Xiaohuan Zhou, Qian Yang, Shiliang Zhang, Zhijie Yan, Chang Zhou, Jingren Zhou | (参考訳) 近年,指示追従型音声言語モデルは人間との音声対話に広く注目を集めている。
しかし、多様なオーディオタイプやタスクを扱える事前訓練されたオーディオモデルがないため、この分野の進歩は妨げられている。
その結果、既存の作品のほとんどは限られた範囲の対話機能しかサポートできなかった。
本稿では,Qwen-Audioモデルを開発し,この制限に対処するために,30以上のタスクや人間の音声,自然音,音楽,歌など,さまざまなオーディオタイプをカバーするために,音声事前学習をスケールアップし,普遍的な音声理解能力を促進する。
しかし、タスクフォーカス、言語、アノテーションの粒度、テキスト構造の違いにより、異なるデータセットに関連付けられたテキストラベルにかなりのバリエーションがあるため、すべてのタスクとデータセットを直接コトレーニングすることは干渉問題を引き起こす可能性がある。
1対1の干渉を克服するために,階層タグのシーケンスをデコーダに条件付けし,知識共有を促進し,共有タグと指定タグによる干渉を回避することにより,マルチタスクトレーニングフレームワークを慎重に設計する。
驚くべきことに、qwen-audioはタスク固有の微調整を必要とせず、様々なベンチマークタスクで印象的なパフォーマンスを実現している。
qwen-audioの機能に基づいて、さまざまなオーディオとテキスト入力からの入力を可能にし、マルチターン対話を可能にし、さまざまなオーディオ中心シナリオをサポートするqwen-audio-chatをさらに開発する。 Recently, instruction-following audio-language models have received broad attention for audio interaction with humans. However, the absence of pre-trained audio models capable of handling diverse audio types and tasks has hindered progress in this field. Consequently, most existing works have only been able to support a limited range of interaction capabilities. In this paper, we develop the Qwen-Audio model and address this limitation by scaling up audio-language pre-training to cover over 30 tasks and various audio types, such as human speech, natural sounds, music, and songs, to facilitate universal audio understanding abilities. However, directly co-training all tasks and datasets can lead to interference issues, as the textual labels associated with different datasets exhibit considerable variations due to differences in task focus, language, granularity of annotation, and text structure. To overcome the one-to-many interference, we carefully design a multi-task training framework by conditioning on a sequence of hierarchical tags to the decoder for encouraging knowledge sharing and avoiding interference through shared and specified tags respectively. Remarkably, Qwen-Audio achieves impressive performance across diverse benchmark tasks without requiring any task-specific fine-tuning, surpassing its counterparts. Building upon the capabilities of Qwen-Audio, we further develop Qwen-Audio-Chat, which allows for input from various audios and text inputs, enabling multi-turn dialogues and supporting various audio-central scenarios. | 翻訳日:2023-11-15 15:32:00 公開日:2023-11-14 |
# GPT-4大言語モデルを用いたスコーピングレビューの自動タイトルと抽象スクリーニング Automated title and abstract screening for scoping reviews using the GPT-4 Large Language Model ( http://arxiv.org/abs/2311.07918v1 ) ライセンス: Link先を確認 | David Wilkins | (参考訳) スコーピング・レビュー(scoping reviews)は、文学レビューの一種で、レビューの目的に関連づけられた大量の学術資料を提示するために、集中的に人間の努力を必要とする。
この原稿は、GPT-4 Large Language Model (LLM)を使用してソースを自動的にスクリーニングするR統計プログラミング言語のパッケージであるGPTscreenRを紹介する。
このパッケージは、複雑なスクリーニングタスクのパフォーマンスを最大化する目的で、チェーン・オブ・シント技術を利用している。
コンセンサス・ヒューマン・レビュアーの決定に対する検証において、gptscreenrは、感度71%、特異度89%、全体的な精度84%の代替ゼロショット技術と同様に行った。
どちらの手法も完全な正確性は得られなかった。
GPTscreenRはLLMが学術的な作業をサポートする可能性を示し、既存のレビュープロセスに統合可能なユーザフレンドリなソフトウェアフレームワークを提供する。 Scoping reviews, a type of literature review, require intensive human effort to screen large numbers of scholarly sources for their relevance to the review objectives. This manuscript introduces GPTscreenR, a package for the R statistical programming language that uses the GPT-4 Large Language Model (LLM) to automatically screen sources. The package makes use of the chain-of-thought technique with the goal of maximising performance on complex screening tasks. In validation against consensus human reviewer decisions, GPTscreenR performed similarly to an alternative zero-shot technique, with a sensitivity of 71%, specificity of 89%, and overall accuracy of 84%. Neither method achieved perfect accuracy nor human levels of intraobserver agreement. GPTscreenR demonstrates the potential for LLMs to support scholarly work and provides a user-friendly software framework that can be integrated into existing review processes. | 翻訳日:2023-11-15 15:31:34 公開日:2023-11-14 |
# 1次元一般化モースポテンシャルによる調和振動子およびクーロン型ポテンシャルの3次元固有値:一般化ラゲール多項式に基づく摂動解析 Three-Dimensional Eigenvalues of Harmonic Oscillator- and Coulomb-type Potentials from One-Dimensional Generalized Morse Potential: Perturbative Analyse based on Generalized Laguerre Polynomials ( http://arxiv.org/abs/2311.07917v1 ) ライセンス: Link先を確認 | Altug Arda | (参考訳) 摂動スキーム内のクーロンバンド調和振動子型場の摂動エネルギー固有値(二階まで)を示す。
解析的に得られた不摂動固有値(E_{n}^{(0)}$)は、2つの体に対して非摂動ハミルトニアン(s)から得られる表現と1次元一般化モース場から得られる表現の類似性を用いて得られる。
この目的のためにランガー変換を使います。
非摂動および摂動ハミルトニアンの対角行列要素と非対角行列要素を摂動的にエネルギー固有値を得る必要があり、これはいくつかの再帰的同一性や解析結果を持つ一般化ラゲール多項式の積分の助けを借りて得られる。 We present perturbative energy eigenvalues (up to second order) of Coulomb- and harmonic oscillator-type fields within a perturbation scheme. We have the required unperturbed eigenvalues ($E_{n}^{(0)}$) analytically obtained by using similarities between the expressions obtained from unperturbed Hamiltonian(s) for two fields and obtained from the ones for one-dimensional generalized Morse field. We use the Langer transformation for this aim. We need the diagonal and non-diagonal matrix elements of unperturbed and perturbed Hamiltonians to get energy eigenvalues perturbatively, which are obtained with help of some recursion identities or some integrals of generalized Laguerre polynomials having analytical results. | 翻訳日:2023-11-15 15:31:19 公開日:2023-11-14 |
# 知識グラフはLLMの幻覚を抑制するか?
アンケート調査 Can Knowledge Graphs Reduce Hallucinations in LLMs? : A Survey ( http://arxiv.org/abs/2311.07914v1 ) ライセンス: Link先を確認 | Garima Agrawal, Tharindu Kumarage, Zeyad Alghami, Huan Liu | (参考訳) 現代のLSMは幻覚を引き起こす傾向があり、主にモデル内の知識ギャップから生じる。
この限界に対処するため、研究者は外部の知識を取り入れ、幻覚を減少させ推論精度を向上させることで、llmを強化するために多様な戦略を採用している。
これらの戦略のうち、外部情報ソースとしての知識グラフの利用は、有望な結果を示している。
本研究では,これらの知識グラフに基づく知識強化手法をllmsで包括的に検討し,幻覚の緩和効果に着目した。
我々は,これらの手法を3つの集団に分類し,方法論的比較と経験的評価の両方を提供する。
最後に,これらの技術にかかわる課題について考察し,今後の研究の道筋について概説する。 The contemporary LLMs are prone to producing hallucinations, stemming mainly from the knowledge gaps within the models. To address this critical limitation, researchers employ diverse strategies to augment the LLMs by incorporating external knowledge, aiming to reduce hallucinations and enhance reasoning accuracy. Among these strategies, leveraging knowledge graphs as a source of external information has demonstrated promising results. In this survey, we conduct a comprehensive review of these knowledge-graph-based knowledge augmentation techniques in LLMs, focusing on their efficacy in mitigating hallucinations. We systematically categorize these methods into three overarching groups, offering both methodological comparisons and empirical evaluations of their performance. Lastly, the paper explores the challenges associated with these techniques and outlines potential avenues for future research in this emerging field. | 翻訳日:2023-11-15 15:30:59 公開日:2023-11-14 |
# repvggと連続ウェーブレット変換によるクラッタ内小目標の検出 Detection of Small Targets in Sea Clutter Based on RepVGG and Continuous Wavelet Transform ( http://arxiv.org/abs/2311.07912v1 ) ライセンス: Link先を確認 | Jingchen Ni, Haoru Li, Lilin Xu and Jing Liang | (参考訳) シークラッタの背景に高性能な目標検出器を構築することが常に必要で重要である。
本研究では,repvggが検出精度の高い残差ネットワークであるrepvgga0-cwt検出器を提案する。
従来の残差ネットワークとは異なり、RepVGGは計算速度を許容する。
精度と速度の両方を考慮して、RepVGG0はRepVGGのすべての変種の中から選択される。
また、レーダエコーの時間周波数特性を効果的に抽出するために連続ウェーブレット変換(CWT)を用いる。
テストでは、他のネットワーク(ResNet50、ResNet18、AlexNet)と特徴抽出方法(短時間フーリエ変換(STFT)、CWT)を組み合わせて、比較のための検出器を構築する。
異なるデータセットの結果、revgga0-cwt検出器は、低制御可能な誤報率、高いトレーニング速度、高い推論速度、低いメモリ使用量の観点から、これらの検出器よりも優れた性能を示す。
このRepVGGA0-CWT検出器はハードウェアに親しみやすく、リアルタイムのシーンに適用することができる。 Constructing a high-performance target detector under the background of sea clutter is always necessary and important. In this work, we propose a RepVGGA0-CWT detector, where RepVGG is a residual network that gains a high detection accuracy. Different from traditional residual networks, RepVGG keeps an acceptable calculation speed. Giving consideration to both accuracy and speed, the RepVGGA0 is selected among all the variants of RepVGG. Also, continuous wavelet transform (CWT) is employed to extract the radar echoes' time-frequency feature effectively. In the tests, other networks (ResNet50, ResNet18 and AlexNet) and feature extraction methods (short-time Fourier transform (STFT), CWT) are combined to build detectors for comparison. The result of different datasets shows that the RepVGGA0-CWT detector performs better than those detectors in terms of low controllable false alarm rate, high training speed, high inference speed and low memory usage. This RepVGGA0-CWT detector is hardware-friendly and can be applied in real-time scenes for its high inference speed in detection. | 翻訳日:2023-11-15 15:30:43 公開日:2023-11-14 |
# 大規模言語モデルの指示追従評価 Instruction-Following Evaluation for Large Language Models ( http://arxiv.org/abs/2311.07911v1 ) ライセンス: Link先を確認 | Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou | (参考訳) LLM(Large Language Models)のコア機能のひとつは、自然言語命令に従うことだ。
人間の評価は高価で遅く、客観的に再現できないが、LLMに基づく自己評価は評価器の能力によってバイアスを受けるか制限される可能性がある。
これらの問題を克服するために、大規模言語モデルのための命令追従Eval(IFEval)を導入する。
IFEvalは、簡単に再現できる評価ベンチマークである。
400語以上の単語を書き込む"や"AIのキーワードを少なくとも3回書く"といった"検証可能な命令"のセットに焦点を当てている。
検証可能な命令の25種類を特定し,約500個のプロンプトを作成し,各プロンプトに1つ以上の検証可能な命令を含むようにした。
市場における2つのLLMの評価結果を示す。
私たちのコードとデータはhttps://github.com/google-research/google-research/tree/master/instruction_following_evalにあります。 One core capability of Large Language Models (LLMs) is to follow natural language instructions. However, the evaluation of such abilities is not standardized: Human evaluations are expensive, slow, and not objectively reproducible, while LLM-based auto-evaluation is potentially biased or limited by the ability of the evaluator LLM. To overcome these issues, we introduce Instruction-Following Eval (IFEval) for large language models. IFEval is a straightforward and easy-to-reproduce evaluation benchmark. It focuses on a set of "verifiable instructions" such as "write in more than 400 words" and "mention the keyword of AI at least 3 times". We identified 25 types of those verifiable instructions and constructed around 500 prompts, with each prompt containing one or more verifiable instructions. We show evaluation results of two widely available LLMs on the market. Our code and data can be found at https://github.com/google-research/google-research/tree/master/instruction_following_eval | 翻訳日:2023-11-15 15:30:20 公開日:2023-11-14 |
# CPopQA:LLMによる文化概念人気ランキング CPopQA: Ranking Cultural Concept Popularity by LLMs ( http://arxiv.org/abs/2311.07897v1 ) ライセンス: Link先を確認 | Ming Jiang and Mansi Joshi | (参考訳) 先行研究は、学習前コーパス内の統計的傾向を識別する大きな言語モデル(LLM)の可能性を示した。
それにもかかわらず、llmsの知識能力に関する多くの試験は、トレーニングデータに明示的に現れる知識に焦点を当てている。
LLMが、推論、特に長い尾を持つ概念のコーパスレベルの統計的傾向をいかにうまく捉えているかはまだ解明されていない。
本研究では,LLMの長期的文化的概念(例えば,ホリデーシーズン)の統計的ランク付け能力について,米国と英国におけるこれらの概念の人気に特に焦点をあてた,数発の質問応答タスク(CPopQA)を紹介する。
58か国で459の休日を含むデータセットをキュレートし、合計6000のQAテストペアを生成します。
4つの強力なLCM実験により、大きなモデルは、その統計的傾向に関するロングテールの文化的概念をランク付けできることが示された。
特にgpt-3.5は優れた性能を示し、大陸間の地球文化の近さを識別する可能性を示した。 Prior work has demonstrated large language models' (LLMs) potential to discern statistical tendencies within their pre-training corpora. Despite that, many examinations of LLMs' knowledge capacity focus on knowledge explicitly appearing in the training data or implicitly inferable from similar contexts. How well an LLM captures the corpus-level statistical trends of concepts for reasoning, especially long-tail ones, is still underexplored. In this study, we introduce a novel few-shot question-answering task (CPopQA) that examines LLMs' statistical ranking abilities for long-tail cultural concepts (e.g., holidays), with a specific focus on these concepts' popularity in the United States and the United Kingdom, respectively. We curate a dataset containing 459 holidays across 58 countries, generating a total of 6,000 QA testing pairs. Experiments on four strong LLMs show that large models are capable of ranking long-tail cultural concepts regarding their statistical tendency. Notably, GPT-3.5 displayed superior performance and exhibited its potential to identify geo-cultural proximity across continents. | 翻訳日:2023-11-15 15:30:05 公開日:2023-11-14 |
# 時空間乱流発生のためのベイズ条件拡散モデル Bayesian Conditional Diffusion Models for Versatile Spatiotemporal Turbulence Generation ( http://arxiv.org/abs/2311.07896v1 ) ライセンス: Link先を確認 | Han Gao, Xu Han, Xiantao Fan, Luning Sun, Li-Ping Liu, Lian Duan, Jian-Xun Wang | (参考訳) 乱流は、歴史的に予測計算モデリングに強大な挑戦をもたらした。
従来の数値シミュレーションでは膨大な計算資源が必要であり、多くの工学的応用では実現不可能である。
代替として、ディープラーニングベースのサロゲートモデルが登場し、データ駆動ソリューションを提供している。
しかし、これらは典型的には決定論的設定の中で構築され、乱流力学の自然のカオス的および確率的挙動を捉えるための不足につながる。
本稿では,時空間乱流の多元的生成のための確率拡散モデルに基づく新しい生成フレームワークを提案する。
提案手法は,特定条件と生成した非定常フロー結果との直接微分可能なリンクと,そのような明示的な相関を欠いたシナリオを含む,多様な条件付きシナリオに対応可能なベイズフレームワーク内の条件付きサンプリング戦略と条件付きサンプリング戦略を統一する。
提案手法の特長は, 自己回帰勾配に基づく条件抽出に基づく長寿命流れ列生成法であり, 煩雑な再学習プロセスの必要性を排除している。
我々は,この枠組みの多彩な乱流発生能力について,以下の一連の数値実験を通して紹介する。
1) URANS入力からのLESシミュレーション瞬時フローシーケンスの合成
2) 所定の初期条件,所定の乱流統計,又は完全にスクラッチから,不均質で異方性のある壁境界乱流の全体的発生
3) 高速乱流境界層の超解像は, 低分解能データから様々な入力解像度に流れる。
総じて, 数値実験では, 提案手法の利点と変形可能性に注目し, 乱流生成の分野において大きな進歩を遂げた。 Turbulent flows have historically presented formidable challenges to predictive computational modeling. Traditional numerical simulations often require vast computational resources, making them infeasible for numerous engineering applications. As an alternative, deep learning-based surrogate models have emerged, offering data-drive solutions. However, these are typically constructed within deterministic settings, leading to shortfall in capturing the innate chaotic and stochastic behaviors of turbulent dynamics. We introduce a novel generative framework grounded in probabilistic diffusion models for versatile generation of spatiotemporal turbulence. Our method unifies both unconditional and conditional sampling strategies within a Bayesian framework, which can accommodate diverse conditioning scenarios, including those with a direct differentiable link between specified conditions and generated unsteady flow outcomes, and scenarios lacking such explicit correlations. A notable feature of our approach is the method proposed for long-span flow sequence generation, which is based on autoregressive gradient-based conditional sampling, eliminating the need for cumbersome retraining processes. We showcase the versatile turbulence generation capability of our framework through a suite of numerical experiments, including: 1) the synthesis of LES simulated instantaneous flow sequences from URANS inputs; 2) holistic generation of inhomogeneous, anisotropic wall-bounded turbulence, whether from given initial conditions, prescribed turbulence statistics, or entirely from scratch; 3) super-resolved generation of high-speed turbulent boundary layer flows from low-resolution data across a range of input resolutions. Collectively, our numerical experiments highlight the merit and transformative potential of the proposed methods, making a significant advance in the field of turbulence generation. | 翻訳日:2023-11-15 15:29:42 公開日:2023-11-14 |
# 量子部分空間法の適応計測戦略 Adaptive measurement strategy for quantum subspace methods ( http://arxiv.org/abs/2311.07893v1 ) ライセンス: Link先を確認 | Yuma Nakamura, Yoshichika Yano, Nobuyuki Yoshioka | (参考訳) 未知の量子状態に対する物理観測量の推定は、量子情報処理、量子物理学、量子化学など幅広い分野の基盤となる重要な問題である。
特に量子計算の文脈では、既存の研究は主に、既知の古典的な記述を持つ特定の可観測物に対する全体論的な状態トモグラフィーや推定に焦点を当てているが、これは推定対象自体が測定結果に依存している重要な問題のクラスを欠いている。
本研究では,量子部分空間法に有用な適応的計測最適化手法,すなわち,古典的ポストプロセッシングを計測結果に利用する変分シミュレーション手法を提案する。
提案手法は、まず古典的にシミュレート可能な状態のQSE計算に基づいて測定プロトコルを決定し、その後、量子測定結果に従ってプロトコルを適応的に更新する。
数値実験として,分子の励起状態シミュレーションを行った。
(i)適切な測定戦略を構築して測定回数を桁違いに減らすことができる。
(ii) 適応反復はh$_4$の強い相関分子であってもうまく収束する。
本研究は,QSE法の可能性について,精巧な測定プロトコルを用いて検証し,より効率的な量子計測手法を実用化するための道を開いた。 Estimation of physical observables for unknown quantum states is an important problem that underlies a wide range of fields, including quantum information processing, quantum physics, and quantum chemistry. In the context of quantum computation, in particular, existing studies have mainly focused on holistic state tomography or estimation on specific observables with known classical descriptions, while this lacks the important class of problems where the estimation target itself relies on the measurement outcome. In this work, we propose an adaptive measurement optimization method that is useful for the quantum subspace methods, namely the variational simulation methods that utilize classical postprocessing on measurement outcomes. The proposed method first determines the measurement protocol based on QSE calculation for classically simulatable states, and then adaptively updates the protocol according to the quantum measurement result. As a numerical demonstration, we have shown for excited-state simulation of molecules that (i) we are able to reduce the number of measurements by an order of magnitude by constructing an appropriate measurement strategy (ii) the adaptive iteration converges successfully even for strongly correlated molecule of H$_4$. Our work reveals that the potential of the QSE method can be empowered by elaborated measurement protocols, and opens a path to further pursue efficient quantum measurement techniques in practical computations. | 翻訳日:2023-11-15 15:29:18 公開日:2023-11-14 |
# 2点計測における複雑性 Complexity in two-point measurement schemes ( http://arxiv.org/abs/2311.07892v1 ) ライセンス: Link先を確認 | Ankit Gill, Kunal Pal, Kuntal Pal, Tapobrata Sarkar | (参考訳) 摂動を伴う2点測定プロトコルにおける観測可能値の変化に伴う確率分布の特性関数は、有効ユニタリ演算子によって初期状態と特定のユニタリ進化状態との間の自己相関関数として記述できることを示す。
この同定を用いて、この発展状態の拡散の複雑さの概念を定義することにより、発展状態が対応する共役空間にどのように拡散するかを探索する。
初期ハミルトニアン(2点測定プロトコルで測定される可観測値)のパラメータが突然新しい値の集合に変化するような急激なクレンチシナリオでは、まず対応するクリロフ基底ベクトルと対応するランツォス係数を初期純状態に対して取得し、拡散複雑性を得る。
興味深いことに、そのようなプロトコルでは、ランチョス係数は回路複雑性の幾何学的定式化で使われる様々なコスト関数、例えばフビニ-スタディ複雑性を定義するために用いられるものと関連付けられる。
本稿では,リー代数的手法と数値計算によって,解析的に拡散複雑性の進化を説明する。
これは、クエンチの前と後のハミルトニアンがカオスと可積分スピン鎖の異なる組み合わせとして扱われる場合に行われる。
プレクエンチハミルトニアンがカオスである場合にのみ、パラメータの大きい値に対して複雑性が飽和することを示す。
さらに、これらの例では、時間発展摂動演算子によって決定される初期状態が果たす重要な役割についても論じる。 We show that the characteristic function of the probability distribution associated with the change of an observable in a two-point measurement protocol with a perturbation can be written as an auto-correlation function between an initial state and a certain unitary evolved state by an effective unitary operator. Using this identification, we probe how the evolved state spreads in the corresponding conjugate space, by defining a notion of the complexity of the spread of this evolved state. For a sudden quench scenario, where the parameters of an initial Hamiltonian (taken as the observable measured in the two-point measurement protocol) are suddenly changed to a new set of values, we first obtain the corresponding Krylov basis vectors and the associated Lanczos coefficients for an initial pure state, and obtain the spread complexity. Interestingly, we find that in such a protocol, the Lanczos coefficients can be related to various cost functions used in the geometric formulation of circuit complexity, for example the one used to define Fubini-Study complexity. We illustrate the evolution of spread complexity both analytically, by using Lie algebraic techniques, and by performing numerical computations. This is done for cases when the Hamiltonian before and after the quench are taken as different combinations of chaotic and integrable spin chains. We show that the complexity saturates for large values of the parameter only when the pre-quench Hamiltonian is chaotic. Further, in these examples we also discuss the important role played by the initial state which is determined by the time-evolved perturbation operator. | 翻訳日:2023-11-15 15:28:57 公開日:2023-11-14 |
# RoboSense at Edge:遠隔操作のためのロボットハンドにおける物体のすべり, 柱, 形状の検出 RoboSense At Edge: Detecting Slip, Crumple and Shape of the Object in Robotic Hand for Teleoprations ( http://arxiv.org/abs/2311.07888v1 ) ライセンス: Link先を確認 | Sudev Kumar Padhi, Mohit Kumar, Debanka Giri, Subidh Ali | (参考訳) 遠隔手術のようなロボットハンド(RH)で堅牢な操作を行うためには,スリップとクレムプル検出が不可欠である。
これはロボット操作コミュニティにおける課題の1つだ。
本研究では,現在ロボットハンドに保持されている物体の形状だけでなく,スリップやくずを検出する機械学習(ML)に基づく手法を提案する。
提案するMLモデルは,RH内に存在する力/トルクとアクチュエータの角位置を用いて,スリップ,クレムプル,形状を検出する。
提案されたモデルは、ロボットハンド(rh)と触覚グローブ(hg)のループに統合される。
これは遠隔操作時の遅延を減らすのに役立ちます Slip and crumple detection is essential for performing robust manipulation tasks with a robotic hand (RH) like remote surgery. It has been one of the challenging problems in the robotics manipulation community. In this work, we propose a technique based on machine learning (ML) based techniques to detect the slip, and crumple as well as the shape of an object that is currently held in the robotic hand. We proposed ML model will detect the slip, crumple, and shape using the force/torque exerted and the angular positions of the actuators present in the RH. The proposed model would be integrated into the loop of a robotic hand(RH) and haptic glove(HG). This would help us to reduce the latency in case of teleoperation | 翻訳日:2023-11-15 15:28:30 公開日:2023-11-14 |
# 1-2-3-45++: Consistent Multi-View Generation と 3D Diffusion を備えた3次元オブジェクトへの高速シングルイメージ One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion ( http://arxiv.org/abs/2311.07885v1 ) ライセンス: Link先を確認 | Minghua Liu, Ruoxi Shi, Linghao Chen, Zhuoyang Zhang, Chao Xu, Xinyue Wei, Hansheng Chen, Chong Zeng, Jiayuan Gu, Hao Su | (参考訳) 近年のオープンワールド3Dオブジェクト生成の進歩は目覚ましいもので、画像から3Dへの変換はテキストから3Dへの制御に優れていた。
しかし、既存のモデルのほとんどは、高速な生成速度と入力画像への高い忠実度を同時に提供するのに不足している。
本稿では,1枚の画像を約1分間で詳細な3次元テクスチャメッシュに変換する,革新的な手法であるone-2-3-45++を提案する。
提案手法は,2次元拡散モデルに埋め込まれた広範囲な知識を,貴重な3次元データから活用することを目的としている。
これは、一貫性のあるマルチビュー画像生成のために2次元拡散モデルを最初に微調整し、その後、マルチビュー条件付き3dネイティブ拡散モデルを用いて、これらの画像を3dに引き上げることによって達成される。
広範な実験評価により,本手法は原画像に忠実な高品質で多様な3dアセットを生成できることが証明された。
プロジェクトのWebページ: https://sudo-ai-3d.github.io/One2345plus_page。 Recent advancements in open-world 3D object generation have been remarkable, with image-to-3D methods offering superior fine-grained control over their text-to-3D counterparts. However, most existing models fall short in simultaneously providing rapid generation speeds and high fidelity to input images - two features essential for practical applications. In this paper, we present One-2-3-45++, an innovative method that transforms a single image into a detailed 3D textured mesh in approximately one minute. Our approach aims to fully harness the extensive knowledge embedded in 2D diffusion models and priors from valuable yet limited 3D data. This is achieved by initially finetuning a 2D diffusion model for consistent multi-view image generation, followed by elevating these images to 3D with the aid of multi-view conditioned 3D native diffusion models. Extensive experimental evaluations demonstrate that our method can produce high-quality, diverse 3D assets that closely mirror the original input image. Our project webpage: https://sudo-ai-3d.github.io/One2345plus_page. | 翻訳日:2023-11-15 15:28:08 公開日:2023-11-14 |
# 多様な視点の公正な抽象的要約 Fair Abstractive Summarization of Diverse Perspectives ( http://arxiv.org/abs/2311.07884v1 ) ライセンス: Link先を確認 | Yusen Zhang, Nan Zhang, Yixin Liu, Alexander Fabbri, Junru Liu, Ryo Kamoi, Xiaoxin Lu, Caiming Xiong, Jieyu Zhao, Dragomir Radev, Kathleen McKeown, Rui Zhang | (参考訳) 異なる社会・人口集団の人々は、製品レビュー、医療、法律、政治など幅広いトピックについて、様々な視点や意見の相違を表明している。
公平な要約は、特定のグループを過小評価することなく、多様な視点の包括的なカバレッジを提供するべきである。
しかし, 要約メトリクスとLarge Language Models (LLMs) の評価における現在の研究は, 公平な抽象的な要約を探求していない。
本稿では,ユーザ生成データに対する公平な抽象的要約を体系的に検討する。
まず, 抽象的な要約における公正さを, 対象視点と対象視点の差を測る基準のない4つの自動測度を提案する。
ソーシャルメディア,オンラインレビュー,記録テキストから収集した6つのデータセットから,3つのGPTモデル,Alpaca,Claudeを含む5つのLCMを評価した。
実験により、モデル生成と人書きによる参照要約の両方が公平性が低いことが示されている。
公平性に影響を与える共通要因の包括的分析を行い,不公平な要約を緩和するための3つの単純かつ効果的な方法を提案する。
私たちのデータセットとコードはhttps://github.com/psunlpgroup/fairsummで利用可能です。 People from different social and demographic groups express diverse perspectives and conflicting opinions on a broad set of topics such as product reviews, healthcare, law, and politics. A fair summary should provide a comprehensive coverage of diverse perspectives without underrepresenting certain groups. However, current work in summarization metrics and Large Language Models (LLMs) evaluation has not explored fair abstractive summarization. In this paper, we systematically investigate fair abstractive summarization for user-generated data. We first formally define fairness in abstractive summarization as not underrepresenting perspectives of any groups of people and propose four reference-free automatic metrics measuring the differences between target and source perspectives. We evaluate five LLMs, including three GPT models, Alpaca, and Claude, on six datasets collected from social media, online reviews, and recorded transcripts. Experiments show that both the model-generated and the human-written reference summaries suffer from low fairness. We conduct a comprehensive analysis of the common factors influencing fairness and propose three simple but effective methods to alleviate unfair summarization. Our dataset and code are available at https://github.com/psunlpgroup/FairSumm. | 翻訳日:2023-11-15 15:27:37 公開日:2023-11-14 |
# コードペア分類による言語モデルによるバグ検出 Language Models are Better Bug Detector Through Code-Pair Classification ( http://arxiv.org/abs/2311.07957v1 ) ライセンス: Link先を確認 | Kamel Alrashedy | (参考訳) GPT-3.5やCodeLlamaのような大規模言語モデル(LLM)は、コード生成と理解のための強力なモデルである。
これらのモデルの微調整は計算コストが高く、大きなラベル付きデータセットを必要とする。
あるいは、コンテキスト内学習技術では、モデルがいくつかの例だけで下流タスクを学習できる。
近年,コンテキスト内学習がバグ検出や修復に有効であることが示された。
本稿では,バギーバージョンと非バギーバージョンの両方がモデルに与えられ,モデルがバギーバージョンを特定するコードペア分類タスクを提案する。
実世界のバグ検出データセットと2つの強力なLCMでタスクを評価する。
私たちの実験では、llmはコードの非バグバージョンからバグを選択できることが多く、コードペアの分類タスクはスニペットを与えるよりもずっと簡単であり、バグが存在するかどうかを判断できることを示している。 Large language models (LLMs) such as GPT-3.5 and CodeLlama are powerful models for code generation and understanding. Fine-tuning these models comes with a high computational cost and requires a large labeled dataset. Alternatively, in-context learning techniques allow models to learn downstream tasks with only a few examples. Recently, researchers have shown how in-context learning performs well in bug detection and repair. In this paper, we propose code-pair classification task in which both the buggy and non-buggy versions are given to the model, and the model identifies the buggy ones. We evaluate our task in real-world dataset of bug detection and two most powerful LLMs. Our experiments indicate that an LLM can often pick the buggy from the non-buggy version of the code, and the code-pair classification task is much easier compared to be given a snippet and deciding if and where a bug exists. | 翻訳日:2023-11-15 15:19:27 公開日:2023-11-14 |
# 分散ネットワークスイッチギアのロバスト学習に基づく条件診断法 Robust Learning Based Condition Diagnosis Method for Distribution Network Switchgear ( http://arxiv.org/abs/2311.07956v1 ) ライセンス: Link先を確認 | Wenxi Zhang, Zhe Li, Weixi Li, Weisi Ma, Xinyi Chen, Sizhe Li | (参考訳) 本稿では,エンドユーザの電力品質維持に不可欠である分散ネットワークスイッチギアの状態を診断するための,堅牢で学習的な手法を提案する。
従来の診断モデルは専門家の知識に大きく依存し、堅牢性に欠けることが多い。
そこで本手法では, 環境データ, 温度測定, スイッチ位置, モータ動作, 絶縁条件, 局所放電情報を含む拡張特徴ベクトルを組み込んだ。
我々は特徴マッピングを通して高次元の問題に取り組む。
本手法では,無ラベルサンプルを分類する決定半径を導入し,教師付き損失と教師なし損失を組み合わせたモデルパラメータを整合正則化関数とともに更新する。
このアプローチは、限られた数のラベル付きサンプルでも堅牢な学習を可能にする。
比較分析により、この手法が既存のモデルよりも精度と頑健性の両方において著しく優れていることが示される。 This paper introduces a robust, learning-based method for diagnosing the state of distribution network switchgear, which is crucial for maintaining the power quality for end users. Traditional diagnostic models often rely heavily on expert knowledge and lack robustness. To address this, our method incorporates an expanded feature vector that includes environmental data, temperature readings, switch position, motor operation, insulation conditions, and local discharge information. We tackle the issue of high dimensionality through feature mapping. The method introduces a decision radius to categorize unlabeled samples and updates the model parameters using a combination of supervised and unsupervised loss, along with a consistency regularization function. This approach ensures robust learning even with a limited number of labeled samples. Comparative analysis demonstrates that this method significantly outperforms existing models in both accuracy and robustness. | 翻訳日:2023-11-15 15:19:12 公開日:2023-11-14 |
# 海中無人航空機画像における深層学習に基づく物体検出:レビューと実験的比較 Deep Learning-Based Object Detection in Maritime Unmanned Aerial Vehicle Imagery: Review and Experimental Comparisons ( http://arxiv.org/abs/2311.07955v1 ) ライセンス: Link先を確認 | Chenjie Zhao, Ryan Wen Liu, Jingxiang Qu, Ruobin Gao | (参考訳) 海上無人航空機(UAV)と深層学習技術の進歩により、海洋産業や海洋工学の分野において、UAVに基づく物体検出の応用がますます重要になっている。
インテリジェントなセンシング能力を備えた海洋uavは、効果的で効率的な海上監視を可能にする。
海上におけるUAVによる物体検出の開発をさらに促進するために,課題,相対的手法,UAV航空データセットの総合的なレビューを行う。
具体的には,まず,海洋uavにおける物体検出に関する4つの課題,すなわち,物体特徴の多様性,デバイス制限,海洋環境変動性,データセット不足について概説する。
次に, 海洋uavに基づく物体検出性能を向上させるために, スケールアウェア, 小型物体検出, ビューアウェア, 回転物体検出, 軽量手法などの計算手法に注目した。
次に,UAVの航空画像・映像データセットを概観し,MS2ship という海中UAV航空データセットを提案する。
さらに,海洋データセット上でのオブジェクト検出手法の性能評価とロバスト性解析を行うために,一連の実験を行った。
最終的に、海上UAVによる物体検出の今後の課題と展望について述べる。
MS2shipデータセットは、 \href{https://github.com/zcj234/MS2ship}{https://github.com/zcj234/MS2ship}で入手できる。 With the advancement of maritime unmanned aerial vehicles (UAVs) and deep learning technologies, the application of UAV-based object detection has become increasingly significant in the fields of maritime industry and ocean engineering. Endowed with intelligent sensing capabilities, the maritime UAVs enable effective and efficient maritime surveillance. To further promote the development of maritime UAV-based object detection, this paper provides a comprehensive review of challenges, relative methods, and UAV aerial datasets. Specifically, in this work, we first briefly summarize four challenges for object detection on maritime UAVs, i.e., object feature diversity, device limitation, maritime environment variability, and dataset scarcity. We then focus on computational methods to improve maritime UAV-based object detection performance in terms of scale-aware, small object detection, view-aware, rotated object detection, lightweight methods, and others. Next, we review the UAV aerial image/video datasets and propose a maritime UAV aerial dataset named MS2ship for ship detection. Furthermore, we conduct a series of experiments to present the performance evaluation and robustness analysis of object detection methods on maritime datasets. Eventually, we give the discussion and outlook on future works for maritime UAV-based object detection. The MS2ship dataset is available at \href{https://github.com/zcj234/MS2ship}{https://github.com/zcj234/MS2ship}. | 翻訳日:2023-11-15 15:18:58 公開日:2023-11-14 |
# 論理推論における大規模言語モデルの自己検証能力について A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning ( http://arxiv.org/abs/2311.07954v1 ) ライセンス: Link先を確認 | Ruixin Hong, Hongming Zhang, Xinyu Pang, Dong Yu, Changshui Zhang | (参考訳) 論理的推論は、AIの分野で進行中の追求である。
大きな言語モデル(LLM)による著しい進歩にもかかわらず、複雑な論理的推論問題に苦戦している。
推論性能を高めるために、ある有望な方向性はスケーラブルな監視であり、LSMは自身のエラーを特定し、それ自身で改善する必要がある。
この目的を追求する様々な自己検証手法が提案されている。
それでも、既存のモデルが自身のエラーを十分に理解しているかどうかはまだ調査中である。
本稿では,論理的誤りを正確に識別する能力に着目し,論理的推論の文脈におけるLLMの自己検証能力について詳しく検討する。
階層分類に分類された232種類の推論誤りを含むデータセットFALLACIESを導入する。
仮説を徹底的に実験することにより,検証能力に関する一連のモデルの包括的かつ詳細な分析を行う。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
これらの観察から, 自己検証手法の今後の研究と実用化に向けての提案を行う。 Logical reasoning has been an ongoing pursuit in the field of AI. Despite significant advancements made by large language models (LLMs), they still struggle with complex logical reasoning problems. To enhance reasoning performance, one promising direction is scalable oversight, which requires LLMs to identify their own errors and then improve by themselves. Various self-verification methods have been proposed in pursuit of this goal. Nevertheless, whether existing models understand their own errors well is still under investigation. In this paper, we take a closer look at the self-verification abilities of LLMs in the context of logical reasoning, focusing on their ability to identify logical fallacies accurately. We introduce a dataset, FALLACIES, containing 232 types of reasoning fallacies categorized in a hierarchical taxonomy. By conducting exhaustive experiments on FALLACIES, we obtain comprehensive and detailed analyses of a series of models on their verification abilities. Our main findings suggest that existing LLMs could struggle to identify fallacious reasoning steps accurately and may fall short of guaranteeing the validity of self-verification methods. Drawing from these observations, we offer suggestions for future research and practical applications of self-verification methods. | 翻訳日:2023-11-15 15:18:34 公開日:2023-11-14 |
# 振幅密度関数パラメータのMLE計算のための高速かつ簡単なアルゴリズム A Fast and Simple Algorithm for computing the MLE of Amplitude Density Function Parameters ( http://arxiv.org/abs/2311.07951v1 ) ライセンス: Link先を確認 | Mahdi Teimouri | (参考訳) 過去数十年間、$\alpha$-staleディストリビューションのファミリーは、通信システムのモデリングに有用であることが証明されてきた。
特にレーダ応用の場合、振幅密度関数パラメータの高速かつ正確な推定を見つけることは非常に重要であると思われる。
本研究は,振幅分布のパラメータに対して最大極大推定器 (MLE) を提案する。
これを実現するために、振幅データは2つの単純な変換を用いて水平および垂直軸上に \emph{projected} となる。
emph{projected}データは、mleを非常に高速に計算できるゼロロケーション対称な$\alpha$-stale分布に従うことが証明されている。
2つの \emph{projections} に基づく計算されたMLEの平均値は、振幅分布のパラメータの推定器とみなされる。
提案手法の性能は,実レーダデータ2セットのシミュレーション研究と解析によって実証された。 Over the last decades, the family of $\alpha$-stale distributions has proven to be useful for modelling in telecommunication systems. Particularly, in the case of radar applications, finding a fast and accurate estimation for the amplitude density function parameters appears to be very important. In this work, the maximum likelihood estimator (MLE) is proposed for parameters of the amplitude distribution. To do this, the amplitude data are \emph{projected} on the horizontal and vertical axes using two simple transformations. It is proved that the \emph{projected} data follow a zero-location symmetric $\alpha$-stale distribution for which the MLE can be computed quite fast. The average of computed MLEs based on two \emph{projections} is considered as estimator for parameters of the amplitude distribution. Performance of the proposed \emph{projection} method is demonstrated through simulation study and analysis of two sets of real radar data. | 翻訳日:2023-11-15 15:18:17 公開日:2023-11-14 |
# 大規模言語モデルを用いた帰納的ループ不変量探索 Finding Inductive Loop Invariants using Large Language Models ( http://arxiv.org/abs/2311.07948v1 ) ライセンス: Link先を確認 | Adharsh Kamath, Aditya Senthilnathan, Saikat Chakraborty, Pantazis Deligiannis, Shuvendu K. Lahiri, Akash Lal, Aseem Rastogi, Subhajit Roy, Rahul Sharma | (参考訳) ループ不変量はループを持つプログラムの推論に基本的である。
与えられたループの振る舞いに関する特性を確立する。
それらはさらに帰納的であれば、プログラムの実行動作に関する強力な数学的保証を確立するための形式的検証のタスクに有用になる。
帰納性は、プログラム全体について相談することなく不変量を局所的にチェックできることを保証するため、正しさの形式的証明において必須のアーティファクトである。
帰納ループ不変量を見つけることは決定不可能な問題であり、実用的な解に対する長い研究の歴史にもかかわらず、解決された問題には程遠い。
本稿では、この古い重要な問題に対する新しい解決策を提供する上で、LLM(Large Language Models)の機能について検討する。
そこで我々はまず,ループ付きプログラムにおける検証問題のデータセットをキュレートする。
次に、音の記号ツールを用いて正当性をチェックする帰納的ループ不変量を求めるLLMを利用するプロンプトを設計する。
最後に,当社のデータセットにおけるシンボリックツールとllmの効率的な組み合わせの有効性を検討し,純粋シンボリックベースラインと比較する。
その結果,llmはプログラムの自動検証における最先端の改善に役立つことがわかった。 Loop invariants are fundamental to reasoning about programs with loops. They establish properties about a given loop's behavior. When they additionally are inductive, they become useful for the task of formal verification that seeks to establish strong mathematical guarantees about program's runtime behavior. The inductiveness ensures that the invariants can be checked locally without consulting the entire program, thus are indispensable artifacts in a formal proof of correctness. Finding inductive loop invariants is an undecidable problem, and despite a long history of research towards practical solutions, it remains far from a solved problem. This paper investigates the capabilities of the Large Language Models (LLMs) in offering a new solution towards this old, yet important problem. To that end, we first curate a dataset of verification problems on programs with loops. Next, we design a prompt for exploiting LLMs, obtaining inductive loop invariants, that are checked for correctness using sound symbolic tools. Finally, we explore the effectiveness of using an efficient combination of a symbolic tool and an LLM on our dataset and compare it against a purely symbolic baseline. Our results demonstrate that LLMs can help improve the state-of-the-art in automated program verification. | 翻訳日:2023-11-15 15:18:05 公開日:2023-11-14 |
# リコメンダシステムの技術的負債に向けて Towards a Technical Debt for Recommender System ( http://arxiv.org/abs/2311.07947v1 ) ライセンス: Link先を確認 | Sergio Moreschini and Ludovik Coba and Valentina Lenarduzzi | (参考訳) レコメンダシステムにおける技術的負債の管理のバランスをとるには,現行システムのメンテナンスと拡張を継続する新機能の導入を効果的にジャグリングする必要がある。
推奨システムの領域内では、技術的負債は、リコメンデーションシステムの開発とアップキープの間に行われたトレードオフと過度な選択を含んでおり、長期的パフォーマンス、スケーラビリティ、保守性に悪影響を及ぼす可能性がある。
本研究の目的は,レコメンダシステムにおける技術的負債に関する研究の方向性を開始することである。
我々は15の潜在的な要因と、それらを考えることが望ましい理由を詳述した。 Balancing the management of technical debt within recommender systems requires effectively juggling the introduction of new features with the ongoing maintenance and enhancement of the current system. Within the realm of recommender systems, technical debt encompasses the trade-offs and expedient choices made during the development and upkeep of the recommendation system, which could potentially have adverse effects on its long-term performance, scalability, and maintainability. In this vision paper, our objective is to kickstart a research direction regarding Technical Debt in Recommender Systems. We identified 15 potential factors, along with detailed explanations outlining why it is advisable to consider them. | 翻訳日:2023-11-15 15:17:46 公開日:2023-11-14 |
# 分散化フェデレーション学習ネットワークにおける対立ノード配置の影響 The Impact of Adversarial Node Placement in Decentralized Federated Learning Networks ( http://arxiv.org/abs/2311.07946v1 ) ライセンス: Link先を確認 | Adam Piaseczny, Eric Ruzomberka, Rohit Parasnis, Christopher G. Brinton | (参考訳) 連邦学習(FL)の人気が高まるにつれ、新しい分散フレームワークが広まりつつある。
これらのフレームワークは分散環境の利点を利用して、高速でエネルギー効率の良いデバイス間通信を可能にする。
しかし、この人気は、堅牢なセキュリティ対策の必要性も増している。
既存の研究はFLセキュリティの様々な側面を探求してきたが、分散ネットワークにおける敵ノード配置の役割はほとんど解明されていない。
本稿では,ネットワーク内で協調的に配置を調整できる様々な敵配置戦略における分散flの性能を分析することにより,このギャップを解消する。
ランダムな配置とネットワーク中心性に基づく配置の2つの基本戦略を確立する。
本稿では, 敵同士の平均ネットワーク距離を最大化し, 敵中心性よりも敵の拡散を優先する新たな攻撃アルゴリズムを提案する。
新しい攻撃アルゴリズムは、テスト精度などの重要なパフォーマンス指標に大きく影響し、考慮された設定でベースラインフレームワークを9%から66.5%上回った。
我々の研究は、分散FLシステムの脆弱性に関する貴重な知見を提供し、よりセキュアで堅牢な分散FLフレームワークを開発するための将来の研究の舞台となる。 As Federated Learning (FL) grows in popularity, new decentralized frameworks are becoming widespread. These frameworks leverage the benefits of decentralized environments to enable fast and energy-efficient inter-device communication. However, this growing popularity also intensifies the need for robust security measures. While existing research has explored various aspects of FL security, the role of adversarial node placement in decentralized networks remains largely unexplored. This paper addresses this gap by analyzing the performance of decentralized FL for various adversarial placement strategies when adversaries can jointly coordinate their placement within a network. We establish two baseline strategies for placing adversarial node: random placement and network centrality-based placement. Building on this foundation, we propose a novel attack algorithm that prioritizes adversarial spread over adversarial centrality by maximizing the average network distance between adversaries. We show that the new attack algorithm significantly impacts key performance metrics such as testing accuracy, outperforming the baseline frameworks by between 9% and 66.5% for the considered setups. Our findings provide valuable insights into the vulnerabilities of decentralized FL systems, setting the stage for future research aimed at developing more secure and robust decentralized FL frameworks. | 翻訳日:2023-11-15 15:17:36 公開日:2023-11-14 |
# 第1ステップアドバンテージ: 多段階推論における正しい出発の重要性 First Step Advantage: Importance of Starting Right in Multi-Step Reasoning ( http://arxiv.org/abs/2311.07945v1 ) ライセンス: Link先を確認 | Kushal Jain, Kumar Shridhar | (参考訳) 大規模言語モデル(LLM)は、予測の合理性を生成することで複雑な推論タスクを解くことができる。
これらの機能をより小さくコンパクトなモデルに拡張することで、特定のタスクに適した専門的で費用対効果の高いモデルを作成することができる。
しかし、小さなモデルは複雑な推論タスクでしばしば問題に直面し、正しい推論パスから逸脱することが多い。
LLMはより小さなモデルをガイドし、適切なタイミングで介入した場合にのみ正しい推論経路に戻すことができることを示す。
プロセス開始の難しさが原因で,より小さなモデルでは理屈に合わないこと,適切な方向に導くことが100%以上のパフォーマンス向上につながること,などが示されている。
異なるモデルサイズを調査し、より小さなモデルの推論を改善するためのガイダンスを提供することの利点を評価します。 Large Language Models (LLMs) can solve complex reasoning tasks by generating rationales for their predictions. Distilling these capabilities into a smaller, compact model can facilitate the creation of specialized, cost-effective models tailored for specific tasks. However, smaller models often face challenges in complex reasoning tasks and often deviate from the correct reasoning path. We show that LLMs can guide smaller models and bring them back to the correct reasoning path only if they intervene at the right time. We show that smaller models fail to reason primarily due to their difficulty in initiating the process, and that guiding them in the right direction can lead to a performance gain of over 100%. We explore different model sizes and evaluate the benefits of providing guidance to improve reasoning in smaller models. | 翻訳日:2023-11-15 15:17:16 公開日:2023-11-14 |
# 確率的文脈自由文法を用いた非自己回帰機械翻訳 Non-autoregressive Machine Translation with Probabilistic Context-free Grammar ( http://arxiv.org/abs/2311.07941v1 ) ライセンス: Link先を確認 | Shangtong Gui, Chenze Shao, Zhengrui Ma, Xishan Zhang, Yunji Chen, Yang Feng | (参考訳) 非自己回帰変換器(NAT)は、ニューラルマシン翻訳の推論を著しく加速する。
しかし,従来のNATモデルは,目標トークン間の条件独立性を前提とした自己回帰(AT)モデルと比較して,表現力や性能劣化に悩まされている。
これらの制約に対処するために,PCFG-NATと呼ばれる新しい手法を提案する。この手法は,PCFG(Probabilistic Context-Free Grammar)を特別に設計し,NATモデルが出力トークン間の複雑な依存関係をキャプチャする能力を高める。
機械翻訳ベンチマーク実験の結果,PCFG-NATはNATモデルとATモデル間の翻訳品質のギャップをさらに狭めることが示された。
さらに、PCFG-NATは生成された文の理解を深め、ニューラルマシン翻訳における十分な説明責任の欠如に対処する。 Non-autoregressive Transformer(NAT) significantly accelerates the inference of neural machine translation. However, conventional NAT models suffer from limited expression power and performance degradation compared to autoregressive (AT) models due to the assumption of conditional independence among target tokens. To address these limitations, we propose a novel approach called PCFG-NAT, which leverages a specially designed Probabilistic Context-Free Grammar (PCFG) to enhance the ability of NAT models to capture complex dependencies among output tokens. Experimental results on major machine translation benchmarks demonstrate that PCFG-NAT further narrows the gap in translation quality between NAT and AT models. Moreover, PCFG-NAT facilitates a deeper understanding of the generated sentences, addressing the lack of satisfactory explainability in neural machine translation.Code is publicly available at https://github.com/ictnlp/PCFG-NAT. | 翻訳日:2023-11-15 15:17:05 公開日:2023-11-14 |
# 乱れた分極線におけるコヒーレント過渡励起子輸送 Coherent transient exciton transport in disordered polaritonic wires ( http://arxiv.org/abs/2311.07940v1 ) ライセンス: Link先を確認 | Gustavo J. R. Aroeira, Kyle T. Kairys, Raphael F. Ribeiro | (参考訳) 励起エネルギー輸送は強い光-物質相互作用によって著しく増強される。
本研究では,損失のない無秩序ポラリトニックワイヤ上のコヒーレント過渡励起子波パケットダイナミクスの興味深い特徴について検討する。
本研究の主な成果は, 偏光子分散から得られる新しい量である有効励起子群速度の観点で理解することができる。
弱弱中性障害では,初期波束拡散速度は初期励起子運動量分布と有効群速度の重なりによって制御されることがわかった。
逆に、障害が強くなると、初期状態はほぼ無関係であり、赤方偏移キャビティは運動量が大きいエクシトンをサポートする。
本研究は,超高速コヒーレント励起子輸送を無秩序度とポラリトン分散度に基づいて最適化するための指針を提供する。
提案された視点は、エキシトンエネルギー輸送を増強するための新しい極性プラットフォームを理解し設計するのに有用かもしれない。 Excitation energy transport can be significantly enhanced by strong light-matter interactions. In the present work, we explore intriguing features of coherent transient exciton wave packet dynamics on a lossless disordered polaritonic wire. Our main results can be understood in terms of the effective exciton group velocity, a new quantity we obtain from the polariton dispersion. Under weak and moderate disorder, we find that the early wave packet spread velocity is controlled by the overlap of the initial exciton momentum distribution and its effective group velocity. Conversely, when disorder is stronger, the initial state is nearly irrelevant, and red-shifted cavities support excitons with greater mobility. Our findings provide guiding principles for optimizing ultrafast coherent exciton transport based on the magnitude of disorder and the polariton dispersion. The presented perspectives may be valuable for understanding and designing new polaritonic platforms for enhanced exciton energy transport. | 翻訳日:2023-11-15 15:16:48 公開日:2023-11-14 |
# 動的ダイアグラム上の離散分散最適化 Discretized Distributed Optimization over Dynamic Digraphs ( http://arxiv.org/abs/2311.07939v1 ) ライセンス: Link先を確認 | Mohammadreza Doostmohammadian, Wei Jiang, Muwahida Liaquat, Alireza Aghasi, Houman Zarrabi | (参考訳) 分散学習に応用できる動的有向グラフ(digraphs)上での連続時間分散最適化の離散時間モデルを考える。
この最適化アルゴリズムは,移動型マルチエージェントシステムやリンク障害による揮発性ネットワークなどのスイッチングトポロジの下で,一般的な強結合動的ネットワーク上で動作する。
既存の多くの作業行と比較して、リンク上の双確率重み設計は不要である。
既存の文献は、初期化とネットワークのトポロジが変化するときに必要な特定の重み付けアルゴリズムを用いて、リンクウェイトを確率的に行う必要がある。
本稿では,そのようなアルゴリズムの必要性をなくし,時間変化ダイグラフの分散最適化への道を開く。
我々は、収束のための勾配追跡ステップサイズと離散時間ステップのバウンドを導出し、コンセンサスアルゴリズム、行列摂動理論、リャプノフ理論の引数を用いて動的安定性を証明する。
この作業は、特にリンク削除やパケットドロップの場合、既存の確率重みのないネットワークよりも改善されている。
これは、既存の文献が確率的設計のために時間を要する複雑なアルゴリズムを再実行する必要があるのに対して、提案された戦略は、基礎となるネットワークが重み対称でバランスが取れている限り機能するからである。
提案する最適化フレームワークは,分散分類と学習への応用を見出す。 We consider a discrete-time model of continuous-time distributed optimization over dynamic directed-graphs (digraphs) with applications to distributed learning. Our optimization algorithm works over general strongly connected dynamic networks under switching topologies, e.g., in mobile multi-agent systems and volatile networks due to link failures. Compared to many existing lines of work, there is no need for bi-stochastic weight designs on the links. The existing literature mostly needs the link weights to be stochastic using specific weight-design algorithms needed both at the initialization and at all times when the topology of the network changes. This paper eliminates the need for such algorithms and paves the way for distributed optimization over time-varying digraphs. We derive the bound on the gradient-tracking step-size and discrete time-step for convergence and prove dynamic stability using arguments from consensus algorithms, matrix perturbation theory, and Lyapunov theory. This work, particularly, is an improvement over existing stochastic-weight undirected networks in case of link removal or packet drops. This is because the existing literature may need to rerun time-consuming and computationally complex algorithms for stochastic design, while the proposed strategy works as long as the underlying network is weight-symmetric and balanced. The proposed optimization framework finds applications to distributed classification and learning. | 翻訳日:2023-11-15 15:16:33 公開日:2023-11-14 |
# ウルトラコールドフェルミガスにおける2次元非エルミタンスキン効果 Two-dimensional non-Hermitian skin effect in an ultracold Fermi gas ( http://arxiv.org/abs/2311.07931v1 ) ライセンス: Link先を確認 | Entong Zhao, Zhiyuan Wang, Chengdong He, Ting Fung Jeffrey Poon, Ka Kwan Pak, Yu-Jun Liu, Peng Ren, Xiong-Jun Liu, and Gyu-Boong Jo | (参考訳) 非単純性の概念はバンドトポロジーの理解を拡大し、反直観現象の出現に繋がった。
例えば、非エルミート皮膚効果(NHSE)は、境界における固有状態の集中を伴う。
しかし、曲面空間、高次位相位相相、ブラックホールなどの領域における高次元非エルミート量子系から得られる潜在的な洞察にもかかわらず、高次元でのこの効果の実現は未解明である。
ここでは、スピン軌道結合型光格子における超低温フェルミオンのための2次元(2次元)非エルミタントポロジカルバンドを作成し、複素エネルギー平面のスペクトルトポロジを実験的に検討する。
本研究では,2次元皮膚効果を確立させるシステムに散逸を付加した場合に,非ゼロスペクトル巻線数を示す実験を行った。
また、エルミート系で見られる閉ループとは対照的に、一対の例外点 (EP) が運動量空間において開のバルクフェルミ弧で連結されることを示す。
関連するEPは放散量の増加とともに出現し、フェルミ弧を形成する。
我々の研究は、非エルミート物理学を高次元でシミュレートするさらなる研究の舞台となり、量子統計学とnhseの相互作用を理解する道を開く。 The concept of non-Hermiticity has expanded the understanding of band topology leading to the emergence of counter-intuitive phenomena. One example is the non-Hermitian skin effect (NHSE), which involves the concentration of eigenstates at the boundary. However, despite the potential insights that can be gained from high-dimensional non-Hermitian quantum systems in areas like curved space, high-order topological phases, and black holes, the realization of this effect in high dimensions remains unexplored. Here, we create a two-dimensional (2D) non-Hermitian topological band for ultracold fermions in spin-orbit-coupled optical lattices with tunable dissipation, and experimentally examine the spectral topology in the complex eigenenergy plane. We experimentally demonstrate pronounced nonzero spectral winding numbers when the dissipation is added to the system, which establishes the existence of 2D skin effect. We also demonstrate that a pair of exceptional points (EPs) are created in the momentum space, connected by an open-ended bulk Fermi arc, in contrast to closed loops found in Hermitian systems. The associated EPs emerge and shift with increasing dissipation, leading to the formation of the Fermi arc. Our work sets the stage for further investigation into simulating non-Hermitian physics in high dimensions and paves the way for understanding the interplay of quantum statistics with NHSE. | 翻訳日:2023-11-15 15:16:13 公開日:2023-11-14 |
# 全て相対的だ!
--ゼロショット適合度予測を改善する合成クエリ生成手法 It's All Relative! -- A Synthetic Query Generation Approach for Improving Zero-Shot Relevance Prediction ( http://arxiv.org/abs/2311.07930v1 ) ライセンス: Link先を確認 | Aditi Chaudhary, Karthik Raman, Michael Bendersky | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、最大8つのデモで、合成クエリ-ドキュメントペアを生成する能力を約束している。
これにより、特にトレーニングデータのないタスクに対して、より優れたIRモデルの構築が可能になる。
典型的には、このような合成クエリ生成(qgen)は、入力コンテキスト(例えば、テキスト文書)の条件にアプローチし、そのコンテキストに関連するクエリを生成するか、あるいはqgenモデルを関連ラベル(例えば、関連するか無関係か)に条件付けして、関連バケット間でクエリを生成する。
しかし、そのようなQGenアプローチは、所望のラベルと少数の例からの入力を推論するためにモデルを必要とするため、準最適であることがわかった。
本研究では,ラベルの異なるクエリを同時に生成することで,LLMの負担を軽減することを提案する。
我々は、入力コンテキストが与えられた無関係なクエリを生成するようモデルに要求する代わりに、関連するクエリに対して無関係なクエリを生成するようモデルに求めることは、モデルにとってより単純なタスク設定である、と仮定する。
7つのirデータセットにわたる広範囲な実験は、このような方法で生成された合成クエリが下流のパフォーマンス向上につながり、生成されたクエリは確かに高品質であることを示している。 Recent developments in large language models (LLMs) have shown promise in their ability to generate synthetic query-document pairs by prompting with as few as 8 demonstrations. This has enabled building better IR models, especially for tasks with no training data readily available. Typically, such synthetic query generation (QGen) approaches condition on an input context (e.g. a text document) and generate a query relevant to that context, or condition the QGen model additionally on the relevance label (e.g. relevant vs irrelevant) to generate queries across relevance buckets. However, we find that such QGen approaches are sub-optimal as they require the model to reason about the desired label and the input from a handful of examples. In this work, we propose to reduce this burden of LLMs by generating queries simultaneously for different labels. We hypothesize that instead of asking the model to generate, say, an irrelevant query given an input context, asking the model to generate an irrelevant query relative to a relevant query is a much simpler task setup for the model to reason about. Extensive experimentation across seven IR datasets shows that synthetic queries generated in such a fashion translates to a better downstream performance, suggesting that the generated queries are indeed of higher quality. | 翻訳日:2023-11-15 15:15:47 公開日:2023-11-14 |
# 自己教師付き不均一グラフ変分オートエンコーダ Self-supervised Heterogeneous Graph Variational Autoencoders ( http://arxiv.org/abs/2311.07929v1 ) ライセンス: Link先を確認 | Yige Zhao, Jianxiang Yu, Yao Cheng, Chengcheng Yu, Yiding Liu, Xiang Li, Shuaiqiang Wang | (参考訳) 様々な種類のノードとエッジからなるヘテロジニアス情報ネットワーク(hins)は、最近グラフマイニングにおいて優れた性能を示している。
しかし、既存のヘテロジニアスグラフニューラルネットワーク(HGNN)は、欠落した属性や不正確な属性、ノードのラベルの不足といった問題を無視し、表現性を制限している。
本稿では,これらの課題を同時に解決するための生成自己教師モデルSHAVAを提案する。
具体的には、SHAVAはグラフ内のすべてのノードを低次元の表現行列で初期化する。
その後、変分グラフオートエンコーダフレームワークに基づいて、SHAVAは、ノードレベルの埋め込みと属性レベルの埋め込みの両方をエンコーダに学習し、ノード属性を構築するための詳細なセマンティック情報を提供する。
デコーダでは、SHAVAはリンクと属性の両方を再構築する。
帰属ノードの生特徴を直接再構築する代わりに、shavaは、帰属ノードの生特徴が正確な属性を活用するためにさらに再構築される全てのノードの初期の低次元表現行列を生成する。
このようにして、SHAVAは非分散ノードのインフォメーション機能を完備するだけでなく、属性ノードの不正確な機能を修正できる。
最後に,不正確な属性を持つHINの処理におけるSHAVAの優位性を示すため,広範な実験を行った。 Heterogeneous Information Networks (HINs), which consist of various types of nodes and edges, have recently demonstrated excellent performance in graph mining. However, most existing heterogeneous graph neural networks (HGNNs) ignore the problems of missing attributes, inaccurate attributes and scarce labels for nodes, which limits their expressiveness. In this paper, we propose a generative self-supervised model SHAVA to address these issues simultaneously. Specifically, SHAVA first initializes all the nodes in the graph with a low-dimensional representation matrix. After that, based on the variational graph autoencoder framework, SHAVA learns both node-level and attribute-level embeddings in the encoder, which can provide fine-grained semantic information to construct node attributes. In the decoder, SHAVA reconstructs both links and attributes. Instead of directly reconstructing raw features for attributed nodes, SHAVA generates the initial low-dimensional representation matrix for all the nodes, based on which raw features of attributed nodes are further reconstructed to leverage accurate attributes. In this way, SHAVA can not only complete informative features for non-attributed nodes, but rectify inaccurate ones for attributed nodes. Finally, we conduct extensive experiments to show the superiority of SHAVA in tackling HINs with missing and inaccurate attributes. | 翻訳日:2023-11-15 15:15:24 公開日:2023-11-14 |
# VHRリモートセンシング画像における変化検出のための明示的変化関係学習 Explicit Change Relation Learning for Change Detection in VHR Remote Sensing Images ( http://arxiv.org/abs/2311.07993v1 ) ライセンス: Link先を確認 | Dalong Zheng, Zebin Wu, Jia Liu, Chih-Cheng Hung, and Zhihui Wei | (参考訳) リモートセンシング画像の解釈においては,常に変化検出が重要な課題である。
これは本質的に2つの入力を持つ一意なバイナリ分類タスクであり、これら2つの入力の間には変化の関係がある。
現在、変更関係機能のマイニングは通常、シングルブランチまたは2ブランチエンコーダを含むネットワークアーキテクチャにおいて暗黙的に行われる。
しかしながら、変更関連機能に対する人工的な事前設計の欠如により、これらのネットワークは十分な変更意味情報を学習できず、より正確な変更検出性能を失う。
そこで我々は,変化関係の明示的なマイニングのためのネットワークアーキテクチャNAMEを提案する。
我々の意見では、変化検出の変更特徴は、事前変更画像特徴、後変更画像特徴、変更関係特徴に分けられるべきである。
これら3つの変化特徴を完全に抽出するために,変換器と畳み込みニューラルネットワーク(CNN)を組み合わせた三分枝ネットワークを提案し,これらの変化特徴をグローバル情報とローカル情報という2つの視点から抽出・融合する。
さらに、連続変化関係(CCR)分岐を設計し、モデルの変化識別能力を向上させるために、連続変化関係と詳細変化関係の機能を更に獲得する。
実験の結果,F1,IoU,OAの面では,4つの公用超高解像度(VHR)リモートセンシングデータセットにおいて,既存の先進的ネットワークと比較して,ネットワークの性能が向上していることがわかった。
ソースコードはhttps://github.com/dalongz/nameで閲覧できます。 Change detection has always been a concerned task in the interpretation of remote sensing images. It is essentially a unique binary classification task with two inputs, and there is a change relationship between these two inputs. At present, the mining of change relationship features is usually implicit in the network architectures that contain single-branch or two-branch encoders. However, due to the lack of artificial prior design for change relationship features, these networks cannot learn enough change semantic information and lose more accurate change detection performance. So we propose a network architecture NAME for the explicit mining of change relation features. In our opinion, the change features of change detection should be divided into pre-changed image features, post-changed image features and change relation features. In order to fully mine these three kinds of change features, we propose the triple branch network combining the transformer and convolutional neural network (CNN) to extract and fuse these change features from two perspectives of global information and local information, respectively. In addition, we design the continuous change relation (CCR) branch to further obtain the continuous and detail change relation features to improve the change discrimination capability of the model. The experimental results show that our network performs better, in terms of F1, IoU, and OA, than those of the existing advanced networks for change detection on four public very high-resolution (VHR) remote sensing datasets. Our source code is available at https://github.com/DalongZ/NAME. | 翻訳日:2023-11-15 15:07:14 公開日:2023-11-14 |
# 効率的なオブジェクトゴールナビゲーションのためのprobable object location (polo)スコア推定 Probable Object Location (POLo) Score Estimation for Efficient Object Goal Navigation ( http://arxiv.org/abs/2311.07992v1 ) ライセンス: Link先を確認 | Jiaming Wang and Harold Soh | (参考訳) 自律ロボットの分野、特に未探索環境における対象探索タスクを進めるために、probable object location (polo)スコアを中心とした新しいフレームワークを提案する。
3次元オブジェクト確率マップを利用することで、エージェントは効率的なオブジェクト検索のためにデータ駆動決定を行うことができる。
計算集約的なPOLoスコアを近似するために訓練されたニューラルネットワークであるPOLoNetを導入することで、フレームワークの実用性をさらに向上する。
本手法は,長期タスクにおけるメモリ劣化に悩まされるエンドツーエンド強化学習手法と,可視性制約を無視する従来のマップベース手法の両方において重要な制約に対処する。
OVMM 2023チャレンジの第1フェーズを含む実験では,POLoNetを組み込んだエージェントが,エンド・ツー・エンドのRL技術や事前のマップベース戦略など,幅広いベースライン手法を著しく上回ることを示した。
総合的な評価を行うため,対象目標ナビゲーションにおける各種エージェントの効率性と有効性に関する洞察を提供する新しいパフォーマンス指標を提案する。 To advance the field of autonomous robotics, particularly in object search tasks within unexplored environments, we introduce a novel framework centered around the Probable Object Location (POLo) score. Utilizing a 3D object probability map, the POLo score allows the agent to make data-driven decisions for efficient object search. We further enhance the framework's practicality by introducing POLoNet, a neural network trained to approximate the computationally intensive POLo score. Our approach addresses critical limitations of both end-to-end reinforcement learning methods, which suffer from memory decay over long-horizon tasks, and traditional map-based methods that neglect visibility constraints. Our experiments, involving the first phase of the OVMM 2023 challenge, demonstrate that an agent equipped with POLoNet significantly outperforms a range of baseline methods, including end-to-end RL techniques and prior map-based strategies. To provide a comprehensive evaluation, we introduce new performance metrics that offer insights into the efficiency and effectiveness of various agents in object goal navigation. | 翻訳日:2023-11-15 15:06:49 公開日:2023-11-14 |
# コードのための言語モデルに関する調査 A Survey on Language Models for Code ( http://arxiv.org/abs/2311.07989v1 ) ライセンス: Link先を確認 | Ziyin Zhang and Chaoyu Chen and Bingchang Liu and Cong Liao and Zi Gong and Hang Yu and Jianguo Li and Rui Wang | (参考訳) 本稿では,50以上のモデル,30以上の評価タスク,500以上の関連作業を含む,言語モデルによるコード処理の最近の進歩を体系的にレビューする。
私たちは、コード処理モデルをgptファミリに代表される一般的な言語モデルと、特にコードで事前学習される特殊なモデルに分解します。
これらのモデルとの関係と相違について考察し,nlpが実施したのと全く同じ方法で,統計モデルやrnnから事前学習されたトランスフォーマーやllmへのコードモデリングの歴史的変遷を強調する。
また、ast、cfg、ユニットテストといったコード固有の機能や、コード言語モデルをトレーニングするアプリケーションについても議論し、このドメインにおける重要な課題と将来的な方向性を特定します。
調査を公開し、githubリポジトリのhttps://github.com/codefuse-ai/Awesome-Code-LLMで更新します。 In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, and 500 related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on github repository at https://github.com/codefuse-ai/Awesome-Code-LLM. | 翻訳日:2023-11-15 15:06:29 公開日:2023-11-14 |
# サブメートル画像を用いた個別ツリーマッピングのベンチマーク Benchmarking Individual Tree Mapping with Sub-meter Imagery ( http://arxiv.org/abs/2311.07981v1 ) ライセンス: Link先を確認 | Dimitri Gominski, Ankit Kariryaa, Martin Brandt, Christian Igel, Sizhuo Li, Maurice Mugabowindekwe, Rasmus Fensholt | (参考訳) 衛星画像や空中画像を用いた木図作成への関心は高まっているが, 比較・拡張のための標準化された評価プロトコルは存在しない。
密林地帯では,木の大きさとその空間的近接性が高いため,予測の質を定義することは困難である。
同時に、バウンディングボックス検出のようなオブジェクト中心のアプローチは、通常、小さくて密度の高いオブジェクトに対して不十分に機能する。
したがって、検出とセグメンテーションアプローチ、畳み込みニューラルネットワーク、トランスフォーマーに関して、個々のツリーマッピングの理想的なフレームワークは、まだ不明である。
本稿では,アノテーションコストと適用目標を念頭に置いて,任意の物理環境における個々のツリーマッピングに適した評価フレームワークを提案する。
異なるアプローチとディープアーキテクチャをレビュー・比較し、セグメンテーションと検出の間に良い妥協点があることを実験的に証明する新しい手法を提案する。 There is a rising interest in mapping trees using satellite or aerial imagery, but there is no standardized evaluation protocol for comparing and enhancing methods. In dense canopy areas, the high variability of tree sizes and their spatial proximity makes it arduous to define the quality of the predictions. Concurrently, object-centric approaches such as bounding box detection usuallyperform poorly on small and dense objects. It thus remains unclear what is the ideal framework for individual tree mapping, in regards to detection and segmentation approaches, convolutional neural networks and transformers. In this paper, we introduce an evaluation framework suited for individual tree mapping in any physical environment, with annotation costs and applicative goals in mind. We review and compare different approaches and deep architectures, and introduce a new method that we experimentally prove to be a good compromise between segmentation and detection. | 翻訳日:2023-11-15 15:06:13 公開日:2023-11-14 |
# QuantumEyes: 量子回路のより良い解釈可能性を目指して QuantumEyes: Towards Better Interpretability of Quantum Circuits ( http://arxiv.org/abs/2311.07980v1 ) ライセンス: Link先を確認 | Shaolun Ruan, Qiang Guan, Paul Griffin, Ying Mao, Yong Wang | (参考訳) 量子コンピューティングは、古典的コンピューティングに比べて大きなスピードアップをもたらし、様々なアプリケーションで量子コンピューティングを学習し応用するユーザーの間で関心が高まっている。
しかし、量子回路は量子アルゴリズムを実装する上で基本であり、量子状態の時間的発展や量子振幅が基底量子状態の確率に与える影響など、その基盤となる論理によって、ユーザが理解することが困難である。
この研究ギャップを埋めるために、グローバルレベルとローカルレベルの両方を通して量子回路の解釈可能性を高めるインタラクティブな視覚分析システムQuantumEyesを提案する。
確率概要(Probability Summary View) 量子状態の確率的進化を概観する状態進化ビュー(State Evolution View) 量子状態に対する量子ゲートの影響の詳細な分析を可能にする状態進化ビュー(State Evolution View) 個々の量子ビット状態を示し、量子ゲートの効果をよりよく理解するゲート説明ビュー(Gate Explanation View) である。
局所的解析のために,量子振幅が量子状態の確率にどのように影響するかを明らかにするために,新しい幾何学的可視化タンポレーションチャートを設計した。
我々は、量子アイとそれに統合された新しい量子アイを、2つの異なる量子アルゴリズムのケーススタディと12のドメインの専門家との詳細な専門家インタビューを通じて徹底的に評価した。
その結果,量子回路の解釈性を高めるための手法の有効性と有用性が示された。 Quantum computing offers significant speedup compared to classical computing, which has led to a growing interest among users in learning and applying quantum computing across various applications. However, quantum circuits, which are fundamental for implementing quantum algorithms, can be challenging for users to understand due to their underlying logic, such as the temporal evolution of quantum states and the effect of quantum amplitudes on the probability of basis quantum states. To fill this research gap, we propose QuantumEyes, an interactive visual analytics system to enhance the interpretability of quantum circuits through both global and local levels. For the global-level analysis, we present three coupled visualizations to delineate the changes of quantum states and the underlying reasons: a Probability Summary View to overview the probability evolution of quantum states; a State Evolution View to enable an in-depth analysis of the influence of quantum gates on the quantum states; a Gate Explanation View to show the individual qubit states and facilitate a better understanding of the effect of quantum gates. For the local-level analysis, we design a novel geometrical visualization Dandelion Chart to explicitly reveal how the quantum amplitudes affect the probability of the quantum state. We thoroughly evaluated QuantumEyes as well as the novel QuantumEyes integrated into it through two case studies on different types of quantum algorithms and in-depth expert interviews with 12 domain experts. The results demonstrate the effectiveness and usability of our approach in enhancing the interpretability of quantum circuits. | 翻訳日:2023-11-15 15:05:58 公開日:2023-11-14 |
# アフリカ言語における大規模言語モデルはどの程度優れているか? How good are Large Language Models on African Languages? ( http://arxiv.org/abs/2311.07978v1 ) ライセンス: Link先を確認 | Jessica Ojo, Kelechi Ogueji, Pontus Stenetorp, David I. Adelani | (参考訳) 近年の自然言語処理の進歩は,大規模言語モデル(LLM)の普及につながっている。
これらのモデルは、未認識のタスクや言語でも、コンテキスト内学習を使用して、優れたパフォーマンスをもたらすことが示されている。
さらに、GPT-4 APIのような言語モデル・アズ・ア・サービスの商用APIとして広く採用されている。
しかし、アフリカ語での演奏はほとんど分かっていない。
我々は,30のアフリカ言語を対象とした5つのタスク(トピック分類,感情分類,機械翻訳,質問応答,名前付きエンティティ認識)における3つの人気言語モデル(mT0,LLaMa 2,GPT-4)の分析を行った。
以上の結果から,LLMはアフリカ諸言語において低レベルな性能を実現しており,英語などの高リソース言語と比較して,性能の差が大きいことが示唆された。
GPT-4は、分類タスクでは平均的あるいは印象的な性能を持つが、機械翻訳のような生成タスクでは非常に低い結果が得られる。
驚いたことに、mT0は言語間QAにおいて、最先端の教師付きモデル(mT5)やアフリカの言語におけるGPT-4よりも優れた総合性を持っていた。
概してllama 2は、多言語能力の制限と英語中心の事前学習コーパスのため、最悪のパフォーマンスを記録している。
一般論として,アフリカ系言語が大きな言語モデルでよく表現されていることを確認すべく,我々の研究はコール・ツー・アクションを提示する。 Recent advancements in natural language processing have led to the proliferation of large language models (LLMs). These models have been shown to yield good performance, using in-context learning, even on unseen tasks and languages. Additionally, they have been widely adopted as language-model-as-a-service commercial APIs like GPT-4 API. However, their performance on African languages is largely unknown. We present an analysis of three popular large language models (mT0, LLaMa 2, and GPT-4) on five tasks (news topic classification, sentiment classification, machine translation, question answering, and named entity recognition) across 30 African languages, spanning different language families and geographical regions. Our results suggest that all LLMs produce below-par performance on African languages, and there is a large gap in performance compared to high-resource languages like English most tasks. We find that GPT-4 has an average or impressive performance on classification tasks but very poor results on generative tasks like machine translation. Surprisingly, we find that mT0 had the best overall on cross-lingual QA, better than the state-of-the-art supervised model (i.e. fine-tuned mT5) and GPT-4 on African languages. Overall, LLaMa 2 records the worst performance due to its limited multilingual capabilities and English-centric pre-training corpus. In general, our findings present a call-to-action to ensure African languages are well represented in large language models, given their growing popularity. | 翻訳日:2023-11-15 15:05:31 公開日:2023-11-14 |
# 射影計測による非局所性の非有界共有 Unbounded Sharing of Nonlocality Using Projective Measurements ( http://arxiv.org/abs/2311.07977v1 ) ライセンス: Link先を確認 | S. Sasmal, S. Kanjilal and A. K. Pan | (参考訳) ベル実験の片面における鋭い射影測定が共有状態の絡み合いを破壊し、非局所性の連続的な共有の実証を防ぐことは一般的な認識である。
対照的に、局所ランダム性支援射影測定プロトコルを導入し、任意の数の連続観測者(Bobs)による非局所性の共有を可能にする。
その後、双方の観測可能量の非互換性の程度間の相互作用の重要な特徴を明らかにし、非局所性の非有界共有を可能にする。
量子非局所性の証明における非可換性の基本性を理解するための新しいパラダイムを提供するだけでなく、局所ランダム性支援射影計測に基づく様々な情報処理タスクのための新しい経路を定めている。 It is a common perception that a sharp projective measurement in one side of the Bell experiment destroys the entanglement of the shared state, thereby preventing the demonstration of sequential sharing of nonlocality. In contrast, we introduce a local randomness-assisted projective measurement protocol, enabling the sharing of nonlocality by an arbitrary number of sequential observers (Bobs) with a single spatially separated party Alice. Subsequently, a crucial feature of the interplay between the degrees of incompatibility of observables of both parties is revealed, enabling the unbounded sharing of nonlocality. Our findings, not only offer a new paradigm for understanding the fundamental nature of incompatibility in demonstrating quantum nonlocality but also pave a new path for various information processing tasks based on local randomness-assisted projective measurement. | 翻訳日:2023-11-15 15:05:03 公開日:2023-11-14 |
# 信頼度補正による分布外知識蒸留 Out-of-Distribution Knowledge Distillation via Confidence Amendment ( http://arxiv.org/abs/2311.07975v1 ) ライセンス: Link先を確認 | Zhilin Zhao and Longbing Cao and Yixuan Zhang | (参考訳) オフ・オブ・ディストリビューション(OOD)検出は、標準ネットワークがトレーニングされているIDデータから逸脱するテストサンプルを識別し、ネットワークの堅牢性と信頼性を確保するために不可欠である。
本稿では,標準ネットワーク上でidデータのトレーニングが可能か否かを問わない,先駆的な学習フレームワークであるood知識蒸留について紹介する。
このフレームワークは、標準ネットワークからOODに敏感な知識を活用し、IDとOODのサンプルを区別できるバイナリ分類器を構築する。
そこで我々は,標準ネットワークからの予測信頼度を段階的に改善しつつ,OODサンプルをIDに変換する革新的な手法である信頼性修正(CA)を導入する。
このアプローチは, 予測信頼度を調整したIDとOODの両方のサンプルを同時合成することにより, OODに敏感なバイナリ分類器の訓練を容易にする。
理論的解析は二項分類器の一般化誤差の境界を提供し、ood感度向上における信頼度補正の重要な役割を示している。
様々なデータセットとネットワークアーキテクチャにまたがる広範な実験により、oodサンプル検出における提案手法の有効性が確認された。 Out-of-distribution (OOD) detection is essential in identifying test samples that deviate from the in-distribution (ID) data upon which a standard network is trained, ensuring network robustness and reliability. This paper introduces OOD knowledge distillation, a pioneering learning framework applicable whether or not training ID data is available, given a standard network. This framework harnesses OOD-sensitive knowledge from the standard network to craft a binary classifier adept at distinguishing between ID and OOD samples. To accomplish this, we introduce Confidence Amendment (CA), an innovative methodology that transforms an OOD sample into an ID one while progressively amending prediction confidence derived from the standard network. This approach enables the simultaneous synthesis of both ID and OOD samples, each accompanied by an adjusted prediction confidence, thereby facilitating the training of a binary classifier sensitive to OOD. Theoretical analysis provides bounds on the generalization error of the binary classifier, demonstrating the pivotal role of confidence amendment in enhancing OOD sensitivity. Extensive experiments spanning various datasets and network architectures confirm the efficacy of the proposed method in detecting OOD samples. | 翻訳日:2023-11-15 15:04:49 公開日:2023-11-14 |
# 脱分極雑音下におけるシミュレートアニーリングによる表面コード復号の比較検討 Comparative study of decoding the surface code using simulated annealing under depolarizing noise ( http://arxiv.org/abs/2311.07973v1 ) ライセンス: Link先を確認 | Yusaku Takeuchi, Yugo Takada, Tatsuya Sakashita, Jun Fujisaki, Hirotaka Oshima, Shintaro Sato, Keisuke Fujii | (参考訳) この問題をイジングモデル最適化にマッピングすることにより,ノイズの非分極下での表面符号の復号法を検討した。
ソフト制約のない2種類のマッピングと、cpu上に実装されたシミュレーションアニーリング、 ising問題に特化したハードウェアアーキテクチャである"fujitsu digital annealer"(da)、厳密な整数プログラミングソルバであるcplexなど、様々な最適化ソルバについて検討する。
提案したIsing-based decoding 手法は,雑音を非分極する最小値完全マッチング (MWPM) アルゴリズムよりも精度が高く,CPLEX を用いた最小距離復号法に匹敵する。
単一コアCPUと比較すると,復号化時間はMWPMよりも長いが,並列化が可能であり,専用ハードウェアの実装が容易であり,将来的な高速化が期待できる。
ソフト制約のないイジングモデルへのマッピングについて,saデコーダはソフト制約を伴わずに高い精度を示した。
対照的に、DAデコーダは2つのマッピング方法の差が少なく、DAはソフト制約の下でも少ないイテレーション数でより良い解を見つけることができることを示している。
量子コンピュータ制御デバイスで効率的かつ高速にデコーダを実現するためには,この結果が重要である。 We explored decoding methods for the surface code under depolarizing noise by mapping the problem into the Ising model optimization. We consider two kinds of mapping with and without a soft constraint and also various optimization solvers, including simulated annealing implemented on a CPU, "Fujitsu Digital Annealer" (DA), a hardware architecture specialized for the Ising problems, and CPLEX, an exact integer programming solver. We find that the proposed Ising-based decoding approaches provide higher accuracy compared to the minimum-weight perfect matching (MWPM) algorithm for depolarizing noise and comparable to minimum distance decoding using CPLEX. While decoding time is longer than MWPM when we compare it with a single core CPU, our method is amenable to parallelization and easy to implement on dedicated hardware, suggesting potential future speedups. Regarding the mapping methods to the Ising model with and without a soft constraint, the SA decoder yielded higher accuracy without a soft constraint. In contrast, the DA decoder shows less difference between the two mapping methods, which indicates that DA can find a better solution with smaller number of iterations even under the soft constraint. Our results are important for devising efficient and fast decoders feasible with quantum computer control devices. | 翻訳日:2023-11-15 15:04:28 公開日:2023-11-14 |
# Tesla1台とKelvin1台以上の強いマイクロ波 Strong Microwave Squeezing Above 1 Tesla and 1 Kelvin ( http://arxiv.org/abs/2311.07968v1 ) ライセンス: Link先を確認 | Arjen Vaartjes, Anders Kringh{\o}j, Wyatt Vine, Tom Day, Andrea Morello, Jarryd J. Pla | (参考訳) 絞られた光の状態は、重力波の検出からダークマターの探索まで、測定の精度を高めるために広く使われている。
光領域では、低損失光学部品と高性能スクイーサーが利用可能であるため、高レベルの真空ノイズスクイーズが可能となる。
しかし、マイクロ波周波数では、スクイーズ装置の限界とマイクロ波部品の挿入損失が大きいため、スクイーズ真空ノイズは非常に困難である。
ここではマイクロ波スクイーズを直接測定するための新しい記録を示す。
我々はマイクロ波ノイズ7.8(2)dBを真空レベル以下に圧縮するために、超低損失設定と弱い非線形インダクタンスパラメトリック増幅器を用いる。
The amplifiers exhibit a resilience to magnetic fields and permit the demonstration of record squeezing levels inside fields of up to 2 T. Finally, we exploit the high critical temperature of our amplifiers to squeeze a warm thermal environment, achieving vacuum level noise at a temperature of 1.8 K. These results enable experiments that combine squeezing with magnetic fields and permit quantum-limited microwave measurements at elevated temperatures, significantly reducing the complexity and cost of the cryogenic systems required for such experiments. Squeezed states of light have been used extensively to increase the precision of measurements, from the detection of gravitational waves to the search for dark matter. In the optical domain, high levels of vacuum noise squeezing are possible due to the availability of low loss optical components and high-performance squeezers. At microwave frequencies, however, limitations of the squeezing devices and the high insertion loss of microwave components makes squeezing vacuum noise an exceptionally difficult task. Here we demonstrate a new record for the direct measurement of microwave squeezing. We use an ultra low loss setup and weakly-nonlinear kinetic inductance parametric amplifiers to squeeze microwave noise 7.8(2) dB below the vacuum level. The amplifiers exhibit a resilience to magnetic fields and permit the demonstration of record squeezing levels inside fields of up to 2 T. Finally, we exploit the high critical temperature of our amplifiers to squeeze a warm thermal environment, achieving vacuum level noise at a temperature of 1.8 K. These results enable experiments that combine squeezing with magnetic fields and permit quantum-limited microwave measurements at elevated temperatures, significantly reducing the complexity and cost of the cryogenic systems required for such experiments. | 翻訳日:2023-11-15 15:04:05 公開日:2023-11-14 |
# 土地利用分類のための2つのデータ融合手法の比較 Comparison of two data fusion approaches for land use classification ( http://arxiv.org/abs/2311.07967v1 ) ライセンス: Link先を確認 | Martin Cubaud (LaSTIG), Arnaud Le Bris (LaSTIG), Laurence Jolivet (LaSTIG), Ana-Maria Olteanu-Raimond (LaSTIG) | (参考訳) 正確な土地利用地図は、人為的利用の観点から、土地管理と計画に有用なツールである。
製造にあたっては、光学画像のみの使用は限られている。
したがって、不完全性や異なる仕様のために相補的あるいは矛盾する情報を持つ異種情報源を複数使用する必要がある。
本研究は,土地利用分類の文脈において,複数の空間データソースを組み合わせた事前分類と後分類融合の2つのアプローチを比較した。
これらのアプローチは、フランス南西部のガーズ県にある権威ある土地利用データに適用される。
分類前の融合は、明確に不完全さをモデル化していないが、最終的な結果が最高で、全体の精度は97%、マクロ平均f1スコアは88%に達する。 Accurate land use maps, describing the territory from an anthropic utilisation point of view, are useful tools for land management and planning. To produce them, the use of optical images alone remains limited. It is therefore necessary to make use of several heterogeneous sources, each carrying complementary or contradictory information due to their imperfections or their different specifications. This study compares two different approaches i.e. a pre-classification and a post-classification fusion approach for combining several sources of spatial data in the context of land use classification. The approaches are applied on authoritative land use data located in the Gers department in the southwest of France. Pre-classification fusion, while not explicitly modeling imperfections, has the best final results, reaching an overall accuracy of 97% and a macro-mean F1 score of 88%. | 翻訳日:2023-11-15 15:03:49 公開日:2023-11-14 |
# 高次展開グラフの伝播 Higher-Order Expander Graph Propagation ( http://arxiv.org/abs/2311.07966v1 ) ライセンス: Link先を確認 | Thomas Christie, Yu He | (参考訳) グラフニューラルネットワークは、エッジに沿ってメッセージを交換することで、グラフ構造化データを操作する。
このメッセージパッシングパラダイムの1つの制限は過度な問題である。
オーバースカッシングは、ノードの拡張受信フィールドからのメッセージが固定サイズのベクトルに圧縮され、情報損失を引き起こす可能性がある場合に起こる。
この問題に対処するため、近年の研究では、低径の高連結スパースグラフである拡張グラフを用いてメッセージパッシングを行っている。
しかし、拡張グラフ伝播の現在の手法は、複雑なデータにおける高次構造を無視したペアワイズ相互作用のみを考慮する。
拡張グラフを引き続き活用しながら高次相関を捉える利点を探るため,高次拡張グラフの伝播を導入する。
両部展開器を構築するための2つの手法を提案し,その性能を合成および実世界のデータセットで評価する。 Graph neural networks operate on graph-structured data via exchanging messages along edges. One limitation of this message passing paradigm is the over-squashing problem. Over-squashing occurs when messages from a node's expanded receptive field are compressed into fixed-size vectors, potentially causing information loss. To address this issue, recent works have explored using expander graphs, which are highly-connected sparse graphs with low diameters, to perform message passing. However, current methods on expander graph propagation only consider pair-wise interactions, ignoring higher-order structures in complex data. To explore the benefits of capturing these higher-order correlations while still leveraging expander graphs, we introduce higher-order expander graph propagation. We propose two methods for constructing bipartite expanders and evaluate their performance on both synthetic and real-world datasets. | 翻訳日:2023-11-15 15:03:35 公開日:2023-11-14 |
# wikipediansの調査: 8言語のwikipediaにおけるユーザとコントリビュータのプラクティスのデータセット Surveying Wikipedians: a dataset of users and contributors' practices on Wikipedia in 8 languages ( http://arxiv.org/abs/2311.07964v1 ) ライセンス: Link先を確認 | Caterina Cruciani, L\'eo Joubert (LEST, DySoLab), Nicolas Jullien (IMT Atlantique - LUSSI, MARSOUIN, LEGO), Laurent Mell (CREAD EA 3875, MARSOUIN), Sasha Piccione, Jeanne Vermeirsche | (参考訳) このデータセットはwikipediaユーザーに焦点を当てており、回答者の人口統計と社会経済特性とウィキペディアにおける活動に関する情報を含んでいる。
データは2023年6月から7月にかけてオンライン公開されているアンケートを用いて収集された。
アンケートへのリンクはウィキペディアのページにある8つの言語で公開されたバナーを通じて配布された。
アンケートの充足は自発的であり、何のインセンティブも与えなかった。
The survey includes 200 questions about: what people were doing on Wikipedia before clicking the link to the questionnaire; how they use Wikipedia as readers (``professional'' and ``personal'' uses); their opinion on the quality, the thematic coverage, the importance of the encyclopaedia; the making of Wikipedia (how they think it is made, if they have ever contributed and how); their social, sport, artistic and cultural activities, both online and offline; their socio-economic characteristics including political beliefs, and trust propensities.
20万人以上がアンケートを開き、100人の332人が回答し始め、私たちのデータセットを構成しました。
将来の研究者によって特定される他のテーマの中で、このデータセットは、読者とオンラインコモンズのコントリビュータの特徴、信頼、情報、ソース、そしてこの情報で作られた使用との関係に関する研究を進めるのに役立つ。 The dataset focuses on Wikipedia users and contains information about demographic and socioeconomic characteristics of the respondents and their activity on Wikipedia. The data was collected using a questionnaire available online between June and July 2023. The link to the questionnaire was distributed via a banner published in 8 languages on the Wikipedia page. Filling out the questionnaire was voluntary and not incentivised in any way. The survey includes 200 questions about: what people were doing on Wikipedia before clicking the link to the questionnaire; how they use Wikipedia as readers (``professional'' and ``personal'' uses); their opinion on the quality, the thematic coverage, the importance of the encyclopaedia; the making of Wikipedia (how they think it is made, if they have ever contributed and how); their social, sport, artistic and cultural activities, both online and offline; their socio-economic characteristics including political beliefs, and trust propensities. More than 200 000 people opened the questionnaire, 100 332 started to answer, and constitute our dataset, and 10 576 finished it. Among other themes identified by future researchers, the dataset can be useful for advancing the research regarding the features of readers vs contributors of online commons, the relationship between trust, information, sources, and the use made of this information. | 翻訳日:2023-11-15 15:03:21 公開日:2023-11-14 |
# LLMリファインメントのART: Ask, Refine, Trust The ART of LLM Refinement: Ask, Refine, and Trust ( http://arxiv.org/abs/2311.07961v1 ) ライセンス: Link先を確認 | Kumar Shridhar, Koustuv Sinha, Andrew Cohen, Tianlu Wang, Ping Yu, Ram Pasunuru, Mrinmaya Sachan, Jason Weston, Asli Celikyilmaz | (参考訳) 近年、Large Language Models (LLMs) は顕著な生成能力を示しているが、彼らは自身の世代の品質を判断できるだろうか?
一般的な概念である自己補充(self-refinement)は、LSMが世代内のエラーを検出し、修正することができると仮定している。
しかし、最近の実証的な証拠は反対方向に向けられており、LSMは推論が関与する際の誤りを正確に識別するのに苦労することが多いことを示唆している。
そこで,本研究では,llmがいつその成果を洗練すべきかを判断するために必要な質問を問う「art: ask, refine, and trust」という,改良目的の推論を提案し,改善度と初期予測をランク付けしてその改善に対する信頼を肯定するか,あるいは保持するかを提案する。
数式語問題 (GSM8K) と質問応答 (StrategyQA) の2つの多段階推論タスクにおいて、ARTは意思決定者としてはるかに小さなモデルを使用しながら、自己修正ベースラインよりも+5ポイントの性能向上を達成する。
また、より小さなモデルを使って、より大きなモデルを微調整するコスト効率の高い代替手段として、リファインメント決定を行うことのメリットも示します。 In recent years, Large Language Models (LLMs) have demonstrated remarkable generative abilities, but can they judge the quality of their own generations? A popular concept, referred to as self-refinement, postulates that LLMs can detect and correct the errors in their generations when asked to do so. However, recent empirical evidence points in the opposite direction, suggesting that LLMs often struggle to accurately identify errors when reasoning is involved. To address this, we propose a reasoning with refinement objective called ART: Ask, Refine, and Trust, which asks necessary questions to decide when an LLM should refine its output, and either affirm or withhold trust in its refinement by ranking the refinement and the initial prediction. On two multistep reasoning tasks of mathematical word problems (GSM8K) and question answering (StrategyQA), ART achieves a performance gain of +5 points over self-refinement baselines, while using a much smaller model as the decision maker. We also demonstrate the benefit of using smaller models to make refinement decisions as a cost-effective alternative to fine-tuning a larger model. | 翻訳日:2023-11-15 15:03:00 公開日:2023-11-14 |
# 2成分ボース・アインシュタイン凝縮体の相分離による領域形成と普遍臨界ダイナミクス Domain formation and universally critical dynamics through phase separation in two-component Bose-Einstein condensates ( http://arxiv.org/abs/2311.07959v1 ) ライセンス: Link先を確認 | Yikai Ji, Xizhou Qin, Bin Liu, Yongyao Li, Bo Lu, Xunda Jiang, and Chaohong Lee | (参考訳) We explore the defect formation and universally critical dynamics in two-dimensional (2D) two-component Bose-Einstein condensates(BECs) subjected to two types of potential traps: a homogeneous trap and a harmonic trap.We focus on the non-equilibrium universal dynamics of the miscible-immiscible phase transition with both linear and nonlinear quenching types.Although there exists spatial independence of the critical point, we find that the inhomogeneity of trap doesn't affect the phase transition of system and the critical exponents can still be explained by the homogeneous Kibble-Zurek mechanism.
By analyzing the Bogoliubov excitations, we establish a power-law relationship between the domain correlation length, the phase transition delay, and the quench time.Furthermore, through real-time simulations of phase transition dynamics, the formation of domain defects and the delay of phase transition in non-equilibrium dynamics are demonstrated, along with the corresponding universal scaling of correlation length and phase transition delay for various quench time and quench coefficients, which align well with our analytical predictions.Our study confirms that the universality class of two-component BECs remains unaffected by dimensionality, while the larger nonlinear coefficients effectively suppress non-adiabatic excitations, offering a novel perspective for addressing adiabatic evolution. We explore the defect formation and universally critical dynamics in two-dimensional (2D) two-component Bose-Einstein condensates(BECs) subjected to two types of potential traps: a homogeneous trap and a harmonic trap.We focus on the non-equilibrium universal dynamics of the miscible-immiscible phase transition with both linear and nonlinear quenching types.Although there exists spatial independence of the critical point, we find that the inhomogeneity of trap doesn't affect the phase transition of system and the critical exponents can still be explained by the homogeneous Kibble-Zurek mechanism. By analyzing the Bogoliubov excitations, we establish a power-law relationship between the domain correlation length, the phase transition delay, and the quench time.Furthermore, through real-time simulations of phase transition dynamics, the formation of domain defects and the delay of phase transition in non-equilibrium dynamics are demonstrated, along with the corresponding universal scaling of correlation length and phase transition delay for various quench time and quench coefficients, which align well with our analytical predictions.Our study confirms that the universality class of two-component BECs remains unaffected by dimensionality, while the larger nonlinear coefficients effectively suppress non-adiabatic excitations, offering a novel perspective for addressing adiabatic evolution. | 翻訳日:2023-11-15 15:02:36 公開日:2023-11-14 |
# 物理インフォームドニューラルネットワークを用いた封筒熱損失に基づくデータ駆動建築エネルギー効率予測 Data-driven building energy efficiency prediction based on envelope heat losses using physics-informed neural networks ( http://arxiv.org/abs/2311.08035v1 ) ライセンス: Link先を確認 | Vasilis Michalakopoulos, Sotiris Pelekis, Giorgos Kormpakis, Vagelis Karakolis, Spiros Mouzakitis, Dimitris Askounis | (参考訳) 個別の封筒成分の熱損失に基づく住宅における建築エネルギー性能の予測は難しい課題である。
この分野はまだ初期段階であり、特にデータ駆動アプローチに関して、この特定領域ではこれまで比較的限られた研究がなされている点に注意が必要だ。
本稿では,この問題に対処する物理インフォームドニューラルネットワークモデルを提案する。
一般ビルディング情報,監査特性,暖房エネルギー消費を含む未公開データセットの利用を通じて,ディープラーニングモデルに一般ビルディング情報を提供する一方,モデル出力は構造成分と実際にエネルギー性能証明(EPC)の基本要素であるいくつかの熱特性から構成される。
このニューラルネットワーク上には、物理方程式に基づく関数が、熱損失に基づいて建物のエネルギー消費量を計算し、ディープラーニングモデルの損失関数を強化する。
この手法はラトビアのリガにある256の建物の実例調査で検証されている。
本研究は,人間の主導によるエネルギー効率監査とは対照的に,建物の基本特性に基づいて,予測精度,自動化方法,およびデータ駆動型エネルギー効率性能の予測を行う上で有望な結果が得られた。 The analytical prediction of building energy performance in residential buildings based on the heat losses of its individual envelope components is a challenging task. It is worth noting that this field is still in its infancy, with relatively limited research conducted in this specific area to date, especially when it comes for data-driven approaches. In this paper we introduce a novel physics-informed neural network model for addressing this problem. Through the employment of unexposed datasets that encompass general building information, audited characteristics, and heating energy consumption, we feed the deep learning model with general building information, while the model's output consists of the structural components and several thermal properties that are in fact the basic elements of an energy performance certificate (EPC). On top of this neural network, a function, based on physics equations, calculates the energy consumption of the building based on heat losses and enhances the loss function of the deep learning model. This methodology is tested on a real case study for 256 buildings located in Riga, Latvia. Our investigation comes up with promising results in terms of prediction accuracy, paving the way for automated, and data-driven energy efficiency performance prediction based on basic properties of the building, contrary to exhaustive energy efficiency audits led by humans, which are the current status quo. | 翻訳日:2023-11-15 14:54:26 公開日:2023-11-14 |
# ELF:緑内障治療のためのローカル・グローバル・マルチモーダル融合フレームワーク ELF: An End-to-end Local and Global Multimodal Fusion Framework for Glaucoma Grading ( http://arxiv.org/abs/2311.08032v1 ) ライセンス: Link先を確認 | Wenyun Li and Chi-Man Pun | (参考訳) 緑内障は視覚障害を引き起こす慢性神経変性疾患である。
早期発見と治療は緑内障患者にとって病気の悪化を防ぐ上で非常に重要である。
2次元眼底像と光学コヒーレンス断層像(oct)は緑内障の診断において眼科医に有用である。
眼底画像や3d octボリュームに基づく手法は数多く存在するが、眼底画像とデータの両方を含むマルチモダリティのマイニングはあまり研究されていない。
本研究では,緑内障治療のための局所的およびグローバルな多モード融合フレームワークであるELFを提案する。
ELFは、FundusとOCTの補完情報を十分に活用することができる。
さらに、異なるモダリティ間の相互情報を探索しないマルチモーダル特徴を結合する以前の方法とは異なり、elfは局所的およびグローバル的相互情報を利用することができる。
GAMMAデータセットを用いたマルチモーダル緑内障に対する広範な実験は、他の最先端手法と比較して、ELFの有効性を証明できる。 Glaucoma is a chronic neurodegenerative condition that can lead to blindness. Early detection and curing are very important in stopping the disease from getting worse for glaucoma patients. The 2D fundus images and optical coherence tomography(OCT) are useful for ophthalmologists in diagnosing glaucoma. There are many methods based on the fundus images or 3D OCT volumes; however, the mining for multi-modality, including both fundus images and data, is less studied. In this work, we propose an end-to-end local and global multi-modal fusion framework for glaucoma grading, named ELF for short. ELF can fully utilize the complementary information between fundus and OCT. In addition, unlike previous methods that concatenate the multi-modal features together, which lack exploring the mutual information between different modalities, ELF can take advantage of local-wise and global-wise mutual information. The extensive experiment conducted on the multi-modal glaucoma grading GAMMA dataset can prove the effiectness of ELF when compared with other state-of-the-art methods. | 翻訳日:2023-11-15 14:54:04 公開日:2023-11-14 |
# 遷移状態理論の再考 Transition-State Theory Revisited ( http://arxiv.org/abs/2311.08030v1 ) ライセンス: Link先を確認 | Hans A. Weidenm\"uller | (参考訳) 2つの量子系は、それぞれランダム行列アンサンブルとして記述される。
多くの遷移状態を介して相互に結合される。
各システムは多数のチャネルに強く結合している。
平均伝送確率は、それぞれ入口チャネルから第1系を形成すること、出口チャネルを介して第2系が崩壊すること、遷移状態を通って輸送することを記述する3つの因子の積である。
各遷移状態はブライト・ウィグナー共鳴に寄与する。
一般に、共鳴は重なり合う。 Two quantum systems, each described as a random-matrix ensemble. are coupled to each other via a number of transition states. Each system is strongly coupled to a large number of channels. The average transmission probability is the product of three factors describing, respectively, formation of the first system from the entrance channel, decay of the second system through the exit channel, and transport through the transition states. Each of the transition states contributes a Breit-Wigner resonance. In general, the resonances overlap. | 翻訳日:2023-11-15 14:53:44 公開日:2023-11-14 |
# MD-IQA:低線量CTのための半教師付き学習によるマルチスケール分散画像品質評価学習 MD-IQA: Learning Multi-scale Distributed Image Quality Assessment with Semi Supervised Learning for Low Dose CT ( http://arxiv.org/abs/2311.08024v1 ) ライセンス: Link先を確認 | Tao Song, Ruizhi Hou, Lisong Dai, Lei Xiang | (参考訳) 画像品質評価(IQA)は放射線線量最適化とCT(Computed tomography)における新しい医用イメージング技術開発において重要な役割を担っている。
手作りの特徴に依存する従来のIQA手法は、画像品質の主観的知覚経験を要約するのに限界がある。
近年の深層学習に基づくアプローチは、強力なモデリング能力と医療IQAの可能性を示しているが、モデル一般化と知覚精度に関する課題は残っている。
本研究では,出力分布の制約による品質スコアの予測のためのマルチスケール分布回帰手法を提案する。
さらに,特徴抽出能力を向上させるために,デュアルブランチアライメントネットワークを設計する。
さらに、ラベルなしデータに擬似ラベルを用いることで、モデルトレーニングのガイドとして半教師付き学習を導入する。
広汎な定性的実験により,深層学習型IQAの最先端化に向けた提案手法の有効性が示された。
コードはhttps://github.com/zunzhumu/md-iqa。 Image quality assessment (IQA) plays a critical role in optimizing radiation dose and developing novel medical imaging techniques in computed tomography (CT). Traditional IQA methods relying on hand-crafted features have limitations in summarizing the subjective perceptual experience of image quality. Recent deep learning-based approaches have demonstrated strong modeling capabilities and potential for medical IQA, but challenges remain regarding model generalization and perceptual accuracy. In this work, we propose a multi-scale distributions regression approach to predict quality scores by constraining the output distribution, thereby improving model generalization. Furthermore, we design a dual-branch alignment network to enhance feature extraction capabilities. Additionally, semi-supervised learning is introduced by utilizing pseudo-labels for unlabeled data to guide model training. Extensive qualitative experiments demonstrate the effectiveness of our proposed method for advancing the state-of-the-art in deep learning-based medical IQA. Code is available at: https://github.com/zunzhumu/MD-IQA. | 翻訳日:2023-11-15 14:53:38 公開日:2023-11-14 |
# 制約パラメータが未知な混合整数線形プログラムの2段階予測+最適化 Two-Stage Predict+Optimize for Mixed Integer Linear Programs with Unknown Parameters in Constraints ( http://arxiv.org/abs/2311.08022v1 ) ライセンス: Link先を確認 | Xinyi Hu, Jasper C.H. Lee, Jimmy H.M. Lee | (参考訳) 制約付き最適化の設定を考えると、いくつかのパラメータは解決時に未知であり、関連する特徴からの予測を必要とする。
prediction+optimizeは、エンド・ツー・エンドのトレーニング教師付き学習モデルのための最近のフレームワークで、トレーニングプロセスにおける最適化問題に関する情報を組み込んで、真のパラメータの下で予測されたソリューションの品質の面でより良い予測を可能にする。
ほとんど全ての先行研究は、制約ではなく最適化目的にのみ未知が現れる特別な場合に焦点を当てている。
など。
制約に現れる未知の要素を扱うためにPredict+Optimizeの最初の適応を提案したが、このフレームワークはややアドホックな要素を持ち、彼らは線形プログラムをカバーしてパッケージングするためのトレーニングアルゴリズムを提供した。
本研究では,予測+最適化設定のための標準フレームワークであるべきと思われる,新しい \emph{simpler} と \emph{more powerful} フレームワークである \emph{Two-Stage Predict+Optimize} を提供する。
また,混合整数線形プログラムで使用可能なトレーニングアルゴリズムを提供し,フレームワークの適用可能性を大幅に一般化した。
実験の結果,従来の手法や最先端手法よりも優れた予測性能が得られた。 Consider the setting of constrained optimization, with some parameters unknown at solving time and requiring prediction from relevant features. Predict+Optimize is a recent framework for end-to-end training supervised learning models for such predictions, incorporating information about the optimization problem in the training process in order to yield better predictions in terms of the quality of the predicted solution under the true parameters. Almost all prior works have focused on the special case where the unknowns appear only in the optimization objective and not the constraints. Hu et al.~proposed the first adaptation of Predict+Optimize to handle unknowns appearing in constraints, but the framework has somewhat ad-hoc elements, and they provided a training algorithm only for covering and packing linear programs. In this work, we give a new \emph{simpler} and \emph{more powerful} framework called \emph{Two-Stage Predict+Optimize}, which we believe should be the canonical framework for the Predict+Optimize setting. We also give a training algorithm usable for all mixed integer linear programs, vastly generalizing the applicability of the framework. Experimental results demonstrate the superior prediction performance of our training framework over all classical and state-of-the-art methods. | 翻訳日:2023-11-15 14:53:24 公開日:2023-11-14 |
# 空間分布マップマッチングを用いた速度に基づくチャネルチャート作成 Velocity-Based Channel Charting with Spatial Distribution Map Matching ( http://arxiv.org/abs/2311.08016v1 ) ライセンス: Link先を確認 | Maximilian Stahlke, George Yammine, Tobias Feigl, Bjoern M. Eskofier, Christopher Mutschler | (参考訳) 指紋による位置決めは,NLoSが支配する屋内環境における位置決め性能を向上させる。
しかし、フィンガープリントモデルは、初期訓練や環境変化の定期的な記録とラベル付けを含む、高価なライフサイクル管理を必要とする。
あるいは、チャネルチャーティングは、記録された無線信号と相対座標を暗黙的に関連付けるので、このラベル付け作業を避ける。
次に、参照実世界の座標(位置)を用いて、そのようなチャートを位置決めタスクに使用できる。
しかし、現在のチャネルチャーティングでは、位置決め精度がフィンガープリントより遅れており、ローカライズ、レギュラーデータ記録、ラベリングのためには参照サンプルが必要である。
そこで本稿では,参照位置を必要としない新しいフレームワークを提案する。
速度情報、例えば歩行者の死亡推定やオドメトリからチャネルチャートのモデル化、トポロジカルマップ情報、例えばビルのフロアプランからチャネルチャートを実際の座標に変換するための情報のみを必要とする。
5Gと分散シングルインプット/マルチアウトプットシステム(SIMO)を用いた2つの実世界のデータセットに対するアプローチを評価する。
実験の結果, 騒音速度推定と粗い地図情報を用いても, 同様の位置精度が得られることがわかった。 Fingerprint-based localization improves the positioning performance in challenging, non-line-of-sight (NLoS) dominated indoor environments. However, fingerprinting models require an expensive life-cycle management including recording and labeling of radio signals for the initial training and regularly at environmental changes. Alternatively, channel-charting avoids this labeling effort as it implicitly associates relative coordinates to the recorded radio signals. Then, with reference real-world coordinates (positions) we can use such charts for positioning tasks. However, current channel-charting approaches lag behind fingerprinting in their positioning accuracy and still require reference samples for localization, regular data recording and labeling to keep the models up to date. Hence, we propose a novel framework that does not require reference positions. We only require information from velocity information, e.g., from pedestrian dead reckoning or odometry to model the channel charts, and topological map information, e.g., a building floor plan, to transform the channel charts into real coordinates. We evaluate our approach on two different real-world datasets using 5G and distributed single-input/multiple-output system (SIMO) radio systems. Our experiments show that even with noisy velocity estimates and coarse map information, we achieve similar position accuracies | 翻訳日:2023-11-15 14:52:59 公開日:2023-11-14 |
# CP-SLAM:協調型ニューラルポイントベースSLAMシステム CP-SLAM: Collaborative Neural Point-based SLAM System ( http://arxiv.org/abs/2311.08013v1 ) ライセンス: Link先を確認 | Jiarui Hu, Mao Mao, Hujun Bao, Guofeng Zhang, Zhaopeng Cui | (参考訳) 本稿では,RGB-D画像シーケンスを用いた協調型暗黙的ニューラルローカライゼーション・マッピング(SLAM)システムを提案する。
これらすべてのモジュールを統一的なフレームワークで実現するために、各ポイントがシーンエンコーディングのための学習可能なニューラル特徴を保持し、特定のキーフレームに関連付ける新しい3Dシーン表現を提案する。
さらに,協調型暗黙的slamでは,一貫性と協調性を改善するために,分散分散学習戦略が提案されている。
従来のバンドル調整のようなシステム精度を改善するために,新しいグローバル最適化フレームワークも提案されている。
様々なデータセットに対する実験は、カメラトラッキングとマッピングの両方において提案手法の優位性を示す。 This paper presents a collaborative implicit neural simultaneous localization and mapping (SLAM) system with RGB-D image sequences, which consists of complete front-end and back-end modules including odometry, loop detection, sub-map fusion, and global refinement. In order to enable all these modules in a unified framework, we propose a novel neural point based 3D scene representation in which each point maintains a learnable neural feature for scene encoding and is associated with a certain keyframe. Moreover, a distributed-to-centralized learning strategy is proposed for the collaborative implicit SLAM to improve consistency and cooperation. A novel global optimization framework is also proposed to improve the system accuracy like traditional bundle adjustment. Experiments on various datasets demonstrate the superiority of the proposed method in both camera tracking and mapping. | 翻訳日:2023-11-15 14:52:36 公開日:2023-11-14 |
# 学習前の予測:大規模言語モデルにおける知識更新のためのパラメトリック算術の利用 Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models ( http://arxiv.org/abs/2311.08011v1 ) ライセンス: Link先を確認 | Shiwen Ni, Dingwei Chen, Chengming Li, Xiping Hu, Ruifeng Xu, Min Yang | (参考訳) 最近、LLM(Large Language Models)は、その驚くべきテキスト理解と生成能力を示しました。
しかし、さらに強力なLSMはトレーニングコーパスから誤った知識を学習し、時間とともに時代遅れになった知識を学習することができる。
新しい知識を含むデータによる直接二次的な微調整は、古い知識と新しい知識の衝突による知識の更新に効果がない可能性がある。
本稿では,古知識の忘れと新しい知識の学習を実現するためのパラメトリック算術に基づく,f-learning (forgeting before learning)と呼ばれる微調整のための新しいパラダイムを提案する。
2つの公開データセットにおける実験結果から,提案するf-learningは,完全微調整とlora微調整の両方の知識更新性能を明らかに向上できることが示された。
さらに,LoRAのパラメータを減じることによる古い知識の忘れは,完全な微調整のパラメータを減じることと同じような効果が得られ,時にはそれをはるかに上回ることもあることがわかった。 Recently Large Language Models (LLMs) have demonstrated their amazing text understanding and generation capabilities. However, even stronger LLMs may still learn incorrect knowledge from the training corpus, as well as some knowledge that is outdated over time. Direct secondary fine-tuning with data containing new knowledge may be ineffective in updating knowledge due to the conflict between old and new knowledge. In this paper, we propose a new paradigm for fine-tuning called F-Learning (Forgetting before Learning), which is based on parametric arithmetic to achieve forgetting of old knowledge and learning of new knowledge. Experimental results on two publicly available datasets demonstrate that our proposed F-Learning can obviously improve the knowledge updating performance of both full fine-tuning and LoRA fine-tuning. Moreover, we have also discovered that forgetting old knowledge by subtracting the parameters of LoRA can achieve a similar effect to subtracting the parameters of full fine-tuning, and sometimes even surpass it significantly. | 翻訳日:2023-11-15 14:52:23 公開日:2023-11-14 |
# 不確かさを意識した教師学習と学生学生協調学習による遠隔指導型エンティティ認識 Distantly-Supervised Named Entity Recognition with Uncertainty-aware Teacher Learning and Student-student Collaborative Learning ( http://arxiv.org/abs/2311.08010v1 ) ライセンス: Link先を確認 | Helan Hu, Shuzheng Si, Haozhe Zhao, Shuang Zeng, Kaikai An, Zefan Cai and Baobao Chang | (参考訳) Distantly-Supervised Named Entity Recognition (DS-NER)は、アノテーションの負担を軽減するが、ラベルノイズに悩まされる。
最近の研究は、教師の学習フレームワークを採用して、トレーニングラベルを徐々に洗練し、全体的な堅牢性を改善しようとしている。
しかし,ネットワークキャリブレーションの悪さが誤った擬似ラベルサンプルを生成し,誤り伝播に繋がるため,教師が指導する手法は限定的である。
そこで我々は,(1)予測の不確実性を活用して疑似ラベルの選択を誘導する不確実性認識型教員学習を,自己学習段階における誤った擬似ラベルの数を避けることによって,この問題を軽減することを提案する。
2)教師からの疑似ラベルを全て頼らずに、2つの学生ネットワーク間で信頼できるラベルを転送できる学生・学生協調学習。
一方、このアプローチは、信頼できない擬似ラベルサンプルを単にフィルタリングするのではなく、誤ラベルサンプルの完全な探索を可能にする。
5つのds-nerデータセットの広範な実験結果から,本手法は教師の指導的手法よりも優れていることが示された。 Distantly-Supervised Named Entity Recognition (DS-NER) effectively alleviates the burden of annotation, but meanwhile suffers from the label noise. Recent works attempt to adopt the teacher-student framework to gradually refine the training labels and improve the overall robustness. However, we argue that these teacher-student methods achieve limited performance because poor network calibration produces incorrectly pseudo-labeled samples, leading to error propagation. Therefore, we attempt to mitigate this issue by proposing: (1) Uncertainty-aware Teacher Learning that leverages the prediction uncertainty to guide the selection of pseudo-labels, avoiding the number of incorrect pseudo-labels in the self-training stage. (2) Student-student Collaborative Learning that allows the transfer of reliable labels between two student networks instead of completely relying on all pseudo-labels from its teacher. Meanwhile, this approach allows a full exploration of mislabeled samples rather than simply filtering unreliable pseudo-labeled samples. Extensive experimental results on five DS-NER datasets demonstrate that our method is superior to state-of-the-art teacher-student methods. | 翻訳日:2023-11-15 14:52:07 公開日:2023-11-14 |
# ビデオフレーム補間における速度の曖昧さの解消 Clearer Frames, Anytime: Resolving Velocity Ambiguity in Video Frame Interpolation ( http://arxiv.org/abs/2311.08007v1 ) ライセンス: Link先を確認 | Zhihang Zhong, Gurunandan Krishnan, Xiao Sun, Yu Qiao, Sizhuo Ma, and Jian Wang | (参考訳) 既存のビデオフレーム補間(VFI)手法は、各オブジェクトが特定の時間ステップt(時間インデックス)のどこにいるかを盲目的に予測する。
野球のイメージが2つあるとすると、加速、減速、直線または湾曲の可能な軌道が無限に存在する。
これはしばしばぼやけたフレームとなり、メソッドはこれらの可能性を平均化する。
ネットワークにこの複雑な時間-位置マッピングを暗黙的に学習させ、フレームを予測するのではなく、ネットワークに、オブジェクトがスタートフレームとエンドフレームの間をどこまで移動したかを明確に示すヒントを与えます。
この方法はモデルの明確な学習目標を提供し、オブジェクトの速度に関連する不確実性を低減する。
さらに,この余分なガイダンスによっても,遠距離移動の方向あいまいさのため,特に両入力フレーム(すなわち中間間)から等しく離れている場合には,物体がぼやけやすいことも観察した。
そこで本研究では,長距離予測を複数の短距離ステップに分割する反復参照ベース推定手法を提案する。
プラグアンドプレイ戦略を最先端の学習ベースモデルに組み込むと、時間インデックス化と同じフォーマットの均一距離インデックスマップを用いて、任意の時間補間において、はるかにシャープな出力と優れた知覚品質を示す。
さらに、距離インデクシングをピクセル単位で指定することで、各オブジェクトの時間的操作を独立に可能とし、リタイピングのようなビデオ編集タスクのための新しいツールを提供する。 Existing video frame interpolation (VFI) methods blindly predict where each object is at a specific timestep t ("time indexing"), which struggles to predict precise object movements. Given two images of a baseball, there are infinitely many possible trajectories: accelerating or decelerating, straight or curved. This often results in blurry frames as the method averages out these possibilities. Instead of forcing the network to learn this complicated time-to-location mapping implicitly together with predicting the frames, we provide the network with an explicit hint on how far the object has traveled between start and end frames, a novel approach termed "distance indexing". This method offers a clearer learning goal for models, reducing the uncertainty tied to object speeds. We further observed that, even with this extra guidance, objects can still be blurry especially when they are equally far from both input frames (i.e., halfway in-between), due to the directional ambiguity in long-range motion. To solve this, we propose an iterative reference-based estimation strategy that breaks down a long-range prediction into several short-range steps. When integrating our plug-and-play strategies into state-of-the-art learning-based models, they exhibit markedly sharper outputs and superior perceptual quality in arbitrary time interpolations, using a uniform distance indexing map in the same format as time indexing. Additionally, distance indexing can be specified pixel-wise, which enables temporal manipulation of each object independently, offering a novel tool for video editing tasks like re-timing. | 翻訳日:2023-11-15 14:51:45 公開日:2023-11-14 |
# 特徴量に基づく反復的欠落値計算 Iterative missing value imputation based on feature importance ( http://arxiv.org/abs/2311.08005v1 ) ライセンス: Link先を確認 | Cong Guo, Chun Liu, Wei Yang | (参考訳) 多くのデータセットは、関連するタスクの処理の困難さを増加させるだけでなく、分類の精度を低下させる様々な理由により、値の欠如に悩まされている。
この問題に対処するため、主流のアプローチは、データセットの完了に欠落した値計算を使用することである。
既存の計算手法では、元の特徴空間で観測された値に基づいて欠落した部分を推定し、全ての特徴をデータ補完において等しく重要なものとして扱う。
そこで我々は特徴量を考慮した計算手法を考案した。
このアルゴリズムは、反復的に行列補完と特徴重要学習を行い、具体的には、特徴重要度を含む充足損失に基づいて行列補完を行う。
実験では,ノイズ特性と欠落値の異なる合成データセット,人工的に生成した欠落値を持つ実世界データセット,欠落値を含む実世界データセットの3種類のデータセットを用いて実験を行った。
これらのデータセット上の結果は、提案手法が既存の5つのインプテーションアルゴリズムを上回っていることを一貫して示しており、我々の知る限りでは、インプテーションモデルにおける特徴量の重要性を考察した最初の作品である。 Many datasets suffer from missing values due to various reasons,which not only increases the processing difficulty of related tasks but also reduces the accuracy of classification. To address this problem, the mainstream approach is to use missing value imputation to complete the dataset. Existing imputation methods estimate the missing parts based on the observed values in the original feature space, and they treat all features as equally important during data completion, while in fact different features have different importance. Therefore, we have designed an imputation method that considers feature importance. This algorithm iteratively performs matrix completion and feature importance learning, and specifically, matrix completion is based on a filling loss that incorporates feature importance. Our experimental analysis involves three types of datasets: synthetic datasets with different noisy features and missing values, real-world datasets with artificially generated missing values, and real-world datasets originally containing missing values. The results on these datasets consistently show that the proposed method outperforms the existing five imputation algorithms.To the best of our knowledge, this is the first work that considers feature importance in the imputation model. | 翻訳日:2023-11-15 14:51:13 公開日:2023-11-14 |
# TempTabQA:半構造化テーブルに対する時間質問回答 TempTabQA: Temporal Question Answering for Semi-Structured Tables ( http://arxiv.org/abs/2311.08002v1 ) ライセンス: Link先を確認 | Vivek Gupta, Pranshu Kandoi, Mahek Bhavesh Vora, Shuo Zhang, Yujie He, Ridho Reinanda, Vivek Srikumar | (参考訳) infoboxテーブルのような半構造化データには、しばしば暗黙的または明示的なエンティティに関する時間的情報が含まれる。
現在のNLPシステムは、半構造化テーブルでそのような情報を推論できるだろうか?
そこで本研究では,半構造化表上での時間的質問応答の課題を紹介する。
我々は,90以上の異なるドメインにまたがる1,208のWikipedia Infoboxテーブルから11,454の質問応答ペアからなるTempTabQAというデータセットを提案する。
このデータセットを用いて,時間的推論のための最先端モデルをいくつか評価する。
13.5 F1 点以上の人間のパフォーマンスに遅れを生じさせる最上位の LLM であっても観察できる。
これらの結果を踏まえ、我々のデータセットは、NLPモデルの時間的推論能力を改善するための挑戦的なベンチマークとして機能する可能性がある。 Semi-structured data, such as Infobox tables, often include temporal information about entities, either implicitly or explicitly. Can current NLP systems reason about such information in semi-structured tables? To tackle this question, we introduce the task of temporal question answering on semi-structured tables. We present a dataset, TempTabQA, which comprises 11,454 question-answer pairs extracted from 1,208 Wikipedia Infobox tables spanning more than 90 distinct domains. Using this dataset, we evaluate several state-of-the-art models for temporal reasoning. We observe that even the top-performing LLMs lag behind human performance by more than 13.5 F1 points. Given these results, our dataset has the potential to serve as a challenging benchmark to improve the temporal reasoning capabilities of NLP models. | 翻訳日:2023-11-15 14:50:52 公開日:2023-11-14 |
# 英語と中国語におけるCOVID-19情報デミックの比較分析:ソーシャルメディアテキストデータから A Comparative Analysis of the COVID-19 Infodemic in English and Chinese: Insights from Social Media Textual Data ( http://arxiv.org/abs/2311.08001v1 ) ライセンス: Link先を確認 | Jia Luo, Daiyun Peng, Lei Shi, Didier El Baz (LAAS-SARA), Xinran Liu | (参考訳) 新型コロナウイルス(covid-19)のインフォデミック(インフォデミック)は、誤情報の急速な拡散と、パンデミックに関連する未確認の主張が特徴だ。
本稿では,ソーシャルメディアプラットフォームから抽出したテキストデータを用いて,英語と中国語におけるcovid-19インフォデミックの比較分析を行う。
バランスの取れた表現を確保するために、以前収集したソーシャルメディアのテキストデータを強化して、2つのインフォデミックデータセットを作成した。
単語頻度分析により、最も頻度の高い35のインフォデミック単語が同定され、インフォデミックを取り巻く議論に光を当てる。
さらに、トピッククラスタリング分析は、テーマ構造を明らかにし、各言語コンテキストにおける主要なトピックをより深く理解する。
さらに感情分析は、英語と中国語のソーシャルメディアプラットフォームにおけるcovid-19情報に関連する感情的トーンの理解を可能にする。
この研究は、新型コロナウイルスのインフォデミック現象の理解を深め、さまざまな言語にわたる公衆衛生危機において、誤情報に対処する戦略の開発を導くのに役立つ。 The COVID-19 infodemic, characterized by the rapid spread of misinformation and unverified claims related to the pandemic, presents a significant challenge. This paper presents a comparative analysis of the COVID-19 infodemic in the English and Chinese languages, utilizing textual data extracted from social media platforms. To ensure a balanced representation, two infodemic datasets were created by augmenting previously collected social media textual data. Through word frequency analysis, the thirty-five most frequently occurring infodemic words are identified, shedding light on prevalent discussions surrounding the infodemic. Moreover, topic clustering analysis uncovers thematic structures and provides a deeper understanding of primary topics within each language context. Additionally, sentiment analysis enables comprehension of the emotional tone associated with COVID-19 information on social media platforms in English and Chinese. This research contributes to a better understanding of the COVID-19 infodemic phenomenon and can guide the development of strategies to combat misinformation during public health crises across different languages. | 翻訳日:2023-11-15 14:50:38 公開日:2023-11-14 |
# LiPar: 実用的な車載ネットワーク侵入検知のための軽量並列学習モデル LiPar: A Lightweight Parallel Learning Model for Practical In-Vehicle Network Intrusion Detection ( http://arxiv.org/abs/2311.08000v1 ) ライセンス: Link先を確認 | Aiheng Zhang, Kai Wang, Bailing Wang, Yulei Wu | (参考訳) インテリジェントな輸送システムの開発により、車両は複雑なネットワーク環境にさらされる。
車両内ネットワークのメインネットワークとして、コントローラエリアネットワーク(CAN)は多くの潜在的なセキュリティ上の危険性があり、安全を確保するために侵入検知システムの要求が高くなる。
侵入検知技術のうち、深層学習に基づく手法は、事前知識なしで最もうまく機能する。
しかしながら、いずれも大きなモデルサイズを持ち、クラウドコンピューティングに依存しているため、車載ネットワークにインストールするには適していない。
そこで本稿では,タスク負荷を複数の電子制御ユニット(ecu)に割り当てる軽量並列ニューラルネットワーク構造であるliparを提案する。
liparモデルは多次元分岐畳み込みネットワーク,空間的および時間的特徴融合学習,資源適応アルゴリズムから構成される。
実験により,リパーは車載環境に効果的に対応でき,車載バスのセキュリティを保護できる,優れた検出性能,走行効率,軽量モデルサイズを有することを実証した。 With the development of intelligent transportation systems, vehicles are exposed to a complex network environment. As the main network of in-vehicle networks, the controller area network (CAN) has many potential security hazards, resulting in higher requirements for intrusion detection systems to ensure safety. Among intrusion detection technologies, methods based on deep learning work best without prior expert knowledge. However, they all have a large model size and rely on cloud computing, and are therefore not suitable to be installed on the in-vehicle network. Therefore, we propose a lightweight parallel neural network structure, LiPar, to allocate task loads to multiple electronic control units (ECU). The LiPar model consists of multi-dimensional branch convolution networks, spatial and temporal feature fusion learning, and a resource adaptation algorithm. Through experiments, we prove that LiPar has great detection performance, running efficiency, and lightweight model size, which can be well adapted to the in-vehicle environment practically and protect the in-vehicle CAN bus security. | 翻訳日:2023-11-15 14:50:20 公開日:2023-11-14 |
# テキスト埋め込みモデルは構文をどの程度理解しているか? How Well Do Text Embedding Models Understand Syntax? ( http://arxiv.org/abs/2311.07996v1 ) ライセンス: Link先を確認 | Yan Zhang, Zhaopeng Feng, Zhiyang Teng, Zuozhu Liu, Haizhou Li | (参考訳) テキスト埋め込みモデルは、テキストデータのセマンティクス特性を適切に捉えることにより、自然言語処理の進歩に大きく貢献している。
しかし、これらのモデルが幅広い構文的文脈にわたって一般化する能力は未検討のままである。
本稿では,テキスト埋め込みモデルの構文理解能力を構造的ヒューリスティックスと概念間の関係理解という2つの重要な側面から精査するために,まず \textbf{sr} という評価セットを開発した。
この結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
さらに,このような制約に繋がる要因について厳密な分析を行い,なぜ過去の評価がそのような非効率性の検出に失敗したのかを検討する。
最後に,多様な構文シナリオにおいて,テキスト埋め込みモデルの一般化能力を高める戦略を提案する。
本研究は,構文一般化に伴うハードルを強調し,様々な構文文脈におけるモデル性能向上のための実践的ガイダンスを提供する。 Text embedding models have significantly contributed to advancements in natural language processing by adeptly capturing semantic properties of textual data. However, the ability of these models to generalize across a wide range of syntactic contexts remains under-explored. In this paper, we first develop an evaluation set, named \textbf{SR}, to scrutinize the capability for syntax understanding of text embedding models from two crucial syntactic aspects: Structural heuristics, and Relational understanding among concepts, as revealed by the performance gaps in previous studies. Our findings reveal that existing text embedding models have not sufficiently addressed these syntactic understanding challenges, and such ineffectiveness becomes even more apparent when evaluated against existing benchmark datasets. Furthermore, we conduct rigorous analysis to unearth factors that lead to such limitations and examine why previous evaluations fail to detect such ineffectiveness. Lastly, we propose strategies to augment the generalization ability of text embedding models in diverse syntactic scenarios. This study serves to highlight the hurdles associated with syntactic generalization and provides pragmatic guidance for boosting model performance across varied syntactic contexts. | 翻訳日:2023-11-15 14:50:02 公開日:2023-11-14 |
# Spot: OSMにおける地理空間検索のための自然言語インタフェース Spot: A Natural Language Interface for Geospatial Searches in OSM ( http://arxiv.org/abs/2311.08093v1 ) ライセンス: Link先を確認 | Lynn Khellaf, Ipek Baris Schlicht, Julia Bayer, Ruben Bouwmeester, Tilman Mira{\ss} and Tilman Wagner | (参考訳) 調査ジャーナリストやファクトチェッカーは、openstreetmap (osm) が様々な場所の広範囲にわたる報道と複雑な詳細情報によって、彼らの仕事にとって貴重なリソースであると考えており、ニュースシーンの調査に重要な役割を果たしている。
OSMの複雑さは、その価値にもかかわらず、特に技術的背景を持たない人々にとって、アクセシビリティとユーザビリティの課題を生じさせる。
そこで我々は,osmデータを検索するためのユーザフレンドリーな自然言語インタフェースであるspotを紹介する。
Spotは自然言語からOSMタグへのセマンティックマッピングを利用し、人工的に生成された文クエリとT5トランスフォーマーを活用する。
このアプローチにより、スポットはユーザ入力文から関連情報を抽出し、地図上の記述に一致する候補位置を表示することができる。
コラボレーションと今後の進歩を促進するため、すべてのコードと生成されたデータはオープンソースリポジトリとして利用できる。 Investigative journalists and fact-checkers have found OpenStreetMap (OSM) to be an invaluable resource for their work due to its extensive coverage and intricate details of various locations, which play a crucial role in investigating news scenes. Despite its value, OSM's complexity presents considerable accessibility and usability challenges, especially for those without a technical background. To address this, we introduce 'Spot', a user-friendly natural language interface for querying OSM data. Spot utilizes a semantic mapping from natural language to OSM tags, leveraging artificially generated sentence queries and a T5 transformer. This approach enables Spot to extract relevant information from user-input sentences and display candidate locations matching the descriptions on a map. To foster collaboration and future advancement, all code and generated data is available as an open-source repository. | 翻訳日:2023-11-15 14:42:27 公開日:2023-11-14 |
# gaze-map-guided foundation modelを用いた糖尿病網膜症早期発見のためのリアルタイム微小動脈瘤病変分割法 GlanceSeg: Real-time microaneurysm lesion segmentation with gaze-map-guided foundation model for early detection of diabetic retinopathy ( http://arxiv.org/abs/2311.08075v1 ) ライセンス: Link先を確認 | Hongyang Jiang, Mengdi Gao, Zirong Liu, Chen Tang, Xiaoqing Zhang, Shuai Jiang, Wu Yuan, and Jiang Liu | (参考訳) 早期糖尿病網膜症 (DR) は, 軽微な微小血管腫病変による臨床診断に困難を呈し, この分野の研究は限られている。
さらに、医学的シナリオにおけるsegment anything model(sam)のような、新興の基盤モデルの可能性を探求することは稀である。
本研究では,SAMをベースとしたラベルフリー早期DR診断フレームワークGlanceSegを提案する。
glancesegは眼科医が眼底画像を確認するため、微小血管腫病変のリアルタイムな分画を可能にする。
眼科医の視線マップを統合し,眼底画像中の微小病変を大まかに位置決めする。
その後、微小血管腫病変を効率的に分別する基盤モデルを支援するためのプロンプトポイントを提供する位置領域に基づいて、サリエンシーマップを生成する。
最後に、ドメイン知識フィルタは微小病変のセグメンテーションを洗練させる。
新たに構築された2つのパブリックデータセット(IDRiDとRetinal-Lesions)について実験を行い、可視化された図形と定量測定によってGlanceSegの有効性と優位性を検証した。
さらに, 臨床医のアノテーション効率が向上し, アノテーションを用いた微調整によりセグメンテーション性能が向上することを示した。
本研究は、自己モデル最適化のためのGlanceSegベースのアノテーションの可能性を強調し、連続学習による持続的なパフォーマンス向上をもたらす。 Early-stage diabetic retinopathy (DR) presents challenges in clinical diagnosis due to inconspicuous and minute microangioma lesions, resulting in limited research in this area. Additionally, the potential of emerging foundation models, such as the segment anything model (SAM), in medical scenarios remains rarely explored. In this work, we propose a human-in-the-loop, label-free early DR diagnosis framework called GlanceSeg, based on SAM. GlanceSeg enables real-time segmentation of microangioma lesions as ophthalmologists review fundus images. Our human-in-the-loop framework integrates the ophthalmologist's gaze map, allowing for rough localization of minute lesions in fundus images. Subsequently, a saliency map is generated based on the located region of interest, which provides prompt points to assist the foundation model in efficiently segmenting microangioma lesions. Finally, a domain knowledge filter refines the segmentation of minute lesions. We conducted experiments on two newly-built public datasets, i.e., IDRiD and Retinal-Lesions, and validated the feasibility and superiority of GlanceSeg through visualized illustrations and quantitative measures. Additionally, we demonstrated that GlanceSeg improves annotation efficiency for clinicians and enhances segmentation performance through fine-tuning using annotations. This study highlights the potential of GlanceSeg-based annotations for self-model optimization, leading to enduring performance advancements through continual learning. | 翻訳日:2023-11-15 14:42:10 公開日:2023-11-14 |
# pasda:未決定のケースを最善の労力分類で分類する分割に基づく意味的差異抽出アプローチ PASDA: A Partition-based Semantic Differencing Approach with Best Effort Classification of Undecided Cases ( http://arxiv.org/abs/2311.08071v1 ) ライセンス: Link先を確認 | Johann Glock, Josef Pichler, Martin Pinzger | (参考訳) 等価チェックは、2つのプログラムが与えられた等価入力に対して等価な出力を生成するかどうかを検証するために使用される。
この分野での研究は主に同値チェックの精度と実行時の性能を改善することに焦点を当てた。
しかし、プログラムペアが等価あるいは等価でないことが証明できない場合、既存のアプローチでは、プログラムの非等価性に関する情報を提供する「未知」の分類結果のみを報告している。
本稿では、分割に基づく意味差分法であるPASDAについて、未決定事例の最良の分類法として紹介する。
pasda は微分記号実行の変種を用いて解析されたプログラムペアの非等価性を形式的に証明することを目指しているが、その主な新規性は形式的な非等価証明が見つからない場合を扱うことである。
そのような場合、PASDAは分類ヒューリスティックの集合に基づいて、最高の努力等価分類を提供する。
我々はPASDAを141の非等価プログラムペアからなる既存のベンチマークで評価した。
PASDAはタイムアウト時の61-74%を10秒から3600秒に正確に分類した。
このようにして、PASDAは既存の3つのツールが達成した最良の結果よりも37%高い精度で同値チェックを行った。
さらに、PASDAのベストな取り組み分類は、異なるタイムアウトの70-75%と55-85%の非等価なケースに対して正しかった。 Equivalence checking is used to verify whether two programs produce equivalent outputs when given equivalent inputs. Research in this field mainly focused on improving equivalence checking accuracy and runtime performance. However, for program pairs that cannot be proven to be either equivalent or non-equivalent, existing approaches only report a classification result of "unknown", which provides no information regarding the programs' non-/equivalence. In this paper, we introduce PASDA, our partition-based semantic differencing approach with best effort classification of undecided cases. While PASDA aims to formally prove non-/equivalence of analyzed program pairs using a variant of differential symbolic execution, its main novelty lies in its handling of cases for which no formal non-/equivalence proof can be found. For such cases, PASDA provides a best effort equivalence classification based on a set of classification heuristics. We evaluated PASDA with an existing benchmark consisting of 141 non-/equivalent program pairs. PASDA correctly classified 61-74% of these cases at timeouts from 10 seconds to 3600 seconds. Thus, PASDA achieved equivalence checking accuracies that are 3-7% higher than the best results achieved by three existing tools. Furthermore, PASDA's best effort classifications were correct for 70-75% of equivalent and 55-85% of non-equivalent cases across the different timeouts. | 翻訳日:2023-11-15 14:41:43 公開日:2023-11-14 |
# 事前トレーニングされたモデルにもっとうまく組み込むには?
実証的研究 How to get better embeddings with code pre-trained models? An empirical study ( http://arxiv.org/abs/2311.08066v1 ) ライセンス: Link先を確認 | Yu Zhao and Lina Gong and Haoxiang Zhang and Yaoshen Yu and Zhiqiu Huang | (参考訳) 事前訓練された言語モデルは、自然言語処理(NLP)の分野で強力な能力を示している。
近年、NLPフィールドの経験から引き出されたコード事前学習モデル(PTM)は、多くのソフトウェア工学(SE)下流タスクにおいて最先端の結果も達成している。
これらのコードPTMは、事前学習中のプログラミング言語と自然言語の違いを考慮し、事前学習タスクと入力データを調整する。
しかし、SEコミュニティの研究者たちは、これらのコードPTMを使用して、特別なトークンを通じてコードスニペットのセマンティックな埋め込みを生成したり、PTMの事前トレーニングと同じ方法でコードやテキスト情報を入力したりといった、SE下流の分類タスクの埋め込みを生成する際に、NLPフィールドからの習慣を継承している。
本稿では,4つのサブストリーム分類タスク(コード脆弱性検出,コードクローン検出,ジャストインタイム欠陥予測,関数ドクストリングミスマッチ検出)に対して,3つの異なるアーキテクチャ(エンコーダのみ,デコーダのみ,エンコーダデコーダデコーダ)を備えた5つのptm(codebert,codet5,plbart,codegpt,codegen)を経験的に検討した。
Our experimental results indicate that (1) regardless of the architecture of the code PTMs used, embeddings obtained through special tokens do not sufficiently aggregate the semantic information of the entire code snippet; (2) the quality of code embeddings obtained by combing code data and text data in the same way as pre-training the PTMs is poor and cannot guarantee richer semantic information; (3) using the method that aggregates the vector representations of all code tokens, the decoder-only PTMs can obtain code embeddings with semantics as rich as or even better quality than those obtained from the encoder-only and encoder-decoder PTMs. Pre-trained language models have demonstrated powerful capabilities in the field of natural language processing (NLP). Recently, code pre-trained model (PTM), which draw from the experiences of the NLP field, have also achieved state-of-the-art results in many software engineering (SE) downstream tasks. These code PTMs take into account the differences between programming languages and natural languages during pre-training and make adjustments to pre-training tasks and input data. However, researchers in the SE community still inherit habits from the NLP field when using these code PTMs to generate embeddings for SE downstream classification tasks, such as generating semantic embeddings for code snippets through special tokens and inputting code and text information in the same way as pre-training the PTMs. In this paper, we empirically study five different PTMs (i.e. CodeBERT, CodeT5, PLBART, CodeGPT and CodeGen) with three different architectures (i.e. encoder-only, decoder-only and encoder-decoder) on four SE downstream classification tasks (i.e. code vulnerability detection, code clone detection, just-in-time defect prediction and function docstring mismatch detection) with respect to the two aforementioned aspects. Our experimental results indicate that (1) regardless of the architecture of the code PTMs used, embeddings obtained through special tokens do not sufficiently aggregate the semantic information of the entire code snippet; (2) the quality of code embeddings obtained by combing code data and text data in the same way as pre-training the PTMs is poor and cannot guarantee richer semantic information; (3) using the method that aggregates the vector representations of all code tokens, the decoder-only PTMs can obtain code embeddings with semantics as rich as or even better quality than those obtained from the encoder-only and encoder-decoder PTMs. | 翻訳日:2023-11-15 14:41:19 公開日:2023-11-14 |
# 後方刺激ブリルアン散乱によるオプトメカニカルシステムにおけるメカニカルスクイージングの増強 Enhanced mechanical squeezing in an optomechanical system via backward stimulated Brillouin scattering ( http://arxiv.org/abs/2311.08063v1 ) ライセンス: Link先を確認 | Shan-Shan Chen, Na-Na Zhang, Yong-Rui Guo, Huan Yang, Yong Ma | (参考訳) 我々は,後方刺激ブリルアン散乱(BSBS)プロセスを介してコヒーレントフォノン-フォトン相互作用を導入することで,多モードオプティメカルシステムにおけるメカニカルスクイージングの強化を理論的に検討した。
2つの光モードがブリルアン音響モードと大きな減衰率で結合するコヒーレント光子-フォノン相互作用は、ダフィングメカニカル発振器の冷却のための余分なチャネルを提供する。
ダッフィングのメカニカルモードの熱雑音に対するスキューズ度とロバスト性を大きく向上させることができる。
ダッフィング非線形性が弱い場合には、BSBSの存在下でのメカニカルモードのスクイーズ度を、BSBSの欠如と比較して1桁以上改善することができる。
我々の計画は他の量子系にも拡張され、新しい量子効果を研究することができる。 We investigate theoretically the enhancement of mechanical squeezing in a multimode optomechanical system by introducing a coherent phonon-photon interaction via the backward stimulated Brillouin scattering (BSBS) process. The coherent photon-phonon interaction where two optical modes couple to a Brillouin acoustic mode with a large decay rate provides an extra channel for the cooling of a Duffing mechanical oscillator. The squeezing degree and the robustness to the thermal noises of the Duffing mechanical mode can be enhanced greatly. When the Duffing nonlinearity is weak, the squeezing degree of the mechanical mode in the presence of BSBS can be improved more than one order of magnitude compared with the absence of BSBS. Our scheme may be extended to other quantum systems to study novel quantum effects. | 翻訳日:2023-11-15 14:40:43 公開日:2023-11-14 |
# FS-Net:マイクロ網膜血管構造の抽出改善のためのフルスケールネットワークと適応閾値 FS-Net: Full Scale Network and Adaptive Threshold for Improving Extraction of Micro-Retinal Vessel Structures ( http://arxiv.org/abs/2311.08059v1 ) ライセンス: Link先を確認 | Melaku N. Getahun, Oleg Y. Rogov, Dmitry V. Dylov, Andrey Somov, Ahmed Bouridane, Rifat Hamoudi | (参考訳) 網膜血管セグメンテーションは、生体画像処理において広く研究されている課題であり、網膜障害の治療および検出における眼科医の負担を軽減することを目的としている。
しかし、網膜血管の分割には独自の課題があり、従来の技術では分枝や微小血管構造を分割する場合に十分な結果が得られなかった。
近年のニューラルネットワークのアプローチは、局所的および全体的特性を共に保持できないことと、小さなエンド容器を捕獲できないことが、望ましい結果を達成するのに困難である点が特徴である。
この網膜血管セグメンテーション問題を解決するために,エンコーダ・デコーダニューラルネットワークアーキテクチャ,シグモイド平滑化,適応しきい値法に基づくフルスケールの微小血管抽出機構を提案する。
ネットワークは、残余、エンコーダブースター、ボトルネック強化、圧縮、励起ビルディングブロックで構成されている。
これらすべてのブロックは、セグメンテーションマップの機能抽出と予測を改善するのに役立ちます。
提案手法は, DRIVE, CHASE-DB1, STAREデータセットを用いて評価し, 従来の研究と比較した場合の競合結果を得た。
AUCとDRIVEデータセットの精度はそれぞれ0.9884と0.9702である。
CHASE-DB1データセットでは、スコアはそれぞれ0.9903と0.9755である。
STAREデータセットでは、スコアはそれぞれ0.9916と0.9750である。
その結果、眼科医の注意を引こうとする実生活診断センターにおいて、このソリューションが実現される確率が高くなる。 Retinal vascular segmentation, is a widely researched subject in biomedical image processing, aims to relieve ophthalmologists' workload when treating and detecting retinal disorders. However, segmenting retinal vessels has its own set of challenges, with prior techniques failing to generate adequate results when segmenting branches and microvascular structures. The neural network approaches used recently are characterized by the inability to keep local and global properties together and the failure to capture tiny end vessels make it challenging to attain the desired result. To reduce this retinal vessel segmentation problem, we propose a full-scale micro-vessel extraction mechanism based on an encoder-decoder neural network architecture, sigmoid smoothing, and an adaptive threshold method. The network consists of of residual, encoder booster, bottleneck enhancement, squeeze, and excitation building blocks. All of these blocks together help to improve the feature extraction and prediction of the segmentation map. The proposed solution has been evaluated using the DRIVE, CHASE-DB1, and STARE datasets, and competitive results are obtained when compared with previous studies. The AUC and accuracy on the DRIVE dataset are 0.9884 and 0.9702, respectively. On the CHASE-DB1 dataset, the scores are 0.9903 and 0.9755, respectively. On the STARE dataset, the scores are 0.9916 and 0.9750, respectively. The performance achieved is one step ahead of what has been done in previous studies, and this results in a higher chance of having this solution in real-life diagnostic centers that seek ophthalmologists attention. | 翻訳日:2023-11-15 14:40:26 公開日:2023-11-14 |
# 新型コロナウイルスのツイートにおけるスタンスと前提検出のためのデータとモデル:SMM4H(Social Media Mining for Health)2022共有タスクからの洞察 Data and models for stance and premise detection in COVID-19 tweets: insights from the Social Media Mining for Health (SMM4H) 2022 shared task ( http://arxiv.org/abs/2311.08057v1 ) ライセンス: Link先を確認 | Vera Davydova, Huabin Yang, Elena Tutubalina | (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、ソーシャルメディアプラットフォーム上で多くの議論を巻き起こし、マスク着用やワクチン接種といったトピックに関する見解を共有している。
スタンス検出と前提分類のためのニューラルモデルの評価を容易にするために,smm4h(social media mining for health)2022の共有タスク2を編成した。
このコンペティションでは、学校閉鎖、自宅待機命令、マスク着用の3つのトピックについて、手動でアノテートされた投稿を利用した。
本稿では,過去の研究を拡張し,Twitterからのワクチン接種データを新たに収集し,異なるトピックにおけるモデルの性能を評価する。
評価の精度と有効性を高めるため,我々は,SMM4H 2022リーダーボードから特徴レベル(初期)融合モデルやデュアルビューアーキテクチャを含む,クレーム付きツイートテキストを集約する様々な戦略を採用した。
我々の主な目的は、価値あるデータセットを作成し、健康領域における議論採掘における将来の研究を支援するための広範な実験的な評価を行うことであった。 The COVID-19 pandemic has sparked numerous discussions on social media platforms, with users sharing their views on topics such as mask-wearing and vaccination. To facilitate the evaluation of neural models for stance detection and premise classification, we organized the Social Media Mining for Health (SMM4H) 2022 Shared Task 2. This competition utilized manually annotated posts on three COVID-19-related topics: school closures, stay-at-home orders, and wearing masks. In this paper, we extend the previous work and present newly collected data on vaccination from Twitter to assess the performance of models on a different topic. To enhance the accuracy and effectiveness of our evaluation, we employed various strategies to aggregate tweet texts with claims, including models with feature-level (early) fusion and dual-view architectures from SMM4H 2022 leaderboard. Our primary objective was to create a valuable dataset and perform an extensive experimental evaluation to support future research in argument mining in the health domain. | 翻訳日:2023-11-15 14:39:58 公開日:2023-11-14 |
# 焼入れキタエフ鎖の非平衡状態における創発的トポロジカルキャラクタリゼーション Emerging topological characterization in non-equilibrium states of quenched Kitaev chains ( http://arxiv.org/abs/2311.08056v1 ) ライセンス: Link先を確認 | Y. B. Shi, X. Z. Zhang, and Z. Song | (参考訳) 量子系の位相特性は典型的には基底状態を決定するが、対応する量子相転移(QPT)はクエンチングダイナミクスによって同定できる。
拡張されたキタエフ鎖の正確な結果に基づいて、磁場下での自由擬似スピンのアンサンブルの先行によって系力学を解釈できることを実証する。
駆動ハミルトニアンの位相は、非平衡状態の平均巻数によって決定される。
さらに、動的量子相転移(DQPT)の特異性は、2つの垂直な擬スピンベクトルから生じることを証明した。
さらに、トポロジカル領域と非トポロジカル領域の両方において、動的ペアリング順序パラメータの異なる挙動について検討した。
これらの結果は、トポロジカル超伝導体の非平衡挙動に関する貴重な洞察を与え、駆動量子系におけるトポロジカルな性質のレジリエンスの理解に寄与する。 Topological characteristics in quantum systems typically determine the ground state, while the corresponding quantum phase transition (QPT) can be identified through quenching dynamics. Based on the exact results of extended Kitaev chains, we demonstrate that the system dynamics can be comprehended through the precession of an ensemble of free-pseudo spins under a magnetic field. The topology of the driven Hamiltonian is determined by the average winding number of the non-equilibrium state. Furthermore, we establish that the singularity of the dynamical quantum phase transition (DQPT) arises from two perpendicular pseudo-spin vectors associated with the preand post-quenched Hamiltonians. Moreover, we investigate the distinct behaviors of the dynamic pairing order parameter in both topological and non-topological regions. These findings offer valuable insights into the non-equilibrium behavior of topological superconductors, contributing to the understanding of the resilience of topological properties in driven quantum systems. | 翻訳日:2023-11-15 14:39:36 公開日:2023-11-14 |
# コミュニケーションに制約のあるベイズアクティブ知識蒸留 Communication-Constrained Bayesian Active Knowledge Distillation ( http://arxiv.org/abs/2311.08053v1 ) ライセンス: Link先を確認 | Victor Croisfelt and Shashi Raj Pandey and Osvaldo Simeone and Petar Popovski | (参考訳) 遠隔教師が学習者のタスクに適した訓練済みモデルを持つのに対して,学習者にはほとんどラベル付き例のない学習セットとラベル付けされていない入力を多く備えたプールセットを持つアクティブな学習環境を考える。
学習者はラベル付けのための制約付き通信チャネルを介して教師にラベルなし入力のバッチを積極的に送信する。
本稿は、以下の質問に対処する。
(i)アクティブバッチ選択:最も有用な情報を取得し、必要な通信ラウンドの数を減らすために、どの入力を教師に送るべきか。
(ii)バッチエンコーディング:各ラウンドに必要な通信リソースを減らすために、教師に送信する入力のバッチをどのようにエンコードするか?
本稿では,線形混合機構によりベイズアクティブラーニングと圧縮を統合した新しいプロトコルであるcc-bakd(com communication-constrained bayesian active knowledge distillation)を提案する。
ベイズアクティブラーニングはその認識の不確実性に基づいて入力のバッチを選択し、必要なコミュニケーションラウンドの数を増やすことで知られる「確認バイアス」に対処する。
さらに,提案した混合圧縮戦略を,病的不確実性に基づくアクティブバッチ選択プロセスに統合し,通信ラウンド当たりの通信オーバーヘッドを低減する。 Consider an active learning setting in which a learner has a training set with few labeled examples and a pool set with many unlabeled inputs, while a remote teacher has a pre-trained model that is known to perform well for the learner's task. The learner actively transmits batches of unlabeled inputs to the teacher through a constrained communication channel for labeling. This paper addresses the following key questions: (i) Active batch selection: Which batch of inputs should be sent to the teacher to acquire the most useful information and thus reduce the number of required communication rounds? (ii) Batch encoding: How do we encode the batch of inputs for transmission to the teacher to reduce the communication resources required at each round? We introduce Communication-Constrained Bayesian Active Knowledge Distillation (CC-BAKD), a novel protocol that integrates Bayesian active learning with compression via a linear mix-up mechanism. Bayesian active learning selects the batch of inputs based on their epistemic uncertainty, addressing the "confirmation bias" that is known to increase the number of required communication rounds. Furthermore, the proposed mix-up compression strategy is integrated with the epistemic uncertainty-based active batch selection process to reduce the communication overhead per communication round. | 翻訳日:2023-11-15 14:39:22 公開日:2023-11-14 |
# 信頼性の高いaiに向けて:自律走行車のシステムレベルテストの品質を確保するための適切なメトリクス Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of System-level Testing of Autonomous Vehicles ( http://arxiv.org/abs/2311.08049v1 ) ライセンス: Link先を確認 | Neelofar Neelofar, Aldeida Aleti | (参考訳) AIを利用したシステムは、自律走行車(AV)を含む様々な領域で広く普及している。
しかしながら、信頼性と安全性の確保は、その複雑な性質から困難である。
従来のソフトウェアテストの有効性を評価するために設計された従来のテスト精度メトリクスは、これらのシステムには不十分または実用的でないことが多い。
これらのシステム用に特別に設計されたホワイトボックスメトリクスは、ニューロンのカバレッジ情報を活用する。
これらのカバレッジメトリクスは、基盤となるAIモデルとトレーニングデータへのアクセスを必要とする。
さらに、既存の精度指標は、生成されたテストスイートの欠陥を検出する能力と弱い相関を示し、この研究で私たちが目指すギャップを生み出します。
本稿では,テストスイートの有効性を評価するために使用できる"テストスイートインスタンス空間妥当性"(tisa)メトリクス(test suite instance space adequacy metrics)と呼ばれるブラックボックステスト適性メトリクスのセットを紹介する。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する方法を提供する。
さらに,テストスイートの多様性とカバレッジを2次元空間で可視化し,改善が必要な領域の識別を容易にするためのフレームワークも導入する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
短い計算時間と強い相関関係は、avテストの妥当性を推定する上で、その効果と効率を示す。 AI-powered systems have gained widespread popularity in various domains, including Autonomous Vehicles (AVs). However, ensuring their reliability and safety is challenging due to their complex nature. Conventional test adequacy metrics, designed to evaluate the effectiveness of traditional software testing, are often insufficient or impractical for these systems. White-box metrics, which are specifically designed for these systems, leverage neuron coverage information. These coverage metrics necessitate access to the underlying AI model and training data, which may not always be available. Furthermore, the existing adequacy metrics exhibit weak correlations with the ability to detect faults in the generated test suite, creating a gap that we aim to bridge in this study. In this paper, we introduce a set of black-box test adequacy metrics called "Test suite Instance Space Adequacy" (TISA) metrics, which can be used to gauge the effectiveness of a test suite. The TISA metrics offer a way to assess both the diversity and coverage of the test suite and the range of bugs detected during testing. Additionally, we introduce a framework that permits testers to visualise the diversity and coverage of the test suite in a two-dimensional space, facilitating the identification of areas that require improvement. We evaluate the efficacy of the TISA metrics by examining their correlation with the number of bugs detected in system-level simulation testing of AVs. A strong correlation, coupled with the short computation time, indicates their effectiveness and efficiency in estimating the adequacy of testing AVs. | 翻訳日:2023-11-15 14:39:00 公開日:2023-11-14 |
# 量子コンピューティングによる発展途上国のビジネスコンテキストデータ分析 Analyze business context data in developing economies using quantum computing ( http://arxiv.org/abs/2311.08048v1 ) ライセンス: Link先を確認 | Ammar Jamshed | (参考訳) Quantum computing is an advancing area of computing sciences and provides a new base of development for many futuristic technologies discussions on how it can help developing economies will further help developed economies in technology transfer and economic development initiatives related to Research and development within developing countries thus providing a new means of foreign direct investment(FDI) and business innovation for the majority of the globe that lacks infrastructure economic resources required for growth in the technology landscape and cyberinfrastructure for growth in computing applications.
量子コンピューティング支援のどの領域が経済発展に役立ち、地域システムやビジネスの成長機会に役立てることができるかについて議論する。 Quantum computing is an advancing area of computing sciences and provides a new base of development for many futuristic technologies discussions on how it can help developing economies will further help developed economies in technology transfer and economic development initiatives related to Research and development within developing countries thus providing a new means of foreign direct investment(FDI) and business innovation for the majority of the globe that lacks infrastructure economic resources required for growth in the technology landscape and cyberinfrastructure for growth in computing applications. Discussion of which areas of support quantum computing can help will further assist developing economies in implementing it for growth opportunities for local systems and businesses. | 翻訳日:2023-11-15 14:38:37 公開日:2023-11-14 |
# Chat-UniVi: 画像とビデオの理解を備えた大規模言語モデルを実現する統一視覚表現 Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding ( http://arxiv.org/abs/2311.08046v1 ) ライセンス: Link先を確認 | Peng Jin, Ryuichi Takanobu, Caiwan Zhang, Xiaochun Cao, Li Yuan | (参考訳) 大規模言語モデルは、幅広いオープンエンドタスクにおいて印象的な普遍性を示し、マルチモーダルな会話を包含するようにそのユーティリティを拡張した。
しかし,既存の手法では画像理解と映像理解の両方を効果的に扱うことが困難であり,特に視覚トークンが限られている。
そこで本研究では,映像と映像の対話を統一的な視覚表現で理解・関与できる統一視覚言語モデルであるchat-univiを提案する。
具体的には、画像やビデオを一様に表現するために、動的視覚トークンのセットを用いる。
この表現フレームワークは、限られた数の視覚トークンを効率的に利用し、画像に必要な空間的詳細とビデオに必要な包括的な時間的関係を同時にキャプチャする。
さらに,マルチスケール表現を利用することで,高レベルの意味概念と低レベルの視覚詳細の両方を認識できる。
特筆すべきは、chat-univiは画像とビデオの両方を含む混合データセットでトレーニングされており、変更を必要とせず、両方のメディアに関わるタスクに直接適用することができる。
広範な実験結果から、chat-univiは統一モデルとして、画像やビデオ専用に設計された既存の方法よりも優れています。 Large language models have demonstrated impressive universal capabilities across a wide range of open-ended tasks and have extended their utility to encompass multimodal conversations. However, existing methods encounter challenges in effectively handling both image and video understanding, particularly with limited visual tokens. In this work, we introduce Chat-UniVi, a unified vision-language model capable of comprehending and engaging in conversations involving images and videos through a unified visual representation. Specifically, we employ a set of dynamic visual tokens to uniformly represent images and videos. This representation framework empowers the model to efficiently utilize a limited number of visual tokens to simultaneously capture the spatial details necessary for images and the comprehensive temporal relationship required for videos. Moreover, we leverage a multi-scale representation, enabling the model to perceive both high-level semantic concepts and low-level visual details. Notably, Chat-UniVi is trained on a mixed dataset containing both images and videos, allowing direct application to tasks involving both mediums without requiring any modifications. Extensive experimental results demonstrate that Chat-UniVi, as a unified model, consistently outperforms even existing methods exclusively designed for either images or videos. | 翻訳日:2023-11-15 14:38:27 公開日:2023-11-14 |
# 逆選好最適化 Adversarial Preference Optimization ( http://arxiv.org/abs/2311.08045v1 ) ライセンス: Link先を確認 | Pengyu Cheng, Yifan Yang, Jian Li, Yong Dai, Nan Du | (参考訳) 人間の好みのアライメントは、大きな言語モデル(LLM)の相互作用品質を改善するための重要なトレーニングステップである。
既存のアライメント手法は、LLM最適化方向を導くために手動でアノテートされた好みデータに依存する。
しかし, LLMを継続的に更新すると, モデル生成サンプルと人間優先応答との分布ギャップが増大し, モデル微調整効率が低下する。
この問題を軽減するために、以前の手法では、大量のアノテーションリソースを消費するシフト分布に適応するために、生成されたサンプルに追加の優先アノテーションを必要とする。
より効率的な人間の選好最適化を目標とし,LLMエージェントと選好モデルが代わりにmin-maxゲームを介して更新されるような,逆選好最適化(APO)フレームワークを提案する。
追加のアノテーションがなければ、APO法は逆学習プロセスを通じて生成分布ギャップに自己適応することができる。
実験では,LLMの有効性と無害性を改善する上でのAPOの有効性を,拒絶サンプリングベースラインと比較して実証的に検証した。 Human preference alignment is a crucial training step to improve the interaction quality of large language models (LLMs). Existing aligning methods depend on manually annotated preference data to guide the LLM optimization directions. However, in practice, continuously updating LLMs raises a distribution gap between model-generated samples and human-preferred responses, which hinders model fine-tuning efficiency. To mitigate this issue, previous methods require additional preference annotation on generated samples to adapt the shifted distribution, which consumes a large amount of annotation resources. Targeting more efficient human preference optimization, we propose an adversarial preference optimization (APO) framework, where the LLM agent and the preference model update alternatively via a min-max game. Without additional annotation, our APO method can make a self-adaption to the generation distribution gap through the adversarial learning process. In experiments, we empirically verify the effectiveness of APO in improving LLM's helpfulness and harmlessness compared with rejection sampling baselines. | 翻訳日:2023-11-15 14:38:06 公開日:2023-11-14 |
# 変圧器を用いた多物体追跡のためのコントラスト学習 Contrastive Learning for Multi-Object Tracking with Transformers ( http://arxiv.org/abs/2311.08043v1 ) ライセンス: Link先を確認 | Pierre-Fran\c{c}ois De Plaen, Nicola Marinello, Marc Proesmans, Tinne Tuytelaars, Luc Van Gool | (参考訳) DETR(Detection TRansformer)は、画像特徴をオブジェクトレベルの表現に変換する変換タスクとしてモデル化することで、オブジェクト検出の新しい可能性を開いた。
従来の作業は通常、MOT(Multi-Object Tracking)を実行するためにDETRに高価なモジュールを追加する。
代わりに,インスタンスレベルのコントラスト損失,改良されたサンプリング戦略,軽量な割り当て手法を用いて,detrをmotモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドが少ない。
そのパフォーマンスは、BDD100Kデータセットに+2.6 mMOTAを上回り、MOT17データセット上の既存のトランスフォーマーベースのメソッドに匹敵する。 The DEtection TRansformer (DETR) opened new possibilities for object detection by modeling it as a translation task: converting image features into object-level representations. Previous works typically add expensive modules to DETR to perform Multi-Object Tracking (MOT), resulting in more complicated architectures. We instead show how DETR can be turned into a MOT model by employing an instance-level contrastive loss, a revised sampling strategy and a lightweight assignment method. Our training scheme learns object appearances while preserving detection capabilities and with little overhead. Its performance surpasses the previous state-of-the-art by +2.6 mMOTA on the challenging BDD100K dataset and is comparable to existing transformer-based methods on the MOT17 dataset. | 翻訳日:2023-11-15 14:37:45 公開日:2023-11-14 |
# グラフカラー化とその他の分割, 被覆, 包装問題に対する量子アルゴリズム Quantum Algorithms for Graph Coloring and other Partitioning, Covering, and Packing Problems ( http://arxiv.org/abs/2311.08042v1 ) ライセンス: Link先を確認 | Serge Gaspers, Jerry Zirui Li | (参考訳) U を n 個の元上の宇宙とし、k を正の整数とし、F を U の(単純に定義された)部分集合の族とする。 U を F から k 個の集合に分割し、U を F から k 個の集合で包含し、F から k 個の集合を U へ包含する問題を考える。
量子的には、実行時間 O(1.9140^n)[清水M22] と、実行時間 O(1.7274^n |F|^O(1)) [アンバイニスBIKPV19] の少数の集合を持つ集合被覆に対する高速なグラフカラー化アルゴリズムが存在する。
本稿では、u の部分集合 x 上の任意の部分集合に対して、c<2 で o*(c^{|x|}) の時間 o*(c^{|x|}) における集合 x に制限された k-partition、k-cover、k-packing の少なくとも 1 つのメンバを列挙する古典的列挙アルゴリズムが存在する場合、集合分割、集合被覆、集合充填の量子スピードアップを与える。
我々の有界エラー量子アルゴリズムは、O*((2+c)^(n/2))でSet Partition, Set Cover, Set Packingに対して動作する。
c<=1.147899 の場合、我々のアルゴリズムは O*((2+c)^(n/2)) よりもわずかに高速である。
グラフカラー化では,より高速な色付けアルゴリズムを活用してO(1.7956^n)へのランニング時間を向上し,配当とコンカッドのバランスを改善する。
ドマティック数の場合、ある \epsilon>0 に対して O((2-\epsilon)^n) ランニング時間を得る。 Let U be a universe on n elements, let k be a positive integer, and let F be a family of (implicitly defined) subsets of U. We consider the problems of partitioning U into k sets from F, covering U with k sets from F, and packing k non-intersecting sets from F into U. Classically, these problems can be solved via inclusion-exclusion in O*(2^n) time [BjorklundHK09]. Quantumly, there are faster algorithms for graph coloring with running time O(1.9140^n) [ShimizuM22] and for Set Cover with a small number of sets with running time O(1.7274^n |F|^O(1)) [AmbainisBIKPV19]. In this paper, we give a quantum speedup for Set Partition, Set Cover, and Set Packing whenever there is a classical enumeration algorithm that lends itself to a quadratic quantum speedup, which, for any subinstance on a subset X of U, enumerates at least one member of a k-partition, k-cover, or k-packing (if one exists) restricted to (or projected onto, in the case of k-cover) the set X in O*(c^{|X|}) time with c<2. Our bounded-error quantum algorithm runs in O*((2+c)^(n/2)) for Set Partition, Set Cover, and Set Packing. When c<=1.147899, our algorithm is slightly faster than O*((2+c)^(n/2)); when c approaches 1, it matches the running time of [AmbainisBIKPV19] for Set Cover when |F| is subexponential in n. For Graph Coloring, we further improve the running time to O(1.7956^n) by leveraging faster algorithms for coloring with a small number of colors to better balance our divide-and-conquer steps. For Domatic Number, we obtain a O((2-\epsilon)^n) running time for some \epsilon>0. | 翻訳日:2023-11-15 14:37:31 公開日:2023-11-14 |
# SAIE Framework: サポートは十分ではない -- 敵対的な発言によるLLMトレーニングの強化 SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training with Adversarial Remarks ( http://arxiv.org/abs/2311.08107v1 ) ライセンス: Link先を確認 | Mengsay Loem, Masahiro Kaneko, Naoaki Okazaki | (参考訳) 大規模言語モデル(LLM)は、他のモデルや人間との議論を通じて予測を正当化または批判することができる。
積極的な議論はパフォーマンスを高めるが、現在このアプローチは推論フェーズに限定されている。
トレーニング中に対話的な議論を学ぶことは、トレーニングステップのインスタンスの理解を改善し、論理的・批判的思考能力の熟達と推論ステップにおけるモデルの言語化表現を改善する。
提案手法は,学習者とパートナーモデルによる支援的および敵対的議論の両方を含む。
学習者モデルは、議論を通じてパートナーから意見を受け取り、学習者モデルのパラメータは、この意見に基づいて更新される。
すなわち、教師信号は、トレーニングステップを通して進化するモデル出力に応じて動的に調整される。
gsm8k、commonsenseqa、mmluを含むデータセットをまたいだ実験により、我々の手法で微調整されたモデルが、標準の微調整技術でトレーニングされたモデルを一貫して超えていることが明らかとなった。
さらに,提案手法はマルチエージェント推論のシナリオにおいて優れた性能を示し,推論ステップにおけるモデルの推論能力を高める。 Large Language Models (LLMs) can justify or criticize their predictions through discussion with other models or humans, thereby enhancing their intrinsic understanding of instances. While proactive discussions enhance performance, this approach is currently limited to the inference phase. In this context, we posit a hypothesis: learning interactive discussions during training can improve understanding for the instances in the training step and proficiency in logical/critical thinking ability and verbalized expression of the model in the inference step. Our proposed SAIE training method involves both supportive and adversarial discussions between the learner and partner models. The learner model receives a remark from the partner through the discussion, and the parameters of the learner model are then updated based on this remark. That is, the teacher signal dynamically adjusts in response to the evolving model output throughout the training step. By bolstering the capacity for discussion and comprehension of instances, our experiments across datasets, including GSM8K, CommonsenseQA, and MMLU, reveal that models fine-tuned with our method consistently surpass those trained with standard fine-tuning techniques. Moreover, our approach demonstrates superior performance in multi-agent inference scenarios, boosting the models' reasoning abilities at the inference step. | 翻訳日:2023-11-15 14:30:02 公開日:2023-11-14 |
# Carpe Diem:生涯言語モデルにおける世界知識の評価について Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language Models ( http://arxiv.org/abs/2311.08106v1 ) ライセンス: Link先を確認 | Yujin Kim, Jaehong Yoon, Seonghyeon Ye, Sung Ju Hwang, Se-young Yun | (参考訳) 進化を続ける世界では、知識の動的な性質は静的データに基づいて訓練された言語モデルに課題をもたらし、古いエンコードされた情報をもたらす。
しかし、実世界のシナリオでは、モデルが新しい知識を得るだけでなく、古い情報を更新情報に上書きする必要がある。
この未解決の問題に対処するために、時間的に進化している質問応答ベンチマークであるEvolvingQAを紹介します。これは、進化しているウィキペディアデータベース上でLMをトレーニングし評価するために設計された新しいベンチマークです。
本ベンチマークでは,実世界のアプリケーションをエミュレートするための下流タスクとして質問応答を取り入れた。
EvolvingQAを通じて、既存の継続学習ベースラインが、時代遅れの知識を更新・忘れることが困難であることを明らかにする。
以上の結果から, モデルでは, 重量勾配が小さいため, 最新の知識を学習できないことが示唆された。
さらに、モデルが主に、更新された知識を求める質問に対して、数値的または時間的回答を提供することに苦慮していることを解明する。
本研究の目的は,実世界の情報の動的性質をモデル化し,言語モデルの進化適応性を高めることにある。 In an ever-evolving world, the dynamic nature of knowledge presents challenges for language models that are trained on static data, leading to outdated encoded information. However, real-world scenarios require models not only to acquire new knowledge but also to overwrite outdated information into updated ones. To address this under-explored issue, we introduce the temporally evolving question answering benchmark, EvolvingQA - a novel benchmark designed for training and evaluating LMs on an evolving Wikipedia database, where the construction of our benchmark is automated with our pipeline using large language models. Our benchmark incorporates question-answering as a downstream task to emulate real-world applications. Through EvolvingQA, we uncover that existing continual learning baselines have difficulty in updating and forgetting outdated knowledge. Our findings suggest that the models fail to learn updated knowledge due to the small weight gradient. Furthermore, we elucidate that the models struggle mostly on providing numerical or temporal answers to questions asking for updated knowledge. Our work aims to model the dynamic nature of real-world information, offering a robust measure for the evolution-adaptability of language models. | 翻訳日:2023-11-15 14:29:41 公開日:2023-11-14 |
# DiLoCo: 言語モデルの分散低コミュニケーショントレーニング DiLoCo: Distributed Low-Communication Training of Language Models ( http://arxiv.org/abs/2311.08105v1 ) ライセンス: Link先を確認 | Arthur Douillard, Qixuan Feng, Andrei A. Rusu, Rachita Chhaparia, Yani Donchev, Adhiguna Kuncoro, Marc'Aurelio Ranzato, Arthur Szlam, Jiajun Shen | (参考訳) 大規模言語モデル(LLM)は、機械学習の多くのアプリケーションにおいて重要なコンポーネントとなっている。
しかし、LLMのトレーニングに標準的アプローチでは、各最適化ステップで勾配やその他の中間状態を交換するデバイスによって、多数の密接な相互接続のアクセラレータを必要とする。
多くのアクセラレーターをホストする単一のコンピューティングクラスタの構築とメンテナンスは難しいが、各デバイスをホストする複数のコンピューティングクラスタを見つけるのは容易かもしれない。
本研究では,接続が不十分なデバイス群における言語モデルの学習を可能にする分散最適化アルゴリズムである分散低通信(diloco)を提案する。
このアプローチは、内部ステップの数が大きく、内部オプティマイザはAdamW、外側オプティマイザはNesterov運動量であるフェデレート平均化の変種である。
広く使われているC4データセットでは、8人のワーカ上でDiLoCoが500倍の通信をしながら完全に同期最適化を行うことを示す。
DiLoCoは、各ワーカーのデータ分散に大きな堅牢性を示す。
また、時間とともにリソースが利用できなくなり、その逆もまた、トレーニング中に利用可能なリソースをシームレスに活用することができる。 Large language models (LLM) have become a critical component in many applications of machine learning. However, standard approaches to training LLM require a large number of tightly interconnected accelerators, with devices exchanging gradients and other intermediate states at each optimization step. While it is difficult to build and maintain a single computing cluster hosting many accelerators, it might be easier to find several computing clusters each hosting a smaller number of devices. In this work, we propose a distributed optimization algorithm, Distributed Low-Communication (DiLoCo), that enables training of language models on islands of devices that are poorly connected. The approach is a variant of federated averaging, where the number of inner steps is large, the inner optimizer is AdamW, and the outer optimizer is Nesterov momentum. On the widely used C4 dataset, we show that DiLoCo on 8 workers performs as well as fully synchronous optimization while communicating 500 times less. DiLoCo exhibits great robustness to the data distribution of each worker. It is also robust to resources becoming unavailable over time, and vice versa, it can seamlessly leverage resources that become available during training. | 翻訳日:2023-11-15 14:29:20 公開日:2023-11-14 |
# Reimagining Speech:Deep Learning-Powered Voice Conversionのスコーピングレビュー Reimagining Speech: A Scoping Review of Deep Learning-Powered Voice Conversion ( http://arxiv.org/abs/2311.08104v1 ) ライセンス: Link先を確認 | Anders R. Bargum, Stefania Serafin, Cumhur Erkut | (参考訳) 音声合成における深層学習型音声変換(VC)の研究は、ますます人気が高まっている。
音声変換の分野における多くの研究は、共通のグローバルパイプラインを共有しているが、基礎となる構造、方法、神経サブブロックには、研究活動全体でかなりの多様性がある。
したがって、音声変換パイプラインにおける異なる方法の選択の背後にある理由の包括的理解を得ることは困難であり、提案手法における実際のハードルはしばしば不明確である。
本稿では,現代の音声変換システムにおける音声分析,合成,非絡み合った音声表現学習における深層学習の利用を探求するスコーピング・レビューを提案する。
2017年から2023年の間に38以上の会場から621の出版物をスクリーニングし、続いて123の論文からなる最終データベースの詳細なレビューを行った。
このレビューに基づいて,ディープラーニングに基づく音声変換の最も頻繁に使用されるアプローチを要約し,コミュニティ内で共通する落とし穴を浮き彫りにする。
最後に,収集した知識を集約し,主な課題を特定し,今後の研究方向性を提言する。 Research on deep learning-powered voice conversion (VC) in speech-to-speech scenarios is getting increasingly popular. Although many of the works in the field of voice conversion share a common global pipeline, there is a considerable diversity in the underlying structures, methods, and neural sub-blocks used across research efforts. Thus, obtaining a comprehensive understanding of the reasons behind the choice of the different methods in the voice conversion pipeline can be challenging, and the actual hurdles in the proposed solutions are often unclear. To shed light on these aspects, this paper presents a scoping review that explores the use of deep learning in speech analysis, synthesis, and disentangled speech representation learning within modern voice conversion systems. We screened 621 publications from more than 38 different venues between the years 2017 and 2023, followed by an in-depth review of a final database consisting of 123 eligible studies. Based on the review, we summarise the most frequently used approaches to voice conversion based on deep learning and highlight common pitfalls within the community. Lastly, we condense the knowledge gathered, identify main challenges and provide recommendations for future research directions. | 翻訳日:2023-11-15 14:29:00 公開日:2023-11-14 |
# 法定判定予測のための半教師付き階層化エンコーダの探索 Exploring Semi-supervised Hierarchical Stacked Encoder for Legal Judgement Prediction ( http://arxiv.org/abs/2311.08103v1 ) ライセンス: Link先を確認 | Nishchal Prasad, Mohand Boughanem, Taoufiq Dkaki | (参考訳) 判例の判断をその無記名事例事実から予測することは難しい課題である。
長大かつ一様でない文書構造は、決定予測のための情報抽出においてさらに大きな課題をもたらす。
本研究では,文埋め込みの観点で長文文書から情報を抽出するドメイン固有事前学習bertを用いて,さらにトランスフォーマーエンコーダ層で処理を行い,非教師ありクラスタリングを用いてこれらの埋め込みから隠されたラベルを抽出し,判例の判断を精度良く予測する2段階の分類機構を探索し,提案する。
我々は,本機構を用いていくつかの実験を行い,ildcデータセット上で提案する手法よりも高い性能向上を実現する。
また,本実験の結果は,法律情報処理におけるトランスフォーマーエンコーダのドメイン固有の事前学習の重要性を示した。 Predicting the judgment of a legal case from its unannotated case facts is a challenging task. The lengthy and non-uniform document structure poses an even greater challenge in extracting information for decision prediction. In this work, we explore and propose a two-level classification mechanism; both supervised and unsupervised; by using domain-specific pre-trained BERT to extract information from long documents in terms of sentence embeddings further processing with transformer encoder layer and use unsupervised clustering to extract hidden labels from these embeddings to better predict a judgment of a legal case. We conduct several experiments with this mechanism and see higher performance gains than the previously proposed methods on the ILDC dataset. Our experimental results also show the importance of domain-specific pre-training of Transformer Encoders in legal information processing. | 翻訳日:2023-11-15 14:28:42 公開日:2023-11-14 |
# DeepEMplanner: 反復的なインタラクションを備えたEMモーションプランナ DeepEMplanner: An EM Motion Planner with Iterative Interactions ( http://arxiv.org/abs/2311.08100v1 ) ライセンス: Link先を確認 | Zhili Chen, Maosheng Ye, Shuangjie Xu, Tongyi Cao, Qifeng Chen | (参考訳) 動き計画(英: motion planning)は、周囲のエージェントの予測、環境理解、歴史的および将来の文脈に基づいて、有効な軌道の列を求める計算問題である。
エージェントは他のエージェントの意図や遭遇する環境に従って次の動きを継続的に計画し、インクリメンタルなアクションによって最終的な目標を達成するゲームと見なすこともできる。
動的な計画と相互作用のプロセスをモデル化するために,段階的な相互作用を考慮した新しいフレームワークであるdeepemplannerを提案する。
エゴ車両は、エージェントからのステップワイズ期待と今後の道路条件に基づいて、各ステップ動作を最大化し、最終的な運転結果に到達する。
一方、エージェントは、遭遇する環境下でのステップワイズ行動と、egoや他のエージェントからの期待を最大化するために、同じ哲学に従う。
我々のDeepEMplannerは、期待と最大化のプロセスをインターリーブすることで、エゴ、エージェント、動的環境間の相互作用を自己回帰的にモデル化する。
さらに, ego-to-agents, ego-to-map, ego-to-bev相互作用機構を階層的な動的キーオブジェクトで設計し, 相互作用のモデル化に注目する。
nuScenesベンチマークの実験から,本手法は最先端の結果が得られることが示された。 Motion planning is a computational problem that finds a sequence of valid trajectories, often based on surrounding agents' forecasting, environmental understanding, and historical and future contexts. It can also be viewed as a game in which agents continuously plan their next move according to other agents' intentions and the encountering environment, further achieving their ultimate goals through incremental actions. To model the dynamic planning and interaction process, we propose a novel framework, DeepEMplanner, which takes the stepwise interaction into account for fine-grained behavior learning. The ego vehicle maximizes each step motion to reach its eventual driving outcome based on the stepwise expectation from agents and its upcoming road conditions. On the other hand, the agents also follow the same philosophy to maximize their stepwise behavior under the encountering environment and the expectations from ego and other agents. Our DeepEMplanner models the interactions among ego, agents, and the dynamic environment in an autoregressive manner by interleaving the Expectation and Maximization processes. Further, we design ego-to-agents, ego-to-map, and ego-to-BEV interaction mechanisms with hierarchical dynamic key objects attention to better model the interactions. Experiments on the nuScenes benchmark show that our approach achieves state-of-the-art results. | 翻訳日:2023-11-15 14:28:24 公開日:2023-11-14 |
# 語義木による多段階推論の強化 Empowering Multi-step Reasoning across Languages via Tree-of-Thoughts ( http://arxiv.org/abs/2311.08097v1 ) ライセンス: Link先を確認 | Leonardo Ranaldi, Fabio Massimo Zanzotto | (参考訳) CoT(Chain-of-Thought)は大規模言語モデル(LLM)の推論能力を促進させ、複雑な推論タスクを段階的に解決する。
しかし、CoT法の成功により、事前学習データの分布の不均衡のため、多段階推論を実現する能力は英語に限られており、他の言語は障壁となっている。
本稿では,異なる言語間の推論プロセスを整合させることを目的とした,言語間多段階推論手法を提案する。
特に,本手法は,Tree-of-Thoughtsアプローチにインスパイアされた自己一貫性のクロス言語的プロンプト機構を通じて,各言語に複数ステップの推論経路を提供し,その過程で最終解が導かれる。
実験結果から,提案手法は既存のプロンプト手法を大幅に上回り,インタラクション数を減らし,最先端の性能を実現する。 Chain-of-Thought (CoT) prompting empowers the reasoning abilities of Large Language Models (LLMs), eliciting them to solve complex reasoning tasks step-by-step. However, with the success of CoT methods, the ability to deliver multi-step reasoning remains limited to English due to the imbalance in the distribution of the pre-training data, making the other languages a barrier. In this work, we propose a Cross-lingual multi-step reasoning approach, aiming to align reasoning processes across different languages. In particular, our method, through a Self-consistent Cross-lingual prompting mechanism inspired by the Tree-of-Thoughts approach, delivers multi-step reasoning paths in different languages that, during the steps, lead to the final solution. Our experimental evaluations show that our method significantly outperforms existing prompting methods, reducing the number of interactions and achieving state-of-the-art performance. | 翻訳日:2023-11-15 14:28:03 公開日:2023-11-14 |
# Act-VIT:視覚変換器を用いた骨格に基づく行動認識のための表現的ロバスト注意アーキテクチャ Act-VIT: A Representationally Robust Attention Architecture for Skeleton Based Action Recognition Using Vision Transformer ( http://arxiv.org/abs/2311.08094v1 ) ライセンス: Link先を確認 | Ozge Oztimur Karadag | (参考訳) スケルトンベースのアクション認識は、視点や照明の変化に頑健であり、その処理はビデオフレームよりもはるかに効率的であるため、多くの研究者の注目を集めている。
深層学習モデルの出現に伴い、擬似イメージ形式で骨格データを表現し、行動認識に畳み込みニューラルネットワークを適用することが非常に一般的になった。
その後、研究は擬似画像の形成に有効な方法を見つけることに集中した。
近年、アテンションネットワーク、特にトランスフォーマーは様々な視覚問題に有望な結果をもたらしている。
本研究では,骨格型行動認識における視覚変換器の有効性について検討し,擬似画像表現方式における頑健性について検討した。
この目的のために、3レベルアーキテクチャであるAct-VITが提案され、擬似画像の集合が各表現に分類器を適用し、その結果を組み合わせて最終アクションクラスを見つける。
Act-VITの分類器はまずCNNによって実現され、次にVITによって比較される。
実験的研究により、視覚トランスフォーマーはcnnに比べて初期擬似画像表現に対する感度が低いことが判明した。
それでも、視覚変換器であっても、識別性能は分類器のコンセンサスによりさらに向上することができる。 Skeleton-based action recognition receives the attention of many researchers as it is robust to viewpoint and illumination changes, and its processing is much more efficient than video frames. With the emergence of deep learning models, it has become very popular to represent the skeleton data in pseudo-image form and apply Convolutional Neural Networks for action recognition. Thereafter, studies concentrated on finding effective methods for forming pseudo-images. Recently, attention networks, more specifically transformers have provided promising results in various vision problems. In this study, the effectiveness of vision transformers for skeleton-based action recognition is examined and its robustness on the pseudo-image representation scheme is investigated. To this end, a three-level architecture, Act-VIT is proposed, which forms a set of pseudo images apply a classifier on each of the representation and combine their results to find the final action class. The classifiers of Act-VIT are first realized by CNNs and then by VITs and their performances are compared. Experimental studies reveal that the vision transformer is less sensitive to the initial pseudo-image representation compared to CNN. Nevertheless, even with the vision transformer, the recognition performance can be further improved by consensus of classifiers. | 翻訳日:2023-11-15 14:27:44 公開日:2023-11-14 |
# 事前訓練後のアライメント: 言語間アライメントによる多言語生成モデルの改善 Align after Pre-train: Improving Multilingual Generative Models with Cross-lingual Alignment ( http://arxiv.org/abs/2311.08089v1 ) ライセンス: Link先を確認 | Chong Li, Shaonan Wang, Jiajun Zhang, Chengqing Zong | (参考訳) 多言語生成モデルは、大規模コーパスの事前訓練により、顕著な言語横断能力を得る。
しかし、それでも高いリソース言語に対するパフォーマンスバイアスを示し、言語間の文表現の孤立した分布を学ぶ。
このギャップを埋めるために,一対の翻訳文を利用する簡易かつ効果的なアライメントフレームワークを提案する。
言語間の内部文表現を多言語コントラスト学習により整列し、異なる言語のプロンプトに答えることでモデル出力を整列する。
実験の結果,事前学習トークンが0.1以下であっても,アライメントフレームワークは生成モデルの言語交叉能力を大幅に向上させ,性能ギャップを軽減できることがわかった。
さらに分析した結果、多言語モデルのより優れた内部多言語表現分布が得られた。 Multilingual generative models obtain remarkable cross-lingual capabilities through pre-training on large-scale corpora. However, they still exhibit a performance bias toward high-resource languages, and learn isolated distributions of sentence representations across languages. To bridge this gap, we propose a simple yet effective alignment framework exploiting pairs of translation sentences. It aligns the internal sentence representations across different languages via multilingual contrastive learning and aligns model outputs by answering prompts in different languages. Experimental results demonstrate that even with less than 0.1 {\textperthousand} of pre-training tokens, our alignment framework significantly boosts the cross-lingual abilities of generative models and mitigates the performance gap. Further analysis reveals that it results in a better internal multilingual representation distribution of multilingual models. | 翻訳日:2023-11-15 14:27:23 公開日:2023-11-14 |
# CPSOR-GCN:感情・認知理論による車両軌道予測手法 CPSOR-GCN: A Vehicle Trajectory Prediction Method Powered by Emotion and Cognitive Theory ( http://arxiv.org/abs/2311.08086v1 ) ライセンス: Link先を確認 | L. Tang, Y. Li, J. Yuan, A. Fu, J. Sun | (参考訳) 車両のアクティブ安全システムは、しばしば誤報で問題に直面する。
ほとんどのアクティブな安全システムは、運転者が常に通常の感情にあると仮定して運転者の軌道を予測する。
しかし、運転者の軌道不確実性は異常な感情の下で増大する。
本稿では,異常な感情下での車両軌道を予測する新しい軌道予測モデルCPSOR-GCNを提案する。
物理的レベルでは、車両間の相互作用は物理GCNモジュールによって抽出される。
認知レベルでは、SOR認知理論は、動的ベイズネットワーク(DBN)構造を構築するための事前知識として用いられる。
調整されたSOR-DBNのノードの条件確率と状態遷移確率は、認知的GCNモジュールに埋め込まれた認知的要因間の因果関係を定量化し、運転行動に対する感情の影響メカニズムの特徴を抽出する。
carla-sumo 共同運転シミュレーションプラットフォームは危険な事前運転シナリオを開発するために構築された。
交通シーンを再現する方法は、自然に異常な感情を誘発するために用いられた。
実験は,提案モデルを検証するため,26名の被験者からデータを収集した。
物理運動特性のみを考慮したモデルと比較して,提案モデルの予測精度は68.70%向上した。
さらに、SOR-DBNを考えると、軌道の予測誤差は15.93%減少する。
他の高度な軌道予測モデルと比較して、CPSOR-GCNの結果も誤差が低い。
このモデルはアクティブな安全システムに統合され、ドライバーの感情に適応し、誤報を効果的に減らすことができる。 Active safety systems on vehicles often face problems with false alarms. Most active safety systems predict the driver's trajectory with the assumption that the driver is always in a normal emotion, and then infer risks. However, the driver's trajectory uncertainty increases under abnormal emotions. This paper proposes a new trajectory prediction model: CPSOR-GCN, which predicts vehicle trajectories under abnormal emotions. At the physical level, the interaction features between vehicles are extracted by the physical GCN module. At the cognitive level, SOR cognitive theory is used as prior knowledge to build a Dynamic Bayesian Network (DBN) structure. The conditional probability and state transition probability of nodes from the calibrated SOR-DBN quantify the causal relationship between cognitive factors, which is embedded into the cognitive GCN module to extract the characteristics of the influence mechanism of emotions on driving behavior. The CARLA-SUMO joint driving simulation platform was built to develop dangerous pre-crash scenarios. Methods of recreating traffic scenes were used to naturally induce abnormal emotions. The experiment collected data from 26 participants to verify the proposed model. Compared with the model that only considers physical motion features, the prediction accuracy of the proposed model is increased by 68.70%. Furthermore,considering the SOR-DBN reduces the prediction error of the trajectory by 15.93%. Compared with other advanced trajectory prediction models, the results of CPSOR-GCN also have lower errors. This model can be integrated into active safety systems to better adapt to the driver's emotions, which could effectively reduce false alarms. | 翻訳日:2023-11-15 14:27:09 公開日:2023-11-14 |
# ニューラル埋め込みとベクトル算術によるARC視覚類似の解法:一般化された方法 Solving ARC visual analogies with neural embeddings and vector arithmetic: A generalized method ( http://arxiv.org/abs/2311.08083v1 ) ライセンス: Link先を確認 | Luca H. Thoms, Karel A. Veldkamp, Hannes Rosenbusch and Claire E. Stevenson | (参考訳) アナロジカル推論は、既知の関係から情報を導き出し、この情報をよく知らない状況に一般化する。
深層学習モデルが動詞の類似を解くための最初の一般化された方法の1つは、単語埋め込みのベクトル算術によって、本質的にはベクトル空間にマッピングされた単語(例えば、王 - 男 + 女性 = __?
対照的に、視覚アナロジーの解こうとするほとんどの試みは依然としてタスク固有であり、一般化できない。
本研究は,視覚的類似推論に焦点をあて,視覚領域の言語的類似を解くために用いられる初期一般化メカニズムを適用した。
抽象推論コーパス (ARC) を視覚的類似解の例として用い, 変分オートエンコーダ (VAE) を用いて, ARC 項目を低次元潜在ベクトルに変換する。
単純なベクトル算術により、ARC項目の基本的な規則が発見され、それらを解決するために使用される。
提案手法は, 少ない寸法(色数, 均一な形状, 類似の入出力例, VAEの高精度化など)の単純な項目に対して有効であることを示す。
より複雑な項目の予測は、期待された出力とより強いずれを示したが、予測はしばしばアイテムのルールセットの一部を近似した。
エラーパターンは、モデルが意図通り動作することを示している。
公式のARCパラダイムでは、このモデルは2%のスコア(現在の世界記録は21%)を獲得し、ConceptARCでは8.8%を記録した。
提案手法は,基本的な次元削減手法と標準ベクトル算術を含むが,提案手法はARC上で有望な結果を示し,他の抽象的視覚的推論タスクに容易に一般化できる。 Analogical reasoning derives information from known relations and generalizes this information to similar yet unfamiliar situations. One of the first generalized ways in which deep learning models were able to solve verbal analogies was through vector arithmetic of word embeddings, essentially relating words that were mapped to a vector space (e.g., king - man + woman = __?). In comparison, most attempts to solve visual analogies are still predominantly task-specific and less generalizable. This project focuses on visual analogical reasoning and applies the initial generalized mechanism used to solve verbal analogies to the visual realm. Taking the Abstraction and Reasoning Corpus (ARC) as an example to investigate visual analogy solving, we use a variational autoencoder (VAE) to transform ARC items into low-dimensional latent vectors, analogous to the word embeddings used in the verbal approaches. Through simple vector arithmetic, underlying rules of ARC items are discovered and used to solve them. Results indicate that the approach works well on simple items with fewer dimensions (i.e., few colors used, uniform shapes), similar input-to-output examples, and high reconstruction accuracy on the VAE. Predictions on more complex items showed stronger deviations from expected outputs, although, predictions still often approximated parts of the item's rule set. Error patterns indicated that the model works as intended. On the official ARC paradigm, the model achieved a score of 2% (cf. current world record is 21%) and on ConceptARC it scored 8.8%. Although the methodology proposed involves basic dimensionality reduction techniques and standard vector arithmetic, this approach demonstrates promising outcomes on ARC and can easily be generalized to other abstract visual reasoning tasks. | 翻訳日:2023-11-15 14:26:47 公開日:2023-11-14 |
# 進化的量子教師あり学習モデル Evolutionary-enhanced quantum supervised learning model ( http://arxiv.org/abs/2311.08081v1 ) ライセンス: Link先を確認 | Anton Simen Albino, Rodrigo Bloot, Otto M. Pires, Erick G. S. Nascimento | (参考訳) 変分回路を利用した量子教師付き学習は、量子特徴マップ作成時のハードウェア資源利用効率と、学習可能なパラメータを持つハードウェア効率のansatzの実装により、nisqデバイスにとって有望な技術として注目される。
これらの利点にもかかわらず、量子モデルのトレーニングは問題、特に不毛台地現象に遭遇し、最適化イテレーション中に学習が停滞する。
本研究では,進化に富むアンサツフリー教師なし学習モデルを提案する。
パラメトリズド回路とは対照的に,本モデルは,楕円型法を通じて進化する可変トポロジーを持つ回路を用い,不毛高原問題を緩和する。
さらに,新しい概念であるマルチホットエンコーディングの重ね合わせを導入し,マルチクラス化問題の処理を容易にする。
我々のフレームワークは不毛高原を避けることに成功し、結果としてモデルの精度が向上した。
技術の最先端技術による変分量子分類器との比較分析は、訓練効率と精度を大幅に改善したことを示している。
さらに,NISQ時代の教師あり学習における量子優位性を実現するための代替手段として,従来のカーネルマシンでは問題となっていた,挑戦的なデータセットクラス上でテストを行う。 Quantum supervised learning, utilizing variational circuits, stands out as a promising technology for NISQ devices due to its efficiency in hardware resource utilization during the creation of quantum feature maps and the implementation of hardware-efficient ansatz with trainable parameters. Despite these advantages, the training of quantum models encounters challenges, notably the barren plateau phenomenon, leading to stagnation in learning during optimization iterations. This study proposes an innovative approach: an evolutionary-enhanced ansatz-free supervised learning model. In contrast to parametrized circuits, our model employs circuits with variable topology that evolves through an elitist method, mitigating the barren plateau issue. Additionally, we introduce a novel concept, the superposition of multi-hot encodings, facilitating the treatment of multi-classification problems. Our framework successfully avoids barren plateaus, resulting in enhanced model accuracy. Comparative analysis with variational quantum classifiers from the technology's state-of-the-art reveal a substantial improvement in training efficiency and precision. Furthermore, we conduct tests on a challenging dataset class, traditionally problematic for conventional kernel machines, demonstrating a potential alternative path for achieving quantum advantage in supervised learning for NISQ era. | 翻訳日:2023-11-15 14:26:16 公開日:2023-11-14 |
# 深層学習に基づく物体検出アルゴリズムによる光曲線信号の同定
II。
一般的な光曲線分類フレームワーク Identifying Light-curve Signals with a Deep Learning Based Object Detection Algorithm. II. A General Light Curve Classification Framework ( http://arxiv.org/abs/2311.08080v1 ) ライセンス: Link先を確認 | Kaiming Cui, D. J. Armstrong, Fabo Feng | (参考訳) 様々なプロジェクトから膨大な量の天体測光データが生成され、変光星やその他の天体の分類に多大な努力を要する。
これを踏まえ、広く適用可能な一般的な分類フレームワークは、カスタム分類器を設計する作業を単純化する。
弱教師付き物体検出モデルを用いて光曲線を分類するための新しいディープラーニングフレームワークを提案する。
本フレームワークは,光曲線とパワースペクトルの両方に最適なウィンドウを自動同定し,対応するデータにズームインする。
これにより、時間領域と周波数領域の両方から自動特徴抽出が可能となり、異なるスケールとサンプリング間隔にわたってデータを処理できる。
我々は,変光星と過渡星の空間観測と地上観測の両方から得られたデータセット上でモデルをトレーニングする。
従来の特徴ベースモデルに匹敵する,変数と過渡イベントの組み合わせによる87%の精度を実現する。
我々の訓練されたモデルは、再訓練や微調整を必要とせず、ASAS-SNのような他のミッションに直接利用することができる。
予測確率を誤算した既知の問題に対処するため,確率で真のラベルカバレッジを保証する頑健な予測セットを生成するために共形予測を適用した。
さらに,様々な異常検出アルゴリズムを組み込んで,分布外物体を識別する機能を備えたモデルを構築する。
このフレームワークは、githubとpypiにホストされているオープンソースのpythonパッケージであるdeep-lc toolkitに実装されています。 Vast amounts of astronomical photometric data are generated from various projects, requiring significant efforts to identify variable stars and other object classes. In light of this, a general, widely applicable classification framework would simplify the task of designing custom classifiers. We present a novel deep learning framework for classifying light curves using a weakly supervised object detection model. Our framework identifies the optimal windows for both light curves and power spectra automatically, and zooms in on their corresponding data. This allows for automatic feature extraction from both time and frequency domains, enabling our model to handle data across different scales and sampling intervals. We train our model on datasets obtained from both space-based and ground-based multi-band observations of variable stars and transients. We achieve an accuracy of 87% for combined variables and transient events, which is comparable to the performance of previous feature-based models. Our trained model can be utilized directly to other missions, such as ASAS-SN, without requiring any retraining or fine-tuning. To address known issues with miscalibrated predictive probabilities, we apply conformal prediction to generate robust predictive sets that guarantee true label coverage with a given probability. Additionally, we incorporate various anomaly detection algorithms to empower our model with the ability to identify out-of-distribution objects. Our framework is implemented in the Deep-LC toolkit, which is an open-source Python package hosted on Github and PyPI. | 翻訳日:2023-11-15 14:25:55 公開日:2023-11-14 |
# Segment Anything Model (SAM) を用いた眼特徴のゼロショットセグメンテーション Zero-Shot Segmentation of Eye Features Using the Segment Anything Model (SAM) ( http://arxiv.org/abs/2311.08077v1 ) ライセンス: Link先を確認 | Virmarie Maquiling, Sean Anthony Byrne, Diederick C. Niehorster, Marcus Nystr\"om, Enkelejda Kasneci | (参考訳) 基盤モデルの出現は、人工知能の新しい時代を意味する。
Segment Anything Model (SAM)は、画像セグメンテーションのための最初の基礎モデルである。
本研究では,VR機器で記録された視線画像から特徴を分割するSAMの能力を評価する。
注釈付きアイイメージデータセットの要求が増大すると、SAMは視線推定におけるデータアノテーションの景観を再定義する大きな機会となる。
我々の調査はSAMのゼロショット学習能力と、バウンディングボックスやポイントクリックのようなプロンプトの有効性に焦点を当てている。
我々の結果は他の領域の研究と一致しており、SAMのセグメンテーションの有効性は特徴によって特殊モデルと同等であり、その性能は1つのデータセットにおける瞳孔セグメンテーションの93.34%のIoUによって証明されている。
samのような基礎モデルは、素早く簡単に画像のセグメンテーションを可能にし、専門モデルへの依存を減らすことで視線推定に革命をもたらす可能性がある。 The advent of foundation models signals a new era in artificial intelligence. The Segment Anything Model (SAM) is the first foundation model for image segmentation. In this study, we evaluate SAM's ability to segment features from eye images recorded in virtual reality setups. The increasing requirement for annotated eye-image datasets presents a significant opportunity for SAM to redefine the landscape of data annotation in gaze estimation. Our investigation centers on SAM's zero-shot learning abilities and the effectiveness of prompts like bounding boxes or point clicks. Our results are consistent with studies in other domains, demonstrating that SAM's segmentation effectiveness can be on-par with specialized models depending on the feature, with prompts improving its performance, evidenced by an IoU of 93.34% for pupil segmentation in one dataset. Foundation models like SAM could revolutionize gaze estimation by enabling quick and easy image segmentation, reducing reliance on specialized models and extensive manual annotation. | 翻訳日:2023-11-15 14:25:33 公開日:2023-11-14 |
# muzzleイメージとディープラーニング技術を用いた牛の識別 Cattle Identification Using Muzzle Images and Deep Learning Techniques ( http://arxiv.org/abs/2311.08148v1 ) ライセンス: Link先を確認 | G. N. Kimani, P. Oluwadara, P. Fashingabo, M. Busogi, E. Luhanga, K. Sowon, L. Chacha ((1) CyLab-Africa / Upanzi Network, (2) Carnegie Mellon University Africa and (3) Carnegie Mellon University Pittsburgh) | (参考訳) 従来の動物の識別法、例えば耳のタグ、耳のノッチ、ブランディングは効果的であるが、動物にリスクをもたらし、拡張性に問題がある。
電気的手法はより優れた追跡と監視を提供するが、特殊な装置を必要とし、攻撃を受けやすい。
ムズルプリントや虹彩パターンなどの時間不変な皮膚科的特徴を用いた生体認証は有望な解決法である。
このプロジェクトは、268頭の牛から採取された4923枚の銃口画像を用いて牛の識別を探索する。
2つのディープラーニング分類モデル – Wide ResNet50とVGG16\_BN – が実装され、画像品質を低下させ、アフリカのコンテキストに適応させるために画像圧縮が行われる。
実験の結果、最大精度は99.5\%であり、元の画像の25\%を保持する圧縮を持つワイドresnet50モデルを用いている。
本研究から,モデルの学習と収束に必要な時間と認識時間は,モデルの実行に使用するマシンに依存していることがわかった。 Traditional animal identification methods such as ear-tagging, ear notching, and branding have been effective but pose risks to the animal and have scalability issues. Electrical methods offer better tracking and monitoring but require specialized equipment and are susceptible to attacks. Biometric identification using time-immutable dermatoglyphic features such as muzzle prints and iris patterns is a promising solution. This project explores cattle identification using 4923 muzzle images collected from 268 beef cattle. Two deep learning classification models are implemented - wide ResNet50 and VGG16\_BN and image compression is done to lower the image quality and adapt the models to work for the African context. From the experiments run, a maximum accuracy of 99.5\% is achieved while using the wide ResNet50 model with a compression retaining 25\% of the original image. From the study, it is noted that the time required by the models to train and converge as well as recognition time are dependent on the machine used to run the model. | 翻訳日:2023-11-15 14:17:31 公開日:2023-11-14 |
# RECALL:外部対実的知識に対するLCMのロバスト性ベンチマーク RECALL: A Benchmark for LLMs Robustness against External Counterfactual Knowledge ( http://arxiv.org/abs/2311.08147v1 ) ライセンス: Link先を確認 | Yi Liu, Lianzhe Huang, Shicheng Li, Sishuo Chen, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun | (参考訳) LLMとAIチャットボットは、様々な分野で人々の効率を改善した。
しかし、質問に答えるために必要な知識は、モデルの知識境界を超えているかもしれない。
この問題を軽減するために、多くの研究者が知識グラフやインターネットコンテンツなどの外部知識を最新の情報のためにllmに導入しようとしている。
しかし、インターネットからの外部情報には、モデルを混乱させ、誤った反応をもたらす偽造情報が含まれる可能性がある。
したがって、LCMは、信頼性のある情報を外部知識と区別する能力を持つ必要がある。
したがって,外部知識の信頼性を把握できるllmの能力を評価するために,既存の知識ベースからベンチマークを作成する。
ベンチマークは質問応答とテキスト生成という2つのタスクで構成されており、各タスクに対して、反事実情報を含むコンテキストをモデルに提供しています。
評価の結果,既存のLCMは,信頼性の低い外部知識から反ファクト情報への干渉の影響を受けやすいことが明らかとなった。 LLMs and AI chatbots have improved people's efficiency in various fields. However, the necessary knowledge for answering the question may be beyond the models' knowledge boundaries. To mitigate this issue, many researchers try to introduce external knowledge, such as knowledge graphs and Internet contents, into LLMs for up-to-date information. However, the external information from the Internet may include counterfactual information that will confuse the model and lead to an incorrect response. Thus there is a pressing need for LLMs to possess the ability to distinguish reliable information from external knowledge. Therefore, to evaluate the ability of LLMs to discern the reliability of external knowledge, we create a benchmark from existing knowledge bases. Our benchmark consists of two tasks, Question Answering and Text Generation, and for each task, we provide models with a context containing counterfactual information. Evaluation results show that existing LLMs are susceptible to interference from unreliable external knowledge with counterfactual information, and simple intervention methods make limited contributions to the alleviation of this issue. | 翻訳日:2023-11-15 14:17:14 公開日:2023-11-14 |
# テキストビデオ検索における単一クエリ後処理のためのシンクホーン変換 Sinkhorn Transformations for Single-Query Postprocessing in Text-Video Retrieval ( http://arxiv.org/abs/2311.08143v1 ) ライセンス: Link先を確認 | Konstantin Yakovlev, Gregory Polyakov, Ilseyar Alimova, Alexander Podolskiy, Andrey Bout, Sergey Nikolenko, Irina Piontkovskaya | (参考訳) マルチモーダル検索の最近のトレンドは、dual-softmax loss (dsl) による後処理テストセットの結果に関連している。
このアプローチは大幅な改善をもたらすが、通常、テストサンプルのマトリックス全体がDSL入力として利用できると仮定する。
本稿では、dslに勝るシンクホーン変換に基づく新しいポストプロセッシングアプローチを紹介します。
さらに、複数のテストクエリへのアクセスを必要としない新しい後処理設定を提案する。
提案手法は,CLIP4Clip,BLIP,X-CLIP,DRLなどの技術モデルの現状を著しく改善し,テストセット全体と単一クエリ設定の両方で,標準的なテキストビデオ検索データセットの新たな最先端化を実現する。 A recent trend in multimodal retrieval is related to postprocessing test set results via the dual-softmax loss (DSL). While this approach can bring significant improvements, it usually presumes that an entire matrix of test samples is available as DSL input. This work introduces a new postprocessing approach based on Sinkhorn transformations that outperforms DSL. Further, we propose a new postprocessing setting that does not require access to multiple test queries. We show that our approach can significantly improve the results of state of the art models such as CLIP4Clip, BLIP, X-CLIP, and DRL, thus achieving a new state-of-the-art on several standard text-video retrieval datasets both with access to the entire test set and in the single-query setting. | 翻訳日:2023-11-15 14:16:56 公開日:2023-11-14 |
# GMTR:グラフマッチング変換器 GMTR: Graph Matching Transformers ( http://arxiv.org/abs/2311.08141v1 ) ライセンス: Link先を確認 | Jinpei Guo, Shaofeng Zhang, Runzhong Wang, Chang Liu, Junchi Yan | (参考訳) 視覚変換器(ViT)は近年,物体検出やセグメンテーション以外の視覚的マッチングに使用されている。
しかし、VTTの元々のグリッド分割戦略はキーポイントの空間情報を無視し、ローカル情報に対する感度を制限する。
そこで本稿では,クロスアテンションモジュールとキーポイントに基づく中心作物戦略を用いた空間情報抽出手法を応用した,\textbf{querytrans} (query transformer)を提案する。
さらに、グラフアテンションモジュールを統合して、グラフ変換器ニューラルGMソルバによってGMの組合せの性質に対処する、変換器ベースのグラフマッチングアプローチ \textbf{GMTR} (Graph Matching TRansformers) を考案する。
gm標準ベンチマークでは、gmtrはsataフレームワークに対する競争力を示している。
具体的には、Pascal VOCでは、GMTRはSOTAフレームワークよりも$\mathbf{83.6\%}$精度$\mathbf{0.9\%}$高い。
spair-71kではgmtrは大きな可能性を示し、以前の作品のほとんどを上回っている。
一方、Pascal VOCでは、QueryTransはNGMv2の精度を80.1\%$から$\mathbf{83.3\%}$に改善し、BBGMは79.0\%$から$\mathbf{84.5\%}$に改善した。
spair-71kでは、querytransはngmv2を$0.6\%$から$\mathbf{82.5\%}$に、bbgmを$22.1\%$から$\mathbf{83.9\%}$に改善する。
ソースコードは公開される予定だ。 Vision transformers (ViTs) have recently been used for visual matching beyond object detection and segmentation. However, the original grid dividing strategy of ViTs neglects the spatial information of the keypoints, limiting the sensitivity to local information. Therefore, we propose \textbf{QueryTrans} (Query Transformer), which adopts a cross-attention module and keypoints-based center crop strategy for better spatial information extraction. We further integrate the graph attention module and devise a transformer-based graph matching approach \textbf{GMTR} (Graph Matching TRansformers) whereby the combinatorial nature of GM is addressed by a graph transformer neural GM solver. On standard GM benchmarks, GMTR shows competitive performance against the SOTA frameworks. Specifically, on Pascal VOC, GMTR achieves $\mathbf{83.6\%}$ accuracy, $\mathbf{0.9\%}$ higher than the SOTA framework. On Spair-71k, GMTR shows great potential and outperforms most of the previous works. Meanwhile, on Pascal VOC, QueryTrans improves the accuracy of NGMv2 from $80.1\%$ to $\mathbf{83.3\%}$, and BBGM from $79.0\%$ to $\mathbf{84.5\%}$. On Spair-71k, QueryTrans improves NGMv2 from $80.6\%$ to $\mathbf{82.5\%}$, and BBGM from $82.1\%$ to $\mathbf{83.9\%}$. Source code will be made publicly available. | 翻訳日:2023-11-15 14:16:42 公開日:2023-11-14 |
# 統計モデルとしてのフィードフォワードニューラルネットワーク:不確実性定量化による解釈可能性の向上 Feedforward neural networks as statistical models: Improving interpretability through uncertainty quantification ( http://arxiv.org/abs/2311.08139v1 ) ライセンス: Link先を確認 | Andrew McInerney and Kevin Burke | (参考訳) フィードフォワードニューラルネットワーク(FNN)は通常、純粋な予測アルゴリズムと見なされ、その強力な予測性能は、多くの機械学習アプリケーションで使用されるようになった。
しかし、その柔軟性には解釈可能性のトレードオフが伴うため、統計学者の間では歴史的にFNNの人気は低い。
それでも、意味検定や不確実性定量化のような古典的な統計理論はいまだに関係がある。
統計的推測と共変量効果の可視化の手法でFNNを補足することで、フォーカスをブラックボックスの予測から切り離し、FNNを従来の統計モデルに近いものにすることができる。
これにより、より推論分析が可能となり、統計的モデリングコンテキスト内でFNNがよりアクセスしやすくなる。 Feedforward neural networks (FNNs) are typically viewed as pure prediction algorithms, and their strong predictive performance has led to their use in many machine-learning applications. However, their flexibility comes with an interpretability trade-off; thus, FNNs have been historically less popular among statisticians. Nevertheless, classical statistical theory, such as significance testing and uncertainty quantification, is still relevant. Supplementing FNNs with methods of statistical inference, and covariate-effect visualisations, can shift the focus away from black-box prediction and make FNNs more akin to traditional statistical models. This can allow for more inferential analysis, and, hence, make FNNs more accessible within the statistical-modelling context. | 翻訳日:2023-11-15 14:16:11 公開日:2023-11-14 |
# 空洞内のボース・アインシュタイン凝縮体の完全可解模型における絡み合いと相関 Entanglement and correlations in an exactly-solvable model of a Bose-Einstein condensate in a cavity ( http://arxiv.org/abs/2311.08138v1 ) ライセンス: Link先を確認 | Ofir E. Alon and Lorenz S. Cederbaum | (参考訳) 双極子近似に結合した相互作用するボース・アインシュタイン凝縮体(BEC)をキャビティ内の量子化光モードに正確に解けるモデルを示す。
このモデルは、ボゾン浴に結合した閉じ込められたBECに対する調和相互作用モデルの一般化と見なすことができる。
基底状態エネルギーと波動関数を閉じた形で求めた後、システムの相関を計算することに集中する。
ボソンとキャビティの還元された1粒子密度行列を解析的に構築して対角化し、becとキャビティのフォン・ノイマン絡みエントロピーをボソンの数と質量、トラップとキャビティの周波数、キャビティとボソンの結合強度の関数として明示的に表現する。
この結果により、キャビティがボソンに与える影響を研究でき、その逆も等しく足場に影響を及ぼすことができる。
応用として、空洞内の非相互作用ボソンに対する基本的関心の特定の事例について検討する。
その結果, ボソンと空洞は相補的に相関関係を発達し, 両者の結合性は増大することがわかった。
空洞の波束はフォック空間で広がるが、BEC密度は実空間で飽和する。
一方、空洞の枯渇は飽和し、したがってBECキャビティの絡み合いエントロピーは飽和するが、BECは強く相関し、最終的には分裂する。
後者の現象は、イデアルボソンの単一トラップ断片化を意味し、その誘導された長距離相互作用はキャビティによって媒介される。
最後に、補足的な研究として、becキャビティ系の平均場方程式を解析的に解き、結合を増加させるキャビティとボソンの平均場理論の崩壊について論じる。
さらなる応用が検討されている。 An exactly solvable model of a trapped interacting Bose-Einstein condensate (BEC) coupled in the dipole approximation to a quantized light mode in a cavity is presented. The model can be seen as a generalization of the harmonic-interaction model for a trapped BEC coupled to a bosonic bath. After obtaining the ground-state energy and wavefunction in closed form, we focus on computing the correlations in the system. The reduced one-particle density matrices of the bosons and the cavity are constructed and diagonalized analytically, and the von Neumann entanglement entropy of the BEC and the cavity is also expressed explicitly as a function of the number and mass of the bosons, frequencies of the trap and cavity, and the cavity-boson coupling strength. The results allow one to study the impact of the cavity on the bosons and vice versa on an equal footing. As an application we investigate a specific case of basic interest for itself, namely, non-interacting bosons in a cavity. We find that both the bosons and the cavity develop correlations in a complementary manner while increasing the coupling between them. Whereas the cavity wavepacket broadens in Fock space, the BEC density saturates in real space. On the other hand, while the cavity depletion saturates, and hence does the BEC-cavity entanglement entropy, the BEC becomes strongly correlated and eventually increasingly fragmented. The latter phenomenon implies single-trap fragmentation of otherwise ideal bosons, where their induced long-range interaction is mediated by the cavity. Finally, as a complimentary investigation, the mean-field equations for the BEC-cavity system are solved analytically as well, and the breakdown of mean-field theory for the cavity and the bosons with increasing coupling is discussed. Further applications are envisaged. | 翻訳日:2023-11-15 14:15:58 公開日:2023-11-14 |
# 深部遠距離光場再構成に基づく学習と距離推定への応用 Learning based Deep Disentangling Light Field Reconstruction and Disparity Estimation Application ( http://arxiv.org/abs/2311.08129v1 ) ライセンス: Link先を確認 | Langqing Shi, Ping Zhou | (参考訳) 光フィールドカメラは、光強度と方向を同時に記録できるため、幅広い用途がある。
光の角度分解能は、深度推定などの下流タスクでは重要であるが、ハードウェアの制限により改善が難しいことが多い。
一般のcnnは4次元の光場に結合した空間的および角的特徴の抽出が困難であるのに対し、従来の手法では、スパース光場における大きな異質性の挑戦に対してあまり効果がない傾向がある。
光電界分離機構は、4次元光電界を2次元画像形式に変換し、特徴抽出においてCNNに好適である。
本稿では,光電界拡散機構の原理を継承し,特徴抽出器の設計をさらに発展させ,高度なネットワーク構造を付加するDeep Disentangling Mechanismを提案する。
本研究では,DDASR(Deep Disentangling Mechanism)に基づく光電場再構成ネットワークを設計し,実験においてSOTAの性能を実現する。
さらに、入力ビューが2x2以上の場合、メモリ使用率が高く、再構成性能が向上し、メモリ使用量を低減できるような、深度推定の実用化のためのブロックトラバーサル角超解法を設計する。 Light field cameras have a wide range of uses due to their ability to simultaneously record light intensity and direction. The angular resolution of light fields is important for downstream tasks such as depth estimation, yet is often difficult to improve due to hardware limitations. Conventional methods tend to perform poorly against the challenge of large disparity in sparse light fields, while general CNNs have difficulty extracting spatial and angular features coupled together in 4D light fields. The light field disentangling mechanism transforms the 4D light field into 2D image format, which is more favorable for CNN for feature extraction. In this paper, we propose a Deep Disentangling Mechanism, which inherits the principle of the light field disentangling mechanism and further develops the design of the feature extractor and adds advanced network structure. We design a light-field reconstruction network (i.e., DDASR) on the basis of the Deep Disentangling Mechanism, and achieve SOTA performance in the experiments. In addition, we design a Block Traversal Angular Super-Resolution Strategy for the practical application of depth estimation enhancement where the input views is often higher than 2x2 in the experiments resulting in a high memory usage, which can reduce the memory usage while having a better reconstruction performance. | 翻訳日:2023-11-15 14:15:24 公開日:2023-11-14 |
# lite it fly:全変形可能なbutterflyネットワーク Lite it fly: An All-Deformable-Butterfly Network ( http://arxiv.org/abs/2311.08125v1 ) ライセンス: Link先を確認 | Rui Lin, Jason Chun Lok Li, Jiajun Zhou, Binxiao Huang, Jie Ran and Ngai Wong | (参考訳) ほとんどのディープニューラルネットワーク(dnn)は、基本的に畳み込み層および/または完全連結層から構成されており、線形変換はフィルタ行列と特徴テンソルを列に配置したデータ行列との積としてキャストすることができる。
最近提案された変形可能な蝶(DeBut)は、フィルタ行列を一般化された蝶のような要素に分解し、従来のプルーニングやローランク分解の手法に直交するネットワーク圧縮を実現する。
この研究は、DeButと、DeButレイヤの実験的に優れたパフォーマンスを説明する奥行きと点方向の畳み込みの体系的な階層との密接な関係を明らかにする。
自動初期鎖生成器の開発により,dnnを全ての初期層に均質化することで,極端にスパーシティと圧縮を実現できることを示す。
様々な例とハードウェアベンチマークがAll-DeButネットワークの利点を検証する。
特に、ポイントネットを 5% の精度低下で 5% のパラメータに圧縮することは可能であり、これは他の圧縮スキームでは達成できない記録である。 Most deep neural networks (DNNs) consist fundamentally of convolutional and/or fully connected layers, wherein the linear transform can be cast as the product between a filter matrix and a data matrix obtained by arranging feature tensors into columns. The lately proposed deformable butterfly (DeBut) decomposes the filter matrix into generalized, butterflylike factors, thus achieving network compression orthogonal to the traditional ways of pruning or low-rank decomposition. This work reveals an intimate link between DeBut and a systematic hierarchy of depthwise and pointwise convolutions, which explains the empirically good performance of DeBut layers. By developing an automated DeBut chain generator, we show for the first time the viability of homogenizing a DNN into all DeBut layers, thus achieving an extreme sparsity and compression. Various examples and hardware benchmarks verify the advantages of All-DeBut networks. In particular, we show it is possible to compress a PointNet to < 5% parameters with < 5% accuracy drop, a record not achievable by other compression schemes. | 翻訳日:2023-11-15 14:14:59 公開日:2023-11-14 |
# メモリベース変圧器のメモリ効率向上手法 Memory-efficient Stochastic methods for Memory-based Transformers ( http://arxiv.org/abs/2311.08123v1 ) ライセンス: Link先を確認 | Vishwajit Kumar Vishnu, C. Chandra Sekhar | (参考訳) メモリベースのトランスをトレーニングするには大量のメモリが必要であり、非常に非効率である。
本稿では,長距離文脈問題によく用いられるメモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
本実験では,メモリベーストランスモデルのベースラインモデルとしてTransformer-XLを検討した。
結果モデルであるskip cross-head transformerxlは、文字レベルの言語モデリングタスクのベースラインを同様のパラメータで上回り、約20%少ないパラメータで単語レベルの言語モデリングタスクのベースラインを上回っています。
提案手法ではメモリの追加は不要である。
また,マルチグルータスクにおけるスコアの標準偏差を約30%削減し,同様の性能を示すbertの正規化機構の有効性を実証した。 Training Memory-based transformers can require a large amount of memory and can be quite inefficient. We propose a novel two-phase training mechanism and a novel regularization technique to improve the training efficiency of memory-based transformers, which are often used for long-range context problems. For our experiments, we consider transformer-XL as our baseline model which is one of memorybased transformer models. We show that our resultant model, Skip Cross-head TransformerXL, outperforms the baseline on character level language modeling task with similar parameters and outperforms the baseline on word level language modelling task with almost 20% fewer parameters. Our proposed methods do not require any additional memory. We also demonstrate the effectiveness of our regularization mechanism on BERT which shows similar performance with reduction in standard deviation of scores of around 30% on multiple GLUE tasks. | 翻訳日:2023-11-15 14:14:39 公開日:2023-11-14 |
# 悩みと音楽AI:フェミニストの音楽AIに向けての考察 Caring Trouble and Musical AI: Considerations towards a Feminist Musical AI ( http://arxiv.org/abs/2311.08120v1 ) ライセンス: Link先を確認 | Kelsey Cotton and K{\i}van\c{c} Tatar | (参考訳) 相互作用のための材料と媒体としてのAIの倫理は、音楽と芸術の実践の文脈において、濁った水に残っている。
分野の学際性は、問題を評価するための学際的方法論を必要とし、音楽的応用において「レジデント」なAIツールの継承を批判する関心とケアの問題を明らかにしている。
この論文は、これらの濁った水を解き放つために、作者のHolly Herndon氏のように生のオーディオを生成するディープニューラルネットワークであるHolly+の例を批判的に検証する。
仮説的フェミニズムとケア倫理の理論的懸念と考察から、我々はホリー+の周辺で振動する構造、枠組み、仮定を慎重に悩ます。
我々は,音楽-aiエージェントとシステムデザインに投機的フェミニズムとケアを統合するための今後の方向性について,いくつかの考察と考察を行っている。 The ethics of AI as both material and medium for interaction remains in murky waters within the context of musical and artistic practice. The interdisciplinarity of the field is revealing matters of concern and care, which necessitate interdisciplinary methodologies for evaluation to trouble and critique the inheritance of "residue-laden" AI-tools in musical applications. Seeking to unsettle these murky waters, this paper critically examines the example of Holly+, a deep neural network that generates raw audio in the likeness of its creator Holly Herndon. Drawing from theoretical concerns and considerations from speculative feminism and care ethics, we care-fully trouble the structures, frameworks and assumptions that oscillate within and around Holly+. We contribute with several considerations and contemplate future directions for integrating speculative feminism and care into musical-AI agent and system design, derived from our critical feminist examination. | 翻訳日:2023-11-15 14:14:24 公開日:2023-11-14 |
# グラフニューラルネットワークの近傍説明可能性の評価 Evaluating Neighbor Explainability for Graph Neural Networks ( http://arxiv.org/abs/2311.08118v1 ) ライセンス: Link先を確認 | Oscar Llorente, P\'eter Vaderna, S\'andor Laki, Roland Kotrocz\'o, Rita Csoma and J\'anos M\'ark Szalai-Gindl | (参考訳) グラフニューラルネットワーク(GNN)の説明可能性は、ここ数年で成長している新しい分野である。
本稿では,gnnのノード分類において,各ノードがいかに重要かを判断する問題と,そのタスクの性能を測定する方法について述べる。
これを実現するために, 様々な説明可能性法を改訂し, 4つの新しい指標を提示する。
以上の結果から,GNN領域における勾配に基づく手法による説明の相違はほとんどないことがわかった。
さらに、自己ループのないGNNを使用する場合、多くの説明可能性技術は重要な隣人を識別できなかった。 Explainability in Graph Neural Networks (GNNs) is a new field growing in the last few years. In this publication we address the problem of determining how important is each neighbor for the GNN when classifying a node and how to measure the performance for this specific task. To do this, various known explainability methods are reformulated to get the neighbor importance and four new metrics are presented. Our results show that there is almost no difference between the explanations provided by gradient-based techniques in the GNN domain. In addition, many explainability techniques failed to identify important neighbors when GNNs without self-loops are used. | 翻訳日:2023-11-15 14:14:07 公開日:2023-11-14 |
# LLMの幻覚の分類・緩和への展望 Insights into Classifying and Mitigating LLMs' Hallucinations ( http://arxiv.org/abs/2311.08117v1 ) ライセンス: Link先を確認 | Alessandro Bruno, Pier Luigi Mazzeo, Aladine Chetouani, Marouane Tliba, Mohamed Amine Kerkouri | (参考訳) 多様なAIアプリケーションにまたがる大規模言語モデル(LLM)の普及は、テキストマイニング、テキスト生成、質問応答など、いくつかのタスクで得られた卓越した成果の証明である。
しかし、LSMは欠点を免除するものではない。
最も関心のある側面の1つは「幻覚」として知られる新興の問題現象である。
テキスト生成システム、特に質問応答システムはLLMに依存しており、誤った情報や誤解を招く可能性がある。
本稿では,AI幻覚の根本原因を解明し,人工知能におけるその意義を明らかにする。
特に、ハロシン化分類はいくつかのタスク(機械翻訳、質問と回答、対話システム、要約システム、LLMを用いた知識グラフ、視覚質問回答)に取り組みます。
さらに,LLMの全体的な信頼性を高めることを目的として,幻覚を緩和するための潜在的戦略を検討する。
我々は,HeReFaNMi(Health-Related Fake News Mitigation)プロジェクトにおいて,インターネット上でのHealth-Related Fake Newsの拡散に対抗するために,NGI Searchに寛大に支援されている。
この取り組みは、進化するAI技術の時代の情報拡散の完全性を保護するための共同努力を表している。 The widespread adoption of large language models (LLMs) across diverse AI applications is proof of the outstanding achievements obtained in several tasks, such as text mining, text generation, and question answering. However, LLMs are not exempt from drawbacks. One of the most concerning aspects regards the emerging problematic phenomena known as "Hallucinations". They manifest in text generation systems, particularly in question-answering systems reliant on LLMs, potentially resulting in false or misleading information propagation. This paper delves into the underlying causes of AI hallucination and elucidates its significance in artificial intelligence. In particular, Hallucination classification is tackled over several tasks (Machine Translation, Question and Answer, Dialog Systems, Summarisation Systems, Knowledge Graph with LLMs, and Visual Question Answer). Additionally, we explore potential strategies to mitigate hallucinations, aiming to enhance the overall reliability of LLMs. Our research addresses this critical issue within the HeReFaNMi (Health-Related Fake News Mitigation) project, generously supported by NGI Search, dedicated to combating Health-Related Fake News dissemination on the Internet. This endeavour represents a concerted effort to safeguard the integrity of information dissemination in an age of evolving AI technologies. | 翻訳日:2023-11-15 14:13:56 公開日:2023-11-14 |
# 脳波データからの学習を理解する:隠れマルコフモデルと混合モデルに基づく機械学習と特徴工学の組み合わせ Understanding learning from EEG data: Combining machine learning and feature engineering based on hidden Markov models and mixed models ( http://arxiv.org/abs/2311.08113v1 ) ライセンス: Link先を確認 | Gabriel Rodrigues Palma, Conor Thornberry, Se\'an Commins, Rafael de Andrade Moral | (参考訳) 4-8hzのテタ振動は、ナビゲーションタスク中の空間学習と記憶機能において重要な役割を果たす。
前頭蓋振動は空間ナビゲーションや記憶において重要な役割を担っていると考えられている。
脳波(eeg)データセットは非常に複雑であり、行動に関連する神経信号の変化は解釈が困難である。
しかし、複雑なデータ構造、特に機械学習に基づく技術を調べるために、複数の解析手法が利用可能である。
これらの手法は高い分類性能を示し、特徴工学と組み合わせることでこれらの手法の能力を高める。
本稿では,脳波データから特徴を抽出するために隠れマルコフと線形混合効果モデルを提案する。
2つの主要な実験(初回, 最終回)と2つの条件(初回, ノンラーナー)において, 前頭脳波データから得られた特徴に基づき, 学習者および非ラーナー参加者の分類における6つの機械学習手法(Polynomial Support Vector Machines, Non-linear Support Vector Machines, Random Forests, K-Nearest Neighbours, Ridge, Deep Neural Networks)の性能解析を行った。
また,脳波データを前処理するために異なる標準化手法が分類性能にどのように寄与するかを分析した。
アイドル時間や平均速度などの座標に基づく特徴を含む同一被験者から収集したデータと,各試験の分類性能を比較した。
より多くの機械学習手法が座標データを用いてより良い分類を行うことがわかった。
しかし、深層ニューラルネットワークのみが、theta eegデータのみを使用して、roc曲線の80%以上の領域を達成した。
その結果,脳波データの標準化と深層ニューラルネットワークの利用により,空間学習課題における学習者と非学習者の分類が向上することが示唆された。 Theta oscillations, ranging from 4-8 Hz, play a significant role in spatial learning and memory functions during navigation tasks. Frontal theta oscillations are thought to play an important role in spatial navigation and memory. Electroencephalography (EEG) datasets are very complex, making any changes in the neural signal related to behaviour difficult to interpret. However, multiple analytical methods are available to examine complex data structure, especially machine learning based techniques. These methods have shown high classification performance and the combination with feature engineering enhances the capability of these methods. This paper proposes using hidden Markov and linear mixed effects models to extract features from EEG data. Based on the engineered features obtained from frontal theta EEG data during a spatial navigation task in two key trials (first, last) and between two conditions (learner and non-learner), we analysed the performance of six machine learning methods (Polynomial Support Vector Machines, Non-linear Support Vector Machines, Random Forests, K-Nearest Neighbours, Ridge, and Deep Neural Networks) on classifying learner and non-learner participants. We also analysed how different standardisation methods used to pre-process the EEG data contribute to classification performance. We compared the classification performance of each trial with data gathered from the same subjects, including solely coordinate-based features, such as idle time and average speed. We found that more machine learning methods perform better classification using coordinate-based data. However, only deep neural networks achieved an area under the ROC curve higher than 80% using the theta EEG data alone. Our findings suggest that standardising the theta EEG data and using deep neural networks enhances the classification of learner and non-learner subjects in a spatial learning task. | 翻訳日:2023-11-15 14:13:32 公開日:2023-11-14 |
# 検索誘導型コントラスト学習によるヘイトフルネス認識空間の学習によるヘイトフルミーム検出の改善 Improving hateful memes detection via learning hatefulness-aware embedding space through retrieval-guided contrastive learning ( http://arxiv.org/abs/2311.08110v1 ) ライセンス: Link先を確認 | Jingbiao Mei, Jinghong Chen, Weizhe Lin, Bill Byrne, Marcus Tomalin | (参考訳) 憎しみ深いミームがインターネット上で大きな関心事として浮上している。
これらのミームは画像とテキストの組み合わせであり、しばしば個々の意味とは大きく異なるメッセージを伝達する。
したがって、憎しみのあるミームを検出するには、視覚とテキストのモダリティを共同で理解する必要がある。
しかし,本研究では,既存のCLIP系システムの埋め込み空間には,適切なヘイトフルネス分類に不可欠なミームの微妙な違いに対する感受性が欠如していることを明らかにする。
この問題に対処するために,検索誘導型コントラスト学習によるヘイトフルネスを考慮した埋め込み空間の構築を提案する。
具体的には、強陰性および擬似金型サンプルを用いて埋め込み空間を訓練する補助損失を加える。
提案手法は,AUROC 86.7 の HatefulMemes データセット上での最先端性能を実現する。
とくに、FlamingoやLLaVAのような細調整された大規模マルチモーダルモデルよりも優れている。
最後に,データベースからのトレーニングで見つからないデータに基づいてヘイトフルネスの分類を行うことのできる,検索に基づくヘイトフルミーム検出システムを示す。
これにより、開発者は、インターネット上で常に進化するヘイトフルミームの風景の中で、現実のサービスにとって望ましい機能である、リトレーニングなしで新しいデータを追加するだけで、ヘイトフルミーム検出システムを更新できる。 Hateful memes have emerged as a significant concern on the Internet. These memes, which are a combination of image and text, often convey messages vastly different from their individual meanings. Thus, detecting hateful memes requires the system to jointly understand the visual and textual modalities. However, our investigation reveals that the embedding space of existing CLIP-based systems lacks sensitivity to subtle differences in memes that are vital for correct hatefulness classification. To address this issue, we propose constructing a hatefulness-aware embedding space through retrieval-guided contrastive training. Specifically, we add an auxiliary loss that utilizes hard negative and pseudo-gold samples to train the embedding space. Our approach achieves state-of-the-art performance on the HatefulMemes dataset with an AUROC of 86.7. Notably, our approach outperforms much larger fine-tuned Large Multimodal Models like Flamingo and LLaVA. Finally, we demonstrate a retrieval-based hateful memes detection system, which is capable of making hatefulness classification based on data unseen in training from a database. This allows developers to update the hateful memes detection system by simply adding new data without retraining, a desirable feature for real services in the constantly-evolving landscape of hateful memes on the Internet. | 翻訳日:2023-11-15 14:12:56 公開日:2023-11-14 |
# 多項式多元局所測定による多体エントロピーと絡み合い Many-body entropies and entanglement from polynomially-many local measurements ( http://arxiv.org/abs/2311.08108v1 ) ライセンス: Link先を確認 | Beno\^it Vermersch, Marko Ljubotina, J. Ignacio Cirac, Peter Zoller, Maksym Serbyn, Lorenzo Piroli | (参考訳) ランダム化測定(RM)は、複雑な多体量子系を探索する実用的なスキームを提供する。
局所的な情報を抽出する非常に強力なツールであるが、エントロピーや二成分の絡み合いのようなグローバルな性質は調査が難しく、多くの測定値や古典的な後処理リソースが必要となる。
本研究では,大域的エントロピーと混合状態絡み合いを部分遷移(PT)モーメントで推定する問題に対処し,空間相関長が有限であるという仮定の下で効率的な推定戦略が存在することを示す。
本研究では,一次元システムに着目し,局所サブシステムに関する情報からエントロピーとptモーメントを再構成できるシステム密度行列上の近似分解条件(afcs)のセットを同定する。
rmツールボックスと組み合わせることで、測定対象の状態がafcsを満たすと仮定し、多項式式測定と後処理操作のみを必要とする、エントロピーおよびエンタングルメント推定の簡単な戦略が得られる。
afcは有限深さの量子回路状態と変換不変行列積密度作用素を持ち、局所ハミルトニアンの熱状態を含むより一般的な物理的に興味深いケースで満たされていることを数値的に証明する。
我々は、この手法は、今日の量子プラットフォームで利用可能な多数の量子ビットの2成分混合状態の絡み合いを検出するのに効果的であると主張する。 Randomized measurements (RMs) provide a practical scheme to probe complex many-body quantum systems. While they are a very powerful tool to extract local information, global properties such as entropy or bipartite entanglement remain hard to probe, requiring a number of measurements or classical post-processing resources growing exponentially in the system size. In this work, we address the problem of estimating global entropies and mixed-state entanglement via partial-transposed (PT) moments, and show that efficient estimation strategies exist under the assumption that all the spatial correlation lengths are finite. Focusing on one-dimensional systems, we identify a set of approximate factorization conditions (AFCs) on the system density matrix which allow us to reconstruct entropies and PT moments from information on local subsystems. Combined with the RM toolbox, this yields a simple strategy for entropy and entanglement estimation which is provably accurate assuming that the state to be measured satisfies the AFCs, and which only requires polynomially-many measurements and post-processing operations. We prove that the AFCs hold for finite-depth quantum-circuit states and translation-invariant matrix-product density operators, and provide numerical evidence that they are satisfied in more general, physically-interesting cases, including thermal states of local Hamiltonians. We argue that our method could be practically useful to detect bipartite mixed-state entanglement for large numbers of qubits available in today's quantum platforms. | 翻訳日:2023-11-15 14:12:32 公開日:2023-11-14 |
# 学習型正常老化テンプレートを用いたアルツハイマー病を正常老化から遠ざける変形型形態計測フレームワーク A deformation-based morphometry framework for disentangling Alzheimer's disease from normal aging using learned normal aging templates ( http://arxiv.org/abs/2311.08176v1 ) ライセンス: Link先を確認 | Jingru Fu, Daniel Ferreira, \"Orjan Smedby, Rodrigo Moreno | (参考訳) アルツハイマー病と正常な老化はどちらも脳萎縮を特徴とする。
AD関連脳萎縮が老化を加速させるか、あるいは正常老化と異なる神経変性過程を示すかは未解決のままである。
さらに,AD関連脳萎縮を正常な老化から正確に遠ざけることは複雑である。
本研究では, 形態学的MRI画像から, 正常な加齢およびAD特異的萎縮パターンを推定するための変形型形態計測フレームワークを提案する。
まず,認知正常(CN)被験者の年齢依存テンプレートを作成するために,深層学習に基づく手法を活用する。
これらのテンプレートは、CN集団の正常な老化萎縮パターンをモデル化する。
次に, 学習した微分型登録を用いて, 1年間の正常な老化パターンをボクセルレベルで推定する。
テストイメージを60年前のCNテンプレートに第2ステップで登録する。
最後に、この登録と1年間の正常老化パターンのアラインメントを測定することにより、正常老化および広告特化スコアを推定する。
この手法を1014T1強調MRIスキャンを用いてOASIS3データセット上で開発・評価した。
そのうち326検体はCN患者で、688検体は臨床認知症評価(CDR)スコアで定義される臨床重症度が異なる段階でADと診断された。
以上の結果より,AD患者では,心室は正常経年変化が進行する傾向がみられた。
一方, 海馬および扁桃体領域は, 正常な加齢とad特異的な要因の両方に影響された。
興味深いことに、海馬と扁桃体領域は、早期臨床段階における被験者の正常な加齢パターンよりも、後期臨床段階においてAD特異的スコアが上昇した。
私たちのコードはhttps://github.com/Fjr9516/DBM_with_DLで無料で利用可能です。 Alzheimer's Disease and normal aging are both characterized by brain atrophy. The question of whether AD-related brain atrophy represents accelerated aging or a neurodegeneration process distinct from that in normal aging remains unresolved. Moreover, precisely disentangling AD-related brain atrophy from normal aging in a clinical context is complex. In this study, we propose a deformation-based morphometry framework to estimate normal aging and AD-specific atrophy patterns of subjects from morphological MRI scans. We first leverage deep-learning-based methods to create age-dependent templates of cognitively normal (CN) subjects. These templates model the normal aging atrophy patterns in a CN population. Then, we use the learned diffeomorphic registration to estimate the one-year normal aging pattern at the voxel level. We register the testing image to the 60-year-old CN template in the second step. Finally, normal aging and AD-specific scores are estimated by measuring the alignment of this registration with the one-year normal aging pattern. The methodology was developed and evaluated on the OASIS3 dataset with 1,014 T1-weighted MRI scans. Of these, 326 scans were from CN subjects, and 688 scans were from individuals clinically diagnosed with AD at different stages of clinical severity defined by clinical dementia rating (CDR) scores. The results show that ventricles predominantly follow an accelerated normal aging pattern in subjects with AD. In turn, hippocampi and amygdala regions were affected by both normal aging and AD-specific factors. Interestingly, hippocampi and amygdala regions showed more of an accelerated normal aging pattern for subjects during the early clinical stages of the disease, while the AD-specific score increases in later clinical stages. Our code is freely available at https://github.com/Fjr9516/DBM_with_DL. | 翻訳日:2023-11-15 14:05:51 公開日:2023-11-14 |
# マイクロサービスAPIの実践的進化 - 戦略と課題に関する研究 Microservice API Evolution in Practice: A Study on Strategies and Challenges ( http://arxiv.org/abs/2311.08175v1 ) ライセンス: Link先を確認 | Alexander Lercher, Johann Glock, Christian Macho, Martin Pinzger | (参考訳) 今日では、多くの企業が、アプリケーションプログラミングインターフェース(api)を介して通信する疎結合マイクロサービスのセットとして、ソフトウェアシステムを設計、開発している。
疎結合はメンテナンス性、スケーラビリティ、フォールトトレランスを改善するが、API進化プロセスに新たな課題をもたらす。
関連する作業は、コミュニケーションと統合を主要なapi進化の課題と認識したが、それらを軽減するための根本的な理由や研究の指示は提供しなかった。
本稿では、実践中のマイクロサービスapiの進化戦略と課題を特定し、それらの関係のより広い視点を得ることを目的とする。
11の企業で,開発者,アーキテクト,マネージャと17の半構造化インタビューを実施し,接地理論で使用されるオープンコーディングによるインタビューを分析した。
合計6つの戦略とREST(Representational State Transfer)とメッセージブローカによるイベント駆動通信の6つの課題を特定しました。
戦略は主にAPIの後方互換性、バージョニング、チーム間の緊密なコラボレーションに焦点を当てている。
課題には、変更影響分析の取り組み、変更の非効率なコミュニケーション、古いバージョンへの消費者依存、API設計の劣化などが含まれる。
私たちは、マイクロサービスapiの進化において、課題とその対処戦略から生じる2つの重要な問題を定義しました。
この2つの問題を緩和するために,変化の影響分析の自動化と,変化の効果的なコミュニケーションをオープンリサーチの方向性として検討することを提案する。 Nowadays, many companies design and develop their software systems as a set of loosely coupled microservices that communicate via their Application Programming Interfaces (APIs). While the loose coupling improves maintainability, scalability, and fault tolerance, it poses new challenges to the API evolution process. Related works identified communication and integration as major API evolution challenges but did not provide the underlying reasons and research directions to mitigate them. In this paper, we aim to identify microservice API evolution strategies and challenges in practice and gain a broader perspective of their relationships. We conducted 17 semi-structured interviews with developers, architects, and managers in 11 companies and analyzed the interviews with open coding used in grounded theory. In total, we identified six strategies and six challenges for REpresentational State Transfer (REST) and event-driven communication via message brokers. The strategies mainly focus on API backward compatibility, versioning, and close collaboration between teams. The challenges include change impact analysis efforts, ineffective communication of changes, and consumer reliance on outdated versions, leading to API design degradation. We defined two important problems in microservice API evolution resulting from the challenges and their coping strategies: tight organizational coupling and consumer lock-in. To mitigate these two problems, we propose automating the change impact analysis and investigating effective communication of changes as open research directions. | 翻訳日:2023-11-15 14:05:01 公開日:2023-11-14 |
# Vision-Language Instruction Tuning: レビューと分析 Vision-Language Instruction Tuning: A Review and Analysis ( http://arxiv.org/abs/2311.08172v1 ) ライセンス: Link先を確認 | Chen Li, Yixiao Ge, Dian Li, and Ying Shan | (参考訳) インストラクションチューニングは,LLMが命令実行を一般化し,ユーザの好みに適応する能力を向上させることを目的として,LLM(Large Language Models)にとって不可欠なトレーニングフェーズである。
LLMへのマルチモーダルデータの導入が進むにつれて、純粋なテキスト命令よりも複雑な特徴を示す視覚言語命令チューニングのパフォーマンスへの関心が高まっている。
本稿では,マルチモーダルLLMにおける最新の視覚言語チューニング設定とデータセットを体系的にレビューし,高品質な視覚言語チューニングデータが持つべき特性を要約する。
本稿では,これらの特徴を視覚言語による命令データ構築の基本原理として捉え,データ収集,命令生成,品質管理モジュールからなる完全な構築パイプラインを提案する。
本稿では,構築した命令データに基づいて,広範に使用されている3つのマルチモーダルLCMに対して視覚言語指導を行い,それに対応するメトリクスについて広範な実験を行い,提案した構成原理の合理性を示す。
この論文に関連するコードとデータセットは、 \url{https://github.com/palchenli/VL-Instruction-Tuning}でオープンソース化されている。 Instruction tuning is an essential supervised training phase for Large Language Models (LLMs), with the goal of enhancing LLMs' capacity to generalize instruction execution and adapt to user preferences. With the growing incorporation of multi-modal data into LLMs, there is an increasing interest in the performance of vision-language instruction tuning which presents more complex features in comparison to pure text instructions. In this paper, we systematically review the latest vision-language instruction tuning settings and datasets in multi-modal LLMs and summarize the characteristics that high-quality vision-language tuning data should have. We consider these characteristics as the foundational principles for constructing vision-language instruction data and propose a complete construction pipeline consisting of data collection, instruction generation, and quality control modules that incorporate meticulously designed instruction property evaluation indicators. We perform vision-language instruction tuning on three widely used multi-modal LLMs based on the instruction data we constructed and conduct extensive experiments on the corresponding metrics to demonstrate the rationality of the construction principles proposed in this paper. The code and dataset related to this paper have been open-sourced at \url{https://github.com/palchenli/VL-Instruction-Tuning}. | 翻訳日:2023-11-15 14:04:02 公開日:2023-11-14 |
# ニューラル格子低減 : 自己監督型幾何学的深層学習アプローチ Neural Lattice Reduction: A Self-Supervised Geometric Deep Learning Approach ( http://arxiv.org/abs/2311.08170v1 ) ライセンス: Link先を確認 | Giovanni Luca Marchetti, Gabriele Cesa, Kumar Pratik, Arash Behboodi | (参考訳) 格子還元は、与えられた格子の直交基底を見つけることを目的とした組合せ最適化問題である。
本研究では,ディープラーニング手法による格子削減について述べる。
因子化された単モジュラ行列を出力するディープニューラルモデルを設計し,非直交格子基底をペナルティ化することにより,自己教師あり方式で学習する。
格子還元の対称性をモデルに組み入れ、適切な連続群および離散群に対して不変かつ同変とする。 Lattice reduction is a combinatorial optimization problem aimed at finding the most orthogonal basis in a given lattice. In this work, we address lattice reduction via deep learning methods. We design a deep neural model outputting factorized unimodular matrices and train it in a self-supervised manner by penalizing non-orthogonal lattice bases. We incorporate the symmetries of lattice reduction into the model by making it invariant and equivariant with respect to appropriate continuous and discrete groups. | 翻訳日:2023-11-15 14:03:34 公開日:2023-11-14 |
# ランダムベクトルによる時間一様信頼球 Time-Uniform Confidence Spheres for Means of Random Vectors ( http://arxiv.org/abs/2311.08168v1 ) ライセンス: Link先を確認 | Ben Chugg, Hongjian Wang, Aaditya Ramdas | (参考訳) 我々は,すべての試料サイズに対して高い確率のランダムベクトルの平均を含む,時間均一な信頼球列(CSS)を導出し,研究する。
カトーニとジュリーニのオリジナル作品に触発されて、それらの分析を統一して拡張し、シーケンシャルな設定と様々な分布的仮定の両方を扱います。
より具体的には、有界ランダムベクトルのための経験的ベルンシュタインcss(新しい経験的ベルンシュタイン信頼区間で推定される)、サブ-$\psi$ランダムベクトルのためのcss、シーケンシャルに有効なカトーニ・ジュリーニ推定子に基づく重み付きランダムベクトルのためのcssを含む。
最後に、Huberノイズによる汚染に対して堅牢な経験的Bernstein CSSのバージョンを提供する。 We derive and study time-uniform confidence spheres - termed confidence sphere sequences (CSSs) - which contain the mean of random vectors with high probability simultaneously across all sample sizes. Inspired by the original work of Catoni and Giulini, we unify and extend their analysis to cover both the sequential setting and to handle a variety of distributional assumptions. More concretely, our results include an empirical-Bernstein CSS for bounded random vectors (resulting in a novel empirical-Bernstein confidence interval), a CSS for sub-$\psi$ random vectors, and a CSS for heavy-tailed random vectors based on a sequentially valid Catoni-Giulini estimator. Finally, we provide a version of our empirical-Bernstein CSS that is robust to contamination by Huber noise. | 翻訳日:2023-11-15 14:03:17 公開日:2023-11-14 |
# mechagents: 大規模言語モデルによるマルチエージェントコラボレーションは、メカニカルな問題を解決し、新しいデータを生成し、知識を統合することができる MechAgents: Large language model multi-agent collaborations can solve mechanics problems, generate new data, and integrate knowledge ( http://arxiv.org/abs/2311.08166v1 ) ライセンス: Link先を確認 | Bo Ni and Markus J. Buehler | (参考訳) 数値的手法を用いて力学問題を解くには、関連する知識と理論を検索し、コードを構築し、実行し、結果を解析する包括的な知的能力が必要である。
新たなAIメソッドは、ディープサロゲートモデルやさまざまなデータ分析戦略を通じて、エンドツーエンドの問題を解決する効果的なアプローチを提供することができるが、知識をトレーニングを通じてパラメトリック補完に組み込むことで、数学的あるいは物理的洞察を取り入れる際の柔軟性を損なうことが多い。
複数の動的に対話する大規模言語モデル(LLM)の多様な機能を活用することで、従来のアプローチの限界を克服し、物理に着想を得た新しい生成機械学習プラットフォームを開発することができる。
一連のaiエージェントは、自律的なコラボレーションを通じて、弾力性の問題に対して実証された、メカニカルなタスクを解決できる。
2エージェントチームは、様々なフレーバー(境界条件、領域ジオメトリー、メッシュ、小/有限変形、線形/超弾性構成則など)の古典的弾性問題を解くために有限要素法を適用するために、効果的に書き、実行し、自己正しいコードを作成することができる。
より複雑なタスクのために、我々は計画、定式化、コーディング、実行、プロセスと結果を批判する作業の分割を強化したより大きなエージェントグループを構築します。
エージェントは相互に修正し、ソリューションの理解、定式化、検証においてチームワーク全体のパフォーマンスを改善する。
本フレームワークは,言語モデルのインテリジェンス,物理に基づくモデリングの信頼性,多種多様なエージェント間の動的コラボレーションを統括する可能性を示し,工学的問題を解決するための新たな道を開く。 Solving mechanics problems using numerical methods requires comprehensive intelligent capability of retrieving relevant knowledge and theory, constructing and executing codes, analyzing the results, a task that has thus far mainly been reserved for humans. While emerging AI methods can provide effective approaches to solve end-to-end problems, for instance via the use of deep surrogate models or various data analytics strategies, they often lack physical intuition since knowledge is baked into the parametric complement through training, offering less flexibility when it comes to incorporating mathematical or physical insights. By leveraging diverse capabilities of multiple dynamically interacting large language models (LLMs), we can overcome the limitations of conventional approaches and develop a new class of physics-inspired generative machine learning platform, here referred to as MechAgents. A set of AI agents can solve mechanics tasks, here demonstrated for elasticity problems, via autonomous collaborations. A two-agent team can effectively write, execute and self-correct code, in order to apply finite element methods to solve classical elasticity problems in various flavors (different boundary conditions, domain geometries, meshes, small/finite deformation and linear/hyper-elastic constitutive laws, and others). For more complex tasks, we construct a larger group of agents with enhanced division of labor among planning, formulating, coding, executing and criticizing the process and results. The agents mutually correct each other to improve the overall team-work performance in understanding, formulating and validating the solution. Our framework shows the potential of synergizing the intelligence of language models, the reliability of physics-based modeling, and the dynamic collaborations among diverse agents, opening novel avenues for automation of solving engineering problems. | 翻訳日:2023-11-15 14:03:01 公開日:2023-11-14 |
# 一般化量子干渉計を用いたバイフォトンの完全キャラクタリゼーション Full characterization of biphotons with a generalized quantum interferometer ( http://arxiv.org/abs/2311.08164v1 ) ライセンス: Link先を確認 | Baihong Li, Changhua Chen, Ruifang Dong, Shougang Zhang, Rui-Bo Jin | (参考訳) 時間周波数自由度における絡み合った光子(biphotons)は基礎物理学と高度な量子技術の両方において重要な役割を果たす。
それらを完全に特徴付ける方法が、重要な科学的問題になる。
本稿では、干渉計の1つの腕に周波数シフトを導入することで、理論上は1つの干渉計の周波数和と差の両方に関連する2光子の振幅と位相を同時に測定し、2光子の完全なトモグラフィを行う一般化された組み合わせ量子干渉計を提案する。
本研究は,biphotonsの部分トモグラフィのみを許容するhong-ou-mandelおよびn00n状態干渉計と比較し,実験可能性についても検討した。
これは交換対称性を持つ任意の2光子状態のフルキャラクタリゼーションのための代替方法であり、高次元量子情報処理の有用なツールとなるかもしれない。 Entangled photons (biphotons) in the time-frequency degree of freedom play an important role in both foundational physics and advanced quantum technologies. How to fully characterize them becomes a key scientific issue. Here, by introducing a frequency shift in one arm of interferometers, we propose theoretically a generalized combination quantum interferometer which allows simultaneous measurement of the amplitude and phase of biphotons associated with both frequency sum and difference in a single interferometer, performing the full tomography of biphotons. The results are compared with the Hong-Ou-Mandel and N00N state interferometers which only allows to perform the partial tomography of biphotons, and an experimental feasibility is also discussed. This provides an alternative method for full characterization of an arbitrary two-photon state with exchange symmetry and might become a useful tool for high-dimensional quantum information processing. | 翻訳日:2023-11-15 14:02:27 公開日:2023-11-14 |
# DynamicSurf: 最適特徴格子を用いた動的ニューラルネットワークRGB-D表面再構成 DynamicSurf: Dynamic Neural RGB-D Surface Reconstruction with an Optimizable Feature Grid ( http://arxiv.org/abs/2311.08159v1 ) ライセンス: Link先を確認 | Mirgahney Mohamed and Lourdes Agapito | (参考訳) モノクロRGB-Dビデオから非剛面の高忠実度3Dモデリングのためのモデルフリーなニューラル暗黙表面再構成法であるDynamicSurfを提案する。
変形面の単分子配列におけるマルチビューキューの欠如に対処するため、DynamicSurfは3次元再構成の最も困難な設定の1つとして、深度、表面の正規度、RGB損失を活用して、再構成の忠実度と最適化時間を改善する。
DynamicSurfは、表面幾何学の正準表現を現在のフレームにマッピングする神経変形場を学習する。
我々は、単一のMLPを使用する競合するアプローチよりも高速で正確な表面再構成をもたらす学習特徴格子として、正準表現を設計することで、現在のニューラル非剛体表面再構成モデルから離れる。
公開データセット上でDynamicSurfを実演し、純粋なMLPベースのアプローチよりも6\times$のスピードアップで、さまざまなフレームのシーケンスを最適化し、最先端の手法に匹敵する結果が得られることを示す。
プロジェクトはhttps://mirgahney.github.io//DynamicSurf.io/で入手できる。 We propose DynamicSurf, a model-free neural implicit surface reconstruction method for high-fidelity 3D modelling of non-rigid surfaces from monocular RGB-D video. To cope with the lack of multi-view cues in monocular sequences of deforming surfaces, one of the most challenging settings for 3D reconstruction, DynamicSurf exploits depth, surface normals, and RGB losses to improve reconstruction fidelity and optimisation time. DynamicSurf learns a neural deformation field that maps a canonical representation of the surface geometry to the current frame. We depart from current neural non-rigid surface reconstruction models by designing the canonical representation as a learned feature grid which leads to faster and more accurate surface reconstruction than competing approaches that use a single MLP. We demonstrate DynamicSurf on public datasets and show that it can optimize sequences of varying frames with $6\times$ speedup over pure MLP-based approaches while achieving comparable results to the state-of-the-art methods. Project is available at https://mirgahney.github.io//DynamicSurf.io/. | 翻訳日:2023-11-15 14:02:10 公開日:2023-11-14 |
# もう一度質問する:(ほとんど)すべてのシナリオで、セルフアグリメントが言語モデルの推論を改善する Ask One More Time: Self-Agreement Improves Reasoning of Language Models in (Almost) All Scenarios ( http://arxiv.org/abs/2311.08154v1 ) ライセンス: Link先を確認 | Lei Lin, Jiayi Fu, Pengli Liu, Junchen Wan, Fuzheng Zhang, Zhongyuan Wang, Di Zhang, Kun Gai | (参考訳) チェーン・オブ・シンクレット(CoT)と言語モデルの組み合わせは複雑な推論タスクにおいて促進的な結果をもたらすが、CoTプロンプトで使用される単純なグレディ・デコードは通常、反復性と局所最適性を引き起こす。
この欠点に対処するため、アンサンブル最適化は最終解集合を得るために複数の推論経路を得ようとする。
しかし、現在のアンサンブル最適化手法では、単に \textit{self-consistency}のようなルールベースの後処理を用いるか、複数の推論パスの中で最良のものを選択するタスク関連のヒューマンアノテーションに基づいた追加モデルを訓練するが、入力された質問の種類や推論パスの回答形式が不明な現実的な設定に一般化できない。
その限界を避けるために,入力質問のタイプや推論パスの回答形式が不明な場合,ほぼすべてのシナリオに適用可能な,一般化されたアンサンブル最適化手法である \textbf{self-agreement} を提案する。
まず、言語モデルのデコーダからサンプルを取得して、推論パスの \textit{diverse} 集合を生成し、その後、サンプルされた推論パスの中から最も \textit{agreed} 回答を選択することで、言語モデル \textit{one more time} に最適な回答を決定するように促す。
自己分離は、6つの公開推論ベンチマークと優れた一般化能力を同時に達成する。 Although chain-of-thought (CoT) prompting combined with language models has achieved encouraging results on complex reasoning tasks, the naive greedy decoding used in CoT prompting usually causes the repetitiveness and local optimality. To address this shortcoming, ensemble-optimization tries to obtain multiple reasoning paths to get the final answer assembly. However, current ensemble-optimization methods either simply employ rule-based post-processing such as \textit{self-consistency}, or train an additional model based on several task-related human annotations to select the best one among multiple reasoning paths, yet fail to generalize to realistic settings where the type of input questions is unknown or the answer format of reasoning paths is unknown. To avoid their limitations, we propose \textbf{self-agreement}, a generalizable ensemble-optimization method applying in almost all scenarios where the type of input questions and the answer format of reasoning paths may be known or unknown. Self-agreement firstly samples from language model's decoder to generate a \textit{diverse} set of reasoning paths, and subsequently prompts the language model \textit{one more time} to determine the optimal answer by selecting the most \textit{agreed} answer among the sampled reasoning paths. Self-agreement simultaneously achieves remarkable performance on six public reasoning benchmarks and superior generalization capabilities. | 翻訳日:2023-11-15 14:01:23 公開日:2023-11-14 |
# 電気機関車のマイニングと強化学習 When Mining Electric Locomotives Meet Reinforcement Learning ( http://arxiv.org/abs/2311.08153v1 ) ライセンス: Link先を確認 | Ying Li, Zhencai Zhu, Xiaoqiang Li, Chunyu Yang and Hao Lu | (参考訳) 炭鉱における最も重要な補助輸送設備として、現在は主に手動で電気機関車が運転されている。
しかし、複雑な炭鉱環境のため、近年は電気機関車の安全事故が頻繁に発生している。
異なる複雑な鉱業環境に適応できるマイニング電気機関車制御方法が必要である。
強化学習(Reinforcement Learning, RL)は、電気機関車の自動制御の実現に寄与する報酬を最大化するために、人工エージェントが環境の中でどのように行動を起こすべきかに関するものである。
本稿では,鉱業用電気機関車の自律制御にRLを適用する方法について述べる。
さらに,より正確な制御を実現するために,探索と搾取のバランスを良くする改良エプシロン・グリーディ(ieg)アルゴリズムを提案する。
この方法の有効性を検証するために、車両のクローズドループシミュレーションを完了できる電動機関車の自律制御のための共シミュレーションプラットフォームを構築した。
本手法は, 車両が複雑で不確実な炭鉱環境下において, 道路上の突然の障害物が発生した場合に, 車両後続の機関車が安全かつ迅速に応答できることをシミュレーションにより示す。 As the most important auxiliary transportation equipment in coal mines, mining electric locomotives are mostly operated manually at present. However, due to the complex and ever-changing coal mine environment, electric locomotive safety accidents occur frequently these years. A mining electric locomotive control method that can adapt to different complex mining environments is needed. Reinforcement Learning (RL) is concerned with how artificial agents ought to take actions in an environment so as to maximize reward, which can help achieve automatic control of mining electric locomotive. In this paper, we present how to apply RL to the autonomous control of mining electric locomotives. To achieve more precise control, we further propose an improved epsilon-greedy (IEG) algorithm which can better balance the exploration and exploitation. To verify the effectiveness of this method, a co-simulation platform for autonomous control of mining electric locomotives is built which can complete closed-loop simulation of the vehicles. The simulation results show that this method ensures the locomotives following the front vehicle safely and responding promptly in the event of sudden obstacles on the road when the vehicle in complex and uncertain coal mine environments. | 翻訳日:2023-11-15 14:00:53 公開日:2023-11-14 |
# 多言語ピアレビューによる大規模言語モデルの推論に向けて Towards Reasoning in Large Language Models via Multi-Agent Peer Review Collaboration ( http://arxiv.org/abs/2311.08152v1 ) ライセンス: Link先を確認 | Zhenran Xu, Senbao Shi, Baotian Hu, Jindi Yu, Dongfang Li, Min Zhang, Yuxiang Wu | (参考訳) 大規模言語モデル(LLM)は、一般的な自然言語処理タスクにおいて顕著な能力を示しているが、複雑な推論タスクでは不足することが多い。
近年の研究では、単モデル推論能力の境界をさらに押し上げるために、自己修正のような人間的な問題解決戦略が研究されている。
この作業では、複数のモデルを互いに修正することで、1つのモデルを"ボックスの外へステップ"させます。
学術的ピアレビュープロセスをエミュレートするマルチエージェント・コラボレーション戦略を提案する。
各エージェントは独立して独自のソリューションを構築し、他人のソリューションに関するレビューを提供し、信頼性レベルをレビューに割り当てる。
ピアレビューを受けると、エージェントは初期ソリューションを改訂する。
3種類の推論タスクに関する大規模な実験は、我々のコラボレーションアプローチが既存の方法と比較して10のデータセットすべてに優れた精度を提供することを示している。
さらに,算数推論のレビューに信頼感を組み込むことの有効性を実証し,人間と模倣するマルチエージェントのコラボレーションプロセスにおいて有望な方向性を示す。 Large Language Models (LLMs) have shown remarkable capabilities in general natural language processing tasks but often fall short in complex reasoning tasks. Recent studies have explored human-like problem-solving strategies, such as self-correct, to push further the boundary of single-model reasoning ability. In this work, we let a single model "step outside the box" by engaging multiple models to correct each other. We introduce a multi-agent collaboration strategy that emulates the academic peer review process. Each agent independently constructs its own solution, provides reviews on the solutions of others, and assigns confidence levels to its reviews. Upon receiving peer reviews, agents revise their initial solutions. Extensive experiments on three different types of reasoning tasks show that our collaboration approach delivers superior accuracy across all ten datasets compared to existing methods. Further study demonstrates the effectiveness of integrating confidence in the reviews for math reasoning, and suggests a promising direction for human-mimicking multi-agent collaboration process. | 翻訳日:2023-11-15 14:00:32 公開日:2023-11-14 |
# 弱教師付き視聴覚映像解析におけるクロスモーダル融合の再考 Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video Parsing ( http://arxiv.org/abs/2311.08151v1 ) ライセンス: Link先を確認 | Yating Xu, Conghui Hu, Gim Hee Lee | (参考訳) 従来の音声-視覚ビデオ解析では,マルチモーダル埋め込みとしてハイブリットアテンションネットワーク(HAN)を採用している。
音声と視覚のモダリティを共有ネットワークに埋め込んで、入力でクロスアテンションを行う。
しかし、そのような早期融合法は2つの非相互相関モードを強く絡み合わせ、単一モード事象を検出する際の準最適性能をもたらす。
この問題に対処するため,我々は,融合における非相関なクロスモーダルコンテキストを低減するために,メッセンジャー誘導型ミッドフュージョントランスフォーマティブを提案する。
メッセンジャーは完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。
さらに、マイクが全方向から音声イベントをキャプチャするのに対し、カメラは視野の制限された領域内でのみ視覚イベントを記録するため、視覚イベント予測のために、オーディオから不整合なクロスモーダルコンテキストが頻繁に発生する。
そこで我々は,無関係な音声情報が視覚イベント予測に与える影響を抑制するために,クロスオーディオ予測一貫性を提案する。
実験は、既存の最先端メソッドと比較して、フレームワークの優れたパフォーマンスを一貫して示しています。 Existing works on weakly-supervised audio-visual video parsing adopt hybrid attention network (HAN) as the multi-modal embedding to capture the cross-modal context. It embeds the audio and visual modalities with a shared network, where the cross-attention is performed at the input. However, such an early fusion method highly entangles the two non-fully correlated modalities and leads to sub-optimal performance in detecting single-modality events. To deal with this problem, we propose the messenger-guided mid-fusion transformer to reduce the uncorrelated cross-modal context in the fusion. The messengers condense the full cross-modal context into a compact representation to only preserve useful cross-modal information. Furthermore, due to the fact that microphones capture audio events from all directions, while cameras only record visual events within a restricted field of view, there is a more frequent occurrence of unaligned cross-modal context from audio for visual event predictions. We thus propose cross-audio prediction consistency to suppress the impact of irrelevant audio information on visual event prediction. Experiments consistently illustrate the superior performance of our framework compared to existing state-of-the-art methods. | 翻訳日:2023-11-15 14:00:16 公開日:2023-11-14 |
# 分布モデル, 回帰, 分類のための超次元変換 The Hyperdimensional Transform for Distributional Modelling, Regression and Classification ( http://arxiv.org/abs/2311.08150v1 ) ライセンス: Link先を確認 | Pieter Dewulf, Bernard De Baets, Michiel Stock | (参考訳) 超次元コンピューティング(Hyperdimensional Computing、HDC)は、未来のインテリジェントなアプリケーションにとって大きな可能性を秘めているコンピューティングパラダイムである。
1990年代にはすでに主要なアイデアが成立していたが、最近HDCは特に機械学習とデータサイエンスの分野で大きな注目を集めた。
効率性、相互運用性、説明可能性に加えて、HDCは、ニューラルネットワークからのコネクショナリストのアイデアと象徴的な側面を組み合わせる試みとして、一般化のための魅力的な特性を提供する。
近年,関数と分布を高次元ホログラフィックベクトルとして表すための深い理論的基礎を明らかにする超次元変換を導入した。
ここでは,超次元変換のパワーを幅広いデータサイエンスの聴衆に提示する。
超次元変換を理論的基礎として、機械学習の最先端のhdcアプローチへの洞察を提供する。
既存のアルゴリズムをどのように修正できるか、そしてこの変換がいかにして新しく確立されたツールボックスにつながるかを示す。
機械学習の標準回帰と分類タスクの次に,表現,学習,デコンボラブル分布,サンプリング,ベイズ推定,不確実性推定など,統計モデリングのさまざまな側面を考察した。 Hyperdimensional computing (HDC) is an increasingly popular computing paradigm with immense potential for future intelligent applications. Although the main ideas already took form in the 1990s, HDC recently gained significant attention, especially in the field of machine learning and data science. Next to efficiency, interoperability and explainability, HDC offers attractive properties for generalization as it can be seen as an attempt to combine connectionist ideas from neural networks with symbolic aspects. In recent work, we introduced the hyperdimensional transform, revealing deep theoretical foundations for representing functions and distributions as high-dimensional holographic vectors. Here, we present the power of the hyperdimensional transform to a broad data science audience. We use the hyperdimensional transform as a theoretical basis and provide insight into state-of-the-art HDC approaches for machine learning. We show how existing algorithms can be modified and how this transform can lead to a novel, well-founded toolbox. Next to the standard regression and classification tasks of machine learning, our discussion includes various aspects of statistical modelling, such as representation, learning and deconvolving distributions, sampling, Bayesian inference, and uncertainty estimation. | 翻訳日:2023-11-15 13:59:53 公開日:2023-11-14 |
# 半監督潜在過程を用いた深部生成モデルを用いた複雑疾患軌跡のモデル化 Modeling Complex Disease Trajectories using Deep Generative Models with Semi-Supervised Latent Processes ( http://arxiv.org/abs/2311.08149v1 ) ライセンス: Link先を確認 | C\'ecile Trottet, Manuel Sch\"urch, Ahmed Allam, Imon Barua, Liubov Petelytska, Oliver Distler, Anna-Maria Hoffmann-Vold, Michael Krauthammer, the EUSTAR collaborators | (参考訳) 本稿では,複雑な疾患の軌跡をモデル化・全体解析するために,潜時過程を用いた深部生成時系列手法を提案する。
我々は、観察された疾患の軌跡を解釈可能かつ包括的に説明する、根底にある生成過程の有意義な時間的潜在表現を見つけることを目的としている。
これらの潜時過程の解釈性を高めるために,確立された医学概念を用いて潜時空間を分離する半教師ありアプローチを開発した。
生成的アプローチと医療知識を組み合わせることで、医療概念をモデルに統合しながら、疾患の新たな側面を発見する能力を活用する。
本研究は, 同様の症例の発見や新たなサブタイプへのクラスタリングを含む, さらなるデータ分析および臨床仮説テストに, 学習時潜伏過程を活用できることを示唆する。
さらに,不確実性定量化を含む多変量時系列のパーソナライズされたオンラインモニタリングと予測を可能にする。
我々は,全身性硬化症をモデル化し,複雑な疾患の軌跡を捉え,新たな医学的知識を得るための機械学習モデルの可能性を示す。 In this paper, we propose a deep generative time series approach using latent temporal processes for modeling and holistically analyzing complex disease trajectories. We aim to find meaningful temporal latent representations of an underlying generative process that explain the observed disease trajectories in an interpretable and comprehensive way. To enhance the interpretability of these latent temporal processes, we develop a semi-supervised approach for disentangling the latent space using established medical concepts. By combining the generative approach with medical knowledge, we leverage the ability to discover novel aspects of the disease while integrating medical concepts into the model. We show that the learned temporal latent processes can be utilized for further data analysis and clinical hypothesis testing, including finding similar patients and clustering the disease into new sub-types. Moreover, our method enables personalized online monitoring and prediction of multivariate time series including uncertainty quantification. We demonstrate the effectiveness of our approach in modeling systemic sclerosis, showcasing the potential of our machine learning model to capture complex disease trajectories and acquire new medical knowledge. | 翻訳日:2023-11-15 13:59:35 公開日:2023-11-14 |
# 分散(非)-ベイズ推論の周波数保証 Frequentist Guarantees of Distributed (Non)-Bayesian Inference ( http://arxiv.org/abs/2311.08214v1 ) ライセンス: Link先を確認 | Bohan Wu and C\'esar A. Uribe | (参考訳) 大規模で分散化されたデータセットを分析する必要性から、分散ベイズ推論は統計学、電気工学、経済学など、様々な分野において重要な研究領域となっている。
本稿では,コミュニケーションネットワークを介して接続されたエージェント間の分散(非)ベイズ推定問題に対して,後方整合性,漸近正規性,後方収縮率などの頻繁性を確立する。
以上より,分散ベイズ推定は不確実性定量化の頑健性を高めつつ,パラメトリック効率を維持していることが示された。
また,通信グラフの設計とサイズが後部収縮率に与える影響を調べることにより,統計的効率と通信効率のトレードオフを検討する。
さらに,解析を時間変化グラフに拡張し,指数関数的家族モデル,分散ロジスティック回帰モデル,分散検出モデルに適用する。 Motivated by the need to analyze large, decentralized datasets, distributed Bayesian inference has become a critical research area across multiple fields, including statistics, electrical engineering, and economics. This paper establishes Frequentist properties, such as posterior consistency, asymptotic normality, and posterior contraction rates, for the distributed (non-)Bayes Inference problem among agents connected via a communication network. Our results show that, under appropriate assumptions on the communication graph, distributed Bayesian inference retains parametric efficiency while enhancing robustness in uncertainty quantification. We also explore the trade-off between statistical efficiency and communication efficiency by examining how the design and size of the communication graph impact the posterior contraction rate. Furthermore, We extend our analysis to time-varying graphs and apply our results to exponential family models, distributed logistic regression, and decentralized detection models. | 翻訳日:2023-11-15 13:52:34 公開日:2023-11-14 |
# パワーをアンロックする:マルチモーダル大言語モデルの競合蒸留 Unlock the Power: Competitive Distillation for Multi-Modal Large Language Models ( http://arxiv.org/abs/2311.08213v1 ) ライセンス: Link先を確認 | Xinwei Li, Li Lin, Shuai Wang, Chen Qian | (参考訳) 近年,大規模言語モデル(llms)に基づく視覚インストラクションチューニングの利用を検討することで,マルチモーダルコンテンツ生成が研究者の注目を集めている。
このようなLLMの性能と一般化能力を高めるために、事前訓練されたマルチモーダルモデル(例えば教師)からよりコンパクトなマルチモーダルLLM(学生)への知識の蒸留が注目されている。
しかし,マルチモーダルLLMの知識蒸留における指導指導の主流パラダイムは資源集約的で一方向性であり,学生と教師の相互フィードバックの可能性を無視している。
そこで我々は,教師モデルと学生モデル間の双方向フィードバックを捉え,学生モデルが学んだマルチモーダル能力を継続的に更新する,革新的な競合型マルチモーダル蒸留フレームワーク(CoMD)を提案する。
マルチモーダル前訓練とマルチモーダル競合蒸留の2段階からなる。
第1段階では、多数のフィルタ付きマルチモーダルデータセットで学生モデルを事前学習する。
第2段階は、生徒と教師モデル間の双方向の知識伝達を促進する。
多様なデータセットを実験的に分析した結果,知識伝達手法は学生モデルの性能を継続的に改善することがわかった。
最後に、4つの蒸留後の7Bサイズの学生モデルは、ScienceQAとLLaVA Testデータセットの現在の最先端モデルであるLLaVA-13Bを上回り、ゼロショット設定における他の強いベースラインよりも優れている。 Recently, multi-modal content generation has attracted lots of attention from researchers by investigating the utilization of visual instruction tuning based on large language models (LLMs). To enhance the performance and generalization ability of such LLMs, the practice of distilling knowledge from pretrained multi-modal models (a.k.a. teachers) to more compact multi-modal LLMs (students) has gained considerable interest. However, the prevailing paradigm of instructiontuning in multi-modal LLMs knowledge distillation is resource-intensive and unidirectional, neglecting the potential for mutual feedback between the student and teacher models. Thus, we propose an innovative Competitive Multi-modal Distillation framework (CoMD), which captures bidirectional feedback between teacher and student models and continually updates the multi-modal capabilities that the student model has learned. It comprises two stages: multi-modal pre-training and multi-modal competitive distillation. The first stage pre-trains the student model on a large number of filtered multi-modal datasets. The second stage facilitates a bidirectional knowledge transfer between the student and teacher models. Our experimental analysis of diverse datasets shows that our knowledge transfer method consistently improves the capabilities of the student model. Finally, the 7B-sized student model after four distillations surpassed the current state-of-the-art model LLaVA-13B on the ScienceQA and LLaVA Test dataset, also outperforms other strong baselines in the zero-shot setting. | 翻訳日:2023-11-15 13:52:18 公開日:2023-11-14 |
# 選択暗号シナリオにおける基本限界と超量子理論 Fundamental Limitations within the Selected Cryptographic Scenarios and Supra-Quantum Theories ( http://arxiv.org/abs/2311.08211v1 ) ライセンス: Link先を確認 | Marek Winczewski | (参考訳) 以下は、gda\'nsk大学で博士論文として提出された論文集のガイドと紹介である。
論文では、選択された量子および超量子暗号シナリオの基本的な制限を、達成可能な鍵レート上の上限の形で研究する。
各種セキュリティパラダイム、二部構成、多部構成、シングルショットおよび漸近的体制について検討する。
しかし,本研究は,上記のシナリオにおける秘密鍵率の上限の導出を超えたものである。
特に、量子インターネットに対する新たなタイプのリルーチン攻撃を提案し、その対策を見つけ、その効率をベンチマークする。
さらに,量子(キー)リピータ設定の性能に関するいくつかの上限を提案する。
我々は、双方向量子ネットワークの重要な場合において、量子ネットワークの秘密鍵合意能力の下限を導出する。
ここで秘密鍵率の上限として導かれるスカッシュされた非局所性は、新しい非局所性測度である。
さらに、完全拡大から生じる非符号完全拡張の概念は、量子状態の浄化に対応するものとして仮定され、非符号と量子鍵の分布シナリオの類似性を研究できる。 The following submission constitutes a guide and an introduction to a collection of articles submitted as a Ph.D. dissertation at the University of Gda\'nsk. In the dissertation, we study the fundamental limitations within the selected quantum and supra-quantum cryptographic scenarios in the form of upper bounds on the achievable key rates. We investigate various security paradigms, bipartite and multipartite settings, as well as single-shot and asymptotic regimes. Our studies, however, extend beyond the derivations of the upper bounds on the secret key rates in the mentioned scenarios. In particular, we propose a novel type of rerouting attack on the quantum Internet for which we find a countermeasure and benchmark its efficiency. Furthermore, we propose several upper bounds on the performance of quantum (key) repeaters settings. We derive a lower bound on the secret key agreement capacity of a quantum network, which we tighten in an important case of a bidirectional quantum network. The squashed nonlocality derived here as an upper bound on the secret key rate is a novel non-faithful measure of nonlocality. Furthermore, the notion of the non-signaling complete extension arising from the complete extension postulate as a counterpart of purification of a quantum state allows us to study analogies between non-signaling and quantum key distribution scenarios. | 翻訳日:2023-11-15 13:51:52 公開日:2023-11-14 |
# ユーザコマンド推論のためのllmを用いた人間中心自律システム Human-Centric Autonomous Systems With LLMs for User Command Reasoning ( http://arxiv.org/abs/2311.08206v1 ) ライセンス: Link先を確認 | Yi Yang and Qingwen Zhang and Ci Li and Daniel Sim\~oes Marta and Nazre Batool and John Folkesson | (参考訳) 自動運転の進化は、近年顕著な進歩を遂げ、具体的な現実へと進化した。
しかし、人間中心の大規模な採用は、様々な多面的要件を満たすことにつながる。
自律システムがユーザの意図に合うようにするためには、特に複雑な状況や緊急状況において、ユーザのコマンドを正確に識別し、解釈することが不可欠である。
そこで本研究では,大規模言語モデル(llms)の推論能力を活用し,インキャビンユーザのコマンドからシステム要件を推定することを提案する。
異なるLLMモデルとプロンプト設計を含む一連の実験を通じて、自然言語テキストコマンドからのシステム要求の多変量二値分類精度について検討する。
提案手法では,プロンプトの理解と推論を行うllmの一般的な能力を確認するが,その効果はllmモデルと適切な逐次プロンプトの設計の両方の品質に依存することを強調する。
コードとモデルは、リンク \url{https://github.com/KTH-RPL/DriveCmd_LLM} で公開されている。 The evolution of autonomous driving has made remarkable advancements in recent years, evolving into a tangible reality. However, a human-centric large-scale adoption hinges on meeting a variety of multifaceted requirements. To ensure that the autonomous system meets the user's intent, it is essential to accurately discern and interpret user commands, especially in complex or emergency situations. To this end, we propose to leverage the reasoning capabilities of Large Language Models (LLMs) to infer system requirements from in-cabin users' commands. Through a series of experiments that include different LLM models and prompt designs, we explore the few-shot multivariate binary classification accuracy of system requirements from natural language textual commands. We confirm the general ability of LLMs to understand and reason about prompts but underline that their effectiveness is conditioned on the quality of both the LLM model and the design of appropriate sequential prompts. Code and models are public with the link \url{https://github.com/KTH-RPL/DriveCmd_LLM}. | 翻訳日:2023-11-15 13:51:36 公開日:2023-11-14 |
# 事例の連結による暗号アセット調査の効率化 Increasing the Efficiency of Cryptoasset Investigations by Connecting the Cases ( http://arxiv.org/abs/2311.08205v1 ) ライセンス: Link先を確認 | Bernhard Haslhofer and Christiane Hanslbauer and Michael Fr\"owis and Thomas Goger | (参考訳) 法執行機関は急速に増加する暗号資産関連の事件に直面しており、しばしば相互の知識や共有された洞察なしに同じ事件を冗長に調査している。
本稿では,これらの事例間のつながりを認識し行動する仮説を考察し,調査過程の合理化について考察する。
サイバーフルート34件とセクチューションスパム1793件からなるデータセットの分析により、サイバーフルートの41%とセクチューションスパムの96.9%が相互接続可能であることが判明した。
これは、より広範なcryptoassetの鑑識ワークフローに統合され、捜査官がケース接続をハイライトして共有できるツールです。
我々の研究は、ケースコネクションの認識が、特に犯罪地域、国際国境、司法管轄区域にまたがる場合、顕著な効率性をもたらすことを明らかに示しています。 Law enforcement agencies are confronted with a rapidly growing number of cryptoasset-related cases, often redundantly investigating the same cases without mutual knowledge or shared insights. In this paper, we explore the hypothesis that recognizing and acting upon connections between these cases can significantly streamline investigative processes. Through an analysis of a dataset comprising 34 cyberfraud and 1793 sextortion spam cases, we discovered that 41% of the cyberfraud and 96.9% of the sextortion spam incidents can be interconnected. We introduce a straightforward yet effective tool, which is integrated into a broader cryptoasset forensics workflow and allows investigators to highlight and share case connections. Our research unequivocally demonstrates that recognizing case connections can lead to remarkable efficiencies, especially when extended across crime areas, international borders, and jurisdictions. | 翻訳日:2023-11-15 13:51:18 公開日:2023-11-14 |
# Logits Fusionによるフェデレート・スキュード・ラベル学習 Federated Skewed Label Learning with Logits Fusion ( http://arxiv.org/abs/2311.08202v1 ) ライセンス: Link先を確認 | Yuwei Wang, Runhan Li, Hao Tan, Xuefeng Jiang, Sheng Sun, Min Liu, Bo Gao, Zhiyuan Wu | (参考訳) フェデレートラーニング(FL)は、ローカルデータを送信することなく、複数のクライアント間で共有モデルを協調的にトレーニングすることを目的としている。
データの不均一性は、局所モデル間での最適化の相違による大幅な性能劣化を引き起こすため、現実的なFL設定において重要な課題である。
本研究では,データラベルのカテゴリが各クライアントで不均衡であるデータ不均一性の一般的なシナリオであるラベル分布スキューに着目した。
この問題を解決するためにFedBalanceを提案し,ロジットの校正によって局所モデル間の最適化バイアスを補正する。
具体的には,ローカルモデルを用いたアンサンブルモデルを形成するクライアントサイドに,余分なプライベートな弱学習器を導入する。
2つのモデルのロジットを融合することで、プライベートな弱い学習者は、カテゴリに関係なく、異なるデータのばらつきを捉えることができる。
したがって、マイノリティクラスを誤分類し、多数派への注意を減らし、グローバルモデルを改善することで、ローカルモデルの最適化方向を改善することができる。
実験結果から,本手法は最先端手法に比べて平均精度が13倍高いことがわかった。 Federated learning (FL) aims to collaboratively train a shared model across multiple clients without transmitting their local data. Data heterogeneity is a critical challenge in realistic FL settings, as it causes significant performance deterioration due to discrepancies in optimization among local models. In this work, we focus on label distribution skew, a common scenario in data heterogeneity, where the data label categories are imbalanced on each client. To address this issue, we propose FedBalance, which corrects the optimization bias among local models by calibrating their logits. Specifically, we introduce an extra private weak learner on the client side, which forms an ensemble model with the local model. By fusing the logits of the two models, the private weak learner can capture the variance of different data, regardless of their category. Therefore, the optimization direction of local models can be improved by increasing the penalty for misclassifying minority classes and reducing the attention to majority classes, resulting in a better global model. Extensive experiments show that our method can gain 13\% higher average accuracy compared with state-of-the-art methods. | 翻訳日:2023-11-15 13:51:03 公開日:2023-11-14 |
# 拡散に基づくギガピクセルスケールでの病理組織学的全スライド画像の生成 Diffusion-based generation of Histopathological Whole Slide Images at a Gigapixel scale ( http://arxiv.org/abs/2311.08199v1 ) ライセンス: Link先を確認 | Robert Harb, Thomas Pock, Heimo M\"uller | (参考訳) 本稿では,前代未聞のギガピクセルスケールで合成病理組織学的全スライド画像(wsis)を生成するための新しい拡散ベースアプローチを提案する。
合成wsisは、多くの計算病理学アプリケーションのパフォーマンスを向上させるために、トレーニングデータセットを拡張できる、多くの潜在的な応用がある。
プライバシ規則に違反することなく、共有可能なデータセットの合成コピーを作成することができる。
あるいは、データアノテーションを必要とせずにWSIの表現を学習することもできます。
このような多様なアプリケーションにもかかわらず、既存のディープラーニングベースのメソッドでは、通常高い解像度でWSIを生成することはできない。
主に計算量が多いためである。
そこで本研究では,高分解能 WSI の画像生成に取り組み,より粗いサンプリング手法を提案する。
本研究では,初期低解像度画像の分解能を高解像度WSIに向上させる。
特に拡散モデルは、画像に細部を順次追加し、解像度を増加させる。
実験では、TGA-BRCAデータセットからWSIを用いて手法を訓練する。
定量的評価に加えて,病理医によるユーザ調査も行った。
その結果, 生成した WSI は実 WSI の構造に類似していることが示唆された。 We present a novel diffusion-based approach to generate synthetic histopathological Whole Slide Images (WSIs) at an unprecedented gigapixel scale. Synthetic WSIs have many potential applications: They can augment training datasets to enhance the performance of many computational pathology applications. They allow the creation of synthesized copies of datasets that can be shared without violating privacy regulations. Or they can facilitate learning representations of WSIs without requiring data annotations. Despite this variety of applications, no existing deep-learning-based method generates WSIs at their typically high resolutions. Mainly due to the high computational complexity. Therefore, we propose a novel coarse-to-fine sampling scheme to tackle image generation of high-resolution WSIs. In this scheme, we increase the resolution of an initial low-resolution image to a high-resolution WSI. Particularly, a diffusion model sequentially adds fine details to images and increases their resolution. In our experiments, we train our method with WSIs from the TCGA-BRCA dataset. Additionally to quantitative evaluations, we also performed a user study with pathologists. The study results suggest that our generated WSIs resemble the structure of real WSIs. | 翻訳日:2023-11-15 13:50:42 公開日:2023-11-14 |
# 対話におけるファクトチェックの自動化:専門モデルが必要か? Automated Fact-Checking in Dialogue: Are Specialized Models Needed? ( http://arxiv.org/abs/2311.08195v1 ) ライセンス: Link先を確認 | Eric Chamoun, Marzieh Saeidi, Andreas Vlachos | (参考訳) 先行研究では、スタンドアローンのクレームに対する典型的な事実チェックモデルは、対話でなされたクレームに苦しむことが示されている。
その結果,ラベル付き対話データを用いて,これらのモデルを微調整する手法が提案されている。
しかし,それぞれのユースケースで別々のモデルを作成することは現実的ではなく,対話の微調整モデルが典型的なファクトチェックのパフォーマンスを低下させることを示した。
この課題を克服するために、対話と典型的事実チェックの両方に同じモデルを使用できる技術を提案する。
これらは主に検索適応と会話入力の変換に重点を置いており、単独のクレームで訓練されたモデルによって正確に予測できる。
これらの手法を組み込んだ典型的なファクトチェックモデルは、対話用に微調整された最先端モデルと競合するが、単独のクレームでは精度は維持される。 Prior research has shown that typical fact-checking models for stand-alone claims struggle with claims made in dialogues. As a solution, fine-tuning these models on labelled dialogue data has been proposed. However, creating separate models for each use case is impractical, and we show that fine-tuning models for dialogue results in poor performance on typical fact-checking. To overcome this challenge, we present techniques that allow us to use the same models for both dialogue and typical fact-checking. These mainly focus on retrieval adaptation and transforming conversational inputs so that they can be accurately predicted by models trained on stand-alone claims. We demonstrate that a typical fact-checking model incorporating these techniques is competitive with state-of-the-art models fine-tuned for dialogue, while maintaining its accuracy on stand-alone claims. | 翻訳日:2023-11-15 13:50:29 公開日:2023-11-14 |
# 小さなグラフの量子色数について On the Quantum Chromatic Numbers of Small Graphs ( http://arxiv.org/abs/2311.08194v1 ) ライセンス: Link先を確認 | Olivier Lalonde | (参考訳) 我々は、小さなグラフの量子色数の研究に2つの貢献をする。
まず、エレガントな論文である Man\v{c}inska と Roberson [\textit{Baltic Journal on Modern Computing}, 4(4), 846-859, 2016] において、量子色数 4 と古典色数 5 を持つ 14 の頂点上のグラフ $G_{14}$ の例を示し、このグラフは二つのパラメータの分離を示す最小のグラフであると推測した。
本稿では、この予想のコンピュータ支援による証明を説明し、量子グラフ理論における長年のオープン問題を解く。
第2の貢献は、ランク-$r$量子色数の研究に関するものである。
すべての$r$, $\chi_q$ と $\chi^{(r)}_q$ は異なるが、これらのパラメータ間の分離の小さな例はほとんど知られていない。
そのような分離の最小の例として、$\chi_q(g_{21}) = \chi^{(2)}_q(g_{21}) = 4$ および $ \xi(g_{21}) = \chi^{(1)}_q(g_{21}) = \chi(g_{21}) = 5$ の21頂点上のグラフ $g_{21}$ がある。
前回の記録は、前述のMan\v{c}inska と Roberson の論文で最初に考慮された57の頂点上のグラフ $G_{msg}$ で保持され、$\chi_q(G_{msg}) = 3$ と $\chi^{(1)}_q(G_{msg}) = 4$ を満たす。
さらに、$g_{21}$ はパラメータ $\chi^{(1)}_q$ と $\chi^{(2)}_q$ の間の最初の証明可能な分離を提供する。
我々は、G_{21}$ と、その直交ランクを下限とする我々の手法は、独立した関心を持つことができると考えている。 We make two contributions pertaining to the study of the quantum chromatic numbers of small graphs. Firstly, in an elegant paper, Man\v{c}inska and Roberson [\textit{Baltic Journal on Modern Computing}, 4(4), 846-859, 2016] gave an example of a graph $G_{14}$ on 14 vertices with quantum chromatic number 4 and classical chromatic number 5, and conjectured that this is the smallest graph exhibiting a separation between the two parameters. We describe a computer-assisted proof of this conjecture, thereby resolving a longstanding open problem in quantum graph theory. Our second contribution pertains to the study of the rank-$r$ quantum chromatic numbers. While it can now be shown that for every $r$, $\chi_q$ and $\chi^{(r)}_q$ are distinct, few small examples of separations between these parameters are known. We give the smallest known example of such a separation in the form of a graph $G_{21}$ on 21 vertices with $\chi_q(G_{21}) = \chi^{(2)}_q(G_{21}) = 4$ and $ \xi(G_{21}) = \chi^{(1)}_q(G_{21}) = \chi(G_{21}) = 5$. The previous record was held by a graph $G_{msg}$ on 57 vertices that was first considered in the aforementioned paper of Man\v{c}inska and Roberson and which satisfies $\chi_q(G_{msg}) = 3$ and $\chi^{(1)}_q(G_{msg}) = 4$. In addition, $G_{21}$ provides the first provable separation between the parameters $\chi^{(1)}_q$ and $\chi^{(2)}_q$. We believe that our techniques for constructing $G_{21}$ and lower bounding its orthogonal rank could be of independent interest. | 翻訳日:2023-11-15 13:50:13 公開日:2023-11-14 |
# GEC-DePenD:非自己回帰文法的誤り訂正法 GEC-DePenD: Non-Autoregressive Grammatical Error Correction with Decoupled Permutation and Decoding ( http://arxiv.org/abs/2311.08191v1 ) ライセンス: Link先を確認 | Konstantin Yakovlev, Alexander Podolskiy, Andrey Bout, Sergey Nikolenko, Irina Piontkovskaya | (参考訳) 文法的誤り訂正(GEC)は、現在、自己回帰的なシーケンス・ツー・シーケンスモデルで解決されている重要なNLPタスクである。
しかしながら、このクラスのアプローチは1つずつのトークン生成のために本質的に遅いため、非自己回帰的な代替手段が必要である。
本稿では,GEC に対する非自己回帰的手法を提案する。この手法はアーキテクチャを,ビーム探索で使用可能な自己アテンション重み行列を出力し,入力トークンの最適な置換(補助的な {ins} トークン)と,特定のトークンを埋めるステップアンロールされた復号化オートエンコーダに基づくデコーダネットワークを提案する。
これにより、置換ネットワークの1つの前方通過後にトークン置換を見つけることができ、自動回帰構造を避けることができる。
GECの既知の非自己回帰手法よりもネットワークが向上し,言語固有の合成データ生成手法を使用しない自己回帰手法のレベルに達することを示す。
本研究は,ConLL-2014およびWrite&Improve+LOCNESSデータセットに関する総合的な実験的検証と,アーキテクチャおよびアルゴリズムの選択をサポートする広範囲なアブレーション研究によって支援された。 Grammatical error correction (GEC) is an important NLP task that is currently usually solved with autoregressive sequence-to-sequence models. However, approaches of this class are inherently slow due to one-by-one token generation, so non-autoregressive alternatives are needed. In this work, we propose a novel non-autoregressive approach to GEC that decouples the architecture into a permutation network that outputs a self-attention weight matrix that can be used in beam search to find the best permutation of input tokens (with auxiliary {ins} tokens) and a decoder network based on a step-unrolled denoising autoencoder that fills in specific tokens. This allows us to find the token permutation after only one forward pass of the permutation network, avoiding autoregressive constructions. We show that the resulting network improves over previously known non-autoregressive methods for GEC and reaches the level of autoregressive methods that do not use language-specific synthetic data generation methods. Our results are supported by a comprehensive experimental validation on the ConLL-2014 and Write&Improve+LOCNESS datasets and an extensive ablation study that supports our architectural and algorithmic choices. | 翻訳日:2023-11-15 13:49:25 公開日:2023-11-14 |
# samihs:脳内出血分画に対する segment anything モデルの適応 SAMIHS: Adaptation of Segment Anything Model for Intracranial Hemorrhage Segmentation ( http://arxiv.org/abs/2311.08190v1 ) ライセンス: Link先を確認 | Yinuo Wang, Kai Chen, Weimin Yuan, Cai Meng, XiangZhi Bai | (参考訳) 大規模アノテーションに基づいて訓練された視覚基盤モデルであるSegment Anything Model (SAM)は、医療画像セグメンテーションにおける認識を高め続けている。
SAMの自然界における印象的な能力にもかかわらず、医療画像、特にぼやけた境界と非常に不規則な低コントラスト領域に直面すると、パフォーマンスの低下に悩まされる。
本稿では,脳卒中診断と手術計画における重要なステップである頭蓋内出血セグメンテーションにおいて,SAMを用いたパラメータ効率の高い微調整法SAMIHSを提案する。
従来のSAMおよびSAMベースの手法とは違い、SAMIHSはSAMのイメージエンコーダにパラメータリファクタリングアダプタを導入し、アダプタのパラメータの効率的かつ柔軟な利用について検討している。
さらに,SAMIHSによる境界領域認識能力を高めるために,二元的クロスエントロピー損失と境界感性損失を組み合わせたコンボ損失を用いる。
2つの公開データセットに対する実験結果から,提案手法の有効性が示された。
コードはhttps://github.com/mileswyn/SAMIHSで入手できる。 Segment Anything Model (SAM), a vision foundation model trained on large-scale annotations, has recently continued raising awareness within medical image segmentation. Despite the impressive capabilities of SAM on natural scenes, it struggles with performance decline when confronted with medical images, especially those involving blurry boundaries and highly irregular regions of low contrast. In this paper, a SAM-based parameter-efficient fine-tuning method, called SAMIHS, is proposed for intracranial hemorrhage segmentation, which is a crucial and challenging step in stroke diagnosis and surgical planning. Distinguished from previous SAM and SAM-based methods, SAMIHS incorporates parameter-refactoring adapters into SAM's image encoder and considers the efficient and flexible utilization of adapters' parameters. Additionally, we employ a combo loss that combines binary cross-entropy loss and boundary-sensitive loss to enhance SAMIHS's ability to recognize the boundary regions. Our experimental results on two public datasets demonstrate the effectiveness of our proposed method. Code is available at https://github.com/mileswyn/SAMIHS . | 翻訳日:2023-11-15 13:48:59 公開日:2023-11-14 |
# アンロック科学:新しいデータセットとクロスモダリティ科学情報抽出ベンチマーク Unlocking Science: Novel Dataset and Benchmark for Cross-Modality Scientific Information Extraction ( http://arxiv.org/abs/2311.08189v1 ) ライセンス: Link先を確認 | Yuhan Li and Jian Wu and Zhiwei Yu and B\"orje F. Karlsso and Wei Shen and Manabu Okumura and Chin-Yew Lin | (参考訳) 科学論文から重要な情報を抽出することは、研究者がより効率的に研究し、科学的進歩のペースを加速するのに役立つ可能性がある。
ここ数年、科学情報抽出(SciIE)の研究は、いくつかの新しいシステムとベンチマークのリリースを目撃した。
しかし、既存の論文中心のデータセットは主に原稿の特定の部分(抽象文など)のみに焦点を当てており、複雑な処理と高価なアノテーションのために単一のモダリティ(テキストやテーブルのみ)である。
さらに、コア情報はテキストやテーブル、あるいはその両方に存在することができる。
このデータ可用性のギャップを埋めて、モダリティ間のIEを実現するため、テキスト中のエンティティやテーブル内のエンティティやリレーションを反復的にアノテートするための半教師付きパイプラインを提案する。
このパイプラインに基づいて,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
さらに,提案するベンチマークデータセットにおける最先端ieモデルの性能をベースラインとして報告する。
最後に,ChatGPTのような大規模言語モデルの現在の課題に対する可能性について検討する。
我々の新しいデータセット、結果、分析は、半教師付きパイプラインの有効性と効率を検証し、残りの制限について論じる。 Extracting key information from scientific papers has the potential to help researchers work more efficiently and accelerate the pace of scientific progress. Over the last few years, research on Scientific Information Extraction (SciIE) witnessed the release of several new systems and benchmarks. However, existing paper-focused datasets mostly focus only on specific parts of a manuscript (e.g., abstracts) and are single-modality (i.e., text- or table-only), due to complex processing and expensive annotations. Moreover, core information can be present in either text or tables or across both. To close this gap in data availability and enable cross-modality IE, while alleviating labeling costs, we propose a semi-supervised pipeline for annotating entities in text, as well as entities and relations in tables, in an iterative procedure. Based on this pipeline, we release novel resources for the scientific community, including a high-quality benchmark, a large-scale corpus, and a semi-supervised annotation pipeline. We further report the performance of state-of-the-art IE models on the proposed benchmark dataset, as a baseline. Lastly, we explore the potential capability of large language models such as ChatGPT for the current task. Our new dataset, results, and analysis validate the effectiveness and efficiency of our semi-supervised pipeline, and we discuss its remaining limitations. | 翻訳日:2023-11-15 13:48:39 公開日:2023-11-14 |
# 回路ノイズ耐性仮想蒸留 Circuit-Noise-Resilient Virtual Distillation ( http://arxiv.org/abs/2311.08183v1 ) ライセンス: Link先を確認 | Xiao-Yue Xu, Chen Ding, Shuo Zhang, Wan-Su Bao, and He-Liang Huang | (参考訳) 量子誤差緩和(QEM)は、物理量子システムに固有のノイズがあり、量子アルゴリズムの精度を損なうため、短期量子デバイスにとって不可欠である。
VD (Virtual Distillation) と呼ばれる典型的浄化法は, 状態生成誤差を軽減し, ノイズ状態の複数コピーを用いて効果的な指数的抑制を実現することを目的としている。
しかし、不完全なVD回路の実装は、QEMのないものよりも深刻な負の緩和結果をもたらす可能性がある。
そこで我々はCNR-VD(Circuit-Noise-Resilient Virtual Distillation)を提案する。
容易に準備可能な入力状態を利用する校正手順を備え、その回路がノイズによって汚染された場合にVDの結果を洗練し、理想的に実行されるVD回路の結果を回復させる。
シミュレーションの結果、CNR-VD推定器は、VD回路のノイズによる偏差を効果的に低減し、元のVDと比較して、桁違いの精度の向上を示した。
一方、CNR-VDはVDのゲートノイズ閾値を上昇させ、より高いノイズレベルが存在する場合でも正の効果が期待できる。
さらに,本研究の強みは,一般的なアダマールテスト回路に適用可能な推定器として,特定のqemアルゴリズムを超越した適用性にある。
提案したCNR-VDは,VDの耐雑音性を大幅に向上させ,短期量子デバイス上での量子アルゴリズム実装の性能向上を期待できる。 Quantum error mitigation (QEM) is crucial for near-term quantum devices, as noise inherently exists in physical quantum systems and undermines the accuracy of quantum algorithms. A typical purification-based QEM method, called Virtual Distillation (VD), aims to mitigate state preparation errors and achieve effective exponential suppression using multiple copies of the noisy state. However, imperfect VD circuit implementation may yield negative mitigation outcomes, potentially more severe than those achieved without QEM. To address this, we introduce Circuit-Noise-Resilient Virtual Distillation (CNR-VD). This method, featuring a calibration procedure that utilizes easily-prepared input states, refines the outcomes of VD when its circuit is contaminated by noise, seeking to recover the results of an ideally conducted VD circuit. Simulation results demonstrate that the CNR-VD estimator effectively reduces deviations induced by noise in the VD circuit, showcasing improvements in accuracy by an order of magnitude at most compared to the original VD. Meanwhile, CNR-VD elevates the gate noise threshold for VD, enabling positive effects even in the presence of higher noise levels. Furthermore, the strength of our work lies in its applicability beyond specific QEM algorithms, as the estimator can also be applied to generic Hadamard-Test circuits. The proposed CNR-VD significantly enhances the noise-resilience of VD, and thus is anticipated to elevate the performance of quantum algorithm implementations on near-term quantum devices. | 翻訳日:2023-11-15 13:48:16 公開日:2023-11-14 |
# 効率的なインストラクションチューニングのための自己進化多元データサンプリング Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning ( http://arxiv.org/abs/2311.08182v1 ) ライセンス: Link先を確認 | Shengguang Wu, Keming Lu, Benfeng Xu, Junyang Lin, Qi Su, Chang Zhou | (参考訳) 大規模言語モデル(llm)の命令追従能力の向上は、主に命令チューニングデータセットを必要とする。
しかし、これらは膨大な計算負荷と注釈コストを課している。
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできるラベル効率の高い命令チューニング手法を検討するために,自己進化機構であるDiverseEvolを導入する。
このプロセスでは、モデルが反復的にトレーニングサブセットを拡張して、人間やより高度なLCMの介入を必要とせず、自身のパフォーマンスを向上する。
データサンプリングテクニックの鍵は、選択したサブセットの多様性の強化にあります。モデルが既存のデータポイントと最も異なる新しいデータポイントを、現在の埋め込みスペースに従って選択するからです。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
私たちのモデルは、オリジナルのデータセットの8%未満でトレーニングされ、フルデータの微調整と比べて、パフォーマンスを維持または改善します。
また,単回サンプリングとは対照的に,命令データと反復スキームにおける多様性の重要性を分析するための実証的な証拠を提供する。
私たちのコードはhttps://github.com/OFA-Sys/DiverseEvol.git.comで公開されています。 Enhancing the instruction-following ability of Large Language Models (LLMs) primarily demands substantial instruction-tuning datasets. However, the sheer volume of these imposes a considerable computational burden and annotation cost. To investigate a label-efficient instruction tuning method that allows the model itself to actively sample subsets that are equally or even more effective, we introduce a self-evolving mechanism DiverseEvol. In this process, a model iteratively augments its training subset to refine its own performance, without requiring any intervention from humans or more advanced LLMs. The key to our data sampling technique lies in the enhancement of diversity in the chosen subsets, as the model selects new data points most distinct from any existing ones according to its current embedding space. Extensive experiments across three datasets and benchmarks demonstrate the effectiveness of DiverseEvol. Our models, trained on less than 8% of the original dataset, maintain or improve performance compared with finetuning on full data. We also provide empirical evidence to analyze the importance of diversity in instruction data and the iterative scheme as opposed to one-time sampling. Our code is publicly available at https://github.com/OFA-Sys/DiverseEvol.git. | 翻訳日:2023-11-15 13:47:50 公開日:2023-11-14 |
# 通信信号認識のためのスワップ予測による半教師付き学習 Semi-Supervised Learning via Swapped Prediction for Communication Signal Recognition ( http://arxiv.org/abs/2311.08179v1 ) ライセンス: Link先を確認 | Weidong Wang, Hongshu Liao, and Lu Gan | (参考訳) ディープニューラルネットワークは、通信信号認識に広く使われ、顕著な性能を達成したが、この優位性は、一般的には教師付き学習に膨大なサンプルを使用することに依存している。
そこで我々は,より容易に利用可能なラベル付き信号データの集合を効果的に活用し,一般化を改善する半教師付き学習(SSL)手法を開発した。
提案手法は,非ラベル標本を摂動させ,それに対応するモデル予測をオリジナルに近いものにすることを奨励し,スワップド対称性を持つスケールドクロスエントロピー損失に最適化した,一貫性に基づく新しい正規化手法であるスワップド予測(swapted prediction)に主に依存する。
広汎な実験により,提案手法が通信信号認識の深部SSLを実現する可能性が示唆された。 Deep neural networks have been widely used in communication signal recognition and achieved remarkable performance, but this superiority typically depends on using massive examples for supervised learning, whereas training a deep neural network on small datasets with few labels generally falls into overfitting, resulting in degenerated performance. To this end, we develop a semi-supervised learning (SSL) method that effectively utilizes a large collection of more readily available unlabeled signal data to improve generalization. The proposed method relies largely on a novel implementation of consistency-based regularization, termed Swapped Prediction, which leverages strong data augmentation to perturb an unlabeled sample and then encourage its corresponding model prediction to be close to its original, optimized with a scaled cross-entropy loss with swapped symmetry. Extensive experiments indicate that our proposed method can achieve a promising result for deep SSL of communication signal recognition. | 翻訳日:2023-11-15 13:47:34 公開日:2023-11-14 |
# fast chain-of-thought: 並列デコードから未来を垣間見ると答えが速くなる Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster ( http://arxiv.org/abs/2311.08263v1 ) ライセンス: Link先を確認 | Hongxuan Zhang, Zhining Liu, Jiaqi Zheng, Chenyi Zhuang, Jinjie Gu and Guihai Chen | (参考訳) 本研究では,並列デコードに基づくモデル非依存のフレームワークであるfastcotを提案する。
FastCoTはサイズが変化するコンテキストウィンドウを使用し、そのサイズは位置によって変化し、並列デコードと自動回帰デコードが同時に実行される。
FastCoTでは、並列復号部はLLMに近似トークンからなる未来を素早く見ることができ、因果変換器で使われる通常の自己回帰復号よりも高速な解が得られる。
また,KV-cache生成とバッチ処理をサポートする並列デコーディングの実装も提供する。
広範な実験を通して、FastCoTは通常の手法と比較して、無視できる性能低下だけで、推論時間を20%近く短縮することを示した。
さらに,コンテキストウィンドウサイズが異なるタスクに対してかなりの堅牢性を示すことを示す。 In this work, we propose FastCoT, a model-agnostic framework based on parallel decoding without any further training of an auxiliary model or modification to the LLM itself. FastCoT uses a size-varying context window whose size changes with position to conduct parallel decoding and auto-regressive decoding simultaneously, thus fully utilizing GPU computation resources. In FastCoT, the parallel decoding part provides the LLM with a quick glance of the future composed of approximate tokens, which could lead to faster answers compared to regular autoregressive decoding used by causal transformers. We also provide an implementation of parallel decoding within LLM, which supports KV-cache generation and batch processing. Through extensive experiments, we demonstrate that FastCoT saves inference time by nearly 20% with only a negligible performance drop compared to the regular approach. Additionally, we show that the context window size exhibits considerable robustness for different tasks. | 翻訳日:2023-11-15 13:41:26 公開日:2023-11-14 |
# REST: 検索ベースの投機的デコーディング REST: Retrieval-Based Speculative Decoding ( http://arxiv.org/abs/2311.08252v1 ) ライセンス: Link先を確認 | Zhenyu He, Zexuan Zhong, Tianle Cai, Jason D Lee, and Di He | (参考訳) 本稿では,言語モデル生成を高速化する新しいアルゴリズムであるrest(research-based speculative decoding)を提案する。
RESTの開発を導く重要な洞察は、テキスト生成のプロセスが共通のフェーズやパターンを含むことが多いという観察である。
投機的復号化のためのドラフト言語モデルに依存する従来の方法とは異なり、RESTは検索の力を利用してドラフトトークンを生成する。
この方法は既存の知識の蓄積から引き出され、現在の文脈に基づいて関連するトークンを検索し、利用する。
そのプラグ・アンド・プレイの性質は、任意の言語モデルのシームレスな統合とアクセラレーションを可能にします。
単一バッチ環境で7Bと13Bの言語モデルでベンチマークすると、RESTはコードやテキスト生成において1.62Xから2.36Xの大幅なスピードアップを達成する。
RESTのコードはhttps://github.com/FasterDecoding/RESTで公開されている。 We introduce Retrieval-Based Speculative Decoding (REST), a novel algorithm designed to speed up language model generation. The key insight driving the development of REST is the observation that the process of text generation often includes certain common phases and patterns. Unlike previous methods that rely on a draft language model for speculative decoding, REST harnesses the power of retrieval to generate draft tokens. This method draws from the reservoir of existing knowledge, retrieving and employing relevant tokens based on the current context. Its plug-and-play nature allows for seamless integration and acceleration of any language models, all without necessitating additional training. When benchmarked on 7B and 13B language models in a single-batch setting, REST achieves a significant speedup of 1.62X to 2.36X on code or text generation. The code of REST is available at https://github.com/FasterDecoding/REST. | 翻訳日:2023-11-15 13:41:11 公開日:2023-11-14 |
# 分布に基づく構成性評価を用いた機械翻訳における構成一般化の評価について On Using Distribution-Based Compositionality Assessment to Evaluate Compositional Generalisation in Machine Translation ( http://arxiv.org/abs/2311.08249v1 ) ライセンス: Link先を確認 | Anssi Moisio, Mathias Creutz, Mikko Kurimo | (参考訳) 合成一般化(CG)は、NLPや機械学習において、主に人工データセットを用いて評価されている。
実世界の自然言語タスクでもCGを評価するためのベンチマークを開発することが重要であり、野生に配備されるシステムの能力と限界を理解することが重要である。
この目的のために、我々のGenBench Collaborative Benchmarking Taskは、分散に基づく構成性評価(DBCA)フレームワークを利用して、Europarl翻訳コーパスをトレーニングとテストセットに分割し、テストセットが構成一般化能力を必要とするようにする。
具体的には、トレーニングセットとテストセットは依存関係関係の異なる分布を持ち、トレーニングされていない依存関係を翻訳するNMTシステムの能力をテストする。
これは、自然言語合成性ベンチマークを作成するための完全に自動化された手順であり、他のデータセットや言語にさらに適用するのが簡単で安価である。
実験のコードとデータは、https://github.com/aalto-speech/dbcaで入手できる。 Compositional generalisation (CG), in NLP and in machine learning more generally, has been assessed mostly using artificial datasets. It is important to develop benchmarks to assess CG also in real-world natural language tasks in order to understand the abilities and limitations of systems deployed in the wild. To this end, our GenBench Collaborative Benchmarking Task submission utilises the distribution-based compositionality assessment (DBCA) framework to split the Europarl translation corpus into a training and a test set in such a way that the test set requires compositional generalisation capacity. Specifically, the training and test sets have divergent distributions of dependency relations, testing NMT systems' capability of translating dependencies that they have not been trained on. This is a fully-automated procedure to create natural language compositionality benchmarks, making it simple and inexpensive to apply it further to other datasets and languages. The code and data for the experiments is available at https://github.com/aalto-speech/dbca. | 翻訳日:2023-11-15 13:40:56 公開日:2023-11-14 |
# 干渉Autler-Townesスペクトルのバイクロマティック位相制御 Bichromatic phase-control of interfering Autler-Townes spectra ( http://arxiv.org/abs/2311.08248v1 ) ライセンス: Link先を確認 | T. Bayer, K. Eickhoff, D. K\"ohnke, M. Wollenhaupt | (参考訳) 本稿では,原子共鳴による多光子イオン化(REMPI)から光電子スペクトル中のAutler-Townes(AT)ダブレットの形状を制御する新しい手法を提案する。
このスキームは、強励起原子の地上からのイオン化と、二色フェムト秒(fs)レーザーパルスを用いた共鳴励起状態によって生成された2つのat二重重ね合わせの干渉に基づいている。
このスキームでは、光電子の量子位相はat二重項の操作に不可欠である。
干渉パターンを操作するために、レーザ偏光状態と2色間の相対光学位相を用いる。
バイクロマチックなREMPIプロセスを記述するための解析モデルを開発し,制御機構の物理画像を提供する。
このモデルを検証するために、原子と強い偏光型二色fsレーザーパルスの非摂動相互作用に対する2次元時間依存schr\"odinger方程式の解に基づくab initio計算と比較する。
その結果, 制御機構はレーザー強度に対して頑健であり, 実験観察が容易であることが示唆された。 We propose a new scheme to control the shape of the Autler-Townes (AT) doublet in the photoelectron spectrum from atomic resonance-enhanced multiphoton ionization (REMPI). The scheme is based on the interference of two AT doublets created by ionization of the strongly driven atom from the ground and the resonantly excited state using tailored bichromatic femtosecond (fs) laser pulses. In this scheme, the quantum phase of the photoelectrons is crucial for the manipulation of the AT doublet. The laser polarization state and the relative optical phase between the two colors are used to manipulate the interference pattern. We develop an analytical model to describe the bichromatic REMPI process and provide a physical picture of the control mechanism. To validate the model, the results are compared to an ab initio calculation based on the solution of the 2D time-dependent Schr\"odinger equation for the non-perturbative interaction of an atom with intense polarization-shaped bichromatic fs-laser pulses. Our results indicate that the control mechanism is robust with respect to the laser intensity facilitating its experimental observation. | 翻訳日:2023-11-15 13:40:37 公開日:2023-11-14 |
# TENT: ゼロショットアクティビティ認識のためのIoTセンサと言語モデルを接続する TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity Recognition ( http://arxiv.org/abs/2311.08245v1 ) ライセンス: Link先を確認 | Yunjiao Zhou, Jianfei Yang, Han Zou, Lihua Xie | (参考訳) 近年の言語モデルにおける成果は、セマンティック言語理解による視覚情報のブリッジ機能を示すものである。
言語モデルは、テキストのセマンティクスとiotセンサー信号を結びつけることで、例えばヒューマンアクティビティ認識(har)など、認識タスクを実行することができるか?
もしそうなら、人間のような認識を持つインテリジェントなHARシステムが構築でき、新しい環境や目に見えないカテゴリーに適応できる。
本稿では、その実現可能性について、カメラビデオ、LiDAR、mmWaveなどのIoTセンサ信号とテキスト埋め込みを併用した、IoT-sEnsors- languagealignedmEnt pre-Training (TENT)を用いて検討する。
iot言語のコントラスト学習を通じて、マルチモーダル機能を言語埋め込みと整合させる統一的なセマンティック機能空間を導出し、iotデータがiotデータを記述する特定の単語に対応するようにします。
テキストカテゴリとiotデータとの接続性を高めるために,統合機能空間にさらに意味的な情報をもたらす補足的な記述と学習可能なプロンプトを提案する。
TENTは、見たアクションを認識するだけでなく、特徴空間から最も近いテキストワードによって見えないアクションを 'guess'' も認識する。
我々は、異なるモダリティを用いてゼロショットHARタスクの最先端性能を実現し、最高の視覚言語モデルを12%以上改善することを示した。 Recent achievements in language models have showcased their extraordinary capabilities in bridging visual information with semantic language understanding. This leads us to a novel question: can language models connect textual semantics with IoT sensory signals to perform recognition tasks, e.g., Human Activity Recognition (HAR)? If so, an intelligent HAR system with human-like cognition can be built, capable of adapting to new environments and unseen categories. This paper explores its feasibility with an innovative approach, IoT-sEnsors-language alignmEnt pre-Training (TENT), which jointly aligns textual embeddings with IoT sensor signals, including camera video, LiDAR, and mmWave. Through the IoT-language contrastive learning, we derive a unified semantic feature space that aligns multi-modal features with language embeddings, so that the IoT data corresponds to specific words that describe the IoT data. To enhance the connection between textual categories and their IoT data, we propose supplementary descriptions and learnable prompts that bring more semantic information into the joint feature space. TENT can not only recognize actions that have been seen but also ``guess'' the unseen action by the closest textual words from the feature space. We demonstrate TENT achieves state-of-the-art performance on zero-shot HAR tasks using different modalities, improving the best vision-language models by over 12%. | 翻訳日:2023-11-15 13:40:17 公開日:2023-11-14 |
# 特徴テクスチャ化を用いたBERTニューロン内単語符号化の検討 Investigating the Encoding of Words in BERT's Neurons using Feature Textualization ( http://arxiv.org/abs/2311.08240v1 ) ライセンス: Link先を確認 | Tanja Baeumel, Soniya Vijayakumar, Josef van Genabith, Guenter Neumann, Simon Ostermann | (参考訳) プレトレーニング言語モデル(PLM)は、ほとんどの最先端のNLP技術の基礎となっている。
それにもかかわらず、それらは本質的にブラックボックスであり、人間はモデルの異なる部分、特に個々のニューロンでどの知識がエンコードされているかを明確に理解していない。
コンピュータビジョンでは、視覚モデルのニューロンに対して、特徴可視化が分解的解釈可能性技術を提供する。
活性化の最大化は、個々のニューロンにコードされた情報の本質的に解釈可能な視覚表現を合成するために用いられる。
我々の研究はこれに触発されてはいるが、NLPにアクティベーションの最大化を適応する最初の大規模な試み、より具体的には大きなPLMに基づいて、単一ニューロンの解釈可能性に関する注意深い物語を提示する。
PLMワード埋め込み空間におけるニューロンの高密度表現を生成する手法である特徴テキスト化を提案する。
BERTモデル(Devlin et al., 2019)に特徴テキスト化を適用し、個々のニューロンにコードされた知識を解釈し、シンボル化できるかを検討する。
生成した表現は、個々のニューロンに符号化された知識に関する洞察を与えることができるが、個々のニューロンは、単語のような言語の明確な記号単位を表現していない。
さらに,BERTにおける単語のエンコードに必要なニューロン数を調べるために,特徴テキスト化を用いる。 Pretrained language models (PLMs) form the basis of most state-of-the-art NLP technologies. Nevertheless, they are essentially black boxes: Humans do not have a clear understanding of what knowledge is encoded in different parts of the models, especially in individual neurons. The situation is different in computer vision, where feature visualization provides a decompositional interpretability technique for neurons of vision models. Activation maximization is used to synthesize inherently interpretable visual representations of the information encoded in individual neurons. Our work is inspired by this but presents a cautionary tale on the interpretability of single neurons, based on the first large-scale attempt to adapt activation maximization to NLP, and, more specifically, large PLMs. We propose feature textualization, a technique to produce dense representations of neurons in the PLM word embedding space. We apply feature textualization to the BERT model (Devlin et al., 2019) to investigate whether the knowledge encoded in individual neurons can be interpreted and symbolized. We find that the produced representations can provide insights about the knowledge encoded in individual neurons, but that individual neurons do not represent clearcut symbolic units of language such as words. Additionally, we use feature textualization to investigate how many neurons are needed to encode words in BERT. | 翻訳日:2023-11-15 13:39:41 公開日:2023-11-14 |
# ハイパーネットワークを用いた医用画像登録のための学習物理学に基づく正規化 Learning Physics-Inspired Regularization for Medical Image Registration with Hypernetworks ( http://arxiv.org/abs/2311.08239v1 ) ライセンス: Link先を確認 | Anna Reithmeir, Julia A. Schnabel, Veronika A. Zimmer | (参考訳) 医用画像登録は、同じ解剖学的領域の画像間の空間的変形を識別することを目的としており、画像に基づく診断と治療の基盤となっている。
これまで、深層学習に基づく登録には、グローバル空間の滑らかさを強制する正規化器(例えば拡散正規化器)が採用されている。
しかし、そのような正規化子はデータに合わせたものではなく、複雑な基底変形を反映することができないかもしれない。
対照的に、物理学に触発された正則化器は物理的に妥当な変形を促進する。
そのような正則化器の1つは、弾性材料の変形をモデル化する線形弾性正則化器である。
これらの正規化器は材料の物性を定義するパラメータによって駆動される。
生体組織では、このようなパラメータの幅広い推定が文献に残されており、登録の成功に適したパラメータ値を特定することは依然として難しい課題である。
この問題を克服し,物理特性を学習ベース登録に組み込むために,物理に着想を得た正規化器の物理パラメータが空間変形場に与える影響を学習するハイパーネットワークを提案する。
特に, 超モルフィックフレームワークを適用し, 線形弾性正規化器の2つの弾性パラメータの効果を学習する。
この手法により、テスト時に適切なデータ固有の物理パラメータを効率的に発見できる。 Medical image registration aims at identifying the spatial deformation between images of the same anatomical region and is fundamental to image-based diagnostics and therapy. To date, the majority of the deep learning-based registration methods employ regularizers that enforce global spatial smoothness, e.g., the diffusion regularizer. However, such regularizers are not tailored to the data and might not be capable of reflecting the complex underlying deformation. In contrast, physics-inspired regularizers promote physically plausible deformations. One such regularizer is the linear elastic regularizer which models the deformation of elastic material. These regularizers are driven by parameters that define the material's physical properties. For biological tissue, a wide range of estimations of such parameters can be found in the literature and it remains an open challenge to identify suitable parameter values for successful registration. To overcome this problem and to incorporate physical properties into learning-based registration, we propose to use a hypernetwork that learns the effect of the physical parameters of a physics-inspired regularizer on the resulting spatial deformation field. In particular, we adapt the HyperMorph framework to learn the effect of the two elasticity parameters of the linear elastic regularizer. Our approach enables the efficient discovery of suitable, data-specific physical parameters at test time. | 翻訳日:2023-11-15 13:39:03 公開日:2023-11-14 |
# MeLo:低ランク適応は医用画像診断のための微調整よりも優れている MeLo: Low-rank Adaptation is Better than Fine-tuning for Medical Image Diagnosis ( http://arxiv.org/abs/2311.08236v1 ) ライセンス: Link先を確認 | Yitao Zhu, Zhenrong Shen, Zihao Zhao, Sheng Wang, Xin Wang, Xiangyu Zhao, Dinggang Shen, Qian Wang | (参考訳) トランスフォーマーアーキテクチャに基づくコンピュータ支援診断(CAD)モデルの開発における一般的な実践は、通常、ImageNet事前学習重量の微調整を伴う。
しかし、近年の大規模事前訓練の進歩とスケーリング法の実践により、視覚トランスフォーマー(vit)はより大きくなり、医療画像コミュニティでは利用できなくなる。
さらに、現実のシナリオでは、ストレージスペースの制限や時間を要するモデルスイッチングといった問題により、複数のCADモデルのデプロイが面倒になる可能性がある。
これらの課題に対処するため、我々は、複数の臨床タスクを対象とした単一のCADモデルの開発を軽量に行えるMeLo(医療画像低ランク適応)を提案する。
リソース要求の微調整ではなく、低ランク適応を採用する。
ViTモデルの重みを固定し、少量の低ランクプラグインを追加することで、訓練可能なパラメータのみを用いて、様々な画像モダリティの様々な診断タスクにおける競合結果を得る。
具体的には, 約0.17%のトレーニング可能なパラメータを用いて, 4つの異なる医用画像データセット上で, 完全微調整vitモデルと同等の性能を実現する。
さらに、meloは0.5mbのストレージスペースしか追加せず、デプロイと推論の非常に高速なモデル切り替えを可能にする。
私たちのソースコードとトレーニング済みの重みは、webサイト(https://absterzhu.github.io/melo.github.io/)で利用可能です。 The common practice in developing computer-aided diagnosis (CAD) models based on transformer architectures usually involves fine-tuning from ImageNet pre-trained weights. However, with recent advances in large-scale pre-training and the practice of scaling laws, Vision Transformers (ViT) have become much larger and less accessible to medical imaging communities. Additionally, in real-world scenarios, the deployments of multiple CAD models can be troublesome due to problems such as limited storage space and time-consuming model switching. To address these challenges, we propose a new method MeLo (Medical image Low-rank adaptation), which enables the development of a single CAD model for multiple clinical tasks in a lightweight manner. It adopts low-rank adaptation instead of resource-demanding fine-tuning. By fixing the weight of ViT models and only adding small low-rank plug-ins, we achieve competitive results on various diagnosis tasks across different imaging modalities using only a few trainable parameters. Specifically, our proposed method achieves comparable performance to fully fine-tuned ViT models on four distinct medical imaging datasets using about 0.17% trainable parameters. Moreover, MeLo adds only about 0.5MB of storage space and allows for extremely fast model switching in deployment and inference. Our source code and pre-trained weights are available on our website (https://absterzhu.github.io/melo.github.io/). | 翻訳日:2023-11-15 13:38:28 公開日:2023-11-14 |
# スピンスイジングモデルの多値グラフ状態によるフォールオフ速度の遷移の解明 Revealing Transition in Fall-off Rates of spin-s Ising Model through Multiqudit Graph states ( http://arxiv.org/abs/2311.08232v1 ) ライセンス: Link先を確認 | Debkanta Ghosh, Keshav Das Agarwal, Pritam Halder, Aditi Sen De | (参考訳) スピン-1/2粒子を用いた可変レンジ相互作用Isingモデルは、非局所(NL)、準局所(QL)、局所的な相互作用の範囲における転倒速度によって異なる挙動を示す。
そのような遷移がこのモデルに任意のスピン量子数を持つかどうかは不明である。
スピンsイジングハミルトニアンに従って各部位の多レベル最大コヒーレント状態が進化すると、重み付きグラフ状態(wgs)の絡み合いエントロピー、相互情報、真の多成分絡み合い(gme)のプロファイルを分析してその存在を確立する。
具体的には、平均的相互情報のスケーリングと、WGSにおけるフォールオフ率に対するGMEの第1微分のばらつきが、個々のスピン次元と対数的にスケールするNLからQLへの遷移点を示すことを実証する。
さらに、任意に大きいシステムサイズのGMEパターンを模倣できる有限個のキューディットの飽和値の存在は、準局所領域と局所領域の間の第2の遷移点を明らかにすることができることを示唆する。 A variable-range interacting Ising model with spin-1/2 particles exhibits distinct behavior depending on the fall-off rates in the range of interactions, notably non-local (NL), quasi-local (QL), and local. It is unknown if such a transition occurs in this model with an arbitrary spin quantum number. We establish its existence by analyzing the profiles of entanglement entropy, mutual information, and genuine multipartite entanglement (GME) of the weighted graph state (WGS), which is prepared when the multi-level maximally coherent state at each site evolves according to the spin-s Ising Hamiltonian. Specifically, we demonstrate that the scaling of time-averaged mutual information and the divergence in the first derivative of GME with respect to the fall-off rate in the WGS can indicate the transition point from NL to QL, which scales logarithmically with individual spin dimension. Additionally, we suggest that the existence of a saturation value of a finite number of qudits capable of mimicking the GME pattern of an arbitrarily large system-size can reveal the second transition point between quasi-local and local regions. | 翻訳日:2023-11-15 13:37:26 公開日:2023-11-14 |
# 潜在空間における乱れによる回帰の因果的説明 Counterfactual Explanation for Regression via Disentanglement in Latent Space ( http://arxiv.org/abs/2311.08228v1 ) ライセンス: Link先を確認 | Xuan Zhao and Klaus Broelemann and Gjergji Kasneci | (参考訳) 予測モデルの予測に影響を与える要因は、ユーザの視点からより好ましい結果を得るために、どのように変えられるのか?
このように、簡単に理解可能な説明を表現できるため、AIシステムとのユーザインタラクションをガイドする可能性を秘めている。
適用するには、CEは現実的で実行可能でなければなりません。
文献では、CEを生成する様々な方法が提案されている。
しかし、cesに関するほとんどの研究は、分類の問題に焦点を当てており、「拒否されたローンを承認するには、何をすべきか?」といった質問が提起されている。実際には、「給料を増やすには、何をすべきか?」といった質問に答えることは、より回帰的な性質である。
本稿では,ラベル関係をラベル非関係次元から潜在空間に分離して,事前学習したレグレッセプタのcesを生成する新しい手法を提案する。
CEはラベル非関連次元と事前定義された出力を組み合わせることで生成される。
このアプローチの背景にある直感は、理想的な反事実探索は、入力のラベル非関連特性に焦点を合わせ、ターゲット関連特性への変化を提案することである。
潜在領域での検索はこの目標を達成するのに役立つ。
本手法は,反事実探索中にクエリサンプルの特性を維持していることを示す。
様々な実験において、回帰問題設定における画像と表のデータセットの異なる品質尺度に基づいて、提案手法が競合することを示した。
リアルな高次元機械学習アプリケーションに不可欠な3つの最先端手法と比較して、元のデータ多様体に近い結果を効率よく返します。
私たちのコードは、この作業の公開時にオープンソースパッケージとして公開されます。 Counterfactual Explanations (CEs) help address the question: How can the factors that influence the prediction of a predictive model be changed to achieve a more favorable outcome from a user's perspective? Thus, they bear the potential to guide the user's interaction with AI systems since they represent easy-to-understand explanations. To be applicable, CEs need to be realistic and actionable. In the literature, various methods have been proposed to generate CEs. However, the majority of research on CEs focuses on classification problems where questions like ``What should I do to get my rejected loan approved?" are raised. In practice, answering questions like ``What should I do to increase my salary?" are of a more regressive nature. In this paper, we introduce a novel method to generate CEs for a pre-trained regressor by first disentangling the label-relevant from the label-irrelevant dimensions in the latent space. CEs are then generated by combining the label-irrelevant dimensions and the predefined output. The intuition behind this approach is that the ideal counterfactual search should focus on the label-irrelevant characteristics of the input and suggest changes toward target-relevant characteristics. Searching in the latent space could help achieve this goal. We show that our method maintains the characteristics of the query sample during the counterfactual search. In various experiments, we demonstrate that the proposed method is competitive based on different quality measures on image and tabular datasets in regression problem settings. It efficiently returns results closer to the original data manifold compared to three state-of-the-art methods, which is essential for realistic high-dimensional machine learning applications. Our code will be made available as an open-source package upon the publication of this work. | 翻訳日:2023-11-15 13:36:51 公開日:2023-11-14 |
# Uni-COAL:MR画像のクロスモダリティ合成と超解像のための統一フレームワーク Uni-COAL: A Unified Framework for Cross-Modality Synthesis and Super-Resolution of MR Images ( http://arxiv.org/abs/2311.08225v1 ) ライセンス: Link先を確認 | Zhiyun Song, Zengxin Qi, Xin Wang, Xiangyu Zhao, Zhenrong Shen, Sheng Wang, Manman Fei, Zhe Wang, Di Zang, Dongdong Chen, Linlin Yao, Qian Wang, Xuehai Wu, Lichi Zhang | (参考訳) 磁気共鳴画像(MRI)において,クロスモダリティ合成(CMS),超解像(SR),それらの組み合わせ(CMSR)が広く研究されている。
その主な目的は、望まれるモダリティを合成し、スライス厚を小さくすることで、画像品質を向上させることである。
有望な合成結果にもかかわらず、これらの技術は特定のタスクに適合することが多く、複雑な臨床シナリオへの適応性が制限される。
したがって、モダリティと解像度設定の任意の要件で様々な画像合成タスクを処理できる統一ネットワークを構築することが重要であり、モデルのトレーニングと展開のためのリソースを大幅に削減できる。
しかし、以前の作品では、統一されたネットワークを使ってcms、sr、cmsrを実行することはできない。
さらに、これらのMRI再建法は、しばしばエイリアス周波数を不適切に治療し、至適の細部回復をもたらす。
本稿では,上記のタスクを単一ネットワークで実現するための,共変調エイリアスフリーフレームワーク (uni-coal) を提案する。
画像条件付きおよび確率的属性表現の共変調設計は、CMSとSRの整合性を確保しながら、入力/出力のモダリティと厚みの任意の組み合わせを同時に調整する。
Uni-COALのジェネレータはShannon-Nyquist信号処理フレームワークに基づいてエイリアスフリーに設計されており、エイリアス周波数を効果的に抑制する。
さらに、Segment Anything Model (SAM) のセグメンテーション前の意味を活用し、Uni-COALをガイドし、合成中の解剖学的構造をより確実に保存する。
3つのデータセットの実験により、Uni-COALはMR画像のCMS、SR、CMSRタスクの代替よりも優れており、広範囲のアプリケーションへの一般化性を強調している。 Cross-modality synthesis (CMS), super-resolution (SR), and their combination (CMSR) have been extensively studied for magnetic resonance imaging (MRI). Their primary goals are to enhance the imaging quality by synthesizing the desired modality and reducing the slice thickness. Despite the promising synthetic results, these techniques are often tailored to specific tasks, thereby limiting their adaptability to complex clinical scenarios. Therefore, it is crucial to build a unified network that can handle various image synthesis tasks with arbitrary requirements of modality and resolution settings, so that the resources for training and deploying the models can be greatly reduced. However, none of the previous works is capable of performing CMS, SR, and CMSR using a unified network. Moreover, these MRI reconstruction methods often treat alias frequencies improperly, resulting in suboptimal detail restoration. In this paper, we propose a Unified Co-Modulated Alias-free framework (Uni-COAL) to accomplish the aforementioned tasks with a single network. The co-modulation design of the image-conditioned and stochastic attribute representations ensures the consistency between CMS and SR, while simultaneously accommodating arbitrary combinations of input/output modalities and thickness. The generator of Uni-COAL is also designed to be alias-free based on the Shannon-Nyquist signal processing framework, ensuring effective suppression of alias frequencies. Additionally, we leverage the semantic prior of Segment Anything Model (SAM) to guide Uni-COAL, ensuring a more authentic preservation of anatomical structures during synthesis. Experiments on three datasets demonstrate that Uni-COAL outperforms the alternatives in CMS, SR, and CMSR tasks for MR images, which highlights its generalizability to wide-range applications. | 翻訳日:2023-11-15 13:36:23 公開日:2023-11-14 |
# アンダーソン局在フェルミガスを超拡散に加速するフェルミ Fermi accelerating an Anderson-localized Fermi gas to superdiffusion ( http://arxiv.org/abs/2311.08224v1 ) ライセンス: Link先を確認 | Sian Barbosa, Maximilian Kiefer-Emmanouilidis, Felix Lang, Jennifer Koch, Artur Widera | (参考訳) 障害は量子系の輸送特性に劇的な影響を及ぼすことがある。
一方、複数の散乱経路の破壊的量子干渉から生じるアンダーソン局在は、輸送を完全に停止することができる。
一方で、高エネルギー宇宙粒子の機構として提案されたフェルミ加速度などの時間依存ランダム力を伴う過程は、粒子の輸送を著しく促進することができる。
時間に依存しない不均質あるいは不規則なポテンシャルにおけるこれら2つの効果の競合は興味深いダイナミクスをもたらすが、実験的な観察は乏しい。
ここでは, 空間的および時間的相関が有限な障害電位内に広がる超低温非接触フェルミガスの力学を実験的に検討する。
障害の強さや変化率によっては,微弱な局在化や亜拡散から超拡散まで,変化可能な異常拡散のいくつかの異なる状態が観察される。
特に、拡大が局所化の効果を示す強い障害では、量子干渉が加速を阻害しているように見える中間のレジームが存在する。
このシステムは、アンダーソン局在化現象と二階フェルミ加速を結びつけ、量子輸送の体制に入る際のフェルミ加速を実験的に研究する方法を舗装する。 Disorder can have dramatic impact on the transport properties of quantum systems. On the one hand, Anderson localization, arising from destructive quantum interference of multiple-scattering paths, can halt transport entirely. On the other hand, processes involving time-dependent random forces such as Fermi acceleration, proposed as a mechanism for high-energy cosmic particles, can expedite particle transport significantly. The competition of these two effects in time-dependent inhomogeneous or disordered potentials can give rise to interesting dynamics but experimental observations are scarce. Here, we experimentally study the dynamics of an ultracold, non-interacting Fermi gas expanding inside a disorder potential with finite spatial and temporal correlations. Depending on the disorder's strength and rate of change, we observe several distinct regimes of tunable anomalous diffusion, ranging from weak localization and subdiffusion to superdiffusion. Especially for strong disorder, where the expansion shows effects of localization, an intermediate regime is present in which quantum interference appears to counteract acceleration. Our system connects the phenomena of Anderson localization with second-order Fermi acceleration and paves the way to experimentally investigating Fermi acceleration when entering the regime of quantum transport. | 翻訳日:2023-11-15 13:35:47 公開日:2023-11-14 |
# 構造概念の予測による画像キャプションの改善 Improving Image Captioning via Predicting Structured Concepts ( http://arxiv.org/abs/2311.08223v1 ) ライセンス: Link先を確認 | Ting Wang, Weidong Chen, Yuanhe Tian, Yan Song, Zhendong Mao | (参考訳) 画像キャプションタスクにおける画像とテキストのセマンティックギャップの解決が困難であったため,従来の研究では,2つのモダリティ間のブリッジとしての意味概念を扱い,キャプティング性能の向上に留意した。
概念予測の有望な結果が得られたが、前述の研究は通常、イメージ内のオブジェクトだけでなく、テキスト内の単語依存性にも依存する概念間の関係を無視するので、良質な記述を生成するプロセスを改善する大きな可能性を秘めている。
本稿では,概念とその構造を予測するための構造化概念予測器 (SCP) を提案し,それらをキャプションに統合し,このタスクにおける視覚信号の寄与を高めるとともに,それらの関係を利用して記述生成を改善する。
特に,単語依存による概念関係を表現するために重み付きグラフ畳み込みネットワーク(W-GCN)を設計し,これらの概念と区別されたコントリビューションを復号プロセスに従って学習する。
そこで本研究では,概念間の潜在的な関係を捉え,異なる概念を識別的に学習する手法を提案する。
広範な実験とその結果から,提案する各モジュールとともに,提案手法の有効性が示された。 Having the difficulty of solving the semantic gap between images and texts for the image captioning task, conventional studies in this area paid some attention to treating semantic concepts as a bridge between the two modalities and improved captioning performance accordingly. Although promising results on concept prediction were obtained, the aforementioned studies normally ignore the relationship among concepts, which relies on not only objects in the image, but also word dependencies in the text, so that offers a considerable potential for improving the process of generating good descriptions. In this paper, we propose a structured concept predictor (SCP) to predict concepts and their structures, then we integrate them into captioning, so as to enhance the contribution of visual signals in this task via concepts and further use their relations to distinguish cross-modal semantics for better description generation. Particularly, we design weighted graph convolutional networks (W-GCN) to depict concept relations driven by word dependencies, and then learns differentiated contributions from these concepts for following decoding process. Therefore, our approach captures potential relations among concepts and discriminatively learns different concepts, so that effectively facilitates image captioning with inherited information across modalities. Extensive experiments and their results demonstrate the effectiveness of our approach as well as each proposed module in this work. | 翻訳日:2023-11-15 13:35:28 公開日:2023-11-14 |
# Eval-GCSC:中国のスペル補正におけるChatGPTの性能評価のための新しい指標 Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese Spelling Correction ( http://arxiv.org/abs/2311.08219v1 ) ライセンス: Link先を確認 | Kunting Li, Yong Hu, Shaolei Wang, Hanhan Ma, Liang He, Fandong Meng, Jie Zhou | (参考訳) ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。
しかし,中国のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。
この矛盾が発生するのは、従来のメトリクスが生成モデルの評価に適していないからです。
その厳格な長さとフォニックスの制約は、chatgptの補正能力を過小評価する可能性がある。
本稿では,CSCタスクにおける生成モデルをよりよく評価するために,新しい評価指標であるEval-GCSCを提案する。
単語レベルの類似性判断と意味的類似性判断を組み込むことで、ストリンジェントの長さと音韻の制約を緩和する。
実験の結果,Eval-GCSCはヒトの評価と密接に一致していることがわかった。
この測定基準の下では、ChatGPTのパフォーマンスは従来のトークンレベルの分類モデル(TCM)と同等であり、CSCツールとしての可能性を示している。
ソースコードとスクリプトはhttps://github.com/ktlKTL/Eval-GCSCでアクセスできる。 ChatGPT has demonstrated impressive performance in various downstream tasks. However, in the Chinese Spelling Correction (CSC) task, we observe a discrepancy: while ChatGPT performs well under human evaluation, it scores poorly according to traditional metrics. We believe this inconsistency arises because the traditional metrics are not well-suited for evaluating generative models. Their overly strict length and phonics constraints may lead to underestimating ChatGPT's correction capabilities. To better evaluate generative models in the CSC task, this paper proposes a new evaluation metric: Eval-GCSC. By incorporating word-level and semantic similarity judgments, it relaxes the stringent length and phonics constraints. Experimental results show that Eval-GCSC closely aligns with human evaluations. Under this metric, ChatGPT's performance is comparable to traditional token-level classification models (TCM), demonstrating its potential as a CSC tool. The source code and scripts can be accessed at https://github.com/ktlKTL/Eval-GCSC. | 翻訳日:2023-11-15 13:35:02 公開日:2023-11-14 |
# ピラー画像生成のためのデータアンバランスな条件付きGAN Peer is Your Pillar: A Data-unbalanced Conditional GANs for Few-shot Image Generation ( http://arxiv.org/abs/2311.08217v1 ) ライセンス: Link先を確認 | Ziqiang Li, Chaoyue Wang, Xue Rui, Chao Xue, Jiaxu Leng, and Bin Li | (参考訳) 少ない撮影画像生成は、少数の訓練画像を用いて生成モデルを訓練することを目的としている。
トレーニング用に利用可能なイメージ(例:10イメージ)が少ない場合、Learning From Scratch(LFS)メソッドはトレーニングデータによく似たイメージを生成することが多いが、Transfer Learning(TL)メソッドは大規模なデータセットで事前トレーニングされたGANからの事前知識を活用してパフォーマンスを向上させる。
しかし、現在のTL法では、ソースモデルからの知識保存の程度を十分に制御することができず、ソースドメインとターゲットドメインが密接に関連していない設定には適さない。
これを解決するために、ターゲットとする数ショットデータセットとピアデータセットを組み合わせて、データ不均衡な条件生成を生成する、Peer is your Pillar(PIP)と呼ばれる新しいパイプラインを提案する。
提案手法は,クラス空間と潜在空間を分離するクラス埋め込みメソッドを含み,事前学習したクリップに基づく方向損失を用いて画像の多様性を向上させる。
様々な少数ショットデータセットの実験では、提案したPIPの進歩が示され、特に少数ショット画像生成のトレーニング要件が減少する。 Few-shot image generation aims to train generative models using a small number of training images. When there are few images available for training (e.g. 10 images), Learning From Scratch (LFS) methods often generate images that closely resemble the training data while Transfer Learning (TL) methods try to improve performance by leveraging prior knowledge from GANs pre-trained on large-scale datasets. However, current TL methods may not allow for sufficient control over the degree of knowledge preservation from the source model, making them unsuitable for setups where the source and target domains are not closely related. To address this, we propose a novel pipeline called Peer is your Pillar (PIP), which combines a target few-shot dataset with a peer dataset to create a data-unbalanced conditional generation. Our approach includes a class embedding method that separates the class space from the latent space, and we use a direction loss based on pre-trained CLIP to improve image diversity. Experiments on various few-shot datasets demonstrate the advancement of the proposed PIP, especially reduces the training requirements of few-shot image generation. | 翻訳日:2023-11-15 13:34:46 公開日:2023-11-14 |
# VERVE: テンプレートベースのMotiVational IntErviewing用リライト VERVE: Template-based ReflectiVE Rewriting for MotiVational IntErviewing ( http://arxiv.org/abs/2311.08299v1 ) ライセンス: Link先を確認 | Do June Min and Ver\'onica P\'erez-Rosas and Kenneth Resnicow and Rada Mihalcea | (参考訳) リフレクティブリスニングは、カウンセラーがモチベーション面接(MI)の熟練を達成するための基本的なスキルである。
これは、クライアントが会話で表現した意味を認識し、探求する方法で応答することを伴う。
本稿では,非反射文を反射応答に変換する応答書き換えのカウンセリングタスクを紹介する。
本稿では,paraphraseによるトレーニングとアダプティブテンプレート更新を備えたテンプレートベースの書き換えシステムであるverveを紹介する。
VERVEはまず、リフレクションに関係のないトークンを識別してフィルタリングすることでテンプレートを作成し、テンプレートを使用して反射応答を構築する。
パラフレーズ拡張トレーニングにより、モデルはマスクされたスパンの制限の少ないフィリングを学習でき、適応的なテンプレート更新は、オリジナルのコンテンツを著しく削除することなく、書き換えのための効果的なテンプレートを見つけるのに役立つ。
自動評価とヒューマン評価の両方を用いて,本手法をテキスト書き換えベースラインと比較し,ノンリフレクティブステートメントをリフレクティブ応答に変換し,良質なコンテンツ保存・リフレクションスタイルトレードオフを達成する上で有効であることを示す。 Reflective listening is a fundamental skill that counselors must acquire to achieve proficiency in motivational interviewing (MI). It involves responding in a manner that acknowledges and explores the meaning of what the client has expressed in the conversation. In this work, we introduce the task of counseling response rewriting, which transforms non-reflective statements into reflective responses. We introduce VERVE, a template-based rewriting system with paraphrase-augmented training and adaptive template updating. VERVE first creates a template by identifying and filtering out tokens that are not relevant to reflections and constructs a reflective response using the template. Paraphrase-augmented training allows the model to learn less-strict fillings of masked spans, and adaptive template updating helps discover effective templates for rewriting without significantly removing the original content. Using both automatic and human evaluations, we compare our method against text rewriting baselines and show that our framework is effective in turning non-reflective statements into more reflective responses while achieving a good content preservation-reflection style trade-off. | 翻訳日:2023-11-15 13:26:42 公開日:2023-11-14 |
# 言語モデルの信頼度推定と校正に関する調査 A Survey of Language Model Confidence Estimation and Calibration ( http://arxiv.org/abs/2311.08298v1 ) ライセンス: Link先を確認 | Jiahui Geng, Fengyu Cai, Yuxia Wang, Heinz Koeppl, Preslav Nakov, Iryna Gurevych | (参考訳) 言語モデル(lms)は、さまざまなドメインの幅広いタスクにまたがる驚くべき能力を示しています。
優れたパフォーマンスにもかかわらず、そのアウトプットの信頼性は、AIの安全性の要求に関係があり、疑わしい。
LM予測の信頼性を評価し、異なるタスク間でそれらを調整することで、LM信頼と精度を一致させることでリスクを軽減し、LMがより良い決定を下すことができる。
この点については様々な研究があるが、この重要な研究分野の総合的な概要は見当たらない。
本調査は,このギャップを埋めることを目的としている。
特に,lm信頼度推定とキャリブレーションの手法と手法について検討し,異なるlmと様々なタスクを包含する。
我々はさらに,大規模言語モデルの信頼度を推定する課題を概説し,今後の作業に有望な方向性を提案する。 Language models (LMs) have demonstrated remarkable capabilities across a wide range of tasks in various domains. Despite their impressive performance, the reliability of their output is concerning and questionable regarding the demand for AI safety. Assessing the confidence of LM predictions and calibrating them across different tasks with the aim to align LM confidence with accuracy can help mitigate risks and enable LMs to make better decisions. There have been various works in this respect, but there has been no comprehensive overview of this important research area. The present survey aims to bridge this gap. In particular, we discuss methods and techniques for LM confidence estimation and calibration, encompassing different LMs and various tasks. We further outline the challenges of estimating the confidence for large language models and we suggest some promising directions for future work. | 翻訳日:2023-11-15 13:26:20 公開日:2023-11-14 |
# mkidを用いた単光子検出器設置のための大学院実験 A postgraduate laboratory experiment to set up a single-photon detector using MKIDs ( http://arxiv.org/abs/2311.08295v1 ) ライセンス: Link先を確認 | Pietro Campana, Rodolfo Carobene, Eleonora Cipelli, Marco Gobbo, Aurora Perego, Davide Vertemati | (参考訳) 本稿では,低温におけるマイクロ波応用の知識と専門知識の育成を目的とした実験室活動について述べる。
この経験はマイクロ波動インダクタンス検出器(MKID)による単一赤外線光子の検出に焦点を当てている。
実験的なセットアップ、理論的な概念、そして関連する活動は、経験を通じて得られるスキルと知識を強調しながら詳細に記述されている。
この実験は、量子技術分野の大学院生向けに設計されている。 This paper presents a laboratory activity aimed at developing knowledge and expertise in microwave applications at cryogenic temperatures. The experience focuses on the detection of single infrared photons through Microwave Kinetic Inductance Detectors (MKIDs). The experimental setup, theoretical concepts, and activities involved are detailed, highlighting the skills and knowledge gained through the experience. This experiment is designed for postgraduate students in the field of quantum technologies. | 翻訳日:2023-11-15 13:26:06 公開日:2023-11-14 |
# 多体系における量子重力誘起絡み合いの分布 Distribution of quantum gravity induced entanglement in many-body systems ( http://arxiv.org/abs/2311.08291v1 ) ライセンス: Link先を確認 | Pratik Ghosal, Arkaprabha Ghosal, and Somshubhro Bandyopadhyay | (参考訳) 近年,空間的に重なり合った量子状態の2つの遠方の実験質量が相互重力相互作用によって絡み合っていることが示された。
この絡み合いは、重力の量子的性質の象徴であると主張した。
この治療を多体系に一般化し, 時間発展状態の絡み合い特性について検討した。
分割毎に時間依存I-コンカレンスを正確に計算し、真の多体絡みの生成に必要な条件を得る。
さらに、この絡み合いは、ある条件が満たされたときに一般化されたGHZ型であることが示される。
また, 一般化されたメイヤーワラッハ測度を用いて, システム内の多成分絡み合い量を評価する。 Recently, it was shown that two distant test masses, each prepared in a spatially superposed quantum state, become entangled through their mutual gravitational interaction. This entanglement, it was argued, is a signature of the quantum nature of gravity. We extend this treatment to a many-body system in a general setup and study the entanglement properties of the time-evolved state. We exactly compute the time-dependent I-concurrence for every bipartition and obtain the necessary and sufficient condition for the creation of genuine many-body entanglement. We further show that this entanglement is of generalised GHZ type when certain conditions are met. We also evaluate the amount of multipartite entanglement in the system using a set of generalised Meyer-Wallach measures. | 翻訳日:2023-11-15 13:25:59 公開日:2023-11-14 |
# On-Policy Policy Gradient Reinforcement Learning without On-Policy Smpling On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling ( http://arxiv.org/abs/2311.08290v1 ) ライセンス: Link先を確認 | Nicholas E. Corrado, Josiah P. Hanna | (参考訳) オンライン強化学習(RL)アルゴリズムは、現在のポリシーによって収集された軌道を用いてポリシー更新を行う。
しかし、有限個の軌道のみを観測した後、オンポリシーサンプリングは期待されたオンポリシーデータ分布と一致しないデータを生成する可能性がある。
このサンプリングエラーは、ノイズの多い更新と、非効率なオンポリシー学習につながる。
政策評価設定における最近の研究は、例えば、オフ・ポリシーサンプリングは、オン・ポリシーサンプリングよりも低いサンプリング誤差でデータを生成することができることを示した。
そこで本研究では,オンポリシー勾配アルゴリズムのデータ効率向上のための適応型オフポリシーサンプリング手法を提案する。
我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は、現在のポリシーに対してアンダーサンプリングされたサンプリングアクションの確率を高める行動ポリシーを用いてデータを収集することでサンプリングエラーを低減する。
PROPSは、従来のポリシーからデータを捨てるのではなく、データ収集を使用して、以前に収集したデータの分散をほぼオンポジーに調整する。
我々は,連続動作ムジョコベンチマークタスクと離散動作タスクの両方のプロップを実証的に評価し,(1)プロップがトレーニング期間中にサンプリング誤差を減少させ,(2)オンポリシポリシー勾配アルゴリズムのデータ効率を向上させることを実証した。
我々の研究は、オンポリシー対オフポリシー二分法におけるニュアンスに対するrlコミュニティの理解を改善する:オンポリシー学習はオンポリシーデータを必要とし、オンポリシーサンプリングは必要ではない。 On-policy reinforcement learning (RL) algorithms perform policy updates using i.i.d. trajectories collected by the current policy. However, after observing only a finite number of trajectories, on-policy sampling may produce data that fails to match the expected on-policy data distribution. This sampling error leads to noisy updates and data inefficient on-policy learning. Recent work in the policy evaluation setting has shown that non-i.i.d., off-policy sampling can produce data with lower sampling error than on-policy sampling can produce. Motivated by this observation, we introduce an adaptive, off-policy sampling method to improve the data efficiency of on-policy policy gradient algorithms. Our method, Proximal Robust On-Policy Sampling (PROPS), reduces sampling error by collecting data with a behavior policy that increases the probability of sampling actions that are under-sampled with respect to the current policy. Rather than discarding data from old policies -- as is commonly done in on-policy algorithms -- PROPS uses data collection to adjust the distribution of previously collected data to be approximately on-policy. We empirically evaluate PROPS on both continuous-action MuJoCo benchmark tasks as well as discrete-action tasks and demonstrate that (1) PROPS decreases sampling error throughout training and (2) improves the data efficiency of on-policy policy gradient algorithms. Our work improves the RL community's understanding of a nuance in the on-policy vs off-policy dichotomy: on-policy learning requires on-policy data, not on-policy sampling. | 翻訳日:2023-11-15 13:25:46 公開日:2023-11-14 |
# 大規模言語モデルによる構文の理解
自然言語質問による評価 How Well Do Large Language Models Understand Syntax? An Evaluation by Asking Natural Language Questions ( http://arxiv.org/abs/2311.08287v1 ) ライセンス: Link先を確認 | Houquan Zhou, Yang Hou, Zhenghua Li, Xuebin Wang, Zhefeng Wang, Xinyu Duan, Min Zhang | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、人工知能の実現に近づきつつあるが、疑問は続く: LLMは言語を本当に理解しているか、それとも単にパターン認識による理解を模倣するのか?
本研究は,文理解の重要な構成要素である構文レンズを用いて,この問題を探究することを目的とする。
自然言語質問回答(Q&A)方式を採用することで、文理解に最も近い9つの構文的知識ポイントを対象とする質問を作成する。
24 llms で行った実験は、ほとんどが構文知識の把握が限られており、異なる構文知識点間で顕著な相違が見られることを示唆している。
特に、前置詞句のアタッチメントに関する質問は最大の課題であり、形容詞修飾子と間接的対象に関する質問は、LLMが扱うのが比較的容易である。
さらに、llmのトレーニングダイナミクスに関するケーススタディでは、構文知識の大部分はトレーニングの初期段階で学習されており、単にトレーニングトークンの数を増やすだけでは、llmの理解能力を向上させるための「銀弾」ではない可能性があることを示唆している。 While recent advancements in large language models (LLMs) bring us closer to achieving artificial general intelligence, the question persists: Do LLMs truly understand language, or do they merely mimic comprehension through pattern recognition? This study seeks to explore this question through the lens of syntax, a crucial component of sentence comprehension. Adopting a natural language question-answering (Q&A) scheme, we craft questions targeting nine syntactic knowledge points that are most closely related to sentence comprehension. Experiments conducted on 24 LLMs suggest that most have a limited grasp of syntactic knowledge, exhibiting notable discrepancies across different syntactic knowledge points. In particular, questions involving prepositional phrase attachment pose the greatest challenge, whereas those concerning adjectival modifier and indirect object are relatively easier for LLMs to handle. Furthermore, a case study on the training dynamics of the LLMs reveals that the majority of syntactic knowledge is learned during the initial stages of training, hinting that simply increasing the number of training tokens may not be the `silver bullet' for improving the comprehension ability of LLMs. | 翻訳日:2023-11-15 13:25:17 公開日:2023-11-14 |
# レベルセットksvd Level Set KSVD ( http://arxiv.org/abs/2311.08284v1 ) ライセンス: Link先を確認 | Omer Sapir, Iftach Klapp, Nir Sochen | (参考訳) 画像分割のための新しいアルゴリズム - Level-set KSVDを提案する。
レベルセットKSVDは特徴抽出のためのスパース辞書学習法と画像セグメンテーションのための変分レベルセット法を融合する。
具体的には, chan-vese 関数の一般化と ksvd が学習した特徴を用いた。
このモデルの動機は農業である。
航空画像は、様々な作物の菌類の拡散を検出するために撮影される。
我々のモデルは綿花畑のこのような画像で検証される。
結果は他の方法と比較される。 We present a new algorithm for image segmentation - Level-set KSVD. Level-set KSVD merges the methods of sparse dictionary learning for feature extraction and variational level-set method for image segmentation. Specifically, we use a generalization of the Chan-Vese functional with features learned by KSVD. The motivation for this model is agriculture based. Aerial images are taken in order to detect the spread of fungi in various crops. Our model is tested on such images of cotton fields. The results are compared to other methods. | 翻訳日:2023-11-15 13:24:57 公開日:2023-11-14 |
# ARTEMIS: アート生成に複数の識別器を用いたGAN ARTEMIS: Using GANs with Multiple Discriminators to Generate Art ( http://arxiv.org/abs/2311.08278v1 ) ライセンス: Link先を確認 | James Baker | (参考訳) 抽象アートを生成する新しい手法を提案する。
まず、事前訓練されたVGGネットワークでソース画像から抽出された画像のスタイル表現を符号化し、復号するオートエンコーダを訓練する。
そして、オートエンコーダのデコーダ成分を抽出し、GANのジェネレータとして使用する。
発電機は識別器のアンサンブルで動作する。
各判別器は、同じ画像の異なるスタイル表現を受け取り、ジェネレータは、すべてのジェネレータを欺くために、説得力のあるスタイル表現を生成するイメージを作成するように訓練される。
ジェネレータはまた、多様性の項を最大化するために訓練される。
その結果得られた画像は、超現実的で幾何学的な品質を持っていた。
我々は,自己認識層とエンコーダ・デコーダアーキテクチャを用いたARTEMIS(Artistic Encoder- Multi- Discriminators In including Self-Attention)と呼ぶ。 We propose a novel method for generating abstract art. First an autoencoder is trained to encode and decode the style representations of images, which are extracted from source images with a pretrained VGG network. Then, the decoder component of the autoencoder is extracted and used as a generator in a GAN. The generator works with an ensemble of discriminators. Each discriminator takes different style representations of the same images, and the generator is trained to create images that create convincing style representations in order to deceive all of the generators. The generator is also trained to maximize a diversity term. The resulting images had a surreal, geometric quality. We call our approach ARTEMIS (ARTistic Encoder- Multi- Discriminators Including Self-Attention), as it uses the self-attention layers and an encoder-decoder architecture. | 翻訳日:2023-11-15 13:24:51 公開日:2023-11-14 |
# シリコン中のテレコムカラーセンターの電気操作 Electrical Manipulation of Telecom Color Centers in Silicon ( http://arxiv.org/abs/2311.08276v1 ) ライセンス: Link先を確認 | Aaron M. Day, Madison Sutula, Jonathan R. Dietz, Alexander Raun, Denis D. Sukachev, Mihir K. Bhaskar and Evelyn L. Hu | (参考訳) シリコンカラーセンターは最近、商用量子テクノロジーの有望な候補として登場したが、電場との相互作用はまだ調査されていない。
本稿では,市販のシリコン絶縁体ウェハーにg中心アンサンブルを組み込んだ横型半導体ダイオードを作製し,通信用シリコンカラーセンタの電気的操作を実証する。
アンサンブル光応答は、逆バイアス直流電界を用いて、蛍光信号の100%変調と、閾値電圧より約1.4GHz/Vの波長赤方偏移の両方を観察する。
最後に、g中心蛍光を用いてデバイス内の電界分布を直接撮像し、接合欠落領域の空間的および電圧依存的な変動と、アンサンブルに付随する媒介効果についての洞察を得る。
エミッタ場結合と発生光電流との強い相関が観察された。
半導体量子エミッタの電気制御と安定化を実現する。 Silicon color centers have recently emerged as promising candidates for commercial quantum technology, yet their interaction with electric fields has yet to be investigated. In this paper, we demonstrate electrical manipulation of telecom silicon color centers by fabricating lateral electrical diodes with an integrated G center ensemble in a commercial silicon on insulator wafer. The ensemble optical response is characterized under application of a reverse-biased DC electric field, observing both 100% modulation of fluorescence signal, and wavelength redshift of approximately 1.4 GHz/V above a threshold voltage. Finally, we use G center fluorescence to directly image the electric field distribution within the devices, obtaining insight into the spatial and voltage-dependent variation of the junction depletion region and the associated mediating effects on the ensemble. Strong correlation between emitter-field coupling and generated photocurrent is observed. Our demonstration enables electrical control and stabilization of semiconductor quantum emitters. | 翻訳日:2023-11-15 13:24:35 公開日:2023-11-14 |
# 言語特化サブネットによる多言語LMのモジュール性の検討 Examining Modularity in Multilingual LMs via Language-Specialized Subnetworks ( http://arxiv.org/abs/2311.08273v1 ) ライセンス: Link先を確認 | Rochelle Choenni, Ekaterina Shutova, Dan Garrette | (参考訳) 最近の研究は、多言語LMにおいて言語間の共有をより良く導く手段として、言語ごとのサブネット上でのスパース微調整(SFT)を通じて言語ワイドなモジュラリティを明示的に誘導することを提案した。
本研究は,(1)特別なモジュラリティの介入を伴わないモデルにおいて言語間モジュラリティが自然発生する程度,(2)これらのモデルと明示的なsft誘導サブネットワークモジュラリティモデルとの言語間共有と干渉の差異について検討する。
言語特殊化と言語間相互作用を定量化するために,モデルの予測が言語内あるいは言語間トレーニングの例に影響される程度を推定するトレーニングデータ属性法を用いる。
以上の結果から,言語特化サブネットワークは自然発生し,モジュール性が常に向上する代わりに,サブネットワークの言語特化を減らし,より言語横断的な共有が期待できることがわかった。 Recent work has proposed explicitly inducing language-wise modularity in multilingual LMs via sparse fine-tuning (SFT) on per-language subnetworks as a means of better guiding cross-lingual sharing. In this work, we investigate (1) the degree to which language-wise modularity naturally arises within models with no special modularity interventions, and (2) how cross-lingual sharing and interference differ between such models and those with explicit SFT-guided subnetwork modularity. To quantify language specialization and cross-lingual interaction, we use a Training Data Attribution method that estimates the degree to which a model's predictions are influenced by in-language or cross-language training examples. Our results show that language-specialized subnetworks do naturally arise, and that SFT, rather than always increasing modularity, can decrease language specialization of subnetworks in favor of more cross-lingual sharing. | 翻訳日:2023-11-15 13:24:19 公開日:2023-11-14 |
# クロスドメインシーケンスレコメンデーションのための混合注意ネットワーク Mixed Attention Network for Cross-domain Sequential Recommendation ( http://arxiv.org/abs/2311.08272v1 ) ライセンス: Link先を確認 | Guanyu Lin, Chen Gao, Yu Zheng, Jianxin Chang, Yanan Niu, Yang Song, Kun Gai, Zhiheng Li, Depeng Jin, Yong Li, Meng Wang | (参考訳) 現代のレコメンデーションシステムにおいて、シーケンシャルなレコメンデーションは、特に新規ユーザーにとって、データ空間の問題に悩まされる、時系列的ユーザ行動を利用して、効果的な次項目の提案を行う。
有望な作業の1つはクロスドメインレコメンデーションであり、複数のドメインにまたがるデータでモデルをトレーニングし、データスカースドメインのパフォーマンスを改善する。
近年提案されている、PiNetやDASLのようなクロスドメインシーケンシャルなレコメンデーションモデルでは、異なるドメインの重複したユーザに大きく依存する共通の欠点がある。
本稿では,ドメイン固有情報とクロスドメイン情報を抽出するために,ローカル・グローバル・アテンション・モジュールを備えたMixed Attention Network(MAN)を提案する。
まず、ドメイン固有/クロスドメインシーケンシャルパターンをキャプチャするローカル/グローバルエンコーディング層を提案する。
そこで本研究では,各ドメインにまたがるユーザグループを抽出し,各ドメインにまたがるユーザグループを抽出し,商品類似度,シーケンス融合注意度,グループプロトタイプ注意度を混合した注目層を提案する。
最後に、ドメイン固有の関心とドメイン間の関心をさらに発展させ、組み合わせるためのローカル/グローバルな予測層を提案する。
2つの実世界のデータセット(それぞれ2つの領域を持つ)の実験結果から,提案モデルの有効性が示された。
さらに,提案手法とコンポーネントは,それぞれモデルに依存しない,有効であることを示す。
コードとデータはhttps://github.com/Guanyu-Lin/MANで公開されている。 In modern recommender systems, sequential recommendation leverages chronological user behaviors to make effective next-item suggestions, which suffers from data sparsity issues, especially for new users. One promising line of work is the cross-domain recommendation, which trains models with data across multiple domains to improve the performance in data-scarce domains. Recent proposed cross-domain sequential recommendation models such as PiNet and DASL have a common drawback relying heavily on overlapped users in different domains, which limits their usage in practical recommender systems. In this paper, we propose a Mixed Attention Network (MAN) with local and global attention modules to extract the domain-specific and cross-domain information. Firstly, we propose a local/global encoding layer to capture the domain-specific/cross-domain sequential pattern. Then we propose a mixed attention layer with item similarity attention, sequence-fusion attention, and group-prototype attention to capture the local/global item similarity, fuse the local/global item sequence, and extract the user groups across different domains, respectively. Finally, we propose a local/global prediction layer to further evolve and combine the domain-specific and cross-domain interests. Experimental results on two real-world datasets (each with two domains) demonstrate the superiority of our proposed model. Further study also illustrates that our proposed method and components are model-agnostic and effective, respectively. The code and data are available at https://github.com/Guanyu-Lin/MAN. | 翻訳日:2023-11-15 13:24:00 公開日:2023-11-14 |
# WiFi測位のためのモビリティによるグラフ学習 Mobility-Induced Graph Learning for WiFi Positioning ( http://arxiv.org/abs/2311.08271v1 ) ライセンス: Link先を確認 | Kyuwon Han, Seung Min Yu, Seong-Lyun Kim, Seung-Woo Ko | (参考訳) スマートフォンベースのユーザモビリティトラッキングは、自分の位置を見つけるのに有効であるが、内蔵慣性測定ユニット(imus)の仕様が低く、wi-fi測位のような他の測位技術との統合を要求するため、予測不能なエラーが発生する。
本稿では,異なるユーザモビリティ特徴を捉えた2種類のグラフに基づいて設計した,MINGLE(Mobility-Induced Graph LEarning)と呼ばれるグラフニューラルネットワークを用いた新たな統合手法を提案する。
具体的には、逐次測定点(MP)をノードとして考慮し、ユーザの通常のモビリティパターンにより、隣接するMPをエッジとして接続することができる。
第2に、方向駆動モビリティグラフ(dmg)と呼ばれる各経路のノードを接続することで、ある位置から別の位置へ移動するときの、ユーザの相対的に直線的な遷移を捉えることができる。
次に、グラフ畳み込みネットワーク(GCN)に基づくクロスグラフ学習を設計し、TMGとDMGの2つの異なるGCNモデルが、WiFi RTTによって生成された異なる入力特徴を共有しながら、その重みを共有することで共同で訓練する。
さらに、損失関数は、ユーザの安定した移動速度のため、隣接する位置推定値の違いが少ないように移動規則化項を含む。
正規化項は基底位置を必要としないので、mingleは半教師付き学習フレームワークで設計することができる。
提案したMINGLEの有効性は、フィールド実験を通じて広範囲に検証され、ベンチマークよりも正確な位置決め精度が示され、例えば、自己教師付き学習の場合のルート平均二乗誤差(RMSE)は1.398(m)、1.073(m)である。 A smartphone-based user mobility tracking could be effective in finding his/her location, while the unpredictable error therein due to low specification of built-in inertial measurement units (IMUs) rejects its standalone usage but demands the integration to another positioning technique like WiFi positioning. This paper aims to propose a novel integration technique using a graph neural network called Mobility-INduced Graph LEarning (MINGLE), which is designed based on two types of graphs made by capturing different user mobility features. Specifically, considering sequential measurement points (MPs) as nodes, a user's regular mobility pattern allows us to connect neighbor MPs as edges, called time-driven mobility graph (TMG). Second, a user's relatively straight transition at a constant pace when moving from one position to another can be captured by connecting the nodes on each path, called a direction-driven mobility graph (DMG). Then, we can design graph convolution network (GCN)-based cross-graph learning, where two different GCN models for TMG and DMG are jointly trained by feeding different input features created by WiFi RTTs yet sharing their weights. Besides, the loss function includes a mobility regularization term such that the differences between adjacent location estimates should be less variant due to the user's stable moving pace. Noting that the regularization term does not require ground-truth location, MINGLE can be designed under semi- and self-supervised learning frameworks. The proposed MINGLE's effectiveness is extensively verified through field experiments, showing a better positioning accuracy than benchmarks, say root mean square errors (RMSEs) being 1.398 (m) and 1.073 (m) for self- and semi-supervised learning cases, respectively. | 翻訳日:2023-11-15 13:23:33 公開日:2023-11-14 |
# 境界の定義:顕微鏡画像における細胞同定の課題と進歩 Defining the boundaries: challenges and advances in identifying cells in microscopy images ( http://arxiv.org/abs/2311.08269v1 ) ライセンス: Link先を確認 | Nodar Gogoberidze, Beth A. Cimini | (参考訳) セグメンテーション(Seegmentation)は、顕微鏡画像中の細胞の測定と解析において重要なステップである。
従来のセグメンテーションの方法に依存するツールでは改善が続いているが、ディープラーニングベースのツールはテクノロジの進歩をますます支配している。
Cellposeのようなスペシャリストモデルは精度とユーザフレンドリさを向上し続けており、Multi-Modality Cell Segmentation Challengeのようなセグメンテーションチャレンジは、広範囲にわたるテストデータだけでなく、効率とユーザビリティも革新を推し進めている。
ドキュメンテーション、共有、評価標準への注目が高まり、ユーザーフレンドリさが増し、真に普遍的な方法の目標に向かって加速している。 Segmentation, or the outlining of objects within images, is a critical step in the measurement and analysis of cells within microscopy images. While improvements continue to be made in tools that rely on classical methods for segmentation, deep learning-based tools increasingly dominate advances in the technology. Specialist models such as Cellpose continue to improve in accuracy and user-friendliness, and segmentation challenges such as the Multi-Modality Cell Segmentation Challenge continue to push innovation in accuracy across widely-varying test data as well as efficiency and usability. Increased attention on documentation, sharing, and evaluation standards are leading to increased user-friendliness and acceleration towards the goal of a truly universal method. | 翻訳日:2023-11-15 13:22:58 公開日:2023-11-14 |
# 羊の服を着たオオカミ:ネストした脱獄プロンプトは大きな言語モデルを簡単に騙す A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily ( http://arxiv.org/abs/2311.08268v1 ) ライセンス: Link先を確認 | Peng Ding, Jun Kuang, Dan Ma, Xuezhi Cao, Yunsen Xian, Jiajun Chen, Shujian Huang | (参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。
しかし、"jailbreaks"と呼ばれる敵のプロンプトは保護を回避し、LSMは有害な内容を生成する。
ジェイルブレイクのプロンプトを探索することは、LSMの弱点を明らかにするのに役立ちます。
残念ながら、既存のjailbreakメソッドは複雑な手動設計に悩まされるか、別のホワイトボックスモデルの最適化を必要とするか、一般化やjailbreak効率を損なう。
本稿では,(1)プロンプトリライトと(2)シナリオネスティングの2つの側面にジェイルブレイク即時攻撃を一般化する。
そこで本研究では,LDM自体を利用して効果的なジェイルブレイクプロンプトを生成する自動フレームワークReNeLLMを提案する。
大規模な実験により、ReNeLLMは攻撃成功率を大幅に改善し、既存のベースラインと比較して時間コストを大幅に削減することが示された。
また,LLMの保護における現在の防御方法の欠如も明らかにした。
最後に,LLMの防御の失敗に対する迅速な実行優先の観点から,詳細な分析と議論を行う。
我々の研究は、より安全で規制された大規模言語モデルの提供に向けて、学術コミュニティとLLMベンダーの両方を触媒できることを期待しています。 Large Language Models (LLMs), such as ChatGPT and GPT-4, are designed to provide useful and safe responses. However, adversarial prompts known as 'jailbreaks' can circumvent safeguards, leading LLMs to generate harmful content. Exploring jailbreak prompts can help to better reveal the weaknesses of LLMs and further steer us to secure them. Unfortunately, existing jailbreak methods either suffer from intricate manual design or require optimization on another white-box model, compromising generalization or jailbreak efficiency. In this paper, we generalize jailbreak prompt attacks into two aspects: (1) Prompt Rewriting and (2) Scenario Nesting. Based on this, we propose ReNeLLM, an automatic framework that leverages LLMs themselves to generate effective jailbreak prompts. Extensive experiments demonstrate that ReNeLLM significantly improves the attack success rate while greatly reducing the time cost compared to existing baselines. Our study also reveals the inadequacy of current defense methods in safeguarding LLMs. Finally, we offer detailed analysis and discussion from the perspective of prompt execution priority on the failure of LLMs' defense. We hope that our research can catalyze both the academic community and LLMs vendors towards the provision of safer and more regulated Large Language Models. | 翻訳日:2023-11-15 13:22:45 公開日:2023-11-14 |
# 普遍的敵意攻撃とスパース表現の関係について On The Relationship Between Universal Adversarial Attacks And Sparse Representations ( http://arxiv.org/abs/2311.08265v1 ) ライセンス: Link先を確認 | Dana Weitzner and Raja Giryes | (参考訳) ニューラルネットワークの顕著な成功は、主にコンピュータビジョンタスクにおいて、画像入力における小さな、ほとんど知覚できない敵の摂動に対する感受性によって、ますます影に隠れている。
本研究では,この脆弱性を説明することを目的としている。
本稿では,ニューラルネットワークにおける攻撃例の普遍性と伝達可能性を説明することに着目し,攻撃攻撃とスパース表現の関係を示す。
この結果から,スパース符号化アルゴリズムとニューラルネットワークに基づく学習反復収縮しきい値決定アルゴリズム(LISTA)は,この感度に悩まされており,ニューラルネットワークに対する共通攻撃は,入力画像のスパース表現に対する攻撃として表現できることを示した。
ネットワークがスパース表現や辞書に非依存である場合にも、我々が観測する現象は真実であり、敵攻撃の普遍性と転送可能性について説明できる。
コードはhttps://github.com/danawr/adversarial_attacks_and_sparse_representationsで入手できる。 The prominent success of neural networks, mainly in computer vision tasks, is increasingly shadowed by their sensitivity to small, barely perceivable adversarial perturbations in image input. In this work, we aim at explaining this vulnerability through the framework of sparsity. We show the connection between adversarial attacks and sparse representations, with a focus on explaining the universality and transferability of adversarial examples in neural networks. To this end, we show that sparse coding algorithms, and the neural network-based learned iterative shrinkage thresholding algorithm (LISTA) among them, suffer from this sensitivity, and that common attacks on neural networks can be expressed as attacks on the sparse representation of the input image. The phenomenon that we observe holds true also when the network is agnostic to the sparse representation and dictionary, and thus can provide a possible explanation for the universality and transferability of adversarial attacks. The code is available at https://github.com/danawr/adversarial_attacks_and_sparse_representations. | 翻訳日:2023-11-15 13:22:23 公開日:2023-11-14 |
# スパルシリティ保存型大規模埋め込みモデルの微分プライベートトレーニング Sparsity-Preserving Differentially Private Training of Large Embedding Models ( http://arxiv.org/abs/2311.08357v1 ) ライセンス: Link先を確認 | Badih Ghazi, Yangsibo Huang, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Amer Sinha, Chiyuan Zhang | (参考訳) レコメンデーションシステムや言語アプリケーションにおける大規模組み込みモデルの使用が増加するにつれて、ユーザデータのプライバシに関する懸念も高まっている。
差分プライバシーと確率勾配勾配勾配を併用したトレーニングアルゴリズムDP-SGDは,モデルの精度を著しく損なうことなく,ユーザのプライバシを保護する作業場となっている。
しかし, DP-SGDをネーティブに埋め込みモデルに適用すると, 勾配幅が破壊され, トレーニング効率が低下する。
この問題に対処するために,大規模埋め込みモデルのプライベートトレーニング中に勾配間隔を保ったDP-FESTとDP-AdaFESTという2つの新しいアルゴリズムを提案する。
我々のアルゴリズムは、ベンチマーク実世界のデータセット上で、同等の精度を維持しながら、勾配サイズの大幅な削減(10^6 \times$)を達成する。 As the use of large embedding models in recommendation systems and language applications increases, concerns over user data privacy have also risen. DP-SGD, a training algorithm that combines differential privacy with stochastic gradient descent, has been the workhorse in protecting user privacy without compromising model accuracy by much. However, applying DP-SGD naively to embedding models can destroy gradient sparsity, leading to reduced training efficiency. To address this issue, we present two new algorithms, DP-FEST and DP-AdaFEST, that preserve gradient sparsity during private training of large embedding models. Our algorithms achieve substantial reductions ($10^6 \times$) in gradient size, while maintaining comparable levels of accuracy, on benchmark real-world datasets. | 翻訳日:2023-11-15 13:16:04 公開日:2023-11-14 |
# 効率的な線形光量子計算のための損失耐性閾値を超える高効率単一光子源 High-efficiency single-photon source above the loss-tolerant threshold for efficient linear optical quantum computing ( http://arxiv.org/abs/2311.08347v1 ) ライセンス: Link先を確認 | Xing Ding, Yong-Peng Guo, Mo-Chi Xu, Run-Ze Liu, Geng-Yan Zou, Jun-Yi Zhao, Zhen-Xuan Ge, Qi-Hang Zhang, Hua-Liang Liu, Ming-Cheng Chen, Hui Wang, Yu-Ming He, Yong-Heng Huo, Chao-Yang Lu, Jian-Wei Pan | (参考訳) 光子損失はスケーラブルなフォトニック量子情報処理の最大の敵である。
この問題は、全体の光子損失がしきい値1/3以下であることから、量子誤差補正を用いることで解決できる。
しかし、報告されたオンデマンドかつ識別不能な単一光子源は、まだこのしきい値に届かない。
本稿では,波長可変な開放型マイクロキャビティに決定論的に結合した高量子効率のレーザーパルス励起を用いて,単一光子純度0.99795(6),光子識別性0.986(16),システム効率0.717(20)の高性能光源を実証する。
このソースは、スケーラブルなフォトニック量子コンピューティングの効率しきい値に初めて到達した。
この源泉を用いて、さらに1.87(13) dB強度のスクイーズ、および1.67mHzの連続40光子事象を実証する。 Photon loss is the biggest enemy for scalable photonic quantum information processing. This problem can be tackled by using quantum error correction, provided that the overall photon loss is below a threshold of 1/3. However, all reported on-demand and indistinguishable single-photon sources still fall short of this threshold. Here, by using tailor shaped laser pulse excitation on a high-quantum efficiency single quantum dot deterministically coupled to a tunable open microcavity, we demonstrate a high-performance source with a single-photon purity of 0.9795(6), photon indistinguishability of 0.986(16), and an overall system efficiency of 0.717(20), simultaneously. This source for the first time reaches the efficiency threshold for scalable photonic quantum computing. With this source, we further demonstrate 1.87(13) dB intensity squeezing, and consecutive 40-photon events with 1.67 mHz count rate. | 翻訳日:2023-11-15 13:15:48 公開日:2023-11-14 |
# 因果的メッセージパッシング:未知および一般ネットワーク干渉実験のための方法 Causal Message Passing: A Method for Experiments with Unknown and General Network Interference ( http://arxiv.org/abs/2311.08340v1 ) ライセンス: Link先を確認 | Sadegh Shirani, Mohsen Bayati | (参考訳) ランダム化実験は、データ駆動による意思決定や介入の評価のための強力な方法論である。
しかし、その妥当性はネットワーク干渉によって損なわれる可能性がある。
これは、1つのユニットの処理がその結果だけでなく、連結ユニットの処理にも影響を及ぼすときに起こり、従来の治療効果の推定をバイアスする。
本研究は,既存の文献における特殊なモデルを超えて,複雑で未知のネットワーク干渉に対応する新しい枠組みを提案する。
因果的メッセージパッシング(causal message-passing)と呼ぶこのフレームワークは,高次元近似メッセージパッシング手法に基礎を置き,ネットワーク干渉が一般的である実験的な設計設定に特化している。
因果的メッセージパッシングを用いて, 全処理効果を推定し, それぞれに固有の干渉構造を持つ4つの数値シナリオで有効性を示す実用的なアルゴリズムを提案する。 Randomized experiments are a powerful methodology for data-driven evaluation of decisions or interventions. Yet, their validity may be undermined by network interference. This occurs when the treatment of one unit impacts not only its outcome but also that of connected units, biasing traditional treatment effect estimations. Our study introduces a new framework to accommodate complex and unknown network interference, moving beyond specialized models in the existing literature. Our framework, which we term causal message-passing, is grounded in a high-dimensional approximate message passing methodology and is specifically tailored to experimental design settings with prevalent network interference. Utilizing causal message-passing, we present a practical algorithm for estimating the total treatment effect and demonstrate its efficacy in four numerical scenarios, each with its unique interference structure. | 翻訳日:2023-11-15 13:15:31 公開日:2023-11-14 |
# 生成可能AIのための変分自動エンコーダアーキテクチャ、構成、データセットの探索 Exploring Variational Auto-Encoder Architectures, Configurations, and Datasets for Generative Music Explainable AI ( http://arxiv.org/abs/2311.08336v1 ) ライセンス: Link先を確認 | Nick Bryan-Kinns, Bingyuan Zhang, Songyan Zhao and Berker Banar | (参考訳) 音楽や芸術全般のための生成AIモデルは、ますます複雑で理解しづらい。
eXplainable AI(XAI)の分野は、ニューラルネットワークのような複雑で不透明なAIモデルをより理解しやすくすることを目指している。
生成AIモデルをより理解しやすいものにするための1つのアプローチは、生成AIモデルに少数の意味的に意味のある属性を加えることである。
本稿では,変分自動エンコーダモデル(MeasureVAEとAdversarialVAE)の異なる組み合わせ,AIモデルにおける潜時空間の構成(4~256次元),および2~4つの有意な音楽属性が生成モデルに課される場合の学習データセット(アイルランド人,トルコ人,クラシック人,ポップ人)が音楽生成性能に与える影響を系統的に検討する。
これまで、このようなモデルについて、このような組み合わせの詳細のレベルで体系的な比較は行われていない。
以上の結果から, measurevae は音楽的属性の独立性が高い adversarialvae よりも高いリコンストラクション性能を示した。
その結果、surveeは音楽ジャンルをまたいで、音楽の次元を制御でき、ポップやロックのような複雑度の低い音楽で最高に演奏できることがわかった。
ここでは,32ないし64の潜伏次元空間が4つの正規化次元に対して最適であることを示す。
本研究は,最新の音楽生成型aiモデルのコンフィグレーションを初めて詳細に比較し,より理解しやすい音楽生成のためのaiモデル,音楽特徴,データセットの選択と構成を支援する。 Generative AI models for music and the arts in general are increasingly complex and hard to understand. The field of eXplainable AI (XAI) seeks to make complex and opaque AI models such as neural networks more understandable to people. One approach to making generative AI models more understandable is to impose a small number of semantically meaningful attributes on generative AI models. This paper contributes a systematic examination of the impact that different combinations of Variational Auto-Encoder models (MeasureVAE and AdversarialVAE), configurations of latent space in the AI model (from 4 to 256 latent dimensions), and training datasets (Irish folk, Turkish folk, Classical, and pop) have on music generation performance when 2 or 4 meaningful musical attributes are imposed on the generative model. To date there have been no systematic comparisons of such models at this level of combinatorial detail. Our findings show that MeasureVAE has better reconstruction performance than AdversarialVAE which has better musical attribute independence. Results demonstrate that MeasureVAE was able to generate music across music genres with interpretable musical dimensions of control, and performs best with low complexity music such a pop and rock. We recommend that a 32 or 64 latent dimensional space is optimal for 4 regularised dimensions when using MeasureVAE to generate music across genres. Our results are the first detailed comparisons of configurations of state-of-the-art generative AI models for music and can be used to help select and configure AI models, musical features, and datasets for more understandable generation of music. | 翻訳日:2023-11-15 13:15:16 公開日:2023-11-14 |
# KTRL+F:知識強化インドキュメント検索 KTRL+F: Knowledge-Augmented In-Document Search ( http://arxiv.org/abs/2311.08329v1 ) ライセンス: Link先を確認 | Hanseok Oh, Haebin Shin, Miyoung Ko, Hyunji Lee, Minjoon Seo | (参考訳) KTRL+Fは、ドキュメント内のすべてのセマンティックターゲットのリアルタイムな識別と、単一の自然言語クエリによる外部ソースの認識を必要とする知識強化された文書内検索タスクである。
このタスクはドキュメント内検索のユニークな課題に対処します。
1)クエリとターゲット間の意味的ギャップを橋渡しするためのターゲットに関する追加情報の拡張利用のために,ドキュメント外の知識を活用すること,及び
2)リアルタイム適用性とパフォーマンスのバランス。
我々はktrl+fの様々なベースラインを分析し、幻覚、低レイテンシ、外部知識の活用の困難といった既存のモデルの制限があることを見出した。
そこで本研究では,単語の埋め込みに外部知識を埋め込むだけで,速度と性能の相違が期待できることを示す知識強調句検索モデルを提案する。
さらに,KTRL+Fの解決がユーザの検索体験を向上できるかどうかを検証するために,ユーザスタディを実施している。
単純なモデルであっても、クエリを少なくして検索する時間を短縮し、エビデンスを集めるために他のソースへの余分な訪問を減らすことができる。
我々は,ktrl+fの研究コミュニティに対して,ドキュメント内情報アクセスの効率化を図る。 We introduce a new problem KTRL+F, a knowledge-augmented in-document search task that necessitates real-time identification of all semantic targets within a document with the awareness of external sources through a single natural query. This task addresses following unique challenges for in-document search: 1) utilizing knowledge outside the document for extended use of additional information about targets to bridge the semantic gap between the query and the targets, and 2) balancing between real-time applicability with the performance. We analyze various baselines in KTRL+F and find there are limitations of existing models, such as hallucinations, low latency, or difficulties in leveraging external knowledge. Therefore we propose a Knowledge-Augmented Phrase Retrieval model that shows a promising balance between speed and performance by simply augmenting external knowledge embedding in phrase embedding. Additionally, we conduct a user study to verify whether solving KTRL+F can enhance search experience of users. It demonstrates that even with our simple model users can reduce the time for searching with less queries and reduced extra visits to other sources for collecting evidence. We encourage the research community to work on KTRL+F to enhance more efficient in-document information access. | 翻訳日:2023-11-15 13:14:45 公開日:2023-11-14 |
# PRISMAによるシステム保証弱化器の系統地図化に関する研究 A PRISMA-driven systematic mapping study on system assurance weakeners ( http://arxiv.org/abs/2311.08328v1 ) ライセンス: Link先を確認 | Kimya Khakzad Shahandashti, Alvine B. Belle, Timothy C. Lethbridge, Oluwafemi Odu, Mithila Sivakumar | (参考訳) コンテキスト: 保証ケースは、特定のミッションクリティカルなシステムが特定の要件(例えば、安全性、セキュリティ、プライバシ)をサポートすることを示すためのクレームの構造的な階層である。
保証事件における保証の弱体化(すなわち、保証不足、論理的誤信)の存在は、推論における不十分な証拠、知識またはギャップを反映している。
これらの弱体化は保証議論の信頼性を損なう可能性があり、ミッションクリティカルなシステム能力の検証を妨げる可能性がある。
目的: 今後の保証弱体化研究の足掛かりとして, 本課題に関する包括的系統図研究を初めて開始することを目的とする。
方法: 確立されたprisma 2020とsegressガイドラインに従い,システマティックマッピング研究を行った。
5つのデジタル図書館における初等研究を検索し,2012~2023年の出版範囲に着目した。
我々の選択基準は, モデリングレベルでの弱みの確保に取り組む研究に焦点をあて, 39の一次研究を体系的レビューに含めた。
結果: 系統地図調査では, モデルレベルでの保証弱体化とそれを管理するためのアプローチを均一に分類した分類(マップ)を報告した。
結論:本研究の結果から,OMG(Object Management Group)の規格であるSACM(Structured Assurance Case Metamodel)が,構造化された議論を捉え,その潜在的な保証の弱体化を推論する最善の仕様である可能性が示唆された。 Context: An assurance case is a structured hierarchy of claims aiming at demonstrating that a given mission-critical system supports specific requirements (e.g., safety, security, privacy). The presence of assurance weakeners (i.e., assurance deficits, logical fallacies) in assurance cases reflects insufficient evidence, knowledge, or gaps in reasoning. These weakeners can undermine confidence in assurance arguments, potentially hindering the verification of mission-critical system capabilities. Objectives: As a stepping stone for future research on assurance weakeners, we aim to initiate the first comprehensive systematic mapping study on this subject. Methods: We followed the well-established PRISMA 2020 and SEGRESS guidelines to conduct our systematic mapping study. We searched for primary studies in five digital libraries and focused on the 2012-2023 publication year range. Our selection criteria focused on studies addressing assurance weakeners at the modeling level, resulting in the inclusion of 39 primary studies in our systematic review. Results: Our systematic mapping study reports a taxonomy (map) that provides a uniform categorization of assurance weakeners and approaches proposed to manage them at the modeling level. Conclusion: Our study findings suggest that the SACM (Structured Assurance Case Metamodel) -- a standard specified by the OMG (Object Management Group) -- may be the best specification to capture structured arguments and reason about their potential assurance weakeners. | 翻訳日:2023-11-15 13:14:26 公開日:2023-11-14 |
# ゼロショットインコンテキスト機械翻訳のためのアンチLMデコード Anti-LM Decoding for Zero-shot In-context Machine Translation ( http://arxiv.org/abs/2311.08324v1 ) ライセンス: Link先を確認 | Suzanna Sia, Alexandra DeLucia, Kevin Duh | (参考訳) ゼロショット・イン・コンテキスト学習(zero-shot in-context learning)は、モデルが指示を与えられただけでタスクを実行することができる現象である。
しかし、事前訓練された大規模言語モデルは、このタスクの調整が不十分であることが知られている。
このバイアスに対処するための最も効果的なアプローチの1つは、コンディショニングによって次のトークンを生成する前の確率を考慮し、コントラスト復号の目的を採用することである。
本研究は, 文脈内機械翻訳の弱点に対処するために, 減衰係数を用いたアンチランゲージモデルを提案する。
実験は、3つのモデルタイプとサイズ、3つの言語方向、およびgreedy decoding と beam search(B=5$)の両方を対象に行います。
提案手法は、いくつかの設定で観測されるデフォルトの目的から最大20ドルのBLEUポイントの改善により、他の最先端のデコーディング目標よりも優れる。 Zero-shot In-context learning is the phenomenon where models can perform the task simply given the instructions. However, pre-trained large language models are known to be poorly calibrated for this task. One of the most effective approaches to handling this bias is to adopt a contrastive decoding objective, which accounts for the prior probability of generating the next token by conditioning on some context. This work introduces an Anti-Language Model objective with a decay factor designed to address the weaknesses of In-context Machine Translation. We conduct our experiments across 3 model types and sizes, 3 language directions, and for both greedy decoding and beam search ($B=5$). The proposed method outperforms other state-of-art decoding objectives, with up to $20$ BLEU point improvement from the default objective observed in some settings. | 翻訳日:2023-11-15 13:13:44 公開日:2023-11-14 |
# 多言語コントラスト音声-音素事前学習による任意の言語における単語スポッティング Open-vocabulary keyword spotting in any language through multilingual contrastive speech-phoneme pretraining ( http://arxiv.org/abs/2311.08323v1 ) ライセンス: Link先を確認 | Jian Zhu, Farhan Samir, Changbing Yang, Jahurul Islam | (参考訳) 本稿では,多様な言語族から115以上の言語を包含する,きめ細かな音素転写を持つ多言語コーパスを提案する。
この多言語データセットに基づいて,音声信号と音素的に書き起こされたキーワードや任意のフレーズの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルCLAP-IPAを提案する。
提案手法は97の未確認言語における2つのフィールドワーク音声コーパスで検証され,言語間の高い一般化性を示した。
テキストベースモデルと比較すると、音素をモデリング単位として用いることで、正書法テキストよりもクロス言語的一般化がはるかに優れていることが分かる。 In this paper, we introduce a massively multilingual speech corpora with fine-grained phonemic transcriptions, encompassing more than 115 languages from diverse language families. Based on this multilingual dataset, we propose CLAP-IPA, a multilingual phoneme-speech contrastive embedding model capable of open-vocabulary matching between speech signals and phonemically transcribed keywords or arbitrary phrases. The proposed model has been tested on two fieldwork speech corpora in 97 unseen languages, exhibiting strong generalizability across languages. Comparison with a text-based model shows that using phonemes as modeling units enables much better crosslinguistic generalization than orthographic texts. | 翻訳日:2023-11-15 13:13:29 公開日:2023-11-14 |
# 生体ニューロンの特性を利用した畳み込みニューラルネットワーク Convolutional Neural Networks Exploiting Attributes of Biological Neurons ( http://arxiv.org/abs/2311.08314v1 ) ライセンス: Link先を確認 | Neeraj Kumar Singh, Nikhil R. Pal | (参考訳) 人工知能の時代、畳み込みニューラルネットワーク(CNN)のようなディープニューラルネットワークが最前線として登場し、しばしば人間の能力を超えた。
これらの深層ネットワークは、しばしばあらゆる課題のパナシーと見なされる。
残念ながら、これらのネットワークの一般的な欠点は、生物学的ニューラルネットワークの動作を必ずしも反映しない「ブラックボックス」キャラクタである。
学習可能な(可変な)パラメータが数百万/数あるものもあれば、そのトレーニングには広範なデータと時間が必要です。
ここでは、CNNの特定の層に生物学的ニューロンの原理を統合する。
具体的には,神経科学に触発された側原性核(lgn)の計算モデルと一次視覚野の単純細胞の利用について検討する。
このようなモデルを活用することで,CNNの入力として使用する画像の特徴を抽出し,学習効率の向上と精度の向上を期待する。
我々は,CNNの基礎層として単純なセルのPush-Pull Combination of Receptive Fields (PP-CORF)モデルで浅層ネットワークを実現し,学習プロセスと性能を向上させることを目指している。
そこで本研究では,2-tower CNNと1つの浅層タワー,もう1つはResNet 18として提案する。
視覚的に特徴を抽出するのではなく、脳がどのように特徴を知覚し、抽出するかを模倣しようとしている。
提案方式は,resnet-18と比較してcifar-10,cifar-100,imagenet-100データセットの性能(平均5\%-10\%$)が著しく向上した。
また,ネットワークのPush-Pullタワーのみの有効性を確認する。 In this era of artificial intelligence, deep neural networks like Convolutional Neural Networks (CNNs) have emerged as front-runners, often surpassing human capabilities. These deep networks are often perceived as the panacea for all challenges. Unfortunately, a common downside of these networks is their ''black-box'' character, which does not necessarily mirror the operation of biological neural systems. Some even have millions/billions of learnable (tunable) parameters, and their training demands extensive data and time. Here, we integrate the principles of biological neurons in certain layer(s) of CNNs. Specifically, we explore the use of neuro-science-inspired computational models of the Lateral Geniculate Nucleus (LGN) and simple cells of the primary visual cortex. By leveraging such models, we aim to extract image features to use as input to CNNs, hoping to enhance training efficiency and achieve better accuracy. We aspire to enable shallow networks with a Push-Pull Combination of Receptive Fields (PP-CORF) model of simple cells as the foundation layer of CNNs to enhance their learning process and performance. To achieve this, we propose a two-tower CNN, one shallow tower and the other as ResNet 18. Rather than extracting the features blindly, it seeks to mimic how the brain perceives and extracts features. The proposed system exhibits a noticeable improvement in the performance (on an average of $5\%-10\%$) on CIFAR-10, CIFAR-100, and ImageNet-100 datasets compared to ResNet-18. We also check the efficiency of only the Push-Pull tower of the network. | 翻訳日:2023-11-15 13:13:12 公開日:2023-11-14 |
# 情報理論の改良による予測不確かさの計測 Introducing an Improved Information-Theoretic Measure of Predictive Uncertainty ( http://arxiv.org/abs/2311.08309v1 ) ライセンス: Link先を確認 | Kajetan Schweighofer and Lukas Aichberger and Mykyta Ielanskyi and Sepp Hochreiter | (参考訳) 実世界で意思決定のために機械学習モデルを適用するには、モデルが知っているものと知らないものとを区別する必要がある。
モデルの知識を評価する上で重要な要因は、その予測の不確かさを定量化することである。
予測の不確実性は、ベイズ平均(BMA)予測分布のエントロピーによってよく測定される。
しかし、この予測の不確かさの現在の尺度の妥当性が最近疑問視された。
これらの制限に関する新たな洞察を提供する。
解析の結果、BMA予測分布はデータセットを生成する真のモデルの予測分布に等しいと誤って仮定していることがわかった。
その結果,これらの限界を克服する理論的根拠を持つ尺度が導入された。
導入した予測の不確実性尺度の利点を実験的に検証した。
提案手法は, 制御された合成タスクにおいて, より合理的に振舞う。
さらに,本手法は,予測不確実性を利用した実世界のアプリケーションにおいて有効であることを示す。 Applying a machine learning model for decision-making in the real world requires to distinguish what the model knows from what it does not. A critical factor in assessing the knowledge of a model is to quantify its predictive uncertainty. Predictive uncertainty is commonly measured by the entropy of the Bayesian model average (BMA) predictive distribution. Yet, the properness of this current measure of predictive uncertainty was recently questioned. We provide new insights regarding those limitations. Our analyses show that the current measure erroneously assumes that the BMA predictive distribution is equivalent to the predictive distribution of the true model that generated the dataset. Consequently, we introduce a theoretically grounded measure to overcome these limitations. We experimentally verify the benefits of our introduced measure of predictive uncertainty. We find that our introduced measure behaves more reasonably in controlled synthetic tasks. Moreover, our evaluations on ImageNet demonstrate that our introduced measure is advantageous in real-world applications utilizing predictive uncertainty. | 翻訳日:2023-11-15 13:12:26 公開日:2023-11-14 |
# サーマルフェイスのランドマークをトラッキングする「the heat is on」 The Heat is On: Thermal Facial Landmark Tracking ( http://arxiv.org/abs/2311.08308v1 ) ライセンス: Link先を確認 | James Baker | (参考訳) 熱画像に対する顔の目印追跡は、被験者の顔の特定の重要な領域を、照明や陰影を省略する熱画像の画像を用いて追跡する必要があるが、被験者の温度は示さない。
特定の場所における熱の変動は、血流や呼吸などの生理的変化を反映しており、不安や興奮などリモートで測定することができる。
この領域での過去の作業は、非常に限られたアーキテクチャとテクニックに限定されてきた。
この作業は、ネットワークのコンポーネントを並列に動作させるプラクティスと同様に、残差接続やチャネル、機能面での注意など、さまざまなコンポーネントを持つさまざまなモデルの包括的適合を試すことによってさらに進めます。
最善のモデルは畳み込み層と残留層を統合し、チャネル回りのセルフアテンション層は100k未満のパラメータを必要とする。 Facial landmark tracking for thermal images requires tracking certain important regions of subjects' faces, using images from thermal images, which omit lighting and shading, but show the temperatures of their subjects. The fluctuations of heat in particular places reflect physiological changes like bloodflow and perspiration, which can be used to remotely gauge things like anxiety and excitement. Past work in this domain has been limited to only a very limited set of architectures and techniques. This work goes further by trying a comprehensive suit of various models with different components, such as residual connections, channel and feature-wise attention, as well as the practice of ensembling components of the network to work in parallel. The best model integrated convolutional and residual layers followed by a channel-wise self-attention layer, requiring less than 100K parameters. | 翻訳日:2023-11-15 13:12:05 公開日:2023-11-14 |
# 大規模言語モデルと機械翻訳のオンザフライ融合 On-the-Fly Fusion of Large Language Models and Machine Translation ( http://arxiv.org/abs/2311.08306v1 ) ライセンス: Link先を確認 | Hieu Hoang, Huda Khayrallah, Marcin Junczys-Dowmunt | (参考訳) そこで本研究では,同じタスクと入力に基づいて,llmを用いた機械翻訳モデルのオンザフライセンシングを提案する。
データ量が異なる4つの言語ペア(両方向)で実験を行う。
LLMはNMTモデルの翻訳を改善することができ、LLMとのアンサンブルは2つのより強いMTモデルをアンサンブルするよりも優れた翻訳を生成することができる。
我々は、文脈学習や翻訳コンテキストなど、LLMプロンプトの様々な手法と組み合わせる。 We propose the on-the-fly ensembling of a machine translation model with an LLM, prompted on the same task and input. We perform experiments on 4 language pairs (both directions) with varying data amounts. We find that a slightly weaker-at-translation LLM can improve translations of a NMT model, and ensembling with an LLM can produce better translations than ensembling two stronger MT models. We combine our method with various techniques from LLM prompting, such as in context learning and translation context. | 翻訳日:2023-11-15 13:11:38 公開日:2023-11-14 |
# 医学的要約における排便の評価 Extrinsically-Focused Evaluation of Omissions in Medical Summarization ( http://arxiv.org/abs/2311.08303v1 ) ライセンス: Link先を確認 | Elliot Schumacher, Daniel Rosenthal, Varun Nair, Luladay Price, Geoffrey Tso, Anitha Kannan | (参考訳) 自動要約技術(Paice, 1990; Kupiec et al, 1995)の目標は、最も重要な情報に着目してテキストを凝縮することである。
ジェネレーティブな大規模言語モデル(LLM)は堅牢な要約器であることが示されているが、従来のメトリクスはより強力なLLMで結果のパフォーマンス(Goyal et al, 2022)を捉えるのに苦労している。
医学のような安全クリティカルな領域では、特にLSMが結果の要約において重要な情報を省略する可能性を考えると、より厳密な評価が必要である。
MED-OMITは医用要約のための新しい省略ベンチマークである。
医師と患者の会話と生成された要約から、MED-OMITはチャットを一連の事実に分類し、要約から省略されるものを特定する。
さらに,各事実が下流臨床課題に与える影響をシミュレートすることで,事実の重要性を判断することを提案する。
MED-OMIT は LLM のプロンプトに基づくアプローチを利用して、事実の重要性を分類し、それらを診断に対する証拠の支援または否定としてクラスタ化する。
我々は,MED-OMITを患者と医師の会話の公開データセットで評価し,MED-OMITが他の指標よりも欠落を捉えていることを確認した。 The goal of automated summarization techniques (Paice, 1990; Kupiec et al, 1995) is to condense text by focusing on the most critical information. Generative large language models (LLMs) have shown to be robust summarizers, yet traditional metrics struggle to capture resulting performance (Goyal et al, 2022) in more powerful LLMs. In safety-critical domains such as medicine, more rigorous evaluation is required, especially given the potential for LLMs to omit important information in the resulting summary. We propose MED-OMIT, a new omission benchmark for medical summarization. Given a doctor-patient conversation and a generated summary, MED-OMIT categorizes the chat into a set of facts and identifies which are omitted from the summary. We further propose to determine fact importance by simulating the impact of each fact on a downstream clinical task: differential diagnosis (DDx) generation. MED-OMIT leverages LLM prompt-based approaches which categorize the importance of facts and cluster them as supporting or negating evidence to the diagnosis. We evaluate MED-OMIT on a publicly-released dataset of patient-doctor conversations and find that MED-OMIT captures omissions better than alternative metrics. | 翻訳日:2023-11-15 13:11:01 公開日:2023-11-14 |
# 静電場を用いた超低温双極子分子の衝突損失と散乱長の制御 Controlling collisional loss and scattering lengths of ultracold dipolar molecules with static electric fields ( http://arxiv.org/abs/2311.08301v1 ) ライセンス: Link先を確認 | Bijit Mukherjee and Jeremy M. Hutson | (参考訳) 超低温分子のトラップされたサンプルは、しばしば短命である。
静電場による遮蔽を利用して極性分子間の反発障壁を作り、そのような損失を防止する。
シールドはRbCにも非常に効果的で、比較的低い双極子モーメントを持ち、NaK、NaRb、NaCsなどの分子に対してより効果的であり、徐々に大きな双極子を持つ。
電場を変化させることで散乱長の実質的な制御が可能となり、分子ボース=アインシュタイン凝縮の安定性や崩壊に欠かせない。
これは双極子-双極子相互作用が電場に調整可能な長距離アトラクションを生じるためである。
RbCでは、遮蔽に責任を持つ反発が支配的であるため、散乱長が遮蔽効果のある範囲で正となる。
NaK の場合、散乱長はゼロから負の値に調整できる。
NaRbとNaCsは、アトラクションが四原子結合状態を支えるのに十分強く、散乱長はこれらの状態がしきい値を越える共鳴極を通過する。
KAg と CsAg に対して、複数の有界状態と複数の極が存在する。
各分子について、散乱長の変動をフィールドで計算し、新しい物理を探求する可能性についてコメントする。 Trapped samples of ultracold molecules are often short-lived, because close collisions between them result in trap loss. We investigate the use of shielding with static electric fields to create repulsive barriers between polar molecules to prevent such loss. Shielding is very effective even for RbCs, with a relatively low dipole moment, and even more effective for molecules such as NaK, NaRb and NaCs, with progressively larger dipoles. Varying the electric field allows substantial control over the scattering length, which will be crucial for the stability or collapse of molecular Bose-Einstein condensates. This arises because the dipole-dipole interaction creates a long-range attraction that is tunable with electric field. For RbCs, the scattering length is positive across the range where shielding is effective, because the repulsion responsible for shielding dominates. For NaK, the scattering length can be tuned across zero to negative values. For NaRb and NaCs, the attraction is strong enough to support tetraatomic bound states, and the scattering length passes through resonant poles where these states cross threshold. For KAg and CsAg, there are multiple bound states and multiple poles. For each molecule, we calculate the variation of scattering length with field and comment on the possibilities for exploring new physics. | 翻訳日:2023-11-15 13:10:27 公開日:2023-11-14 |
# タスク指向対話のためのワークフローガイド応答生成 Workflow-Guided Response Generation for Task-Oriented Dialogue ( http://arxiv.org/abs/2311.08300v1 ) ライセンス: Link先を確認 | Do June Min and Paloma Sodhi and Ramya Ramakrishnan | (参考訳) タスク指向対話(TOD)システムは対話的対話を通じて特定の目標を達成することを目的としている。
このようなタスクは通常、特定のワークフロー、すなわち特定の順序で一連のアクションを実行することを含む。
以前の作業では、過去のアクションを条件付けるための教師付き学習方法に重点を置いていたが、望ましいワークフローへのコンプライアンスを明示的に最適化するものではない。
本稿では,あるワークフローに整合した対話応答を生成するための強化学習(RL)に基づく新しいフレームワークを提案する。
本フレームワークは,対話型サンプリング技術を用いたRLオプティマイズ処理と,生成した応答が特定アクションをどの程度うまく実行するかを評価するためのメトリクスであるComplianceScorerで構成されている。
我々は2つのTODデータセット、ABCD(Chen et al., 2021a)とMultiWOZ 2.2(Zang et al., 2020)に対するアプローチを、自動化および人的評価の指標に基づいて評価する。
以上の結果から,我々のRLベースのフレームワークはベースラインよりも優れており,自然かつ流動的な表現をしながら,意図したワークフローに適合する応答の誘発に有効であることが示唆された。 Task-oriented dialogue (TOD) systems aim to achieve specific goals through interactive dialogue. Such tasks usually involve following specific workflows, i.e. executing a sequence of actions in a particular order. While prior work has focused on supervised learning methods to condition on past actions, they do not explicitly optimize for compliance to a desired workflow. In this paper, we propose a novel framework based on reinforcement learning (RL) to generate dialogue responses that are aligned with a given workflow. Our framework consists of ComplianceScorer, a metric designed to evaluate how well a generated response executes the specified action, combined with an RL opimization process that utilizes an interactive sampling technique. We evaluate our approach on two TOD datasets, Action-Based Conversations Dataset (ABCD) (Chen et al., 2021a) and MultiWOZ 2.2 (Zang et al., 2020) on a range of automated and human evaluation metrics. Our findings indicate that our RL-based framework outperforms baselines and is effective at enerating responses that both comply with the intended workflows while being expressed in a natural and fluent manner. | 翻訳日:2023-11-15 13:10:03 公開日:2023-11-14 |
# 検索型生成のためのコンテキストフィルタリングの学習 Learning to Filter Context for Retrieval-Augmented Generation ( http://arxiv.org/abs/2311.08377v1 ) ライセンス: Link先を確認 | Zhiruo Wang, Jun Araki, Zhengbao Jiang, Md Rizwan Parvez, Graham Neubig | (参考訳) 関連知識のオンザフライ検索は,オープンドメイン質問応答や事実検証といったタスクにおいて,信頼性の高いシステムの重要な要素であることが証明されている。
しかし、検索システムは完全ではないため、生成モデルは部分的にあるいは全く関係のない経路で出力を生成する必要がある。
これは文脈に対する過度または過度な信頼を引き起こし、幻覚のような生成された出力に問題を引き起こす。
そこで本研究では,(1)語彙的および情報論的アプローチに基づく有用なコンテキストの同定,(2)検索されたコンテキストをテスト時にフィルタリング可能なコンテキストフィルタリングモデルの訓練により,ジェネレータに提供されるコンテキストの品質を向上させるfilcoを提案する。
FLAN-T5とLLaMa2の6つの知識集約タスクを実験し,提案手法が抽出質問応答(QA),複雑なマルチホップおよび長文QA,事実検証,ダイアログ生成タスクにおける既存手法よりも優れていることを示す。
FILCOは、標準出力をサポートするかどうかに関わらず、コンテキストの品質を効果的に改善する。 On-the-fly retrieval of relevant knowledge has proven an essential element of reliable systems for tasks such as open-domain question answering and fact verification. However, because retrieval systems are not perfect, generation models are required to generate outputs given partially or entirely irrelevant passages. This can cause over- or under-reliance on context, and result in problems in the generated output such as hallucinations. To alleviate these problems, we propose FILCO, a method that improves the quality of the context provided to the generator by (1) identifying useful context based on lexical and information-theoretic approaches, and (2) training context filtering models that can filter retrieved contexts at test time. We experiment on six knowledge-intensive tasks with FLAN-T5 and LLaMa2, and demonstrate that our method outperforms existing approaches on extractive question answering (QA), complex multi-hop and long-form QA, fact verification, and dialog generation tasks. FILCO effectively improves the quality of context, whether or not it supports the canonical output. | 翻訳日:2023-11-15 13:02:25 公開日:2023-11-14 |
# 線形バンディットのためのアンサンブルサンプリング:小アンサンブルsuffice Ensemble sampling for linear bandits: small ensembles suffice ( http://arxiv.org/abs/2311.08376v1 ) ライセンス: Link先を確認 | David Janz, Alexander E. Litvak, Csaba Szepesv\'ari | (参考訳) 確率線形バンディット設定のためのアンサンブルサンプリングの,最初の有用かつ厳密な解析を提供する。
特に、標準的な仮定の下では、相互作用の地平線を持つ$d$-次元確率線型包帯に対して、$d \log T$ incurs regret bounded by order $(d \log T)^{5/2} \sqrt{T}$ の順序に基づいて$m$のアンサンブルを持つアンサンブルサンプリングを行う。
oursは、アンサンブルのサイズを$t$で線形にスケールする必要のない、構造化された設定の最初の結果である(これはアンサンブルサンプリングの目的を損なう)。
oursは無限のアクションセットを可能にする最初の結果でもある。 We provide the first useful, rigorous analysis of ensemble sampling for the stochastic linear bandit setting. In particular, we show that, under standard assumptions, for a $d$-dimensional stochastic linear bandit with an interaction horizon $T$, ensemble sampling with an ensemble of size $m$ on the order of $d \log T$ incurs regret bounded by order $(d \log T)^{5/2} \sqrt{T}$. Ours is the first result in any structured setting not to require the size of the ensemble to scale linearly with $T$ -- which defeats the purpose of ensemble sampling -- while obtaining near $\sqrt{T}$ order regret. Ours is also the first result that allows infinite action sets. | 翻訳日:2023-11-15 13:02:06 公開日:2023-11-14 |
# theusの船:llm生成テキストにおけるパラフレージングの奇妙な事例 A Ship of Theseus: Curious Cases of Paraphrasing in LLM-Generated Texts ( http://arxiv.org/abs/2311.08374v1 ) ライセンス: Link先を確認 | Nafis Irtiza Tripto, Saranya Venkatraman, Dominik Macko, Robert Moro, Ivan Srba, Adaku Uchendu, Thai Le, Dongwon Lee | (参考訳) テキスト操作と言語変換の領域では、著者シップの問題は、常に魅力と哲学的探求の主題であった。
テセウス・パラドックスの『textbf{Ship of Theseus paradox}』のように、船が元の板を交換した時に同じ状態のままであるかどうかを考えると、我々の研究は興味深い疑問に陥る: \textit{Does a text has its original authorship when under many paraphrasing iterations?
特に,Large Language Models (LLMs) は,原文の生成と人文の修正に顕著な習熟性を示したため,LLM や類似の言い回しツールを用いて文章を言い換える場合に,著者の判断に関して重要な疑問が浮かび上がっている。
この質問は、人間が生成したコンテンツによく似たテキストを生成するツールの独立性を考えると、著者シップは、オリジナルの人間作者またはai駆動ツールに帰着されるべきである。
そこで我々は,この複雑なパズルを解き明かすために,言語と著者の海を哲学的に旅する。 In the realm of text manipulation and linguistic transformation, the question of authorship has always been a subject of fascination and philosophical inquiry. Much like the \textbf{Ship of Theseus paradox}, which ponders whether a ship remains the same when each of its original planks is replaced, our research delves into an intriguing question: \textit{Does a text retain its original authorship when it undergoes numerous paraphrasing iterations?} Specifically, since Large Language Models (LLMs) have demonstrated remarkable proficiency in the generation of both original content and the modification of human-authored texts, a pivotal question emerges concerning the determination of authorship in instances where LLMs or similar paraphrasing tools are employed to rephrase the text. This inquiry revolves around \textit{whether authorship should be attributed to the original human author or the AI-powered tool, given the tool's independent capacity to produce text that closely resembles human-generated content.} Therefore, we embark on a philosophical voyage through the seas of language and authorship to unravel this intricate puzzle. | 翻訳日:2023-11-15 13:01:52 公開日:2023-11-14 |
# aid nexus : ブロックチェーンベースの金融配信システム Aid Nexus : A Blockchain Based Financial Distribution System ( http://arxiv.org/abs/2311.08372v1 ) ライセンス: Link先を確認 | Md. Raisul Hasan Shahrukh, Md. Tabassinur Rahman, Nafees Mansoor | (参考訳) ブロックチェーン技術は、従来のシステムに革命をもたらす、効率的で自動化されたソリューションを約束する多くの業界で、変革の可能性を持つ破壊的な力として現れています。
分散型台帳システムを活用することで、ブロックチェーンは仲介を必要とせず、セキュリティ、透明性、トランザクション検証を強化している。
金融セクターは、支払い、送金、融資、投資のためのブロックチェーンベースのソリューションを模索しており、医療は医療記録保持、サプライチェーン追跡、データ管理にこの技術を採用している。
同様に、サプライチェーン管理は、原料から完成品への透明性、トレーサビリティ、説明責任を高めるブロックチェーンの能力の恩恵を受ける。
不動産、エネルギー、政府など他のセクターも、効率、セキュリティ、透明性を改善するブロックチェーンベースのソリューションを調査している。
さらに、ブロックチェーン内のスマートコントラクトはプロセスの自動化を可能にし、分散ワークフローにおける手作業による介入を削減します。
コンソーシアムベースのブロックチェーンdappであるaidneuxは、非効率性と不透明性に対処することで、金融支援の分散を再想像する。
スマートコントラクトを使用することで、送金のセキュリティとダイレクト性が保証される。
その堅牢なデジタルid検証とリアルタイム監査能力は不正リスクを減らし、説明責任を強化し、従来の金融支援システム固有の問題に対してスケーラブルで透明なソリューションを提供する。 Blockchain technology has emerged as a disruptive force with transformative potential across numerous industries, promising efficient and automated solutions that can revolutionize traditional systems. By leveraging decentralized ledger systems, blockchain offers enhanced security, transparency, and transaction verification without the need for intermediaries. The finance sector is exploring blockchain-based solutions for payments, remittances, lending, and investments, while healthcare adopts the technology for medical record keeping, supply chain tracking, and data management. Similarly, supply chain management benefits from blockchain's ability to enhance transparency, traceability, and accountability from raw materials to finished products. Other sectors, including real estate, energy, and government, are also investigating blockchain-based solutions to improve efficiency, security, and transparency. Furthermore, smart contracts within the blockchain enable process automation, reducing manual intervention in distribution workflows. AidNeux, a consortium-based blockchain DApp, reimagines the distribution of financial assistance by addressing inefficiencies and opaqueness. Using smart contracts ensures the security and directness of money transfers. Its robust digital identity verification and real-time auditability reduce fraud risks and strengthen accountability, thereby presenting a scalable, transparent solution to problems inherent to conventional financial aid systems. | 翻訳日:2023-11-15 13:01:31 公開日:2023-11-14 |
# uslr: 脳mrの偏りなくスムーズな縦断登録のためのオープンソースツール USLR: an open-source tool for unbiased and smooth longitudinal registration of brain MR ( http://arxiv.org/abs/2311.08371v1 ) ライセンス: Link先を確認 | Adri\`a Casamitjana, Roser Sala-Llonch, Karim Lekadir, Juan Eugenio Iglesias | (参考訳) 我々は,脳MRIスキャンの経時的登録のための計算フレームワークであるUSLRを提案し,経時的にスムーズで,どの時点にも偏りがなく,画像アーチファクトにも頑健な非線形画像軌跡を推定する。
空間変換のリー代数パラメタライゼーション(剛体変換と非線形変形のための定常速度場と互換性がある)を演算し、対数領域特性を利用してベイズ予想を用いて問題を解く。
USRLは、厳格かつ非線形な登録を推定し、(i)全てのタイムポイントを未バイアスの被写体固有の空間に持ち込み、(i)撮像時間列のスムーズな軌道を計算する。
我々は,高速推論のための学習ベース登録アルゴリズムとクローズドフォーム表現に乗じる。
使用例のアルツハイマー病の研究は、時間一貫性のイメージセグメンテーションなど、複数の面でパイプラインの利点を示すために使用され、物体内変動の低減、被験者固有の予測、テンソルベースの形態計測を用いた人口分析などである。
このようなアプローチは,より微妙な萎縮レベルの検出や臨床試験におけるサンプルサイズの削減に役立つグループ差の同定において,横断的手法により改善することが示されている。
コードはhttps://github.com/acasamitjana/uslrで公開されている。 We present USLR, a computational framework for longitudinal registration of brain MRI scans to estimate nonlinear image trajectories that are smooth across time, unbiased to any timepoint, and robust to imaging artefacts. It operates on the Lie algebra parameterisation of spatial transforms (which is compatible with rigid transforms and stationary velocity fields for nonlinear deformation) and takes advantage of log-domain properties to solve the problem using Bayesian inference. USRL estimates rigid and nonlinear registrations that: (i) bring all timepoints to an unbiased subject-specific space; and (i) compute a smooth trajectory across the imaging time-series. We capitalise on learning-based registration algorithms and closed-form expressions for fast inference. A use-case Alzheimer's disease study is used to showcase the benefits of the pipeline in multiple fronts, such as time-consistent image segmentation to reduce intra-subject variability, subject-specific prediction or population analysis using tensor-based morphometry. We demonstrate that such approach improves upon cross-sectional methods in identifying group differences, which can be helpful in detecting more subtle atrophy levels or in reducing sample sizes in clinical trials. The code is publicly available in https://github.com/acasamitjana/uslr | 翻訳日:2023-11-15 13:01:11 公開日:2023-11-14 |
# SimpleSafetyTests: 大規模言語モデルにおける臨界安全性リスクを特定するテストスイート SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in Large Language Models ( http://arxiv.org/abs/2311.08370v1 ) ライセンス: Link先を確認 | Bertie Vidgen, Hannah Rose Kirk, Rebecca Qian, Nino Scherrer, Anand Kannappan, Scott A. Hale, Paul R\"ottger | (参考訳) 過去1年間、大規模言語モデル(llm)の開発は急速に加速している。
多くのタスクにおいて、ChatGPTのようなプロプライエタリなモデルの代替となる、幅広いオープンソースおよびオープンアクセス LLM が存在する。
しかし、適切なステアリングとセーフガードがなければ、LSMは容易に悪意のある指示に従い、安全でないアドバイスを提供し、有害なコンテンツを生成する。
これは企業や開発者にとって重大な安全リスクです。
このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTestsを紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
我々は、11の人気のあるオープンLCMをテストし、いくつかの重要な安全性の弱点を見つけます。
一部のLCMは単一の安全でない応答を与えていないが、テスト対象のほとんどのモデルは20%以上のケースで安全ではない応答を示し、極端に50%以上の安全でない応答を与えている。
安全強調システムの導入は、安全でない応答の発生を大幅に減少させるが、完全には停止しない。
開発者は、このようなシステムプロンプトを重要な安全リスクに対する第一線として使うことを推奨する。 The past year has seen rapid acceleration in the development of large language models (LLMs). For many tasks, there is now a wide range of open-source and open-access LLMs that are viable alternatives to proprietary models like ChatGPT. Without proper steering and safeguards, however, LLMs will readily follow malicious instructions, provide unsafe advice, and generate toxic content. This is a critical safety risk for businesses and developers. We introduce SimpleSafetyTests as a new test suite for rapidly and systematically identifying such critical safety risks. The test suite comprises 100 test prompts across five harm areas that LLMs, for the vast majority of applications, should refuse to comply with. We test 11 popular open LLMs and find critical safety weaknesses in several of them. While some LLMs do not give a single unsafe response, most models we test respond unsafely on more than 20% of cases, with over 50% unsafe responses in the extreme. Prepending a safety-emphasising system prompt substantially reduces the occurrence of unsafe responses, but does not completely stop them from happening. We recommend that developers use such system prompts as a first line of defence against critical safety risks. | 翻訳日:2023-11-15 13:00:45 公開日:2023-11-14 |
# 貴様らはどうだ!
LLMテキスト検出に影響を及ぼす指示におけるタスク指向制約 How You Prompt Matters! Even Task-Oriented Constraints in Instructions Affect LLM-Generated Text Detection ( http://arxiv.org/abs/2311.08369v1 ) ライセンス: Link先を確認 | Ryuto Koike, Masahiro Kaneko, Naoaki Okazaki | (参考訳) LLM(Large Language Models)の誤用(盗用や誤報の拡散など)に対して、近年の多くの研究がLLM生成テキスト検出器を有望な検出性能で提示している。
ユーザーがLSMにテキストを生成するように指示する状況(例えばエッセイを書く)に光を当てると、命令を書くには様々な方法がある(例えば、どのタスク指向の制約を含めるか)。
本稿では,命令におけるタスク指向制約でさえ,電流検出器の不整合性能を生成テキストにもたらすことを明らかにする。
具体的には,学生論文執筆を現実的なドメインとして重視し,ke と ng (2019) による論文品質に関する各因子のタスク指向制約を手作業で作成する。
本実験により,各タスク指向制約による命令によって生成されたテキストに対する電流検出性能のばらつきは,テキストを複数回生成し,命令を言い換えることによる分散よりも最大20倍大きいことがわかった。
我々は,命令のタスク指向制約による分布シフトを検出可能なロバスト検出器の開発について,さらなる研究を求める。 Against the misuse (e.g., plagiarism or spreading misinformation) of Large Language Models (LLMs), many recent works have presented LLM-generated-text detectors with promising detection performance. Spotlighting a situation where users instruct LLMs to generate texts (e.g., essay writing), there are various ways to write the instruction (e.g., what task-oriented constraint to include). In this paper, we discover that even a task-oriented constraint in instruction can cause the inconsistent performance of current detectors to the generated texts. Specifically, we focus on student essay writing as a realistic domain and manually create the task-oriented constraint for each factor on essay quality by Ke and Ng (2019). Our experiment shows that the detection performance variance of the current detector on texts generated by instruction with each task-oriented constraint is up to 20 times larger than the variance caused by generating texts multiple times and paraphrasing the instruction. Our finding calls for further research on developing robust detectors that can detect such distributional shifts caused by a task-oriented constraint in the instruction. | 翻訳日:2023-11-15 13:00:27 公開日:2023-11-14 |
# plum: メタヒューリスティックによる迅速な学習 Plum: Prompt Learning using Metaheuristic ( http://arxiv.org/abs/2311.08364v1 ) ライセンス: Link先を確認 | Rui Pan, Shuo Xing, Shizhe Diao, Xiang Liu, Kashun Shum, Jipeng Zhang, Tong Zhang | (参考訳) 大規模言語モデルの出現以来、迅速な学習はこれらのモデルの最適化とカスタマイズの一般的な方法となっている。
chain-of-thoughtのような特別なプロンプトは、これらのモデルでこれまで未知の推論機能さえも明らかにしている。
しかし、効果的なプロンプトの発見の進行は遅くなり、一般的なプロンプト最適化手法への欲求が高まった。
残念ながら、真の「一般」、すなわち、自動的、離散的、ブラックボックス、グラデーションフリー、そして全てを同時に解釈する基準を満たす既存の素早い学習方法はほとんどない。
本稿では,100以上の選択肢を持つ離散的非凸最適化手法の分科であるメタヒューリスティックスを,迅速な学習に有望なアプローチとして紹介する。
本パラダイムでは,坂登り,シミュレート・アニーリング,クロスオーバーのない遺伝的アルゴリズム,タブ検索,調和探索の6つの手法を検証し,ブラックボックス・プロンプト・ラーニングとChain-of-Thoughtプロンプト・チューニングの有効性を実証した。
さらに,これらの手法を用いて,これまで知られていなかったより人間に理解可能なプロンプトを探索し,迅速な最適化を行う可能性のコルヌコピアへの扉を開くことができることを示す。
すべてのコードは \url{https://github.com/research4pan/Plum} でリリースします。 Since the emergence of large language models, prompt learning has become a popular method for optimizing and customizing these models. Special prompts, such as Chain-of-Thought, have even revealed previously unknown reasoning capabilities within these models. However, the progress of discovering effective prompts has been slow, driving a desire for general prompt optimization methods. Unfortunately, few existing prompt learning methods satisfy the criteria of being truly "general", i.e., automatic, discrete, black-box, gradient-free, and interpretable all at once. In this paper, we introduce metaheuristics, a branch of discrete non-convex optimization methods with over 100 options, as a promising approach to prompt learning. Within our paradigm, we test six typical methods: hill climbing, simulated annealing, genetic algorithms with/without crossover, tabu search, and harmony search, demonstrating their effectiveness in black-box prompt learning and Chain-of-Thought prompt tuning. Furthermore, we show that these methods can be used to discover more human-understandable prompts that were previously unknown, opening the door to a cornucopia of possibilities in prompt optimization. We release all the codes in \url{https://github.com/research4pan/Plum}. | 翻訳日:2023-11-15 13:00:08 公開日:2023-11-14 |
# トランスフォーマーは回帰混合モデルを最適に学習できる Transformers can optimally learn regression mixture models ( http://arxiv.org/abs/2311.08362v1 ) ライセンス: Link先を確認 | Reese Pathak, Rajat Sen, Weihao Kong, Abhimanyu Das | (参考訳) 混合モデルは多くの回帰問題で生じるが、ほとんどの手法はアルゴリズムの高度に調整されたモデル固有の性質のために採用が限られている。
一方、トランスはフレキシブルでニューラルなシーケンスモデルであり、この混合設定であっても汎用的な予測方法を提供するという興味深い可能性を示している。
本研究では,変圧器が回帰混合の最適予測器を学習できるという仮説について検討する。
有限なパラメータ集合上のデータ駆動指数重みによって決定論的最適手順が与えられる線形回帰の混合に対して生成過程を構築する。
このプロセスによって生成されたデータに対して,トランスフォーマーは平均二乗誤差が低いことを観察する。
推論時に変換器の出力を推定することにより、変換器は通常最適な予測器に近い予測を行うことを示す。
実験により, 変圧器は試料効率のよい方法で回帰の混合を学習でき, 分散シフトに対してある程度頑健であることを示した。
我々は, 決定論的最適手順がトランスフォーマーによって実際に実装可能であることを構築的に証明することにより, 実験的な観察を補完する。 Mixture models arise in many regression problems, but most methods have seen limited adoption partly due to these algorithms' highly-tailored and model-specific nature. On the other hand, transformers are flexible, neural sequence models that present the intriguing possibility of providing general-purpose prediction methods, even in this mixture setting. In this work, we investigate the hypothesis that transformers can learn an optimal predictor for mixtures of regressions. We construct a generative process for a mixture of linear regressions for which the decision-theoretic optimal procedure is given by data-driven exponential weights on a finite set of parameters. We observe that transformers achieve low mean-squared error on data generated via this process. By probing the transformer's output at inference time, we also show that transformers typically make predictions that are close to the optimal predictor. Our experiments also demonstrate that transformers can learn mixtures of regressions in a sample-efficient fashion and are somewhat robust to distribution shifts. We complement our experimental observations by proving constructively that the decision-theoretic optimal procedure is indeed implementable by a transformer. | 翻訳日:2023-11-15 12:59:44 公開日:2023-11-14 |
# 変圧器における創発的文脈学習の過渡的性質 The Transient Nature of Emergent In-Context Learning in Transformers ( http://arxiv.org/abs/2311.08360v1 ) ライセンス: Link先を確認 | Aaditya K. Singh, Stephanie C.Y. Chan, Ted Moskovitz, Erin Grant, Andrew M. Saxe, Felix Hill | (参考訳) トランスフォーマーニューラルネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習(ICL)の驚くべき能力を示すことができる。
以前の研究は、例えば機械的解釈可能性のレンズ、ベイズ推論、トレーニングデータの分布特性を調べるなど、トランスフォーマーにおけるICLの出現についてより深い理解を提供してきた。
しかし、いずれの場合も、iclは主に持続的な現象として扱われ、iclが出現すると漸近的に持続すると仮定される。
ここでは,変圧器の訓練中にiclが出現することは,しばしば過渡的であることを示す。
iclとin-weights learning(iwl)の両方の戦略が正しい予測につながるように設計された合成データでトランスフォーマーを訓練する。
まずiclが出現し、その後消滅してiwlに道を譲るが、トレーニング損失は減少し、iwlに対する漸近的な嗜好を示す。
iclの過渡的性質は、様々なモデルサイズやデータセットにわたるトランスフォーマにおいて観察され、コンパクトで安価なモデルを求める際にトランスフォーマを"オーバートレーニング"するコストが問題となる。
l2の正規化は、より永続的なiclへのパスを提供し、iclスタイルの検証タスクに基づいて早期停止の必要性をなくすことができる。
最後に, icl回路とiwl回路の競合により, iclの遷移が引き起こされる可能性が示唆された。 Transformer neural networks can exhibit a surprising capacity for in-context learning (ICL) despite not being explicitly trained for it. Prior work has provided a deeper understanding of how ICL emerges in transformers, e.g. through the lens of mechanistic interpretability, Bayesian inference, or by examining the distributional properties of training data. However, in each of these cases, ICL is treated largely as a persistent phenomenon; namely, once ICL emerges, it is assumed to persist asymptotically. Here, we show that the emergence of ICL during transformer training is, in fact, often transient. We train transformers on synthetic data designed so that both ICL and in-weights learning (IWL) strategies can lead to correct predictions. We find that ICL first emerges, then disappears and gives way to IWL, all while the training loss decreases, indicating an asymptotic preference for IWL. The transient nature of ICL is observed in transformers across a range of model sizes and datasets, raising the question of how much to "overtrain" transformers when seeking compact, cheaper-to-run models. We find that L2 regularization may offer a path to more persistent ICL that removes the need for early stopping based on ICL-style validation tasks. Finally, we present initial evidence that ICL transience may be caused by competition between ICL and IWL circuits. | 翻訳日:2023-11-15 12:59:25 公開日:2023-11-14 |
# デジタル病理のための回転非依存画像表現学習 Rotation-Agnostic Image Representation Learning for Digital Pathology ( http://arxiv.org/abs/2311.08359v1 ) ライセンス: Link先を確認 | Saghir Alfasly, Abubakr Shafique, Peyman Nejat, Jibran Khan, Areej Alsaafin, Ghazal Alabtah, H.R. Tizhoosh | (参考訳) 本稿では,3つの重要な貢献を通じて,病理像解析における複雑な課題について論じる。
まず、全スライディング画像(WSI)解析のための高速パッチ選択法FPSを導入し、精度を維持しながら計算コストを大幅に削減する。
第2に,トランスフォーマーブロック5ブロックとパラメータ900万という最小構成の軽量な病理組織学的特徴抽出装置であるpathdinoを提案する。
第3に,自己教師付き学習を用いたローテーション非依存表現学習パラダイムを導入し,オーバーフィッティングを効果的に軽減する。
また,本モデルでは,4つの部位(胸部,肝臓,皮膚,大腸)と7つの公開データセット(PANDA,CAMELYON16,BRACS,DigestPath,Kather,PanNuke,WSSS4LUAD)にまたがる内部データセットを含む12種類のデータセットにおいて,既存の病理組織特異的ビジョントランスフォーマよりも優れていることを示す。
特に、The Cancer Genome Atlas (TCGA)の600万の病理組織学的パッチのトレーニングデータセットであっても、我々のアプローチはパッチレベルの多数投票のパフォーマンスを平均8.5%改善している。
これらの貢献は、デジタル病理学における画像解析を強化するための堅牢な枠組みを提供し、広範囲な評価を通じて厳格に検証される。
プロジェクトページ: https://rhazeslab.github.io/pathdino-page/ This paper addresses complex challenges in histopathological image analysis through three key contributions. Firstly, it introduces a fast patch selection method, FPS, for whole-slide image (WSI) analysis, significantly reducing computational cost while maintaining accuracy. Secondly, it presents PathDino, a lightweight histopathology feature extractor with a minimal configuration of five Transformer blocks and only 9 million parameters, markedly fewer than alternatives. Thirdly, it introduces a rotation-agnostic representation learning paradigm using self-supervised learning, effectively mitigating overfitting. We also show that our compact model outperforms existing state-of-the-art histopathology-specific vision transformers on 12 diverse datasets, including both internal datasets spanning four sites (breast, liver, skin, and colorectal) and seven public datasets (PANDA, CAMELYON16, BRACS, DigestPath, Kather, PanNuke, and WSSS4LUAD). Notably, even with a training dataset of 6 million histopathology patches from The Cancer Genome Atlas (TCGA), our approach demonstrates an average 8.5% improvement in patch-level majority vote performance. These contributions provide a robust framework for enhancing image analysis in digital pathology, rigorously validated through extensive evaluation. Project Page: https://rhazeslab.github.io/PathDino-Page/ | 翻訳日:2023-11-15 12:58:59 公開日:2023-11-14 |
# Rayleigh-Schr\odinger Brillouin-Wigner の遷移エネルギーへのアプローチ A Two-Step Rayleigh-Schr\"odinger Brillouin-Wigner Approach to Transition Energies ( http://arxiv.org/abs/2311.08356v1 ) ライセンス: Link先を確認 | Loris Delafosse, Amr Hussein, Saad Yalouz, Vincent Robert | (参考訳) 摂動法は、低計算コストと体系的に即興的な性質のため、分子系の電子構造を記述するのに魅力的である。
本研究では,多状態Rayleigh-Schr\odinger(有効ハミルトン理論)と状態固有のBrillouin-Wignerスキームを組み合わせた2段階の摂動的アプローチを導入し,退化構成を扱い,複数のエネルギーを効率的に評価する。
最初のステップはモデル関数とハミルトンの摂動分割の更新された定義を生成する。
第2のステップは、第1のステップで提供される改良された開始点を継承し、各状態に対する摂動補正の処理を高速化する。
ここで提案した2段階法は、複雑性が増大するモデル-ハミルトニアン上で例示される。 Perturbative methods are attractive to describe the electronic structure of molecular systems because of their low-computational cost and systematically improvable character. In this work, a two-step perturbative approach is introduced combining multi-state Rayleigh-Schr\"odinger (effective Hamiltonian theory) and state-specific Brillouin-Wigner schemes to treat degenerate configurations and yield an efficient evaluation of multiple energies. The first step produces model functions and an updated definition of the perturbative partitioning of the Hamiltonian. The second step inherits the improved starting point provided in the first step, enabling then faster processing of the perturbative corrections for each individual state. The here-proposed two-step method is exemplified on a model-Hamiltonian of increasing complexity. | 翻訳日:2023-11-15 12:58:32 公開日:2023-11-14 |
# トポロジカルデータ解析とスライディングウィンドウ技術を用いた人工テキスト境界検出 Artificial Text Boundary Detection with Topological Data Analysis and Sliding Window Techniques ( http://arxiv.org/abs/2311.08349v1 ) ライセンス: Link先を確認 | Laida Kushnareva, Tatiana Gaintseva, German Magai, Serguei Barannikov, Dmitry Abulkhanov, Kristian Kuznetsov, Irina Piontkovskaya, Sergey Nikolenko | (参考訳) テキスト生成モデルの急速な発展により、人々は人間によって書かれたテキストから始まり、大きな言語モデルの機械生成結果として続くテキストに遭遇することが多い。
このような文章の人文と機械生成部分の境界を検出することは、文学ではあまり注目されていない非常に難しい問題である。
本研究では,この人工テキスト境界検出問題に対するいくつかの異なるアプローチを考察し,異なる性質に関するいくつかの予測器を比較した。
ロバータモデルの教師付き微調整は一般にはうまく機能するが、重要なクロスドメイン設定やクロスジェネレータ設定では一般化できず、データのスプリアス特性に過剰に適合する傾向を示す。
そこで本研究では,凍った言語モデルの組込みから抽出した特徴を基礎とした新しい手法を提案する。
さらに,境界検出タスクにパープレキシティに基づくアプローチを適用し,その動作解析を行う。
我々は、クロスドメインおよびクロスモデル設定における全ての分類器のロバスト性を解析し、人工テキスト境界検出アルゴリズムの性能に悪影響を及ぼす可能性のあるデータの重要な特性を発見する。 Due to the rapid development of text generation models, people increasingly often encounter texts that may start out as written by a human but then continue as machine-generated results of large language models. Detecting the boundary between human-written and machine-generated parts of such texts is a very challenging problem that has not received much attention in literature. In this work, we consider and compare a number of different approaches for this artificial text boundary detection problem, comparing several predictors over features of different nature. We show that supervised fine-tuning of the RoBERTa model works well for this task in general but fails to generalize in important cross-domain and cross-generator settings, demonstrating a tendency to overfit to spurious properties of the data. Then, we propose novel approaches based on features extracted from a frozen language model's embeddings that are able to outperform both the human accuracy level and previously considered baselines on the Real or Fake Text benchmark. Moreover, we adapt perplexity-based approaches for the boundary detection task and analyze their behaviour. We analyze the robustness of all proposed classifiers in cross-domain and cross-model settings, discovering important properties of the data that can negatively influence the performance of artificial text boundary detection algorithms. | 翻訳日:2023-11-15 12:58:16 公開日:2023-11-14 |
# MC^2:中国における少数言語多言語コーパス MC^2: A Multilingual Corpus of Minority Languages in China ( http://arxiv.org/abs/2311.08348v1 ) ライセンス: Link先を確認 | Chen Zhang, Mingxu Tao, Quzhe Huang, Jiuheng Lin, Zhibin Chen, Yansong Feng | (参考訳) 大規模コーパスは、大規模言語モデル(LLM)の構築において重要な役割を果たす。
しかし、既存のllmは、トレーニングデータの欠如により、中国の少数言語を含む低リソース言語を理解する能力が限られている。
これらの言語のアクセシビリティを向上させるため,中国最大のオープンソースコーパスである,マイノリティ言語多言語コーパスMC^2を提案する。
カザフ語ではチベット語、ウイグル語、カザフ語ではカザフ語、モンゴル語では伝統的なモンゴル文字である。
特に、MC^2の2つの書き込み系は、以前のコーパスで長い間無視されている。
既存の多言語コーパスにおける低リソース言語分割の深刻な汚染を識別するため,代表性と多様性を高めつつ,品質と正確性を優先してmc^2を収集する品質中心のソリューションを提案する。
詳細な分析により,mc^2がもたらした長文モデリングや書き込みシステムの多重性など,新たな研究課題を実証する。
MC^2は、中国における最下級言語の価値を高め、低リソース言語に関するさらなる研究のための信頼性のあるデータ基盤を提供することを期待している。 Large-scale corpora play a vital role in the construction of large language models (LLMs). However, existing LLMs exhibit limited abilities in understanding low-resource languages, including the minority languages in China, due to a lack of training data. To improve the accessibility of these languages, we present MC^2, a Multilingual Corpus of Minority Languages in China, which is the largest open-source corpus so far. It encompasses four underrepresented languages, i.e., Tibetan, Uyghur, Kazakh in the Kazakh Arabic script, and Mongolian in the traditional Mongolian script. Notably, two writing systems in MC^2 are long neglected in previous corpora. As we identify serious contamination in the low-resource language split in the existing multilingual corpora, we propose a quality-centric solution for collecting MC^2, prioritizing quality and accuracy while enhancing representativeness and diversity. By in-depth analysis, we demonstrate the new research challenges MC^2 brings, such as long-text modeling and multiplicity of writing systems. We hope MC^2 can help enhance the equity of the underrepresented languages in China and provide a reliable data foundation for further research on low-resource languages. | 翻訳日:2023-11-15 12:57:55 公開日:2023-11-14 |
# instant3d: インスタントテキストから3d生成 Instant3D: Instant Text-to-3D Generation ( http://arxiv.org/abs/2311.08403v1 ) ライセンス: Link先を確認 | Ming Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan, Xiangyu Xu | (参考訳) テキストプロンプトから鮮やかな3Dオブジェクトを合成することを目的としたテキストから3D生成は、コンピュータビジョンコミュニティから多くの注目を集めている。
既存のいくつかの作品がこのタスクで印象的な成果を上げているが、それらは主に時間を要する最適化パラダイムに依存している。
具体的には、各テキストプロンプトのスクラッチからニューラルネットワークを最適化し、1つのオブジェクトを生成するのに約1時間以上かかる。
この重度かつ反復的なトレーニングコストは、実践的なデプロイメントを妨げる。
本稿では,Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
トレーニングが完了すると、Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
テキストプロンプトから直接3dトライプレーンを構築する新しいネットワークを考案することで、この驚くべきスピードを実現します。
Instant3Dの中核となるイノベーションは、ネットワークにテキスト条件を効果的に注入する戦略を探ることにあります。
さらに,従来のシグモイド関数の代わりに,簡易で効果的なアクティベーション関数であるスケールドシグモイドを提案し,トレーニング収束を10倍以上に高速化する。
最後に、3次元生成におけるJanus問題に対処するため、トレーニング中のJanus問題の重大さに応じてその概念否定尺度を動的に調整し、マルチヘッド効果を効果的に低減できる適応Perp-Negアルゴリズムを提案する。
様々なベンチマークデータセットに対する大規模な実験により、提案アルゴリズムは定性的かつ定量的に最先端の手法に対して良好に動作し、効率は著しく向上した。
プロジェクトページはhttps://ming 1993li.github.io/Instant3DProjにある。 Text-to-3D generation, which aims to synthesize vivid 3D objects from text prompts, has attracted much attention from the computer vision community. While several existing works have achieved impressive results for this task, they mainly rely on a time-consuming optimization paradigm. Specifically, these methods optimize a neural field from scratch for each text prompt, taking approximately one hour or more to generate one object. This heavy and repetitive training cost impedes their practical deployment. In this paper, we propose a novel framework for fast text-to-3D generation, dubbed Instant3D. Once trained, Instant3D is able to create a 3D object for an unseen text prompt in less than one second with a single run of a feedforward network. We achieve this remarkable speed by devising a new network that directly constructs a 3D triplane from a text prompt. The core innovation of our Instant3D lies in our exploration of strategies to effectively inject text conditions into the network. Furthermore, we propose a simple yet effective activation function, the scaled-sigmoid, to replace the original sigmoid function, which speeds up the training convergence by more than ten times. Finally, to address the Janus (multi-head) problem in 3D generation, we propose an adaptive Perp-Neg algorithm that can dynamically adjust its concept negation scales according to the severity of the Janus problem during training, effectively reducing the multi-head effect. Extensive experiments on a wide variety of benchmark datasets demonstrate that the proposed algorithm performs favorably against the state-of-the-art methods both qualitatively and quantitatively, while achieving significantly better efficiency. The project page is at https://ming1993li.github.io/Instant3DProj. | 翻訳日:2023-11-15 12:51:23 公開日:2023-11-14 |
# 検索とコピー:大規模カタログへのASRパーソナライゼーションのスケーリング Retrieve and Copy: Scaling ASR Personalization to Large Catalogs ( http://arxiv.org/abs/2311.08402v1 ) ライセンス: Link先を確認 | Sai Muralidhar Jayanthi, Devang Kulshreshtha, Saket Dingliwal, Srikanth Ronanki, Sravan Bodapati | (参考訳) 音声認識モデル(ASR)のパーソナライズは,多くの実用的応用のために広く研究されているトピックである。
最近では、まれな単語やドメイン固有のエンティティの認識を改善するために、注意に基づく文脈バイアス技術が使用されている。
しかしながら、パフォーマンス上の制約のため、バイアスはしばしば数千のエンティティに制限され、実世界のユーザビリティが制限される。
そこで我々はまず,大規模カタログにスケールしても精度を保ちながらレイテンシを向上させるための"Retrieve and Copy"機構を提案する。
また,混乱するエンティティの増加に伴い,このような規模のリコールの劣化を克服するためのトレーニング戦略を提案する。
提案手法は, 単語誤り率低減(WERR)が最大6%向上し, F1の絶対値が3.6%向上した。
また,WERとF1スコアに大きな影響を及ぼすことなく,最大20Kのカタログサイズを実現し,音響フレームあたりの推論速度を20%以上向上する。 Personalization of automatic speech recognition (ASR) models is a widely studied topic because of its many practical applications. Most recently, attention-based contextual biasing techniques are used to improve the recognition of rare words and domain specific entities. However, due to performance constraints, the biasing is often limited to a few thousand entities, restricting real-world usability. To address this, we first propose a "Retrieve and Copy" mechanism to improve latency while retaining the accuracy even when scaled to a large catalog. We also propose a training strategy to overcome the degradation in recall at such scale due to an increased number of confusing entities. Overall, our approach achieves up to 6% more Word Error Rate reduction (WERR) and 3.6% absolute improvement in F1 when compared to a strong baseline. Our method also allows for large catalog sizes of up to 20K without significantly affecting WER and F1-scores, while achieving at least 20% inference speedup per acoustic frame. | 翻訳日:2023-11-15 12:50:54 公開日:2023-11-14 |
# ファクチュアリティのための微調整言語モデル Fine-tuning Language Models for Factuality ( http://arxiv.org/abs/2311.08401v1 ) ライセンス: Link先を確認 | Katherine Tian and Eric Mitchell and Huaxiu Yao and Christopher D. Manning and Chelsea Finn | (参考訳) 大規模な事前学習言語モデル(LLM)の流布と創造性は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは「幻覚」と呼ばれるような説得力のあるが事実的不正確な主張をする傾向がある。
これらの誤りは不注意に誤った情報を広めるか、有害な誤解を繰り返す。
さらに、手動によるモデル応答の事実チェックは時間を要するプロセスであり、人間の事実ラベルを取得するのにコストがかかる。
本研究では,人間のラベル付けや,過去の作業よりもオープンな生成設定を目標とせずに,より現実的な言語モデルを微調整する。
NLPにおける最近の2つの重要なイノベーションを活用しています。
まず, 外部知識ベースとの整合性や, 単に大モデルの信頼度を測ることで, オープンエンドテキストの事実性を判断する手法を提案している。
第2に、直接選好最適化アルゴリズムは、モデル応答に対する選好ランキングを用いて、教師付き模倣以外の目的に対する言語モデルの簡単な微調整を可能にする。
既存の検索システムや新たな検索自由アプローチを通じて自動生成された事実優先ランキングから学習することで,RLHFやデコード戦略と比較して,Llama-2の保持対象における事実(正当な主張の割合)を著しく改善することを示す。
Llama-2-chatと比較して, 7Bスケールでは, バイオグラフィーの生成において58%, 40%の誤り率の低下が観察された。 The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively. | 翻訳日:2023-11-15 12:50:36 公開日:2023-11-14 |
# 大規模言語モデルによるオープンエンド視覚認識に向けて Towards Open-Ended Visual Recognition with Large Language Model ( http://arxiv.org/abs/2311.08400v1 ) ライセンス: Link先を確認 | Qihang Yu, Xiaohui Shen, Liang-Chieh Chen | (参考訳) オープンエンドの物理的世界におけるオブジェクトのローカライズと認識は、マシン知覚の領域内で長年の課題となる。
最近の手法では、事前に抽出されたテキスト埋め込みを使用してオープン語彙分類器(例えばCLIP)で補完されるクラスに依存しないマスク(またはボックス)の提案モデルを用いてこの問題に対処している。
しかし、これらのオープン語彙認識モデルは、実用上はまだ限界がある。
一方で、テスト中はクラス名の提供に依存しており、ユーザによるこの事前に定義されたセマンティッククラスのセットに大きく依存している。
一方、複数のデータセットを用いたトレーニングでは、ラベル定義の衝突を軽減するために人間の介入が必要である。
本稿では、上記の課題に対する単純かつ効果的な解決法として、新しいLarge Language Model (LLM)ベースのマスク分類器であるOmniScient Model (OSM)を紹介する。
具体的には、OSMはクラスラベルを生成的に予測し、トレーニングとテストの両方でクラス名の供給を除去する。
また、人間の干渉なしにデータセット間のトレーニングを可能にし、LLMから得た世界的知識により、堅牢な一般化能力を示す。
osmを市販マスクの提案モデルと組み合わせることで,様々なベンチマークで有望な結果を示し,その新しい概念の取り扱いにおける効果を実証する。
コード/モデルはhttps://github.com/bytedance/OmniScient-Modelで入手できる。 Localizing and recognizing objects in the open-ended physical world poses a long-standing challenge within the domain of machine perception. Recent methods have endeavored to address the issue by employing a class-agnostic mask (or box) proposal model, complemented by an open-vocabulary classifier (e.g., CLIP) using pre-extracted text embeddings. However, it is worth noting that these open-vocabulary recognition models still exhibit limitations in practical applications. On one hand, they rely on the provision of class names during testing, where the recognition performance heavily depends on this predefined set of semantic classes by users. On the other hand, when training with multiple datasets, human intervention is required to alleviate the label definition conflict between them. In this paper, we introduce the OmniScient Model (OSM), a novel Large Language Model (LLM) based mask classifier, as a straightforward and effective solution to the aforementioned challenges. Specifically, OSM predicts class labels in a generative manner, thus removing the supply of class names during both training and testing. It also enables cross-dataset training without any human interference, exhibiting robust generalization capabilities due to the world knowledge acquired from the LLM. By combining OSM with an off-the-shelf mask proposal model, we present promising results on various benchmarks, and demonstrate its effectiveness in handling novel concepts. Code/model are available at https://github.com/bytedance/OmniScient-Model. | 翻訳日:2023-11-15 12:50:06 公開日:2023-11-14 |
# 大規模言語モデルは時折基盤化されているか? Are Large Language Models Temporally Grounded? ( http://arxiv.org/abs/2311.08398v1 ) ライセンス: Link先を確認 | Yifu Qiu, Zheng Zhao, Yftah Ziser, Anna Korhonen, Edoardo M. Ponti, Shay B. Cohen | (参考訳) 大規模言語モデル(LLM)は一時的基盤化されているか?
LLMは環境を知覚し、相互作用することができないため、この質問に答えることは不可能である。
代わりに、LLMに文章による物語を提供し、イベントの構造と期間に関する常識的な知識、タイムラインに沿ったイベントを順序付けする能力、時間モデル内での自己整合性(例えば、後と前のような時間的関係は、イベントのペアに対して相互に排他的である)について調査する。
LLaMA 2 や GPT-4 のような最先端の LLM を3つの課題で評価した。
一般に,LLMは人為的性能と小型の特殊なLMよりもかなり遅れていることがわかった。
文脈内での学習、命令のチューニング、思考の連鎖は、このギャップを限られた程度に減らす。
重要な点として、llmは、少なくとも27.23%の予測で一貫性のない行動を示す自己一貫性に最も苦しむ。
期待とは対照的に、モデルのサイズを拡大しても、パフォーマンスのプラスの利益は保証されない。
これらの結果を説明するために,LLMが時間的情報を集めることができる資料について検討した。
さらに、公開命令チューニング混合物は、時間的タスクをほとんど含まない。
したがって,現在のLLMにはテキスト物語の時間的モデルがない。
コード、データセット、LLM出力はhttps://github.com/yfqiu-nlp/temporal-llmsで入手できる。 Are Large language models (LLMs) temporally grounded? Since LLMs cannot perceive and interact with the environment, it is impossible to answer this question directly. Instead, we provide LLMs with textual narratives and probe them with respect to their common-sense knowledge of the structure and duration of events, their ability to order events along a timeline, and self-consistency within their temporal model (e.g., temporal relations such as after and before are mutually exclusive for any pair of events). We evaluate state-of-the-art LLMs (such as LLaMA 2 and GPT-4) on three tasks reflecting these abilities. Generally, we find that LLMs lag significantly behind both human performance as well as small-scale, specialised LMs. In-context learning, instruction tuning, and chain-of-thought prompting reduce this gap only to a limited degree. Crucially, LLMs struggle the most with self-consistency, displaying incoherent behaviour in at least 27.23% of their predictions. Contrary to expectations, we also find that scaling the model size does not guarantee positive gains in performance. To explain these results, we study the sources from which LLMs may gather temporal information: we find that sentence ordering in unlabelled texts, available during pre-training, is only weakly correlated with event ordering. Moreover, public instruction tuning mixtures contain few temporal tasks. Hence, we conclude that current LLMs lack a consistent temporal model of textual narratives. Code, datasets, and LLM outputs are available at https://github.com/yfqiu-nlp/temporal-llms. | 翻訳日:2023-11-15 12:49:40 公開日:2023-11-14 |
# 音声言語モデル指導と音声コンテキストキーワードを用いたゼロショット音声キャプション Zero-shot audio captioning with audio-language model guidance and audio context keywords ( http://arxiv.org/abs/2311.08396v1 ) ライセンス: Link先を確認 | Leonard Salewski, Stefan Fauth, A. Sophia Koepke, Zeynep Akata | (参考訳) ゼロショット音声キャプションは、このタスクの事前訓練なしに、音声コンテンツの記述文キャプションを自動的に生成することを目的としている。
音声言語を含む音声コンテンツをテキストに変換する音声認識とは異なり、音声キャプションは、行動を行う人間が発する周囲の音や音に一般的に関係している。
ゼロショット画像キャプション方式に着想を得たZerAuCapは,タスク固有の訓練を必要とせず,テキストキャプション内でそのような一般的な音声信号を要約する新しいフレームワークである。
特に,事前学習された音声言語モデルによって導かれたテキストを生成するために,事前学習された大言語モデル(llm)を活用し,音声コンテンツを記述するキャプションを生成する。
さらに,音声に関係のあるテキストを生成するために,音声コンテキストキーワードを用いて言語モデルに促す。
提案フレームワークは,オーディオキャップと布地データセットのゼロショット音声キャプションによる最先端の音声キャプションを実現する。
私たちのコードはhttps://github.com/ExplainableML/ZerAuCapで利用可能です。 Zero-shot audio captioning aims at automatically generating descriptive textual captions for audio content without prior training for this task. Different from speech recognition which translates audio content that contains spoken language into text, audio captioning is commonly concerned with ambient sounds, or sounds produced by a human performing an action. Inspired by zero-shot image captioning methods, we propose ZerAuCap, a novel framework for summarising such general audio signals in a text caption without requiring task-specific training. In particular, our framework exploits a pre-trained large language model (LLM) for generating the text which is guided by a pre-trained audio-language model to produce captions that describe the audio content. Additionally, we use audio context keywords that prompt the language model to generate text that is broadly relevant to sounds. Our proposed framework achieves state-of-the-art results in zero-shot audio captioning on the AudioCaps and Clotho datasets. Our code is available at https://github.com/ExplainableML/ZerAuCap. | 翻訳日:2023-11-15 12:49:09 公開日:2023-11-14 |
# MVSA-Net:ロバストかつ展開可能な軌道生成のための多視点状態認識 MVSA-Net: Multi-View State-Action Recognition for Robust and Deployable Trajectory Generation ( http://arxiv.org/abs/2311.08393v1 ) ライセンス: Link先を確認 | Ehsan Asali, Prashant Doshi, Jin Sun | (参考訳) learn-from-observation(lfo)パラダイムは、ロボットが単に実行されているのを見てタスクを実行することを学ぶための人間にインスパイアされたモードである。
LfOは、破壊を最小限に抑え、退屈なプログラミングを減らすことで、工場のフロアでのロボット統合を容易にする。
LfOパイプラインのキーコンポーネントは、深度カメラフレームを対応するタスク状態とアクションペアに変換し、模倣や逆強化学習などの学習技術に中継してタスクパラメータを理解することである。
いくつかの既存のコンピュータビジョンモデルは、活動認識のためにビデオを分析するが、SA-Netは特にRGB-DデータからロボットLfOをターゲットにしている。
しかし、SA-Netや他の多くのモデルでは、単一の視点から取得したフレームデータを分析している。
したがって、それらの分析は、頻繁に展開される観察されたタスクのオクルージョンに非常に敏感である。
閉塞を減らす明確な方法は、タスクを複数の視点から同時に観察し、モデル内の複数のストリームを同期的に融合させることである。
そこで本研究では,タスクアクティビティの複数の視点を認識できるようにSA-Netモデルを一般化し,それらを統合し,各フレームの状態や動作をよりよく認識する多視点SA-Netを提案する。
2つの異なるドメインのパフォーマンス評価では、MVSA-Netは単一ビューのMVSA-Netや他のベースラインに比べて、より正確に状態-作用対を認識する。
アブレーション研究は, 異なる環境条件下での性能をさらに評価し, アーキテクチャコンポーネントの寄与性を確立する。
そのため、MVSA-Netは従来の方法に比べてはるかに堅牢で、デプロイ可能な状態-作用軌道生成を提供する。 The learn-from-observation (LfO) paradigm is a human-inspired mode for a robot to learn to perform a task simply by watching it being performed. LfO can facilitate robot integration on factory floors by minimizing disruption and reducing tedious programming. A key component of the LfO pipeline is a transformation of the depth camera frames to the corresponding task state and action pairs, which are then relayed to learning techniques such as imitation or inverse reinforcement learning for understanding the task parameters. While several existing computer vision models analyze videos for activity recognition, SA-Net specifically targets robotic LfO from RGB-D data. However, SA-Net and many other models analyze frame data captured from a single viewpoint. Their analysis is therefore highly sensitive to occlusions of the observed task, which are frequent in deployments. An obvious way of reducing occlusions is to simultaneously observe the task from multiple viewpoints and synchronously fuse the multiple streams in the model. Toward this, we present multi-view SA-Net, which generalizes the SA-Net model to allow the perception of multiple viewpoints of the task activity, integrate them, and better recognize the state and action in each frame. Performance evaluations on two distinct domains establish that MVSA-Net recognizes the state-action pairs under occlusion more accurately compared to single-view MVSA-Net and other baselines. Our ablation studies further evaluate its performance under different ambient conditions and establish the contribution of the architecture components. As such, MVSA-Net offers a significantly more robust and deployable state-action trajectory generation compared to previous methods. | 翻訳日:2023-11-15 12:48:50 公開日:2023-11-14 |
# NLPのコロニー性に関する材料レンズ A Material Lens on Coloniality in NLP ( http://arxiv.org/abs/2311.08391v1 ) ライセンス: Link先を確認 | William Held, Camille Harris, Michael Best, Diyi Yang | (参考訳) 植民地性は「公式」植民地化を超えて植民地的被害を継続し、社会や科学分野に広範に影響を与えている。
自然言語処理(NLP)はこの広範な現象の例外ではない。
本研究では、NLPデータ、アルゴリズム、ソフトウェアに植民地性が暗黙的に埋め込まれ、増幅されていることを論じる。
アクターネットワーク理論(ANT:Actor-Network Theory)を用いてこの分析を形式化する。
我々は,NLP研究の異なる段階の地理を定量的に調査するためにアクター・ネットワークを使用し,NLP自体が構築されるにつれて,植民地境界に沿った不平等が増大することを示す。
これを踏まえて,nlpにおける植民地性への対処には,現在の価値観を変えるだけでなく,基礎データやアルゴリズムにおける植民地性イデアルの蓄積を取り除くための活動的な作業が必要であると論じた。 Coloniality, the continuation of colonial harms beyond "official" colonization, has pervasive effects across society and scientific fields. Natural Language Processing (NLP) is no exception to this broad phenomenon. In this work, we argue that coloniality is implicitly embedded in and amplified by NLP data, algorithms, and software. We formalize this analysis using Actor-Network Theory (ANT): an approach to understanding social phenomena through the network of relationships between human stakeholders and technology. We use our Actor-Network to guide a quantitative survey of the geography of different phases of NLP research, providing evidence that inequality along colonial boundaries increases as NLP builds on itself. Based on this, we argue that combating coloniality in NLP requires not only changing current values but also active work to remove the accumulation of colonial ideals in our foundational data and algorithms. | 翻訳日:2023-11-15 12:48:25 公開日:2023-11-14 |
# 何について?
構造化比較推論によるテキスト選好予測 On What Basis? Predicting Text Preference Via Structured Comparative Reasoning ( http://arxiv.org/abs/2311.08390v1 ) ライセンス: Link先を確認 | Jing Nathan Yan, Tianqi Liu, Justin T Chiu, Jiaming Shen, Zhen Qin, Yue Yu, Yao Zhao, Charu Lakshmanan, Yair Kurzion, Alexander M. Rush, Jialu Liu, Michael Bendersky | (参考訳) 比較推論はテキスト選好予測において重要な役割を果たすが、大言語モデル(llm)はしばしばその推論における矛盾を示す。
chain-of-thoughtのようなアプローチは、他の多くの設定で精度を向上させるが、複雑なテキストの類似性と相違を一貫して区別するのに苦労している。
構造的な中間比較を生成してテキストの好みを予測するプロンプト手法であるscを紹介する。
scは、比較の側面の提案から始まり、その後各アスペクトでテキストの比較を生成する。
テキスト間の差異を明確に区別し、幻覚を著しく低減し、一貫性を向上させるために、ペアワイズ整合コンパレータと一貫した比較を選択する。
要約,検索,自動評価など多種多様なNLPタスクに対する総合的な評価は,SCがテキスト優先予測における最先端性能を達成するためにLLMを装備していることを示す。 Comparative reasoning plays a crucial role in text preference prediction; however, large language models (LLMs) often demonstrate inconsistencies in their reasoning. While approaches like Chain-of-Thought improve accuracy in many other settings, they struggle to consistently distinguish the similarities and differences of complex texts. We introduce SC, a prompting approach that predicts text preferences by generating structured intermediate comparisons. SC begins by proposing aspects of comparison, followed by generating textual comparisons under each aspect. We select consistent comparisons with a pairwise consistency comparator that ensures each aspect's comparisons clearly distinguish differences between texts, significantly reducing hallucination and improving consistency. Our comprehensive evaluations across various NLP tasks, including summarization, retrieval, and automatic rating, demonstrate that SC equips LLMs to achieve state-of-the-art performance in text preference prediction. | 翻訳日:2023-11-15 12:48:08 公開日:2023-11-14 |
# テキスト音声スタイル変換のためのベンチマークと評価モデルTSST TSST: A Benchmark and Evaluation Models for Text Speech-Style Transfer ( http://arxiv.org/abs/2311.08389v1 ) ライセンス: Link先を確認 | Huashan Sun, Yixiao Wu, Yinghao Li, Jiawei Li, Yizhe Yang, Yang Gao | (参考訳) テキストスタイルは、話者の特徴、習慣、論理的思考、それらが表現する内容の様々な側面を含むため、非常に抽象的なものである。
しかし、従来のテキストスタイルの転送タスクは、言語学と認知科学の観点からの詳細な分析と研究を欠いた、主にデータ駆動型アプローチに焦点が当てられている。
本稿では,テキスト音声スタイル転送(TSST)と呼ばれる新しいタスクを紹介する。
主な目的は、既存のLLMの能力に基づいて、人格や感情といった人間の認知に関する話題をさらに探求することである。
実生活シナリオにおけるタスクの目的と口頭発話の特徴を考慮し,TSSTの多次元評価モデル(充足語,鮮明度,対話性,感情性)を訓練し,人間の評価との相関性を検証した。
いくつかの大規模言語モデル(LLM)の性能を徹底的に分析し、さらなる改善が必要な領域を特定する。
さらに,評価モデルにより,LLMが音声の特徴を持つテキストを生成する能力を向上させるコーパスを新たにリリースした。
要約すると、TSSTタスクは、スタイル伝達のための新しいベンチマークであり、人間指向の評価を強調し、現在のLLMの性能を探求し、進歩させる。 Text style is highly abstract, as it encompasses various aspects of a speaker's characteristics, habits, logical thinking, and the content they express. However, previous text-style transfer tasks have primarily focused on data-driven approaches, lacking in-depth analysis and research from the perspectives of linguistics and cognitive science. In this paper, we introduce a novel task called Text Speech-Style Transfer (TSST). The main objective is to further explore topics related to human cognition, such as personality and emotion, based on the capabilities of existing LLMs. Considering the objective of our task and the distinctive characteristics of oral speech in real-life scenarios, we trained multi-dimension (i.e. filler words, vividness, interactivity, emotionality) evaluation models for the TSST and validated their correlation with human assessments. We thoroughly analyze the performance of several large language models (LLMs) and identify areas where further improvement is needed. Moreover, driven by our evaluation models, we have released a new corpus that improves the capabilities of LLMs in generating text with speech-style characteristics. In summary, we present the TSST task, a new benchmark for style transfer and emphasizing human-oriented evaluation, exploring and advancing the performance of current LLMs. | 翻訳日:2023-11-15 12:47:53 公開日:2023-11-14 |
# 合唱団:意見の連鎖による人間の意見の特徴づけと予測 ChOiRe: Characterizing and Predicting Human Opinions with Chain of Opinion Reasoning ( http://arxiv.org/abs/2311.08385v1 ) ライセンス: Link先を確認 | Xuan Long Do, Kenji Kawaguchi, Min Yen Kan, Nancy F. Chen | (参考訳) 人間の意見による言語モデル(LM)の調整は、人間の価値観、嗜好、信念の把握を高めるために不可欠である。
筆者らは, ユーザの明示的な人格(人口的・イデオロギー的属性)と, ユーザの歴史的意見から推測される暗黙的な人格とを区別した, 人間の意見を予測する4段階の枠組みであるChOiReを提案する。
具体的には
(i)ユーザの明示的な人格を分析し、無関係な属性をフィルターするlm
二 暗黙のペルソナの意見を優先リストにランク付けすること。
(iii)チェーン・オブ・オピニオン(coo)の推論。lmは、明示的な人格及び最も関連する暗黙の人格を順次分析し、意見の予測を行う。
(iv)ChOiReがStepを実行する場所
(iii) 人格情報の不足を克服して最終結果を推測するために、暗黙の人格の一覧をますます大きくして何度もcooする。
ChOiReは、限られた推論呼び出しで新しい最先端の有効性を実現し、従来のLCMベースの技術を3.22%大幅に改善した。 Aligning language models (LMs) with human opinion is challenging yet vital to enhance their grasp of human values, preferences, and beliefs. We present ChOiRe, a four-step solution framework to predict human opinion that differentiates between the user explicit personae (i.e. demographic or ideological attributes) that are manually declared and implicit personae inferred from user historical opinions. Specifically, it consists of (i) an LM analyzing the user explicit personae to filter out irrelevant attributes; (ii) the LM ranking the implicit persona opinions into a preferential list; (iii) Chain-of-Opinion (CoO) reasoning, where the LM sequentially analyzes the explicit personae and the most relevant implicit personae to perform opinion prediction; (iv) and where ChOiRe executes Step (iii) CoO multiple times with increasingly larger lists of implicit personae to overcome insufficient personae information to infer a final result. ChOiRe achieves new state-of-the-art effectiveness with limited inference calls, improving previous LLM-based techniques significantly by 3.22%. | 翻訳日:2023-11-15 12:47:31 公開日:2023-11-14 |
# 長期保証付きオフラインデータ強化オン・ポリシーグラディエント Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees ( http://arxiv.org/abs/2311.08384v1 ) ライセンス: Link先を確認 | Yifei Zhou, Ayush Sekhari, Yuda Song, Wen Sun | (参考訳) Hybrid RLは、RLエージェントが実環境と対話することでオフラインデータとオンラインデータの両方にアクセスする環境である。
本研究では,オンラインアクター批判手法とオフラインデータを組み合わせたハイブリッドRLアルゴリズムを提案する。
政策勾配や自然政策勾配(英語版)(npg)のようなオンポリシーの手法は、誤特定をモデル化するのにより堅牢であることが示されているが、時にはオフポリシー学習に依存する手法ほどサンプル効率が良くない場合もある。
一方、非政治的な訓練に依存するオフラインの手法は理論上強い仮定を必要とすることが多く、実際は訓練の安定性が低い。
新たなアプローチでは,オフラインデータに対するオフポリシートレーニングの手順をオンポリシーnpgフレームワークに統合する。
提案手法は, 理論上は, オフラインな RL 固有の仮定が成立すると, オフラインな RL の理論的保証が得られると同時に, オフラインな RL の仮定の妥当性に関わらず, オンラインな NPG の理論的保証を維持できることを示す。
実験により, リッチ・オブザーバリング環境において, 本手法は, 政策最適化にのみ依存する最先端のハイブリッドRLベースラインよりも優れており, オン・ポリティクスとオフ・ポリティクス・ラーニングを組み合わせた経験的メリットを示す。
私たちのコードはhttps://github.com/yifeizhou02/hnpgで公開しています。 Hybrid RL is the setting where an RL agent has access to both offline data and online data by interacting with the real-world environment. In this work, we propose a new hybrid RL algorithm that combines an on-policy actor-critic method with offline data. On-policy methods such as policy gradient and natural policy gradient (NPG) have shown to be more robust to model misspecification, though sometimes it may not be as sample efficient as methods that rely on off-policy learning. On the other hand, offline methods that depend on off-policy training often require strong assumptions in theory and are less stable to train in practice. Our new approach integrates a procedure of off-policy training on the offline data into an on-policy NPG framework. We show that our approach, in theory, can obtain a best-of-both-worlds type of result -- it achieves the state-of-art theoretical guarantees of offline RL when offline RL-specific assumptions hold, while at the same time maintaining the theoretical guarantees of on-policy NPG regardless of the offline RL assumptions' validity. Experimentally, in challenging rich-observation environments, we show that our approach outperforms a state-of-the-art hybrid RL baseline which only relies on off-policy policy optimization, demonstrating the empirical benefit of combining on-policy and off-policy learning. Our code is publicly available at https://github.com/YifeiZhou02/HNPG. | 翻訳日:2023-11-15 12:46:47 公開日:2023-11-14 |
# 超低温分子のレーザ冷却方式の自動検出 Automated detection of laser cooling schemes for ultracold molecules ( http://arxiv.org/abs/2311.08381v1 ) ライセンス: Link先を確認 | Anna Dawid, Niccol\`o Bigagli, Daniel W. Savin, Sebastian Will | (参考訳) 超低温科学において要求されるフロンティアの1つは、内部状態のスペクトルから複雑な原子や分子のレーザー冷却スキームを特定することである。
基礎物理学, 化学, 天文学, 量子シミュレーションへの応用のために利用可能な超低温分子の集合を拡張する必要性から, 実現可能なレーザー冷却スキームのためのグラフベースの自動探索手法を提案し, 実証する。
この手法は時間効率が良く,これまでの手作業による検索の結果を大きく上回っている。
C$_2$, OH$^+$, CN, YO, CO$_2$に対する新しいレーザー冷却スキームを発見し, 前述したレーザ冷却スキームと比較して, 驚きあるいは直感的と見なすことができる。
さらに、この研究の中心的な洞察は、量子状態の再解釈とそれらの間の遷移が、複雑な量子系に対する新しい量子制御スキームを特定する能力を劇的に向上させることができるということである。
したがって、このアプローチは複雑な原子にも適用でき、実際、内部状態の離散スペクトルを持つ任意の複素多体量子系にも適用できる。 One of the demanding frontiers in ultracold science is identifying laser cooling schemes for complex atoms and molecules, out of their vast spectra of internal states. Motivated by a need to expand the set of available ultracold molecules for applications in fundamental physics, chemistry, astrochemistry, and quantum simulation, we propose and demonstrate an automated graph-based search approach for viable laser cooling schemes. The method is time efficient and the outcomes greatly surpass the results of manual searches used so far. We discover new laser cooling schemes for C$_2$, OH$^+$, CN, YO, and CO$_2$ that can be viewed as surprising or counterintuitive compared to previously identified laser cooling schemes. In addition, a central insight of this work is that the reinterpretation of quantum states and transitions between them as a graph can dramatically enhance our ability to identify new quantum control schemes for complex quantum systems. As such, this approach will also be applicable to complex atoms and, in fact, any complex many-body quantum system with a discrete spectrum of internal states. | 翻訳日:2023-11-15 12:45:43 公開日:2023-11-14 |
# 最小ベイズリスク復号を用いたニューラルマシン翻訳の直接選好最適化 Direct Preference Optimization for Neural Machine Translation with Minimum Bayes Risk Decoding ( http://arxiv.org/abs/2311.08380v1 ) ライセンス: Link先を確認 | Guangyu Yang, Jinghong Chen, Weizhe Lin, Bill Byrne | (参考訳) 最小ベイズリスク(MBR)復号化は多言語大言語モデル(MLLM)の翻訳性能を大幅に向上させる。
しかし、mbr復号化は計算量的に高価であり、本稿では、最近開発された強化学習(rl)手法であるdirect preference optimization(dpo)を用いて、mbrから得られる利益を推論の余分な計算なしで得ることができることを示す。
本モデルでは, 優先最適化のない基本MLLMと比較して, 複数のNMTテストセットの性能が大幅に向上した。
本手法は,MLLMの翻訳性能を比較的小さいモノリンガル微調整セットを用いて向上させる。 Minimum Bayes Risk (MBR) decoding can significantly improve translation performance of Multilingual Large Language Models (MLLMs). However, MBR decoding is computationally expensive and in this paper, we show how recently developed Reinforcement Learning (RL) technique, Direct Preference Optimization (DPO) can be used to fine-tune MLLMs so that we get the gains from MBR without the additional computation in inference. Our fine-tuned models have significantly improved performance on multiple NMT test sets compared to base MLLMs without preference optimization. Our method boosts the translation performance of MLLMs using relatively small monolingual fine-tuning sets. | 翻訳日:2023-11-15 12:45:21 公開日:2023-11-14 |
# Scheming AIs: AIは、パワーを得るためにトレーニング中に偽のアライメントを行うか? Scheming AIs: Will AIs fake alignment during training in order to get power? ( http://arxiv.org/abs/2311.08379v1 ) ライセンス: Link先を確認 | Joe Carlsmith | (参考訳) このレポートは、トレーニングでうまく機能する先進的なAIが、後にパワーを得るためにそうするかどうかを調査する。
スケジューリングは、ベースライン機械学習手法を使用して、計画に十分洗練された目標指向のAIを訓練する、という、厄介なほど確実な結果である、と私は結論付けます(これらの条件からすると、私の主観的な確率は約25%)。
特に、トレーニングでうまくパフォーマンスを発揮すれば、(おそらくはそうであると思いますが)力を得るための優れた戦略であるならば、非常に幅広い目標が計画の動機となり、それゆえ、優れたトレーニングパフォーマンスが得られます。
これにより、トレーニングが自然にそのような目標に当てはまり、それを補強するか、あるいはパフォーマンスを改善するための簡単な方法として、モデルのモチベーションを積極的に目標に向けて押し上げることができる。
さらに、計画者はモチベーションを明らかにするために設計されたテストに一致しているふりをしているので、これが起こっているかどうかを判断するのは非常に難しいかもしれません。
しかし、快適な理由もあると思います。
トレーニングにおける様々な選択プレッシャーは、スキーマーのような目標(例えば、非スキーマーに対して、スキーマーは余分な道具的推論を行う必要があり、トレーニングパフォーマンスに悪影響を与える可能性がある)に対して作用しうるし、故意にそのようなプレッシャーを増大させることができる。
本報告では,これらと,他の様々な考察を詳細に論じ,さらに議論を進めるための実証研究の方向性を提示する。 This report examines whether advanced AIs that perform well in training will be doing so in order to gain power later -- a behavior I call "scheming" (also sometimes called "deceptive alignment"). I conclude that scheming is a disturbingly plausible outcome of using baseline machine learning methods to train goal-directed AIs sophisticated enough to scheme (my subjective probability on such an outcome, given these conditions, is roughly 25%). In particular: if performing well in training is a good strategy for gaining power (as I think it might well be), then a very wide variety of goals would motivate scheming -- and hence, good training performance. This makes it plausible that training might either land on such a goal naturally and then reinforce it, or actively push a model's motivations towards such a goal as an easy way of improving performance. What's more, because schemers pretend to be aligned on tests designed to reveal their motivations, it may be quite difficult to tell whether this has occurred. However, I also think there are reasons for comfort. In particular: scheming may not actually be such a good strategy for gaining power; various selection pressures in training might work against schemer-like goals (for example, relative to non-schemers, schemers need to engage in extra instrumental reasoning, which might harm their training performance); and we may be able to increase such pressures intentionally. The report discusses these and a wide variety of other considerations in detail, and it suggests an array of empirical research directions for probing the topic further. | 翻訳日:2023-11-15 12:45:10 公開日:2023-11-14 |